CN103956162B - 针对儿童的语音识别方法及装置 - Google Patents

针对儿童的语音识别方法及装置 Download PDF

Info

Publication number
CN103956162B
CN103956162B CN201410145971.5A CN201410145971A CN103956162B CN 103956162 B CN103956162 B CN 103956162B CN 201410145971 A CN201410145971 A CN 201410145971A CN 103956162 B CN103956162 B CN 103956162B
Authority
CN
China
Prior art keywords
model
acoustic
text
corpus
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410145971.5A
Other languages
English (en)
Other versions
CN103956162A (zh
Inventor
张峰
赖伟
吴义坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410145971.5A priority Critical patent/CN103956162B/zh
Publication of CN103956162A publication Critical patent/CN103956162A/zh
Application granted granted Critical
Publication of CN103956162B publication Critical patent/CN103956162B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种针对儿童的语音识别方法及装置。其中,该方法包括:建立声学模型和语言模型;接收所述儿童的语音信号,并对所述语音信号进行前端处理;获取语音信号的声学特征;通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;对所述识别文本进行语义理解处理,以获得语义理解结果;其中所述建立声学模型包括:对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术。通过本发明的语音识别方法,能够根据儿童声道短、发音速度变化大、无意义助声词较多等发音特点更有效地解析儿童的语言指令,大幅度提高儿童语音识别率。

Description

针对儿童的语音识别方法及装置
技术领域
本发明涉及语音识别领域,特别是涉及一种针对儿童的语音识别方法及装置。
背景技术
随着智能移动终端技术和语音交互技术高速发展,以及语音交互技术在智能移动终端的广泛应用,使得智能移动终端具备语音交互功能。通常的语音交互技术中,由于受到采集难易程度和采集成本等不同因素影响,使得已知语料库中是以采集较为方便的成人语料为主,儿童语料占据比例小。但是,与成年人相比,儿童的发音有着声道长度短、发音速度变化大以及无意义语气词较多等特点,因此,采用上述已知语料库的语音识别系统对儿童语音的针对性不足,对成年人的语音进行语音识别处理的准确度要高于儿童的。
发明内容
本发明的一个目的是要提供一种至少部分地解决上述问题的针对儿童的语音识别方法以及相应的装置。
特别地,本发明提供了一种针对儿童的语音识别方法,包括:通过已知的语音语料库和文本语料库分别建立声学模型和语言模型;接收所述儿童的语音信号,并对所述语音信号进行前端处理;对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征;通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;对所述识别文本进行语义理解处理,以获得语义理解结果;其中所述通过已知的语音语料库建立声学模型包括:对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征;根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
进一步地,所述建立声学模型步骤中,根据所述全部语音语料的声学特征进行建模包括:通过隐马尔科夫模型对所述全部语音语料的声学特征进行建模,以获得所述声学模型。
进一步地,根据所述全部语音语料的声学特征进行建模,以获得所述声学模型包括:对所述全部语音语料的声学特征进行建模,生成第一声学模型AM1;提取所述语音语料库中女性语音语料的声学特征,以所述AM1作为初始模型,对所述女性语音语料的声学特征进行建模,生成第二声学模型AM2;提取所述语音语料库中儿童语音语料的声学特征,以所述AM2作为初始模型,对所述儿童语音语料的声学特征进行建模,生成第三声学模型AM3,并确认所述AM3为所述声学模型。
进一步地,所述通过已知的语音语料库建立声学模型时,还包括:为儿童语音中的静音建立静音模型,并将所述静音模型加入所述声学模型,以识别儿童语音中的静音。
进一步地,所述通过已知的语音语料库建立声学模型时,还包括:为儿童语音中的语气词建立语气词模型,并将所述语气词模型加入所述声学模型,以识别所述儿童语音中的语气词。
进一步地,为多个语气词建立一个语气词模型,和/或,为每个语气词建立一个语气词模型。
进一步地,所述通过已知的文本语料库建立语言模型包括:抽取所述文本语料库中的10%至30%的文本语料作为待变形文本语料;对所述待变形文本语料进行变形处理,以获得变形文本语料;将所述变形文本语料与所述文本语料库中未被抽取的文本语料进行合并,以获得混合文本语料库;对所述混合文本语料库进行建模,以获得所述语言模型;其中对所述待变形文本语料进行变形处理包括;对所述待变形文本语料中所有的语句进行分词处理;在经过所述分词处理的所述待变形文本语料中,随机选择至少一个词进行重复处理,以获得所述变形文本语料。
进一步地,随机选择至少一个词进行重复处理,包括以下至少之一:随机选择至少一个词进行词重复处理;随机选择至少一个词进行词尾重复处理;随机选择至少一个词进行助声词增多处理,其中,所述助声词增多处理包括在所述待变形文本语料中,随机在两个词之间增加至少一个语气词。
进一步地,对所述识别文本进行语义理解处理包括如下步骤中的至少一个:通过对所述识别文本进行常规词语法分析,去除所述识别文本中连续出现重复的词,以获得所述语义理解结果;通过对所述识别文本进行常规词语法分析,去除所述识别文本中词尾重复的叠词,以获得所述语义理解结果;通过对所述识别文本进行常规词语法分析和句法分析,去除所述识别文本中词与词之间多余的语气词,以获得所述语义理解结果。
依据本发明的另一方面,还提供了一种针对儿童的语音识别装置,包括:模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型;接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理;特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征;识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中所述模型建立模块还配置为通过以下步骤建立声学模型:对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征;根据所述全部语音语料的声学特征进行建模,以获得所述声学模型。
本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。
综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。附图中:
图1示出了根据本发明一个实施例的针对儿童的语音识别方法的流程图;
图2示出了根据本发明一个实施例的声学模型建立的流程图;
图3示出了根据本发明另一个实施例的声学模型建立的流程图;
图4示出了根据本发明一个实施例的语言模型建立的流程图;以及
图5示出了根据本发明一个实施例的针对儿童的语音识别装置的结构示意图。
具体实施方式
图1示出了根据本发明一个实施例的针对儿童的语音识别方法的处理流程图。参见图1,本发明实施例的语音识别方法至少包括通过现有语音识别系统进行语音识别的步骤S101至步骤S105。
在步骤S101中,通过已知的语音语料库和文本语料库分别建立声学模型和语言模型。其中,语音语料库和文本语料库可以采用已有的适合的语音语料库和文本语料库,并且语音语料库和文本语料库中均是成人的数据量远大于儿童的数据量。
在步骤S102中,接收来自儿童的语音信号,并对该语音信号进行前端处理,通常的前端处理可以包括例如去除噪音等。
在步骤S103中,对经过前端处理的语音信号进行特征提取处理,以获取语音信号的声学特征。
在步骤S104中,通过步骤S101中建立的声学模型和语言模型对语音信号的声学特征进行解码搜索,以获得识别文本。
在步骤S105中,对识别文本进行语义理解处理,以获得语义理解结果。
本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。
在通过语音系统进行语音识别时,对于一个通用的非特定人的语音识别系统而言,语音信号首先被输入特征提取以及特征处理模块,得到语音信号的声学特征。之后,使用数学模型对大量语音特征的发音统计特点和大量发音文本的统计特点分别进行描述。其中,使用数学模型对大量语音特征的发音统计特点进行描述称为声学模型,使用数学模型对大量发音文本的统计特点进行描述称为语言模型。
上文提及,本发明实施例中,在对接收到的语音信号进行前端处理以及特征提取处理之后,获取接收到的儿童的语音信号对应的声学特征,通过将声学模型和语言模型对儿童的语音信号的声学特征进行解码搜索,获得识别文本。因此,本发明实施例中,获取准确的、与儿童语音信号对应的识别文本的重要步骤为建立正确、识别率高的声学模型和语言模型。
现分别对本发明实施例中建立声学模型的过程以及建立语言模型的过程进行介绍。
图2示出了根据本发明一个实施例的声学模型建立的处理流程图流程图。参见图2,该过程至少包括步骤S201至步骤S202。
在步骤S201中,对语音语料库中的全部语音语料进行特征提取处理。例如,对语音语料中的全部语音语料进行梅尔域倒普系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的提取。其中,语音语料库中的全部语音语料包括成人的语音语料以及儿童的语音语料。在对全部语音语料进行特征提取时,在处理过程中加入声道长度归一化(VocalTract Length Normalization,VTLN)技术。声道长度归一化技术是语音识别的经典算法,通过该技术能够对语音信号的频谱进行调整,进而修正声道长度,以避免声道长度不同带来的特征差异,进而能够避免后续操作中对儿童语音的识别过程造成不良影响。在对非特定人进行语音识别的过程中,不同的人的语音信号之间的差异主要是声道形状,尤其是声道长度。例如,成年男性的语音信号的声道长度平均值为18厘米,成年女性的语音信号的声道长度平均值为13厘米,而8岁儿童的语音信号的声道长度平均值为10厘米。现有技术中,训练声学模型的语音语料以成人的语音语料为主,这种儿童语音语料的缺乏导致,在使用该种语音语料训练得到的声学模型对儿童的语音信号进行识别时,识别率将会下降,无法保证识别的准确性。为解决儿童与成人声道差异导致的发音变化问题,在对语音提取特征时,采用VTLN技术,通过对声道长度的修整来调节儿童语音的特征,使得儿童的语音信号更容易被识别。
对语音语料进行特征提取之后,执行步骤S202。在步骤S202中,根据全部语音语料的声学特征进行建模,以获得声学模型。为获得能够对声道比成人声道短的儿童语音信息进行准确识别的声学模型,优选地,本发明实施例中,通过隐马尔科夫(Hidden MarkovModel,以下简称HMM)模型对全部语音语料的声学特征进行建模。需要说明的是,在其他备选实施例中,还可以采用其他适合的模型进行建模,本发明对此并不加以限定。
上文介绍了本发明实施例中建立声学模型的处理流程,由于实际操作中,成人的训练语料较易收集,而儿童的训练语料收集复杂,并且收集的成本较高,因此,通常建立的声学模型在对儿童的语音信息进行识别时,容易导致针对性不足、识别率不高的问题。为优化本发明实施例中建立声学模型的处理流程,进一步提高使用本发明实施例对儿童语音信息的识别率,在上文提供的建立声学模型的基础上,本发明实施例还提供另一个声学模型的建立流程。图3示出了根据本发明另一个实施例的声学模型建立的流程图。如图3所示,该声学模型建立流程至少包括步骤S301至S303。
在步骤S301中,通过HMM模型对全部语音语料的声学特征进行建模,生成第一声学模型AM1。
在步骤S302中,由于成年人男性的发音与儿童相差较大,而成年女性的发音与儿童相差较小,因此,提取语音语料库中女性语音语料的声学特征。以上述AM1作为初始模型,对女性语音语料的声学特征进行建模,生成第二声学模型AM2。
在步骤S303中,提取语音语料库中儿童语音语料的声学特征,以上述AM2作为初始模型,对儿童语音语料的声学特征进行建模,生成第三声学模型AM3,并确认AM3为声学模型。
需要说明的是,本发明实施例中的声学模型除了常用的中文声韵母模型的配置方式,还可以加入下文将要描述的静音模型和语气词模型。现对本发明实施例中的静音模型以及语气词模型进行分别介绍。
由于儿童发音语速变化大,并且儿童的语音信息中可能出现会说说停停的问题,因此,需要在声学模型的设置中加入静音模型,来识别儿童语音中可能出现大段静音的情况。本发明实施例中,在建立声学模型时,需要对不同的发音建立单独的模型。以中文为例,需要对66个声韵母单独建立HMM模型。并且,本发明实施例能够进一步增大静音模型的描述精度。例如,在通常的声音模型中,采用32个高斯混合模型(Gassion Mixture Model,以下简称GMM)进行描述声韵母的HMM的每个状态,则在建立本发明实施例中的静音模型时,可以将GMM的采用个数提升为至少采用64个。本发明实施例中,针对儿童发音速度变化大、容易出现大段静音的发音特点,在建立的声音模型中添加静音模型,提高对儿童语音信息的识别率,合理高效地增大对儿童语音信息识别的准确性。
另外,上文提及,本发明实施例建立的声学模型中还可以添加语气词模型。由于儿童发音时经常会出现无意义的语气词,例如“嗯”、“啊”、“哦”,等,因此,为提高对儿童语音信息的识别率,在声学模型的设置中加入语气词模型,单独对语气词建立数学模型。优选地,本发明实施例中,可以在训练语料不足的情况下,对“嗯”、“啊”、“哦”等多个语气词共建立一个模型,还可以在训练语料多的情况下,对每个语气词分别建立一个模型。本发明实施例中,针对儿童无意义的语气词较多的发音特点,在声学模型的建立中,添加语气词模型,进一步提高对儿童语音的识别率,增大识别的准确性。
上文介绍了本发明实施例中对声学模型的建立,在对儿童的语音信息进行识别时,除通过声学模型对语音信号的声学特征进行解码搜索外,还需要通过语言模型对语音信号的声学特征进行解码搜索。因此,现对本发明实施例中对语言模型的建立进行介绍。
现有技术中,语音识别所用的到语言模型均采用N-gram的统计语言模型。在使用该种技术建立语言模型时,为生成语言模型,通常需要大量的文本语料对各个字词之间的N-gram进行统计。因此,现有技术中,建立模型所采用的文本语料越接近儿童的发音方式,识别性能就越好。但是,儿童发音与成人发音存在巨大的差异,而大部分的文本语料库如同上文曾提及的语音语料库,以成人文本语料为主。因此,文本语料库并不能够准确地描述或者涵盖儿童的发音方式。
为取得能够准确描述或者涵盖儿童的发音方式的文本语料库,本发明实施例对文本语料库进行变形处理。在对文本语料库进行变形处理时,考虑到儿童的性格和/或天性和/或本能,设置适合儿童的发音方式的预设变性规则。
例如,由于儿童的天性或者本能为儿童喜欢对看见和/或听见和/或闻见和/或通过其他感官接触到的事物进行异想天开的联想,导致儿童的发音方式容易出现如下发音特点:
同一个词可能会多次重复。例如“苹果好吃”会说成“苹果苹果好吃”。
词尾的字也可能会重复。例如“苹果好吃”会说成“苹果果好吃”,或“苹果好吃吃”等。
无意义的助声词增多。例如“苹果好吃”会说出“苹果、嗯、好吃”,或“苹、啊、果、好吃”等。
因此,针对儿童的发音特点,本发明实施例对文本语料库的文本进行变形处理,并通过变形的文本语料库建立更加准确的语音模型以增加对儿童语音识别的准确性。图4示出了根据本发明一个实施例的语言模型建立的流程图。如图4所示,本发明实施例的语言模型的建立至少包括步骤S401至步骤S404。
在步骤S401中,抽取文本语料库中的10%至30%的文本语料作为待变形文本语料,本实施例优选抽取20%。需要说明的是,本发明实施例中,抽取的、作为待变形的文本语料的百分比可以根据文本语料库的不同进行不同的设置,本发明实施例对比并不加以限定。本例中,设置抽取的待变形文本语料的预设值为10%至30%。并且,为将本发明实施例阐述得更加具体清楚,本例中,优选抽取20%文本语料作为待变形的文本语料。
抽取到待变形的文本语料之后,执行步骤S402。在步骤S402中,对待变形文本语料进行变形处理,以获得变形文本语料。本发明实施例中,对待变形文本语料进行变形处理时,首先对待变形文本语料中所有的语句进行分词处理。即,将完整的语句变成独立的词。例如“今天妈妈买的苹果真好吃”分词后变成“今天妈妈买的苹果真好吃”。
其次,在经过分词处理的待变形文本语料中,随机选择至少一个词进行重复处理。本发明实施例中,对经过分词处理的待变形文本语料中随机选择的至少一个词进行的重复处理,可以是根据儿童发音方式对待变形文本语料进行的任意重复处理操作。优选地,本发明实施例中,根据儿童发音方式中常见的情况,选取三种重复处理操作,即词重复处理、词尾重复处理以及助声词增多处理。在对待变形文本语料进行分词处理之后,本发明实施例能够选取上述三种重复处理操作中的一种或者多种对待变形语料进行变性。并且,本发明实施例中,若选取三种重复处理操作中的多种对待变形语料进行变形,则本发明实施例对执行不同重复处理的顺序不加限定。
现对本发明实施例优选地词重复处理、词尾重复处理以及助声词增多处理分别进行介绍。在对进行分词处理之后的待变形文本语料进行词重复处理时,设置重复比例百分率因子,并根据设置的因子选取待变形语料文本中的词进行重复。例如:预先设置一个重复比例百分率因子F,假设预设F=1,表示所有词都重复,则上文中的例句“今天妈妈买的苹果真好吃”分词为“今天妈妈买的苹果真好吃”之后,进一步变为“今天今天妈妈妈妈买的买的苹果苹果真真好吃好吃”。如F=0.4,表示随机选出40%的词重复:“今天妈妈买的苹果真好吃”有6个字词,6*40%=2.4。进一步将2.4取整为3,随机挑选后该句子最后变成“今天今天妈妈买的苹果苹果真真好吃”。
上文介绍了本发明实施例中对待变形文本语料进行词重复处理的操作过程,现对词尾重复处理操作进行介绍。本发明实施例中,对待变形文本语料进行词尾重复处理时,设置重复比例百分率因子,并根据该因子的值选取待变形语料文本中的词的词尾进行重复处理。例如:预先设置一个重复比例百分率因子L,假设预设L=1,表示所有词都进行词尾重复处理:“今天妈妈买的苹果真好吃”变成“今天天妈妈妈买的的苹果果真真好吃吃”。如L=0.4,表示随机选出40%的词进行词尾重复处理:“今天妈妈买的苹果真好吃”有6个字词,6*40%=2.4取整为3,随机挑选后该句子最后变成“今天天妈妈买的苹果果真真好吃”。
除对经过分词处理的待变形文本语料进行词重复处理以及词尾重复处理之外,上文提及,本发明实施例还能够对待变形文本语料进行助声词增多处理。在进行助声词增多处理时,本发明实施例在待变形文本语料中,随机选择两个词,并在两个词之间增加语气词。例如:预先设置一个重复比例百分率因子K,插入的助声词在助声词列表中随机选择。如K=1,表示所有词都进行助声词增多处理:“今天妈妈买的苹果真好吃”变成“今天嗯妈妈啊买的咦苹果嗯真哦好吃啊”。如L=0.4,表示随机选出40%的词进行助声词增多处理:“今天妈妈买的苹果真好吃”有6个字词,6*40%=2.4取整为3。随即挑选后该句子最后变成“今天哦妈妈买的苹果啊真啊好吃”。
需要说明的是,上文提及的对重复比例百分率因子的设置仅为示例,实际运用中对该因子的设置可以是符合实际运用的任意设置值,本发明实施例对此并不加以限定。
对待变形文本语料进行变形处理之后,触发步骤S403。在步骤S403中,将变形文本语料与文本语料库中未被抽取的文本语料进行合并,以获得混合文本语料库。
在步骤S404中,对混合文本语料库进行建模,以获得语言模型。
本发明实施例中,由于在训练语言模型的文本语料库做了文本变形处理,因此,在最终的儿童语音识别结果的文本中,通过改进的语义理解模型进行相应的文本变形后处理。优选地,本发明实施例中,对识别文本进行语义理解处理的步骤包括下列至少之一:首先,通过对识别文本进行常规词语法分析,去除识别文本中连续出现重复的词,以获得所述语义理解结果;例如“今天妈妈买的苹果苹果真好吃”变成“今天妈妈买的苹果真好吃”。其次,通过对识别文本进行常规词语法分析,去除识别文本中词尾重复的叠词,以获得语义理解结果。例如,“今天妈妈买的苹果果真好吃”变成“今天妈妈买的苹果真好吃”。最后,通过对识别文本进行常规词语法分析和句法分析,去除识别文本中词与词之间多余的语气词,以获得语义理解结果。例如“今天妈妈买的苹果嗯真好吃”变成“今天妈妈买的苹果真好吃”。本发明实施例中,在对识别文本进行语义理解处理时,对识别文本进行常规语法分析以及基础的句法分析,并找出句法主体结构之外的组词等无意义的词,加以去除,并获得语义理解结果。另外,语义理解模型还可以根据训练语言模型的儿童语料库,分析特征提取模式规则,并结合应用规则和统计模型的方法,对语音识别的文本进行分析和处理,得到准确性更高的语义理解结果,进一步提高儿童的语音识别的准确性。
基于上文各优选实施例提供的针对儿童的语音识别方法,基于同一发明构思,本发明实施例提供了一种针对儿童的语音识别装置,用于实现上述针对儿童的语音识别方法。
图5示出了根据本发明一个实施例的针对儿童的语音识别装置的结构示意图。参见图5,本发明实施例提供的针对儿童的语音识别装置至少包括:模型建立模块510、接收模块520、特征提取处理模块530、识别文本获得模块540以及语义理解处理模块550。
现介绍本发明实施例的针对儿童的语音识别装置中的各器件或组成的功能以及各部分间的连接关系:
模型建立模块510,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型。
接收模块520,与特征提取模块530相耦合,配置为接收儿童的语音信号,并对语音信号进行前端处理。
特征提取处理模块530,与接收模块520以及识别文本获得模块540分别耦合,配置为对经过前端处理的语音信号进行特征提取处理,以获取语音信号的声学特征。
识别文本获得模块540,与模型建立模块510以及语义理解处理模块550分别相耦合,配置为通过声学模型和语言模型对语音信号的声学特征进行解码搜索,以获得识别文本。
语义理解处理模块550,与识别文本获得模块540相耦合,配置为对识别文本进行语义理解处理,以获得语义理解结果。
本发明实施例中,模型建立模块510还配置为通过以下步骤建立声学模型:
对语音语料库中的全部语音语料进行特征提取处理,并在特征提取处理过程中加入声道长度归一化技术,以获得全部语音语料的声学特征;
根据全部语音语料的声学特征进行建模,以获得声学模型。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
本发明实施例提供的针对儿童的语音识别方法能够在提取全部语音语料的声学特征过程中加入声道长度归一化技术,并以此建立声学模型,避免现有技术中对儿童语音识别不准的问题。本发明实施例中,依次通过全部语音语料中的女性语料和儿童语料作为训练数据来进行反复建模,并在对声学模型进行建立时,针对儿童发音速度变化大、容易出现大段静音的问题,在声学模型中添加建立静音模型以及语气词模型,使得最终得到的声学模型更接近于儿童语音发音特点,合理高效地提高对儿童语音的识别率,达到对儿童语音针对性更强,语音识别率更高,识别结果更加准确的有益效果。另外,本发明实施例中,通过包括有变形文本语料的混合文本语料库建立语言模型,对儿童语音进行识别,使得识别率更高;本发明的语义理解步骤中,能够针对性地对语言模型处理中得到的具有词重复、叠词的词尾重复或者词与词之间具有多余语气词的识别文本进行相应的语义理解处理,以得到正确的语义理解结果。
综上,本发明实施例提供的针对儿童的语音识别方法能够解决现有技术中对儿童语音识别不准的问题,达到合理高效提高儿童语音的识别率的有益效果。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims (9)

1.一种针对儿童的语音识别方法,包括:
通过已知的语音语料库和文本语料库分别建立声学模型和语言模型;
接收所述儿童的语音信号,并对所述语音信号进行前端处理;
对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征;
通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;
对所述识别文本进行语义理解处理,以获得语义理解结果;其中
所述通过已知的语音语料库建立声学模型包括:
对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征;
根据所述全部语音语料的声学特征进行建模,以获得所述声学模型,其中根据所述全部语音语料的声学特征进行建模包括:
对所述全部语音语料的声学特征进行建模,生成第一声学模型AM1;
提取所述语音语料库中女性语音语料的声学特征,以所述AM1作为初始模型,对所述女性语音语料的声学特征进行建模,生成第二声学模型AM2;
提取所述语音语料库中儿童语音语料的声学特征,以所述AM2作为初始模型,对所述儿童语音语料的声学特征进行建模,生成第三声学模型AM3,并确认所述AM3为所述声学模型。
2.根据权利要求1所述的方法,其特征在于,所述建立声学模型步骤中,根据所述全部语音语料的声学特征进行建模包括:
通过隐马尔科夫模型对所述全部语音语料的声学特征进行建模,以获得所述声学模型。
3.根据权利要求1所述的方法,其特征在于,所述通过已知的语音语料库建立声学模型时,还包括:
为儿童语音中的静音建立静音模型,并将所述静音模型加入所述声学模型,以识别儿童语音中的静音。
4.根据权利要求1所述的方法,其特征在于,所述通过已知的语音语料库建立声学模型时,还包括:
为儿童语音中的语气词建立语气词模型,并将所述语气词模型加入所述声学模型,以识别所述儿童语音中的语气词。
5.根据权利要求4所述的方法,其特征在于,为多个语气词建立一个语气词模型,和/或,为每个语气词建立一个语气词模型。
6.根据权利要求1所述的方法,其特征在于,所述通过已知的文本语料库建立语言模型包括:
抽取所述文本语料库中的10%至30%的文本语料作为待变形文本语料;
对所述待变形文本语料进行变形处理,以获得变形文本语料;
将所述变形文本语料与所述文本语料库中未被抽取的文本语料进行合并,以获得混合文本语料库;
对所述混合文本语料库进行建模,以获得所述语言模型;其中
对所述待变形文本语料进行变形处理包括;
对所述待变形文本语料中所有的语句进行分词处理;
在经过所述分词处理的所述待变形文本语料中,随机选择至少一个词进行重复处理,以获得所述变形文本语料。
7.根据权利要求6所述的方法,其特征在于,随机选择至少一个词进行重复处理,包括以下至少之一:
随机选择至少一个词进行词重复处理;
随机选择至少一个词进行词尾重复处理;
随机选择至少一个词进行助声词增多处理,其中,所述助声词增多处理包括在所述待变形文本语料中,随机在两个词之间增加至少一个语气词。
8.根据权利要求7所述的方法,其特征在于,对所述识别文本进行语义理解处理包括如下步骤中的至少一个:
通过对所述识别文本进行常规词语法分析,去除所述识别文本中连续出现重复的词,以获得所述语义理解结果;
通过对所述识别文本进行常规词语法分析,去除所述识别文本中词尾重复的叠词,以获得所述语义理解结果;
通过对所述识别文本进行常规词语法分析和句法分析,去除所述识别文本中词与词之间多余的语气词,以获得所述语义理解结果。
9.一种针对儿童的语音识别装置,包括:
模型建立模块,配置为通过已知的语音语料库和文本语料库分别建立声学模型和语言模型;
接收模块,配置为接收所述儿童的语音信号,并对所述语音信号进行前端处理;
特征提取处理模块,配置为对经过所述前端处理的所述语音信号进行特征提取处理,以获取语音信号的声学特征;
识别文本获得模块,配置为通过所述声学模型和所述语言模型对所述语音信号的声学特征进行解码搜索,以获得识别文本;
语义理解处理模块,配置为对所述识别文本进行语义理解处理,以获得语义理解结果;其中
所述模型建立模块还配置为通过以下步骤建立声学模型:
对所述语音语料库中的全部语音语料进行特征提取处理,并在所述特征提取处理过程中加入声道长度归一化技术,以获得所述全部语音语料的声学特征;
根据所述全部语音语料的声学特征进行建模,以获得所述声学模型,其中根据所述全部语音语料的声学特征进行建模包括:
对所述全部语音语料的声学特征进行建模,生成第一声学模型AM1;
提取所述语音语料库中女性语音语料的声学特征,以所述AM1作为初始模型,对所述女性语音语料的声学特征进行建模,生成第二声学模型AM2;
提取所述语音语料库中儿童语音语料的声学特征,以所述AM2作为初始模型,对所述儿童语音语料的声学特征进行建模,生成第三声学模型AM3,并确认所述AM3为所述声学模型。
CN201410145971.5A 2014-04-04 2014-04-11 针对儿童的语音识别方法及装置 Expired - Fee Related CN103956162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410145971.5A CN103956162B (zh) 2014-04-04 2014-04-11 针对儿童的语音识别方法及装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201410136183 2014-04-04
CN201410136183X 2014-04-04
CN201410136183.X 2014-04-04
CN201410145971.5A CN103956162B (zh) 2014-04-04 2014-04-11 针对儿童的语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN103956162A CN103956162A (zh) 2014-07-30
CN103956162B true CN103956162B (zh) 2017-02-08

Family

ID=51333428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410145971.5A Expired - Fee Related CN103956162B (zh) 2014-04-04 2014-04-11 针对儿童的语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN103956162B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464757B (zh) * 2014-10-28 2019-01-18 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN105206263A (zh) * 2015-08-11 2015-12-30 东莞市凡豆信息科技有限公司 基于动态字典的语音语义识别方法
CN105702250B (zh) * 2016-01-06 2020-05-19 福建天晴数码有限公司 语音识别方法和装置
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
CN106356054A (zh) * 2016-11-23 2017-01-25 广西大学 一种基于语音识别的农产品信息采集方法和系统
CN106782502A (zh) * 2016-12-29 2017-05-31 昆山库尔卡人工智能科技有限公司 一种儿童机器人用的语音识别装置
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统的接收模块
CN107066455B (zh) * 2017-03-30 2020-07-28 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107146605B (zh) * 2017-04-10 2021-01-29 易视星空科技无锡有限公司 一种语音识别方法、装置及电子设备
CN107825433A (zh) * 2017-10-27 2018-03-23 安徽硕威智能科技有限公司 一种儿童语音指令识别的卡片机器人
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
CN108206019A (zh) * 2017-12-29 2018-06-26 上海与德科技有限公司 婴幼儿的辅助学习方法、机器人以及计算机可读存储介质
CN108766428A (zh) * 2018-06-01 2018-11-06 安徽江淮汽车集团股份有限公司 一种语音播报控制方法及系统
CN108776693B (zh) * 2018-06-06 2020-11-27 广东小天才科技有限公司 一种基于定制语料库的语音搜题方法及家教设备
CN109192211A (zh) * 2018-10-29 2019-01-11 珠海格力电器股份有限公司 一种语音信号识别的方法、装置及设备
CN112185351A (zh) * 2019-07-05 2021-01-05 北京猎户星空科技有限公司 语音信号处理方法、装置、电子设备及存储介质
CN112908317B (zh) * 2019-12-04 2023-04-07 中国科学院深圳先进技术研究院 一种针对认知障碍的语音识别系统
CN112437333B (zh) * 2020-11-10 2024-02-06 深圳Tcl新技术有限公司 节目播放方法、装置、终端设备以及存储介质
CN113539268A (zh) * 2021-01-29 2021-10-22 南京迪港科技有限责任公司 一种端到端语音转文本罕见词优化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753871A (zh) * 2008-11-28 2010-06-23 康佳集团股份有限公司 一种语音遥控电视机系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7567903B1 (en) * 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753871A (zh) * 2008-11-28 2010-06-23 康佳集团股份有限公司 一种语音遥控电视机系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Novel Feature Transformation for Vocal Tract Length Normalization in Automatic Speech Recognition;Tom Claes et al;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;19981130;第6卷(第6期);全文 *
A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition;LAWRENCE R. RABINER;《Proceedings of the IEEE》;19890228;第77卷(第2期);全文 *
Study of VTLN method to recognize common speech disorders in speech therapy of Persian children;Shahla Azizi et al;《Proceedings of The 19th Iranian conference on Biomedical Engineering (ICBME 2012)》;20121222;全文 *
一种基于声道归一化自适应技术的儿童语音识别方法;马瑞堂, 李成荣;《计算机应用》;20070630;第27卷;第130-132页 *

Also Published As

Publication number Publication date
CN103956162A (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
CN103956162B (zh) 针对儿童的语音识别方法及装置
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN106297773B (zh) 一种神经网络声学模型训练方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN109754790B (zh) 一种基于混合声学模型的语音识别系统及方法
CN105761720A (zh) 一种基于语音属性分类的交互系统及其方法
CN106782502A (zh) 一种儿童机器人用的语音识别装置
CN105632501A (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN101404160A (zh) 一种基于音频识别的语音降噪方法
CN107146615A (zh) 基于匹配模型二次识别的语音识别方法及系统
CN103151039A (zh) 一种基于向量机svm的说话者年龄段识别方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN102810311A (zh) 说话人估计方法和说话人估计设备
CN107093422A (zh) 一种语音识别方法和语音识别系统
CN111862952A (zh) 一种去混响模型训练方法及装置
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Dossou et al. OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo
Ahmad et al. SUST TTS Corpus: A phonetically-balanced corpus for Bangla text-to-speech synthesis
CN111667834B (zh) 一种助听设备及助听方法
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

CF01 Termination of patent right due to non-payment of annual fee