背景技术
以往,有一种单词语音识别装置,用预先从无用词的集合学习到的声音模型——无用信息声音模型来应对意义上无需区别的无用词(例如请参照(日本)井ノ上直己等2人,“ガ一ベジHMMを用いた自由発話文中の不要語処理手法(使用无用信息HMM的自然语音句中的无用词处理手法)”,電子情報通信学会論文誌A,Vol.J77-A,No.2,pp.215-222,1994年2月)。
图1是表示现有的语音识别装置的结构图。
如图1所示,语音识别装置由特征量计算部1201、网络词典保存部1202、路径计算部1203、候选路径保存部1204、识别结果输出部1205、语言模型保存部1206、语言得分计算部1207、单词声音模型保存部1208、单词声音得分计算部1209、无用信息声音模型保存部1210及无用信息声音得分计算部1211组成。
特征量计算部1201对输入的未知输入语音进行声音分析,计算识别所需的特征参数。网络词典保存部1202保存记述语音识别装置能够受理的单词串的网络词典。路径计算部1203用该网络词典的记述来计算路径的累计得分以便求未知输入语音的最佳单词序列。候选路径保存部1204保存该候选路径的信息。识别结果输出部1205将最终得分最高的单词序列作为识别结果来输出。
此外,语言模型保存部1206预先保存预先通过统计性学习了单词出现的概率的语言模型。语言得分计算部1207计算从前一单词链接的单词的出现概率——语言得分。单词声音模型保存部1208预先保存与待识别词汇对应的单词的声音模型——单词声音模型。单词声音得分计算部1209对照特征参数和单词声音模型,计算单词声音得分。
此外,无用信息声音模型保存部1210预先保存从“え一と(eeto)”、“う一ん(uun)”等意义上无需区别的无用词的集合学习到的声音模型——无用信息声音模型。无用信息声音得分计算部1211对照特征参数和无用信息声音模型,计算无用词——无用信息模型的发生概率——无用信息声音得分。
接着,说明现有的语音识别装置的各部分进行的工作。
首先,用户发出的未知输入语音被输入到特征量计算部1201,特征量计算部1201对每个声音分析的时间单元——帧进行声音分析,计算特征参数。这里设帧长为10ms。
接着,路径计算部1203参照网络词典保存部1202中保存的记述能够受理的单词连接的网络词典,计算到当前帧为止的候选路径的累计得分,将候选路径信息登记到候选路径保存部1204中。
图2是输入语音为“それは、だ、だれ(sorewa,da,dare)”的情况下的候选路径图。具体地说,图2(a)示出了输入语音,显示了单词的切分位置。此外,图2(b)示出了输入帧为t-1时的候选路径。此外,图2(c)示出了输入帧为t时的候选路径。其中,横轴示出了帧。这里,“だれ(dare)”的(口)吃音——无用词“だ”被识别为无用信息模型。此外,无用信息模型与1个单词同样被提供了路径。
这里,路径511、512、513、52是单词途中的最佳路径以外的路径,路径521、522是到达单词末端的最佳路径,路径531、532是到达单词末端的最佳路径以外的路径,路径54是单词途中的最佳路径。
此外,路径计算部1203从前一帧中的候选路径延伸路径,对各路径计算累计得分。
图2(b)示出了当前帧t的前一帧——第t-1帧中的候选路径,该候选路径信息被保存在候选路径保存部1204中。如当前帧t所示,从这些候选路径如图2(c)所示来延伸路径。有前帧的候选路径中的单词进一步延伸的路径,和单词结束、能够连接在该单词上的单词重新开始的路径。这里,能够连接的单词是网络词典所记述了的单词。
在图2(b)中,在帧t-1中,有单词途中的最佳路径以外的路径511的单词“绵(wada)”、和到达单词末端的最佳路径521的单词“绵(wada)”,在帧t——图2(c)中,单词途中的最佳路径以外的路径511的单词“绵(wada)”进一步延伸,在到达单词末端的最佳路径521的单词“绵(wada)”上,连接着单词途中的最佳路径54的单词“种(dane)”、和单词途中的最佳路径以外的路径512的单词“菓子(gashi)”。
接着,对延伸了的候选路径分别计算语言得分和声音得分。
语言得分由语言得分计算部1207用语言模型保存部1206中保存的语言模型来求得。作为语言得分,采用从前一单词链接的单词的概率——二元语法(バイグラム)概率的对数值。这里,在到达单词末端的最佳路径522“それ(sore)”之后连接“绵(wada)”的路径中,采用在“それ(sore)”之后出现“绵(wada)”的概率。提供它的定时可以是每个单词1次。
对当前帧的输入特征参数矢量,如果当前候选路径是单词,则声音得分由单词声音得分计算部1209用单词声音模型保存部1208中保存的单词声音模型来计算;如果当前候选路径是无用词——无用信息模型,则声音得分由无用信息声音得分计算部1211用无用信息声音模型保存部1210中保存的无用信息声音模型来计算。
例如,在图2(b)中,求帧t-1中的声音得分的路径有4个路径,采用单词声音模型的路径是路径522“それ(sore)”上连接的路径511“绵(wada)”、路径522“それ(sore)”上连接的连接521“绵(wada)”及路径531“は(wa)”上连接的路径513“だれ(dare)”,采用无用信息声音模型的路径是路径531“は(wa)”上连接的路径532“无用信息模型”。
作为声音模型,一般采用将声音特征以概率方式模型化了的隐马尔可夫模型(HMM)等。将表示单词的声音特征的HMM称为单词声音模型,将用1个模型来归纳表示“え一と(eeto)”、“う一ん(uun)”等意义上无需区别的无用词的声音特征的HMM称为无用信息声音模型。单词声音得分及无用信息声音得分是从HMM得到的概率的对数值,表示单词及无用信息模型的发生概率。
将这样得到的语言得分和声音得分相加作为对照得分,用Viterbi(维特比)算法来求各路径的累计得分(例如请参照(日本)中川聖一著,“確率モデルによる音声認識(基于概率模型的语音识别)”,电子情报通信学会编,pp.44-46,1998年初版发行)。
但是,单纯地记录所有延伸了的候选路径,会导致计算量和存储容量的急剧增加,所以不理想。因此,采用对每个帧按累计得分从高到低的顺序只保留K个(K是自然数)的定向搜索。将该当前帧中的K个候选路径的信息登记到候选路径保存部1204中。
逐次前进1帧来对输入帧重复进行以上处理。
最后,所有帧的处理结束后,识别结果输出部1205在最后一帧中将候选路径保存部1204中保存的候选路径中累计得分最高的候选路径的单词串作为识别结果来输出。
然而,在上述现有例中有下述问题:如果在待识别词汇中存在与(口)吃音等非语言声音在声音上类似的单词序列,则会错误识别。
这里,所谓(口)吃音,是说口语时第一音或途中的音堵塞、多次重复同一音、拉长音、不能流畅地说出的发音。
此外,在图2(c)中,各个单词的上部在括号内标记的数值是每个单词的对照得分。
在图2(c)中,未知输入语音的吃音部分“だ(da)”的区间通过无用信息模型,在其后连接“だれ(dare)”的路径52在时刻t为最佳路径是正确答案,但是在“それ(sore)”+“绵(wada)”的情况下为7+10=17分,在“それ(sore)”+“绵(wada)”+“种(dane)”的情况下为7+9+2=18分,在“それ(sore)”+“绵(wada)”+“菓子(gashi)”的情况下为7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情况下为7+5+4=16分,在“それ(sore)”+“は(wa)”+无用信息模型+“だれ(dare)”的情况下为7+5+2+1=15分,所以“それ(sore)”+“绵(wada)”+“种(dane)”为当前帧中的最高得分。
其原因是因为,无用信息声音模型从包含吃音的被认为是无用词的所有声音数据进行学习,所以分布非常广,对无用词发音、即非语言声音不能得到很高的声音得分。
作为解决它的方法,有统一提高无用信息声音得分的方法,但是这种方法在最佳路径不是无用词的帧中无用信息声音得分的值也增大,所以成为误识别的原因。
发明内容
本发明的目的在于提供一种语音识别装置,即使是包含无用词、特别是吃音等非语言声音的未知输入语音,也能够正确地识别。
为了实现上述目的,在本发明的语音识别装置中,针对每个路径计算语言得分、单词声音得分、以及无用信息声音得分的累计得分,将累计得分最高的单词串作为包含非语言声音的未知输入语音的识别结果来输出,其特征在于,包括:无用信息声音模型保存机构,预先保存从无用词的集合学习到的声音模型的无用信息声音模型;特征量计算机构,针对每个声音分析的单位--帧对上述未知输入语音进行声音分析,计算识别所需的特征参数;无用信息声音得分计算机构,针对每个上述帧对照上述特征参数和上述无用信息声音模型,计算上述无用信息声音得分;无用信息声音得分校正机构,对输入了上述非语言声音的帧进行校正以提高上述无用信息声音得分计算机构算出的无用信息声音得分;以及识别结果输出机构,将上述语言得分、上述单词声音得分、以及上述无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为上述未知输入语音的识别结果来输出。
由此,能够只提高与非语言声音对应的无用信息声音得分,能够正确地识别未知输入语音。
此外,在本发明的语音识别装置中,其特征可以在于,上述语音识别装置还包括:非语言声音推断机构,针对每个上述帧用非语言声音估算函数来计算表示上述非语言声音的像非语言的程度的估算值;上述无用信息声音得分校正机构用上述非语言声音推断机构算出的输入了非语言声音的帧中的估算值,来进行校正以提高无用信息声音得分。
由此,通过用非语言声音推断机构推断非语言声音,提高与非语言声音相当的无用信息声音得分,由此能够高精度地识别未知输入语音。
此外,在本发明的语音识别装置中,其特征也可以在于,上述非语言声音推断机构根据上述特征量计算机构算出的每个帧的特征参数,在上述未知输入语音的频谱为重复图案的部分中计算出值大的估算值。
由此,通过检测未知输入语音的频谱的重复图案,能够将吃音等非语言声音高精度地推断为无用信息模型。
此外,在本发明的语音识别装置中,其特征可以在于,上述语音识别装置还包括:非语言推断用特征量计算机构,针对每个上述帧计算推断上述非语言声音所需的非语言推断用特征参数;和非语言声音模型保存机构,预先保存将非语言的特征模型化了的声音模型的非语言声音模型;上述非语言声音推断机构通过针对每个上述帧对照上述非语言推断用特征参数和上述非语言声音模型来计算非语言对照得分作为上述估算值。
由此,通过用与用于识别语音的特征参数不同的、推断非语言声音所需的特征参数与非语言声音模型进行对照,能够高精度地推断非语言声音,所以能够提高相当于非语言声音的无用信息声音得分,正确地识别未知输入语音。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:高频功率持续帧数计算机构,根据上述非语言推断用特征量计算机构计算出的上述非语言推断用特征参数,来计算高频功率持续帧数;上述非语言声音推断机构对照上述非语言推断用特征参数和上述非语言声音模型来计算非语言对照得分,根据上述非语言对照得分和上述高频功率持续帧数来计算表示像非语言的程度的估算值。
由此,能够用与用于识别语音的特征参数不同的、推断非语言声音所需的特征参数与非语言声音模型进行对照,用对照得分及高频功率持续的帧数来推断非语言声音,能够提高相当于非语言声音的无用信息声音得分,正确地识别未知输入语音。
此外,在本发明的语音识别装置中,其特征也可以在于,上述高频功率持续帧数计算机构在上述非语言推断用特征量计算机构得到的高频功率高于预定的阈值的情况下看作是高频功率高的帧。
由此,能够容易地计算高频功率持续帧数。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:非语言对应字符插入机构,根据上述非语言声音推断机构推断出的估算值,选择与上述非语言声音对应的表意字符及情感图标中的至少一方,将选择出的表意字符及情感图标中的至少一方插入到上述识别结果输出机构的识别结果中。
由此,不能能够提高识别性能,而且能够用估算值自动地插入表示该非语言声音的表意字符或情感图标来创建邮件。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:智能体控制机构,根据上述非语言声音推断机构推断出的估算值及上述识别结果输出机构的识别结果,来控制所显示的智能体的动作及该智能体所说的合成音。
由此,通过使用识别结果和估算值,能够按照非语言声音来改变智能体的动作及答话。
此外,在本发明的语音识别装置中,其特征可以在于,上述语音识别装置还包括:非语言现象推断机构,根据与非语言声音联动的用户信息,来计算与该非语言声音关联的非语言现象的估算值;上述无用信息声音得分校正机构用上述非语言现象推断机构算出的输入了非语言现象的帧中的估算值,来进行校正以提高无用信息声音得分。
由此,通过用非语言现象推断机构推断非语言现象,按照非语言现象来提高无用信息声音得分,能够高精度地识别未知输入语音。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:非语言对应字符插入机构,根据上述非语言现象推断机构推断出的估算值,选择与上述非语言对应的表意字符及情感图标中的至少一方,将选择出的表意字符及情感图标中的至少一方插入到上述识别结果输出机构的识别结果中。
由此,不仅能够提高识别性能,而且能够用估算值自动地插入表示该非语言的表意字符或情感图标来创建邮件。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:智能体控制机构,根据上述非语言现象推断机构推断出的估算值及上述识别结果输出机构的识别结果,来控制所显示的智能体的动作及该智能体所发出的合成音。
由此,通过使用识别结果和估算值,能够根据非语言现象来改变智能体的动作及答话。
此外,在本发明的语音识别装置中,其特征也可以在于,上述语音识别装置还包括:校正参数选择变更机构,用于使用户选择用于决定对上述无用信息声音得分校正机构中的无用信息声音得分进行校正的程度的校正参数的值,变更为被选择出的校正参数的值;上述无用信息声音得分校正机构根据上述校正参数来校正上述无用信息声音得分。
由此,通过使用户选择校正参数,能够按照插入非语言的难易状况来自由地进行设定。
从以上说明可知,根据本发明的语音识别装置,即使是包含吃音、笑声、咳嗽等非语言部分的未知输入语音也能够正确地进行语音识别。
因此,根据本发明,即使是包含非语言部分的未知输入语音也能够正确地进行语音识别,在具有语音识别功能的家电设备、手机等日益普及的今天,本发明的实用价值极高。
其中,本发明不仅可以实现为这种语音识别装置,而且可以实现为将这种语音识别装置包括的特征性机构作为步骤的语音识别方法,或者实现为使计算机执行这些步骤的程序。此外,这种程序当然可以经CD-ROM等记录媒体或因特网等传输媒体来分发。
具体实施方式
以下,用附图来说明本发明实施方式的语音识别装置。
(实施方式1)
图3是本发明实施方式1的语音识别装置的功能结构方框图。其中,在本实施方式1中,以非语言推断对象为吃音的情况为例来进行说明。
语音识别装置1是使用语音识别来操作电视机的计算机装置,如图3所示,包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111、非语言声音推断部112、以及无用信息声音得分校正部113等。
其中,构成这种语音识别装置1的各部除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
特征量计算部101对输入的未知输入语音进行声音分析,计算识别所需的特征参数。网络词典保存部102保存记述该语音识别装置1能够受理的单词串的网络词典。路径计算部103参照网络词典的记述,计算路径的累计得分以便求出未知输入语音是何种单词序列最合适。候选路径保存部104保存该候选路径的累计得分。识别结果输出部105将最终累计得分最高的单词序列作为识别结果来输出。
此外,语言模型保存部106预先保存预先通过统计而学习了单词出现的概率的语言模型。语言得分计算部107根据语言模型来计算与该单词串对应的语言得分。单词声音模型保存部108预先保存与待识别词汇对应的单词的声音模型——单词声音模型。单词声音得分计算部109对照特征参数和单词声音模型,计算单词声音得分。无用信息声音模型保存部110预先保存预先从意义上无需区别的“え一と(eeto)”、“う一ん(uun)”等无用词的集合学习到的声音模型——无用信息声音模型。无用信息声音得分计算部111对照特征参数和无用信息声音模型,计算无用信息声音得分。
此外,非语言声音推断部112对每个帧计算推断非语言声音的值——非语言声音的估算值。无用信息声音得分校正部113对每个帧校正无用信息声音得分计算部111算出的无用信息声音得分。
接着,说明语音识别装置1的各部分识别未知输入语音的工作。
图4是语音识别装置1的各部分执行的处理的流程图。
语音识别装置1的各部分对每个声音分析的时间单元——帧,在1至T内将输入帧t逐次前进1帧来进行以下处理。这里设帧长为10ms。
首先,特征量计算部101对输入的未知输入语音进行声音分析,计算特征参数(S201)。
接着,非语言声音推断部112计算推断非语言声音的值——非语言声音的估算值(S202)。在本实施方式1中,用频谱的重复图案来计算非语言声音的估算值。
以下详述非语言声音的估算值的计算方法。
设帧t中的特征参数矢量为X(t),设帧i中的特征参数矢量X(i)和帧j中的特征参数矢量X(j)之间的欧几里德距离为d(i,j),则非语言声音估算值的距离D(t)用式(1)来表示。
其中,也可以用加权欧几里德距离来取代欧几里德距离。在采用了加权欧几里德距离的情况下,也能够得到与欧几里德距离同样的效果。
式(1)表示λ的值取Ns至Ne(λ为整数)的值时夹着时刻t的过去λ帧和未来λ帧的频谱图案间的距离中的距离最小时的值。例如设Ns=3、Ne=10,则能够检测出3帧的重复至10帧的重复。在未知输入语音的频谱呈现重复的图案时,非语言声音估算值的距离D(t)取小的值。
求帧t中的非语言声音的估算值的函数——非语言声音估算函数R(t)在本实施方式1中用式(2)来表示。
α及β是常数。在频谱成为重复的图案时,非语言声音估算函数R(t)的值变大。
其中,也可以用式(3)所示的非语言声音估算函数R(t)来取代式(2)的非语言声音估算函数R(t)。
图5是未知输入语音为“それは、だ、だれ(sorewa,da,dare)”的情况下的非语言声音估算函数及候选路径图。具体地说,图5(a)是非语言声音估算函数的示例图。
在图5(a)中,纵轴是表示非语言声音估算值的值,横轴是帧。此外,图5(b)示出了未知输入语音的单词的切分位置。这样,非语言声音估算函数R(t)在非语言声音——吃音部分“だ(da)”的帧中呈现高的非语言声音估算值。
接着,路径计算部103首先参照网络词典保存部102中保存的网络词典从前一帧中的候选路径延伸路径。然后,路径计算部103在前一帧为单词末端的路径中参照网络词典来求接着能够连接的单词或无用信息模型,创建连接了所有可能连接的单词或无用信息模型的新路径(S203)。其中,在前一帧为单词途中的路径中,路径计算部103进一步延伸该单词。
此外,图5(c)示出了输入语音为“それは、だ、だれ(sorewa,da,dare)”的情况下帧为t-1时的候选路径。图5(d)示出了该情况下帧为t时的候选路径。
这里,路径311、312、313、314表示单词途中的最佳路径以外的路径,路径321表示到达单词末端的最佳路径以外的路径,路径331、332表示到达单词末端的最佳路径,路径341表示单词途中的最佳路径。
例如,在图5(d)中,在路径321的“绵(wada)”上,连接着路径311的“种(dane)”、和路径312的“菓子(gashi)”。此外,在路径332的“无用信息模型”上,连接着路径341的“だれ(dare)”。在其他路径中,单词进一步被延伸。
接着,语言得分计算部107参照语言模型保存部106中保存的语言模型,来计算延伸及连接了的新候选路径的语言得分,输出到路径计算部103(S204)。
这里,作为语言得分,采用从前一单词链接的单词的概率——二元语法概率的对数值。例如,在图5(c)的路径331上的“は(wa)”之后连接路径313的“だれ(dare)”的路径中,采用在“は(wa)”之后出现“だれ(dare)”的出现概率。提供它的定时可以是每个单词1次。
接着,路径计算部103判断当前帧的候选路径是否是单词(S205)。即,判断是单词还是无用信息模型。
如果判断的结果是单词则执行后述步骤S206,如果是无用信息模型则执行后述步骤S207、S208。
例如,在图5(c)的帧t-1中,对路径314的“绵(wada)”、路径321的“绵(wada)”、以及路径313的“だれ(dare)”,执行步骤S206。而对路径332的“无用信息模型”,则执行S207、S208。
在步骤S205中路径计算部103判断为单词的情况下,单词声音得分计算部109参照单词声音模型,来计算当前候选路径的单词声音得分(S206)。
而在步骤S205中路径计算部103判断为无用信息的情况下,无用信息声音得分计算部111参照无用信息声音模型,来计算当前候选路径的无用信息声音得分(S207)。
接着,无用信息声音得分校正部113参照非语言声音估算函数,来校正步骤S207中计算出的无用信息声音得分,计算新无用信息声音得分(S208)。
以下详述新无用信息声音得分的计算方法。
在帧t中,设特征参数矢量为X(t),设通过与无用信息声音模型进行对照而得到的无用信息声音得分为G(t),则在本实施方式1中,无用信息声音得分校正部113如式(4)所示来校正无用信息声音得分计算部111计算出的无用信息声音得分G(t),设校正后的新无用信息声音得分为G*(t)。w是加权常数(校正参数)。
G*(t)=G(t)+wR(t)
…(4)
其结果是,例如以往只有2分的无用信息声音得分,在本实施方式1中被校正为6分。
其中,如果频谱在时间上重复的部分是无用信息声音得分上升的函数,则也可以采用式(4)以外的任何函数。
其中,单词声音模型及无用信息声音模型与现有例同样采用隐马尔可夫模型(HMM)。此外,单词声音得分及无用信息声音得分是从HMM得到的概率的对数值,表示单词及无用信息模型的发生概率。
接着,路径计算部103将当前候选路径的语言得分、单词声音得分及无用信息声音得分相加,计算当前候选路径的对照得分。进而,路径计算部103与现有例同样用Viterbi算法来计算当前候选路径的当前帧以前的路径,根据所有路径的对照得分来计算累计得分,作为候选路径信息登记到候选路径保存部104中(S209)。
这里,单纯地计算所有延伸了的候选路径并记录,会导致计算量及存储容量的增加,所以不理想。因此,采用对每个帧按累计得分从高到低的顺序只保留K个(K是自然数)的定向搜索。将该当前帧中的K个候选路径的信息登记到候选路径保存部104中。
接着,路径计算部103判断是否算出了所有候选路径的累计得分(S210)。在判断的结果是未算出所有候选路径的累计得分的情况下(在S210中为“否”)执行步骤S211,在算出了所有候选路径的累计得分的情况下(在S210中为“是”)执行步骤S212。
在未算出所有候选路径的累计得分的情况下(在S210中为“否”),在步骤S211中转移到下一候选路径,重复步骤S205至步骤S210的处理,从而算出当前帧以前的所有候选路径的累计得分。
在算出了所有候选路径的累计得分的情况下(在S210中为“是”),路径计算部103判断是否对所有帧完成了处理(S212)。在判断的结果是未完成对所有帧的处理的情况下(在S212中为“否”)执行步骤S213,在完成了对所有帧的处理的情况下(在S212中为“是”)执行步骤S214。
在未完成对所有帧的处理的情况下(在S212中为“否”),在步骤S213中转移到下一帧,重复步骤S201至步骤S210的处理,从而进行直至最后一帧的处理。
在完成了对所有帧的处理的情况下(在S212中为“是”),识别结果输出部105在最后一帧中将候选路径保存部104中保存的候选路径中累计得分最高的候选路径的单词串作为识别结果来输出(S214)。
其结果是,以往如图2(c)所示,在“それ(sore)”+“绵(wada)”的情况下为7+10=17分,在“それ(sore)”+“绵(wada)”+“种(dane)”的情况下为7+9+2=18分,在“それ(sore)”+“绵(wada)”+“菓子(gashi)”的情况下为7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情况下为7+5+4=16分,在“それ(sore)”+“は(wa)”+无用信息模型+“だれ(dare)”的情况下为7+5+2+1=15分,所以“それ(sore)”+“绵(wada)”+“种(dane)”是当前帧中的最高得分。
相反,根据本实施方式1的语音识别装置1,如图5(d)所示,在“それ(sore)”+“绵(wada)”的情况下为7+10=17分,在“それ(sore)”+“绵(wada)”+“种(dane)”的情况下为7+9+2=18分,在“それ(sore)”+“绵(wada)”+“菓子(gashi)”的情况下为7+9+1=17分,在“それ(sore)”+“は(wa)”+“だれ(dare)”的情况下为7+5+4=16分,在“それ(sore)”+“は(wa)”+无用信息模型+“だれ(dare)”的情况下为7+5+6+1=19分,所以“それ(sore)”+“は(wa)”+无用信息模型+“だれ(dare)”为当前帧t以前的最高得分。
从以上可知,在本实施方式1的语音识别装置1中,通过应用非语言声音估算函数,不是一概提高无用信息声音得分,而是只增大非语言声音——吃音部分的无用信息声音得分,从而能够正确地识别未知输入语音。
由此,例如在用语音识别来操作电视机的情况下,即使用户紧张而发出了吃音,也能够正确地识别,所以还能够同时发挥可减轻用户的体力和精神负担的效果。
其中,单词声音模型也可以连结音素、音节、CV(辅音consonant-元音vowel)及VC(元音vowel-辅音consonant)的子字单位的声音模型。
其中,在本实施方式1中,通过检测频谱重复的图案来推断非语言声音,但是也可以采用其他推断方法。
(实施方式2)
接着,说明本发明实施方式2的语音识别装置。
图6是本发明实施方式2的语音识别装置的功能结构方框图。其中,在本实施方式2中,以非语言推断对象为笑声的情况为例来进行说明。此外,对与实施方式1的语音识别装置1对应的部分附以同一标号,省略其详细说明。
语音识别装置2与语音识别装置1同样是用语音识别来操作电视机的计算机装置,如图6所示,除了包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111、非语言声音推断部112及无用信息声音得分校正部113之外,还包括非语言推断用特征量计算部114、非语言声音模型保存部115及高频功率持续帧数计算部116。
其中,构成这种语音识别装置2的各部分与语音识别装置1同样,除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
非语言推断用特征量计算部114对输入的未知输入语音进行声音分析,对每个帧计算与非语言声音模型进行对照所需的特征参数及高频功率。非语言声音模型保存部115预先保存笑声等非语言的声音模型——非语言声音模型。
此外,高频功率持续帧数计算部116对高频功率高的帧连续的帧数进行计数。非语言声音推断部112用输入语音的非语言推断用特征参数和非语言声音模型的对照得分及高频功率高的部分的持续帧数,对每个帧计算像是非语言的程度——非语言声音估算函数。无用信息声音得分校正部113对每个帧用非语言声音估算函数来校正无用信息声音得分计算部111算出的无用信息声音得分。
接着,用图7来说明语音识别装置2的各部分识别未知输入语音的工作。
图7是语音识别装置2的各部分执行的处理的流程图。
语音识别装置2的各部分对每个帧在1至T内将输入帧t逐次前进1帧来进行以下步骤S701至步骤S714的处理。这里也设帧长为10ms。
首先,特征量计算部101对输入的未知输入语音进行声音分析,计算出特征参数(S701)。这里,作为特征参数,采用Me1倒谱系数(メルフイルタバンクケプストラム係数,MFCC)及其回归系数及语音功率差分。
接着,非语言推断用特征量计算部114计算输入的未知输入语音的笑声的非语言推断用特征参数(S702)。
接着,在频谱非语言推断用特征量计算部114得到的高频功率高于预定的阈值θ的情况下,高频功率持续帧数计算部116看作是高频功率高的帧,递增高频功率持续帧数Nhp,在高频功率变得低于阈值θ的时刻将高频功率持续帧数Nhp清零。即,对高频功率高的部分持续的帧数进行计数(S703)。
接着,非语言声音推断部112对照非语言推断用特征参数和非语言声音模型,计算表示像是笑声的程度的非语言推断函数的值。即,根据笑声的非语言推断用特征参数和非语言模型来计算非语言对照得分,根据非语言对照得分和高频功率持续帧数来计算表示像是笑声的程度的非语言声音估算值(S704)。以下详述该方法。
首先,对每个帧与非语言声音模型保存部115中保存着的非语言声音模型进行对照。非语言声音模型预先从许多笑声语音数据进行学习,保存到非语言声音模型保存部115中。
非语言声音模型的特征参数采用音调频率、语音全域功率、高频功率、低频功率等与单词声音模型不同的特征参数。或者也可以采用与单词声音模型相同的特征参数(MFCC)或并用两者。此外,也可以采用过去N帧中的语音的最大功率、最低功率、最大功率和最低功率之差、最小音调频率、最大音调频率及最大音调频率和最小音调频率之差等参数。
然后,根据当前帧或包含当前帧的多个帧的特征参数来构成特征参数矢量,作为用于与非语言声音模型进行对照的非语言推断用特征参数矢量。
作为非语言声音模型,可以采用隐马尔可夫模型(HMM)或高斯混合模型(GMM)、贝叶斯网络(BN)、图形模型(GM)、神经网络(NN)等。其中,在本实施方式2中采用GMM。
将通过与非语言声音模型进行对照而得到的输入帧t中的笑声的得分作为非语言对照得分S(t)。越像笑声,则非语言对照得分S(t)具有越大的值,具有正数、“0”或负数的值。用非语言对照得分S(t)和高频功率持续帧数计算部116得到的高频功率持续帧数Nhp,如式(5)所示来表示笑声用的非语言声音估算函数R(t)。其中,α、λ、Rmin、Rmax是常数,通过识别实验定为使识别率高的值。
由此,在有笑声时,非语言声音估算函数R(t)的值变大。
以下,步骤S705至步骤S716的处理与实施方式1的步骤S203至步骤S214相同,所以这里省略其说明。
从以上可知,在本实施方式2的语音识别装置2中,通过应用非语言声音估算函数,能够不是一律提高无用信息声音得分,而是只增大笑声部分的无用信息声音得分,能够正确地识别未知输入语音。
其中,单词声音模型与实施方式1同样,也可以连结音素、音节、CV及VC的子字单位的声音模型。此外,如果无用信息声音模型不仅学习“え一と(eeto)”、“う一ん(uun)”等无用词语音,而且学习包含笑声、咳嗽及突发音在内的非语言声音,则识别精度进一步提高。
由此,例如在用语音识别来操作电视机的情况下,即使用户边笑边说,也能够正确地识别,所以能够减轻用户的体力和精神负担。
其中,在实施方式2中,用与非语言声音模型的对照得分及高频功率持续帧数这两者来确定笑声推断函数,但是也可以只使用其中任一个。
此外,在实施方式2中,非语言声音将笑声作为对象,但是将咳嗽作为对象也能够用同样的方法来识别包含咳嗽的语音。
(实施方式3)
接着,说明本发明实施方式3的语音识别装置。
图8是本发明实施方式3的语音识别装置的功能结构方框图,图9是用户面向带摄像机的手机、用语音来输入邮件的情况的示意图。其中,在本实施方式3中,以下述情况为例来进行说明:带摄像机的手机将摄像机图像作为输入来检测笑或咳嗽,校正语音识别的无用信息声音得分。此外,对与实施方式1的语音识别装置1对应的构件附以同一标号,省略其说明。
语音识别装置3是用语音识别来创建邮件的手机等计算机装置,如图8所示,除了包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111及无用信息声音得分校正部113之外,还包括取代非语言声音推断部112而使用的非语言现象推断部117。
其中,构成这种语音识别装置3的各部分与语音识别装置1同样,除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
非语言现象推断部117将实时拍摄用户面部的摄像机图像信息作为输入来检测笑脸,计算表示“像是正在笑的程度”的非语言现象推断函数R(t)。检测笑脸的方式可以采用现有的任何方式,非语言现象推断函数R(t)越大,则表示“像是正在笑的程度”越大。
例如,从摄像机输入的面部图像中提取表示眼、鼻、口等各个器官的轮廓的边缘信息,将其形状或位置关系作为特征参数,与笑脸模型进行对照来检测笑容。此外,也可以是不检测笑脸、而检测咳嗽的图像、表示“像是正在咳嗽的程度”的非语言现象推断函数。
其中,非语言现象推断函数R(t)与实施方式1、2同样,可以采用式(2)至式(5)。
再者,也可以通过与实施方式1、2中的至少一个组合,用语音的非语言声音估算函数和图像的非语言现象推断函数的加权和作为新的非语言现象推断函数。
此外,也可以不是输入摄像机图像信息,而是安装脑电波、血压、心率、发汗、面部温度等人体信息传感器,将这些人体信息作为输入。
例如,通过对照脑电波测试仪输入的脑电波的时间序列图案、和表示笑的状态的笑脑电波模型,能够计算表示“像是正在笑的程度”的非语言现象推断函数R(t)。此外,作为输入特征量,通过组合脑电波以及来自表示血压、心率的血压计的压电传感器的电压时间序列图案、来自表示发汗量、面部温度的湿度传感器、温度传感器的电流时间序列图案等,能够推断更高级的非语言现象。
其中,在实施方式3的语音识别装置3中,将手机作为对象,但是也可以是个人计算机、汽车导航系统、电视机、其他家电产品等。
由此,例如在向带摄像机的手机中输入邮件时,通过使用面部图像,即使在周围噪声多的场所,也能够与笑声同步来正确地检测笑脸,能够将无用信息声音得分校正为高的值,所以能够提高语音识别性能。此外,在咳嗽的情况下也与笑声同样,能够提高语音识别性能。
(实施方式4)
接着,说明本发明实施方式4的语音识别装置。
图10是本发明实施方式4的语音识别装置4的功能结构方框图,图11是将带情感图标的邮件正文实际显示在手机的画面901上的状态图。其中,在本实施方式4中,在将语音识别用作手机的字符输入界面的情况下,在语音识别时笑或者咳嗽时,如果笑或咳嗽的非语言声音估算函数超过预定的阈值,则在其句中位置或句末,显示与该非语言的种类相应的情感图标。例如,作为笑脸的情感图标有“(^O^)”,作为咳嗽的情况下的情感图标有“ρ(>o<)”。此外,对与实施方式2的语音识别装置2对应的构件附以同一标号,省略其说明。
语音识别装置4是用语音识别来创建邮件的手机等计算机装置,如图10所示,除了包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111、非语言声音推断部112、无用信息声音得分校正部113、非语言推断用特征量计算部114、非语言声音模型保存部115及高频功率持续帧数计算部116之外,还包括非语言对应字符插入部118。
其中,构成这种语音识别装置4的各部分与语音识别装置2同样,除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
非语言对应字符插入部118包括与笑或咳嗽等非语言声音对应的情感图标或字符(表意字符),在非语言声音推断部112输出的非语言声音估算函数R(t)的大小超过阈值的情况下,在其句中位置或句末插入与该非语言的种类相应的情感图标,显示在识别结果输出部105输出的识别结果中插入了图11所示的情感图标的句子。其中,情感图标也可以显示为字符。例如,也可以在用户笑了的情况下插入“(笑)”,在用户咳嗽了的情况下插入“(咳)”。
其中,根据非语言现象来显示何种字符及情感图标也可以预先由用户自身来设定,在通过语音识别来输入字符时,也可以由用户来设定是否需要根据非语言现象来插入字符及情感图标。
此外,也可以在非语言声音估算函数R(t)的值小的情况下采用微笑的情感图标,在非语言声音估算函数R(t)的值大的情况下采用大笑的情感图标。此外,可以根据非语言声音估算函数的值在预定的阈值以上的帧的持续帧数来变更根据非语言现象显示的字符及情感图标。
例如,可以在微笑的情况下显示情感图标“(⌒o⌒)”,在大笑的情况下显示情感图标“(≥≤)”。
再者,将显示位置设在该非语言现象出现的句中位置还是设在句末,可以由用户自身来设定。
其中,也可以不校正无用信息声音得分,只显示与根据非语言声音估算函数R(t)检测出的非语言的种类相应的字符或情感图标。在此情况下,也可以与“愤怒”、“喜悦”、“疑问”等非语言声音模型进行对照来推断非语言声音估算函数,在非语言声音估算函数的值在预定的阈值以上的情况下,显示与非语言现象相应的字符;再者,通过如实施方式3的语音识别装置3所示,使用通过并用摄像机图像或人体信息而算出的非语言现象推断函数R(t),能够精度更高地进行显示。此外,也可以通过在实施方式l的语音识别装置1上附加非语言对应字符插入部118,来构成语音识别装置4。
这里,可以对“愤怒”显示“(怒)”或“(メ)”等,对“喜悦”显示“(喜)”或“o(^^o~
)”等,对“疑问”显示“(?)”或“(._.?)”等。
其中,表示非语言现象的字符及情感图标也可以显示上述以外的字符及情感图标。
通过以上结构,例如在向手机中输入邮件时,不仅语音识别提高,而且能够在边实际输入语音边笑的地方插入情感图标,能书写更有现实感的邮件。
(实施方式5)
接着,说明本发明实施方式5的语音识别装置。
图12是本发明实施方式5的语音识别装置的功能结构方框图。其中,在本实施方式5中,在与个人计算机上的智能体(エ一ジエント)的对话中,如果检测出吃音、笑声、咳嗽,则智能体执行与该非语言的种类相应的应对措施。此外,对与实施方式2的语音识别装置2对应的构件附以同一标号,省略其说明。
语音识别装置5是具备语音识别功能的个人计算机等计算机装置,如图12所示,除了包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111、非语言声音推断部112、无用信息声音得分校正部113、非语言推断用特征量计算部114、非语言声音模型保存部115及高频功率持续帧数计算部116之外,还包括智能体控制部119。
其中,构成这种语音识别装置5的各部分与语音识别装置2同样,除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
智能体控制部119包括在画面上显示的智能体的图像、和智能体说出的合成音的数据,按照从识别结果输出部105得到的识别结果、和从非语言声音推断部112得到的非语言声音估算函数的大小,改变智能体的动作和表情并显示在画面上,并且输出智能体应对的合成语音的话语。
例如,在检测出吃音的情况下,智能体输出“别紧张!”这一合成语音,并且使智能体执行摇手等促使放松的动作。此外,在检测出笑声的情况下,智能体边一起笑边输出合成语音“有那么可笑吗?”;在检测出咳嗽的情况下,面带担忧地输出合成语音“感冒了吧?”。
再者,在检测出许多笑声或咳嗽、未能得到识别结果的情况下,用合成音输出“笑声多,不能识别”、或者“咳嗽多,不能识别”,在画面上智能体执行抱歉等动作。
其中,在实施方式5中,与个人计算机上的职能体进行对话,但是不限于个人计算机,用电视机、手机等其他电子设备也能够执行同样的显示。此外,通过与实施方式3组合,使用根据手机的摄像机图像检测出了笑脸的结果等,能够使智能体执行同样的动作。此外,也可以通过在实施方式1的语音识别装置1上附加智能体控制部119,来构成语音识别装置5。
其中,在实施方式5中,用非语言声音估算函数进行了说明,但是采用非语言现象推断函数或非语言声音估算函数中的至少一个的结构也能够得到同样的效果。
通过以上结构,在与智能体的对话中,不仅语音识别提高,而且能够缓和用户的紧张,更愉快地进行会话。
(实施方式6)
接着,说明本发明实施方式6的语音识别装置。
图13是本发明实施方式6的语音识别装置的功能结构方框图。其中,在本实施方式6中,用户预先决定式(4)中的无用信息声音得分校正部113所用的校正参数w的值。
这里,如果增大w的值,则作为语音识别结果容易插入非语言部分;如果减小w的值,则难以插入非语言部分。例如,对于容易发出吃音的用户,校正程度大,则性能高,容易使用;对于不太发出吃音的用户,校正程度小,则性能高,容易使用。
此外,也有时在用语音来输入话语随便的邮件的情况下,在给好友的邮件等中,容易通过笑声等来插入情感图标,则很方便;而在给上级的邮件等中,难以插入情感图标,或者完全不能插入情感图标,则很方便。因此,应该由用户自身来设定决定非语言部分插入频度的参数。
这里,以语音识别装置2为基础来说明用户校正无用信息声音得分校正部113所用的校正参数w的值的情况。此外,对与语音识别装置2对应的构件附以同一标号,省略其说明。
语音识别装置6是具备语音识别功能的计算机装置,如图13所示,除了包括特征量计算部101、网络词典保存部102、路径计算部103、候选路径保存部104、识别结果输出部105、语言模型保存部106、语言得分计算部107、单词声音模型保存部108、单词声音得分计算部109、无用信息声音模型保存部110、无用信息声音得分计算部111、非语言声音推断部112、无用信息声音得分校正部113、非语言推断用特征量计算部114、非语言声音模型保存部115及高频功率持续帧数计算部116之外,还包括校正参数选择变更部120。
其中,构成这种语音识别装置6的各部分与语音识别装置2同样,除了保存部,都用CPU、保存CPU执行的程序的ROM、在执行程序时提供工作区、或者暂时保存与输入的未知输入语音对应的PCM信号的声音数据等的存储器等来实现。
校正参数选择变更部120在画面上显示增大校正程度的按钮、减小校正程度的按钮、完全不进行校正的按钮这3个按钮,根据用户的选择,来变更无用信息声音得分校正部113所用的式(4)的参数w的值。
首先,校正参数选择变更部120在初始设定等时将校正参数的按钮显示在画面上,使用户按照自身的喜好,来选择校正程度。
接着,校正参数选择变更部120根据用户的选择来变更无用信息声音得分校正部113所用的式(4)的参数w的值。
由此,能够根据用户的嗜好来设定识别结果的非语言部分的插入频度。
其中,校正参数选择变更部120也可以不是显示按钮,而是显示滚动条,使得用户能够指定任意的值;此外,在手机这样画面小、难以使用指点设备的情况下,也可以分派给数字按钮或功能键。
此外,无用信息得分的值根据用户的音质或说话方式来变动,所以为了使用户按自己的说话方式来精度最高地识别包含非语言部分的语音,也可以边实际说话边设定无用信息得分的校正参数。
其中,在本实施方式6中用户只决定了校正参数w,但是用户也可以设定式(1)中的Ns、Ne、式(2)、式(3)、式(5)中的α、β、γ、Rmin、Rmax地来构成。
此外,也可以在语音识别装置1、语音识别装置3、语音识别装置4、语音识别装置5上附加校正参数选择变更部120,来校正参数。
由此,例如容易发出吃音的用户能够通过增大校正程度来提高识别性能;此外,在输入邮件中插入情感图标时,能够在给好友的邮件和给上级的邮件中区分使用情感图标的插入频度。
其中,本发明通过用程序来实现,将其记录到软盘等记录媒体上来移送,能够容易地用其他独立的计算机系统来实施。这里,作为记录媒体,用包含光盘、IC卡及盒式ROM在内的任何记录程序的记录媒体都能够同样地实施。