CN105009206B

CN105009206B - 语音识别装置和语音识别方法

Info

Publication number: CN105009206B
Application number: CN201380074221.7A
Authority: CN
Inventors: 花泽利行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2018-02-09
Anticipated expiration: 2033-03-06
Also published as: JPWO2014136222A1; US20160005400A1; US9431010B2; WO2014136222A1; JP5868544B2; DE112013006770B4; DE112013006770T5; CN105009206A

Abstract

语音识别装置(1)在内部识别部(7)中，对输入语音(2)的语音数据(4)进行使用了声学模型(9)的识别处理，求出内部识别结果(10)和声学似然度。读音赋予部(12)取得由外部识别部(19)对输入语音(2)的语音数据(4)进行识别处理后的外部识别结果(11)，对该语音数据(4)赋予读音，重新对照部(15)使用声学模型(9)，求出外部识别结果(11)的声学似然度，作为重新对照结果(16)。结果确定部(17)对内部识别结果(10)的声学似然度、和重新对照结果(16)所包含的外部识别结果(11)的声学似然度进行比较，确定最终识别结果(18)。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及语音识别装置和语音识别方法，从外部的语音识别部和内部的语音识别部分别得到识别结果，从而确定最终的识别结果。

背景技术

在利用汽车导航装置和智能手机等设备进行语音识别的情况下，这些设备的硬件资源未必充分，因此存在如下这样的客户端/服务器型的语音识别系统：不在设备内执行所有发声的语音识别，而将语音数据发送到外部的服务器，并接收利用该服务器进行语音识别后的结果。另外，这里的客户端是指汽车导航装置和智能手机等位于使用者手中的设备。由此，即使在客户端也能够利用大量词汇的语音识别。但是，客户端所特有的识别词汇、以及仅存在于使用者的地址簿中的固有名词等未必能够由服务器进行识别。

作为其对策，在专利文献1中公开了如下技术：不仅仅是由服务器进行语音识别、由客户端接收结果，根据发声的不同，由客户端和服务器两者进行语音识别，一并记述两者的结果，或者选择任意一个的识别结果。具体而言，在专利文献1中记述了在选择客户端和服务器的识别结果中的任意一个的情况下，选择声学似然度较高的识别结果。

现有技术文献

专利文献

专利文献1：日本特开2010-85536号公报

发明内容

发明要解决的课题

在以往的客户端/服务器型的语音识别方法的情况下，在选择客户端和服务器的识别结果中的任意一个时，需要比较表示两者的识别结果的准确性的数值即识别分数、似然度等，但有时无法从服务器侧得到这些信息。此外，即使能得到，也不保证是按照与客户端侧的语音识别相同的基准计算出的。因此，在选择客户端和服务器的识别结果中的任意一个的情况下，存在有时无法进行准确的比较从而不能得到足够的语音识别精度的课题。

本发明正是为了解决上述的课题而完成的，目的在于得到一种语音识别装置和语音识别方法，在相同的条件下对客户端的识别结果和服务器的识别结果进行比较，从而提高最终的识别精度。

用于解决课题的手段

本发明的语音识别装置具有：声学模型，其是对语音的特征量进行模型化而得到的；语言模型，其储存有作为语音识别装置的识别对象的1个以上的词汇的标写和读音；读音词典，其储存有识别对象和识别对象外的词汇的标写与其读音的对；分析部，其分析输入语音数据来计算特征向量；内部识别部，其使用声学模型，进行分析部计算出的特征向量和语言模型所储存的各词汇之间的模式对照，计算声学似然度，将该声学似然度高的上位的1个以上的词汇的标写、读音和声学似然度作为内部识别结果输出；读音赋予部，其取得通过外部识别部对输入语音数据进行识别处理后的外部识别结果，使用读音词典，赋予针对该外部识别结果的读音，输出由该外部识别结果及其读音构成的读音赋予结果；重新对照部，其使用声学模型，进行分析部计算出的特征向量和读音赋予部输出的读音赋予结果之间的模式对照，计算针对外部识别结果的声学似然度；以及结果确定部，其对内部识别结果的声学似然度和外部识别结果的声学似然度进行比较，确定最终的识别结果。

本发明的语音识别方法包括以下步骤：发送步骤，将输入语音数据发送到外部识别部；分析步骤，分析输入语音数据来计算特征向量；内部识别步骤，使用对语音的特征量进行模型化而得到的声学模型，进行在分析步骤中计算出的特征向量、与储存有作为语音识别装置的识别对象的1个以上的词汇的标写以及读音的语言模型内的该各词汇之间的模式对照，计算声学似然度，并将该声学似然度高的上位的1个以上的词汇的标写、读音和声学似然度作为内部识别结果输出；读音赋予步骤，取得通过外部识别部对输入语音数据进行识别处理后的外部识别结果，使用储存有识别对象和识别对象外的词汇的标写与其读音的对的读音词典赋予针对该外部识别结果的读音，输出由该外部识别结果及其读音构成的读音赋予结果；重新对照步骤，使用声学模型，进行在分析步骤中计算出的特征向量和在读音赋予步骤中输出的读音赋予结果之间的模式对照，计算针对外部识别结果的声学似然度；以及结果确定步骤，对内部识别结果的声学似然度和外部识别结果的声学似然度进行比较，确定最终的识别结果。

发明的效果

根据本发明，能够得到如下的语音识别装置和语音识别方法：使用同一声学模型计算内部识别结果的声学似然度和外部识别结果的声学似然度并进行比较，由此提高最终的识别精度。

附图说明

图1是示出本发明实施方式1的语音识别装置的结构的框图。

图2是说明实施方式1的语音识别装置具有的语言模型的内容例的图。

图3是说明实施方式1的语音识别装置具有的读音词典的内容例的图。

图4是示出实施方式1的语音识别装置的动作的流程图。

图5是作为实施方式1的语音识别装置的变形例而说明英语的读音词典的内容例的图。

图6是示出本发明实施方式2的语音识别装置的结构的框图。

图7是示出实施方式2的语音识别装置的动作的流程图。

图8是说明本发明实施方式3的语音识别装置具有的读音词典的内容例的图。

图9是示出本发明实施方式4的语音识别装置的结构的框图。

图10是说明实施方式4的语音识别装置具有的结果确定用语言模型的内容例的图。

具体实施方式

以下，为了更详细地说明本发明，按照附图说明用于实施本发明的方式。

实施方式1.

如图1所示，本实施方式1的语音识别装置1具有发送部3、分析部5、内部识别部7、语言模型8、声学模型9、读音赋予部12、读音词典13、重新对照部15和重新对照结果16。该语音识别装置1相当于构成客户端/服务器型的语音识别系统的客户端，例如可以组装或搭载到使用者携带的智能手机等便携设备、车辆等移动体所搭载或配备的导航装置等已有的设备，也可以独立使用。

外部识别部19是经由网络与语音识别装置1连接的语音识别服务器。也可以不经由网络，而通过有线或无线方式直接连接。

在语音识别装置1中，声学模型9储存了将语音的特征向量模型化而得到的声学模型。在本实施方式1中，声学模型是对音素进行模型化而得到的，声学模型9中储存了针对所有音素的声学模型。如果存在所有音素的声学模型，则能够通过连接音素的声学模型，对任意词汇的语音的特征向量进行模型化。

另外，声学模型9进行模型化的特征向量(即图1的特征向量6)例如为MFCC(MelFrequency Cepstral Coefficient：梅尔频率倒谱系数)。此外，声学模型例如为HMM(Hidden Markov Model：隐马尔可夫模型)。

语言模型8储存有在内部识别部7中作为识别对象的词汇的标写和读音。另外，这里所说的读音是能够与声学模型9对应的符号的序列。例如，如果声学模型9是对音素进行模型化而得到的，则语言模型8的读音是音素序列等。在本实施方式1中，语音识别装置1的识别对象为神奈川县内的设施名称。图2示出该情况下的语言模型8的内容例。图2中使用了音素的序列作为读音。

读音词典13储存有包括在内部识别部7中不作为识别对象的词汇在内的大量词汇的标写与读音的对。另外，与语言模型8同样，读音是能够与声学模型9对应的符号的序列。在本实施方式1中，读音词典13的读音为音素序列。图3示出该读音词典13的内容例。

这些语言模型8、声学模型9和读音词典13可以存储在公共的存储元件或存储装置等中，也可以分别存储在独立的存储元件或存储装置等中。

此外，将语音识别装置1设为具有存储了程序的存储器和执行该程序的CPU的结构，由CPU执行程序，从而利用软件实现发送部3、分析部5、内部识别部7、读音赋予部12、重新对照部15和结果确定部17具有的功能(具体将后述)，或者也可以利用硬件实现其一部分功能。

接着，参照图4的流程图说明语音识别时的动作。

在步骤ST1中，当使用者发声时，将其发声的输入语音2输入到发送部3。发送部3对输入语音2进行A/D转换，将其转换为语音数据4，输出到分析部5。此外，发送部3将同一语音数据4发送到外部识别部19。

在步骤ST2中，分析部5将语音数据4转换为特征向量6，输出到内部识别部7和重新对照部15。如上所述，特征向量6例如为MFCC。

在步骤ST3中，内部识别部7使用语言模型8和声学模型9，例如按照维特比算法，在特征向量6与语言模型8所记述的各词汇之间进行模式对照(模式匹配)，计算声学似然度，选择声学似然度最高的词汇，作为内部识别结果10输出到结果确定部17。

另外，这里说明内部识别结果10中仅包含声学似然度高的上位的1个词汇的情况，但是不限于此，例如也可以构成为在内部识别结果10中包含声学似然度高的上位的1个以上的各词汇。

该内部识别结果10由词汇的标写、读音和声学似然度构成。例如，在输入语音2为“舞浜国際競技場(まいはまこくさいきょーぎじょー)的情况下，虽然在语言模型8中不存在相同词汇，但输出语言模型8的词汇中的声学似然度最高的词汇。在本例中，假设“横浜国際競技場(よこはまこくさいきょーぎじょー)”的声学似然度最高。因此，内部识别部7输出该词汇的标写“横浜国際競技場”、读音“yokohamakokusaikyoogizyoo”和声学似然度作为内部识别结果10。

在步骤ST4中，读音赋予部12等待从外部识别部19回送外部识别结果11。另外，在本实施方式1中，假设外部识别结果11至少包含作为语音数据4的识别结果的词汇的标写，但不包含该词汇的读音。

当读音赋予部12接收到外部识别结果11时(步骤ST4“是”)，参照读音词典13，提取与外部识别结果11所包含的词汇标写一致的词汇标写的读音，作为读音赋予结果14输出到重新对照部15(步骤ST5)。例如，在外部识别结果11是“舞浜国際競技場”的情况下，读音赋予部12参照读音词典13，提取一致的标写“舞浜国際競技場”和读音“maihamakokusaikyoogizyoo”，作为读音赋予结果14输出。

在步骤ST6中，重新对照部15将特征向量6和读音赋予结果14作为输入，使用与内部识别部7在模式对照中使用的声学模型同一的声学模型，即使用声学模型9，在特征向量6的读音与读音赋予结果14的读音之间进行模式对照，计算相对于读音赋予结果14的声学似然度。假设重新对照部15的模式对照方法为与在内部识别部7中使用的模式对照方法相同。在本实施方式1中，使用维特比算法。

这样，重新对照部15能够通过使用与内部识别部7同一的声学模型以及模式对照方法，比较由内部识别部7计算出的内部识别结果10和由外部识别部19计算出的外部识别结果11的声学似然度。重新对照部15将由读音赋予结果14和计算出的声学似然度构成的重新对照结果16输出到结果确定部17。

在步骤ST7中，结果确定部17将内部识别结果10和重新对照结果16作为输入，按照声学似然度从高到低的顺序对识别结果进行排序，作为最终识别结果18输出。在上述说明例中，输入语音2是“舞浜国際競技場”、内部识别部7的内部识别结果10是“横浜国際競技場”、外部识别部19的外部识别结果11是“舞浜国際競技場”，因此，如果使用同一声学模型9进行模式对照来计算声学似然度，则能够期待外部识别部19的“舞浜国際競技場”的声学似然度较高，有助于改善语音识别精度。

如上所述，根据实施方式1，语音识别装置1构成为具有：声学模型9，其是对语音的特征量进行模型化而得到的；语言模型8，其储存有语音识别装置1的识别对象的1个以上的词汇的标写和读音；读音词典13，其储存有不仅包含识别对象还包含识别对象以外的词汇在内的大量词汇的标写与其读音的对；分析部5，其分析输入语音2的语音数据4来计算特征向量6；内部识别部7，其使用声学模型9，进行分析部5计算出的特征向量6和语言模型8所储存的各词汇之间的模式对照，计算声学似然度，将该声学似然度高的上位的1个以上的词汇的标写、读音和声学似然度作为内部识别结果10输出；读音赋予部12，其取得通过外部识别部19对语音数据4进行识别处理而得到的外部识别结果11，使用读音词典13赋予针对外部识别结果11的读音，输出由外部识别结果11及其读音构成的读音赋予结果14；重新对照部15，其使用声学模型9，进行分析部5计算出的特征向量6和读音赋予部12输出的读音赋予结果14之间的模式对照，计算针对外部识别结果11的声学似然度；以及结果确定部17，其将内部识别结果10的声学似然度与重新对照结果16的声学似然度进行比较，确定最终的识别结果。因此，能够使用与内部识别部7同一的声学模型以及模式对照方法对外部识别结果11求出声学似然度，能够进行外部识别结果11的声学似然度和内部识别结果10的声学似然度的准确比较，能够提高最终的识别精度。因此，例如即使在语音识别装置1的硬件资源不充分、语言模型8的词汇数少的情况下，也能够利用具有大规模的语言模型的外部识别部19的识别结果，具有改善语音识别装置1的识别性能的效果。

另外，本实施方式1的语音识别装置1还能够应用于日语以外的语言。例如，在将语音识别装置1应用于英语的情况下，将语言模型8、声学模型9和读音词典13分别变更为英语用即可。该情况下，在读音词典13中登记大量的英语词汇的标写和读音即可。另外，将读音词典13的读音设为能够与声学模型9对应的标写。例如，如果声学模型9是英语的音素，则将读音词典13的读音设为音素标写、或可转换为音素标写的标号。图5示出英语的读音词典13的例子。在图5的第1列目记载了标写，在第2列记载了音素标写作为其读音。

此外，在读音词典13中，为了消除不存在与外部识别结果11的词汇一致的读音的情况，储存了大量词汇的读音，在即使这样读音词典13中也不存在一致的读音的情况下，预先确定采用内部识别部7和外部识别部19的哪一个的识别结果，结果确定部17将该预先确定的一方的识别结果作为最终结果即可。

实施方式2.

图6是示出本实施方式2的语音识别装置1的结构的框图。在图6中，对与图1相同或对应的部分标注相同标号并省略说明。在本实施方式2的语音识别装置1中，特征在于追加了第2声学模型20。

第2声学模型20与上述实施方式1的声学模型9同样，储存了对语音的特征向量进行模型化而得到的声学模型。但是，第2声学模型20是比声学模型9精密且识别精度高的声学模型。例如，在利用声学模型对音素进行模型化的情况下，设为不仅对作为模型化对象的音素进行模型化，还对考虑了该音素前后的音素的三音音素进行模型化。在三音的情况下，“朝/asa”的第2个音素/s/、和“石/isi/”的第2个音素/s/的前后的音素不同，因此，利用不同的声学模型进行模型化，由此识别精度提高，这是公知的。但是，声学模型的种类增加，因此模式对照时的运算量增加。

接着，参照图7的流程图说明语音识别时的动作。

当使用者发生时，发送部3对输入语音2进行A/D转换，将其转换为语音数据4，输出到分析部5和外部识别部19(步骤ST1)。分析部5和内部识别部7进行与上述实施方式1相同的动作(步骤ST2、ST3)，输出内部识别结果10。但是，在上述实施方式1的步骤ST3中，将内部识别结果10从内部识别部7输出到结果确定部17，但在本实施方式2的步骤ST3中，从内部识别部7输出到重新对照部15。

在步骤ST11中，重新对照部15将特征向量6和内部识别结果10作为输入，使用第2声学模型20在特征向量6的读音与内部识别结果10的读音之间进行模式对照，计算针对内部识别结果10的声学似然度。此时的模式对照方法不需要与内部识别部7使用的方法相同，但在本实施方式2中使用维特比算法。重新对照部15将由内部识别结果10和计算出的声学似然度构成的重新对照结果16a输出到结果确定部17。

另外，如上所述，第2声学模型20与声学模型9相比，模型的种类较多，因此，模式对照所需的处理量增加，但将重新对照部15中的对照对象限定为内部识别结果10所包含的词汇，因此，能够将处理量的增加抑制得较小。

读音赋予部12进行与上述实施方式1相同的动作(步骤ST4、ST5)，求出针对外部识别结果11的读音赋予结果14，输出到重新对照部15。

在步骤ST12中，重新对照部15在被输入读音赋予结果14时，通过与上述实施方式1相同的动作，求出由读音赋予结果14及其声学似然度构成的重新对照结果16，输出到结果确定部17。其中，在模式对照中，采用第2声学模型20。

在步骤ST13中，结果确定部17将针对内部识别结果10的重新对照结果16a和针对外部识别结果11的重新对照结果16作为输入，按照声学似然度从高到低的顺序对识别结果进行排序，作为最终识别结果18输出。

如上所述，根据实施方式2，语音识别装置1构成为具有与声学模型9不同的第2声学模型20，重新对照部15使用第2声学模型20，进行分析部5计算出的特征向量6和内部识别部7输出的内部识别结果10之间的模式对照，计算针对内部识别结果10的声学似然度(重新对照结果16a)，并且进行特征向量6和读音赋予部12输出的读音赋予结果14之间的模式对照，计算针对外部识别结果11的声学似然度(重新对照结果16)，结果确定部17对重新对照部15计算出的内部识别结果10的声学似然度和外部识别结果11的声学似然度进行比较，确定最终的识别结果。因此，通过使用比声学模型9精密且识别精度高的第2声学模型20进行重新对照，外部识别结果11的声学似然度和内部识别结果10的声学似然度的比较更准确，具有改善识别精度的效果。

另外，不在内部识别部7中使用第2声学模型20的理由是：如果在内部识别部7的模式对照中使用第2声学模型20，则模型的种类比声学模型9增加，因此，模式对照时的运算量增加。如本实施方式2这样，声学模型9和第2声学模型20使用不同的模型，从而具有将运算量的增加抑制得较小并提高识别精度的效果。

实施方式3.

本实施方式3的语音识别装置是在附图上与图1或图6所示的语音识别装置1相同的结构，因此，以下引用图1进行说明。在本实施方式3的语音识别装置1中，如后述那样变更读音词典13的内容、以及读音赋予部12和重新对照部15的动作。

图8是示出本实施方式3的语音识别装置1的读音词典13的内容例的图。在本实施方式3的语音识别装置1中，读音词典13除了图3所示的单词和设施名称的词典以外，还储存了图8所示的1个文字单位程度的词汇的词典。通过这样具有1个文字单位程度的小单位的词汇，能够对外部识别结果11的各种标写赋予读音。

接着，说明语音识别时的动作。

当使用者发声时，发送部3对输入语音2进行A/D转换，将其转换为语音数据4，输出到分析部5和外部识别部19。分析部5和内部识别部7进行与上述实施方式1相同的动作，输出内部识别结果10。例如，在输入语音2为“鈴鹿坂(すずかさか)”的情况下，“鈴鹿坂”不存在于语言模型8中，但与语言模型8所记述的各词汇之间进行模式对照，输出声学似然度最高的词汇。在本实施方式3中，假设“鈴木酒店(すずきさけてん)”的声学似然度最高。因此，内部识别部7输出该词汇的标写、读音和声学似然度作为内部识别结果10。

读音赋予部12等待从外部识别部19回送外部识别结果11，在接收到外部识别结果11时，参照图8所示的读音词典13，提取与外部识别结果11所包含的词汇的标写(例如“鈴鹿坂”)一致的标写的读音。在读音词典13中存在多个与外部识别结果11的标写一致的读音的情况下，输出多个读音。此外，当不存在一致的读音时，通过读音词典13中的标写的连接，提取能够构成外部识别结果11的标写的读音。该提取作业例如能够通过以下方式进行：按照分割数最小的基准，对外部识别结果11的标写进行将读音词典13中的所有标写作为对照对象的连续DP(Dynamic Programming：动态规划)匹配。

在本实施方式3的例子中，在读音词典13中不存在与外部识别结果11的“鈴鹿坂”一致的标写，因此，读音赋予部12提取存在于读音词典13中的标写“鈴”“鹿”“坂”。在存在多个针对这样提取出的标写的读音的情况下，提取所有读音的组合。该情况下，“鈴”的读音是“suzu”和“rei”，“鹿”的读音是“sika”和“ka”，各有两个，“坂”的读音是“saka”1个，因此，作为外部识别结果11的“鈴鹿坂”的读音，提取“suzushikasaka”、“reishikasaka”、“suzukasaka”、“reikasaka”这4种读音。然后，读音赋予部12将提取出的4种读音与标写“鈴鹿坂”一起，作为读音赋予结果14输出。

重新对照部15将特征向量6和读音赋予结果14作为输入，使用与内部识别部7在模式对照中使用的声学模型同一的声学模型9，在特征向量6的读音与读音赋予结果14的多个读音之间分别进行模式对照，然后，计算声学似然度最高的读音赋予结果14的读音，作为针对读音赋予结果14的声学似然度。重新对照部15输出由读音赋予结果14和计算出的声学似然度构成的重新对照结果16。

这样，在对于外部识别结果11的词汇的标写，存在多个读音的候选的情况下，能够通过在重新对照部15中对特征向量6和多个读音进行模式对照，确定读音并且计算声学似然度。在上述说明例中，将外部识别结果11的“鈴鹿坂”的4种读音中的、声学似然度最高的读音“suzukasaka”包含于重新对照结果16中。

结果确定部17将内部识别结果10和重新对照结果16作为输入，进行与上述实施方式1相同的动作，按照声学似然度从高到低的顺序对识别结果进行排序，作为最终识别结果18输出。在上述说明例中，输入语音2是“鈴鹿坂”、内部识别部7的内部识别结果10是“鈴木酒店”、外部识别部19的外部识别结果11是“鈴鹿坂”(suzukasaka)，因此，如果使用同一声学模型9进行模式对照来计算声学似然度，则能够期待外部识别部19的“鈴鹿坂”(suzukasaka)的声学似然度较高，有助于改善语音识别。

如上所述，根据实施方式3，构成为，读音赋予结果14在读音词典13中存在多个针对外部识别结果11的读音的候选的情况下，输出赋予了这多个读音的读音赋予结果14，重新对照部15按照读音赋予结果14所包含的每个读音，进行模式对照来计算声学似然度，选择该声学似然度最大的读音，输出到结果确定部17。因此，即使在仅通过外部识别结果11的标写无法唯一地确定读音的情况下，也能够通过由重新对照部15与特征向量6进行模式对照，确定读音并且计算声学似然度，从而具有改善语音识别精度的效果。

此外，针对实施方式3的读音词典13，按照比单词小的单位给出了标写和读音，因此，能够通过其组合生成常用单词的标写，具有找到标写一致的单词的概率增高的优点。另一方面，针对上述实施方式1的读音词典13，按照每个单词给出了标写和读音，因此，具有读音赋予精度高的优点。

另外，在上述实施方式3中，说明了相对于上述实施方式1的语音识别装置1而变更了读音赋予部12和重新对照部15的动作的情况，但针对上述实施方式2的语音识别装置1也同样能够变更读音赋予部12和重新对照部15的动作，对于仅通过外部识别结果11的标写无法唯一地确定读音的情况，具有相同的效果。

实施方式4.

图9是示出本实施方式4的语音识别装置1的结构的框图。在图9中，对与图1以及图6相同或对应的部分标注相同标号并省略说明。在本实施方式4的语音识别装置1中，追加结果确定用语言模型21，并如以下说明那样变更结果确定部17的动作。

作为图9所示的结果确定用语言模型21，只要针对词汇、或多个词汇的排序给出似然度，则能够使用任意的模型。在本实施方式4中，以使用单词的单字(unigram)语言模型作为结果确定用语言模型21的情况为例进行说明。图10示出结果确定用语言模型21的内容例。第一列是词汇的标写，第2列是语言似然度。结果确定用语言模型21是事先使用大量词汇的数据库而生成的。例如，如果是本例的单字语言模型，则根据大量词汇的数据库计算各词汇的出现概率，将出现概率的对数值作为似然度登记到结果确定用语言模型21中。

接着，说明语音识别时的动作。

当使用者发声时，将其发声作为输入，发送部3、分析部5、内部识别部7、读音赋予部12和重新对照部15进行与上述实施方式1相同的动作，从内部识别部7将内部识别结果10输出到结果确定部17，并且从重新对照部15输出重新对照结果16。

结果确定部17参照结果确定用语言模型21，分别对内部识别结果10和重新对照结果16求出语言似然度Sl。例如，如果内部识别结果10的标写为“鈴鹿酒店”，则参照图10的结果确定用语言模型21，语言似然度Sl＝－0.32。同样，如果重新对照结果16的标写为“鈴鹿坂”，则语言似然度Sl＝－0.30。然后，结果确定部17按照下式(1)，分别针对内部识别结果10和重新对照结果16计算综合似然度S。式(1)中的Sa是声学似然度，w是事先通过实验确定的常数，例如w＝10。

S＝Sa+w×Sl (1)

结果确定部17按照综合似然度S从高到低的顺序，将内部识别结果10和重新对照结果16的识别结果进行排序，作为最终识别结果18输出。

如上所述，根据实施方式4，语音识别装置1构成为具有储存了词汇与其语言似然度的对的结果确定用语言模型21，结果确定部17使用结果确定用语言模型21，计算内部识别结果10的语言似然度和重新对照结果16(即外部识别结果11)的语言似然度，对内部识别结果10的声学似然度以及该语言似然度和重新对照结果16的声学似然度以及该语言似然度进行比较，确定最终的识别结果。因此，使用同一结果确定用语言模型21针对内部识别结果10和重新对照结果16计算语言似然度Sl，因此，能够进行考虑了语言似然度Sl的比较，具有改善识别精度的效果。

另外，在上述实施方式4中，说明了使用单词的单字作为结果确定用语言模型21的例子，但是不限于此，也可以使用包含二元词(bigram)和三元词(trigram)等的任意统计语言模型(n-gram)。

此外，在上述实施方式4中，说明了对上述实施方式1的语音识别装置1追加结果确定用语言模型21并变更了结果确定部17的动作的情况，但针对上述实施方式2、3的语音识别装置1，也同样能够追加结果确定用语言模型21并变更结果确定部17的动作。

此外，在上述实施方式1～4中，使用了从1个外部识别部19接收到的外部识别结果11，但也可以使用从多个外部识别部19接收到的多个外部识别结果11。此外，结果确定部17将按照声学似然度等从高到低的顺序排序后的识别结果作为最终识别结果18输出，但不限于此，也可以构成为将声学似然度从高到低的顺序的规定数量的识别结果作为最终识别结果18输出。

除上述以外，本发明能够在其发明范围内进行各实施方式的自由组合、或各实施方式的任意结构要素的变形、或者各实施方式中任意结构要素的省略。

产业上的可利用性

如上所述，本发明的语音识别装置使用同一声学模型计算内部识别结果的声学似然度和外部识别结果的声学似然度并进行了比较，因此，适合用于构成客户端/服务器型的语音识别系统的客户端侧的汽车导航装置和智能手机等。

标号说明

1：语音识别装置；2：输入语音；3：发送部；4：语音数据；5：分析部；6：特征向量；7：内部识别部；8：语言模型；9：声学模型；10：内部识别结果；11：外部识别结果；12：读音赋予部；13：读音词典；14：读音赋予结果；15：重新对照部；16、16a：重新对照结果；17：结果确定部；18：最终识别结果；19：外部识别部；20：第2声学模型；21：结果确定用语言模型。

Claims

1.一种语音识别装置，其得到对输入语音数据进行识别处理后的内部识别结果、和通过存在于外部的1个以上的外部识别部对该输入语音数据进行识别处理后的外部识别结果，确定最终的识别结果，其特征在于，所述语音识别装置具有：

声学模型，其是对语音的特征量进行模型化而得到的；

语言模型，其储存有作为语音识别装置的识别对象的1个以上的词汇的标写和读音；

读音词典，其储存有所述识别对象和所述识别对象外的词汇的标写与其读音的对；

分析部，其分析所述输入语音数据来计算特征向量；

内部识别部，其使用所述声学模型，进行所述分析部计算出的所述特征向量和所述语言模型所储存的各词汇之间的模式对照，计算声学似然度，将该声学似然度高的上位的1个以上的词汇的标写、读音和声学似然度作为内部识别结果输出；

读音赋予部，其取得通过所述外部识别部对所述输入语音数据进行识别处理后的外部识别结果，使用所述读音词典，赋予针对该外部识别结果的读音，输出由该外部识别结果及其读音构成的读音赋予结果；

重新对照部，其使用所述声学模型，进行所述分析部计算出的所述特征向量和所述读音赋予部输出的所述读音赋予结果之间的模式对照，计算针对所述外部识别结果的声学似然度；以及

结果确定部，其对所述内部识别结果的声学似然度和所述外部识别结果的声学似然度进行比较，确定最终的识别结果。

2.根据权利要求1所述的语音识别装置，其特征在于，

所述语音识别装置具有与所述声学模型不同的第2声学模型，

所述重新对照部使用所述第2声学模型，进行所述分析部计算出的所述特征向量和所述内部识别部输出的所述内部识别结果之间的模式对照，计算针对所述内部识别结果的声学似然度，并且进行所述特征向量和所述读音赋予部输出的所述读音赋予结果之间的模式对照，计算针对所述外部识别结果的声学似然度，

所述结果确定部对所述重新对照部计算出的所述内部识别结果的声学似然度和所述外部识别结果的声学似然度进行比较，确定最终的识别结果。

3.根据权利要求1所述的语音识别装置，其特征在于，

当存在多个针对所述外部识别结果的读音的候选时，所述读音赋予部输出赋予了该多个读音的读音赋予结果，

所述重新对照部按照所述读音赋予结果所包含的每个读音，进行模式对照来计算声学似然度，选择该声学似然度最大的读音，输出到所述结果确定部。

4.根据权利要求1所述的语音识别装置，其特征在于，

所述语音识别装置具有结果确定用语言模型，所述结果确定用语言模型储存有词汇与其语言似然度的对，

所述结果确定部使用所述结果确定用语言模型，计算所述内部识别结果的语言似然度和所述外部识别结果的语言似然度，对所述内部识别结果的声学似然度以及语言似然度与所述外部识别结果的声学似然度以及语言似然度进行比较，确定最终的识别结果。

5.根据权利要求4所述的语音识别装置，其特征在于，

所述结果确定用语言模型是统计n-gram语言模型。

6.一种语音识别方法，得到在语音识别装置内对输入语音数据进行识别处理后的内部识别结果、和通过存在于外部的1个以上的外部识别部对该输入语音数据进行识别处理后的外部识别结果，确定最终的识别结果，其特征在于，该语音识别方法包括以下步骤：

发送步骤，将所述输入语音数据发送到所述外部识别部；

分析步骤，分析所述输入语音数据来计算特征向量；

内部识别步骤，使用对语音的特征量进行模型化而得到的声学模型，进行在所述分析步骤中计算出的特征向量、与储存有作为语音识别装置的识别对象的1个以上的词汇的标写以及读音的语言模型内的该各词汇之间的模式对照，计算声学似然度，并将该声学似然度高的上位的1个以上的词汇的标写、读音和声学似然度作为内部识别结果输出；

读音赋予步骤，取得通过所述外部识别部对所述输入语音数据进行识别处理后的外部识别结果，使用储存有所述识别对象和所述识别对象外的词汇的标写与其读音的对的读音词典赋予针对该外部识别结果的读音，输出由该外部识别结果及其读音构成的读音赋予结果；

重新对照步骤，使用所述声学模型，进行在所述分析步骤中计算出的所述特征向量和在所述读音赋予步骤中输出的所述读音赋予结果之间的模式对照，计算针对所述外部识别结果的声学似然度；以及

结果确定步骤，对所述内部识别结果的声学似然度和所述外部识别结果的声学似然度进行比较，确定最终的识别结果。