CN105981099A

CN105981099A - 语音检索装置和语音检索方法

Info

Publication number: CN105981099A
Application number: CN201480074908.5A
Authority: CN
Inventors: 花泽利行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-02-06
Filing date: 2014-02-06
Publication date: 2016-09-28
Also published as: US20160336007A1; WO2015118645A1; JP6188831B2; JPWO2015118645A1; DE112014006343T5

Abstract

具有：识别部(2)，其参照声学模型和学习数据不同的多个语言模型来进行输入语音的语音识别，针对多个语言模型取得识别文字串；文字串对照部(6)，其对照多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典存储部(7)所存储的文字串词典中的检索对象词汇的文字串，计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数，针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数；以及检索结果确定部(8)，其参照所取得的所述文字串对照分数，按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

Description

语音检索装置和语音检索方法

技术领域

本发明涉及针对根据被赋予了语言似然度的多个语言模型得到的识别结果在文字串上与检索对象词汇进行对照处理来取得检索结果的语音检索装置和语音检索方法。

背景技术

以往，作为被赋予了语言似然度的语言模型，几乎都是使用根据后述的学习数据的统计量来计算语言似然度的统计语言模型。在使用统计语言模型的语音识别中，在以对各种词汇和表达方式的发声进行识别为目的的情况下，需要将各种文章用作语言模型的学习数据来构建统计语言模型。但是，如果利用大范围的学习数据来构建单一的统计语言模型，则存在不一定成为最适于识别某一特定话题、例如天气话题的发声的统计语言模型的问题。

作为解决该问题的方法，在非专利文献1中，公开了这样一种技术：将语言模型的学习数据分类成几个话题，使用按照各个话题分类的学习数据来学习统计语言模型，在识别时，使用所有的各个统计语言模型进行识别对照，将识别分数最高的候选作为识别结果。根据该技术，报告了下述情况：在特定话题的发声中，基于所对应的话题的语言模型的识别候选的识别分数变高，识别精度比使用单一的统计语言模型的情况提高。

现有技术文献

非专利文献

非专利文献1:中岛及其他人，“大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法”，情報処理学会論文誌，2004年，Vol.45，No.12

发明内容

发明要解决的课题

可是，在上述的非专利文献1中公开的技术中，存在下述这样的课题：由于使用学习数据不同的多个统计语言模型进行识别处理，因此，无法在学习数据不同的统计语言模型彼此之间严格地对识别分数的计算中所使用的语言似然度进行比较。这是因为，如果统计语言模型例如为单词的三元(trigram)模型，则语言似然度是根据针对识别候选的单词串的三元概率来计算的，但在学习数据不同的语言模型中，即使针对同一单词串，三元概率也会成为不同的值。

本发明是为了解决上述那样的课题而完成的，其目的在于在使用学习数据不同的多个统计语言模型进行识别处理的情况下也取得可比较的识别分数并提高检索精度。

用于解决问题的手段

本发明的语音检索装置具有：识别部，其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别，按照多个语言模型的各个语言模型取得识别文字串；文字串词典存储部，其存储文字串词典，该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息；文字串对照部，其对照识别部所取得的多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典中的检索对象词汇的文字串，计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数，针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数；以及检索结果确定部，其参照文字串对照部所取得的文字串对照分数，按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

发明的效果

根据本发明，在使用学习数据不同的多个语言模型进行了输入语音的识别处理的情况下，也能够得到对于各个语言模型能够互相进行比较的识别分数，能够提高语音检索的检索精度。

附图说明

图1是示出实施方式1的语音检索装置的结构的框图。

图2是示出实施方式1的语音检索装置的文字串词典的生成方法的图。

图3是示出实施方式1的语音检索装置的动作的流程图。

图4是示出实施方式2的语音检索装置的结构的框图。

图5是示出实施方式2的语音检索装置的动作的流程图。

图6是示出实施方式3的语音检索装置的结构的框图。

图7是示出实施方式3的语音检索装置的动作的流程图。

图8是示出实施方式4的语音检索装置的结构的框图。

图9是示出实施方式4的语音检索装置的动作的流程图。

具体实施方式

以下，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1.

图1是示出本发明的实施方式1的语音检索装置的结构的框图。

语音检索装置100由声学分析部1、识别部2、第1语言模型存储部3、第2语言模型存储部4、声学模型存储部5、文字串对照部6、文字串词典存储部7和检索结果确定部8构成。

声学分析部1进行输入语音的声学分析，转换为特征向量的时间序列。特征向量例如是MFCC(Mel Frequency Cepstral Coefficient：梅尔频率倒谱系数)的1～N维的数据。N的值例如是16。

识别部2使用存储于第1语言模型存储部3的第1语言模型和存储于第2语言模型存储部4的第2语言模型以及存储于声学模型存储部5的声学模型进行识别对照，由此，取得最接近输入语音的文字串。更详细地说，识别部2例如使用维特比算法对声学分析部1转换的特征向量的时间序列进行识别对照，取得相对于各个语言模型识别分数最高的识别结果，输出作为识别结果的文字串。

另外，在本实施方式1中，以将文字串设定为表示识别结果的发音的音节串的情况为例进行说明。此外，假设识别分数是根据使用声学模型通过维特比算法而计算出的声学似然度与使用语言模型计算出的语言似然度的加权和计算出的。

如上所述，虽然识别部2还计算识别分数，该识别分数是使用声学模型针对各个文字串计算出的声学似然度与使用语言模型计算出的语言似然度的加权和，但即使基于各个语言模型的识别结果的文字串相同，识别分数也会成为不同的值。这是由下述情况导致的：在相同的识别结果的文字串的情况下，虽然声学似然度在两个语言模型中是相同的，但语言似然度在各个语言模型中取不同的值。因此，基于各个语言模型的识别结果的识别分数不是能够严格地进行比较的值。因此，在本实施方式1中，其特征在于，在后述的文字串对照部6中计算能够在两个语言模型之间进行比较的分数，检索结果确定部8确定最终的检索结果。

第1语言模型存储部3和第2语言模型存储部4对作为检索对象的名称进行词素解析，将名称分解为单词的串，存储作为单词串的统计语言模型而生成的语言模型。另外，在进行语音检索之前预先生成第1语言模型和第2语言模型。

举出具体例进行说明，在检索对象例如是称作“那智の滝”的设施的名称的情况下，分解为“那智”、“の”和“滝”这3个单词的串，生成统计语言模型。另外，虽然在本实施方式1中设定为单词的三元模型，但也可以使用二元词(bigram)或单字(unigram)等任意的语言模型来构成。通过将设施名称分解为各个单词的串，在发声为“那智滝”等未以正确的设施名称进行的情况下，也能够进行语音识别。

声学模型存储部5存储有将语音的特征向量模型化而成的声学模型。作为声学模型，例如可以列举出HMM(Hidden Markov Model：隐马尔可夫模型)等。文字串对照部6参照存储于文字串词典存储部7的文字串词典，对从识别部2输出的识别结果的文字串进行对照处理。对照处理由识别结果的文字串的开头的音节开始依次参照文字串词典的倒置文件来进行，在包含该语音的设施的文字串对照分数上加“1”。进行该处理直至识别结果的文字串的最终音节为止。针对识别结果的各个文字串，将文字串对照分数最高的名称与文字串对照分数一起输出。

文字串词典存储部7存储有由以音节作为索引词的倒置文件构成的文字串词典。倒置文件例如由赋予了ID编号的设施名称的音节串生成。在进行语音检索之前预先生成文字串词典。

在此，参照图2对倒置文件的生成方法具体进行说明。

图2(a)用“ID编号”、“假名汉字标记”、“音节标记”和“语言模型”示出设施名称。图2(b)示出了根据图2(a)所示的设施名称的信息生成的文字串词典的一例。在图2(b)中，作为“索引词”的各个音节与包含该音节的名称的ID编号相关联。在图2所示的示例的情况下，预先使用检索对象和所有的设施名称生成倒置文件。

检索结果确定部8参照由文字串对照部6输出的文字串对照分数，按照文字串对照分数从高到低的顺序对识别结果的文字串进行排序，从文字串对照分数的高位开始依次将1个以上的文字串作为检索结果输出。

接下来，参照图3对语音检索装置100的动作进行说明。图3是示出本发明的实施方式1的语音检索装置的动作的流程图。

生成第1语言模型、第2语言模型和文字串词典，分别存储于第1语言模型存储部3、第2语言模型存储部4和文字串词典存储部7(步骤ST1)。接下来，在进行了语音输入(步骤ST2)时，声学分析部1进行输入语音的声学分析，转换为特征向量的时间序列(步骤ST3)。

识别部2针对在步骤ST3中转换的特征向量的时间序列，使用第1语言模型、第2语言模型和声学模型进行识别对照，计算识别分数(步骤ST4)。进而，识别部2参照在步骤ST4中计算出的识别分数，取得相对于第1语言模型识别分数最高的识别结果、以及相对于第2语言模型识别分数最高的识别结果(步骤ST5)。另外，假设在步骤ST5中所取得的识别结果为文字串。

文字串对照部6针对在步骤ST5中所取得的识别结果的文字串，参照文字串词典存储部7中所存储的文字串词典进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出(步骤ST6)。接下来，检索结果确定部8使用在步骤ST6中输出的文字串和文字串对照分数，按照文字串对照分数从高到低的顺序对文字串进行排序，确定并输出检索结果(步骤ST7)，结束处理。

接下来，例举具体例对图3中所示的流程图更加详细地进行说明。以下，以如下这样的情况为例进行说明：将日本全国的设施和观光景点的名称(以下，称作设施)看作由若干个单词组成的文本文档，以设施名称为检索对象。不是通过通常的单词语音识别来实施设施名称检索，而是通过文本检索的体制(scheme)实施设施名称检索，由此，在用户未正确地记忆检索对象的设施名称的情况下，也能够利用文本的部分一致来检索设施名称。

首先，在步骤ST1中，生成以作为第1语言模型的全国的设施名称为学习数据的语言模型，生成以作为第2语言模型的神奈川县的设施名称为学习数据的语言模型。上述的语言模型是这样的语言模型：虽然多数情况是该语音检索装置100的用户位于神奈川县并检索神奈川县内的设施，但假设有时还检索其它地域的设施。此外，生成图2(b)所示的词典作为文字串词典，由文字串词典存储部7存储。

在此，在本例中，对输入语音的发声内容是“碁鎖家具(ごくさりかぐ)”且该设施在神奈川县内只有一户、是稀有的名称的情况进行说明。在步骤ST2的语音输入的发声内容例如是“碁鎖家具(ごくさりかぐ)”的情况下，在步骤ST3中，对“碁鎖家具(ごくさりかぐ)”进行声学分析，在步骤ST4中，进行识别对照。进而，在步骤ST5中，取得以下的识别结果。

假设针对第1语言模型的识别结果是文字串“ko，ku，sa，i，ka，gu”。其中，文字串中的“，”是表示音节分隔的符号。这是因为，如前文所述，第1语言模型是以全国的设施名称为学习数据而生成的统计语言模型，因此，根据三元概率计算出的语言似然度变低，所以，学习数据中的相对出现频率较低的词汇存在不易识别的倾向。假设为，其结果是，使用第1语言模型的识别结果误识别为“国際家具(こくさいかぐ)”。

另一方面，假设针对第2语言模型的识别结果是文字串“go，ku，sa，ri，ka，gu”。这是因为，如前文所述，第2语言模型是以神奈川县的设施名称为学习数据而生成的统计语言模型，因此，第2语言模型的学习数据的总数远远少于第1语言模型的学习数据的总数，“碁鎖家具”相对于第2语言模型中的学习数据整体的相对出现频率大于第1语言模型中的出现频率，语言似然度变高。

这样，在步骤ST5中，识别部2取得基于第1语言模型的识别结果的文字串Txt(1)＝“ko，ku，sa，i，ka，gu”以及基于第2语言模型的识别结果的文字串Txt(2)＝“go，ku，sa，ri，ka，gu”。

接下来，在步骤ST6中，文字串对照部6针对使用第1语言模型的识别结果的文字串“ko，ku，sa，i，ka，gu”以及使用第2语言模型的识别结果的文字串“go，ku，sa，ri，ka，gu”，使用文字串词典进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出。

具体说明针对上述文字串的对照处理，构成使用第1语言模型的识别结果的文字串“ko，ku，sa，i，ka，gu”的6个音节中的ko，ku，ka，gu这4个音节包含在“国産家具センター”的音节串“ko，ku，saN，ka，gu，seN，taa”中，因此，文字串对照分数为“4”，成为最高的文字串对照分数。另一方面，构成使用第2语言模型的识别结果的文字串的“go，ku，sa，ri，ka，gu”的6个音节全部包含在“碁鎖家具店”的音节串“go，ku，sa，ri，ka，gu，teN”中，因此，文字串对照分数为“6”，成为最高的文字串对照分数。

根据该结果，文字串对照部6输出文字串“国産家具センター”和文字串对照分数S(1)＝4作为与第1语言模型对应的对照结果，输出文字串“碁鎖家具店”和文字串对照分数S(2)＝6作为与第2语言模型对应的对照结果。

在此，S(1)是针对基于第1语言模型的文字串Txt(1)的文字串对照分数，S(2)是针对基于第2语言模型的文字串Txt(2)的文字串对照分数。针对输入到文字串对照部6的文字串Txt(1)和文字串Txt(2)，以相同的基准计算文字串对照分数，因此，能够根据所计算出的文字串对照分数比较检索结果的似然度。

接下来，在步骤ST7中，检索结果确定部8使用所输入的文字串“国産家具センター”和文字串对照分数S(1)＝4、以及文字串“碁鎖家具店”和文字串对照分数S(2)＝6，按照文字串对照分数从高到低的顺序对文字串进行排序，输出第1位是“碁鎖家具店”、第2位是“国産家具センター”的检索结果。这样，即使是出现频率低的设施名称，也能够进行检索。

接下来，以输入语音的发声内容是神奈川县外的设施的情况为例进行说明

在步骤ST2的语音输入的发声内容例如是“那智の滝”的情况下，在步骤ST3中，对“那智の滝”进行声学分析，在步骤ST4中，进行识别对照。进而，在步骤ST5中，识别部2取得识别结果的文字串Txt(1)和文字串Txt(2)。在此，文字串与上述相同，是表示识别结果的发声的音节串。

具体地说明在步骤ST5中取得的识别结果。针对第1语言模型的识别结果为文字串“na，ci，no，ta，ki”。其中，文字串中的“，”是表示音节的分隔的符号。这是因为，如前文所述，第1语言模型是以全国的设施名称为学习数据而生成的统计语言模型，因此，“那智”和“滝”较多地存在于学习数据中，步骤ST2的发声内容被正确地识别，识别结果为“那智の滝”。

另一方面，针对第2语言模型的识别结果为文字串“ma，ci，no，e，ki”。这是因为，如前文所述，第2语言模型是以神奈川县的设施名称为学习数据而生成的统计语言模型，因此，识别词汇中不存在“那智”，识别结果成为“町の駅”。这样，在步骤ST5中，取得基于第1语言模型的识别结果的文字串Txt(1)＝“na，ci，no，ta，ki”以及基于第2语言模型的识别结果的文字串Txt(2)＝“ma，ci，no，e，ki”。

接下来，作为步骤ST6，文字串对照部6针对使用第1语言模型的识别结果的文字串“na，ci，no，ta，ki”以及使用第2语言模型的识别结果的文字串“ma，ci，no，e，ki”进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出。

具体地说明针对上述文字串的对照处理，构成使用第1语言模型的识别结果的文字串“na，ci，no，ta，ki”的5个音节中的所有音节包含在“那智の滝”的音节串“na，ci，no，ta，ki”中，因此，文字串对照分数为“5”，成为最高的文字串对照分数。另一方面，构成使用第2语言模型的识别结果的文字串“ma，ci，no，e，ki”的6个音节中的ma，ci，e，ki这4个音节包含在“町場駅”的音节串“ma，ci，ba，e，ki”中，因此，文字串对照分数为“4”，成为最高的文字串对照分数。

根据该结果，文字串对照部6输出文字串“那智の滝”和文字串对照分数S(1)＝5作为与第1语言模型对应的对照结果，输出文字串“町場駅”和文字串对照分数S(2)＝4作为与第2语言模型对应的对照结果。

接下来，在步骤ST7中，检索结果确定部8使用所输入的文字串“那智の滝”和文字串对照分数S(1)＝5、以及文字串“町場駅”和文字串对照分数S(2)＝4，按照文字串对照分数从高到低的顺序对文字串进行排序，输出第1位是“那智の滝”、第2位是“町場駅”的检索结果。这样，对于第2语言模型内不存在的设施名称也能够高精度地进行检索。

如上所述，根据本实施方式1，构成为具有：识别部2，其取得作为与第1语言模型以及第2语言模型分别对应的识别结果的文字串；文字串对照部6，其参照文字串词典计算识别部2所取得的文字串的文字串对照分数；以及检索结果确定部8，其根据文字串对照分数进行文字串的排序而确定检索结果，因此，在使用学习数据不同的多个的语言模型进行识别处理的情况下也能够得到可比较的文字串对照分数，能够提高检索精度。

另外，在上述实施方式1中，示出了使用2个语言模型的示例，但是也可以使用3个以上的语言模型。例如，还可以构成为，除上述的第1语言模型和第2语言模型外，例如生成并使用以东京都的设施名称为学习数据的第3语言模型。

另外，在上述实施方式1中，示出了文字串对照部6采用使用倒置文件的对照方式的结构，但是也可以构成为将文字串作为输入来计算对照分数的任意方式。例如，可以将文字串的DP匹配作为对照方式来使用。

另外，在上述实施方式1中，示出了对第1语言模型存储部3和第2语言模型存储部4分配1个识别部2的结构，但也可以构成为对各个语言模型分别分配不同的识别部。

实施方式2.

图4是示出本发明的实施方式2的语音检索装置的结构的框图。

在实施方式2的语音检索装置100a中，识别部2a除了向检索结果确定部8a输出作为识别结果的文字串外，还向检索结果确定部8a输出该文字串的声学似然度和语言似然度。除了使用文字串对照分数外，检索结果确定部8a还使用声学似然度和语言似然度来确定检索结果。

以下，对与根据实施方式1的语音检索装置100的构成要素相同或相应的部分，标记与图1中所使用的标号相同的标号，并省略或简化说明。

识别部2a与实施方式1相同地进行识别对照处理，取得相对于各个语言模型识别分数最高的识别结果，向文字串对照部6输出作为识别结果的文字串。在此，与实施方式1相同，文字串是表示识别结果的发音的音节串。

此外，识别部2a向检索结果确定部8a输出与在针对第1语言模型的识别对照处理的过程中计算出的识别结果的文字串相应的声学似然度和语言似然度、以及与在针对第2语言模型的识别对照处理的过程中计算出的识别结果的文字串相应的声学似然度和语言似然度。

检索结果确定部8a对在实施方式1中所示的文字串对照分数、与从识别部2a输出的文字串相应的语言似然度以及声学似然度这3个值中的至少2个以上的值进行加权求和，从而计算综合分数。按照所计算出的综合分数从高到低的顺序对识别结果的文字串进行排序，从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。

更详细地进行说明，检索结果确定部8a将从文字串对照部6输出的针对第1语言模型的文字串对照分数S(1)和针对第2语言模型的文字串对照分数S(2)、针对第1语言模型的识别结果的声学似然度Sa(1)和语言似然度Sg(1)以及针对第2语言模型的识别结果的声学似然度Sa(2)和语言似然度Sg(2)作为输入，使用以下所示的式(1)计算综合分数ST(i)。

ST(i)＝S(i)+wa＊Sa(i)+wg＊Sg(i)···(1)

在式(1)中，在本实施方式2的示例中，i＝1或2，ST(1)是与第1语言模型对应的检索结果的综合分数，ST(2)是与第2语言模型对应的检索结果的综合分数。wa和wg是预先确定的0以上的常数。此外，虽然wa或wg的任意一方也可以是0，但是，将wa和wg都设定成不是0的值。这样，根据式(1)计算综合分数ST(i)，进而，按照综合分数从高到低的顺序对识别结果的文字串进行排序，从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。

接下来，参照图5对实施方式2的语音检索装置100a的动作进行说明。图5是示出本发明的实施方式2的语音检索装置的动作的流程图。另外，对与实施方式1的语音检索装置相同的步骤，标记与图3中所使用的标号相同的标号，省略或简化说明。

与实施方式1相同地进行从步骤ST1至步骤ST4的处理，识别部2a取得作为识别结果最高的识别结果的文字串，并且取得在步骤ST4的识别对照的过程中计算出的针对第1语言模型的文字串的声学似然度Sa(1)和语言似然度Sg(1)、针对第2语言模型的文字串的声学似然度Sa(2)和语言似然度Sg(2)(步骤ST11)。在步骤ST11中取得的文字串被输出至文字串对照部6，声学似然度Sa(i)和语言似然度Sg(i)被输出至检索结果确定部8a。

文字串对照部6针对在步骤ST11中所取得的识别结果的文字串进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出(步骤ST6)。接下来，检索结果确定部8a使用在步骤ST11中取得的针对第1语言模型的声学似然度Sa(1)和语言似然度Sg(1)以及针对第2语言模型的声学似然度Sa(2)和语言似然度Sg(2)计算综合分数ST(i)(步骤ST12)。进而，检索结果确定部8a使用在步骤ST6中输出的文字串和在步骤ST12中计算出的综合分数ST(i)(ST(1)、ST(2))，按照综合分数ST(i)从高到低的顺序对文字串进行排序，确定并输出检索结果(步骤ST13)，结束处理。

如上所述，根据本实施方式2，构成为具有：识别部2a，其取得作为识别结果最高的识别结果的文字串，并且取得针对各个语言模型的文字串的声学似然度Sa(i)和语言似然度Sg(i)；和检索结果确定部8a，其使用考虑了所取得的声学似然度Sa(i)和语言似然度Sg(i)的值而计算出的综合分数ST(i)确定检索结果，因此，能够反映出语音识别结果的似然度，能够提高检索精度。

实施方式3.

图6是示出本发明的实施方式3的语音检索装置的结构的框图。

实施方式3的语音检索装置100b与实施方式2中所示的语音检索装置100a相比较，仅具有第2语言模型存储部4，不具有第1语言模型存储部3。因此，使用外部识别装置200来进行使用第1语言模型的识别处理。

以下，对与实施方式2的语音检索装置100a的构成要素相同或相应的部分，标记与图4中所使用的标号相同的标号，省略或简化说明。

外部识别装置200例如能够由具有较高计算能力的服务器等构成，通过使用存储于第1语言模型存储部201的第1语言模型和存储于声学模型存储部202的声学模型进行识别对照，取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100b的文字串对照部6a，将该文字串的声学似然度和语言似然度输出至语音检索装置100b的检索结果确定部8b。

第1语言模型存储部201和声学模型存储部202例如存储有与在实施方式1和实施方式2中所示的第1语言模型存储部3以及声学模型存储部5相同的语言模型和声学模型。

识别部2a通过使用存储于第2语言模型存储部4的第2语言模型和存储于声学模型存储部5的声学模型进行识别对照，取得最接近由声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100b的文字串对照部6a，将声学似然度和语言似然度输出至语音检索装置100b的检索结果确定部8b。

文字串对照部6a参照存储于文字串词典存储部7的文字串词典对从识别部2a输出的识别结果的文字串和从外部识别装置200输出的识别结果的文字串进行对照处理。针对识别结果的各个文字串，将文字串对照分数最高的名称与文字串对照分数一起输出至检索结果确定部8b。

检索结果确定部8b将从文字串对照部6a输出的文字串对照分数、从识别部2a和外部识别装置200输出的针对文字串的声学似然度Sa(i)和语言似然度Sg(i)这3个值中的至少2个以上的值进行加权求和，计算综合分数ST(i)。按照所计算出的综合分数从高到低的顺序对识别结果的文字串进行排序，从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。

接下来，参照图7对实施方式3的语音检索装置100b的动作进行说明。图7是示出本发明的实施方式3的语音检索装置和外部识别装置的动作的流程图。另外，对与实施方式2的语音检索装置相同的步骤，标记与图5中所使用的标号相同的标号，并省略或简化说明。

声学检索装置100b生成第2语言模型和文字串词典，存储于第2语言模型存储部4和文字串词典存储部7中(步骤ST21)。假设外部识别装置200所参照的第1语言模型是预先生成的。接下来，向声学检索装置100b进行语音输入(步骤ST2)，声学分析部1进行输入语音的声学分析，转换为特征向量的时间序列(步骤ST3)。转换的特征向量的时间序列被输出至识别部2a和外部识别装置200。

识别部2a针对在步骤ST3中转换的特征向量的时间序列，使用第2语言模型和声学模型进行识别对照，计算识别分数(步骤ST22)。识别部2a参照在步骤ST22中计算的识别分数，取得作为相对于第2语言模型识别分数最高的识别结果的文字串，并且取得在步骤ST22的识别对照的过程中计算出的针对第2语言模型的文字串的声学似然度Sa(2)和语言似然度Sg(2)(步骤ST23)。另外，在步骤ST23中取得的文字串被输出至文字串对照部6a，声学似然度Sa(2)和语言似然度Sg(2)被输出至检索结果确定部8b。

与步骤ST22以及步骤ST23的处理并列地，外部识别装置200针对在步骤ST3中转换的特征向量的时间序列，使用第1语言模型和声学模型进行识别对照，计算识别分数(步骤ST31)。外部识别装置200参照在步骤ST31中计算出的识别分数，取得作为相对于第1语言模型识别分数最高的识别结果的文字串，并且取得在步骤ST31的识别对照的过程中计算出的针对第1语言模型的文字串的声学似然度Sa(1)和语言似然度Sg(1)(步骤ST32)。另外，在步骤ST32中取得的文字串被输出至文字串对照部6a，声学似然度Sa(1)和语言似然度Sg(1)被输出至检索结果确定部8b。

文字串对照部6a针对在步骤ST23中所取得的文字串和在步骤ST32中所取得的文字串进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出至检索结果确定部8b(步骤ST25)。检索结果确定部8b使用在步骤ST23中取得的针对第2语言模型的声学似然度Sa(2)和语言似然度Sg(2)以及在步骤ST32中取得的针对第1语言模型的声学似然度Sa(1)和语言似然度Sg(1)计算综合分数ST(i)(ST(1)、ST(2)(步骤ST26)。进而，检索结果确定部8b使用在步骤ST25中输出的文字串和在步骤ST26中计算出的综合分数ST(i)，按照综合分数ST(i)从高到低的顺序对文字串进行排序，确定并输出检索结果(步骤ST13)，结束处理。

如上所述，根据本实施方式3，构成为，外部识别装置200进行针对一部分的语言模型的识别处理，因此，通过将外部识别装置设置在例如计算能力较高的服务器等中，能够使得语音检索装置100高速地执行识别处理。

另外，在上述的实施方式中，示出了使用2个语言模型、外部识别装置200针对1个语言模型的文字串进行识别处理的示例，但也可以使用3个以上的语言模型，只要构成为外部识别装置针对至少1个以上的语言模型的文字串执行识别处理即可。

实施方式4.

图8是示出本发明的实施方式4的语音检索装置的结构的框图。

实施方式4的语音检索装置100c与实施方式3中所示的语音检索装置100b相比，追加设置有声学似然度计算部9以及存储有与上述的声学模型不同的新声学模型的高精度声学模型存储部10。

以下，对与实施方式3的语音检索装置100b的构成要素相同或相应的部分，标记与图6中所使用的标号相同的标号，并省略或简化说明。

识别部2b通过使用存储于第2语言模型存储部4的第2语言模型和存储于声学模型存储部5的声学模型进行识别对照，取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100c的文字串对照部6a，将语言似然度输出至语音检索装置100c的检索结果确定部8c。

外部识别装置200a通过使用存储于第1语言模型存储部201的第1语言模型和存储于声学模型存储部202的声学模型进行识别对照，取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100c的文字串对照部6a，将该文字串的语言似然度输出至语音检索装置100c的检索结果确定部8c。

声学似然度计算部9根据从声学分析部1输入的特征向量的时间序列、从识别部2b输入的识别结果的文字串和从外部识别装置200a输入的识别结果的文字串，使用存储于高精度声学模型存储部10中的高精度声学模型，例如利用维特比算法进行声学模式对照，计算针对从识别部2b输出的识别结果的文字串和从外部识别装置200a输出的识别结果的文字串的对照声学似然度。所计算出的对照声学似然度被输出至检索结果确定部8c。

高精度声学模型存储部10存储比实施方式1至实施方式3中所示的声学模型存储部5所存储的声学模型更精密且识别精度更高的声学模型。例如，在存储对单音或双音音素进行模型化而得到的声学模型作为声学模型存储部5存储的声学模型的情况下，高精度声学模型存储部10存储对考虑到前后的音素的差异的三音节音素进行模型化而得到的声学模型。已知在三音节的情况下，由于“朝(/asa/)”的第2个音素“/s/”与“石(/isi/)”的第2个音素“/s/”的前后的音素不同，因此，要用不同的声学模型进行模型化，由此提高了识别精度。

但是，由于声学模型的种类增加，因此，声学似然度计算部9参照高精度声学模型存储部10来对照声学模式时的运算量增加。但是，由于声学似然度计算部9中的对照对象限定于从识别部2b输入的识别结果的文字串和从外部识别装置200a输出的识别结果的文字串中包含的词汇，因此，能够抑制处理量增加。

检索结果确定部8c对从文字串对照部6a输出的文字串对照分数、针对从识别部2b和外部识别装置200a输出的2个文字串的语言似然度Sg(i)和针对从声学似然度计算部9输出的2个文字串的对照声学似然度Sa(i)中的至少2个以上的值进行加权和，计算综合分数ST(i)。按照所计算出的综合分数ST(i)从高到低的顺序对识别结果的文字串进行排序，从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。

接下来，参照图9对实施方式4的语音检索装置100c的动作进行说明。图9是示出本发明的实施方式4的语音检索装置和外部识别装置的动作的流程图。另外，对与实施方式3的语音检索装置相同的步骤，标记与图7中所使用的标号相同的标号，并省略或简化说明。

与实施方式3相同地，在进行了步骤ST21、步骤ST2和步骤ST3的处理时，在步骤ST3中转换的特征向量的时间序列除了被输出至识别部2b和外部识别装置200a，还被输出至声学似然度计算部9。

识别部2b进行步骤ST22和步骤ST23的处理，将在步骤ST23中取得的文字串输出至文字串对照部6a，将语言似然度Sg(2)输出至检索结果确定部8c。另一方面，外部识别装置200a进行步骤ST31和步骤ST32的处理，将在步骤ST32中取得的文字串输出至文字串对照部6a，将语言似然度Sg(1)输出至检索结果确定部8c。

声学似然度计算部9根据在步骤ST3中转换的特征向量的时间序列、在步骤ST23中取得的文字串和在步骤ST32中取得的文字串，使用高精度声学模型存储部10所存储的高精度声学模型进行声学模式对照，计算对照声学似然度Sa(i)(步骤ST43)。接下来，文字串对照部6a针对在步骤ST23中所取得的文字串和在步骤ST32中所取得的文字串进行对照处理，将文字串对照分数最高的文字串与文字串对照分数一起输出至检索结果确定部8c(步骤ST25)。

检索结果确定部8c使用在步骤ST23中计算出的针对第2语言模型的语言似然度Sg(2)、在步骤ST32中计算出的针对第1语言模型的语言似然度Sg(1)以及在步骤ST43中计算出的对照声学似然度Sa(i)来计算综合分数ST(i)(步骤ST44)。进而，检索结果确定部8c使用在步骤ST25中输出的文字串和在步骤ST41中计算出的综合分数ST(i)，按照综合分数ST(i)从高到低的顺序对文字串进行排序，作为检索结果而输出(步骤ST13)，结束处理。

如上所述，根据本实施方式4，构成为具有声学似然度计算部9，其使用识别精度比识别部2b所参照的声学模型高的声学模型来计算对照声学似然度Sa(i)，因此，能够更加正确地进行检索结果确定部8b中的声学似然度的比较，能够提高检索精度。

另外，在上述的实施方式4中，虽然示出了识别部2b所参照的声学模型存储部5所存储的声学模型与外部识别装置200a所参照的声学模型存储部202所存储的声学模型相同的情况，但也可以构成为参照各不相同的声学模型。这是因为，即使识别部2b所参照的声学模型与外部识别装置200a所参照的声学模型不同，在声学似然度计算部9中也再次计算对照声学似然度，因此，能够严格地对针对识别部2b的识别结果的文字串的声学似然度与针对外部识别装置200a的识别结果的文字串的声学似然度进行比较。

此外，在上述的实施方式4中，虽然示出了使用外部识别装置200a的结构，但语音检索装置100c内的识别部2b也可以参照第1语言模型存储部来进行识别处理，也可以构成为，在语音检索装置100c内设置新的识别单元，由该识别单元参照第1语言模型存储部来进行识别处理。

另外，在上述的实施方式4中，虽然示出了使用外部识别装置200a的结构，但还可以应用于不使用外部识别装置而是在语音检索装置内进行所有的识别处理的结构。

另外，在上述的实施方式2至实施方式4中，示出了使用2个语言模型的示例，但是也可以使用3个以上的语言模型。

此外，在上述的实施方式1至实施方式4中，也可以构成为，将多个语言模型分成2个以上的组，并针对2个以上组分别分配识别部2、2a、2b的识别处理。这意味着，将识别处理分配到多个语音识别引擎(识别部)来并列地进行识别处理。由此，能够高速地进行识别处理。此外，如实施方式4的图8中所示，可以使用具有强大的CPU能力的外部识别装置。

并且，本申请发明能够在其发明的范围内对各实施方式进行自由的组合、或进行各实施方式的任意的结构要素的变形、或在各实施方式中进行任意的结构要素的省略。

产业上的可利用性

如上所述，本发明的语音检索装置和语音检索方法能够应用于具有语音识别功能的各种设备，在进行了出现频率低的文字串的输入的情况下，也能够提供高精度且最佳的语音识别结果。

标号说明

1：声学分析部；2、2a、2b：识别部；3：第1语言模型存储部；4：第2语言模型存储部；5：声学模型存储部；6、6a：文字串对照部；7：文字串词典存储部；8、8a、8b、8c：检索结果确定部；9：声学似然度计算部；10：高精度声学模型存储部；100、100a、100b、100c：语音检索装置；200：外部识别装置；201：第1语言模型存储部；202：声学模型存储部。

Claims

1.一种语音检索装置，其中，所述语音检索装置具有：

识别部，其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别，按照所述多个语言模型中的每个语言模型取得识别文字串；

文字串词典存储部，其存储文字串词典，该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息；

文字串对照部，其对所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照，计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数，针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数；以及

检索结果确定部，其参照所述文字串对照部所取得的所述文字串对照分数，按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

2.根据权利要求1所述的语音检索装置，其特征在于，

所述识别部取得所述识别文字串的声学似然度和语言似然度，

所述检索结果确定部计算综合分数，按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出，其中，所述综合分数是所述文字串对照部所取得的文字串对照分数、所述识别部所取得的声学似然度、语言似然度中的2个以上的值的加权和。

3.根据权利要求1所述的语音检索装置，其特征在于，

所述语音检索装置具有声学似然度计算部，该声学似然度计算部参照识别精度比所述识别部所参照的所述声学模型高的高精度声学模型，进行所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与所述输入语音之间的声学模式对照，计算对照声学似然度，

所述识别部取得所述识别文字串的语言似然度，

所述检索结果确定部计算综合分数作为所述文字串对照部所取得的文字串对照分数、所述声学似然度计算部所计算出的对照声学似然度、所述识别部所取得的语言似然度中的2个以上的值的加权和，按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

4.根据权利要求1所述的语音检索装置，其特征在于，

所述语音检索装置将所述多个语言模型分成2个以上的组，对所述2个以上组分别分配所述识别部的识别处理。

5.一种语音检索装置，其中，所述语音检索装置具有：

识别部，其参照声学模型和至少1个以上的语言模型，进行输入语音的语音识别，按照每个所述语言模型取得识别文字串；

文字串对照部，其取得外部识别文字串，对所取得的外部识别文字串以及所述识别部所取得的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照，计算表示所述外部识别文字串以及所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数，针对所述外部识别文字串和所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数，其中，所述外部识别文字串是在外部装置中参照声学模型以及学习数据与所述识别部所参照的语言模型不同的语言模型进行所述输入语音的语音识别而得到的；以及

6.根据权利要求5所述的语音检索装置，其特征在于，

所述检索结果确定部计算综合分数，按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出，其中，所述综合分数是所述文字串对照部所取得的文字串对照分数、所述识别部所取得的所述识别文字串的声学似然度、语言似然度、以及从所述外部装置取得的所述外部识别文字串的声学似然度、语言似然度中的2个以上的值的加权和。

7.根据权利要求5所述的语音检索装置，其特征在于，

所述语音检索装置具有声学似然度计算部，该声学似然度计算部参照识别精度比所述识别部所参照的所述声学模型高的高精度声学模型进行所述识别部所取得的识别文字串以及外部装置所取得的外部识别文字串与所述输入语音之间的声学模式对照，计算对照声学似然度，

所述识别部取得所述识别文字串的语言似然度，

所述检索结果确定部计算综合分数，按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出，其中，所述综合分数是所述文字串对照部所取得的文字串对照分数、所述声学似然度计算部所计算出的对照声学似然度、所述识别部所取得的所述识别文字串的语言似然度、从所述外部装置取得的所述外部识别文字串的语言似然度中的2个以上的值的加权和。

8.一种语音检索方法，包括以下步骤：

识别单元参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别，按照所述多个语言模型中的每个语言模型取得识别文字串；

文字串对照单元对所述多个语言模型中的每个语言模型的识别文字串与文字串词典蓄积的作为语音检索对象的检索对象词汇的文字串进行对照，计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数，针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数；以及

检索结果确定单元参照所述文字串对照分数，按照该文字序列对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。