CN1458645A

CN1458645A - 语音识别设备和语音识别程序

Info

Publication number: CN1458645A
Application number: CN03136043.2A
Authority: CN
Inventors: 外山聪一; 驹村光弥; 长岐孝一; 川添佳洋; 小林载; 藤田育雄
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-05-15
Filing date: 2003-05-15
Publication date: 2003-11-26
Also published as: EP1575031A3; US20030216918A1; EP1372139A1; EP1575031A2

Abstract

一种语音识别设备包括语音输入装置、识别处理装置、判断装置和设置装置。语音输入装置接收来自用户的语音输入。识别处理装置进行识别处理以通过与预设备用词组中的相应备用词的匹配处理确定对应于语音输入的多个词候选者。判断装置判断词候选者是否包括正确答案。设置装置确定词候选者中最可识别的候选者及其同义词候选者的组合，并在判断装置判断词候选者不包括正确答案的情况下，将其设置用于将在接下来的识别处理中使用的备用词组。

Description

语音识别设备和语音识别程序

发明领域

本发明涉及一种用于识别通过话筒等输入的人语音的语音识别技术。

发明背景

通常，语音识别设备从声学上分析基于用户所发出的声音而生成的语音输入信号，比较语音输入信号与先前准备的词模型的多个候选者以计算相应的声学似然性(likelihood)(即相似性)，并确定具有最高声学似然性的候选者(以下被称为“第一候选者”)为识别结果。当第一候选者具有足够高的识别可靠性时，语音识别设备判断没有正确的识别结果存在，用“请再说一次”的语音消息执行回话(talk-back)操作以提示用户再发声，并再次进行识别处理。

常规语音识别设备具有识别结果的低可靠性，并且即使当用户被请求再次发出他/她的声音时，仍利用与先前所使用的相同的候选者再次进行识别处理。因此，以与先前发声相同的方式由用户重复发声导致与先前所获得的相同的识别结果，结果是再发声的识别率不能被显著提高。

日本专利No.3112037公开了改进上述问题的语音识别技术之一。当通过用于用户第一发声的识别处理不能获得具有足够高可靠性的识别结果时，该识别技术应用范围缩小(narrowing)过程以将候选者缩小范围(narrow down)到具有高可靠性的一些候选者。另外，已通过用于第一发声的识别处理获得的具有高可靠性的候选者的同义词(convertible word)被附加给候选者，并且用户被提示再次发声以使识别处理被再次进行。

然而，在已基于第一识别结果而被缩小范围、具有高可靠性的候选者不包括正确答案的情况下，识别处理不能依照上述方法被进行。即使具有高可靠性的同义词被附加给候选者，使用与用户先前所用的相同的词也使得同义词的附加没有用。

日本公开专利申请H11-119792公开了另一种类型的语音识别技术。依照该出版物中所述的方法，在声学上彼此类似的一套命令(将被称为“类音型命令”)和对应于其的一套释义命令已被定义和存储。当短语“推上去窗户”和“拉下来窗户”例如被设置为类音型命令时，短语“打开窗户”和“关闭窗户”被准备为相对于这些类音型命令的释义命令。当用户发出类音型命令的声音时，用户被请求使用前者命令的释义命令再次发声。

在上述方法中，需要预先设置类音型命令和释义命令之间的对应关系并将其存储在存储器中。因此，将在系统中使用的命令数的增加导致命令存储容量的增加，由此导致成本增加。

发明概述

因此，针对上述问题的本发明的目的是提供一种语音识别设备和程序，其允许使给用户的再发声请求的数量最小并给出有效和精确的识别。

为了达到上述目的，本发明第一方面的语音识别设备包括：

语音输入装置，用于接收来自用户的语音输入；

识别处理装置，用于进行识别处理以通过与预设备用词组中的相应备用词的匹配处理，确定对应于所述语音输入的多个词候选者；

判断装置，用于判断所述多个词候选者是否包括正确答案；以及

设置装置，用于确定所述多个词候选者中最可识别的候选者及其同义词候选者的组合，并在所述判断装置判断所述多个词候选者不包括正确答案的情况下，将它设置用于将在接下来的识别处理中使用的所述备用词组。

上述语音识别设备接收来自用户的语音输入如命令，并通过与预设备用词的匹配处理，确定对应于来自用户的语音输入的词候选者。然后判断词候选者是否包括正确答案。在判断装置判断词候选者包括正确答案的情况下，词候选者被输出为识别结果。可选的是，在判断装置判断词候选者不包括正确答案的情况下，确定这些词候选者中最可识别的候选者和每个都具有前者词候选者的相同含义的同义词候选者的组合以在接下来的识别处理中使用。因此，利用包括同义词的词候选者中的可识别候选者来进行接下来的识别处理，由此使得有可能提高用户再发声的识别率。

在上述语音识别设备的实施例中，所述设置装置可包括：分析单元，用于为所述多个词候选者及其同义词候选者中的每个分析组成相应词候选者的音素；以及设置单元，用于将具有最小数量相同音素的词候选者的组合设置为所述备用词。

依照这样的实施例，包括同义词候选者的词候选者在组成相应词候选者的音素方面被分析，并且具有最小数量相同音素的词候选者的组合被用作备用词。因此，有可能在词在语音识别处理中可被彼此区分的状态下进行识别处理。

在上述语音识别设备的另一个实施例中，所述设置装置可包括：分析单元，用于为所述多个词候选者及其同义词候选者中的每个分析组成相应词候选者的音素；以及设置单元，用于将具有最小数量相同音素和最大总数音素的词候选者的组合设置为所述备用词。

依照这样的实施例，包括同义词候选者的词候选者在组成相应词候选者的音素方面被分析，并且具有最小数量相同音素和最大总数音素的词候选者的组合被用作备用词。因此，有可能在词在语音识别处理中可彼此被较显著区分的状态下进行识别处理。

在上述语音识别设备的另一个实施例中，所述设置装置可包括：所述备用词组中的备用错误词，所述备用错误词表示来自用户的语音输入对应于除了被包括在所述备用词中的词候选者以外的词候选者。依照这样的实施例，在当前备用词包括正确答案的情况下，用户发出备用错误词的声音，由此使得有可能判断当前备用词是否包括正确答案。

在上述语音识别设备的再另一个实施例中，所述设置装置可包括：用于存储先前所使用的备用词组的存储单元，在所述判断装置判断所述备用错误词为正确答案的情况下，所述设置装置将被存储于所述存储单元中的最后的备用词组设置用于将在接下来的识别处理中使用的备用词组。依照这样的实施例，在当前备用词组包括正确答案的情况下，有可能扩展备用词的范围以搜索正确答案。

在上述语音识别设备的再另一个实施例中，所述备用错误词可以是“其它的”及其同义词。

在上述语音识别设备的再另一个实施例中，当来自所述用户的语音输入包括所述备用错误词时，在此时的所述备用词组的词候选者中，除了对应于所述备用错误词的词候选者以外的词候选者可从将包括在接下来的备用词组中的词候选者中被排除。依照这样的实施例，备用错误词表示当前备用词组中的词候选者不包括正确答案，结果是将它们包括在接下来的备用词组中是没有用的。从接下来的词候选者中排除已发现为不正确答案的词候选者使得有可能将词候选者缩小范围，由此有效地获得正确答案。

在上述语音识别设备的再另一个实施例中，设备可进一步包括：通知装置，用于在所述判断装置判断所述多个词候选者不包括正确答案的情况下，通过字符表示和合成语音的输出的至少一个，向所述用户通知属于由所述设置装置设置的备用词组的备用词。依照这样的实施例，通过合成语音，用户被通知备用词，由此使得用户容易识别将被再次发声的词。

在上述语音识别设备的再另一个实施例中，每次当所述识别处理被重复时，所述判断装置可放宽所述词候选者将被判断为正确答案的准则。依照这样的实施例，每次当识别处理被重复时，有可能容易地获得正确答案，由此提高了识别处理的效率。在优选实施例中，当词候选者的可靠性超过预定阈值时，所述判断装置可判断所述词候选者为正确答案，并且每次当所述识别处理被重复时降低所述阈值。

在本发明的另一方面中，语音识别程序将由计算机来执行，其中所述程序使所述计算机起到以下作用：

语音输入装置，用于接收来自用户的语音输入；

借助计算机执行上述语音识别程序使得上述语音识别设备能被实施。

附图简述

图1为示出本发明实施例的语音识别设备的示意性结构的方决图；

图2为如图1中所示再发声控制单元的内部结构的方块图；并且

图3为示出依照图1中所示语音识别设备的语音识别处理的流程图。

优选实施例详述

现在将参照附图在以下详述本发明的优选实施例。

〔语音识别设备的结构〕

图1示出依照本发明实施例的语音识别设备的功能结构。如图1中所示，语音识别设备10包括子词声学模型存储单元1、词典2、词模型生成单元3、声音分析单元4、识别处理单元5、附加信息收集单元6、识别可靠性计算单元7、再发声控制单元8、合成语音生成单元9、扬声器11、话筒12和开关SW1。

子词声学模型存储单元1在子词单元中存储声学模型，如先前所学的音素。作为从区别性功能的观点来看可在其基础上分析和限定为特定词所生成的声音的最小单位，“音素”被分类为辅音和元音。“子词”为组成单独词的单位，因此一套子词组成了单个词。子词声学模型存储单元1存储对应于相应音素如元音和辅音的子词声学模型。在例如给出词“aka”(注：该词在日语中含义为“红”)(以下称为“aka”(红))的情况下，子词“a”、“k”和“a”组成那个词。

词典2存储有关经历语音识别处理的词的词信息。更具体而言，用于组成多个词中每个的子词的组合被存储。在示例词“aka”(红)的情况下，存储了子词“a”、“k”和“a”组成那个词的信息。

词模型生成单元3生成词模型，其为相应词的声学模型。更具体而言，词模型生成单元3利用存储在词典2中的词信息和存储在子词声学模型存储单元1中的子词声学模型来生成特定词的词模型。在示例词“aka”(红)的情况下，子词“a”、“k”和“a”组成词“aka”(红)的事实被存为词典2中的词信息。对应于子词“a”、“k”和“a”的子词声学模型被存储于子词声学模型存储单元1。因此，词模型生成单元3向词典2查询组成词“aka”(红)的子词，从子词声学模型存储单元1获得对应于这些子词的子词声学模型，并将其组合以生成词“aka”(红)的词模型。

声音分析单元4从声学上分析已通过话筒12输入到语音识别设备10中的所讲语音信号以将其转换为特征向量系列。识别处理单元5比较从声音分析单元4获得的所讲语音的特征向量与由词模型生成单元3生成的词模型(即，进行匹配处理)，从而计算相应词模型相对于用户所讲语音的声学似然性。将在该阶段被查询的词模型将被称为“词候选者”。识别处理单元5执行先前设置的词候选者和对应于用户所讲语音的特征向量系列之间的匹配处理以计算相应词候选者的声学似然性。

在实际情况下，当用户发出特定词的声音时，在当前状况下被期望由用户发声的一些词(将被称为“备用词”)被确定为词候选者。当对应于用户发声的特征向量系列被获得之后，进行特征向量系列和先前设置词候选者(即，备用词)之间的匹配处理以独立计算相对于相应词候选者的声学似然性。

附加信息收集单元6收集附加信息，如用户的过去发声历史。在本发明语音识别设备被用于汽车导航设备的命令输入单元的情况下，附加信息包括在其上安装汽车导航设备的车辆的位置信息。基于已由识别处理单元5计算的相应词候选者相对于用户发声的声学似然性，识别可靠性计算单元7计算相应词候选者的识别可靠性。识别可靠性是表示词候选者对应于用户实际发声词的似然性程度的索引。有较高的识别可靠性，则词候选者与用户实际发声词相同的概率将变高，更具体而言，获得正确答案的概率将变高。另外，有较低的识别可靠性，获得正确答案的概率将变低。

更具体而言，通过使用由附加信息收集单元6获得的附加信息，识别可靠性计算单元7给已由识别处理单元5计算的相应词候选者的声学似然性施加权重，从而计算相应词候选者相对于用户所讲语音的识别可靠性。在由附加信息收集单元6收集的附加信息包括例如表示用户频繁发出特定词声音的事实的历史的情况下，所设置的高识别可靠性被给予与上述特定词相同的词候选者。当用户发出涉及车辆当前位置的词的声音时，词的可靠性可被设置为高。所述仅为用于计算识别可靠性的措施的实例。用于计算识别可靠性的其它种类的措施可被应用于本发明。

作为在本发明中扮演中心角色的元件，再发声控制单元8控制再发声期间的词候选者。图2示出再发声控制单元8的内部结构。如图2中所示，再发声控制单元8包括可靠性分析部分81、候选者选择部分82、备用词选择部分83、第一候选者信息提取部分84、合成语音信息生成部分85和开关SW2。

可靠性信息20从识别可靠性计算单元7被输入到再发声控制单元8中。可靠性信息20包括：词候选者信息，其表示相对于用户所讲语音的词候选者；以及相应词候选者的识别可靠性信息，其已借助识别可靠性计算单元7被计算。更具体而言，可靠性信息20表示相应词候选者的可靠性程度。

可靠性分析部分81判断在被包括在可靠性信息20中的词候选者中，具有最高可靠性的词候选者(以下被称为“第一词候选者”)是否可被确定为识别结果，更具体而言，第一词候选者是否可被认为是正确答案。例如利用第一词候选者的可靠性和第二词候选者的可靠性可进行上述判断。更具体而言，在满足了两个要求的情况下，即第一词候选者的可靠性足够高并等于或大于预定阈值“α”(要求1)且第一词候选者和第二词候选者之间的可靠性差足够大并等于或大于预定阈值“β”(要求2)，第一词候选者被判断为正确答案。可选的是，在要求1和2的任何一个不满足的情况下，第一词候选者不被判断为正确答案。关于确定第一词候选者为正确答案的措施，可应用除了以上的其它措施。判断第一词候选者是否为正确答案可例如利用具有高可靠性的预定数量“n”的词候选者的可靠性来进行。

在第一词候选者被判断为正确答案的情况下，可靠性分析部分81将控制信号提供给如图1中所示的开关SW1以及如图2中所示的开关SW2以翻转(flip)开关SW1和SW2到其相应的端子T1侧。可选的是，在第一词候选者不被判断为正确答案的情况下，可靠性分析部分81将控制信号提供给开关SW1和开关SW2以翻转开关SW1和SW2到其相应的端子T2侧。

在可靠性分析部分81判断第一词候选者为正确答案的情况下，第一候选者信息提取部分84通过开关SW2从识别可靠性计算单元7接收可靠性信息20。然后，第一候选者信息提取部分84将表示第一词候选者为正确答案的信息、表示第一词候选者的实质将被判断为正确答案的信息、以及有关第一词候选者的发音信息提供给合成语音信息生成部分85。另外，第一候选者信息提取部分84将第一词候选者的实质信息外部输出为识别结果。

在第一词候选者被判断为正确答案的情况下，在来自第一候选者信息提取部分84的信息的基础上，合成语音信息生成部分85生成合成语音信息，通过它用户将被通知识别结果，并将由此生成的合成语音信息输出到合成语音生成单元9。

在从合成语音信息生成部分85输入的合成语音信息的基础上，如图1中所示的合成语音生成单元9生成包括已被判断为正确答案的词的合成语音，并将由此生成的合成语音从扬声器11输出，由此向用户通知识别结果。在已被判断为正确答案的词候选者为例如“aka”(红)的情况下，向用户通知识别结果意味着“aka-desu-ne？”(注：该短语在日语中含义是“那是红的，不是吗？”)的合成语音被输出。这使得用户能识别识别结果。该实施例利用了通过来自扬声器的语音输入向用户通知识别结果的措施。可选地，或除了这种措施以外，亦可通过显示单元向用户可视地通知识别结果。

可选的是，在可靠性分析部分81判断第一词候选者为不正确答案的情况下，语音识别设备10提示用户再次发声。在此情况下，开关SW2被翻转到端子T2侧以使可靠性信息20被提供给候选者选择部分82。开关SW1亦被翻转到T2侧以使备用词选择部分83被电连接于词模型生成单元3。候选者选择部分82将范围缩小过程应用于具有已被计算的可靠性的所有词候选者，从而将其缩小范围到具有高可靠性的一些词候选者(以下被称为“正确词候选者”)。在示例的情况下，与第一词候选者的可靠性差等于或低于预定阈值“γ”的词候选者被设置为正确词候选者。然后，所确定的正确词候选者的区别性信息被提供给备用词选择部分83。

备用词选择部分83确定相对于用户再发声的备用词组(即，将在用于用户再发声的识别处理中用作词候选者的词的组合)。对此的最典型方式是将已由候选者选择部分82选择的正确词候选者设置为备用词。因此，在用于最后发声的识别处理中具有高可靠性的候选者被设置为备用词。然而，有可能用户最后发声完全等于其再发声的情况(例如，“aka”(红)的发声仅被重复)不能使识别结果以与最后发声相同的方式被判断为正确答案。考虑到这个问题，在本发明中，在再发声中被用作备用词的词被设置为不同的词，其为正确词候选者的同义词并可在识别处理中被识别，由此提高了再发声中的识别率。更具体而言，基于从候选者选择部分82提供的正确词候选者，备用词选择部分83将作为正确词候选者的同义词并可识别的词的组合设置为用于再发声的备用词。“可识别词的组合”的优选实例是具有小数量相同音素(要求A)和大总数音素(要求B)、作为正确词候选者的同义词的词的组合。原因是，当就语音识别的观点从声学上相互比较词时，较小数量的相同音素和较大总数的音素提供对词的容易识别。

上述内容将在以下被详述。具有相同含义但发音彼此不同的相同含义词(即，同义词)被准备在词典2中。假定由候选者选择部分82选择的正确词候选者为“aka”(红)和“ao”(注：该词在日语中含义为“蓝”)(以下被称为“ao”(蓝))。此外，假定“reddo”(“红”以罗马字母来写)(以下被称为“reddo”(红))在词典2中被存为“aka”(红)的同义词，而“buruu”(“蓝”以罗马字母来写)(以下被称为“buruu”(蓝))在其中被存为“ao”(蓝)的同义词。在此情况下，“aka”(红)和“ao”(蓝)具有相同的音素“a”，而“reddo”(红)和“ao”(蓝)具有相同的音素“o”。根据要求A，可识别词的组合为“aka”(红)和“buruu”(蓝)的组合，或“reddo”(红)和“buruu”(蓝)的组合。此外，考虑到要求B，在这些组合中，“reddo”(红)和“buruu”(蓝)的组合具有较大总数的音素。“reddo”(红)和“buruu”(蓝)的组合最终被设置为备用词。在“mizuiro”(注：该词在日语中含义为“浅蓝”)(以下被称为“mizuiro”(浅蓝))在词典2中被另外存为“ao”(蓝)的可转换项的其它实例中，在具有最小数量相同音素的词组合中，具有最大总数音素的“aka”(红)和“mizuiro”(浅蓝)的组合被设置为备用词。在本发明中，对于正确词候选者及其同义词，最可识别的词以这种方式被设置为用于接下来再发声的备用词，由此提高了用于再发声的识别处理中的识别精度。

另外，在本发明中，表示被包括在回话中以提示用户再发声的词不同于正确词的词如“others”、“other than”和“different”，被包括在回话中以提示用户再发声。因此，在通过回话提示用户再发声的词不包括正确答案的情况下，语音识别设备10可认识到该状态。假定第一发声的识别结果将正确词候选者缩小范围到“aka”(红)和“ao”(蓝)，并且另外的“aka”(红)和“mizuiro”(浅蓝)被最终设置为备用词。在此情况下，在提示用户再发声的回话中，语音识别设备10问用户，例如“aka-desu-ka？，mizuiro-desu-ka？orothers”(注：该短语在日语中含义为“那是红的、浅蓝的还是其它的？”)当用户响应于回话而发出“others”的声音时，认识到由用户发声的词既不是“aka”(红)也不是“mizuiro”(浅蓝)。因此，语音识别设备10最后的范围缩小是不正确的，由此使得有可能搜索除了“aka”(红)和“mizuiro”(浅蓝)以外的词候选者。

备用词选择部分83将作为备用词信息83a、包括再发声备用词候选者数、其发音和含义(基本词的阅读)的信息通过开关SW1提供给词模型生成单元3以及合成语音信息生成部分85。在此情况下，词模型生成单元3生成被包括在备用词信息83a中的备用词的词模型，从而使这些词模型能在用于再发声的识别处理期间由识别处理单元5使用于匹配处理。更具体而言，在上述实例中，“aka”(红)、“mizuiro”(浅蓝)和“others”经受再发声词的识别处理中的匹配处理。在备用词信息83a的基础上，合成语音信息生成部分85生成提示用户再发声的回话形式的“aka-desu-ka？，mizuiro-desu-ka？or others”(注：该短语在日语中含义为“那是红的、浅蓝的还是其它的？”)的合成语音信息。合成语音信息借助合成语音生成单元9以合成语音的形式从扬声器11被输出。

语音识别设备10使将在回话中包括的正确词候选者中的可识别词和表示这些词不同于可识别词的另外词如“others”的组合被包括在其中，从而提示用户再发声。这使得有可能提高再发声期间的识别精度。

在第一词候选者即使在再发声之后的识别处理中仍不能被判断为正确答案的情况下，相同的再发声处理可被重复。对于再发声处理，可靠性分析部分81可逐渐放宽当判断第一词候选者为正确答案时将使用的阈值，由此促进正确答案的判断。

在对应于词“others”的词候选者在再发声期间(包括多次再发声)被判断为正确答案的情况下，换句话说，在用户判断回话中指定的当前备用词候选者不包括正确答案的情况下，备用词选择部分83使备用词返回发声的最后状态。其原因将在以下陈述。例如在第一词候选者在用于第“m”次发声的识别处理中被判断为不正确答案的情况下，用于第“(m+1)”次发声的备用词仅被缩小范围到具有高可靠性的候选者。然而，在第“(m+1)”次发声中“others”的用户发声意味着在该阶段设置的备用词候选者不包括正确词，并且在范围缩小处理中存在错误(即，备用错误)。因此，备用词被返回范围缩小处理尚未进行的状态(即，第“m”次发声状态)以扩展词候选者的范围，并根据场合的要求，提示用户再发声。

在此情况下，可靠性分析部分81使开关SW1和SW2被翻转到其相应的端子T2侧。当确定用于接下来发声的备用词组时，备用词选择部分83存储最后的备用词组。更具体而言，当有备用错误时，已存储了所有过去备用词组的备用词选择部分83在用于接下来发声的识别处理中利用最后的备用词组。

在根据需要重复再发声之后，在可靠性分析部分81最终判断特定第一词候选者为正确答案的情况下，第一词候选者作为识别结果从语音识别设备10被发送到外部设备。该外部设备为根据命令利用来自语音识别设备10的识别结果的设备。当语音识别设备10被用于如上所述的汽车导航设备的输入单元时，识别结果被提供给汽车导航设备的控制器以执行对应于内容(即，命令)的处理。

〔语音识别处理〕

现在将参照图3描述由上述语音识别设备10执行的语音识别处理。图3为语音识别处理的流程图。

首先，在步骤S1中，执行用于用户第一发声识别的初始化。更具体而言，再发声控制单元8使开关SW1被翻转到端子T1侧以将已存储了用于识别的词候选者信息的词典2中的所有词设置为用于第一发声的备用词。发声计数器“c”被设置为“1”。发声计数器表示用于待识别发声的备用词组。更具体而言，发声计数器“c＝1”对应于用于第一发声的备用词组(即，在上述实例中在词典2中存储的所有词)，而发声计数器“c＝2”对应于在第一发声之后已经受单个范围缩小处理的备用词组。

然后，在步骤S2中，词模型生成单元3利用在子词声学模型存储单元1中存储的子词声学模型来生成词模型。因此，准备了对应于用于第一发声的备用词组的所有词模型。

然后，在步骤S3中，语音识别处理被进行。更具体而言，用户发声以使相应的所讲语音信号通过话筒12被输入到声音分析单元4中。声音分析单元4从声学上分析所讲语音信号以获得特征向量系列。识别处理单元5执行所讲语音信号的特征向量和在步骤S2中准备的相应词模型之间的匹配处理，从而为每个词模型计算其之间的声学似然性。

然后，在步骤S4中，识别可靠性计算单元7使已由识别处理单元5计算的相应词候选者的声学似然性经受使用由附加信息收集单元6收集的附加信息的权重，从而计算相应词候选者的识别可靠性。附加信息包括用户的过去发声历史和其上安装汽车导航设备的车辆的位置信息。

然后，在步骤S5中，在相应词候选者的识别可靠性的基础上，可靠性分析部分81分析具有最高识别可靠性的第一词候选者是否为正确答案。可例如利用如上所述第一词候选者的可靠性和第二词候选者的可靠性来进行该分析。

然后，在步骤S6中，在步骤S5中的分析结果的基础上，可靠性分析部分81判断第一词候选者是否为正确答案。在第一词候选者被判断为正确答案的情况下，处理前进到步骤S7。可选的是，在第一词候选者被判断为不正确答案的情况下，处理前进到步骤S14。

在第一词候选者在步骤S6中被判断为正确答案的情况下，可靠性分析部分81在步骤S7中判断上述第一词候选者是否为对应于“others”的词。如以上所述，在由于备用词的范围缩小处理而使正确词从备用词被排除的情况下，对应于“others”的词候选者被用于校正备用词组。当第一词候选者对应于“others”时，处理前进到步骤S10。可选的是，当第一词候选者不对应于“others”时，处理前进到步骤S8。

处理前进到步骤S8意味着第一词候选者为正确答案，但不是“others”的词候选者。更具体而言，确定第一词候选者为识别结果是合理的。因此，第一候选者信息提取部分84从可靠性信息20提取第一词候选者，将表示第一词候选者为正确答案的信息、表示第一词候选者实质被判断为正确答案的信息、以及对应于第一词候选者的发音信息提供给合成语音信息生成部分85，并将表示第一词候选者的实质的信息作为识别结果输出到外部。

在步骤S9中，合成语音信息生成部分85生成合成语音信息并将其提供给合成语音生成单元9，从而使合成语音信息生成部分85从扬声器11输出合成语音形式的第一词候选者的阅读。在第一词候选者为例如“aka”(红)的情况下，“aka-desu-ne？”(注：该短语在日语中含义是“那是红的，不是吗？”)的合成语音从扬声器被输出，由此向用户通知识别结果。

在第一词候选者在步骤S6中被判断为不正确答案的情况下，候选者选择部分82在步骤S14中选择正确词候选者。更具体而言，候选者选择部分82利用第一词候选者的识别可靠性来选择正确词候选者。上述处理使将在用于接下来发声的识别处理中使用的词候选者经受范围缩小处理。

然后，在步骤S15中，在由候选者选择部分82选择的正确词候选者的基础上，备用词选择部分83生成具有彼此不同的发音的可识别词的组合。更具体而言，备用词选择部分83确定在对应于正确词候选者的同义词的组合中具有最小数量相同音素和最大总数音素的词候选者为备用词。包括这些备用词的备用词组然后被设置。除了上述词以外，备用词组还包括对应于“others”的词。然后，备用词选择部分83从词典2获得对应于这些备用词的词信息并将其发送给词模型生成单元3以生成相应的词模型。备用词组以这种方式被更新。

备用词选择部分83存储尚未被更新的备用词组。原因是，当用户在接下来的发声中发出“others”的声音时，需要再次使用最后的备用词组。备用词选择部分83亦将所选的备用词组提供给合成语音信息生成部分85。

在步骤S16中，合成语音信息生成部分85和合成语音生成单元9将在步骤S15中确定的用于备用词的合成语音输出为提示用户再发声的回话。在例如“aka”(红)、“ao”(蓝)和“others”在步骤S15中被确定为备用词的情况下，“aka-desu-ka？，mizuiro-desu-ka？or others”(注：该短语在日语中含义为“那是红的、浅蓝的还是其它的？”)的合成语音被输出。

然后，在步骤S17中，发声计数器“c”被增量“1”。作为结果，被增量的发声计数器“c”变为表示备用词组已被转变到相对于最后备用词组的第一更新状态。然后，处理返回步骤S2以使在步骤S15中确定的备用词组中所包括的词的词模型被生成，并且用于再发声的识别处理被执行。

在步骤S7中判断第一词候选者对应于“others”表示备用词组在该阶段不包括正确词，也就是说，有备用错误。因此，处理前进到步骤S10以判断发声计数器“c”的值是否为“1”。在发声计数器“c＝1”的情况下，当前识别处理对第一发声而被进行，并且该阶段的备用词组合被设置用于在词典2中包括的所有词候选者。这表示词典2内并不包括由用户发声的词。在此情况下没有候选者，这导致识别处理的终止。

可选的是，在发声计数器“c”不为“1”的情况下，处理前进到步骤S11。在步骤S11中，备用词选择部分83将发声计数器“c”的值减去“1”以设置作为先前所存的最后备用词组。“others”的用户发声表示当前备用词组不包括正确词。考虑到这个事实，返回到已在最后识别处理中被利用的备用词组的步骤被进行，从而再次执行识别处理。在完成了步骤S14中备用词的更新之后，备用词选择部分83存储尚未被更新的备用词组。因此，读出这样的词组并设置其为足够。在该阶段，备用词选择部分83使对应于“others”的词(以下被称为“备用错误词”)被包括在备用词组中。

然后，在步骤S12中，备用词选择部分83将由此确定的备用词组提供给词模型生成单元3和合成语音信息生成部分85。词模型生成单元3生成对应于这些备用词的词模型以在接下来的识别处理中使用。合成语音信息生成部分85和合成语音生成单元9利用有关所提供备用词的信息来输出对应于词的合成语音。

识别处理以与上述相同的方式被进行，同时依照用户发声的内容来更新备用词组，直到第一词候选者被判断为正确答案并且第一词候选者被输出为识别结果(步骤S9)，或没有候选者，导致识别处理的终止(步骤S10中的Yes)。在第一词候选者的可靠性过低以至于不能判断其为正确答案的情况下，备用词经受基于可靠性的范围缩小处理。另外，作为对于备用词已被缩小范围所得的词的同义词并在声学上可识别的词的组合被设置为用于接下来发声的备用词，从而更新备用词组。再发声的识别率可因此被提高，由此使得有可能快速有效地识别用户的所讲语音。

〔修改〕

在如图2中所示的再发声控制单元8中，可靠性分析部分81利用第一词候选者和第二词候选者来确定第一词候选者是否为正确答案。可选的是，其可被配置为，可靠性分析部分81利用具有高识别可靠性的前面的“n”个词候选者来确定第一词候选者是否为正确答案。在此情况下，在判断第一词候选者是否为正确答案期间确定具有高可靠性的前“n”个词候选者。当具有高可靠性的前“n”个词候选者被确定时，有可能在完成范围缩小处理之后将其设置为正确词候选者。这使得可靠性分析部分81能执行候选者选择部分82的处理，由此使得有可能省略候选者选择部分82。在此情况下，有关正确词候选者的信息从可靠性分析部分81被输入到备用词选择部分83。

在如图3中所示的语音识别处理中，第一词候选者在步骤S7中被判断为对应于“others”，并且在发声计数器“c”被判断为不同于“1”的情况下，发声计数器的值被减去“1”，从而利用用于接下来发声的最后备用词组。然而，步骤S7中的判断“Yes”表示最后的备用词组不包括正确词，结果是在接下来的备用词组中包括这些词是没有用的。“aka”(红)、“ao”(蓝)和“others”的备用词组中“others”的用户发声表示用户发声词既不是“aka”(红)也不是“ao”(蓝)。因此，备用词选择部分83允许从在步骤S11中获得的最后备用词组排除“aka”(红)和“ao”(蓝)及其同义词而设置备用词组。这使得已被明确揭示为不正确的词从备用词组被排除，由此使得有可能实现较为有效的识别处理。

上述语音识别设备10的结构部件可被配置为计算机程序的形式，因此被提供有计算机的设备中的程序执行使得有可能实现上述语音识别设备10。例如，将上述计算机程序应用于被提供有计算机的汽车导航设备或视听设备使得有可能实现语音输入功能。

在上述实施例中，正确答案候选者中最可识别候选者及其同义词候选者的组合被设置用于将在接下来识别处理中使用的备用词。然而，最可识别候选者的组合可仅从正确答案候选者的同义词候选者被确定。

另外，备用错误词表示被包括在提示用户再发声的回话中的词对应于除了正确答案词以外的词，该备用错误词亦被附加给正确答案候选者及其同义词候选者以确定最可识别候选者的组合。

依照如以上详述的本发明，在识别结果较有可能错误的情况下，通过提示用户再发声有可能减小错误识别的可能性。在不能判断用于特定发声的识别结果为正确答案的情况下，作为已被实际利用的备用词的同义词并在声学上可识别的词被设置为用于接下来发声的备用词，从而避免相同识别结果的重复，由此提高接下来发声的识别率。此外，表示除了当前备用词的词的诸如“others”的词之外被包括在提示用户再发声的回话中，从而去除了不正确词，由此以有效和快速的方式获得正确答案。

提交于2002年5月15日的日本专利申请No.2002-140550的整个公开内容，包括说明书、权利要求、附图和概述，其全部在此引入作为参考。

Claims

1.一种语音识别设备，包括：

语音输入装置(12)，用于接收来自用户的语音输入；

识别处理装置(5)，用于进行识别处理以通过与预设备用词组中的相应备用词的匹配处理，确定对应于所述语音输入的多个词候选者；

设置装置(8)，用于确定所述多个词候选者中最可识别的候选者及其同义词候选者的组合，并在所述判断装置判断所述多个词候选者不包括正确答案的情况下，将它设置用于将在接下来的识别处理中使用的所述备用词组。

2.权利要求1的设备，其中：

所述设置装置(8)包括：分析单元(4)，用于为所述多个词候选者及其同义词候选者中的每个分析组成相应词候选者的音素；以及

设置单元，用于将具有最小数量相同音素的词候选者的组合设置为所述备用词。

3.权利要求1的设备，其中：

所述设置装置(8)包括：

分析单元(4)，用于为所述多个词候选者及其同义词候选者中的每个分析组成相应词候选者的音素；以及

设置单元，用于将具有最小数量相同音素和最大总数音素的词候选者的组合设置为所述备用词。

4.权利要求1到3的任何一个的设备，其中：

所述设置装置(8)包括所述备用词组中的备用错误词，所述备用错误词表示来自用户的语音输入对应于除了被包括在所述备用词中的词候选者之外的词候选者。

5.权利要求4的设备，其中：

所述设置装置(8)包括用于存储先前所使用的备用词组的存储单元，在所述判断装置判断所述备用错误词为正确答案的情况下，所述设置装置(8)将被存储于所述存储单元中的最后的备用词组设置用于将在接下来的识别处理中使用的备用词组。

6.权利要求4或5的设备，其中：

所述备用错误词为“其它的”及其同义词。

7.权利要求4到6的任何一个的设备，其中：

当来自所述用户的语音输入包括所述备用错误词时，对于此时的所述备用词组的词候选者，除了对应于所述备用错误词的词候选者之外的词候选者从将包括在接下来的备用词组中的词候选者中被排除。

8.权利要求1到7的任何一个的设备，进一步包括：

通知装置，用于在所述判断装置判断所述多个词候选者不包括正确答案的情况下，通过字符表示和合成语音的输出的至少一个，向所述用户通知属于由所述设置装置(8)设置的备用词组的备用词。

9.权利要求1到8的任何一个的设备，其中：

每次当所述识别处理被重复时，所述判断装置放宽所述词候选者将被判断为正确答案的准则。

10.权利要求9的设备，其中：

当词候选者的可靠性超过预定阈值时，所述判断装置判断所述词候选者为正确答案，并且每次当所述识别处理被重复时降低所述阈值。

11.一种将由计算机来执行的语音识别程序，其中所述程序使所述计算机起到以下作用：

语音输入装置(12)，用于接收来自用户的语音输入；

12.权利要求4的设备，其中：

所述设置装置确定所述多个词候选者中最可识别的候选者、其同义词候选者以及所述备用错误词的组合，并将其设置为将在接下来的识别处理中使用的所述备用词组。

13.一种语音识别设备，包括：

语音输入装置，用于接收来自用户的语音输入；

设置装置，用于确定所述多个词候选者的同义词候选者中最可识别的候选者的组合，并在所述判断装置判断所述多个词候选者不包括正确答案的情况下，将其设置为将在接下来的识别处理中使用的所述备用词组。

14.权利要求13的设备，其中：

所述设置装置包括：

分析单元，用于为所述多个词候选者的同义词候选者中的每个分析组成相应词候选者的音素；以及

15.权利要求13的设备，其中：

所述设置装置包括：

16.权利要求13的设备，其中：

所述设置装置包括所述备用词组中的备用错误词，所述备用错误词表示来自用户的语音输入对应于除了被包括在所述备用词中的词候选者以外的词候选者。

17.权利要求16的设备，其中：

所述设置装置包括用于存储先前所使用的备用词组的存储单元，在所述判断装置判断所述备用错误词为正确答案的情况下，所述设置装置将被存储于所述存储单元中的最后的备用词组设置用于将在接下来的识别处理中使用的备用词组。

18.权利要求16的设备，其中：

所述备用错误词为“其它的”及其同义词。

19.权利要求16的设备，其中：

当来自所述用户的语音输入包括所述备用错误词时，在此时的所述备用词组的词候选者中，除了对应于所述备用错误词的词候选者以外的词候选者从将包括在接下来的备用词组中的词候选者中被排除。

20.权利要求13的设备，进一步包括：

21.权利要求13的设备，其中：

22.权利要求21的设备，其中：

23.一种将由计算机来执行的语音识别程序，其中所述程序使所述计算机起到以下作用：

语音输入装置，用于接收来自用户的语音输入；

设置装置，用于确定所述多个词候选者的同义词候选者中最可识别的候选者的组合，并在所述判断装置判断所述多个词候选者不包括正确答案的情况下，将其设置用于将在接下来的识别处理中使用的所述备用词组。

24.权利要求13的设备，其中：

所述设置装置确定所述多个词候选者的同义词候选者中最可识别的候选者以及所述备用错误词的组合，并将其设置用于将在接下来的识别处理中使用的所述备用词组。