CN1452156A

CN1452156A - 语音识别设备和方法以及记录了语音识别程序的记录媒体

Info

Publication number: CN1452156A
Application number: CN03123123.3A
Authority: CN
Inventors: 川添佳洋; 小林载
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2002-04-17
Filing date: 2003-04-17
Publication date: 2003-10-29
Anticipated expiration: 2023-04-17
Also published as: JP2003308091A; DE60305568D1; CN1194337C; EP1355296A3; US20030200086A1; DE60305568T2; EP1355296A2; EP1355296B1

Abstract

语音识别设备100包括：语音分析器103，它提取被划分成帧的自然发生语音的特征模式；关键字模型数据库(104，105)104，它预先存储代表要被识别的多个关键字的特征模式的关键字；垃圾模型数据库(104，105)105，它预先存储要被识别的无关紧要语音的分量的特征模式；第一或然率计算器106，它根据每个帧和关键字的特征值模式计算特征值的或然率；第二或然率计算器107，它根据每个帧和无关紧要语音的特征值模式计算特征值的或然率。设备100通过在第二或然率计算器107中根据加上预定校正值的计算的或然率来计算累积或然率而识别被包含在自然发生语音中的关键字。

Description

语音识别设备和方法以及记录了语音识别程序的记录媒体

技术领域

本发明涉及有关通过HMM(隐藏的马尔可夫模型)方法进行语音识别的技术领域，具体地，涉及有关识别自然发生的(spontaneous)语音的关键字的技术领域。

相关技术

近年来，开发了识别由人发出的自然发生语音的语音识别设备。当人讲出预定的字时，这些设备从它们的输入信号识别讲出的字。

例如，配备有这样的语音识别设备的各种装置(诸如安装在汽车上的、用于引导汽车移动的导航系统，和个人计算机)将允许用户无需通过键盘或开关进行人工选择操作来输入各种信息。

因此，即使在操作者正在使用他/她的双手驾驶汽车的工作环境下，操作者仍可以把想要的信息输入到导航系统。

典型的语音识别方法包括利用被称为HMM(隐藏的马尔可夫模型)的概率模型的方法。

在语音识别时，自然发生的语音是通过把自然发生语音的特征值的模式与事先准备的、代表被称为关键字的候选字的语音的特征值的模式相匹配而被识别的。

具体地，在语音识别时，通过分析输入的自然发生语音，提取被划分成预定的持续时间的分段的输入的自然发生语音的特征值，计算在输入信号的特征值与预先存储在数据库中的、用HMM表示的关键字的特征值之间的匹配程度(此后称为或然率)，累积整个自然发生语音的或然率，以及把具有最高的或然率的关键字判决为识别的关键字。

因此，在语音识别时，关键字是根据由人发出的自然发生语音的输入信号被识别的。

顺便说明，HMM被表示为一组转移状态的统计源模型。它代表要被识别的预定的语音(诸如关键字)的特征值。而且，HMM是根据事先采样的多个语音数据生成的。

重要的是：这种语音识别能够怎样提取被包含在自然发生语音中的关键字。

除了关键字以外，自然发生语音通常包含无关紧要(extraneous)的语音，即，不必识别的、先前已知的字(诸如在关键字之前和之后的“er”或“please”)，原则上，自然发生语音包含夹在无关紧要语音中间的关键字。

传统上，语音识别常常利用“单字定位(word-spotting)”技术来识别要被语音识别的关键字。

在单字定位技术中，不仅准备了代表关键字模型的HMM，而且也准备了代表无关紧要语音模型(此后称为垃圾模型)的HMM，以及自然发生的语音是通过识别其特征值具有最高的或然率的关键字模型、垃圾模型、或二者的组合而被识别的。

发明内容

通常，关键字是通过使用根据多个语音分段生成的一个HMM来辨认出多个无关紧要语音而被识别的。然而，因为多个无关紧要的语音通过使用一个HMM而被辨认出，其所累积的或然率相当低。因此，上述的、用于识别自然发生语音的设备易于误识别。

鉴于以上问题，作出了本发明。本发明的目的是提供一种语音识别设备，它能够达到高的语音识别性能而不增加无关紧要语音的特征值的数据量。

本发明的以上的目的是通过本发明的语音识别设备达到的。用于识别被包含在发出的自然发生语音中的至少一个关键字的语音识别设备配备有：提取装置，用于通过分析自然发生语音提取自然发生语音特征值，它是自然发生语音的语音成分的特征值；数据库，其中预先存储至少一个关键字特征数据，表示所述关键字的语音成分的特征值，和至少一个无关紧要语音特征数据，表示无关紧要语音的语音成分的特征值；计算装置，用于计算或然率，这个或然率表示所提取的自然发生语音的至少一部分特征值与所述关键字特征数据和所述无关紧要语音特征数据相匹配的概率；以及确定装置，用于根据计算的或然率确定要被识别的关键字和所述无关紧要语音的至少一个，其中当计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，该计算装置使用一个预定的校正值计算该或然率。

按照本发明，或然率是根据提取的自然发生语音特征数据和由预定的校正值调整过的无关紧要语音特征数据被计算的，以及要被识别的关键字和无关紧要语音中的至少一项是根据算出的或然率被确定的。

因此，即使由于在发出自然发生语音的周围的噪声级别或由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别设备还配备有：设置装置，用于根据在发出自然发生语音的周围的噪声级别设置校正值，其中当计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算装置通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据发出自然发生语音的周围的噪声级别而设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值调整的无关紧要语音特征数据、和获取的关键字特征数据而计算的。

因此，即使由于在发出自然发生语音的周围的噪声级别而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别设备还配备有：设置装置，用于在确定装置根据计算的或然率确定要被识别的关键字和所述无关紧要语音的至少一个时按照所确定的关键字的持续时间与自然发生语音的持续时间之间的比值来设置校正值；其中当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算装置通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据所确定的关键字的持续时间与自然发生语音的持续时间之间的比值而设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值调整的无关紧要语音特征数据、和获取的关键字特征数据而计算的。

因此，即使由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合特性以计算或然率时所产生的计算误差而发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调节，关键字和无关紧要语音可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别设备进一步配备；预先存储在所述数据库中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

按照本发明，或然率是根据提取的自然发生语音的特征值、具有多个无关紧要语音的语音成分特征值的数据的经过调节的无关紧要语音特征数据、和获取的关键字特征数据被计算的。

因此，由于或然率是根据多个无关紧要语音的语音成分的特征值的数据被计算的，在识别无关紧要语音时，有可能通过使用小量的数据而正确地识别无关紧要语音。而且，即使由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调节，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别设备进一步被配备；在其中表示无关紧要语音分量(即，无关紧要语音的分量)的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库的情形下，其中：所述计算装置，用于当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据计算或然率，以及所述确定装置，用于根据计算的或然率确定要识别的所述关键字和所述无关紧要语音中的至少一项。

按照本发明，或然率是根据提取的自然发生语音的特征值、经调整的无关紧要语音分量特征数据、和获取的关键字特征数据被计算的，以及要识别的所述关键字和所述无关紧要语音中的至少一项是根据计算的或然率被确定的。

因此，由于无关紧要语音和关键字是通过根据经调节的无关紧要语音分量特征数据计算或然率而被识别的，无关紧要语音可以在识别无关紧要语音时通过使用小量的数据而被正确地被识别。所以，有可能增加可识别的无关紧要语音，而不用在识别无关紧要语音和在提取和识别关键字时为改进精确度而增加需要的数据量。

而且，即使由于在发出自然发生语音的周围的噪声级别或由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调节，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

本发明的以上的目的是通过本发明的语音识别方法达到的。识别包含在发出的自然发生语音中的至少一个关键字的语音识别方法包括以下过程：提取过程，通过分析自然发生语音提取自然发生语音特征值，它是自然发生语音的语音成分的特征值；获取过程，获取至少一个关键字特征数据，它表示所述关键字的语音成分的特征值，和至少一个无关紧要语音特征数据，它表示无关紧要语音的语音成分的特征值，所述关键字特征数据和无关紧要语音特征数据预先存储在数据库；计算过程，计算表示所提取的自然发生语音的至少一部分特征值与所述关键字特征数据和所述无关紧要语音特征数据相匹配的概率的或然率；以及确定过程，根据计算的或然率确定要识别的关键字和所述无关紧要语音的至少一个，其中当计算过程计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算过程通过使用预定的校正值计算或然率。

按照本发明，或然率是根据提取的自然发生语音特征数据和由预定的校正值调整的无关紧要语音特征数据被计算的，以及要识别的关键字和无关紧要语音中的至少一项是根据计算的或然率被确定的。

因此，即使由于在发出自然发生语音的周围的噪声电平或由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别方法还包括有：设置过程，根据在发出自然发生语音的周围的噪声级别设置校正值，其中当计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算装置通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据发出自然发生语音的周围的噪声级别而设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值调节的无关紧要语音特征数据、和获取的关键字特征数据被计算的。

因此，即使由于在发出自然发生语音的周围的噪声级别而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调节，关键字和无关紧要语音可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别方法还包括：设置过程，按照在确定过程根据计算所得的或然率确定要识别的关键字和所述无关紧要语音的至少一个时所确定的关键字的持续时间与自然发生语音的持续时间之间的比值来设置校正值，其中当所述计算过程计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算过程通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据所确定的关键字的持续时间与自然发生语音的持续时间之间的比值被设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值调整的无关紧要语音特征数据、和获取的关键字特征数据被计算的。

因此，即使由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调节，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别方法还进一步配置；预先存储在所述数据库中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

按照本发明，或然率是根据提取的自然发生语音的特征值、具有多个无关紧要语音的语音成分的特征值的数据的经调整的无关紧要语音特征数据、和获取的关键字特征数据被计算的。

因此，由于或然率是根据多个无关紧要语音的语音成分的特征值的数据被计算的，在识别无关紧要语音时，有可能使用小量的数据而正确地识别无关紧要语音。而且，即使由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调节，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，本发明的语音识别方法还进一步配置；在表示无关紧要语音分量(即，无关紧要语音的分量)的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库的情形下，其中：所述计算过程，当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据计算或然率，以及所述确定过程，根据计算的或然率确定要被识别的所述关键字和所述无关紧要语音中的至少一项。

因此，由于无关紧要语音和关键字是通过根据经调整的无关紧要语音分量特征数据计算或然率而被识别的，无关紧要语音可以在识别无关紧要语音时通过使用小量的数据而被正确地识别。所以，有可能增加可识别的无关紧要语音，而不用增加为识别无关紧要语音和改进在提取和识别关键字时的精确度中所需要的数据量。

而且，即使由于在发出自然发生语音的周围的噪声级别或由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

本发明的以上的目的是通过本发明的记录媒体达到的。记录媒体是其中记录有语音识别程序以便由计算机读出的记录媒体，计算机被包括在用于识别包含在发出的自然发生语音中的至少一个关键字的语音识别设备中，程序使得计算机用作为：提取装置，用于通过分析自然发生语音提取自然发生语音特征值，它是自然发生语音的语音成分的特征值；获取装置，用于获取至少一个关键字特征数据，它表示所述关键字的语音成分的特征值，和至少一个无关紧要语音特征数据，它表示无关紧要语音的语音成分的特征值，所述关键字特征数据和无关紧要语音特征数据预先存储在数据库；计算装置，用于计算表示所提取的自然发生语音的至少一部分特征值与所述关键字特征数据和所述无关紧要语音特征数据相匹配的概率的或然率；以及确定装置，根据计算出的或然率确定要被识别的关键字和所述无关紧要语音的至少一个，其中当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算装置通过使用预定的校正值计算或然率。

按照本发明，或然率是根据提取的自然发生语音特征数据和由预定的校正值调整的无关紧要语音特征数据而计算的，以及要识别的关键字和无关紧要语音中的至少一项是根据计算的或然率而确定的。

因此，即使由于在发出自然发生语音的周围的噪声级别或由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

它本发明的一个方面中，语音识别程序使得计算机用作为：设置装置，用于根据在发出自然发生语音的周围的噪声级别设置校正值，其中当计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算装置通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据发出自然发生语音的周围的噪声级别被设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值调整的无关紧要语音特征数据、和获取的关键字特征数据而计算的。

本发明的一个方面，语音识别程序使得计算机用作为：设置装置，用于按照在确定装置根据计算的或然率确定要被识别的至少一个关键字和所述无关紧要语音时所确定的关键字的持续时间与自然发生语音的持续时间之间的比值来设置校正值；以及当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算装置通过使用设置的校正值计算或然率。

按照本发明，所确定的校正值是根据所确定的关键字的持续时间与自然发生语音的持续时间之间的比值被设置的，以及或然率是根据提取的自然发生语音的特征值、由设置的校正值经调整的无关紧要语音特征数据、和获取的关键字特征数据而计算的。

因此，即使由于诸如在为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调整，关键字和无关紧要语音可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，语音识别程序使得计算机用作为；被预先存储在所述数据库中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

按照本发明，或然率是根据提取的自然发生语音的特征值、具有多个无关紧要语音的语音成分的特征值的数据的经调整的无关紧要语音特征数据、和获取的关键字特征数据而计算的。

因此，由于或然率是根据多个无关紧要语音的语音成分的特征值的数据而计算的，在识别无关紧要语音时有可能通过使用小量的数据而正确地识别无关紧要语音。而且，即使由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由设置的校正值进行调整，关键字和无关紧要语音仍可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

在本发明的一个方面中，在表示无关紧要语音分量(即，无关紧要语音的分量)的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库的情形下，语音识别程序使得计算机用作为：所述计算装置，用于当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据计算或然率，以及所述确定装置，用于根据计算出的或然率确定要被识别的所述关键字和所述无关紧要语音中的至少一项。

按照本发明，或然率是根据提取的自然发生语音的特征值、经调整的无关紧要语音分量特征数据、和获取的关键字特征数据被计算的，以及要被识别的所述关键字和所述无关紧要语音中的至少一项是根据计算的或然率被确定的。

因此，由于无关紧要语音和关键字是通过根据调节的无关紧要语音分量特征数据计算或然率而被识别的，无关紧要语音可以在识别无关紧要语音时通过使用小量的数据而被正确地被识别。所以，有可能增加可识别的无关紧要语音，而不用增加为识别无关紧要语音和改进在提取和识别关键字时的精确度所需要的数据量。

而且，即使由于在发出自然发生语音的周围的噪声级别或由于诸如为了减小数据量而使用多个特征值的无关紧要语音特征数据组合的特性以计算或然率时产生了计算误差因而可能发生误识别的情形下，因为表示所提取的自然发生语音的至少一部分特征值与无关紧要语音分量特征数据相匹配的概率的或然率可以由预定的校正值进行调节，关键字和无关紧要语音可被正确地识别。所以，有可能防止误识别以及有可能可靠地识别关键字。

附图简述

图1是显示按照本发明的第一实施例的语音识别设备的图，其中使用基于HMM的语音语言模型；

图2是显示用于识别任意的自然发生语音的基于HMM的语音语言模型的图；

图3A是显示用于无关紧要语音和关键字的任意组合的无关紧要语音HMM的累积或然率的图；

图3B是显示用于无关紧要语音和关键字的任意组合的无关紧要语音分量HMM的累积或然率的图；

图4是显示当把校正值加到或然率或从或然率中减去时在语音语言模型状态中如何发生转移的示例的图；

图5是显示按照本发明的第一实施例的语音识别设备的结构的图；

图6是显示按照第一实施例的关键字识别处理的运行的流程图；

图7是显示按照本发明的第二实施例的语音识别设备的结构的图；

图8是显示按照第二实施例的关键字识别处理的运行的流程图。

具体实施方式

现在参照附图所示的优选实施例描述本发明。

下面描述的实施例是其中把本发明应用到语音识别设备的实施例。

在本实施例中描述的无关紧要语音分量代表组成语音的基本语音单元，诸如音素或音节，但为了便于以下说明起见，在本实施例中将使用音节。

[第一实施例]

图1到6是显示按照本发明的语音识别设备的第一实施例的图。

首先，参照图1和图2描述按照这个实施例的、基于HMM的语音语言模型。

图1是显示按照本实施例的识别网络的基于HMM的语音语言模型的图，以及图2是显示使用任意HMM的、用于识别任意的自然发生语音的语音语言模型的图。

这个实施例假设代表基于HMM识别网络(诸如图1所示的识别网络)的模型(此后称为语音语言模型)，即，包含要被识别的关键字的语音语言模型10。

语音语言模型10包含关键字模型11，在它的两个末端，与代表无关紧要语音的分量的垃圾模型(此后称为无关紧要语音的分量模型)12a和12b相联系。在要识别包含在自然发生语音中的关键字的情形下，包含在自然发生语音的关键字是通过把关键字与关键字模型11相匹配而被识别的，以及包含在自然发生语音的无关紧要语音是通过把无关紧要语音与无关紧要语音分量模型12a和12b相匹配而被识别的。

实际上，关键字模型11和无关紧要语音分量模型12a与12b代表一组状态，这些状态转移自然发生语音的每个任意的分段。统计源模型“HMM”，是一个由稳定源的组合所表示的不稳定源，它组成自然发生语音。

关键字模型11的HMM(此后称为关键字HMM)和无关紧要语音分量模型12a与12b的HMM(此后称为无关紧要语音分量HMM)具有两种类型的参量。一个参量是状态转移概率，它代表从一个状态到另一个状态的状态转移，以及另一个参量是输出概率，它输出当从一个状态到另一个状态的状态转移时将观察到一个矢量(对于每个帧的特征矢量)的概率。因此，关键字模型11的HMM代表每个关键字的特征模式，以及无关紧要语音分量HMM12a与12b代表每个无关紧要语音分量的特征模式。

通常，由于即使相同的字或音节也会因为各种原因会表现出声音的不同，组成自然发生语音的语言声音随说话人有很大的变化。然而，即使是由不同的说话人发出的，相同的语言声音主要由特征谱包络和它的时间变化来表征。这样的声音变化的时间系列模式的统计特性可以由HMM精确地表示。

因此，正如下面描述的，在本实施例中，被包含在自然发生语音中的关键字是通过把输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM相匹配和计算或然率而被识别的。

顺便地，或然率表示输入的自然发生语音的特征值与关键字HMM和无关紧要语音HMM匹配的概率。

按照本实施例，HMM是每个关键字的语音成分的特征模式，或每个无关紧要语音分量的语音成分的特征值。而且，HMM是具有代表在规则的时间间隔内在每个频率上的功率的谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据的概率模型。

而且，HMM是通过获取由很多人发出的每个音素的自然发生语音数据，提取每个音素的特征模式，和根据提取的音素特征模式获取每个音素的特征模式数据而被创建的，以及事先存储在每个数据库。

当包含在自然发生语音中的关键字通过使用这样的HMM被识别时，要识别的自然发生语音被划分成预定的持续时间的分段，把每个分段与每个预存储的HMM数据相匹配，然后根据匹配过程的结果计算这些分段从一个状态到另一个状态的状态转移的概率，以辨认要识别的关键字。

具体地，在本实施例中，把每个语音分段的特征值与预存储的HMM数据的每个特征模式进行比较，计算每个语音分段的特征值与HMM特征模式匹配的或然率，并通过使用匹配处理过程计算代表对于在所有的HMM之间的联系(即，在关键字与无关紧要语音之间的联系)的概率的累积或然率，以及通过检测具有最高的或然率的HMM联系，识别自然发生语音。

代表特征矢量的输出概率的HMM通常具有两个参量“状态转移概率a和输出概率b，如图2所示。输入特征矢量的输出概率由多维正态分布的组合概率给出，以及每个状态的或然率由(1)式给出：

b_{i} (x) = \frac{1}{\sqrt{{(2 π)}^{P} | Σ_{i} |}} \exp (- \frac{1}{2} {(x - μ_{i})}^{t} Σ_{i}^{- 1} (x - μ_{i}))

公式.(1)

其中x是任意语音分段的特征矢量，∑_i是协变矩阵，λ是混合比，μ_i是事先查清的特征矢量的平均矢量，以及P是任意语音分段的特征矢量的维数。

图2是显示表示当任一个状态i改变到另一个状态(i+n)时的概率的状态转移概率a，和相对于状态转移概率a的输出概率b。图2上的每个曲线图显示在给定状态下的输入特征矢量将会输出的输出概率。

实际上，将以上公式(1)取对数的对数或然率常常被使用于语音识别，如图2所示。

\log b_{i} (x) = - \frac{1}{2} \log [(2 π)]^{P} | Σ_{i} | - \frac{1}{2} {(x - μ_{i})}^{t} Σ_{i}^{- 1} (x - μ_{i})

公式.(2)

接着，参照图3模式作为垃圾模型的无关紧要语音分量HMM。

图3是显示在无关紧要语音和关键字的任意组合中无关紧要语音HMM和无关紧要语音分量HMM的累积或然率的图。

如上所述，在传统的语音识别设备的情形下，由于无关紧要语音模型，与关键字模型一样，由代表无关紧要语音的特征值的HMM组成，为了辨认包含在自然发生语音中的无关紧要语音，要辨认的无关紧要语音必须事先存储在数据库。

要辨认的无关紧要语音可包括除关键字以外的所有的语音，即从不构成关键字的单字到不具有语言内容的不可识别的语音。因此，为了正确地识别包含在自然发生语音帧中的无关紧要语音，必须事先准备好用于大量无关紧要语音的HMM。

因此，在传统的语音识别设备中，必须获取每个无关紧要语音的特征值的数据，并通过把它存储在数据库，以便正确地识别被包含在自然发生语音中的无关紧要语音。因此，必须事先存储大量数据，但实际上不可能得到用于存储数据的区域。

而且，在传统的语音识别设备中，要花费大量的劳动来生成要存储在数据库等等中的大量数据。

另一方面，无关紧要数据也是一种语音，因此它包含诸如音节和音素的分量，但它们在数量上通常是有限的。

因此，如果包含在自然发生语音中的无关紧要语音是根据无关紧要语音分量被辨认的，则有可能减小要被准备的数据量以及有可能正确地辨认每个无关紧要语音。

具体地，因为任何无关紧要语音可以通过组合诸如音节和音素的分量而组成，如果无关紧要语音是通过使用事先准备的、为这些分量的数据而被辨认的，则有可能减小要准备的数据量以及有可能正确地辨认每个无关紧要语音。

通常，识别包含在自然发生语音中的关键字的语音识别设备把自然发生语音划分成在预定的时间间隔内的语音分段(如后面描述的)，计算每个语音分段与事先准备的垃圾模型(诸如无关紧要语音HMM)或每个关键字模型(诸如关键字HMM)匹配的或然率，根据对于每个无关紧要语音HMM和每个关键字模型HMM的每个语音分段的计算的或然率，累积关键字与无关紧要语音的每个组合的或然率，以及由此计算代表HMM联系的累积或然率。

像传统的语音识别设备那样当要识别包括在自然发生语音中的无关紧要语音的无关紧要HMM事先未作准备时，在自然发生语音中与无关紧要语音的那部分中的语音相对应的特征值表现出与无关紧要语音HMM和关键字HMM的匹配都是低的或然率以及它们的低的累积或然率，这将导致误识别。

然而，当语音分段与无关紧要语音分量HMM相匹配时，在自然发生语音中的无关紧要语音的特征值会与代表无关紧要语音分量HMM的特征值所准备的数据的匹配表现出高的或然率。因此，如果包含在自然发生语音中的关键字的特征值与关键字HMM数据相匹配，则包含在自然发生语音中的关键字与无关紧要语音的组合的累积或然率是高的，这使得有可能正确地识别关键字。

例如，当表示包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM事先准备好时，如图3(a)所示，则与在使用无关紧要语音分量HMM的情形下的累积或然率没有差别，但当表示包含在自然发生语音中的无关紧要语音的垃圾模型的无关紧要语音HMM没有事先准备好时，如图3(b)所示，与使用无关紧要语音分量HMM的情形相比较，累积或然率是低的。

因此，由于本实施例通过使用无关紧要语音分量HMM来计算累积或然率以及由此辨认包含在自然发生语音中的无关紧要语音，本实施例能够通过使用小量数据正确地辨认无关紧要语音和识别关键字。

接着，参照图4，描述按照本实施例的、如何通过把校正值加到无关紧要语音分量HMM来调节或然率。

图4是显示当把校正值加到或然率或从或然率中减去时在语音语言模型状态中如何发生转移的示例的图。

按照本实施例，当计算在事先准备的无关紧要语音分量HMM的每个特征数据与每个帧的特征值之间的匹配的或然率时，把校正值加到或然率上。

具体地，按照本实施例，如公式(3)所示，校正值α只加到在无关紧要语音分量HMM的特征数据与每个帧的特征值之间的匹配的或然率(由公式(2)给出的)，以便进行调节。这样，代表每个或然率的概率被有力地调节。

\log [b_{i} (x)] = - \frac{1}{2} \log [(2 π)]^{P} | Σ_{i} | - \frac{1}{2} {(x - μ_{i})}^{t} Σ_{i}^{- 1} (x - μ_{i}) + α

公式.(3)

按照本实施例，正如后面描述的，无关紧要语音是通过使用代表无关紧要语音分量的特征值的HMM被辨认的。基本上，单个无关紧要语音分量HMM是无关紧要语音的所有的分量(诸如音素和音节)的特征，因此每个无关紧要语音通过使用这个无关紧要语音分量HMM而被辨认。

然而，覆盖所有的分量的无关紧要语音分量HMM，与每个具有仅仅一个分量的特征值的无关紧要语音分量HMM相比较，对于组成要被辨认的无关紧要语音的无关紧要语音分量来说具有较低的匹配或然率。因此，如果在计算整个自然发生语音上的累积或然率时使用这个方法，则与自然发生语音不相干的无关紧要语音和关键字的一个组合可能被识别。

换句话说，要识别的无关紧要语音和关键字的组合，比起其他的无关紧要语音和关键字的另一个组合所计算出的累积或然率，可能具有较低的累积或然率，导致误识别。

所以，如公式(3)所示，按照本实施例，通过只在计算无关紧要语音分量HMM的或然率时才加上校正值以及用这样的方式去调节计算的或然率即增加无关紧要语音分量HMM和关键字HMM的适当的组合的或然率以超过其他的组合，就可以避免误识别。

具体地，如图4所示，当为了计算无关紧要语音分量HMM的或然率而加上的校正值α是正值时，在自然发生语音的每个帧的特征矢量与无关紧要语音分量HMM之间的匹配的或然率变为高的。因此，在自然发生语音的语音识别期间，除关键字HMM的或然率外的或然率的计算精度提高，使得除用于关键字的语音识别外的语音识别分段比起在不加上校正值α时更长。

相反，当校正值α是负值时，在自然发生语音的每个帧的特征矢量与无关紧要语音分量HMM之间的匹配的或然率变为低的。因此，在自然发生语音的语音识别期间，除关键字HMM的或然率外的或然率的计算精度降低，使得除用于关键字的语音识别外的语音识别分段比起在不加上校正值α时更短。

所以，除了生成每个帧的无关紧要语音分量HMM，把它存储在垃圾模型数据库，以及计算它们的或然率以外，按照本发明，通过只在计算无关紧要语音分量HMM的或然率时才加上校正值α以及这样来调节计算的或然率，以增加无关紧要语音分量HMM和关键字HMM的适当的组合的或然率，这样来避免误识别。

在本实施例中，正如后面描述的，按照发出自然发生语音场合附近的噪声级别来设置校正值α。

接着，参照图5描述按照本实施例的语音识别设备的结构。

图5是显示按照本发明的第一实施例的语音识别设备的结构的图。

如图5所示，语音识别设备100包括：话筒101，它接收自然发生语音，并把它变换成电信号(此后称为语音信号)；输入处理器102，它从输入的语音信号中提取与语言声音相匹配的语音信号以及按预先设置的时间间隔分割帧；语音分析器103，它提取在每帧中的语音信号的特征值；关键字模型数据库104，它预先存储代表要识别的多个关键字的特征模式的关键字HMM；垃圾模型数据库105，它预先存储代表要与关键字区分开的无关紧要语音的特征模式的无关紧要语音分量HMM；第一或然率计算器106，它计算每个帧所提取的特征值与关键字HMM匹配的或然率；第二或然率计算器107，它计算每个帧所提取的特征值与无关紧要语音分量HMM匹配的或然率；校正处理器108，它根据在以帧的特征值和无关紧要语音分量HMM为依据而计算每个帧的或然率时所收集的周围声音的噪声级别进行校正；匹配处理器109，它根据按帧的HMM计算的或然率实施匹配过程(后面描述)；以及确定装置110，它根据匹配的结果确定包含在自然发生语音中的关键字。

语音分析器103用作为本发明的提取装置，关键字模型数据库104和垃圾模型数据库105用作为本发明的贮存装置。第一或然率计算器106和第二或然率计算器107用作为本发明的计算装置和获取装置，匹配处理器109和确定装置110用作为本发明的确定装置。

在输入处理器102中，输入从话筒101输出的语音信号。输入处理器102从输入的语音信号中提取代表自然发生语音的语音分段的语音信号的那些部分，把语音信号提取的部分按预定的持续时间划分的时间间隔帧，以及把它们输出到语音分析器103。

例如，一个帧具有约10ms到20ms的持续时间。

语音分析器103逐帧地分析输入的语音信号，提取在每个帧中的语音信号的特征值，以及把它输出到或然率计算器106。

具体地，语音分析器103提取代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据，作为按逐帧的语音成分的特征值，把提取的特征值变换成矢量，以及把这些矢量输出到第一或然率计算器106和第二或然率计算器107。

关键字模型数据库104预先存储代表要识别的关键字的特征值的模式数据的关键字HMM。这些存储的多个关键字HMM的数据代表要识别的多个关键字的特征值的模式。

例如，如果它在安装有导航系统的汽车中使用，则关键字模型数据库104被设计成存储代表包括汽车的目的地名称或现在的位置名称或设施名称(诸如餐馆名称)的语音信号的特征值的模式的HMM。

如上所述，按照本实施例，代表每个关键字的语音成分的特征模式的HMM代表一个概率模型，该概率模型具有代表在规则的时间间隔内在每个频率上的功率的频谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据。

因为关键字通常包含多个音素或音节，正如按照本实施例的“present location(现在的位置)”或“destination(目的地)”的情形，一个关键字HMM包含多个关键字分量HMM，以及第一或然率计算器106逐帧地计算每个关键字分量HMM的特征值和或然率。

这样，关键字模型数据库104存储要被识别的关键字的每个关键字HMM，即，关键字分量HMM。

垃圾模型数据库105预先存储HMM“无关紧要语音分量HMM”，它是用来识别无关紧要语音的语言模型以及代表无关紧要语音分量的特征值的模式数据。

按照本实施例，垃圾模型数据库105存储一个HMM，它代表无关紧要语音分量的特征值。例如，如果存储一个基于音节的HMM的单位，则这个无关紧要语音分量HMM包含覆盖所有音节的特征的特征模式，诸如日本假名表，鼻音，有声辅音，和爆破音。

通常，为了生成对于每个音节的特征值的HMM，预先获取由许多人发出的每个音节的语音数据，提取每个音节的特征模式，以及根据每个基于音节的特征模式取得每个音节的特征模式数据。然而，按照本实施例，当生成语音数据时，要根据所有的音节的语音数据生成所有的特征模式的HMM，以及生成单个HMM(一种语言模型)，它代表多个字节的特征值。

因此，按照本实施例，根据生成的特征模式数据，生成具有所有音节的特征模式的单个HMM(它是一种语言模型)，以及把它变换成矢量，以及预先存储在垃圾模型数据库105。

在第一或然率计算器106中，输入每个帧的特征矢量。然后，通过比较每个输入的帧的特征值与被存储在关键字模型数据库104中的关键字HMM的特征值，第一或然率计算器106计算在每个帧与每个关键字HMM之间的匹配的或然率，以及把计算的或然率输出到匹配处理器109。

按照本实施例，第一或然率计算器106根据每个帧的每个特征值和存储在关键字模型数据库104中的HMM的特征值来计算概率，包括与存储在关键字模型数据库104中每个HMM相对应的每个帧的概率。

具体地，第一或然率计算器106计算输出概率，它代表每个关键字分量HMM与每个帧相对应的概率。而且，它计算状态转移概率，它代表从任意帧到下一个帧的状态转移与从每个关键字分量HMM到另一个关键字分量HMM或无关紧要语音分量的状态转移相匹配的概率。然后，第一或然率计算器106把这些计算的概率作为或然率输出到匹配处理器109。

顺便地，状态转移概率也包括从关键字分量HMM到同一个关键字分量HMM的状态转移的概率。

而且，第一或然率计算器106把对于每个帧算出的每个输出概率和每个状态转移概率作为对每个帧的或然率输出到匹配处理器109。

在第二或然率计算器107中，输入由校正处理器108输出的校正值和每个帧的每个特征矢量。然后，通过比较输入的帧的特征值和存储在垃圾模型数据库105中的无关紧要语音分量HMM的特征值并加上校正值，第二或然率计算器107计算在每个帧与无关紧要语音分量HMM之间的匹配的或然率。

按照本实施例，根据每个帧的特征值和被存储在垃圾模型数据库105中的分量HMM的特征值，第二或然率计算器107计算存储在垃圾模型数据库105中的HMM与每个帧相对应的概率。

具体地，第二或然率计算器107计算代表相应于无关紧要语音分量HMM的每个帧的概率的输出概率。而且，它计算代表从任意帧到下一个帧的状态转移与从无关紧要语音分量到每个关键字分量HMM的状态转移相匹配的概率的状态转移概率。然后，第二或然率计算器107把这些计算的概率作为或然率输出到匹配处理器109。

顺便地，状态转移概率也包括从无关紧要语音分量HMM到同一个无关紧要语音分量HMM的状态转移的概率。

第二或然率计算器107把对于每个帧计算的每个输出概率和每个状态转移概率作为对于每个帧的或然率输出到匹配处理器109。

在校正处理器108中，输入由话筒(未示出)收集的无关紧要语音的周围声音，校正处理器108根据输入的周围的声音计算校正值和把校正值输出到第二或然率计算器107，以便设置其中的校正值。

例如，按照本实施例，根据收集的周围的声音的噪声级别计算对于无关紧要语音分量HMM的校正值。具体地，当噪声级别等于或小于-56dB时，校正值α由公式(4)给出。

α＝β×(-0.10) (4)

其中β代表通过无关紧要语音分量HMM计算的或然率。当噪声级别是-55dB到-40dB时，校正值α由公式(5)给出。

α＝β×(-0.05) (5)

当噪声级别是-39dB到-0dB时，不使用校正值，以及在第二或然率计算器107中设置零校正值。

在匹配处理器109中，输入每个逐帧的输出概率和每个(输入的)状态转移概率，匹配处理器109执行匹配处理，以便根据每个输入的输出概率与每个(输入的)状态转移概率，计算累积的或然率，这是每个关键字分量HMM和无关紧要语音分量HMM的每个组合的或然率，以及把累积的或然率输出到确定装置110。

具体地，匹配处理器109对每个关键字计算一个累积或然率(如后面描述)和不带有关键字的累积或然率，即，仅仅无关紧要分量模型的累积或然率。

顺便地，后面将描述由匹配处理器109执行的匹配处理的细节。

在确定装置110中，输入由匹配处理器109计算的、每个关键字的累积或然率，以及确定装置110输出具有最高的累积或然率的关键字，确定它作为包含在外部自然发生语音中的关键字。

在对关键字进行判定时，确定装置110也单独地使用无关紧要语音分量模型的累积或然率。如果单独使用的无关紧要语音分量模型具有最高的累积或然率，则确定装置110确定没有关键字包含在自然发生的语音中以及向外输出这个结果。

接着，将给出有关按照本实施例的匹配处理器109执行的匹配处理的说明。

按照本实施例的匹配处理过程通过使用Viterbi算法计算关键字模型与无关紧要语音分量模型的每个组合的累积或然率。

Viterbi算法是这样一种算法，它根据进入的每个给定状态的输出概率和从每个状态转移到另一个状态的转移概率来计算累积或然率，然后输出其累积或然率是依据累积概率而被计算出来的组合。

通常，累积或然率是这样计算的：首先通过累计由每个帧的特征值代表的状态与由每个HMM代表的状态的特征值之间的每个欧几里德距离，然后，通过计算累积的距离计算该累积或然率。

具体地，Viterbi算法根据代表从任意状态i到下一个状态j的转移的路径计算累积的概率，由此提取通过它可以发生状态转移的每条路径，即，HMM的连接和组合。

在本实施例中，第一或然率计算器106和第二或然率计算器107通过从第一个划分的帧开始和到最后一个划分的帧结束，逐个地匹配关键字模型或无关紧要语音分量模型的输出概率和由此匹配对于输入的自然发生语音的帧的状态转移概率，而计算每个输出概率和每个状态转移概率，计算从第一个划分的帧和到最后一个划分的帧的关键字模型和无关紧要语音分量的任意组合的累积或然率，确定在每个关键字模型/由每个关键字模型与无关紧要语音分量组合中具有最高的累积或然率的安排，以及把关键字模型的确定的累积或然率逐个地输出到确定装置110。

例如，在要被识别的关键字是“present location(现在的位置)”和“destination(目的地)”，以及进入的、输入的自然发生语音是“er，present location”的情形下，按照本实施例的匹配处理过程将如下地执行。

这里假设，无关紧要语音是“er”，垃圾模型数据库105包含代表所有的无关紧要语音分量的特征的一个无关紧要语音分量HMM，关键字数据库包含“present”和“destination”的每个音节的HMM，以及由第一或然率计算器106和第二或然率计算器107计算的每个输出概率和状态转移概率已被输入到匹配处理器109。

在这样的情形下，按照本实施例，Viterbi算法根据输出概率与状态转移概率计算在对于关键字“present”与“destination”的关键字和无关紧要语音分量的每个组合中所有的安排的累积或然率。

具体地，当任意自然发生语音被输入时，根据输出概率和状态转移概率计算以下的每个组合的模式的累积或然率：对于关键字“present”的“p-r-e-se-n-t ####”，“#p-r-e-se-n-t ###”，“##p-r-e-se-n-t##”，“###p-r-e-se-n-t #”，和“####p-r-e-se-n-t”和对于关键字“destination”的”d-e-s-t-i-n-a-ti-o-n ####”，“#d-e-s-t-i-n-a-ti-o-n###”，“##d-e-s-t-i-n-a-ti-o-n##”，“###d-e-s-t-i-n-a-ti-o-n#”，和“####d-e-s-t-i-n-a-ti-o-n”(其中#表示无关紧要语音分量)。

Viterbi算法计算从每个关键字(在本例中是“presentlocation”和“destination”)的第一帧开始对于所有的自然发生的语音帧的所有的组合模式的累积或然率。

而且，在计算对于每个关键字的每个排列的累积或然率的处理过程中，Viterbi算法对于具有低的累积或然率的那些排列半途就停止计算，并确定自然发生的语音与那些组合模式不相匹配。

具体地，在第一帧中，“p”的HMM(它是关键字“present location”的关键字分量HMM)的或然率，或无关紧要语音分量HMM的或然率都被包括在累积或然率的计算中。在这种情况下，较高的累积或然率提供下一个累积或然率的计算。在以上的例子中，无关紧要语音分量HMM的或然率高于“p”的HMM的或然率，因此，对“p-r-e-se-n-t####”的累积或然率的计算在“p”后终结。

因此，在这种类型的匹配处理过程中，对于每个关键字“presentlocation”和“destination”只计算一个累积或然率。

接着，参照图6描述按照本实施例的关键字识别处理过程。

图6是显示按照本实施例的关键字识别过程的运行的流程图。

首先，当控制板或控制器(未示出)输入每个部分开始关键字识别处理的指令和自然发生语音被输入话筒101(步骤S11)时，输入处理器102从输入的语音信号提取自然发生语音的语音信号(步骤S12)，把提取的语音信号划分成预定的持续时间的帧，以及把它们按帧输出到语音分析器103(步骤S13)。

然后，按逐帧的原则执行以下的处理过程。

首先，语音分析器103提取在每个帧中的输入语音信号的特征值，以及把它输出到第一或然率计算器106和第二或然率计算器107(步骤S14)。

具体地，根据在每帧中的语音信号，语音分析器103提取代表在规则的时间间隔内每个频率上的功率的谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据作为语音成分的特征值，把提取的特征值变换成矢量，以及把矢量输出到第一或然率计算器106和第二或然率计算器107。

接着，第一或然率计算器106把输入帧的特征值与存储在关键字模型数据库104中的每个HMM的特征值进行比较，相对于每个HMM模型计算帧的输出概率和状态转移概率(如上面描述的)，以及把计算的输出概率和状态转移概率输出到匹配处理器109(步骤S15)。

接着，第二或然率计算器107把输入帧的特征值与存储在垃圾模型数据库105中的无关紧要语音分量HMM的特征值进行比较，相对于无关紧要语音分量HMM计算帧的输出概率和状态转移概率(如上面描述的)(步骤S16)。

然后，第二或然率计算器得到由校正处理器108使用上述的方法事先计算的校正值，把校正值加到对于无关紧要语音分量HMM的帧的输出概率和状态转移概率，以及把最后得到的输出概率和状态转移概率(带有校正值)输出到匹配处理器109(步骤S17)。

接着，匹配处理器109在上述的匹配处理过程中计算每个关键字的累积或然率(步骤S18)。

具体地，匹配处理器109累计每个关键字HMM和无关紧要语音分量HMM的每个或然率，以及最终只计算每个关键字的类型的最高累积或然率。

然后，在控制器(未示出)的指令下，匹配处理器109确定给定的帧是否最后的划分的帧(步骤S19)。如果匹配处理器109确定为最后的划分的帧，则匹配处理器109把每个关键字的最高的累积或然率输出到确定装置110(步骤S20)。如果该帧被确定为不是最后划分的帧，则这个操作执行步骤S14的过程。

最后，根据每个关键字的累积或然率，确定装置110向外输出具有最高的累积或然率的关键字作为包含在自然发生语音中的关键字(步骤S21)。这结束该运行。

因此，按照本实施例，因为关键字和自然发生语音是根据所存储的无关紧要语音分量特征数据被正确地辨认的，无关紧要语音可以通过使用小量数据被正确地辨认，使得有可能增加可识别的无关紧要语音，而不用增加对于识别无关紧要语音所需要的数据量，以及改进关键字被提取和识别的精确度。

具体地，当垃圾模型用多个无关紧要字的语音成分的特征值生成时，在语音识别期间在整个无关紧要语音上累积起对每个HMM的相对较低的或然率。因此，无关紧要语音HMM和要识别的关键字HMM的组合，比起随机匹配的、其他关键字HMM和无关紧要语音HMM的组合，可能具有更低的累积或然率。在这种情形下，周围的声音，诸如在发出无关紧要语音的的场合周围的噪声可能导致误识别，如果它们很响而足以被语音识别设备拾取的话。

然而，按照本实施例，因为在提取的自然发生语音特征值和无关紧要语音特征HMM之间的匹配的或然率是通过使用预先设置的校正值被计算并且包含在自然发生语音中的、要被识别的关键字或无关紧要语音至少是根据计算的或然率而被确定的，可识别的无关紧要语音会增加而不用增加对于识别无关紧要语音所需要的数据量，并且提取和识别关键字的精确度得以改进。

而且，按照本实施例，因为在提取的自然发生语音特征值和无关紧要语音特征HMM之间的匹配的或然率是通过使用预先设置的校正值计算的，计算的或然率可以调整。

因此，即使由于在发出自然发生语音的周围的噪声级别或由于在准备无关紧要语音特征数据时为了减小数据量通过组合多个特征值的特性而产生了计算误差因而可能发生误识别的情形下，在提取的自然发生语音特征值和无关紧要语音特征数据之间的匹配的或然率可以通过使用校正值来调整。这使得有可能正确地辨认无关紧要语音和关键字，这又使得有可能防止误识别以及有可能可靠地识别关键字。

顺便地，虽然按照本实施例，无关紧要语音分量模型是根据音节生成的，当然，它们可以根据音素或其他单元被生成。

而且，虽然按照本实施例，一个无关紧要语音分量HMM被存储在垃圾模型数据库105，但代表无关紧要语音分量的特征值的HMM可以对每组的多个各种类型的音素、或每个元音、辅音被存储。

在这种情形下，在或然率计算过程中逐帧计算的特征值将是无关紧要语音分量HMM和每个无关紧要语音分量的或然率。

而且，虽然按照本实施例，关键字识别过程是通过上述的语音识别设备执行的，但语音识别设备可配备有计算机和记录媒体，以及类似的关键字识别过程可以在计算机读出存储在记录媒体上的关键字识别程序时被执行。

这里，DVD或CD可被用作为记录媒体。

在这种情形下，语音识别设备将配备有用于从记录媒体中读出程序的读数装置。

虽然按照本实施例，校正值是根据在发出自然发生语音的场合附近的周围声音的噪声级别而加到在无关紧要语音分量HMM与帧的特征值之间相匹配的或然率上的，但也有可能使用事先按经验计算的校正值。

在这种情形下，例如，通过把按正常方式计算的或然率乘以±0.1而得出校正值。因此，校正值α由公式(6)给出。

α＝β×(±0.10) (6)

其中β代表通过无关紧要语音分量HMM计算的或然率。

[第二实施例]

图7到8是显示按照本发明的第二实施例的语音识别设备的图。

这个实施例与第一实施例的不同之处在于，校正值的计算要使用被识别的关键字的字长，即在自然发生语音与被包含在自然发生语音中的关键字之间的长度比值，而不是通过校正值的设置操作，校正值是根据由校正处理器收集的周围的声音的噪声级别而计算的。在其他方面，这个实施例的结构类似于第一实施例的结构。因此，与第一实施例相同的部件用与相应部件相同的参考数字表示，以及将省略这些部件的说明。

首先，参照图7描述按照本实施例的语音识别设备的结构。

如图7所示，语音识别设备200包括：话筒101，输入处理器102，语音分析器103，关键字模型数据库104，垃圾模型数据库105，第一或然率计算器106，第二或然率计算器107，校正处理器120，它按照在根据帧的特征值和无关紧要语音分量HMM计算每个帧的或然率时的关键字和自然发生语音的长度进行校正；匹配处理器109，和确定装置110。

在校正处理器120中，输入由确定装置110获取的输入关键字长度和由输入处理器102获取的自然发生语音的输入长度。而且，校正处理器120计算关键字长度与自然发生语音的长度的比值，根据计算的关键字长度的比值计算校正值，和把校正值输出到第二或然率计算器107。

具体地，当长度比是0％到39％时，校正值α由公式(7)给出。

α＝β×(-0.10) (7)

其中β代表通过无关紧要语音分量HMM计算的或然率。当长度比是40％到74％时，不使用校正值。

当长度比是75％到100％时，校正值α由公式(8)给出。

α＝β×0.10 (8)

这些校正值被输出到或然率计算器106。

接着，参照图8描述按照本实施例的关键字识别过程。

图8是显示按照本实施例的关键字识别过程的运行的流程图。

首先，当控制板或控制器(未示出)输入每个部分开始关键字识别的指令和自然发生语音被输入话筒101(步骤S31)时，输入处理器102从输入的语音信号提取自然发生语音的语音信号(步骤S32)，把提取的语音信号划分成预定的持续时间的帧，以及把它们按每帧输出到语音分析器103(步骤S33)。

然后，按逐帧的原则执行以下的处理过程。

首先，语音分析器103提取在每个帧中的输入语音信号的特征值，以及把它输出到第一或然率计算器106(步骤S34)。

具体地，根据在每帧中的语音信号，语音分析器103提取代表在规则的时间间隔内在每个频率上的功率的谱包络数据或从功率谱的对数的逆傅立叶变换得到的倒频谱数据作为语音成分的特征值，把提取的特征值变换成矢量，以及把矢量输出到第一或然率计算器106和第二或然率计算器107。

接着，第一或然率计算器106把输入帧的特征值与存储在关键字模型数据库104中的每个HMM的特征值进行比较，相对于每个HMM模型计算帧的输出概率和状态转移概率(如上面描述的)，以及把计算的输出概率和状态转移概率输出到匹配处理器109(步骤S35)。

接着，第二或然率计算器107把输入帧的特征值与存储在垃圾模型数据库105中的无关紧要语音分量HMM的特征值进行比较，由此相对于无关紧要语音分量HMM计算帧的输出概率和状态转移概率(如上面描述的)(步骤S36)。

然后，第二或然率计算器得到由校正处理器120使用上述方法事先计算的校正值，把校正值加到无关紧要语音分量HMM的帧的输出概率和状态转移概率上，以及把最后得到的输出概率和状态转移概率(带有校正值)输出到匹配处理器109(步骤S37)。

匹配处理器109在上述的匹配处理过程中计算每个关键字的累积或然率(步骤S38)。

具体地，匹配处理器109累计每个输入的关键字HMM和无关紧要语音分量HMM的每个或然率，以及最终只计算对于每个关键字的类型的最高累积或然率。

然后，在控制器(未示出)的指令下，匹配处理器109确定给定的帧是否最后划分的帧(步骤S39)。如果给定的帧被确定为最后划分的帧，则匹配处理器109把对于每个关键字的最高的累积或然率输出到确定装置110(步骤S40)。如果该帧被确定为不是最后划分的帧，则这个运行执行步骤S34的处理过程。

然后，根据每个关键字的累积或然率，确定装置110生成具有最高的累积或然率的关键字作为包含在自然发生语音中的关键字(步骤S41)。

接着，校正处理器120从输入处理器102得到自然发生语音的长度和从确定装置110得到关键字长度，以及计算关键字长度对自然发生语音长度的比值(步骤S42)。

最后，根据关键字长度对自然发生语音长度的计算的比值，校正处理器120计算上述的校正值(步骤S43)，以及将它存储以供下一次运行时使用。这结束本次运行。

而且，按照本实施例，因为在提取的自然发生语音特征值和无关紧要语音特征HMM之间的匹配的或然率是通过使用预先设置的校正值被计算的，或然率可使用预先设置的校正值而调整。

因此，即使由于在准备无关紧要语音特征数据时为了减小数据量通过组合多个特征值的特性而产生了计算误差因而可能发生误识别的情形下，在提取的自然发生语音特征值和无关紧要语音特征数据之间的匹配的或然率可以通过使用校正值来调整。这使得有可能正确地辨认无关紧要语音和关键字，这又使得有可能防止误识别并可靠地识别关键字。

而且，虽然按照本实施例，一个无关紧要语音分量HMM被存储在垃圾模型数据库105，代表无关紧要语音分量的特征值的HMM可以对于每组的多个各种类型的音素、或每个元音、辅音被存储。

在这种情形下，在或然率计算过程中逐帧地计算的特征值将是无关紧要语音分量HMM和每个无关紧要语音分量的或然率。

而且，虽然按照本实施例，关键字识别处理过程是通过上述的语音识别设备执行的，但语音识别设备可配备有计算机和记录媒体，以及类似的关键字识别处理过程可以在计算机读出被存储在记录媒体上的关键字识别程序时被执行。

在执行关键字识别程序的语音识别设备中，DVD或CD可被用作为记录媒体。

Claims

1.用于识别被包含在发出的自然发生语音中的关键字中的至少一个的语音识别设备，其特征在于，所述设备包括：

提取装置，用于通过分析自然发生语音提取自然发生语音特征值，它是自然发生语音的语音成分的特征值；

数据库(104，105)，其中预先存储至少一个表示所述关键字的语音成分的特征值的关键字特征数据、和至少一个表示无关紧要语音的语音成分的特征值的无关紧要语音特征数据；

计算装置(106，107)，用于计算表示所提取的自然发生语音的至少一部分特征值与所述关键字特征数据和所述无关紧要语音特征数据相匹配的概率的或然率；以及

确定装置(109，110)，用于根据计算出的或然率确定要被识别的关键字和所述无关紧要语音的至少一个，

其中当计算装置(106，107)计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算装置(106，107)通过使用预定的校正值计算该或然率。

2.按照权利要求1的语音识别设备，还包括设置装置，用于根据在发出自然发生语音的位置周围的噪声级别设置校正值，

其中当计算装置(106，107)计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算装置(106，107)通过使用设定的校正值来计算该或然率。

3.按照权利要求1的语音识别设备，还包括设置装置，该设置装置用于按照当确定装置(109，110)根据计算出的或然率确定所述要识别的关键字和所述无关紧要语音的至少一个时所确定的关键字的持续时间对自然发生语音的持续时间之间的比值来设置校正值；

其中当上述计算装置(106，107)计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算装置(106，107)通过使用设定的校正值来计算该或然率。

4.按照权利要求1到3的任一项的语音识别设备，其中预先存储在所述数据库(104，105)中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

5.按照权利要求1到4的任一项的语音识别设备，在其中表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库(104，105)的情形下，其中：

所述计算装置(106，107)用于当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据来计算所述或然率，以及

所述确定装置(109，110)用于根据计算出的或然率确定要被识别的所述关键字和所述无关紧要语音中的至少一项。

6.识别被包含在发出的自然发生语音中的关键字中的至少一个的语音识别方法，其特征在于，所述方法包括：

提取过程，用于通过分析自然发生语音提取自然发生语音特征值，它是自然发生语音的语言成分的特征值；

获取过程，用于获取至少一个表示所述关键字的语音成分的特征值的关键字特征数据、和至少一个表示无关紧要语音的语音成分的特征值的无关紧要语音特征数据，所述关键字特征数据和无关紧要语音特征数据预先存储在数据库(104，105)中；

计算过程，用于计算表示所提取的自然发生语音的至少一部分特征值与所述关键字特征数据和所述无关紧要语音特征数据相匹配的概率的或然率；以及

确定过程，用于根据计算的或然率确定要识别的所述关键字和所述无关紧要语音的至少一个，和

其中当所述计算过程计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算过程通过使用预定的校正值来计算或然率。

7.按照权利要求6的语音识别方法，还包括设置过程，用于根据在发出自然发生语音的位置周围的噪声级别设置校正值，以及

其中当所述计算处理过程计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算过程通过使用预定的校正值来计算或然率。

8.按照权利要求6的语音识别方法，还包括设置过程，用于按照在确定过程根据计算出的或然率确定要识别的所述关键字和所述无关紧要语音的至少一个时所确定的关键字的持续时间与自然发生语音的持续时间之间的比值来设置校正值；

其中当所述计算过程计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，所述计算过程通过使用设定的校正值计算该或然率。

9.按照权利要求6到8的任一项的语音识别方法，其中被预先存储在所述数据库(104，105)中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

10.按照权利要求6到9的任一项的语音识别方法，在其中表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库(104，105)的情形下，其中：

所述计算过程用于当所述计算装置计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据来计算或然率，以及

所述确定过程根据计算的或然率确定要识别的所述关键字和所述无关紧要语音中的至少一个。

11.记录媒体，其中记录着语音识别程序以便由计算机读出，该计算机被包括在用于识别被包含在发出的自然发生语音中的关键字中的至少一个的语音识别设备中，其特征在于，所述程序使得计算机被用作为：

提取装置，用于通过分析自然发生语音以提取自然发生语音特征值，它是自然发生语音的语音成分的特征值；

获取装置(106，107)，用于获取至少一个表示所述关键字的语音成分的特征值的关键字特征数据、和至少一个表示无关紧要语音的语音成分的特征值的无关紧要语音特征数据，所述关键字特征数据和无关紧要语音特征数据预先存储在数据库(104，105)中；

确定装置(109，110)，用于根据计算的或然率确定要被识别的所述关键字和所述无关紧要语音的至少一个，

12.按照权利要求11的记录媒体，其中程序还使得计算机被用作为设置装置，该设置装置用于根据在发出自然发生语音的位置周围的噪声级别设置校正值，以及

13.按照权利要求11的记录媒体，其中程序还使得计算机被用作为设置装置，该设置装置用于在确定装置(109，110)根据计算的或然率确定要被识别的所述关键字和所述无关紧要语音的至少一个时按照所确定的关键字的持续时间与自然发生语音的持续时间之间的比值来设置校正值；

其中当计算装置(106，107)计算表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，计算装置(106，107)通过使用预定的校正值来计算该或然率。

14.按照权利要求11到13的任一项的记录媒体，其中程序还使得计算机起如下的作用：被预先存储在所述数据库(104，105)中的所述无关紧要语音特征数据具有多个无关紧要语音的语音成分的特征值的数据。

15.按照权利要求11到14的任一项的记录媒体，在其中表示作为无关紧要语音的分量的无关紧要语音分量的语音成分的特征值的无关紧要语音分量特征数据被预先存储在所述数据库(104，105)的情形下，其中程序还使得计算机起如下的作用：

所述计算装置(106，107)用于当所述计算装置计算(106，107)表示所提取的自然发生语音的至少一部分特征值与所述无关紧要语音特征数据相匹配的概率的或然率时，根据所述无关紧要语音分量特征数据来计算或然率，以及

所述确定装置(109，110)用于根据计算的或然率来确定要识别的所述关键字和所述无关紧要语音中的至少一个。