CN1591567A

CN1591567A - 开放式词汇表语音识别

Info

Publication number: CN1591567A
Application number: CN03156092.XA
Authority: CN
Inventors: 张亚昕; 何昕; 任晓林; 孙放
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2003-08-29
Filing date: 2003-08-29
Publication date: 2005-03-09
Anticipated expiration: 2023-08-29
Also published as: US20050049870A1; CN1327406C

Abstract

本发明描述了一种由电子设备(100)执行的开放式词汇表语音识别方法300。该方法(300)包含接收一个发音波形(320)和处理该波形(350)，以便提供描述该波形的特征向量。然后，执行比较步骤(360)，将特征向量与链接单字声音模型列表中的多个链接单字声音模型进行比较，以选出一个适合的链接单字声音模型。然后，提供响应步(370)，用于提供根据适合的链接单字声音模型的响应。该响应通常是一个用于激励设备(100)中的功能的控制信号。

Description

开放式词汇表语音识别

技术领域

本发明涉及开放式词汇表语音识别。本发明特别适用于，但并不限于，由具有有限存储器和计算能力的便携式电子设备进行的开放式词汇表语音识别。

背景技术

大词汇表语音识别系统能识别出很多接收到的被说出的词。相反，有限的词汇表语音识别系统就被限制为只能识别相对少量的可以被说出和识别的词。有限词汇表语音识别系统的应用包含对少量命令和名字的识别。

大词汇表语音识别系统正在被越来越多的采用并且被应用于很多不同的应用中。这种语音识别系统需要能够在提供适当的反应之前，无显著延时的识别出已接收到的被说出的词。

大词汇表语音识别系统通常使用相关性技术来决定被说出的词(输入语音信号)和词在声音空间中的特征之间的似然值。这些特征可以由声音模型来产生，这些声音模型需要来自于一个或多个讲话人的训练数据，并且因而被称为大词汇表非特定人语音识别系统。

大词汇表非特定人语音识别系统需要大量的语音模型，以便在声音空间中充分归纳出被说出的输入语音信号中不同的声音性质在声音空间中的特征。例如，尽管是由同一个讲话人说出，单音/a/在词“had”和“bad”中的声音性质就不同。于是，作为依赖于上下文的单音，需要单音单元模拟不同词中相同单音的不同发音。

大词汇表非特定人语音识别系统通常花费大部分的不必要的时间在似然值技术中寻找一个在输入语音信号和该系统所用的每个声音模型之间的匹配值。每个声音模型通常都用一个多重高斯概率密度函数(PDF)来描述，这里每个高斯函数又是用均值向量和协方差矩阵来描述的。为了找到输入语音信号和给定模型之间的似然值，必须将输入语音信号和每个高斯函数进行匹配。然后得到模型中每个高斯函数成员的值的加权和的形式的最终似然值。每个模型中高斯函数的个数的通常在6至64之间。

在封闭词汇表语音识别系统和方法中采用了预定义固定词汇表。在使用中，这种固定词汇表可以很大，但是并不详尽，因此，例如一个人的姓和地名就不能包括。相反，开放式词汇表语音识别系统和方法具有一个可变词汇表，可以由用户或者用其他方法在词汇表中增加新的词和短语。然而，目前的开放式词汇表语音识别系统和方法需要相对高的计算开销，而这并不是便携式电子设备如个人数字助理、膝上型电脑、无线电话和其他的便携式计算设备所能接受的。

在本说明书，包括权利要求中，术语“包含”、“包括”或相近术语都是非排他性的包含，这样，一种方法或者包含一些元件的设备并不只包含那些已列出的元件，还可以包含其他没有列出的元件。

发明内容

根据本发明的一个方面，提供了一种由电子设备执行的开放式语音识别的方法，该方法包含：

接收到一个发音波形；

对该波形进行处理，以便提供表示该波形的特征向量；

将这些特征向量与链接的(concatenated)单字声音模型列表中的多个链接单字声音模型相比较，选出适当的链接单字声音模型；以及

根据所述适当链接单字声音模型提供一个响应。

链接单字声音模型列表可以用如下步骤来产生：

从词汇存储器中得到文本；

将文本转换为多个音素；以及

根据这些音素，将这些音素模型连接到链接单字模型中，形成链接单字声音模型列表。

可以用在存储器中存储多个链接单字模型的方法来产生列表。或者通过将音素模型存储器中的已选模型编入索引中的方法来产生列表。

声音模型列表最好是大小可变的。声音模型列表可以在接收步骤的执行之前生成。

词汇表可以是一个开放式词汇表。该词汇表可以包含增加的文本输入。该文本可以是电子设备的使用者增加性的输入的。

语音模型存储器可以包含隐藏马尔可夫模型。

该响应最好包含用于激活该设备功能的控制信号。

或者根据本发明的另一方面，提供了一种用于开放式词汇表语音识别的电子设备。该设备可以适当实现任意或者全部上述步骤。

附图说明

为了更好的理解本发明并且将本发明付诸实践，下面根据附图对优选实施例进行说明，其中：

图1是根据本发明的一个电子设备的示意框图；

图2是根据本发明的链接单字声音模型列表的产生方法的流程图，所述列表是由图1设备使用的；

图3是根据本发明的在图1设备中执行的开放式词汇表语音识别方法的流程图；

图4是存储在图1设备的固定音素存储器中的一个音素声音模型的状态图；

图5是链接单字声音模型的状态图。

优选实施例的详细说明

参见图1，图中所示是一个电子设备100，该设备包含一个通过总线103与用户接口104相连的设备处理器102，用户接口104通常是触摸屏或者显示屏和小键盘。用户接口104通过总线103与词隐藏马尔可夫模型合成器110中的开放式词汇存储器112相连。词隐藏马尔可夫模型合成器110还包含一个转换器114，转换器114的一个输入与开放式词汇存储器112的一个输出相连。转换器114的一个输出与链接处理器116的一个输入相连。链接处理器116与固定语音隐藏马尔可夫模型存储器118相连，并且链接处理器116的一个输出与一个声音模型列表存储器122相连，声音模型列表存储器122是单字识别器120的一个组成部分。

单字识别器120还包含一个与前端信号处理器124相连的麦克风106，前端信号处理器124的一个输出与单字识别器126的一个输入相连。单字识别器126与声音模型列表存储器122相连，并且单字识别器126的一个输出还通过总线103与设备处理器102相连。总线103还将设备处理器与前端信号处理器124和转换器114相连。在本实施例中，存储器122最好也通过总线103与设备处理器102相连。

参见图2，图中所示是用于产生设备100使用的链接单字声音模型列表的方法200的流程图。在开始步骤210，通过给设备100供电或者当用户通过用户接口104将一个新的词或者短语输入到开放式词汇表存储器112中时，调用该方法，于是产生链接单字声音模型列表。在开始步骤210之后，方法200执行步骤220，从开放式词汇存储器112中得到文本。然后由转换器114执行步骤230，将文本从字母转换为相应的多个音素。然后，链接处理器116执行步骤240，根据这些音素，将音素模型连接到单字声音模型中。例如，如果在开放式词汇存储器中的一个词是“but”，那么就在步骤230将该词转化为三个音素/b/、/ah/和/t/。

参见图4，图中是隐藏马尔可夫模型(HMM)的状态图，图解了一个存储在固定音素存储器118中的音素模型(音素声音模型)。该状态图是用三个状态S₁、S₂、S₃模拟的一个可能的音素/b/。与每个状态相关联的是转移概率，其中a₁₁和a₁₂是状态S₁的转移概率，其中a₂₁和a₂₂是状态S₂的转移概率，其中a₃₁和a₃₂是状态S₃的转移概率。这样，对于本领域技术人员来说，显然状态图是依赖于上下文的三音，每个状态S₁、S₂、S₃通常具有6至64个分量的高斯混和。同样，中间状态S₂被看作是音素HMM的稳定状态，而其他两个状态是用来描述两个音素间互连的转换状态。

再参见图2，用于链接的步骤240会得到图5中的音素/b/、/ah/和/t/的相链接的单字声音模型状态图。如图所示，每个状态图或者HMM用直接级连的方法连接起来。然后，方法200提供步骤250，产生一个包含多个链接单字声音模型的链接单字声音模型列表。该列表通常被存储在存储器中，这个存储器最好是声音模型列表存储器122。也可以用将固定音素隐藏马尔可夫模型存储器118中的已选模型编入索引中的方法来产生列表，这样就用存储器118内一个索引隐藏马尔可夫模型连接了这些链接单字声音模型。方法200然后在结束步骤260终止，当以后设备100被供电或者当用户将一个新词或短语输入到开放式词汇表存储器112中时，将再次调用该方法。

参见图3，图中给出了由电子设备100执行的开放式词汇表语音识别方法300。在开始步骤310之后，通常由用户在接口104提供的激励信号调用，方法300在步骤320接收在麦克风106输入的发音波形。然后前端信号处理器124进行采样并且在步骤330将发音波形进行数字化，然后在步骤340对其进行分割，在步骤350对其进行处理以得到描述波形的特征向量。应当注意，步骤320至350在本领域中是公知的，因此，并不需要详细的说明。

然后，在步骤360，方法300将这些特征向量与链接单字声音模型列表中的多个链接单字声音模型进行比较，以选出合适的链接单字声音模型。这里所说的比较是由单字识别器126通过对存储在声音模型存储器122中的声音模型列表进行搜索实现的。然后，识别器126执行提供步370来提供一个基于在步骤360选出的合适的链接单字声音模型的响应(识别结果信号)。

本发明允许用开放式词汇表语音识别执行设备100的命令。这些命令通常是由麦克风106检测到的用户发音，或者通过其他的输入方法，如通过无线或网络连接的通信链路远程接收到的语音。方法300在步骤320有效接收到一个发音，并在步骤370做出反映，这些反映包括提供用于控制设备100或者激励设备100的一个功能的控制信号。这样的功能可以是横过一个菜单或者根据与在步骤320接收到的发音相符合的名字选出一个相应的电话号码。

本发明允许开放式词汇表语音识别，其中该开放式词汇表存储器112可以包含由电子设备100的用户输入到词汇存储器112的增加性文本输入。同样，链接单字声音模型列表是通过对设备100供电或当用户通过用户接口104将一个新词或者短语输入到词汇表存储器112中时产生的。于是，链接单字声音模型列表是在接收步骤320的操作之前激活的。从而，本发明减轻了与现有技术开放式词汇表语音识别相关的某些相对较高计算运行时间的消耗。

该详细的说明书只提供了优选范例实施例，但这并不打算限制本发明的范围、应用、或者配置。相反，该优选范例实施例的详细说明给本领域技术人员提供了可以用于实现本发明优选范例实施例的描述。应该明白，在不背离所附权利要求中列出的本发明的精神和范围的前提下，可以对本发明中要素的功能和配置进行不同的修改。

Claims

1.一种由电子设备执行的开放式语音识别的方法，该方法包含：

接收一个发音波形；

对该波形进行处理，以便提供表示该波形的特征向量；

将这些特征向量与链接单字声音模型列表中的多个链接单字声音模型相比较，选出适当的链接单字声音模型；以及

根据所述适当链接单字声音模型提供一个响应。

2.如权利要求1所述的方法，其中链接单字声音模型列表用如下步骤来产生：

从词汇存储器中得到文本；

将文本转换为多个音素；以及

3.如权利要求2所述的方法，其中用在存储器中存储多个链接单字模型的方法来产生列表。

4.如权利要求2所述的方法，其中通过将音素模型存储器中的已选模型编入索引中的方法来产生列表。

5.如权利要求2所述的方法，其中声音模型列表是大小可变的，声音模型列表可以在接收步骤的执行之前生成。

6.如权利要求1所述的方法，其中词汇表可以是一个开放式词汇表。

7.如权利要求2所述的方法，其中词汇表可以是一个开放式词汇表。

8.如权利要求2所述的方法，其中词汇表包含增加性的文本输入。

9.如权利要求8所述的方法，其中文本是电子设备的使用者增加性的输入的。

10.如权利要求2所述的方法，其中模型存储器包含隐藏马尔可夫模型。

11.如权利要求2所述的方法，其中响应包含用于激活该设备功能的控制信号。