CN1593980A

CN1593980A - 自动语音归类方法

Info

Publication number: CN1593980A
Application number: CNA031570194A
Authority: CN
Inventors: 张亚昕; 何昕; 任晓林; 孙放; 谭昊
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2003-09-09
Filing date: 2003-09-09
Publication date: 2005-03-16
Anticipated expiration: 2023-09-09
Also published as: US20050049865A1; CN1303582C

Abstract

一种在电子设备上进行自动语音归类的方法(500)。该方法(500)包括接收一个话语波形(520)，并对该话语波形进行处理(535)，以提供特征向量。然后，在步骤(537)，通过将该特征向量与至少两个声音模型集进行比较，来进行语音识别，所述两组特征向量中的一个是普通词汇表声音模型集，而另一个是数字声音模型集。语音识别步骤(537)提供待选串，以及相关的来自所述每个声音模型集的类别分数。然后，基于所述类别分数确定波形的话语类型(550)，并在选择步骤(553)中，基于所述话语类型，选择待选串之一作为语音识别结果。根据语音识别结果，提供一个响应(555)。

Description

自动语音归类方法

技术领域

本发明涉及用于自动语音识别的话语类型的自动语音归类。本发明特别适用于、但不限于对无线电话接收到的话语的类型进行归类，以将话语归类为数字拨号类型或电话簿名称拨号类型。

背景技术

大词汇表语音识别系统可以识别许多接收到的话语词汇。与此相反，有限词汇表语音识别系统只限于相对少量的说出的和识别的词汇。语音识别系统的应用包括识别少量的命令、电话号码的名称或数字拨号。

越来越多的语音识别系统正在被装备到系统中，并被应用于各种场合。这样的语音识别系统必须能够精确地识别接收到的话语词汇，并且没有显著延迟地迅速提供适当的响应。

语音识别系统通常使用一些相关性技术，以决定话语词汇(输入的语音信号)和声音空间中的词汇的特征之间的似然值。这些特征可以从诸声音模型中产生，这些声音模型从一个或多个讲话者那里获得训练数据，并因此被称为非特定人的大词汇表语音识别系统。

对于大词汇表语音识别系统，需要大量的语音模型，以便在声音空间中，充分地归纳出所说出的输入语音信号中的声音属性变化的特征。例如，即便是由同一个讲话者说出的，音素/a/在单词“had”和“ban”中的声音特征是不同的。因此，需要被称为依赖于语境的音素的音素单元，来模拟同一个音素在不同词语中的不同声音。

语音识别系统通常花费令人烦恼的大量时间，以便在输入的语音信号和该系统所使用的每一个声音模型之间寻找匹配分数，其在本领域被称为似然分数。每个声音模型通常由多重高斯概率密度函数(PDF)描述，其中每个高斯分布由一个均值向量和一个协方差矩阵描述。为了找到一个输入的语音信号和一个给定模型之间的似然分数，该输入必须与每一个高斯分布进行匹配。来自该模型的每个高斯成员的分数的加权和，就成为最终的似然分数。

当自动语音识别(ASR)用于无线电话时，其最适当的应用是数字拨号(数字话语识别)和电话簿名称拨号(文本或短语话语识别)。然而，对于自动数字拨号语音识别而言，并不存在符合语法的句子的规则(一个数字之后可以跟随任何数字)。这使得数字话语的语音识别比自然语言话语的语音识别更容易出错。

为了改进识别精度，大多数系统研发者使用从纯粹数字串中经特殊训练而来的、清晰的数字声音模型集。而诸如电话簿名称识别和命令/控制词识别等其它应用则采用普通声音模型集，其包括一个语言中发生的所有声音。因此，当语音识别器在识别引擎中使用数字声音模型集或普通声音模型集之前，它必须预先决定需要执行哪种识别任务。因此，一个无线电话用户不得不(以任何方式)输入特定的任务领域命令(数字话语或语言话语)，以正确地启动识别任务。一个实用的例子是用户按下不同的按钮，以执行两种识别之一，或通过说出“数字拨号”或“名称拨号”而利用命令识别，以进入特定任务领域。然而，前一种办法可能造成用户的混淆，而后一种办法则会延长识别时间，而给用户带来不便。

在本说明书包括权利要求书中，“包括”、“包含”或相似用语意在表示非排它性的包括，因此，一种方法或一个装置包括一系列要素，并不是指仅仅包括这些要素，而是完全可以包括其它未列出的要素。

发明内容

根据本发明的一个方面，提供了一种方法，用于在电子设备上进行自动语音归类，该方法包括：

接收话语波形；

对话语波形进行处理，以提供代表该波形的特征向量；

通过将所述特征向量与至少两个声音模型集进行比校，来执行语音识别，其中的一个声音模型集是普通词汇表声音模型集，而另一个模型集是数字声音模型集，该执行过程提供来自每个声音模型集的诸待选串及其相关的诸类别分数；

基于类别分数，对波形的话语类型进行归类；

基于话语类型，从待选串中选择一个串，作为语音识别结果；以及

根据语音识别结果，提供响应。

适当地，该执行过程包括：

使用普通词汇表声音模型集，对特征向量进行普通语音识别，以便为话语波形中的词汇段提供一个普通词汇表累积最大似然分数；以及

使用数字声音模型集，对特征向量进行数字语音识别，以便为话语波形中的词汇段提供一个数字词汇表累积最大似然分数。

优选地，该归类过程包括将所述普通词汇表累积最大似然分数与所述数字词汇表累积最大似然分数进行对比评估，以提供话语类型。

适当地，所述执行普通语音识别的过程提供一个普通分数，该普通分数是从所选数量的最佳累积最大似然分数计算而来的，而后者得自所述执行普通语音识别的过程。

所述执行数字语音识别的过程适当地提供一个数字分数，该数字分数是从所选数量的最佳累积最大似然分数计算而来的，而后者得自所述执行数字语音识别的过程。

所述评估过程也适当地包括对比评估所述普通分数与数字分数，以便提供话语类型。

所述处理过程适当地包括将所述波形划分为由帧构成的词汇段，这些词汇段被分析，以提供代表波形的特征向量。

适当地，所述进行普通语音识别的过程为词汇段的每个帧提供一个平均普通粗略(broad)似然分数。

适当地，所述进行数字语音识别的过程为词汇段的每个帧提供一个平均数字粗略似然分数。

所述评估过程也适当地包括对出评估话语波形的每个帧的平均普通粗略似然分数与每个帧的平均数字粗略似然分数。

适当地，所述进行普通语音识别的过程为话语波形的每个帧提供一个平均普通语音似然分数，其排除了非语音帧。

适当地，所述进行数字语音识别的过程为话语波形的每个帧提供一个平均数字语音似然分数，其排除了非语音帧。

所述评估过程也适当地包括对比评估所述每个帧的平均普通语音似然分数与每个帧的平均数字语音似然分数，以便提供话语类型。

适当地，所述进行普通语音识别的过程确定话语波形的最大普通粗略似然帧分数。

适当地，所述进行数字语音识别的过程提供话语波形的最大数字粗略似然帧分数。

所述评估过程也适当地包括对比评估所述最大普通粗略似然帧分数与最大数字粗略似然帧分数，以便提供话语类型。

适当地，所述进行普通语音识别的过程确定话语波形的最小普通粗略似然帧分数。

适当地，所述进行数字语音识别的过程提供话语波形的最小数字粗略似然帧分数。

所述评估过程也适当地包括对比评估所述最小普通粗略似然帧分数与最小数字粗略似然帧分数，以便提供话语类型。

优选地，所述评估过程适当地由一个归类器执行，该归类器已由数字串和文本串进行训练。归类器最好是经过训练的人工神经网络。

适当地，所述普通词汇表声音模型集是一个音素模型集。这些音素模型可以由诸隐藏马尔科夫模型(HMM)构成。隐藏马尔科夫模型可以模拟三音素。

优选地，所述响应包括一个控制信号，用于启动所述设备的一个功能。当话语类型被确认为数字串时，该响应可能是一个电话号码拨号功能，而该数字串即是一个电话号码。

附图说明

为便于理解本发明并将其投入实际应用，现参阅参照附图描述本发明的优选实施例，在附图中：

图1是一个根据本发明的一个电子设备示意框图；

图2是一个构成图1所示的电子设备一部分的归类器的示意图；

图3是一个状态图，示出了一个音素的隐藏马尔科夫模型，该音素存储在图1所示电子设备的普通声音模型集存储器中；

图4是一个状态图，其描述了一个数字的隐藏马尔科夫模型，该数字存储在图1所示电子设备的数字声音模型集存储器中；以及

图5是一个流程图，示出一种根据本发明、用于自动语音归类的方法，该方法在如图1所示的电子设备上执行。

优选实施例的详细说明

现在参看图1，其中描述了一个电子设备100，其形式为一个无线电话，包括一个设备处理器102，其由一总线103连接到一个用户界面104，该用户界面通常是一个触摸屏，或者也可以是一个显示屏和小键盘。用户界面104由总线103连接到一个前端信号处理器108，该处理器具有一个输入端口与一个麦克风106连接，并从中接收话语。前端信号处理器108的输出连接到一个识别器110。

电子设备100还具有一个普通声音模型集存储器112和一个数字声音模型集存储器114。存储器112和114都连接到识别器110，而识别器110由总线103连接到归类器130。而且，总线103将设备处理器102连接到归类器130、识别器110、一个只读存储器(ROM)118、一个非易失存储器120和一个无线通信单元116。

正如对本领域的技术人员显而易见的那样，射频通信单元116通常是一个具有共用天线的组合的接收器和发射器。射频通信单元116具有一个收发器，其通过一个射频放大器与天线相连。该收发器也连接到一个组合的调制器/解调器，其将通信单元116连接到处理器102。而且，在本实施例中，非易失性存储器120存储着一个用户可编程的电话簿数据库Db，而只读存储器118存储着设备处理器102的操作代码，以及用来执行如下参照图2至5所描述的方法的代码。

参见图2，图中详细示出了归类器130，在本实施例中，该归类器是一个经过训练的多层感知(MLP)人工神经网络(ANN)。归类器130是一个三层归类器，其包括一个6节点输入层，用于接收观测数据F1、F2、F3、F4、F5和F6；一个4节点隐藏层H1、H2、H3和H4；以及一个2输出归类层C1和C2。隐藏层H1、H2、H3和H4的函数Func1(x)是：

Func 1 (x) = \frac{2}{1 + \exp (- 2 x)} - 1,

其中，x是每个观测数据(F1至F6)的值。输出归类层C1和C2的函数Func2(x)是：

Func 2 (x) = \frac{1}{1 + \exp (- x)}

使用了著名的Levenberg-Marquardt(LM)算法，来训练ANN。该算法是一种网络训练函数，其根据LM优化来更新权重和偏置的值。Levenberg-Marquardt算法在Martin T.Hagan和Mohammad B.Menhaj的“Training feed-forward networks with the Marquardtalgorithm”，(IEEE Trans on Neural Networks，Vol 5，No 6，1994年11月)中作了描述，该文作为参考结合到本说明书中。

观测数据F1至F6是由以下计算决定的：

F1＝(fg1-fd1)/k1；

F2＝(fg2-fd2)/k2；

F3＝(fg3-fd3)/k3；

F4＝(fg4-fd4)/k4；

F5＝fg5/fd5；以及

F6＝fg6/fd6.

其中K1至K4是由实验决定的比例常数，且K1、K2被设置为1000，K3、K4被设置为40。而fg1至fg6和fd1至fd6是表示为对数值(log₁₀)的类别分数，其决定如下：

fg1是对话语波形的所有词汇段的普通词汇表累积最大似然分数，该累计分数是话语波形中的所有似然分数的总和，是通过为话语波形的所有词汇段、而对话语波形进行普通语音识别而获得的(一个词汇段可以是一个词汇或一个数字)；

fd1是对话语波形的所有词汇段的数字词汇表累积最大似然分数，该累计分数是话语波形中的所有似然分数的总和，是通过为话语波形的所有词汇段、而对话语波形进行数字语音识别而获得的(一个词汇段可以是一个词汇或一个数字)；

fg2是从所有词汇段的、所选数量的最佳累积最大似然分数计算而来的一个普通分数，是通过对话语波形进行普通语音识别而获得的，通常所述普通分数被计算为普通声音模型集中的最前面5个普通词汇表待选串最大似然分数的平均值；

fd2是从所有词汇段的、所选数量的最佳累积最大似然分数计算而来的一个数字分数，是通过对话语波形进行普通语音识别而获得的，通常该数字分数被计算为数字话语模型集中的最前面5个数字词汇表待选串最大似然分数的平均值；

fg3是一个词汇段的每个帧的平均普通粗略似然分数，这里每个词汇段被划分为多个这样的帧(通常是以10毫秒间隔)。

fd3是一个词汇段的每个帧的平均数字粗略似然分数，这里每个词汇段被划分为多个这样的帧；

fg4是话语波形的每个帧的平均普通语音似然分数，其中排除了非语音帧；

fd4是话语波形的每个帧的平均数字语音似然分数，其中排除了非语音帧；

fg5是话语波形的最大普通粗略似然帧分数(即最大的fg3)；

fd5是话语波形的最大数字粗略似然帧分数(即最大的fd3)；

fg6是话语波形的最小普通粗略似然帧分数(即最小的fg3)；

fd6是话语波形的最小数字粗略似然帧分数(即最小的fd3)；

参见图3，其中示出了一个隐藏HMM的状态图，该模型用来模拟存储在普通声音模型集存储器112中的普通词汇表声音模型集。该状态图示出了许多音素声音模型中的一个，这些音素声音模型构成了存储在存储器112中的一个声音模型集，其中的每个音素声音模型由3个状态S₁、S₂、S₃来模拟。与每个状态相关联的是转移概率，其中a₁₁和a₁₂是状态S₁的转移概率，a₂₁和a₂₂是状态S₂的转移概率，a₃₁和a₃₂是状态S3的状态转移概率。因此，正如对本领域的技术人员显而易见的，该状态图表示的是一个语境相关的三音素，其每个状态具有一个通常由6至64个成分构成的高斯混合。而且，中间的状态S₂被视为一个音素HMM的稳定状态，而其它两个状态是用来描述两个音素之间的协同发音(co-articulation)的转移状态。

现参照图4的状态图，图中示出了一个数字的HMM，该模型构成一个数字声音模型集，并存储在数字声音模型集存储器114中。该状态图所表示的数字是由10个状态S₁至S₁₀模拟的，且分别与每个状态相关的是其相关转移概率，其中a₁₁和a₁₂是状态S₁的转移概率，所有其它每个状态的转移概率遵循同样的字母和数字表示规则。数字声音模型集存储器114只需要模拟10个数字(数字0至9)，因而只需要11个HHM(声音模型)。这11个模型模拟的数字发音为：“zero”(0)、“oh”(0)、“one”(1)、“two”(2)、“three”(3)、“four”(4)、“five”(5)、“six”(6)、“seven”(7)、“eight”(8)、“nine”(9)。然而，这些模型可能根据使用的语言或其它因素而变化。例如，数字0的模型中可能添加“nought”(零)和“nil”(零)。

参见图5，其中示出了一种用于在电子设备100上进行自动语音归类的方法500。通常由用户在界面104提供一个启动信号，以启动开始步骤510，此后，方法500执行步骤520，以便从麦克风106接收话语波形输入。然后，由前端信号处理器108在步骤525对话语波形进行采样和数字化，随后在步骤530将其分段为帧，之后在步骤535对其进行处理，以提供代表波形的特征向量。应当注意，步骤520至535在本领域中是公知的，因而不需要详细解释。

然后，方法500在执行识别步骤537中，通过将特征向量与至少两个声音模型集进行比较，来进行语音识别，该两个模型集中的一个模型集是存储在存储器112中的普通词汇表声音模型集，另一个模型集是存储在存储器114中的数字声音模型集。该过程提供待选串(文本的或数字的)，及其相关的、得自每个声音模型集的类别分数。然后，在检测步骤540，方法500确定是否波形中的词汇数大于一个临界值。该检测步骤540是可选的，并特别用于将话语波形确认和归类为电话号码的数字拨号。如果话语波形中的词汇数大于一个临界值(通常该值是7)，则在步骤545，话语类型被认为是一个数字串，并且类型标志TF被设置为数字串类型。其基于的假设是，该方法仅用于电话名称或数字拨号识别。另一方面，如果在步骤540，话语波形中的词汇数被确定为小于该临界值，则执行一个归类步骤550。在此归类过程中，由识别器110向归类器130提供观测数据F1至F6。因此，在步骤550中，基于类别分数fg1至fg6和fd1至fd6，而提供了对话语类型的归类。作为结果，话语类型或者是数字串，或者是文本串(其可能包括词汇和数字)，而类型标志TF也得到相应设置。

在步骤545或550之后，选择步骤553基于话语类型，从诸待选串中选择一个待选串，作为语音识别结果。由识别器110所执行的提供步骤555基于语音识别结果，提供一个响应(识别结果信号)。然后，方法500在结束步骤560结束。

所述进行语音识别包括使用存储器112中的普通词汇表语音模型集对特征向量进行普通语音识别，以提供fg1至fg6的值。所述进行语音识别也包括使用存储器114中的数字语音模型集对特征向量进行数字语音识别，以提供fd1至fd6的值。然后，归类步骤550如上所述评估观测结果F1至F6，并将这些结果馈送到归类器130中，以提供话语类型C1(数字串)或C2(文本串)。话语波形可以由此而简单地得到识别，因为所有的搜索和似然分数评分已经进行过了。以这样的方式，设备100使用来自普通声音模型集或数字声音模型集的结果，来进行语音识别，并提供响应。

有利的是，本发明允许使用语音识别在设备100上执行命令，并克服或至少减轻与现有技术的语音识别及对命令的响应有关的一个或多个问题。这些命令通常输入自麦克风106所检测到的用户话语，或输入自其它输入方法，如通过无线或网络通信链路而远程接收的声音。方法500在步骤520有效地接收到话语，而在步骤555的响应包括提供一个控制信号以控制设备100，或者启动设备100的一个功能。当话语类型是文本串时，这样的功能可能是在菜单中移动，或者选择与名称相关的电话号码，该名称是与步骤520接收到的话语相对应的。另一方面，当话语类型是数字串时，则通常启动电话号码的数字拨号(电话号码拨号功能)，而所拨的号码是从识别器110获得的，该识别器使用所述数字模型，以决定波形中由特征向量所代表的数字。

上述详细说明仅仅描述了优选的示例性实施例，而无意限制本发明的范围、适用性或配置。反之，本优选示例性实施例详细说明使得本领域的技术人员可以实施本发明的优选示例性实施例。应当理解，可以对其中各要素的功能和安排作各种改变，而不必脱离如所附权利要求书所阐明的本发明的精神和范围。

Claims

1.一种在电子设备上进行自动语音归类的方法，包括：接收一个话语波形；

处理该话语波形，以提供代表该话语波形的特征向量；

通过将所述特征向量与至少两个声音模型集进行比较，对所述话语波形执行语音识别，所述声音模型集中的一个是普通词汇表声音模型集，另一个是数字声音模型集，所述执行过程提供待选串以及相关的、来自每个声音模型集的类别分数；

基于所述类别分数，确定波形的话语类型；

基于所述话语类型，选择所述待选串中的一个，作为语音识别结果；以及

根据语音识别结果，提供一个响应。

2.如权利要求1的自动语音归类方法，其中所述执行过程包括：

使用所述普通词汇表声音模型集对所述特征向量执行普通语音识别，以便为话语波形中的词汇段提供普通词汇表累积最大似然分数；以及

使用所述数字声音模型集对所述特征向量执行数字语音识别，以便为话语波形中的诸词汇段提供数字词汇表累积最大似然分数。

3.如权利要求2的自动语音归类方法，其中所述归类过程包括将所述普通词汇表累积最大似然分数与所述数字词汇表累积最大似然分数进行对比评估，以提供话语类型。

4.如权利要求3的自动语音归类方法，其中所述执行普通语音识别过程提供一个普通分数，该普通分数是从所选数量的最佳累积最大似然分数计算而来的，而这些最佳累积最大似然分数得自执行通用语音识别的过程。

5.如权利要求4的自动语音归类方法，其中所述执行数字语音识别过程提供一个数字分数，该数字分数是从所选数量的最佳累积最大似然分数计算而来的，而这些最佳累积最大似然分数得自执行数字语音识别的过程。

6.如权利要求5的自动语音归类方法，其中所述评估也包括对比评估所述普通分数和所述数字分数，以提供话语类型。

7.如权利要求3的自动语音归类方法，其中所述处理包括将所述波形划分为由帧构成的诸词汇段，这些词汇段被分析，以提供代表波形的特征向量。

8.如权利要求7的自动语音归类方法，其中所述进行普通语音识别的过程为词汇段的每个帧提供一个平均普通粗略似然分数。

9.如权利要求8的自动语音归类的方法，其中所述进行数字语音识别的过程为词汇段的每个帧提供一个平均数字粗略似然分数。

10.如权利要求9的自动语音归类方法，其中所述评估也包括对比评估所述波形的所述每帧平均普通粗略似然分数与所述每帧平均数字粗略似然分数。

11.如权利要求10的自动语音归类方法，其中所述进行普通语音识别的过程提供波形每帧的平均普通语音似然分数，排除了非语音的帧。

12.如权利要求11的自动语音归类方法，其中所述执行数字语音识别的过程提供波形每帧的平均数字语音似然分数，排除了非语音的帧。

13.如权利要求12的自动语音归类方法，其中所述对估过程也包括对比评估所述每帧的平均普通语音似然分数与所述每帧的平均数字语音似然分数，以提供话语类型。

14.如权利要求13的自动语音归类方法，其中所述执行普通语音识别的过程识别所述话语波形的最大普通粗略似然帧分数。

15.如权利要求14的自动语音归类方法，其中所述执行数字语音识别的过程提供所述话语波形的最大数字粗略似然帧分数。

16.如权利要求15的自动语音归类方法，其中所述评估过程也包括对比评估所述最大普通粗略似然帧分数与所述最大数字粗略似然分数，以提供话语类型。

17.如权利要求16的自动语音归类方法，其中所述执行普通语音识别的过程识别所述话语波形的最小普通粗略似然帧分数。

18.如权利要求17的自动语音归类方法，其中所述执行数字语音识别的过程提供所述话语波形的最小数字粗略似然帧分数。

19.如权利要求18的自动语音归类方法，其中所述对比评估过程也包括对比评估所述最小普通粗略似然段分数与所述最小数字粗略似然段分数，以提供话语类型。

20.如权利要求19所述的自动语音归类方法，其中所述评估过程是由一个归类器进行的，该归类器既由数字串和文本串所训练。

21.如权利要求3的自动语音归类方法，其中所述响应包括用于启动所述设备的功能的控制信号。

22.如权利要求21的自动语音归类方法，其中所述响应包括当话语类型被确认为数字串时的电话号码拨号功能，其中该数字串是一个电话号码。