CN1802694A

CN1802694A - 信噪比中介的语音识别算法

Info

Publication number: CN1802694A
Application number: CNA2004800159417A
Authority: CN
Inventors: 乔丹·科恩; 丹尼尔·L.·罗森; 劳伦斯·S.·吉利克
Original assignee: Voice Signal Technologies Inc
Current assignee: Voice Signal Technologies Inc
Priority date: 2003-05-08
Filing date: 2004-05-10
Publication date: 2006-07-12
Also published as: GB2417812B; GB2417812A; US20040260547A1; WO2004102527A2; WO2004102527A8; JP2007501444A; DE112004000782T5; WO2004102527A3; GB0523024D0

Abstract

在噪声环境中处理语音的方法包括：基于唤醒命令确定何时环境噪声太多以致不能产生用户说出的话语的可靠识别，并警告用户环境噪声太多。确定何时环境噪声太多包括计算信噪比。信号对应于说出的话语中的能量值，噪声对应于背景噪声中的能量值。所述方法还包括将信噪比和一个门限作比较。

Description

信噪比中介的语音识别算法

技术领域

本发明一般涉及具有语音识别能力的无线通信设备。

背景技术

无线通信设备，如蜂窝式移动电话(蜂窝电话)，通常采用使用户能以免提及免看(eyes-free)方式操作设备的语音识别算法。例如，目前市场上的许多蜂窝电话能够识别并执行语音命令以发起呼出的电话呼叫，接听呼入的电话呼叫，和执行其它功能。这些蜂窝电话中的许多还可以识别口头说出的姓名，并在电子电话薄中找到该识别出的姓名，然后自动呼叫与该姓名相关联的电话号码。

当用户操作设备的环境具有较低的背景噪声时，也就是当语音信号的信噪比较高时，语音识别算法性能较好。当背景噪声级别增加时，语音信号的信噪比减小，语音识别算法的错误率就上升。换句话说，说出的词或者根本不能被识别或者被错误地识别。在其中可用计算功率和存储器由于较小的工作平台的小的尺寸而被严格限制的蜂窝电话和其它移动通信设备的情况下，上述情况特别成问题。而且，蜂窝电话和其它移动通信设备一般都在噪声环境下使用。例如，蜂窝电话通常在汽车里和繁忙的城市街道上这两种场所被使用。在汽车里，尤其是在高速公路上行驶的汽车里，语音信号将被掺杂进大量的汽车噪声(例如，轮胎相对路面所发出的噪声、空气流过汽车所发出的噪声、无线电台的音乐声等)。在繁忙的城市街道上，语音信号将被掺杂进交通噪声、汽车喇叭声、和其他附近人们的谈话声等。

发明内容

所描述的实施例在语音环境噪声太多以至于嵌入的语音识别器不能可靠的工作时将会通知蜂窝电话用户。然后，蜂窝电话用户可以采取步骤增加SNR，例如，通过大些声音说话或通过减小噪声级别。

一方面，在移动设备中执行语音识别的方法包括从移动设备的用户接收说出的话语，通过语音识别算法来处理从接收到的说出的话语中所得到的信号。对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。所述方法还包括：如果对得到的信号的处理确定环境噪声太多以致不能产生说出的话语的可靠识别，则执行改善通过语音识别算法对说出的话语的内容的识别的动作。

改善对说出的话语的内容的识别的动作可以包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。所述动作可以包括：要求用户重复话语，或产生音频信号，或产生视觉信号。所述动作可以包括移动设备的机械振动。

改善对说出的话语的内容的识别的动作可以包括修改语音识别算法以改善在说出话语的环境中的识别性能。语音识别算法可以包括声学模型，其中修改语音识别算法包括改变声学模型。语音识别算法可以包括被参数化以处理不同级别的背景噪声的声学模型，其中修改语音识别算法包括改变声学模型中的参数以适应背景噪声的级别。

确定说出话语的环境是否噪声太多以致不能产生可靠识别的步骤可以包括计算接收到的话语的信噪比，并将计算出的信噪比和一个门限作比较。

另一方面，一个实施例包括存储指令的计算机可读媒介，所述指令当在处理器系统上被运行时使处理器系统使用语音识别算法来处理从用户所说出的话语得到的信号。处理器系统上所运行的指令还确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别。如果确定环境噪声太多以致不能产生说出的话语的可靠识别，则处理器系统上所运行的指令执行改善通过语音识别算法对说出的话语的内容的识别的动作。

处理器系统上所运行的存储的指令使处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作，或者所述指令使处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。处理器系统上所运行的存储的指令可以使处理器系统还通过比较计算出的信噪比和一个门限来确定说出话语的环境是否噪声太多以致不能产生可靠识别。

处理器系统上所运行的指令可以使处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。在一个实施例中，语音识别算法包括声学模型，并且其中所存储的指令使处理器系统通过改变声学模型来修改语音识别算法。在另一个实施例中，语音算法包括被参数化以处理不同级别的背景噪声的声学模型。所存储的指令使处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。

附图说明

图1是本发明一个实施例的操作的流程图。

图2是其上可以实现这里所描述功能的智能电话的高级别框图。

具体实施方式

所描述的实施例是一种具有软件的蜂窝电话，所述软件提供语音识别功能，如现在商用的很多蜂窝电话中都具有的语音识别功能。一般地，语音识别功能允许用户避开手动键盘而通过说出的词来输入命令和数据。在这种情况下，软件还确定蜂窝电话正使用的环境是否噪声太多以致不能产生用户说出的话语的可靠识别。在下面更加详细描述的实施例中，软件测量SNR并将其和预先设置的门限相比较来确定是否噪声太多。在确定环境噪声太多时，蜂窝电话接着采取动作来处理这个问题。例如，或者它警告用户环境噪声太多以致不允许可靠识别，或者它修改内部语音识别算法来改善特定环境下的识别性能。

结合图1中的流程图，我们来描述本发明一个特定实施例的操作。之后，我们将描述检测何时环境噪声太多的可选方法，和响应噪声环境的可选方法。最后，我们将描述其中能实现所述功能的典型的蜂窝电话。

蜂窝电话首先接收唤醒(wake-up)命令(块200)，该命令可以是按一下按钮，敲击一下键盘，特定的说出的关键字，或者仅是来自于用户的一声开始。唤醒命令初始化确定语音环境是否噪声太多的进程。如果唤醒命令是说出的命令，则软件可以被配置成使用唤醒命令来测量SNR。另外，它可以被配置成等待下一个从用户所接收的话语，并使用该下一个话语(或该话语的某部分)来测量SNR。

为了确定SNR，语音识别软件计算作为所述话语的时间的函数的能量值(块202)。然后，它识别出话语中具有最高能量的部分(块204)，并且它识别出具有最低能量的部分(块206)。软件使用这两个值计算话语的SNR(块208)。在这种情况下，SNR简单地是最高值和最低值的比。

在所描述的实施例中，识别软件逐帧地处理所接收的话语，其中，每一帧代表话语的一个采样序列。软件为每一帧计算能量值。它通过在整帧上对采样的能量求积分值来计算每帧的能量值，这样所计算的能量值代表相关帧的总能量。在话语的最后(或话语开始后过了一段时间)，软件识别具有最高能量值的帧和具有最低能量值的帧。然后通过用具有最高能量值的帧的能量除以具有最低能量值的帧的能量来计算SNR。

语音识别软件将所计算的信噪比和可接受的门限相比较(块210)。门限表示语音识别产生一个可接受的低错误率时SNR必需超过的级别。门限可通过经验、分析、或者通过两者的某种结合来确定。软件还允许用户调节此门限以调整蜂窝电话的性能或灵敏度。

如果信噪比没有超过可接受的门限，则语音识别软件通知用户信噪比太低212。

如果信噪比没有超过可接受的门限，则语音识别软件采取步骤处理这个问题(块212)。在所描述的实施例中，它可以通过停止继续识别并简单地警告用户噪声太多以致不能进行可靠的识别来处理这个问题。然后，用户可以尽量减小背景噪声级别(例如，通过改变其位置，调低收音机，等待某些特定噪声事件结束等)。语音识别软件通过多种不同方式中的一个或多个来警告用户，所述方式可由用户来配置，包括音频信号(例如，嘟嘟响或者音调)、视觉信号(例如，蜂窝电话显示器上的消息或闪烁信号)、触觉信号(例如，如果蜂窝电话装配了振动功能的话，产生振动脉冲)、或它们的某种结合。

如果信噪比超过了可接受的门限，则语音识别软件继续正常的处理。

语音识别算法可以使用其它技术(或所述技术的结合)来计算语音信号的信噪比。一般地，这些技术确定引入的语音的能量相对于非语音的能量的值。另外一种技术是产生整个话语的或一段时期内的能量直方图(histogram)，并计算较低能量百分点对较高能量百分点的比值(例如，百分之五的能量区域相对于百分之九十五的能量区域)。另一种技术是使用两状态HMM(隐马尔可夫模型(Hidden MarkovModel))，并计算两状态的平均值和方差，其中所述状态之一表示语音，另一个状态表示噪声。

语音识别算法还可以计算和信号与噪声有关的统计值。这个统计值被称为“可理解性指数(intelligibility index)”。根据这个方法，语音识别软件将声音帧(或帧内的采样)分散到离散的频率范围中，并仅针对所述频率范围的子集计算高能量对低能量的比值。例如，在一个特定环境中，噪声可能主要在300Hz到600Hz的频率范围内。因此，语音识别软件将仅针对落在该频率范围内的能量计算高能量对低能量的比值。另外，语音识别软件可以对不同频率范围中的每个应用一个加权系数，并计算加权的复合的高能量对低能量的比值。

在上述实施例中，语音识别软件通过警告用户来响应检测到低的SNR。还有其它方式，其中，它可以作为发送简单警告的替代或者除了发送简单警告之外来进行响应。例如，语音识别软件可以在视觉上或在听觉上指示用户重复话语。代替告警用户，语音识别软件可以修改说明噪音环境的声学模型来产生在该环境中执行得更好的语音识别器。

例如，语音识别软件可以包括从嘈杂的语音中被训练出的声学模型。所述声学模型可以被参数化以处理不同的噪声级别。在所述情况下，语音识别软件将根据计算出的信噪比来选择所述级别中合适的一个。另外，声学模型可以是可衡量的，以处理一定范围内的噪声级别，在这种情况下，语音识别软件将根据计算出的信噪比来衡量使用的模型。另一种方法是利用参数化的声学模型来处理各种噪声(例如，汽车噪声、街道噪声、听众席上的噪声等)，在这种情况下语音识别软件将根据用户输入和/或计算出的信噪比来选择特定的一种类型用于所述模型。

另一种方法是使用具有不同语音学清单的声学模型来说明高噪声环境。例如，高噪声环境可以使某些辅音(例如，“p’s”和“b’s”)模糊，因此，被专门设计为就那些被模糊的辅音来解码的具有语音学清单的声学模型在噪声环境下比默认的声学模型执行得更好。

然而，另一种方法将使用具有不同分类器几何学(classifiergeometry)的声学模型来补偿低信噪比环境。这种分类器包括HMM、神经网络、或现有技术中已知的其它语音分类器。语音识别软件还可以使用具有不同前端参数化的声学模型以在噪声环境中提供更好的性能。例如，如果噪声被限制在一个特定的窄频率范围内，则处理声学信号的频谱表示的声学模型可以比处理信号的倒频谱(cepstral)表示的声学模型执行得更好。这是因为频谱模型能够去除噪声频率范围，而倒频谱模型不能。

图2所示的智能电话100是可以实施上述语音识别功能的平台的例子。智能电话100的一个例子是Microsoft PocketPC-powered电话，所述电话在其核心包括用于处理蜂窝通信功能(包括例如语音频带和信道编码功能)的基带DSP 102(数字信号处理器)，和PocketPC操作系统在其上运行的应用处理器104(例如，Intel StrongArm SA-1110)。该电话支持GSM语音呼叫、SMS(短消息业务)文本消息、无线电子邮件、和类似桌上型电脑的网页浏览以及其它传统的PDA特征。

后面有功率放大器模块110的RF合成器106和RF无线电收发器108实现发送和接收功能。功率放大器模块通过天线112处理最后阶段的RF发送任务。接口ASIC 114和音频CODEC 116将接口提供给扬声器、麦克风、和电话中所提供的其它输入/输出设备，例如用于输入命令和信息的数字的或字母数字的键盘(没有示出)。

DSP 102使用闪存118来进行代码存储。锂离子(lithium-ion)电池120为电话供电，以及被耦合到DSP 102的功率管理模块122管理电话内的功率消耗。SDRAM 124和闪存126分别为应用处理器114提供易失性的和非易失性的存储器。存储器的这种安排保持了操作系统的代码、例如电话薄的用户化特征的代码、和用于智能电话中任何其它应用软件的代码，包括前面描述的语音识别软件。智能电话的可视显示设备包括驱动LCD显示器130的LCD驱动芯片128。还有时钟模块132，所述时钟模块为电话内的其它设备提供时钟信号以及提供实时的指示器。所有上述部件都被封装在适当设计的外壳(housing)134中。

上述智能电话100表示大量不同的商用智能电话的一般内部结构，以及这些电话的内部电路设计在现有技术中是已知的。

其它方面、修改、和实施例都是在下面权利要求的范围内的。

Claims

1.一种在移动设备上执行语音识别的方法，所述方法包括：

从所述移动设备的用户接收说出的话语；

通过语音识别算法来处理从接收到的说出的话语中得到的信号，其中所述对得到的信号的处理还包括确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别；

如果对得到的信号的处理确定所述环境噪声太多以致不能产生说出的话语的可靠识别，则执行改善通过语音识别算法对说出的话语的内容的识别的动作。

2.根据权利要求1所述的方法，其中执行所述动作包括警告用户存在太多噪声以致不允许说出的话语的可靠识别。

3.根据权利要求2所述的方法，其中警告还包括请求用户重复话语。

4.根据权利要求2所述的方法，其中警告包括产生语音信号。

5.根据权利要求2所述的方法，其中警告包括产生视觉信号。

6.根据权利要求2所述的方法，其中警告包括产生触觉信号。

7.根据权利要求6所述的方法，其中触觉信号是移动设备的机械振动。

8.根据权利要求1所述的方法，其中确定说出话语的环境是否噪声太多以致不能产生可靠识别包括计算接收到的话语的信噪比。

9.根据权利要求8所述的方法，其中确定说出话语的环境是否噪声太多以致不能产生可靠识别还包括将计算出的信噪比和一个门限作比较。

10.根据权利要求1所述的方法，其中执行所述动作包括修改语音识别算法以改善在说出话语的环境中的识别性能。

11.根据权利要求10所述的方法，其中所述语音识别算法包括声学模型，并且其中修改语音识别算法包括改变所述声学模型。

12.根据权利要求10所述的方法，其中所述语音识别算法包括被参数化以处理不同级别的背景噪声的声学模型，并且其中修改所述语音识别算法包括改变所述声学模型中的参数以适应背景噪声的级别。

13.一种存储指令的计算机可读媒介，所述指令当在处理器系统上被运行时使所述处理器系统：

使用语音识别算法来处理从用户说出的话语中得到的信号；

确定说出话语的环境是否噪声太多以致不能产生说出的话语的可靠识别；和

如果确定环境噪声太多以致不能产生说出的话语的可靠识别，则执行改善通过所述语音识别算法对说出的话语的内容的识别的动作。

14.根据权利要求13所述的计算机可读媒介，其中所述存储的指令使所述处理器系统通过警告用户存在太多噪声以致不允许说出的话语的可靠识别来执行所述动作。

15.根据权利要求13所述的计算机可读媒介，其中所述存储的指令使所述处理器系统通过计算说出的话语的信噪比来确定说出话语的环境是否噪声太多以致不能产生可靠识别。

16.根据权利要求13所述的计算机可读媒介，其中所述存储的指令使所述处理器系统通过还将计算出的信噪比和一个门限作比较来确定说出话语的环境是否噪声太多以致不能产生可靠识别。

17.根据权利要求13所述的计算机可读媒介，其中所述存储的指令使所述处理器系统通过修改语音识别算法以改善在说出话语的环境中的识别性能来执行所述动作。

18.根据权利要求17所述的计算机可读媒介，其中所述语音识别算法包括声学模型，并且其中所述存储的指令使所述处理器系统通过改变所述声学模型来修改所述语音识别算法。

19.根据权利要求17所述的计算机可读媒介，其中所述语音算法包括被参数化以处理不同级别的背景噪声的声学模型，并且其中所述存储的指令使所述处理器系统通过改变声学模型中的参数以适应背景噪声的级别来修改语音识别算法。