CN101303854B

CN101303854B - 用于提供识别的语音输出的方法

Info

Publication number: CN101303854B
Application number: CN2007101032387A
Authority: CN
Inventors: 何昕; 郭丽惠
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2007-05-10
Filing date: 2007-05-10
Publication date: 2011-11-16
Anticipated expiration: 2027-05-10
Also published as: CN101303854A

Abstract

一种用于提供输入语音信号的识别的语音输出的方法和无线设备能提高识别服务的响应度。该方法包括对输入语音信号进行处理以获取多个帧(步骤310)。然后，使用多个帧的第一子集计算在线噪声倒谱平均值(步骤315)。然后，使用多个帧的第二子集计算在线倒谱平均值(步骤320)。然后，使用在线噪声倒谱平均值和在线倒谱平均值，计算输入语音信号的估计的倒谱平均值(步骤330)。然后，根据多个帧计算归一化的倒谱特征(步骤335)，并使用归一化的倒谱特征来提供识别的语音输出(步骤340)。

Description

用于提供识别的语音输出的方法

技术领域

本发明一般涉及信号处理，具体来说，涉及从语音信号中提取在线频谱特征。

背景技术

自动语音识别(ASR)系统越来越依赖于倒谱分析，以从语音信号中提取有用的语音特征。具体来说，许多ASR系统基于语音帧的梅尔频率倒谱系数(MFCC)。基于倒谱分析的语音特征通常叫做倒谱特征，并被证明对于改善ASR系统的语音识别率是有效的。例如，ASR系统可以对倒谱特征的序列执行语音识别，其中，每一个倒谱特征都包括输入的语音信号的语音帧的倒谱系数或MFCC。此外，倒谱特征对于通过具有有限的带宽的通信信道传输语音信号是很有用的。例如，倒谱特征的序列可以提供输入语音信号的压缩表示形式，倒谱特征的序列可以通过具有有限的带宽的通信信道绩效传输。然后，可以在接收器上从倒谱特征的序列构建对应于输入语音信号的语音信号。

然而，生成倒谱特征的现有技术方法一般要求大量的时间才能获得归一化的倒谱特征。归一化是一个费时的过程，该过程将倒谱特征的系数值调整到某一范围内，在该范围内，诸如ASR系统或信号滤波器之类的信号处理器可以最佳地操作。例如，为归一化输入语音信号的倒谱特征，可以从每一个倒谱特征中减去倒谱特征的平均值，有效的采样周期是获取倒谱特征的平均值首先需要的。

附图说明

为了可以轻松地理解本发明并使本发明产生经济效果，现在将参考示范性实施例并参考附图，其中，在各个单独的视图中，类似的附图标记表示相同的或功能上类似的元件。附图与下面的详细描述一起，构成了说明书的一部分，用于进一步显示各个实施例，并说明根据本发明的各种原理和优点，其中：

图1是显示了根据本发明的某些实施例的呈现移动电话的形式的无线通信设备的示意图。

图2是显示了根据本发明的某些实施例的用于对输入语音信号进行组帧并从输入语音信号提供识别的语音输出的方法。

图3是显示了根据本发明的某些实施例的用于从输入语音信号提供识别的语音输出的方法的一般流程图。

图4是显示了根据本发明的某些实施例的使用在线噪声倒谱平均值和在线倒谱平均值计算估计的倒谱平均值的方法的一般流程图。

图5是显示了根据本发明的某些实施例的用于使用一组训练语音样本来生成代码簿的方法的一般流程图。

本领域技术人员将理解，图中的元素是简明而清晰地显示的，不一定是按比例绘制的。例如，图中的某些元素的维度可以相对于其他元素而放大，以帮助改善对本发明的实施例的理解。

具体实施方式

在详细描述根据本发明的实施例之前，应该注意，实施例主要地组合了涉及从语音信号提供识别的语音输出的方法步骤和设备组件。相应地，设备组件和方法步骤在适当的情况下通过图形中的惯用符号来代表，只显示了与本发明的实施例有关的那些具体细节，以便那些对精通具有这里的描述的优点的技术的人员显而易见的细节不会妨碍对本说明书的清楚理解。

在此文档中，诸如第一和第二、顶部和底部等等关系术语可以只用于区别一个实体或操作与另一个实体或操作，而不一定需要或暗示这样的实体或操作之间的任何实际这样的关系或顺序。术语“包括”或其任何其他变体，用于涵盖非排他性的包含，以便包括元件列表的过程、方法、产品或设备不只包括那些元件而是可以包括没有明确地列出的其他元件或这样的过程、方法、产品或设备固有的其他元件。前面有“包括一个”的元件没有更多约束地，不排除包括该元件的过程、方法、产品或设备中的另外的相同元件的存在。

根据一个方面，本发明是用于从输入语音信号提供识别的语音输出的方法。该方法包括对输入语音信号进行处理以获取多个帧。然后，根据多个帧的第一子集计算在线噪声倒谱平均值。然后，根据多个帧的第二子集计算在线倒谱平均值。然后，使用在线噪声倒谱平均值和在线倒谱平均值，计算输入语音信号的估计的倒谱平均值。然后，使用估计的倒谱平均值，为第二子集的帧计算归一化的倒谱特征。然后，使用归一化的倒谱特征，提供输入语音信号的识别的语音输出。

例如，识别的语音输出可以包括文本字符串、命令代码的序列或语音签名参数的序列，它们可以通过具有有限的带宽的信道传输，然后重建为对应于输入语音信号的语音信号。通过启用在线倒谱特征归一化，而不是通过离线平均值而归一化倒谱特征，信号处理设备的总的响应度和语音识别应用程序的服务质量(QoS)可以得到改善。

请参看图1，示意图显示了根据本发明的某些实施例的呈现移动电话100的形式的无线通信设备。电话100包括被耦接为与处理器103的公用数据和地址总线117通信的射频通信单元102。电话100还具有与处理器103进行通信的小键盘106和显示屏幕105(如触摸屏)。

处理器103还包括具有用于存储数据的关联的代码只读存储器(ROM)112的编码器/解码器111，用于对可以由移动电话100传输的或接收到的倒谱特征、识别的语音输出、语音或其他信号进行编码和解码。处理器103进一步包括微处理器113，该微处理器通过公用数据和地址总线117耦接到编码器/解码器111、字符只读存储器(ROM)114、随机存取存储器(RAM)104、可编程序存储器116和用户身份模块(SIM)接口118。可编程序存储器116和SIM可操作地耦接到SIM接口118，它们各自都可以存储，其中，选定文本消息和电话号码数据库(包括电话号码的号码字段，与号码字段中的某一个号码关联的标识符的名称字段)。

射频通信单元102是具有共用天线107的组合接收器和发射器。通信单元102具有通过射频放大器109连接到天线107的收发器108。收发器108还耦接到组合调制器/解调器110，而该组合调制器/解调器110又耦接到编码器/解码器111。

微处理器113具有用于耦接到小键盘106和显示屏幕105的端口。微处理器113进一步具有用于耦接到警告模块115(该模块通常包含警告扬声器、振动器电动机和关联的驱动程序)、耦接到麦克风120，以及耦接到通信扬声器122的端口。字符ROM114存储了用于对可以由通信单元102接收到的诸如文本消息之类的数据进行解码或进行编码的代码。在本发明的某些实施例中，字符ROM114、可编程序存储器116或SIM还可以存储微处理器113的操作代码(OC)和用于执行与移动电话100关联的功能的代码。例如，可编程序存储器116可以包括语音识别服务计算机可读取的程序代码组件125，这些组件被配置为导致根据本发明的某些实施例的用于提供识别的语音输出的方法的执行。

请参看图2，该图显示了根据本发明的某些实施例的用于对输入语音信号205进行组帧并从输入语音信号205提供识别的语音输出240的方法200。每一个f_i都代表输入语音信号205的帧210。“t+D”是为输入语音信号205生成的帧的当前总数。帧210具有窗口大小215和帧移位时间220。例如，20ms的窗口大小215和10ms的帧移位时间220导致重叠的帧210。延迟因数D确定获取估计的倒谱平均值225所需要的帧210的最小数量，如此，确定获取归一化的倒谱特征230所需要的帧210的最小数量。可以通过将延迟因数D乘以帧移位时间(Fst)220获取延迟时间235。

输入语音信号205是多个帧210中的第一个帧。当获取从输入语音信号205开始的适当数量(例如，20个帧)的帧210时，选择多个帧210的第一子集，使用第一子集中的帧210的倒谱特征250计算在线噪声倒谱平均值245。根据本发明的一个实施例，倒谱特征250可以包括倒谱系数或梅尔频率倒谱系数(MFCC)。从输入语音信号205开始的帧210可以代表背景噪声，如此，从输入语音信号205开始的适当数量的帧210可以提供这样的背景噪声的大致平均的表示形式。然后，使用多个帧210的第二子集计算在线倒谱平均值255。然后，使用在线倒谱平均值255和在线噪声倒谱平均值245计算估计的倒谱平均值225。然后，使用在线倒谱平均值255和估计的倒谱平均值225来获取归一化的倒谱特征230。然后，提供输入语音信号205的识别的语音输出240。

请参看图3，一般流程图显示了根据本发明的某些实施例的用于从输入语音信号提供识别的语音输出的方法300。在步骤310中，对输入语音信号进行处理以获取多个帧。例如，如图2所示，可以对输入语音信号205进行采样，以生成数字化语音数据，然后，该数据可以被组帧为重叠帧210的序列。具体来说，根据本发明的一个实施例，可以使用8kHz的采样率，25ms的窗口大小215，以及10ms的帧移位时间220，来在移动电话100上生成多个帧210。

在步骤315中，使用多个帧210的第一子集计算在线噪声倒谱平均值。例如，可以选择获取背景噪声样本够用的少量的帧210(例如，头20个帧210)作为多个帧210的第一子集。然后，可以为第一子集中的每一个帧210获取倒谱特征250。然后，可以通过取倒谱特征250的平均值计算在线噪声倒谱平均值245。例如，可以根据下列公式计算在线噪声倒谱平均值245：

NM' = \frac{1}{N} Σ_{i = 1}^{N} X_{i},

　　　　　　　(公式1)

其中，X_i是第一子集中的帧210的倒谱特征250，N是第一子集中的帧210的数量。

在步骤320中，使用多个帧的第二子集计算在线倒谱平均值。例如，第二子集可以包括如图2所示的帧210中的某些或全部。然后，可以为第二子集中的每一个帧210获取倒谱特征250。然后，可以通过取倒谱特征250的平均值计算在线倒谱平均值255。例如，可以根据下列公式计算在线倒谱平均值255：

O_{t} = \{\begin{matrix} \frac{1}{t + D} Σ_{i = 1}^{t + D} X_{i} & if (t + D < OP) \\ \frac{1}{OP} Σ_{i = 1}^{OP} X_{i} & if (OP \leq t + D) \end{matrix},

　　　　(公式2)

其中，

第二子集中的第t个帧210的在线倒谱平均值255，X_t是第二子集中的第t个帧210的倒谱特征250，D是延迟因数，t+D是第二子集中的帧的数量，而OP是离线点。离线点是获取倒谱平均值而不对它进行估计所需的帧的数量。延迟因数D是获取在线倒谱平均值255所需的帧的数量，如此，它也是获取估计的倒谱平均值225所需的帧的数量。例如，如果Fst是以毫秒为单位的帧移位时间220，D可以被设置为200/Fst的值，以具有200ms的延迟时间235，OP可以被设置为500/Fst。那就是说，需要花费200ms就能够估计第一在线倒谱平均值255，而需要花费500ms才能获取实际倒谱平均值。

在步骤330中，使用在线噪声倒谱平均值和在线倒谱平均值计算估计的倒谱平均值。在步骤335中，使用估计的倒谱平均值，为多个帧中的一个帧，计算归一化的倒谱特征。例如，可以通过从帧210的倒谱特征250减去估计的倒谱平均值225，计算归一化的倒谱特征X_i230。例如，可以根据下列公式计算归一化的倒谱特征X_i230：

X_t′＝X_t-U_t　　　　　　　　　　　　(公式3)

其中，X_t是第二子集中的第t个帧210的倒谱特征250，U_t是估计的倒谱平均值225。

在步骤340中，使用归一化的倒谱特征，提供识别的语音输出。例如，移动电话100的ASR应用程序可以识别声音命令，或使用归一化的倒谱特征230，提供对应于输入语音信号205的文本字符串。此外，移动电话100还可以根据归一化的倒谱特征230，生成语音签名参数，这些参数对应于输入语音信号205。然后，可以通过通信信道将语音签名参数发送到另一个移动电话100，以使用语音签名参数，重建对应于输入语音信号205的语音信号。

请参看图4，一般流程图进一步显示了使用在线噪声倒谱平均值和在线倒谱平均值计算估计的倒谱平均值的步骤330。在步骤405中，使用在线噪声倒谱平均值，从代码簿410获取优选的离线倒谱平均值。例如，可以根据下列公式，使用在线噪声倒谱平均值245，从代码簿410识别优选的离线倒谱平均值，表示为Y_k，O：

k = \underset{1 \leq m \leq M}{\arg \min} | NM' - Y_{m, N} |

　　　　　　　　　(公式4)

其中，k是Y_k.O的代码簿项索引，NM′是在线噪声倒谱平均值245，Y_m.N是代码簿410中的离线噪声倒谱平均值。

在步骤415中，使用优选的离线倒谱平均值和在线噪声倒谱平均值，计算估计的倒谱平均值。例如，可以根据下列公式计算估计的倒谱平均值255：

U_t＝α×O_t+(1-α)×Y_k，O　　　　　　　　(公式5)

其中，U_t是第二子集中的第t个帧210的估计的倒谱平均值225，Y_k，O是优选的离线倒谱平均值，O_t是在线倒谱平均值255。权重因数α可以调整在线倒谱平均值O_t255和离线倒谱平均值Y_k，O的贡献比。根据本发明的某些实施例，权重因数α被定义为如下：

α = \{\begin{matrix} β \times t + 1 & if (β \times t + 1) &GreaterEqual; FL \\ FL & else \end{matrix}

　　　　　(公式6)

其中，β是负因数(例如，β＝-0.003)，FL是最低值(例如，FL＝0.1)。

请参看图5，一般流程图显示了根据本发明的某些实施例的用于使用一组训练语音样本来生成代码簿的方法500。如本领域技术人员所理解的，这样的训练语音样本一般是预先记录的语音信号。在步骤510中，对训练语音样本组中的训练语音样本进行处理以获取帧的训练集。例如，使用与图3的步骤310中所描述的用于生成输入语音信号205的多个帧210的相同方法，对训练语音样本进行采样并组帧，以生成帧序列。然后，此帧序列可以是帧的训练集。

在步骤515中，使用训练集的第一子集计算离线噪声倒谱平均值。例如，可以选择帧序列中的头20个帧作为训练集的第一子集。然后，可以为训练集的第一子集中的每一个帧获取倒谱特征。然后，可以通过取倒谱特征的平均值来生成离线噪声倒谱平均值。例如，可以根据下列公式计算离线噪声倒谱平均值NM_k：

{NM}_{k} = \frac{1}{N} Σ_{i = 1}^{N} X_{k, i}

　　　　　　　　(公式7)

其中，X_k，i是训练集的第一子集中帧的倒谱特征，N是训练集的第一子集中帧的数量，k是代码簿条目索引。

在步骤520中，使用训练集的第二子集计算离线倒谱平均值。例如，可以选择训练集中的所有帧作为训练集的第二子集。然后，可以为训练集的第二子集中的每一个帧获取倒谱特征。然后，可以通过取倒谱特征的平均值计算离线倒谱平均值。例如，可以根据下列公式计算离线倒谱平均值OffM_k：

{OffM}_{k} = \frac{1}{T} Σ_{i = 1}^{T} X_{k, i}

　　　　　　　　(公式8)

其中，X_k，i是训练集的第二子集中帧的倒谱特征，T是训练集的第二子集中帧的数量。

在步骤525中，使用离线噪声倒谱平均值和离线倒谱平均值，生成代码簿条目。例如，代码簿条目Y_k可以是按如下方式包括离线噪声倒谱平均值NM_k和离线倒谱平均值OffM_k的元组：(Y_k，N，Y_k，O)，其中，Y_k，N是离线噪声倒谱平均值NM_k，Y_k，o是离线倒谱平均值OffM_k，k是代码簿条目索引。在步骤530中，使用代码簿条目生成代码簿。例如，代码簿745可以是上文所描述的元组的列表。

因此，本发明的某些实施例的优点包括使无线设备能基于输入语音信号的归一化的倒谱特征实时从输入语音信号提供识别的语音输出。由于使用可以实时计算出的估计的倒谱平均值获取归一化的倒谱特征，因此，无线设备可以更快地提供识别输出。如此，例如，无线设备可以对语音命令输入的响应性更强，并一般提供更加有效的自动语音识别。

应该理解，这里所描述的本发明的实施例可以包括一个或多个常规处理器和唯一存储的程序指令，这些指令控制一个或多个处理器与某些非处理器电路一起实现这里所描述的从输入语音信号提供识别的语音输出的某些、大多数或所有功能。非处理器电路可以包括，但不仅限于，无线电接收器、无线电发射器、信号驱动器、时钟电路、电源电路，以及用户输入设备。因此，这些功能可以被解释为从输入语音信号提供识别的语音输出的方法的步骤。或者，一些或所有功能可以通过没有存储程序指令的状态机来实现，或以一个或多个专用集成电路(ASIC)来实现，其中，每一个功能或某些功能的某种组合作为自定义逻辑来实现。当然，也可以使用两种方法的组合。如此，这里描述了这些功能的方法和装置。此外，可以预期，本领域技术人员，尽管可能花费大量的努力和可用的时间、当前技术，以及经济方面的考虑所推动的许多设计选择，当由这里所说明的概念和原理来指导时，将轻松地能够用最少量的实验生成这样的软件指令和程序和IC。

在前面的说明中，描述了本发明的特定实施例。然而，本领域技术人员将理解，在不偏离如下面的权利要求所阐述的本发明的范围的情况下，可以进行各种修改和更改。相应地，说明和图形应被视为说明性的，而不是限制性的，所有这样的修改方案都包括在本发明的范围内。优点、优势、对问题的解决方案，以及可能导致任何优点、优势，或解决方案发生或变得更加明显的任何元素不应该被理解为任何或所有权利要求的关键的、必需的或基本特点或元素。本发明只由所附权利要求进行定义，包括在本申请的待审批过程中作出的任何修改以及这些权利要求的所有等效内容。

Claims

1.一种用于从输入语音信号提供识别的语音输出的方法，所述方法包括：

对输入语音信号进行处理以获得多个帧；

使用多个帧的第一子集计算在线噪声倒谱平均值，其中，在线噪声倒谱平均值是第一子集中帧的倒谱特征的平均值；

使用多个帧的第二子集计算在线倒谱平均值，其中，在线倒谱平均值是第二子集中帧的倒谱特征的平均值；

使用在线噪声倒谱平均值和在线倒谱平均值，计算估计的倒谱平均值，包括：

使用在线噪声倒谱平均值，从代码簿中识别优选的离线倒谱平均值；

使用优选的离线倒谱平均值和在线倒谱平均值，计算估计的倒谱平均值，

其中，根据下列公式计算估计的倒谱平均值：

U_t＝α×O_t+(1-α)×Y_k，O

其中，U_t是第二子集中帧的估计的倒谱平均值，Y_k，O是优选的离线倒谱平均值，α是权重因数，O_t是在线倒谱平均值；

使用估计的倒谱平均值，计算第二子集的帧的归一化的倒谱特征，

其中，根据下列公式计算第二子集的帧的归一化的倒谱特征：

X_t′＝X_t-U_t

其中，X′_t是归一化的倒谱特征，X_t是帧的倒谱特征，U_t是估计的倒谱平均值；以及

使用归一化的倒谱特征来提供识别的语音输出。

2.根据权利要求1所述的方法，其中，根据下列公式计算在线噪声倒谱平均值：

{NM}^{'} = \frac{1}{N} Σ_{i = 1}^{N} X_{i}

其中，X_i是第一子集中帧的倒谱特征，N是第一子集中帧的数量。

3.根据权利要求1所述的方法，其中，第一子集中帧的倒谱特征包括梅尔频率倒谱系数。

4.根据权利要求1所述的方法，其中，根据下列公式计算在线倒谱平均值：

O_{t} = \{\begin{matrix} \frac{1}{t + D} Σ_{i = 1}^{t + D} X_{i} & if (t + D < OP) \\ \frac{1}{OP} Σ_{i &NotEqual; 1}^{OP} X_{i} & if (OP \leq t + D) \end{matrix}

其中，O_t是第二子集中帧的在线倒谱平均值，X_i是第二子集中帧的倒谱特征，D是延迟因数，t+D是第二子集中帧的数量，而OP是离线点。

5.根据权利要求1所述的方法，其中，第二子集中帧的倒谱特征包括梅尔频率倒谱系数。

6.根据权利要求1所述的方法，其中，使用训练语音样本组通过下列步骤生成代码簿：

对训练语音样本组中的训练语音样本进行处理以获取帧的训练集；

使用帧的训练集的第一子集计算离线噪声倒谱平均值，其中，通过对训练集的第一子集中帧的倒谱特征求平均值，计算离线噪声倒谱平均值；

使用帧的训练集的第二子集计算离线倒谱平均值，其中，通过对训练集的第二子集中帧的倒谱特征求平均值，计算离线倒谱平均值；以及

使用离线噪声倒谱平均值和离线倒谱平均值来生成代码簿条目；以及

使用所述代码簿条目生成所述代码簿。

7.根据权利要求6所述的方法，其中，训练集的第一子集中帧的倒谱特征包括梅尔频率倒谱系数。

8.根据权利要求6所述的方法，其中，训练集的第二子集中帧的倒谱特征包括梅尔频率倒谱系数。

9.根据权利要求1所述的方法，其中，识别的语音输出包括对应于输入语音信号的文本字符串或语音签名参数。