CN102934159A

CN102934159A - 语音音频处理

Info

Publication number: CN102934159A
Application number: CN2011800276020A
Authority: CN
Inventors: W·M·贝尔特曼; M·赞纳图; A·瑞丘德芮; A·P·兰加拉杰; M·E·戴舍尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2010-06-30
Filing date: 2011-06-30
Publication date: 2013-02-13
Anticipated expiration: 2031-06-30
Also published as: TW201222527A; JP2013531275A; WO2012003269A2; JP5644013B2; WO2012003269A3; US8725506B2; KR101434083B1; TWI455112B; KR20130033372A; EP2589047A2; CN102934159B; US20120004909A1; EP2589047A4

Abstract

本发明提供一种语音处理引擎，在一些实施例中，该语音处理引擎采用具有特定发话者的声门信息的卡尔曼滤波以净化音频语音信号，从而实现更有效的自动语音识别。

Description

语音音频处理

技术领域

本发明一般涉及音频处理并具体涉及语音信号处理。

附图简述

本发明的实施例在附图的各个示图中作为示例而非限制示出，在附图中类似的附图标记表示相似的要素。

图1是根据一些实施例的语音处理引擎的示图。

图2是根据一些实施例的合成器的示图。

图3是根据一些实施例实现语音处理引擎的结构的示图。

图4是根据一些实施例的电子设备平台的示图。

具体实施方式

话音命令和连续语音识别用于例如具有键盘功能有限的车内应用和电话的移动互联网设备。需要对任何语音识别引擎提供干净的输入，但环境中的背景噪声妨碍了这个目标。例如，试验已表明，开放式口述字词的准确性在汽车噪声和自助餐厅环境中可能下降大约20％，这对于用户而言可能难以接受。

当今的语音引擎具有一些降噪特征以降低背景噪声的影响。然而，这些特征可能不足以在有挑战的环境中允许开放式口述。因此，可使用卡尔曼（Kalman）滤波技术来改进语音信号处理。

通过本文给出的一些实施例，可通过将音频噪声滤波处理分路成独立的语音识别路径和人接收路径来提高语音识别性能。也就是说，可克隆音频路径来产生“感知”(或听觉接收)信道和用于语音识别引擎的预处理音频的独立信道。

图1是根据一些实施例的语音处理引擎102的框图。它包括基于卡尔曼的滤波引擎104、发话者/话音模型106、环境噪声模型107、自动语音识别(ASR)引擎108以及标准噪声抑制块110。

音频(例如来自麦克风的数字化音频)进入SPE(语音处理引擎)并被分成两条路径：进入卡尔曼滤波器块104的语音识别路径以及使用块110中的标准噪声抑制技术处理以由用户接收的音频感知路径(克隆的音频)。卡尔曼滤波器利用来自发话者/话音模型106的分量以及来自环境噪声模型107的分量，以从音频信号滤除噪声并将经滤波的信号提供给自动语音识别(ASR)引擎108。

发话者/话音模型106(至少最初版本)是在SPE执行之前产生的，因为SPE要对其进行处理，尽管最初版本可能相当朴素(bare)，并且语音/话音模型可在SPE执行时进行更新。发话者/话音引擎106提供与当前发话者相关的特定特征。这些特征可包括一个或多个声门谐波（glottal harmonic）（包括用户的特定基本声门频率）以及任何其它适合的信息。例如，如果先前获得的模型(例如从用户训练得到)是可用的，则它们也可被纳入到发话者/用户模型106中。如所指出的，也可使用针对特定用户的先前产生的“干净”音频信息(x’(n))。

与发话者/话音模型相似，环境噪声模型107可基于假设的噪声环境或者特定的或先前表征的环境(例如办公室、汽车、飞机等)的最初缺省数据/假设。它可以是与环境关联的静态数据(例如假设的背景噪声要素)和/或它可包括从实时传感器等获得的动态数据。例如，它可包括诸如汽车车速、背景噪声麦克风数据和空调信息之类的传感器输入，以改善噪声模型估计器的性能。在一些实施例中，可通过使用话音活动检测器算法检测语音存在的周期，来例如对单个信道采用噪声估计方法。可使用噪声模型和卡尔曼滤波之间的迭代循环来进一步改善噪声模型。

滤波器104可使用发话者模型和噪声模型中的任一个或两者来对所接收的音频信号进行滤波。同样，从发话者模型开始，可使用扩展，来将脉冲形式的周期性分量加入卡尔曼滤波以将语音源(例如使用诸如口述、话音控制或翻译设备的人或其它实体发话者)产生的声门谐波考虑在内。卡尔曼滤波已典型地用于白噪声输入，但在人声语音的情形下，周期性输入的添加可更接近地模仿语音产生的生理机能。包括预定模型信息和声门谐波参数的发话者模型信息可用来加载发话者模型的一组预定或先前确定的系数。卡尔曼滤波得到的音频不一定显著地提高人感知，但它通常提高语音识别引擎的性能。因此，音频路径被克隆(两条路径)以使用卡尔曼预处理滤波来使人感知和语音识别输入两者最大化。

使用卡尔曼技术的执行滤波器104可用来将声道响应建模成AR或ARMA系统，该AR或ARMA系统使用独立输入和驱动噪声以及将附加有色噪声考虑在内的噪声观察。

在传统卡尔曼应用中，驱动周期性输入通常被忽略，并为简化起见仅使用驱动白噪声。这种假设暗示滤波器将(在理想性能下)产生既不具有生理值也并非自然声音的干净但无话音的语音信号。然而，在仅需要滤波器参数的情形下，这种假设是充分的。

另一方面，已确定线性卡尔曼滤波器可捕获在话音产生中观察到的基础交互特征，由此在吵杂条件下得出对干净输入的更好估计。当与CP分析和源建模结合时，例如对于语音处理应用，它可执行得更好。这种性质的方案中的误差关联于其参数估计误差并且不是生理/听觉误传的产物。因此，本文公开的语音改善方案基于线性卡尔曼滤波器，其结构在下表中“线性”标题下示出。

状态x_k对应于由声门源u_k和环境噪声w_k产生的干净语音输入(x不是对SPE的实际输入)。测得的信号y_k被观察噪声v_k恶化。如前所述，以前的卡尔曼方法为简便起见忽略周期性输入u_k，从而得出白噪声激励的语音。然而，包括这种周期性输入和状态转变矩阵的CP表示提供对干净输入x_k的更好估计并因此提供更好的语音识别性能。在下面的章节中，将对这里运用的卡尔曼滤波作更详细的讨论。

在一些实施例中，基于卡尔曼滤波模型的方法用于语音改善。它假设干净的语音遵循由背景噪声线性恶化的特定表示。通过标准卡尔曼滤波，干净语音一般是使用自回归(AR)模型表示的，该AR模型通常将白高斯噪声作为输入。这以离散时间方程1表示。

x [n] = Σ_{k = 1}^{p} α_{n} x [n - k] + w [n] - - - (1)

在x[n]是干净语音，α_n是AR或线性预测编码(LPC)系数，w[n]是白噪声输入，而p是AR模型的阶数(通常假设其遵循经验规则p=fs/1000+2，其中fs是以kHz为单位的采样率)。可重写该模型以产生卡尔曼滤波器所需要的合需结构，如方程(2)和(3)所示。由此，

x_k+1＝Φx_k+Gw_k (2)

y_k＝Hx_k+v_k (3)

其中x_k+1和x_k是包含将来和当前干净语音的p个样本的矢量，Φ是在可控规范形式的最后一行中包含LPC系数的状态转变矩阵，w_k表示被转换成经由矢量增益G影响当前样本的矢量的白噪声输入。干净语音经由投影矢量H投影以获得当前样本，该当前样本被线性地加至背景噪声v_k以产生恶化的观察或噪声语音y_k。

卡尔曼滤波包括两个基础步骤：传播步骤和更新步骤。在传播步骤中，模型用来基于先前的估计预测当前样本(因此具有n∣n-1的注释)。这表示在方程(4)中。注意只需要包含先前p个点的一个矢量的一个缓冲器。更新步骤在方程(5)-(7)中描述，其中在考虑预测和估计之间误差的情况下，首先校正预测的样本。该误差受卡尔曼增益K_n控制，它在方程(6)和(7)中有定义。注意所有这些参数可在每帧内被计算一次，即，语音在每帧内被认为是固定的进程(通常持续时间不超过25ms)。

{\hat{x}}_{n | n - 1} = Φ {\hat{x}}_{n - 1 | n - 1} - - - (4)

{\hat{x}}_{n | n} = {\hat{x}}_{n | n - 1} + K_{n} (y_{n} - H_{n} {\hat{x}}_{n | n - 1}) - - - (5)

K_n＝P_n|n-1H_n ^T(H_nP_n|n-1H_n ^T+R_n)^-1 (6)

P_n|n＝I-(K_nH_n)P_n|n-1 (7)

在这项方案中提出的“经修改的卡尔曼滤波器”通过将两种基础噪声假设归纳到系统中而扩展了标准滤波器，这两种基础噪声假设是假设声门脉冲也在话音段期间驱动AR模型以及假设背景噪声具有与之关联的共振(非白进程)。声门脉冲由u[n]表示并当存在声带振动时出现。假设背景噪声遵循q阶AR模型(它可被估计，例如凭经验获得为q＝fs/2000)。因此，表示系统的新结构的两个方程是：

x [n] = Σ_{k = 1}^{p} α_{n} x [n - k] + u [n] + w_{s} (n) - - - (8)

v [n] = Σ_{k = 1}^{q} β_{n} v [n - k] + w_{n} [n] - - - (9)

由于语音和噪声的模型具有相似的结构，因此可通过创建嵌入到较大对角矩阵中的两个子系统来扩展卡尔曼滤波器所需的状态方程。相同的系统结构用于跟踪如方程(10)-(13)所示的语音和噪声，这些方程中的下标s指示语音而v指示背景噪声。声门脉冲仅被引入到当前样本中，对于当前样本，矢量B具有与G相同的结构。

x_k+1＝Φx_k+Bu_k+Gw_k (10)

y_k＝Hx_k+v_k (11)

Φ = [\begin{matrix} φ_{s} & 0 \\ 0 & φ_{v} \end{matrix}] - - - (12)

H＝[H_s H_v] (13)

计算卡尔曼传播和更新的方程与标准卡尔曼滤波器不同，除其它原因外，是因为包括声门脉冲且不包括噪声协方差矩阵R_n，因为噪声被滤波器本身跟踪。这些改变通过用方程(14)修改方程(14)并用方程(15)修改方程(6)来表示。因此，

{\hat{x}}_{n | n - 1} = Φ {\hat{x}}_{n - 1 | n - 1} + {Bu}_{k} - - - (14)

K_n＝P_n|n-1H_n ^T(H_nP_n|n-1H_n ^T)^-1 (15)

通过这些修改，滤波器更好地表示语音信号和背景噪声状况，由此得出更好的噪声去除和ASR性能。

新的卡尔曼滤波技术不仅能用于增进语音识别而且能改善语音合成。参见图2，图2示出了基于时域的合成器示图。所提出的方案具有将应用于输入信号的三个互相过程进行组合的设计。第一支路识别源分量的性质并创建源信号。第二支路搜索滤波器结构并应用CP(克隆相)分析或全帧分析以定义滤波器的线性预测系数(LPC)。第三支路检测包络并确保合成声音的稳定性。这些支路以顺序或并行方式计算并可使用不同的帧和开窗结构(例如在一些应用中，第一支路可使用矩形窗和非重叠帧，而第二支路可使用例如50％重叠的Hamming（加重平均）)，只要交互级别被正确处理。

图3示出为了降低功耗而在例如移动设备之类中实现音频处理引擎的前端的总体结构。其示出对例如图1的SPE 102构造不同块的节能方式。它被分为计算密集块301和存储器访问密集的后端305。计算密集的前端301具有滤波器处理部302和判定块304，判定块304用于判定输入音频中是否具有语音。存储器密集的后端305具有用于产生和更新发话者模型的发话者模型块306以及用于执行ASR的语音识别块308。注意，发话者模型块306也可具有噪音模型部，用于产生噪音模型的全部或部分。音频进入前端301，由滤波器302处理，并且如果在判定块304判定具有语音，则发话者模型和语音识别块306、308被激活以处理来自滤波器302的经滤波语音信号。

通过减少硬件前端的存储器要求，可允许使用低功率操作以增加每瓦特的操作次数。前端301中的语音改善算法的硬件实现提供实现低功率的机会并还允许使用阈值检测器304以将苏醒信号提供给处理器硬件的后端。后端305提供语音识别算法的硬件实现(例如基于HMM和/或神经网络)和高性能，这种硬件实现通常是存储器密集。由此通过将硬件(例如SPE硬件)分成计算密集的前端和高性能的后端，也可实现“话音苏醒”和“持续侦听”特征以用于语音改善和识别。

图4示出例如用于便携式计算设备、智能电话等电子设备平台402的示例。所示出的部分包括一个或多个处理核404、图形处理器(GPX)406、存储器控制器中枢(MCH)408、IO部410以及功率管理部416。GPX 406与显示器407接口以提供视频内容。MCH 408与存储器409接口以为平台提供附加的存储器(例如易失性或非易失性)。功率管理部416控制电源(例如电池、适配器转换器、VR等)以将功率提供给不同的平台部分，还管理不同的活动状态以在可行时降低功耗。

IO部410包括音频处理部412和外围接口414。外围接口提供与多个不同外围设备415通信并启用这些外围设备415(键盘、无线接口、打印机等)的接口(例如PCI、USB)。音频处理部412可接收各种音频输入/输出(模拟和/或数字)以向用户提供/从用户接收音频内容。它也可与内部模块通信以例如在用户和网络(例如小区、互联网等)之间传递音频。音频处理部412包括各种组件(例如A/D/A转换器、编解码器等)，用于如平台402的功能规定那样处理音频。具体地说，音频Px 412包括如本文描述的用于实现语音处理的SPE 413。具体地说，它可包括如图3所描述的高能效结构。

在之前的描述中，阐述了多个具体细节。然而，可理解的是本发明的实施例可以在没有这些具体细节的情况下实施。在其它情况下，可能没有详细示出公知的电路、结构和技术，以免使本说明书的理解变得晦涩。鉴于此，对“一个实施例”、“实施例”、“示例实施例”、“各实施例”等的引用表示如此描述的本发明实施例可包括具体的特征、结构或特性，但并不一定每个实施例都必须包括那些具体的特征、结构或特性。此外，一些实施例可具有针对其它实施例描述的特征中的一些、全部或者不具有这些特征。

在之前的说明书和所附权利要求书中，以下术语应当作如下解释：可使用术语“耦合”和“连接”以及其衍生词。应当理解，这些术语并不意图作为彼此的同义词。相反，在具体实施例中，“连接”用于指示两个或更多个要素彼此直接物理或电气接触。“耦合”用于指示两个或多个要素彼此合作或相互作用，但它们可以直接物理或电气接触或者可以不直接物理或电气接触。

术语“PMOS晶体管”表示P型金属氧化物半导体场效应晶体管。同样，术语“NMOS晶体管”表示N型金属氧化物半导体场效应晶体管。应当理解，无论何时采用下述术语：使用“MOS晶体管”、“NMOS晶体管”或“PMOS晶体管”，除非另外明确指出或由其用途性质所决定，否则它们是以示例方式使用的。它们涵盖了不同种类的MOS器件，包括具有不同VT、材料类型、绝缘体厚度、栅极构造的器件，这仅仅列举出了几个例子。此外，除非明确被称为MOS或类似物，否则术语“晶体管”可包括其它适宜的晶体管类型，例如结型场效应晶体管、双极结型晶体管、金属半导体FET以及各种类型的三维晶体管、MOS或其它目前已知或尚未研发出的晶体管。

本发明不限于所描述的实施例，而能在所附权利要求书的精神和范围内通过修改和变更来实施。例如，应理解本发明能适用于所有类型的半导体集成电路（“IC”）芯片。这些IC芯片的示例包括但不限于处理器、控制器、芯片组部件、可编程逻辑阵列（PLA）、存储器芯片、网络芯片及类似物。

应理解，在一些附图中，通过直线表示信号导体线。一些线可能较粗，以指示更多的组成信号路径，一些线具有数字标记，以指示数个组成信号路径，和/或一些线在一端或多个端具有箭头，以指示主要的信息流向。然而，这不应当以限制的方式来解释。相反，这些新增的细节可与一个或多个示例性实施例结合地使用，以使电路更容易理解。任何图示的信号线（无论是否具有附加信息）可实际上包括沿多个方向行进的一个或多个信号，并可通过任何适当类型的信号方案来实现，例如利用差分对实现的数字线路或模拟线路、光纤线路和/或单端线路。

应理解，可能已给出示例尺寸/模型/值/范围，但是本发明不限于此。随着制造技术（例如光刻法）随时间而成熟，可望制造出尺寸更小的器件。此外，为了说明和讨论简单起见并且为了不使本发明变得晦涩，在附图中可能示出或未示出与IC芯片和其它组件的公知电源/接地连接。此外，可以框图形式示出多种安排，以避免使本发明变得晦涩，并鉴于相对于这些框图安排的实现的具体细节很大程度地依赖于本发明实现的平台这一事实，即这些具体细节应当落在本领域内技术人员的眼界内。在阐述具体细节(例如电路)以描述本发明的示例性实施例的情形下，显然本领域内技术人员能在对这些具体细节作出变化或不作出变化的情况下实现本发明。因此这些描述被视为是说明性的而非限制性的。

Claims

1.一种装置，包括：

具有第一和第二音频语音路径的语音处理引擎，所述第一路径被提供给听觉接收器；以及

耦合至所述第二路径以接收音频语音信号并从中去除噪声的卡尔曼滤波器，所述卡尔曼滤波器至少部分地基于包括发话者声门信息的发话者模型去除所述噪声。

2.如权利要求1所述的装置，其特征在于，所述滤波器也基于结合环境噪声信息的噪声模型来去除噪声。

3.如权利要求2所述的装置，其特征在于，所述环境噪声信息包括实时信息。

4.如权利要求3所述的装置，其特征在于，所述实时信息包括来自一个或多个噪声传感器的信息。

5.如权利要求1所述的装置，其特征在于，所述发话者模型结合对发话者先前产生的经噪声去除的语音信号信息。

6.如权利要求1所述的装置，其特征在于，所述滤波器实现在前端部，所述发话者模型实现在后端部，如果在所述音频语音信号中检测到语音，则启用后端部。

7.如权利要求6所述的装置，其特征在于，所述语音处理引擎包括语音识别引擎。

8.如权利要求7所述的装置，其特征在于，所述语音识别引擎是后端部的一部分。

9.一种电子设备，包括：

音频处理部，所述音频处理部包括具有第一和第二音频语音路径的语音处理引擎，所述第一路径被提供给听觉接收器；以及

10.如权利要求9所述的电子设备，其特征在于，所述滤波器也基于结合环境噪声信息的噪声模型来去除噪声。

11.如权利要求10所述的电子设备，其特征在于，所述环境噪声信息包括实时信息。

12.如权利要求11所述的电子设备，其特征在于，所述实时信息包括来自一个或多个噪声传感器的信息。

13.如权利要求9所述的电子设备，其特征在于，所述发话者模型结合对发话者先前产生的经噪声去除的语音信号信息。

14.如权利要求9所述的电子设备，其特征在于，所述滤波器实现在前端部，所述发话者模型实现在后端部，如果在所述音频语音信号中检测到语音，则启用后端部。

15.如权利要求14所述的电子设备，其特征在于，所述语音处理引擎包括语音识别引擎。

16.如权利要求15所述的电子设备，其特征在于，所述语音识别引擎是后端部的一部分。