CN105551484A

CN105551484A - 自动语音识别期间的选择性噪声抑制

Info

Publication number: CN105551484A
Application number: CN201510688605.9A
Authority: CN
Inventors: G.塔尔瓦; X.赵; R.D.辛斯三世; M.F.R.乔扈里
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-10-22
Filing date: 2015-10-22
Publication date: 2016-05-04
Anticipated expiration: 2035-10-22
Also published as: US20160118042A1; US9830925B2; DE102015117380B4; DE102015117380A1; CN105551484B

Abstract

本发明提供自动语音识别期间的选择性噪声抑制。描述了一种自动语音识别引擎和使用该引擎的方法。该方法关于前端处理音频信号，并且包括以下步骤：识别音频信号的多个有声帧；确定多个有声帧中的一个或多个具有大于第一预定阈值的信噪比（SNR）数值；以及基于所述确定，对于多个有声帧中的一个或多个回避噪声抑制。

Description

自动语音识别期间的选择性噪声抑制

技术领域

本发明涉及自动语音识别期间的选择性噪声抑制。

背景技术

免提计算装置变得越来越流行；尤其是在可以期望语音命令/控制的车辆中－使得能够使用驾驶员的语音控制车辆功能。语音控制系统可以接收驾驶员的语音作为输入，解释语音，并且基于语音的解释而做出逻辑判定（例如执行对车辆功能的控制）。当驾驶员能够采用语音命令模式时，能够将车辆操作期间驾驶员的分心最小化，并且可以防止与分心相关的事故。

当然，在驾驶员试图使用他/她的语音命令车辆并且车辆不响应（或不正确地响应）的情况下，这可能导致驾驶员受挫，并且比如果驾驶员仅手动地执行命令而不试图语音控制的情形最终导致更大的分心。

发明内容

因此本发明的目的在于提高自动语音处理的精度，特别是在车辆环境中。

根据本发明的实施例，提供了一种前端处理音频信号的方法。该方法包括以下步骤：识别音频信号的多个有声帧；确定多个有声帧中的一个或多个具有大于第一预定阈值的信噪比（SNR）数值；并且基于所述确定，对于多个有声帧中的一个或多个回避噪声抑制。

根据本发明的另一实施例，提供了一种预处理音频信号的方法。该方法包括以下步骤：从由自动语音识别（ASR）引擎接收到的音频信号识别多个语音支配帧；将所述多个语音支配帧分类为有声帧和无声帧；对于每个所述有声帧，确定所述有声帧的信噪比（SNR）是否大于预定阈值（T_V1）；以及对于具有大于所述预定阈值（T_V1）的SNR的每个所述有声帧，提供所述有声帧用于下游处理而不进行噪声抑制，并且对于具有小于或等于所述预定阈值（T_V1）的SNR的每个所述有声帧，在对所述有声帧执行预处理噪声抑制之后，提供所述有声帧用于下游处理。

1.一种前端处理音频信号的方法，包括以下步骤：

识别音频信号的多个有声帧；

确定所述多个有声帧中的一个或多个具有大于第一预定阈值的信噪比（SNR）数值；以及

基于所述确定，对于所述多个有声帧中的一个或多个回避噪声抑制。

2.根据方案1所述的方法，还包括：

识别音频信号的多个无声帧；

确定所述多个无声帧中的一个或多个具有大于第二预定阈值的SNR数值；以及

基于所述确定，对于所述多个无声帧中的一个或多个回避噪声抑制。

3．根据方案2所述的方法，还包括：对具有小于或等于所述第一预定阈值的SNR的多个有声帧以及对具有小于或等于所述第二预定阈值的SNR的多个无声帧执行噪声抑制。

4．根据方案2所述的方法，其中所述第一预定阈值与所述第二预定阈值相同。

5．根据方案4所述的方法，还包括在前端处理步骤之后执行所述多个有声帧中的一个或多个和所述多个无声帧中的一个或多个的下游处理。

6．根据方案5所述的方法，其中，执行下游处理包括特征提取子级、分类子级、组合子级以及解码子级。

7．根据方案4所述的方法，其中所述第一预定阈值近似为20dB。

8．一种预处理音频信号的方法，包括以下步骤：

从由自动语音识别（ASR）引擎接收到的音频信号识别多个语音支配帧；

将所述多个语音支配帧分类为有声帧和无声帧；

对于每个所述有声帧，确定所述有声帧的信噪比（SNR）是否大于预定阈值（T_V1）；以及

对于具有大于所述预定阈值（T_V1）的SNR的每个所述有声帧，提供所述有声帧用于下游处理而不进行噪声抑制，并且对于具有小于或等于所述预定阈值（T_V1）的SNR的每个所述有声帧，在对所述有声帧执行预处理噪声抑制之后，提供所述有声帧用于下游处理。

9．根据方案8所述的方法，还包括：

对于具有小于或等于所述预定阈值（T_V1）的SNR的每个所述有声帧，将所述SNR分类为一个或多个SNR类别，其中所述一个或多个SNR类别与各个有声帧的SNR的强度相关联；以及

根据所述一个或多个SNR类别中的一个对各个有声帧中的每个抑制噪声。

10．根据方案9所述的方法，其中所述预定阈值（T_V1）近似为20分贝（dB）。

11．根据方案10所述的方法，其中，所述一个或多个SNR类别包括：SNR>20dB的第一SNR类别和6dB<SNR≤20dB的第二SNR类别。

12．根据方案8所述的方法，还包括：

对于每个所述无声帧，确定所述无声帧的信噪比（SNR）是否大于预定阈值（T_U1）；以及

对于具有大于所述预定阈值（T_U1）的SNR的每个所述无声帧，提供所述无声帧用于下游处理而不进行噪声抑制，并且对于具有小于或等于所述预定阈值（T_V1）的SNR的每个所述无声帧，在对所述无声帧执行预处理噪声抑制之后，提供所述无声帧用于下游处理。

13．根据方案12所述的方法，还包括：

对于具有小于或等于所述预定阈值（T_U1）的SNR的每个所述无声帧，将所述SNR分类为一个或多个SNR类别，其中所述一个或多个SNR类别与各个无声帧的SNR的强度相关联；以及

根据所述一个或多个SNR类别中的一个对各个无声帧中的每个抑制噪声。

14．根据方案13所述的方法，其中所述预定阈值（T_U1）近似为20分贝（dB）。

15．根据方案14所述的方法，其中所述一个或多个SNR类别包括：SNR>20dB的第一SNR类别和6dB<SNR≤20dB的第二SNR类别。

16．根据方案8所述的方法，其中所述ASR引擎位于车辆中，并且所述音频信号表示由车辆中的话筒接收到的语音。

附图说明

以下将结合附图描述本发明的一个或多个实施例，其中相同的标记表示相同的元件，并且在附图中：

图1是描绘能够采用本文公开的方法的通信系统的实施例的方框图；

图2是示出了自动语音识别（ASR）引擎的预处理级（具有噪声抑制器）和下游处理级的示意图；

图3是示出了使用ASR引擎处理语音的一个实施例的流程图；

图4是示出了使用图2和图3中所示的噪声抑制器的噪声抑制实施例的流程图；以及

图5－图7是示出了当使用如本文所述配置的ASR引擎处理语音时的ASR精度增加的真实数据的表格。

具体实施方式

以下所述方法大体上关于提高语音识别精度。方法描述了在语音信号的前端或预处理期间选择性和智能地移除噪声抑制以实现该提高精度。如以下将更详细描述的那样，自动语音识别（ASR）处理可以包括预处理级和下游处理级。预处理级通常可以预备在背景噪声当中接收到的语音信号以用于在下游处理级期间解释。在预处理期间，可以将一种或多种噪声抑制技术或算法应用于语音信号的语音帧以提高整体ASR精度－由此向下游处理级提供了更干净的语音信号。然而，已经发现在一些情形中，这可能将不期望的音乐失真引入到下游级中。这些失真是不期望的，因为语音识别系统是基于人类语音感知模型而设计的。语音幅度中不期望的变化可以显著地影响系统的性能。本文所述的方法示出了通过选择性地对一些语音帧而不对其他帧应用噪声抑制，可以实现对ASR精度的提高。

方法示出在车辆环境中。这样的环境适当地示出了：（a）车辆的ASR引擎可以如何使用车辆音频系统从车辆用户接收语音命令（语音信号）；（b）使用车辆中的ASR引擎处理语音命令；以及（c）基于使用车辆处理装置所处理的语音命令执行动作。应该意识到的是，本文所述的ASR引擎的配置或实施例可以用于任何适当的应用或环境中，并且以下描述的车辆环境仅是示例。

通信系统－

现在转向图1，示出了操作环境，包括移动车辆通信系统10并且可以用于实施本文公开的方法。通信系统10通常包括车辆12、一个或多个无线载波系统14、陆地通信网络16、计算机18以及呼叫中心20。应该理解的是，所公开的方法可以与许多不同系统一起使用，并且并非特别限于在此所示的操作环境。此外，系统10的架构、构成、设置和操作及其单个部件是在本领域中通常已知的。因此，以下段落简单地提供了一种这样的通信系统10的简单概要，然而在此未示出的其他系统也可以采用所公开的方法。

车辆12在图示实施例中示出为客车，但是应该意识到也可以使用任何其他车辆，包括摩托车、卡车、多功能越野车（SUV）、旅行车（RV）、船舶、飞机等。一些车辆电子部件28在图1中整体示出，并且包括远程信息处理单元30、话筒32，一个或多个按钮或其他控制输入部34、音频系统36、视频显示器38和GPS模块40以及许多车辆系统模块（VSM）42。这些装置中的一些可以直接连接至远程信息处理单元，例如像话筒32和按钮34，而其他装置使用诸如通信总线44或娱乐总线46等一个或多个网络连接件而间接地连接。适当的网络连接件的示例包括控制器区域网（CAN）、面向媒体的系统传输（MOST）、本地互联网（LIN）、本地局域网（LAN）、以及其他适当的连接件，诸如以太网或符合已知ISO、SAE和IEEE标准和规范的其他连接件，仅列举少数。

远程信息处理单元30可以是安装在车辆中并且启用通过无线载波系统14并且经由无线网络的无线语音和/或数据通信的OEM安装（嵌入式）或配件市场装置。这使得车辆能够与呼叫中心20、其他远程信息处理启用车辆或一些其他实体或装置通信。远程信息处理单元优选地使用无线电传输以建立与无线载波系统14的通信信道（语音信道和/或数据信道），使得能够通过信道发送和接收语音和/或数据传输。通过提供语音和数据通信两者，远程信息处理单元30使得车辆能够提供许多不同的服务，包括关于导航、电话、紧急援助、诊断、信息娱乐等的服务。数据可以经由数据连接、诸如经由通过数据信道的数据包传输而发送，或者使用本领域已知技术经由语音信道而发送。对于包括语音通信（例如采用在呼叫中心20处的现场顾问或语音响应单元）和数据通信（例如向呼叫中心20提供GPS位置数据或车辆诊断数据）两者的组合服务，系统可以采用通过语音信道的单个呼叫，并且根据需要通过语音信道在语音和数据传输之间切换，并且这可以使用本领域技术人员已知的技术来完成。

根据一个实施例，远程信息处理单元30采用了根据GSM或CDMA标准的蜂窝通信，并且因此包括用于像免提呼叫那样的语音通信的标准蜂窝芯片集50、用于数据传输的无线调制解调器、电子处理装置52、一个或多个数字存储器装置54以及双频天线56。应该意识到，调制解调器可以通过存储在远程信息处理单元中并且由处理器52执行的软件来实施，或者其可以是位于远程信息处理单元30的内部或外部的单独硬件部件。调制解调器可以使用许多不同的标准或协议来操作，诸如EVDO、CDMA、GPRS和EDGE。车辆与其他联网装置之间的无线网络也可以使用远程信息处理单元30执行。为此目的，远程信息处理单元30可以配置为根据一个或多个无线协议无线地通信，诸如IEEE802.11协议、WiMAX或蓝牙中的任意一种。当用于诸如TCP/IP等数据包交换通信时，远程信息处理单元可以采用静态IP地址配置，或者可以设置为从网络上的其它装置诸如路由器或者从网络地址服务器自动地接收分配的IP地址。

处理器52可以是能够处理电子指令的任何类型的装置，包括微处理器、微控制器、主处理器、控制器、车辆通信处理器、以及专用集成电路（ASIC）。其可以是仅用于远程信息处理单元30的专用处理器，或者可以与其他车辆系统共用。处理器52执行各种类型的数字化存储指令，诸如存储在存储器54中的软件或固件程序，其使得远程信息处理单元能够提供各类服务。例如，处理器52可以执行程序或处理数据以执行本文所讨论的方法的至少一部分。

远程信息处理单元30可以用于提供多种范围的车辆服务，包括向和/或从车辆的无线通信。这些服务包括：逐向指引和结合基于GPS的车辆导航模块40而提供的其他导航相关服务；安全气囊展开通知和其他紧急或路边辅助相关服务，结合诸如车身控制模块（未示出）等一个或多个碰撞传感器接口模块而提供；使用一个或多个诊断模块的诊断报告；以及信息娱乐相关服务，其中音乐、网页、电影、电视节目、视频游戏和/或其他信息由信息娱乐模块（未示出）下载并且存储用于当前或稍后回放。以上列出的服务绝非是远程信息处理单元30所有能力的穷举列表，而仅仅是远程信息处理单元能够提供的一些服务的枚举。

图1示出了远程信息处理单元30也可以包括自动语音识别（ASR）引擎或模块96。ASR引擎可以是配置为接收人类语音或话语并且以计算机可读格式（或计算机可解释格式）解释语音的任何装置。ASR引擎96可以联接至其他电子装置（例如经由总线44、46）；因此，一旦由ASR引擎解释了语音，解释就可以作为命令或控制信号而传达（例如至车辆12中的控制模块或其他装置）。应该意识到的是，尽管ASR引擎示出为远程信息处理单元30的一部分，但这也仅是示例。ASR引擎可以是分离的装置或者另一车辆系统的一部分。

此外，应该理解的是，至少一些前述模块可以以保存在远程信息处理单元30的内部或外部的软件指令的形式实施，它们可以是位于远程信息处理单元30的内部或外部的硬件部件，或者它们可以相互或者与位于遍布车辆的位置的其他系统集成和/或共用，仅列举几种可能性。在模块实施为位于远程信息处理单元30的外部的VSM42的情况下，它们可以利用车辆总线44来与远程信息处理单元交换数据和命令。

GPS模块40从GPS卫星的集群60接收无线电信号。模块40从这些信号能够确定用于向车辆驾驶员提供导航和其他位置相关服务的车辆位置。导航信息可以呈现在显示器38（或车辆内的其他显示器）上或者可以口头地呈现，诸如当提供逐向导航时所完成。导航服务可以使用专用车内导航模块（其可以是GPS模块40的一部分）来提供，或者可以经由远程信息处理单元30完成一些或所有导航服务，其中将位置信息发送至远程位置，用于向车辆提供导航地图、地图注释（感兴趣地点、餐馆等）、路线计算等等。可以将位置信息提供至呼叫中心20或其他远程计算机系统，诸如计算机18，为了诸如车队管理等其他目的。此外，可以经由远程信息处理单元30从呼叫中心20将新的或更新的地图数据下载至GPS模块40。

除了音频系统36和GPS模块40之外，车辆12可以包括形式为电子硬件部件的其他车辆系统模块（VSM）42，其位于遍布车辆的位置并且通常从一个或多个传感器接收输入，并且使用感测到的输入来执行诊断、监控、控制、报告和/或其他功能。每个VSM42优选地由通信总线44连接至其他VSM，也连接至远程信息处理单元30，并且可以编程以运行车辆系统和子系统诊断测试。作为示例，一个VSM42可以是控制诸如燃料点火和点火定时等发动机运转的各个方面的发动机控制模块（ECM），另一个VSM42可以是调节车辆动力传动系的一个或多个部件的运转的动力传动系控制模块，并且另一个VSM42可以是管理位于遍布车辆的位置的各种电气部件（像车辆的电动车门锁和前灯）的车身控制模块。根据一个实施例，发动机控制模块装备有车载诊断（OBD）特征，其提供无数个实时数据，诸如从包括车辆排放传感器的各个传感器接收到的数据，并且提供允许技工快速识别并修理车辆内的故障的一系列标准化诊断故障代码（DTC）。如本领域技术人员意识到的那样，上述VSM仅是可以用于车辆12的一些模块的示例，因为大量其他模块也是可能的。

车辆电子部件28还包括大量车辆用户接口，其向车辆乘员提供提供和/或接收信息的机构，包括话筒32、按钮34、音频系统36和视频显示器38。当在本文中使用时，术语“车辆用户接口”广义地包括任何适当形式的电子装置，包括硬件和软件部件，其位于车辆上并且使得车辆用户能够通过车辆的部件或与车辆的部件通信。话筒32向远程信息处理单元提供音频输入，以使得驾驶员或其他乘员能够提供语音命令并且经由无线载波系统14执行免提呼叫。为此目的，其可以采用本领域已知的人机接口（HMI）技术连接至车载自动语音处理单元。按钮34允许用户手动地输入至远程信息处理单元30中，以发起无线电话呼叫并且提供其他数据、响应或控制输入。可以使用单独的按钮来向呼叫中心20发起与常规服务辅助呼叫相对的紧急呼叫。音频系统36向车辆乘员提供音频输出，并且可以是专用独立系统或者主车辆音频系统的一部分。根据在此所示的具体实施例，音频系统36操作性地联接至车辆总线44和娱乐总线46，并且能够提供AM、FM和卫星无线电、CD、DVD和其他多媒体功能。该功能可以结合或独立于如上所述的信息娱乐模块来提供。视频显示器38优选地是图形显示器，诸如仪表板上的触摸屏或者从挡风玻璃折回的平视显示器，并且可以用于提供许多输入和输出功能。也可以采用各种其他车辆用户接口，因为图1的接口仅是一个具体实施方式的示例。

此外，应该意识到的是，车辆电子部件28的至少一部分可以配置为采用ASR引擎96工作。例如，音频系统36可以经由话筒32向ASR引擎提供语音（例如语音信号或输入）。此外，一个或多个按钮34可以使得ASR引擎排队等待或者准备就绪以从车辆用户接收语音。当在本文中使用时，车辆用户可以是车辆12的操作员/驾驶员、车辆乘客、或者车辆12附近的人。而且，车辆用户无需具有车辆12的所有权（例如车辆用户可以是所有者或者驾驶证持有者）。

无线载波系统14优选地是蜂窝电话系统，包括多个蜂窝塔（仅示出一个）、一个或多个移动交换中心（MSC）72、以及需要将无线载波系统14与陆地网络16连接的任何其他联网部件。每个蜂窝塔70包括发送和接收天线以及基站，其中基站从不同的蜂窝塔直接地或者经由诸如基站控制器等中间设备连接至MSC72。蜂窝系统14可以实施任何适当的通信技术，包括例如像AMPS等模拟技术、或者诸如CDMA（例如CDMA2000）或GSM/GPRS等较新的数字技术。如本领域技术人员将意识到的那样，各种蜂窝塔/基站/MSC设置是可能的，并且可以与无线系统14一起使用。例如，基站和蜂窝塔可以共同位于相同地点处或者它们可以相互远程地定位，每个基站可以负责单个蜂窝塔或者单个基站可以服务多个蜂窝塔，并且多个基站可以联接至单个MSC，仅列出少数可能的设置。

除了使用无线载波系统14之外，也可以使用卫星通信形式的不同无线载波系统来提供与车辆的双向或单向通信。这可以使用一个或多个通信卫星62和上行链路发送站64而完成。单向通信可以例如是卫星无线电服务，其中由发送站64接收节目内容（新闻、音乐等），打包用于上传，并且然后发送至卫星62，卫星向订户广播节目。双向通信可以例如是使用卫星62在车辆12和基站64之间中继电话通信的卫星电话服务。如果使用，则除了无线载波系统14之外或者替代无线载波系统14，可以采用该卫星电话。

陆地网络16可以是传统的路基远程通信网络，其连接至一个或多个固定电话并且将无线载波系统14连接至呼叫中心20。例如，陆地网络16可以包括公用交换电话网络（PSTN），例如用于提供硬连线电话、数据包交换通信和互联网基础设施。可以通过使用标准的有线网络、光纤或其他光学网络、电缆网络、电力线、其他无线网络诸如无线局域网（WLAN）、或提供宽带无线接入（BWA）的网络或其任意组合，来实施陆地网络16的一个或多个区段。此外，呼叫中心20无需经由陆地网络16连接，而是可以包括无线电话设备以使其能够与无线网络诸如无线载波系统14直接通信。

计算机18可以是经由诸如互联网等专用或公用网络可访问的大量计算机中的一个。每个这种计算机18可以用于一个或多个目的，诸如可由车辆经由远程信息处理单元30和无线载波14访问的网页服务器。其他这些可访问的计算机18可以例如是：服务中心计算机，其中诊断信息和其他车辆数据可以从车辆经由远程信息处理单元30上传；客户端计算机，由车辆拥有者或其他订户使用以用于访问或接收车辆数据或者设置或配置订户偏好或控制车辆功能等目的；或者第三方资料库，向其或从其提供车辆数据或其他信息，不论通过与车辆12还是呼叫中心20或两者通信。计算机18也可以用于提供诸如DNS服务等互联网连接性，或者作为使用DHCP或其他适当协议来向车辆12分配IP地址的网络地址服务器使用。

呼叫中心20设计为向车辆电子部件28提供大量不同的系统后端功能，并且根据在此所示的示例性实施例，通常包括一个或多个交换器80、服务器82、数据库84、现场顾问86、以及自动语音应答系统（VRS）88，所有这些是本领域已知的。这些各种呼叫中心部件优选地经由有线或无线局域网90相互联接。交换器80可以是专用分支交换（PBX）交换器，传送输入信号以使得语音传输通常由常规电话发送至现场顾问86或者使用VoIP发送至自动语音应答系统88。现场顾问电话也可以使用VoIP，如图1中虚线所示。VoIP和通过交换器80的其他数据通信经由连接在交换器80和网络90之间的调制解调器（未示出）实施。数据传输经由调制解调器传递至服务器82和/或数据库84。数据库84可以存储账号信息，诸如订户认证信息、车辆标识符、概貌记录、行为模式和其他相关订户信息。数据传输也可以由诸如802.11x、GPRS等无线系统进行。尽管图示实施例已经描述为将结合使用现场顾问86的人工呼叫中心20使用，但是将意识到呼叫中心可以替代地采用VRS88作为自动顾问，或者可以使用VRS88与现场顾问86的组合。

方法－

现在转向图2，示出了例示车辆用户向话筒32、预处理级210、下游处理级以及附加处理级280提供语音的示意图。预处理和下游处理级210、220示意地示出了ASR引擎96的一个实施例；例如，这些级可以配置在单个电子装置或模块或者分离的装置/模块内。此外，级210、220可以在软件、固件、硬件或其任意组合中实施。

预处理级210可以包括语音活性检测器222、有声-无声分类器224、信噪比（SNR）评估器226以及噪声抑制器228。

语音活性检测器222可以经由话筒32接收由用户话语和噪声构成的输入音频信号。语音活性检测器然后可以确定噪声基底（例如背景或基线噪声的近似值），并且可以确定与用户话语相关联的语音帧或语音支配帧。语音帧可以包括有声帧和无声帧，如本领域技术人员所理解的那些术语。此外，剩余的帧可以是非语音帧（例如静默帧）。

有声-无声分类器224可以确定或者将每个语音帧分类为有声或无声语音帧。这样的分类可以由各种已知技术执行，不限于音高和共振峰识别和分析。

SNR评估器226可以确定已分类的语音帧的相对信号强度。例如，可以将有声或无声语音帧与一个或多个预定阈值进行比较以确定语音帧是否大于第一预定阈值。如以下将更详细说明的那样，在至少一个实施例中，也可以将同一语音帧与第二、第三等预定阈值进行比较。

噪声抑制器228示出具有多个抑制工具230的工具箱。工具230可以是用于减小、消除或抑制语音帧中的噪声的任何适当的装置或算法。工具230的非限制性示例包括：滤波装置、降噪器（NR）、动态降噪器（DNR）、回波抵消器、语音质量（VQ）算法和增益控制器。工具可以单个或组合使用－而且如果期望则可以重复或迭代地使用工具。

现在转向图2的下游处理级220，示出了用于解释语音和非语音帧的四个子级的序列：特征提取子级240、分类子级250、组合子级260以及解码子级270。这些仅意在示出下游处理，而并非意在为限制性的；例如或多或少，或者甚至不同的子级也是可能的。四个子级240、250、260、270以及用于实施这些子级的技术是已知的。在子级240中使用的特征提取的非限制性示例包括各种工具242，诸如：线性预测代码（LPC）、感知线性预测（PLP）、美尔频率倒谱系数（MFCC）以及PLP相对频谱（PLP-RASTA）。在子级250中使用的分类的非限制性示例包括各种工具252，诸如：K-最近邻（KNN）、Parzen窗口、分支限界（BnB）、多层感知器（MLP）以及动态时间扭曲（DTW）。组合子级260包括对分类子级的输出组合或混合。并且在子级270中使用的解码的非限制性示例包括使用具有各种其他工具的解码器272；例如，工具274（例如隐藏马尔可夫模型（HMM）、贝叶斯网络等），工具276（语言建模（LM）），工具278（词典（LEX））或其任意组合。

一般地示出了附加处理280。处理280可以包括对语音和非语音帧的任何后处理。在一个实施例中，步骤280可以包括对已解码语音和非语音帧作用；例如，采用语音和非语音帧的解释信息以执行车辆用户的语音命令。因此，步骤280应该广义地解释为包括发送电信号至车辆12中的别处适当的装置或模块，或者与用户语音相关联的其他期望动作。

图2进一步示出了流程图，该流程图开始于将用户话语接收到话筒32中。话语可以由语音活性检测器222处理，并且然后由有声-无声分类器224以及然后由SNR评估器226处理。如以下将说明的那样（图3），当SNR评估器确定语音帧的SNR超过预定阈值时，该语音帧可以回避噪声抑制器228。并且具有小于（或等于）阈值的SNR的语音帧可以使用抑制器228的一个或多个工具230而经历噪声抑制。在一些情形中，非语音帧也可以经由抑制器228经历噪声抑制。根据流程图，预处理级210然后得出结论，并且此后语音帧（和非语音帧）前进至下游处理级220，并且可以穿过子级240、250、260、270以便于完成对话语的解释。一旦退出解码子级270，下游处理级就结束，并且可以将输出提供或不提供至附加处理280。

现在转向图3，附图示出了在ASR引擎96的预处理级210中的预处理语音的一种方法300。一些或所有步骤可以使用远程信息处理单元30的处理器52执行。方法开始于步骤310，此处语音活性检测器222从其他音频帧（例如非语音帧）之中检测噪声基底和与用户话语相关联的多个语音帧（有声、无声）。可以将语音帧提供至有声-无声分类器224（步骤320）。并且可以在步骤350中将无语音帧直接提供至噪声抑制器；替代地，可以将非语音帧直接提供至下游处理步骤360。以下更详细地讨论步骤350和360。在步骤310之后，方法前进至步骤320。

在步骤320中，ASR引擎96－或者更具体地有声-无声分类器224－对于每个语音帧确定它们是有声的还是无声的。有声-无声确定可以包括音高和/或共振峰分析、或者本领域技术人员已知的任何其他方法。如果将语音帧确定为无声的，则方法300前进至步骤370，并且如果将语音帧确定为有声的，则方法前进至步骤330。

步骤330发生在SNR评估器226处。对于每个有声帧，确定信噪比（SNR）数值，并且将SNR数值与可以存储在存储器54中的预定阈值（T_V1）进行比较（或对比）。如果SNR数值大于阈值T_V1，那么有声帧回避（340a）噪声抑制器228；即，将有声帧提供至下游处理步骤360而不进行噪声抑制（即提供至下游处理级220）。然而，如果SNR数值小于或等于阈值T_V1，那么在下游处理之前，将有声帧提供至噪声抑制步骤350（即首先提供至噪声抑制器228）。

转向步骤360，在此使用之前描述的各种下游处理技术（例如特征提取、分类、组合、解码）中的一种或多种来处理音频帧，以便解释用户的话语。

在步骤360之后，方法300可以在步骤365中执行附加处理，步骤365的实施例是大量的并且将由本领域技术人员意识到。图3示出了步骤365作为使用ASR解释的用户话语而执行语音命令。此后，方法结束。当然，可以对于在话筒32处接收的每个话语重复该方法。

返回步骤330中的具有小于或等于阈值T_V1的SNR数值的帧，这些帧并未回避噪声抑制。它们前进至步骤350用于由噪声抑制器228处理。包括之前描述的噪声抑制技术在内的任何适当的噪声抑制技术可以用于步骤350中，以从有声帧移除不期望的噪声。在步骤350之后，方法可以前进至步骤360，并且如之前讨论的那样前进。

返回步骤320中的确定为无声的帧，这些帧也可以在步骤370中由SNR评估器226评估。对于每个无声帧确定信噪比（SNR）数值，并且将SNR数值与可以存储在存储器54中的预定阈值（T_U1）进行比较（或对比）。如果SNR数值大于阈值T_U1，则无声帧回避（340b）噪声抑制器228；即，将无声帧提供至下游处理步骤360而不进行噪声抑制（即，提供至下游处理级220）。然而，如果SNR数值小于或等于阈值T_U1，则无声帧在其下游处理之前提供至噪声抑制步骤350（即首先提供至噪声抑制器228）。此后，方法300如之前描述的那样前进。

应该意识到的是，与步骤370相关联的SNR评估器可以是或可以不是与步骤330中所使用的相同的装置或电路。因此，各种实施方式是可能的。

转向图4，示出了噪声抑制步骤350的实施例。步骤350可以简单地对所有输入音频帧采用之前描述的工具230；或者如图4所示，可以实施其它选择或归类处理。例如，有声帧（380）可以在步骤410中经历二次评估（使用SNR评估器226）。在一个实施方式中，可以将对于有声帧（380）的SNR数值与存储在存储器54中的第二预定阈值（T_V2）进行比较。具有小于或等于T_V1并且大于T_V2的SNR数值的有声帧可以前进至步骤420－第一有声噪声抑制实施例。并且具有小于或等于T_V2的SNR数值的有声帧可以前进至步骤430－第二有声噪声抑制实施例。第一和第二有声噪声抑制实施例可以在噪声抑制的程度或等级方面不同；例如第二实施例可以应用比第一实施例更多的噪声抑制。因此当将图3和图4一起考虑时：一些有声帧可以回避噪声抑制（图3，步骤340a），一些有声帧可以具有第一程度的噪声抑制（步骤420），并且其他有声帧可以具有第二程度的噪声抑制（步骤430）。

对于有声帧的预定SNR阈值可以是任何适当的数值。在一个实施例中，T_V1近似为20分贝（dB）并且T_V2近似为6dB。

在图4中，无声帧可以在步骤440中经历类似的二次评估（使用SNR评估器226）。在一个实施方式中，可以将对于无声帧（390）的SNR数值与存储在存储器54中的第二预定阈值（T_U2）进行比较。具有小于或等于T_U1并且大于T_U2的SNR数值的无声帧可以前进至步骤450－第一无声噪声抑制实施例。并且具有小于或等于T_U2的SNR数值的无声帧可以前进至步骤460－第二无声噪声抑制实施例。第一和第二无声噪声抑制实施例也可以在噪声抑制的程度或等级方面不同；例如同样，第二实施例可以比第一实施例应用更多的噪声抑制。因此当将图3和图4一起考虑时：一些无声帧可以回避噪声抑制（图3，步骤340b），一些无声帧可以具有第一程度的噪声抑制（步骤450），并且其他无声帧可以具有第二程度的噪声抑制（步骤460）。

对于无声帧的预定SNR数值也可以是任何适当的数值。在一个实施例中，T_U1近似为20分贝（dB）并且T_U2近似为6dB。

图4示出了不论应用何种噪声抑制实施例（步骤420、430、450、460），方法仍然前进至下游处理步骤360（与图3一致）。此外，尽管在图4中示出了语音帧，但这不应该视作为限制；例如，可以类似地处理非语音帧。此外，尽管公开了两个有声和两个无声噪声抑制实施例，但这仅是示例。三个、四个等抑制实施例也是可能的。

转向图5－图7，这些图示出了提供了真实数据的表格I、II和III，证明当对选择性语音帧回避或者避免噪声抑制时整体ASR精度的整体提高－更具体地，对于具有大于第一预定阈值（T_V1）的SNR数值的有声帧－参见图3，步骤340a。图5示出了测试案例列（列出了可变案例配置）、降噪（NR）列、动态降噪（DNR）列、音调降噪（NR）列、LFE（低频估计量）重构列以及发送固定增益列。一般而言，图5提供了在获得图6和图7中所示的结果时使用的至少一些关键参数。

图6示出了QNX降噪（NR）自动语音识别（ASR）分析列（列出了可变案例配置和基线或控制案例配置）、整体精度列、Idle_LF列（采用发动机空转的驾驶、低频噪声），City_80pct列（在80％城市噪声中驾驶），Highway_LF列（高速公路驾驶噪声、低频）以及Highway_HF列（高速公路驾驶噪声、高频）。将可变案例配置在图7中组合（例如中间值、平均值等）。

图7示出了基线配置与可变案例配置的比较。基线配置不包括对具有大于T_V1的SNR数值的有声帧的回波抵消。可变案例组合包括对具有大于T_V1的SNR数值的有声帧的回波抵消。图7示出了基线配置的整体精度大于可变案例配置的整体精度－证明了当选择性地对语音帧进行噪声抑制时提高了ASR。

因此，已经公开了一种在预处理级期间对语音帧选择性地抑制噪声的自动语音识别引擎。当语音帧的信噪比（SNR）超过预定阈值时，可以回避噪声抑制。这些语音帧可以是有声帧；并且在一些情形中，语音帧也可以包括无声帧。此外，在一些实施例中，噪声抑制的程度可以根据语音帧的质量（例如其SNR）而不同。通过在预处理级期间选择性地抑制噪声，使得未将不期望的音调引入到下游处理级中，所以ASR精度提高。

应该理解的是，前述是本发明的一个或多个实施例的描述。本发明不限于本文公开的具体实施例，而是仅由所附权利要求限定。此外，前述说明书中包含的陈述涉及具体实施例，并且不应解释为对本发明的范围或者权利要求中使用术语的定义的限制，除非以上明确地定义了术语或短语。各个其他实施例以及对所公开实施例的各种改变和修改将对本领域技术人员而言是显然的。所有这些其他实施例、改变和修改意在落入所附权利要求的范围内。

当在该说明书和权利要求中使用时，术语“举例”、“例如”、“比如”、“诸如”和“等”以及动词“包括”、“具有”、“包含”和它们的其他动词形式，当结合一个或多个部件的列表或其他项目使用时，每个应该解释为开放式的，意味着列举不应视作排除其他额外的部件或项目。其他术语应该使用它们最广泛的合理含义来解释，除非它们在需要不同解释的上下文中使用。

Claims

1.一种前端处理音频信号的方法，包括以下步骤：

识别音频信号的多个有声帧；

2.根据权利要求1所述的方法，还包括：

识别音频信号的多个无声帧；

3.根据权利要求2所述的方法，还包括：对具有小于或等于所述第一预定阈值的SNR的多个有声帧以及对具有小于或等于所述第二预定阈值的SNR的多个无声帧执行噪声抑制。

4.根据权利要求2所述的方法，其中所述第一预定阈值与所述第二预定阈值相同。

5.根据权利要求4所述的方法，还包括在前端处理步骤之后执行所述多个有声帧中的一个或多个和所述多个无声帧中的一个或多个的下游处理。

6.根据权利要求5所述的方法，其中，执行下游处理包括特征提取子级、分类子级、组合子级以及解码子级。

7.一种预处理音频信号的方法，包括以下步骤：

将所述多个语音支配帧分类为有声帧和无声帧；

8.根据权利要求7所述的方法，还包括：

9.根据权利要求7所述的方法，还包括：

10.根据权利要求9所述的方法，还包括：