CN102623006A

CN102623006A - 阻塞音语音能量到较低频率的映射

Info

Publication number: CN102623006A
Application number: CN2012100186228A
Authority: CN
Inventors: G.塔尔瓦; R.钦加尔瓦拉延
Original assignee: General Motors Co
Current assignee: GM Global Technology Operations LLC; General Motors LLC; General Motors Co
Priority date: 2011-01-27
Filing date: 2012-01-20
Publication date: 2012-08-01
Also published as: US20120197643A1

Abstract

本发明涉及阻塞音语音能量到较低频率的映射。具体地，语音信号处理系统和方法使用以下步骤：（a）经由麦克风从使用者接收话语，所述麦克风将话语转换成语音信号；以及（b）使用处理器预处理语音信号。预处理步骤包括从接收到的语音信号中提取声学数据；由所述声学数据确定话语是否包括一个或多个阻塞音；从与确认的阻塞音相关联的较高频率估计语音能量；以及映射估计的语音能量到较低频率。

Description

阻塞音语音能量到较低频率的映射

技术领域

本发明总体涉及语音信号处理。

背景技术

通常，语音信号处理涉及在表达语音的电气或电子信号上的执行操作。在一个例子中，自动语音识别（ASR）技术使得配备有麦克风的计算设备能够解码语音，从而提供对传统人-机输入设备（诸如键盘和小键盘）的替代方式。在另一个例子中，免提呼叫技术使得配备有麦克风的远程通信设备能够从呼叫器接收语音，过滤语音，并传送过滤的语音到接收者。

语音信号处理中遇到的一个长期存在的问题是，某些类型的语音难以处理。这种语音包括阻塞音，其可包括摩擦音，爆破音，或破擦音。摩擦音是辅音声音，像/f/，/s/，或其他，其通过迫使空气通过将两个发音器官放置成紧密在一起（例如下唇抵靠上齿）而产生的狭窄通道而产生。摩擦音问题会尤其严重，往往导致某些词（比如“list”与“lift”，或者“six”与“fix”）之间的混淆。爆破音是辅音声音，像/p/，/t/，或其他，其通过在声道中阻塞气流而产生。破擦音是辅音声音，像/ch/，/j/，或其他，其以爆破音开始，但以摩擦音释放，而不是直接到后面的元音声音。阻塞音涉及高频（常常超过8kHz）空气的突然释放。

但高于8kHz的语音信号不能被很多传统麦克风通过，因为3dB信号在7kHz上频率响应下降。而且，虽然较新的麦克风通过高达11kHz的语音信号，人耳在高频时分辨率很低，并且语音识别器典型地以16kHz的采样率工作，因此在其上采样的尼奎斯特定理的限制下以最大8kHz处理信号。

发明内容

根据本发明的一个实施例，提供了一种处理语音信号的方法，包括以下步骤：（a）经由麦克风从使用者接收话语，所述麦克风将话语转换成语音信号；以及（b）使用处理器预处理语音信号。预处理步骤包括从接收到的语音信号中提取声学数据；由所述声学数据确定话语是否包括一个或多个阻塞音；从与确认的阻塞音相关联的较高频率估计语音能量；以及映射估计的语音能量到较低频率。根据本发明的一个方面，通过解码映射的语音能量来改善自动语音识别，以为接收到的话语产生多个假设，从而尝试识别话语。在另一个方面，通过传送映射的语音能量到其他使用者来改善语音可理解性。

附图说明

下面将结合附图描述本发明的一个或多个优选的示例性实施例，其中，相同的标号表示相同的元件，其中：

图1是描绘能够利用在此公开的方法的通信系统的示例性实施例的框图；

图2是示出能够与图1的系统一起使用且用于实施语音识别的示例性方法的自动语音识别（ASR）系统的示例性实施例的框图；以及

图3是示出产生在能够在图2的ASR系统中被执行的在自动语音识别中使用的声学模型的方法的示例性实施例的流程图。

具体实施方式

下面的描述描述了示例通信系统、可以与所述通信系统一起使用示例ASR系统以及可以与上述系统的一者或全部两者一起使用的一个或多个示例方法。车辆远程信息处理单元（VTU）可以使用下面描述的方法，VTU是识别VTU的使用者说出的语音的部件。尽管下面描述的方法是可被执行以用于VTU，但是将理解，该方法在任何类型车辆语音识别系统和其他类型语音识别系统中是可用的。例如，所述方法可以实施在启用ASR的移动计算设备或系统，个人计算机等中。

通信系统

参照图1，示出包括移动车辆通信系统10且可以用于实现在此公开的方法的示例性操作环境。通信系统10通常包括车辆12、一个或多个无线载波系统14、地面通信网络16、计算机18和呼叫中心20。应该理解，公开的方法可以与任何数量的不同系统一起使用，并且不被具体地限制到在此示出的操作环境。另外，系统10的架构、结构、设置和操作以及其各个部件是本领域公知的。因此，下面的段落仅提供对一个这种示例性系统10的简要概述，然而，在此没有示出的其他系统也可以采用公开的方法。

在示出的实施例中将车辆12描述为小客车，但是应该理解，也可以使用任何其他车辆，包括摩托车、卡车、运动型多功能车（SUV）、休闲车（RV）、船只、航空器等。图1中总体示出部分车辆电子设备28，包括远程信息处理单元30、麦克风32、一个或多个按钮或其他控制输入34、音频系统36、可视显示器38和GPS模块40以及多个车辆系统模块（VSM）42。这些设备的一部分可以直接连接到远程信息处理单元，例如，麦克风32和按钮34，而其他的是使用一个或多个网络连接（诸如通信总线44或娱乐总线46）间接连接的。适当网络连接的示例包括控制器局域网络（CAN）、面向媒体的系统传输（MOST）、本地互连网络（LIN）、局域网（LAN）和其他适当连接，诸如符合已知ISO、SAE和IEEE标准和规范的以太网或其他，仅列出一些。

远程信息处理单元30可以OEM是安装的（嵌入的）或后市场设备，其能够通过无线载波系统14和通过无线联网进行无线话音和/或数据通信，从而车辆能够与呼叫中心20、其他启用远程信息处理的车辆、或一些其他实体或设备进行通信。远程信息处理单元优选地使用无线电传输来建立与无线载波系统14的通信信道（话音信道和/或数据信道），从而能够通过信道发送和接收话音和/或数据传输。通过提供话音和数据通信，远程信息处理单元30使车辆能够提供多种不同服务，包括与导航、电话、紧急援助、诊断、娱乐信息等相关的服务。可以使用现有技术中已知的技术通过数据连接（诸如通过数据信道的包数据传输）或者通过话音信道发送数据。对于包括话音通信（例如，与在呼叫中心20处的在线顾问或话音响应单元）和数据通信（例如，向呼叫中心20提供GPS位置数据或车辆诊断数据）的组合服务，系统可以使用通过话音信道的单独呼叫以及按照需要在话音信道上进行话音和数据传输之间的切换，并且这可以使用本领域技术人员公知的技术来实现。

根据一个实施例，远程信息处理单元30使用根据GSM或CDMA标准的蜂窝通信，并因此包括用于话音通信（例如，免提呼叫）的标准移动电话芯片组50、用于数据传输的无线调制解调器、电子处理设备52、一个或多个数字存储设备54和双天线56。应该理解，可以通过存储在远程信息处理单元中且通过处理器52执行的软件实现调制解调器，并且调制解调器可以是位于远程信息处理单元30内部或外部的单独硬件部件。调制解调器可以使用任何不同标准或协议来操作，诸如EVDO、CDMA、GPRS和EDGE。也可以使用远程信息处理单元30实现车辆与其他联网的设备之间的无线联网。为此，远程信息处理单元30可以被配置为根据一个或多个无线协议进行无线通信，诸如IEEE 802.11协议、WiMAX或蓝牙中的任一个。当用于诸如TCP/IP的分组交换数据通信时，远程信息处理单元可以配置有静态IP地址或者能够设置为自动从网络上的另一设备（诸如路由器）或者从网络地址服务器接收所分配的IP地址。

处理器52可以是能够处理电子指令的任何类型的设备，包括微处理器、微控制器、主处理器、控制器、车辆通信处理器和专用集成电路（ASIC）。其可以是仅用于远程信息处理单元30的专用处理器，或者可以与其他车辆系统共享。处理器52执行各种类型的数字化存储指令，诸如存储器54中存储的软件或固件程序，这些指令使远程信息处理单元30能够提供多种类型的服务。例如，处理器52能够执行程序或处理数据，以实现在此讨论的方法的至少一部分。

远程信息处理单元30可以用于提供多样化范围的车辆服务，包括来自车辆的无线通信和/或到车辆的无线通信。这些服务包括：结合基于GPS的车辆导航模块40提供的建议路线指向和其他导航相关服务；结合一个或多个碰撞传感器接口模块（诸如车身控制模块）（未示出）提供的安全气囊部署通知和其他紧急或路边援助相关的服务；使用一个或多个诊断模块的诊断报告；以及娱乐信息相关服务，其中，音乐、网页、电影、电视节目、视频游戏和/或其他信息通过娱乐信息模块（未示出）下载且被存储以用于当前或以后播放。上述列出的服务不是远程信息处理单元30的所有功能的详尽列表，而是仅是远程信息处理单元30能够提供的一些服务的列举。此外，应该理解，可以以远程信息处理单元30内部或外部存储的软件指令的形式实现上述模块的至少一部分，上述模块的至少一部分可以是位于远程信息处理单元30内部或外部的硬件部件，或者上述模块的至少一部分可以彼此之间或者与车辆内的其他系统集成和/或共享，仅阐述了几种可能性。在将模块实现为远程信息处理单元30外部的VSM 42的情况下，模块可以使用车辆总线44与远程信息处理单元30交换数据和命令。

GPS模块40从GPS卫星的星座60接收无线电信号。根据这些无线电信号，模块40可以确定车辆位置，用于向车辆驾驶员提供导航和其他位置相关服务。可以在显示器38（或者车辆内的其他显示器）上呈现导航信息，或者可以用言辞地表示导航信息，诸如当提供建议路线导航时用言辞进行。可以使用车辆中专用导航模块（可以是GPS模块40的一部分）提供导航服务，或者可以通过远程信息处理单元30完成部分或全部导航服务，其中，为了向车辆提供导航地图、地图标注（感兴趣的点、餐馆等）、路线计算等，向远程位置发送位置信息。为了其他目的，诸如车队管理，位置信息可以提供给呼叫中心20或其他远程计算机系统，诸如计算机18。另外，可以通过远程信息处理单元30将新的或更新的地图数据从呼叫中心20下载到GPS模块40。

除了音频系统36和GPS模块40之外，车辆12可以包括电子硬件部件形式的其他车辆系统模块（VSM）42，其遍布车辆定位且通常从一个或多个传感器接收输入，且使用感测的输入执行诊断、监测、控制、报告和/或其他功能。优选地，每个VSM 42通过通信总线44连接到其他VSM以及连接到远程信息处理单元30，并且可以被编程以运行车辆系统和子系统诊断测试。作为示例，一个VSM 42可以是发动机控制模块（ECM），其控制发动机操作的各个方面，诸如燃料点火和点火正时，另一VSM 42可以是动力系控制模块，其调整车辆动力系的一个或多个部件的操作，另一VSM 42可以是车身控制模块，其管理遍布车辆定位的各个电部件，例如，车辆的电动门锁和前灯。根据一个实施例，发动机控制模块配备有车载诊断（OBD）特征，其提供诸如从包括车辆排放物传感器的各种传感器接收的各种实时数据，并且提供标准化的一系列诊断故障码（DTC），这些码允许技术人员快速识别和消除车辆内的故障。如本领域的技术人员所知，上述VSM仅是可以在车辆12中使用的部分模块的示例，许多其他情况也是可行的。

车辆电子设备28还包括多个车辆使用者接口，该接口向车辆占用者提供用于提供和/或接收信息的手段，包括麦克风32、按钮34、音频系统36和可视显示器38。如在此使用，术语“车辆使用者接口”广泛地包括任何适当形式的电子设备，包括硬件和软件部件，该电子设备位于车辆上且使车辆使用者能够与车辆的部件通信或者通过车辆的部件进行通信。麦克风32向远程信息处理单元提供音频输入，以使驾驶员或其他占用者能够通过无线载波系统14提供话音命令和实现免提呼叫。为此，可以利用现有技术中已知的人机接口（HMI）技术将麦克风连接到车载自动话音处理单元。按钮34允许到远程信息处理单元30的手动使用者输入，以启动无线电话呼叫和提供其他数据、响应或控制输入。相对于一般服务援助呼叫，可以使用单独的按钮向呼叫中心20发起紧急呼叫。音频系统36向车辆占用者提供音频输出，并且可以是专用独立系统或者是主车辆音频系统的一部分。根据在此示出的具体实施例，音频系统36可操作地连接到车辆总线44和娱乐总线46，并且能够提供AM、FM、卫星无线电、CD、DVD和其他多媒体功能。可以结合或者独立于上述娱乐信息模块提供此功能。可视显示器38优选地是图形显示器，诸如仪表板上的触摸屏或者挡风玻璃反射出来的抬头显示器，并且可以用于提供多种输入和输出功能。由于图1的接口仅是一个具体实施例的示例，因此也可以使用各种其他车辆使用者接口。

无线载波系统14优选地是无线电话系统，包括多个手机信号塔70（仅示出一个），一个或多个移动交换中心（MSC）72以及将无线载波系统14与地面网络16连接所需的任何其他联网部件。每个手机信号塔70包括发送和接收天线以及基站，其中，来自不同手机信号塔的基站直接连接到MSC 72或者通过诸如基站控制器的中间设备连接。无线系统14可以实现任何适当的通信技术，例如，包括诸如AMPS的模拟技术，或者诸如CDMA（例如，CDMA2000）或GSM/GPRS的更新的数字技术。如本领域的技术人员所理解，各种手机信号塔/基站/MSC布置都是可行的，并且可以与无线系统14一起使用。例如，基站和手机信号塔可以共同位于相同地点，或者他们可以彼此远离地定位，每个基站可以负责单个手机信号塔或者单个基站可以服务于各个手机信号塔，以及不同的基站可以连接到单个MSC，仅列出一些可行布置。

除了使用无线载波系统14之外，可以使用卫星通信形式的不同无线载波系统，来提供与车辆的单向或双向通信。可以使用一个或多个通信卫星62和上行链路发射站64来实现此功能。例如，单向通信可以是卫星无线电服务，其中，发射站64接收节目内容（新闻、音乐等），节目内容被打包用于上载，然后发送到卫星62，卫星62向订购者广播节目内容。例如，双向通信可以是使用卫星62在车辆12与站64之间中继电话通信的卫星电话服务。如果被使用，则该卫星电话可以在无线载波系统14的基础上或者代替无线载波系统14地被使用。

地面网络16可以是传统基于地面的远程通信网络，其连接到一个或多个陆上通信线电话并且将无线载波系统14连接到呼叫中心20。例如，地面网络16可以包括公共交换电话网（PSTN），诸如用于提供硬线电话、分组交换数据通信和互联网基础设施的那些。可以通过使用标准有线网络、光纤或其他光网络、电缆网络、电源线、诸如无线局域网（WLAN）的其他无线网络或者提供宽带无线接入的网络或者其组合实现地面网络16的一段或多段。此外，呼叫中心20不必通过地面网络16被连接，而是可以包括无线电话设备，从而其可以直接与无线网络进行通信，诸如无线载波系统14。

计算机18可以是通过诸如互联网的私有或公共网络可访问的多个计算机之一。每个这种计算机18可以用于一种或多种目的，诸如可由车辆通过远程信息处理单元30和无线载波14访问的网络服务器。例如，其他这种可访问的计算机18可以是：服务中心计算机，用该计算机可以通过远程信息处理单元30从车辆上载诊断信息和其他车辆数据；车辆拥有者或其他订购者使用的用于访问或接收车辆数据或者设置或配置订购者优选项或控制车辆功能目的的客户计算机；或者第三方存储器，通过与车辆12或呼叫中心20或与这两者通信来提供车辆数据或其他信息到该第三方存储器或从其接收所述车辆数据或其他信息。计算机18还可以用于提供互联网连接性，诸如DNS服务或者作为网络地址服务器，其使用DHCP或其他适当协议向车辆12分配IP地址。

呼叫中心20被设计为向车辆电子设备28提供多个不同系统后端功能，并且根据在此示出的示例性实施例，呼叫中心20通常包括一个或多个交换机80、服务器82、数据库84、在线顾问86以及自动话音应答系统（VRS）88，所有这些都是本领域已知的。这些不同的呼叫中心部件优先地通过有线或无线局域网90彼此连接。交换机80可以是专用交换分机（PBX）交换机，路由进入信号，从而通常通过普通电话将话音传输发送到在线顾问86或者使用VoIP将话音传输发送到自动话音应答系统88。在线顾问电话也可以使用VoIP，如图1的虚线所指示。可以通过交换机80与网络90之间连接的调制解调器（未示出）实现通过交换机80的VoIP和其他数据通信。数据传输经由调制解调器被传送到服务器82和/或数据库84。数据库84可以存储账户信息，诸如订购者认证信息、车辆标识、个人资料记录、行为模式和其他相关订购者信息。还可以通过无线系统，诸如802.11x、GPRS等进行数据传输。尽管所示出的实施例已被描述为它将被与使用在线顾问86的人工呼叫中心20联合使用，但是可以理解，呼叫中心可以替代地使用VRS 88作为自动顾问，或者可以使用VRS 88与在线顾问86的组合。

自动语音识别系统

现转到图2，示出可以用于实施当前公开的方法的ASR系统210的示例性架构。通常，车辆占用者为了下面的一个或多个基本目的用言辞与自动语音识别系统（ASR）进行交互：训练系统以理解车辆占用者的特定话音；存储离散语音，诸如说出的使用者标签或说出的控制词，如数字或关键字；或者为了诸如话音拨号、菜单导航、转录、服务请求、车辆设备或设备功能控制等的任何适当目的而识别车辆占用者语音。通常，ASR从人类语音提取声学数据，将该声学数据与存储的子词数据进行对照和对比，选择能够与其他选择的子词连结的适当子词，并且输出连结后的各子词或词以用于后处理，诸如口述或转录、地址簿拨号、存储到存储器、训练ASR模型或适应参数等。

ASR系统通常是本领域技术人员已知的，且图2仅示出一个特定示例性ASR系统210。系统210包括接收语音的设备，诸如远程信息处理麦克风32，以及声学接口33，诸如远程信息处理单元30的具有模数转换器以将语音转换为声学数据的声卡。系统210还包括存储器，诸如远程信息处理存储器54，用于存储声学数据以及存储语音识别软件和数据库，以及处理器52，诸如远程信息处理处理器52，以处理声学数据。处理器与存储器一起并且联合下面的模块来正常运行：一个或多个前端处理器、预处理器或者预处理器软件模块212，用于将语音的声学数据流解析成参数表示，诸如声学特征；一个或多个解码器或解码器软件模块214，用于将声学特征解码以产生与输入语音话语相对应的数字子词或词输出数据；以及一个或多个后端处理器、后处理器或后处理器软件模块216，以用于将来自解码器模块214的输出数据用于任何适当目的。

系统210还可以从任何其他适当的音频源31接收语音，该音频源能够如实线所示地直接与预处理器软件模块212通信或者经由声学接口33与预处理器软件模块212间接通信。例如，音频源31可以包括音频的远程信息处理源，诸如话音邮件系统，或者任何类型的其他远程信息处理服务。

一个或多个模块或模型可以用作解码器模块214的输入。首先，语法和/或词素模型218可以提供管理哪个词逻辑上可以在其他词之后以形成正确句子的规则。从广义上讲，词素或语法可以定义系统210在任意给定时间在任意给定ASR模式中期望的词汇总体。例如，如果系统210处于用于训练命令的训练模式，则词素或语法模型218可以包括系统210已知和使用的所有命令。在另一示例中，如果系统210处于主菜单模式，则有效词素或语法模型218可以包括系统210期望的所有主菜单命令，诸如呼叫、拨号、退出、删除、目录等。第二，声学模型220帮助选择与来自预处理器模块212的输入相对应的最可能的子词或词。第三，词模型222和句子/语言模型224在将选择的子词或词排列成词或句子上下文时提供规则、语法和/或语义。另外，句子/语言模型224可以定义系统210在任意给定时间在任意给定ASR模式中期望的句子总体，和/或可以提供管理哪些句子逻辑上可以在其他句子之后以形成正确扩展语音的规则等。

根据替换性示例性实施例，ASR系统210的部分或全部可以驻留在处于车辆12的远程位置的诸如呼叫中心20的计算设备上，以及使用该计算设备进行处理ASR系统210的部分或全部。例如，语法模型、声学模型等可以存储在呼叫中心20的服务器82和/或数据库84之一的存储器中且通信到车辆远程信息处理单元30用于车内语音处理。类似地，可以使用呼叫中心20中的服务器82之一的处理器处理语音识别软件。换句话说，ASR系统210可以驻留在远程信息处理单元30中，或者以任何期望方式分布在呼叫中心20和车辆12。

首先，从人类语音提取声学数据，其中，车辆占用者向麦克风32说话，麦克风32将话语转换成电信号且将此信号通信到声学接口33。麦克风32中的声音响应元件捕获占用者的语音话语作为空气压力的变化，并且将话语转换为模拟电信号的相应变化，诸如直流或电压。声学接口33接收模拟电信号，首先对该模拟电信号进行采样，从而在离散时刻捕获模拟信号的值，然后对其量化从而在每个采样时刻将模拟信号的幅值转换为连续数字语音数据流。换句话说，声学接口33将模拟电信号转换为数字电信号。数字数据是二进制比特，其可以在远程信息处理存储器54中进行缓冲，然后由远程信息处理处理器52进行处理，或者可以在由处理器52最初接收时被实时处理。

第二，预处理器模块212连续数字语音数据流变换为声学参数的离散序列。更具体地，处理器52执行预处理器模块212，以将数字语音数据分段为例如10-30 ms持续时间的交叠的语音或声学帧。所述帧与声学子词相对应，诸如音节、半音节、单音、双连音、音素等。预处理器模块212还执行语音分析，以从每一帧内从占用者语音提取声学参数，诸如随时间变化的特征向量。占用者语音内的话语可以被表示为这些特征向量的序列。例如，如本领域技术人员所知，可以提取特征向量，并且特征向量可以包括，例如，音高、能线图、光谱属性和/或倒频谱系数，这些可以通过执行帧的傅里叶变换以及使用余弦变换对声谱进行解相关来获得。覆盖特定语音持续时间的声学帧和相应参数被连结成将被解码的未知语音测试模式。

第三，处理器执行解码器模块214，以处理每个测试模式的进入特征向量。解码器模块214也被称为识别发动机或分类器，并且使用存储的已知语音参考模式。如测试模式，参考模式也被定义为相关声学帧和相应参数的连结。解码器模块214将待被识别的子词测试模式与存储的子词参考模式的声学特征向量进行对照和对比，评估它们之间的差异或相似度的大小，并且最终使用判决逻辑选择最佳匹配子词作为识别后的子词。通常，最佳匹配子词是这样的子词：其和通过本领域技术人员已知的各种分析和识别子词的技术中的任一种确定的与该测试模式具有最小不相似度的或最有可能是该测试模式的存储的已知参考模式相对应。这些技术可以包括动态时间规整分类器、人工智能技术、神经网络、自由音素识别器和/或概率模式匹配器，诸如隐马尔可夫模型（HMM）发动机。

HMM发动机是本领域的技术人员公知的用于产生声学输入的多个语言识别模型假设。这些假设在最终通过语音的特征分析识别和选择代表声学输入的最可能的正确解码的识别输出中被考虑。更具体地，HMM发动机产生子词模型假设的“N-最佳”列表形式的统计模型，这些子词模型假设根据HMM计算的信赖值或者例如通过应用贝氏定理赋予一个或另一个子词的声学数据的观察序列的可能性排列。

贝叶斯HMM过程确定与给定的声学特征向量的观察序列的最可能话语或子词序列相对应的最佳假设，并且其信赖值可以取决于多种因素，包括与进入声学数据相关联的声学信号噪声比。HMM还可以包括称为混合对角高斯的统计分布，其产生每个子词的每个观察的特征向量的可能性分数，该分数可以用于将假设的N-最佳列表重新排序。HMM发动机还可以识别和选择其模型可能性分数最高的子词。

以类似的方式，可以连结子词序列的各个HMM，以建立单个或多个词HMM。其后，可以产生和进一步评估单个或多个词参考模式的N最佳列表和相关参数值。

在一个示例中，语音识别解码器214使用适当的声学模型、语法和算法处理特征向量以产生参考模式的N最佳列表。如在此使用，术语参考模式可与模型、波形、模板、富信号模型、示例、假设或其它类型参考互相替换。参考模式可以包括代表一个或多个词和子词的一系列特征向量，并且可以基于特定说话者、说话风格和听得见的环境状况。本领域的技术人员将认识到，可以通过ASR系统的适当参考模式训练产生参考模式且将其存储在存储器中。本领域的技术人员还将认识到，可以操纵存储的参考模式，其中基于参考模式训练和ASR系统的实际使用之间的语音输入信号中的差异调整参考模式的参数值。例如，基于来自不同车辆占用者或不同声学状况的有限量的训练数据，针对一个车辆占用者或某些声学状况训练的一组参考模式可以被调整且存储为针对不同车辆占用者或不同声学状况的另一组参考模式。换句话说，参考模式没有必要固定，且可以在语音识别期间被调整。

使用词汇内语法以及任何适当解码器算法和声学模型，处理器从存储器访问了解释该测试模式的若干参考模式。例如，处理器可以产生且在存储器中存储N-最佳词汇结果或参考模式的列表以及相应的参数值。示例性参数值可以包括词汇的N-最佳列表中的每个参考模式的信赖分数以及相关段持续时间、可能性分数、和/或信号噪声比（SNR）值等。可以按照参数值大小的下降排列词汇的N-最佳列表。例如，具有最高信赖分数的词汇参考模式是第一最佳参考模式等。一旦建立了被识别的子词串，这些子词就可以被用于使用来自词模型222的输入构建词并且使用来自语言模型224的输入构建句子。

最终，后处理器软件模块216从解码器模块214接收输出数据以用于任何适当目的。在一个示例中，后处理器软件模块216可以从单个或多个词参考模式的N-最佳列表识别或选择参考模式之一作为被识别的语音。在另一示例中，后处理器软件模块216可以用于将声学数据转换为文本或数字，以用于ASR系统的其他方面或其它车辆系统。在另一示例中，后处理器模块216可以用于向解码器214或预处理器212提供训练反馈。更具体地，后处理器软件模块216可以用于训练解码器模块214的声学模型，或者训练预处理器模块212的适应参数。

方法

现转到图3，示出语音信号处理方法300，可以使用车辆远程处理单元30的操作环境内的图2的ASR系统210的适当编程以及使用图1所示的适当硬件和其它部件的编程来实施方法300。基于上述系统描述以及下面结合剩余附图描述的方法的讨论，上述编程和上述硬件的使用对本领域技术人员将是明显的。本领域的技术人员还将认识到，可以使用其它操作环境内的其它ASR系统实施所述方法。

通常，语音信号处理方法300通过将语音能量从与语音中识别的阻塞音相关联的较高频率映射到较低频率而改善自动语音识别或语音远程通信。语音识别效果被改善，因为更多的语音能量能够被估计和解释。类似地，该方法改善了在多个使用者之间的远程通信期间语音的可理解性，因为语音数据的接收者相比于较高频率能更好地听到较低频率的语音。同样地，因为该方法产生了更大量的可理解性的语音数据，该方法能够有助于补偿在基于VOIP应用中任何时候存在的数据包损失。

参照图3，方法300以任何适当方式在步骤305开始。

在步骤310，从使用者接收语音。例如，可经由麦克风（其将话语转换成语音信号）从使用者接收话语。更具体地，远程信息处理麦克风32可用于将使用者语音话语转换成电信号以传送至声学接口33，其将语音数字化成声学数据。麦克风32可包括传统的0-8kHz，较新的宽带0-11kHz麦克风，或适当频率响应带宽的任何其他麦克风。

在步骤320，预处理语音信号。例如，可使用ASR预处理器212，免提呼叫预处理器，或任何其他适当的远程通信预处理器或任何类型的处理设备来预处理语音信号。步骤322到328代表更具体的语音信号预处理步骤。

在步骤322，声学数据从接收到的语音信号中提取。例如，语音信号可被预处理器解析成例如声学特征等的参数表征流。

在步骤324，由声学数据确定话语是否包括一个或多个阻塞音。例如，子词分类器可用于估计声学数据，以确定是否一个或多个阻塞音存在于从使用者接收的语音中。子词分类器可为音节模式分类器，音素模式分类器，或任何其他适当的分类器。子词分类器能够从元音，辅音，双元音，和/或阻塞音（像摩擦音，破擦音，爆破音和/或其他）中分类。子词分类器对于本领域的技术人员来说是公知的，并且可使任何适当的子词分类器和/或分类方法。

在一个实施例中，确定可包括首先在接收到的语音中估计独特共振峰的频率并且得出结论：如果前三个或四个共振峰的频率将话语音素确认为元音，则不存在阻塞音。然而，如果得出结论：共振峰频率的至少一个不表示元音，那么模式分类器可进一步确定是否存在阻塞音。

如果在步骤324检测到没有阻塞音，则方法进行到步骤330，在其中语音解码和/或语音传输可以任何适当的方式发生，在其之后该方法在步骤360结束。

然而，如果在步骤324检测到一个或多个阻塞音，则该方法进行到步骤326。

在步骤326，来自与确认的阻塞音相关联的较高频率的语音能量可被估计。语音能量可以任何适当的方式被估计。例如，自适应数字过滤器可用于估计语音能量。示例自适应数字过滤器可包括使用L1和L2规范的最小均方差过滤器，最小二乘算法过滤器，线性预测编码过滤器，和/或其他。

在步骤328，步骤326中估计的语音能量可从与确认的阻塞音相关联的较高频率被映射到较低频率。例如，自适应数字过滤器可用于将语音能量从较高频率映射到较低频率。在一个实施例中，较高频率范围可包括7至9kHz频率，较低频率范围可包括3至6kHz频率。在一个例子中，自适应数字过滤器可包括最小均方差过滤器，最小二乘算法过滤器，线性预测编码过滤器，和/或其他。在另一个例子中，像Adobe Audition的音频编辑软件可用于通过低通，高通，和带通过滤器供给音频，从而平衡音频，并允许语音能量从较高的频段或频率区被移调或重新定位到较低的频段或频率区。适当的数字过滤器设计可以使用任何适当的工具（例如MATLAB）设计，以将光谱（能量）内容与信号的高频区域隔离开，将内容与信号再结合，并且使该内容重新定位到信号的低频区域，由此更大可能地避免了阻塞音声音之间的混淆。

在步骤340，在一个实施例中，映射的语音能量可被解码，以为接收到的话语产生多个假设，从而尝试识别话语。

在步骤350，在另一个实施例中，映射的语音能量可被传输给其他使用者。例如，在免提呼叫的实施例中，远程通信处理器可将映射的语音能量传送至发送器，该发送器用于发生给与步骤310的使用者通信的其他使用者。

在步骤360，方法300可以任何适当的方式结束。

可在计算机程序产品中实施该方法或其一部分，所述程序产品包括在计算机可读介质上承载供一个或多个计算机的一个或多个处理器使用来实施一个或多个方法步骤的指令。计算机程序产品可以包括一个或多个软件程序，其包括源代码、目标代码、可执行代码或其他格式的程序指令；一个或多个固件程序；或者硬件描述语言（HDL）文件；以及任何程序相关数据。所述数据可以包括数据结构、查找表、或任何其他适当格式的数据。所述程序指令可以包括程序模块、例程、程序、对象、和/或组成部分等。可以在一个计算机上或者在彼此通信的多个计算机上执行计算机程序。

程序可以体现在计算机可读介质上，所述计算机可读介质可以包括一个或多个存储设备、制品等。示例性计算机可读介质包括计算机系统内存，例如，RAM（随机访问存储器）、ROM（只读存储器）；半导体存储器，例如，EPROM（可擦除可编程ROM）、EEPROM（电可擦除可编程ROM）、闪存；磁盘或光盘或带；和/或其他。计算机可读介质还可以包括计算机到计算机连接，例如，当通过网络或另一通信连接（有线、无线或其组合）传递或提供数据时。上述示例的任何组合也包括在计算机可读介质的范围内。因此，可以理解，可以通过能够执行与公开的方法的一个或多个步骤相对应的指令的任何电子产品和/或设备至少部分地执行方法。

可以理解，上面是本发明的一个或多个优选示例性实施例的描述。本发明不限于在此公开的具体实施例，而是仅由所附权利要求限定。此外，上述描述中包含的陈述与具体实施例相关，并且不被解释为限制本发明的范围或者限定权利要求中使用的术语的定义的限定，除非上文中对术语或短语有明确定义。各种其他实施例以及对公开的实施例的各种改变和修改对于本领域的技术人员将是明显的。例如，本发明可应用于其他领域的语音信号处理，诸如移动通信、互联网协议话音技术应用等。所有这些其他实施例、改变和修改意在落入所附权利要求的范围内。

如在此说明书和权利要求中所使用，当结合一个或多个部件或其他项的列表使用时，术语“例如”，“比如”，“诸如”和“像”以及动词“包括”，“具有”，“包含”以及它们的其他动词形式，每一个都被解释为开放式，意味着所述列出不被认为是排除其他附加部件或项。其他术语被解释为使用它们的最广泛的合理含义，除非它们被应用于要求不同解释的上下文中。

Claims

1.一种处理语音信号的方法，包括以下步骤：

（a）经由麦克风从使用者接收话语，所述麦克风将话语转换成语音信号；以及

（b）使用处理器预处理所述语音信号，所述预处理步骤包括：

从接收到的语音信号中提取声学数据；

由所述声学数据确定话语是否包括一个或多个阻塞音；

由与确认的阻塞音相关联的较高频率估计语音能量；以及

映射估计的语音能量到较低频率。

2.如权利要求1所述的方法，其特征在于，所述确定步骤包括使用模式分类器。

3.如权利要求1所述的方法，其特征在于，所述映射步骤包括使用自适应数字过滤器。

4.如权利要求1所述的方法，其特征在于，进一步包括步骤（c）：解码映射的语音能量来为接收到的话语产生多个假设，从而尝试识别话语。

5.如权利要求1所述的方法，其特征在于，进一步包括步骤（c）：传送映射的语音能量到其他使用者。

6.一种处理语音信号的方法，包括以下步骤：

从接收到的语音信号中提取声学数据；

使用子词模式分类器来由所述由所述声学数据确定话语是否包括一个或多个阻塞音；

由与确认的阻塞音相关联的较高频率估计语音能量；以及

使用自适应数字过滤器来映射估计的语音能量到较低频率。

7.如权利要求6所述的方法，其特征在于，进一步包括步骤（c）：解码映射的语音能量来为接收到的话语产生多个假设，从而尝试识别话语。

8.如权利要求6所述的方法，其特征在于，进一步包括步骤（c）：传送映射的语音能量到其他使用者。

9.一种计算机程序产品，其包括指令，所述指令在计算机可读介质上并且可由语音识别系统的计算机处理器执行，从而使所述系统执行以下步骤：

从接收到的语音信号中提取声学数据；

由所述声学数据确定话语是否包括一个或多个阻塞音；

由与确认的阻塞音相关联的较高频率估计语音能量；以及

映射估计的语音能量到较低频率。