CN1653519A

CN1653519A - 通过分析源信号的冗余特征进行稳健话音识别的方法

Info

Publication number: CN1653519A
Application number: CNA038106914A
Authority: CN
Inventors: N·马拉亚斯; H·加鲁达德里
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2002-03-20
Filing date: 2003-03-19
Publication date: 2005-08-10
Anticipated expiration: 2023-03-19
Also published as: TW200306526A; AU2003225928A1; CN1653519B; US6957183B2; US20030182115A1; MXPA04009077A; TWI300214B; WO2003081576A1

Abstract

通过分析冗余特征对数字化语音信号进行处理以提供更稳健的话音识别的方法。对源语音信号应用初级变换，从中提取初级特征。对所述源语音信号或对所提取的初级特征应用至少一个次级变换的每一个，以得到至少一组和所述初级特征统计上相关的次级特征。然后至少应用一个预先确定的函数对所述初级特征和所述次级特征进行联合。通过对这一联合和预先确定的话音识别模板进行模式匹配产生识别答案。

Description

通过分析源信号的冗余特征进行稳健话音识别的方法

背景

1.发明领域

本发明涉及话音识别技术和电路，尤其涉及通过分析源信号的冗余特征进行更准确和容噪的稳健话音识别的系统。

2.有关技术的描述

为了识别语音的根本内容，已经开发了多种信号处理技术对数字化语音信号进行分析。一旦被识别，这个内容就可以用来控制手持电话、计算机、家用电器或其他设备。一些已知技术使用语音信号的短时傅立叶谱或“谱图”，使用加窗傅立叶变换算出它们，在Rabiner等人的《语音识别基础》(Fundamentals of SpeechRecognition)中对此有更完整的说明，整体引用在此作为参考。

图1说明一种已知的用于谱分析的谱特征提取器100，包括加窗102、FFT 104、MEL/BARK滤波106、对数108和RASTA滤波110几个阶段。数字化输入语音信号101输到加窗阶段102，在这里把输入信号分隔成较小尺寸的有合适时长的片段，比如20毫秒。FFT阶段104对阶段102输出的加窗片段进行快速傅立叶变换。MEL/BARK阶段106把线性频谱刻度缩放到不同的比例，使较低频率的分辨率比较高频率的分辨率高。在听觉范围内从低频到高频，频率缩放的分辨率逐渐变粗。MEL缩放和BARK缩放是两种已知的导致上述频率伸缩的变换。这两种缩放(以及一些变体)在语音识别中得到广泛使用。对数阶段108对输入数值取对数，更具体地说，对每个MEL/BARK变换后的谱值进行对数运算。在多种已知的出版物中都描述了上述的阶段102-108，其中一个例子就是上面引用的Rabiner等人的《语音识别基础》一书。

RASTA阶段110用预先定义的带通滤波器对对数阶段108的输出进行滤波。例如，如果有16个BARK数值，就会有16个滤波器对每个BARK带进行操作。RASTA阶段110可以用任何已知的RASTA处理技术实现，其中一个例子在Hermansky等人的标题为“Auditory Model for Parameterization of Speech(语音参数化的听觉模型)”的美国专利第5450522号中有描述，整体引用在此。

谱特征提取器100的输出是谱输出信号111，然后用各种后续技术(没有示出)对它进行处理，得到给出输入语音信号的预测内容的“识别答案”。基于这种谱输出信号111的识别答案在低噪声环境下提供很高的准确度。更有利的是，信噪比下降导致的准确度缓慢地降级。可以进一步以各种方式对谱输出信号进行处理。例如，一种方法还对谱输出信号111做倒谱变换112以得到倒谱输出信号114。例如，倒谱变换112的一种类型使用离散余弦变换(DCT)然后降低维数。一般而言， “倒谱”解释为信号功率谱的对数的傅立叶逆变换，在下面的参考材料中有更多论述，整体引用在此做为参考：A.V.Oppenheim和R.W.Schafer的《离散时间信号处理》(Discrete-Time Signal Processing)，J.R.Deller、J.G.Proakis和J.H.L.Hansen的《语音信号的离散时间处理》(Discrete-Time Processing of Speech Signals)，L.R.Rabiner和R.W.Schafer的《语音信号的数字处理》(Digital Processing ofSpeech Signals)。

在计算倒谱114的系统中，使用统计建模技术对倒谱(而不是谱111)进行处理以得到识别答案。把识别答案基于倒谱输出信号114的一个好处是它们在噪声电平较低时提供更准确的话音识别。但是，对这些系统而言，随着噪声上升，错误率上升很快。因此，谱和倒谱话音识别对于可能遇到宽噪声电平范围的应用来说都不是完全足够的。

发明内容

一般而言，本发明涉及处理数字化语音信号以进行话音识别的方法。常规方法通过在识别前先去掉输入语音的冗余特征而寻求简洁和简单，本发明却与之不同，本发明有目的地保留并分析源信号的冗余特征，以便在多种声学环境里进行准确的语音识别。对数字化源语音信号应用初级变换，从中提取初级特征。一个例子是应用谱变换以提取谱特征。对所述源语音信号或所提取的谱特征应用至少一个次级变换的每一个，得到至少一组次级特征。每个次级变换都设计成产生包含有在所提取的初级特征中已经有的一些信息的数据。然后，使用至少一个预先确定的函数把所述初级特征和所述次级特征进行联合。通过对这一联合和一组预先确定的话音识别模板进行模式匹配而产生识别答案。

本发明给其用户提供了很多不同的优势。首先，本发明在不牺牲低噪声环境下的性能的同时，在噪声电平上升时提供准确的话音识别。这一点和常规的倒谱话音识别系统不同，常规倒谱话音识别系统的性能随着噪声上升下降得很快，和常规的谱话音识别系统也不同，常规的谱话音识别系统的性能随着噪声上升下降较慢，但却牺牲了低噪声环境下的部分性能。本发明还给用户提供了很多其他优势和益处，这些优势和益处在本发明下面的描述中将变得清楚。

附图简述

图1是已知的谱和倒谱处理系统的硬件元件及其互连的方框图。

图2是话音识别系统的一个实施例的硬件元件及其互连的方框图。

图3是数字数据处理机的方框图。

图4示出了一种示例性的信号承载媒介。

图5示出了一种示例性的无线电话。

图6是使用语音的冗余特征进行话音识别的操作顺序的流程图。

发明详述

结合附图理解下面的详细描述，本发明的特性、目的和优势对本领域的熟练技术人员将变得更清楚。

硬件元件及其互连

总体结构

本发明的一个方面涉及话音识别系统，该系统可以在多种硬件元件及其互连中实施，一个例子由图2所示的话音识别系统200描述。系统200用来处理输入语音信号201，即数字化语音信号。可选择的是，系统200可以包括一个数模转换器(DAC)来对模拟输入语音信号进行数字化。所述输入语音信号201输入到谱特征提取器202，谱特征提取器202是从输入语音信号201中提取谱特征的电路。作为一个例子，提取器202可以用类似于图1所示的谱特征提取器100那样的元件实施。

提取器202的输出202a是一个或多个谱输出信号，例如谱特征矢量。输出202a输入到次级变换模块204。次级变换模块204应用一个预先确定的函数以提供次级输出204a。在图示例子中，模块204应用倒谱变换，其中次级输出204a是一组倒谱矢量。模块204的次级特征信号204a输入到特征联合模块206。上述实施例中次级变换模块204接收提取器202的输出202a，作为其替代，模块204也可以接收原始输入语音信号201。在又一实施例中，可以有多个次级变换模块204，每个都对输入语音信号201或谱输出202a应用不同的函数。

在任一情况下，上述对谱和倒谱特征的描述只是示例性的，但是本发明的范围构想很多不同的初级变换和次级变换(不限于谱和倒谱)。例如，谱特征提取器202和其谱特征202a可以用任何执行一次或较高次变换以产生输入语音信号的时频表征的合适的初级特征提取器202来表征。一些例子包括谱变换、小波变换、调制谱和累积量等等。

每个次级变换都可以通过离散余弦变换(产生倒谱)、主分量变换、或所述初级特征到另一已知的或用户定义的空间的其他投影来实现。次级特征可以数学生成、经验生成或以其他方式生成。无论如何，每组次级特征和所述初级特征“统计上相关”，意味着所述次级特征通过数学函数和所述初级特征有关。换句话说，对所述初级特征应用数学函数就有可能得到所述次级特征。例如，所述次级特征可以通过相关(包括但不限于加、减、乘上因子再加、或其他组合)、非线性处理或其他技术和所述初级特征有关。所述初级特征可以或者不可以从所述次级特征中数学上再生。然后，作为例子，模块204的倒谱特征与提取器202的谱特征统计上相关，而实际上，图示的倒谱矢量是用倒谱对谱矢量进行数学上的变换得到的。因此，输出202a和204a包含有关于输入语音信号201的冗余信息。

在常规方法中，谱或其他初级输出信号除了做进一步下游(串行)处理外不再用得到，本发明与之不同，本发明中谱输出信号202a和它们在次级变换中的使用是分开分析的。即，输出信号202a直接输入到特征联合模块206作分析。

模块206把谱输出信号202a和次级输出信号204a进行联合。这一联合可以以各种方式进行。例如，信号202a和204a可以用串联、线性判别式分析(LDA)、主分量变换(PCT)或其他对两个输入202a和204a一起应用的函数等联合。在一个不同的实施例中，模块206可以包括处理子元件206a和206b，它们分别修改信号202a和204a之一或两者，然后模块206把修改后的信号202a和204a进行联合。如果执行了不止一个次级变换204，那么模块206就可以包括同等数量的元件206b。每个子元件206a和206b都可以执行各种功能，例如用固定或可变的系数对其输入信号进行缩放(即，相乘)、改变输入信号的指数、对输入信号乘上自身一次或多次(自乘)、或其他一个或多个线性或非线性过程。在本实施例中，修改后的信号用前述技术之一进行联合，即串联、LDA、PCT等等。

如上所述，可以有多个次级变换模块204，每个都接收一个诸如输入信号201或提取器202的输出202a这样的输入信号。在这种实施例中，所述特征联合模块206仍然用于把谱特征信号和次级变换输出信号联合，虽然所述次级变换输出信号来自多个不同的模块204。

所述特征联合模块206把其输出输入到统计建模引擎208，后者也称为“识别器”或“模式匹配”单元。引擎208可以通过很多已知的技术来实现，引擎208产生输出，即识别答案210。所述识别答案210组成系统200对输入语音信号210的含义的估计。引擎208包括训练输入208a，用于接收训练引擎208的输入来识别某种模型或样本语音模式。作为特例，引擎208可以把模块206的输出在查找表中交叉对照以得到输入语音信号201所表示的含义，即，它的“答案”。

示例性数字数据处理装置

如上所述，诸如提取器202、次级变换模块204、特征联合模块206、统计建模引擎208等数据处理实体可以以各种形式实现。例如，每个这类元件(或者两个或更多元件一起)都可以用数字数据处理装置实现，就象图3所示的数字数据处理装置300的硬件元件及其互连的例示。

装置300包括耦合到存储器304的处理器302，例如微处理器、个人电脑、工作站或其他处理机。在当前例子中，存储器304包括快速存取存储器306和非易失性存储器308。快速存取存储器306的一个例子是随机存取存储器(“RAM”)，用来存储由处理器302所执行的程序指令。非易失性存储器308可以是，例如，电池备份RAM、EEPROM、一个或多个诸如“硬驱”这样的磁性数据存储盘、磁带驱动器或任何其他合适的存储设备。装置300也包括输入/输出310，例如线、总线、电缆、电磁链路或其他使处理器302与装置300外部的其他硬件交换数据的装置。

尽管以上具体的描述，然而本领域的普通技术人员(从本发明获益)会认识到，上面论述的装置可以在不同构造的机器上实现，而不脱离本发明的范围。作为特例，306和308元件之一可以去掉；还有，存储器304、306和/或308可以在处理器302上提供，或者，甚至可以在装置300外部提供。

逻辑电路

和上面论述的数字数据处理装置形成对比，本发明的另一种不同的实施例使用逻辑电路而不是由计算机执行的指令来实现系统200的一个或全部元件。依照应用在速度、费用、工具成本等方面的特别要求，这种逻辑可以通过构造具有成千上万个微集成晶体管的专用集成电路(“ASIC”)来实现。这种ASIC可以用CMOS、TTL、VLSI或其他合适的构件实现。其他替代品包括数字信号处理芯片(“DSP”)、离散电路(例如电阻器、电容器、二极管、电感器和晶体管)、场可编程门阵列(“FPGA”)、可编程逻辑阵列(“PLA”)等等。

无线电话应用

在一个示例性应用中，话音识别系统200可以和无线电话领域已知的其他电路一起在无线电话500(图5)中实现。电话500包括扬声器508、用户接口510、麦克风514、收发器504、天线506和管理器502。管理器502可以用上面结合图3-4论述的电路来实现，它管理元件504、508、510和514之间的操作和信号路由。管理器502包括由系统200实施的话音识别模块502a，用来执行这样的功能：电话500的操作者关于拨号、呼叫管理等等语音命令的解码。

操作

已经描述了本发明的结构特征，现在将描述本发明的操作方面。常规方法通过在分析前去掉输入语音的冗余特征而寻求操作的简洁和简单，本发明与之不同，本发明有目的地分析源信号的冗余特征，以便在多种声学环境里进行准确的话音识别。

信号承载媒介

不论本发明的功能使用一个或多个机器可执行的程序顺序在哪里实现，这些顺序都可以在各种形式的媒介上实施。在图3的情况下，这种信号承载媒介可以是，例如，存储器304或其他信号承载媒介，例如磁性数据存储盘400(图4)，由处理器302直接或间接地存取。不论包含在存储器306、磁盘400或其他地方，这些指令都可以被存储在多种机器可读的数据存储媒介上。一些例子包括直接存取存储器(例如，常规的“硬驱”、廉价磁盘冗余阵列(“RAID”)、或其他直接存取存储设备(“DASD”))，诸如磁带或光带这样的串行存取存储器，电子非易失性存储器(例如，ROM、EPROM或EEPROM)，电池备份RAM，光学存储器(例如，CD-ROM、WORM、DVD、数字光带)，纸“打孔”卡，或其他合适的信号承载媒介，包括模拟或数字传输媒介与模拟通信链路以及无线通信。在本发明的说明性实施例中，机器可读指令可以是从汇编语言或C语言等语言编译得到的软件目标代码。

逻辑电路

和上面论述的信号承载媒介形成对比，可以使用逻辑电路而不是使用指令处理机来实现本发明的部分或全部功能。因此，这些逻辑电路配置成执行能实现本发明方法的操作。这些逻辑电路可以使用上面论述的很多不同类型的电路来实现。

操作的总体顺序

图6显示的顺序600说明了一个示例性的话音识别过程。一般而言，这个顺序用来通过分析冗余特征来处理语音信号提供更加噪声稳健的话音识别。为了解释方便，但没有任何有意的限制，图6的例子在上述话音识别系统200的环境中描述。

所述顺序从步骤602开始，在步骤602进行系统200的训练。在所述训练步骤602中，具有期望特征的输入语音信号201(“训练语音”)输入到谱特征提取器202，而步骤604、606和608(在下面论述)使用这个输入语音信号执行。例如，训练语音可以是模型语音(对于和说话人无关的系统)，或是特定人的样本语音(对于和说话人有关的系统)。特征提取模块206的输出形成话音识别模板，通过以下使话音识别模板与训练语音有关：准备训练输入208a(表示训练语音的内容)，把输入208a提供给统计建模引擎208，并指示引擎208在将来系统200遇到和训练语音相似的语音的任何时候产生期望的识别答案。例如，如果训练语音信号201是单词“lesson”，就把文本“lesson”输入到和训练语音信号201相关的引擎208。更多对训练的论述可以在很多资料中找到，因为很多训练话音识别系统的不同技术在本领域内是众所周知的。一些示例性的训练方法在如下材料中有论述，每个材料整体引用在此作为参考：(1)1999年2月8日提交的标题为“VoiceRecognition Rejection Scheme(话音识别拒绝方法)”的美国专利申请第09/248513号，(2)1999年1月4日提交的标题为“System and Method forSegmentation and Recognition of Speech Signals(用于语音信号分段和识别的系统和方法)”的美国专利申请第09/225891号，(3)2000年7月13日提交的标题为“Method and Apparatus for Constructing Voice Templates for aSpeaker-Independent Voice Recognition System(为和说话人无关的话音识别系统构建话音模板的方法和装置)”的美国专利申请第09/615572号。按照要求或需要，可以在以后进行附加的训练(没有示出)。

在实施了一些训练602后，把非训练输入语音信号201输入到谱特征提取器202(步骤604)。这个信号201就是要求话音识别的信号。也是在步骤604，提取器202对输入语音信号201进行谱变换，从输入语音信号201中提取谱特征，并且把所提取的谱特征作为输出202a。一个示例性的谱特征提取技术包括线性预测编码(LPC)，LPC在标题为“可变速率编码器”的美国专利第5414796号中有论述，整体引用在此做为参考；LPC在上面引用的Rabiner等人的《语音信号数字处理》参考材料中也有论述。

在步骤606中，次级变换模块204对谱输出202a应用次级变换。在示例性例子中，模块204对谱输出202a应用倒谱变换。可选择的是，步骤606也可以和图示变换204并行地执行一个或多个附加的次级变换(倒谱或其他类型)。如上所述，所有次级变换都和步骤604的谱变换在统计上有关，意味着在输出202a和204b中带有一些共同的信息。

在步骤608，模块206把谱输出202a和模块204及任何其他的次级变换模块(如果实现的话)的次级输出204a进行联合。为了论述方便，当前例子仅限于使用单次次级变换的情况。如上所述，步骤608的联合可以以不同方式进行。例如，模块206可以用串联、LDA、PCT或其他函数把信号202a和204a进行联合。在一个不同的实施例中，处理子元件206a和206b首先分开修改一个或多个信号202a和204a，然后模块206把修改后的信号进行联合。每个子元件206a和206b可以执行这样的函数：例如用固定或可变的系数对输入信号进行缩放(即，相乘)，改变输入信号的指数，对输入信号乘上自身一次或多次(自乘)，或其他一个或多个线性或非线性处理。在本实施例中，被206a和206b修改后的信号用上述技术之一，即串联、LDA、PCT等等，进行联合。

在步骤610，统计建模引擎208产生识别答案，表示输入语音信号201的估计内容。通过对来自模块206的信号和在步骤602中准备的一组预先确定的话音识别模板进行模式匹配，从而执行步骤610。

其他实施例

前面的描述给出了本发明的许多示例性实施例，同时，对本领域的熟练技术人员来说，很明显，在不脱离所附权利要求书中定义的本发明范围内可以进行不同的变化和修改。还有，虽然本发明的元件可能以单数形式描述或申明，但除非特别表明限于单数，否则都构想包括复数形式。另外，本领域的普通技术人员会认识到所述操作顺序为了解释或申明的目的必须以某种特定次序提出，但本发明构想这种特定次序之外的各种变化。

Claims

1.对语音信号进行处理的一种方法，所述方法包括以下操作：

对数字输入语音信号应用初级变换，从中提取初级特征；

对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个，以得到和所述初级特征统计上相关的次级特征；

至少应用一个预先确定的函数以形成一个联合信号，包括所述初级特征和所述次级特征的联合；

通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。

2.如权利要求1所述的方法，其特征在于，所述初级变换是谱变换。

3.如权利要求1所述的方法，其特征在于，所述初级变换是输入语音信号的时频表征的产物。

4.如权利要求1所述的方法，其特征在于，所述初级变换是谱变换，而所述次级变换是倒谱变换。

5.如权利要求1所述的方法，其特征在于，所述预先确定的函数包括：

至少使用下面方法中的一种对所述初级特征和所述次级特征进行联合：线性判别式分析，主分量变换，串联。

6.如权利要求1所述的方法，其特征在于，所述预先确定的函数包括：

分别修改一个或多个如下特征：初级特征，次级特征；

至少应用一个预先确定的函数以形成一个联合信号，所述联合信号是包括任何修改的所述初级特征和包括任何修改的所述次级特征的联合。

7.如权利要求6所述的方法，其特征在于，所述分别修改操作的每一个至少包括下面方法中的一种：

缩放，改变功率，自乘，求幂。

8.如权利要求1所述的方法，其特征在于，还包括：

通过对预先确定的训练信号执行每一个所述应用和产生操作而形成话音识别模板。

9.一种确实实施机器可读的指令程序的承载信号的媒介，所述指令可以由数字处理装置执行以执行处理语音信号的操作，所述操作包括：

对数字输入语音信号应用初级变换，从中提取初级特征；

至少应用一个预先确定的函数以形成一个联合信号，所述联合信号包括所述初级特征和所述次级特征的联合；

10.如权利要求9所述的媒介，其特征在于，所述初级变换是谱变换。

11.如权利要求9所述的媒介，其特征在于，所述初级变换是输入语音信号的时频表征的产物。

12.如权利要求9所述的媒介，其特征在于，所述初级变换是谱变换，而所述次级变换是倒谱变换。

13.如权利要求9所述的媒介，其特征在于，所述预先确定的函数是：

至少使用下面方法中的一种对所述初级特征和所述次级特征进行联合：线性判别式分析，主成份转移，串联。

14.如权利要求9所述的媒介，其特征在于，所述预先确定的函数包括：

分别修改一个或多个如下特征：初级特征，次级特征；

15.如权利要求14所述的媒介，其特征在于，所述分别修改操作的每一个至少包括下面方法中的一种：

缩放，改变功率，自乘，求幂。

16.如权利要求9所述的媒介，其特征在于，还包括：

通过对预先确定的训练信号执行所述应用和产生操作的每一个而形成话音识别模板。

17.配制成执行处理数字信号的操作的多个互连的电导元件的电路，所述操作包括：

对数字输入语音信号应用初级变换，从中提取初级特征；

对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个，得到和所述初级特征统计上相关的次级特征；

18.如权利要求17所述的电路，其特征在于，所述初级变换是谱变换。

19.如权利要求17所述的电路，其特征在于，所述初级变换是输入语音信号的时频表征的产物。

20.如权利要求17所述的电路，其特征在于，所述初级变换是谱变换，而所述次级变换是倒谱变换。

21.如权利要求17所述的电路，其特征在于，所述预先确定的函数是：

22.如权利要求17所述的电路，其特征在于，所述预先确定的函数包括：

分别修改一个或多个如下特征：初级特征，次级特征；

23.如权利要求22所述的电路，其特征在于，所述分别修改操作的每一个至少包括下面方法中的一种：

缩放，改变功率，自乘，求幂。

24.如权利要求17所述的电路，其特征在于，还包括：

25.一种话音识别系统，包括：

初级特征提取器，应用初级函数从数字输入语音信号中提取初级特征；

至少一个次级变换模块，每个都对所述输入语音信号和所述初级特征之一组成的输入应用次级函数，以产生和所述初级特征统计上相关的次级特征；

耦合到所述初级特征提取器和所述次级变换模块的每一个的特征联合模块，应用一个或多个预先确定的函数对所述初级特征和所述次级特征进行联合以形成一个联合信号；

统计建模引擎，耦合到所述特征联合模块，通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。

26.一种话音识别系统，包括：

初级特征提取器装置，应用初级函数从数字输入语音信号中提取初级特征；

次级变换装置，对所述输入语音信号和所述初级特征之一组成的输入应用至少一个次级函数，以产生和所述初级特征统计上相关的次级特征；

特征联合装置，应用一个或多个预先确定的函数对所述初级特征和所述次级特征进行联合以形成一个联合信号；

统计建模装置，通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。

27.一种无线通信设备，包括：

耦合到天线的收发器；

扬声器；

麦克风；

用户接口；

耦合到包括收发器、扬声器、麦克风和用户接口在内元件的用来管理所述元件的操作的管理器，所述管理器包括配置成执行以下操作的话音识别系统：

对数字输入语音信号应用初级变换，从中提取初级特征；

至少应用一个预先确定的函数以形成一个联合信号，所述联合信号是所述初级特征和所述次级特征的联合；

28.一种无线通信设备，包括：

耦合到天线的收发器；

扬声器；

麦克风；

用户接口；

用于管理收发器、扬声器、麦克风和用户接口的装置：

所述用于管理的装置还包括执行话音识别的装置，通过：

对数字输入语音信号应用初级变换，从中提取初级特征；