CN1591574B

CN1591574B - 用于减少在语音信号中的噪音的方法和系统

Info

Publication number: CN1591574B
Application number: CN200410068536.3A
Authority: CN
Inventors: M·塞尔泽; J·德罗普; A·阿塞罗
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-08-25
Filing date: 2004-08-25
Publication date: 2010-06-23
Anticipated expiration: 2024-08-25
Also published as: DE602004003439D1; KR101087319B1; US7516067B2; KR20050022371A; JP2005070779A; JP4731855B2; ATE347162T1; EP1511011B1; DE602004003439T2; US20050049857A1; EP1511011A2; CN1591574A; EP1511011A3

Abstract

提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成一谐波分量和一剩余分量。然后将谐波分量和剩余分量组合成总和来形成一经降噪的值。在一些实施例中，该总和是加权总和，其中将谐波分量乘以一比例缩放因子。在一些实施例中，在语音识别中使用经降噪的值。

Description

用于减少在语音信号中的噪音的方法和系统

技术领域

本发明涉及降噪，尤其涉及从语音识别中使用的信号中移除噪声。

背景技术

模式识别系统，如语音识别系统，采用输入信号并试图对该信号进行解码来找出由该信号表示的模式。例如，在语音识别系统中，语音信号(通常称为测试信号)由识别系统接收并解码来标识由该语音信号表示的一串单词。

为对输入测试信号进行解码，大多数识别系统使用描述该测试信号的一部分表示特定模式的似然性的一个或多个模型。这类模型的示例包括神经网络、动态时间规整(Dynamic Time Warping)、分段模型和隐马尔可夫模型(Hidden MarkovModel)。

在一个模型可以被用来对输入信号进行解码之前，必须对它进行训练。这通常通过测量来自已知的训练模式的输入训练信号来完成。例如，在语音识别中，一组语音信号由说话者读已知的文本来生成。然后使用这些语音信号来训练模型。

为使模型能最优地工作，用于训练模型的信号应当与被解码的最终测试信号类似。具体而言，训练信号应当与被解码的测试信号具有相同的噪声量和类型。

通常，在“干净”的条件之下收集训练信号，并且考虑训练信号为相对无噪声。为在测试信号中达到这一同样的低噪声水平，许多现有技术系统向测试数据应用噪声减少技术。

一种移除噪声的技术试图使用在各种含噪声的条件下收集的一组训练信号来将噪声模型化。然而，这类系统仅当训练信号的噪声条件匹配测试信号的噪声条件时才有效。由于大量可能的噪声和噪声的表面上的无穷组合，很难构建能处理每一测试条件的噪声模型。

用于移除噪声的另一技术是估计噪声然后将其从含噪声的语音信号中减去。通常，这类系统从输入信号的前一帧估计噪声。由此，如果噪声随时间变化，对当前帧的噪声估计将不准确。

用于估计语音信号中的噪声的现有技术的一种系统使用人类语音的谐波。人类语音的谐波在频谱中产生峰值。通过标识这些峰值之间的空值，这些系统标识噪声的频谱。然后从含噪声的语音信号的频谱中减去该频谱来提供干净的语音信号。

也在语音编码中使用语音的谐波来减少当对语音进行编码用于跨越数据通信路径的传输时必须发送的数据量。这类系统试图将语音信号分离成谐波分量和随机分量。然后单独地对每一分量进行编码用于传输。一个具体的系统使用正弦曲线总和模型符合语音信号的谐波+噪声模型来执行分解。

在语音编码中，完成分解来找出准确地表示输入的含噪声的语音信号的语音信号的参数表示。分解没有降噪能力，并因此在语音识别中并不有用。

发明内容

提供了一种减少语音信号中的噪声的系统和方法。该系统和方法将含噪声的语音信号分解成谐波分量和剩余分量。然后将谐波分量和剩余分量组合成一总和来形成一经降噪的值。在一些实施例中，该总和是一加权总和，其中，将谐波分量乘以一比例缩放因子。在一些实施例中，在语音识别中使用经降噪的值。

附图说明

图1是可以在其中实践本发明的一个计算环境的框图。

图2是可以在其中实践本发明的一个替换的计算环境的框图。

图3是使用本发明的一个实施例的噪声减少系统的方法的流程图。

图4是本发明的一个实施例的噪声减少系统的框图。

图5是可实践本发明的实施例的模式识别系统的框图。

具体实施方式

图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非建议对本发明的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。

本发明可在计算机可执行指令的一般上下文环境中描述，计算机可执行指令如程序模块，由计算机执行。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。设计本发明在分布式计算环境中实践，其中，任务由通过通信网络连接远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储媒质中，包括存储器存储设备。

参考图1，用于实现本发明的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于，处理单元120、系统存储器130以及将各类系统组件包括系统存储器耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限，这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)本地总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。

计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失，可移动和不可移动媒质，存储的信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接连线连接，以及无线媒质，如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156，如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150连接到系统总线121。

图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

用户可以通过输入设备，如键盘162、麦克风163和定点设备161，如鼠标、轨迹球或触摸板向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190连接至系统总线121。除监视器之外，计算机也包括其它外围输出设备，如扬声器197和打印机196，通过输出外围接口195连接。

计算机110在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机110相关的元件，图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)172，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN 173，如因特网建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出了远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信的其它装置。

图2是移动装置200的框图，它是一个示例性计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中，上述组件被耦合在一起用于通过合适的总线210彼此进行通信。

存储器204被实现为非易失电存储器，如具有电池后备模块(未示出)的随机存取存储器(RAM)，使当移动装置200的总电源被切断时信息仍储存在存储器204中不会丢失。存储器204的一部分被较佳地分配为用于程序执行的可寻址存储器，而存储器204的另一部分被较佳地用于存储，如模拟磁盘驱动器上的存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中，操作系统212较佳地由处理器202从存储器204中执行。在一个较佳实施例中，操作系统212是商标操作系统，从微软公司商业可用。操作系统212较佳地被设计成用于移动装置，并实现可由应用214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对展现的应用编程接口和方法的调用，由应用214和操作系统212维护。

通信接口208表示允许移动装置200发送和接收信息的众多装置和技术。仅举几个例子，该装置包括有线和无线调制解调器、卫星接收器和广播调谐器。移动装置200也可以直接连接到计算机来与其交换数据。在这一情况下，通信接口208可以是红外收发器或串行或并行通信连接，所有这些都能够发送流信息。

输入/输出组件206包括各种输入设备，如触摸屏、按钮、滚轮和麦克风，以及各种输出设备，包括音频发生器、振动装置和显示屏。以上列出的设备作为示例，不需要都在移动装置200上存在。另外，在本发明的范围内，其它输入/输出设备可以附加到移动装置200或在其上找到。

在本发明的一个方面，提供了一种系统和方法，它通过将语音信号分解成谐波分量和随机分量，然后采用谐波分量和随机分量的加权总和形成表示经降噪的语音信号的经降噪的特征矢量，来减少语音信号中的噪声。经降噪的特征矢量然后可以用作到语音解码器的输入。

图3的流程图和图4的框图分别示出了用于形成经降噪的特征矢量的方法和装置。

在步骤300，采集含噪声的语音信号并将其转化成数字样值。为完成这一过程，图4的麦克风将来自说话者400和一个或多个附加噪声源的音频波转化成电信号。然后由模-数转化器406对该电信号进行采样来生成一列数字值。在一个实施例中，A-D转化器以16kHz和每样值16比特对模拟信号进行采样，由此创建每秒32千字节的语音数据。在步骤302，由帧构造器408将数字样值组合成帧。在一个实施例中，帧构造器408每10毫秒创建包含相当于25毫秒的数据的新帧。

每一帧的样值被提供到谐波分解单元410，它在步骤304使用这些样值以将与该帧关联的信号分解成一谐波分量和一随机分量。由此，含噪声的信号被表示为：

y＝y_h+y_r 公式1

其中，y是含噪声的信号，y_h是谐波分量，y_r是随机分量。

在一个实施例中，谐波分量被模型化为谐波相关的正弦曲线的总和，使得：

y_{h} = Σ_{k = 1}^{K} a_{k} \cos (k ω_{0} t) + b_{k} \sin (k ω_{0} t)

公式2

其中，ω₀是基本或音调频率，K是信号中的谐波总数。

由此，为标识谐波分量，必须确定音调频率和振幅参数{a₁a₂...a_kb₁b₂b_k}的估计。

对音调频率的估计可使用任意数量的可用音调跟踪系统来确定。在许多这样的系统中，使用候选音调来标识语音的片段的中心之间的可能间距。对于每一候选音调，确定语音的连续片段之间的相关性。一般而言，提供最佳相关性的候选音调将是该帧的音调频率。在一些系统中，使用另外的信息来提纯音调选择，如信号的能量和/或期望音调轨迹。

给定音调的估计，可以确定振幅参数的最小二乘解。为完成这一过程，将公式2重写为：

y＝Ab 公式3

其中，y是含噪声的语音信号的N个样值的矢量，A是N×2K的矩阵，由以下公式给出：

A＝[A_cosA_sin] 公式4

其元素为

A_xos(k，t)＝cos(kω_ot) A_sin(k，t)＝sin(kω_ot) 公式5

并且b是2K×1的矢量，由以下公式给出：

b^T＝[a₁a₂...a_kb₁b₂...b_k] 公式6

然后，振幅系数的最小二乘解为：

\hat{b} = {(A^{T} A)}^{- 1} A^{T} y

公式7

使用含噪声的语音信号的谐波分量的估计可以被确定为：

y_{h} = A \hat{b}

公式8

然后，计算随机分量的估计为：

y_r＝y-y_h 公式9

由此，使用以上公式7-9，谐波分解单元410能够产生谐波分量样值的矢量412，y_h，以及随机分量样值的矢量414，y_r。

在将帧的样值分解成谐波和随机样值之后，在步骤306对谐波分量确定比例缩放参数或权值。这一比例缩放参数被用作经降噪的语音信号的计算的一部分，如后文进一步所讨论的。在一个实施例中，计算比例缩放参数为：

a_{h} = \frac{Σ_{i} y_{h} {(i)}^{2}}{Σ_{i} {y (i)}^{2}}

公式10

其中，a_h是比例缩放参数，y_h(i)是谐波分量样值矢量y_h中的第i个样值，y(i)是该帧的含噪声语音信号的第i个样值。在公式10中，分子是谐波分量的每一样值的能量的总和，分母是含噪声的语音信号的每一样值的能量的总和。由此，比例缩放参数是该帧的谐波能量与该帧的总能量之比。

在替换实施例中，使用概率性有声-无声检测单元来设置比例缩放参数。这一单元提供语音的特定的帧为有声的概率，指在该帧中声带的谐振，而非无声。该帧来自语音的有声范围的概率可以直接用作比例缩放参数。

在确定比例缩放参数之后或在确定之时，在步骤308，确定谐波分量样值矢量和随机分量样值矢量的梅尔谱(Mel spectra)。这涉及将每一样值矢量通过离散傅立叶变换(DFT)418来产生谐波分量频率值矢量422和随机分量频率值矢量420。然后由梅尔加权单元424使用一系列三角加权函数沿梅尔比例应用来平滑由频率值矢量表示的功率谱。这产生谐波分量梅尔谱矢量428，Y_h，和随机分量梅尔谱矢量426，Y_r。

在步骤310，将谐波分量和随机分量的梅尔谱组合为加权总和来形成经降噪的梅尔谱估计。这一步骤由加权总和计算器430使用以上确定的比例缩放因子在以下公式中执行：

\hat{X} (t) = α_{h} (t) Y_{h} (t) + α_{r} Y_{r} (t)

公式11

其中，

是经降噪的梅尔谱估计，Y_h(t)是谐波分量梅尔谱，Y_r(t)是随机分量梅尔谱，α_h(t)是以上确定的比例缩放因子，α_r是随机分量的固定比例缩放因子，在一个实施例中被设为等于1，时间索引t用于强调对每一帧确定谐波分量的比例缩放因子，而随机分量的比例缩放因子保持固定。注意，在其它实施例中，可对每一帧确定随机分量的比例缩放因子。

在步骤310计算了经降噪的梅尔谱之后，在步骤312，确定梅尔谱的对数432并将其应用到离散余弦变换434。这产生一梅尔频率对数谱系数(MFCC)特征矢量436，表示经降噪的语音信号。

对含噪声的信号的每一帧生成单独的经降噪的MFCC特征矢量。这些特征矢量可用于任何期望的目的，包括语音编码和语音识别。

在一个实施例中，在图5所示的语音识别系统中直接使用经降噪的语音的MFCC特征矢量。

如果输入信号是训练信号，则将经降噪的语音的一系列MFCC特征矢量436提供到训练器500，它使用MFCC特征矢量和训练文本502来训练声学模型504。训练这类模型的技术在本领域中是已知的，并且不需要详细描述它们来理解本发明。

如果输入信号是测试信号，则将MFCC语音特征矢量提供到解码器506，它基于特征矢量流、词典508、语言模型510和声学模型504标识最可能的单词序列。用于解码的具体方法对本发明不重要，可以使用用于解码的若干已知方法的任一种。

Claims

1.一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的方法，其特征在于，所述方法包括：

将含噪声的语音信号的一部分分解成一谐波分量和一随机分量；

至少对所述谐波分量确定一比例缩放参数；

将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量；

将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量；以及

将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值。

2.如权利要求1所述的方法，其特征在于，分解含噪声的语音信号的一部分还包括确定一最小二乘解来标识所述谐波分量。

3.如权利要求1所述的方法，其特征在于，确定所述谐波分量的比例缩放参数包括确定所述谐波分量的能量和所述含噪声的语音信号的能量之比。

4.如权利要求3所述的方法，其特征在于，确定能量之比包括：

将所述谐波分量的样值的能量相加；

将所述含噪声的语音信号的样值的能量相加；以及

将所述谐波分量的总和除以所述含噪声的语音信号的总和。

5.如权利要求1所述的方法，其特征在于，分解含噪声的语音信号的一部分包括将所述含噪声的语音信号的一帧的时间样值矢量分解成一时间样值的谐波分量矢量和一时间样值的随机分量矢量。

6.如权利要求5所述的方法，其特征在于，它还包括从所述时间样值的谐波分量矢量对所述谐波分量确定梅尔谱。

7.如权利要求1所述的方法，其特征在于，它还包括从所述经降噪的值形成一梅尔频率对数谱系数特征矢量。

8.如权利要求7所述的方法，其特征在于，它还包括使用所述梅尔频率对数谱系数特征矢量来执行语音识别。

9.如权利要求1所述的方法，其特征在于，所述谐波分量被模型化为谐波正正弦曲线的总和。

10.一种标识表示经降噪的语音信号的一部分的经降噪的值的估计的系统，其特征在于，所述系统包括：

用于将含噪声的语音信号的一部分分解成一谐波分量和一随机分量的装置；

用于至少对所述谐波分量确定一比例缩放参数的装置；

用于将所述谐波分量乘以所述谐波分量的比例缩放参数来形成一经比例缩放的谐波分量的装置；

用于将所述随机分量乘以所述随机分量的比例缩放参数来形成一经比例缩放的随机分量的装置；以及

用于将所述经比例缩放的谐波分量和所述经比例缩放的随机分量相加来形成所述经降噪的值的装置。

11.如权利要求10所述的系统，其特征在于，所述谐波分量被模型化为谐波正弦曲线的总和。