CN101887728A

CN101887728A - 多传感语音增强方法和装置

Info

Publication number: CN101887728A
Application number: CN2010101674319A
Authority: CN
Inventors: A·阿塞罗; J·G·德罗普; 邓立; M·J·辛克莱尔; 黄学东; 郑砚丽; 张正友; 刘自成
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2003-11-26
Filing date: 2004-11-26
Publication date: 2010-11-17
Anticipated expiration: 2024-11-26
Also published as: JP2011203759A; KR20050050534A; EP1536414A2; EP1536414A3; CA2485800C; JP4986393B2; AU2004229048A1; KR101099339B1; BRPI0404602A; JP5147974B2; US7447630B2; CA2485800A1; RU2373584C2; US20050114124A1; CN101887728B; CN1622200A; RU2004131115A; CN1622200B; JP5247855B2; CA2786803C

Abstract

一种方法和系统使用从一不同于气导麦克风的传感器接收的备选传感器信号来估算干净语音值。所述估算或者单独，或者结合气导麦克风信号来使用备选传感器信号。在不使用根据从气导麦克风收集的含噪声的训练数据训练的模型的情况下估算干净语音值。在一个实施例中，向从备选传感器信号形成的矢量添加纠正矢量以形成应用到气导麦克风信号的滤波器，以生成干净语音估算。在其它实施例中，根据备选传感器信号确定语音信号的音调，并将其用于分解气导麦克风信号。分解的信号然后用于确定干净信号估算。

Description

多传感语音增强方法和装置

本申请是提交于2004年11月26日的200410095649.2号专利申请的分案申请。

技术领域

本发明涉及降噪，尤其涉及从语音信号中移除噪声。

背景技术

语音识别和语音传输的一个常见问题是附加噪声对语音信号的破坏。具体地，由于另一说话者的语音的破坏已被证明是难以检测和/或纠正的。

移除噪声的一种技术试图使用在各种条件下收集的一组含噪声的训练信号以对噪声模型化。这些训练信号在要解码或传输的测试信号之前接收，并仅用于训练目的。尽管这些系统试图构建考虑噪声的模型，然而它们仅当训练信号的噪声条件与测试信号的噪声条件相匹配时有效。由于大量可能的噪声与噪声似乎无穷的组合，很难从训练信号构建处理每一测试条件的噪声模型。

移除噪声的另一技术是估算测试信号中的噪声，然后从含噪声的语音信号中减去该噪声。通常，这些系统从测试信号的前几帧估算噪声。由此，如果噪声随时间变化，则对当前帧的噪声估算是不准确的。

现有技术中用于估算语音信号中的噪声的一种系统使用人类语音的谐波。人类语音的谐波在频谱中产生峰值。通过标识这些峰值之间的空值，这些系统标识噪声的频谱。然后从含噪声的语音信号的频谱中减去该噪声频谱，以提供干净的语音信号。

语音的谐波也在语音编码中使用，以减少当对语音进行编码用于在数字通信路径上传输时必须发送的数据量。这些系统试图将语音信号分离成谐波分量和随机分量。然后对每一分量单独编码用于传输。一个特定的系统使用谐波+噪声模型，其中，正弦和模型适合语音信号以执行分解。

在语音编码中，进行分解以找出准确表示输入的含噪声的语音信号的语音信号的参数化。分解没有降噪能力。

近来，开发了一种系统，该系统试图通过使用备选传感器，如骨导(boneconduction)麦克风和气导(air conduction)麦克风的组合来移除噪声。该系统使用三个训练信道来训练：含噪声的备选传感器训练信号、含噪声的气导麦克风训练信号以及干净气导麦克风训练信号。每一信号都被变换到特征域。含噪声的备选传感器信号和含噪声的气导麦克风信号的特征被组合成表示含噪声的信号的单个矢量。干净气导麦克风信号的特征形成单个干净矢量。这些矢量然后用于训练含噪声的矢量和干净矢量之间的映射。一旦被训练，映射被应用到从含噪声的备选传感器测试信号和含噪声的气导麦克风测试信号的组合形成的含噪声的矢量。该映射产生一干净信号矢量。

当测试信号的噪声条件与训练信号的噪声条件不相匹配时，该系统并非最佳，因为映射被设计成用于训练信号的噪声条件。

发明内容

一种方法和系统使用从不同于气导麦克风的传感器接收的备选传感器信号，以估算干净语音值。干净语音值在不使用根据从气导麦克风收集的含噪声的训练数据训练的模型的情况下来估算。在一个实施例中，向从备选传感器信号形成的矢量添加纠正矢量，以形成应用到气导麦克风信号以产生干净语音估算的滤波器。在其它实施例中，语音信号的音调根据备选传感器信号来确定，并用于分解气导麦克风信号。分解的信号然后用于标识干净信号估算。

附图说明

图1是可在其中实践本发明的一个计算环境的框图。

图2是可在其中实践本发明的替换计算环境的框图。

图3是本发明的通用语音处理系统的框图。

图4是用于在本发明的一个实施例中训练降噪参数的系统的框图。

图5是在图4的系统中训练降噪参数的流程图。

图6是用于在本发明的一个实施例中从含噪声的测试语音信号标识干净语音信号的估算的系统的框图。

图7是使用图6的系统标识干净语音信号的估算的方法的流程图。

图8是用于标识干净语音信号的估算的替换系统的框图。

图9是用于标识干净语音信号的估算的第二替换系统的框图。

图10是使用图9的系统标识干净语音信号的估算的方法的流程图。

图11是骨导麦克风的框图。

具体实施方式

图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。

本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。本发明被设计成在分布式计算环境中实践，其中，任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储媒质中，包括存储器存储设备。

参考图1，用于实现本发明的示例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于，处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。

计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质可包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失，可移动和不可移动媒质。计算机存储媒质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接连线连接，以及无线媒质，如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM 131中。RAM 132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156，如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150连接到系统总线121。

图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

用户可以通过输入设备，如键盘162、麦克风163和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，通过输出外围接口195连接。

计算机110可以在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

当在LAN网络环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN 173，如因特网建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出了远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

图2是移动设备200的框图，它是一个示例性计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移动设备进行通信的通信接口208。在一个实施例中，上述组件被耦合在一起，用于通过合适的总线210彼此通信。

存储器204被实现为诸如具有电池后备模块(未示出)的随机存取存储器(RAM)的非易失电子存储器，使得当移动设备200的总电源被关闭时，储存在存储器204中的信息也不会丢失。存储器204的一部分较佳地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分较佳地用于存储，如模拟盘驱动器上的存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在操作过程中，操作系统212较佳地由处理器202从存储器204执行。在一个较佳的实施例中，操作系统212是可从微软公司购买的

CE品牌操作系统。操作系统212较佳地被设计成用于移动设备，并实现可由应用程序214通过一组展现的应用编程接口和方法使用的数据库特征。对象存储216中的对象至少部分地响应于对所展现的应用编程接口和方法的调用，由应用程序214和操作系统212来维护。

通信接口208表示允许移动设备200发送和接收信息的众多设备和技术。仅举几个例子，这类设备包括有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200也可直接连接到计算机以与其交换数据。在这一情况下，通信接口208可以是红外收发器或串行或并行通信连接，它们全都能够发送流信息。

输入/输出组件206包括各种输入设备，如触敏屏幕、按钮、滚轴和麦克风，以及各种输出设备，包括音频发生器、振荡装置和显示器。上文列出的设备作为示例，并不需要都在移动设备200上存在。另外，其它输入/输出设备也可附加到本发明的范围之内的移动设备200上或在其中找到。

图3提供了本发明的实施例的基本框图。在图3中，说话者300生成由气导麦克风304和备选传感器306检测的语音信号302。备选传感器的示例包括测量用户的喉部震动的喉式麦克风、位于或邻近用户的面部或颅骨(如上颚)上或在用户的耳内，并传感对应于由用户生成的语音的颅骨和上颚的震动的骨导传感器。气导麦克风304是常用于将音频空气波转换成电信号的麦克风类型。

气导麦克风304也接收由一个或多个噪声源310生成的噪声308。根据备选传感器的类型和噪声级别，噪声308也可由备选传感器306检测。然而，在本发明的实施例中，备选传感器306通常对环境噪声比气导麦克风304更不敏感。由此，由备选传感器306生成的备选传感器信号312一般比由气导麦克风304生成的气导麦克风信号314包括更少的噪声。

备选传感器信号312和气导麦克风信号314被提供到估算干净信号318的干净信号估算器316。干净信号估算318被提供到语音处理320。干净信号估算318可以是经滤波的时域信号或特征域矢量。如果干净信号估算318是时域信号，则语音处理320可采用听众、语音编码系统或语音识别系统的形式。如果干净信号估算318是特征域矢量，则语音处理320通常是语音识别系统。

本发明提供了使用气导麦克风信号314和备选传感器信号312来估算干净语音的若干方法和系统。一种系统使用立体声训练数据来训练用于备选传感器信号的纠正矢量。当这些纠正矢量稍后被添加到测试备选传感器矢量时，它们提供了干净信号矢量的估算。该系统的一个进一步外延是首先跟踪时变失真，然后将该信息结合到纠正矢量的计算和干净语音的估算中。

第二种系统提供了由纠正矢量生成的干净信号估算和通过从气导信号中减去气导测试信号中的当前噪声估算形成的估算之间的内插。第三种系统使用备选传感器信号来估算语音信号的音调，并然后使用估算的音调来标识对干净信号的估算。这些系统的每一个在后文单独讨论。

训练立体声纠正矢量

图4和5提供了用于对依赖于纠正矢量来生成干净语音的估算的本发明的两个实施例训练立体声纠正矢量的框图和流程图。

标识纠正矢量的方法在图5的步骤500开始，其中，将一“干净”气导麦克风信号转换成特征矢量序列。为完成这一转换，图4的说话者对气导麦克风说话，后者将音频波转换成电信号。然后由模-数转换器对电信号进行采样，以生成一列数字值，由帧构造器416将它们组合成值的帧。在一个实施例中，模-数转换器414以16kHz和每样值16比特对模拟信号进行采样，由此创建了每秒32千字节的语音数据，并且帧构造器416每隔10毫秒创建包括25毫秒数据值的新帧。

帧构造器416提供的每一数据帧由特征提取器418转换成特征矢量。在一个实施例中，特征提取器418形成倒谱特征。这类特征的示例包括LPC导出的倒谱和梅尔频率倒谱系数。可用于本发明的其它可能的特征提取模块的示例包括用于执行线性预测编码(LPC)、透视线性预测(PLP)以及听觉模型特征提取的模块。注意，本发明不限于这些特征提取模块，可在本发明的环境中使用其它模块。

在图5的步骤502，将备选传感器信号转换成特征矢量。示出尽管步骤502的转换出现在步骤500的转换之后，然而在本发明中，在步骤500之前、期间或之后，可执行转换的任一部分。步骤502的转换通过类似于上文对步骤500所描述的过程来执行。

在图4的实施例中，当备选传感器402检测到与由说话者400的语音生成相关联的物理事件，如骨震动或面部运动，则过程开始。如图11所示，在骨导传感器1100的一个实施例中，软弹性体桥1102粘附到普通气导麦克风1106的隔膜1104上。该软性桥1102将震动从用户的皮肤接触部1108直接传导到麦克风1106的隔膜1104。隔膜1104的运动由麦克风1106中的转换器1110转换成电信号。备选传感器402将这一物理事件转换成由模-数转换器404采样的模拟电信号。A/D转换器404的采样特征与上述A/D转换器414的特征相同。A/D转换器404提供的样值由帧构造器406集合成帧，后者以类似于帧构造器416的方式起作用。这些样值帧然后由使用与特征提取器418相同的特征提取方法的特征提取器408转换成特征矢量。

备选传感器信号和气导信号的特征矢量被提供到图4的降噪训练器420。在图5的步骤504，降噪训练器420将备选传感器信号的特征矢量组合成混合分量。这一组合可通过使用最大似然性训练技术将类似的特征矢量组合在一起，或通过将表示语音信号的时间片段的特征矢量组合在一起来完成。本领域的技术人员将认识到，可以使用组合特征矢量的其它技术，并且上文列出的两种技术仅作为示例提供。

在图5的步骤508，降噪训练器420然后对每一混合分量s确定一纠正矢量r_s。在一个实施例中，每一混合分量的纠正矢量使用最大似然性准则来确定。在这一技术中，纠正矢量计算如下：

r_{s} = \frac{Σ_{t} p (s | b_{t}) (x_{t} - b_{t})}{Σ_{t} p (s | b_{t})}

公式1

其中，x_t是帧t的气导传感矢量的值，b_t是帧t的备选传感器矢量的值。在公式1中：

p (s | b_{t}) = \frac{p (b_{t} | s) p (s)}{Σ_{s} p (b_{t} | s) p (s)}

公式2

其中，p(s)仅是众多混合分量的其中之一，p(b_t|s)被模型化为高斯分布：

p(b_t|s)＝N(b_t，μ_b，Γ_b) 公式3

它具有使用期望值最大化(EM)算法来训练的平均值μ_b和方差Γ_b，其中，每一迭代包括以下步骤：

γ_s(t)＝p(s|b_t) 公式4

μ_{s} = \frac{Σ_{t} γ_{s} (t) b_{t}}{Σ_{t} γ_{s} (t)}

公式5

Γ_{s} = \frac{Σ_{t} γ_{s} (t) (b_{t} - μ_{s}) {(b_{t} - μ_{s})}^{T}}{Σ_{t} γ_{s} (t)}

公式6

公式4是EM算法中的E步骤，它使用先前所估算的参数。公式5和公式6是M步骤，它们使用E步骤的结果更新参数。

算法的E步骤和M步骤迭代，直到确定模型参数的稳定值。这些参数然后用于评估公式1以形成纠正矢量。纠正矢量和模型参数然后储存在降噪参数存储422中。

在步骤508对每一混合分量确定了纠正矢量之后，训练本发明的降噪系统的过程完成。一旦对每一混合分量确定了纠正矢量，则该矢量可在本发明的降噪技术中使用。下文讨论使用纠正矢量的两个单独的降噪技术。

使用纠正矢量和噪声估算的降噪

图6框图和图7的流程图分别示出了基于纠正矢量和噪声估算在含噪声的语音信号中降噪的系统和方法。

在步骤700，由气导麦克风604检测的音频测试信号被转换成特征矢量。由麦克风接收的音频测试信号包括来自说话者600的语音和来自一个或多个噪声源602的附加噪声。由麦克风604检测的音频测试信号被转换成提供给模-数转换器606的电信号。

模-数转换器606将来自麦克风604的模拟信号转换成一系列数字值。在若干实施例中，模-数转换器606以16kHz和每样值和6比特对模拟信号进行采样，由此创建了每秒32千字节的语音数据。这些数字值提供给帧构造器607，在一个实施例中，帧构造器607将这些值组合成每隔10毫秒开始的25毫秒帧。

由帧构造器607创建的数据帧被提供给特征提取器610，它从每一帧提取特征。在一个实施例中，该特征提取器不同于用于训练纠正矢量的特征提取器408和418。具体地，在本实施例中，特征提取器610生成功率谱值而非倒谱值。提取的特征被提供到干净信号估算器622、语音检测单元626和噪声模型训练器624。

在步骤702，与由说话者600的语音产生相关联的物理事件，如骨震动或面部运动，被转换成特征矢量。尽管在图7中被示出为单独的步骤，然而本领域的技术人员将认识到，该步骤的部分可在与步骤700相同的时刻完成。在步骤702，物理事件由备选传感器614检测。备选传感器614基于物理事件生成模拟电信号。该模拟电信号由模-数转换器616转换成数字信号，并且由帧构造器617将所得的数字样值组合成帧。在一个实施例中，模-数转换器616和帧构造器617以类似于模-数转换器606和帧构造器607的方式操作。

数字值的帧被提供给特征提取器620，它使用用于训练纠正矢量的同一特征提取技术。如上所述，这一特征提取模块的示例包括用于执行线性预测编码(LPC)、LPC导出倒谱、透视线性预测(PLP)、听觉模型特征提取和梅尔频率倒谱系数(MFCC)特征提取的模块。然而，在许多实施例中，可使用产生倒谱特征的特征提取技术。

特征提取模块产生特征矢量流，它们的每一个都与语音信号的单独一帧相关联。该特征矢量流被提供给干净信号估算器622。

来自帧构造器617的值的帧也被提供给特征提取器621，在一个实施例中，特征提取器621提取每一帧的能量。每一帧的能量值被提供给语音检测单元626。

在步骤704，语音检测单元626使用备选传感器信号的能量特征来确定何时可能存在语音。该信息被传递到噪声模型训练器624，它试图在步骤706在没有语音的周期内模型化噪声。

在一个实施例中，语音检测单元626首先搜索帧能量值的序列以找出能量中的峰值。它然后搜索峰值后的谷值。谷值能量被称为能量分隔符d。为确定帧是否包含语音，就确定帧能量e与能量分隔符d之比k∶k＝e/d。然后确定帧的语音置信度q如下：

q = \{\begin{matrix} 0 & : & k < 1 \\ \frac{k - 1}{α - 1} & : & 1 \leq k \leq α \\ 1 & : & k > α \end{matrix}

公式7

其中，α定义了两种状态之间的转换，在一个实现中被设为2。最后，使用该帧的相邻5帧(包括该帧本身)的平均置信度值作为该帧的最终置信度。

在一个实施例中，使用一固定阈值来确定是否存在语音，使得如果置信度超出阈值，该帧被认为是包含了语音，并且如果置信度值未超出阈值，则该帧被认为是包含非语音。在一个实施例中，使用0.1的阈值。

对于由语音检测单元626检测的每一非语音帧，噪声模型训练器624在步骤706更新噪声模型625。在一个实施例中，噪声模型625是具有平均值μ_n和方差∑_n的高斯模型。该模型基于最近几个非语音帧的移动窗口。从该窗口中的诸非语音帧确定平均值和方差的技术在本领域中是众所周知的。

参数存储422中的纠正矢量和模型参数和噪声模型625然后与备选传感器的特征矢量b以及含噪声的气导麦克风信号的特征矢量S_y一起提供给干净信号估算器622。在步骤708，干净信号估算器622基于备选传感器特征矢量、纠正矢量和备选传感器的模型参数估算干净语音信号的初始值。具体地，干净信号的备选传感器估算计算如下：

\hat{x} = b + \underset{s}{Σ} p (s | b) r_{s}

公式8

其中，是倒谱域中的干净信号估算，b是备选传感器特征矢量，p(s|b)使用上文的公式2来确定，r_s是混合分量s的纠正矢量。由此，公式8中干净信号的估算通过向纠正矢量的加权和添加备选传感器特征矢量来形成，其中，该加权基于给定备选传感器特征矢量时混合分量的概率。

在步骤710，通过将备选传感器干净语音估算与从含噪声的气导麦克风矢量及噪声模型形成的干净语音估算相组合，对初始备选传感器干净语音估算进行净化。这可获得经净化的干净语音估算628。为将初始干净信号估算的倒谱值与含噪声的气导麦克风的功率谱特征矢量相组合，使用以下公式将该倒谱值变换到功率谱域：

{\hat{S}}_{x | b} = e^{C^{- 1} \hat{x}}

公式9

其中，C^-1是离散余弦反变换，

是基于备选传感器的干净信号的功率谱估算。

一旦将来自备选传感器的干净信号初始估算置于功率谱域中，可将其与含噪声的气导麦克风矢量及噪声模型相组合，如下：

{\hat{S}}_{x} = {(Σ_{n}^{- 1} + Σ_{x | b}^{- 1})}^{- 1} [Σ_{n}^{- 1} (S_{y} - μ_{n}) + Σ_{x | b}^{- 1} {\hat{S}}_{x | b}]

公式10

其中，

是功率谱域中经净化的干净信号估算，S_y是含噪声的气导麦克风特征矢量，(μ_n，∑_n)是先前的噪声模型的平均值和协方差(见624)，是基于备选传感器的初始干净信号估算，∑_x|b是给定备选传感器的测量时对干净语音的条件概率分布的协方差矩阵。∑_x|b可计算如下。设J表示公式9的右侧的函数的雅可比行列式(Jacobian)。设∑为

的协方差矩阵。则

的协方差为

Σ_{x | b} = JΣ J^{T}

公式11

在一个简化的实施例中，将公式10重写成以下公式：

{\hat{S}}_{x} = α (f) (S_{y} - μ_{n}) + (1 - α (f)) {\hat{S}}_{x | b}

公式12

其中，α(f)是时间和频带的函数。由于当前使用的备选传感器具有高达3KHz的带宽，因此对低于3KHz的频带选择α(f)为0。基本上，信任来自低频带的备选传感器的初始干净信号估算。对于高频带，来自备选传感器的初始干净信号估算不够可靠。直观上，当对于当前帧的频带的噪声较小时，备选择较大的α(f)，使得可以对该频带使用更多来自气导麦克风的信息。否则，将通过选择较小的α(f)使用更多来自备选传感器的信息。在一个实施例中，使用来自备选传感器的初始干净信号估算以对每一频带确定噪声级别。设E(f)表示频带f的能量。设M＝Max_fE(f)。作为f的函数，α(f)定义如下：

α (f) = \{\begin{matrix} \frac{E (f)}{M} & : & f &GreaterEqual; 4 K \\ \frac{f - 3 K}{1 K} α (4 K) & : & 3 K < f < 4 K \\ 0 & : & f \leq 3 K \end{matrix}

公式13

其中，使用线性内插从3K过渡到4K以确保α(f)的平滑性。

功率谱域中经净化的干净信号估算可用于构造维纳(Weiner)滤波器，以对含噪声的气导麦克风信号进行滤波。具体地，设置维纳滤波器H，使得：

H = \frac{{\hat{S}}_{x}}{S_{y}}

公式14

然后可将该滤波器应用到时域含噪声的气导麦克风信号以产生经降噪的或干净时域信号。经降噪的信号可被提供给听众或应用到语音识别器。

注意，公式12提供了经净化的干净信号估算，它是两个因子的加权和，其中一个因子是来自备选传感器的干净信号估算。可扩展该加权和以包括额外的备选传感器的额外因子。由此，可使用一个以上备选传感器来生成干净信号的独立估算。然后可使用公式12来组合这些多个估算。

使用纠正矢量而不使用噪声估算来降噪

图8提供了在本发明中估算干净语音值的替换系统的框图。图8的系统类似于图6的系统，除在不需要气导麦克风或噪声模型的情况下形成干净语音值的估算之外。

在图8中，与产生语音的说话者800相关联的物理事件由备选传感器802、模-数转换器804、帧构造器806和特征提取器808以类似于上文对图6的备选传感器614、模-数转换器616、帧构造器617和特征提取器618所讨论的类似方式转换成特征矢量。来自特征提取器808的特征矢量和降噪参数422被提供给干净信号估算器810，它使用上文的公式8和9确定干净信号值812的估算

功率谱域中的干净信号估算

可用于构造维纳滤波器以对含噪声的气导麦克风信号进行滤波。具体地，设置维纳滤波器H，使得：

H = \frac{{\hat{S}}_{x | b}}{S_{y}}

公式15

该滤波器然后可应用到时域的含噪声的气导麦克风信号以产生经降噪的或干净的信号。经降噪的信号可被提供给听众或应用到语音识别器。

可选地，公式8中计算的倒谱域中的干净信号估算

可直接应用到语音识别系统。

使用音调跟踪的降噪

图9的框图和图10的流程图示出了生成干净语音信号的估算的替换技术。具体地，图9和10的实施例通过使用备选传感器，然后使用音调将含噪声的气导麦克风信号分解成谐波分量和随机分量来标识语音信号的音调，以确定干净语音估算。由此，含噪声的信号被表示为：

y＝y_h+y_r 公式16

其中，y是含噪声的信号，y_h是谐波分量，y_r是随机分量。使用谐波分量和随机分量的加权和来形成表示经降噪的语音信号的经降噪的特征矢量。

在一个实施例中，谐波分量被模型化为谐波上相关的正弦和，使得：

y_{h} = Σ_{k = 1}^{K} a_{k} \cos (k ω_{0} t) + b_{k} \sin (k ω_{0} t)

公式17

其中，ω₀是基频或音调频率，K是信号中的谐波总数。

由此，为标识谐波分量，必须确定音调频率和振幅参数{a₁a₂…a_kb₁b₂…b_k}的估算。

在步骤1000，收集含噪声的语音信号，并将其转换成数字样值。为完成这一转换，气导麦克风904将来自说话者900和一个或多个附加噪声源902的音频波转换成电信号。然后由模-数转换器906对该电信号进行采样，以生成一列数字值。在一个实施例中，模-数转换器906以16kHz和每样值16比特对模拟信号进行采样，由此创建每秒32千字节的语音数据。在步骤1002，数字样值由帧构造器908组合成帧。在一个实施例中，帧构造器908每隔10毫秒创建包含25毫秒数据值的新帧。

在步骤1004，与语音产生相关联的物理事件由备选传感器944检测。在本实施例中，能够检测谐波分量的备选传感器，如骨导传感器最适合用作备选传感器944。注意，尽管示出步骤1004从步骤1000分离，然而本领域的技术人员将认识到，这些步骤可在同一时刻执行。由备选传感器944生成的模拟信号由模-数传感器946转换成数字样值。数字样值然后由帧构造器948在步骤1006组合成帧。

在步骤1008，备选传感器信号的帧由音调跟踪器950用于标识语音的音调频率或基频。

可使用任意数量的可用音调跟踪系统来确定音调频率的估算。在许多这样的系统中，候选音调用于标识备选传感器信号的各片段中心之间的可能间距。对于每一候选音调，在语音的两连续片段之间确定相关。一般而言，提供最佳相关的候选音调是该帧的音调频率。在某些系统中，使用额外的信息来净化音调选择，如信号能量和/或期望的音调跟踪。

给定来自音调跟踪器950的音调估算，可在步骤1010将气导信号矢量分解成谐波分量和随机分量。为完成这一过程，将公式17重写为：

y＝Ab 公式18

其中，y是含噪声的语音信号的N样值的矢量，A是N×2K的矩阵，由以下公式给出：

A＝[A_cosA_sin] 公式19

其元素为

A_cos(k，t)＝cos(kω₀t) A_sin(k，t)＝sin(kω₀t) 公式20

且b是2K×1的矢量，由以下公式给出：

b^T＝[a₁a₂…a_kb₁b₂…b_k] 公式21

然后，振幅系数的最小二乘解为：

\hat{b} = {(A^{T} A)}^{- 1} A^{T} y

公式22

使用

可确定含噪声的语音信号的谐波分量的估计，为：

y_{h} = A \hat{b}

公式23

然后计算随机分量的估算，为：

y_r＝y-y_h 公式24

由此，使用上述公式18-24，谐波分解单元910能够生成谐波分量样值矢量912，y_h，以及随机分量样值矢量914，y_r。

在将帧的样值分解成谐波和随机样值之后，在步骤1012对谐波分量确定比例参数或权值。该比例参数用作后文进一步讨论的经降噪的语音信号的计算的一部分。在一个实施例中，比例参数计算如下：

α_{h} = \frac{Σ_{i} y_{h} {(i)}^{2}}{Σ_{i} y {(i)}^{2}}

公式25

其中，α_h是比例参数，y_h(i)是谐波分量样值y_h的矢量中的第i个样值，y(i)是该帧含噪声的语音信号的第i个样值。在公式25中，分子是谐波分量的每一样值的能量的总和，分母是含噪声信号的每一样值的能量的总和。由此，比例参数是该帧的谐波能量与该帧的总能量之比。

在替换的实施例中，使用概率性的有声-无声检测单元来设置比例参数。这些单元提供了语音的特定帧为有声而非无声的概率，有声意味着声带在帧期间共振。该帧是来自语音的有声区域的概率可直接用作比例参数。

在确定了比例参数之后，或正在确定时，在步骤1014确定谐波分量样值矢量和随机分量样值矢量的梅尔频谱。这涉及将每一样值矢量通过离散傅立叶变换(DFT)918以产生谐波分量频率值矢量922和随机分量频率值矢量920。然后由梅尔加权单元924使用沿梅尔比例应用的一系列三角加权函数来平滑由频率值矢量表示的功率谱。这可获得谐波分量梅尔谱矢量928，Y_h和随机分量梅尔谱矢量926，Y_r。

在步骤1016，将谐波分量和随机分量的梅尔谱组合成一加权和来形成经降噪的梅尔谱估算。该步骤由加权和计算器930使用上文所确定的比例因子在以下公式中执行：

\hat{X} (t) = α_{h} (t) Y_{h} (t) + α_{r} Y_{r} (t)

公式26

其中，

是经降噪的梅尔谱估算，Y_h(t)是谐波分量梅尔谱，Y_r(t)是随机分量梅尔谱，α_h(t)是上文确定的比例因子，α_r是随机分量的固定比例因子，在一个实施例中，它被设为1，时间下标t用于强调谐波分量的比例因子是对每一帧确定的，而随机分量的比例因子保持固定。注意，在其它实施例中，随机分量的比例因子可对每一帧确定。

在步骤1016计算了经降噪的梅尔谱之后，在步骤1018，确定梅尔谱的对数932，并将其应用到离散余弦变换934。这产生表示经降噪的语音信号的梅尔频率倒谱系数(MFCC)特征矢量936。

对含噪声的信号的每一帧生成单独的经降噪的MFCC特征矢量。这些特征矢量可用于任一期望的目的，包括语音增强和语音识别。对于语音增强，MFCC特征矢量可被变换到功率谱域，并可与含噪声的气导信号一起使用来形成维纳滤波器。

尽管参考具体的实施例描述了本发明，本领域的技术人员将认识到，可在不脱离本发明的精神和范围的情况下在形式和细节上作出修改。

Claims

1.一种确定干净语音值的估算的方法，其特征在于，所述方法包括：

从一不同于气导麦克风的备选传感器接收一备选传感器信号；

从一气导麦克风接收一气导麦克风信号；

基于所述备选传感器信号标识一语音信号的音调；

使用所述音调将所述气导麦克风信号分解成一谐波分量和一随机分量；

为所述谐波分量确定一比例参数，所述比例参数是所述气导麦克风信号的谐波能量与总能量之比；以及

使用所述谐波分量、所述随机分量和所述比例参数来估算所述干净语音值。

2.如权利要求1所述的方法，其特征在于，接收备选传感器信号包括从一骨导麦克风接收一备选传感器信号。