CN101199006B

CN101199006B - 使用先验无噪声语音的多传感语音增强方法和系统

Info

Publication number: CN101199006B
Application number: CN2006800195287A
Authority: CN
Inventors: 刘自成; A·艾斯洛; Z·张
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-06-20
Filing date: 2006-06-06
Publication date: 2011-08-24
Anticipated expiration: 2026-06-06
Also published as: WO2007001768A3; NO20075732L; NO339834B1; RU2007147463A; CA2607981A1; DE602006015954D1; EP1891627A4; EP1891627B1; AU2006262706B2; CN101199006A; KR20080018163A; CA2607981C; WO2007001768A2; EP1891627A2; MX2007014562A; KR101422844B1; AU2006262706A1; BRPI0611649A2; BRPI0611649B1; US7346504B2

Abstract

一种使用备选传感器信号、空气传导麦克风信号来确定备选传感器信道响应的方法和装置。然后，该信道响应和无噪声语音值的先验概率分布被用于估计无噪声语音值。

Description

使用先验无噪声语音的多传感语音增强方法和系统

发明背景

语音识别和语音传输的共同问题是语音信号受加性噪声的污染。特别是因其他说话者的语音所导致的污染已被证实是难以检测和/或校正的。

近来，已研发出一种系统，试图利用另一备选传感器(诸如骨传导麦克风)和一空气传导麦克风来移去噪声。该系统的训练使用三个训练信道：噪声备选传感器训练信号、噪声空气传导麦克风训练信号、和无噪声(clean)空气传导麦克风训练信号。这些信号的每一个都被转换成一个特征域。噪声备选传感器信号和噪声空气传导麦克风信号的特征被组合成表示噪声信号的单个向量。无噪声空气传导麦克风信号的特征形成单个无噪声向量。这些向量然后用于训练噪声向量和无噪声向量之间的映射。一当经训练，这些映射便用于由噪声备选传感器测试信号和噪声空气传导麦克风测试信号形成的噪声向量。这个映射生成一无噪声向量。

当测试信号的噪声条件与训练信号的噪声条件不匹配时这一系统是次最佳的，因为这些映射是针对训练信号的噪声条件设计的。

发明概述

一种方法和装置使用备选传感器信号和空气传导麦克风信号来确定备选传感器的信道响应。然后，该信道响应和无噪声语音值的先验慨率分布被用于估计无噪声语音值。

附图简述

图1是可实践本发明实施例的一个计算环境的框图。

图2是可实践本发明实施例的另一个可选的计算环境的框图。

图3是本发明的一个实施例的一般语音处理系统的框图。

图4是在本发明的一个实施例情况下的用于增强语音的系统的框图。

图5是在本发明的一个实施例情况下的用于增强语音的流程框图。

图6是在本发明的另一个实施例情况下的用于增强语音的流程框图。

发明实施例的详细说明

图1说明了可实现本发明实施例的一个适合的计算系统环境100的示例。计算系统环境100仅是适合的计算系统环境的一个示例而且并不旨在建议对本发明的使用或功能性的范围作任何限制。计算系统环境100也不应被解释为关于示例的操作环境100所说明的任何一个组件或其组合具有任何依赖性或要求。

本发明可与许多其它通用或专用计算系统环境或配置一起工作。适合于本发明使用的公知的计算系统、环境、和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费类电子产品、网络PC、微型计算机、大型计算机、电话系统、包括任何上述系统或装置的分布式计算环境，以及类似计算环境。

本发明可在计算机可执行指令，诸如由计算机执行的程序模块的一般环境下描述。通常，程序模块包括执例程、程序、对象、组件、数据结构等，它们执行特定的任务或实现特定的抽象数据类型。本发明设计为在分布式计算环境中实践，其中任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中程序模块可位于包括内存存储装置的本地和远程计算机存储器媒体中。

参考图1，用于实现本发明实施例的示例系统包括以计算机100形式的通用计算装置。计算机100的组件可包括，但不限于，处理单元120、系统存储器130、和将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是若干种总线结构的任何一种，包括存储器总线或存储器控制器、外设总线以及使用各种总线结构的任一种的局部总线。作为示例，但非限制，这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、视频电子协会(VESA)本地总线、以及外围组件互联(PCI)总线(也称之为Mezzanine总线)。

计算机100通常包括各种计算机可读媒体。计算机可读媒体可以是可由计算机100访问的任何可供使用的媒体并包括易失性和非易失性媒体，可移动和不可移动媒体。作为示例，但非限制，计算机可读媒体可以包括计算机存储媒体和通信媒体。计算机存储媒体包括以任何存储信息的方法和技术实现的易失性和非易失性、可移动和不可移动媒体，这些信息诸如计算机可读指令、数据结构、程序模块和其它数据。计算机存储媒体包括，但不限于，RAM、ROM、EEPROM、快闪存储器、或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它存储装置、或可被用于存储所希望的信息即刻被计算机100访问的任何其它媒体。通信媒体通常体现为计算机可读指令、数据结构、程序模块和在诸如载波或其它传输机制的已调制数字信号中的其它数据并包括任何信息传递媒体。术语“已调制数字信号”是指在信号中以对信息进行编码的这种方式设置或改变了该信号的一个或多个特征的一种信号。作为示例，但非限制，通信媒体包括诸如有线网络或直接连线连接的有线媒体，而无线媒体诸如声学、RF、红外和其它无线媒体。上述任何的组合也应该包括在计算机可读媒体的范围内。

系统存储器130包括诸如只读存储器(ROM)131和随机读写存储器(RAM)132的易失性和非易失性存储器形式的计算机存储媒体。基本输入输出系统133(BIOS)通常存储在ROM131中，它包含了基本例程，帮助在诸如启动期间在计算机100元件之间传递信息。RAM132通常包含可由处理单元120直接访问和/或当前正由处理单元120操作的数据和/或程序模块。作为示例，但非限制，图1例示了操作系统134、应用程序135、其他程序模块136、和程序数据137。

计算机100还包括其它可移动/不可移动、易失性/非易失性计算机存储媒体。仅作为示例，图1示出了硬盘驱动器141对不可移动、非易失性磁性可移动、非易失性磁盘152的读写，对可移动、非易失性磁盘152的读写，以及对诸如CD ROM的可移动、非易失性光盘156或其它光学媒体的读写。可用于示例操作环境的其它可移动/不可移动、易失性/非易失性计算机存储媒体包括，但不限于磁带盒盘、快闪存储器卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过诸如接口140的不可移动存储器接口连接至系统总线121，而磁盘驱动器151和光盘驱动器155通常由诸如接口150的可移动存储器接口连接至系统总线121。

上述和图1所示的驱动器和它们相关联的计算机存储媒体提供了关于计算机可读指令、数据结构、程序模块和用于计算机110的其它数据的存储。在图1中，例如，硬盘驱动器141被示为存储操作系统144、应用程序145、其他程序模块146、和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其他程序模块136、和程序数据137相同或不同。操作系统144、应用程序145、其他程序模块146、和程序数据147在这里被给以不同的标号是为了说明它们至少是不同的副本。

用户可通过诸如键盘126、话筒163、和指点装置161(例如鼠标)、滚动球或触摸垫之类输入装置把命令或信息输入到个人计算机110中。其它输入装置(未示出)可包括操纵杆、游戏垫、卫星天线、扫描器等等。这些和其它输入装置经常通过耦合到系统总线的用户输入接口160连到处理单元120，但也可以被其它接口和总线结构，诸如平行端口、游戏端口或通用串行总线(USB)所连接。监视器191或其它类型显示装置也可通过接口，例如视频接口190连到系统总线121。除了监视器外，计算机还可包括其它外围输出设备，例如扬声器197和打印机196，它们可通过输出外围接口195被连接。

计算机110利用与一个或多个远程计算机(例如远程计算机180)的逻辑连接而工作在联网络环境中。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等装置或其它公共网络节点、并且典型地包括了与计算机110相关的上述许多或全部元件。图1描述的逻辑连接包括一局域网(LAN)171和一广域网(WAN)173，但也可包括其它网络。这种连网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。

当使用在LAN连网环境中时，计算机110通过网络接口或适配器170连到LAN 171。当使用在WAN连网环境中时，计算机110典型地包括一调制解调器172或用于在广域网173上，例因特网上，建立通信的其它装置。调制解调器172，可内置或外置，经用户输入接口160或其它合适的机制与系统总线121相连。在网络环境中，所述的与计算机110相关或部分相关的程序模块可存储在远程存储器存储装置中。作为示例，但非限制，图1说明的远程应用程序185被示为驻留在远程计算机180内。将会理解所示的连接是示例性的，也可使用在计算机间建立通信链路的其它装置。

图2是移动装置200的框图，这是一个示例性计算环境。移动装置200包括微处理器202、存储器204、输入/输出(I/O)组件206、以及用于与远程计算机或其它移动装置通信的通信接口208。在一个实施例中，上述提到的组件通过适当的中总线210耦合用于互相通信。

存储器204实现为非易失性电子存储器，诸如具有后备电池模块(未示出) 的随机读写存储器(RAM)使得存储在存储器204中的信息在移动装置200的普通电源断电时不至于丢失。存储器204较佳地分配为用于程序执行得可寻址存储器，然而存储器204另一部分较佳地用于存储体，诸如模拟磁盘驱动器上的存储。

存储器204包括一个操作系统212、各应用程序214以及一个对象存储体216。在操作期间，操作系统212较佳地由处理器202从存储器204中执行。在一个较佳实施例中，操作系统212是WINDOWS

CE品牌的操作系统，可从微软公司购得。操作系统212较佳地设计为用于移动装置，并实现通过一组曝露的应用程序接口和方法可由应用程序214使用的数据库特征。对象存储体216中的对象由应用程序214和操作系统212维护，至少部分地响应于对曝露的应用程序接口和方法的调用。

通信接口208代表了允许移动装置200发送信息的众多装置和技术。这些装置可包括有线和无线调制解调器、卫星接收机和调谐器等。移动装置200也可直接连接到计算机以在它们之间交换数据。在这种情况下，通信接口208可以是红外收发机或串行或并行通信连接，所有这些都能发送流信息。

输入/输出组件206包括各种输入装置，诸如触敏屏、按钮、滚动条和话筒，以及包括音频产生器、振动装置和显示器在内的各种输出装置。上述罗列的装置仅是示例且不必都在移动装置上存在。另外，其它输入/输出装置也可以在本发明的范围内被附加到移动装置或可在移动装置找到。

图3提供了本发明各实施例的基本框图。在图3中，扬声器300生成语音信号(X.)，该语音信号由一个空气传导传感器和另一个备选传感器检测。各种备选传感器的示例包括测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨(诸如颚骨)或在用户耳内的骨传导传感器以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器。空气传导麦克风304是一种通常用于将音频空气波转换成电信号的麦克风。

空气传导麦克风304也接受由一个或多个噪声源产生的环境噪声308(Z)。取决于环境噪声的类型和环境噪声的水平，环境噪声308也可以由另一个备选传感器306检测。然而，在本设施例的情况下，备选传感器306对环境噪声的灵敏度性通常要比空气传导麦克风304差。因而，由备选传感器306产生的备选传感器信号316(B)通常要比由空气传导麦克风304产生的空气传导麦克风信号318(Y)包括的噪声少。虽然备选传感器306对环境噪声的灵敏度较差，但却产生相同的传感器噪声320(W)。

从扬声器300到备选传感器信号316的路径可以被建模为具有信道响应H的信道。从环境噪声308到备选传感器信号316的路径可以被建模为具有信道响应G的信道。

备选传感器信号316(B)和空气传导麦克风信号318(Y)被提供给无噪声信号估计器322，用于估计一无污染噪声信号324。无噪声信号估计324提供给语音处理328。无噪声信号估计324可以或者是经滤波的时域信号或者是傅里叶变换向量。如果无噪声信号估计324是时域信号，语音处理328可以采取收听者、语音编码系统或与语音识别系统的形式。如果无噪声信号估计324是傅里叶变换向量，语音处理328典型的将是语音识别系统、或某种傅里叶反变换将傅里叶变换向量转换为波形。

在直接滤波增强322中，备选传感器信号316和麦克风信号318被转换到用于估计无噪声语音的频域。如图4所示，备选传感器信号316和空气传导麦克风信号318分别被提供给模数转换器404和414，以产生一数字值序列，该序列分别由帧构成器406和414分组成值的帧。在一个实施例中，A/D转换器404和414以16KHz和每采样16比特采样模拟信号。由此创建每秒32千字节的语音数据，而帧构成器406和414每10毫秒创建一新的相应帧，每帧包括20毫秒宽的数据。

由帧构成器406和416提供的每个相应数据帧分别用快速傅里叶变换(FFT)408和418转换成频域。

备选传感器信号和空气传导麦克风信号的频域值被提供给无噪声信号估计器420，以使用频域值估计无噪声语音信号324。

在某些实施例的情况下，使用傅里叶反变换422将无噪声语音信号324转换回时域。这就创建了无噪声语音信号324的时域版本。

本发明的各实施例提供了用于估计无噪声语音信号324的直接滤波技术。在直接滤波的情况下，备选传感器的信道响应的最大似然估计由最小化与信道响应相关的函数确定。这些估计然后通过最小化与信道响应相关的函数而被用于确定无噪声语音信号的最大似然估计。

在本发明的一个实施例情况下，对应于由备选传感器检测的背景语音的信道响应G被认为等于零。这就导致在无噪声语音信号和空气传导麦克风信号及备选传感器信号之间的一个模型：

y(t)＝x(t)+z(t) 式1

b(t)＝h(t)*x(t)+w(t) 式2

其中，y(t)是空气传导麦克风信号，b(t)是备选传感器信号，z(t)，是环境噪声 w(t)是备选传感器噪声，而h(t)是对与备选传感器关联的无噪声语音信号的信道响应。因此，在式2中，备选传感器信号被建模为无噪声语音的经滤波版本，其中滤波器具有冲击响应h(t)。

在频域，式1和式2可表达为：

Y_t(k)＝X_t(k)+Z_t(k) 式3

B_t(k)＝H_t(k)X_t(k)+W_t(k) 式4

其中，符号Y_t(k)，表示围绕时间中心t的信号帧的第k次频率分量。这一符号也应用于X_t(k)、Z_t(k)、H_t(k)、W_t(k)、和B_t(k)。在下面的讨论中，为清楚起见，忽略了对频率分量中k的引用。然而，本领域的熟练技术人员将认识到以下执行的计算是基于每个频率分量的。

在这个实施例情况下，噪声z(t)和w(t)的实部和虚部被建模为独立零均值的高斯分布如下：

Z_{t} = N (O, σ_{z}^{2})

式5

W_{t} = N (O, σ_{w}^{2})

式6

其中σ_z ²是噪声Z_t的方差，而σ_w ²是噪声W_t的方差。H_t也被建模为高斯分布如下：

H_{t} = N (H_{0}, σ_{H}^{2})

式7

其中H₀是信道响应的均值而σ_H ²是信道响应的方差。

给定这些模型参数后，无噪声语音值X_t和信道响应H_t的概率由如下条件概率描述：

p(X_t，H_t|Y_t，B_t，H₀，σ_z ²，σ_w ²，σ_H ²) 式8

它正比于；

p(Y_t，B_t|X_t，H_t，σ_z ²，σ_w ²)p(H_t|H₀，σ_H ²)p(X_t) 式9

式9又等于：

p(Y_t|X_t，σ_z ²)p(B_t|X_t，H_t，σ_w ²)p(H_t|H₀，σ_H ²)p(X_t)

式10

在一个实施例中信道响应的先验概率p(H_t|H₀，σ_H ²)被忽略了而且其余概率的每一个被处理为具有无噪声语音的先验概率的高斯分布p(X_t)，p(X_t)被处理为具有方差σ_x，t ²的零均值高斯分布如下：

X_{t} = N (0, σ_{x, t}^{2})

式11

使用这一简化和式10，在t时对于帧X_t的最大似然估计可通过最小化下式确定：

F_{t} = \frac{1}{{2 σ}_{z}^{2}} {| Y_{t} - X_{t} |}^{2} + \frac{1}{{2 σ}_{w}^{2}} {| B_{t} - H_{t} X_{t} |}^{2} + \frac{{| X_{t} |}^{2}}{{2 σ}_{x, t}^{2}}

式12

由于式12是关于X_t最小化的，可取关于X_t的偏导数以决定最小化函数的X_t值。具体说，

\frac{&PartialD; F}{{&PartialD; X}_{t}} = 0

给出：

X_{t} = \frac{σ_{x, t}^{2} (σ_{w}^{2} Y_{t} + σ_{z}^{2} H_{t}^{*} B_{t})}{σ_{x, t}^{2} (σ_{w}^{2} + σ_{z}^{2} {| H_{t} |}^{2} + σ_{z}^{2} σ_{w}^{2})}

式13

其中H_t ^*表示H_t的复共轭而|H_t|表示复数值H_t的幅度。信道响应H_t是从整个发音通过最小化下式而确定的：

F = Σ_{t = 1}^{T} (\frac{1}{{2 σ}_{z}^{2}} {| Y_{t} - X_{t} |}^{2} + \frac{1}{{2 σ}_{w}^{2}} {| B_{t} - H_{t} X_{t} |}^{2})

式14

将式13中计算的X_t表达式代入式14，将偏导数设为零：

\frac{&PartialD; F}{{&PartialD; X}_{t}} = 0,

并且接着假设H在所有时间帧T上是常数，给出解为：

H = \frac{Σ_{t = 1}^{T} (σ_{z}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}) &PlusMinus; \sqrt{{(Σ_{t = 1}^{T} (σ_{z}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}))}^{2} + {4 σ}_{z}^{2} σ_{w}^{2} {| Σ_{t = 1}^{T} B_{t}^{*} Y_{t} |}^{2}}}{{2 σ}_{z}^{2} Σ_{t = 1}^{T} B_{t}^{*} Y_{t}}

式15

在式15中，H的估计要求以如下形式计算在最后T帧上的若干求和式：

S (T) = Σ_{t = 1}^{T} s_{t}

式16

其中，s_t是(σ_z ²|B_t|²-σ_w ²|Y_t|²)或B_t ^*Y_t。

用这公式，第一帧(t＝1)与最后一帧(t＝T)。然而，在其它实施例中，较佳的是最后帧对H估计的比老的帧贡献更多。一种达到这点的技术是“指数老化”，这时式16的求和式被替换为：

S (T) = Σ_{t = 1}^{T} c^{T - t} s_{t}

式17

其中c≤1。如果c＝1，则式17等效于式16。如果c＜1，则最后一帧被加权为1，最后帧以前的帧被加权为c(即，其贡献小于最后帧)，且第一帧用c^T-1加权。(即，其贡献显著小于最后帧)。例如，令c＝99和T＝100，则对第一帧的加权仅是0.99⁹⁹＝0.37。

在一个实施例情况下，式17被递归估计为：

S(T)＝cS(T-1)+s_T 式18

由于式18自动对老帧的加权较少，不必使用固定的窗口长度，最后T帧的数据不必存储在存储器中。而是仅在先前帧处的S(T-1)的值需要被存储。

使用式18，式15变为：

H_{T} = \frac{J (T) &PlusMinus; \sqrt{{(J (T))}^{2} + {4 σ}_{z}^{2} σ_{w}^{2} {| K (T) |}^{2}}}{{2 σ}_{z}^{2} K (T)}

式19

其中：

J (T) = cJ (T - 1) + (σ_{z}^{2} {| B_{T} |}^{2} - σ_{w}^{2} {| Y_{T} |}^{2})

式20

K (T) = cK (T - 1) + B_{T}^{*} Y_{T}

式21

在式20和式21中的c值提供了用于计算当前值J(T)和K(T)的过去帧的数目的有效长度。具体说，该有效长度给定为：

L (T) = Σ_{t = 1}^{T} c^{T - t} = Σ_{i = 0}^{T - 1} c^{i} = \frac{1 - c^{T}}{1 - c}

式22

渐近的有效长度给定为：

L = \lim_{T &RightArrow; \infty} L (T) = \frac{1}{1 - c}

式23

或的等效地，

c = \frac{L - 1}{L}

式24

因而，使用式24，可设置c以达到式19中的不同有效长度。例如，为了达到200帧的有效长度，c被设置为：

c = \frac{199}{200} = 0.995

式25

一旦使用式15已估计了H，它可被用于式13中替代所有的H_t以确定在每一时间帧t处X_t的单独值。或者另一方面，也可用式19来估计每一时间帧t处的H_t，每一帧处的H_t值然后可用于式13中以确定X_t。

图5提供了使用式13和式15估计针对一发音的无噪声语音值的本发明的一个方法的流程框图。

在步骤500，空气传导麦克风信号和备选传感器信号的帧的频率分量是跨整个发音被捕获的。

在步骤502，环境噪声σ_z ²和备选传感器噪声σ_w ²的方差可分别从空气传导麦克风信号和备选传感器信号的帧确定，它们是在当说话者不说话的期间在发音的早期捕获的。

该方法通过识别备选传感器信号的低能量部分而确定何时说话者不说话，因为备选传感器噪声的能量比由备选传感器信号捕获的语音信号小得多。在其它实施例中，已知的语音检测技术可应用于空气传导麦克风信号以识别何时说话者在说话。在说话者被认为不说话的期间，X_t假设为零且来自空气传导麦克风或备选传感器的任何信号都被认为是噪声。这些噪声值的采样是从非语音帧采集的并被用于估计空气传导信号和备选传感器信号中噪声的方差。

在步骤504，确定无噪声语音先验概率分布的方差，σ_x，t ²。在一个实施例情况下，该方差被计算为：

σ_{x, t}^{2} = \frac{1}{(m + k + 1)} Σ_{d = t - k}^{t + m} {| Y_{d} |}^{2} - σ_{v}^{2}

式26

其中|Y_d|²是空气传导信麦克风信号的能量而求和是在一组语音帧上执行的，该组语音帧包括当前语音帧前的k个语音帧和当前语音帧后的m个语音帧。为了避免方差σ_x，t ²为负值或零值，本发明的某些实施例使用(0.01·σ_v ²)作为σ_x，t ²的最低可能值。

在另一个实施例中，实时实现是使用仅依赖于前面语音帧中的无噪声语音信号的方差的平滑技术实现的，使得：

σ_{x, t}^{2} = p \max ({| Y_{d} |}^{2} - σ_{v}^{2}, α {| Y_{d} |}^{2}) + (1 - p) σ_{x, t - 1}^{2}

式27

其中σ_x，t-1 ²是来自包含语音的最后帧的无噪声语音先验概率分布的方差，p是范围为0到1之间的平滑因子，α是小常数，而max(|Y_d|²-σ_v ²，α|Y_d|²)表示选择|Y_d|²-σ_v ²和α|Y_d|²中的较大者以确保σ_x，t ²为正值。在一特定实施例情况下，平滑因子具有值0.08而α＝0.01。

在步骤506，跨发音的所有帧的备选传感器信号和空气传导麦克风信号的值被用于使用上述式15来确定H的值。在步骤508，H的这一值与空气传导麦克风信号和备选传感器信号在每个时间帧处的各个值一起被用于使用上述式13确定每个时间帧的增强或减噪的语音值。

在其它实施例中，不是使用发音的所有帧用式15来确定H的单个值，而是对每个帧使用式19来确定H_t。H_t的值然后被用于使用上述式13对帧计算X_t。

在本发明的第二实施例中，备选传感器对环境噪声的信道响应被认为是非零的。在这一实施例中，空气传导麦克风信号和备选传感器信号被建模为：

Y_t(k)＝X_t(k)+Z_t(k) 式28

B_t(k)＝H_t(k)X_t(k)+G_t(k)Z_t(k)+W_t(K) 式29

其中备选传感器对环境噪声的信道响应是非零值G_t(k)。

无噪声语音X_t的最大似然比可通过最小化目标函数而找到，导致无噪声语音的下式成立：

X_{t} = \frac{σ_{x, t}^{2} (σ_{w}^{2} Y_{t} + σ_{z}^{2} (H - G) * (B_{t} - {GY}_{t}))}{σ_{x, t}^{2} (σ_{w}^{2} + σ_{z}^{2} {| H - G |}^{2}) + σ_{z}^{2} σ_{w}^{2}}

式30

为了求解式30，必须知道方差σ_x，t ²、σ_w ²、和σ_z ²以及信道响应值H和G。图6提供了用于识别这些值并确定对于每一帧的增强语音值的流程框图。

在步骤600，发音帧被标识出用户在哪里没说话。这些帧然后分别被用于确定备选传感器和环境噪声的方差σ_w ²、和σ_z ²。

为了识别用户在哪里没说话，可检查备选传感器信号。由于备选传感器信号将产生比噪声小得多的背景信号值，如果备选传感器信号的能量较低，可假设发言者没在说话。

在以确定了环境噪声和备选传感器噪声的方差后，图6的方法在步骤602继续，在这里使用上述式26或式27确定无噪声语音先验概率的方差σ_x，t ²。如上所述，仅包含语音的这些帧被用于确定先验无噪声语音的方差。

在步骤602，标识了用户在那里没说话那些帧被用于估计备选传感器对于环境噪声的信道响应G。具体说，可确定如下：

G = \frac{Σ_{t = 1}^{D} Y^{*} B}{Σ_{t = 1}^{D} Y^{*} Y}

式31

其中D是用户在没说话的帧数。式31中，假设G在经过发音的所有帧时保持常数且不再依赖于时间帧t。式31中，对t的求和可用关于上述式16-25讨论的指数衰减计算代替。

在步骤606，备选传感器对于背景语音的信道响应的值G用于确定备选传感器对于无噪声语音的信道响应。具体说，H可计算为：

H = G + \frac{Σ_{t = 1}^{T} (σ_{v}^{2} {| B_{t} - {GY}_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}) &PlusMinus; \sqrt{{(Σ_{t = 1}^{T} (σ_{v}^{2} {| B_{t} - {GY}_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}))}^{2} + {4 σ}_{v}^{2} σ_{w}^{2} {| Σ_{t = 1}^{T} {(B_{t} - {GY}_{t})}^{*} Y_{t} |}^{2}}}{{2 σ}_{v}^{2} Σ_{t = 1}^{T} {(B_{t} - {GY}_{t})}^{*} Y_{t}}

式32

式32中，对t的求和可用关于上述式16-25讨论的递归指数衰减计算代替。在H已在步骤606确定后，式30可用于确定所有帧的无噪声语音值。在某些实施例情况下，使用式30中，项B_t-GY_t可用(

)B_t代替，因为已发觉精确确定背景语音和其在备选传感器中的泄漏之间的相位差是困难的。

如果递归指数衰减计算被用于替代式32中的求和，可对每个时间帧确定一个单独的H_t值并可把它用作式30中的H。

虽然本发明已参考特定的实施例作了描述，本领域的技术人员将认识到可在形式和细节方面做出改变而不脱离本发明的精神和范围。

Claims

1.一种用于确定表示无噪声语音信号一部分的无噪声语音值的估计的方法，所述方法包括：

使用除了空气传导麦克风以外的一个备选传感器来生成备选传感器信号，其中所述备选传感器是测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨或在用户耳内的骨传导传感器、以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器之一；

使用所述空气传导麦克风来生成空气传导麦克风信号；

使用备选传感器信号和空气传导麦克风信号来估计所述备选传感器信号的信道响应的值；以及

使用所述信道响应和所述无噪声语音值的先验概率来确定所述无噪声语音值。

2.如权利要求1所述的方法，其特征在于，所述无噪声语音值的先验概率具有由方差定义的一种分布。

3.如权利要求2所述的方法，进一步包括基于所述空气传导麦克风信号来确定所述分布的方差。

4.如权利要求3所述的方法，其特征在于，基于所述空气传导麦克风信号确定所述方差包括形成所述空气传导麦克风信号的多个帧的能量值之和。

5.如权利要求4所述的方法，其特征在于，空气传导麦克风信号的各帧全部包含语音。

6.如权利要求3所述的方法，其特征在于，确定所述分布的方差进一步包括基于所述空气传导麦克风信号的当前帧以及和所述无噪声语音信号的前一帧相关联的分布的方差来确定与所述无噪声语音信号的当前帧相关联的方差。

7.如权利要求6所述的方法，其特征在于，确定所述分布的方差进一步包括限制所述分布的方差的值使得所述分布的方差总是超过某个最小值。

8.一种用于确定表示无噪声语音信号一部分的无噪声语音值的估计的系统，所述系统包括：

用于使用除了空气传导麦克风以外的一个备选传感器来生成备选传感器信号的装置，其中所述备选传感器是测量用户喉部振动的喉麦克风、位于或邻近用户脸骨或头骨或在用户耳内的骨传导传感器、以及感测对应于用户生成语音的头骨或颚骨振动的骨传导传感器之一；

用于使用所述空气传导麦克风来生成空气传导麦克风信号的装置；

用于使用备选传感器信号和空气传导麦克风信号来估计所述备选传感器信号的信道响应的值的装置；以及

用于使用所述信道响应和所述无噪声语音值的先验概率来确定所述无噪声语音值的装置。

9.如权利要求8所述的系统，其特征在于，所述无噪声语音值的先验概率具有由方差定义的一种分布。

10.如权利要求9所述的系统，其特征在于，进一步包括用于基于所述空气传导麦克风信号来确定所述分布的方差的装置。

11.如权利要求10所述的系统，其特征在于，用于基于所述空气传导麦克风信号确定所述方差的装置包括用于形成所述空气传导麦克风信号的多个帧的能量值之和的装置。

12.如权利要求10所述的系统，其特征在于，用于确定所述分布的方差的装置进一步包括用于基于所述空气传导麦克风信号的当前帧以及和所述无噪声语音信号的前一帧相关联的分布的方差来确定与所述无噪声语音信号的当前帧相关联的方差的装置。

13.如权利要求12所述的系统，其特征在于，用于确定所述分布的方差的装置进一步包括用于限制所述分布方差的值使得所述分布的方差总是超过某个最小值的装置。