CN102855880B

CN102855880B - 用于多话筒音频设备的去噪方法

Info

Publication number: CN102855880B
Application number: CN201210202063.6A
Authority: CN
Inventors: C·福克斯
Original assignee: Parrot Motor Co Ltd
Current assignee: Parrot SA
Priority date: 2011-06-20
Filing date: 2012-06-19
Publication date: 2016-09-28
Anticipated expiration: 2032-06-19
Also published as: US20120322511A1; FR2976710A1; US8504117B2; FR2976710B1; EP2538409B1; CN102855880A; EP2538409A1

Abstract

本发明公开了用于多话筒音频设备，尤其用于“免提”电话系统的去噪方法。本方法包括在频域中的以下步骤：a)估算语音存在的概率；b)估算由传感器所获取的噪声的频谱协方差矩阵，这个估算是由语音存在的概率所调制的；c)相对于由其中一个传感器所获取的信号构成的基准，而估算语音源和至少一些传感器之间的声道的传递函数，这个估算由语音存在的概率所调制；d)计算最佳线性射影算子，其给出来自至少一些传感器所获取的信号、来自频谱协方差矩阵、以及来自所估算的传递函数中的单个组合信号；且e)在语音存在的概率和从射影算子输出的组合信号的基础上，通过施加可变增益而选择性地减少噪声。

Description

用于多话筒音频设备的去噪方法

发明领域

本发明涉及用于多话筒音频设备，尤其用于“免提”电话系统的去噪方法，涉及处理嘈杂环境中的语音。

本发明特别地但非以限制方式，涉及处理由用在机动车中的电话设备所获取的语音信号。

发明背景

这样的器具包括一个或多个话筒，该一个或多个话筒不仅敏感于用户话音，还获取周围环境噪声以及由于周围环境中（一般是车辆的车厢）的回响现象所引起的回音。因此有用分量（即，来自近旁讲话者的语音信号）被淹没在干扰噪声分量（外部噪声和回响）中，这些噪声分量经常使得对于远方讲话者（即，位于传输电话信号的通道的另一端的讲话者）而言近旁讲话者的语音不可理解。

如果期望实现话音识别技术，也会有同样的情况，因为对于淹没于高级别噪声的话语（word）非常难以实现形状识别。

“免提”设备特别受制约于与周围环境噪声相关联的这个困难。特定地，话筒和讲话者之间的较大距离给予噪的较高的相对级别，藉此使得难以提取淹没在噪声中的有用信号。进一步，对于机动车而言很普遍的非常嘈杂的环境中存在不稳定的频谱特性，即，取决于驾驶情况（在不平坦的道路表面或鹅卵石上驾驶、车载收音机在操作中等）而以不可预测的方式变化。

一些这样的设备安排为使用多个话筒且然后取这些话筒所获取信号的平均值、或者执行更为复杂的其他操作，从而获得具有较小干扰级别的信号。

特定地，所谓“波束成形”技术能使用软件方式来创建用于改进信号/噪声比的方向性。然而，当仅使用两个话筒时，这个技术的性能非常有限（特别地，发现这样的方法仅在使用至少八个话筒的阵列的情况下提供良好的效果）。当环境是回响的时，性能也会被非常降低。

发明目的和内容

本发明的目的在于提供用于对处于非常嘈杂和非常回响的环境（一般是车辆的车厢）中的这种多通道、多话筒系统所获取的音频信号进行去噪的解决方案。

与多通道系统的语音处理方法相关联的主要困难在于评估用于执行该处理的有用参数的困难，因为这些评估项与周围环境极为相关。

大多数技术基于这样的假设：有用的信号和/或干扰信号存在一定量的方向性，且大多数技术将来自各话筒的信号组合起来从而应变于这样的方向性状况从而改进信号/噪声比。

因此，EP 2293594A1(Parrot SA)描述了对不持续且定向的噪声，诸如鸣笛、路过的电瓶车、超车的车，等的空间检测和过滤方法。所提出的技术在于将空间方向性与不持续的时间和频率性质关联起来，从而检测出一般难以与语音区别的类型的噪声，并因此提供对于这种噪声的有效过滤并推测出语音存在的概率，藉此能使噪声衰减被进一步改进。

EP 2309499A1(Parrot SA)描述了二话筒系统，其在所获取的信号上进行空间相干性分析从而确定入射方向。该系统使用不同的方法计算两个噪声参考，一个噪声参考应变于所获取的信号（包括非定向的不持续的噪声）的空间相干性，而另一个噪声参考应变于入射信号（包括，特别是，定向的非持续信号）的主要方向。这个去噪技术依赖于这样的假设：相比噪声，语音一般存在更大的空间相干性，且进一步，语音的入射的方向一般是明确定义的且可被认为已知：在机动车辆内，该方向可由驾驶员的位置所定义，话筒就面向着这个位置。

无论如何，这些技术在考虑对车厢而言很典型的回响的效果方面比较差，在回响中数量众多的高功率反射使得难以计算到达方向，藉此具有显著降低去噪效力的结果。

进一步，使用这些技术，在输出所获得的经去噪的信号以令人满意的方式重现了初始语音信号的幅值而非相位，这可导致该话音由设备播放时是被变形的。

本发明的问题是对使得不可能以令人满意的方式计算有用信号的到达方向的回响环境予以考虑，并获得重现初始信号的幅值和相位二者的去噪，即，在该信号由设备播放时并不使得讲话者的话音变形。

本发明提供了在频域中在所获取的信号的多个元（bin）上（即，在信号每一时间帧的频带上）所实现的技术。该处理主要包括：

·计算在所获取的嘈杂信号中语音存在的概率；

·估算语音源（近旁讲话者）和话筒阵列的每一个传感器之间的声道的传递函数；

·以多个声道的所估算的传递函数为基础计算最佳射影（projection），用于确定单个声道；且

·对于每一个元，应变于语音存在的概率，在这个单个声道中选择性地减少噪声。

更准确地，本发明的方法是对于具有以预确定配置所设置的多个话筒传感器所构成的阵列的设备的去噪方法。

该方法包括在频域中对于为信号的连续时间帧所定义的多个频带的如下处理步骤：

a)估算在所获取的嘈杂信号中语音存在的概率；

b)估算由传感器所获取的噪声的频谱协方差矩阵，这个估算是由语音存在的概率所调制的；

c)估算语音源和至少一些传感器之间的声道的传递函数，这个估算相对于由传感器之一所获取的信号组成的基准有用信号而被执行，且也由语音存在的概率所调制；

d)计算最佳线性射影算子，其给出从至少一些传感器所获取的信号、从在步骤b)中所估算的频谱协方差矩阵、以及从步骤c)中所估算的传递函数中所导出的单个经去噪的组合信号；且

e)在语音存在的概率的基础上以及在步骤d)中所计算出的射影算子的基础上，通过应用对于每一个频带和每一个时间帧特定的可变增益，而选择性地减少噪声。

优选地，最佳线性射影算子在步骤d)中通过带有最小方差无失真响应（MVDR）的Capon波束成形类型处理而被计算。

还优选地，步骤e)的选择性噪声减少通过最佳修正对数频谱（OM-LSA）增益类型的处理而被执行。

在第一实现中，通过计算出寻求消除在为其评估传递函数的传感器所获取的信号和由基准有用信号的传感器所获取的信号之间的差异的自适应过滤器，并以语音存在概率进行调制，而在步骤c)中估算传递函数。

自适应过滤器特定地可以是最小均方（LMS）类型的线性预测算法过滤器，且以语音存在概率进行的调制，特定地可以是通过改变该自适应过滤器的迭代步长尺寸而被调制的。

在第二实现中，通过包括如下步骤的对角化处理在步骤c)中估算该传递函数：

c1)相对于基准有用信号的传感器而确定由阵列的传感器所获取的信号的频谱相关性矩阵；

c2)计算首先在步骤c1)中确定的矩阵和其次如步骤b)中所计算的那样，由语音存在的概率所调制的噪声的频谱协方差矩阵之间的差异；且

c3)将步骤c2)中所计算的差异矩阵对角化。

进一步，用于去噪的信号频谱被有利地细分为多个不同的频谱部分；传感器被重新分组为多个子阵列，每一个相关联于其中一个频谱部分。然后在对应于所考虑的频谱部分的子阵列的传感器所获取的信号上对于每一个频谱部分不同地执行去噪处理。

特定地，当传感器阵列是对齐的传感器的线性阵列时，用于去噪的信号的频谱可被细分为低频部分和高频部分。对于低频部分，则去噪处理的步骤仅在由阵列的最远地间隔的传感器所获取的信号上执行。

仍采用用于去噪的信号的频谱（被细分为多个不同频谱部分），在步骤c)中，还可能通过将不同的处理应用至每一个频谱部分而以不同方式估算声道的传递函数。

特定地，当传感器阵列是对其的传感器的线性阵列且当这些传感器被重新分组为多个子阵列（每一个子阵列相关联于各自的一个频谱部分）时：对于低频部分，仅在由阵列的最远地间隔的传感器所获取的信号上执行去噪处理，且通过计算自适应过滤器而估算传递函数；且对于高频部分，在由阵列所有传感器所获取的信号上执行去噪处理，且通过对角化处理而估算传递函数。

附图简述

下文是参考了相应附图的所给出的发明的设备的实施例的描述，在附图中，每个附图中使用同样的数字参考标号来代表相同或功能类似的元件。

图1是涉及获取嘈杂信号的各种声学现象的图。

图2是用于估算声道的传递函数的自适应过滤器的框图。

图3是示出应变于频率而绘出的在扩散噪声场（diffuse noise field）的两个传感器之间的相关性的变化的特性。

图4是适用于以用于实现本发明的应变于频率的可选择性方式的四个话筒的阵列的图。

图5是示出了本发明中用于去噪由图4的话筒阵列所获取的信号而执行的各种处理总体框图。

图6是更详细地示出在如图5所示的方面的处理中在频域所实现的功能的框图。

详细描述

下文是本发明所提出的去噪技术的详细描述。

如图1中所示，考虑一组n个话筒传感器，可能将每一个传感器认为是获取由有用信号源S（其信号已经被添加了噪声）发出的语音信号（来自近旁讲话者10的语音）的回响版本的单个话筒M1，...,Mn。

因此每一个话筒获取：

·有用信号分量（语音信号）；

·由车厢所产生的这个语音信号的回响的分量；以及

·所有形式的周围环境干扰噪声的分量（定向的或扩散的、稳定的或以不可预测的方式变化的，等）。

建模所获取的信号

来自这些话筒的（多个）信号将通过执行去噪（框12）而被处理，从而给出（单个）信号作为输出：这是单输入多输出（SIMO）模式（从一个讲话者到多个话筒）。

该输出信号应该尽可能接近由讲话者10所发出的语音信号，即：

·含有尽可能少的噪声；且

当在输出端被播放时尽可能少地使得讲话者的话音变形。

对于排序为i的传感器，所获取的信号可被如下地写成：

x_{i} (t) = h_{i} &CircleTimes; s (t) + b_{i} (t)

其中xi是所获取的信号，其中hi是有用信号源S和传感器Mi之间的脉冲响应，其中s是由源S提供的有用信号（来自近旁讲话者10的语音信号），且其中bi是附加噪声。

对于这一组传感器，可能使用向量标记：

x (t) = h &CircleTimes; s (t) + b (t)

在频域中，这个表达式变为：

X(ω)=H(ω)S(ω)+B(ω)

做出第一个假设：语音和噪声都是位于中心的高斯信号。

在频域中，这导致对于所有的频率ω的如下条件：

·S是功率φ_s的位于中心的高斯函数；

·B是具有协方差矩阵R_n的位于中心的高斯向量；且

·S和B是去相关的，且当频率不同时其中每一个是去相关的。

做出第二个假设：语音和噪声都是去相关的。这导致这样的事实：相对于B的所有分量，S是去相关的。进一步，对于不同的频率ω_i和ω_j，S(ω_i)和S(ω_j)是去相关的。这个假设对于噪声向量B也是有效的。

计算最佳射影算子

在上述设置的这些元素的基础上，所提出的技术在于为每一个频率而搜索最佳线性射影算子的时域。

术语“射影算子”被用于表示一操作符，该操作符对应于将由多声道设备同时获取的多个信号转换为单个单声道信号。

这个射影是线性射影，在最小化被传递作为输出的单声道信号中的残余噪声分量最小（噪声和回响被最小化）、同时有用的语音分量尽可能少地变形的这个意义上而言为“最佳”。

这个最优涉及在每一个频率处搜索向量A，从而使得：

·射影ATX包括尽可能少的噪声，即，由剧[A^TVV^TA]=A^TR_nA给出的残余噪声的功率最小化；且

·讲话者的话音没有变形，这用如下约束ATH=1所表达；

其中：

Rn是对每一个频率的频率之间的相关性矩阵；且

H是在考虑中的声道。

这个问题是在约束下的最优化问题，即，在约束ATH=1下搜索min(A^TR_nA)

可通过使用拉格朗日乘法方法来求解，这给出如下解：

A^{T} = \frac{H^{T} R_{n}^{- 1}}{H^{T} R_{n}^{- 1} H}

当传递H对应于纯延迟时，这可被认为是最小方差无失真响应（MVDR）波束成形公式，也就是Copan波束成形。

在射影之后，应该观察到残余噪声功率由如下给出：

\frac{1}{H^{T} R_{n}^{- 1} H}

进一步，通过对在每一个频率处的信号的幅值和相位而写出最小均方差类型估算器，可见该估算器被写为后跟单声道处理的Capon波束成形，如以下文献中所描述的：

[1]R.C.Hendriks等，On optimal multichannel mean-squared errorestimators for speech enhancement(关于用于语音增强的最佳多声道均方差估算器),IEEE Signal Processing Letters,16卷,第10期,2009。

施加至源自波束成形处理的单声道信号的噪声的选择性去噪处理有利地为具有例如在以下文献中所述的最佳修正对数频谱增益的处理类型：

[2]I.Cohen,Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator(在使用对数频谱幅值估算器的信号存在的不确定性下的最佳语音增强),IEEE Signal Processing Letters,第9卷,第4期,113–116页,2002年4月。

用于计算最佳线性射影算子的参数估算

为了实现这个技术，有必要估算语音源S和每一个话筒M1,M2,...,Mn之间的传递函数H1,H2，...,Hn。

还有必要估算频谱噪声协方差矩阵，被写为Rn。

对于这些估算，使用了语音存在的概率值，其值被写为p。

语音存在的概率是一参数，其可取位于0到100%范围内的多个不同值(且不仅是二进制值0或1)。这个参数使用其本身已知的技术被计算，这些技术的示例被特定地在下述文献中描述：

[3]I.Cohen和B.Berdugo,Two-Channel Signal Detection and SpeechEnhancement Based on the Transient Beam-to-Reference Ratio(基于瞬时波束-基准比的二声道检测和语音增强),Proc.ICASSP 2003,Hong-Kong,233-236页,2003年4月。

还可参考WO 2007/099222A1，该专利描述了实现语音存在概率的计算的去噪技术。

考虑到频谱协方差矩阵Rn，可能使用具有指数窗口的预期估算器（estimator），这等于施加了遗忘因子：

R_n(k+1)=αR_n(k)+(1-α)XX^T

其中：

k+1是当前帧的编号；且

α是位于0到1范围内的遗忘因子。

为了仅考虑仅存在噪声的元素（element），遗忘因子α受到语音存在概率的调制：

α=α₀+(1-α₀)p

其中，α₀∈[01]。

可使用数种技术来估算正在考虑的声道的传递函数H。

第一种技术包括在使用频域中的最小均方差（LMS）类型的算法。

LMS类型的算法-或作为LMS的归一化版本的归一化LMS（NLMS）类型的过滤器-是相对简单的算法且在计算资源方面并不非常贪婪。这些算法本身都是已知的，如，如在如下文献中所描述的那样：

[4]B.Widrow,Adaptative Filters,Aspect of Network and System Theory（自适应过滤器，网络和系统理论方面),R.E.Kalman和N.De Claris Eds.,New York:Holt,Rinehart and Winston,563-587页,1970;

[5]J.Prado和E.Moulines,Frequency-domain adaptive filtering withapplications to acoustic echo cancellation(具有对声学回声消除的应用的频域自适应过滤),Springer,Ed.Annals of Telecommunications,1994;

[6]B.Widrow and S.Stearns,Adaptative Signal Processing （自适应信号处理),Prentice-Hall Signal Processing Series,Alan V.Oppenheim Series Editor,1985。

这个算法的原理在图2中示出。

本发明的特定方式中，声道之一被用作基准有用信号，如，来自话筒M1的声道，并对于其他声道而计算传递函数H2，...,Hn。

这等于施加了约束H1=1。

可以清楚理解的是，被采用为基准有用信号的信号是由话筒M1所获取的语音信号S的回响版本（即，具有干扰的版本），其中在所获取的信号中回响的存在并不是阻碍，因为在这个阶段，期望的是执行去噪而非去回响。

如图2中所示，依靠对应于由话筒Mi所递送的信号xi的自适应算法、通过估算话筒Mi和话筒M1（用作基准）之间的噪声的传递，LMS算法（以已知方式）设法估算过滤器H(框14)。在16，从由话筒M1所获取的信号x1中减去过滤器14的输出，从而给出能使过滤器14被迭代地自适应的预测误差信号。因此，在信号xi的基础上可能预测被包含在信号x1中的（回响的）语音分量。

为了避免与因果关系相关联的问题（为了确信信号xi没有在基准信号x1之前到达），信号x1被延迟一点（框18）。

进一步，添加组件20，用以用在框22的输出处所递送的语音存在的概率p来加权来自自适应过滤器14的误差信号：这包括仅在语音存在概率较高时，自适应该过滤器。可特定地通过应变于概率p修改该自适应步长，从而执行这个加权。

对于每一帧k且对于每一个传感器i，写出用于更新自适应过滤器的方程，如下：

H_{i} (k + 1) = H_{i} (k) + μX {(k)}_{1}^{T} (X {(k)}_{1} - H {(k)}_{i} X {(k)}_{i})

该算法的自适应步长μ，被语音存在的概率所调制，被写成如下，同时归一化了LMS（对应于在所考虑的频率处的信号x1的频谱功率的分母）：

μ = \frac{p}{E [X_{1}^{2}]}

噪声是去相关的这样的假设导致LMS算法射影话音而非噪声，从而所估算的传递函数并不真正对应于讲话者和话筒之间的声道H。

用于估算声道的另一个可能的技术包括对角化矩阵。

这个估算技术是基于使用所观察到的信号的频谱相关性矩阵，表达如下：

R_x=E[XX^T]

这个矩阵以与Rn一样的方式被估算：

R_n(k+1)=αR_n(k)+(1-α)XX^T

其中α是遗忘因子（其为常数因子，因为考虑的是整个信号）。

然后可能估算：

R_x-R_n＝φ_sHH^T

这是秩为1的矩阵，其唯一的非零特征值是φ_s，其相关联于特征向量H。

因此可能通过对角化Rx-Rn来估算H，不过仅可能计算vect(H)，换言之，仅在复数向量范围内估算H。

为了提升这种不确定性，且以与上述用LMS算法估算一样的方式，选择其中一个声道作为基准声道，这等于施加了约束H1=1。

声场的空间采样

对于多话筒系统，即，执行声场的空间采样的系统，各话筒的相对放置是对于处理由话筒所获取的信号的处理的有效性至关重要的元素。

特定地，如引言中所述的，假设在话筒处存在的噪声是去相关的，从而可使用LMS类型的自适应标识。为了更接近于这个假设，合适的是将话筒彼此间隔放置，因为，对于扩散噪声模型，相关性函数被写作随着话筒间距离增加而减少的函数，藉此使得声道估算器更加稳健。

扩散噪声场的两个传感器之间的相关性被表达如下：

MSC (f) = {\sin c}^{2} (\frac{fd}{c})

其中：

f是所考虑的频率；

d是传感器之间的距离，且

c是声速。

在图3中对于话筒之间间距d=10厘米(cm)而示出相应特性。

然而，将话筒间隔开藉此去相关噪声的做法，会有在空间域中导致以较小频率采样的缺点，从而的结果是在高频处混叠，因此高频被播放时欠佳。

本发明提出了取决于所处理的频率而通过选择不同的传感器设置，解决这个困难。

因此，在图4中，示出对齐的四个话筒M1，...,M4的线性阵列，这些话筒彼此间隔为d=5cm。

对于频谱的较低区（低频（LF）），可能合适的是例如仅使用两个最远间隔的话筒M1和M4（因此间隔为3d=15cm），而对于频谱的高频区（高频（HF）），应该使用所有四个话筒M1、M2、M3和M4（因此间隔仅为d=5cm）。

在一种变型中，或此外，在本发明的另一方面，还可能，当估算声道的传递函数H时，应变于所处理的频率而选择不同方法。例如，对于上述两个方法（通过LMS的频率处理，和通过对角化处理），可能应变于诸如如下标准来选择一个方法或另一个：

·噪声的相关性：为了考虑对角化方法较少敏感于此的事实，尽管较不准确；以及

·所使用的话筒的数量：为了考虑到，当矩阵维数增加时，由于增加了话筒的数量n，对角化方法在计算方面非常昂贵的事实。

优选实现的描述

这个示例是参考图5和6而描述的，且实现了用于处理信号的上述各种元素，以及它们可能的各种变型。

图5是框图，示出在处理来自四个话筒M1，...,M4的线性阵列（诸如如图4中所示）的信号的处理中的各步骤。

对于高频谱（高频HF，对应于框24到32）和对于低频谱（低频LF，对应于框34到42）执行不同处理：

·对于高频谱，由过滤器24所选择，来自四个话筒M1，...,M4的信号被共同使用。这些信号首先经受快速傅里叶变换（FFT）（框26）从而进入频域，且然后这些信号经受涉及矩阵对角化（且将参考图6而在下文被描述）的处理28。所得到的单声道信号SHF经受快速傅立叶逆变换（iFFT）（框30）从而回到时域，且然后所得到的信号sHF被施加至综合型过滤器（框32）从而恢复输出声道s的高频谱；且

对于低频谱，由过滤器34选择，仅使用来自两个间隔最远的话筒M1和M4的信号。这些信号首先经受FFT（框36）从而进入频域，接着是涉及自适应LMS过滤的处理38（将参考图6在下文描述）。所得到的单声道信号SLF经受快速傅立叶逆变换（iFFT）（框40）从而回到时域，且然后所得到的信号sLF被施加至综合型过滤器（框42）从而恢复输出声道s的低频谱。

参考图6，下文是图5中的框28或38所执行的处理的描述。

下述处理在频域中被施加至每一个频率元，即，对于由为话筒（对于高频谱HF是所有四个话筒M1、M2、M3、和M4，且对于低频谱LF是两个话筒M1和M4）所获取的信号的连续时间帧所定义的每一个频带。

在频域中，这些信号对应于向量X1，...,Xn（分别是X1、X2、X3、和X4，或X1和X4）。

框22使用由这些话筒所获取的信号来产生语音存在的概率p。如上所述，这个估算可使用本身已知的技术来做出，例如，WO 2007/099222A1中所描述的技术，可参考该专利获得进一步的细节。

框44表示选择估算声道的方法的选择器，或者通过以所有话筒M1、M2、M3、和M4所获取的信号为基础的对角化（图5中的框28，对于高频谱HF）、或者通过以两个间隔最远的话筒M1和M4所获取的信号为基础的LMS自适应过滤器（图5中的框38，对于低频谱LF）。

框46对应于估算频谱噪声矩阵，使用所表达的Rn来估算最佳线性射影算子，且当以此方式估算了声道的传递函数时该Rn还被用于框28的对角化计算。

框48对应于计算最佳线性射影算子。如上所述，在48处所计算的射影是线性射影，就在输出处所递送的单声道信号中的残余噪声分量（噪声和回响）被最小化这一意义而言，该线性射影是最佳的。

同样如上所述，最佳线性射影算子表示重置各输入信号的相位的特征，藉此使得可能在输出处获得经射影的信号Spr，其中将有来自讲话者的初始语音信号的相位（以及自然还有幅值）。

最终步骤（框50）包括通过对经射影的信号Spr施加可变增益而选择性地减少噪声，该可变增益对于每一个频带和每一个时间帧都是特定的。

该去噪还受到语音存在的概率p的调制。

然后由去噪框50所输出的信号SHF/LF经受iFFT（图5的框30和40）从而获得所寻求的时域中的经去噪的信号sHF或sLF，藉此给出重构整个频谱之后的最终的经去噪的语音信号s。

由框50所执行的去噪可有利地利用诸如上述参考文献中所描述的OM-LSA类型的方法：

[2]I.Cohen,Optimal Speech Enhancement Under Signal PresenceUncertainty Using Log-Spectral Amplitude Estimator(在使用对数频谱估算量的信号存在的不确定性下的最佳语音增强),IEEE Signal Processing Letters,第9卷,第4期,2002年4月。

本质上而言，施加所谓的“对数频谱幅值”增益用于最小化所估算的信号的幅值的对数和原始语音信号的幅值的对数之间的均方距离。发现这个第二准则优于第一个，因为所选择的距离是对于人耳行为的较好匹配，且因此给出质量上更好的结果。在任何情况下，基本理念是通过对其施加低增益，减少经受大量干扰的频率分量的能量，同时无论如何保留几乎不具有或不具有干扰的完整的这些频率分量（通过向其施加1的增益）。

这个OM-LSA算法通过用语音存在的条件概率p来加权有待被施加的LSA增益，藉此改进了该LSA增益的计算。

在这个方法中，语音存在的概率p在两个重要的方面（level）被涉及：

·在估算噪声的能量时，当语音存在的概率较低时，该概率调制遗忘因子从而更快地更新噪声信号中的噪声的估算；且

·在计算最终增益时，该概率也起着重要作用，因为在语音存在的概率减少的情况下，所施加的噪声减少的量增加（即，所施加的增益减少）。

Claims

1.一种用于对在嘈杂周围环境中操作的多话筒音频设备的嘈杂声学信号进行去噪的方法，其中所述嘈杂声学信号包括来自语音源的有用分量和干扰噪声分量，所述设备包括传感器阵列，所述传感器阵列以预确定的设置而排列的多个话筒传感器形成，且适于获取所述嘈杂信号，所述方法包括在频域中对于为所述信号的连续时间帧所定义的多个频带的如下处理步骤：

a)估算在所获取的所述嘈杂信号中语音存在的概率；

b)估算由所述传感器所获取的所述噪声的频谱协方差矩阵，所述估算是由所述语音存在的概率所调制的；

c)估算所述语音源和至少一些所述传感器之间的声道的传递函数，所述估算相对于由所述传感器之一所获取的所述信号组成的基准有用信号而被执行，且也由所述语音存在的概率所调制；

d)计算最佳线性射影算子，其给出从至少一些传感器所获取的信号、从在步骤b)中所估算的所述频谱协方差矩阵、以及从步骤c)中所估算的所述传递函数中所导出的单个经去噪的组合信号；且

e)在所述语音存在的概率的基础上以及在步骤d)中所计算出的射影算子所给出的组合信号的基础上，通过应用对于每一个频带和每一个时间帧特定的可变增益，而选择性地减少噪声。

2.如权利要求1所述的方法，其特征在于，所述最佳线性射影算子在步骤d)中通过带有最小方差无失真响应MVDR的Capon波束成形类型处理而被计算。

3.如权利要求1所述的方法，其特征在于，步骤e)的选择性噪声减少通过最佳修正对数频谱幅值OM-LSA增益类型的处理而被执行。

4.如权利要求1所述的方法，其特征在于，在步骤c)中，通过计算寻求消除在为其评估传递函数的所述传感器所获取的所述信号和由所述基准有用信号的传感器所获取的信号之间的差异的自适应过滤器，并使用通过所述语音存在概率进行的调制，从而估算所述传递函数。

5.如权利要求4所述的方法，其特征在于，所述自适应过滤器是最小均方类型LMS的线性预测算法过滤器。

6.如权利要求4所述的方法，其特征在于，所述通过所述语音存在的概率进行的调制是通过改变所述自适应过滤器的迭代步长而变化的调制。

7.如权利要求1所述的方法，其特征在于，所述传递函数在步骤c)中被通过对角化处理而被估算，所述对角化处理包括：

c1)相对于所述基准有用信号的传感器而确定由所述阵列的传感器所获取的信号的频谱相关性矩阵；

c2)计算首先在步骤c1)中确定的所述矩阵和其次如步骤b)中所计算的那样，由语音存在的概率所调制的噪声的所述频谱协方差矩阵之间的差异；且

c3)将步骤c2)中所计算的差异矩阵对角化。

8.如权利要求1所述的方法，其特征在于：

·用于去噪的信号频谱被细分为多个不同频谱部分；

·所述传感器被重新分组为多个子阵列，每一个子阵列与其中一个所述频谱部分相关联；且

·在对应于所考虑的频谱部分的子阵列的传感器所获取的信号上对于每一个频谱部分不同地执行去噪处理。

9.如权利要求8所述的方法，其特征在于：

·所述传感器阵列是对齐的传感器的线性阵列；

·用于去噪的信号的频谱被细分为低频部分和高频部分；且

·对于所述低频部分，所述去噪处理的步骤仅在由所述阵列的最远地间隔的传感器所获取的信号上执行。

10.如权利要求1所述的方法，其特征在于：

·用于去噪的所述信号的所述频谱被细分为多个不同的频谱部分；且

·通过对于每一个所述频谱部分应用不同的处理而不同地执行步骤c)的所述声道的传递函数的估算。

11.如权利要求9所述的方法，其特征在于：

·所述传感器的阵列是对齐的传感器的线性阵列；

·所述传感器被重新分组为多个子阵列，每一个子阵列分别与其中一个所述频谱部分相关联；

·对于所述低频部分，仅在由所述阵列的最远地隔开的传感器所获取的信号上执行去噪处理，且通过计算自适应过滤器而估算传递函数；且

·对于高频部分，在由所述阵列所有传感器所获取的信号上执行去噪处理，且通过对角化处理而估算所述传递函数。

12.如权利要求1所述的方法，其特征在于：所述多话筒音频设备是“免提”电话设备。