CN101263734A

CN101263734A - 麦克风阵列用后置滤波器

Info

Publication number: CN101263734A
Application number: CNA200680031886XA
Authority: CN
Inventors: 赤木正人; 李军峰; 上地正昭; 佐佐木和也
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2005-09-02
Filing date: 2006-08-31
Publication date: 2008-09-10
Anticipated expiration: 2026-08-31
Also published as: JP4671303B2; US20080159559A1; CN101263734B; EP1931169A4; JPWO2007026827A1; WO2007026827A1; EP1931169A1

Abstract

本发明提供一种后置滤波器，其具有：麦克风阵列(10)，其由用于输入语音信号的至少二个麦克风构成；波束成形器(13)，其进行从上述麦克风阵列输入的语音信号的成形；分割器(14)，其将包含自上述麦克风阵列输入的噪声的目标声音，以规定的频率，至少分割成二个频带；第一滤波器(20)，其用于估计在上述麦克风之间噪声为不相关的情况下的滤波器增益；第二滤波器(30)，其用于估计上述麦克风阵列中的一个麦克风或麦克风阵列的平均信号的滤波器增益；加法器(40)，其将来自上述第一滤波器和上述第二滤波器的输出相加；以及基于来自上述加法器和上述波束成形器的输出来降低噪声的单元(41)。

Description

麦克风阵列用后置滤波器

技术领域

本发明涉及麦克风阵列用后置滤波器。

背景技术

出于便利性和灵活性，人们希望针对移动电话机和自动语音识别系统那样的多种应用系统存在免提(hands-free)技术。作为该技术中的重要问题之一，存在由远方的麦克风接收的信号的可靠性由于各种噪声而明显降低的问题。作为该问题的解决方法人们想到了空间滤波，其为了抑制来自规定的方向以外的方向的噪声信号而使用利用了麦克风阵列。麦克风阵列带来了高质量的语音效果，并具有减少噪声的突出的优点。

最近，存在如下的提案(参照文献1：J.Bitzer，K.U.Simmer andK.-D.Kammeyer，“Multi-Microphone Noise Reduction Techniques as Front-end Devices for Speech Recognition，”Speech communication，vol.34，pp.3-12，2001.)。在该提案中，公开了在假设所希望的语音信号和噪声信号之间的相关为不相关时，多通道维纳滤波器得到相对宽带宽的输入，使输出的平方差最小的最优解。而且，可将多通道维纳滤波器，进一步分解为最小方差无失真响应(MVDR：Minimum Variance DistortionlessResponse)波束成形器和其后的维纳后置滤波器。一般地，多通道维纳滤波器与只使用了MVDR波束成形器的情况相比以更高的SN比形成输出。因此，在实际应用的噪声环境中，附加的后置滤波对于提高麦克风阵列的性能来说是很有必要的。

关于上述的后置滤波，提出有各种后置滤波技术(参照文献2：R.Zelinski，“A microphone array with adaptive post-filtering for noisereduction in reverberant rooms，”in Proc.IEEE Int.Conf.on Acoustic，Speech，Signal Processing，vol.5，pp.25782581，1988.、文献3：I.A.McCowan and H.Bourlard，“Microphone Array Post-filter Based on NoiseField Coherence，”IEEE Trans.on Speech and Audio Processing，vol.11，no.6，pp.709-716，2003.、文献4：I.Cohen and B.Berdugo，“Microphone Array Post-filtering for Non-Stationary Noise Suppression，”in Proc.IEEE Int.Conf.on Acoustic Speech Signal Processing，pp.901-904，May 2002.、及文献5：I.Cohen，“Multi-Channel Post-filtering inNon-stationary Noise Environments，”IEEE Trans.Signal Processing，Vol.52，No.5，pp.1149-1160，2004.)。广泛使用之一的多通道后置滤波器最初由Zelinski提出。该后置滤波器(以下称为“泽林斯基(Zelinski)后置滤波器”)，假定是不同的麦克风之间的噪声是完全不相关的噪声场。但是，在实际的环境中，特别如果是接近麦克风的情况和噪声之间的相关性较高的低频域，此假定很难满足。

为了抑制表现较高相关性的噪声，还提出将一般化后的旁瓣消除器(GSC)与泽林斯基(Zelinski)后置滤波器结合的方法(参照文献6：S.Fischer，K.D.Kammeyer，and K.U.Simmer，“Adaptive Microphone Arraysfor Speech Enhancement in Coherent and Incoherent Noise Fields，”inProc 3rd joint meeting of the Acoustical Society of America and theAcoustical Society of Japan，Honolulu，Hawaii，1996.)。但是，也被指出了，GSC和Zelinski后置滤波器在低频区域的工作状况都不好。因此，提出了如下方法，即为了降低高频中的低相关噪声成分而使用Zelinski后置滤波器，而对于降低低频中的高相关噪声成分，进行频谱减法计算(参照文献7：J.Meyer and K.U.Simmer，“Multi-channel speech enhancement in a carenvironment using Wiener filtering and spectral subtraction，”in Proc.IEEE Int.Cont.on Acoustic，Speech，Signal Processing，Munich，Germany，pp.21-24，1997.)。但是，该方法中，与多通道维纳后置滤波器的基本构成相矛盾，并且，为了执行频谱减法计算需要语音激活检测器(VAD)。

以下，对多通道维纳后置滤波器进行说明，并对要解决的课题进行说明。之后，对Zelinski后置滤波器以及作为与其比较而使用的McCowan后置滤波器进行说明。

在存在噪声的环境中具有M个传感器的麦克风阵列的情况下，第m个观测信号X_m(t)由二个成分构成。第一个信号，是利用所希望的声源和第m个传感器之间的冲击(impulse)响应而被转换的所希望的信号。第二个信号是附加的噪声n_m(t)。这样，接收信号由(1)式给出。

X_m(t)＝s(t)*a_m(t)+n_m(t)…(1)

其中，m＝1、2、...、M、，*是卷积算符。若适用短时间傅立叶转换(STFT)，则可如下表示时间-频率区域的所观测的信号。

X(k，l)＝S(k，l)A(k)+N(k，l)…(2)

其中，k是频率指针(index)，1是帧指针。

X^T(k，l)＝[X₁(k，l)，X₂(k，l)，…，X_M(k，l)]…(3)

A^T(k，l)＝[A₁(k，l)，A₂(k，l)，…，A_M(k，l)]…(4)

N^T(k，l)＝[N₁(k，l)，N₂(k，l)，…，N_M(k，l)]…(5)

其目的是根据包含所观测的噪声的信号来估计所希望的信号。如果使用矩阵表示，则估计输出信号T(k，1)则下式给出。

T(k，l)＝W^H(k，l)X(k，l)…(6)

其中，W(k，1)是加权系数，上标符号H是复共轭转置。

若要求使所希望的信号和其估计之间的均方差最小，则得到最优的加权系数，得到多通道维纳滤波器。如果假定所希望的信号和噪声信号相互不相关，则可以进一步将多通道维纳滤波器分解成MVDR波束成形器和维纳后置滤波器。

[式1]

W_{opt} (k, l) = [\frac{Φ_{nn}^{- 1} (k, l) A (k)}{A^{H} (k) Φ_{nn}^{- 1} (k, l) A (k)}] \frac{φ_{ss}^{- 1} (k, l)}{φ_{ss}^{- 1} (k, l) φ_{nn}^{- 1} (k, l)} \cdot \cdot \cdot (7)

在(7)式中，第一项是MVDR波束成形器的项，第二项是维纳后置滤波器的项。MVDR波束成形器针对规定方向进行所希望的信号的无失真MMSE估计。通过利用维纳后置滤波器进一步降低剩余的噪声，可以改进噪声降低能力，并产生高SN比。

作为MVDR波束成形器，提出有Frost的波束成形器(参照文献8：O.L.Frost，“An algorithm for linearly constrained adaptive arrayprocessing，”in Proc.IEEE，vol.60，pp.926-935，1972.)和被一般化的旁瓣消除器(GSC)等若干自适应算法，以及以扩散噪音场的假定为前提的超指向型波束成形器等若干非自应算法。

在以下的讨论中，在不失一般性的范围内，假定事先朝向所希望的信号方向配置麦克风阵列，为了处理各麦克风上的相同的希望的语音信号而将多通道输入进行按比例缩放(scaling)。这时，时间延迟补偿输出如下。

X_m(k，l)＝S(k，l)+N_m(k，l)(m＝1，2，…，M)…(8)

以下，对称之为Zelinski后置滤波器和McCowan后置滤波器的二个后置滤波器进行简单说明。

对于Zelinski后置滤波器提供了一种使用估计的自相关和互相关谱密度，在噪声完全不相关的噪声场中维纳滤波器的解决策略。如果所希望的信号和噪声信号无相关性，噪声具有相同的功率密度，在不同的麦克风之间无相关性，则可将多通道输入自相关和互相关谱密度φx_ix_i(k，l)和φx_ix_j(k，l)简化为：

φx_ix_i(k，l)＝φss(k，l)+φnn(k，l)…(9)

φx_ix_j(k，l)＝φss(k，l)…(10)

基于自相关和互相关谱密度的简化表示(式(9)及(10))，可以将Zelinski后置滤波器写成定式。

[式2]

其中，取实数R{}(涉及全部的传感器对)和平均运算，针对估计误差，有助于提高该后置滤波器的鲁棒性。利用按比例缩放后的麦克风信号估计自相关和互相关谱密度。

但是，实际上，各麦克风中的噪声是无相关性的这样的Zelinski后置滤波器的基本的假定，在实际的环境中是很难满足。考虑该事实，McCowan，放宽了各麦克风中的噪声无相关性的这样的假定，并作出了如下假定，即，各麦克风中的噪声具有相同的功率谱密度，并且相互存在关系，其相关性的大小由相干函数(coherence function)给出。

而且，在所希望的语音信号和噪声信号之间无相关性的假定，和放宽了的噪声之间相关的假定下，可由后述的公式给出多通道自相关和互相关谱密度。其中，Γn_in_j(k，l)是复相干函数(后述的式(17))。

φx_ix_i(k，l)、φx_jx_j(k，l)和φx_ix_j(k，l)可如下简化。

φx_ix_i(k，l)＝φss(k，l)+φnn(k，l)…(12)

φx_jx_j(k，l)＝φss(k，l)+φnn(k，l)…(13)

φx_ix_j(k，l)＝φss(k，l)+Γn_in_j(k，l)φnn(k，l)…(14)

而且，可以基于这些表示，来表达维纳后置滤波器的分子项即语音功率的谱密度φss_(k，l)。

[式3]

φ_{ss}^{(ij)}_(k, l) = \frac{R {φ_{x_{i} x_{j}} (k, l) - \frac{1}{2} R {Γ_{n_{i} n_{j}} (k, l)} (φ_{x_{i} x_{i}} (k, l) + φ_{x_{j} x_{j}} (k, l))}{1 - R {Γ_{n_{i} n_{j}} (k, l)}} \cdot \cdot \cdot (15)

可用下式表达McCowan后置滤波器。

[式4]

G_{M} (k, l) = \frac{\frac{2}{M (M - 1)} Σ_{i = 1}^{M - 1} Σ_{j = i + 1}^{M} φ_{ss}^{(ij)}_(k, l)}{\frac{1}{M} Σ_{i = 1}^{M} φ_{x_{i} x_{i}} (k, l)} \cdot \cdot \cdot (16)

McCowan后置滤波器是以使用办公室中的多通道录音为前提的，是为了在此环境中，与Zelinski后置滤波器相比，实现改进的性能而提出的，但是，如果预先假设的相干函数和实际的相干函数之间存在差别，则会降低性能。

发明内容

本发明的目的是提供一种新的后置滤波器，其具有扩散噪声场中的混合结构。

本发明作为针对如有回音的房间或车厢内环境等、扩散噪声场多的、实际使用的噪声环境的合理模型而提出。在扩散噪声场中，低频噪声有高相关性，高频噪声有低相关性。考虑这些特性，本发明使用了高频噪声(低相关性)用的多通道维纳后置滤波器和低频噪声(高相关性)用的单通道维纳后置滤波器。对于高频，采用改进Zelinski后置滤波器，且该改进Zelinski后置滤波器利用不同的麦克风对充分地考虑、利用了噪声间的相关关系。对于低频，采用了基于判定指向型SN比估计机制的、进一步降低“音乐噪声”的单通道维纳后置滤波器。本发明涉及的后置滤波器，理论上，基于多通道维纳滤波器的基本构成，可以有效地减少扩散噪声场中的高相关噪声和低相关噪声。

本发明涉及的后置滤波器，具有：麦克风阵列，由用于输入语音信号的至少二个麦克风构成；波束成形器，进行从上述麦克风阵列输入的语音信号的成形；分割器，将包含从上述麦克风阵列输入的噪声的目标声音，以规定的频率，至少分割成二个频带；第一滤波器，用于估计在上述麦克风之间噪声不相关的情况下的滤波器增益；第二滤波器，用于估计上述麦克风阵列中的一个麦克风或麦克风阵列的平均信号的滤波器增益；加法器，将上述第一滤波器和上述第二滤波器的输出相加；和基于上述加法器和上述波束成形器的输出来降低噪声的单元。

附图说明

图1是表示完全的扩散噪声场对于频率的MSC函数的图。

图2是本发明所涉及的后置滤波器的框图。

图3是表示改进Zelinski后置滤波器的概略构成的框图。

图4是表示单通道维纳后置滤波器的概略构成的框图。

图5是表示指向系数和频率之间的关系的图。

图6A是表示在各种SNR水平的二个噪声状态下计算出的平均的SEGENR的实验结果的图。

图6B是表示在各种SNR水平的二个噪声状态下计算出的平均的SEGENR的实验结果的图。

图7A是表示在各种SNR水平的二个噪声状态下计算出的平均的NR的实验结果的图。

图7B是表示在各种SNR水平的二个噪声状态下计算出的平均的NR的实验结果的图。

图8A是表示在各种SNR水平的二个噪声状态下计算出的平均的LSD的实验结果的图。

图8B是表示在各种SNR水平的二个噪声状态下计算出的平均的LSD的实验结果的图。

图9A是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9B是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9C是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9D是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9E是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9F是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9G是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

图9H是表示在100km/h速度下的车辆环境中的语音谱图的典型的与日语“どぅぞょろしく”对应的测定例的图。

具体实施方式

[21]参照附图对本发明的实施方式进行说明。在下述的说明中，首先对模型噪音场中的相干函数及其应用进行说明。然后，对扩散噪音场中的混合后置滤波器进行说明，最后，对本发明所涉及的后置滤波器的优点进行说明。

[22]为了给噪音场赋予特征，广泛使用了由下式定义的复相干函数。

[式5]

Γ_{x_{i} x_{j}} (k, l) = \frac{φ_{x_{i} x_{j}} (k, l)}{\sqrt{φ_{x_{i} x_{i}} (k, l) φ_{x_{j} x_{j}} (k, l)}} \cdot \cdot \cdot (17)

其中，φx_ix_j(k，l)是二个信号Xi(t)和Xj(t)之间的互相关谱密度，φx_ix_i(k，l)和φx_jx_j(k，l)分别是Xi(t)和Xj(t)的自相关谱密度。作为特别的重要方法的振幅平方相干(MSC：magnitude-squared coherence)函数，定义为由用于分析噪音场而在本说明书中使用的MSC(k，l)＝|Γx_ix_j(k，l)|²给出的复相干函数的振幅的平方。

作为本说明书的基本假定之一的扩散噪声场，表示为针对多个实际噪声环境的合理的模型。利用以下的MSC函数来给扩散噪音场赋予特征。

[式6]

MSC (k) = {| \frac{\sin (2 πkd / c)}{2 πkd / c} |}^{2} \cdot \cdot \cdot (18)

其中，d是邻接的麦克风的距离，c是声速。在图1中表示相对频率的完全的扩散噪音场的MSC函数。根据图1可以容易地求出下述那样的扩散噪音场的几个特性。

1.MSC函数，是依赖于频率，并依赖于时间的函数。

2.不同的麦克风中的噪声，在低频具有高相关性，在高频具有低相关性。

为了将频谱分成低相关部分和高相关部分，将二个区域分开的过渡频率f_t选择在由f_t＝c/(2d)给出的第一最小值。由于明确地将声速c视为常数，所以过渡频率简单地由二个麦克风之间的距离d决定。

为了将本发明涉及的后置滤波器公式化，进行以下的假定。

(1)所希望的语音信号和噪声信号在各麦克风中是不相关的。

(2)噪声的功率谱密度在各麦克风中是相同的。

(3)不同的麦克风中的噪声是扩散噪声。

实际上可明确的是，假定(1)在通常语音信号处理中被使用，而且，假定(2)和(3)在多数的实际噪声环境中可以实现。

在以下的说明，对用于提高后置滤波器的噪声降低性能的混合后置滤波器进行说明。作为后置滤波器，应用高频区域的改进Zelinski后置滤波器和低频区域的单通道维纳后置滤波器。图2是本发明所涉及的后置滤波器的框图。另外，图3是表示改进Zelinski后置滤波器的概略构成的框图。图4是表示单通道维纳后置滤波器的概略构成的框图。

如图2所示，本发明所涉及的后置滤波器，具有：麦克风阵列10(以下也简单地称为“麦克风”)；高速傅立叶变换器11；时间匹配器12；波束成形器13；频带分割器14；改进Zelinski滤波器增益估计器20(改进Zelinski后置滤波器)；单通道滤波器增益估计器30；加法器40；滤波器41；延迟器42；高速傅立叶反变换器50。

如图3所示，改进Zelinski滤波器增益估计器20具有：互相关谱密度运算器21；平均器22；自相关谱密度运算器23；平均器24；除法器25。另外，如图4所示，单通道滤波器增益估计器30具有：平均器31；噪声位移更新器32；后验(posteriori)SNR运算器33；迟延器34；先验(Priori)SNR运算器35；SAP运算器36；单通道维纳滤波器增益估计器37(单通道维纳后置滤波器)。

在上述这样的构成中，基于各麦克风10中的噪声是相互不相关的假定，需要使无相关性的噪音场中的语音及其估计之间的均方差最小。如上述，在多通道输入的自相关和互相关谱密度中包含相关噪声成分。因此，如果在估计多通道输入的自相关和互相关谱密度中所使用的噪声相关性较小，则认为可以抑制性能的降低。

如图1所示，在扩散噪音场中，不同的麦克风相互不相关噪声成分只存在于过渡频率f_t以上的频率。按照与麦克风之间的距离来决定过渡频率，所以，对于具有不同的要素相互间隔的麦克风，利用不同的过渡频率赋予特征。也就是，对于具有不同的要素相互间隔的不同的麦克风，在不同的频率区域可以被视为不相关噪声。进而，对于某个频率，只对于被限定的麦克风，噪声相互不相关，一般地，对于全部的麦克风不是这样。由此，通过计算出该麦克风对上的多通道输入的自相关和互相关谱密度，可以得到改进Zelinski后置滤波器。具体如下。

按照麦克风阵列的麦克风配置，预先决定过渡频率。具体地是，如果考虑在以距离d_ij分开的传感器i和j(i、j≤M)之间具有要素相互间隔的M传感器阵列，则有用于决定M(M-1)/2的过渡频率的M(M-1)/2的麦克风对。此外，过渡频率可以分别用f_t，ij＝c/(2d_ij)来计算。在这种情况下，由于对于几个麦克风对要素相互间隔相同，所以，过渡频率也相同。例如，在直线上等间隔地排列M个麦克风的情况下，在M(M-1)/2个麦克风中，由于具有(M-1)的不同的要素相互间隔，所以，可以决定由f_t ¹、f_t ²、...、f_t ^M-1表示的(M-1)个不同的过渡频率。此外，不失一般性地，也可以进一步假定过渡频率之间的关系是f_t ¹＜f_t ²＜...＜f_t ^M-1。此外，如果不将M个麦克风等间隔地排列，或不排列在直线上，则也可以以不同的间隔排列M(M-1)/2个的麦克风对全部，在这种情况下，选择M(M-1)/2个过渡频率。

利用高速傅立叶变换器11对从麦克风10输入的例如语音进行傅立叶变换。对傅立叶变换后的信号，利用时间匹配器12，补正输入信号对于各麦克风10之间的同一语音的时间偏差。此外，在这种情况下，也可以使基于高速傅立叶变换器11和时间匹配器12的处理的顺序颠倒。

然后，实施了时间上匹配的语音信号被输入到频带分割器14，频带分割器14，将全部频率以(M-1)个不同的过渡频率f_t ¹、f_t ²、...、f_t ^M-1分割成B₀、B₁、...、B_M-1M个子频带。M个子频带中的B₁、...、B_M-1的(M-1)个子频带，被输入改进Zelinski滤波器增益估计器20。另外，实施了时间上的匹配的语音信号也输入到波束成形器13，进行波束成形后输入滤波器41。

对于输入到改进Zelinski滤波器增益估计器20的(M-1)个的子频带，利用互相关谱密度运算器21计算互相关谱密度，并利用平均器22求出其平均值。此外，在利用平均器22进行平均时，不是针对全部的输入，而是选择在其频带内噪声无相关性的麦克风对中的自相关(互相关)谱密度来进行平均。另外，利用自相关谱密度运算器23运算自相关谱密度，并利用平均器24求出其平均值。此外，如下求出互相关谱密度运算器21和自谱密度运算器23中的噪声信号的谱密度。

对于子频带B_M(1≤m≤M-1)的各频率，假定组Ω_m的麦克风对中的噪声是不相关。在这种情况下，由

φxixi(k，l)＝φss(k，l)+φnn(k，l)…(19)

φxixj(k，l)＝φss(k，l)…(20)

给出多通道输入的自相关和互相关谱密度，根据这些谱密度可以估计所希望的语音和噪声信号的谱密度。

而且，将利用平均器22和24平均后的自动和重叠谱密度，在除法器25中进行除法运算后，输出高频带的滤波器增益(增益函数)。在这里，如果是Zelinski后置滤波器，由于将全部的麦克风对中的自相关(互相关)谱密度进行平均后求出滤波器增益，所以，也包含噪声的相关性较高(脱离假定)的数据。因此，作为结果，滤波器增益的估计鲁棒性较差。另一方面，如果是改进Zelinski后置滤波器，只选择噪声相关性较低(未脱离假定)的数据作为组Ω_m，并在其中进行了平均，所以鲁棒性较高。其中，改进Zelinski后置滤波器的增益函数，如下述给出。

[式7]

G_{mz} (k, l) = \frac{\frac{1}{| Ω_{m} (k) |} \underset{{i, j} &Element; Ω_{m} (k)}}{Σ} R {φ_{x_{i} x_{j}} (k, l)}}{\frac{1}{| Ω_{m} (k) |} \underset{{i, j} &Element; Ω_{m} (k)}}{Σ} [φ_{x_{i} x_{i}} (k, l) + φ_{x_{j} x_{j}} (k, l)]} \cdot \cdot \cdot (21)

此外，在上述说明中，过渡频率的决定，只依赖于麦克风阵列的配置，不依赖于输入信号。另外，自相关和互相关谱密度的估计顺序中所包含的麦克风对的选择，有助于改进Zelinski后置滤波器的计算成本的减少。

另一方面，来自各麦克风10的子频带B₀，被输入单通道滤波器增益估计器30。如果全部的麦克风对中的噪声是高相关的，即使使用了改进Zelinski后置滤波器，也不能根据多通道输入的自相关和互相关谱密度估计所希望的语音信号的自相关谱密度。因此，对于低频，为了估计维纳后置滤波器采用了单通道技术。

首先，输入到单通道滤波器增益估计器30的子频带B₀，由平均器31在通道间被进行平均。被平均后的子频带B₀，输入噪声位移更新器32和后验SNR运算器33。噪声位移更新器32基于来自平均器31和SAP运算器36的信号进行更新处理，并将估计噪声频谱输出到后验SNR运算器33和延迟器34。从后验SNR运算器33到先验SNR运算器35执行详细后述的各种运算。单通道维纳滤波器增益估计器37基于来自先验SNR运算器35的信号，输出低频带中的滤波器增益(增益函数)。

在上述那样的构成中，维纳后置滤波器的增益函数可以改写成如下形式。

[式8]

G_{s} (k, l) = \frac{φ_{ss} (k, l)}{φ_{ss} (k, l) + φ_{nn} (k, l)} = \frac{E [{| S (k, l) |}^{2}]}{E [{| S (k, l) |}^{2}] + E [{| N (k, l) |}^{2}]} = \frac{{SNR}_{priori} (k, l)}{1 + {SNR}_{priori} (k, l)} \cdot \cdot \cdot (22)

其中，E[]是期望算符，SNR_priori(k，l)是用SNR_priori(k，l)＝E[|S(k，l)|²]/E[|N(k，l)|²]定义的先验SNR。

利用先验SNR运算器35所运算的先验SNR(SNR_priori(k，l))的估计，由如下的判定指向性估计机制所更新。

[式]

{SNR}_{priori} (k, l) = α \frac{{| S (k, l - 1) |}^{2}}{E [{| N (k, l - 1) |}^{2}]} + (1 - α) \max [{SNR}_{post} (k, l) - 1.0] \cdot \cdot \cdot (23)

在式(23)中，α(0＜α＜1)是遗忘系数，SNR_post(k，l)是由后验SNR运算器33运算的后验SNR，用SNR_post(k，l)＝|X(k，l)|²/E[|N(k，l)|²]表示。由此，上述那样的判定指向性估计机制大大地减少了“音乐噪声”。

这里，为了提高单通道维纳后置滤波器的性能，极其重要的一点是以高精度估计噪声的功率谱密度E[|N(k，l)|²]。该噪声的功率谱密度，利用如下的基于软决定的近似法得到。

E[|N(k，l)|²]＝βE[|N(k，l)|²]+(1-β)E[|N(k，l)|²|X(k，l)]…(24)

在(24)式中，β(0＜β＜1)是控制噪声估计的更新比率的遗忘系数。

在语音的存在是不确定的状况下，将(24)式的右边的第二项，作为使用式(25)观测的信号的谱密度来估计。

E[|N(k，l)|²|X(k，l)]＝q(k，l)|X_(k，l)|²+(1-q(k，l))E[|N(k，l-1)|²]…(25)

在(25)式中，q(k，l)是语音不存在概率，|X_(k，l)|²是各传感器中的各个噪声的谱密度的平均。此外，

[式10]

{| | X_(k, l) |}^{2} = \frac{1}{M} Σ_{m = 1}^{M} {| Xm (k, l) |}^{2}

。

这样计算各传感器中的各个噪声的谱密度的平均的理由，是因为如果只考虑1个传感器，则有可能产生起因于估计错误的发生了偏差的测量。若假定复高斯统计值模型，并应用贝叶斯定理和全概率定理，则可利用下式给出语音不存在概率。

[式11]

q (k, l) = {(1 + \frac{1 - q^{'} (k, l)}{q^{'} (k, l)} \frac{1}{1 + {SNR}_{priori} (k, l)} \exp (\frac{{SNR}_{post} (k, l) {SNR}_{priori} (k, l)}{1 + {SNR}_{priori} (k, l)}))}^{- 1} \cdot \cdot \cdot (26)

在(26)式中，q′(k，l)是先验的语音不存在概率，根据实验选择适当的值。

用加法器40将如上述求出的高频带和低频带中的滤波器增益(增益函数)进行加法计算，并向滤波器41输出加法计算结果。滤波器41将根据波束成形器13和加法器40的输出而降低了高频带和低频带中的噪声后的信号输出到延迟器42和高速傅立叶反变换器50。高速傅立叶反变换器50将输入信号进行傅立叶反变换，并输出到后级的例如语音识别装置等。另外，由延迟器42输出的信号用于单通道滤波器增益估计器30中的增益函数的计算。

本发明所涉及的后置滤波器，在理论上依据了多通道维纳后置滤波器的框架，应该可以说是维纳后置滤波器。对于低频区域，由(22)式给出的后置滤波器明显是维纳滤波器。对于高频区域，为了利用改进Zelinski后置滤波器进行估计而使用的噪声是不相关的，所以，多通道输入的互相关谱密度提供更正确的语音的自相关谱密度估计。因此，在高频区域所采用的改进Zelinski后置滤波器可以看成是维纳后置滤波器。

如上述构成的本发明所涉及的后置滤波器，作为最优的麦克风阵列用后置滤波器，应着重提供更一般的表达形式。如果是完全不相关的噪声场，只要将本发明所涉及的后置滤波器的过渡频率设定为零，则变成Zelinski后置滤波器。而且，如果是全部噪声完全具有相关性的噪音场，只要将本发明涉及的后置滤波器的过渡频率设定为最高的频率，则变成单通道维纳后置滤波器。

为了确认扩散噪音场中的本发明所涉及的后置滤波器的有效性，在各种车的噪声环境中，对Zelinski后置滤波器、McCowan后置滤波器、和包含单一的单通道维纳后置滤波器的其他的以往的后置滤波器进行了比较。波束成形器，最初适用于多通道噪声信号。而且，利用本发明涉及的后置滤波器进一步使波束成形器进一步提高了其作用。在客观和主观上对性能进行了评价。

实验构成如下。

为了在实际的车辆环境中估计本发明所涉及的后置滤波器的性能，将由要素相互间隔为10cm的相等间隔的3个麦克风构成的线性阵列安装在车的遮阳板上。阵列在驾驶员的正面距离驾驶员约50cm。

在车以50km/h和100km/h的速度在高速道路上行驶过程中，利用全部的通道同时进行多通道噪声录音。噪声主要由发动机噪声、空调噪声和由于轮胎与道路之间的摩擦引起的噪声构成。将由50个日文构成的清晰的语音信号从ATR数据库中取出。将语音和噪声信号的双方，在最初以16位的精度再抽样为12kHz。通过将清晰的语音信号和实际的多通道车辆噪声，以不同的全球SNR水平(-5、20)dB进行人工混合，生成多通道噪声信号。该生成顺序具有以下的优点。

(1)可以看成进行了理想的时间迟延补偿。

(2)由于明确地测量混入条件，所以可以容易使用客观的方法进行性能估计。

通过将图1所示的理论sinc函数和根据实际的噪声录音而计算的测量MSC函数进行比较，对扩散噪音场的有效性进行了调查。根据图1，可以知道，存在瞬间的变化，但是，另一方面，测量MSC函数跟踪理论sinc函数的趋势。其值，满足本发明所涉及的后置滤波器中使用的扩散噪音场的假定。

利用扩散噪声场中的MVDR波束成形器的解决策略即超指向性波束成形器来实现波束成形滤波器。作为与频率k有关的函数的超指向性波束成形器的增益函数是

[式12]

W_{MVDR} (k) = \frac{Γ_{MVDR}^{- 1} (k) A (k)}{A^{H} (k) Γ_{MVDR}^{- 1} (k) A (k)} \cdot \cdot \cdot (27)

。

对于扩散噪声源，表示阵列的噪声降低能力的指向系数(DI)用下式表示，

[式13]

DI (k) = 10 \cdot \log_{10} (\frac{{| W_{MVDR}^{H} (k) A (k) |}^{2}}{W_{MVDR}^{H} (k) Γ_{diffuse} (k) W_{MVDR}^{H} (k)}) \cdot \cdot \cdot (28)

并将该指向系数和频率之间的关系表示于图5。根据图5可以清楚地知道，超指向性波束成形器对抑制低频噪声成分没有效果。

为了客观地估计本发明涉及的后置滤波器，使用了分段SNR(SEGSNR)、噪声降低比(NR)及对数谱距离(LSD)的下述三个客观上的语音质量测量。

分段SNR(SEGSNR)是广泛使用于噪声降低和语音增强算法中的客观的估计方法。将SEGSNR定义为清晰的语音功率，和包含噪声的语音中所包含的噪声信号或利用提出的算法降低了噪声后的信号中所包含噪声信号的比率，并以如下给出。

[式14]

SEGSNR = \frac{1}{L} Σ_{l = 0}^{L - 1} 10 \cdot \log_{10} (\frac{Σ_{k = 0}^{K - 1} {[s (lK + k)]}^{2}}{Σ_{k = 0}^{K - 1} {[s_(lK + k) - s (lK + k)]}^{2}}) \cdot \cdot \cdot (29)

其中，s()、s_()是将利用所试验的算法处理后的参照语音信号和抑制了噪声信号后的信号。另外，L和K表示信号的帧数和每帧(与STFT的长度相等)的采样数。

噪声降低比(NR)，用于对提出的算法的噪声降低性能进行估计。当没有语音时，将NR定义成包含噪声的输入的功率和被增强的信号的功率的比率，并利用下式表示。

[式15]

NR = \frac{1}{| Φ |} \underset{l = Φ}{Σ} 10 \cdot \log_{10} (\frac{Σ_{k = 1}^{K} x^{2} (k, l)}{Σ_{k = 1}^{K} s_{(k, l)}^{2}}) \cdot \cdot \cdot (30)

其中，Φ表示没有语音的帧的组，|Φ|是浓度。X(k，l)和s_(k，l)分别是噪声信号和增强后的语音信号(enhanced signal)。

对数谱距离(LSD)经常用于对所规定的语音信号的失真进行估计。LSD定义为清晰的语音的对数谱和噪声信号的对数谱或利用提出的算法增强后的信号的对数谱之间的距离，并如下给出。

[式16]

LSD = \frac{1}{| Ψ |} \underset{l &Element; Ψ}{Σ} {(\frac{1}{K} Σ_{k = 0}^{K} {[10 \cdot \log_{10} S (k, l) - 10 \cdot \log_{10} S_(k, l)]}^{2})}^{\frac{1}{2}} \cdot \cdot \cdot (31)

其中，Ψ表示存在语音的帧的组，|Ψ|是其基数。S(k，l)和S_(k，l)分别是参照清晰信号和增强后的语音信号的频谱。

将在二个噪声状态(50km/h和100km/h)下，以各种SNR水平计算的平均SEGSNR和NR的结果，分别表示于从图6A到图7B。另外，将LSD的结果表示于图8。涉及各个噪声状态的全部的句子，将实验结果的值平均。在麦克风录音、波束成形器输出、及本发明涉及的后置滤波器的输出时，对性能进行估计。此外，图6A、图7A及图8A是50km/h行驶时，图6B、图7B及图8B是100km/h行驶时。另外，图中的记号，四边形表示波束成形器的输出，菱形表示Zelinski后置滤波器，加号表示McCowan后置滤波器的输出，三角形表示单通道维纳后置滤波器的输出，圆形表示本发明涉及的后置滤波器的输出，图8中的×记号是表示没有施加任何处理的保持原录音状态的信号的平均对数谱距离(LSD)。

如从图6A到图7B所示，波束成形器单独且Zelinski后置滤波器，对于抑制低频噪声成分时未表现充分的性能，不能得到SEGSNR改进和噪声降低的结果。这表示了对上述说明进行确认的结果。将噪声场的适当的相干函数作为参数的McCowan后置滤波器对SEGSNR进行了很大地改进。但是，在所有的噪声状态下，与Zelinski后置滤波器和McCowan后置滤波器相比较，单通道维纳后置滤波器表现了更高的对SEGSNR和NR的改善。而且，本发明涉及的后置滤波器，在全部的试验条件下，给出了与单通道后置滤波器同等的SEGSNR和NR，表现了最高的性能。

关于图8A和图8B的LSD的结果，仅波束成形器、和Zelinski后置滤波器，与没有使用滤波器的情况相比，在所有的SN比中，减少了LSD。单通道维纳后置滤波器，在低SNR情况下，降低了语音的失真，但是，在高SNR的情况下，反而增大了失真。提出的方法和McCowan后置滤波器，在SN比水平的大部分中表现出最低的LSD。

本发明所涉及的后置滤波器的主观性能评价，使用语音频谱图，以及通过非正式的试听试验有效地进行。从图9A至图9H表示100km/h的速度下的车辆环境下的与“どぅぞょろしく”这样的日语句子对应的语音频谱图的典型的测量例。从图9A至图9C分别表示第一麦克风中的原始清晰语音信号、第一麦克风中的噪声信号、第一麦克风中的噪声信号(SNR＝10dB)。图9D是波束成形器的输出，如图5所示由于在低频的噪声抑制上存在弱点，所以存在较大的低频噪声。另外，图9E所示的Zelinski后置滤波器的输出表示，由于低频区域中的噪声的高相关特性，在低频提供了相当受限的性能。图9F表示，McCowan后置滤波器也抑制了低频区域的噪声。但是，由于估计的相干函数和实际的相干函数之间的差异而导致存在残存噪声。单通道维纳后置滤波器，如图9G所示产生了语音失真。图9H是本发明涉及的后置滤波器，表示可以没有附加语音失真地对扩散性噪声进行抑制。在非正式的收听试验中，证明了与其他相比本发明的后置滤波器是优越的。

如上述那样，实际环境中的本发明的后置滤波器的基本假定(扩散噪声场)，比Zelinski后置滤波器(无相关性的噪声场)的假定更合理，所以，本发明涉及的后置滤波器比Zelinski后置滤波器更优越。并且，本发明涉及的后置滤波器在减少低频的高相关噪声成分方面是成功的。

McCowan后置滤波器，其基于噪声场的相干函数而决定。因此，其性能很大地依赖于所假定的相干函数的精度。假定和实际的相干函数之间的差异会导致性能劣化。但是，本发明所涉及的混合后置滤波器，为了区别相关和不相关噪声，只利用了过渡频率，不涉及相干函数的实际的瞬时值，减轻了相干函数之间的误差引起的效果。

本发明所涉及的混合后置滤波器，比在全频带中使用的单通道维纳后置滤波器更优越。基于噪声的特性测量值的单通道维纳后置滤波器，即使采用软决定机制也几乎不能与非固定噪声源对应。但是，基于自相关和互相关谱密度的估计的多通道的技术，即使对于非固定噪声也提供了在理论上所希望的性能。本发明所涉及的改进Zelinski后置滤波器，在高频区域的各个分割频率区域完全提供了该性能。

如上所述，本发明，假定扩散噪声场提出了针对麦克风阵列的后置滤波器。本发明所涉及的后置滤波器，结合高频区域的改进Zelinski后置滤波器和低频区域的单通道维纳后置滤波器而构成。

对于本发明所涉及的后置滤波器，与其他算法相比，有以下的优点。

(1)理论上，本发明所涉及的后置滤波器是维纳后置滤波器，所以符合了多通道维纳后置滤波器的框架。

(2)实际上，本发明所涉及的后置滤波器减少了噪声，在各种车辆的噪声环境下，与其他算法相比，对估计所希望的语音很有效。

根据本发明，可以有效地减少扩散噪声场中的高相关噪声和低相关噪声。

本发明，不限于上述各实施方式，除此以外，可以在实施阶段，不脱离其主旨的范围内实施各种变形。进而，对于上述各实施方式，包含各种阶段的发明，通过对公开的多个构成要件进行适当的变更，可以得到各种发明。

另外，例如，即使从各实施方式所示的全构成要件中删除几个构成要件，也可以解决在发明所要解决的课题栏目中所述的课题，在得到在发明的效果处所述的效果的情况下，可以将删除了该构成要件的构成而得到本发明。

权利要求书(按照条约第19条的修改)

1. (修改后)一种后置滤波器，其特征在于，

具有：麦克风阵列，其由用于输入语音信号的至少两个麦克风构成；

波束成形器，其进行自上述麦克风阵列输入的语音信号的成形；

分割器，其将包含自上述麦克风阵列输入的噪声的目标声音，以规定的频率，至少分割成二个频带；

第一滤波器，其用于估计在上述麦克风之间噪声为低相关情况下的滤波器增益；

第二滤波器，其用于估计在上述麦克风阵列中的一个麦克风或麦克风阵列的平均信号的滤波器增益；

加法器，其将上述第一滤波器和上述第二滤波器的输出相加；以及

基于上述加法器和上述波束成形器的输出来降低噪声的单元，

根据上述频带，利用上述第一及第二滤波器中的任何一方的滤波器估计滤波器增益。

2. 如权利要求1所述的后置滤波器，其特征在于，

上述第一滤波器是改进泽林斯基后置滤波器，上述第二滤波器是单通道维纳后置滤波器。

3. 如权利要求1或2所述的后置滤波器，其特征在于，

上述第一滤波器通过求出互相关谱密度和自相关谱密度之比来估计滤波器增益，

上述第二滤波器，基于后置滤波器的输出信号和后验SNR来计算先验SNR，并基于先验SNR估计滤波器增益。

4. 如权利要求1至3中任意一项所述的后置滤波器，其特征在于，

依据上述麦克风之间的距离来决定利用上述分割器分割的目标声音的频率。

5. (修改后)如权利要求4所述的后置滤波器，其特征在于，

上述第一滤波器，在被分割后的多个频带中，选择在各频带中噪声为低相关的麦克风对来估计滤波器增益。

6. (增加)如权利要求1至5中任意一项所述的后置滤波器，其特征在于，

上述分割器将上述目标声音至少分割成噪声为高相关的频带和噪声为低相关的频带这两个频带。

Claims

1. 一种后置滤波器，其特征在于，

第一滤波器，其用于估计在上述麦克风之间噪声为不相关情况下的滤波器增益；

基于上述加法器和上述波束成形器的输出来降低噪声的单元。

2. 如权利要求1所述的后置滤波器，其特征在于，

3. 如权利要求1或2所述的后置滤波器，其特征在于，

5. 如权利要求4所述的后置滤波器，其特征在于，

上述第一滤波器，在被分割后的多个频带中，选择在各频带中噪声为不相关的麦克风对来估计滤波器增益。