CN113851141A

CN113851141A - 一种用麦克风阵列进行噪声抑制的新方法和装置

Info

Publication number: CN113851141A
Application number: CN202111117214.3A
Authority: CN
Inventors: 梁鹏; 梁民
Original assignee: Hefei Zhenxun Information Technology Co ltd
Current assignee: Hefei Zhenxun Information Technology Co ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-28

Abstract

本发明涉及语音通信系统技术领域，公开了一种用麦克风阵列进行噪声抑制的新方法。其技术方案包括：S1、用M个等间距麦克风单元构成的线性阵列，设计一个“延时‑相加”的波束赋型器，来增强麦克风阵列拾取的远场含噪语音信号；S2、用所述波束赋型器输出的增强语音信号和波束赋型器中参考麦克风拾取的语音信号一起构造一个“双麦克风”降噪后处理器，去除或抑制运行环境中相关噪声和散射噪声，获得目标语音信号的估计值。本发明能有效地抑制非相关噪声和相关噪声，特别是“鸡尾酒会效应”和散射噪声，具有较低的计算复杂度，便于在现有的商用DSP芯片上实时实现。

Description

一种用麦克风阵列进行噪声抑制的新方法和装置

技术领域

本发明涉及语音通信系统技术领域，尤其涉及一种用麦克风阵列进行噪声抑制的新方法和装置。

背景技术

随着现代语音通信、自动语音识别、物联网和智能家居等应用技术的飞速发展，远距离拾音技术的研究越来越受到有关学术界和工业界的高度重视。在远距离拾音场景中，由于目标声源远离拾音的麦克风(传感器)，那么麦克风拾取的信号中将存在混响和环境噪声等干扰信号。这些干扰信号的存在，通常使得拾取的信号中信噪比(下面简称SNR)或信干比(下面简称SIR)较低，从而严重影响了诸如语音通信和语音识别等后续处理系统的性能。

含噪语音信号的降噪技术通常分为两大类型：基于单麦克风的降噪技术和基于多麦克风(即麦克风阵列)的降噪技术，最为著名的单麦克风降噪技术有谱减法、Wiener滤波法和最小均方误差(MMSE)法，它们均利用语音的间歇性和噪声的平稳性之假设来估计含噪语音信号的SNR，并据此来进行噪声抑制。这些算法复杂度低，易于实现，因而获得广泛使用。然而它们在实际应用中会产生音乐噪声和语音失真，特别是在非平稳和强干扰电平的噪声场景下。于是基于麦克风阵列的降噪技术便应运而生，其中最为代表性的方法有盲源分离(BBS)(独立分量分析(ICA)为BBS中一种主要技术)和波束赋性技术，然而波束赋型技术在实际应用中，其性能通常要优于BBS方法。波束赋型技术是利用目标声源的方位信息，让麦克风阵列在目标声源方向上形成空间选择性，来选通目标声源而滤除噪声。众多的波束赋型算法中，广义旁边抵消器(GSC)算法和Frost算法展现出可靠的性能。尽管基于麦克风阵列的多声道降噪算法的性能可以通过增加阵列的麦克风数目来进一步地加以改善，但大量的麦克风数目意味着波束赋型算法的计算复杂度剧烈增大，从而难以在现有的商用DSP芯片上实现。此外，波束赋型算法对麦克风阵列运行环境中的相干方向性噪声源具有良好的滤波或抑制能力，但对非相干噪声的抑制通常较差，因此波束赋型器对噪声的抑制量受限于其中的非相干噪声。为此，在波束赋型器的输出，需增加一个后处理来进一步滤除或抑制其残留的非相干噪声分量。Simmer等提出波束赋型器-Wiener滤波的组合结构以消除或抑制非相干噪声，然而在实际的场景中，噪声通常具有“鸡尾酒会效应”(Cocktail-party-effect)和散射场(diffuse)特性，在低频段呈现较强的相关性。有关学者提出在低频段采用谱减法技术而在其它频段采用Wiener滤波方法或者通过考虑噪声场空间统计特性的先验知识来修正维纳滤波器(下面简称Wiener滤波器)的估计以便处理散射噪声场，而Maj等提出应用广义奇异值分解(GSVD)技术来估计Wiener滤波器，与波束赋型器所不同的是该技术不仅可以消去相关噪声，而且还能消除散射噪声，但其巨大的计算负荷无法予以实时实现。而Spriet等将Maj方法在子带域里予以实现，显著地降低了原算法的计算复杂度，但仍离实时实现有相当的距离。

基于单麦克风的降噪技术虽然复杂度低、易于实现，但它们在实际应用中会产生音乐噪声和语音失真，特别是在非平稳和强干扰电平的噪声场景下以及远场条件下。现有的基于麦克风阵列的降噪技术的性能可以通过增加阵列的麦克风数目来进一步地加以改善，但大量的麦克风数目意味着波束赋型算法的计算复杂度剧烈增大，从而难以在现有的商用DSP芯片上实现；此外，波束赋型算法对麦克风阵列运行环境中的相干方向性噪声源具有良好的滤波或抑制能力，但对非相干噪声的抑制通常较差，因此波束赋型器对噪声的抑制量受限于其中的非相干噪声。尽管在波束赋型器的输出增加一个后处理可以消除或抑制非相干噪声，然而在实际的场景中，噪声通常具有“鸡尾酒会效应”(Cocktail-party-effect)和散射场(diffuse)特性，在低频段呈现较强的相关性。而现有处理这一类型噪声的后处理技术之计算复杂度较大，无法实际实现。

为此，必须研发一种具备消除或抑制这些干扰信号预处理能力的远距离拾音系统，以便能显著地提高和改善所拾取信号的SNR(或SIR)，进而提升和改善后续通信系统中的语音质量或语音识别系统的识别性能。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种用于“远距离拾音系统”中的麦克风阵列降噪的新方法和装置。

本发明的第一方面，提出了一种用麦克风阵列进行噪声抑制的新方法，包括以下步骤：

S1、用M个等间距麦克风单元构成的线性阵列，设计一个“延时-相加”的波束赋型器，来增强麦克风阵列拾取的远场含噪语音信号；

S2、用所述波束赋型器输出的增强语音信号和波束赋型器中参考麦克风拾取的语音信号一起构造一个“双麦克风”降噪后处理器，去除或抑制运行环境中相关噪声和散射噪声，获得目标语音信号的估计值。

进一步的，“延时-相加”的波束赋型器是通过同步麦克风阵元信号间的时延来增强所收到的含噪语音信号；

波束赋型器的输出增强语音信号

短时傅里叶变换(下面简称STFT)频谱

和麦克风阵列中的参考麦克风信号x_r(n)的STFT频谱X_r(k，t)一起输至“双麦克风”降噪后处理器，用于计算设计一个后处理滤波器的传递函数G(k，t)，该传递函数对波束赋型器的输出信号频谱

进行加权处理，获得目标语音信号频谱的估计值

进一步的，所述目标语音信号频谱的估计值再经短时傅里叶逆变换后还原成时域的目标语音估计信号

进一步的，“双麦克风”降噪采用改进互功率谱减法，在噪声段对两麦克风噪声间的互功率谱进行自适应学习估计，这一估计将在目标信号出现时从两麦克风观测信号的互功率谱中减去，然后用修正的观测信号互功率谱来计算相干系数用于降噪使用的滤波器传递函数。

为了实现上述目的，根据本申请的第二方面，提供了一种用麦克风阵列进行噪声抑制的装置，包括：

噪音增强模块，用M个等间距麦克风单元构成的线性阵列，设计一个“延时-相加”的波束赋型器，来增强麦克风阵列拾取的远场含噪语音信号；

噪声抑除模块，用所述波束赋型器输出的增强语音信号和波束赋型器中参考麦克风拾取的语音信号一起构造一个“双麦克风”降噪后处理器，去除或抑制运行环境中相关噪声和散射噪声，获得目标语音信号的估计值。

为了实现上述目的，根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行第一方面所述的一种用麦克风阵列进行噪声抑制的新方法。

为了实现上述目的，根据本申请的第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面所述的一种用麦克风阵列进行噪声抑制的新方法。

与现有的基于麦克风阵列噪声抑制技术相比，本发明提出的方法具有如下的有点：

1、较低的计算复杂度，便于在现有的商用DSP芯片上实时实现；

2、能有效地抑制非相关噪声和相关噪声，特别是“鸡尾酒会效应”和散射噪声。

附图说明

图1为本发明一种实施例的原理系统框图；

图2为麦克风阵列的延时参数估计算法流程图；

图3为一种用于双麦克风降噪的改进CPSDS算法流程图。

具体实施方式

下文结合附图和具体实施例对本发明的技术方案做进一步说明。

实施例

首先应用一种低计算复杂度的“延时-相加”波束赋型器来增强麦克风阵列拾取的远场含噪语音信号，然后用该波束赋型器输出的增强语音信号和波束赋型器中参考麦克风拾取的语音信号一起构造一个“双麦克风”降噪后处理器，来自适应地去除和抑制运行环境中的相关噪声和散射噪声，从而有效地提取目标声源信号。本发明提出的麦克风阵列降噪新方法的系统框图如图1所示，其中麦克风阵列为M个等间距麦克风单元构成的线性阵列，它用于设计构造“延时-相加”波束赋型器，以便增强阵列拾取的含噪语音信号；该波束赋型器的输出增强语音信号STFT频谱和麦克风阵列中的参考麦克风信号的STFT频谱一起输至“双麦克风”降噪后处理器模块，用于计算设计一个后处理滤波器的传递，该对波束赋型器的输出信号频谱进行加权处理(即滤波)，以去除和抑制运行环境中相关噪声和散射噪声，从而获得目标语音信号频谱的估计值；该频谱估计再经短时傅里叶逆变换(下面简称ISTFT)后还原成时域的目标语音估计信号。

本实施例中，“延时-相加”波束赋型器的设计原理如下：

假设阵列中麦克风单元间的距离为d(米,m)，声音的传播速度为c(米/秒,m/s)，阵列信号的采样率为Fs(赫兹，Hz)，每个麦克风接收到的数字信号为x_i(n)，i＝1，2，...，M，本发明针对的是远距离拾音场景，麦克风阵列获取的是平面波信号，因而每相邻两个麦克风信号间的时延(单位：样本数)满足下式：

-τ_max≤τ≤τ_max (1)

其中

这里函数ceil{x}表示不小于x的最小整数。

“延时-相加”波束赋型器是通过同步麦克风阵元信号间的时延来增强所收到的含噪语音信号，本发明必须首先估计出时延参数。本发明基于阵列中参考麦克风信号x_r(n)(设r＝1，即麦克风1信号为参考信号)和“延时-相加”波束赋型器在假定时延为时的输出信号

之间的相干系数(coherence)的幅度平方(下面简称MSC)来估计麦克风阵列的时延参数τ，其中

可表示为：

事实上，和间的相干系数在数学上定义为:

其中

为信号x_r(n)和

间的互功率谱，

和

分别是信号x_r(n)和

的自功率谱。那么其相应的MSC则为：

显然有：

在实际工程实现中，相干系数

可以由相应信号x_r(n)和

的STFT频谱X_r(k，t)和

来计算，即

(这里*表示共轭运算)(7)

那么MSC即为：

其中k和t分别为STFT频谱在频域的频点索引和进行STFT变化的时域信号帧的索引。记

在频域上的累加值为

即：

这里设STFT的窗口长度K为偶数，那么麦克风阵列的时延参数τ的估计可由下式确定：

该时延参数的估计值用来获取波束赋型器的输出频谱

用于“延时-相加”波束赋型器设计的麦克风阵列时延参数的估计算法流图如图2所示。

本实施例中制得说明的是，“延时-相加”波束赋型器的关键设计参数τ(即相邻麦克风单元所接收信号之间的相对时延)的求解方法；该方法的最优准则是使波束赋型器输出信号

和麦克风阵列的参考麦克风信号x_r(n)之间相干系数的幅度平方最大化

本实施例中，“双麦克风”降噪后处理滤波器的设计原理如下：

对双麦克风接收的两路观测信号而言，其间的相干系数在目标信号出现时具有较大的幅值(～0.9)，而在目标信号缺席时，如果双麦克风声道中的噪声彼此不相关，那么此时其相干系数的幅值通常较小(～0.1)，因此采用其两路观测信号间的相干系数作为滤波器的传递函数，对含噪语音进行增强处理，便是很自然的事。基于相干系数的双麦克风降噪滤波器在不相关噪声场景下等效于最佳Wiener滤波器，因而取得了较为满意的结果，但是在相关噪声特别是“鸡尾酒会效应”和散射噪声的场景下，其性能将急剧恶化。Maj等提出应用广义奇异值分解(GSVD)技术来估计基于双麦克风信号的Wiener滤波器传递函数，该Wiener滤波器不仅可以消去相关噪声，而且还能消除散射噪声，但其巨大的计算复杂度无法予以实际中实时实现。尽管目前已有将Maj方法在子带域里予以实现，在一定程度上显著地降低了原算法的计算复杂度，但仍离实时实现有相当的距离，因而无法实际应用。为此，有关学者开展了一系列相关的研究，以寻求一种能实际实时应用与实现的解决方案。Akbari Azirani等提出一种基于两麦克风间噪声的互相关功率谱来设计降噪滤波器传递函数的方法(以下简称为互功率谱减法CPSDS)，该方法仅在噪声段对两麦克风噪声间的互功率谱进行自适应学习估计，这一估计将在目标信号出现时从两麦克风观测信号的互功率谱中减去，然后用修正的观测信号互功率谱来计算相干系数用于降噪使用的滤波器传递函数，该方法可以有效地抑制相关和不相关噪声。显然CPSDS技术如同与传统单麦克风降噪的谱减法一样，需要一个性能稳健的语音活性检测器(下面简称VAD)，也会产生较多影响听觉效果的音乐噪声。Guerin等应用基于“雄健”考虑(即：语音信号被认为是短时平稳的，而噪声信号通常考虑为长时平稳的，因此在相邻两帧观测信号有较大的能量增加时可视为有目标语音出现，否则便视为是噪声信号)的“模糊律”(Fuzzy-law)准则对噪声CPSD进行连续的自适应学习估计而无需VAD，以便提高相关功率谱估计的精度，从而降低乃至消除音乐噪声的影响。但该技术在低SNR和非平稳噪声场景下不能取得较为满意的结果。

因此，本发明提出了用于双麦克风降噪后处理的改进CPSDS新方法(以下简称MCPSDS)，在MCPSDS方法中，首先采用基于语音出现概率(下面简称SPP)的噪声CPSD无偏估计算法，对噪声CPSD进行估计，该算法能快速地跟踪噪声统计特性的变化，因而适合非平稳噪声场景；然后，根据这一噪声CPSD的无偏估计，应用决策引导(Decision-directed)技术来有效地估计观测信号CPSD中的先验SNR，并用之设计一个Wiener滤波器从观测信号的CPSD中提取语音信号的CPSD，最后用提取的语音信号CPSD代替CPSDS算法中修正的观测信号CPSD来计算降噪滤波器的传递函数。

具体地，设两个麦克风的观测信号x₁(n)和x₂(n)为：

x₁(n)＝s₁(n)+v₁(n) (11)

x₂(n)＝s₂(n)+v₂(n) (12)

其中s_i(n)和v_i(n)分别为麦克风i的语音信号和噪声信号，i＝1，2。那么在STFT域，方程(11)-(12)可表示为：

X₁(k，t)＝S₁(k，t)+V₁(k，t) (13)

X₂(k，t)＝S₂(k，t)+V₂(k，t) (14)

假设语音与噪声不相关，那么两路观测信号间的CPSD近似满足下式：

现在设计一个Wiener滤波器G_w(k，t)，用它从

中提取

即：

那么G_w(k，t)可表示为：

用(16)式替换CPSDS方法中的观测信号的修正CPSD可得本发明提出的降噪滤波器传递函数为：

用G_MCPSDS(k，t)在频域对麦克风观测信号频谱(比如X₁(k，t))进行加权修正，然后再进行ISTFT变换即可得降噪处理后的语音信号。(18)式表明，本发明提出的降噪滤波器传递函数G_MCPSDS(k，t)与两麦克风间的相干系数

和用于估计语音信号CPSD的Wiener滤波器G_w(k，t)相关联。现在的问题是如何求解Wiener滤波器G_w(k，t)，考察(15)和(17)式，不难发现，G_w(k，t)与下述定义的观测信号CPSD中先验SNR即SNR_{c_pri}(k，t)有关：

其中

那么借助“决策-导向”技术的思想，本发明提出用下述的递归方式来估计SNR_{c_pri}(k，t)，即：

其中

SNR_{c_prst}(k，t)是观测信号CPSD中后验SNR；而递归系数λ(k，t)是按如下方式调节，以便自适应地跟踪运行环境的变化：

λ(k，t)＝0.98-0.30·G_MCPSDS(k，t-1) (23)

由(22)式知，观测信号CPSD中后验信噪比SNR_{c_post}(k，t)的计算涉及两麦克风间噪声互功率谱

的估计。本发明关于单麦克风中噪声功率无偏估计的思想，扩展到双麦克风中噪声互功率谱的无偏估计，其噪声互功率谱无偏估计算法如下：

Step 1--初始化参数：

置时域平滑参数β₁＝0.9，β₂＝0.8；设置最佳先验SNR参数α_opt＝10^1.5，初始化信号帧时间索引t:t＝0；

Step 2--对第t帧和所有的频点k，作下述处理：

Step 2.1、计算后验信号出现概率(SPP)：

这里

为第t-1帧噪声CPSD模的估计；

Step 2.2、计算平滑的后验SPP：

Step 2.3、为避免停滞发生，做如下检验校准：

Step 2.4、更新噪声互功率谱估计的周期图(Periodogram)：

Step 2.5、进行时域平滑获得第t帧的噪声CPSD估计的模：

Step 3--更新信号帧索引t：t＝t+1，并检查估计算法是否需结束？

如果是，则结束；否则，则跳转至Step 2。

另外，相干系数

的确定涉及到观测信号的互功率谱密度

和自功率谱密度

与

的计算，它们的估计在实际中可由下述的时间递归来工程实现，即：

其中λ(k，t)为(23)是定义的递归系数，X_i(k，t)为麦克风i信号x_i(n)的STFT频谱。

综上所述，该算法能快速地跟踪噪声统计特性的变化，因而适合非平稳噪声场景。本发明提出的这种用于双麦克风降噪的改进CPSDS算法，其算法流程图如图3所示。

此外，根据本申请实施例，还提供了一种电子设备，该电子设备包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行上述图1中用麦克风阵列进行噪声抑制的新方法。

根据本申请实施例，还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行图1中用麦克风阵列进行噪声抑制的新方法。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种用麦克风阵列进行噪声抑制的新方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用麦克风阵列进行噪声抑制的新方法，其特征在于，“延时-相加”的波束赋型器是通过同步麦克风阵元信号间的时延来增强所收到的含噪语音信号；

波束赋型器的输出增强语音信号

短时傅里叶变换频谱

和麦克风阵列中的参考麦克风信号x_r(n)的短时傅里叶变换频谱X_r(k，t)一起输至“双麦克风”降噪后处理器，用于计算设计一个后处理滤波器的传递函数G(k，t)，该传递函数对波束赋型器的输出信号频谱

进行加权处理，获得目标语音信号频谱的估计值

3.根据权利要求2所述的一种用麦克风阵列进行噪声抑制的新方法，其特征在于，所述目标语音信号频谱的估计值再经短时傅里叶逆变换后还原成时域的目标语音估计信号

4.根据权利要求1所述的一种用麦克风阵列进行噪声抑制的新方法，其特征在于，“双麦克风”降噪采用改进互功率谱减法，在噪声段对两麦克风噪声间的互功率谱进行自适应学习估计，这一估计将在目标信号出现时从两麦克风观测信号的互功率谱中减去，然后用修正的观测信号互功率谱来计算相干系数用于降噪使用的滤波器传递函数。

5.一种用麦克风阵列进行噪声抑制的装置，其特征在于，包括：

6.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-4任一项所述的一种用麦克风阵列进行噪声抑制的新方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-4任一项所述的一种用麦克风阵列进行噪声抑制的新方法。