CN111816200A

CN111816200A - 一种基于时频域二值掩膜的多通道语音增强方法

Info

Publication number: CN111816200A
Application number: CN202010626489.9A
Authority: CN
Inventors: 江家麒
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-23
Anticipated expiration: 2040-07-01
Also published as: CN111816200B

Abstract

本发明涉及一种针对阵列接收语音信号的基于时频域二值掩膜的多通道语音增强方法。利用网络模型输出语音存在概率估计计算二值掩膜，通过该二值掩膜实现对信号时频域的分类及相应的波束形成参数估计，从而获得更好的语音增强效果。其实现过程是：首先利用网络模型对阵列接收信号进行时频域语音存在概率估计，然后利用该估计结果以及接收信号计算阈值，从而计算二值掩膜估计及波束形成相关参数估计从而实现多通道语音增强。相较于现有的阵列接收信号语音增强算法，本发明具有更高的输出信噪比和主观语音质量评估PESQ得分。

Description

一种基于时频域二值掩膜的多通道语音增强方法

技术领域

本发明属于波束形成技术，特别涉及时频域二值掩膜估计的多通道语言增强技术。

技术背景

随着模式识别与机器学习的研究与发展，一部分方法被借鉴至语音增强领域，出现了一系列将机器学习和多通道语音增强相结合的语音增强算法。相较于传统的多通道语音增强算法，这些算法通过机器学习模型对接收信号进行特定掩膜估计，进而对波束形成相关参数进行更准确地估计，能够避免对麦克风阵列的空间分布以及目标方向的先验假设，获得更好的语音增强性能。然而机器学习模型种类繁多，语音信号特征复杂，机器学习和多通道语音增强的结合在模型选择、特征选择以及模型输出结果的应用等方面都有待更广泛和深入的探究。因此，研究基于掩膜估计的多通道语音增强问题有重要的意义。

传统的多通道语音增强理论通常假定麦克风阵列的空间分布以及目标方向是确定的，而实际应用中阵列分布可能不确定，且目标方向往往是不确定的。针对阵列分布不确定及目标方向不确定的多通道语音增强问题，T.Higuchi,N.Ito,T.Yoshioka,etal.Robust MVDR beamforming using time-frequency masks for online/offline ASRin noise[C].IEEE International Conference on Acoustics.IEEE,2016.中公开了一种基于CGMM的(CGMM-Based)多通道语音增强算法利用复高斯混合模型(Complex GaussianMixture Model)进行信号时频域后验概率估计，以此作为掩膜估计值计算波束形成相关参数，完成语音增强。掩膜估计值计算波束形成相关参数包括MVDR波束形成器权向量和后置滤波器权系数。受限于模型复杂度，该算法无法对复杂的语音信号时频域特征进行有效的学习。

L.Pfeifenberger,M.

and F.Pernkopf,DNN-based speech maskestimation for eigenvector beamforming.[C]2017IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),New Orleans,LA,2017,66-70.公开可一种基于深度神经网络DNN的(DNN-Based)多通道语音增强算法利用DNN(DeepNeural Network)进行信号时频域语音存在概率估计，以此作为掩膜估计值计算波束形成相关参数，完成语音增强。

步骤包括：

(1)搭建并训网络，接收语音信号，通过预处理后获得语音信号的时频域数据，利用该网络对经过预处理后的时频域数据进行接收信号时频域语音存在概率的估计；

(2)利用接收信号及语音存在概率估计结果估计导向矢量及噪声协方差矩阵；

(3)利用导向矢量及噪声协方差矩阵估计出MVDR波束形成器权向量和后置滤波器权系数，从而进行MVDR波束形成以及后置滤波处理；

(4)通过逆短时傅里叶变换将滤波结果还原为时域信号。

上述方案在接收信号信噪比持续较高或较低的情况下，该算法对波束形成相关参数的估计严重失真，使得语音增强效果下降。

发明内容

本发明所要解决的技术方案是，提供一种在接收语音信号出现信噪比持续较高或较低的情况下，尽可能消除噪声部分对波束形成的影响的一种波束形成参数估计方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于时频域二值掩膜的多通道语音增强方法，包括以下步骤：

1)搭建并训练网络模型，利用阵列接收语音信号，对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xⁱ(f_k)；利用训练完成的网络模型对经过预处理后的时频域数据Xⁱ(f_k)进行接收信号时频域的语音存在概率

的估计；Xⁱ(f_k)表示第i帧频率为f_k的时频域数据，

表示第i帧频率为f_k的接收信号时频域的语音存在概率估计值；

2)利用时频域数据Xⁱ(f_k)和语音存在概率估计值

计算判决门限

其中，

表示第i帧频率为f_k的接收信号，

M为阵元数，Tr{·}表示求迹，

表示在信号整个时频域求和，^H表示共轭转置；

再基于判决门限

获得时频域二值掩膜估计

3)利用时频域二值掩膜估计

来计算导向矢量

估计值及噪声协方差矩阵估计值

3-1)先利用二值掩膜估计值

计算语音分量协方差矩阵估计值

若

不满秩，则直接进入步骤4)，否则对

做特征分解，将特征分解后的主特征向量

作为导向矢量估计值

进入步骤3-2)；

3-2)利用时频域二值掩膜估计值

计算噪声分量协方差估计值

若

不满秩，则直接进入步骤(4)，否则以此作为噪声协方差矩阵估计值

再进入步骤4)；其中，Γ为时域上的总帧数；

4)对MVDR波束形成器权向量和后置滤波器权系数进行估计，并完成对时频域数据Xⁱ(f_k)的滤波：

4-1)若

不满秩，则波束形成器权向量

后置滤波器权系数

滤波结果Zⁱ(f_k)＝0；

4-2)若

不满秩，则波束形成器权向量

后置滤波器权系数

||。||表示求向量的模长；滤波结果

4-3)若

与

均满秩，则：

其中，中间量

滤波结果

5)通过逆短时傅里叶变换将滤波结果还原为时域信号，得到增强后的时域语音信号。

本发明利用时频域二值掩膜估计值对信号时频域是否为语音进行判断，再利用二值掩膜估计值计算语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值，当语音分量协方差矩阵估计值不满秩，则认为这部分接收信号分量全为噪声，为持续低信噪比的情况，直接滤除；当噪声分量协方差矩阵估计值不满秩，则认为这部分接收信号分量全为语音，为持续高信噪比的情况；当语音分量协方差矩阵估计值与噪声分量协方差矩阵估计值均不满秩，则认为这部分接收信号分量不是持续低信噪比或持续高信噪比的情况，根据时频域二值掩膜估计值得到导向矢估计值及噪声协方差矩阵估计值，再根据导向矢估计值及噪声协方差矩阵估计值计算并设置MVDR波束形成器权向量和后置滤波器权系数。

本发明的有益效果是，能对接收信号持续低信噪比或持续高信噪比的情况进行区分，从而尽可能消除噪声部分对波束形成的影响，获得更高的语音增强效果。

附图说明

图1为本发明的流程图；

图2为本算法与CGMM-Based算法和DNN-Based算法的输出信噪比随输入信噪比变化的比较图；

图3为本算法与CGMM-Based算法和DNN-Based算法输出信号的主观语音质量评估(Perceptual evaluation of speech quality,PESQ)随输入信噪比变化的比较图。

具体实施方式

本发明的基本思想是通过构造一种基于时频域语音存在概率估计值的二值掩膜估计，创造一种新的波束形成参数估计方法，利用二值掩膜估计对信号时频分量进行分类，尽可能消除噪声部分对波束形成的影响。

实施例步骤如图1所示：

步骤1、根据语音信号数据生成卷积神经网络CNN输入特征，估计语音存在概率。

假设时频域接收信号为：

Xⁱ(f_k)＝aⁱ(f_k，θ)·Sⁱ(f_k)+Nⁱ(f_k)

其中Sⁱ(f_k)为第i帧频率为f_k的声源信号分量，aⁱ(f_k，θ)∈C^M×1表示阵列对f_k频率信号的导向矢量，Nⁱ(f_k)∈C^M×1为零均值加性高斯白噪声在第i帧f_k频率处的噪声分量，M为麦克风阵元数量。

令

表示第i帧阵列接收信号f_k频率分量与自身共轭转置的乘积：

对其做特征分解，用主特征向量

对应的余弦距离序列

构成二维矩阵Ωⁱ，以此作为CNN的输入：

其中L为信号帧数，

Δ为余弦距离序列长度，

表示

的主特征向量

与第

的主特征向量

之间的余弦距离，即：

CNN模型由六层卷积层与三层池化层外加一层全连接层构成，其中每两层卷积层后连接一层池化层以压缩二维数据量，重复三次后最后连接全连接层，获得一维输出语音存在概率估计

CNN的训练以训练集数据计算得到Ωⁱ作为输入特征，标签(lable)为对应的时频域语音存在概率理论值序列

其中，语音存在概率定义为：

和

分别表示第i帧阵列接收信号f_k频率语音分量与自身共轭转置的乘积和噪声分量与自身共轭转置的乘积，即：

步骤2、利用接收信号及语音存在概率估计结果计算判决门限

进而获得时频域二值掩膜估计

设置判决门限为语音分量平均功率与接收信号平均功率的比值，即：

其中，

通过整个时频域上

的迹的均值与阵元数之商估计，即：

根据语音存在概率定义，利用

与

的迹估计

之迹

通过整个时频域上

的迹的均值与阵元数之商估计，即：

其中，M为阵元数，tr{·}表示求迹，

表示在信号整个时频域求和。

综上，二值掩膜判决门限估计

为：

利用语音存在概率估计结果

基于判决门限估计值

获得二值掩膜估计

步骤3、利用时频域二值掩膜估计导向矢量

及噪声协方差矩阵

利用二值掩膜估计值

计算语音分量协方差矩阵：

若

不满秩，进入步骤4，否则对

做特征分解，将其主特征向量

作为导向矢量估计值

利用二值掩膜估计值

计算噪声分量协方差矩阵：

若

不满秩，进入步骤4，否则以此作为噪声协方差矩阵估计值

步骤4、利用两项参数估计结果进行MVDR波束形成以及后置滤波处理。

根据最小均方误差准则，多通道维纳滤波可分解为一个MVDR波束形成器与一个单通道后置滤波器的级联，即：

其中，w_MVDR为MVDR波束形成器权向量，即：

G为后置滤波器权系数：

其中，

估计MVDR滤波器权向量

及后置滤波系数

对每个时频点上的阵列接收信号Xⁱ(f_k)进行MVDR波束形成以及后置滤波：

根据步骤3所得结果，若

不满秩，代表这部分接收信号分量几乎全为噪声，考虑直接滤除，则获得MVDR波束形成器权向量估计：

后置滤波器权系数估计：

滤波所得Zⁱ(f_k)＝0。

若

不满秩，代表这部分接收信号分量几乎全为语音，则获得MVDR波束形成器权向量估计：

后置滤波器权系数估计：

滤波所得

若

与

均满秩，代表这部分不是持续高信噪比或低信噪比接收信号分量，则获得MVDR波束形成器权向量估计：

后置滤波器权系数估计：

其中，

滤波所得

步骤5、通过逆短时傅里叶变换将时频域滤波结果Zⁱ(f_k)还原为时域信号z(t)。

根据步骤4对接收信号时频域所有分量进行滤波可得：

其中Γ为该段语音的帧数，L为窄带频段数。

对Z进行逆短时傅里叶变换，即将其每帧信号进行逆傅里叶变换：

z^p＝[z(t_p)，z(t_p+1)，...，z(t_p+L-1)]

其中t_p为该帧时域信号的起始时刻，z(t_p+i)为：

将所有z^p进行拼接合并，得到增强后的时域语音信号z(t)。

如图2所示，在-5dB到10dB输入信噪比环境下，本算法所得语音增强输出信噪比始终高于CGMM-Based算法和DNN-Based算法。图3显示在同样的输入信噪比环境下，本算法所得语音增强结果相较于CGMM-Based算法和DNN-Based算法同样有明显较高的PESQ得分。图2及图3的结果显示本算法相较于两种对比算法具有较明显的语音增强性能提升。