CN108831495A

CN108831495A - 一种应用于噪声环境下语音识别的语音增强方法

Info

Publication number: CN108831495A
Application number: CN201810564920.4A
Authority: CN
Inventors: 曾庆宁; 刘伟波; 罗瀛; 唐滔; 李玉婷
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-16
Anticipated expiration: 2038-06-04
Also published as: CN108831495B

Abstract

本发明公开了一种应用于噪声环境下语音识别的语音增强方法，该方法将利用语音时频域稀疏性原理的基于时频掩蔽的改进MVDR波束形成与改进维纳滤波相结合，采集麦克风阵列语音信号，构建一个基于时频掩蔽的MVDR波束形成器，充分利用语音信号的空间信息，增强目标方向的语音信号，抑制其他方向噪声的干扰，然后通过一个改进的维纳滤波器去除残留的噪声并提高语音可懂度，该方法应用在语音识别前端，能够有效去除噪声，提高语音可懂度，进而提高语音识别系统的识别率，解决了在噪声环境下如何减少语音失真，提高噪声环境下语音的识别率的问题。该方法可应用在家居型机器人，智能语音设备等方面。

Description

一种应用于噪声环境下语音识别的语音增强方法

技术领域

本发明涉及噪声环境下语音识别技术领域，具体是一种应用于噪声环境下语音识别的语音增强方法。

背景技术

随着计算机和互联网技术的发展，语音识别技术取得了显著的进步，开始从科研机构研究逐步走向市场，广泛应用于工业、通信、家庭服务、医疗等各个领域。语音识别主要是为了能够让机器理解人类语言的内容，以执行相应的操作，实现人机交互的目的。

近些年来，语音识别技术发展迅速，单通道语音识别技术在理想环境下已经取得了较高的识别率，如何提高实际场景噪声环境下语音的识别率是现阶段研究人员关注的焦点。为解决噪声污染问题，提高语音可懂度和语音识别率，近年来提出了多种适方法，如谱减法、基于维纳滤波的方法，子空间分解法，最小均方误差估计等，这些算法虽然在一定程度上有效地去除噪声，但同时也不同程度地产生失真和引入音乐噪声，导致增强后语音的识别率并没有得到大的改善。

采用多通道麦克风阵列，与单通道语音识别相比，能更好的采集目标声源信号并提高语音可懂度，目前采用的方法有固定波束形成，自适应噪声抵消等。

发明内容

本发明的目的在于针对安静环境下语音识别率高而噪声环境下识别率急剧下降的问题，而提出了一种应用于噪声环境下语音识别的语音增强方法，该方法能够有效去除实际环境下含噪语音信号中的噪声成分，提高语音识别系统的语音识别率，对于家居型语音交互机器人或移动智能设备有良好的应用前景。

实现本发明目的的技术方案是：

一种应用于噪声环境下语音识别的语音增强方法，是构建一个基于时频掩蔽的MVDR波束形成器，并后置一个改进维纳滤波器对目标声源方向进行语音增强处理，具体包括如下步骤：

1)采用四元麦克风阵列模型接收语音信号，麦克风阵列接收到的带噪语音信号的时域表示为：y_m(t)＝s_m(t)+n_m(t),m＝1,2,……M，其中M表示麦克风数，s_m(t)表示纯净语音信号，n_m(t)表示干扰噪声信号；

2)对步骤1)接收到的带噪语音信号进行短时傅里叶变换，得到时频域信号的表示形式为Y_m(f,t)＝S_m(f,t)+N_m(f,t)，其中Y_m(f,t)、S_m(f,t)、N_m(f,t)分别表示第m个麦克风采集到的在时间t、频率f处的信号、目标声源信号和噪声信号，则所有麦克风阵列信号表示为Y(f,t)＝[Y₁(f,t)，…，Y_M(f,t)]^T；

3)构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器，通过将步骤2)中的麦克风阵列信号的矢量系数与复权因子相乘，得到麦克风阵列初步增强的语音信号；

4)在步骤3)中的构建一个基于时频掩蔽的改进最小方差无畸变响应波束形成器，还后置一个改进维纳滤波器，对步骤3)得到麦克风阵列初步增强的语音信号的目标声源方向进行进一步的语音增强处理，对于经过基于时频掩蔽的MVDR波束形成器后，语音含有噪声残留及语音畸变，使用一个改进的维纳滤波器提高语音的可懂度，得到最终增强后的语音信号；

5)对步骤4)得到的最终增强后的语音信号，提取梅尔频率倒谱系数及其一阶导数，作为特征参数，输入到通过隐马尔可夫模型搭建并使用纯净语音训练好的语音识别系统中进行识别。

所述步骤3)，具体包括如下步骤：

3-1)通过将步骤2)中的麦克风阵列信号矢量系数Y(f,t)与复权因子W_f相乘，得到通过基于时频掩蔽的改进最小方差无畸变响应滤波器增强后的语音信号的表达式为：

其中W(f)＝[W₁(f),W₂(f),…,W_M(f)]，W_f ^H表示加权系数矢量的共轭转置；

为了抑制非目标信号声源，使加权矢量W_f的客观准则为输出信号的信噪比最大，W_f需满足下列约束条件：

W_f ^Hr(f)＝1

其中为噪声协方差矩阵，r(f)为阵列目标声源信号的导向矢量，利用Lagrange乘子法计算即可得到MVDR波束形成器的加权系数向量为：

其中表示麦克风阵列输入信号的协方差矩阵，由此知，准确求得导向矢量是进行波束形成的关键；

3-2)通过求解期望语音信号的协方差矩阵的主特征向量来估计导向矢量r_f，由下面的公式求得，假设语音信号与噪声不相关，则期望语音信号的协方差矩阵为为：

其中分别为在时频点(f,t)包含噪声语音和仅含有噪声的存在概率的作为该点的时频掩蔽，由步骤3-5)求得；

3-3)对步骤3-2)求得期望语音信号的协方差矩阵的进行特征值分解，其最大特征值对应的特征向量即为估计的导向矢量；

3-4)考虑语音信号在时频域的稀疏性，假设语音信号每个时频点可以聚类为两类，一种是包含噪声的语音信号，一类只含有噪声的信号，

基于语音信号在时频域的稀疏性原理，定义一个目标函数进行软时频掩蔽估

计,以此建立一个生成模型，首先假设S_l(f,t)局部遵循复高斯分布：

其中，表示在该时频点的方差，并且

3-5)由步骤3-4)得麦克风阵列信号服从如下所示的复高斯分布：

其中使用最大似然准则估计复高斯分布的参数和R_f ^l，最大似然估计可以通过最大期望算法得到，定义一个最大期望算法迭代后的目标函数：

其中Θ表示估计的参数，是当前时频点所属类别的后验概率，该后验概率通过下列公式计算求得：

其中在进行第K次迭代时，复高斯混合模型的参数遵循下列准则进行更新：

其中K表示迭代次数，时频点(f,t)的时频掩蔽值通过收敛后获得；

3-6)由步骤3-5)求得代入到步骤3-2)中求得期望语音信号的协方差矩阵再对进行特征向量分解，得到最大特征值对应的特征向量即为步骤3-1)所需要的进行波束形成的导向矢量，然后求得基于时频掩蔽的最小方差无畸变响应波束形成器的加权系数向量W_f，

通过下述公式计算得到波束形成后得到的增强语音信号：

经过上述步骤，可以得到麦克风阵列初步增强的语音信号。

所述的步骤4)，具体包括如下步骤：

4-1)通过“直接判决”法，计算先验信噪比估计ξ(k,λ)和后验信噪比估计γ(k,λ)，得到增益函数：

ξ(k,λ)＝aG_w ²(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)

其中ξ(k,λ)是第k个频带的先验信噪比估计，γ(k,λ)是第k个频带的后验信噪比估计，a是小于1的平滑系数；

4-2)为了缓解4-1)中ξ(k,λ)对前一帧语音幅度谱G_w(k,λ-1)的依赖，对其进行再次处理：

4-3)由于在先验信噪比小于-10dB的区域存在对ξ(k,λ)高估，对增强后语音幅度谱大于6.02dB的畸变区域对可懂度有较大影响，针对这种情况分别采用下列方法进行修正：

对小于先验信噪比小于-10dB的区域通过引入偏差来修正增益函数的值，进而提升语音的可懂度，增益函数修正为：

其中，b取值范围为(0，1)，本文中b＝0.2。

对幅度谱畸变大于6.02dB的语音畸变区域进行限制：对语音幅度谱进行修正得到最终增强后的语音：

其中d为大于0小于1的常数，对得到的增强后语音信号的频域进行傅里叶逆变换即得到增强后语音信号的时域表示形式。

步骤5)中，提取的梅尔频率倒谱系数及其一阶导数共24维特征参数。

本发明提供的一种应用于噪声环境下语音识别的语音增强方法，能够准确估计麦克风阵列结构目标语音的声源方向的导向矢量，特别在噪声环境下具有较强的鲁棒性，能够达到较好的去噪效果，能够减少去噪过程中对目标语音产生的畸变，将其应用在语音识别系统的前端，能够对带噪语音信号进行前端处理，提高其在语音识别系统中的识别率。

附图说明

图1为本发明方法的语音识别原理框图；

图2为基于时频掩蔽的最小方差无畸变响应波束形成原理框图；

图3为实施例中的背景噪声为white噪声，且信噪比为0dB情况下的加噪语音信号时域示意图；

图4为实施例中的背景噪声为white噪声，且信噪比为0dB情况下的加噪语音信号经本发明方法去噪后的时域示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种应用于噪声环境下语音识别的语音增强方法，是构建一个基于时频掩蔽的MVDR波束形成器，并后置一个改进维纳滤波器对目标声源方向进行语音增强处理，具体包括如下步骤：

如图2所示，所述步骤3)，具体包括如下步骤：

W_f ^Hr(f)＝1

其中，表示在该时频点的方差，并且

通过下述公式计算得到波束形成后得到的增强语音信号：

经过上述步骤，可以得到麦克风阵列初步增强的语音信号。

所述的步骤4)，具体包括如下步骤：

ξ(k,λ)＝aG_w ²(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)

其中，b取值范围为(0，1)，本文中b＝0.2。

图3与图4为验证本文算法对噪声环境下语音的去噪效果所做的实验验证的举例，图3为背景噪声为white噪声，信噪比为0dB情况下的一段加噪语音信号时域示意图，图4为实施例中的背景噪声为white噪声，信噪比为0dB情况下的加噪语音信号经本发明方法去噪后的时域示意图。由图3与图4可以明显看出，本发明的方法能够对噪声环境下的语音达到很好地去噪效果，然后对使用本发明的方法增强后的语音信号，提取梅尔频率倒谱系数及其一阶导数作为特征参数，输入到通过隐马尔可夫模型搭建的语音识别系统中进行识别，实验验证结果表明本方法能够提高噪声环境下的语音识别率。

Claims

1.一种应用于噪声环境下语音识别的语音增强方法，是构建一个基于时频掩蔽的MVDR波束形成器，并后置一个改进维纳滤波器对目标声源方向进行语音增强处理，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法，其特征在于，所述步骤3)，具体包括如下步骤：

W_f ^Hr(f)＝1

基于语音信号在时频域的稀疏性原理，定义一个目标函数进行软时频掩蔽估计,以此建立一个生成模型，首先假设S_l(f,t)局部遵循复高斯分布：其中，表示在该时频点的方差，并且

通过下述公式计算得到波束形成后得到的增强语音信号：

经过上述步骤，可以得到麦克风阵列初步增强的语音信号。

3.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法，其特征在于，所述的步骤4)，具体包括如下步骤：

ξ(k,λ)＝aG_w ²(k,λ-1)γ(k,λ-1)+(1-a)max(γ(k,λ)-1,0)

其中，b取值范围为(0，1)，本文中b＝0.2。

4.根据权利要求1所述的一种应用于噪声环境下语音识别的语音增强方法，其特征在于，步骤5)中，提取的梅尔频率倒谱系数及其一阶导数共24维特征参数。