CN110148420A

CN110148420A - 一种适用于噪声环境下的语音识别方法

Info

Publication number: CN110148420A
Application number: CN201910581762.8A
Authority: CN
Inventors: 曾庆宁; 卜玉婷; 刘伟波
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2019-06-30
Filing date: 2019-06-30
Publication date: 2019-08-20

Abstract

本发明公开了一种适用于噪声环境下的语音识别方法，该方法对经双微麦克风阵列采集的含噪语音信号构建综合了最小方差无畸变响应波束形成与对角加载的波束形成器，并利用递归矩阵求逆的方法减少计算复杂度，得到进行波束形成后初步去噪的语音信号；再后置调制域谱减法对初步去噪后的语音信号做进一步处理，去除残留的噪声并减少语音畸变，得到最终去噪处理后的语音信号；另外本发明方法采用卷积神经网络进行语音模型的训练，提取语音深层次的特征。该发明方法解决了噪声环境下语音识别率下降的问题，具有较好的稳健性，可应用在家居机器人，智能音箱以及噪声环境下工作的语音设备等方面。

Description

一种适用于噪声环境下的语音识别方法

技术领域

本发明涉及语音识别技术领域，具体是一种适用于噪声环境下的语音识别方法。

背景技术

21世纪以来，我国的语音识别研究发展迅速，并涌现出相当一部分优秀企业，在一些领域达到了世界领先水平，并生产了市场占有率很高的产品，如科大讯飞公司的翻译机在出国旅游人群中得到了广泛的应用。目前，基于深度神经网络的声学模型已经显著提高了语音识别的性能，特别是在近场条件下。然而，在实际应用中，远场和混响语音识别仍然是一个具有挑战性的问题。

在实际应用环境中，稳健性语音识别是信号处理和语音识别领域人们共同关心的问题，这是一个最近几十年来最具有挑战性的任务之一。一个主要原因是目标语音混杂有各种背景噪音。语音信号处理方法能够从受到干扰的语音数据中提取所需的源信号，以此来提高语音识别的精度。为此，多通道技术由于其相比于单通道技术不仅在时频域而且还可以在空间域利用信息，因此得到广泛的应用。

多通道线性滤波，也称为波束形成器，已经得到了充分的研究,但在语音识别领域中得到广泛应用的方法还不是很多。有研究者在语音识别应用领域探索了更广泛的波束形成实现方法，例如，有研究使用基于时频掩蔽的波束形成方法应用到语音识别任务中，有效抑制了噪声干扰并提高了语音识别率。

发明内容

本发明的目的在于针对现有噪声环境下识别率急剧下降的问题，而提供一种适用于噪声环境下的语音识别方法，该方法能够有效去除实际环境下含噪语音信号中的噪声成分，通过采用卷积神经网络从原始语音数据中提取高维隐含的特征，有力地处理数据的可变性和丰富性，减少了神经网络训练的参数。

实现本发明目的的技术方案是：

一种适用于噪声环境下的语音识别方法，包括如下步骤：

1)双微麦克风阵列语音信号，并对采集的语音信号建立如下形式模型：

y_m(t)＝x_m(t)+n_m(t) m＝1,2,...,M (1)

上述公式(1)中，M表示麦克风数量，x_m(t)表示纯净语音信号，n_m(t)表示加性的噪声和干扰信号，y_m(t)表示含噪语音信号；

2)对步骤1)采集到的含噪语音信号进行傅里叶变换，得到频域，频域表达式为：

Y(l,k)＝X(l,k)+N(l,k) (2)

上述公式(2)中，Y(l,k)是含噪语音信号频谱，X(l,k)是原始纯净语音信号频谱，N(l,k)是噪声信号频谱，l是时间索引，k是频率索引；

3)构建综合最小方差无畸变响应波束形成与对角加载的双微阵列语音波束形成器，并利用递归矩阵求逆的方法减少了原先大量矩阵求逆运算导致的计算复杂度，求得波束形成器的复数加权系数，将步骤2)中的麦克风阵列信号的矢量系数与波束形成器求得的复数加权系数相乘，得到麦克风阵列初步去噪的语音信号；

4)在构建的双微阵列语音波束形成器之后，后置调制域谱减法，对步骤3)得到的经麦克风阵列初步去噪的语音信号的目标声源方向进行处理，进一步去除噪声残留及语音畸变，提高语音的可懂度，得到最终去噪后的语音信号；

5)对步骤4)得到的最终去噪后的语音信号，提取梅尔频率倒谱系数及其一阶、二阶导数共39维，作为特征参数，并输入到通过卷积神经网络模型训练的语音识别系统中进行识别。

所述的步骤3)，具体包括如下步骤：

3-1)最小方差无畸变响应(MVDR)满足以下约束优化问题：

上述公式(3)中，R_n是噪声协方差矩阵，w是波束形成器的加权系数，w^H是加权系数的共轭转置，D(k)是期望语音信号导向矢量，采用Lagrange乘子法，定义函数：

上述公式(4)中，λ≥0，是Lagrange乘子，R_n是噪声协方差矩阵；

3-2)将3-1)中的函数对w求导，并令该导数为0，得到：

进行求解得到加权向量的值为：

3-3)将3-2)中求得的W代入步骤3-1)的约束条件中，求得：

上述公式(7)中，上式的D(k)表示期望信号导向矢量，D^H(k)表示期望信号导向矢量的共轭转置，为噪声信号协方差矩阵的逆矩阵，进而可求出最优加权向量为

3-4)将步骤3-3)中的麦克风阵列信号的矢量系数与求得的最优加权向量W_MVDR相乘，可得到麦克风阵列初步去噪的语音信号；

3-5)引入对角加载的方法，抑制步骤3-3)中的协方差矩阵R_n中小特征值扰动造成偏差的输出性能的影响：

上述公式(8)中，为对角加载后协方差矩阵，ε为对角加载量，R_n为进行对角加载前的噪声信号的协方差矩阵，I为单位矩阵，将协方差矩阵对角加载抑制非相关噪声，其中的协方差矩阵为：

得到对角加载后的权向量为：

3-6)为了减少MVDR波束形成器中的加权向量，通过对协方差矩阵进行求逆运算导致的计算复杂度较高的问题，采用递推算法，减少矩阵求逆运算量，假设在空域滤波结构中，噪声与语音信号相互独立，含噪语音信号的功率谱密度为Φ_y＝E(YY^H)，且满足有Φ_y＝Φ_x+Φ_n；

3-7)对功率谱密度在时间上求平均进行估计：

上述公式(11)中，Φ_n为噪声的功率谱密度，Φ_x+n为含噪语音的功率谱密度；α_n和α_x为一固定常数，通过以下步骤3-8)求得；

3-8)α_n和α_x表达式为：

对含噪语音端点检测，当检测到语音帧时μ_x＝1，噪声帧时μ_x＝0，其中

根据矩阵求逆引理，相关矩阵求逆运算后可表示为：

3-9)对步骤3-8)进一步简化，令最后递推得到MVDR波束形成器的加权向量为：

3-10)将求得的递归矩阵求逆的MVDR的权值矢量系数与含噪双微阵列语音信号的频谱相乘即得到进行波束形成去噪后的语音信号为：

经过上述步骤，可以得到麦克风阵列初步去噪的语音信号。

步骤3-6)中的递推算法，基本流程为：

3-6-1)计算初始噪声的相关矩阵即功率谱密度进行求逆运算，得到初始化权值；

3-6-2)开始对初始噪声段进行Woodbury更新；

3-6-3)进入语音段处理，前一帧的求逆相关矩阵替代当前帧的相关矩阵；

3-6-4)进入噪声段处理，对3-6-2)中的相关矩阵进行Woodbury更新；

3-6-5)递推完成整个信号长度的运算。

所述的步骤4)，具体包括如下步骤：

4-1)对步骤3-10)求得的语音信号的频谱估计使用极坐标表示形式，表示为表示语音幅度谱，表示语音相位谱，对再次进行傅里叶变换，从频域进入调制域，则的表达式为：

上述公式(16)、(17)中，l表示调制帧，u表示调制频率，表示调制域幅度谱，表示调制域相位谱，P(l,k,u)表示噪声调制谱，是调制域谱减法处理后估计的语音信号；

4-2)在调制域采用谱减法的方法，得到调制域幅度谱为：

上述公式(18)中，η是过减因子，λ是增益补偿因子,是估计的调制噪声谱,由下式得到：

上述公式(19)中，γ为平滑系数，将得到的语音调制域幅度谱，再结合含噪语音调制域相位谱进行傅里叶逆变换，得估计的最终纯净语音信号频域幅度谱为：

4-3)对步骤4-2)得到的语音幅度谱，再结合含噪语音的相位谱进行傅里叶逆变换即得到最终消噪后的信号为：

所述的步骤5)，具体包括如下步骤：

5-1)采用的语音特征参数为13维的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)及其一阶差分、二阶差分共同组成39维的特征向量，然后拼接当前帧结合前后各5帧的共11帧参数，不足5帧的进行补零，组合好的MFCC参数特征共429维；

5-2)采用卷积神经网络进行语音模型的训练，卷积神经网络模型结构包含卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2；

5-3)步骤5-2)中卷积神经网络的参数设置为：

第一个卷积层采用5*5的卷积核采样窗口，步长为1，32个卷积核抽取特征，把输入和权值向量进行卷积，再加上偏置值，然后输入到激活函数为Leaky_relu函数的激活层；池化层采用2×2大小的最大池化，步长为2，提取对应窗口的最大值；第二个卷积层采用5*5的卷积核采样窗口，64个卷积核抽取特征，同样进行最大池化；最后把池化层2的输出扁平化为1维，有序连接成一个向量作为第一个全连接层的输入，同时，为了防止过拟合引入dropout机制，在不同的训练过程中随机丢弃一部分神经元，提升模型的泛化能力，全连接层的节点数为1024个节点，初始权值系数和偏置系数均采用截断正态分布随机数truncated_normal，该函数具有截断功能，可以生成相对比较温和的初始值，优化函数使用Adam，使用交叉熵损失函数，初始学习率为0.0001，语音标签信息采用one-hot编码，训练时一次取10条数据训练。

本发明提供的一种适用于噪声环境下的语音识别方法，在噪声环境下具有较强的稳健性，能够达到较好的去噪效果，对噪声环境下的语音识别率得到了明显的提升，相对于未经处理的含噪语音，经麦克风阵列算法处理后，在卷积神经网络模型上，语音识别率得到了明显的改善，说明本发明方法在语音识别系统前端使用双微阵列的结构进行消噪处理，来提高语音识别率的方法是切实可行的能够减少去噪过程中对目标语音产生的畸变，将其应用在语音识别系统的前端，能够对带噪语音信号进行前端处理，提高其在语音识别系统中的识别率。

附图说明

图1为本发明方法的语音识别流程图；

图2为本方法采用的双微阵列模型结构；

图3为对一段含噪声语音信号，噪声为Noise-92噪声库中的F16噪声，信噪比为0dB；

图4为实施例中的采用本发明方法对图3所示含噪语音进行实验得到的语音时域波形仿真图；

图5为本发明方法采用的卷积神经网络结构；

图6为在不同信噪比babble噪声环境下使用本发明方法后的语音识别准确率。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述，但不是对本发明的限定。

实施例：

如图1所示，一种适用于噪声环境下的语音识别方法，包括如下步骤：

1)通过如图2所示的双微麦克风阵列模型采集语音信号，并对采集的语音信号建立如下形式模型：

y_m(t)＝x_m(t)+n_m(t) m＝1,2,...,M (1)

Y(l,k)＝X(l,k)+N(l,k) (2)

所述的步骤3)，具体包括如下步骤：

3-1)最小方差无畸变响应(MVDR)满足以下约束优化问题：

上述公式(3)中，R_n是噪声协方差矩阵，w是波束形成器的加权系数，w^H是加权系数的共轭转置，D(k)是期望语音信号导向矢量，，采用Lagrange算子，定义函数：

上述公式(4)中，λ≥0，是Lagrange乘子，R_n是噪声协方差矩阵。

3-2)将3-1)中的函数对w求导，并令该导数为0，得到：

进行求解得到加权向量的值为：

3-3)将3-2)中求得的W代入步骤3-1)的约束条件中，求得：

上述公式(7)中，D(k)表示期望语音信号导向矢量，D^H(k)表示期望语音信号导向矢量的共轭转置，为噪声信号协方差矩阵的逆矩阵，进而可求出最优加权向量为

上述公式(8)中，为对角加载后协方差矩阵，ε为对角加载量，R_n为进行对角加载前的噪声信号的协方差矩阵，本实施例中ε取0.01，I为单位矩阵，将协方差矩阵对角加载抑制非相关噪声，其中的协方差矩阵为：

得到对角加载后的权向量为：

步骤3-6)中的递推算法，基本流程为：

3-6-2)开始对初始噪声段进行Woodbury更新；

3-6-5)递推完成整个信号长度的运算。

3-7)对功率谱密度在时间上求平均进行估计：

3-8)α_n和α_x表达式为：

对含噪语音端点检测，当检测到语音帧时μ_x＝1，噪声帧时μ_x＝0；其中本实施例中取固定常数0.95；

根据矩阵求逆引理，相关矩阵求逆运算后可表示为：

经过上述步骤，可以得到麦克风阵列初步去噪的语音信号。

步骤3-6)中的递推算法，基本流程为：

3-6-2)开始对初始噪声段进行Woodbury更新；

3-6-5)递推完成整个信号长度的运算。

所述的步骤4)，具体包括如下步骤：

上述公式(16)、(17)中，l表示调制帧，u表示调制频率，表示调制域幅度谱，表示调制域相位谱，P(l,k,u)表示噪声调制谱，

是调制域谱减法处理后估计的语音信号；

4-2)在调制域采用谱减法的方法，得到调制域幅度谱为：

为验证本实施例以上去噪方法的具体效果，如图3所示为一段含噪声语音信号，噪声为Noise噪声库中的F16噪声，信噪比为0dB；如图4所示，为采用本发明方法对含噪语音去噪后得到的语音时域波形仿真图；

所述的步骤5)，具体包括如下步骤：

5-2)采用卷积神经网络进行语音模型的训练，其中卷积层和池化层是其核心也是优势所在，相比其他神经网络的优势在于可以大大减少参数的数量，如图5所示，卷积神经网络模型结构包含卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2；

5-3)步骤5-2)中卷积神经网络的参数设置为：

为验证本发明方法的效果，采用双微阵列结构采集语音数据共1500条语音数据，利用本发明方法处理不同信噪比下的语音数据。图6所示为在babble噪声环境，信噪比分别为-5dB、0dB、5dB、10dB的语音经本发明方法处理后的语音识别率。可以看出采用本发明方法处理含噪语音后，babble噪声环境下的语音识别率相对于未做处理的噪声语音得到了较大提升。

Claims

1.一种适用于噪声环境下的语音识别方法，其特征在于，包括如下步骤：

1)采集双微麦克风阵列语音信号，并对采集的语音信号建立如下形式模型：

y_m(t)＝x_m(t)+n_m(t) m＝ 1,2,...,M (1)

Y(l,k)＝X(l,k)+N(l,k) (2)

上述公式(2)中，X(l,k)表示原始纯净语音信号频谱，N(l,k)表示噪声信号频谱，Y(l,k)表示含噪语音信号，l是时间索引，k是频率索引；

2.根据权利要求1所述的一种适用于噪声环境下语音识别方法，其特征在于，所述的步骤3)，具体包括如下步骤：

3-1)最小方差无畸变响应(Minimum Variance Distortionless Response，MVDR)满足以下约束优化问题：

上述公式(3)，R_n是噪声协方差矩阵，w是波束形成器的加权系数，w^H是加权系数的共轭转置，D(k)是期望语音信号导向矢量，采用Lagrange乘子法，定义函数：

3-2)将3-1)中的函数对w求导，并令该导数为0，得到：

进行求解得到加权向量的值为：

3-3)将3-2)中求得的W代入步骤3-1)的约束条件中，求得：

其中，上式的D(k)表示期望信号导向矢量，D^H(k)表示期望信号导向矢量的共轭转置，为噪声信号协方差矩阵的逆矩阵，进而可求出最优加权向量为

上述公式(8)中，为对角加载后噪声信号的协方差矩阵，ε为对角加载量，R_n为进行对角加载前的噪声信号的协方差矩阵，I为单位矩阵，将协方差矩阵进行对角加载抑制非相关噪声，其中的协方差矩阵为：

得到对角加载后的权向量为：

3-7)对功率谱密度在时间上求平均进行估计：

上述公式(11)中，Φ_n为噪声的功率谱密度，Φ_x+n为含噪语音的功率谱密度；α_n和α_x为固定常数，通过以下步骤3-8)求得；

3-8)α_n和α_x表达式为：

对含噪语音端点检测，当检测到语音帧时μ_x＝1，噪声帧时μ_x＝0，其中根据矩阵求逆引理，相关矩阵求逆运算后可表示为：

经过上述步骤，可以得到麦克风阵列初步去噪的语音信号。

3.根据权利要求2所述的一种适用于噪声环境下语音识别方法，其特征在于，步骤3-6)中的递推算法，基本流程为：

3-6-2)开始对初始噪声段进行Woodbury更新；

3-6-5)递推完成整个信号长度的运算。

4.根据权利要求1所述的一种适用于噪声环境下语音识别方法，其特征在于，所述的步骤4)，具体包括如下步骤：

4-2)在调制域采用谱减法的方法，得到调制域幅度谱为：

5.根据权利要求1所述的一种适用于噪声环境下语音识别方法，其特征在于，所述的步骤5)，具体包括如下步骤：

5-3)步骤5-2)中卷积神经网络的参数设置为：