CN110970044B

CN110970044B - 一种面向语音识别的语音增强方法

Info

Publication number: CN110970044B
Application number: CN201911180882.3A
Authority: CN
Inventors: 杨玉红; 冯佳倩; 蔡林君; 涂卫平; 艾浩军; 高戈
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-06-07
Anticipated expiration: 2039-11-27
Also published as: CN110970044A

Abstract

本发明公开了一种面向语音识别的语音增强方法，包括：步骤1，利用近端麦克风和远端麦克风录制得到的语音，对干净语音进行估计；步骤2，将步骤1中得到的估计语音作为参考语音信号，计算参考语音和待测降噪语音的包络相关系数，构造和语音识别相关的模型优化目标函数；步骤3，构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到；根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能，并保证了人耳听觉感知质量，更适用于面向语音识别的语音增强。

Description

一种面向语音识别的语音增强方法

技术领域

本发明属于声学技术领域，涉及一种语音增强方法，尤其涉及一种面向语音识别的语音增强方法。

背景技术

随着深度学习在图像领域的迅速发展，人们也开始在语音信号处理中广泛地应用深度神经网络，特别是基于神经网络的单通道语音增强。基于神经网络的语音增强方法充分利用了现有的语音数据，学习到了语音和噪声的统计特性，其对于复杂噪声环境下的鲁棒性更好，因而相比传统方法能得到更优的增强性能。

基于深度学习的语音增强将有噪声的语音映射为干净的语音。在训练阶段，常采用目标函数对模型参数进行优化。但是，改进后的语音模型优化准则与评价准则存在不一致之处。例如，在测量语言可懂度时，大多数评价度量是基于短时间客观可懂度(STOI)进行测量，而模型的优化大多是估计语音和干净语音的均方误差(MSE)。MSE通常在线性频率范围内定义，而人的听觉感知则遵循Mel-频率尺度。于是，2018年Szu-Wei Fu通过将STOI集成到模型优化中，提高了增强语音的可懂度。但在语音识别的实验中，其性能并没有提高。

在2017年，E Vincent等人在实验中指出，影响语音识别性能的可能原因是语音增强的目标。于是，E Vincent等人改进了语音增强的目标信号，不改变语音增强模型，结果发现确实提高了语音识别性能。但此时使用的模型优化目标函数仍然是MSE，没有与人耳听觉感知标准匹配。

为了在保证人耳听觉感知质量的情况下，又能同时提高语音识别性能，本发明提出了一种面向语音识别的语音增强。

发明内容

本发明在保证与人耳听觉感知标准高度匹配的情况下，又能提高语音识别性能，提出了一种面向语音识别的语音增强。

本发明所采用的技术方案是一种面向语音识别的语音增强方法，包括以下步骤：

步骤1，利用近端麦克风和远端麦克风录制得到的语音，对干净语音进行估计；

步骤2，将步骤1中得到的估计语音作为参考语音信号，计算参考语音和待测降噪语音的包络相关系数，构造和语音识别相关的模型优化目标函数；

步骤3，构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到；根据优化结果实现语音增强。

而且，步骤1的实现包括以下子步骤，

步骤1.1，对近端和远端麦克风录制的带噪语音分别做分帧、加窗和短时傅里叶变换，得到C(n,f)和X_i(n,f)，其中n为帧索引，f为频点索引，i为远端阵列麦克风的索引；

步骤1.2，估计干净语音为S_i(n,f)，计算每个时频单元的残差R_i(n,f)，公式如下，

R_i(n,f)＝X_i(n,f)-S_i(n,f)

其中，设定帧搜索范围l，L_min为向前搜索参数，L_max为向后搜索参数，G_i(l,f)表示从近端麦克风信号到远端麦克风的传输函数，由最小化总残差推出，公式如下，

其中，*表示对矩阵做复共轭运算，H表示对矩阵做复共轭和转置运算；

步骤1.3，将估计的干净语音S_id(n,f)做逆傅里叶变换，从频域转化到时域上，作为参考语音信号。

而且，向前搜索参数L_min＝-3，向后搜索参数L_max＝8。

而且，步骤2的实现包括以下子步骤，

步骤2.1，对参考语音和待测降噪语音分别做分帧、加窗和短时傅里叶变换，将信号从时域转换到频域；

步骤2.2，找到参考语音中能量最大的帧，去掉参考语音和待测降噪语音中低于该帧40db以下的信号，然后分别对两个信号进行频带分析；

步骤2.3，根据步骤2.2所得结果计算参考语音和待测降噪语音的短时频谱包络，并用向量表示，得到x_j,m和y_j,m；

步骤2.4，将待测降噪语音进行归一化剪裁；

步骤2.5，计算每个时频单元的相关系数，得到x_j,m和y_j,m的相关系数d_j,m；

步骤2.6，计算所有帧对应的所有频带对应的相关系数的平均值，

其中，J是子带数量，M是帧的数量，d为目标函数的最终表示，范围从0到1，越靠近1，说明语音质量越好。

而且，语音增强的深度神经网络模型采用全卷积神经网络FCN。

本发明方法利用估计语音提高语音识别性能，并保证了人耳听觉感知质量，更适用于面向语音识别的语音增强。

附图说明

图1是本发明实施例的深度神经网络模型。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供的方法能够用计算机软件技术实现流程，也可以采用装置形式提供相应系统。实施例以数据集CHiME3为例对本发明的流程进行一个具体的阐述。

本发明实施例提供的一种面向语音识别的语音增强方法，包括如下流程：

步骤1：利用近端麦克风和远端麦克风录制得到的语音，对干净语音进行估计；

针对步骤1，本实施例可以采用以下步骤实现：

步骤1.1：对近端和远端麦克风录制的带噪语音分别做分帧，加窗，短时傅里叶变换，得到C(n,f)和X_i(n,f)，其中n为帧索引，f为频点索引，i为远端阵列麦克风的索引，即通道索引；

其中，

C(n,f)是近端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示；

X_i(n,f)是远端麦克风录制的带噪语音信号做完短时傅里叶变换的频域表示。

实施例中，远端的麦克风是阵列麦克风，采集的信号是多通道的，i为通道索引。

步骤1.2：估计干净语音为S_i(n,f)，计算每个时频单元的残差R_i(n,f)，公式如下：

R_i(n,f)＝X_i(n,f)-S_i(n,f)

其中设定帧搜索范围l，实施例中向前搜索参数L_min＝-3，向后搜索参数L_max＝8，G_i(l,f)表示从近端麦克风信号到远端麦克风的传输函数，由最小化总残差可推出，公式如下：

其中，*表示对矩阵做复共轭运算，H表示对矩阵做复共轭和转置运算。

步骤1.3：将估计的干净语音S_id(n,f)做逆傅里叶变换，从频域转化到时域上，作为参考语音信号。

步骤2：将步骤1中得到的估计语音作为参考语音信号，计算参考语音和待测降噪语音的包络相关系数，构造和语音识别相关的模型优化目标函数。

针对步骤2，本实施例可以采用以下步骤实现：

步骤2.1：对参考语音和待测降噪语音分帧，加窗，做短时傅里叶变换，将信号从时域转换到频域。

步骤2.2：找到参考语音中能量最大的帧，去掉参考语音和待测降噪语音中低于该帧40db以下的信号，然后分别对两个信号进行频带分析。其中，数值40db是按照本领域计算静音帧的习惯设置。

设j为子带索引，m为帧索引，以

表示参考语音的第m帧的第k个频带，对信号做频带分析，按频率划分子带以后，将第j个子带的范数称为一个时频单元，得到时频单元X_j(m)。将待测降噪语音也做同样的处理，得到对应的时频单元Y_j(m)。

步骤2.3：计算参考语音和待测降噪语音的短时频谱包络，并用向量表示；

参考语音的短时频谱包络用向量表示如下：

x_j,m＝[X_j(m-N+1),X_j(m-N+2),...,X_j(m)]^T

同理可得，待测降噪语音的短时频谱包络y_j,m也可以用类似的方式表示。在本实施例中，N取裁剪之后的全部帧。

步骤2.4：将待测降噪语音进行归一化剪裁，即直接对短时频谱包络y_j,m进行如下计算：

其中，n表示取短时的块数，n∈{1,2,...,N}，相应的短时频谱包络记为x_j,m(n)和y_j,m(n)，

是对短时频谱包络y_j,m(n)做归一化裁剪得到的信号表示，||·||表示二范数，β为信号失真(SDR)的下界，表示如下：

步骤2.5：计算每个时频单元的相关系数，即x_j,m和y_j,m的相关系数d_j,m，计算如下：

其中，

表示做完归一化裁剪的短时频谱包络向量，μ_(·)为对应向量的样本均值，即

为对应向量

的样本均值，

为对应向量x_j,m的样本均值。

步骤2.6：计算所有帧对应的所有频带对应的相关系数的平均值：

其中，J是子带数量，M是帧的数量。d为目标函数的最终表示，范围从0到1，越靠近1，说明语音质量越好。但是在训练过程中应当最小化目标函数，所以求其相反数作为模型优化目标函数。

步骤3：构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到，根据优化结果实现语音增强；

本发明通过语音增强模型将带噪语音映射成干净语音，以达到去噪效果。训练阶段需要一个目标函数优化模型参数。模型参数包括神经网络里面的一些权重参数，具体实施时可以随机初始化，然后根据梯度下降和反向传播修改优化。本实施例的网络模型优选采用的是全卷积神经网络(FCN)，结构如图1所示，FCN模型有8个卷积层。除最后一层仅使用1个卷积核外，前述各层由30个卷积核组成，卷积核尺寸为55。

参见图1，其中有8个卷积层。前7个的卷积层(k＝7)每层有30个卷积核(F＝30)，最后一层只用1个卷积核外，卷积核尺寸为55。

Noisy utterance表示输入为带噪语音；

Convolutional layer表示卷积层；

F filters表示F个卷积核或滤波器；

Batch normalization表示批归一化处理；

LeakyReLU和tanh都是神经网络中常用的激活函数；

Enhanced utterance表示输出为语音增强后的语音。

网络模型还可以采用深度神经网络DNN、卷积神经网络CNN、多层感知机MLP、循环神经网络RNN、LSTM、残差网络ResNet、支持向量机SVM中一种或者多种组合模型。

以上步骤是在CHiME3数据上实施的具体步骤，类似的可以在其他语音数据集上进行相关实验。

本发明在保证人耳感知质量的前提下，利用近端和远端麦克风估计的语音作为参考语音，提高后端语音识别的性能。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向语音识别的语音增强方法，其特征在于，包括以下步骤：

步骤3，构建语音增强的深度神经网络模型，训练目标为估计语音，模型优化目标函数由步骤2得到；根据优化结果实现语音增强；

步骤1的实现包括以下子步骤，

R_i(n,f)＝X_i(n,f)-S_i(n,f)

2.根据权利要求1所述的面向语音识别的语音增强方法，其特征在于：向前搜索参数L_min＝-3，向后搜索参数L_max＝8。

3.根据权利要求1或2所述的面向语音识别的语音增强方法，其特征在于：步骤2的实现包括以下子步骤，

步骤2.4，将待测降噪语音进行归一化剪裁；

4.根据权利要求1或2所述的面向语音识别的语音增强方法，其特征在于：语音增强的深度神经网络模型采用全卷积神经网络FCN。

5.根据权利要求3所述的面向语音识别的语音增强方法，其特征在于：语音增强的深度神经网络模型采用全卷积神经网络FCN。