CN111899750B

CN111899750B - 联合耳蜗语音特征和跳变深层神经网络的语音增强算法

Info

Publication number: CN111899750B
Application number: CN202010743992.2A
Authority: CN
Inventors: 兰朝凤; 刘春东; 张磊; 康守强; 郭小霞; 韩闯
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2022-06-14
Anticipated expiration: 2040-07-29
Also published as: CN111899750A

Abstract

本发明公开了联合耳蜗语音特征和跳变深层神经网络的语音增强算法，采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；分析DNN与Skip‑DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip‑DNN的语音增强模型，由实验可知，联合改进MRCG和Skip‑DNN的语音增强模型比MRACC与MRCG增强效果好；同时，在低信噪比与非平稳背景噪声环境中，Skip‑DNN滤除了部分“音乐噪声”，很好的拟合了改进MRCG与IRM之间复杂的非线性关系，提高低信噪比环境中语音增强效果，获得更清晰的语音特征，可有效提高语音可懂度和语音质量。

Description

联合耳蜗语音特征和跳变深层神经网络的语音增强算法

技术领域

本发明涉及语音增强技术领域，具体为联合耳蜗语音特征和跳变深层神经网络的语音增强算法。

背景技术

单通道语音增强是一种有趣且充满挑战的技术，其主要目的在于提高语音质量，增强语音可懂度，使噪声环境中的目标语音更加清晰。因其较为实际的功能，使得工程上有许多应用，例如，助听器、通讯设备以及鲁棒性语音识别等领域，单通道语音增强都起到了重要作用。

几十年来许多人致力于单通道语音增强的研究，提出了许多方法。大致可分为两种，无监督与有监督的语音增强算法。其中，无监督算法包括谱减法、维纳滤波法以及MMSE-STSA法等，其中MMSE-STSA在低信噪比与非平稳背景噪声环境中，对信号降噪处理后又引进新的“音乐噪声”。因此许多人提出了MMSE-STSA的改进，例如，根据人耳听觉感知与语音幅度的对数成正比关系这种特点，提出了最小均方误差对数短时谱幅值、估计增益因子的方法等。然而，由于低信噪比和非平稳噪声环境的影响，大多数无监督算法不能正确地估计先验信噪比，无法有效地抑制“音乐噪声”。

随着机器学习的不断发展，一些学者把目光投向了基于浅层神经网络和深层神经网络的有监督语音增强算法。其中，浅层神经网络包括基于隐马尔可夫模型和非负矩阵的语音增强算法等，因为浅层，所以需要更适合的语音信息才能自主提取有用特征。直到深层网络的出现，语音增强技术又开始了新一轮的发展，包括，基于掩蔽法和映射法的语音增强模型。早期，基于深度学习的语音增强模型的网络结构大多采用DNN。随后，根据ResNet改进了DNN，提出了Skip-DNN语音增强模型，此模型在训练过程中携带更多语音细节信息、解决梯度消失以及模型不可识别性造成的奇异性等问题。掩蔽法的训练目标包括有理想二值掩蔽、理想比率掩蔽(Ideal radio mask,IRM)以及复数域的理想比率掩蔽等，其中采用理想二值掩蔽作为训练目标时得到的增强语音高频段被破坏较为严重，但背景噪声滤除的效果较好，而IRM虽然背景噪声滤除不如理想二值掩蔽，但对原始语音破坏较少；同样的，语音特征提取也是有监督语音增强算法重要的组成部分，现有技术中根据特征的互补特性提出了将振幅调制谱、相对谱变换、感知线性预测与梅尔倒谱系数相组合的特征方法，在非匹配噪声测试条件下性能较好。现有技术中利用稀疏非负矩阵分解提取语音特征，低信噪比环境下获得了清晰度较高的语音。

现有技术中，针对低信噪比环境，提出了一种多分辨率耳蜗图的语音特征方法，获取语音信号的全局与局部特征，提高了低信噪比场景下的语音增强效果，但随着MRCG特征维度的增大会导致计算复杂度变大。现有技术中还提出了一种基于听觉变化的特征提取算法，采用非线性幂函数代替对数获得幂归一化倒谱系数(Power Normalized CepstralCoefficients,PNCC)，提高了语音识别精度。随后有学者根据PNCC对MRCG进行了改进，得到多分辨率听觉倒谱系数(Multi-Resolution Auditory Cepstral Coefficient,MRACC)，降低了维度的同时提高了语音增强效果。虽然MRCG与MRACC在低信噪比环境下有较好的语音增强效果，但是仍有提升的空间。

根据上述分析可知，基于深度学习的语音增强算法，网络模型的建立、语音特征与训练目标都会对语音增强效果有较大影响。为提高低信噪比环境中语音增强效果，为了获得更清晰的语音特征，有必要进一步优化语音增强的相关研究。

发明内容

本发明的目的在于提供联合耳蜗语音特征和跳变深层神经网络的语音增强算法，在MRCG与MRACC基础上提出改进MRCG，拟采用Skip-DNN网络对改进MRCG语音特征进行训练，利用TIMIT语音库和NoiseX-92噪声库的语音进行实验，利用评价指标度量语音可懂度与语音质量，在不同信噪比与背景噪声环境下，分析MRACC、MRCG以及改进MRCG作为Skip-DNN网络特征输入得到的语音增强效果，以此来确定哪种特征作为Skip-DNN网络的输入，构建语音增强模型，并评价不同网络结构滤除“音乐噪声”的能力，以提高低信噪比环境中语音增强效果，获得更清晰的语音特征。

为实现上述目的，本发明提供如下技术方案：

联合耳蜗语音特征和跳变深层神经网络的语音增强算法，包括以下步骤：

S1：采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；

S2：分析DNN与Skip-DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip-DNN的语音增强模型。

进一步地，S1中的具体算法如下：

S101：在训练阶段，将带噪语音Y(t)通过时频分解转换到时频域得到Y(t,f)，在每个时频单元提取改进MRCG特征参数；再将纯净语音与噪音转化到时频域分别表示为S(t,f)、N(t,f)，获得时频单元的纯净语音能量与噪声能量，计算能量占比得到IRM，通过Skip-DNN自主提取改进MRCG中有用的信息，与IRM建立非线性关系，得到语音增强模型；

S102：在增强阶段，将带噪语音Y₁(t)转换到时频域得到Y₁(t,f)，提取改进MRCG特征参数，通过训练得到的语音增强模型估计IRM，进而得到增强语音时频谱，将其与带噪语音相位∠Y₁(t)重构出目标语音

S103：若噪音为加性噪音，则带噪语音由纯净语音与噪音相加构成，为：Y(t)＝S(t)+N(t) (1)

其中，Y(t)表示带噪语音；S(t)表示纯净语音；N(t)表示噪声；

S104：将Y(t)经64通道Gammatone滤波器组进行时频分解，获得64个子带滤波输出G(t,f)，并将其分帧加窗转换到时频域，得到Y_j(t,f_c),S_j(t,f_c),N_j(t,f_c),其中，j表示帧数，f_c表示中心频率，f_c∈[80Hz,5kHz]，t表示帧索引；其中，利用Gammatone滤波器组的冲激响应函数，可表示为：

g(t)＝t^n-1e^-2πbtcos(2πf_ct),t≥0 (2)

其中，n表示滤波器阶数，通常n取4；b表示等效矩形带宽，与f_c成正比；

S105：将IRM作为训练目标，计算Gammatone域纯净语音与噪音能量的占比，得到IRM_gamma，表达为：

其中，

和

分别表示时频域中纯净语音能量和噪音能量；

将带噪语音幅度谱与IRM_gamma结合，得到目标语音幅度谱为：

其中，

表示时频域目标语音幅度谱；

将估计的纯净语音信号幅值与带噪语音的相位进行重构，得到估计纯净语音信号为：

其中，∠Y(t)表示带噪语音相位；

表示目标语音幅度谱；

表示重构纯净语音信号。

进一步地，S1中还包括语音特征提取，具体方法如下：

S101：最小均方误差幅度谱估计MMSE-STSA：

对公式(1)中Y(t)、S(t)作快速傅里叶变换，得到噪声信号和纯净语音信号第i个频谱分量特征，为：

Y_i＝R_iexp[jθ_i]，S_i＝A_iexp[jα_i] (6)

其中，R_i、A_i分别为带噪语音、纯净语音的幅值，θ_i与α_i分别表示带噪语音与纯净语音的相位；

利用噪声功率谱，得到估计的纯净语音

假定噪声对相位无影响，根据语音信号频谱相邻帧之间具有相关性的特点，可对语音信号采用快速傅里叶变换进行分频，得到分频后每一帧纯净语音信号的幅度谱估计

假设频谱分量之间相互独立，则有：

其中，

表示参数的期望，

为概率密度函数，p(a_i)为A_i的概率密度函数，p(a_i,α_i)为幅相联合概率分布概率；

假设噪声平稳加性高斯白噪声，则：

其中，

表示伽马函数，M(a,c,x)为合流超几何函数，

ξ_i、γ_i分别表示先验信噪比和后验信噪比；

S102：改进MRCG特征提取：利用Gammatone滤波器组耳蜗模型，得到多频段语音信号，通过不同的帧长、滤波器不同的窗长得到不同分辨率的耳蜗图，采用中值滤波器与均值滤波器平滑获得低分辨率的耳蜗图，滤波器窗长越大平滑的效果越明显，由此得到语音的高低分辨率的耳蜗图，即局部与全局特征；

带噪语音信号经时频分解后，纯净语音能量集中在低频部分，噪声能量集中在高频部分，在低信噪比环境与非平稳背景噪声环境下，保留MMSE-STSA降噪后的高频部分，并将此部分与MRACC低频部分拼接，同时为反映特征参数的动态特性，在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征，进而得到改进MRCG特征，即在提取MRCG特征参数前端加MMSE-STSA，建立改进MRCG。

进一步地，S2中具体方法如下：

S201：采用Skip-DNN建立语音增强模型，在隐藏层之间加入跳变连接；

S202：每层之间加入Dropout层；

S203：选用LeakyReLU作为激活函数；

S204：输出层的激活函数选用了Sigmoid。

进一步地，S201中的跳变连接为神经网络中常用的连接形式，让训练过程中一些被掩盖的有用特征被发现并且被训练，打破了因权重相同造成的网络退化，解决层与层之间因为维度不同在传输过程中出现的细节信息丢失，通过跳变连接将丢失的信息补充回来；在反向传播过程中也为网络提供了新的误差信息。

与现有技术相比，本发明的有益效果是：

本发明提供的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，针对低信噪比环境下传统DNN语音增强模型降噪效果一般，本发明采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；分析DNN与Skip-DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip-DNN的语音增强模型，由实验可知，联合改进MRCG和Skip-DNN的语音增强模型比MRACC与MRCG增强效果好；同时，在低信噪比与非平稳背景噪声环境中，Skip-DNN滤除了部分“音乐噪声”，很好的拟合了改进MRCG与IRM之间复杂的非线性关系，提高低信噪比环境中语音增强效果，获得更清晰的语音特征。

附图说明

图1为本发明的基于Skip-DNN的语音增强系统框图；

图2为本发明的改进MRCG提取流程图；

图3为本发明的Skip-DNN的语音增强系统的网络结构图；

图4为本发明的改进MRCG语音特征图；

图5为本发明的信噪比为-5dB时各种语音增强模型的STOI值图；

图6为本发明的信噪比为-5dB时各种语音增强模型的PESQ值图；

图7为本发明的纯净语音与信噪比为-5dB时增强后的目标语音时域图；

图8为本发明的三种节点数的训练集均方误差以及测试集均方误差图；

图9为现有技术中MRACC特征参数提取原理框图；

图10为现有技术中LMS-MRCG特征提取原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中：联合耳蜗语音特征和跳变深层神经网络的语音增强算法，包括以下步骤：

第一步：采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；

第二步：分析DNN与Skip-DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip-DNN的语音增强模型。

其中，基于深度学习的语音增强算法，有三个组成部分，分别为特征提取、模型建立以及训练目标；本发明基于Skip-DNN语音增强系统如图1所示，步骤一中的具体算法如下：

S101：在训练阶段，首先将带噪语音Y(t)通过时频分解转换到时频域得到Y(t,f)，在每个时频单元提取改进MRCG特征参数；其次，将纯净语音与噪音转化到时频域分别表示为S(t,f)、N(t,f)，获得时频单元的纯净语音能量与噪声能量，计算能量占比得到IRM，通过Skip-DNN自主提取改进MRCG中有用的信息，与IRM建立非线性关系，得到语音增强模型；

S102：在增强阶段，同样将带噪语音Y₁(t)转换到时频域得到Y₁(t,f)，提取改进MRCG特征参数，通过训练得到的语音增强模型估计IRM，进而得到增强语音时频谱，将其与带噪语音相位∠Y₁(t)重构出目标语音

假设图1中噪音为加性噪音，则带噪语音由纯净语音与噪音相加构成，为：Y(t)＝S(t)+N(t) (1)

其中，Y(t)表示带噪语音；S(t)表示纯净语音；N(t)表示噪声；

S103：将Y(t)经64通道Gammatone滤波器组进行时频分解，获得64个子带滤波输出G(t,f)，并将其分帧加窗转换到时频域，得到Y_j(t,f_c),S_j(t,f_c),N_j(t,f_c),其中，Gammatone滤波器组耳蜗模型是将语音信号分解成多个频段，其幅频特性为频率越低分辨率越高，频率越高分辨率越低；j表示帧数，f_c表示中心频率，f_c∈[80Hz,5kHz]，t表示帧索引；此种方法得到的语音特征比传统方法得到的语音特征更符合人耳听觉特征，其中，利用Gammatone滤波器组的冲激响应函数，可表示为：

g(t)＝t^n-1e^-2πbtcos(2πf_ct),t≥0 (2)

S104：将IRM作为训练目标，计算Gammatone域纯净语音与噪音能量的占比，得到IRM_gamma，表达为：

其中，

和

分别表示时频域中纯净语音能量和噪音能量；

将带噪语音幅度谱与IRM_gamma结合，得到目标语音幅度谱为：

其中，

表示时频域目标语音幅度谱；

其中，∠Y(t)表示带噪语音相位；

表示目标语音幅度谱；

表示重构纯净语音信号。

在上述实施例中，步骤一中还包括语音特征提取，具体方法如下：

S101：最小均方误差幅度谱估计MMSE-STSA：

Y_i＝R_iexp[jθ_i]，S_i＝A_iexp[jα_i] (6)

利用噪声功率谱，得到估计的纯净语音

假设频谱分量之间相互独立，则有：

其中，

表示参数的期望，

假设噪声平稳加性高斯白噪声，则：

其中，

表示伽马函数，M(a,c,x)为合流超几何函数，

ξ_i、γ_i分别表示先验信噪比和后验信噪比；

S102：改进MRCG特征提取：MRCG特征提取是利用Gammatone滤波器组耳蜗模型，得到多频段语音信号，可以通过不同的帧长、滤波器不同的窗长可得到不同分辨率的耳蜗图，采用中值滤波器与均值滤波器平滑获得低分辨率的耳蜗图，滤波器窗长越大平滑的效果越明显，由此得到语音的高低分辨率的耳蜗图，即局部与全局特征，在低信噪比下，部分有用信号被掩盖，MRCG因为包含语音信号的局部与全局特征，因此更适用于低信噪比环境；

众所周知，带噪语音信号经时频分解后，纯净语音能量主要集中在低频部分，噪声能量主要集中在高频部分，在低信噪比环境与非平稳背景噪声环境下，传统MMSE-STSA方法中先验信噪比估计算法会导致残留部分背景噪声，同时又会引入“音乐噪声”，因此，本发明选择只保留MMSE-STSA降噪后的高频部分，并将此部分与MRACC低频部分拼接，同时为反映特征参数的动态特性，提高语音增强性能，在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征，进而得到改进MRCG特征，这样的特征既降低高频部分背景噪声的干扰，又防止低频部分被“音乐噪声”破坏。

综合上述分析，为提高带噪语音在低信噪比环境下的清晰度，本发明在提取MRCG特征参数前端加MMSE-STSA，建立改进MRCG，过程如图2所示。

在上述实施例中，步骤二中Skip-DNN网络建模的具体方法如下：

跳变连接是神经网络中常用的连接形式，传统DNN网络因权重相同造成的网络退化会使复杂特征拟合效果不好，而跳变连接通过打破网络对称(权重相同)的方式，让训练过程中一些被掩盖的有用特征被发现并且被训练，打破了因权重相同造成的网络退化，跳变连接可以解决层与层之间因为维度不同在传输过程中出现的细节信息丢失的问题，尤其是改进MRCG这种维度较大的语音特征在传输过程中丢失的信息更多，通过跳变连接将丢失的信息补充回来；同时，跳变连接在反向传播过程中也为网络提供了新的误差信息。

本发明采用Skip-DNN建立语音增强模型，在隐藏层之间加入跳变连接，可以解决模型中不能识别部分造成的奇异性、梯度消失等问题；为了防止过拟合现象出现，在每层之间加入Dropout层；为解决ReLU输入值为负时坏死的问题，本发明选用LeakyReLU作为激活函数，同时，LeakyReLU具有收敛速度快，计算简单等优点，因为Sigmoid取值在0-1范围内符合IRM的取值范围，所以输出层的激活函数选用了Sigmoid，Skip-DNN的结构如图3所示：由图3可知，为防止跳变连接的过程中出现输入层与隐藏层维度不匹配问题，将D2层的节点数设为输入层的维度，因为Skip-DNN模型输入层是一维向量，并且Skip-DNN语音增强模型的输入是时间与频率两个维度，语音和噪声在两个维度上都有较强的相关性，所以语音特征作为网络输入应包括上下文信息。

为了进一步更好的解释说明上述发明，还提供如下具体的实验数据与参数设置：

1、数据集的选择与设置：本发明纯净语音选自TIMIT语音库，TIMIT语音库共包括6300条语音，采样频率为16kHz；本发明选取了其中的150条语音，105条作为训练集，45条作为测试集；噪音选用NoiseX-92噪声库，共包含15条噪音，本发明选用13种噪音：babble、buccaneer1、buccaneer2、destroyerengine、destroyerops、f16、factory、hfchannel、leopard、m109、pink、volvo、white，将上述噪音降采样到16kHz，且与150条纯净语音按信噪比-5dB、0dB、5dB以及10dB混合，构成不同信噪比下的带噪语音信号，形成带噪语音的训练集与测试集，选择训练集中10％作为验证集。

2、语音特征参数的选择与设置：在将语音信号从时域转换到频域的过程中，不同帧长可以得到不同分辨率耳蜗图，本发明将帧长、帧移分别设为20ms、10ms，获得高分辨率耳蜗图CG1，将帧长、帧移分别设为200ms、10ms，获得低分辨率耳蜗图CG2，以及中值滤波器与均值滤波器不同的窗长，也可获得不同分辨率的耳蜗图；本发明将中值滤波器的窗长设为5×5、均值滤波器的窗长设为11×11与23×23，获得低分辨率的耳蜗图CG3以及更低分辨率的耳蜗图CG4；将四种耳蜗图沿时域方向进行底层特征融合拼接，通过离散余弦变换，再与其一阶、二阶差分组合得到改进MRCG，其特征图如图4所示：

在图4中，CG1为传统的耳蜗图，由CG1可以得到语音信号的局部特征，CG2、CG3以及CG4表示语音信号的全局特征，将CG1、CG2、CG3以及CG4拼接得到的改进MRCG语音特征，既包含语音的细节信息，又包含全局信息，在低信噪比环境下，可以更好地表征带噪语音信息。

3、网络参数的选择与设置：网络输入包括上下文共5帧；训练过程使用最小批量化的大小为128；选择Adam算法改善网络的训练过程，初始化学习速率为2×10^-4，当验证损失在两个时间段内没有减少时，学习速率减半，直到学习速率为1×10^-10或达到最大迭代次数时训练结束，最大迭代次数设为100；隐藏层节点数设为1024，丢弃率为0.2；网络中衡量模型预测好坏的损失函数选择MSE，表达为：

以下实验数据处理过程中，语音信号和带噪信号均是按照上述参数选定。

4、对实验结果进行分析：

(1)不同特征作为Skip-DNN网络输入的效果评价：

本发明采用STOI和PESQ来评价语音可懂度和语音质量，对比在平稳噪声(f16)和非平稳噪声(factory、babble)作为背景噪声情况下，评价MRACC、MRCG以及改进MRCG特征作为Skip-DNN网络的输入特征时的语音增强效果；利用STOI与PESQ两种评价指标的平均值，语音增强效果如表1、表2所示，其中，Skip-DNN网络特征输入采用MRACC、MRCG及改进MRCG时，在表中分别标记为MRACC-Skip-DNN、MRCG-Skip-DNN及改进MRCG-Skip-DNN。

表1三种方法的平均STOI得分

由表1可知，在信噪比为0dB环境中，背景噪声为f16，特征输入采用改进MRCG、MRACC及MRCG时平均STOI分别为0.8731、0.8688及0.8696，可见改进MRCG较MRACC与MRCG分别提高了0.5％、0.4％；背景噪声为factory，特征输入采用改进MRCG时平均STOI为0.8910、采用MRACC时平均STOI为0.8865，采用MRCG时平均STOI为0.8801，可见改进MRCG较MRACC与MRCG分别提高了0.5％、1.2％；背景噪声为babble，特征输入采用改进MRCG时平均STOI为0.8903、采用MRACC时平均STOI为0.8858，采用MRCG时平均STOI为0.8824，改进MRCG较MRACC与MRCG分别提高了0.5％、0.9％；由此可知，改进MRCG作为Skip-DNN的特征输入时，STOI的评价得分最高。

表2三种方法的平均PESQ得分

由表2可知，在信噪比为0dB环境中，背景噪声为f16，特征输入采用改进MRCG时平均PESQ为1.6320、采用MRACC时平均PESQ为1.6026，采用MRCG时平均PESQ为1.5989，可见改进MRCG较MRACC与MRCG分别提高了1.8％、2.0％；背景噪声为factory，特征输入采用改进MRCG时平均PESQ为1.6715、采用MRACC时平均PESQ为1.6466，采用MRCG时平均PESQ为1.6149，可见改进MRCG较MRACC与MRCG分别提高了1.5％、3.5％；背景噪声为babble时，特征输入采用改进MRCG时平均PESQ为1.7298、采用MRACC时平均PESQ为1.7026，采用MRCG时平均PESQ为1.6741，可见改进MRCG较MRACC与MRCG分别提高了1.6％、3.3％；由此可知，改进MRCG作为Skip-DNN的特征输入时，PESQ的评价得分最高。

因此，根据表1和表2的实验评价结果，可以判定在任意背景噪声和信噪比环境下，均是采用改进MRCG作为Skip-DNN网络特征输入的语音评价效果最好，由此说明，改进MRCG作为Skip-DNN网络的特征输入时，可获得较好的语音增强效果。

(2)低信噪比下不同网络结构对“音乐噪声”的去除效果：

(201)STOI与PESQ评价：为了分析不同背景噪声以及低信噪比环境下的语音评价结果，进行如下实验；设定信噪比为-5dB，在f16、factory和babble背景噪声环境下，将MRACC、MRCG以及改进MRCG特征作为DNN和Skip-DNN网络的输入，研究不同特征输入到DNN与Skip-DNN网络中对“音乐噪声”的去除效果，得到STOI与PESQ评价的实验结果如图5、图6所示：

由图5可知，在f16、factory以及babble背景噪声环境中，联合MRACC+DNN语音增强模型的平均STOI分别为0.7508、0.6762、0.6359；联合MRCG和DNN语音增强模型的平均STOI分别为0.7461、0.6771、0.6354；联合改进MRCG和DNN语音增强模型的平均STOI分别为0.7536、0.6759、0.6292；联合MRACC和Skip-DNN语音增强模型的平均STOI分别为0.7772、0.7103、0.6715；联合MRCG和Skip-DNN语音增强模型的平均STOI分别为0.7779、0.7102、0.6705；联合改进MRCG和Skip-DNN语音增强模型的平均STOI分别为0.7801、0.7104、0.6719；由此可知，在低信噪比环境下，背景噪声为f16，联合改进MRCG和DNN得到的语音可懂度最高，背景噪声为factory与babble时，联合改进MRCG和DNN反而最低；可见，联合改进MRCG和Skip-DNN模型在三种背景噪声环境中，得到的语音可懂度最高。

由图6可知，在f16、factory以及babble背景噪声环境中，联合MRACC和DNN语音增强模型的平均PESQ分别为1.2654、1.179、1.1255；联合MRCG和DNN语音增强模型的平均PESQ分别为1.2677、1.1818、1.1340；联合改进MRCG和DNN语音增强模型的平均PESQ分别为1.2873、1.1731、1.1277；联合MRACC和Skip-DNN语音增强模型的平均PESQ分别为1.2950、1.1790、1.160；联合MRCG和Skip-DNN语音增强模型的平均PESQ分别为1.3045、1.2044、1.1561；联合改进MRCG和Skip-DNN语音增强模型的平均PESQ分别为1.314、1.2092、1.1639；由此可知，在低信噪比环境下，背景噪声为f16，联合改进MRCG和DNN得到的语音质量最好，背景噪声为factory与babble时，联合改进MRCG和DNN反而最差；可见，联合改进MRCG和Skip-DNN模型在三种背景噪声环境中，得到的语音质量最好。

(202)“音乐噪声”去除效果的定量观测：为观测不同背景噪声、不同网络模型下，对音乐噪声的去除效果，给出改进MRCG在不同网络得到的增强语音时域波形图，如图7所示：

其中，纯净语音信号时域图如图7(a)所示，背景噪声为f16、factory及babble的带噪语音时域图如图7(b)、7(c)及7(d)所示，相应带噪情况下的改进MRCG作为DNN、Skip-DNN特征输入时，语音增强模型的目标语音时域图如7(e)、7(f)，7(g)、7(h)及7(i)、7(j)所示；本发明以图中椭圆标注部分作为观测窗口，分析语音的增强效果：

由图7(e)、(f)可见，当背景噪声为f16时，在椭圆圈标注部分，没有“音乐噪声”；由图7(g)、(h)可见，当背景噪声为factory时，图7(g)在椭圆圈标注部分“音乐噪声”较明显，而图7(g)中仅含少量的“音乐噪声”；当背景噪声为babble时，观察到的情况与factory相同；由此可以说明，改进MRCG在非平稳背景噪声环境下会产生“音乐噪声”，并且Skip-DNN可以有效去除“音乐噪声”。

因此，由本发明的理论分析和图7的观测结果可知，由于factory与babble为非平稳噪声，经MMSE-STSA降噪处理后在高频处产生的“音乐噪声”，掩盖了改进MRCG特征，DNN在训练过程中忽略了被掩盖的语音特征，使目标语音缺失，最终导致得到的联合改进MRCG和DNN的语音增强模型增强效果变差，而Skip-DNN中因为跳变连接的存在抑制了网络退化、更好的拟合了复杂特征等原因，使掩盖在“音乐噪声”下的有用语音特征被训练，由此可见，在改进MRCG作为网络输入时，Skip-DNN网络比DNN网络去除“音乐噪声”的效果更好。

(3)联合改进MRCG和Skip-DNN网络模型的优化：

为分析网络隐藏层节点数对联合改进MRCG和Skip-DNN网络模型优化效果的影响，进行实验研究，设定隐藏层节点数为1500、1024、512，对训练集与测试集进行研究，对比分析均方误差大小，进而确定改进MRCG Skip-DNN的语音增强模型最优的隐藏层节点数，结果如图8所示：

其中，图中标注的Skip-DNN+改进MRCG-1500-train、Skip-DNN+改进MRCG-1500-test分别表示联合改进MRCG和Skip-DNN网络模型隐藏层节点数为1500的训练集、测试集均方误差实验结果；图中标注的Skip-DNN+改进MRCG-1024-train、Skip-DNN+改进MRCG-1024-test分别表示联合改进MRCG和Skip-DNN网络模型隐藏层节点数为1024的训练集、测试集均方误差实验结果；图中标注的Skip-DNN+改进MRCG-512-train、Skip-DNN+改进MRCG-512-test分别表示隐藏层节点数为512的训练集、测试集均方误差实验结果。

由图8可知，Skip-DNN+改进MRCG-1024-train迭代结束得到均方误差为0.0054，而Skip-DNN+改进MRCG-1024-test得到均方误差为0.0164，虽然Skip-DNN+改进MRCG-1500-train均方误差小于Skip-DNN+改进MRCG-1024-train，但是Skip-DNN+改进MRCG-1024-test均方误差小于Skip-DNN+改进MRCG-1500-test，由此可知，在联合改进MRCG和Skip-DNN语音增强模型中隐藏层节点数设为1024时效果较好。

通过对现有技术文献的检索，与本发明最接近的现有技术为“基于深度学习的语音增强算法研究”，基于此本发明与现有技术特征区别技术特征如下：

现有技术“基于深度学习的语音增强算法研究”提出的MRACC特征参数的原理为：是一种基于Gammatone滤波器组分解的多分辨率特征，不仅采用Gammatone滤波器组模拟人耳的听觉模型，而且提取多分辨率的Cochleagram，将计算的Cochleagram进行幂函数压缩，使其更符合人耳的听觉感知特性，MRACC特征参数既可以关注细节的高分辨率特征，又可以把握全局性的低分辨率特征，如图9所示。

而本发明提出的改进MRCG特征参数的原理为：在MRACC基础上，采用MMSE做了前期的预处理，预处理只针对MRACC特征的低分辨率部分，所以改进MRCG在关注细节的高分辨率特征、把握全局性的低分辨率特征的同时又可以在低信噪比环境中提取出更容易被训练的特征，如图2所示。

效果对比参数如下：

对本发明与现有技术进行了对比实验，模型采用的是Skip-DNN网络，训练目标采用IRM；实验结果如下表3、表4：

表3三种背景噪声下平均STOI得分

表4三种背景噪声下平均PESQ得分

由上表3、表4可知，表中用粗体标注的是本发明提出的改进MRCG特征得到的语音增强效果客观评价，可以看出效果优于MRACC特征。

与本发明相近的现有技术还包括“基于内容的伪造语音盲检测技术研究”，该现有技术中提出的LMS-MRCG特征参数提取的原理为：在MRCG基础上，在预处理部分引入最小均方误差(Least Mean Square,LMS)滤波器，通过LMS滤波器对语音信号进行语音信号增强，减弱音频中噪声的影响，再对耳蜗系数进行多分辨率化构造LMS-MRCG(Least MeanSquare-Multi Resolution Cochleagram)特征，如图10所示；

而本发明在预处理部分采用的是最小均方误差短时谱幅值估计法(MinimumMean-Square Error Short-Time Spectral Amplitude，MMSE-STSA)对语音信号进行降噪,且只对语音的高频部分进行降噪处理，以防止低信噪比环境下MMSE产生的“音乐噪声”污染语音的低频部分。

基于内容的伪造语音盲检测技术研究中的LMS-MRCG是针对有效地检测变调语音、准确分类变调类型提出。

由此可见，与现有技术中无从探究的问题、算法的原理、还是达到的目标均有所不同。

综上所述：本发明提供的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，针对低信噪比环境下传统DNN语音增强模型降噪效果一般，本发明采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；分析DNN与Skip-DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip-DNN的语音增强模型，由实验可知，联合改进MRCG和Skip-DNN的语音增强模型比MRACC与MRCG增强效果好；同时，在低信噪比与非平稳背景噪声环境中，Skip-DNN滤除了部分“音乐噪声”，很好的拟合了改进MRCG与IRM之间复杂的非线性关系，提高低信噪比环境中语音增强效果，获得更清晰的语音特征。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.联合耳蜗语音特征和跳变深层神经网络的语音增强算法，其特征在于，包括以下步骤：

S1：采用MMSE为前端的改进MRCG语音特征，通过比较不同特征作为网络输入的语音增强效果；其中，保留MMSE-STSA降噪后的高频部分，并将此部分与MRACC低频部分拼接，同时为反映特征参数的动态特性，在上述特征基础上混合离散余弦特征、一阶差分以及二阶差分特征，进而得到改进MRCG特征，即在提取MRCG特征参数前端加MMSE-STSA，建立改进MRCG；

S2：分析DNN与Skip-DNN滤除“音乐噪声”的能力，建立了联合改进MRCG和Skip-DNN的语音增强模型；

其中，S2中具体方法如下：

S202：每层之间加入Dropout层；

S203：选用LeakyReLU作为激活函数；

S204：输出层的激活函数选用了Sigmoid。

2.如权利要求1所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，其特征在于，S1中的具体算法如下：

S103：若噪音为加性噪音，则带噪语音由纯净语音与噪音相加构成，为：

Y(t)＝S(t)+N(t) (1)

其中，Y(t)表示带噪语音；S(t)表示纯净语音；N(t)表示噪声；

S104：将Y(t)经64通道Gammatone滤波器组进行时频分解，获得64个子带滤波输出G(t,f)，并将其分帧加窗转换到时频域，得到Y_j(t,f_c),S_j(t,f_c),N_j(t,f_c),其中，j表示帧数，f_c表示中心频率，f_c∈[80Hz,5kHz]，t表示帧索引，Y_i(t,f_c)表示第i帧子带带噪语音信号的时频域形式，S_i(t,f_c)表示第i帧子带纯净语音信号的时频域形式，N_i(t,f_c)表示第i帧子带噪声信号的时频域形式；其中，利用Gammatone滤波器组的冲激响应函数，可表示为：

g(t)＝t^n-1e^-2πbtcos(2πf_ct),t≥0 (2)

其中，

和

分别表示时频域中纯净语音能量和噪音能量；

将带噪语音幅度谱与IRM_gamma结合，得到目标语音幅度谱为：

其中，

表示时频域目标语音幅度谱；

其中，∠Y(t)表示带噪语音相位；

表示目标语音幅度谱；

表示重构纯净语音信号。

3.如权利要求2所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，其特征在于，S1中还包括语音特征提取，具体方法如下：

S101：最小均方误差幅度谱估计MMSE-STSA：

Y_i＝R_iexp[jθ_i]，S_i＝A_iexp[jα_i] (6)

利用噪声功率谱，得到估计的纯净语音

假设频谱分量之间相互独立，则有：

其中，

表示参数的期望，

假设噪声平稳加性高斯白噪声，则：

其中，

表示伽马函数，M(a,c,x)为合流超几何函数，

ξ_i、γ_i分别表示先验信噪比和后验信噪比；

4.如权利要求1所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，其特征在于，S2中具体方法如下：

S202：每层之间加入Dropout层；

S203：选用LeakyReLU作为激活函数；

S204：输出层的激活函数选用了Sigmoid。

5.如权利要求4所述的联合耳蜗语音特征和跳变深层神经网络的语音增强算法，其特征在于，S201中的跳变连接为神经网络中常用的连接形式，让训练过程中一些被掩盖的有用特征被发现并且被训练，打破了因权重相同造成的网络退化，解决层与层之间因为维度不同在传输过程中出现的细节信息丢失，通过跳变连接将丢失的信息补充回来；在反向传播过程中也为网络提供了新的误差信息。