CN110610715B

CN110610715B - 一种基于cnn-dnn混合神经网络的降噪方法

Info

Publication number: CN110610715B
Application number: CN201910689066.9A
Authority: CN
Inventors: 李云红; 穆兴; 张秋铭; 刘旭东; 何琛
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2022-02-22
Anticipated expiration: 2039-07-29
Also published as: CN110610715A

Abstract

本发明提供一种基于CNN‑DNN混合神经网络的降噪方法，具体按照以下方式实施：步骤1，建立CNN‑DNN混合神经网络降噪模型；步骤2，建立训练集，对步骤1建立的CNN‑DNN混合神经网络降噪模型进行训练；步骤3，将需要降噪的语音信号输入步骤3训练好的CNN‑DNN混合神经网络降噪模型中，输出干净的语音信号频谱。本发明一种基于CNN‑DNN混合神经网络的降噪方法对瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。

Description

一种基于CNN-DNN混合神经网络的降噪方法

技术领域

本发明属于降噪方法技术领域，涉及一种基于CNN-DNN混合神经网络的降噪方法。

背景技术

近年来，人类老龄化的问题越来越突出，老年人听力障碍问题也受到广泛关注，助听器的研究和发展开始受到普遍的重视，作为听障者与外界信息交互的重要媒介，为了能让听障者听到高清晰的音频信息，提高听觉质量，而噪音的去除对于听障者而言显得尤为重要，。

目前，针对助听器的噪声有两种，一种是瞬时噪声，另一种是非瞬时噪声，对于瞬时噪声的抑制(Transient Noise Suppression,TNS)方法研究有两种，一种是基于最优修改的对数谱幅度估计(Optimally Modified-Log Spectral Amplitude,OM-LSA)算法，通过考虑先验信噪比和语音信号中噪声存在的不确定性，利用最小值约束递归平均算法(Minima Controlled Recursive Averaging,MCRA)进行噪声谱估计，推导计算得出频谱最优增益函数，进一步在频域上找到纯净语音信号的最优对数谱估计，通过IFFT得到将瞬时噪声抑制后的语音；另一种是基于时域的递归指数加权最小二乘法 (ExponentialWeighted Least Square,EWLS)，对带噪声的语音信号进行检测和修复。

针对非瞬时噪声的抑制(Non-Transient Noise Suppression,NTNS)方法有谱减法(Spectral-subtractive algorithm)，这种算法是频域语音增强算法啊，在带噪声的频谱中直接减去计算出来的噪声频谱，得到干净语音频谱；基于统计模型的贝叶斯估计(Statistical-model-based bayesian estimation)，这种算法通过计算一些特定的参数找一个有期望参数的估计器，对噪声进行谱估计；子空间算法(Subspace algorithm)，是利用简单的线性代数理论对子空间信号进行估计；麦克风语音增强广义旁瓣抵消(Generalized Sidelode Cancellation,GSC)算法,对于麦克风阵列采集声音信号时，消除非稳态噪声干扰，同时配合麦克风波束成形算法进行声音信号定位和跟踪。这些传统的算法都有它的限制因素和复杂性，使用起来难度大，效果不够理想。

发明内容

本发明的目的是提供一种基于CNN-DNN混合神经网络的降噪方法，对瞬时噪声和非瞬时噪声都具有更好的自动识别分离和去除能力。

本发明所采用的技术方案是，

一种基于CNN-DNN混合神经网络的降噪方法，具体按照以下方式实施：

步骤1，建立CNN-DNN混合神经网络降噪模型；

步骤2，建立训练集，对步骤1建立的CNN-DNN混合神经网络降噪模型进行训练；

步骤3，将需要降噪的语音信号输入步骤2训练好的CNN-DNN混合神经网络降噪模型中，输出干净的语音信号频谱。

本发明的特点还在于，

步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经过预处理之后的语音信号，预处理的具体方式为：截取原始语音信号中频段为125Hz～8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号。

步骤1中CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络构成；CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成。

ResNet残差网络包括依次连接的10个残差单元，从第一个残差单元开始，每一个残差单元由ReLU非线性激活函数激活；将10个残差单元按顺序两两分为一组，每组中的两个残差单元之间增加一个捷径，构成一个残差模块；第一个残差模块的节点数为64，第二个残差模块的节点数为128，第三个残差模块的节点数为256，第四个残差模块的节点数为512，第五个模块节点数为1024；每个残差模块中的每个节点都执行线性和ReLU激活函数；

残差单元表示为：

y_l＝h(x_l)+F(x_l,w_l) (1)

x_l+1＝f(y_l) (2)

其中x_l和x_l+1分别表示的是第l个残差单元的输入和输出，其中F是残差函数，表示学习到的残差，而h(x_l)＝x_l表示恒等映射，f是ReLU激活函数。基于上式，可得从浅层l到深层L的学习特征：

利用链式规则，求得反向梯度：

其中

表示的损失函数到达的梯度，括号的“1”表示短路机制可以无损地传播梯度，

为残差梯度，需要经过带有权重的层传递；

DNN网络建立过程为：

其中

是第l+1层的第i个神经元与第l层的第j个神经元之间的权重，

是第l+1的第i个神经元的偏置，

第l层的第i个神经元的响应。

步骤2中用无监督学习方法对语音信号样本进行训练，利用随机梯度下降算法和误差反向传播对参数进行更新，对参数进行更新的具体过程为：

步骤2.1.1，假设某批处理前馈后得到n个样本，x为输入数据，y为输出数据，批处理的样本的误差为z，且最后一层L为l₂损失函数，所以有:

CNN-DNN混合神经网络降噪模型中，每层操作都对应两部分导数，一部分是误差关于第i层参数的导数

另一部分是误差关于该输入的导数

所以参数更新为：

其中η是每次随机梯度下降的步长(即学习率)，ωⁱ是第i层的权重，bⁱ是第i层的偏置。

步骤2.1.2，样本的输入xⁱ的导数

则用于误差向前层的反向传播，可将其视作最终误差从最后一层传递至第i层时，第i+1层的误差导数为

第i层参数更新时计算

和

的对应值，因此：

公式中“vec”为向量标记，在i+1层计算得

第i层，由于xⁱ经ωⁱ直接作用得xⁱ ⁺¹，故反向求导可直接得到其偏导数

和

如此，可求得(4)和(5)中等号左端项

和

根据公式(3)更新参数层，并将

作为该层误差传至前层，即第i-1层，一直传下去，直至更新到第1层，从而完成参数的更新。

在步骤2中设置代价函数，采用平均平方误差并采用正则化约束，防止过拟合，具体方式为：

代价函数为公式为：

其中

是损失函数，代价函数为非凸函数，采用随机梯度下降法得：

其中：

CNN-DNN混合神经网络降噪模型的残差计算：

其中

是CNN-DNN混合神经网络降噪模型的残差函数，

为 CNN-DNN混合神经网络降噪模型的随机梯度下降率，

第l层第i个残差。

本发明的有益效果是，

一、CNN-DNN混合神经网络降噪模型主要是逐层训练，简化了网络模型训练的复杂度，极大的减少了权重；

二、CNN-DNN混合神经网络降噪模型中的ResNet网络可以跳跃连接一层甚至多层，将语音信息传递到神经网络的更深层；ResNet网络极大的降低了训练误差和难度，对输入语音信号的激活能够到达网络更深层，解决了梯度消失和梯度爆炸，保证了智能降噪模型的良好性能；

三、CNN-DNN混合神经网络降噪模型中的DNN网络，将高维的语音数据训练使其具有自动识别和驱动能力，从而又消除了整个混合模型系统带来的噪声。

附图说明

图1是本发明一种基于CNN-DNN混合神经网络的降噪方法的流程框图；

图2是本发明一种基于CNN-DNN混合神经网络的降噪方法中CNN-DNN混合神经网络降噪模型的结构图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于CNN-DNN混合神经网络的降噪方法，如图1所示，具体按照以下步骤实施：

步骤1，建立CNN-DNN混合神经网络降噪模型；

CNN-DNN混合神经网络降噪模型的前段是由ResNet残差网络构成， ResNet残差网络包括依次连接的10个残差单元，残差单元之间是以跳跃方法连接，从第一个残差单元开始，每一个残差单元由ReLU非线性激活函数激活；将10个残差单元按顺序两两分为一组，每组中的两个残差单元之间增加一个捷径，构成一个残差模块；第一个残差模块的节点数为64，第二个残差模块的节点数为128，第三个残差模块的节点数为256，第四个残差模块的节点数为512，第五个模块节点数为1024；每个残差模块中的每个节点都执行线性和ReLU激活函数；

其中残差单元表示为：

y_l＝h(x_l)+F(x_l,w_l) (1)

x_l+1＝f(y_l) (2)

其中x_l和x_l+1分别表示的是第l个残差单元的输入和输出，F表示是残差函数，表示学习到的残差，而h(x_l)＝x_l表示恒等映射，f是ReLU激活函数。基于上式，可得从浅层l到深层L的学习特征：

利用链式规则，求得反向梯度：

其中

为残差梯度，需要经过带有权重的层传递。

CNN-DNN混合神经网络降噪模型的后段是一个5层的DNN网络中输入层节点数为2048，第二层、第三层和第四层作为隐藏层节点数均为4096，第五层输出层节点数为256，这种设置为了更好训练反向传播算法和随机梯度算法达到自动智能降噪的目的；

其中DNN网络建立过程为：

其中

是第l+1层的第i个神经元与第l层的第j个神经元之间的权重，

是第l+1的第i个神经元的偏置，

第l层的第i个神经元的响应。

步骤2，建立训练集，对步骤1建立的CNN-DNN混合神经网络降噪模型进行训练；具体按照以下步骤进行实施：

步骤2中用无监督学习方法对语音信号样本进行训练，利用随机梯度下降算法(Stochastic Gradient Descent，SGD)和误差反向传播(Error Back Propogation，EBP)对参数进行更新；更新过程为：

另一部分是误差关于该输入的导数

所以参数更新为：

步骤2.1.2，样本的输入xⁱ的导数

第i层参数更新时计算

和

的对应值，因此：

公式中“vec”为向量标记，在i+1层计算得

和

如此，可求得(4)和(5)中等号左端项

和

根据公式(3)更新参数层，并将

在步骤2中，在训练CNN-DNN混合神经网络降噪模型时设置代价函数，采用平均平方误差并采用正则化约束，防止过拟合，代价函数为公式为：

其中

其中：

CNN-DNN混合神经网络降噪模型的残差计算：

其中

是CNN-DNN混合神经网络降噪模型的残差函数，

为 CNN-DNN混合神经网络降噪模型的随机梯度下降率，

第l层第i个残差。

步骤3，将需要降噪的语音信号输入步骤3训练好的CNN-DNN混合神经网络降噪模型中，对语音进行特征提取，完成带噪声的语音信号的频谱和干净语音信号频谱的分离，将干净语音信号频谱输出；

步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经过预处理之后的语音信号，即将采集到的原始语音信号截取频段为 125Hz～8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号。

本发明的原理是，本发明中用CNN-DNN混合神经网络降噪模型对训练语音样本参数并进行参数更新，采用反向传播算法和随机梯度算法对样本参数进行训练，用参数更新方法得到合适的参数大小，避免了认为设置参数造成运算复杂而出现错误的情况。

CNN-DNN混合神经网络降噪模型中，ResNet网络可以跳跃连接一层甚至多层，将语音信息传递到神经网络的更深层；ResNet网络极大的降低了训练误差和难度，对输入语音信号的激活能够到达网络更深层，解决了梯度消失和梯度爆炸，保证了智能降噪模型的良好性能；

带噪的语音信号经过10层ResNet残差网络后干净语音频谱和噪声频谱已经分离，再将语音信号输入一个5层的DNN网络，将高维的语音数据训练使其具有自动识别和驱动能力，从而又消除了整个混合模型系统带来的噪声。

如图2所示为CNN-DNN混合神经网络降噪模型的结构图，其中第一部分为可用频段为125Hz～8kHz的语音信号，接着将语音信号导入第二部分的基于CNN网络的残差10层网络，利用残差网络学习波束形成，可衰减语音信号中的回声，对语数据参数进行更新；第三部分DNN网络防止第二部分残差网络在更新参数时出现梯度消失和梯度爆炸，避免参数运算大而出现错误，同时对语音数据中的混响和远场噪声滤除，前三部分整个实现数据训练和测试环节，训练阶段能够使CNN-DNN模型区分噪声频谱和干净语音频谱，达到自动降噪的目的，测试阶段是对CNN-DNN模型性能的评估，当模型训练完成后达到要求，才可以对输入数据进行处理，保证第四部分输出符合受听者听觉效果的干净语音信号。

CNN-DNN混合神经网络降噪模型能够很好的捕捉数据特征，不仅能有效避免数据特征提取复杂和数据重建过程，而且能将神经网络训练出泛化能力更强的智能降噪模型；本发明一种基于CNN-DNN混合神经网络的降噪方法具有良好的容错能力、自学能力和并行处理能力，可处理大量数据，而且运行速度快，能在复杂环境中进行情景识别，自适应能力好，具有极高的识别率，对瞬时噪声和非瞬时噪声都有更好的自动识别分离和去除能力。

Claims

1.一种基于CNN-DNN混合神经网络的降噪方法，其特征在于，具体按照以下方式实施：

步骤1，建立CNN-DNN混合神经网络降噪模型；所述CNN-DNN混合神经网络降噪模型的前段由ResNet残差网络构成；所述ResNet残差网络包括依次连接的10个残差单元，从第一个残差单元开始，每一个残差单元由ReLU非线性激活函数激活；将10个残差单元按顺序两两分为一组，每组中的两个残差单元之间增加一个捷径，构成一个残差模块；第一个残差模块的节点数为64，第二个残差模块的节点数为128，第三个残差模块的节点数为256，第四个残差模块的节点数为512，第五个模块节点数为1024；每个残差模块中的每个节点都执行线性和ReLU激活函数；

所述CNN-DNN混合神经网络降噪模型的后段由5层DNN网络构成；所述5层DNN网络中，第一层为输入层，输入层节点数为2048；第二层、第三层和第四层作为隐藏层节点数均为4096；第五层输出层节点数为256；

2.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法，其特征在于，所述步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号均是经过预处理之后的语音信号，所述预处理的具体方式为：截取原始语音信号中频段为125Hz～8kHz的部分作为步骤2中的训练集的语音信号和步骤3中的需要降噪的语音信号。

3.如权利要求1所述的一种基于CNN-DNN混合神经网络的降噪方法，其特征在于，所述残差单元表示为：

y_l＝h(x_l)+F(x_l,w_l) (1)

x_l+1＝f(y_l) (2)

其中x_l和x_l+1分别表示的是第l个残差单元的输入和输出，F表示残差函数，表示学习到的残差，h(x_l)＝x_l，表示恒等映射，f表示ReLU激活函数；基于上式，可得从浅层l到深层L的学习特征：