CN111583951A

CN111583951A - 一种基于深度特征损失的语音降噪方法及系统

Info

Publication number: CN111583951A
Application number: CN202010354660.5A
Authority: CN
Inventors: 计健雄; 郭鹏
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-25

Abstract

本发明公开了一种基于深度特征损失的语音降噪方法及系统，包括：确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；结合预设的音频分类任务对所述音频分类网络进行预训练；使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪。本发明将训练好的分类网络的作为增强网络的损失函数，其中损失函数由原始音频和去噪音频在分类网络中的前六层的激活特征做差，将每一层的差值求和得出。通过比较去噪信号和干净信号在预训练的深度网络中的激活差异作为损失，更好的实现语音去噪的效果。

Description

一种基于深度特征损失的语音降噪方法及系统

技术领域

本发明属于语音信号处理技术领域，更具体地，涉及一种基于深度特征损失的语音降噪方法及系统。

背景技术

在深度神经网络普及之前，降噪系统依赖于对于频谱图统计信号的处理方法，随后又采用基于频谱图分解的方法。当前的去噪管道则是通过深层网络来获得更好的性能，但是大多数的去噪管道仍然在频谱图上运行。这样，当使用短时逆傅里叶变换来产生时域增强信号时，会造成时域的混叠而产生信号伪像。最近，人们在降噪管道上直接对原始波形进行处理，这种方法旨在充分利用深层网络的表达能力，减少了时频转换和相位信息的丢失，但是在使用简单或者高级的损失函数时，在不匹配的条件下表现出有限的效果。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有语音降噪方法直接对原始波形进行处理，在损失函数不匹配的条件下表现出有限的效果的技术问题。

为实现上述目的，第一方面，本发明提供基于深度特征损失的语音降噪方法，包括如下步骤：

S1、确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；

S2、结合预设的音频分类任务对所述音频分类网络进行预训练，所述预设的音频分类任务包括：声学场景分类任务和音频标记任务；

S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层差值求和得出。

需要说明的是，本发明提供的语音降噪网络包括损失网络和增强网络其中损失网络就是音频分类网络，用于帮助增强网络来降噪。

可选地，所述声学场景分类任务包括对多种不同的生活场景进行分类，以使得所述损失函数中包含各种生活场景信息。

可选地，所述音频标记任务包括对童声、女声以及男声进行分类，以使得所述损失函数获取各类人声信息内容信息。

可选地，所述音频分类网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成；与上一层相比，下一层的长度减少2倍；通道数每5层增加一倍，起始层有32个通道；最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

可选地，所述增强网络由16个卷积层组成，第一层和最后一层是维数N×1的一维张量，N是输入信号长度，第一层卷积核为3×1，最后一层卷积核为1×1；每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征映射数；通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和渗漏校正线性单元(LReLU)进行激活，由于归一化，中间层没有使用任何偏置项；对所有层进行零填充，以使它们的“有效”长度恒定为N。

第二方面，本发明提供一种基于深度特征损失的语音降噪系统，包括：

分类网络确定单元，用于确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；

网络训练单元，用于结合预设的音频分类任务对所述音频分类网络进行预训练，所述预设的音频分类任务包括：声学场景分类任务和音频标记任务；

语音降噪单元，用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层的差值求和得出。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种基于深度特征损失的语音降噪方法及系统，相比于对频谱进行降噪处理的方式，该方法直接对原始信号进行处理，减少了时频转换和相位信息的丢失；该方法使用全卷积网络，并使用针对一些音频分类任务进行预训练的损失网络来进行训练，使得降噪系统可以捕获各种规模的语音结构并实现更好的降噪性能。

附图说明

图1为本发明提供的基于深度特征损失的语音降噪方法流程图；

图2为本发明提供的语音降噪网络的简单结构图；

图3为本发明提供的音频分类网络的简单结构图；

图4为本发明提供的语音增强网络的简单结构图；

图5为本发明提供的基于深度特征损失的语音降噪系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为本发明提供的基于深度特征损失的语音降噪方法流程图；如图1所示，该方法包括如下步骤：

S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层的差值求和得出。

本发明提供的语音降噪网络的简单结构如图2所示，将训练好的分类网络的作为增强网络的损失函数，其中损失函数由原始音频和去噪音频在分类网络中的前六层的激活特征做差，将每一层的差值求和得出。通过比较去噪信号和干净信号在预训练的深度网络中的激活差异作为损失，更好的实现语音去噪的效果。

图3为本发明提供的音频分类网络，即损失网络的网络结构图，共15层每五层通道数增加一倍，开始的通道数为64层，最终输出为128通道数，再将最后将128通道中每个通道特征被平均池化以产生特征向量，最后通过线性层映射成分类的个数。

图4为本发明提供的语音增强网络的网络结构，共14层中间层均为膨胀卷积层，膨胀系数按照每层为2^layer的指数次增长，每层输出最终长度还是保持输入长度N不变。

本发明提出一种端到端的直接通过处理原始波形来对语音信号进行降噪的深度学习方法。而这种方法中我们提出使用深度特征损失来训练的全卷积上下聚合网络，这种损失是基于对不同网络中内部特征激活的比较，这些网络针对声学环境检测和家庭音频标签进行了训练。这种损失会被用于比较信号在经过训练的深度网络内部激活的差异。通过分层网络，损耗网络中不同深度处的特征激活对应于信号中的不同时间尺度。因此，这些激活的差异性会比较不同音频尺度下的许多特性。本发明提供训练网络的基本步骤：

第1步：设计一个简单的音频分类网络，该网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成。与上一层相比，下一层的长度减少2倍。通道数每5层增加一倍，起始层有32个通道。最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

第2步：训练阶段：联合多个音频分类任务对损失网络进行训练，其中采用了声学场景分类和家庭音频标记任务。第一项任务目标在获得各种场景，确定每个文件的场景类型；第二个任务在于包含感兴趣的事件，目的在于确定每个文件中发生哪些事件。

第3步：设计一个语音去噪网络，网络由16个卷积层组成，第一层和最后一层(分别是输入信号和增强的输出信号)是维数N×1的一维张量。每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征映射数。(将W设置为64)。通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和LReLU进行激活，由于归一化，中间层没有使用任何偏置项。我们对所有层进行零填充，以使它们的“有效”长度恒定为N。然后训练我们的网络以处理音频文件的开头和结尾，即使语音内容在序列边缘附近也是如此。然后训练此网络，训练结束之后，此网络具备语音去噪的功能。

具体地，本申请首先对充当损失函数的分类网络进行预训练，其中联合多个分类任务对损失网络进行预训练，任务包括了声学场景分类和家庭音频标记任务。其中声学场景分类中包括15个不同的生活场景进行了分类，目的在于损失函数中包含各种的场景；第二个家庭音频标记任务则是在童声、女声、男声进行分类，目的在于使得损失函数获取内容信息。随后使用这个深层网络前六层特征激活差异作为增强网络的损失函数直接对原有音频进行降噪的训练，使得增强网络具有降噪的能力。

图5为本发明提供的基于深度特征损失的语音降噪系统架构图，如图3所示，包括：

分类网络确定单元510，用于确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；

网络训练单元520，用于结合预设的音频分类任务对所述音频分类网络进行预训练，所述预设的音频分类任务包括：声学场景分类任务和音频标记任务；

语音降噪单元530，用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层的差值求和得出。

具体地，上述各个单元的功能可参见前述方法实施例，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度特征损失的语音降噪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的语音降噪方法，其特征在于，所述声学场景分类任务包括对多种不同的生活场景进行分类，以使得所述损失函数中包含各种生活场景信息。

3.根据权利要求1所述的语音降噪方法，其特征在于，所述音频标记任务包括对童声、女声以及男声进行分类，以使得所述损失函数获取各类人声信息内容信息。

4.根据权利要求1至3任一项所述的语音降噪方法，其特征在于，所述音频分类网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成；与上一层相比，下一层的长度减少2倍；通道数每5层增加一倍，起始层有32个通道；最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

5.根据权利要求1至3任一项所述的语音降噪方法，其特征在于，所述增强网络由16个卷积层组成，第一层和最后一层是维数N×1的一维张量，N是输入信号长度，第一层卷积核为3×1，最后一层卷积核为1×1；每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征图数；通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和LReLU进行激活，由于归一化，中间层没有使用任何偏置项；对所有层进行零填充，以使它们的“有效”长度恒定为N。

6.一种基于深度特征损失的语音降噪系统，其特征在于，包括：

7.根据权利要求6所述的语音降噪系统，其特征在于，所述声学场景分类任务包括对多种不同的生活场景进行分类，以使得所述损失函数中包含各种生活场景信息。

8.根据权利要求6所述的语音降噪系统，其特征在于，所述音频标记任务包括对童声、女声以及男声进行分类，以使得所述损失函数获取各类人声信息内容信息。

9.根据权利要求6至8任一项所述的语音降噪系统，其特征在于，所述音频分类网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成；与上一层相比，下一层的长度减少2倍；通道数每5层增加一倍，起始层有32个通道；最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

10.根据权利要求6至8任一项所述的语音降噪系统，其特征在于，所述增强网络由16个卷积层组成，第一层和最后一层是维数N×1的一维张量，N是输入信号长度，第一层卷积核为3×1，最后一层卷积核为1×1；每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征映射数；通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和LReLU进行激活，由于归一化，中间层没有使用任何偏置项；对所有层进行零填充，以使它们的“有效”长度恒定为N。