CN111524530A

CN111524530A - 一种基于膨胀因果卷积的语音降噪方法

Info

Publication number: CN111524530A
Application number: CN202010324373.XA
Authority: CN
Inventors: 陈阳; 刘庆云; 吴庆婕
Original assignee: Guangzhou Qingyin Intelligent Technology Co ltd
Current assignee: Guangzhou Qingyin Intelligent Technology Co ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-11

Abstract

本发明公开了一种基于膨胀因果卷积的语音降噪方法，该方法包括构建网络训练的音频训练集；基于膨胀因果卷积，构建语音降噪网络模型并训练网络模型；使用训练后的模型进行降噪。本发明利用膨胀因果卷积来处理音频时序信息，将感受范围增大，使模型的能力更加优秀。本发明提出的基于膨胀因果卷积的语音降噪方法，在去噪问题上，具有较好的解决能力，对噪声种类的泛化能力也较强。

Description

一种基于膨胀因果卷积的语音降噪方法

技术领域

本发明涉及语音降噪技术领域，尤其涉及一种基于膨胀因果卷积的语音降噪方法。

背景技术

对于音频信号的降噪技术一直是语音领域的一个收到极大关注的研究方向，并且具有很大的实用性。通过降噪技术，可以增强原始音频的质量，提高收听的效果。迄今，正在被使用的语音降噪方法主要有谱减法和基于统计模型的方法等。诸如此类的无监督方法，在慢变得噪声条件下，才能取得较好的降噪效果。随着机器学习和深度学习的广泛研究，将深度学习的有监督方法也被成功地应用到语音降噪问题上，并且取得了不错的效果。

基于深度学习的语音降噪方法中的深度神经网络，结构分为输入层，输出层和隐藏层。在语音降噪问题中，我们将带噪的音频信息作为网络的输入信息传到输入层，用纯净不带噪声的音频信息作为输出目标数据去做一个有监督的训练。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于膨胀因果卷积的语音降噪方法。

本发明的目的通过以下的技术方案来实现：

一种基于膨胀因果卷积的语音降噪方法，包括：

S1构建网络训练的音频训练集；

S2基于膨胀因果卷积，构建语音降噪网络模型并训练网络模型；

S3使用训练后的模型进行降噪。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

本发明与传统的语音降噪方法不同，采用了深度学习训练神经网络来完成语音降噪任务。通过膨胀因果卷积，提升了卷积效果，扩大了感受范围，最后训练出来的模型能更好地进行语音降噪工作，较好地去除带噪声音频文件中的噪声；

基于膨胀因果卷积的语音降噪方法，在去噪问题上，具有较好的解决能力，对噪声种类的泛化能力也较强。

附图说明

图1为本发明实施例提供的一种基于膨胀因果卷积的语音降噪方法的整体流程图；

图2为本发明实施例提供的一种基于膨胀因果卷积的语音降噪方法的示意图；

图3为膨胀因果卷积的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1和图2所示，为基于膨胀因果卷积的语音降噪方法的整体流程，包括以下步骤：

S1构建网络训练的音频训练集；

S2基于膨胀因果卷积，构建语音降噪网络模型并训练模型；

S3使用训练后的模型进行降噪。

上述S1中所述的音频训练集包括如下音频数据：带噪音频数据以及与之对应的用于监督的纯净音频数据。所述的数据集构建方法为：

S11采集纯净的音频信号和噪声信号。纯净的音频信号采集自TIMIT数据库以及与录音室中录制的纯净不带噪声的语音音频信号，噪声信号同样采集自TIMIT数据库以及录制的噪声音频信号。

S12将纯净的语音音频信号和噪声信号混合，得到带噪声的语音音频信号。合成的方法有单噪声和多噪声的合成方法，有效地丰富了数据集。

上述步骤S2中，语音降噪网络构建的具体方法如下：

S21.基于膨胀因果卷积，设计卷积层。为了使每个样本的预测仅受到先前样本的影响，采用了因果卷积，使每个样本的预测只会基于该样本之前的样本数值。为了有效扩大感受范围，采用膨胀卷积。通过膨胀卷积，改变普通卷积的感受范围。通过膨胀系数逐层翻倍，使得卷积的感受范围指数型增加。

S22.使用了门激活单元，替代了深度神经网络中常见的单一激活函数，进行非线性转换，门激活单元的公式如下式:

z＝tanh(W_f，k*x)·σ(W_g，k*x)

*代表卷积操作。σ(·)是sigmoid函数，k是层数索引，f和g是滤波器和门，W是可学习的卷积核。

S23.网络的隐含层层由一个个膨胀卷积模块组成。每个模块中将会由膨胀卷积层、门激活单元和1*1卷积层组成。在隐含层的模块中，数据先进行膨胀卷积，再经过门单元激活，最后1*1的卷积核完成维度的调整。此外，每一个模块中运用了残差学习。每个模块处理完后的数据会送到下个模块。

S24.所有模块的输出会加和之后输入到输出层中，经过RuLU函数的激活，以及softmax的运算，得到预测概率。预测概率最大的即为预测值，预测值与纯净音频信号中对应的监督值计算交叉熵，更新网络的参数。

膨胀因果卷积的示意图见图3。本实例中，各层膨胀因果卷积层的膨胀因子随层数的增加，分别设置为1，2，4，8，……512，1，2，4，8，……512，1，2，4，8，……512。

上述步骤S2中，我们可以训练出一个基于膨胀因果卷积的语音降噪模型。步骤S3中，使用模型进行降噪的具体方法如下：

S31.对待处理的音频信息进行预处理。本发明中，步骤S1构建的数据集的音频数据的目标采样率为16k。对于不同采样率的音频信息，需要先重采样至目标采样率，才能使模型正常起作用。

S32.预处理后的音频信息通过模型的运算，得到降噪后的音频信息。

上述实施可以获得较好的语音降噪效果。该方法具有失真小，泛化能力强，降噪效果好的优点。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于膨胀因果卷积的语音降噪方法，其特征在于，所述方法包括以下步骤：

S1构建网络训练的音频训练集；

S3使用训练后的模型进行降噪。

2.如权利要求1所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述步骤S1中音频训练集包括以下音频数据：带噪音频数据以及与带噪音频数据对应的用于监督的纯净音频数据；所述音频数据的构建方法为：

S11采集纯净的音频信号和噪声信号；

S12将纯净的语音音频信号和噪声信号混合，得到带噪声的语音音频信号。

3.如权利要求1所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述步骤S2中语音降噪网络模型的构建具体包括：

S21基于膨胀因果卷积，设计卷积层；

S22通过门激活单元替代深度神经网络中常见的单一激活函数，进行非线性转换；

S23将多个膨胀卷积模块组成网络隐含层，其中，每个膨胀卷积模块由膨胀卷积层、门激活单元和1*1卷积层组成；在膨胀卷积模块中，数据进行膨胀卷积后经过门单元激活，最后1*1的卷积核完成维度的调整；

S24每个膨胀卷积模块的输出加和后输入到输出层中，经过RuLU函数的激活，以及softmax的运算，得到预测概率，预测概率最大的即为预测值。

4.如权利要求1所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述步骤S3具体包括：

S31对待处理的音频信息进行预处理；

S32预处理后的音频信息通过模型的运算，得到降噪后的音频信息。

5.如权利要求2所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述纯净的音频信号采集于TIMIT数据库以及与录音室中录制的纯净不带噪声的语音音频信号，噪声信号同样采集于TIMIT数据库以及录制的噪声音频信号。

6.如权利要求2所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述纯净的语音音频信号和噪声信号混合的合成方法包括单噪声合成和多噪声合成。

7.如权利要求3所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述每个膨胀卷积模块运用了残差学习，且每个膨胀卷积模块将处理完后的数据输送到下一膨胀卷积模块。

8.如权利要求3所述的基于膨胀因果卷积的语音降噪方法，其特征在于，所述预测值与纯净音频信号中对应的监督值计算交叉熵，更新网络的参数。