CN116935879A

CN116935879A - 一种基于深度学习的两阶段网络降噪和去混响方法

Info

Publication number: CN116935879A
Application number: CN202210355142.4A
Authority: CN
Inventors: 刘宏清; 夏俊杰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2023-10-24

Abstract

本发明涉及一种基于深度学习的两阶段网络降噪和去混响方法，属于语音处理领域，依据干扰信号的性质差异将背景噪声和房间混响分为降噪阶段和去混响阶段处理。首先对两个阶段的网络进行单独训练，保留训练的权重参数及相关配置，并进一步移植到时域两阶段网络中进行联合训练。本发明在时域对噪声和混响进行处理，不需要对语音信号进行额外的变换，避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析，时域两阶段网络相对于单级网络和频域网络，均能够表现出更好的性能。

Description

一种基于深度学习的两阶段网络降噪和去混响方法

技术领域

本发明属于语音处理领域，涉及一种基于深度学习的两阶段网络降噪和去混响方法。

背景技术

近些年来，科研人员针对如何抑制背景噪声和房间混响做了大量的工作。对于单独地抑制混响而言，逆滤波是最常用的方法之一，其通过估计出一个抵消房间脉冲响应影响的逆滤波器，然后对混响信号和逆滤波器进行卷积运算得到估计的纯净语音信号，该犯法的困难之处是不易估计出合理的逆滤波器。随后，Wu Mingyang等提出了基于单麦克风场景的两阶段算法分别处理早期混响和晚期混响，该算法的第一阶段使用了逆滤波器，第二级使用了谱减法。接下来，Zhao Yan等基于频域使用深度神经网络(DNN)学习了一个从噪声混响语音信号到纯净语音信号的声谱映射，这是第一个使用监督学习的方法同时处理房间混响和背景噪声的研究。但是由于背景噪声和房间混响的不同性质，即混响信号是通过纯净语音信号与房间脉冲响应(RIR)卷积生成，而带噪语音信号是纯净语音信号与背景噪声的叠加过程。因此，在同一模型中处理背景噪声和房间混响时不能一概而论，应该将这两种干扰信号分开处理。而且上述提出的算法是基于频域处理语音信号，在将频域信号重构为时域波形之前，往往需要借助带噪语音信号的相位信息估计出纯净语音信号的频谱，这无法充分地利用纯净语音信号的相位信息，进一步导致估计的纯净语音信号与目标语音信号发生偏离。

发明内容

有鉴于此，本发明的目的在于提供一种时域两阶段联合网络模型，旨在时域对背景噪声和房间混响进行分阶段处理。本发明首先对两个单级网络进行训练，并将单独训练获得的网络权重参数移植到两阶段联合网络模型中，进一步作为两阶段联合网络训练的初始值。本发明在相同的数据集下对频域单级网络，时域单级网络，频域两阶段网络和时域两阶段网络进行训练和测试，并进一步比较不同网络的主观语音质量评估(PESQ)和短时客观可懂度(STOI)得分，验证了本发明提出的时域两阶段方法具有更好的性能。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的两阶段网络降噪和去混响方法，包括以下步骤：

S1：制作数据集：设置混响环境，与纯净语音信号进行合成得到混响信号，将所述混响信号分别与训练噪声数据集和测试噪声数据集进行合成，得到同时含有噪声和混响的语音信号训练集和测试集；

S2：基于循环神经网络(RNN)和时域卷积网络(TCN)搭建两阶段联合网络模型，包括降噪阶段和去混响阶段；

S3：将时域语音信号输入单级网络进行单独训练，降噪阶段的输入包括噪声混响信号和无噪声混响信号H(t)，并将无噪声混响信号H(t)作为学习的标签，降噪阶段的输出是估计的无噪声混响信号损失函数不断地将估计的/>向学习标签H(t)拟合；去混响阶段的输入包括无噪声的混响信号和纯净语音信号s(t)，并将纯净语音信号s(t)作为学习的标签，去混响阶段的输出是估计的纯净语音信号/>损失函数不断地将估计的/>向学习标签s(t)拟合；

S4：对两阶段联合网络模型进行联合训练，同时抑制噪声和混响；保留降噪阶段和去混响阶段单独训练的最优权重参数，并将其用作两阶段联合网络模型训练的初始值；两阶段联合网络模型的输入包括噪声混响信号和纯净语音信号s(t)，将s(t)作为学习的标签，将估计出的纯净语音信号向标签s(t)拟合；

S5：重复步骤S4，当损失值达到最小并收敛时结束训练；

S6：使用测试集对训练好的两阶段联合网络模型进行测试。

进一步，步骤S1中所述设置混响环境为：在0.1s到0.9s之间定义5个不同的混响时间，且步长为0.2s；房间的长和宽在2米到10米之间随意取值，麦克风和声源位置随机地设置在房间内部。

进一步，步骤S1中，在合成噪声混响信号时采用不同的信噪比，所有语音数据为同一采样率。

进一步，步骤S2中所述降噪阶段的模型包括编码器、降噪模块和解码器，所述降噪模块包括序列分割、块处理和重叠相加；所述编码器和解码器用于将语音信号从时域波形到高维特征之间来回转换；所述序列分割用于把输入的特征序列分割成重叠的块，再把所有块堆叠成三维张量；所述块处理包括块内处理模块和块间处理模块，所述块内处理模块用于处理三维张量的第一和第二维度信息，所述块间处理模块用于处理三维张量的第一和第三维度信息，所述重叠相加用于合成长语音序列。

进一步，步骤S2中所述去混响阶段的模型用于生成输入语音信号的高维特征，包括编码器、时域卷积网络、激活函数和解码器；将降噪阶段的解码器输出作为去混响阶段的编码器输入，通过时域卷积网络和激活函数估计掩码，然后将编码器的输出与估计的掩码相乘，获取估计的纯净语音信号的高维特征，最后使用解码器将估计的高维特征转换为时域语音信号。

进一步，所述时域卷积网络是由堆叠的一维膨胀卷积(1-D D-Conv)组成的。

进一步，步骤S3中，降噪阶段的损失函数公式如下：

其中，s是目标语音信号，是估计的语音信号和||·||²表示向量的内积。

进一步，步骤S3中，去混响阶段的损失函数公式如下：

进一步，步骤S4中，两阶段网络的联合损失函数如下：

进一步，采用Adam优化器对两阶段网络的联合损失进行优化，Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率，逆向传播对神经元权值进行求偏导，计算最优解不断更新网络神经元的权值。

本发明的有益效果在于：本发明在时域对噪声和混响进行处理，不需要对语音信号进行额外的变换，避免了在信号变换的过程中造成有用信息的丢失。通过对实验数据的分析，时域两阶段网络相对于单级网络和频域网络，均能够表现出更好的性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为两阶段联合网络模型框图；

图2为序列分割示意图；

图3为块处理流程图；

图4为TCN的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，为一种基于深度学习的两阶段网络降噪和去混响方法，主要步骤为：

步骤S1：制作本发明所用的数据集。使用的纯净语音信号取自WSJ0数据集，用于训练的噪声数据集取自ESC-50，用于测试的噪声数据集取自Noisex92。制作数据集需要设置不同的混响时间、房间尺寸大小、麦克风位置和声源位置模拟不同的混响环境。首先，在0.1s到0.9s之间定义5个不同的混响时间，且步长为0.2s。其次，房间的长和宽在2米到10米之间随意取值，麦克风和声源位置随机地设置在房间内部。用取自WSJ0的纯净语音信号与随机模拟出的混响环境合成不同的混响信号。再从ESC-50和Noisex92噪声数据集中随机抽取噪声与混响信号进行合成，得到同时含有噪声和混响的语音信号。在合成噪声混响信号时采用了不同的信噪比，分别为-9dB、-5dB、0dB、5dB和9dB。最终得到的数据集中训练集有40小时，验证集有15小时，测试集有15小时，且所有语音数据的采样率均为16kHz。

步骤S2：搭建深度学习模型，本发明主要基于RNN和TCN两种网络搭建模型。

1)、降噪阶段可以分为三个部分：编码器、降噪模块和解码器。降噪模块又包括序列分割、块处理和重叠相加。编解码器的作用是将语音信号从时域波形到高维特征之间来回转换。如图2所示，序列分割的目的是把输入的特征序列分割成重叠的块，再把所有块堆叠成三维张量，便于块处理模块学习。如图3所示，块处理包括块内处理和块间处理，对于块内处理模块而言，其处理三维张量的第一和第二维度信息，而块间处理模块处理三维张量的第一和第三维度信息。

2)、去混响阶段使用一个编码器，用于生成输入语音信号的高维特征，进一步将编码器的输出与估计的掩码相乘，获取估计的纯净语音信号的高维特征，最后使用一个解码器将估计的特征转换为时域语音信号。如图4所示，估计掩码时使用了堆叠的1-D D-Conv组成的TCN。

步骤S3：将时域语音信号输入单级网络进行单独训练。降噪阶段的目的是对噪声进行抑制，从而获得无噪声的混响信号，其输入包括噪声混响信号和无噪声混响信号H(t)，且后者是用来学习的标签。降噪阶段的输出是估计的无噪声混响信号损失函数不断地将估计的/>向学习标签H(t)拟合。降噪阶段的损失函数公式如下：

其中：

去混响阶段的目的是从无噪声的混响信号中恢复出纯净语音信号。其输入包括无噪声的混响信号和纯净语音信号s(t)，s(t)被认为是学习的标签。去混响阶段的输出是估计的纯净语音信号损失函数不断地将估计的/>向学习标签s(t)拟合，达到对混响进行抑制的预期效果。去混响阶段的损失函数公式如下：

步骤S4：对两级网络进行联合训练，同时抑制噪声和混响。本发明保留了降噪阶段和去混响阶段单独训练的最优权重参数，并将其用作两阶段联合网络训练的初始值。这不仅能缩短两阶段联合网络的训练周期，而且更容易获得最优的两阶段网络模型。两阶段联合网络训练的输入包括噪声混响信号和纯净语音信号s(t)，该模型的目的是同时对噪声和混响进行抑制，得到估计的纯净语音信号且s(t)作为学习的标签，将估计出的纯净语音信号/>向标签s(t)拟合。两阶段网络的联合损失函数如下：

当损失较大时说明网络性能较差，并没有达到最优。为了最小化损失,采用Adam优化器进行参数优化，Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率，逆向传播对神经元权值进行求偏导，计算最优解不断更新网络神经元的权值。

步骤S5：重复进行步骤S4，当损失值达到最小并收敛时结束训练，此时的网络参数已达到最优，把该网络模型作为我们的系统模型。

步骤S6：使用步骤S1中合成的测试数据集对训练好的模型进行测试，并对比不同的方法，分别获取各种方法的主观语音质量评估(PESQ)和短时客观可懂度(STOI)得分，验证了本发明的优越性能，如表1为PESQ得分表，表2为STOI得分表。

表1

表2

其中，PESQ的得分在-0.5到4.5之间，STOI的得分在0到1之间，且它们的分越高，代表网络的性能越好。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的两阶段网络降噪和去混响方法，其特征在于：包括以下步骤：

S5：重复步骤S4，当损失值达到最小并收敛时结束训练；

S6：使用测试集对训练好的两阶段联合网络模型进行测试。

2.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S1中所述设置混响环境为：在0.1s到0.9s之间定义5个不同的混响时间，且步长为0.2s；房间的长和宽在2米到10米之间随意取值，麦克风和声源位置随机地设置在房间内部。

3.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S1中，在合成噪声混响信号时采用不同的信噪比，所有语音数据为同一采样率。

4.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S2中所述降噪阶段的模型包括编码器、降噪模块和解码器，所述降噪模块包括序列分割、块处理和重叠相加；所述编码器和解码器用于将语音信号从时域波形到高维特征之间来回转换；所述序列分割用于把输入的特征序列分割成重叠的块，再把所有块堆叠成三维张量；所述块处理包括块内处理模块和块间处理模块，所述块内处理模块用于处理三维张量的第一和第二维度信息，所述块间处理模块用于处理三维张量的第一和第三维度信息，所述重叠相加用于合成长语音序列。

5.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S2中所述去混响阶段的模型用于生成输入语音信号的高维特征，包括编码器、时域卷积网络、激活函数和解码器；将降噪阶段的解码器输出作为去混响阶段的编码器输入，通过时域卷积网络和激活函数估计掩码，然后将编码器的输出与估计的掩码相乘，获取估计的纯净语音信号的高维特征，最后使用解码器将估计的高维特征转换为时域语音信号。

6.根据权利要求5所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：所述时域卷积网络是由堆叠的一维膨胀卷积(1-D D-Conv)组成的。

7.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S3中，降噪阶段的损失函数公式如下：

8.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S3中，去混响阶段的损失函数公式如下：

9.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：步骤S4中，两阶段网络的联合损失函数如下：

10.根据权利要求1所述的基于深度学习的两阶段网络降噪和去混响方法，其特征在于：采用Adam优化器对两阶段网络的联合损失进行优化，Adam算法通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设置独立的自适应性学习率，逆向传播对神经元权值进行求偏导，计算最优解不断更新网络神经元的权值。