CN113823308B

CN113823308B - 一种使用单个带噪语音样本进行语音去噪的方法

Info

Publication number: CN113823308B
Application number: CN202111100709.5A
Authority: CN
Inventors: 伍家松; 李清淳; 孔佑勇; 杨淳沨; 杨冠羽; 姜龙玉; 陈阳; 舒华忠
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2023-11-28
Anticipated expiration: 2041-09-18
Also published as: CN113823308A

Abstract

本发明提供了一种仅使用单个带噪语音样本进行语音去噪的方法。该方法包括以下步骤：(1)对于干净的语音信号，分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本；(2)对于单个带噪语音样本，使用一个语音下采样器生成一对语音训练样本；(3)将训练的输入语音转化为频谱图，然后输入去噪网络进行训练，该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块；(4)训练使用的损失函数由基础损失和正则化损失组成，基础损失由网络特点决定，正则化损失可以防止单样本去噪训练出现过度平滑现象。对比使用干净语音以及使用一对带噪语音进行训练的传统方法，该方案在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上均取得了更好的结果。

Description

一种使用单个带噪语音样本进行语音去噪的方法

技术领域

本发明涉及一种使用单个带噪语音样本进行语音去噪的方法，属于深度学习、语音去噪及语音增强领域。

背景技术

目前电子技术应用非常广泛，语音作为典型的非平稳随机信号，是人们传递信息或相互通信最常用的媒介，随着语音业务逐渐涌现在智能终端上，人们对语音质量越来越重视。在信息化快速发展的今天，语音信号不可避免地会受到各种噪声的干扰，这些噪音种类众多，如电气设备声、汽笛声等，这些噪声的干扰会导致输出的语音质量差，不仅不易被人们理解，也会使得人机设备难以获得准确的信息。因此，各种语音去噪技术得到了迅速的发展和研究。传统的研究思路中，为了实现良好的语音降噪结果，需要大量的带噪语音样本和干净语音样本作为训练数据，这种训练数据需要昂贵的音频记录设备和环境严格的隔音记录工作室。

从去噪方法而言，由于现实世界有很多不便于收集或者干净数据较为昂贵的稀少语音资源，目前已经有使用一对带噪语音样本进行去噪的方法，这种方法要求每个场景中至少有两个独立的带噪语音样本，这在现实生活的场景中往往难以满足。

从去噪网络而言，为了缓解传统的基于卷积神经网络的方法中感受野受限的问题，目前已经有采用扩张卷积神经网络来提高语音增强性能的方法。后来有学者通过在UNet的编码器和解码器之间加入时序卷积网络(Temporal convolutional network，TCN)或长短期记忆(Long Short-Term Memory，LSTM)网络来学习长期依赖关系，但是语音的上下文信息仍然被忽略，这会大大限制去噪性能。

发明内容

针对现有去噪方法的局限性，本发明在不使用干净语音数据的情况下，仅利用单个带噪语音样本训练去噪网络，这种方法打破了传统方法中需要构造两张独立带噪语音样本的局限性，通过设计采样器的方式从单个带噪语音样本中构造出相似语音训练对，将去噪技术推广到相似带噪语音样本和单个带噪语音样本这两个场景。

针对现有去噪网络的不足，本发明在复数编码器和解码器中融合了基于两级Tansformer的复数模块以学习编码器输出的局部和全局上下文信息，来解决并行计算的长依赖问题，从而提高语音去噪网络的性能。

为了达到上述目的，本发明提供如下技术方案：

一种使用单个带噪语音样本进行语音去噪的方法，包括以下步骤：

步骤1，对于干净的语音信号，分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本；

步骤2，对于单个带噪语音样本，使用一个语音下采样器生成一对语音训练样本，具体步骤如下：

2-1，设置参数i＝0，k≥2，i的下一个取值为i+k，以此类推，直至遍历完原始语音信号；

2-2，对于带噪语音样本x的第i到第i+k-1个的时域值，语音下采样器S从中随机选择两个相邻值分别作为下采样结果s₁(x)和s₂(x)的第i/k处的时域值；

2-3，通过步骤2-2，可以得到一对训练样本s₁(x)和s₂(x)，其长度为带噪语音样本x的1/k倍。由于下采样器S从原样本的相邻但不相同的位置采样得到语音对，因此该语音对满足相互之间的差异很小，但其对应的干净语音并不相同的条件。

在语音训练对的生成过程中，我们使用语音下采样器直接处理原始语音的时域值，这是因为直接对训练输入进行子采样是不合理的。在我们的框架中通过短时傅里叶变换提取每个汉明窗内局部语音信息的频谱图形成训练输入，不同的窗口大小导致提取到的局部信息覆盖的语音特征不同，使得普通的采样方法很难获得非常相似的子采样对。因此，我们直接在语音的时域值上进行采样，然后再应用短时傅里叶变换生成有效的训练输入。除了短时傅里叶变换之外，我们的语音下采样器适合于其他去噪模型的任何语音变换操作，这意味着在任何有监督的语音去噪任务中表现良好的网络都可以应用我们的下采样方法。

步骤3中，将训练对中的输入语音转化为频谱图输入去噪网络进行训练，训练对中另一个语音作为训练目标，去噪网络的特征如下：

3-1，普通UNet的卷积层全部被取代为复数卷积层，除了网络最后一层之外，每个卷积层上均实现了复数批量归一化，在编码器阶段，使用复数下采样层替换最大池化层，以防止空间信息丢失，在解码器阶段，使用复数逆卷积上采样层以恢复输入图像的大小。

3-2，在去噪网络的编码器和解码器之间，叠加复数两级Transformer模块来学习编码器输出的局部和全局上下文信息，从而在解码器处有效地重构增强语音。

大多数去噪框架在处理频谱图时，侧重于关注幅度谱的特征，而忽略了相位谱的有用信息。因此，我们采用深度复数U-Net网络来解决这一问题。虽然这种U-Net结构可以更方便地处理复数频谱图，但往往会忽略语音的上下文信息，从而在一定程度上限制了去噪性能。所以，基于实值网络中两级Transformer模块提取上下文信息的有效性，我们将复数形式的两级Transformer模块引入到复数U-Net体系结构中，以更好地提取复数语音特征的上下文信息。

步骤4中，训练使用的总损失函数由基础损失/>和正则化损失/>组成。其中，基础损失由时域损失/>频域损失/>和加权源失真比(weighted source-to-distortion ratio，wSDR)损失/>组成，正则化损失用于在单样本去噪方法中防止过度平滑现象。

步骤5，将训练网络预测得到的掩码与原始带噪语音转换得到的频谱图相结合，得到去噪后的输出语音。

与现有技术相比，本发明具有如下优点和有益效果：

(1)针对现有语音去噪技术的不足，本发明设计了一种新的语音去噪框架，通过使用语音下采样器仅利用单个噪声语音样本进行去噪训练。本发明不仅不需要满足传统方法中对干净语音样本或者多个带噪样本的训练需求，而且缓解了现实场景中干净数据较为昂贵的稀少语音资源的限制。

(2)本发明设计了一种有效的复数语音去噪网络，该网络在深度复数UNet的编码器和解码器之间引入了一个两级Tansformer模块，并且类比复数卷积操作，实现复数形式的两级Tansformer模块以代替传统的实数两级Tansformer模块。该去噪网络通过对语音频谱的幅值和相位之间的相关性进行建模，学习编码器输出的局部和全局上下文信息，以提高语音去噪性能。

(3)与传统的去噪策略相比，该方法不仅在人工合成的带噪语音数据集上表现良好，而且在真实世界噪声的数据集上也具有很好的适用性。对比实验表明，本发明在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上，不仅优于以干净语音作为训练目标的传统去噪方法，而且优于使用一对带噪语音样本进行去噪的方法，表明了本发明在训练数据需求以及去噪性能表现两方面的优势。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明。

图1为本发明的总体网络架构示意图。

图2为本发明的语音下采样器说明图。

图3为本发明的语音去噪网络图。

图4为本发明的两级Transformer块结构图。

具体施方式

以下将结合附图和具体实施方式对本发明提供的技术方案进行详细说明。

实施例1：参见图1-图4，本发明提出的一种使用单个带噪语音样本进行语音去噪的方法流程及其架构如图1所示，具体步骤包括：

步骤1，对于干净的语音信号，分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本，

步骤2，对于单个带噪语音样本，使用一个语音下采样器生成一对语音训练样本。下采样器的流程如图2所示，首先，设置参数i＝0，k≥2，i的下一个取值为i+k，以此类推，直至遍历完原始语音信号；其次，对于带噪语音信号x的第i到第i+k-1处的时域值，语音下采样器S从中随机选择两个相邻值分别作为下采样结果s₁(x)和s₂(x)的第i/k处的时域值。

通过上述步骤，可以得到一对训练样本s₁(x)和s₂(x)，其长度为带噪语音样本x的1/k倍。由于下采样器S从原样本的相邻但不相同的位置采样得到语音对，因此该语音对满足相互之间的差异很小，但其对应的干净语音并不相同的条件。

由单个带噪样本生成一对语音训练样本进行训练的原理如下：

首先，考虑相似场景的两个独立带噪语音样本的情况。假设有一个干净语音x，其对应的带噪语音是y，即E_y|x(y)＝x，当引入一个非常小的信号差ε≠0时，x+ε是另一张带噪语音z对应的干净语音，即E_z|x(z)＝x+ε。令f_θ代表去噪网络，则有：

上式表明，当ε→0时，2εE_x，y(f_θ(y)-x)→0，此时(y，z)配对可以作为(y，x)配对的一种近似。因此，一旦找到合适的满足“相似但不相同”条件的(y，z)，就可以训练降噪网络。

接着，考虑使用单个带噪语音样本的情况，构造出两个“相似但不相同”语音样本的一种可行方法是下采样。从时域信号的相邻但不相同的位置采样出来的子信号很显然满足了相互之间的差异很小，但是其对应的干净语音并不相同的条件(即ε→0)。

因此，给定一个带噪语音y，本发明构造一对语音下采样器s₁(*)，s₂(*)，采样出两个子语音s₁(y)，s₂(y)，直接使用这两个子语音构造配对，则有：

由于两个采样噪声语音s₁(y)和s₂(y)采样的位置不同，即：

直接应用上式会导致语音去噪网络出现过度平滑现象，因此需要在总损失上增加正则项损失。假设有一个理想的语音去噪网络即：

该语音去噪网络满足：

因此，不再考虑直接优化等式(2)，而是考虑以下带有约束的优化问题：

由于等式(6)可以被改写为如下正则化优化问题：

至此，我们完成了基于单个语音样本进行去噪训练方法的原理推导。

步骤3，将训练对中的输入语音转化为频谱图，然后输入去噪网络进行训练，训练对中另一个语音作为训练目标，去噪网络的架构如图3所示，具体架构如下：

1)普通UNet的卷积层全部被取代为复数卷积层，除了网络最后一层之外，每个卷积层上均实现了复数批量归一化。在编码器阶段，使用复数下采样层替换最大池化层，以防止空间信息丢失。在解码器阶段，使用复数逆卷积上采样层以恢复输入图像的大小。

2)在去噪网络的编码器和解码器之间，叠加一个复数TSTM来学习编码器输出的局部和全局上下文信息，从而在解码器处有效地重构增强语音。

3)一个复数两级Transformer模块(Two-stage Transformer Module，TSTM)由多个两级Transformer块(Two-stage transformer block，TSTB)叠加而成。TSTB由一个局部Transformer和一个全局Transformer组成，分别提取局部和全局上下文信息，其架构如图4所示。局部Transformer和全局Transformer均基于改进的Transformer实现，与一般的Transformer结构有如下不同：首先，基于自注意机制的多头注意力块，输入特征被直接映射到不同位置的特征表示中；其次，在改进的Transformer开始处并没有使用位置编码，而是使用一个门控循环单元(Gate Recurrent Unit，GRU)层和一个中间有ReLU层的完全连接层作为前馈网络。

3)给定复数输入的实部X_r和虚部X_i，复数TSTM的输出F_out可以定义为：

F_rr＝TSTM_r (Xr)；F_ir＝TSTM_r (X_i) (8)

F_ri＝TSTM_i (X_r)；F_ii＝TSTM_i (X_i) (9)

F_out＝(F_rr-F_ii)+j(F_ri+F_ii) (10)

其中，X_r和X_i分别表示复数频谱输入的实部和虚部；TSTM_r和TSTM_i分别表示TSTM的实部和虚部；F_rr和F_ir表示原始输入的实部和虚部经过复数两级Transformer架构的实部得到的结果；F_ri和F_ii表示原始输入的实部和虚部经过复数两级Transformer架构的虚部得到的结果；F_out表示复数两级Transformer架构的运算结果。

步骤4，训练使用的损失函数由基础损失和正则化损失组成，总损失函数的公式如下：

其中，表示基础损失，/>表示正则化损失，γ是控制正则化损失权重的超参数。

1)基础损失由时域损失/>频域损失/>和加权源失真比(weightedsource-to-distortion ratio，wSDR)损失/>组成，基础损失的公式如下：

其中，α是控制频域损失和时域损失权重的超参数，β是控制加权源失真比损失权重的超参数。

①时域损失使用去噪波形和干净波形之间的均方误差(MSE)进行表示，定义为：

其中，s_i和分别表示第i个干净语音样本和去噪后语音样本，N为语音样本的总数量。

②频域损失根据语音经过短时傅里叶变换后得到的频谱图计算，定义为：

其中，S和表示干净语音频谱图和去噪后语音频谱图，r和i代表复数频谱的实部和虚部，T代表帧数，F代表频率间隔。

③加权源失真比损失的定义如下：

其中，x表示带噪语音，y表示目标干净语音，表示去噪网络预测的语音结果，α表示目标语音和噪声之间的能量比。

2)给定一对由带噪语音y下采样得到的语音对s₁(y)和s₂(y)，正则化损失的公式如下：

其中，f_θ表示去噪网络，为了稳定学习，在训练过程中停止s₁(f_θ(y))和s₂(f_θ(y))的梯度更新，逐渐增加公式(11)中的超参数γ到达最好的训练效果。

为了评估语音去噪的质量，使用以下客观措施：信噪比(signal-to-noise ratio，SNR)、分段信噪比(Segmental signal-to-noise ratio，SSNR)、窄带语音质量感知评估(Perceptual evaluation of speech quality，using the narrow-band version，PESQ-NB)、宽带语音质量感知评估(Perceptual evaluation of speech quality，using thewide-band version，PESQ-WB)、短时客观可懂度(Short Term ObjectiveIntelligibility，STOI)。以上指标的值越大表示去噪后的语音质量越高。

步骤5中，通过将预测的掩码与原始带噪语音的频谱图X_t，f相结合，来计算预测的去噪后语音频谱图/>该计算过程如下：

其中，表示频谱图的幅度谱信息，/> 表示频谱图的相位谱信息，/>

具体实施例：

下面结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

数据集：本发明使用Voice Bank数据集作为干净语音样本，其中共包含28个不同说话人集，26个用于训练，2个用于评估。在干净语音样本上分别叠加高斯白噪声和UrbanSound8K数据集生成带噪语音数据集，其中，高斯白噪声通过随机选择0到10范围内的信噪比得到，UrbanSound8K数据集选取自真实世界的噪声样本，使用其中所有的十个噪声类别进行实验。叠加过程中使用PyDub在干净音频上重叠噪声，通过截断或重复噪声使其涵盖整个语音段以形成一段完整的带噪语音样本。

实验环境：本实施例在Ubuntu操作系统下开发，通过Pytorch实现，机器配有四块NVIDIA GeForce GTX1080 Ti GPU。

实验参数设置：

1)本实施例中所有的信号采样率均为48kHz，时域信号x长度被截取为65280，使用窗长为1022，帧移为256的汉明窗进行短时傅里叶变换，最终可以得到大小为512×256×2的复数频谱图X；

2)将长度为65280时域信号x输入下采样器得到长度为16128的一对带噪语音样本s₁(x)和s₂(x)，其中下采样的超参数k设置为2；

3)接着，将s₁(x)经过短时傅里叶变换得到大小为512×128×2的复数频谱图s₁(X)，将其作为编码器的输入。

4)语音特征s₁(X)经过编码器可以得到大小为15×13×2的特征，将其作为复数TSTM的输入，得到与编码器输入大小不变的特征作为解码器的输入，最终经过解码器得到与输入频谱图对应的时域信号大小一致的特征。

5)对于训练过程的基础损失超参数α设置为0.8，β设置为1/200。对于总损失/>超参数γ设置为1。

实验结果：为了体现本发明相对于现有方法的性能提升，本实施例和文献(Kashyap M M，Tambwekar A，Manohara K，et al.Speech Denoising without CleanTraining Data：a Noise2Noise Approach[J].)中的利用干净语音作为训练目标的方法以及使用一对带噪语音进行去噪训练的方法进行对比。

对比实验结果如表1所示。其中，Noise2Clean表示利用干净语音作为训练目标的传统方法，Noise2Noise表示使用一对带噪语音进行去噪训练的方法，SNS(Single NoisySpeech)表示使用不包含复数TSTM模块的十层复数Unet进行单样本去噪的方法，SNS-TSTM(Single Noisy Speech-TSTM)表示在复数Unet中融入复数TSTM模块的单样本去噪方法。

本实施例针对白噪声和Urbansound8K数据集中十个噪声类型进行实验，表1每行对应所属噪声类别的对比实验结果。对于给定的噪声类别，分别计算所用度量标准的平均值和标准差。深色表格表示本发明提出的方法(即SNS与SNS-TSTM)，加粗显示的值表示最好的结果(即更高的平均值)。

为了探讨复数两级Transformer模块对去噪网络性能的影响，实验设置了一个不包含复数TSTM模块的十层复数Unet模型作为对比实验，结果在表格中使用SNS表示。该模型仅包含5个编码器和解码器层而不使用TSTM，每个编码器和解码器层都具有与SNS-TSTM的对应相同的配置。

表1

将两种基准方法Noise2Clean和Noise2Noise与本发明提出的SNS和SNS-TSTM的结果对比，可以得出如下结论：

1)SNS方法与基准方法Noise2Clean和Noise2Noise相比，可以发现本发明提出的单噪声样本去噪方法不仅优于使用干净语音进行训练的传统方法，同时超出了使用一对带噪样本进行训练的方法。即使对于Noise2Noise方法没有超过Noise2Clean方法的叠加白噪声的情况，本发明提出的SNS架构也展现了去噪性能的有效性和优越性，各指标均超出了两种基准方法。

2)将SNS方法与SNS-TSTM相比，可以发现：

①对于噪声种类2(小孩玩耍声)和噪声种类6(枪声)，SNS的方法超出了SNS-TSTM方法，但是它们的差值是很小的。可以认为对于叠加了真实世界中小孩玩耍声和枪声的带噪语音，两级Transformer模块提取到的局部和全局上下文信息对去噪网络影响是不大的，这种情况下，复数Unet模块在去噪过程中负责提取主要信息。

②对于噪声种类0、4、8，除STOI指标外，其余指标均为SNS-TSTM结果更好。STOI指标是基于纯净语音与带噪语音的时间包络相关系数计算得到，在实验中表现出与语音可懂度的高度相关性。可以认为对于叠加了噪声种类0、4、8的语音样本，两级Transformer模块对于提高去噪结果的语音可懂度作用较小，但是对于其他指标仍然表现良好。

③除上述两点分析外，对于叠加白噪声与其他剩余噪声种类的情况，TSTM模块的添加对于解码器中语音的重建非常有效。复数两级Transformer模块的引入使得去噪网络不仅能够更加精确地处理并重建来自频谱图的相位及幅度信息，又保证了语音的上下文信息不被忽略，总体来看，SNS-TSTM模型不管在合成噪音还是现实世界噪音中普遍取得了更好的效果。

以上实施例仅用以说明本发明的方案，而非限制该专利的范围，但凡是对该专利的说明书、附图或流程图进行等效修改或替换，却不脱离本专利所包括的范围，均在本专利的权利要求书的范围之内。

Claims

1.一种使用单个带噪语音样本进行语音去噪的方法，其特征在于，包括以下步骤：

步骤2，对于单个带噪语音样本，使用一个语音下采样器生成一对语音训练样本；

步骤3，将训练对中的输入语音转化为频谱图输入去噪网络进行训练，训练对中另一个语音样本作为训练目标，该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块；

步骤4，训练使用的损失函数由基础损失和正则化损失组成，基础损失由网络特点决定，正则化损失可以防止单样本去噪训练出现过度平滑现象；

步骤5，将训练网络预测得到的掩码与原始带噪语音转换得到的频谱图相结合，得到去噪后的输出语音，

所述步骤2中，使用以下步骤来生成一对训练语音样本：

2-3，通过步骤2-2，得到一对训练样本s₁(x)和s₂(x)，其长度为带噪语音样本x的1/k倍；由于下采样器S从原样本的相邻但不相同的位置采样得到语音对，因此该语音对满足相互之间的差异很小，但其对应的干净语音并不相同的条件。

2.根据权利要求1所述的使用单个带噪语音样本进行语音去噪的方法，其特征在于，所述步骤3中，去噪网络的特征如下：

3-1，普通UNet的卷积层全部被取代为复数卷积层，除了网络最后一层之外，每个卷积层上均实现了复数批量归一化，在编码器阶段，使用复数下采样层替换最大池化层，以防止空间信息丢失，在解码器阶段，使用复数逆卷积上采样层以恢复输入图像的大小；

3-2，在去噪网络的编码器和解码器之间，叠加一个复数两级Transformer模块来学习编码器输出的局部和全局上下文信息，从而在解码器处有效地重构增强语音。

3.根据权利要求1所述的使用单个带噪语音样本进行语音去噪的方法，其特征在于，所述步骤4中，总损失函数由基础损失/>和正则化损失/>组成，其中，基础损失由时域损失/>频域损失/>和加权源失真比,损失/>组成，正则化损失用于在单样本去噪方法中防止过度平滑现象。