CN114141238A

CN114141238A - 一种融合Transformer和U-net网络的语音增强方法

Info

Publication number: CN114141238A
Application number: CN202111424756.5A
Authority: CN
Inventors: 杨吉斌; 范君怡; 张雄伟; 郑昌艳; 曹铁勇; 张强; 邦锦阳; 梅鹏程
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04

Abstract

本发明公开了一种融合Transformer和U‑net网络的语音增强方法，包括如下步骤：S1，采集原始的干净语音数据集和带噪语音数据集，并将采集的数据集分为训练集、验证集和测试集；S2，构建融合Transformer和U‑net网络的语音增强模型；S3，使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练；S4，将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型，输出干净的语音信号。本发明在U‑net网络中加入了Transformer模块，有效提取局部和全局的上下文特征信息；同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络，从而获得更高的语音可懂度和感知质量。

Description

一种融合Transformer和U-net网络的语音增强方法

技术领域

本发明属于语音增强技术领域，具体涉及一种融合Transformer和U-net网络的语音增强方法。

背景技术

语音是人与人之间最自然的交流方式，但是在现实生活中，噪声的干扰无处不在，使得语音通信质量以及基于语音的人机交互效率大幅度降低。语音增强的目的就是从带噪语音信号中提取出尽可能干净的语音信号，提高语音的质量和可懂度。为满足人们对高质量语音通信交流的需求等，语音增强技术在学术界和工业领域得到了广泛的研究和应用。根据采集声音时麦克风设备的使用数量，可将语音增强分为单通道语音增强和多通道语音增强。和多通道语音增强相比，单通道语音增强具有硬件成本低，能耗小的优势，但是缺失声源和噪声的空间信息，研究更具挑战性。

传统的单通道语音增强技术主要包括基于短时谱估计的语音增强法、基于信号子空间的语音增强法和基于语音生成模型的语音增强法等。这些方法所依赖的假设，并不符合很多实际场景的条件。基于深度神经网络的语音增强技术，不需要对数据设置额外假设条件，通过挖掘大规模数据的内在关联，能够准确实现语音和噪声估计，在低信噪比和非平稳噪声环境下取得了较大的进展。在语音增强任务中，各种网络模型都得到了应用，如深度神经网络(DNN)、递归神经网络(RNN)、卷积神经网络(CNN)、U-net神经网络和Transformer神经网络等。

公开号为CN111968629A的中国专利公开了一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法，该方法包括步骤：S1，将语音信号进行预处理，提取80维的logmel Fbank特征；S2，将提取到的80维Fbank特征用CNN卷积网络进行卷积；S3，将特征输入到DFSMN网络结构中；S4，将CTC loss作为声学模型的损失函数，采用Beam search算法进行预测，使用Adam优化器进行优化；S5，引入强语言模型Transformer迭代训练直至达到最优模型结构；S6，将Transformer和声学模型CNN-DFSMN-CTC相结合进行适配，在多数据集上进行验证，最终得到最优识别结果。

RNN能够捕获长距离的依赖信息，有效解决长时依赖问题，但是不能并行处理数据；CNN能够以并行方式处理输入数据，但是无法捕获长距离的依赖信息。和RNN、CNN相比，Transformer能够以并行方式处理输入数据，有效地解决语音信号中的长时依赖问题，并能显著减少训练时间和推理时间。语音增强中主要使用的是上下文特征信息，其特征信息的使用不同于机器翻译等自然语言处理任务，因此传统的Transformer神经网络在语音增强方面表现并不佳。为此，需要对Transformer神经网络进行改进，才能在语音增强中有效发挥Transformer模型的优势，改进语音增强性能。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种融合Transformer和U-net网络的语音增强方法，该增强方法在U-net网络中加入了Transformer模块，有效提取局部和全局的上下文特征信息；在实现中，该增强方法同时使用时域损失、时频域损失和感知损失三类损失函数一起训练语音增强网络，从而获得更高的语音可懂度和感知质量。

为实现上述目的，本发明采用的技术方案是：

一种融合Transformer和U-net网络的语音增强方法，包括如下步骤：

S1，采集原始的干净语音数据集和带噪语音数据集，并将采集的数据集分为训练集、验证集和测试集；

S2，构建融合Transformer和U-net网络的语音增强模型；

S3，使用步骤S1中的训练集和验证集对步骤S2中构建的语音增强模型进行训练；

S4，将步骤S1中的测试集作为待增强的语音信号输入训练好的语音增强模型，输出干净的语音信号。

具体地，步骤S2中，所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。

进一步地，所述编码模块采用U-net网络的编码层，包括一个上采样层和多个编码层；所述编码模块的输入为一段时域语音信号，用一个三维张量(批次B*通道数C0*信号长度D)表示，编码模块的输出也是一个三维张量。所述上采样层用于对语音信号的采样频率进行扩展，提高模型的准确性。

进一步地，每个所述编码层均包括：

一个卷积核大小为K、步长为S、输出通道为2^i-1H的一维卷积层，i表示层数；

一个ReLU函数激活层；

一个卷积核大小为1、步长为1、输出通道为2ⁱH的一维卷积层；以及

一个将通道数转换为2^i-1H的GLU函数激活层。

具体地，所述Transformer模块包括多个堆叠的双路径Transformer块，所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块，可以同时提取局部和全局的上下文特征信息。局部Transformer块在四维输入张量的最后一维上执行计算，用于对输入的局部特征信息进行平行化处理，全局Transformer块在四维输入张量的倒数第二维上执行计算，用于融合局部Transformer块的输出信息，以学习全局特征信息。所述Transformer模块的输入是一个四维张量(批次B*通道数Ct*帧数N*帧长F)，因此对编码模块的输出进行分割，得到N个长度为F的帧。N的计算公式如下：

其中，L表示编码模块输出的长度，M表示帧移。

经过多个堆叠的双路径Transformer块计算后，得到Transformer模块的输出是一个四维张量。

进一步地，所述局部Transformer块和全局Transformer块均包括多头注意力机制模块和前馈网络模块；

所述多头注意力机制模块中的自注意力机制可以描述为在网络中通过查询(Q)得到注意力输出的机制。网络通过一组键(K)和值(V)记录已学习的信息。自注意力机制既可以解决长时依赖问题，又可以进行并行化处理。自注意力机制可以“动态”地生成不同连接的权重，从而得以处理变长的信息序列，在一定程度上解决长时依赖问题。由于每个Q之间并不存在先后的依赖关系，自注意力机制能够并行地计算句子中不同的Q，实现并行化处理。

所述多头注意力机制模块集成了h个自注意力机制，每个自注意力机制关注相同的Q、K和V；每个自注意力机制只负责最终输出序列中的一个子空间，且输出序列互相独立。

所述多头注意力机制模块的计算公式如下：

head_i＝attention(QW_i ^Q,KW_i ^K,VW_i ^V)

multihead(Q,K,V)＝concat(head₁,L head_h)W^O

其中，d_k表示键的维数，W^O、W_i ^Q、W_i ^K、W_i ^V为线性映射的不同参数矩阵，h为子空间的个数，contact为向量拼接操作。

所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层，所述前馈网络模块的第一层使用GRU层，用来学习位置信息。

具体地，所述掩码模块包括多个激活函数层和多个卷积层，掩码模块是利用Transformer模块的输出来计算用于增强的掩码。掩码模块的输入是一个四维张量，为了使掩码模块的输出和编码模块的输出相匹配，在掩码模块中采用了重叠添加操作，将输入的四维张量转换成三维张量。该模块首先将Transformer模块的输出通过PReLU运算和二维卷积对通道维度进行加倍。然后通过重叠添加操作，将输入的四维张量转换成三维张量。接着通过双路一维卷积和sigmoid/tanh激活函数运算，将两者的输出相乘。最后经过一维卷积和ReLU运算后得到一个三维张量的掩模。

具体地，所述解码模块采用U-net网络的解码层，包括多个解码层和一个下采样层；所述解码模块的输出为一段时域语音信号。所述下采样层用于还原语音信号的采样频率。

进一步地，每个所述解码层均包括：

一个卷积核大小为1、步长为1、输出通道为2ⁱH的一维卷积层；

一个将通道数转换为2^i-1H的GLU函数激活层；以及

一个卷积核大小为K、步长为S、输出通道为2^i-2H的一维转置卷积层。

与现有技术相比，本发明的有益效果是：

(1)本发明中采用的U-net网络是一种带有跳跃连接的U型网络结构，避免了直接在高维特征中进行监督和计算损失函数，而是结合了低维特征，从而可以使得最终所得到的特征中既包含了高维特征，也包含很多的低维特征，实现了不同尺度下的特征融合，提高了模型的精确度；

(2)由于人类在处理复杂听觉场景时，既能注意到关注的语音内容，又能注意到场景中的背景变化，实际上听觉注意存在多个注意的焦点；同时，由于关注的语音发音通常由同一人发出，在较长的时间尺度上这个语音和噪声内容相比，语音内容的特征分布相似性更强。Transformer具有多头注意力机制、长序列依赖关系估计能力强的优势，可以很好的与语音中的这些特点相吻合；因此，本发明通过在U-net网络中引入Transformer模型，可以有效改善增强语音的质量和可懂度；

(3)本发明提出的方法属于端到端语音增强方法，由于直接对输入语音进行处理，不再预先提取特征，简化了处理流程，减少了可能由幅度谱到波形转换带来的失真。

附图说明

图1为本发明一种融合Transformer和U-net网络的语音增强方法的流程示意图。

图2为本发明实施例中融合Transformer和U-net网络的语音增强模型的结构示意图。

图3为本发明实施例中Transformer模块的结构示意图。

图4为本发明实施例中多头自注意力机制模块的结构示意图。

图5为本发明实施例中前馈网络模块的结构示意图。

图6为本发明实施例中自注意力机制示意图。

图7为本发明实施例中掩码模块的结构示意图。

图8为本发明实施例中融合Transformer和U-net网络的语音增强模型训练原理示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了一种融合Transformer和U-net网络的语音增强方法，包括如下步骤：

具体实施过程中，利用VoiceBank-DEMAND数据集中的语音数据，该数据集包含干净语音信号和其对应的预混合带噪语音信号。干净语音信号选自Voice Bank corpus数据集，其中训练集包含28个说话人(14个男性和14个女性)的11572条语音数据，测试集包含2个说话人(1个男性和1个女性)的824条语音数据。带噪语音信号由干净语音信号和不同噪声合成，训练集包含40种不同噪声条件下的语音信号，共有10种噪声(8种来自DEMAND数据集，2种是人工生成)，信噪比为0dB、5dB、10dB和15dB；测试集包含20种不同噪声条件下的语音信号，共有5种噪声，均选自DEMAND数据集，在训练集中并未出现，信噪比为2.5dB、7.5dB、12.5dB和17.5dB。

将干净语音数据集和带噪语音数据集重采样为16kHz；从训练集中随机选出512对干净语音和带噪语音作为验证集，剩下的11060对干净语音和带噪语音作为训练集，测试集是824对干净语音和带噪语音。训练集和验证集可以使用三种不同的数据扩充处理。第一种是重混(Remix)扩充处理，打乱同一个批次中的噪声，形成新的带噪语音数据集；第二种是频带掩码(Bandmask)扩充处理，在mel刻度上均匀地去除20％的频率，实际相当于进行了带阻滤波；第三种是平移(Shift)扩充处理，在0秒和S秒之间实现了随机移位处理。

S2，如图2所示，构建融合Transformer和U-net网络的语音增强模型；

所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。

进一步地，所述编码模块采用U-net网络的编码层，包括一个上采样层(编码模块的第零层为上采样层)和5个编码层；所述编码模块的输入为一段时域语音信号，用一个三维张量(批次B*通道数C0*信号长度D)表示，编码模块的输出也是一个三维张量。所述上采样层用于对语音信号的采样频率进行扩展，提高模型的准确性。

进一步地，每个所述编码层均包括：

一个ReLU函数激活层；

一个将通道数转换为2^i-1H的GLU函数激活层。

具体地，如图3所示，所述Transformer模块包括多个堆叠的双路径Transformer块，所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块，可以同时提取局部和全局的上下文特征信息。局部Transformer块在四维输入张量的最后一维F上执行计算，用于对输入的局部特征信息进行平行化处理，全局Transformer块在四维输入张量的倒数第二维N上执行计算，用于融合局部Transformer块的输出信息，以学习全局特征信息。所述Transformer模块的输入是一个四维张量(批次B*通道数Ct*帧数N*帧长F)，因此对编码模块的输出进行分割，得到N个长度为F的帧。N的计算公式如下：

其中，L表示编码模块输出的长度，M表示帧移。

将四维张量放入多个堆叠的双路径Transformer块中进行计算，得到Transformer模块的输出是一个四维张量。

所述多头注意力机制模块中的自注意力机制可以描述为在网络中通过查询(Q)得到注意力输出的机制。网络通过一组键(K)和值(V)记录已学习的信息。

如图6所示，在自注意力机制中，首先将Q和K进行相似度计算获得权重，缩放层除以参数d_k起到缩放调节作用，使得内积不至于太大，然后使用softmax函数对相似度权重进行归一化，最后将归一化的权重和相应的V进行加权求和得到注意力输出。计算自注意力输出向量的公式如下：

进一步地，多头注意力模块如图4所示，其本质是h个自注意力机制的集成。首先初始化h组Q、K和V向量，每组Q、K和V的权重参数W都不一样，可以用W_i ^Q、W_i ^K、W_i ^V来表示不同的参数矩阵。通过引入不同权重的参数可以允许多头注意力模块在不同的表征子空间里学习到更多的信息。然后对每组进行自注意力机制的计算，将得到的自注意力输出结果连接起来，再乘以一个权重向量W^O就可以得到最终的多头注意力机制块输出向量。多头注意力模块的计算公式如下：

head_i＝attention(QW_i ^Q,KW_i ^K,VW_i ^V)

multihead(Q,K,V)＝concat(head₁,L head_h)W^O

如图5所示，所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层，所述前馈网络模块的第一层使用GRU层，用来学习位置信息。

具体地，如图7所示，所述掩码模块包括多个激活函数层和多个卷积层，掩码模块是利用Transformer模块的输出来计算用于增强的掩码。掩码模块的输入是一个四维张量，为了使掩码模块的输出和编码模块的输出相匹配，在掩码模块中采用了重叠添加操作，将输入的四维张量转换成三维张量。

具体实施过程中，该模块首先将Transformer模块的输出通过PReLU运算和二维卷积对通道维度进行加倍。然后通过重叠添加操作，将输入的四维张量转换成三维张量。接着通过双路一维卷积和sigmoid/tanh激活函数运算，将两者的输出相乘。最后经过一维卷积和ReLU运算后得到一个三维张量的掩模。

具体地，所述解码模块采用U-net网络的解码层，包括5个解码层和一个下采样层(解码模块的第零层为下采样层)；所述解码模块的输出为一段时域语音信号。所述下采样层用于将语音信号的采样频率还原为16KHz。所述解码模块将输入的三维张量转换成一段增强语音信号作为输出。

进一步地，每个所述解码层均包括：

一个将通道数转换为2^i-1H的GLU函数激活层；以及

具体实施过程中，如图8所示，使用步骤S1中的训练集和验证集对语音增强模型进行训练，将带噪语音信号作为训练特征，干净语音信号作为训练目标。本发明的损失函数同时结合了时域损失、时频域损失和感知损失。使用时域损失估计干净语音与增强语音波形之间的损失。使用时频域损失衡量时频谱图的差异，可以监督模型学习更多的信息。使用感知损失来训练网络，可以使网络输出的增强语音信号尽可能的接近目标干净语音信号，从而获得更高的语音可懂度和感知质量，具体定义如下：

时域损失函数是基于带噪语音和干净语音之间的均方误差(MSE)，定义为：

其中，x和

分别表示干净语音和带噪语音，N表示样本个数；

时频域损失是基于带噪语音和干净语音之间的平均绝对误差(MAE)，定义为：

其中，X和

分别表示干净语音幅度谱和带噪语音幅度谱，r和i分别表示复数变量的实部和虚部，T和F分别表示帧数和频域bin数。

感知损失函数同时考虑人类听觉掩蔽和阈值效应中的对称干扰D^(s)和非对称干扰D^(α)。在听觉掩蔽效应中，对称干扰D^(s)考虑干净语音信号和增强语音信号在响度谱上的绝对值差异。非对称干扰D^(α)根据对称干扰计算得到，对增强后残存的加性噪声和引入的谱失真赋予不同的权重，更好地刻画了干净语音信号和增强语音信号之间的感知差异。考虑到D^(s)和D^(α)这两个干扰项，感知损失函数通过引入人类心理声学的感知标准来修正均方误差(MSE)损失，定义为：

其中，L表示帧数，α和β是实验确定的加权系数。

最终的损失函数结合了上述三种类型的损失函数，如下式所示：

loss_sum＝ρ·loss_time+(1-ρ)·(loss_freq+loss_pcep)

其中，ρ是一个超参数，在本发明中设置为0.2。

具体实施过程中，使用步骤S1中的测试集，将待增强的语音测试集放入训练好的最优模型中，用于获得增强后的干净语音测试集。

对于语音增强效果的评估，本实施例采用客观评价方法，主要包括PESQ和STOI。PESQ侧重于评估处理语音的总体质量，其分值范围为-0.5-4.5，分值越高，语音的总体质量越好。STOI侧重于评估处理语音的可懂度，其得分范围为0-1，得分越高，语音的可懂度越高。

如下表1展示了四种语音增强方法在VoiceBank-DEMAND数据集上五种指标的评估结果

表1四种语音增强方法的评估结果

为了验证本实施例的语音增强效果，利用同样基于时域的SEGAN方法、Wave U-net方法、DEMUCS方法和TSTNN方法作为参照，在VoiceBank-DEMAND数据集上的对比见表1。从SEGAN方法、Wave U-net方法和DEMUCS方法对比发现，U-net网络在语音增强中表现较好，这是因为U-net网络的解码层既包含高维特征又包含低维特征，能够实现多尺度下的特征融合，可以提高模型精确度。然后，从DEMUCS方法和TSTNN方法对比发现，Transformer模块拥有较小的模型并且各项评价指标表现都较好，这个因为Transformer模块能够以并行方式处理输入数据，能够有效地解决长时依赖问题，所以在语音增强任务中发挥重要优势。

最后，本实施例通过融合U-net网络和Transformer模块的优点，形成了一种新的基于时域的端对端语音增强方法。同时，使用三种类型的损失函数训练模型，获得了最优的PESQ和STOI，显著地提高了语音增强的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施列的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合Transformer和U-net网络的语音增强方法，其特征在于，包括如下步骤：

S2，构建融合Transformer和U-net网络的语音增强模型；

2.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，步骤S2中，所述融合Transformer和U-net网络的语音增强模型包括依次相连的编码模块、Transformer模块、掩码模块和解码模块。

3.根据权利要求2所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，所述编码模块采用U-net网络的编码层，包括一个上采样层和多个编码层；所述编码模块的输入为一段时域语音信号。

4.根据权利要求3所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，每个所述编码层均包括：

一个卷积核大小为K、步长为S、输出通道为2^i-1H的一维卷积层，i表示层数，H表示可控的通道数；

一个ReLU函数激活层；

一个将通道数转换为2^i-1H的GLU函数激活层。

5.根据权利要求2所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，所述Transformer模块包括多个堆叠的双路径Transformer块，所述双路径Transformer块包括一个局部Transformer块和一个全局Transformer块，所述局部Transformer块用于对输入的局部特征信息进行平行化处理，所述全局Transformer块用于融合局部Transformer块的输出信息，以学习全局特征信息。

6.根据权利要求5所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，所述局部Transformer块和全局Transformer块均包括多头注意力机制模块和前馈网络模块；

所述多头注意力机制模块集成了h个自注意力机制，每个自注意力机制关注相同的Q、K和V；每个自注意力机制只负责最终输出序列中的一个子空间，且输出序列互相独立；其中，Q、K、V分别表示计算自注意力机制的查询、键和值；

所述前馈网络模块包括一个GRU层、一个ReLU函数激活层和一个线性变换层。

7.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，所述掩码模块包括多个激活函数层和多个卷积层。

8.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，所述解码模块采用U-net网络的解码层，包括多个解码层和一个下采样层；所述解码模块的输出为一段时域语音信号。

9.根据权利要求1所述的一种融合Transformer和U-net网络的语音增强方法，其特征在于，每个所述解码层均包括：

一个将通道数转换为2^i-1H的GLU函数激活层；以及