CN114495957A

CN114495957A - 一种基于Transformer改进的语音增强方法、系统、装置

Info

Publication number: CN114495957A
Application number: CN202210102210.6A
Authority: CN
Inventors: 周健; 郭玉成
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-13

Abstract

本发明属于语音处理领域，具体涉及一种基于Transformer改进的语音增强方法、系统、装置。该方法包括如下步骤：S1：对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型。S2：在序列模型的输入和输出端分别增加线性处理层，进而得到语音增强模型。S3：获取不含噪音的标准语音信号，并与随机噪音信号进行混合得到混沌语音信号；进而构成模型训练的数据集。S4：完成语音增强模型的初始化，设置损失函数和训练参数对语音增强模型进行训练和验证。S5：获取待处理的单通道语音信号，将其输入到完成训练的语音增强模型中，转换成语音增强后的清晰语音。本发明解决了现有的Transformer模型顺序建模能力较弱、训练速度慢，训练阶段难以收敛的问题。

Description

一种基于Transformer改进的语音增强方法、系统、装置

技术领域

本发明属于语音处理领域，具体涉及一种基于Transformer改进的语音增强方法、系统、装置。

背景技术

语音增强技术是一种利用增强算法去除混合信号中的噪声成分，以提高目标语音的听觉质量和可懂度的新兴技术。语音增强技术在移动通信、语音识别和助听设备等诸多系统中具有广阔的应用前景。近年来，得益于海量数据处理和高性能计算的快速发展，基于数据驱动的语音增强方法成为研究热点。基于数据驱动的语音增强技术的本质上都是通过构建神经网络，在含噪语音和目标语音之间建立映射关系；进而将含噪语音转换为不含噪音或降低噪音干扰的目标语音。目前在语音增强领域广泛应用的神经网络包括深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)等。

目前通用的三种神经网络虽然在语音增强处理方面均表现出良好的性能，但是仍存在一些缺陷。例如基于DNN的语音增强模型很难学习语音的局部特征。而CNN虽然可以更准确地捕捉输入语音的局部信息，但是理论上，RNN比CNN更适合处理语音帧间相关性；然而基于RNN的模型仍然存在如下问题：(1)RNN模型很容易造成梯度消失和爆炸问题，这严重影响了性能；(2)在RNN中，上一步的输出将被用作当前步的输入，因此模型无法进行并行化序列计算过程。这些缺点限制了RNN模型的实时处理能力。

为了可以克服以上三种网络模型的缺点，技术人员将研究方向转移到了Transformer模型上。Transformer是一种新兴的序列信息建模模型，广泛应用于自然语言处理的各个领域，并且都取得了不错的成绩。作为基于自注意力机制的序列到序列模型，Transformer可以更有效地捕获全局信息。它在多种序列学习任务中，都有比RNN更好的表现。此外，Transformer模型的训练可以实现跨时间并行化，因此，与RNN等模型相比，速度更快，这符合语音增强在实际应用中的实时性要求。

但是经典的Transformer模型也存在固有的缺陷。例如：Transformer模型中的位置嵌入机制不能有效地执行语音处理任务中的序列建模；而在语音处理任务中单个位置含有的数据信息较少，这导致语音处理任务往往对网络模型的顺序建模能力要求会更高。此外，由于Transformer模型在处理过程中是同时对整个序列进行注意力计算的，该模型还存在难以收敛、训练速度普遍较慢的问题。

发明内容

为了解决现有的Transformer模型在语音增强处理任务中顺序建模能力较弱、模型的训练速度较慢，模型在训练阶段难以收敛的问题；本发明提供一种基于Transformer改进的语音增强方法、系统、装置

本发明采用以下技术方案实现：

一种基于Transformer改进的语音增强方法，该方法包括如下步骤：

S1：对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型，序列模型的构建方法包括：

S11：获取经典的Transformer网络，将Transformer网络中的位置嵌入模块替换为LocalLSTM模块，LocalLSTM模块用于提取输入的语音信号序列中的局部特征。

S12：保留标准Transformer网络中的多头注意力模块，用于对LocalLSTM模块的输出执行多次并行注意力计算，将每次输出结果连接起来并再次进行投影。

S13：采用2层一维卷积模块作为Transformer网络中的卷积部分，并使用ReLU函数作为激活函数。卷积模块用于对多头注意力模块的输出进行卷积处理。

S14：将标准Transformer网络中各模块间的标准残差连接替换为加权残差连接，并取消各模块间的层归一化模块。

S2：在序列模型的输入和输出端分别增加一个前线性处理层和后线性处理层，进而得到所需的语音增强模型。

其中，前线性处理层用于将输入的语音信号的幅度谱转换为序列模型的多维特征向量进行输入。后线性处理层用于将序列模型输出的多维特征向量转换为语音增强后的幅度谱进行输出。

S3：获取若干单通道的不含噪音的标准语音信号，并将标准语音信号与随机噪音信号进行混合，得到含有噪音的混沌语音信号；以混沌语音信号作为样本数据构成用于进行模型训练的数据集，并将数据集分为训练集和验证集。

S4：完成语音增强模型的初始化，并设置损失函数和训练参数，利用训练集对语音增强模型进行训练，并通过验证集验证网络模型的训练效果。

S5：获取待处理的单通道语音信号，将其输入到完成训练的语音增强模型中，转换成语音增强后的清晰语音。

作为本发明进一步的改进，步骤S1中，序列模型中包括三个子模块，按照信息传递顺序分别为LocalLSTM模块、多头注意力模块和卷积模块。子模块间通过加权残差机制进行连接；多头注意力模块由4个并行的注意力层构成。卷积模块由2个连续的一维卷积层构成。

作为本发明进一步的改进，步骤S11中，LocalLSTM模块基于LSTM模块改进而来；LocalLSTM模块通过一个预设帧数大小的滑动窗口，将输出的幅度谱的原始序列划分为一系列长度为预设帧数的局部短序列，划分出的所有短序列分别经过一个共享的LSTM进行处理，将处理得到的输出组成一个新序列。同时，LocalLSTM模块对原始序列进行处理之前，在原始序列前插入数量等于预设帧数减1的填充帧，进而使得输出的新序列的长度与原始序列一致。

作为本发明进一步的改进，步骤S12中，多头注意力模块用于计算各个当前帧与之前的所有帧的相关性，其处理方法大致如下：

(1)采用下式将维度为d_model的输入分别映射到一组查询向量Q、键向量K和值向量V，由它们构成注意力计算的输入：

attention_output＝Attention(Q,K,V)

(2)在注意力机制中，对查询向量Q和键向量K进行缩放点积运算，运算结果除以键向量K维度的根号值，再经过softmax函数处理后与值向量V相乘；得到注意力计算的结果，计算过程如下式所示：

其中，T表示矩阵转置；d_k表示键向量K的维度；softmax(·)表示softmax函数。

(3)多头注意力机制中，在每个注意力层中并行进行注意力计算，然后对每个注意力层的输出结果进行连接，并再次进行投影；处理过程如下式所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

上式中，MultiHead(Q,K,V)表示多头注意力机制的计算结果；head_i表示各个注意力层；h为注意力层的数量；W_i ^Q表示第i个注意力层中查询向量Q的投影矩阵，

表示第i个注意力层中键向量K的投影矩阵，

W_i ^V表示第i个注意力层中值向量V的投影矩阵，

d_v表示值向量V的维度；d_model表示多头注意力模块输入的特征向量的维度；W^o表示所有注意力层连接后的投影矩阵，

且满足：

d_k＝d_v＝d_model/h。

作为本发明进一步的改进，步骤S14中，加权残差连接指在使用残差连接的同时将所有网络层均初始化为恒等映射；引入的加权残差连接的表达式如下：

x_i+1＝x_i+α_iF(x_i)

其中，x_i表示当前网络层的输入信号；F表示任意层的变换，F(x_i)即为当前网络层的输出；x_i+1表示引入残差连接后下一网络层的输入信号；α_i表示用于调节当前网络层输出的可训练参数，初始状态下，可训练参数设为0。

作为本发明进一步的改进，获取的标准语音信号的采样率为16kHz。在前线性处理层中，利用短时傅里叶变换提取信号的频谱；将帧长和帧移分别设置为512和257个采样点，进而将257维的幅度谱信号转换为512维的特征向量。相反地，后线性处理层将序列模型输出的512维的特征向量转换为257维的语音信号幅度谱。

作为本发明进一步的改进，步骤S4中，在语音增强模型的训练阶段，初始时，对所有模型参数均使用归一化处理，再通过Adam优化算法进行训练。训练过程中，损失函数设为均方误差函数MSE。网络参数自学习时，学习速率在开始时设置为0.0005，在当前轮的损失大于前一轮时，学习速率以0.5的速率衰减。将训练阶段的批处理大小设置为32，并使用dropout正则化方法消除网络模型的过拟合现象。

本发明还包括一种基于Transformer改进的语音增强系统，该系统采用如前述的基于Transformer改进的语音增强方法对包含噪音的混沌语音信号进行语音增强处理，进而滤除混沌语音信号中包含的噪音，得到清晰的标准语音信号。该基于Transformer改进的语音增强系统包括：语音获取模块，前线性处理模块，语音增强模块，以及后线性处理模块。

其中，语音获取模块用于获取满足预设采样率的待处理的含噪音语音数据，并通过短时傅里叶变换提取语音信号的频谱信息，得到语音信号的幅度谱。

前线性处理模块用于将输入的语音信号的幅度谱转换为满足一个语音增强模块输入要求的特征向量。

语音增强模块用于对输入的含有的噪音的混沌语音信号对应的特征向量进行语音增强处理，进而输出滤除噪音的标准语音信号的特征向量。按照网络中的信息传递顺序，语音增强模块包括LocalLSTM子模块、多头注意力子模块和卷积子模块。LocalLSTM子模块用于提取输入的语音信号幅度谱的局部特征，并得到一个新的序列向量。多头注意力子模块用于通过进行多次并行的注意力计算，以及对注意力计算结果进行连接和投影，进而得到输入的序列向量中包含的全局特征；实现对语音信号中上下文信息的充分利用。卷积子模块采用2层一维卷积网络，并将激活函数设为ReLU函数。卷积子模块用于加强网络模型中相邻隐藏状态之间的相关性。语音增强模块中每个子模块与下一子模块间均采用加权残差连接，以提升网络在训练阶段的收敛速率以及在应用阶段的处理速率。

后线性处理模块用于采用前线性处理模块运算过程逆运算，将语音增强模块输出的经过语音增强处理的特征向量转换为标准语音信号的幅度谱。

作为本发明进一步地改进，语音增强模块在应用前需要进行网络训练，训练过程中，将标准的语音信号与随机噪声进行混合得到混沌语音信号，并以混沌语音信号作为训练集的样本数据对网络进行训练。数据集中的样本数据的信噪比在-5dB至0dB之间。完成语音增强模块的训练后，保留经过验证的网络的模型参数，并利用保存的网络对待处理的语音信号进行语音增强处理。

本发明还包括一种基于Transformer改进的语音增强装置，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。处理器执行程序时实现如前述的基于Transformer改进的语音增强方法的步骤。

本发明提供的技术方案，具有如下有益效果：

本发明基于标准的Transformer网络进行改进，得到一种新的应用于语音增强任务的序列模型。新模型的结构主要由三部分组成：LocalLSTM、多头注意力模块和一维卷积网络。改进后的模型中，相较于标准Transformer中的位置嵌入机制，LocalLSTM可以更好地提取语音帧间的局部信息。同时，由于局部短序列的长度较短，LocalLSTM还避免了梯度爆炸和梯度消失的问题。多头注意力模块与常规的RNN等基线模型相比，具有并行计算的特点，显著提高了模型的实时性，为同步语音增强技术的实现提供可能。此外，通过采用加权残差连接机制，并取消标准Transformer模型中的层归一化模块，使得网络模型的训练速度和推理速度得到明显提升。

本发明提出的新方法能够兼顾语音信号中的局部特征、全局特征，以及其中的隐含信息。因而非常适用于处理语音增强等要求序列建模能力的任务，在语音增强任务中可以达到更好的语音质量和客观可懂度。同时，新模型还具有更高的处理速率，进而可以应用于处理大规模的实时语音数据。

附图说明

图1为本发明实施例1中提供的一种基于Transformer改进的语音增强方法的步骤流程图。

图2为本发明实施例1中构建出的语音增强模型的网络框架示意图。

图3为本发明实施例1中LocalLSTM模块针对原始序列向量生成新的序列向量的操作示意图。

图4为本发明实施例1中标准残差连接和加权残差连接的对照图。

图5为一个简单模型中应用的加权残差连接的结构示意图。

图6为本发明实施例2中提供一种基于Transformer改进的语音增强系统的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步地详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提供的一种基于Transformer改进的语音增强方法，该方法用于去除混合语音信号中的噪声成分，进而提高得到的目标语音信号的听觉质量。如图1所示，本实施例提供的语音增强方法包括如下步骤：

本实施例中，将语音增强任务表述为如下的表达式：

(Y₁,Y₂,…,Y_T)＝f(X₁,X₂,…,X_T)

上式中，(X₁,X₂,…,X_T)表示输入语音的特征序列，X_T为含噪语音第T帧的幅度谱；(Y₁,Y₂,…,Y_T)表示输出语音的特征序列，Y_T为增强后语音第T帧的幅度谱。

因此，语音增强任务表现为在含有噪音的语音信号的特征序列和去除噪音的语音信号的特征序列之间建立映射关系，进而实现二者的相互转换。

为了实现特征序列的转换任务，本实施例拟构建一个包含LocalLSTM层、多头注意力层和卷积层的网络模型；该网络模型中，LocalLSTM层可以捕获输入信号中包含的局部短期依赖关系；多头注意力层可以建模输入信号中包含全局信息；卷积层则用于增强相邻帧之间相关性。

S2：考虑到序列模型的输入输出为特征向量，而实际要求实现的输入输出为语音信号，因此本实施例在序列模型的输入和输出端分别增加一个前线性处理层和后线性处理层；从而得到所需的语音增强模型。其中，前线性处理层用于将输入的语音信号的幅度谱转换为序列模型的多维特征向量进行输入。后线性处理层用于将序列模型输出的多维特征向量转换为语音增强后的幅度谱进行输出。

至此，构建出的语音增强模型的网络框架如图2所示。由图可知，语音增强模型中序列模型均包括三个子模块。在序列模型中，按照信息传递顺序分别为LocalLSTM模块、多头注意力模块和卷积模块。子模块间通过加权残差机制进行连接；多头注意力模块由4个并行的注意力层构成。卷积模块由2个连续的一维卷积层构成。

其中，LocalLSTM模块基于LSTM模块改进而来。如图3所示，LocalLSTM模块通过一个预设帧数大小的滑动窗口，将输出的幅度谱的原始序列划分为一系列长度为预设帧数(M帧)的局部短序列，划分出的所有短序列分别经过一个共享的LSTM进行处理，将处理得到的输出组成一个新序列。同时，LocalLSTM模块对原始序列进行处理之前，在原始序列前插入数量等于预设帧数减1的填充帧(共M-1帧)，进而使得输出的新序列的长度与原始序列一致。

本实施例考虑到时序特性是所有语音信号固有特性，每个语音帧与其相邻语音帧之间都具有特定的相关性。因此使用LocalLSTM模块作为本实施例语音增强处理时的特殊位置嵌入方法，以提高网络模型对语音信号中局部特征的提取能力。LocalLSTM模块提取到的输入序列的局部特征通过一个新的序列向量表达出来。

多头注意力在学习长期依赖方面非常有效，可以使模型更好地利用语音帧的全局信息。注意力机制具有选择相关信息的能力，因而在语音识别、机器翻译等多种序列到序列学习任务中都取得了良好的性能。本实施在改进的Transformer网络模型中保留了多头注意力机制。使用多头注意力模块来计算各个当前帧与之前的所有帧的相关性，从而可以充分利用上下文信息。多头注意力模块的处理方法大致如下：

注意力机制主要任务就是计算当前帧与注意力范围内每一帧的相关性。首先，将维度为d_model的输入分别映射到一组查询向量Q、键向量K和值向量V，由它们构成注意力计算的输入：

attention_output＝Attention(Q,K,V)

其次，注意力机制通过对查询向量Q和键向量K进行缩放点积运算，运算结果除以键向量K维度的根号值，再经过softmax函数处理后与值向量V相乘；得到注意力计算的结果，计算过程如下式所示：

最后，多头注意力机制中，在每个注意力层中并行进行注意力计算，然后对每个注意力层的输出结果进行连接，并再次进行投影；处理过程如下式所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，

表示第i个注意力层中查询向量K的投影矩阵，

W_i ^V表示第i个注意力层中查询向量V的投影矩阵，

且满足：

d_k＝d_v＝d_model/h。

由于本实施例改进的网络模型中引入了多头自注意力机制，因而能够同步对整个输入序列进行注意力计算，实现了并行操作并建立了长期依赖关系。这克服了传统的RNN网络无法并行化序列计算的缺点，能够显著提高网络模型的运行速率，提升语音增强处理的实时性。

本实施例还通在模型中引入加权残差连接，取消了层归一化，使模型可以更充分地提取出全局和局部特征，同时加快网络模型的训练和计算速度。具体地，本实施例中加权残差连接的方式如图4所示，图4中，左侧为传统的具有层归一化的标准残差连接，而右侧作为对比的是本实施例中取消层归一化的加权残差连接。

本实施例中，加权残差连接指在使用残差连接的同时将所有网络层均初始化为恒等映射；引入的加权残差连接的表达式如下：

x_i+1＝x_i+α_iF(x_i)

图5为具有加权残差连接的简单模型的框架，以下结合图5对加权残差连接的优势和有效性进行解释说明：

考虑存在一个包含L个隐藏层的模型，其中每层仅有一个神经元，并且所有层共享一个神经元ω，则模型的输出x_L可以表示为：

x_L＝(1+αω)^Lx₀

其中，x₀表示模型的输入；当设置α＝1时，表示的是残差网络的输出，当初始化α＝0，且α表示的是可学习参数时，对应的就是加权残差网络的输出。

此时，输入对输出的雅可比矩阵为(1+αω)^L，如果初始化ω≈1且α＝1，该值趋近2^L。这会导致网络非常敏感，输入的微小扰动就会造成输出的巨大变化，因此梯度非常不稳定。但是，如果初始化α＝0，这种不稳定性就会得到缓解。

接下来，再从反向传播的角度加以分析。假设学习率为λ，损失函数为C，则ω的更新公式为：

当α＝1，为了使训练更加稳定，学习率λ需要正比于L^-1(1+ω)^-(L-1)。在这种情况下，当ω＞＞1时，会出现梯度爆炸，而当ω≈-1时，又会出现梯度消失。而当初始化α＝0，上述问题就可以得到解决。由于α＝0，因此第一轮的梯度更新没有更新参数，但此时α是可以更新的，即：

由此，在下一轮更新时，α已经不为0，则参数ω就可以更新。将当前α值代入ω的更新公式，可以得到：

如果损失函数是合理的，那么当前的更新就不会引起过度的梯度波动

此时，每次梯度下降既可以更新模型参数，又不会不稳定。

根据上述内容可知：引入的加权残差连接的网络模型中，在神经网络的训练初期，所有组成变换F的参数所对应的梯度均消失，之后这些参数在训练过程中动态地产生合适的值。因此，引入加权残差连接带来的好处包括：(1)与带有层归一化操作的常规残差网络相比，加权残差网络具有更快的收敛速度。(2)加权残差连接机制的引入，使得模型可以取消学习率预热和层归一化步骤，从而提高训练速度。

获取的标准语音信号的采样率为16kHz。在前线性处理层中，利用短时傅里叶变换提取信号的频谱；将帧长和帧移分别设置为512和257个采样点，进而将257维的幅度谱信号转换为512维的特征向量。相反地，后线性处理层将序列模型输出的512维的特征向量转换为257维的语音信号幅度谱。

为了验证本实施例提出的基于Transformer改进的语音增强方法的性能，本实施例还进行了如下的性能验证试验。性能验证试验过程如下：

一、数据集的合成

本实施例的性能验证试验中，从现有的TIMIT语料库中总共选择了4620条干净的语音。每一轮训练中，每条干净语音都会和来自Musan数据集中的随机噪声进行混合，语音混合过程中，将信噪比在-5dB和0dB之间随机选择。然后在每轮生成的4620条含噪语音数据构成的数据集进行划分，分别产生训练集和验证集。其中，训练集中包含4000条语音数据，验证集中包含620条语音数据。

此外，在测试阶段，本实施例从TIMIT语料库中选取了50条干净语音，并从Noisex-92数据集中选取了8种不同的噪声。分别结合-5dB、0dB、5dB、10dB和15dB这5种信噪比进行了混合，因而共合成了2000条含噪语音数据。

具体地，性能验证试验中训练和测试所用数据集的合成条件如下表1所示：

表1：数据集中的语音数据对应的噪音和信噪比合成条件

	Train	Valid	Test
				Noise	Musan	Musan	Noisex-92
SNR	[-5,0]	[-5,0]	[-5,0,5,10,15]

二、对照试验的设计

为了对比本实施例提供的基于Transformer改进的语音增强方法与现有方法的性能，性能验证试验中采用本实施例提供的方法(以下称ZTrans方法)为实验组。并以标准LSTM方法和标准Transformer方法(以下称Trans方法)中的基线模型作为对照组进行对比。

试验过程中，每条语音信号的采样率均为16kHz，通过短时傅立叶变换(STFT)提取频谱，帧长和帧移分别设置为512和257个采样点。

本实施例的ZTrans方法中，网络子层的具体组成为：1层localLSTM(M＝3)、4个并行的注意力层(d_model＝512)，2层一维卷积层。其中，根据之前的经验，M的值对模型的性能没有显著影响，值越小，LocalLSTM运行越快。因此在下面的实验中，将M设置为3。由于模型的输入和输出都是维度为257的幅度谱，我们在ZTrans前后端设置了线性处理层，以实现语音频谱和维数为512的特征向量之间的相互转换。

此外，性能验证试验中，LSTM由两层组成，每层有1024个神经元。而Transformer模型中含有3个编码器层，3个解码器层，以及4个并行的注意力层(d_model＝512)。

在语音增强模型的训练阶段，初始时，对所有模型参数均使用归一化处理，再通过Adam优化算法进行训练。

训练过程中，损失函数设为均方误差函数MSE。网络参数自学习时，学习速率在开始时设置为0.0005，在当前轮的损失大于前一轮时，学习速率以0.5的速率衰减。将训练阶段的批处理大小设置为32，并使用dropout正则化方法消除网络模型的过拟合现象。

三、试验数据与分析

为了评估本实施例方法中的模型与其它网络模型的性能差异，性能验证试验对各个实验组中得到语音质量进行评价。本实施例将ZTrans预测得到的干净频谱和增强前噪声语音的相位相结合，重新合成增强语音。并以感知语音质量评价(PESQ)和短时客观可懂度(STOI)作为评价标准。

性能测试实验中，不同模型在测试集上得到的增强语音的平均PESQ和STOI如下表2所示。

表2：不同模型针对测试集样本的PESQ/STOI性能的比较

SNR	Noisy	LSTM	Trans	ZTrans
					-5dB	1.24/0.58	1.83/0.66	1.83/0.69	1.97/0.71
0dB	1.57/0.68	2.24/0.76	2.26/0.78	2.36/0.79
					5dB	1.93/0.79	2.61/0.84	2.63/0.85	2.74/0.86
10dB	2.30/0.88	2.97/0.89	2.99/0.90	3.09/0.90
					15dB	2.65/0.93	3.29/0.94	3.35/0.94	3.42/0.94

分析上表的数据可以看出：对照组的Trans方法的性能与LSTM方法相近，在语音增强方面有轻微提高。分析原因是因为测试集中的语音样本具有很强的局部特性，而Transformer模型不擅于捕获局部结构信息。本实施例提供的ZTrans方法采用了LocalLSTM网络模块来捕获局部信息，获得了比LSTM和Trans更高的STOI和PESQ。

试验中还使用公开数据集VoiceBank数据集对本实施例提供的ZTrans方法中的网络模型进行了评估，并对比本实施例的方法与常规的SEGAN、CNN-GAN、U-net、TasNet网络模型的性能差异。在VoiceBank数据集上，不同语音增强模型在未知噪声类型下的平均PESQ和STOID数值如表3所示。

表3：本实施例的方法与其它模型在VoiceBank数据集上的性能测试结果

分析上表数据可以发现，相较于其他现有方法，本实施例提出的ZTrans方法的模型获得了最高的PESQ和STOI值，因此表现出更强的性能。

此外，性能验证试验的结果还表明，在训练速度方面，标准LSTM模型每批次的运行时间为0.79秒，ZTrans每批次的运行时间为0.15秒。

实验结果表明，与常规的基线模型相比，本实施例ZTrans方法提出的新模型在语音质量和可懂度方面都有更好的表现。同时，网络模型的收敛速度和推理速度也得到了很大的提高。与标准LSTM模型相比，新模型ZTrans的速度提高了4.27倍。

实施例2

本实施例提供了一种基于Transformer改进的语音增强系统，该系统采用如实施例1中的基于Transformer改进的语音增强方法对包含噪音的混沌语音信号进行语音增强处理，进而滤除混沌语音信号中包含的噪音，得到清晰的标准语音信号。

如图6所示，本实施例中提供的基于Transformer改进的语音增强系统包括：语音获取模块，前线性处理模块，语音增强模块，以及后线性处理模块。

后线性处理模块，其用于采用所述前线性处理模块运算过程逆运算，将所述语音增强模块输出的经过语音增强处理的特征向量转换为标准语音信号的幅度谱。

此外，在本实施例中，语音增强模块在应用前需要进行网络训练，训练过程中，将标准的语音信号与随机噪声进行混合得到混沌语音信号，并以混沌语音信号作为训练集的样本数据对网络进行训练。数据集中的样本数据的信噪比在-5dB至0dB之间。完成语音增强模块的训练后，保留经过验证的网络的模型参数，并利用保存的网络对待处理的语音信号进行语音增强处理。

实施例3

本实施例提供一种基于Transformer改进的语音增强装置，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。处理器执行程序时实现如实施例1中的基于Transformer改进的语音增强方法的步骤。

该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器。

本实施例中，存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据，以实现前述实施例1中基于Transformer改进的语音增强方法的处理过程，从而对给出的语音数据进行语音增强处理，滤除原始语音信号中的噪音信号，得到更加清晰的语音，提高原始语音信号的听觉质量和可懂度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer改进的语音增强方法，其特征在于，包括如下步骤：

S1：对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型，所述序列模型的构建方法包括：

S11：获取经典的Transformer网络，将Transformer网络中的位置嵌入模块替换为LocalLSTM模块，所述LocalLSTM模块用于提取输入的语音信号序列中的局部特征；

S12：保留标准Transformer网络中的多头注意力模块，用于对LocalLSTM模块的输出执行多次并行注意力计算，将每次输出结果连接起来并再次进行投影；

S13：采用2层一维卷积模块作为Transformer网络中的卷积部分，并使用ReLU函数作为激活函数，所述卷积模块用于对多头注意力模块的输出进行卷积处理；

S14：将标准Transformer网络中各模块间的标准残差连接替换为加权残差连接，并取消各模块间的层归一化模块；

S2：在所述序列模型的输入和输出端分别增加一个前线性处理层和后线性处理层，进而得到所需的语音增强模型；所述前线性处理层用于将输入的语音信号的幅度谱转换为序列模型的多维特征向量进行输入；所述后线性处理层用于将序列模型输出的多维特征向量转换为语音增强后的幅度谱进行输出；

S3：获取若干单通道的不含噪音的标准语音信号，并将所述标准语音信号与随机噪音信号进行混合，得到含有噪音的混沌语音信号；以混沌语音信号作为样本数据构成用于进行模型训练的数据集，并将数据集分为训练集和验证集；

S4：完成语音增强模型的初始化，并设置损失函数和训练参数，利用训练集对所述语音增强模型进行训练，并通过验证集验证网络模型的训练效果；

2.如权利要求1所述的基于Transformer改进的语音增强方法，其特征在于：步骤S1中，所述序列模型包括三个子模块，按照信息传递顺序分别为LocalLSTM模块、多头注意力模块和卷积模块；各个子模块间通过加权残差机制进行连接；所述多头注意力模块由4个并行的注意力层构成；所述卷积模块由2个连续的一维卷积层构成。

3.如权利要求1所述的基于Transformer改进的语音增强方法，其特征在于：步骤S11中，所述LocalLSTM模块基于LSTM模块改进而来；所述LocalLSTM模块通过一个预设帧数大小的滑动窗口，将输出的幅度谱的原始序列划分为一系列长度为预设帧数的局部短序列，划分出的所有短序列分别经过一个共享的LSTM处理，将处理得到的输出组成一个新序列；同时，所述LocalLSTM模块对原始序列进行处理之前，在原始序列前插入数量等于预设帧数减1的填充帧，进而使得输出的新序列的长度与所述原始序列一致。

4.如权利要求1所述的基于Transformer改进的语音增强方法，其特征在于：步骤S12中，多头注意力模块用于计算各个当前帧与之前的所有帧的相关性，其处理方法大致如下：

attention_output＝Attention(Q,K,V)

其中，T表示矩阵转置；d_k表示键向量K的维度；softmax(·)表示softmax函数；

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

其中，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

W_i ^K表示第i个注意力层中键向量K的投影矩阵，

W_i ^V表示第i个注意力层中值向量V的投影矩阵，

且满足：

d_k＝d_v＝d_model/h。

5.如权利要求4所述的基于Transformer改进的语音增强方法，其特征在于：步骤S14中，加权残差连接指在使用残差连接的同时将所有网络层均初始化为恒等映射；引入的加权残差连接的表达式如下：

x_i+1＝x_i+α_iF(x_i)

6.如权利要求1所述的基于Transformer改进的语音增强方法，其特征在于：获取的标准语音信号的采样率为16kHz；在前线性处理层中，利用短时傅里叶变换提取信号的频谱，将帧长和帧移分别设置为512和257个采样点，进而将257维的幅度谱信号转换为512维的特征向量；相反地，所述后线性处理层将序列模型输出的512维的特征向量转换为257维的语音信号幅度谱。

7.如权利要求1所述的基于Transformer改进的语音增强方法，其特征在于：步骤S4中，在语音增强模型的训练阶段，初始时，对所有模型参数均使用归一化处理，再通过Adam优化算法进行训练；训练过程中，损失函数设为均方误差函数MSE；网络参数自学习时，学习速率在开始时设置为0.0005，在当前轮的损失大于前一轮时，学习速率以0.5的速率衰减；将训练阶段的批处理大小设置为32，并使用dropout正则化方法消除网络模型的过拟合现象。

8.一种基于Transformer改进的语音增强系统，其特征在于，其采用如权利要求1-7任何一项所述的基于Transformer改进的语音增强方法对包含噪音的混沌语音信号进行语音增强处理，进而滤除混沌语音信号中包含的噪音，得到清晰的标准语音信号；所述基于Transformer改进的语音增强系统包括：

语音获取模块，其用于获取满足预设采样率的待处理的含噪音语音数据，并通过短时傅里叶变换提取语音信号的频谱信息，得到语音信号的幅度谱；

前线性处理模块，其用于将输入的所述语音信号的幅度谱转换为满足一个语音增强模块输入要求的特征向量；

语音增强模块，其用于对输入的含有噪音的混沌语音信号对应的特征向量进行语音增强处理，进而输出滤除噪音的标准语音信号的特征向量；按照网络中的信息传递顺序，所述语音增强模块包括LocalLSTM子模块、多头注意力子模块和卷积子模块；所述LocalLSTM子模块用于提取输入的语音信号幅度谱的局部特征，并得到一个新的序列向量；所述多头注意力子模块用于通过进行多次并行的注意力计算，以及对注意力计算结果进行连接和投影，进而得到输入的序列向量中包含的全局特征，实现对语音信号中上下文信息的充分利用；所述卷积子模块采用2层一维卷积网络，并将激活函数设为ReLU函数；所述卷积子模块用于加强网络模型中相邻隐藏状态之间的相关性；所述语音增强模块中每个子模块与下一子模块间均采用加权残差连接，以提升网络在训练阶段的收敛速率以及在应用阶段的处理速率；以及

9.如权利要求8所述的基于Transformer改进的语音增强系统，其特征在于：所述语音增强模块在应用前需要进行网络训练，训练过程中，将标准的语音信号与随机噪声进行混合得到混沌语音信号，并以混沌语音信号作为训练集的样本数据对网络进行训练，数据集中的样本数据的信噪比在-5dB至0dB之间；完成语音增强模块的训练后，保留经过验证的网络的模型参数，并利用保存的网络对待处理的语音信号进行语音增强处理。

10.一种基于Transformer改进的语音增强装置，其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的基于Transformer改进的语音增强方法的步骤。