CN114664318A

CN114664318A - 基于生成对抗网络的语音增强方法及系统

Info

Publication number: CN114664318A
Application number: CN202210301250.3A
Authority: CN
Inventors: 汪付强; 袁从刚; 夏源; 张鹏; 吴晓明; 张建强; 刘祥志; 郝秋赟; 马晓凤
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-24

Abstract

本发明公开了基于生成对抗网络的语音增强方法及系统，包括：获取带噪声语音信号；将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；其中，所述生成对抗网络，包括两个生成器和两个判别器；所述生成对抗网络，训练过程中通过对两个生成器与两个判别器的相互博弈，提升生成器逼近目标信号的能力。本发明充分考虑了语音信号的时序关系，改进了先前的生成器与判别器的全卷积的设计，生成器中添加使用多头注意力机制，并将多生成器多阶段增强与注意力机制相结合，充分利用了多头注意力机制与生成对抗网络博弈思想。本方法能够是增强后的语音具有更高的质量与可懂度。

Description

基于生成对抗网络的语音增强方法及系统

技术领域

本发明涉及语音信号处理技术领域，特别是涉及基于生成对抗网络的语音增强方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

语音是信息传递最直接的方式，但在我们的各种生活场景中会有很多噪声的干扰，影响语音的质量。噪声会在人与人的通信中产生干扰，以及人机交互，含噪声的语音质量会极大影响语音系统的运行效率。在语音信号中，混杂的各种干扰噪声，语音增强的目的就是尽可能地去掉信号中含有的不需要的噪声，改善含噪语音的质量，同时增加语音的可懂性。

基于数字信号处理的语音增强方法主要有谱减法、维纳滤波法、基于子空间的算法。但这些算法存在一定局限性，引入了一些理想化的假设，如噪声平稳可加等，只有当噪声平稳时才能取得较好的效果。

目前，基于生成对抗网络的语音增强方法，其中生成器设计大多为单个生成器，并且生成器、判别器大多为全卷积的神经网络。生成器与判别器的全卷积的神经网络没有很好的考虑语音的时序特征。

发明内容

为了解决现有技术的不足，本发明提供了基于生成对抗网络的语音增强方法及系统；以生成对抗网络语音增强(SEGAN)网络进行改进，尽可能去除含噪声的语音中的噪声，提高含噪语音的可懂度和语音质量。改进添加多头注意力层，可以更好的利用语音的时序特征。

第一方面，本发明提供了基于生成对抗网络的语音增强方法；

基于生成对抗网络的语音增强方法，包括：

获取带噪声语音信号；将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

所述生成对抗网络，训练过程中通过对两个生成器与两个判别器的相互博弈，提升生成器逼近目标信号的能力。

第二方面，本发明提供了基于生成对抗网络的语音增强系统；

基于生成对抗网络的语音增强系统，包括：

获取模块，其被配置为：获取带噪声语音信号；

语音增强模块，其被配置为：将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

所述生成对抗网络，训练过程中通过对两个生成器与两个判别器的相互博弈，提升生成器逼近干净语音目标信号的能力。

第三方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述第一方面所述的方法。

第四方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行第一方面所述方法的指令。

第五方面，本发明还提供了一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明主要利用生成对抗网络语音增强(Speech EnhancementGenerativeAdversarial Network)网络进行改进，所生成的增强之后的语音具有更高语音质量和短时可懂度的目的。

本发明充分考虑了语音信号的时序关系，改进了先前的生成器与判别器的全卷积的设计，生成器中添加使用多头注意力机制，并将多生成器多阶段增强与注意力机制相结合，充分利用了多头注意力机制与生成对抗网络博弈思想。本方法能够是增强后的语音具有更高的质量与可懂度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本申请实施例一的基于GAN的语音增强方法的流程框图；

图2为本申请实施例一的基于GAN的语音增强方法中生成器结构图；

图3为本申请实施例一的基于GAN的语音增强方法中判别器结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

随着深度学习的发展，出现了很多基于神经网络的语音增强算法，克服了存在的很多假设和噪声估计不准确问题。基于生成对抗网络的语音增强算法，和其它基于神经网络的语音增强算法相比，具有在不同噪声类型下的泛化性能好等优点。

实施例一

本实施例提供了基于生成对抗网络的语音增强方法；

基于生成对抗网络的语音增强方法，包括：

S101：获取带噪声语音信号；

S102：将带噪声语音信号，输入到训练后的生成对抗网络中，输出增强后的语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

两个生成器的训练过程为最小化以下损失函数：

两个判别器的训练过程为最小化以下损失函数：

在训练过程中，生成器的训练输入是带噪语音信号

Z为隐藏层随机噪声，n为2，G₁表示第一生成器；G₂表示第二生成器；D₁表示第一判别器；D₂表示第二判别器；λ为L1损失的超参数，设置为100。

进一步地，如图1所示，所述生成对抗网络，包括：第一生成器、第二生成器、第一判别器和第二判别器；

第一生成器的输入端用于输入带噪声语音信号；

第一生成器的输出端输出第一增强语音信号；

第二生成器的输入端用于输入第一增强语音信号；

第二生成器的输出端用于输出第二增强语音信号；

第一判别器的输入端用于输入第二增强语音信号和无噪声语音信号；第一判别器输出无噪声语音信号或带噪声语音信号的识别结果；

第二判别器的输入端用于输入第二增强语音信号和无噪声语音信号；第二判别器输出无噪声语音信号或带噪声语音信号的识别结果。

进一步地，第一生成器和第二生成器的内部结构是一致的。

如图2所示，所述第一生成器，包括相互连接的编码器和解码器；

所述编码器，包括：依次连接的卷积层c1、卷积层c2、卷积层c3、卷积层c4、卷积层c5、卷积层c6、多头注意力机制层、卷积层c7、卷积层c8、卷积层c9、卷积层c10和卷积层c11；

所述解码器，包括：依次连接的反卷积层d11、反卷积层d10、反卷积层d9、反卷积层d8、反卷积层d7、多头注意力机制层、反卷积层d6、反卷积层d5、反卷积层d4、反卷积层d3、反卷积层d2和反卷积层d1；

其中，编码器的卷积层与解码器的反卷积层添加残差连接。

进一步地，所述编码器的工作原理是：分析输入的语音信号序列；使用多头注意力机制层从不同方面进行语音特征的学习，特别是对于噪声的处理，提高生成语音的质量。

进一步地，所述解码器的工作原理是：生成输出的语音信号序列，其中使用多头注意力机制层从不同方面进行语音特征的学习，特别是对于噪声的处理，提高生成语音的质量。

进一步地，所述编码器的卷积层与解码器的卷积层残差连接；具体包括：

编码器的卷积层c1与解码器的反卷积层d1连接；

编码器的卷积层c2与解码器的反卷积层d2连接；

编码器的卷积层c3与解码器的反卷积层d3连接；

以此类推；编码器的卷积层c11与解码器的反卷积层d11连接。

进一步地，第一判别器和第二判别器的内部结构是一样的。

如图3所示，所述第一判别器，包括：依次连接的卷积层e1、卷积层e2、卷积层e3、卷积层e4、卷积层e5、卷积层e6、卷积层e7、卷积层e8、GRU层、多头注意力机制层和softmax激活函数层。

进一步地，所述第一判别器的工作原理是：将第二生成器生成的信号判断为假，将真实的语音信号判断为真；使用GRU层网络参数量小，减少过拟合的风险；使用多头注意力从不同方面进行语音特征的学习，判断是真实语音还是生成语音。

进一步地，所述第二判别器的工作原理与第一判别器相同。

进一步地，训练后的生成对抗网络；训练过程包括：

构建训练集；所述数据集为Voice Bank英国爱丁堡大学提供的数据库，该数据库的干净语音与带噪语音由28个说话人，每人约400条语音组成；

将带噪声语音输入到第一生成器中，第一生成器生成第一增强语音信号；

第一增强语音信号输入到第二生成器中，第二生成器生成第二增强语音信号；

将第二增强语音信号和无噪声信号输入到第一判别器中进行判别，输出第一判别结果；

将第二增强语音信号和无噪声信号输入到第二判别器中进行判别，输出第二判别结果；

当第一、二判别结果的准确率达到50％时，停止训练，得到训练后的生成对抗网络。

对于网络结构的选择，GAN中使用两个生成器与两个判别器，选择卷积网络并在其中添加多头注意力机制层，特别是在两个判别器的中使用了GRU网络设计。使用的是两个生成器进行两个独立的阶段对语音信号进行增强，直至两个判别器无法判别。其中，第二生成器产生的增强语音为最终增强语音。将带噪语音输入训练好的第一生成器，通过第二生成器生成语音信号。将高斯噪声作为随机噪声输入，干净的语音信号作为目标信号，使用卷积神经网络并添加注意力层作为生成器、判别器的网络结构。

进一步地，训练后的生成对抗网络，在训练过程之前还包括：初始化阶段；

进一步地，所述初始化阶段，包括：对数据集的处理步骤、第一生成器和第二生成器初始化步骤、第一判别器和第二判别器初始化步骤、以及优化权值阶段。

进一步地，对数据集的处理步骤，包括：

(1.1)将数据集中数据整合为tfrecords文件，干净语音数据(无噪声语音信号)被分到wav类，随机噪声被分到noisy类。

实施例：该步骤中，tfrecords文件内数据类型为int型，数据大小范围为-32767～32767，输入数据集采样率为16KHZ，所以设定每个数据尺寸为16384，但是每个数据尺寸不限于此，可根据数据采样率自行调整。

(1.2)确定整个GAN的优化器，同时将tfrecords文件的随机噪声与干净语音读取出来。

实施例：确定优化器为RMSProp。

(1.3)改变随机噪声与干净语音大小，同时对其实施0.9～1范围内的预加重。

实施例：将随机噪声与干净语音范围变为-1～1，以防止梯度爆炸等问题，实施0.95的预加重，来使其高频特性有更好的表现

(1.4)将随机噪声与干净语音放入队列，每次取出所需的增强语音与干净语音批次。

实施例：批大小为50，16384帧长；

考虑多生成器协同多阶段生成语音，故采用两个生成器的训练方式，重建生成干净语音。

进一步地，所述第一生成器和第二生成器初始化步骤；具体包括：

(2.1)单独取出随机噪声调整维度。

实施例：将随机噪声维度调整为4维，维度大小是[150,16384,1,1]。

(2.2)确定二维卷积卷积核大小为32、步长为2，进行二维卷积后调整维度，对其使用激活函数。将二维卷积结果与尺寸大小相同的高斯噪声进行拼接。进行二维反卷积，同时与二维卷积过程中相同尺寸的向量进行跳跃残差连接，每个反卷积层使用激活函数PReLU。本实例只将batchsize大小为50。

(2.3)在最后添加多头注意力层，得到最后一层输出，对其使用激活函数，得到生成的增强语音。

实施例：使用PReLU激活函数，其公式为

进一步地，所述第一判别器和第二判别器初始化步骤；具体包括：

(3.1)将数据处理阶段所取出的干净语音设定为w序列。

(3.2)创建一个与w序列相同维度、尺寸的高斯噪声序列，并且与w相加得到新的w。

实施例：高斯噪声的平均值设为0、方差为0.5。

(3.3)调整w序列的维度。确定二维卷积过滤器尺寸、步长、填充方式等，二维卷积后对w进行虚拟批量标准化、使用激活函数，得到新的w。

实施例：参数选择与第一生成器和第二生成器初始化阶段配置相同，其中虚拟批量标准化目的是加快模型的收敛速度。

(3.4)将二维卷积结果进行一维卷积随后送入GRU层，通过GRU层的输出到多头注意力层，最后得到输出概率值为接近1的真数据的概率。

进一步地，所述优化权值阶段；具体包括：

(4.1)第一判别器和第二判别器使用干净语音作为真实数据，进行第一判别器和第二判别器初始化阶段时输出接近1的概率，表示为真数据。第一判别器和第二判别器输入生成器生成的增强语音作为假数据，第一判别器和第二判别器将进行初始化阶段的操作输出接近0的概率，表示为假数据。计算第一判别器和第二判别器的loss值。

(4.2)根据第一生成器、第二生成器、第一判别器和第二判别器的loss值更新第一生成器、第二生成器、第一判别器和第二判别器初始化中的卷积与反卷积的过滤器数值、虚拟批量标准化中gama、beta值。

进一步地，训练后的生成对抗网络，训练阶段：

(5.1)重复第一生成器和第二生成器初始化、第一判别器和第二判别器初始化、优化权值三个步骤；

(5.2)判断当前以训练数据个数是否大于tfrecords文件中数据个数，重复进行训练直到以训练个数。

随机噪声z输入训练好的第二生成器，通过生成器生成增强语音信号，过程如下：

(6.1)读取随机噪声文件，判断采样率是否为16KHz。

(6.2)配置以训练好模型的权值。

(6.3)将读取的数据大小转变为-1～1。

(6.4)确定数据尺寸。

(6.5)以16384为间隔将数据送入生成器，将生成结果保存。

(6.6)将保存的数据写入wav文件。

基于生成对抗网络的语音增强方法，其创新点在于：通过生成对抗网络技术，对输入的含噪语音通过多生成器进行多阶段增强，并且对生成器的多层卷积神经网络中添加多头注意力层。含噪语音通过多个生成器之后进行输出，判别器的输入为多个生成器生成的增强之后的语音和真实干净的语音，判别器通过多层卷积神经网络判断增强之后语音为真实干净语音的概率。通过生成器与判别器的相互博弈可以提升生成器逼近干净语音信号的能力。需要注意的是，本发明所述生成对抗性网络中生成器设计不仅包括实例中两个生成器，同时也应包括多生成器；及生成器、判别器中的基于多头注意力结合模型，及本发明两者的相结合。

本发明给出一种基于生成对抗网络的语音增强方法，基于生成对抗网络，输入信号带噪语音通过多个生成器多层卷积神经网络，在多层卷积神经网络中添加注意力层，转换为增强语音输出，判别器的输入为生成器生成的增强语音和干净信号，判别器通过多层卷积神经网络判定输入为目标信号的概率，通过生成器与判别器的相互博弈可以提升生成器生成的增强语音逼近干净信号的能力，此方法所得到的增强之后的语音，具有更高的语音质量和可懂度。

实施例二

本实施例提供了基于生成对抗网络的语音增强系统；

基于生成对抗网络的语音增强系统，包括：

获取模块，其被配置为：获取带噪声语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

此处需要说明的是，上述获取模块和语音增强模块对应于实施例一中的步骤S101至S102，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于生成对抗网络的语音增强方法，其特征是，包括：

其中，所述生成对抗网络，包括两个生成器和两个判别器；

2.如权利要求1所述的基于生成对抗网络的语音增强方法，其特征是，所述生成对抗网络，包括：第一生成器、第二生成器、第一判别器和第二判别器；

第一生成器的输入端用于输入带噪声语音信号；

第一生成器的输出端输出第一增强语音信号；

第二生成器的输入端用于输入第一增强语音信号；

第二生成器的输出端用于输出第二增强语音信号；

3.如权利要求2所述的基于生成对抗网络的语音增强方法，其特征是，所述第一生成器，包括相互连接的编码器和解码器；

所述编码器，包括：多个卷积层和一个注意力机制层；

所述解码器，包括：多个反卷积层和一个注意力机制层；

其中，编码器的卷积层与解码器的反卷积层添加残差连接。

4.如权利要求2所述的基于生成对抗网络的语音增强方法，其特征是，所述第一判别器，包括：多个卷积层、GRU层、多头注意力机制层和softmax激活函数层。

5.如权利要求1所述的基于生成对抗网络的语音增强方法，其特征是，训练后的生成对抗网络；训练过程包括：

构建训练集；

6.如权利要求1所述的基于生成对抗网络的语音增强方法，其特征是，两个生成器的训练过程为最小化以下损失函数：

两个判别器的训练过程为最小化以下损失函数：

在训练过程中，生成器的训练输入是带噪语音信号

Z为隐藏层随机噪声，n为2，G₁表示第一生成器；G₂表示第二生成器；D₁表示第一判别器；D₂表示第二判别器；λ为L1损失的超参数。

7.如权利要求3所述的基于生成对抗网络的语音增强方法，其特征是，所述编码器的工作原理是：分析输入的语音信号序列；使用多头注意力机制层从不同方面进行语音特征的学习，特别是对于噪声的处理，以提高生成语音的质量；所述解码器的工作原理是：生成输出的语音信号序列，其中使用多头注意力机制层从不同方面进行语音特征的学习，特别是对于噪声的处理，以提高生成语音的质量。

8.基于生成对抗网络的语音增强系统，其特征是，包括：

获取模块，其被配置为：获取带噪声语音信号；

其中，所述生成对抗网络，包括两个生成器和两个判别器；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。