CN113096673A

CN113096673A - 基于生成对抗网络的语音处理方法及系统

Info

Publication number: CN113096673A
Application number: CN202110341574.5A
Authority: CN
Inventors: 李晔; 冯涛; 张鹏; 李姝�; 汪付强
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-09
Anticipated expiration: 2041-03-30
Also published as: CN113096673B

Abstract

本发明属于语音处理领域，提供了一种基于生成对抗网络的语音处理方法及系统。其中，该方法包括获取源语音，并输入至编码器对源语音进行编码；将编码后的语音信号输入至生成对抗网络模型，最后输出与源语音相匹配的恢复的语音；其中，生成对抗网络模型包括生成器和鉴别器，训练集由编码前的源语音和编码后质量下降的语音构成；生成器用于恢复编码后质量下降的语音；鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号，再由鉴别器将区分结果反馈给生成器，以指导生成器学习源语音的真实分布的输出。解决了语音编码器生成的语音质量较低的问题，并且具有更高的泛化性，对多种ITU标准下的编码器生成的编解码后的语音都有效。

Description

基于生成对抗网络的语音处理方法及系统

技术领域

本发明属于语音处理领域，尤其涉及一种基于生成对抗网络的语音处理方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

语音编解码技术对通讯、军事等行业有着重要的意义，它可以将大量的语音信息通过编码技术进行压缩，从而进行传输，再通过解码进行语音的复原，从而降低语音信号的传输带宽，提高系统容量。但是，随着语音编码速率的下降，合成语音的质量会有一定程度的降低，影响人的主观听觉感受。

目前语音编码算法都趋向于低速率编码，然而，更低的速率代表着更高的压缩率，压缩率更高意味着解码时难度就越大，所以会导致解码后的语音质量下降。目前，发明人发现，已有的改善语音编码器生成语音质量的方法大都为对语音编码器本身算法进行优化，但是因为优化语音编码器算法难度较高，并不能很好的兼顾低传输速率与解码后语音的质量。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于生成对抗网络的语音处理方法及系统，其通过生成对抗性网络(Generative Adversarial Networks)模型对编码器编解码后的低质量语音进行修复，修复后的语音与未修复的语音相比具有更高的质量。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于生成对抗网络的语音处理方法。

一种基于生成对抗网络的语音处理方法，其包括：

获取源语音，并输入至编码器对源语音进行编码；

将编码后的语音信号输入至生成对抗网络模型，最后输出与源语音相匹配的恢复的语音；

其中，生成对抗网络模型包括生成器和鉴别器，训练集由编码前的源语音和编码后质量下降的语音构成；生成器用于恢复编码后质量下降的语音；鉴别器用于比对恢复后的语音与编码前的源语音以区分真信号与假信号，再由鉴别器将区分结果反馈给生成器，以指导生成器学习源语音的真实分布的输出。

本发明的第二个方面提供一种基于生成对抗网络的语音处理系统。

一种基于生成对抗网络的语音处理系统，其包括：

源语音编码模块，其用于获取源语音，并输入至编码器对源语音进行编码；

语音恢复模块，其用于将编码后的语音信号输入至生成对抗网络模型，最后输出与源语音相匹配的恢复的语音；

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于生成对抗网络的语音处理方法，其通过生成对抗性网络(Generative Adversarial Networks)模型对编码器编解码后的低质量语音进行修复，提升了修复后的语音的质量，修复后的语音与未修复的语音相比具有更高的质量，解决了语音编码器生成的语音质量较低的问题，并且具有更高的泛化性，对多种ITU标准下的编码器生成的编解码后的语音都有效。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的基于生成对抗网络的语音处理方法流程图；

图2是本发明实施例的生成对抗网络模型训练流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例的一种基于生成对抗网络的语音处理方法，其包括：

S101：获取源语音，并输入至编码器对源语音进行编码。

其中，源语音为未编码的语音信号，其属于wav类语音。

这里的编码器指的是ITU标准下的任一编码器，比如：G.721语音编码器等。

S102：将编码后的语音信号输入至生成对抗网络模型，最后输出与源语音相匹配的恢复的语音。

在具体实施中，所述生成器包括编码和解码两部分结构，编码结构用于提取输入至生成器的语音的特征，解码结构用于输出恢复的语音。

例如：

在生成器中，编码结构将其设置为11个二维卷积层，这11个二维卷积层中的卷积核个数分别为16、32、32、64、64、128、128、256、256、521、1024，每层的激活函数选择

(a为系数)。解码结构有11个二维反卷积层其卷积核个数分别为521、256、256、128、128、64、64、32、32、16、1，前十层的激活函数为PReLU。最后一层激活函数为

此处需要说明的是，编码结构也可根据实际情况来设置为其他数量的二维卷积层，而且这些二维卷积层中的卷积核个数，本领域技术人员也可根据实际情况来具体设置。

在本实施例中，鉴别器包括11个二维卷积层，每层的卷积核个数分别为16、32、32、64、64、128、128、256、256、521、1024，在每个二维卷积层后α＝0.3的VBN(Virtual BatchNormalization)，其公式表示为

并且使用

(a为系数)激活函数。在二维卷积层最后添加一个卷积核宽度为1的一维卷积层，一维卷积层后添加全连接层。其中，γ、β值为鉴别器相关参数值。

在训练生成对抗网络模型的过程中，下面使用LibriSpeech语音数据集，该数据集发布于2015年，时长为1000小时左右，采样率为16KHZ，16bits。

制作数据集的过程为：

取出数据集中时长为100小时语音数据，命为A，使用ITU发布的窄带语音编码标准下的G.721对A进行语音编码得到编解码后的语音数据命为A’，其中A与A’各个对应的语音数据文件名称相同。取出剩余900小时中的100小时语音数据，命为B，使用Cooledit将语音数据B采样率转换为8KHZ得到B”，使用ITU发布的窄带语音编码标准下的G.729对B”进行语音编码得到编解码后的语音数据命为B’，其中B与B’各个对应的语音数据文件名称相同。取出剩余800小时中的100小时语音数据，命名为C，使用ITU发布的宽带/超宽带/全频宽带语音编码标准下的G.722对C进行语音编码得到编解码后的语音数据命为C’，其中C与C’各个对应的语音数据文件名称相同。

数据集的处理过程为：

(1)将数据集中数据整合为tfrecords文件，A、B、C数据被分到wav类，A’，B’，C’被分到noisy类，wav类与noisy类数据是一一对应的，例如：wav类中的数据A里的数据段D对应到noisy中及为数据A’中数据D’，D与D’的关系为：D’为D经过G.721语音编码器编解码后的语音。

(2)确定GAN的优化器为RMSProp，将tfrecords文件的wav类与noisy类读取出来。

(3)将wav类与noisy类的语音数据的幅值除以2^16，此举是为了将其幅值转变为-1～1，来加快训练速度，同时对其实施0.95的预加重，来使其高频特性有更好的表现，此时得到了处理后的wav’类与noisy’类。

(4)将wav’类与noisy’类放入程序队列，来等待取出所需的wav’类与noisy’类批次。

初始化生成器的过程为：

(1)取出一批次(150组16384个采样点)的noisy’类调整其维度，为其增加两个1的维度，此刻其尺寸为[150,16384,1,1]，命为x。

(2)将x输入编码结构内，编码结构的每个卷积层的二维卷积核尺寸设定为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME，进行二维卷积后，使用激活函数PReLU。经过11个二维卷积层后x变为x’，此刻x’的尺寸为[150,8,1024,1]，将x’与y(尺寸为[150,8,1024,1]，每个维度上的值都为0)拼接，得到x”，把x”送入解码结构内，解码结构的二维卷积核尺寸设定为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME，前10层使用PReLU激活函数，最后1层使用tanh激活函数。经过11层二维反卷积后得到X。X的尺寸为[150,16384]。

初始化鉴别器的过程为：

(1)取出的wav’类中的一批次语音数据(150组16384个采样点)命为z并且该批次的语音数据与输入到生成器的noisy’类数据是对应的。

(2)确定每个二维卷积层的二维卷积核尺寸为[31,1,输入通道数,输出通道数]、步长设为[1,2,1,1]、填充方式为SAME，在每个二维卷积层后α＝0.3的VBN(Virtual BatchNormalization)并且使用

将z输入到二维卷积层内得到z’，将z’输入到一维卷积层得到z”，z”经过最后全连接层后得到1，表示为真的概率。

优化权值的阶段为：

(1)鉴别器使用wav’类语音作为真实数据，进行鉴别器初始化阶段时输出真的概率，表示为真数据，输出使用R表示。鉴别器输入生成器生成的X作为假数据，鉴别器将进行初始化阶段的操作输出0的概率，表示为假数据，输出使用F表示。

(2)鉴使用f_lossf表示为鉴别器鉴别输入为假的概率，f_lossrr表示鉴别器鉴别输入为真的概率，使用g_loss表示生成器的Loss值，其计算公式分别为

根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重。

根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重、虚拟批量标准化中γ、β值。

如图2所示，在训练阶段，重复鉴别器初始化、生成器初始化、优化权值三个步骤，判断当前以训练数据个数是否大于tfrecords文件中数据个数，重复进行训练直到达到规定的训练个数。

生成阶段：

将训练阶段最后一次的各个卷积核的权重进行读取，任取一段语音将其使用ITU标准下任一编码器编码，将编码后的语音输入生成器，通过生成器生成恢复后的语音信号，过程如下：

读取编码后的语音；

配置以训练好模型的权值；

将读取的数据大小转变为-1～1；

以16384为间隔将数据送入生成器，将生成结果保存；

将保存的数据写入wav文件。

本实施例充分考虑了语音编码领域中为了更趋向于更低速率编码而牺牲了质量的问题，选择了利用深度学习中的生成对抗网络(GAN)来对质量下降后的语音进行增强，对低速率编码造成的质量降低的语音进行质量恢复，从而达到了较好的效果。

实施例二

本实施例提供了一种基于生成对抗网络的语音处理系统，其包括：

此处需要说明的是，本实施例的基于生成对抗网络的语音处理系统中的各个模块，与实施例一中的基于生成对抗网络的语音处理方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于生成对抗网络的语音处理方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的语音处理方法，其特征在于，包括：

获取源语音，并输入至编码器对源语音进行编码；

2.如权利要求1所述的基于生成对抗网络的语音处理方法，其特征在于，所述生成器包括编码和解码两部分结构，编码结构用于提取输入至生成器的语音的特征，解码结构用于输出恢复的语音。

3.如权利要求2所述的基于生成对抗网络的语音处理方法，其特征在于，所述编码结构为若干个二维卷积层。

4.如权利要求1所述的基于生成对抗网络的语音处理方法，其特征在于，所述鉴别器为若干个二维卷积层。

5.如权利要求1所述的基于生成对抗网络的语音处理方法，其特征在于，在训练生成对抗网络模型的过程中，鉴别器使用加设权值的wav类语音作为真实数据，进行鉴别器初始化阶段时输出真的概率，表示为真数据；鉴别器输入生成器生成的语音作为假数据，鉴别器将进行初始化阶段的操作输出0的概率，表示为假数据。

6.如权利要求1所述的基于生成对抗网络的语音处理方法，其特征在于，在训练生成对抗网络模型的过程中，根据生成器的Loss值更新生成器初始化中的卷积与反卷积的卷积核的各个数值的权重。

7.如权利要求1所述的基于生成对抗网络的语音处理方法，其特征在于，根据鉴别器的loss值更新并保存到本地鉴别器初始化中的卷积核数值的权重及虚拟批量标准化中鉴别器相关参数值。

8.一种基于生成对抗网络的语音处理系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于生成对抗网络的语音处理方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于生成对抗网络的语音处理方法中的步骤。