CN110444224A

CN110444224A - 一种基于生成式对抗网络的语音处理方法及装置

Info

Publication number: CN110444224A
Application number: CN201910865696.7A
Authority: CN
Inventors: 郑能恒; 史裕鹏; 容韦聪; 康迂勇
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2019-11-12
Anticipated expiration: 2039-09-09
Also published as: CN110444224B

Abstract

本发明适用于语音通信技术领域，提供了一种基于生成式对抗网络的语音处理方法及装置，方法包括获取语音训练样本，语音训练样本包括N组完整语音样本以及与完整语音样本对应的丢包语音样本、K组宽带语音样本以及与宽带语音样本对应的窄带语音样本；将语音训练样本放入生成式对抗网络分别进行基于丢包语音样本和完整语音样本的丢包补偿模型训练、基于宽带语音样本和窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统；再通过语音处理系统处理待处理的原始语音，获得丢包补偿或频带扩展后的增强语音。通过本发明可以提高语音处理中基于丢包语音的丢包补偿处理效率，以及基于窄带语音的频带扩展处理性能。

Description

一种基于生成式对抗网络的语音处理方法及装置

技术领域

本发明涉及语音通信技术领域，尤其涉及一种基于生成式对抗网络的语音处理方法及装置。

背景技术

现代社会通讯成为人们生活的重要内容，通讯方式也由固定电话逐渐发展至移动电话和网络电话，极大地便利了我们的生活。然而移动电话和网络电话不同的特点导致其各自在不同的场合具有相对优势和不足。

其中，大部分移动电话的网络属于窄带语音通信系统。语音信号的传输带宽只有3.1kHz，频率范围在300～3400Hz之间。这种窄带语音信号虽然节省了通信的带宽，但是降低了语音的质量。而对于网络电话来说，通常采用IP网络进行实时语音传输，当网络发生拥塞时，IP网络中的语音传输就会发生丢包；当丢包率超过10％时语音通信质量就会受到很大影响，这也是目前的网络实时语音通信还不能完全取代传统电话的原因。

目前，针对移动电话的网络频率范围窄、语音质量低的问题，较为经典的频谱扩展技术包括码本映射方法，线性映射，以及基于贝叶斯概率估计的方法，其中，基于贝叶斯概率估计的方法包含两种典型方法，高斯混合模型和隐马尔科夫模型；而对于网络电话中的丢包问题，学术界和工业界出现了用于网络传输过程中语音数据包丢失的隐藏技术，以期减轻丢包对语音质量的影响，比较经典的PLC技术包括高斯混合模型，隐马尔可夫模型，线性预测分析等常规方法。

然而，在同时解决上述移动电话网络的频谱扩展及网络电话的丢包问题的需求下，高斯混合模型虽然可以扩展频谱和丢包补偿，但其使用的算法基础来自于统计学方法，不符合语音相邻状态之间具有强相关性的特点，因此不能做到很好的频带扩展效果和丢包补偿性能。

发明内容

本发明的主要目的在于提出一种基于生成式对抗网络的语音处理方法及装置，以解决现有技术中的数学模型对语音进行频谱扩展或丢包补偿时没有充分利用语音相邻状态之间的强相关性，使得频带扩展和丢包补偿效果不佳的问题。

为实现上述目的，本发明实施例第一方面提供一种基于生成式对抗网络的语音处理方法，包括：

获取语音训练样本，所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本，其中，N、K为正整数；

将所述语音训练样本放入生成式对抗网络中，分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练，以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统；

通过所述语音处理系统处理待处理的原始语音，获得丢包补偿或频带扩展后的增强语音。

本发明实施例第二方面提供一种基于生成式对抗网络的语音处理装置，包括：

训练样本模块，用于获取及预处理语音训练样本，所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本，其中，N、K为正整数；

语音处理系统训练模块，用于将所述语音训练样本放入生成式对抗网络中，分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练，以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统；

语音处理模块，用于通过所述语音处理系统处理待处理的原始语音，获得丢包补偿或频带扩展后的增强语音。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。

本发明实施例提出一种基于生成式对抗网络的语音处理方法，基于生成式对抗网络训练生成丢包补偿模型和频带扩展模型，用以构成语音处理系统，使其在接入语音信号时根据实际情况进行丢包补偿处理或频带扩展处理，获得处理后的语音，即增强语音，其中，在丢包补偿模型和频带扩展模型的训练过程中，由于生成式对抗网络的结构特性，能有效利用时域连续语音帧间相关性，因此可在不需要额外信号变换处理手段的前提下进行丢包语音帧波形估计和重构，也可在不需要额外信号变换处理手段的前提下进行宽带语音时域波形估计和重构，从而提高了语音处理中基于丢包语音的丢包补偿处理效率，以及基于窄带语音的频带扩展处理性能。

附图说明

图1为本发明实施例一提供的基于生成式对抗网络的语音处理方法的实现流程示意图；

图2为本发明实施例二提供的基于生成式对抗网络的语音处理装置的组成结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本文中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

在后续的描述中，发明实施例序号仅仅为了描述，不代表实施例的优劣。

实施例一

如图1所示，本发明实施例提供了一种基于生成式对抗网络的语音处理方法，用以获得由丢包补偿模型和频带扩展模型构成的语音处理系统，通过此语音处理系统处理原始语音，克服原始语音中的丢包问题或频带过窄的问题。本发明实施例中，上述方法包括但不限于以下步骤：

S101、获取语音训练样本，所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本，其中，N、K为正整数。

在上述步骤S101中，语音训练样本是经过预处理后，用于训练的语音数据，既包括原始的语音，也包括处理后的语音。其中，预处理过程可以为：由完整语音样本进行丢包处理，生成丢包语音样本，从而构成完整语音样本与丢包语音样本之间的对应关系；由宽带语音样本模拟窄带语音信号经G.711协议进行传输，生成窄带语音样本，从而构成宽带语音样本和窄带语音样本之间的对应关系。

在本发明实施例中，上述步骤S101的语音训练样本获取可以包括以下详细实现步骤：

获取所述语音训练样本中的完整语音样本和宽带语音样本；

以所述完整语音样本为基础，通过伯努利丢失模型生成不同丢包率的语音，作为与所述完整语音样本对应的丢包语音样本；

以所述宽带语音为基础，通过低通滤波器模拟生成不同截止频率的窄带语音，作为与所述宽带语音样本对应的窄带语音样本。

在具体应用中，假设根据完整语音样本获取了4组丢包语音样本的丢包率分别为0％、10％、20％和30％，在使用上述丢包率的丢包语音样本进行丢包补偿模型测试时，还可以添加一种模型训练过程中未见过的丢包率40％，以此模拟较为极端的丢包情况下，模型的丢包恢复效果和鲁棒性。

在具体应用中，假设根据16kHz的宽带语音样本获取了4组窄带语音样本，截止频率分别为1.5kHz、2.5kHz和3.5kHz，在使用上述截止频率的窄带语音样本进行频带扩展模型训练时，还额外添加一种模型训练过程中未见过的截止频率1kHz，以此模拟较为极端的窄带信号，以体现模型的频带扩展效果和鲁棒性。

在本发明实施例中，完整语音样本默认为宽带语音信号，宽带语音样本默认为完整语音信号，则丢包语音样本也为宽带语音信号，窄带语音样本也为完整语音信号。

S102、将所述语音训练样本放入生成式对抗网络中，分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练，以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统。

在上述步骤S102中，相比于针对丢包场景的大部分传统接收端PLC技术，和针对频带盲扩的大部分传统接收端BWE技术，生成式对抗网络GANs能够有效利用目标帧前更长的历史语音帧信息，即有效利用时域连续语音帧间的相关性。

上述的语音处理系统，对于丢包补偿任务，能提高帧补偿的处理效率；对于频带扩展任务，能够提高所提频带扩展的整体盲扩效果。

在本发明实施例中，上述步骤S102中生成式多抗网络的组成部分可以为：

所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型，其中编码器和解码器由卷积层和反卷积层堆积构成，所述卷积层和所述反卷积层一一对应，且所述卷积层与所述反卷积层之间添加层间跳连接；

所述生成模型的编码器，用于接收第i组所述丢包语音样本或第j组所述窄带语音样本，根据第i组所述丢包语音样本或第j组所述窄带语音样本进行编码，其中，i为小于或等于N的正整数、j为小于或等于K的正整数；

所述生成模型的解码器，用于接收所述编码器的编码结果。

其中，卷积层与反卷积层之间添加层间跳连接，能够引导网络在训练过程中更快收敛；

在具体应用中，还在卷积层和反卷积层中加入layer batchnorm等机器学习技巧，提高最终的语音处理系统的稳定性。

在一个实施例中，上述的丢包补偿模型训练过程可以为：

所述生成模型的编码器根据第i组所述丢包语音样本进行编码，并将第一编码结果与第i组所述丢包语音样本对应的随机噪声矢量进行拼接；

其中，拼接后的样本矩阵作为所述解码器的输入，以使所述解码器进行反卷积运算，得到基于第i组所述丢包语音样本的解码结果，并向所述判别模型发送基于第i组所述丢包语音样本的解码结果；

所述判别模型根据基于第i组所述丢包语音样本的解码结果重构语音波形，获得丢包补偿后的第i组所述丢包补偿语音样本，还计算第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度；

根据第i组所述丢包补偿语音样本与第i组所述完整语音样本的接近程度，产生判别误差引导所述生成式对抗网络中生成模型的训练，获得丢包补偿模型。

上述的丢包补偿模型训练过程在生成式对抗网络中进行，是一种基于生成模型的模型对抗训练。

生成式对抗网络的生成模型中，丢包语音样本的解码输出被馈送到判别模型，用于判断生成模型的生成样本，即丢包补偿语音样本，是否接近真实语音样本数据分布，即完整语音样本，判别模型产生的判别误差结合生成模型自身的损失函数引导生成模型的训练，根据N组样本数据引导生成丢包补偿模型。

在上述的判别模型中，可以将接近完整语音样本的丢包补偿语音样本判别为1，否则判别为0。

在一个实施例中，上述的频带扩展模型训练过程可以为：

所述生成模型的编码器根据第j组所述窄带语音样本进行编码，并将第二编码结果与随机噪声矢量进行拼接；

其中，拼接后的样本矩阵作为所述解码器的输入，以使所述解码器进行反卷积解码，并向所述判别模型发送第j组所述窄带语音样本的解码结果；

所述判别模型根据第j组所述窄带语音样本的解码结果重构语音波形，获得频带扩展后的第j组所述盲扩语音样本，还计算第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度；

根据第j组所述盲扩语音样本与第j组所述宽带语音样本的相似程度，产生判别误差引导所述生成式对抗网络中生成模型的训练，获得频带扩展模型。

在上述的频带扩展模型训练过程在生成式对抗网络中进行，也是一种基于生成模型的模型对抗训练。

生成式对抗网络的生成模型中窄带语音样本的解码输出，被馈送到判别模型，用于判断生成模型的生成样本，即盲扩语音样本，是否接近真实的宽带语音样本数据分布，判别模型产生的判别误差结合生成模型自身的均方误差引导生成模型的训练，根据K组数据引导生成频带扩展模型。

在上述的判别模型中，可以将与宽带语音样本相似的盲扩语音样本判别为1，否则判别为0。

在上述的丢包补偿模型训练过程和频带扩展模型训练过程中，均包括重构语音波形的步骤，在本发明实施例中，可以由丢包语音样本的解码输出以及窄带语音样本的解码输出，进行特征提取的逆向处理，将得到的时域语音块进行波形重构，从而得到丢包补偿后的语音波形以及频带扩展后的语音波形，作为生成模型的生成样本，即丢包补偿后的丢包补偿语音样本和频带扩展后的盲扩语音样本。

在本发明实施例中，上述步骤S102之前，即将所述语音训练样本放入生成式对抗网络中之前，还需对语音训练样本依次进行时域分帧和预加重等预处理，详细实现流程包括：

以20ms为一帧间隔，对所述丢包语音样本进行时域分帧操作；

以连续8帧的语音样本作为时域语音特征，获得基于所述丢包语音样本的连续特征块；

以20ms为一帧间隔，对所述窄带语音样本进行时域分帧操作；

以连续8帧的语音样本作为时域语音特征，获得基于所述窄带语音样本的连续特征块；

将基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块，作为所述生成式对抗网络的输入特征。

在具体应用中，对所述丢包语音样本进行时域分帧后，以连续8帧的语音样本作为时域语音特征，其中前7帧时域语音帧用于进行目标丢失帧(也即第八帧)波形估计；即将连续8帧的语音样本作为划分节点，将丢包语音样本划分为N组丢包语音样本，每组丢包语音样本中，仅包括前7帧时域语音帧作为有效输入特征。

同理，对所述窄带语音样本进行时域分帧后，以连续8帧的语音样本作为时域语音特征；即将连续8帧的语音样本作为划分节点，将窄带语音样本划分为K组丢包语音样本。

因此，发送至所述生成式对抗网络的语音训练样本为基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块。

S103、通过所述语音处理系统处理待处理的原始语音，获得丢包补偿或频带扩展后的增强语音。

在上述步骤S103中，语音处理系统设置在接收端，可在原始语音传输至接收端之前，进行上述的丢包补偿处理和频带扩展处理。

本发明实施例提供的基于生成式对抗网络的语音处理方法，基于生成式对抗网络训练生成丢包补偿模型和频带扩展模型，用以构成语音处理系统，使其在接入语音信号时根据实际情况进行丢包补偿处理或频带扩展处理，获得处理后的语音，即增强语音，其中，在丢包补偿模型和频带扩展模型的训练过程中，由于生成式对抗网络的结构特性，能有效利用时域连续语音帧相关性，因此可在不需要额外信号变换处理手段的前提下进行丢包语音帧波形估计和重构，也可在不需要额外信号变换处理手段的前提下进行宽带语音时域波形估计和重构，从而提高了语音处理中基于丢包语音的丢包补偿处理效率，以及基于窄带语音的频带扩展处理性能。

实施例二

如图2所示，本发明实施例还提供一种基于生成式对抗网络的语音处理装置20，包括但不限于以下模块：

训练样本获取模块21，用于获取语音训练样本，语音训练样本包括N组完整语音样本以及与完整语音样本对应的丢包语音样本、K组宽带语音样本以及与宽带语音样本对应的窄带语音样本，其中，N、K为正整数；

语音处理系统训练模块22，用于将语音训练样本放入生成式对抗网络中，分别进行基于丢包语音样本和完整语音样本的丢包补偿模型训练，以及基于宽带语音样本和窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统；

语音处理模块23，用于通过语音处理系统处理待处理的原始语音，获得丢包补偿或频带扩展后的增强语音。

在本发明实施例中，所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型，其中编码器和解码器由卷积层和反卷积层堆积构成，所述卷积层和所述反卷积层一一对应，且所述卷积层与所述反卷积层之间添加层间跳连接；

所述生成模型的解码器，用于接收所述编码器的编码结果。

在具体应用中，生成模型采用卷积层及对应反卷积层的跳连接方案，能够将更多有用的细节信息从卷积层传递到相应的反卷积层，用于改善网络盲扩效果和性能。

本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如实施例一中的基于生成式对抗网络的语音处理方法中的各个步骤。

本发明实施例还提供一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如实施例一中所述的基于生成式对抗网络的语音处理方法中的各个步骤。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成式对抗网络的语音处理方法，其特征在于，包括：

2.如权利要求1所述的基于生成式对抗网络的语音处理方法，其特征在于，所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型，其中编码器和解码器由卷积层和反卷积层堆积构成，所述卷积层和所述反卷积层一一对应，且所述卷积层与所述反卷积层之间添加层间跳连接；

所述生成模型的解码器，用于接收所述编码器的编码结果。

3.如权利要求1或2任一项所述的基于生成式对抗网络的语音处理方法，其特征在于，在丢包补偿模型训练中，所述生成模型的编码器根据第i组所述丢包语音样本进行编码，并将第一编码结果与第i组所述丢包语音样本对应的随机噪声矢量进行拼接；

4.如权利要求1或2任一项所述的基于生成式对抗网络的语音处理方法，其特征在于，在频带扩展模型训练中，所述生成模型的编码器根据第j组所述窄带语音样本进行编码，并将第二编码结果与随机噪声矢量进行拼接；

5.如权利要求1所述的基于生成式对抗网络的语音处理方法，其特征在于，获取语音训练样本，包括：

获取所述语音训练样本中的完整语音样本和宽带语音样本；

6.如权利要求1所述的基于生成式对抗网络的语音处理方法，其特征在于，将所述语音训练样本放入生成式对抗网络中，分别进行基于所述丢包语音样本和所述完整语音样本的丢包补偿模型训练，以及基于所述宽带语音样本和所述窄带语音样本的频带扩展模型训练，获得由丢包补偿模型和频带扩展模型构成的语音处理系统，之前包括：

以20ms为一帧间隔，对所述丢包语音样本进行时域分帧操作；

以20ms为一帧间隔，对所述窄带语音样本进行时域分帧操作；

将基于所述丢包语音样本的连续特征块和基于所述窄带语音样本的连续特征块，作为输入特征分别馈送至生成对抗性网络中进行训练。

7.一种基于生成式对抗网络的语音处理装置，其特征在于，包括：

训练样本获取模块，用于获取语音训练样本，所述语音训练样本包括N组完整语音样本以及与所述完整语音样本对应的丢包语音样本、K组宽带语音样本以及与所述宽带语音样本对应的窄带语音样本，其中，N、K为正整数；

8.如权利要求7所述的基于生成式对抗网络的语音处理装置，其特征在于，所述生成式对抗网络由编码器和解码器构成的生成模型、判别模型，其中编码器和解码器由卷积层和反卷积层堆积构成，所述卷积层和所述反卷积层一一对应，且所述卷积层与所述反卷积层之间添加层间跳连接；

所述生成模型的解码器，用于接收所述编码器的编码结果。

9.一种接收端设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，可实现如权利要求1至6任一项所述的基于生成式对抗网络的语音处理方法中的各个步骤。

10.一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，可实现如权利要求1至6任一项所述的基于生成式对抗网络的语音处理方法中的各个步骤。