CN113393854B

CN113393854B - 一种语音处理方法、装置、电子设备和计算机存储介质

Info

Publication number: CN113393854B
Application number: CN202110546236.5A
Authority: CN
Inventors: 汪剑; 李志飞
Original assignee: Mobvoi Innovation Technology Co Ltd
Current assignee: Mobvoi Innovation Technology Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-11-11
Anticipated expiration: 2041-05-19
Also published as: CN113393854A

Abstract

本发明公开了一种语音处理方法，包括：构建第一语音数据和第二语音数据的训练对；将第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据；将第一嵌入数据和第二嵌入数据输入判别模型进行训练，获得判别结果；根据判别模型，用随机梯度下降的方式进行对抗模型学习，获得语音降噪模型；根据语音降噪模型对目标语音数据进行降噪处理。本发明在保证其鲁棒性、在对先验知识依赖比较少的前提下，利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性，实现较好的语音降噪效果。

Description

一种语音处理方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及语音处理技术领域，特别涉及一种语音处理方法、装置、电子设备和计算机存储介质。

背景技术

随着语音通信系统的发展，语音已经进入了各个方面，如手机音视频通话、车载通话等，外界环境通常会对语音的可懂度与清晰度造成影响，也会给倾听者造成听觉疲劳。传统的语音降噪方法是基于各种信号过滤算法来构建模型，如卡尔曼滤波器算法，构建正常信号和噪音信号的线性组合模型来达到噪音分离的目的，存在的缺陷在于其无法深层次去挖掘正常信号和噪音信号之间的相关性和差异性，从而影响噪音分离效果，并且需要由模型构建者加入一定的先验知识来保证模型的鲁棒性。

发明内容

本发明的主要目的在于提供一种语音处理方法、装置、电子设备和计算机存储介质，以至少解决现有技术中存在的以上技术问题。

为实现上述目的，本发明采取的技术方案为：

本发明一方面提供一种语音处理方法，所述方法包括：

构建第一语音数据和第二语音数据的训练对；

将所述第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据；

将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练，获得判别结果；

根据所述判别模型，用随机梯度下降的方式进行对抗模型学习，获得语音降噪模型；

根据所述语音降噪模型对目标语音数据进行降噪处理。

在一可实施方式中，所述构建第一语音数据和第二语音数据的训练对，包括：

对所述第一语音数据进行数据增强处理，获得对应的第二语音数据；所述第一语音数据及其对应的第二语音数据组成所述训练对。

在一可实施方式中，所述数据增强包括以下方式至少之一：相同类别增强、噪声增强、时移增强、音高变换增强。

在一可实施方式中，所述生成模型由多层卷积网络和全连接网络叠加而成；

所述将第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据，包括：

将所述第一语音数据的频谱特征输入所述生成模型，生成第一嵌入向量，所述第一嵌入向量通过所述多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量，所述低维度的第一语音特征嵌入向量作为所述第一嵌入数据；

将所述第二语音数据的频谱特征输入所述生成模型，生成第二嵌入向量，所述第二嵌入向量通过所述多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量，所述低维度的第二语音特征嵌入向量作为所述第二嵌入数据。

在一可实施方式中，所述判别模型由多层卷积网络和全连接网络构成；

所述将第一嵌入数据和第二嵌入数据输入判别模型，获得判别结果，包括：

将所述第一嵌入数据和第二嵌入数据输入判别模型，经过多层卷积网络和全连接网络后生成判别结果；所述第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。

在一可实施方式中，所述根据所述判别模型，用随机梯度下降的方式进行对抗模型学习，包括：

对所述生成模型按以下生成模型损失函数进行梯度训练：

对所述判别模型按以下判别模型损失函数进行梯度训练：

其中，E表示数学期望，P_g表示第二嵌入数据，P_r表示第一嵌入数据，fw表示判别模型。

本发明另一方面提供一种语音处理装置，包括：

构建模块，用于构建第一语音数据和第二语音数据的训练对；

生成模块，用于将所述第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据；

判别模块，用于将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练，获得判别结果；

学习模块，用于根据所述判别模型，用随机梯度下降的方式进行对抗模型学习，获得语音降噪模型；

处理模块，用于根据所述语音降噪模型对目标语音数据进行降噪处理。

在一可实施方式中，所述处理模块进一步用于，

对所述生成模型按以下生成模型损失函数进行梯度训练：

对所述判别模型按以下判别模型损失函数进行梯度训练：

本发明再一方面提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本发明实施例所述的方法步骤。

本发明还一方面提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所述的方法步骤。

与现有技术相比，本发明具有如下有益效果：

通过本发明提供的方法，能够在保证其鲁棒性、在对先验知识依赖比较少的前提下，利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性，实现较好的语音降噪效果。

附图说明

图1为本发明实施例的一种语音处理方法的流程示意图；

图2为本发明实施例的一种语音处理装置的结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一提供一种语音处理方法，如图1所示，包括：

步骤101，构建第一语音数据和第二语音数据的训练对。

其中，第一语音数据可以是干净的语音数据，简称clean audio，即没有噪音的语音数据；第二语音数据可以是在第一语音数据基础上增加噪音后的语音数据，简称noisyaudio。

构建第一语音数据和第二语音数据的训练对，可以包括：

对第一语音数据进行数据增强处理，获得对应的第二语音数据；第一语音数据及其对应的第二语音数据组成训练对。数据增强包括以下方式至少之一：相同类别增强、噪声增强、时移增强、音高变换增强。

noisy audio数据是其对应的clean audio通过数据增强方式生成的，通过数据增强，能够增加其数据集中相关的数据量，clean audio数据能够通过如下几种方法进行增强，例如：

相同类别增强：将两个或者多个声音片段进行叠加，其在叠加的过程中按照一定的比例；

噪声增强：在增强信号之上随机的增加一个噪声段；

时移增强：通过沿着时间轴将信号进行滚动用来随机的对信号进行移位；

音高变换增强：对频率轴的±5％范围内的随机滚动用来调节音高的变化增量，环绕式转换以便于最大程度的对信息进行保存；

在通过clean audio进行增强时可以随机的对上述增强方法进行排列组合，能够获得大量的noisy audio数据。

步骤102，将第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与第一语音数据对应的第一嵌入数据、及与第二语音数据对应的第二嵌入数据。

原始特征可以是语音数据的频谱特征。

生成模型由多层卷积网络和全连接网络叠加而成，步骤102 具体为：将第一语音数据的频谱特征输入生成模型，生成第一嵌入向量，第一嵌入向量通过多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量，低维度的第一语音特征嵌入向量作为第一嵌入数据；将第二语音数据的频谱特征输入生成模型，生成第二嵌入向量，第二嵌入向量通过多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量，低维度的第二语音特征嵌入向量作为第二嵌入数据。

步骤103，将第一嵌入数据和第二嵌入数据输入判别模型进行训练，获得判别结果。

判别模型由多层卷积网络和全连接网络构成，步骤103具体为：将第一嵌入数据和第二嵌入数据输入判别模型，经过多层卷积网络和全连接网络后生成判别结果；第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。

判别模型的判别方式为：将第一嵌入数据和第二嵌入数据输入判别模型，输入第一嵌入数据时判别结果为0，输入第二嵌入数据时判别结果为1，其中判别模型Discriminator是一个二分类的分类器。

步骤104，根据判别模型，用随机梯度下降的方式进行对抗模型学习，获得语音降噪模型。

为了避免基于分类器的对抗模型可能出现的梯度消失和缺乏多样性问题，采用WassersteinGAN函数进行后续对抗模型学习。

具体的，对生成模型按以下生成模型损失函数进行梯度训练：

对判别模型按以下判别模型损失函数进行梯度训练：

步骤105，根据语音降噪模型对目标语音数据进行降噪处理。

本发明实施例提出的一种基于对抗网络的语音降噪处理方法，能够在保证其鲁棒性、在对先验知识依赖比较少的前提下，利用深度学习网络自适应的去充分学习正常信号和噪音信号之间的关联性和差异性，实现较好的语音降噪效果。

人们在对声音进行感知的过程中，不是一下对声音信息进行同步识别，而是将声音中的各个特征局部进行感知，然后更高层次的对声音进行综合操作，从而得到全局信息，当对声音信号进行多次卷积，模型能够学到一个高质量的特征声音的全连接层，在全连接层之前，若声音数目过大，学习能力强，可能会出现过拟合，在其中可以随机的对数据进行删除解决这一问题。

WassersteinGAN的损失函数如下：

生成模型损失函数为

判别模型损失函数为

GAN作为生产模型的一种，能够通过观察来自特定分布的训练数据，进而尝试对这个分布进行预测，GAN的工作方式包括生成器(Generator)和判别器(Discriminator)，其中生成器能够将噪声作为自己的随机输出，尝试生成一个新的样本，主要目的是为了让判别器无法对样本数据进行判断，判断其是来字训练数据还是来自生成器；在判断器里，让其以监督学习的方式进行工作，让其观察真实样本哈生成器生成的样本，并且同时用标签告诉它这些样本来自何处，在某些意义上，判别器能够对固定的损失函数进行代替，并且尝试学习与训练分布相关的模式，传统的GAN中判别器D并不会当模拟与真实的分布重叠不够时提供足够的信息用来底这个差异度进行估计，这会使生成器得不到有效的反馈信息，生成器的稳定性普遍不足，尤其处于训练之初这一阶段，WassersteinGAN在上述基础上，能够让判别器D去拟合模型于真实分布之间的Wasserstein距离，该距离能够大致估计出调整一个分布至另一个分布还需要多少工作。

实施例二

本发明实施例提供一种语音处理装置，如图2所示，包括：

构建模块10，用于构建第一语音数据和第二语音数据的训练对；

生成模块20，用于将所述第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据；

判别模块30，用于将所述第一嵌入数据和第二嵌入数据输入判别模型进行训练，获得判别结果；

学习模块40，用于根据所述判别模型，用随机梯度下降的方式进行对抗模型学习，获得语音降噪模型；

处理模块50，用于根据所述语音降噪模型对目标语音数据进行降噪处理。

其中，构建模块10进一步用于，对第一语音数据进行数据增强处理，获得对应的第二语音数据；第一语音数据及其对应的第二语音数据组成训练对。

在一可实施方式中，数据增强包括以下方式至少之一：相同类别增强、噪声增强、时移增强、音高变换增强。

在一可实施方式中，生成模型由多层卷积网络和全连接网络叠加而成；生成模块20进一步用于，将第一语音数据的频谱特征输入生成模型，生成第一嵌入向量，第一嵌入向量通过多层卷积网络和全连接网络后生成低维度的第一语音特征嵌入向量，低维度的第一语音特征嵌入向量作为第一嵌入数据；将第二语音数据的频谱特征输入生成模型，生成第二嵌入向量，第二嵌入向量通过多层卷积网络和全连接网络后生成低维度的第二语音特征嵌入向量，低维度的第二语音特征嵌入向量作为第二嵌入数据。

在一可实施方式中，判别模型由多层卷积网络和全连接网络构成；判别模块30进一步用于，将第一嵌入数据和第二嵌入数据输入判别模型，经过多层卷积网络和全连接网络后生成判别结果；第一嵌入数据和第二嵌入数据输入判别模型执行以0和1为分类目标的分类判别。

在一可实施方式中，学习模块40进一步用于，对生成模型按以下生成模型损失函数进行梯度训练：

对判别模型按以下判别模型损失函数进行梯度训练：

实施例三

本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现本发明实施例所述的方法步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例所述的方法步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

构建第一语音数据和第二语音数据的训练对，所述第一语音数据为没有噪音的语音数据，所述第二语音数据为在所述第一语音数据基础上增加噪音后的语音数据；

将所述第一语音数据和第二语音数据的原始特征分别输入生成模型，生成与所述第一语音数据对应的第一嵌入数据、及与所述第二语音数据对应的第二嵌入数据，所述生成模型由多层卷积网络和全连接网络叠加而成；

所述第一嵌入数据为所述第一语音数据的频谱特征输入所述生成模型生成第一嵌入向量，所述第一嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第一语音特征嵌入向量，所述第二嵌入数据为所述第二语音数据的频谱特征输入所述生成模型生成第二嵌入向量，所述第二嵌入向量通过所述多层卷积网络和全连接网络后所生成的低纬度的第二语音特征嵌入向量；

根据所述语音降噪模型对目标语音数据进行降噪处理。

2.根据权利要求1所述的语音处理方法，其特征在于，所述构建第一语音数据和第二语音数据的训练对，包括：

3.根据权利要求2所述的语音处理方法，其特征在于，所述数据增强包括以下方式至少之一：相同类别增强、噪声增强、时移增强、音高变换增强。

4.根据权利要求1所述的语音处理方法，其特征在于，所述判别模型由多层卷积网络和全连接网络构成；

5.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述判别模型，用随机梯度下降的方式进行对抗模型学习，包括：

对所述生成模型按以下生成模型损失函数进行梯度训练：