CN108922518B

CN108922518B - 语音数据扩增方法和系统

Info

Publication number: CN108922518B
Application number: CN201810792672.9A
Authority: CN
Inventors: 钱彦旻; 盛佩瑶; 杨卓林; 谭天
Original assignee: Shanghai Jiaotong University Intellectual Property Management Co ltd; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2020-10-23
Anticipated expiration: 2038-07-18
Also published as: CN108922518A

Abstract

本发明公开语音数据扩增方法和系统，方法包括：将原始噪音音频数据及与原始噪音音频数据关联的条件合并为训练数据；将训练数据输入生成对抗网络的至少一个生成器中，并获取至少一个生成器的生成数据；将至少一个生成器的生成数据输入至判别器进行判别，并获取判别器的判别结果；基于判别结果对至少一个生成器进行训练优化；向训练优化后的生成器中输入训练数据以获得扩增语音数据。

Description

语音数据扩增方法和系统

技术领域

本发明属于语音数据扩增技术领域，尤其涉及语音数据扩增方法和系统。

背景技术

随着近年来基于深度学习的声学模型的进步，自动语音识别(Automatic SpeechRecognition，ASR)系统的性能得到显著改善。然而，这些系统在噪声环境(例如，具有加性噪声，信道失真和混响的场景)下仍然不是很好，因此在真实场景中噪声鲁棒性仍然是限制ASR广泛采用的关键问题。

为了解决声学建模中的鲁棒性问题，多式训练是一种广泛采用的策略。但是，训练测试不匹配在语音识别中仍然是一个常见问题。实际情况下的大量噪声类型使得无法收集足够的数据来覆盖所有噪声条件。为了解决这个问题，数据增加是增加训练数据量的有效方法，可以避免过度拟合并提高模型的鲁棒性。传统的数据增强方法直接将模拟噪声添加到原始语音波形中，通过这种方式，尽管他们已经在相关测试集上获得了显著的性能，但是这些限制不能被忽略：生成数据的数量取决于模拟噪声类型；人为地将相加或卷积噪声添加到波形可能导致另一个内部表示在特征级生成的和真实的数据之间不匹配。最近，一些作品采用先进的生成模型，如变分自动编码器(Variational Auto-Encoder，VAE)和生成对抗网络(Generative Adversarial Network，GAN)来生成数据，并显示出一些有前途的结果。

GAN在计算机视觉社区中引起了极大的兴趣。它可以使用双人零和游戏学习生成模型，该游戏可以从真实的数据分布中生成样本。最近，研究人员倾向于指导数据生成，条件生成对抗网络(Conditional Generative Adversarial Network，CGAN)被提出并成功应用于图像生成和样式转换任务。另外，一些作品着重于改进GAN模型训练，如WassersteinGAN(WGAN)，这使得GAN表现更好。至于言语相关的任务，GAN的应用仍然有限。有几个初步尝试，如语音合成，语音转换，语音增强，口语识别和声场景分类。在我们以前的工作中，我们使用基本的GAN进行数据增强，以首次改善噪声语音识别。然而，我们无法知道生成的数据的转录，因此需要一个无监督的声学模型训练框架。

发明内容

本发明实施例提供一种语音数据扩增方法、系统及电子设备，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音数据扩增方法，包括：将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据，其中，所述条件包括与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与所述原始噪音音频数据对应的干净语音数据；将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据，其中，所述生成对抗网络包括所述至少一个生成器和判别器，所述判别器用于判别输入数据为真实的还是所述至少一个生成器的生成数据；将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；基于所述判别结果对所述至少一个生成器进行训练优化；向训练优化后的生成器中输入训练数据以获得扩增语音数据。

第二方面，本发明实施例提供一种语音数据扩增系统，包括：合并单元，配置为将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据，其中，所述条件包括与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与所述原始噪音音频数据对应的干净语音数据；生成单元，配置为将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据，其中，所述生成对抗网络包括所述至少一个生成器和判别器，所述判别器用于判别输入数据为真实的还是所述至少一个生成器的生成数据；判别单元，配置为将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；优化单元，配置为基于所述判别结果对所述至少一个生成器进行训练优化；扩增单元，配置为向训练优化后的生成器中输入训练数据以获得扩增语音数据。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音数据扩增方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音数据扩增方法的步骤。

在本发明的方案中，开发了使用条件GAN的数据增强策略。本申请引入了两种不同的条件，包括每个语音帧的声学状态和每个语音帧的原始配对干净语音。这种新设计的方法能够直接生成带有真正标签的新数据，从而使后来的声学建模可以使用真正的标签。该框架在Aurora4和AMI-SDM上都得到了评估，并且在所有噪声条件下，其结果都比我们以前的基于GAN的更好。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音数据扩增方法的流程图；

图2为本发明一实施例提供的另一种语音数据扩增方法的流程图；

图3为本发明一实施例提供的又一种语音数据扩增方法的流程图；

图4为本发明一实施例提供的训练原理图；

图5为本发明一实施例提供的条件GAN的架构；

图6a、图6b、图6c、图7a、图7b和图7c为本发明一实施例提供的在不同数据集下的原始和生成语音之间的比较；

图8为本发明一实施例提供的一种语音数据扩增系统的框图；

图9为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面，先介绍本申请的实施方式，之后将用实验数据证实本申请的方案与现有技术相比有什么不同，能实现什么有益效果。

请参考图1，其示出了本发明的语音数据扩增方法一实施例的流程图，本实施例的语音数据扩增方法可以适用于输入一个训练数据之后扩增出多个高仿真的带噪语音数据。

如图1所示，在步骤101中，将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据；

在步骤102中，将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据；

在步骤103中，将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

在步骤104中，基于所述判别结果对所述至少一个生成器进行训练优化；

在步骤105中，向训练优化后的生成器中输入训练数据以获得扩增语音数据。

在本实施例中，对于步骤101，语音扩增装置首先将原始数据和与该原始数据关联的条件合并成训练数据，其中，该关联的条件包括与原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与原始噪音音频数据对应的干净语音数据，合并的时候例如将原始数据与条件逐帧对齐，然后再作为训练数据。对于步骤102，将该训练数据输入至少一个生成器中，并获取至少一个生成数据，除了训练数据，例如还可以加入一些随机信息，本申请在此方面没有限制。其中，生成对抗网络包括至少一个生成器和判别器，判别器用于判别输入数据为真实的还是至少一个生成器的生成数据，即判别器事先并不知道给它的数据是真实数据还是生成器的生成数据，如果判别器将生成数据判别成真是的，则说明该生成器成功地瞒过了判别器，生成了与真实数据相似度极高的数据。之后，对于步骤103，强生成数据输入判别器进行判别，并获取判别结果。之后，对于步骤104，可以根据判别结果对生成器进行训练优化，以获得表现好的生成器。最后，对于步骤105，向优化后的生成器中输入训练数据以获得扩增语音数据，通过改变每次训练数据中的条件，可以得到多个扩增语音数据。

本实施例的方法通过在训练数据中加入条件，并利用生成对抗网络中生成判别的方法来优化生成器的生成能力已得到表现好的生成器，用于生成扩增语音数据，可以极大地对训练数据进行扩充。

在一些可选的实施例中，在上述步骤102在将所述训练数据输入生成对抗网络的至少一个生成器中之前，上述方法还包括：对原始噪音音频数据进行特征提取，得到原始噪音音频数据中每一帧数据的特征向量；对每一帧数据的特征向量进行前后各扩展L帧，以将原始噪音音频数据中每一帧数据表示为2L+1帧的特征向量。

进一步参考图2、其示出了本发明一实施例提供的另一种语音数据扩增方法的流程图。其中，条件为与原噪音数据始音频数据的每一帧数据的声学模型状态对应的原始标注。

如图2所示，在步骤201中，将所述原始噪音音频数据及与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注合并为训练数据；

在步骤202中，将所述训练数据输入所述生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据；

在步骤203中，将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

在步骤204中，基于所述判别结果训练并优化所述至少一个生成器，并选出被判别为真实的比例最高的生成器；

在步骤205中，向所选出的生成器中输入包含不同条件的训练数据以扩增出不同的带标注的语音数据。

在本实施例中，对于步骤201，语音扩增装置将原始数据与其每一帧的声学模型状态对应的原始标注合并为训练数据，例如可以逐帧对齐后作为训练数据。对于步骤202，将该训练数据输入至少一个生成器中，并获取生成器的生成数据。之后，对于步骤203，将生成数据输入判别器进行判别，并获取判别结果。之后，对于步骤204，根据多次训练和优化的判别结果选出被判别为真实的次数最多的生成器，或者也可以是被判别为真实的比例最高的生成器。最后，对于步骤205，向该选出的生成器中输入包含不同条件的训练数据以扩增出多个带标注的扩增语音数据。

本实施例的方法，通过在训练数据中加入带标注的条件，可以扩增出不同的带标注的语音数据。在扩增出更多语音数据的同时，还能获得相应的声学模型状态标注，能更好地用于后续的训练中。

请参考图3，其示出了本发明一实施例提供的又一种语音数据扩增方法的流程图。其中，条件为与原始噪音音频数据对应的干净音频数据。

如图3所示，在步骤301中，将所述原始噪音音频数据及与所述原始噪音音频数据对应的干净音频数据合并为训练数据；

在步骤302中，将所述原始噪音音频数据和所述干净音频数据输入生成器中进行压缩和还原处理，以生成与所述原始噪音音频数据相同大小的生成数据；

在步骤303中，将所述生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

在步骤304中，若所述判别结果为生成数据，则基于所述判别结果对所述生成器进行惩罚以优化所述生成器；

在步骤305中，向优化后的生成器中输入训练数据以获得扩增语音数据。

在本实施例中，对于步骤301，语音数据扩增装置将原始噪音音频数据级与之对应的赶紧语音数据合并为训练数据。之后，对于步骤302，将原始噪音音频数据和干净音频数据输入到生成器中进行压缩再还原处理，以获得和原始噪音音频数据相同大小的生成数据。之后，对于步骤303，将该生成数据输入判别器进行判别，并获取判别器的判别结果，该判别结果包括是真实的还是生成器生成的。之后，对于步骤304，若判别结果为生成数据，则对生成器进行惩罚以优化该生成器的生成能力。若判别器将生成数据判别为真实数据，则对该生成器进行鼓励以优化该生成器的生成能力。最后，对于步骤305，向优化后的生成器中输入训练数据和不同的条件以将训练数据扩增成多个语音数据。

本实施例的方法通过将干净音频数据作为条件，与原始数据一起合并成训练数据，能够提高提供一种新的语音扩增途径，通过对生成器进行训练和优化，能够生成和原始数据相似的语音数据，从而可以实现扩增。

在一些可选的实施例中，若所述判别结果为生成数据，则基于所述判别结果对所述生成器进行鼓励或惩罚以优化所述生成器包括：若判别结果为生成数据，则计算生成数据与原始数据的L1损失；将L1损失加上判别器的损失作为对生成器的鼓励或惩罚以优化生成器。

在另一些可选的实施例中，干净音频数据为带声学模型状态标注的干净音频数据。从而可以使得最终扩增后的语音数据也带有标注。

需要说明的是，现有技术中一般采用一下两种方式进行扩增：

(1)基于背景噪音移植的语音数据扩增

基于背景噪音移植的语音数据扩增是语音数据进行扩增的一个比较常用而原始的一个方法。通过将其他环境的背景噪音与原始数据环境下采样的语音数据片段进行混合，得到更加丰富的语音数据样本。用人工添加多样性噪声的方法，获得的基于原始噪音音频数据的新数据，可以用来给之后的语音识别系统训练，从而提升语音识别系统的泛化能力和在各种环境下识别的鲁棒性。

(2)基于一般生成对抗网络的语音数据扩增

生成对抗网络是目前比较流行，实用性较强的一种模型。其由一个生成器和判别器组成。其中生成器负责学到原始数据的特征，生成和原始数据特征分布相似的多样化数据；判别器则用来判别生成器生成的数据是否足够逼真，并给出打分来指导生成器训练。通过用生成器得到的数据作为语音的扩增数据，可以得到噪音更加丰富多样的语音数据。

其中，上述两种方式至少存在以下缺陷：

(1)基于背景噪音移植的语音数据扩增

①需要在其他的环境下进行人为采集。

②能够生成的语音扩增数据的噪音种类数受到采集地点个数的限制，较为单一。

③混合的效果不一定仍然具有可识别性。

(2)基于一般生成对抗网络的语音数据扩增

①生成得到的数据缺少标注，无法用于需要标注进行的监督性学习

②生成的数据除了原始数据外没有其他的参考，得到的数据质量不算太高。

发明人在实现本发明的过程中发现，上述缺陷是由以下原因导致：

(1)基于背景噪音移植的语音数据扩增

对于不同背景噪音的人为采集本身就限制了这种方法的适用性。对于用来混合的收集的背景噪音，不仅增加了仪器与人工的采集耗费，也带来了噪音种类数的限制，从而对于模型提升的泛化能力有了一个约束。而混合的方法和合成的语音数据的有效性一定程度上也成为了这种方法的一个主要问题

(2)基于一般生成对抗网络的语音数据扩增

用一般生成对抗网络(GAN)来生成数据的一个问题在于，生成器只能用来学习原始数据的特征，并生成类似原始数据的多样性新数据。其并不能有对应标注的数据——判别器也仅仅只能判断生成的数据是否符合原始数据分布，而不能得到其标注。这样产生的数据无法用于有效的监督学习中。同样的，原始数据的标注也不会用于生成对抗网络的训练中，从而丢失了一部分原始数据的信息，从而对于数据质量产生了一定影响。

而本领域技术热源在面对上述缺陷时，通常会采用以下方法：

基于背景噪音移植的方法解决噪音单一的问题可以通过对于已有几种背景噪音的随机权值线性叠加组合来产生许多人为的合成噪声来提高丰富性，而解决合成噪音的有效性则可以对原音频和背景的比例调参或者自适应等方法来解决。

基于一般生成对抗网络的语音数据扩增的方法解决无标注的问题可以用给数据贴上软标记的方法来解决。具体的来说，用一个已经训练好的语音模型对生成的数据进行标注一个带有对于这一帧属于声学模型各个状态的概率的软标记。这样对于一般生成对抗网络的生成数据，有了一个相对较为可靠的软标记，新生成的数据便可以用这种软标记进行训练了。

之所以我的方案不容易想到，首先和之前的基于背景噪音移植不同，是基于目前最为流行的高质量生成器——生成对抗网络作为生成器。而对于原始的生成对抗网络来说，是因为基于条件的生成对抗网络需要基于比较好利用的条件进行训练——声学模型状态、噪音环境下数据特征。而发现并合理利用这些条件需要进一步的复杂网络框架结构。

反观本申请，通过将原始数据经过特征提取后的每一帧的特征向量作为训练数据，之后为了加强前后帧的关联，经过前后8帧的帧扩展后，将17乘特征向量维数(64)作为每一帧训练数据的表示。我们拟希望用生成对抗网络生成出和原数据的特征处于同一分布的特征数据用于之后训练，并关联上原数据对应的某些条件特征。

可以采用两种不同的条件用于生成对抗网络训练：

①基于帧对应声学模型状态：我们将每一帧原始数据训练所对应的当前声学模型状态的标注作为条件，与原始数据一起，一并作为训练数据，交给生成对抗网络去学习。生成器在获得生成的数据应该具有的声学模型状态标注后，生成对应的数据，与其被期望得到的状态标注一起交给判别器判断。此时判别器不仅判断生成器生成的数据是否和符合原数据数据分布，同时要检测是否与被期望得到的标注一致。这样训练得到的条件生成对抗网络，可以在给定要求生成对应的声学模型标注下进行对应数据的生成，从而生成的数据有了标注，可以用于监督学习。

②基于真实噪音环境的状态：我们以干净数据和对应的噪音数据的每一帧的配对作为训练数据。我们以干净音频数据作为生成器输入，以真实对应噪声数据作为条件。生成器作为一个先压缩再还原的神经网络结构，输出一个和原音频数据大小一样的音频片段。我们将其送至判别器判断是否和真实噪音数据相似，同时将生成的噪音数据和真实噪音数据的L1损失作为处罚，以提高生成的噪音数据的质量和真实性。这样生成的新噪音数据，对应输入的干净音频数据的声学模型状态，从而用于监督学习。同时能够通过生成器的dropout(随机丢弃)结构，学到新的噪声，从而提高音频中噪声的多样性。

请参考图4，其示出本发明一实施例的训练原理图。

首先，用64维的Fbank特征数据训练条件生成对抗网络。条件生成对抗网络包括一个生成器和一个鉴别器，生成器根据给定的条件信息和随机状态生成噪音数据，鉴别器用以区分输入的噪音数据是自然采集的还是生成器生成的。

然后，利用训练好的生成器生成噪音数据。生成器根据鉴别器的反馈提高生成能力，选取表现稳定的生成器输入不同条件就能生成出不同于数据集内分布的生成噪音数据，这些噪音数据的标注可以根据相应条件得到。

最后，利用生成的噪音数据训练语音识别模型。我们将生成的噪音数据与原始数据结合训练语音识别模型，计算分析词错率，提高语音识别模型的噪音鲁棒性。

接下来，以一个具体的示例来论述本发明的实现过程和效果。

GAN的基本思想是在两个玩家之间建立一个游戏，即一个生成器G和一个判别器D。该判别器对真实样本和假样本进行分类。该生成器从数据分布产生样本，该数据分布通常是低维随机噪声。产生的样本然后被传入判别器以确定它们与真实数据的相似性。生成器经过优化，可以在辨别器受到训练时将伪判别器与实际数据区分开来。更具体地说，生成器G和判别器D之间的博弈被表述为双球员极小极大游戏：

其中Pr和Pg分别是真实的和生成的数据分布。D(x)表示x来自真实数据的概率。z是作为G的输入的随机信息。

最近，研究人员提出用Wasserstein距离来衡量这两种分布之间的差异，而D和G则通过以下表达式进行训练：

其中L是WGAN引入的用于限制判别器的1-Lipschitz函数的集合。在温和的假设下，Wasserstein距离具有在几乎所有地方连续和可微的理想属性。因此，WGAN在许多情况下更稳定。

为了引导GAN生成，条件GAN通过集成附加的条件信息来引入。CGAN通过向生成器和判别器引入条件来扩展GAN。通过输入条件，CGAN可以生成所需类型的数据。公式2中的目标函数变为：

其中c是条件。

用于数据增强的CGAN

在我们以前的工作中，我们提出了一种基于GAN的数据增强策略来改善嘈杂场景下的ASR系统。由于生成器的噪声输入的随机性，所生成的样本的增强数据的标注是未知的。相反，在这项工作中，我们将条件信息引入GAN结构以使生成的数据更加具体，并且由该方法生成的数据也具有真实的标注。在这项工作中，使用了WGAN培训标准。

基于CGAN的框架也在帧级上实现。我们选择生成数据的基本单位是语音频谱上的一个特征映射。当给定一个K维的FBANK特征时，上下文扩展在每一边应用N个帧，因此我们可以在时频域得到一个(2N+1)×K维的特征映射，最终用作判别器的实际数据输入。在我们的实验中，我们设置K＝64和N＝8来形成17×64特征图。生成器的输出也是具有相同尺寸的特征图，将用于声学建模。所提出的基于CGAN的数据增强的架构如图5所示，并且在这项工作中引入了两种不同的条件。

CGAN以声学状态为条件

第一个条件是每个输入帧的声学状态，即声学建模中每个帧的句音标记。如图1所示，条件信息应用于生成器和判别器。在生成器中，状态信息首先用单热矢量来准备，然后它与输入噪声矢量组合以馈入生成器。对于判别器来说，这个单热矢量的每个维度需要首先放大到与特征映射(填充0或1)相同的大小，然后与真实的带噪语音特征映射进行叠加，并将其送入判别器。注意到这里使用的真实噪声语音特征属于相应的声学状态条件，并且可以通过预先训练数据对齐获得状态信息。这种基于声学状态的CGAN学习模拟状态相关的实际数据尽可能相似。模型训练之后，生成器用于通过改变状态条件来生成新的数据，并且该状态条件可以用作生成的语音的标注。

CGAN以干净的演讲为条件

第二个条件是训练数据中配对的清晰语音特征。需要说明的是，我们不是将高斯噪声作为G的输入，而是以随机丢弃结构(dropout)设置噪声。在CGAN模型训练中，首先准备平行配对数据，例如原始干净对比手动添加的有噪语音或近距离通话与远场重新记录的语音。生成器将干净的语音特征图作为输入并生成相应的噪声。然后将生成的有噪声的语音和真实的有噪声的语音与原始的干净的语音一起堆叠起来，并送入判别器。判别器学习它是真实还是假言语对。某对中的两个特征映射共享相同的基础语音模式。在这些模式之上，针对训练集中的不同对呈现各种噪声类型，对应于不同的噪声条件。此外，我们将L1项添加到发电机的损耗，以鼓励对输入模式的尊重。生成器可以从一些嘈杂的语音中学习不同的噪声类型，并将它们转换为其他干净的语音。通过这种方式，我们能够获得无法在现实世界中收集到的新类型的嘈杂语音。模型训练结束后，我们可以使用大量现有的带标注的干净的语音作为条件，生成的干扰语音与原始配对干净的语音具有相同的标注。

使用增强数据进行声学建模

在我们以前的工作中，每个特征帧都是由基本GAN的随机噪声向量生成的，因此很难获得生成特征的真实标注。因此，利用无监督学习策略，首先从这些新数据的原始声学模型生成软标注。与这里提出的CGAN相比，我们可以直接获得生成数据的真实标注。因此，我们修改了前面的标准，并添加了真正的标注(也可以认为是硬标注)在使用增强数据时。基于我们的实验，结合软标注和硬标注比仅使用先前无监督框架中的软标注更好。使用声学模型输出分布和相关标注之间的Kullback-Leibler(KL)分歧作为训练标准。在我们的实验中，最小化KL散度等同于最大化以下表达式：

p_gen＝λp_A(s|o_t)+(1-λ)p_ref (5)

其中o_t是输入特征，s是声学状态。D_orig和D_gen分别是原始数据集和生成的数据集。p_orig是原始带标注的数据的对齐方式，即硬标注。声学模型A和B分别通过原始数据和增强数据进行训练。模型A和B的后验分布表示为p_A(s|o_t)和p_B(s|o_t)。p_gen是生成数据的相关标注，其中p_ref是CGAN的硬标注，p_A(s|o_t)是原始声学模型A生成的软标注。

实验

本申请提出的方法在Aurora4和AMISDM上进行评估，它们具有各种噪声类型，如加性噪声，信道失真和混响：1)Aurora4是基于华尔街日报(WSJ0)语料库，其具有多种附加噪声条件以及通道失配。它包含16kHz的语音数据，存在加性噪声和信道失真，综合引入WSJ0的清晰语音。来自83个扬声器的具有7138个话语的多条件训练集包括干净的语音和以10-20dB SNR的六种不同噪声之一破坏的语音的组合。一半数据来自Sennheiser主麦克风，另一半来自辅助麦克风。对于训练数据，使用相同类型的噪音和麦克风生成测试数据。测试数据可以分为4个子集：干净，嘈杂，干净，信道失真和信道失真噪声，分别称为A，B，C和D.2)AMI包含在欧洲三个地点(爱丁堡，IDIAP，TNO)专门配备仪表会议室记录的约100小时的会议。声音信号由多个麦克风捕捉并同步，包括单独的头戴麦克风(IHM，近距离通话)，领管式麦克风和一个或多个麦克风阵列。对于这项工作中的远距离语音识别，评估使用单个远端麦克风(SDM)的情况。我们的实验采用了建议的AMI语料库分区，其中包含训练集约80小时，分别在开发和评估集8小时。

基于高斯混合模型的隐马尔可夫模型(GMM-HMM)首先使用标准配方与Kaldi一起构建。在GMM-HMM训练之后，执行强制对齐以获得状态级别标注。所有基于神经网络的声学模型都是使用CNTK构建的。他们使用交叉熵(CE)标准和基于随机梯度下降(SGD)的反向传播(BP)算法进行训练。Kaldi食谱中的标准测试流程用于解码和评分。非常深的卷积神经网络(VDCNN)被用作所有实验的声学模型，它由十个卷积层和四个完全连接的层组成。

所有用于数据增强的GAN/CGAN模型都可以用PyTorch实现。最小批量大小设置为64，批量归一化用于卷积或转置卷积层之后。在训练过程中，对于每个小批量数据，判别器D被更新5次，然后在生成器G上进行一次更新，并且对于模型优化，最大训练时期被设置为20。对于这两个任务，生成的数据大小与原始语料库相同，即对于Aurora4大约15小时，对于AMI-SDM大约80小时。

Aurora4评估

Aurora4上的实验如表1所示，第一行是基于VDCNN的多条件训练基线。注意到这个性能比我们以前的一个数字稍微差一点(9.02比8.81)，因为这里使用了不同的CNTK版本。

对于使用GAN/CGAN的数据增强，将生成的数据与原始Aurora4数据汇集在一起以构建声学模型。我们还列出了手动添加波形噪声的方法，以及我们以前未经调整的基于GAN的数据生成(也扩充了15h数据)。我们之前提出的使用基本GAN模型的数据增强仍然可以改善强噪声模型VDCNN对于噪声语音识别的系统性能，并且它也比手动模式更好。手动模式似乎更容易在不同条件下获得偏差性能。

表1：声学模型与Aurora4上不同训练数据的WER(％)比较。

其中，原始意味着仅使用原始的Aurora4多状态训练数据，手动意味着手动直接将噪声添加到原始语音波形中，GAN意味着我们先前提出的基于GAN的数据增强方法，CGAN-state和CGAN-clean清除分别意味着本申请提出的基于CGAN的数据增强声学状态或干净的语音作为条件。

本申请提出的使用CGAN的方法的结果被表示为表1的最后几行。可以看出，使用声学状态和成对清晰语音作为条件的两个CGAN模型显然都优于基本GAN，并且存在与仅使用原始噪声训练数据的系统相比，相对减少约8.0％的WER。另外，这两个CGAN产生的数据似乎是互补的。结合两种策略的增强数据可以使得训练数据具有更多的多样性，并且实现另一个额外的改进(相对于仅使用原始噪声训练数据的系统优于约10％)。

AMI-SDM评估

本申请提出的基于CGAN的数据增强策略也在AMI-SDM上进行评估，其中混响是主要挑战。由于提交之前的时间有限，我们只能用干净的语音条件进行CGAN，并且不能在声学状态条件下完成实验。我们选择约10％的原始AMI训练数据来训练CGAN。来自IHM和SDM条件的语音对由CGAN训练形成，IHM数据(近距离对话)被认为是干净的语音条件。为了更好地比较，我们还实现了我们以前使用基本GAN处理混响场景的方法。

表2说明了基线和使用增强数据的系统，VDCNN用作声学模型。可以看出，使用来自GAN模型的增强数据也可以显着改善混响场景下的语音识别系统，并且新提出的CGAN明显优于基本GAN。与使用最初的AMI-SDM训练数据的基线相比，使用基于CGAN的数据增强的最终系统在两个测试组上获得相对～6％的WER降低。

表2：声学建模与AMI-SDM不同训练数据的WER(％)比较。

原始意味着仅使用原始AMI-SDM训练数据，GAN意味着我们先前提出的基于GAN的数据增强方法，而CGAN-clean意味着本申请提出的基于CGAN的数据增强，配对干净语音作为条件。

对生成的数据进行可视化和分析

在使用CGAN的Aurora4和AMI-SDM上产生一些具有干净的语音条件的示例，并且原始和生成语音之间的比较分别如图6a、图6b、图6c、图7a、图7b和图7c所示。

其中，图6a、图6b、图6c示出了来自Aurora4的话语示例的光谱插图，包括原始清晰语音，原始配对噪声语音和由CGAN以清晰语音条件产生的新生噪声语音。垂直轴是FBANK通道索引，横轴是时间。

其中，图6a示出了在Aurora4原始纯净语音，图6b示出了在Aurora4原始配对嘈杂的讲话，图6c示出了在Aurora4上新发出嘈杂的讲话

图7a、图7b和图7c示出了来自AMI的话语示例的频谱插图，包括原始密谈话语，原始配对的远场语音以及具有干净的语音条件的CGAN新产生的嘈杂语音。

其中图7a示出了在AMI-IHM原始近距离讲话，图7b示出了AMI-SDM的原始配对远场演讲，图7c示出了AMI-SDM新产生的嘈杂演讲。

由以上各图，我们可以观察到：1)与内容有关的大部分语音模式都保留在生成的语音中。2)生成的数据的频谱看起来像是原始噪声数据中的一个被破坏的数据，所以关于作为噪声的语音的增强数据是合理的。3)生成的语音和原始的噪声语音之间仍然存在很多差异。这表明使用所提出的CGAN可以获得具有更多不同噪声的有噪语音，并且一些噪声类型在原始训练数据中是不可见的。基于CGAN的增强数据的所有这些性质可以改善用于噪声语音识别的系统鲁棒性。

在本申请中，我们扩展了我们以前使用基本GAN的工作，并开发了用于数据增强的条件GAN，以进一步改善噪声语音识别。引入了两种不同的条件，包括每个帧的声学状态和原始配对干净语音。这些新的CGAN指导具有特定条件的数据生成，并直接为扩充数据提供真正的标注。对Aurora4和AMI-SDM的实验表明，在所有噪声条件下，这种基于CGAN的方法比以前的基于GAN的方法更好，并且系统可以显着改善，相对WER减少6％至10％。

请参考图8，其示出了本发明一实施例提供的一种语音数据扩增系统800，包括合并单元810、生成单元820、判别单元830、优化单元840和扩增单元850。

其中，合并单元810，配置为将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据，其中，所述条件包括与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与所述原始噪音音频数据对应的干净语音数据；

生成单元820，配置为将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据，其中，所述生成对抗网络包括所述至少一个生成器和判别器，所述判别器用于判别输入数据为真实的还是所述至少一个生成器的生成数据；

判别单元830，配置为将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

优化单元840，配置为基于所述判别结果对所述至少一个生成器进行训练优化；

扩增单元850，配置为向训练优化后的生成器中输入训练数据以获得扩增语音数据。

应当理解，图8中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如优化单元可以描述为基于所述判别结果对所述至少一个生成器进行训练优化的单元。另外，还可以通过硬件处理器来实现相关功能模块，例如优化单元也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音数据扩增方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据，其中，所述条件包括与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与所述原始噪音音频数据对应的干净语音数据；

将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据，其中，所述生成对抗网络包括所述至少一个生成器和判别器，所述判别器用于判别输入数据为真实的还是所述至少一个生成器的生成数据；

将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

基于所述判别结果对所述至少一个生成器进行训练优化；

向训练优化后的生成器中输入训练数据以获得扩增语音数据。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的语音数据扩增方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语音数据扩增方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音数据扩增装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音数据扩增装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音数据扩增方法。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该设备包括：一个或多个处理器910以及存储器920，图9中以一个处理器910为例。语音数据扩增方法的设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音数据扩增方法。输入装置930可接收输入的数字或字符信息，以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于神经网络语言模型中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

基于所述判别结果对所述至少一个生成器进行训练优化；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音数据扩增方法，包括：

对所述原始噪音音频数据进行特征提取，得到所述原始噪音音频数据中每一帧数据的特征向量；对每一帧数据的特征向量进行前后各扩展L帧，以将所述原始噪音音频数据中每一帧数据表示为2L+1帧的特征向量；

基于所述判别结果对所述至少一个生成器进行训练优化；

向训练优化后的生成器中输入训练数据以获得扩增语音数据；

将所述原始噪音音频数据及与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注合并为训练数据；

将所述训练数据输入所述生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据；

基于所述判别结果训练并优化所述至少一个生成器，并选出被判别为真实的比例最高的生成器；

向所选出的生成器中输入包含不同条件的训练数据以扩增出不同的带标注的语音数据。

2.根据权利要求1所述的方法，其中，所述条件为与所述原始噪音音频数据对应的干净音频数据，所述方法包括：

将所述原始噪音音频数据及与所述原始噪音音频数据对应的干净音频数据合并为训练数据；

将所述原始噪音音频数据和所述干净音频数据输入生成器中进行压缩和还原处理，以生成与所述原始噪音音频数据相同大小的生成数据；

将所述生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

若所述判别结果为生成数据，则基于所述判别结果对所述生成器进行鼓励或惩罚以优化所述生成器；

向优化后的生成器中输入训练数据以获得扩增语音数据。

3.根据权利要求2所述的方法，其中，所述若所述判别结果为生成数据，则基于所述判别结果对所述生成器进行鼓励或惩罚以优化所述生成器包括：

若所述判别结果为生成数据，计算所述生成数据与所述原始噪音音频数据的L1损失；

将所述L1损失加上所述判别器的损失作为对所述生成器的鼓励或惩罚以优化所述生成器。

4.根据权利要求2所述的方法，其中，所述干净音频数据为带声学模型状态标注的干净音频数据。

5.一种语音数据扩增系统，包括：

合并单元，配置为将原始噪音音频数据及与所述原始噪音音频数据关联的条件合并为训练数据，其中，所述条件包括与所述原始噪音音频数据的每一帧数据的声学模型状态对应的原始标注和/或与所述原始噪音音频数据对应的干净语音数据；对所述原始噪音音频数据进行特征提取，得到所述原始噪音音频数据中每一帧数据的特征向量；对每一帧数据的特征向量进行前后各扩展L帧，以将所述原始噪音音频数据中每一帧数据表示为2L+1帧的特征向量；

生成单元，配置为将所述训练数据输入生成对抗网络的至少一个生成器中，并获取所述至少一个生成器的生成数据，其中，所述生成对抗网络包括所述至少一个生成器和判别器，所述判别器用于判别输入数据为真实的还是所述至少一个生成器的生成数据；

判别单元，配置为将所述至少一个生成器的生成数据输入至所述判别器进行判别，并获取所述判别器的判别结果；

优化单元，配置为基于所述判别结果对所述至少一个生成器进行训练优化；

扩增单元，配置为向训练优化后的生成器中输入训练数据以获得扩增语音数据；

6.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至4任一项所述方法的步骤。

7.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。