CN109741736B

CN109741736B - 使用生成对抗网络进行鲁棒语音识别的系统和方法

Info

Publication number: CN109741736B
Application number: CN201811266457.1A
Authority: CN
Inventors: 安鲁普·西瑞兰姆; 俊熙雄; 雅舍施·高尔; 桑吉夫·萨西斯
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-10-27
Filing date: 2018-10-29
Publication date: 2022-11-25
Anticipated expiration: 2038-10-29
Also published as: US20190130903A1; EP3477633A1; US10971142B2; CN109741736A

Abstract

本文描述的是用于一般的、可扩展的端到端框架的系统和方法，该框架使用生成对抗网络(GAN)目标来实现鲁棒语音识别。通过学习将有噪声的音频映射到与干净音频相同的嵌入空间，使用所提出的方法训练的编码器享有改进的不变性。Wasserstein GAN框架的实施方式以可扩展端到端的方式来增强seq‑to‑seq模型的鲁棒性。在一个或多个实施方式中，编码器部件被用作GAN的产生器，且经训练以在标签和无标签音频样本之间产生难以区分的嵌入。此新的鲁棒训练方法可以在没有对齐或复杂的推理管道且甚至在无法扩充音频数据的情况下学习引发鲁棒性。

Description

使用生成对抗网络进行鲁棒语音识别的系统和方法

背景技术

自动语音识别(ASR)在人们的日常生活中变得越来越不可或缺，其使虚拟助手和智能扬声器能够实现，如Siri、Google Now、Cortana、Amazon Echo、Google Home、AppleHomePod、Microsoft Invoke、Baidu Duer以及还有很多。尽管最近ASR性能有了很大改进，但这些模型仍然由于人类很少或根本没有问题识别的混响、环境噪声、重音和伦巴第(Lombard)反应的合理变化的而遭受严重劣化。

通过在大量数据上训练模型可以减轻大多数这些问题，这些数据可以例示这些效应。然而，在非静态过程(诸如重音)的情况下，准确的数据增加很可能是不可行的，并且通常，收集高质量数据集可能是昂贵且耗时的。已经考虑手工设计的前端和数据驱动的方法以试图增加具有期望效应的相对简约数据的价值。虽然这些技术在它们各自的操作方式中非常有效，但由于上述原因，它们在实践中不能很好地推广至其他形式。也就是说，难以从第一原理模拟除混响和背景噪声之外的任何东西。现有的技术不直接引发ASR的不变性或不可扩展。并且，由于语音的有序性，需要对齐来比较同一文本的两个不同的话语。

因此，所需要的是能够克服这些缺陷的系统和方法。

发明内容

根据本申请的一方面，提供了一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法，所述方法包括：

在所述序列到序列模型的编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；

在所述编码器处接收一批无标签音频数据；

通过所述编码器产生对应于所述标签音频数据的第一批嵌入；

通过使用所述编码器作为所述生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入；

通过所述序列到序列模型的解码器产生来自所述第一批嵌入的预测转录序列；

基于所述预测转录序列和所述ground-truth转录序列来确定交叉熵损失；

基于所述第一批嵌入和所述第二批嵌入在鉴别器处确定鉴别器损失；以及

使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型，以更新序列到序列模型权重和鉴别器权重，用于增强自动语音识别中所述序列到序列模型的鲁棒性。

根据本申请的另一方面，提供了一种使用生成对抗网络来增强鲁棒语音识别的系统，所述系统包括：

序列到序列模型，其包括用于语音识别的编码器和解码器，所述编码器被用作所述生成对抗网络的产生器；

鉴别器，其耦合到所述编码器以形成所述生成对抗网络；

一个或多个处理器，其被配置成在训练过程中训练所述序列到序列模型和鉴别器，所述训练过程包括：

在所述编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；

在所述编码器处接收一批无标签音频数据；

通过所述编码器产生分别对应于所述标签音频数据和所述无标签音频数据的第一批嵌入和第二批嵌入；

通过所述解码器产生来自所述第一批嵌入的预测转录序列；

基于所述第一批嵌入和所述第二批嵌入在所述鉴别器处确定鉴别器损失；以及

使用所述交叉熵损失和所述鉴别器损失两者来端到端训练所述序列到序列模型，以更新序列到序列模型权重和鉴别器权重，用于增强语音识别中所述序列到序列模型的鲁棒性。

根据本申请的又一方面，提供了一种包括一个或多个指令序列的一个或多个非暂时性计算机可读介质，所述指令序列在被一个或多个微处理器执行时致使执行步骤，所述步骤包括：

在序列到序列模型的编码器处接收一批标签音频数据，所述标签音频数据与相应的ground-truth转录序列相关联；

在所述编码器处接收一批无标签音频数据；

通过使用所述编码器作为生成对抗网络的产生器来产生对应于所述无标签音频数据的第二批嵌入；

基于所述第一批嵌入和所述第二批嵌入在所述生成对抗网络的鉴别器处确定鉴别器损失；以及

附图说明

将参考本发明的实施方式，它们的示例可示于附图中。这些附图旨在是说明性的而非限制性的。虽然本发明大体上在这些实施方式的上下文中描述，但应理解，本发明的范围并不旨在限于这些特定实施方式。附图中的项目未按比例绘制。

图1描绘了根据本公开的实施方式的具有编码器距离增强器的序列到序列模型的架构。

图2描绘了根据本公开的实施方式的具有Wasserstein生成对抗网络(WGAN)增强器的序列到序列(seq-to-seq)模型的架构。

图3描绘了根据本公开的实施方式的使用WGAN框架用于语音识别的端到端训练seq-to-seq模型的过程。

图4描绘了根据本公开的实施方式的在训练过程期间更新seq-to-seq模型参数的过程。

图5描绘了根据本公开的实施方式的WGAN框架的网络架构。

图6描绘了根据本公开的实施方式的计算装置/信息处置系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以便提供对本发明的理解。然而，将对本领域的技术人员显而易见的是，可在没有这些细节的情况下实践本发明。此外，本领域的技术人员将认识到，下文描述的本发明的实施方式可以以各种方式(例如过程、装置、系统、设备或方法)在有形的计算机可读介质上实施。

附图中示出的组件或模块是本发明实施方式的示例性说明，并且意图避免使本发明不清楚。还应理解，在本论述的全文中，组件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起(包括整合在单个的系统或组件内)。应注意，本文论述的功能或操作可实施为组件。组件可以以软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接并不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、重格式化、或以其它方式改变。另外，可使用另外或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、和无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是实例，而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文献中提到的每个参考文献以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

应注意，本文提供的实验和结果是以说明的方式提供的，且是在特定条件下使用一个或多个特定实施方式执行的；因此，这些实验和他们的结果都不应用以限制本专利文件的公开内容的范围。

A.总体介绍

本文提出了采用生成对抗网络(GAN)框架的实施方式来以可扩展端到端的方式增强seq-to-seq模型的鲁棒性的系统和方法。编码器部件被用作GAN的产生器，且被训练以在有噪声和干净的音频样本之间生成难以区分的嵌入。由于没有做出任何限制性假设，所以这种新的鲁棒训练方法可以学习在没有对齐或复杂的推理pipeline(管道)且甚至在无法进行扩充(augmentation)的情况下引发鲁棒性。还对编码器距离目标进行了实验，以明确地限制嵌入空间，并证明在隐藏表示级别实现不变性是鲁棒ASR的有前景的方向。

本专利文件组织如下。一些相关工作呈现在部分B中。部分C定义了鲁棒ASR GAN的符号和细节实施方式。部分D解释了实验设置。部分E示出了具有模拟远场效应的华尔街日报(WSJ)数据集的结果。在部分G中得到一些结论。

B.相关工作

鲁棒ASR在信号处理中具有相当深厚的根基，但这些传统方法通常具有强大的先验，使得难以并入新的效应。另一方面，诸如去噪自动编码器(DAE)之类的方法可以学习在没有领域知识的情况下从相应的有噪声版本恢复原始音频。此类方法已被展示以改进所生成的语音的感知质量，并在一定程度上改进最终的ASR性能。尽管DAE的ASR性能的增加在给定其计算量时相当有限，但其数据驱动性质非常吸引人。

自动编码器的一个问题是它试图重建原始音频的所有方面，包括对最终任务不重要的许多特征，诸如扬声器的语音和重音、背景噪声等。实际上，ASR系统学习消除输入音频的此类假影，因为它们可能阻碍语音识别性能。

通过训练具有辅助目标的模型可以缓解此问题，所述辅助目标测量对瓶颈层的变化的敏感性。直观地，ASR是期望的模型，用于从数据自动地学习适于最终任务的鲁棒表示。一种此类试探是干净语音和有噪声语音之间的嵌入距离，但是将其最小化需要成对的训练音频和对齐。可变速度可能使对齐更加棘手；可能需要昂贵的方法，如动态时间扭曲。

域对抗神经网络(DANN)通过最小化域发散来解决这个问题。这涉及引入在源域和目标域之间进行分类的次要任务，并训练特征提取器以生成分类器难以区分的嵌入。因为目标可以从域标签和输入的标量汇总来计算，所以此类方法可以利用未对齐、非成对和无监督的数据。已在改进ASR对环境噪声的鲁棒性方面展现了此技术。

类似地，生成对抗网络(GAN)可以用以实现鲁棒ASR。在GAN中，产生器合成越来越逼真的数据，试图欺骗竞争的鉴别器。编码语音可以作为生成过程，且可以通过混淆域鉴定器来实现不变性。多任务对抗学习无疑以数据驱动的方式增强ASR鲁棒性，但现有工作适用于更传统的混合语音识别管道。它们不能利用最近的端到端框架，如具有注意力的序列到序列模型。

一般来说，对抗方法很难训练。已经注意到Jensen-Shannon散度的强拓扑结构使得梯度不总是有用的。相反，Wasserstein距离，也被称为陆地移动距离(Earth-Moverdistance)，被提出用于减轻不稳定的训练。此方法可以使GAN训练对于架构选择更加鲁棒。

C.鲁棒ASR实施方式

1.编码器距离增强器实施方式

如部分B中所解释，通过多任务学习引发对噪声的不变表示自然地改进了ASR鲁棒性。最终任务目标确保仅学习识别的相关特征，而敏感性测量则鼓励扰动的表示与干净样本的表示相似。公开了一种测量干净和有噪声编码器嵌入之间的距离的直接试探。基于此想法，本文提出了用于鲁棒语音识别的新框架实施方式，其尝试对于干净音频和有噪声音频匹配编码器的输出。

图1描绘了根据本公开的实施方式的具有本文引入的编码器距离增强器的序列到序列ASR模型的架构。将编码器g(115)应用于标有ground-truth(标注的真实数据)标签或转录y(165)的音频输入x(105)以生成第一隐藏状态(125)z＝g(x)。将同一编码器115应用于无标签音频

(110)以生成第二隐藏状态(130)

在一个或多个实施方式中，无标签音频110对应于标签音频输入105。解码器h(150)使用第一隐藏状态z(125)对条件概率p(y│x)＝p(y│z)＝h(z)进行建模，并每次一个字符的输出预测文本序列160。预测文本序列160和ground-truth标签或转录165用以产生交叉熵(CE)损失170，其用于训练ASR模型。鉴别器140接收第一隐藏状态125和第二隐藏状态130以基于第一隐藏状态125和第二隐藏状态130来产生鉴别器损失。

在一个或多个实施方式中，鉴别器损失是L¹距离或WGAN损失。在一个或多个实施方式中，使用鉴别器损失和交叉熵(CE)损失两者对整个模型进行端到端训练。在一个或多个实施方式中，使用多任务目标对整个系统进行端到端训练，所述目标试图最小化从x预测y的交叉熵损失和鉴别器损失。如果使用z与

之间的归一化L¹距离，那么鉴别器损失可以表述为：

其中∈是添加的随机高斯噪声，λ是用以确定方程式(1)中的L¹距离的权重的参数。在一个或多个实施方式中，∈是小常数，例如1×10^-6，在分母中添加以防止出现除零。当使用归一化L¹距离时，将方程式(1)中的项添加到用于模型训练的交叉熵(CE)损失。可以使用任何标签数据集来计算交叉熵(CE)损失。

在一个或多个实施方式中，标有ground-truth转录的音频输入105是干净的音频输入，而无标签音频输入110可能与音频输入105相关且用各种噪声扩充，或者利用从音频输入105或ground-truth转录模拟的近场或远场音频示例来制作。无标签音频输入110还可以从不同的模态中提取。在一个或多个实施方式中，无标签音频输入110是干净音频，而标签音频输入105从干净的音频增强或从不同的模态中提取。

在一个或多个实施方式中，房间脉冲响应(RIR)卷积可以用于模拟远场音频。还可能用在不同条件下记录的相同语音训练此模型。

2.GAN增强器实施方式

在实验中，发现编码器距离惩罚产生了极好的结果，但它的缺点是干净音频和有噪声音频之间的编码器内容必须帧与帧匹配。相反，通过采用GAN框架，鉴别器可以输出整个语音干净的标量似然，且可以训练编码器以产生鉴别器难以区分的嵌入。

在一个或多个实施方式中，使用Wasserstein GAN(WGAN)。图2描绘了根据本公开的实施方式的具有WGAN增强器的序列到序列模型的架构。图2中的整体架构类似于图1中描绘的架构，不同之处在于使用陆地移动(EM)距离来替代方程式(1)中示出的L¹距离。如图2中所示，采用鉴定器f(210)来分别输出第一隐藏状态z(125)的第一标量分数s(220)和第二隐藏状态

(130)的第二标量分数

(230)。接着使用第一标量分数s(220)和第二标量分数

(230)来确定EM距离240。

遵循WGAN的符号，seq-to-seq模型和图2中所示的鉴定器分别用θ(对于编码器和解码器)和w(对于鉴定器)进行参数化。方程式(1)中的编码器距离被替换为对偶的陆地移动(EM)距离、概率测量之间的距离：

其中

是一组裁剪权重以确保对偶性保持恒定倍数。在一个或多个实施方式中，干净输入x的嵌入被视为真实数据，且

的嵌入(可以从x扩充或从不同模态中提取)被视为假的。因此，随着GAN训练的进行，编码器g_θ应学习将无关信息移除到ASR以便能够欺骗鉴别器。在一个或多个实施方式中，随机高斯噪声ε包括在编码器(被用作GAN的产生器)之前的输入中，以帮助改进训练。而且，参数集

中的权重应被裁剪以确保方程式(2)的对偶性保持恒定倍数。在一个或多个实施方式中，在方法1中详述适用的WGAN训练程序。

方法1：WGAN增强器训练。在实验中使用Adam优化器训练seq-to-seq模型。在一个或多个实施方式中，如果

可以从x产生，那么数据扩充也可以用于更新方法1中的行6和15中的seq-to-seq模型，以进一步改进结果。

数据：n_critic，每个鲁棒ASR更新的鉴定器数目。c，裁剪参数。m、m′，，批大小。

图3描绘了根据本公开的实施方式的使用WGAN框架来端到端训练seq-to-seq模型以增强语音识别中的模型的鲁棒性的过程。在步骤305中，对一批标签音频数据和一批无标签音频数据进行取样。无标签音频数据可以与标签音频数据相关，例如用各种噪声扩充，或者用从标签音频或标签音频的ground-truth转录模拟的近场或远场音频示例来制造。无标签音频还可以来自不同的分布。在一个或多个实施方式中，无标签音频数据可以并入一批随机高斯噪声，这被发现有助于在实践中改进训练。在步骤310中，seq-to-seq模型的同一编码器产生分别对应于标签音频数据和无标签音频数据的第一批嵌入和第二批嵌入两者。在步骤315中，使用第一批嵌入以通过seq-to-seq模型的解码器来产生预测转录序列。在步骤320中，使用预测转录序列和标签音频数据的标签来确定交叉进入(CE)损失。在步骤325中，鉴别器产生分别用于第一批嵌入中的每一者和第二批嵌入中的每一者的第一标量分数和第二标量分数。在一个或多个实施方式中，鉴别器是鉴定器，尤其是指WGAN的鉴别器。在步骤330中，在第一标量分数与第二标量分数之间确定陆地移动(EM)距离。鉴定器被配置成最大化EM距离，而编码器被配置成最小化EM距离以“欺骗”鉴定器。在步骤335中，使用CE损失和EM距离两者来训练seq-to-seq模型和鉴别器以更新seq-to-seq模型和鉴别器的权重。在一个或多个实施方式中，CE损失和EM距离用于与权重参数(λ)所确定的EM距离的权重的权重组合中。在一个或多个实施方式中，通过在诸如[0.01,10]的范围内进行对数扫描来将权重参数(λ)转化为dev集。在一个或多个实施方式中，λ＝1产生最佳性能。

可以利用各种实现方式以使用CE损失和EM距离两者来更新seq-to-seq模型和鉴别器的权重。图4描绘了根据本公开的实施方式的在获得CE损失和EM距离之后在训练过程期间更新seq-to-seq模型参数的过程。图4中的过程可以经由上述方法1来实现。在步骤405中，获得相对于seq-to-seq模型权重的CE损失平均值的梯度，如方法1的行6中所示。在步骤410中，使用CE损失平均值的梯度来更新seq-to-seq模型权重，如方法1的行7中所示。可以使用各种方法用于此更新步骤。在一个或多个实施方式中，Adam(自适应力矩估计)优化可以用于更新seq-to-seq模型权重。在步骤415中，获得相对于鉴别器权重(例如鉴定器权重)的EM距离平均值的梯度，如方法1的行8中所示。在步骤420中，使用EM距离平均值的梯度来更新seq-to-seq模型权重，如方法1的行9中所示。可以使用各种方法用于此更新步骤。在一个或多个实施方式中，可以使用RMSProp(用于均方根传播)优化来更新鉴定器权重，其中学习速率适于每一个鉴定器权重。在步骤425中，更新的鉴定器权重被钳位到由预定裁剪参数c限定的小窗口，如方法1的行10中所示。在一个或多个实施方式中，在步骤430中重复上述步骤，直到达到预定次数的鉴定器迭代以设置鉴定器权重。在步骤435中，确定由第二批标签音频数据和第二批无标签音频数据产生的平均CE损失和平均EM距离的组合相对于seq-to-seq模型权重的梯度，如方法1的行15中所示。在一个或多个实施方式中，第二批标签音频数据与第一批标签音频数据相同，而第二批无标签音频数据可以或可以不与第一批无标签音频数据相同。EM距离通过设置的鉴定器权重来产生。在一个或多个实施方式中，CE损失和EM距离的组合是与由权重参数(λ)确定的EM距离的权重的权重组合。在步骤440中，使用相对于seq-to-seq模型权重的平均CE损失和平均EM距离的组合的确定梯度来更新seq-to-seq模型权重，如方法1的行16中所示。也在图4中示出的上述全部步骤构成训练鲁棒seq-to-seq模型的一个迭代。在一个或多个实施方式中，此大型“迭代”可以重复几万次到几十万次。

D.实验设置的实施方式

1.语料库和任务

在具有模拟远场效应的华尔街日报(WSJ)语料库上评估增强器框架的一个或多个实施方式。dev93集和eval92集分别用于超参数选择和评估。混响语音是通过房间脉冲响应(RIR)扩充产生的，其中每一音频与随机选择的RIR信号进行卷积。干净和远场音频持续时间与有效卷积保持相同，以便可以应用编码器距离增强器。使用8个麦克风的线性阵列收集1088个脉冲响应，其中120个和192个被留存用于开发和评估。扬声器采用多种配置来放置，相对于阵列距离为1至3米且倾斜度为60至120度，用于20个不同的房间。使用具有10毫秒步幅和40个频段的20毫秒样本的梅尔(Mel)光谱图作为所有基线和增强器模型实施方式的输入特征。

2.网络架构实施方式

图5描绘了根据本公开的实施方式的GAN框架的网络架构。GAN框架包括编码器115、解码器150和鉴定器210。在一个或多个实施方式中，对于声学模型(包括编码器和解码器)，使用具有注意力机制的序列到序列框架，例如soft(软)注意力。编码器115和解码器150均可以分别包括一个或多个门控循环单元(GRU)层510和520。鉴定器可以包括一个或多个卷积层530和一个或多个长短期记忆(LSTM)层535。表1中描述一个编码器架构实施方式。在一个或多个实施方式中，解码器包括单个256维GRU层520，其具有注意力机制以允许模型每次都注意到输入序列中的任何位置，且因此对齐可能是非局部的和非单调的。GRU层520中的注意力机制可以是位置感知混合注意力机制，类似于Eric Battenberg等人描述的模型(探索用于端到端语音识别的神经传感器(Exploring neural transducers forend-to-end speech recognition)，CoRR，abs卷/1707.07413,2017，其通过引用的方式全部并入本文并用于所有目的)。

表1.编码器的架构

表2中描述了WGAN增强器的鉴别器网络的一个实施方式。在一个或多个实施方式中，所有卷积层都使用泄漏ReLU激活，其中泄漏为0.2斜率，并进行批标准化。

表2.鉴定器的架构。(特征)×(时间)

3.训练示例

应注意，这些训练实验和结果是以说明的方式提供的，且是在特定条件下使用一个或多个特定实施方式执行的；因此，这些训练实验和他们的结果都不应用于限制本专利文件的公开的范围。例如，作为说明而非限制，本发明的实施方式不限于为本文提供的这些示例选择的实现选项；而是，本领域技术人员应认识到，在不脱离本公开的真实精神和范围的情况下，可以做出其他实现选择。

为了建立基线，在第一实验中，训练了简单的基于注意力的seq-to-seq模型。除了WGAN鉴定器之外，实验中的所有seq-to-seq网络都使用Adam优化器进行训练。所有模型都在干净测试集和远场测试集两者上评估。

为了研究数据扩充在训练中的效应，使用与基线相同的架构和训练程序训练了新的seq-to-seq模型。然而，此时，在每一时期，随机选择40％的训练话语，并将训练的RIR应用于它们(在先前的实验中，观察到40％的扩充导致最佳的验证性能)。

在一个或多个实施方式中，对于增强器子模型，通过在[0.01,10]中进行对数扫描来将方程式1中的λ转化为dev集。λ＝1产生最佳性能。

在一个或多个实施方式中，使用方法1来训练WGAN增强器。裁剪参数是0.05，且ε是具有0.001标准偏差的随机正态。结果发现，制定n_critic的时间表非常重要。在一个或多个实施方式中，对于前3000个步骤，编码器参数未随着WGAN梯度进行更新。接着，使用标准的n_critic＝5。据认为，初始编码器嵌入质量较差，且在此阶段通过鉴定器梯度促进不变性显著阻碍了seq-to-seq训练。

E.结果

应注意，这些实验和结果是以说明的方式提供的，且是在特定条件下使用一个或多个特定实施方式执行的；因此，这些实验和他们的结果都不应用于限制本专利文件的公开的范围。

结果在表3中呈现。所有评估均使用Eval92执行并通过贪婪解码而保持测试脉冲响应集。

表3.华尔街日报(WSJ)语料库的语音识别性能

为了提供上下文，本公开的近场结果与使用具有200个射束大小的语言模型射束解码获得的18.6％WER相当。可以看出,仅在近场音频数据上训练的seq-to-seq模型在远场音频上表现极差。这表明对于ASR模型从均匀近场音频推广到远场音频是重要的。

为了克服这个问题，用模拟的远场音频示例训练更强的基线。此模型具有相同的架构，但是训练模型的40％的示例在训练期间与随机选择的房间脉冲响应进行卷积。从表3可以看出，简单的数据扩充可以显著改进远场音频的性能，而不会损害近场音频的性能，这意味着所提出的seq-to-seq模型能够在一定程度上对远场语音进行建模。

然而，即使使用数据扩充，近场和远场测试性能之间仍存在很大差距。L¹距离惩罚可以将测试集WER降低1.32％绝对值。使用GAN增强器可以将WER降低额外1.07％。总的来说，与仅使用数据扩充的模型相比，近场性能与远场性能之间的差距减小几乎27％。

约束编码器空间的多任务学习的益处在于新的目标充当正则化器并也改进近场性能。仅通过远场扩充训练的模型在近场语音上遭受轻微退化，因为要建模的输入分布的支持已经增加，但是没有机制来学习利用输入中的共性的有效表示。还示出了在训练期间通过添加高斯噪声存在一些初始改进。WGAN增强器模型最有可能受益于输入扰动，因为它减轻了鉴定器过度拟合。

在本公开中呈现的实验中，编码器从未完全能够生成可以欺骗鉴别器的完全不能区分的嵌入。据猜测，编码器产生不变表示的能力受限于缺乏可以完全消除远场效应的专门的前端或更灵活的层。已示出了具有比GRU或LSTM更好的模型频率变化的网格LSTM可以用于进一步缩小差距。

F.系统实施方式和实现方式

在实施方式中，本专利文献的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统/计算系统上实施。计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备、摄像机或任何其他合适设备，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外组件可包括一个或多个盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(I/O)设备(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件组件之间传输通信的一个或多个总线。

图6描绘了根据本公开的实施方式的计算设备/信息处理系统(或是计算系统)的简化框图。应理解，计算系统可不同地配置并且包括不同组件，包括如图6中所示的更少或更多的部件，但应理解，针对系统600所示出的功能可操作为支持计算系统的各种实施方式。

如图6所示，计算系统600包括一个或多个中央处理单元(CPU)601，CPU 601提供计算资源并控制计算机。CPU 601可实施有微处理器等，并且还可包括一个或多个图形处理单元(GPU)619和/或用于数学计算的浮点协处理器。系统600还可包括系统存储器602，系统存储器602可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图6所示，还可提供多个控制器和外围设备。输入控制器603表示至各种输入设备604的接口，例如键盘、鼠标、触摸屏和/或触笔。计算系统600还可包括存储控制器607，该存储控制器607用于与一个或多个存储设备608对接，存储设备中的每个包括存储介质(诸如磁带或盘)或光学介质(其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本发明的各方面的程序的实施方式)。存储设备608还可用于存储经处理的数据或是将要根据本发明处理的数据。系统600还可包括显示控制器609，该显示控制器609用于为显示设备611提供接口，显示设备611可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统600还可包括用于一个或多个外围设备606的一个或多个外围控制器或接口605。外围设备的示例可包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。计算系统600还可包括用于与打印机613通信的打印机控制器612。通信控制器614可与一个或多个通信设备615对接，这使系统600能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备。

在示出的系统中，所有主要系统组件可连接至总线616，总线616可表示多于一个的物理总线。然而，各种系统组件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及硬件设备，该硬件设备专门被配置成存储或存储并执行程序代码，该硬件设备例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，其包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“手段”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应当理解，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应当注意，本发明的实施方式还可涉及具有其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本发明的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息设备的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件设备，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含可由计算机使用解释器来执行的更高级代码的文件。本发明的实施方式可整体地或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布的计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本发明的实践来说均不重要。本领域的技术人员将还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

G.一些结论

本文呈现的是基于GAN的框架实施方式，以可扩展的数据驱动方式训练鲁棒ASR模型。还展示了在编码器处引发噪声的不变性改进了语音识别鲁棒性。在一个或多个实施方式中，使用Wasserstein距离来训练鲁棒seq-to-seq ASR模型实施方式。因为此损失不需要对齐，所以所公开的方法可以应用于存在未配对和无监督音频数据的问题。应注意，将此新的框架的实施方式与手工设计或更具表现力的层耦合将更加显著地增强鲁棒性。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明的是，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的本发明的所有、置换、增强、等同、组合或改进包括在本公开的真实精神和范围内。还应注意，任何权利要求书的元素可不同地布置，包括具有多个从属、配置和组合。

Claims

1.一种使用生成对抗网络来训练序列到序列模型的计算机实现的方法，所述方法包括：

在所述编码器处接收一批无标签音频数据；

2.根据权利要求1所述的计算机实现的方法，其中所述标签音频数据是干净的音频数据，所述无标签音频数据从所述标签音频数据或从不同的分布增强。

3.根据权利要求2所述的计算机实现的方法，其中所述无标签音频数据并入随机高斯噪声。

4.根据权利要求1所述的计算机实现的方法，其中所述生成对抗网络是Wasserstein生成对抗网络，所述鉴别器是鉴定器，所述鉴别器损失是第一批嵌入与所述第二批嵌入之间的陆地移动距离。

5.根据权利要求4所述的计算机实现的方法，其中更新序列到序列模型权重和鉴别器权重包括以下步骤：

确定相对于所述序列到序列模型权重的平均交叉熵损失的梯度；

使用所确定的平均交叉熵损失的梯度来更新所述序列到序列模型权重；

确定相对于鉴定器权重的平均陆地移动距离的梯度；

使用所确定的平均陆地移动距离的梯度来更新鉴定器权重；

将所更新的鉴定器权重裁剪到预定裁剪参数所限定的范围；

重复上述步骤预定的迭代次数以设置所裁剪的鉴定器权重；

使用所设置的裁剪鉴定器权重来确定相对于所述序列到序列模型权重的由第二批标签音频数据和第二批无标签音频数据产生的平均交叉熵损失和平均陆地移动距离的组合梯度；以及

使用所确定的相对于所述序列到序列模型权重的平均交叉熵损失和平均陆地移动距离的组合的梯度来更新所述序列到序列模型权重。

6.根据权利要求5所述的计算机实现的方法，其中所述交叉熵损失和所述鉴别器损失的组合是与由权重参数确定的所述陆地移动距离的权重的加权组合。

7.根据权利要求1所述的计算机实现的方法，其中所述序列到序列模型是基于注意力的模型。

8.一种使用生成对抗网络来增强鲁棒语音识别的系统，所述系统包括：

鉴别器，其耦合到所述编码器以形成所述生成对抗网络；

在所述编码器处接收一批无标签音频数据；

通过所述解码器产生来自所述第一批嵌入的预测转录序列；

9.根据权利要求8所述的系统，其中所述标签音频数据是干净的音频数据，所述无标签音频数据从所述标签音频数据或从不同的分布增强。

10.根据权利要求9所述的系统，其中所述无标签音频数据并入随机高斯噪声。

11.根据权利要求8所述的系统，其中所述生成对抗网络是Wasserstein生成对抗网络，所述鉴别器是鉴定器，所述鉴别器损失是第一批嵌入与所述第二批嵌入之间的陆地移动距离。

12.根据权利要求11所述的系统，其中更新序列到序列模型权重和鉴别器权重包括以下步骤：

确定相对于鉴定器权重的平均陆地移动距离的梯度；

使用所确定的平均陆地移动距离的梯度来更新鉴定器权重；

将所更新的鉴定器权重裁剪到预定裁剪参数所限定的范围；

重复上述步骤预定的迭代次数以设置所裁剪的鉴定器权重；

13.根据权利要求12所述的系统，其中所述交叉熵损失和所述鉴别器损失的组合是与由权重参数确定的所述陆地移动距离的权重的加权组合。

14.根据权利要求12所述的系统，其中所述序列到序列模型是基于注意力的模型。

15.一种包括一个或多个指令序列的一个或多个非暂时性计算机可读介质，所述指令序列在被一个或多个微处理器执行时致使执行步骤，所述步骤包括：

在所述编码器处接收一批无标签音频数据；

16.根据权利要求15所述的一个或多个非暂时性计算机可读介质，其中所述无标签音频数据并入随机高斯噪声。

17.根据权利要求15所述的一个或多个非暂时性计算机可读介质，其中所述生成对抗网络是Wasserstein生成对抗网络，所述鉴别器是鉴定器，所述鉴别器损失是第一批嵌入与所述第二批嵌入之间的陆地移动距离。

18.根据权利要求17所述的一个或多个非暂时性计算机可读介质，其中更新序列到序列模型权重和鉴别器权重包括以下步骤：

确定相对于鉴定器权重的平均陆地移动距离的梯度；

使用所确定的平均陆地移动距离的梯度来更新鉴定器权重；

将所更新的鉴定器权重裁剪到预定裁剪参数所限定的范围；

重复上述步骤预定的迭代次数以设置所裁剪的鉴定器权重；

19.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中所述交叉熵损失和所述鉴别器损失的组合是与由权重参数确定的所述陆地移动距离的权重的加权组合。

20.根据权利要求15所述的一个或多个非暂时性计算机可读介质，其中所述序列到序列模型是基于注意力的模型。