CN117378004A

CN117378004A - 具有序列的对比损失的有监督和无监督的训练

Info

Publication number: CN117378004A
Application number: CN202280037348.0A
Authority: CN
Inventors: 安德鲁·罗森伯格; 布瓦那·拉马巴德兰; 陈哲怀; 王源; 张宇; 杰西·埃蒙德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2022-03-22
Publication date: 2024-01-09
Also published as: EP4315319A1; KR20230156144A; JP2024511198A; US20220310065A1; WO2022204165A1

Abstract

方法(500)包括接收与话语(304)对应的音频数据(302)，并生成一对正音频数据示例(312)。这里，每个正音频数据示例包括音频数据的增强副本。对于每个相应的正音频数据示例，所述方法包括生成相应的编码器输出序列(212)，并将相应的编码器输出序列投影到对比损失空间中。该方法还包括确定正音频数据示例的投影的编码器输出的序列中的每个对应编码器输出之间的L2距离(352)，以及通过对L2距离求平均来确定每话语一致性损失(355)。该方法还包括为每个相应的正音频数据示例生成相应的语音识别结果(322)。该方法还包括基于相应的监督损失项(335)和每个话语的一致性损失来更新语音识别模型(200)的参数。

Description

具有序列的对比损失的有监督和无监督的训练

技术领域

本公开涉及具有序列的对比损失的有监督和无监督的训练。

背景技术

自动语音识别(Automatic speech recognition,ASR)是将音频输入转换为文本的过程，它已经成为在移动设备和其它设备中使用的重要技术。通常，自动语音识别试图通过取得音频输入(例如，语音话语)并将音频输入转录成文本来提供人所说的内容的准确转录。基于深度神经网络的持续发展，现代ASR模型在精确度(例如，低字错误率(word errorrate,WER))和时延(例如，用户说话和转录之间的延迟)方面继续改进。然而，在开发基于深度学习的ASR模型中的一个挑战是，ASR模型的参数趋于过度拟合训练数据，从而导致当训练数据不够广泛时ASR模型难以泛化到未见的数据。结果，在较大的训练数据集上训练ASR模型提高了ASR模型的精确度。在训练数据集上应用数据增强可以提高用于训练ASR模型的训练数据集的声学多样性。

发明内容

本公开的一个方面提供了一种计算机实施的方法，当在数据处理硬件上执行时，该方法使数据处理硬件执行具有序列的对比损失的有监督和无监督的训练的操作。该操作包括接收与话语对应的音频数据。该操作还包括使用数据增强模块生成一对正音频数据示例。这里，该一对正音频数据示例中的每个正音频数据示例包括与话语对应的接收到的音频数据的相应的增强副本。对于该一对正音频数据示例中的每个相应的正音频数据示例，该操作包括使用神经网络编码器生成相应的编码器输出的序列，并且使用卷积神经网络(CNN)将相应的正音频数据示例的相应的编码器输出的序列投影到对比损失空间中。确定该正音频数据示例的投影的该编码器输出的序列中的每个对应的编码器输出之间的L2距离；该操作还包括通过对针对所述投影的编码器输出的序列中的编码器输出所确定的L2距离求平均来确定每话语一致性损失；该操作还包括使用语音识别模型为该一对正音频数据示例中的每个相应的正音频数据示例生成相应的语音识别结果。该操作还包括基于与每个对应的语音识别结果相关联的相应的监督损失项和所述每话语一致性损失来更新所述语音识别模型的参数。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，CNN包括第一CNN层，随后是修正线性激活函数(rectified linear activation function)(Relu)激活和层归一化(LayerNorm)层，以及具有线性激活的第二CNN层。所述数据增强模块可以添加噪声、混响中的至少一个，或操纵所述接收到的音频数据的时序。在一些示例中，所述语音识别模型(200)包括序列变换器(transducer)模型，所述序列变换器模型具有基于Conformer的编码器和长短期(LSTM)解码器。在这些示例中，所述基于Conformer的编码器包括Conformer层的堆叠，每个所述Conformer层包括一系列多头自注意力、深度卷积和前馈层。

在一些实施方式中，该操作还包括接收一组训练话语，每一个训练话语包括相应的话语的非合成语音表示，并且对于该组训练话语中的每一个训练话语，使用文本到语音(text-to-speech,TTS)模型来转换相应的基准真值(ground truth)转录，以生成相同相应的话语的一个或多个合成语音表示。这里，接收与话语对应的音频数据包括接收所述对应的话语的非合成语音表示中的一个或对应的话语的一个或多个合成语音表示中的一个。在一些示例中，为所述一对正音频数据示例中的每个相应的正音频数据示例生成对应的语音识别结果包括使用解码器来确定所述相应的编码器输出的序列的可能的语音识别假设(hypotheses)的概率分布。

该操作可以还包括通过将所述相应的正音频数据示例的所述对应的语音识别结果与所述相应的正音频数据示例的对应的基准真值转录进行比较来确定相应的监督损失项。在一些实施方式中，所述一对正音频数据示例中的每个正音频数据示例包括与所述一对正音频数据示例中的每个其他正音频数据示例不同的、与所述话语对应的所述接收到的音频数据的不同的相应的增强副本。在一些示例中，生成所述正音频数据示例对包括基于对所述话语的单次观察生成所述一对正音频数据示例中的每个正音频数据示例。

本发明的另一方面提供一种系统，其包括数据处理硬件和存储指令的存储器硬件，该指令在该数据处理硬件上执行时致使该数据处理硬件执行操作。该操作包括接收与话语对应的音频数据。该操作还包括使用数据增强模块生成一对正音频数据示例。这里，该一对正音频数据示例中的每个正音频数据示例包括与话语对应的接收到的音频数据的相应的增强副本。对于该一对正音频数据示例中的每个相应的正音频数据示例，该操作包括使用神经网络编码器生成相应的编码器输出的序列，并且使用卷积神经网络(CNN)将相应的正音频数据示例的相应的编码器输出的序列投影到对比损失空间中。确定该正音频数据示例的投影的该编码器输出的序列中的每个对应的编码器输出之间的L2距离；该操作还包括通过对针对所述投影的编码器输出的序列中的编码器输出所确定的L2距离求平均来确定每话语一致性损失；该操作还包括使用语音识别模型为该一对正音频数据示例中的每个相应的正音频数据示例生成相应的语音识别结果。该操作还包括基于与每个对应的语音识别结果相关联的相应的监督损失项和所述每话语一致性损失来更新所述语音识别模型的参数。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，CNN包括第一CNN层，随后是修正线性激活函数(rectified linear activation function)(Relu)激活和层归一化(LayerNorm)层，以及具有线性激活的第二CNN层。所述数据增强模块可以添加噪声、混响中的至少一个，或操纵所述接收到的音频数据的时序。在一些示例中，所述语音识别模型(200)包括序列变换器模型，所述序列变换器模型具有基于Conformer的编码器和长短期(LSTM)解码器。在这些示例中，所述基于Conformer的编码器包括Conformer层的堆叠，每个所述Conformer层包括一系列多头自注意力、深度卷积和前馈层。

在一些实施方式中，该操作还包括接收一组训练话语，每一个训练话语包括相应的话语的非合成语音表示，并且对于该组训练话语中的每一个训练话语，使用文本到语音(text-to-speech,TTS)模型来转换相应的基准真值(ground truth)转录，以生成相同相应的话语的一个或多个合成语音表示。这里，接收与话语对应的音频数据包括接收所述对应的话语的非合成语音表示中的一个或对应的话语的一个或多个合成语音表示中的一个。在一些示例中，为所述一对正音频数据示例中的每个相应的正音频数据示例生成对应的语音识别结果包括使用解码器来确定所述相应的编码器输出的序列的可能的语音识别假设的概率分布。

本公开的一个或多个实施方式的细节在附图和以下描述中阐述。通过说明书、和附图、以及权利要求书，其他方面、特征和优点将变得显而易见。

附图说明

图1是示例性语音识别系统的示意图。

图2是循环神经网络-变换器(RNN-T)模型结构的示意图。

图3是语音识别模型的示例训练过程的示意图。

图4是使用非合成语音表示和合成语音表示生成正音频数据示例的示意图。

图5是具有序列的对比损失的有监督和无监督的训练的方法的操作的示例布置的流程图。

图6是可用于实现本文描述的系统和方法的示例计算设备的示意图。

在各个附图中，相同的附图符号表示相同的元件。

具体实施方式

自动语音识别(Automated speech recognition,ASR)已经随着从音频到字符序列映射的序列到序列(Seq2Seq)模型的引入而产生了巨大的进步。同时，文本到语音(text-to-speech,TTS)或语音合成系统已成功地应用Seq2Seq模型以获得人耳无法将之与人类语音区分的先进的自然、真实的声音合成语音。

在开发基于深度学习的ASR模型中的一个挑战是，ASR模型的参数趋于过度拟合训练数据，从而导致当训练数据不够广泛时ASR模型难以泛化到未见的数据。因此，在较大的训练数据集上训练ASR模型提高了ASR模型的精确度。例如，机器学习或其它统计方法的使用可以在包括超过10,000小时的转录语音的训练数据集上训练ASR模型。然而，当与训练数据相关联的域与ASR模型在推断期间将被部署所在的域不同时，ASR模型的性能受到影响。例如，在与视频会议相关联的域中训练关于转录语音的ASR模型在识别与语音搜索查询相关的语音方面将不太有效，反之亦然。

合成语音具有极大地限制训练ASR模型所需的标记的人类语音的量的潜力，同时还提供在不同域上移动ASR模型的灵活性。一般来说，尽管现有技术的合成语音与人类语音不能区分开来，合成语音的使用已经显示出对ASR训练的影响与人类语音不同。合成语音和人类语音之间的这种差距归因于来自人类语音数据与合成语音数据的不匹配，这是由于文本到语音(TTS)系统所试图解决的困难的一对多映射问题而引起的。即，虽然可用合成语音的总质量非常高，但合成语音表现出比人类语音小得多的变化，以及最小的语音不流畅。因此，仅在合成语音数据上训练ASR模型在推理过程中很难泛化到真实的语音话语。

增强训练数据集的合成和非合成语音可以增加训练数据集的声学多样性。值得注意的是，增强训练语音话语可以从单个训练语音话语生成多个训练语音话语。这里，可以将不同的增强技术应用于多个增强训练语音话语中的每一个。因此，将数据增强应用于训练数据集的合成和非合成语音也可以极大地限制训练ASR模型所需的标记的人类语音的量。

本文中的实施方式针对当大量标记的训练数据不可用或不够普遍时增强训练ASR模型的训练话语的方法和系统。更具体地，本文的实施方式针对包括正则化下的一致性的ASR模型的监督训练过程。训练过程包括使用数据增强模块针对接收到的训练话语生成一对正音频数据示例。每个音频数据示例包括所接收的训练话语的不同的增强副本。对于每个正数据实例，编码器生成相应的编码器输出的序列，并将相应的编码器输出的序列投影到对比损失空间中。一致性损失模块确定投影的编码器输出的序列的每个对应的编码器输出之间的L2距离，并通过对L2距离求平均来确定每话语一致性损失(即，对比损失)。显然，训练ASR模型包括基于监督损失和每话语一致性损失的组合来更新ASR模型的参数。

图1示出了实施ASR模型200的自动语音识别(ASR)系统100,ASR模型200驻留在用户104的用户设备102上和/或驻留在与用户设备102通信的远程计算设备201(例如，在云计算环境中执行的分布式系统的一个或多个服务器)上。尽管用户设备102被描述为移动计算设备(例如，智能电话)，但是用户设备102可以对应于任何类型的计算设备，例如但不限于平板设备，膝上型/台式计算机，可佩戴设备，数字助理设备，智能扬声器/显示器，智能设备，车用信息娱乐系统或物联网(IoT)设备，并且配备有数据处理硬件111和存储器硬件113。

用户设备102包括音频子系统108，该音频子系统108被配置为接收用户104说出的话语106(例如，用户设备102可以包括一个或多个麦克风，用于记录说出的话语106)并将话语106转换成与能够由ASR系统100处理的输入声学帧110相关联的对应数字格式。在所示的例子中，用户用英语的自然语言说出短语“纽约市的天气是什么？”的相应的话语106，并且音频子系统108将话语106转换为相应的声频帧110以输入到ASR系统100。此后，ASR模型200接收与话语对应106的声学帧110作为输入，并且生成/预测话语106的对应的转录120(例如，识别结果/假设)作为输出。在所示的示例中，用户设备102和/或远程计算设备201还执行用户界面生成器107，用户界面生成器107被配置为向用户设备102的用户104呈现话语106的转录120的表示。在一些配置中，例如通过在用户设备102或远程计算设备201上执行的自然语言理解(NLU)模块来处理从ASR系统100输出的转录120，以执行用户命令。附加地或替代地，文本到语音系统(例如，在用户设备102或远程计算设备201的任何组合上执行)可以将转录120转换为合成语音，以便由另一设备进行可听输出。例如，原始话语106可以对应于用户104正发送给朋友的消息，在该消息中，转录120被转换为合成语音，以便可听地输出给朋友来收听在原始话语106中传送的消息。

参照图2，示例性基于帧对准的变换器模型200a包括循环神经网络变换器(RNN-T)模型结构，其遵守与交互应用相关联的时延约束。RNN-T模型架构的使用是示例性的，并且基于帧对准的变换器模型200可以包括其它架构，例如转换器-变换器(transformer-transducer)和conformer-变换器模型架构等。RNN-T模型200提供了小的计算占用空间，并且与传统的ASR架构相比利用了更少的存储器需求，使得RNN-T模型架构适于完全在用户设备102上执行语音识别(例如，不需要与远程服务器进行通信)。RNN-T模型200包括编码器网络210，预测网络220和联合网络230。编码器网络编码器210(也简称为“编码器210”)大致类似于传统ASR系统中的声学模型(AM)，包括堆叠的长短期记忆(LSTM)层的循环网络。例如，编码器读取d维特征向量的序列(例如，声学帧110(图1))x＝(x₁,x₂,···,x_T)，其中并且在每个输出步(time step)产生更高阶的特征表示。这种更高阶的特征表示表示为/>

类似地，预测网络220也是LSTM网络(例如，LSTM解码器)，其像语言模型(LM)一样将由最终柔性最大值(Softmax)层240目前为止输出的非空白符号序列，y₀,...,y_ui-1,处理成稠密表示(dense representation)最后，利用RNN-T模型架构，由编码器和预测/解码器网络210、220产生的表示由联合网络230组合。预测网络220可以由嵌入查找表来代替，以通过输出所查找的稀疏嵌入来代替处理密集表示来改善时延。然后联合网络预测这是在下一个输出符号上的分布。换句话说，在每个输出步骤(例如，时间步骤)，联合网络230在可能的语音识别假设上生成概率分布。这里，“可能的语音识别假设”对应于一个输出标签组，每一个输出标签以指定的自然语言表示符号/字符。例如，当自然语言是英语时，该输出标签组可以包括27个符号，例如，一个标签用于英语字母表中的26个字母中的每一个，以及一个标签指定空格。因此，联合网络230可以输出一组值，该组值指示预定的一个输出标签组中的每一个的出现可能性。该组值可以是向量，并且可以指示该输出标签组上的概率分布。在一些情况下，输出标签是字素(graphemes)(例如，单独的字符，以及潜在的标点符号和其它符号)，但是输出标签组不限于此。例如，字素以外或代替字素，该输出标签组可以包括字片(wordpieces)和/或整个单词。联合网络230的输出分布可以包括不同输出标签中的每一个的后验概率值。因此，如果存在100个不同的表示不同的字素或其它符号的输出标签，则联合网络230的输出y_i可以包括100个不同的概率值，每个输出标签一个。然后，概率分布可以用于在波束搜索过程(例如，通过Softmax层240)中选择候选拼字元素(例如，字素、字片和/或单词)并为其分配分数，以确定转录120。

柔性最大值层240可以采用任何技术来选择分布中具有最高概率的输出标签/符号作为RNN-T模型200在对应的输出步骤预测的下一个输出符号。以这种方式，RNN-T模型200不做出条件独立性假设，相反，每个符号的预测不仅取决于声学，还取决于目前为止输出的标签序列。RNN-T模型200确实假设输出符号独立于未来的声学帧110，这允许以串流方式(streaming fashion)使用该RNN-T模型。

在一些示例中，RNN-T模型200的编码器网络(即，音频编码器)210包括基于Conformer的编码器，该编码器包括Conformer层的堆叠。这里，每个Conformer层包括一系列多头自我注意，深度方向卷积和前馈层。编码器网络210可以包括具有多头自注意机制的其它类型的编码器。例如，编码器网络210可以是基于转换器的编码器或基于轻量级卷积(lightweight convolutional,LConv)的编码器。编码器网络210还可以是基于RNN的,包括一系列LSTM层。预测网络220可以有两个2048维的LSTM层，每个层后跟一个640维的投影层。可替换地，预测网络220可以包括变换器或Conformer的堆叠，或代替LSTM层的嵌入查找表。最后，联合网络230也可以有640个隐藏单元。Softmax层240可以由使用多个训练数据集中的所有唯一字片或字素生成的统一字片或字素集组成。

图3示出了用于训练ASR模型200的示例训练过程300。这里，示例训练过程300包括监督训练组件和非监督训练组件。示例训练过程300(也简称为“训练过程300”)包括数据增强模块310，数据增强模块310从一组训练话语304,304a-n(图4)接收与训练话语304对应的音频数据302。音频数据302可以表示训练话语304的非合成语音表示或合成语音表示，如参考图4更详细地描述的。

数据增强模块310被配置为进一步增强用于训练ASR模型200的训练话语304的声学多样性。在一些实例中，数据增强模块310应用数据增强技术，该数据增强技术包括添加/注入噪声，添加混响和/或操纵音频数据302的时序(例如，拉伸)中的至少一者。可选地，数据增强技术可以包括时间翘曲。另一种数据增强技术包括使用多风格训练(MTR)来向音频数据302注入各种环境噪声。

数据增强模块310对所接收的音频数据302应用数据增强技术的任何组合，以生成一对正音频数据示例312。在所示的示例中，仅为了清楚起见，该一对正音频数据示例312包括两个正数据示例(即，第一正音频数据示例312,312a和第二正音频数据示例312,312b)，然而，应当理解，该一对正音频数据示例312可以包括任意数量的正音频数据示例312。例如，该一对正音频数据示例312可以包括五个正音频数据示例312(例如，在该示例中，该一对正音频数据示例312也可以被称为一组正音频数据示例312)。

数据增强模块310基于对与训练话语304相对应的音频数据302的单次观察，生成该一对正音频数据示例312中的每个正音频数据示例312。换句话说，该一对正音频数据示例312中的每个正音频数据示例312表示相同的音频数据302和相同的训练话语304(即，每对中的音频数据示例312在词汇上是相同的)。数据增强模块310可以将不同的数据增强技术(例如，噪声，混响和/或时序操纵)应用于该一对正音频数据示例312中的每个正音频数据示例312，以在正音频数据示例312之间提供声学多样性。在一些情况下，数据增强模块310将相同的数据增强技术应用于每个正音频数据示例312，但将不同量的数据增强技术应用于每个正音频数据示例312。例如，数据增强模块310可以将第一噪声量施加到第一正音频数据示例312a，并且将第二噪声量施加到第二正音频数据示例312b。

这样，该一对正音频数据示例312中的每个正音频数据示例312包括与训练话语304对应的接收到的音频数据302的相应的增强副本。值得注意的是，每个正音频数据示例312包括接收到的音频数据302的不同的相应的增强副本，而不是其它正音频数据示例312。因此，相同接收的音频数据302的不同增强副本的收集增加了在训练ASR模型200中使用的音频数据302的声学多样性。在所示的示例中，数据增强模块310使用对应于相同话语的音频数据302生成第一正音频数据示例312a和第二正音频数据示例312b。这里，第一正音频数据示例312a包括音频数据302的第一增强副本，而第二正音频数据示例312b包括音频数据302的不同于第一增强副本的第二增强副本。

训练过程300还包括ASR模型200的编码器210。编码器210接收该一对正音频数据示例312中的每个正音频数据示例312作为输入，并生成与相应的正音频数据示例312相对应的相应的编码器输出的序列212作为输出。在所示的示例中，编码器210接收第一正音频数据示例312，并生成与第一正音频数据示例312a相对应的编码器输出的第一序列212,212a。继续示出的示例，编码器210还接收第二正音频数据示例312b，并生成与第二正音频数据示例312b相对应的编码器输出的第二序列212,212b。

在一些实施方式中，训练过程300为每个正音频数据示例312确定与语音识别结果322相关联的监督损失项335(例如，监督训练组件)。在这些实施方式中，训练过程300包括解码器320和监督损失项模块330。解码器320被配置为对编码器210输出的编码器输出的序列212进行解码，并确定可能的语音识别假设上的概率分布322。也就是说，在可能的语音识别假设上的概率分布322指示不同语音识别结果的概率。这样，语音识别结果322和可能的语音识别假设上的概率分布322可以互换地使用。

在一些示例中，解码器320包括ASR模型200的联合网络230(即，解码器)(图2)。在其它示例中，解码器320是独立于ASR模型200的辅助解码器，其包括联结主义时间分类(Connectionist Temporal Classification,CTC)解码器，听-注意-拼写(Lister AttendSpell,LAS)解码器或RNN-T解码器。因此，图3所示的围绕编码器210和解码器320的虚线，在某些情况下，表示编码器210和解码器320都是ASR模型200的一部分，而在其它情况下，表示解码器320是与ASR模型200分离的辅助解码器。在一些实施方式中，解码器320包括被配置为对音素序列进行解码的音素解码器、被配置为对字片序列进行解码的字片解码器、或被配置为对字素序列进行解码的字素解码器中的至少一个。

因此，解码器320接收每个相应的编码器输出的序列212作为输入，并生成对应的正音频数据示例312的可能的语音识别假设(即，语音识别结果)上的概率分布322作为输出。在一些示例中，在可能的语音识别假设上的概率分布322包括可能的音素标签或可能的字片标签中的一个。在所示的示例中，解码器320使用编码器输出的第一序列212a生成在可能的语音识别假设上的第一概率分布322,322a，并且使用编码器输出的第二序列212b生成在可能的语音识别假设上的第二概率分布322,322b。

此后，监督损失项模块330可以基于可能的语音识别假设上的概率分布322和与训练话语304相对应的基准真值转录305来确定监督损失项335。也就是说，在一些情况下，每个训练话语304与对应的基准真值转录305(即，配对的训练数据)配对。因此，监督损失项模块330可以比较语音识别结果322和相应的基准真值转录305，以确定ASR模型200预测的准确性。在所示的示例中，监督损失项模块330将第一概率分布322a与基准真值转录305进行比较以确定第一监督损失项335,335a，并将第二概率分布322b与基准真值转录305进行比较以确定第二监督损失项335,335b。训练过程300基于监督损失项335更新ASR模型200的参数。例如，训练过程300可以更新ASR模型200的编码器的参数。

在一些实施方式中，训练过程300确定ASR模型200的每话语一致性损失355(例如，无监督训练组件)。这里，基准真值转录305可能不可用于训练话语和/或训练过程300可以旨在促进音频数据302的不同增强副本在正音频数据示例312上的一致性。在这些实施方式中，训练过程300包括卷积神经网络(CNN)340和一致性损失项模块350。CNN 340将从编码器210接收的相应的正音频数据示例312的相应的编码器输出的序列212投影到对比损失空间中。也就是说，CNN 340产生投影的编码器输出的序列342。

在一些示例中，CNN 340包括具有356(4×1)过滤器的第一CNN层，随后是修正线性激活函数(Relu)激活和层归一化层，以及具有线性激活的第二CNN层16(1×1)过滤器。也就是说，CNN 340将编码器输出的序列212映射到对比损失空间中，以确定每话语一致性损失355。在所示的示例中，CNN 340将编码器输出的第一序列212a投影到对比损失空间(例如，第一投影的编码器输出的序列342,342a)中，并且将编码器输出的第二序列212b投影到对比损失空间(例如，第二投影的编码器输出的序列342,342b)中。

此后，一致性损失项模块350接收的投影的编码器输出的序列342，并为正音频数据示例312确定投影的编码器输出的序列342中的每个对应编码器输出之间的L2距离352。也就是说，音频数据示例312的正对(positive pair)(即，x_i和x_j)可具有如下表示的对比损失或L2距离352:

在等式1中，sim(u,v)＝u^Tv/‖u‖‖c‖是余弦相似性函数，以及τ表示温度参数。

最大平均差异(max mean discrepancy,MMD)是编码器输出z_i:＝{x₁,...,x_n}～P和z_j:＝{x₁,...,x_n}～Q的序列之间的非参数距离量度。具体地，MMD度量再生核希尔伯特空间(Reproducing Kernel Hilbert Space)中的两个分布之间的核平均(kernel mean)。编码器输出的序列之间的MMD损失可以表示如下：

这里，k(x,y)是表示如下的高斯核(Gaussian kernel)：

k(x,y)＝exp(-γ‖x-y‖) (3)

这里，一致性正则化可以包括计算编码器210的输出之间的不同正数据示例312之间的L2距离352。一致性损失项模块350通过对为投影的编码器输出的序列342的编码器输出所确定的L2距离352求平均来确定每话语一致性损失355。每话语一致性损失355可以表示如下：

在所示的示例中，一致性损失项模块350确定第一投影的编码器输出的序列342a和第二投影的编码器输出的序列342b中的每个对应的编码器输出之间的L2距离352，并通过对为每个对应的编码器输出确定的L2距离352求平均来确定每话语一致性损失355。因此，每话语一致性损失355通过激励编码器210一致地表现，而不考虑应用于正训练示例312的数据增加，来提供无监督训练组件。

训练过程300基于每话语一致性损失355来更新ASR模型200的参数。例如，训练过程300可以更新ASR模型200的编码器210的参数。在一些示例中，训练过程300并行地使用每话语一致性损失355和监督损失项335来更新ASR模型200的参数。这里，包括每话语一致性损失355和监督损失项335的ASR损失函数可以表示如下：

L(θ,X)＝L_rnnt(θ,X)+λL_cons(θ,θ_cons,X) (5)

在等式5中，L_rnnt是RNN-T损失，L_cons是一致性项，θ_cons是用于一致性函数的可选参数，以及λ是规则化系数。在一些实例中λ＝1。

现在参考图4的示意图，在一些实施方式中，数据增强模块310接收代表相同训练话语304的非合成语音表示362和合成语音表示364的音频数据302。这里，一组训练话语304,304a-n包括针对该组训练话语中的每个训练话语304的非合成语音表示362。训练话语304可以包括由用户104(图1)说出的话语106。此外，每个训练话语304可以与相应的基准真值转录305配对。文本到语音(TTS)系统360被配置为接收真实的转录305并生成与相应训练话语304的合成语音表示364相对应的音频数据302。在一些实施方式中，TTS系统360为单个训练话语304生成多个不同的合成语音表示364，使得不同的合成语音表示364在声学上彼此不同，但是在词汇上相同。在一些示例中，TTS系统360接收包括仅文本数据(即，未配对数据)的未说出的训练文本话语，使得每个未说出的文本话语不与任何合成或非合成语音表示配对。

因此，数据增强模块310接收训练话语304的非合成表示362的音频数据302和/或接收相同训练话语304的合成语音表示364的音频数据302。因此，数据增强模块310使用非合成表示362生成一对非合成正音频数据示例312,312n，并使用合成语音表示364生成一对合成正音频数据示例312,312s。值得注意的是，这对非合成正音频数据示例312n和合成正音频数据示例312s都对应于相同的训练话语304，从而大大增加了训练过程300(图3)可以用来训练ASR模型200的训练数据量。也就是说，训练过程300(图3)可以使用包括非合成语音表示362、合成语音表示364或其某种组合的音频数据302。如前所述，由数据增强模块310生成的非合成正音频数据示例312n的“对”不限于两个示例，而可以包括为相同的非合成语音表示362生成的任何数量的正音频数据示例。类似地，由数据增强模块310生成的合成正音频数据示例312S的“对”可以包括为同一合成语音表示364生成的任何数量的正音频数据示例。

图5是计算机实施的方法500的操作的示例性布置的流程图，该方法500用于具有对比损失的序列的监督和无监督训练。在操作502，方法500包括接收与训练话语304对应的音频数据302。在操作504，方法500包括使用数据增强模块310生成一对正音频数据示例312(即，第一正音频数据示例312a和第二正音频数据示例312b)。这里，该一对正音频数据示例312中的每个正音频数据示例312包括与训练话语304对应的接收到的音频数据302的相应的增强副本。对于该一对正音频数据示例312中的每个正音频数据示例312，方法500执行操作506和508。在操作506，方法500包括使用神经网络编码器210生成相应的编码器输出212的序列。在操作508，方法500包括使用CNN 340将用于相应的正音频数据示例312的相应的编码器输出的序列212投影到对比损失空间(即，投影的编码器输出的序列342)中。

在操作510，方法500包括确定正音频数据示例312的投影的编码器输出的序列342中的每个对应编码器输出之间的L2距离352。在操作512，方法500包括通过对为投影的编码器输出的序列242中的编码器输出确定的L2距离352求平均来确定每话语一致性损失355。在操作514，方法500包括使用ASR模型200为该一对正音频数据示例312中的每个正音频数据示例312生成相应的语音识别结果322。特别地，解码器320对相应的编码器输出的序列212进行解码，以生成语音识别结果322。在操作516，方法500包括基于与每个对应的语音识别结果322相关联的相应的监督损失项335和每话语一致性损失355来更新ASR模型200的参数。

图6是可用于实现本文档描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机、和其它合适的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅旨在作为示例，并且不旨在限制本文档中描述的和/或者要求保护的本发明的实施。

计算设备600包括：处理器610(例如，数据处理硬件)、存储器620、存储设备630、连接至存储器620和高速扩展端口650的高速接口/控制器640、和连接至低速总线670和存储设备630的低速接口/控制器660。通过使用不同的总线将每个部件610、620、630、640、650、和660互相连接，并且可以将上述每个部件安装在公共主板上、或者根据需要以其它的方式安装上述每个部件。处理器610可以对在计算设备600内执行的指令进行处理，指令包括存储在存储器620中或者存储设备630上以在外部输入/输出设备上显示图形用户界面(GUI)的图形信息的指令，外部输入/输出设备诸如为耦合至高速接口640的显示器680。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多种存储器一起使用。同样，可以连接多个计算设备600，每个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。

存储器620将信息非暂时性地存储在计算设备600内。存储器620可以是计算机可读介质、(多个)易失性存储器单元、或者(多个)非易失性存储器单元。非易失性存储器620可以是用于在暂时或者持久基础上存储供计算设备600使用的程序(例如，指令序列)或者数据(程序状态信息)的物理设备。非易失性存储器的示例包括，但不限于：闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除编程只读存储器(EPROM)/电可擦除编程只读存储器(EEPROM)(例如，通常用于诸如为引导程序的固件)。易失性存储器的示例包括：但不限于，随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)、以及光盘或者磁带。

存储设备630能够为计算设备600提供海量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备、或者磁带设备、闪存或者其它相似的固态存储器设备、或者设备阵列，包括：在存储区域网络或者其它配置中的设备。在附加实施方式中，计算机程序产品有形地体现为信息载体。计算机程序产品包含指令，该指令在被执行时执行一种或者多种方法，诸如，上文描述的方法。信息载体是计算机可读介质或者机器可读介质，

诸如，存储器620、存储设备630、或者在处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽的密集型操作。这种功能分配仅仅是示例性的。在一些实施方式中，高速控制器640耦合至存储器620、显示器680(例如，通过图形处理器或者加速器)耦合至高速扩展端口650，该高速扩展端口1150可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660耦合至存储设备630和低速扩展端口690。低速扩展端口690可以包括各种通信端口(例如，USB、蓝牙、以太网，和无线以太网)，可以，例如通过网络适配器，耦合至一个或者多个输入/输出设备，例如，键盘、指向设备、扫描器、或者诸如交换机或者路由器的网络设备。

如图所示，可以利用多种形式来实施计算设备600。例如，可以将它实施为标准服务器600a、或者多次实施在一组这种服务器600a中、或者实施为膝上型计算机700b、或者实施为机架式服务器系统700c的一部分。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统和/或光学电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用的，可以从存储系统、至少一个输入设备、和至少一个输出设备接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入设备、和该至少一个输出设备。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、设备、和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

可以通过一个或者多个可编程处理器来执行本说明书中所描述的过程和逻辑流程，该一个或者多个可编程处理器执行一个或者多个计算机程序以通过操作输入数据并且生成输出来执行功能。也可以通过诸如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)的专用逻辑电路来执行过程和逻辑流程。适合执行计算机程序的处理器包括：例如，通用微处理器、专用微处理器、以及任何种类的数字计算机的任何一个或者多个处理器。一般而言，处理器将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是：用于执行指令的处理器、和用于存储指令和数据的一个或者多个存储器设备。一般而言，计算机还将包括用于存储数据的一个或者多个海量存储设备，或者计算机可以操作地耦合以接收来自该一个或者多个海量存储设备的数据或者将数据传输至该一个或者多个海量存储设备或者进行两者,该海量存储设备例如为磁盘、磁光盘、或者光盘。然而，计算机不必具有这种设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括，例如，半导体存储设备(例如EPROM，EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动磁盘)、磁光盘、以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路系统补充或者可以并入该专用逻辑电路系统中。

为了提供与用户的交互，可以在计算机上实施本公开的一个或者多个方面，该计算机具有：用于向用户显示信息的显示设备，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器、或者触摸屏、以及可选地包括键盘和指向设备(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向设备来将输入提供给计算机。其它种类的设备可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用包括声输入、语音输入或者触觉输入的任何形式来接收来自用户的输入。另外，计算机可以通过将文档发送到用户所使用的设备并且接收来自该设备的文档，来与用于交互，例如，通过响应于从网络浏览器接收的请求来将网页发送至在用户的客户端设备上的网络浏览器。

已经描述了多个实施方式。然而，可理解的是，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种计算机实施的方法(500)，其特征在于，当由数据处理硬件(610)执行时，使所述数据处理硬件(610)执行操作，所述操作包括：

接收与话语(304)对应的音频数据(302)；

使用数据增强模块(310)生成一对正音频数据示例(312)，所述一对正音频数据示例(312)中的每个正音频数据示例(312)包括与所述话语(304)对应的接收到的音频数据(302)的相应的增强副本；

对于所述一对正音频数据示例(312)中的每个相应的正音频数据示例(312):

使用神经网络编码器(210)生成相应的编码器输出的序列(212)；

使用卷积神经网络(CNN)(340)将所述相应的正音频数据示例(312)的所述相应的编码器输出的序列(212)投影到对比损失空间中；

确定所述正音频数据示例(312)的投影的所述编码器输出的序列(212)中的每个对应的编码器输出之间的L2距离(352)；

通过对针对所述投影的编码器输出的序列(212)中的所述编码器输出所确定的所述L2距离(352)求平均来确定每话语一致性损失(355)；

使用语音识别模型(200)为所述一对正音频数据示例(312)中的每个相应的正音频数据示例(312)生成对应的语音识别结果(322)；和

基于与每个对应的语音识别结果(322)相关联的相应的监督损失项(335)和所述每话语一致性损失(355)来更新所述语音识别模型(200)的参数。

2.根据权利要求1所述的方法(500)，其特征在于，所述CNN(340)包括第一CNN层，随后是修正线性激活函数(ReLu)激活和层归一化层，以及具有线性激活的第二CNN层。

3.根据权利要求1或2所述的方法(500)，其特征在于，所述数据增强模块(310)添加噪声、混响中的至少一个，或操纵所述接收到的音频数据(302)的时序。

4.根据权利要求1-3中任一项所述的方法(500)，其特征在于，所述语音识别模型(200)包括序列变换器模型，所述序列变换器模型具有基于Conformer的编码器和长短期记忆(LSTM)解码器。

5.根据权利要求4所述的方法(500)，其特征在于，所述基于Conformer的编码器包括Conformer层的堆叠，每个所述Conformer层包括一系列多头自注意力、深度卷积和前馈层。

6.根据权利要求1-5中任一项所述的方法(500)，其特征在于，所述操作还包括：

接收一组训练话语(304)，所述一组训练话语(304)中的每个训练话语(304)包括对应的话语(304)的非合成语音表示(362)；和

对于所述一组训练话语(304)中的每一个训练话语(304)，使用文本到语音(TTS)模型(360)转换所述对应的话语(304)的基准真值转录(305)，以生成相同对应的话语(304)的一个或多个合成语音表示(364)，

其中接收与所述话语(106)对应的所述音频数据(302)包括，接收所述对应的话语(304)的所述非合成语音表示(362)中的一个或者所述对应的话语(106)的所述一个或多个合成语音表示(364)中的一个。

7.根据权利要求1-6中任一项所述的方法(500)，其特征在于，为所述一对正音频数据示例(312)中的每个相应的正音频数据示例(312)生成对应的语音识别结果(322)包括，使用解码器(320)来确定所述相应的编码器输出的序列(212)的可能的语音识别假设上的概率分布(322)。

8.根据权利要求1-7中任一项所述的方法(500)，其特征在于，所述操作还包括，通过将所述相应的正音频数据示例(312)的所述对应的语音识别结果(322)与所述相应的正音频数据示例(312)的对应的基准真值转录(305)进行比较来确定所述相应的监督损失项(335)。

9.根据权利要求1-8中任一项所述的方法(500)，其特征在于，所述一对正音频数据示例(312)中的每个正音频数据示例(312)包括与所述一对正音频数据示例(312)中的每个其他正音频数据示例(312)不同的、与所述话语(304)对应的所述接收到的音频数据(302)的相应的增强副本。

10.根据权利要求1-9中任一项所述的方法(500)，其特征在于，生成所述一对正音频数据示例包括(312)，基于对所述话语(304)的单次观察，生成所述一对正音频数据示例(312)中的每个正音频数据示例(312)。

11.一种系统(100)，其特征在于，包括：

数据处理硬件(610)；和

与所述数据处理硬件(610)通信的存储器硬件(620)，所述存储器硬件(620)存储指令，所述指令在所述数据处理硬件(610)上执行时使所述数据处理硬件(610)执行以下操作：

接收与话语(304)对应的音频数据(302)；

使用神经网络编码器(210)生成相应的编码器输出的序列(212)；

12.根据权利要求11所述的系统(100)，其特征在于，所述CNN(340)包括第一CNN层，随后是修正线性激活函数(ReLu)激活和层归一化层，以及具有线性激活的第二CNN层。

13.根据权利要求11或12所述的系统(100)，其特征在于，所述数据增强模块(310)添加噪声、混响中的至少一个，或操纵所述接收到的音频数据(302)的时序。

14.根据权利要求11-13中任一项所述的系统(100)，其特征在于，所述语音识别模型(200)包括序列变换器模型，所述序列变换器模型具有基于Conformer的编码器和长短期记忆(LSTM)解码器。

15.根据权利要求14所述的系统(100)，其特征在于，所述基于Conformer的编码器包括Conformer层的堆叠，每个所述Conformer层包括一系列多头自注意力、深度卷积和前馈层。

16.根据权利要求11-15所述的系统(100)，其特征在于，所述操作还包括：

17.根据权利要求11-16中任一项所述的系统(100)，其特征在于，为所述一对正音频数据示例(312)中的每个相应的正音频数据示例(312)生成对应的语音识别结果(322)包括，使用解码器(320)来确定所述相应的编码器输出的序列(212)的可能的语音识别假设上的概率分布(322)。

18.根据权利要求11-17中任一项所述的系统(100)，其特征在于，所述操作还包括，通过将所述相应的正音频数据示例(312)的所述对应的语音识别结果(322)与所述相应的正音频数据示例(312)的对应的基准真值转录(305)进行比较来确定所述相应的监督损失项(335)。

19.根据权利要求11-18中任一项所述的系统(100)，其特征在于，所述一对正音频数据示例(312)中的每个正音频数据示例(312)包括与所述一对正音频数据示例(312)中的每个其他正音频数据示例(312)不同的、与所述话语(304)对应的所述接收到的音频数据(302)的相应的增强副本。

20.根据权利要求11-19中任一项所述的系统(100)，其特征在于，生成所述一对正音频数据示例包括(312)，基于对所述话语(304)的单次观察，生成所述一对正音频数据示例(312)中的每个正音频数据示例(312)。