CN115210809A

CN115210809A - 流式传输序列模型的一致预测

Info

Publication number: CN115210809A
Application number: CN202180017862.3A
Authority: CN
Inventors: 陈哲怀; 安德鲁·罗森伯格; 布瓦那·拉马巴德兰; 佩德罗·J·莫雷诺门吉巴尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-03-04
Filing date: 2021-02-08
Publication date: 2022-10-18
Also published as: US11929060B2; WO2021178108A1; JP2023509234A; US20210280170A1; JP7359969B2; KR20220148245A; EP4088276A1

Abstract

一种用于训练语音识别模型(200)的方法(600)包括接收训练话语对(302)的集合，每个训练话语对(302)包括相同对应话语(106)的非合成语音表示(304)和合成语音表示(306)。该方法还包括基于针对对应非合成语音表示生成的可能非合成语音识别假设上的第一概率分布(311)和针对对应合成语音表示生成的可能合成语音识别假设上的第二概率分布(312)，确定对应训练话语对的一致损失项(352)。生成第一和第二概率分布以用于由语音识别模型输出。该方法还包括基于一致损失项来更新语音识别模型的参数。

Description

流式传输序列模型的一致预测

技术领域

本公开涉及流式传输序列模型的一致预测。

背景技术

自动语音识别(ASR)，获取音频输入并将其转录为文本的过程，已成为在移动设备和其他设备中使用的重要技术。通常，自动语音识别试图通过获取音频输入(例如，语音话语)并将音频输入转录成文本来提供对人已经说的内容的准确转录。基于深度神经网络的持续发展，现代ASR模型在准确性(例如，低单词错误率(WER))和时延(例如，用户说话和转录之间的延迟)两个方面都继续提高。然而，开发基于深度学习的ASR模型的一个挑战是ASR模型的参数倾向于过度拟合训练数据，从而导致ASR模型在训练数据不够广泛时难以普遍化看不见的数据。因此，在更大的训练数据集上训练ASR模型改进了ASR模型的准确性。合成语音和/或数据增强语音能够被并入以增加被用于训练ASR模型的训练数据量。

发明内容

本公开的一个方面提供了计算机实现的方法，该方法当在数据处理硬件上被执行时使数据处理硬件执行操作。该操作包括接收训练话语对的集合，每个训练话语对包括对应话语的非合成语音表示和对应话语的合成语音表示。在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处，操作还包括：生成对应话语的对应非合成语音表示的可能非合成语音识别假设上的第一概率分布，以用于由语音识别模型输出；生成对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布，以用于由语音识别模型输出；以及基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布，确定对应训练话语对的一致损失项。该操作还包括基于在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定的一致损失项，来更新语音识别模型的参数。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作进一步包括：在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处，基于对应话语的对应非合成语音表示的可能非合成语音识别假设上的第一概率分布，生成非合成语音损失项，并且基于对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布和对应话语的真实(ground-truth)事务，生成合成语音损失项。在一些示例中，基于一致损失项，更新语音识别模型的参数，所述一致损失项不依赖于在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处生成的非合成和合成语音损失项而在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定。

可选地，每个训练话语对中的合成语音表示可以包括表示对应话语的合成语音。在一些实施方式中，针对每个训练话语对，操作进一步包括：使用文本到语音(TTS)模型转换对应话语的真实转录以生成对应的合成语音表示。对于至少一个训练话语对，操作可以进一步包括将数据增强应用到对应的非合成语音表示或对应的合成语音表示中的至少。这里，所应用的数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。

在一些示例中，确定对应训练话语对的一致损失项是基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布之间的Kullback-Leibler散度。在这些示例中，在确定一致损失项或对应的训练话语对之前，并且当语音识别模型包括基于帧对准的变换器模型时，操作可以进一步包括：基于对应话语的真实转录的有效对准概率，针对在每个输出步处生成的可能非合成语音识别假设上的第一概率分布序列以及在每个输出步处生成的可能合成语音识别假设上的第二概率分布序列，定义有效对准分布。这里，有效对准分布在表示对应话语的真实转录的输出标签序列中的每个输出标签上被定义。

在一些实施方式中，语音识别模型包括基于帧对准的变换器模型。在这些实施方式中，基于帧对准的变换器模型包括循环神经网络变换器(RNN-T)模型。可选地，语音识别模型可以包括基于对准的编码器解码器模型。

本公开的另一个方面提供了系统，该系统包括数据处理硬件和与数据处理硬件通信并存储指令的存储器硬件，所述指令在数据处理硬件上被执行时使数据处理硬件执行操作。操作包括接收训练话语对的集合，每个训练话语对包括对应话语的非合成语音表示和对应话语的合成语音表示。在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处，操作还包括：生成对应话语的对应非合成语音表示的可能非合成语音识别假设的第一概率分布，以用于由语音识别模型的输出；生成对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布，以用于由语音识别模型输出；以及基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布，确定对应的训练话语对的一致损失项。操作还包括基于在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定的一致损失项来更新语音识别模型的参数。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，操作进一步包括：在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处，基于针对对应话语的对应非合成语音表示的可能非合成语音识别假设上的第一概率分布，生成非合成语音损失项，并且基于对应话语的对应合成语音表示的可能合成语音识别假设上的第二概率分布和对应话语的真实事务，生成合成语音损失项。在一些示例中，基于一致损失项来更新语音识别模型的参数，所述一致损失项不依赖于在训练话语对集合中的每个训练话语对的多个输出步中的每个输出步处生成的非合成和合成语音损失项而在训练话语对的集合中的每个训练话语对的多个输出步中的每个输出步处确定。

可选地，每个训练话语对中的合成语音表示可以包括表示对应话语的合成语音。在一些实施方式中，对于每个训练话语对，操作进一步包括：使用文本到语音(TTS)模型转换对应话语的真实转录，以生成对应的合成语音表示。对于至少一个训练话语对，操作可以进一步包括将数据增强应用到对应的非合成语音表示或对应的合成语音表示中的至少。这里，所应用的数据增强可以包括添加噪声、添加混响或操纵定时中的至少一个。

在一些示例中，确定对应训练话语对的一致损失项是基于可能非合成语音识别假设上的第一概率分布和可能非合成语音识别假设上的第二概率分布之间的Kullback-Leibler散度。在这些示例中，在确定一致损失项或对应的训练话语对之前，并且当语音识别模型包括基于帧对准的变换器模型时，操作可以进一步包括：基于对应话语的真实转录的有效对准概率，针对在每个输出步处生成的可能非合成语音识别假设上的第一概率分布序列以及在每个输出步处生成的可能合成语音识别假设上的第二概率分布序列，来定义有效对准分布。这里，有效对准分布在表示对应话语的真实转录的输出标签序列中的每个输出标签上被定义。

本公开的一个或多个实施方式的细节在附图和以下描述中阐述。从描述和附图以及从权利要求中，其他方面、特征和优点将是显而易见的。

附图说明

图1是示例语音识别系统的示意图。

图2A是循环神经网络变换器(RNN-T)模型架构的示意图。

图2B是基于注意力的编码器解码器(AED)模型架构的示意图。

图3是用于促进语音识别模型以学习对非合成语音和合成语音两者的一致预测的示例训练过程的示意图。

图4是针对相同的对应话语的非合成和合成语音表示使用图2B的AED模型架构由语音识别模型输出的语音识别结果的示意图。

图5是针对相同的对应话语的非合成和合成语音表示使用图2A的RNN-T模型架构由语音识别模型输出的语音识别结果的示意图。

图6是训练语音识别模型的方法的操作的示例布置的流程图。

图7是可以被用于实现本文描述的系统和方法的示例计算设备的示意图。

在不同的附图中相同的附图标记指示相同的元件。

具体实施方式

随着从音频映射到字符序列的序列到序列(Seq2Seq)模型的引入，自动语音识别已经取得了巨大进步。同时，文本到语音(TTS)或语音合成系统已成功应用Seq2Seq模型来获得人耳不能将其与人类语音分辨的最先进的自然、真实发声的合成语音。

开发基于深度学习的ASR模型的一个挑战是ASR模型的参数倾向于过度拟合训练数据，从而导致ASR模型在训练数据不够广泛时难以普遍化看不见的数据。因此，在更大的训练数据集上训练ASR模型改进了ASR模型的准确性。本文的实施方式针对使用用于训练ASR模型的合成语音，来在具有较少可用的人类语音训练数据的情况下维持ASR模型的准确性，并且还在大量训练数据可用时改进ASR模型的性能。在这里，合成语音具有显著限制训练模型所需的标记人类语音的数量的可能性，同时还提供了跨不同域迁移ASR模型的灵活性。

通常，尽管有最先进的合成语音与人类语音难以区分的实例，合成语音的使用已显示出与人类语音不同地影响着ASR训练。合成语音和人类语音之间的此差距归因于合成语音数据与人类语音数据的误匹配，所述误匹配是由TTS系统正在试图解决的困难的一对多映射问题引起的。即，虽然可用合成语音的聚合质量非常高，但合成语音比人类语音表现出少得多的变化以及最小的语音不流畅性。因此，排他地在合成语音数据上训练ASR模型呈现出在推断期间普遍化真实的语音话语的困难。

本文的实施方式针对在相同训练话语的真实/人类语音和合成语音表示上训练ASR模型，并引入一致损失项以促进对相同训练话语的真实/人类和合成表示的一致预测(例如语音识别假设)。简而言之，相同话语的人类和合成表示之间的一致损失项通过鼓励ASR模型在人类语音和合成语音的训练话语上表现一致，来提供无监督的训练方面。附加的实施方式包括应用数据增强技术，诸如通过改变合成的说话人特性来合成训练话语的不同实现，以促进对说话人差异的鲁棒性。

图1示出了实现ASR模型200的自动语音识别(ASR)系统100，该ASR模型200驻留在用户104的用户设备102上和/或与用户设备102通信的远程计算设备201(例如，在云计算环境中执行的分布式系统的一个或多个服务器)上。虽然用户设备102被描绘为移动计算设备(例如，智能电话)，但用户设备102可以对应于任何类型的计算设备，诸如但不限于，平板设备、膝上型/台式计算机、可穿戴设备、数字助理设备、智能扬声器/显示器、智能电器、汽车信息娱乐系统或物联网(IoT)设备，并配备有数据处理硬件111和存储器硬件113。

用户设备102包括音频子系统108，该音频子系统108被配置为接收由用户104说出的话语106(例如，用户设备102可以包括一个或多个麦克风，用于记录说出的话语106)并将话语106转换成与能够由ASR系统100处理的输入声学帧110相关联的对应数字格式。在所示示例中，用户针对短语“What is the weather in New York City？(纽约市的天气如何)？”以英语的自然语言说出相应话语106，并且音频子系统108将话语106转换成对应的声学帧110以输入到ASR系统100。此后，ASR模型200接收与话语106对应的声学帧110作为输入，并且生成/预测话语106的对应转录120(例如，识别结果/假设)作为输出。在所示示例中，用户设备102和/或远程计算设备201还执行用户接口生成器107，所述用户接口生成器107被配置为向用户设备102的用户104呈现话语106的转录120的表示。在一些配置中，从ASR系统100输出的转录120例如通过在用户设备102或远程计算设备201上执行的自然语言理解(NLU)模块被处理，以执行用户命令。附加地或可替代地，文本到语音系统(例如，在用户设备102或远程计算设备201的任何组合上执行)可以将转录转换成合成语音以用于另一个设备的可听输出。例如，原始话语106可以对应于用户104正在发送给朋友的消息，在该消息中转录120被转换为合成语音，以用于对朋友的可听输出以收听原始话语106中传达的消息。

参考图如图2A和2B所示，ASR模型200可以包括端到端(E2E)序列到序列模型，诸如基于帧对准的变换器模型200a(图2A)或基于注意力的编码器解码器(AED)模型200b(图2B)。ASR模型200可以通过将声学、发音和语言模型集成到单个神经网络中来提供E2E语音识别，并且不需要词典或单独的文本标准化组件。各种结构和优化机制能够提供增加的准确性和减少的模型训练时间。

参考图2A，示例基于帧对准的变换器模型200a包括循环神经网络变换器(RNN-T)模型架构，其遵守与交互式应用相关联的延迟约束。RNN-T模型200a提供了较小的计算占用并使用比传统ASR架构更少的存储器需求，使得RNN-T模型架构适合完全在用户设备102上执行语音识别(例如，不需要与远程服务器的通信)。RNN-T模型200a包括编码器网络210、预测网络220和联合网络230。大致类似于传统ASR系统中的声学模型(AM)的编码器网络210包括堆叠的长短期记忆(LSTM)层的循环网络。例如，编码器读取d维特征向量序列(例如，声学帧110(图1))x＝(x₁,x₂,···,x_T)，其中

并在每个时间步产生更高阶特征表示。该更高阶特征表示被表示为

类似地，预测网络220也是LSTM网络，其与语言模型(LM)相似，将到目前为止由最终Softmax层240输出的非空白符号序列y₀,...,y_ui-1处理成稠密的表示

最后，利用RNN-T模型架构，由编码器和预测网络210、220产生的表示由联合网络230组合。然后联合网络预测

这是下一个输出符号的分布。换句话说，联合网络230在每个输出步(例如，时间步)生成可能的语音识别假设的概率分布。这里，“可能的语音识别假设”对应于输出标签集合，每个输出标签表示指定自然语言的符号/字符。例如，当自然语言是英语时，输出标签集合可以包括二十七(27)个符号，例如，用于英文字母表中的26个字母中的每个字母的一个标签和指定空格的一个标签。因此，联合网络230可以输出指示预定的输出标签集合中的每个输出标签的出现的可能性的值的集合。该值的集合能够是向量，并且能够指示输出标签集合的概率分布。在一些情况下，输出标签是字素(例如，单个字符，以及可能地标点符号和其他符号)，但输出标签的集合不受此限制。例如，除了字素之外或代替字素，输出标签集合还能够包括单词片段和/或整个单词。联合网络230的输出分布能够包括每个不同输出标签的后验概率值。因此，如果存在表示不同的字素或其他符号的100个不同的输出标签，则联合网络230的输出y_i能够包括100个不同的概率值，每个输出标签一个概率值。概率分布然后能够被用于在束搜索过程(例如，通过Softmax层240)中选择和分配分数到候选拼写元素(例如，字素、单词片段和/或单词)，以用于确定转录120。

Softmax层240可以采用任何技术来选择在分布中具有最高概率的输出标签/符号作为由RNN-T模型200a在对应的输出步预测的下一个输出符号。以这样的方式，RNN-T模型200a不做出条件独立性假设，而是每个符号的预测不仅以声学为条件，而且以到目前为止输出的标签序列为条件。RNN-T模型200a确实假设输出符号不依赖于未来的声学帧110，这允许RNN-T模型以流式传输方式来被采用。

在一些示例中，RNN-T模型200a的编码器网络210由八个2,048维LSTM层组成，每层后面有640维投影层。预测网络220可以具有两个2048维的LSTM层，每层后面还有640维投影层。最后，联合网络230也可以具有640个隐藏单元。Softmax层240可以由使用多个训练数据集合301(图3)中的所有独特单词片段或字素生成的一体的单词片段或字素集合组成。

参考图2B，示例AED模型200b与提供单个神经网络的收听、注意力和拼写(LAS)模型架构相关联，该单个神经网络包括类似于传统声学模型的收听器编码器模块211、充当对准模型的注意器(attention)模块221，以及类似于传统系统中的语言模型的解码器231。特别地，收听器编码器模块211获取输入特征(例如，声学帧110(图1))x，并将它们映射到更高级别的特征表示h^enc。这个生成编码特征表示h^enc的过程能够针对多个输入帧中的每个输入帧来被完成，表示不同的输入时间步。这些时间步在下面利用下标u表示。因此，对于帧集合{f₁,f₂,f₃,...f_u}，能够存在对应的编码输出集合{h₁,h₂,h₃,...h_u}。

收听器编码器模块211的输出被传递到注意器模块221，注意器模块221确定h^enc中的哪些编码器特征应该被注意以便预测下一个输出符号y_i，类似于动态时间规整(DTW)对准模块。在一些示例中，注意器模块221在这里被称为注意器神经网络或注意器221。注意器221能够针对多个输出步i中的每个输出步生成上下文输出c_i。对于每个上下文输出向量c_i，注意器221能够基于一个或多个输入步u的编码——例如当前输入步的编码以及先前输入步的编码——来计算注意力。例如，注意器221能够在话语的所有编码器输出的集合——例如整个集合{h1，h2，h3，...hu}上——生成注意力上下文输出c_i。注意力上下文向量能够是表示被识别话语的帧(例如，部分)的当前和先前编码的加权总结的向量。

最后，注意器221的输出被传递到解码器231，解码器231取得注意器221输出的注意力上下文(例如，上下文向量或注意力分布)c_i，以及先前预测的嵌入y_i-1，以产生解码器输出。解码器输出能够是给定先前单元{y_i-1,...,y₀}和输入x，当前子单词单元y_i的概率分布，P(y_i|y_i-1,...,y₀,x)。因此，解码器231在每个输出步处生成可能的语音识别假设的概率分布。如上面参考图2A讨论的RNN-T模型200a，“可能的语音识别假设”对应于输出符号的集合，每个输出符号表示指定自然语言的符号/字符。

尽管未示出，ASR模型200可以包括接收解码器231的输出的softmax层。在一些实施方式中，softmax层与解码器231分离并且处理来自解码器231的输出y_i，并且softmax层的输出然后被用于束搜索过程以选择拼写元素。在一些实施方式中，softmax层与解码器231集成在一起，使得解码器231的输出yi表示softmax层的输出。

解码器231和/或相关联的softmax层可以被训练以输出指示输出标签的预定集合中的每个输出标签出现的可能性的值的集合。该值的集合能够是向量，并且能够指示输出标签的集合上的概率分布。在一些情况下，输出标签是字素(例如，单个字符，以及可能地标点符号和其他符号)，但输出标签的集合不受此限制。例如，除了字素之外或代替字素，输出标签的集合还能够包括单词片段和/或整个单词。解码器231和/或softmax层的输出分布能够包括每个不同输出标签的后验概率值。因此，如果存在表示不同的字素或其他符号的100个不同的输出标签，则解码器的输出y_i或接收和处理输出y_i的softmax层的输出能够包括100个不同的概率值，每个输出标签一个概率值。概率分布然后能够被用于束搜索过程中选择和分配分数给候选拼写元素(例如，字素、单词片段和/或单词)，以用于确定转录。

参考图3，用于促进ASR模型200学习对非合成语音(例如，真实/人类语音)和合成语音(例如，被合成的语音)两者的一致预测的示例训练过程300包括：在相同训练话语的非合成和合成语音表示304、306的训练话语对302(也称为“训练音频对”)之间生成一致损失项

352。简而言之，相同训练话语的非合成和合成语音表示之间的一致损失项通过以下来提供无监督的训练方面：鼓励ASR模型200表现一致，无论训练话语属于非合成语音还是合成语音并且不依赖于真实转录308和以下每个之间的监督损失项：ASR模型200输出的非合成语音识别假设；以及由ASR模型200输出的合成语音识别假设。

训练过程300可以在图1的远程计算设备201上执行。例如，远程计算设备201包括数据处理硬件710(图7)和与数据处理硬件通信并存储指令的存储器硬件720(图7)，所述指令在数据处理硬件710上被执行时使得数据处理硬件710执行训练过程300的操作。在所示示例中，训练过程300接收训练话语对302的集合并且每个训练话语对302包括对应话语的非合成语音表示304(例如，人类/真实语音)和相同对应话语的合成语音表示306。每个训练话语对302还与对应话语的相同真实转录320相关联。在一些实施方式中，非合成语音表示304最初可以与真实转录320配对。例如，每个非合成语音表示304可以由人类收听者手工转录。在这些实施方式中，文本到语音(TTS)模块330可以将对应话语的真实转录320转换成合成语音表示306以提供对应的训练话语对302。这里，非合成语音表示304与由TTS模块330通过将与真实转录320相关联的文本转换成合成音频而生成的合成语音相关联。TTS模块330可以在转换真实转录(y*)320时应用说话者嵌入z，以获得具有与说话人嵌入相关联的特定说话风格和韵律的合成语音。这里，真实转录(y*)320与在其中TTS模块330生成新的合成语音表示

306的用于监督数据增强的源相关联，该合成语音表示

具有和与真实转录(y*)320相关联的非合成语音表示(x)304一致的期望。

在一些示例中，训练过程300将数据增强应用到训练话语对302中的至少一个的非合成语音表示304或合成语音话语表示306中的至少一个。数据增强可以包括不限于：添加噪声、操纵定时(例如，拉长)或将混响添加到对应的语音表示。

ASR模型200接收作为特征/向量序列(例如，图1的声学帧110)的对应话语的非合成语音表示(x)304作为输入，并且对于多个输出步中的每个输出步，针对对应话语的对应非合成语音表示(x)304，生成可能的非合成语音识别假设(y)的第一概率分布311作为输出。为简单起见，术语“非合成语音识别结果311”可以被用于指代针对对应的非合成语音表示(x)304的可能的非合成语音识别假设(y)上的第一概率分布311。ASR模型200还接收作为特征/向量序列(例如，图1的声学帧110)的对应话语的合成语音表示

作为输入，并且对于多个输出步中的每个输出步，生成在针对对应话语的对应合成语音表示

306的可能的合成语音识别假设(y)上的第二概率分布312作为输出。为简单起见，术语“合成语音识别结果312”可以被用于可互换地指代对应合成语音表示

306的可能合成语音识别假设(y)上的第二概率分布312。

如训练传统的端到端序列到序列ASR模型，训练过程300针对多个输出步中的每个输出步处ASR模型200的输出，基于对应话语的对应非合成语音表示(x)304的真实转录320和非合成语音识别结果311(y)，生成包括非合成语音损失项

342的第一监督损失项。在所示示例中，训练过程300执行监督损失项模块340，该监督损失项模块340被配置为接收真实转录320和第一概率分布311并输出非合成语音损失项

342。包括非合成语音损失项

342的第一监督损失项可以通过以下等式计算。

此外，训练过程300在多个输出步中的每个输出步处，基于真实转录320和针对对应话语的对应合成语音表示

306的可能合成语音识别假设(y)上的第二概率分布312，生成包括合成语音损失项

344的第二监督损失项。在所示示例中，训练过程300执行监督损失项模块340，该监督损失项模块340被配置为接收真实转录320和第二概率分布312并输出合成语音损失项

344。包括合成语音损失项

344的第二监督损失项可以通过以下等式计算。

其中y*、z表示由TTS模块330基于真实转录(y*)和说话者嵌入(z)生成的合成语音表示

306。

监督损失项模块340可以将非合成语音损失项

342和合成语音损失项

344提供回到ASR模型200。例如，训练过程300可以使用诸如随机梯度下降的随机优化算法来训练ASR模型200，以通过反向传播来训练ASR模型200。这里，随机优化算法使用损失项342、344来基于神经网络的实际输出(例如，非合成语音识别和合成语音识别结果311、312)与期望输出(例如，对应话语的真实转录320)之间的差异来定义相应的损失函数(例如，交叉熵损失函数)。例如，损失函数针对训练示例批量来被计算，并且然后关于ASR模型200中的每个权重来被微分。在批量训练中，非合成语音损失项

342可以与针对非合成语音表示304的相应批量获得的平均损失对应，并且合成语音损失项

344可以与针对合成语音表示306的相应批量获得的平均损失对应。此外，可以在非合成和合成语音表示304、306的对应批量上并行训练ASR模型200，使得监督损失项模块340并行输出对应的非合成和合成语音损失项342、344。

在所示示例中，训练过程300进一步基于可能的非合成语音识别假设上的第一概率分布311和可能的非合成语音识别假设上的第二概率分布312，针对每个训练话语对302在多个输出步中的每个输出步处确定针对对应训练话语对302的一致损失项

352。例如，训练过程300可以采用一致损失项模块350，该一致损失项模块350被配置为在每个输出步接收对应非合成语音和由ASR模型200输出的合成语音识别结果311、312，并且针对对应训练话语对302在输出步确定一致损失项352。

在一些示例中，训练过程300基于可能的非合成语音识别假设上的第一概率分布311和可能的非合成语音识别假设上的第二概率分布312之间的Kullback-Leibler散度(D_KL)来确定一致损失项352。基于D_KL的一致损失项352可以由以下等式表示。

这里，针对训练话语对302在每个输出步处确定的一致损失项352提供了“无监督”损失项，该“无监督”损失项不依赖于ASR模型的准确性(例如，不依赖于监督损失项342、344)，并且因此，可以被用于更新ASR模型200的参数，以促进相同话语的非合成和合成语音表示之间的一致。在批量训练中，一致损失项352可以与针对批量获得的平均损失项对应。换言之，一致损失项352允许ASR模型200学习表现相同，例如，对相同训练话语的非合成语音(例如，真实/人类语音)和合成语音(例如，合成语音)做出一致的预测，无论训练话语属于非合成语音还是合成语音。在所示示例中，训练过程300被配置为从监督损失项模块340输出对应非合成和合成语音损失项342、344，并且并行从一致损失项模块350输出一致损失项352。

有利地，然后能够在合成语音的大数据集合上进一步训练ASR模型200，而不必依赖非合成语音训练示例，或者至少相对于合成语音表示的数目来减少非合成语音训练示例的数目，以在推断期间为人类话语产生准确的语音识别结果。因此，由于合成语音能够从未配对的文本动态被生成以用于在新的域中训练ASR模型200，ASR模型200能够快速迁移到新域，而不必依赖域内转录的非合成语音。在一个示例用例中，通过增加从非配对文本生成的合成语音的语音训练示例的数目，针对识别其中转录的非合成语音难以获得的自然语言中的语音能显著提高ASR模型200的准确度。

图4示出了基于由基于注意力的编码器解码器(AED)模型200b(图2B)生成的非合成和合成语音识别结果311、312之间的D_KL的一致损失项352的示意图400。在所示示例中，非合成语音识别结果序列311与英语单词“WORD(单词)”的训练话语的非合成语音表示304相关联，并且合成语音识别结果序列312与英语单词“WORD”的相同训练话语的合成语音表示306相关联。AED模型200b针对训练话语的非合成语音表示304在多个输出步的每个输出步处生成对应的非合成语音识别结果311，311a-d。虽然在实践中，在每个输出步处的非合成语音识别结果311a-d表示可能的非合成语音识别假设上的概率分布，但为简单起见，所示示例仅示出描绘了与可能的非合成语音识别假设上的概率分布中的最高的概率相关联的非合成语音识别假设的非合成语音识别结果311。例如，第一输出步处的第一非合成语音识别结果311a包括字符“W”的输出标签，第二输出步处的第二非合成语音识别结果311b包括字符“O”的输出标签，第三输出步处的第三非合成语音识别结果311c包括字符“R”的输出标签，第四输出步处的第四非合成语音识别结果311d包括字符“D”的输出标签。虽然未示出，但相应的非合成语音损失项

342可以在每个输出步基于非合成语音识别结果311和从真实转录320获得的输出步的真实标签y*来确定。

AED模型200b类似地针对训练话语302的合成语音表示306在多个输出步中的每个输出步处生成对应的合成语音识别结果312，312a-d。为简单起见，示例仅示出描述了与可能的合成语音识别假设上的概率分布中的最高概率相关联的合成语音识别假设的每个输出步处的合成识别结果312a-d。例如，第一输出步处的第一合成语音识别结果312a包括字符“W”的输出标签，第二输出步处的第二合成语音识别结果312b包括字符“A”的输出标签，第三输出步处的第三合成语音识别结果312c包括字符“R”的输出标签，以及第四输出步处的第四合成语音识别结果312d包括字符“D”的输出标签。虽然未示出，但相应的合成语音损失项

344可以在每个输出步处基于合成语音识别结果312和从真实转录320获得的输出步的真实标签y*来确定。例如，由于模型错误地预测了合成语音表示的字符“A”而不是“O”，因此在第二输出步处的相应合成语音损失项

344可能高于相应的非合成损失项342。尽管示例描绘了包括字素的语音识别结果311、312的输出标签，但训练过程300可以类似地预测单词片段或音素的输出标签。

AED模型200b方便地将非合成语音识别结果311a-d的输出序列与合成语音识别结果312a-d的输出序列对准。因此，基于在每个输出步生成的非合成和合成语音识别结果311、312之间的D_KL，能够使用等式(3)在每个输出步处确定一致损失项352。值得注意的是，在每个输出步确定的一致损失项352不依赖于实际监督损失项342、344。作为说明性示例，当在第一输出步处非合成语音识别结果311a和合成语音识别结果312a两者都是正确的时，例如“W”，与非合成语音识别结果311a相关联的概率/分数可能不同于与合成语音识别结果312a相关联的概率/分数。

图5示出了基于由基于帧对准的变换器模型200a(例如，RNN-T(图2A))生成的非合成和合成语音识别结果311、312之间的D_KL的一致损失项352的示意图500。在所示示例中，非合成语音识别结果311与英语单词“WORD”的训练话语的非合成语音表示304相关联，并且合成语音识别结果312与英语单词“WORD”的相同训练话语的合成语音表示306相关联。与AED模型200a相比，RNN-T模型200a的流式传输特性导致在每个输出步处的非合成和合成语音识别结果311、312之间的未对准。这里，每个输出步的非合成语音识别结果311a-g与非合成语音表示304a-g的对应输入帧110对准，并且每个输出步处的合成语音识别结果312a-g与合成语音表示306a-g的对应输入帧110对准。该未对准是由于RNN-T模型在时域的输出步中发出的空白符号ε以使得能够以流式传输方式实现语音识别，例如，减轻在开始计算之前等待所有音频的需要。由于RNN-T模型200a在每个时间步处输出的非合成和合成语音识别结果311、312之间的未对准，一致损失项352不能基于在每个输出步处生成的非合成和合成语音识别结果311、312之间的D_KL，使用等式(3)在每个输出步处简单地确定。例如，在所示的示例中，RNN-T模型200a针对在第一、第三、第四和第七非合成语音识别结果311a、311c、311d、311g处的字符“W”、“O”、“R”和“D”分别发出非空白输出标签，而在针对在第二、第三、第五和第六非合成语音识别结果312b、312c、312e、312f处的字符“W”、“A”、“R”和“D”分别发出非空白输出标签。尽管示例描绘了包括字素的语音识别结果311、312的输出标签，训练过程300可以类似地预测单词片段或音素的输出标签。

为了计算与RNN-T模型200a相关联的一致损失项352，实施方式首先包括如下基于真实转录y*的有效对准概率来定义分布φ(u)^RNNT。

其中，分布φ(u)^RNNT是在真实转录y*中的每个输出标签上定义的，而不是如上面的AED模型200b那样在整个标签集合L上定义。

应用前向和后向概率的标准定义，真实转录y*中的输出标签的后验能够被定义为如下所有可能对准的概率之和。

其中，α(t，u)表示在对准点阵中的帧1到t期间输出y_1:u的前向概率，并且β(t，u)表示在帧t到T期间输出y_u+1:U的后向概率，其中U是话语中输出标签的数目，并且T是话语中输入帧的数目。因此，帧t和输出u处的每个RNN-T预测q(t,u)如下由直到帧t的特征序列和直到输出u的转录序列给出。

在一些示例中，应用以下等式来优化真实输出的后验。

其中标志(token)后验的梯度如下来被提供。

最后，每个输出能够使用以下等式在所有输入帧上来被边缘化。

因此，对于真实转录中的每个输出标签y_u∈y^*，等式(9)的边缘化分布能够被用于考虑整个真实标签序列的后验，以用于使用等式(3)在每个输出步处确定一致损失项352。本质上，为了计算由基于帧对准的变换器模型200a(例如，RNN-T(图2A))预测的两个输出序列之间的一致损失，应用等式(4)至(9)来确定具有由RNN-T模型200a预测/输出的输出标签序列的概率，不依赖于预测的输出标签序列与输入帧的实际对准，该输出标签序列与表示真实转录的输出标签序列对准。

图6是用于训练语音识别模型的方法600的操作的示例布置的流程图。ASR模型200可以包括基于注意力的编码器解码器(AED)模型200b(图2B)或基于帧对准的变换器模型200a(图2A)。在操作602处，方法600包括接收训练话语对302的集合。每个训练话语对302包括对应话语的非合成语音表示304和相同对应话语的合成语音表示306。在训练话语对的集合中的每个训练话语对302的多个输出步中的每个输出步处：方法600还包括在操作604处，对于ASR模型200的输出，生成针对对应话语的对应非合成语音表示304的可能的非合成语音识别假设上的第一概率分布311；在操作606处，对于ASR模型200的输出，生成针对对应话语的对应合成语音表示306的可能的合成语音识别假设上的第二概率分布312；以及在操作608处，基于可能的非合成语音识别假设上的第一概率分布311和可能的非合成语音识别假设上的第二概率分布312，确定针对对应的训练话语对302的一致损失项352。在操作610处，方法600还包括基于针对训练话语对的集合中的每个训练话语对在多个输出步中的每个输出步处确定的一致损失项352，来更新ASR模型200的参数。

虽然本文的示例确定相同话语的非合成语音和合成语音表示之间的一致损失项352，但本文的技术可以类似地应用于确定其他类型的数据集之间的一致损失项，诸如，不限于此，图像识别和机器翻译。例如，包括对应对象的非合成图像(或非合成图像的像素或像素序列)表示以及相同对应对象的合成图像(或合成图像的像素序列中的像素)表示的训练图像对可以被馈送到基于帧对准的变换器模型200a或AED模型200b中的任一个，用于训练模型200a、200b以学习识别对应对象。在一个示例中，对象可以是诸如狗的动物，并且真实标签集合可以包括将非合成和合成图像对指定为“dog(狗)”的标签。也可以提供其中非合成和合成图像对不表示狗的负训练示例，并且因此包括“no dog(没有狗)”的真实标签。

软件应用(即，软件资源)可以指代使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、媒体流式传输应用、社交网络应用和游戏应用。

非暂时性存储器可以是被用于在临时或永久的基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器存储器(EEPROM)(例如，通常被用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图7是可以被用于实现本文档中描述的系统和方法的示例计算设备700的示意图。计算设备700旨在表示各种形式的数字计算机，诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机和其他适当的计算机。这里所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并且不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备700包括处理器710、存储器720、存储设备730、连接到存储器720和高速扩展端口750的高速接口/控制器740、以及连接到低速总线770和存储设备730的低速接口/控制器760。组件710、720、730、740、750和760中的每一个都使用各种总线互连，并且可以被安装在公共主板上或以其他适当的方式安装。处理器710能够处理用于在计算设备700内执行的指令，包括存储在存储器720或存储设备730上的指令，以在诸如耦合到高速接口740的显示器780的外部输入/输出设备上显示用于图形用户界面(GUI)的图形信息。在其他实施方式中，可以适当使用多个处理器和/或多个总线以及多个存储器和多个类型的存储器。而且，可以连接多个计算设备700，每个设备提供部分必要操作(例如，作为服务器库、刀片服务器组或多处理器系统)。

存储器720在计算设备700内非暂时性地存储信息。存储器720可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器720可以是被用于在临时或永久基础上存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备700使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常被用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备730能够为计算设备700提供大容量存储。在一些实施方式中，存储设备730是计算机可读介质。在各种不同的实施方式中，存储设备730可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备、或设备阵列，包括在存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含在被执行时执行诸如上述那些的一个或多个方法的指令。信息载体是计算机或机器可读介质，诸如存储器720、存储设备730或处理器710上的存储器。

高速控制器740管理计算设备700的带宽密集型操作，而低速控制器760管理较低带宽密集型操作。这样的职责分配只是示例性的。在一些实施方式中，高速控制器740被耦合到存储器720、显示器780(例如，通过图形处理器或加速器)以及可以接收各种扩展卡(未示出)的高速扩展端口750。在一些实施方式中，低速控制器760被耦合到存储设备730和低速扩展端口790。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口790可以例如通过网络适配器来被耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或联网设备，诸如交换机或路由器。

如图所示，计算设备700可以以许多不同的形式实现。例如，它可以作为标准服务器700a实现或者在一组这样的服务器700a中多次实现，作为膝上型计算机700b实现，或作为机架式服务器系统700c的一部分实现。

本文描述的系统和技术的各种实施方式能够在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式能够包括在一个或多个计算机程序中的实施方式，所述一个或多个计算机程序在包括至少一个可编程处理器的可编程系统上是可执行和/或可解释的，所述至少一个可编程处理器可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向其传输数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级别程序性的和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指被用于向可编程处理器提供机器指令和/或数据、包括接收机器指令作为机器可读信号的机器可读介质的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))。术语“机器可读信号”是指被用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程能够由一个或多个可编程处理器(也称为数据处理硬件)施行，执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来施行功能。过程和逻辑流程也能够由专用逻辑电路——例如FPGA(现场可编程门阵列)或ASIC(专用集成电路——施行)。适合于计算机程序执行的处理器包括，例如，通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于施行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括例如磁、磁光盘或光盘的用于存储数据的一个或多个大容量存储设备，或者被可操作地耦合以从所述一个或多个大容量存储设备接收数据或向所述一个或多个大容量存储设备传输数据或两者。然而，计算机不需要具有这样的设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被结合在专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在计算机上实现，所述计算机具有用于向用户显示信息的显示设备——例如，CRT(阴极射线管)、LCD(液晶显示)监视器或触摸屏——以及可选地用户能够通过其向计算机提供输入的键盘和定点设备，例如鼠标或轨迹球。其他类型的设备也能够被用来提供与用户的交互；例如，提供到用户的反馈能够是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入能够以包括声音、语音或触觉输入的任何形式被接收。此外，计算机能够通过向用户使用的设备发送文档和从其接收文档来与用户交互；例如，通过响应从Web浏览器接收到的请求，将网页发送到用户客户端设备上的Web浏览器。

已经描述了许多实施方式。然而，将要理解的是，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种计算机实现的方法(600)，所述方法(600)在由数据处理硬件(710)执行时使所述数据处理硬件(710)执行操作，所述操作包括：

接收训练话语对(302)的集合，每个训练话语对(302)包括：

对应话语的非合成语音表示(304)；以及

所述对应话语的合成语音表示(306)；

在所述训练话语对(302)的集合中的每个训练话语对(302)的多个输出步中的每个输出步处：

生成所述对应话语的对应非合成语音表示(304)的可能非合成语音识别假设上的第一概率分布(311)，以用于由语音识别模型(200)输出；

生成所述对应话语的对应合成语音表示(306)的可能合成语音识别假设上的第二概率分布(312)，以用于由所述语音识别模型(200)输出；以及

基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)来确定所述对应训练话语对(302)的一致损失项(352)；以及

基于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所确定的所述一致损失项(352)，来更新所述语音识别模型(200)的参数。

2.根据权利要求1所述的方法(600)，其中，所述操作进一步包括，在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处：

基于所述对应话语的所述对应非合成语音表示(304)的可能非合成语音识别假设上的所述第一概率分布(311)和所述对应话语的真实转录(120)来生成非合成语音损失项(342)；以及

基于所述对应话语的所述对应合成语音表示(306)的可能合成语音识别假设上的所述第二概率分布(312)和所述对应话语的所述真实转录(120)来生成合成语音损失项(344)。

3.根据权利要求2所述的方法(600)，其中，所述语音识别模型(200)的所述参数是基于所述一致损失项(352)来更新的，所述一致损失项(352)是不依赖于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所生成的所述非合成语音损失项和所述合成语音损失项(342、344)而在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处被确定的。

4.根据权利要求1至3中的任一项所述的方法(600)，其中，每个训练话语对(302)中的所述合成语音表示(306)包括表示所述对应话语的已合成语音。

5.根据权利要求1至4中的任一项所述的方法(600)，其中，所述操作进一步包括：针对每个训练话语对(302)，使用文本到语音TTS模型(330)转换所述对应话语的真实转录(120)以生成所述对应合成语音表示(306)。

6.根据权利要求1至5中的任一项所述的方法(600)，其中，所述操作进一步包括：针对至少一个训练话语对(302)，将数据增强应用于所述对应非合成语音表示(304)或者所述对应合成语音表示(306)中的至少一个。

7.根据权利要求6所述的方法(600)，其中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

8.根据权利要求1至7中的任一项所述的方法(600)，其中，确定所述对应训练话语对(302)的所述一致损失项(352)是基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)之间的Kullback-Leibler散度。

9.根据权利要求8所述的方法(600)，其中，所述操作进一步包括：在确定所述对应训练话语对(302)的所述一致损失项(352)之前，在所述语音识别模型(200)包括基于帧对准的变换器模型(200)时，基于所述对应话语的真实转录(120)的有效对准概率，针对在每个所述输出步处生成的可能非合成语音识别假设上的第一概率分布(311)的序列和在每个所述输出步处生成的可能合成语音识别假设上的第二概率分布(312)的序列，定义有效对准分布。

10.根据权利要求9所述的方法(600)，其中，在表示所述对应话语的所述真实转录(120)的输出标签的序列中的每个输出标签上定义所述有效对准分布。

11.根据权利要求1至10中的任一项所述的方法(600)，其中，所述语音识别模型(200)包括基于帧对准的变换器模型(200a)。

12.根据权利要求11所述的方法(600)，其中，所述基于帧对准的变换器模型(200)包括循环神经网络变换器RNN-T模型(200a)。

13.根据权利要求1至10中的任一项所述的方法(600)，其中，所述语音识别模型(200)包括基于对准的编码器解码器模型(200b)。

14.一种系统(700)，包括：

数据处理硬件(710)；以及

与所述数据处理硬件(710)通信的存储器硬件(720)，所述存储器硬件(720)存储指令，所述指令在所述数据处理硬件(710)上执行时，使所述数据处理硬件(710)执行操作，所述操作包括：

接收训练话语对(302)的集合，每个训练话语对(302)包括：

对应话语的非合成语音表示(304)；以及

所述对应话语的合成语音表示(306)；

15.根据权利要求14所述的系统(700)，其中，所述操作进一步包括，在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处：

16.根据权利要求15所述的系统(700)，其中，所述语音识别模型(200)的所述参数是基于所述一致损失项(352)来更新的，所述一致损失项(352)是不依赖于在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处所生成的所述非合成语音损失项和所述合成语音损失项(342、344)而在所述训练话语对(302)的集合中的每个训练话语对(302)的所述多个输出步中的每个输出步处被确定的。

17.根据权利要求14至16中的任一项所述的系统(700)，其中，每个训练话语对(302)中的所述合成语音表示(306)包括表示所述对应话语的已合成语音。

18.根据权利要求14至17中的任一项所述的系统(700)，其中，所述操作进一步包括：针对每个训练话语对(302)，使用文本到语音TTS模型(330)转换所述对应话语的真实转录(120)以生成所述对应合成语音表示(306)。

19.根据权利要求14至18中的任一项所述的系统(700)，其中，所述操作进一步包括：针对至少一个训练话语对(302)，将数据增强应用于所述对应非合成语音表示(304)或者所述对应合成语音表示(306)中的至少一个。

20.根据权利要求19所述的系统(700)，其中，所应用的数据增强包括添加噪声、添加混响或操纵定时中的至少一个。

21.根据权利要求14-20中的任一项所述的系统(700)，其中，确定所述对应训练话语对(302)的所述一致损失项(352)是基于可能非合成语音识别假设上的所述第一概率分布(311)和可能非合成语音识别假设上的所述第二概率分布(312)之间的Kullback-Leibler散度。

22.根据权利要求21所述的系统(700)，其中，所述操作进一步包括：在确定所述对应训练话语对(302)的所述一致损失项(352)之前，在所述语音识别模型(200)包括基于帧对准的变换器模型(200)时，基于所述对应话语的真实转录(120)的有效对准概率，针对在每个所述输出步处生成的可能非合成语音识别假设上的第一概率分布(311)的序列和在每个所述输出步处生成的可能合成语音识别假设上的第二概率分布(312)的序列，定义有效对准分布。

23.根据权利要求22所述的系统(700)，其中，在表示所述对应话语的所述真实转录(120)的输出标签的序列中的每个输出标签上定义所述有效对准分布。

24.根据权利要求14至23中的任一项所述的系统(700)，其中，所述语音识别模型(200)包括基于帧对准的变换器模型(200a)。

25.根据权利要求24所述的系统(700)，其中，所述基于帧对准的变换器模型(200)包括循环神经网络-变换器RNN-T模型(200a)。

26.根据权利要求14至23中的任一项所述的系统(700)，其中，所述语音识别模型(200)包括基于对准的编码器解码器模型(200b)。