CN117099157A

CN117099157A - 用于端到端自动语音识别置信度和删除估计的多任务学习

Info

Publication number: CN117099157A
Application number: CN202180096393.9A
Authority: CN
Inventors: 大卫·邱; 何彦璋; 张羽; 李秋嘉; 曹亮亮; 伊恩·麦克格劳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-26
Filing date: 2021-12-11
Publication date: 2023-11-21
Also published as: JP2024511176A; EP4315321A1; KR20230158608A; WO2022203731A1; US20220310080A1

Abstract

一种方法(500)包括接收与话语(12)的转录(204)对应的语音识别结果(222)。对于所述语音识别结果的假设子词单元的序列中的每个子词单元，所述方法还包括：当对应的子词单元从第一语音识别器(200)输出时，获得与对应的输出步骤相关联的相应置信度嵌入(242)；生成置信度特征向量(312)；生成声学场境向量(322)；以及基于由所述置信度估计模块的所述输出层作为输入接收的所述置信度特征向量和所述声学场境向量，生成所述对应的子词单元的相应置信度输出得分(302)。所述方法还包括：基于为所述假设子词单元的序列中的每个子词单元生成的所述相应置信度输出得分，确定所述话语的所述转录的话语级置信度得分(350)。

Description

用于端到端自动语音识别置信度和删除估计的多任务学习

技术领域

本公开涉及用于端到端自动语音识别置信度和删除估计的多任务学习。

背景技术

现代自动语音识别(ASR)系统不仅注重提供质量/准确性(例如，低词错率(WER))，而且还注重低延迟(例如，用户说话和转录出现之间的短延迟)。此外，现在使用ASR系统时，需要ASR系统以流式方式解码话语，该流式方式对应于用户说话时实时地或者甚至比实时更快地显示话语的转录。为了说明，当ASR系统部署在体验直接用户交互的移动电话上时，使用ASR系统的移动电话上的应用可以要求语音识别是流式的，使得单词、单词片段和/或单独字符在它们被说出后立即出现在屏幕上。在这里，也可能是移动电话的用户对于延迟的容忍度较低。由于这种低容忍度，语音识别努力以一种将可能对用户体验造成不利影响的延迟和不准确所产生的影响力降到最低的方式在移动设备上运行。

发明内容

本公开的一个方面提供了一种用于端到端自动语音识别置信度和删除估计的多任务学习的计算机实现的方法。当在数据处理硬件上执行时，所述计算机实现的方法使数据处理硬件执行操作，这些操作包括从第一语音识别器接收与用户所说的话语的转录对应的语音识别结果。语音识别结果包括形成话语的转录的一个或多个单词的假设子词单元的序列，每个子词单元在对应的输出步骤处从第一语音识别器输出。使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，所述操作还包括当对应的子词单元从第一语音识别器输出时，获得与对应的输出步骤相关联的相应置信度嵌入。所述操作进一步使用置信度估计模块，以使用第一注意力机制生成置信度特征向量，该第一注意力机制自关注对应的子词单元的相应置信度嵌入和为假设子词单元的序列中的在所述对应的子词单元之前的任何其它子词单元获得的置信度嵌入。所述操作继续使用置信度估计模块，以使用第二注意力机制生成声学场境向量，该第二注意力机制交叉关注编码的序列，每个编码关联于从对应于话语的音频数据分割的对应声学帧。进一步地，所述操作然后使用置信度估计模块，以基于由置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应的子词单元的相应置信度输出得分，作为置信度估计模块的输出层的输出。所述操作还包括基于为假设子词单元的序列中的每个子词单元生成的相应置信度输出得分，确定话语的转录的话语级置信度得分。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，确定话语的转录的话语级置信度得分包括为话语的转录的一个或多个单词中的每个单词确定相应的词级置信度得分，该词级置信度得分等于为对应单词中的最后一个子词单元生成的相应置信度输出得分。这些实施方式进一步包括对为转录的一个或多个单词中的每个单词确定的相应的词级置信度得分进行聚合，以确定话语的转录的话语级置信度得分。

在一些附加实施方式中，所述操作进一步包括：使用分层注意力机制来估计话语的语音识别结果被正确识别的概率；基于话语的语音识别结果被正确识别的估计概率和指示话语是否被正确识别的真实值标签，来确定语音识别结果的话语级损失，以及根据话语级损失来训练置信度估计模型。

在一些示例中，置信度估计模型和第一语音识别器被联合训练。所述操作可以包括在话语的单词序列中的每个位置处估计删除数；确定语音识别结果的删除损失，以及在单词序列中的每个位置处的估计删除数和真实值删除数；并且根据删除损失来训练置信度估计模型。

在一些实施方式中，所述操作进一步包括：在训练置信度估计模型后，对第一语音识别器所识别的候选语音识别结果进行重新评分。子词单元可以包括单词片段或字素。

在一些示例中，第一语音识别器包括转换器解码器模型，该转换器解码器模型被配置为生成多个候选假设，每个候选假设都对应于话语的候选转录并且由相应的假设子词单元的序列表示。在这些实施方式中，转换器解码器模型可以包括递归神经网络-转换器(RNN-T)模型架构。

在一些实施方式中，所述操作进一步包括确定话语的转录的话语级置信度得分是否满足置信度阈值。在这些实施方式中，当话语的转录的话语级置信度得分不满足置信度阈值时：所述操作进一步包括拒绝从第一语音识别器输出的转录，并且指示第二语音识别器处理与用户所说的话语对应的音频数据，以重新转录用户所说的话语。在这些实施方式中，第一语音识别器可以驻留在与用户相关联的用户设备上，第二语音识别器可以在与用户设备通信的远程服务器上执行，并且当话语的转录的话语级置信度得分不满足置信度阈值时，用户设备可以将音频数据传输到远程服务器。同样在这些实施方式中，第二语音识别器可以比第一语音识别器更为计算密集。

本公开的另一个方面提供了一种用于端到端自动语音识别置信度和删除估计的多任务学习的系统。该系统包括数据处理硬件和与数据处理硬件通信的存储器硬件。存储器硬件存储有指令，当所述指令在数据处理硬件上执行时，所述指令使数据处理硬件执行操作，这些操作包括从第一语音识别器接收与用户所说的话语的转录对应的语音识别结果。语音识别结果包括形成话语的转录的一个或多个单词的假设子词单元的序列，每个子词单元在对应的输出步骤从第一语音识别器输出。通过使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，所述操作还包括当对应的子词单元从第一语音识别器输出时，获得与对应的输出步骤相关联的相应置信度嵌入。所述操作还使用置信度估计模块，使用第一注意力机制生成置信度特征向量，该第一注意力机制自关注对应的子词单元的相应置信度嵌入和为假设子词单元的序列中的在对应的子词单元之前的任何其它子词单元获得的置信度嵌入。所述操作继续使用置信度估计模块，使用第二注意力机制生成声学场境向量，该第二注意力机制交叉关注编码的序列，每个编码关联于从对应于话语的音频数据分割的对应声学帧。进一步地，所述操作使用置信度估计模块，以基于被置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应的子词单元的相应置信度输出得分，作为置信度估计模块的输出层的输出。所述操作还包括基于为假设子词单元的序列中的每个子词单元生成的相应置信度输出得分，确定话语的转录的话语级置信度得分。

这个方面可以包括以下一个或多个可选特征。在一些实施方式中，确定话语的转录的话语级置信度得分包括为话语的转录的一个或多个单词中的每个单词确定相应的词级置信度得分，该词级置信度得分等于为对应单词中的最后子词单元生成的相应置信度输出得分。这些实施方式进一步包括对为转录的一个或多个单词中的每个单词确定的相应的词级置信度得分进行聚合，以确定话语的转录的话语级置信度得分。

在一些附加实施方式中，所述操作进一步包括：使用分层注意力机制来估计话语的语音识别结果被正确识别的概率；基于话语的语音识别结果被正确识别的估计概率和指示话语是否被正确识别的真实值标签，来确定语音识别结果的话语级损失；以及根据话语级损失来训练置信度估计模型。

在一些示例中，置信度估计模型和第一语音识别器被联合训练。所述操作可以包括：在话语的单词序列中的每个位置处估计删除数；确定语音识别结果的删除损失，以及单词序列中每个位置的估计删除数和真实值删除数；并且根据删除损失来训练置信度估计模型。

在一些实施方式中，操作进一步包括在训练置信度估计模型后，对第一语音识别器所识别的候选语音识别结果进行重新评分。子词单元可以包括单词片段或字素。

在一些实施方式中，第一语音识别器包括转换器解码器模型，该转换器解码器模型配置为生成多个候选假设，每个候选假设对应于话语的候选转录并且由相应的假设子词单元的序列表示。在这些实施方式中，转换器解码器模型可以包括递归神经网络-转换器(RNN-T)模型架构。

在一些示例中，所述操作进一步包括确定话语的转录的话语级置信度得分是否满足置信度阈值。在这些示例中，当话语的转录的话语级置信度得分不满足置信度阈值时，所述操作进一步包括拒绝从第一语音识别器输出的转录，并且指示第二语音识别器处理与用户所说的话语对应的音频数据，以重新转录用户所说的话语。在这些示例中，第一语音识别器可以驻留在与用户相关联的用户设备上，第二语音识别器可以在与用户设备通信的远程服务器上执行，并且当话语的转录的话语级置信度得分不满足置信度阈值时，用户设备可以将音频数据传输到远程服务器。同样在这些示例中，第二语音识别器可以比第一语音识别器更为计算密集。

本公开的一种或多种实施方式的细节在附图或以下描述中进行说明。其它方面、特征和优点通过说明书和附图以及通过权利要求书将变得显而易见。

附图说明

图1是示例语音环境的示意图。

图2是示例语音识别器和覆盖在语音识别器上的置信度估计模型的示意图。

图3是使用多任务学习来训练图2的置信度估计模块的示意图。

图4是基于置信度的示例例程的示意图，其用于基于话语级置信度选择适当的语音识别器。

图5是确定语音识别器所输出的转录的话语级置信度得分的方法的操作的示例布置的流程图。

图6是可以用于实施本文中所描述的系统和方法的示例计算设备的示意图。

同样的参考符号在各个附图中表示同样的元件。

具体实施方式

自动语音识别(ASR)系统不仅注重提供质量/准确性(例如，低词错率(WER))，而且还注重低延迟(例如，用户说话和转录出现之间的短延迟)。近来，端到端(E2E)ASR模块，诸如递归神经网络-转换器(RNN-T)、transformer或conformer转换器和基于注意力的编码器-解码器模型，在准确性和延迟方面实现最先进的性能方向变得流行起来。与包括单独的声学、发音和语言模型的传统混合ASR系统相比，E2E模型采用序列到序列方法，在单个神经网络中联合学习声学和语言建模，该神经网络是根据训练数据(例如，话语-转录对)进行端到端训练的。

序列到序列模型的示例包括“基于注意力(attention-based)”模型和“听-关注-拼写(listen-attend-spell)”(LAS)模型。LAS模型使用监听器组件、关注器组件和拼写器组件将语音话语转录为字符。在这里，监听器是递归神经网络(RNN)编码器，其接收音频输入(例如，语音输入的时间-频率表示)，并且将音频输入映射到更高级的特征表示。关注器关注更高级别的特征，以学习输入特征与预测的子词单元(例如，字素或单词片段)之间的对齐。拼写器是基于注意力的RNN解码器，该解码器通过产生关于一组假设单词的概率分布，从输入中生成字符序列。通过集成结构，可以将模型的所有组件作为单个端到端(E2E)神经网络进行联合训练。在这里，E2E模型是指其架构完全由神经网络构成的模型。完全神经网络在没有外部和/或人工设计组件(例如，有限状态转换器、字典或文本规范化模块)的情况下运行。另外，当训练E2E模型时，这些模型通常不需要来自决策树的自举或来自单独系统的时间对齐。

此外，当今天使用ASR系统时，需要ASR系统以流式方式解码话语，该流式方式对应于当用户说话时实时地或者甚至比实时更快地显示话语的转录。为了说明，当ASR系统部署在体验直接用户交互的移动电话上时，使用ASR系统的移动电话上的应用可以要求语音识别是流式的，以便单词、单词片段和/或单独字符在被说出后立即出现在屏幕上。在这里，也可能是移动电话的用户对延迟的容忍度较低。由于这种低容忍度，语音识别努力以一种将可能对用户体验造成不利影响的延迟和不准确所产生的影响力降到最低的方式在移动设备上运行。然而，序列到序列模型(诸如，LAS模型)通过在生成输出文本之前审查整个音频输入序列来发挥作用，不允许在接收输入时流式输出。由于这一缺陷，为延迟敏感和/或需要实时语音转录的语音应用部署LAS模型可能会带来问题。这使得LAS模型本身并不是通常依赖于实时应用(例如，实时通信应用)的移动技术(例如，移动电话)的理想模型。

被称为递归神经网络转换器(RNN-T)的另一种形式的序列到序列模型不采用注意力机制，并且与通常需要处理整个序列(例如，音频波形)以产生输出(例如，句子)的其它序列到序列模型不同，RNN-T连续处理输入样本，并且流式传输输出符号，这一特征对实时通信特别有吸引力。例如，使用RNN-T的语音识别可以如所说的那样一个接一个输出字符。在这里，RNN-T使用反馈回路，该反馈回路将模型所预测的符号反馈回本身，以预测下一个符号。因为解码RNN-T包括通过单个神经网络进行波束搜索，而不是通过大型解码器图进行，因此RNN-T可以扩展到基于服务器的语音识别模型的规模(size)的一小部分。随着规模的缩小，RNN-T可以完全部署在设备上，并且能够离线运行(即，没有网络连接)；因此，避免了通信网络的不可靠性问题。

然而，在质量(例如，语音识别准确性)方面，RNN-T模型本身仍然落后于大型的最先进传统模型(例如，具有单独的AM、PM和LM的基于服务器的模型)。然而，非流式E2E、LAS模型的语音识别质量与大型的最先进传统模型相当。为了利用非流式E2E LAS模型的质量，开发了双通语音识别系统(例如，如图2A所示)，该系统包括RNN-T网络的第一通组件，接下来是LAS网络的第二通组件。利用这种设计，该双通模型受益于具有低延迟的RNN-T模型的流式传输特性，同时通过结合LAS网络的第二通组件提高了RNN-T模型的准确性。尽管与仅RNN-T模型相比，LAS网络增加了延迟，但是延迟的增加相当轻微，并且符合设备上操作的延迟约束。在准确性方面，与单独RNN-T相比，双通模型实现了17％至22％的WER降低，并且与大型传统模型相比，具有相似的WER。

置信度得分是支持许多下游应用减轻语音识别错误的ASR系统的重要特征。例如，具有从ASR模型输出的达到高置信度的识别结果的未标记话语可以用于ASR模型的半监督训练，这可以减少仅使用转录的话语进行训练的成本。另一方面，在诸如其中用户与在计算设备上执行的数字助理交互的口语对话系统之类的应用中，具有达到低词级置信度的识别结果的话语可以提示用户纠正任何错误转录的单词。另外，具有低置信度的识别结果可以导致将对应话语的音频传递给不同的、计算量更大的ASR模型(例如，服务器端)，以改善对话语的识别。

虽然传统的混合ASR系统可以很容易地从单词后验概率中估计词级置信度得分，其中所述单词后验概率通过网格或混淆网络计算且然后进行聚合以提供话语级置信度，但是E2E ASR模型所采用的深度神经网络在预测单词时往往会表现出过度置信度(overconfidence)。由于许多E2E ASR模型被配置为输出子词级的识别结果，因为识别结果可以包含多个有效的词元化(tokenization)，因此简单地使用单词的对应固定子词词元化作为参考序列来学习ASR模型所识别的每个子词的置信度得分，可能导致用于训练置信度估计模型的不正确的真实值标签。例如，话语“Good morning(早上好)”的参考固定子词序列可以是“go、od、morn、ing”，而ASR模型所识别的假设子词序列可能是“go、od、mor、ning、mom”。在这里，即使单词“morning”被ASR模型正确地识别，ASR模型所识别的对应假设子词“mor”和“ning”的子词标签也会被标记为不正确，因为它们与单词“morning”的对应参考固定子词“morn”和“ing”不匹配。

为了缓解由于参考固定子词序列之间的不匹配而导致的与估计ASR模型所识别的假设子词序列的子词置信度得分相关联的缺陷，本文中的实施方式涉及的置信度估计模块应用自注意力机制，以便仅使用ASR模型所识别的组成对应单词的最终假设子词单元的置信度来估计每个识别到的单词的词级置信度。于2021年2月23日提交的美国申请17/182,592号的内容以引用的方式全部并入本文。仅学习ASR模型所识别的每个假设单词的词级置信度，提供了对假设中的正确单词与单词总数的比率的估计。然而，训练标签不会提供关于整个话语是否被正确识别或ASR模型所识别的假设中是否存在任何删除的任何信号。因此，估计词级置信度不会对删除进行建模，并且基于话语中单词的词级置信度的聚合的整体话语置信度丢弃了许多有用的词级训练信号。本文中的实施方式进一步涉及应用多任务学习，以使用与单词训练、话语训练和删除训练相关的目标来对置信度模型进行联合训练。

图1是示例语音环境100，其中，用户10通过语音输入与用户设备110进行交互。用户设备110(也通常称为设备110)包括计算设备，该计算设备配置为从语音启用环境100中的一个或多个用户10捕捉声音(例如，流式音频数据)。在这里，流式音频数据202可以指用户10的口头话语，该口头话语用作可听查询、设备110的命令或由设备110捕捉的可听通信。设备110的语音启用系统可以通过回答查询和/或使命令执行来执行查询或命令。

用户设备110可以对应于能够接收音频数据202的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如，移动电话、平板电脑、笔记本电脑等)、计算机、可穿戴设备(例如，智能手表)、智能家电、物联网(IoT)设备、智能扬声器/显示器、车载信息娱乐系统等。用户设备110包括数据处理硬件112和存储器硬件114，存储器硬件114与数据处理硬件112通信并且存储指令，当所述指令在由数据处理硬件112执行时，所述指令使数据处理硬件112执行一个或多个操作。用户设备110进一步包括音频子系统116，该音频子系统116具有用于捕捉语音启用环境100中的口头话语12并且将其转换为电信号的音频捕捉设备(例如，麦克风)116、116a以及用于传递可听音频信号(例如，作为设备110的输出音频数据)的语音输出设备(例如，扬声器)116、16b。虽然在所示的示例中用户设备110实施单个音频捕捉设备116a，但是在不偏离本公开的范围的情况下，用户设备110可以实施音频捕捉设备116a的阵列，因此，阵列中的一个或多个捕捉设备116a可以不物理地驻留在用户设备110上，而是与音频子系统116通信。在所示的示例中，用户设备110(例如，使用硬件112、114)实施语音识别器200，该语音识别器200配置为对与用户10所说的话语12对应的音频数据执行语音识别。在这里，音频捕捉设备116a配置为捕捉表示话语12的声学声音，并且将声学声音转换为与可与语音识别器200兼容的数字格式相关联的音频数据202。与音频数据202相关联的数字格式可以对应于声学帧(例如，参数化声学帧)，诸如mel帧。例如，参数化声学帧对应于log-mel滤波器组能量。

虽然图1示出了实施语音标识器200以在设备上执行语音识别的用户设备100，但是其它实施方式包括远程服务器410(图4)，该远程服务器410通过处理用户设备110经由网络传输的音频数据202并且将音频数据202的转录204提供回到用户设备220来实施语音识别器200。在一些附加实施方式中，用户设备110利用驻留在用户设备110上的本地语音识别器200和在远程服务器410上执行的服务器端语音识别器(图4)。在这里，当网络连接不可用时，或对于延迟敏感或需要流式转录的语音应用，用户设备110可以使用本地语音识别器200，而当需要附加资源来提高语音识别准确性时，可以利用服务器端语音识别器402，如下面参照图4更详细地描述的。

在一些示例中，用户10与在使用语音识别器200的用户设备110上执行的程序或应用118交互。例如，图1描绘了与自动化助理应用118通信的用户10。在这个示例中，用户(例如，Bill)10通过说出话语12“Good morning”来问候自动化助理应用118，该输出话语12被音频捕捉设备116a捕捉并且转换为对应的音频数据202(例如，作为声学帧)，以供语音识别器200处理。在这个示例中，语音识别器200将表示话语12的音频数据202转录为转录204(例如，“Good morning”的文本表示)。在这里，自动化助理应用118可以对转录204应用自然语言处理，以生成用于输出给用户10的响应119，该响应传递消息“Good Morning Bill,thefirst meeting today on your calendar is at 9:00AM(早上好，Bill。您日程表上今天的第一个会议是上午9:00)”。自然语言处理一般是指解释书面语言(例如，转录204)并且确定书面语言是否提示任何行动的过程。在这个示例中，助理应用118使用自然语言处理来识别用户10所说的话语12旨在调用助理应用118来访问用户10的日程表应用，并且提供指示用户10的第一个会议是在今天什么时间的响应119。即，通过使用自然语言处理识别这些细节，助理应用118将响应119返回给用户12，作为通过音频输出设备116a进行的可听输出的合成语音表示，和/或作为用于要在与用户设备110通信的屏幕上显示的文本。在一些示例中，用户设备110将用户10所说的话语12的转录204和来自助理应用118的对应响应119作为对话显示在屏幕上。在一些配置中，自然语言处理可以发生在与用户设备110的数据处理硬件112通信的远程系统上。

在一些示例中，语音识别器200实时处理传入的音频数据202，以提供流式转录204。在这里，语音识别器200配置为产生构成用户10所说的话语12的单词的假设子词单元的序列。假设子词单元可以包括单词片段或单个字符(例如，字素)。在所示的示例中，语音识别器所识别的假设子词单元的序列包括“SOS_go od_mor ning”，其中，‘SOS’指示语音标记的开始，并且每个单词边界指示符(‘_’)指示每个单词的开头/开始子词单元。

参照图2，在一些实施方式中，语音识别器200包括用于预测语音识别结果/假设222的递归神经网络-转换器(RNN-T)解码器200，并且实施用于估计语音识别结果/假设222的置信度302的置信度估计模块(CEM)300。CEM 300可以使用话语级置信度302对语音识别器200预测的语音识别结果/假设222进行重新评分。在这里，语音识别结果/假设222对应于子词单元(诸如，单词片段或字素)的序列，这些子词单元在被聚合在一起时形成话语的转录204。一般而言，语音识别器200包括编码器210和RNN-T解码器220，据此RNN-T解码器220包括预测网络和联合网络。RNN-T解码器220可以产生多个候选假设H以作为输出222，并且CEM 300可以对顶部K候选假设H进行重新评分/重新排序以标识得分最高的候选假设，作为与转录204对应的最终识别结果(图1)。此外，虽然本文中的示例描绘了具有RNN-T模型架构的解码器220，但是在不偏离本公开的范围的情况下，解码器220可以类似地包括其它类型的转换器模型架构。例如，解码器220可以包括Transformer-转换器、卷积神经网络-转换器(ConvNet-Transducer)或Conformer-转换器模型架构中的一个，以替代RNN-T模型架构。

所述至少一个共享编码器210配置为接收与作为声学帧序列的话语12对应的音频数据202，作为输入。声学帧可以预先由音频子系统116处理成参数化声学帧(例如，mel帧和/或频谱帧)。在一些实施方式中，参数化声学帧对应于具有log-mel特征的log-mel滤波器组能量。例如，表示输入到编码器210中的音频数据202的参数化输入声学帧可以被表示为x＝(x₁,...,x_T)，其中，x_t∈R^d是log-mel滤波器组能量，T表示x中的帧数，并且d表示log-mel特征数。在一些示例中，每个参数化声学帧都包括在短移动窗口(例如，32毫秒并且每10毫秒移动一次)中计算的128维log-mel特征。每个特征都可以与之前的帧(例如，之前的三个帧)堆叠，以形成更高维的向量(例如，使用之前的三个帧的512维向量)。然后，可以对形成向量的特征进行下采样(例如，到30毫秒帧率)。对于输入到编码器210的音频数据202中的每个声学帧x_1:T，编码器210被配置为生成对应编码e_1:T作为输出212。x中由T表示的帧数中的每个帧都对应于相应的时间步骤。

尽管编码器210的结构可以通过不同的方式实施，但是在一些实施方式中，编码器210包括长短期记忆(LSTM)神经网络。例如，LSTM神经网络可以包括八个(8)LSTM层。在这里，每个层都可以具有2048个隐藏单元，接着是640维投影层。在一些示例中，在编码器210的第二LSTM层之后，插入缩减系数N＝2的时间缩减层。

在一些实施方式中，RNN-T解码器220包括预测网络和联合网络。在这里，预测网络可以具有两个LSTM层，每个层都有2048个隐藏单元和640维投影，以及128个单元的嵌入层。共享编码器210和预测网络的输出212可以反馈到包括softmax预测层的联合网络中。在一些示例中，RNN-T解码器220的联合网络包括640个隐藏单元，接着是预测4096个大小写混合的单词片段的softmax层。

RNN-T解码器220接收从编码器210作为输出212为每个声学帧x生成的编码e以作为输入，并且生成一个或多个候选假设H以作为输出222，每个候选假设H都由相应的假设子词单元的序列y₁,y₂,y₃,…,y_M表示。例如，在用户10说出“Good morning”的示例中，一个候选假设H可以包括第一假设子词单元的序列[_go,od,_mor,ning]，而另一个候选假设H可以包括第二假设子词单元的序列[_go,od,_morn,ing]。可能还有很多其它候选假设H。在这里，表示每个候选假设H的相应假设子词单元的序列y₁,y₂,y₃,…,y_M都对应于话语12的候选转录。每个相应假设子词单元的序列y₁,y₂,y₃,…,y_M中的每个子词单元y_i都表示关于可能子单元的概率分布。在概率分布中概率最高的子词单元可以被选择为相应的假设子词单元的序列中的假设子词。

继续参照图2，CEM 300可以接收从编码器210输出的编码e、e_1:T212序列和作为RNN-T解码器220的输出222生成的顶部K候选假设H，以作为输入。在一个示例中，K等于四(4)，以便顶部的四个候选假设H作为输入提供给CEM 300，以通过确定每个假设H的话语级置信度350进行重新评分。与最高置信度350相关联的候选假设H可以作为转录204输出。

为了减小softmax层的大小，可能的子词单元的子词单元词汇表通常比单词词汇表小。子词单元词汇表可以包括字素或单词片段(WP)。示例WP词汇表可以包括4096个WP。虽然本公开的示例将WP用作作为语音识别器的输出而生成的子词单元，但是可以将字素类似地用作语音识别器的输出，而不偏离本公开的范围。因此，为了计算候选假设H的词错率(WER)，需要将相应的假设子词单元(例如，WP)的序列转换为其对应的单词序列w₁,w₂,...,w_L。这种将子词序列转换为单词序列的过程是唯一确定的，因为每个单词的第一个子词单元(例如，WP)都是以单词边界指示符(‘_’)开始。类似地，对于包括Q_j个WP的单词w_j，其中，y_j、q表示第j个单词的第q个WP，用于计算单词置信度的简单技术可以如下表示。

C_word(w_j)＝agg(c(y_j，1)，...，c(y_j，Q_j) (1)

其中，agg可以是算术平均值、最小值、乘积或神经网络。然而，由于WP正确性与单词正确性之间的不匹配，每个单词w_j可以分为多个不同的有效WP组合，因此使用等式1估计词级置信度会在训练期间产生不良的计算负担，因为需要在所有可能的参考词元化中搜索具有最少WP编辑的断词。如本文中所使用的，WP编辑包括假设WP与参考WP匹配时的正确(cor)标签、有效的假设WP与参考WP不匹配时的替换(sub)标签，以及假设WP被错误识别时的插入(ins)。下面的表1示出了一个示例，其中，单词“morning”被正确转录，但是在WP编辑距离输出中产生了两个替换。

表1

为了解决WP正确性和单词正确性之间因为在WP级别上进行输出的语音识别器200而产生的固有不匹配，如表1所示，本文中的实施方式涉及基于transformer的CEM 300，该CEM 300将每个单词的最终WP的置信度输出作为词级置信度，而忽略每个单词的所有其它前面的WP的置信度。在训练期间，语音识别器200被冻结，并且使用正确、插入和替换的真实值WP标签。

图3示出了覆盖在语音识别器200顶部上的基于transformer的CEM 300的示例，为了清楚起见，图3仅描绘了CEM 300预测RNN-T解码器220所输出的相应的假设WP的序列y₁,y₂,y₃,…,y_M中第i个WP的置信度输出c(y_i)302的动作。具体地，图3描绘了CEM 300预测相应的假设WP的序列[_go,od,_mor,ning]中转换为对应的单词序列“good morning”的“ning”WP的置信度输出c(“ning”)。

RNN-T解码器220生成一个或多个候选假设H作为输出222，每个候选假设都由相应的假设子词单元的序列y₁,y₂,y₃,…,y_M表示。在这里，RNN-T解码器220可以生成四个候选假设作为输出222。在所示的示例中，对于话语12“Good morning”，作为输出222从RNN-T解码器220生成的一个候选假设H可以包括第一假设子词单元的序列[_go,od,_mor,ning]，而另一个候选假设H可以包括第二假设子词单元的序列[_go,od,_morn,ing]。同时，编码器210生成编码e_1:T 212序列，传递声学场境，其中，T对应于从话语12分割的声学帧数量x。

对于表示作为输出222从RNN-T解码器220生成的候选假设H的假设子词(例如，WP)单元的序列[sos_go,od,_mor,ning eos]中的每个子词单元(y_i)，将表示从语音标识器220获得的一组候选特征的候选嵌入b(y_i)242作为输入提供给CEM 300，以确定相应的置信度输出c(y_i)302。在所示的示例中，第i个子词单元对应于WP“ning”。在这里，候选嵌入b(y_i)242传递以下一个或多个：输入子词+位置嵌入Emb(y_i)特征(例如，Emb(ning))，对数后验log(p(y_i))特征，和顶部K(i)特征。对数后验log(p(y_i))特征指示与子词单元y_i包括WP“ning”的概率/可能性相关联的概率值，并且顶部K(i)特征指示解码器索引(例如，时间步骤)i处的K个最大对数概率。换句话说，顶部K(i)特征为解码器索引(例如，时间步骤)i处的顶部K中的每个候选假设H提供概率值。由于语音识别器200和CEM 300配置为以子词(例如，WP)级别为每个时间步骤生成输出，从而在transformer允许以下操作时实施CEM 300：(1)通过利用每个单词c_word(w_j)的最终WP处的置信度输出c(y_j,Q_j)作为专用词级置信度302，将单词编辑距离输出用作真实值训练标签(即，校正、替换和插入标签)；以及(2)合并组成单词的每个WP的信息/特征。在所示的示例中，基于transformer的CEM 300的自注意力机制基于与WP“ning”对应的第i个子词单元的置信度嵌入b(y_i)242以及同一单词中较早的子词单元的置信度嵌入将自注意力应用于置信度特征向量b。置信度特征向量b可以如下表示。

b＝{b(y₁)，...，b(y_i)} (2)

另外，基于transformer的CEM 300的声学交叉注意力机制320将声学交叉注意力(CA(e))应用于从编码器210输出的编码e、e_1:T 212序列，以生成声学场境向量322，从而在估计与WP“ning”对应的第i个子词单元的相应置信度输出c(y_i)302时改进准确性。如本文中所使用的，术语‘声学场境向量’和‘声学特征向量’可以互换使用。最后，Softmax输出层340使用自注意力置信度特征向量SA(b)和交叉注意力CA(e)声学场境向量322，以允许基于transformer的CEM 300产生第i个子词单元的专用置信度输出c(y_i)302，如下所示。

[f(y₁)，...，f(y_M)＝Transformer(CA(e)，SA(b)) (3)

[c(y_i)，i(y_i)，s(y_i)]＝Softmax(f(y_i))， (4)

其中，Softmax输出层340使用与WP编辑距离相关联的校正、替换和插入真实值WP标签进行训练。CEM 300可以使用最终WP处的置信度输出c(y_j，Q_j)确定每个单词c_word(w_j)的置信度302，并且估计单词正确率如下所示。

c_word(w_j)＝c(y_j，Q_j) (5)

其中，所示的示例中的单词c_word(morning)的置信度302对应于组成单词的最终WP的置信度输出c(ning)。包括一种类型的话语级置信度得分。

CEM 300可以使用语音识别器200进行联合训练，或CEM 300和语音识别器可以彼此分开进行训练。在一些示例中，CEM 300使用二进制交叉熵词级损失进行训练，如下所示。

其中，表1示出了，当假设单词与参考单词匹配时，当单词w_j的Levenshtein词级编辑距离输出“正确”(cor)标签时，d(w_j)等于1，并且当假设单词与参考单词不匹配时，当单词w_j的Levenshtein词级编辑距离输出“插入”(ins)或“替换”(sub)标签时，d(w_j)等于0。显而易见地，由于语音识别器200和CEM 300以子词级输出(例如，输出每个WP)，表1还示出了，CEM 300应用结尾单词掩码损失m，以仅关注组成单词的最终WP，并且忽略与组成同一单词的早期WP相关联的WP损失。

CEM可以进一步使用以下真实值，根据话语级损失进行训练。

在这里，任何删除的存在都会导致e的值为零，并且信号被反向传播给CEM 300的内部特征。为了提取话语特征并且进行预测，分层注意力机制380执行以下等式：

u_i＝tanh(W₁f(y_i)+b) (9)

其中，生成s_utt的参数W₁、b和w₂可以用二进制交叉熵损失L＝-[e log s_utt+(1-e)log(1-s_utt)]进行训练，其中，s_utt提供了对整个话语被识别为零WER的概率的估计，这对话语排序很有用。然而，s_utt并没有产生原始WER的估计。直观地，话语特征s_utt是词元特征y₁至y_M序列的总结。分层注意力机制380的MLP包括两个层，并且可以分别包括320的隐藏维度和1的输出维度。

CEM可以进一步基于对删除数的估计来估计假设H的原始词错率(WER)。在这里，第三级任务可以用真实值e_j定义为第j-1个单词和第j个单词之间的删除数。通常，任何位置的删除数都可以包括任何非负整数。为了提取删除特征并且进行预测，MLP可以用Poisson回归损失进行训练，如下所示。

r_w(w_j)＝MLP(f(w_j)) (12)

f(wj)是使用自注意力机制生成的，并且具有直到第j个单词的语言信息。因此，它非常适合预测ej，即第j个单词右前方的删除数。

因此，可以如下计算WER估计。

其中，

图4示出了基于置信度的示例例程的示意图400，其用于选择适当的语音识别器来转录话语12。在所示的示例中，第一语音识别器200作为默认语音识别器操作，以通过处理与用户10所说的话语12对应的传入音频数据202来生成转录204。第一语音识别器200可以对应于在与用户10相关联的用户设备110上执行的本地语音识别器。第一语音识别器200还实施CEM 300，以确定与转录204对应的第一语音识别器200所输出的语音识别结果222的话语级置信度得分350。

在一些实施方式中，基于置信度的例程确定第一语音识别器200所转录的话语12的话语级置信度得分350是否满足置信度阈值。在所示的示例中，大于置信度阈值的话语级置信度得分350满足置信度阈值，而小于或等于置信度阈值的话语级置信度得分350不满足置信度阈值。当话语级置信度得分350满足(即，大于)置信度阈值(例如，决定框450为“是”)时，接受第一语音识别器200所生成的转录204，以在设备上实现质量、延迟和可靠性方面的增益。在这里，所接受的转录204可以在用户设备110上显示或继续显示和/或被传递给下游自然语言理解(NLU)模块，以解释转录204并且在必要时执行相关动作/操作。

当话语级置信度得分350不满足(例如，小于)置信度阈值(例如，决定框450为“否”)时，基于置信度的例程拒绝第一语音识别器200所生成的转录204，并且将音频数据202传递给第二语音识别器402进行处理，以重新转录话语12。第二语音识别器402所生成的转录204可以被传递回到用户设备110和/或下游NLU模块进行解释。在第一语音识别器200在本地并且在设备110上执行以及第二语音识别器402在服务器端并且在远程服务器410上执行的示例中，基于置信度的例程使用户设备110通过网络(未示出)将音频数据202传输到远程服务器410，以便在其上执行的第二语音识别器402可以转录话语12。第二语音识别器402可以利用根据大规模语言模型训练数据进行训练的大型语言模型，使第二语音识别器402更适合识别用于对第一语音识别器200进行训练的训练数据中不存在的专有名词或不太常用的单词。

在一些示例中，第一语音识别器200在识别短形式话语方面通常比实施更大的语言模型和词典的第二语音识别器402更准确(例如，实现更低的词错率)，第一语音识别器200最终可能在识别长尾话语方面不如第二语音识别器402。因此，基于置信度的例程可以将置信度得分350小于置信度阈值的所有话语发送给第二语音识别器402以生成转录204，并且使用第一语音识别器200在设备110上转录大多数话语，以获得质量、延迟和可靠性。

虽然第二语音识别器402被示出为在服务器端，但是第二语音识别器402也可以在设备上执行。例如，第二语音识别器402可以与更为计算密集的语音识别器相关联，该语音识别器可以在某些话语上生成比第一语音识别器200更准确的语音识别结果，但是代价是延迟减少和功耗增加。因此，当与第一语音识别器200所生成的识别结果相关联的话语级置信度得分小于置信度阈值时，基于置信度的例程可以利用第二语音识别器402来转录话语12。

软件应用(即，软件资源)可以指导致计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传递应用、流媒体应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于临时或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性的可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图5是方法500的操作的示例布置的流程图，其仅使用语音识别器识别的单词的最终假设子词单元的置信度来估计该单词的词级置信度。数据处理硬件112(图1)可以执行存储器硬件114(图1)上所存储的指令，以执行方法500的操作的示例布置。在操作502中，方法500包括从第一语音识别器200接收与用户10所说的话语12的转录204对应的语音识别结果232。第一语音识别器200可以配置为双通解码架构，如上面参照图2A和图2B所讨论的。在这里，语音识别结果232是由语音识别器200的重新评分解码器重新评分的得分最高的候选假设，并且包括假设子词单元的序列，这些假设子词单元形成话语12的一个或多个单词，每个子词单元都是在对应的输出步骤从语音识别器200输出的。

使用置信度估计模块(CEM)300，对于假设子词单元的序列中的每个子词单元，方法500执行操作504、506、508、510。在操作504中，方法500包括当对应的子词单元从第一语音识别器200输出时，获得表示与对应的输出步骤相关联的一组置信度特征的相应置信度嵌入242。在操作506中，方法500包括使用第一注意力机制310生成置信度特征向量SA(b)，第一注意力机制310自关注对应的子词单元的相应置信度嵌入b(y_i)242和为假设子词单元的序列中的在对应的子词单元之前的任何其它子词单元获得的置信度嵌入b(y₁)至b(y_1-i)。在操作508中，方法500包括使用第二注意力机制320生成声学场境向量CA(e)322，第二注意力机制320交叉关注各自与从对应于话语12的音频数据202分割的对应声学帧X_T相关联的声学编码e、e_1:T 252的序列。在操作510中，方法500包括基于由CEM 300的输出层作为输入而接收的置信度特征向量SA(b)和声学特征向量CA(e)322，生成对应的子词单元的相应置信度输出得分302，以作为CEM 300的输出层340的输出。

在操作512中，基于为假设子词单元的序列中的每个子词单元生成的相应置信度输出得分，方法500包括确定话语的转录的话语级置信度得分350。当话语级置信度得分350小于置信度阈值时，操作可以进一步包括拒绝第一语音识别器200所输出的转录204，并且指示第二语音识别器402处理与话语对应的音频数据14，以重新转录话语。第二语音识别器402可能比第一语音识别器200更为计算密集，因此对于根据音频数据14执行语音识别可能比第一语音识别器200更准确。例如，第一语音识别器200可以完全在设备上执行，以较小的延迟提供流式转录能力，而第二语音识别器402可以在利用潜在地无限的计算/存储器资源的远程服务器上执行，以减少的延迟准确地执行语音识别。因此，在设备上执行的第一语音识别器200所输出的转录204的低话语级置信度得分350可以充当指示符，以调用更为计算密集的第二语音识别器200。在不偏离本公开的范围的情况下，第二语音识别器402也可以在设备上执行，但是可能更为计算密集，以提高语音识别准确性，代价是延迟减少以及功耗和计算增加。

图6是可以用于实施本文中所描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如，笔记本计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、主机和其它适当的计算机。这里所示的组件、其连接和关系以及其功能仅仅是示例性的，并不旨在限制在本文件中所描述和/或所要求的本发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640以及连接到低速总线660和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每一个都通过使用各种总线相互连接，并且可以安装在公共主板上或在适当时以其它方式安装。处理器610可以处理在计算设备600中执行的指令，包括存储器620中或存储设备630上所存储的用于在外部输入/输出设备(诸如，联接到高速接口640的显示器680)上显示图形用户界面(GUI)的图形信息的指令。在其它实施方式中，在适当的时候，多个处理器和/或多个总线可以与多个存储器和多种类型的存储器一起使用。同样，多个计算设备600可以与提供必要操作的部分的每个设备都连接(例如，作为服务器组、一组刀片式服务器或多处理器系统)。

存储器620将信息非暂时性地存储在计算设备600中。存储器620可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器620可以是用于暂时或永久存储程序(例如，指令序列)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪速存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如，启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其它类似的固态存储器设备或设备阵列，包括存储区域网络或其它配置中的设备。在附加实施方式中，计算机程序产品有形地体现为信息载体。计算机程序产品包含指令，这些指令在被执行时执行一种或多种方法，诸如，上述方法。信息载体是计算机或机器可读介质，诸如，存储器620、存储设备630或在处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方式中，高速控制器640联接到存储器620、显示器680(例如，通过图形处理器或加速器)，并且联接到可以接受各种扩展卡(未示出)的高速扩展端口650。在一些实施方式中，低速控制器660联接到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以联接到一个或多个输入/输出设备，诸如，键盘、指向设备、扫描器或组网设备，诸如交换机或路由器，例如通过网络适配器联接。

计算设备600可以以多种不同形式实施，如图所示。例如，它可以作为标准服务器600a实施或在一组这样的服务器600a中多次实施，或作为笔记本计算机600b实施或作为机架式服务器系统600c的部分实施。

本文中所描述的系统和技术的各种实施方式可以在数字电子和/或光学电路系统、集成电路系统、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种这样的实施方式可以包括在可编程系统上是可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括至少一个可编程处理器、至少一个输入设备和至少一个输出设备，该可编程处理器可以是专用的或通用的，其被联接以从存储系统接收数据和指令以及将指令和数据发送给存储系统。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级程序和/或面向对象的编程语言和/或用汇编/机器语言来实施。如本文中所使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

本说明书中所描述的过程和逻辑流程可以由一个或多个可编程处理器(也称为数据处理硬件)执行，该处理器执行一个或多个计算机程序以通过对输入数据进行操作和生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。例如，适合执行计算机程序的处理器不仅包括通用和专用微处理器，而且包括任何种类的数字计算机的任何一个或多个处理器。通常，处理器将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或可操作地联接以接收来自该大容量存储设备的数据或将数据传输到该大容量存储设备，或进行这两种操作。然而，计算机不需要具有这样的设备。适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如，包括半导体存储器设备(例如，EPROM、EEPROM和闪速存储器设备)、磁盘(例如，内部硬盘或可移动盘)、磁光盘、CD-ROM盘和DVD-ROM盘。处理器和存储器可以由专用逻辑电路系统补充，或可以并入到该专用逻辑电路系统中。

为了提供与用户的交互，本公开的一个或多个方面可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备，例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏，并且可选地具有键盘和指向设备(例如，鼠标或轨迹球)，用户可以通过该键盘和该指向设备将输入提供给计算机。其它种类的设备也可以用于提供与用户的交互，例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈，并且来自用户的输入可以以任何形式被接收，包括声音、语音或触觉输入。另外，计算机可以通过将文档发送给用户使用的设备以及从该设备接收文档来与用户交互，例如通过响应于从网页浏览器接收到的请求而将网页发送到用户的客户端设备上的网页浏览器。

已经描述了许多实施方式。然而，将理解，在不脱离本公开的精神和范围的情况下可以做出各种修改。因此，其它实施方式在以下权利要求书的范围内。

Claims

1.一种计算机实现的方法(500)，所述方法在数据处理硬件(112)上执行时使所述数据处理硬件(112)执行操作，所述操作包括：

从第一语音识别器(200)接收与用户(10)所说的话语(12)的转录(204)对应的语音识别结果(222)，所述语音识别结果(222)包括形成所述话语(12)的所述转录(204)的一个或多个单词的假设子词单元的序列，每个子词单元在对应的输出步骤从所述第一语音识别器(200)输出；

使用置信度估计模块(300)，对于所述假设子词单元的序列中的每个子词单元：

当对应的子词单元从所述第一语音识别器(200)输出时，获得与所述对应的输出步骤相关联的相应置信度嵌入(242)；

使用第一注意力机制(310)生成置信度特征向量(312)，所述第一注意力机制(310)自关注所述对应的子词单元的所述相应置信度嵌入(242)和为所述假设子词单元的序列中的在所述对应的子词单元之前的任何其它子词单元获得的所述置信度嵌入(242)；

使用第二注意力机制(320)生成声学场境向量(322)，所述第二注意力机制(320)交叉关注编码(212)的序列，每个编码(212)与从对应于所述话语(12)的音频数据(202)中分割的对应声学帧相关联；以及

基于由所述置信度估计模块(300)的输出层(340)作为输入接收的所述置信度特征向量(312)和所述声学场境向量(322)，生成所述对应的子词单元的相应置信度输出得分(302)，作为所述置信度估计模块(300)的所述输出层(340)的输出；以及基于为所述假设子词单元的序列中的每个子词单元生成的所述相应置信度输出得分(302)，确定所述话语(12)的所述转录(204)的话语级置信度得分(350)。

2.根据权利要求1所述的计算机实现的方法，其中，确定所述话语(12)的所述转录(204)的所述话语级置信度得分(350)包括：

对于所述话语(12)的所述转录(204)的所述一个或多个单词中的每个单词，确定相应词级置信度得分(302)，所述词级置信度得分(302)等于为对应的单词中的最终子词单元生成的所述相应置信度输出得分(302)；以及

对为所述转录(204)的所述一个或多个单词中的每个单词确定的所述相应的词级置信度得分(302)进行聚合，以确定所述话语(12)的所述转录(204)的所述话语级置信度得分(350)。

3.根据权利要求1或2中任一项所述的计算机实现的方法，其中，所述操作进一步包括：

使用分层注意力机制(380)，估计所述话语(204)的所述语音识别结果(222)被正确识别的概率；

基于所述话语(12)的所述语音识别结果(222)被正确识别的估计概率以及指示所述话语(12)是否被正确识别的真实值标签，确定所述语音识别结果(222)的话语级损失；以及

根据所述话语级损失来训练所述置信度估计模型(300)。

4.根据权利要求1至3中任一项所述的计算机实现的方法，其中，所述置信度估计模型(300)和所述第一语音识别器(200)被联合训练。

5.根据权利要求1至4中任一项所述的计算机实现的方法，其中，所述操作进一步包括：

在所述话语(12)的单词的序列中的每个位置处，估计删除数；

确定所述语音识别结果(222)的删除损失以及在所述单词的序列中的每个位置处的估计删除数和真实值删除数；以及

根据所述删除损失来训练所述置信度估计模型(300)。

6.根据权利要求1至5中任一项所述的计算机实现的方法，其中，所述操作进一步包括：在训练所述置信度估计模型(300)之后，对所述第一语音识别器(200)识别的候选语音识别结果(222)重新评分。

7.根据权利要求1至6中任一项所述的计算机实现的方法，其中，所述子词单元包括单词片段。

8.根据权利要求1至7中任一项所述的计算机实现的方法，其中，所述子词单元包括字素。

9.根据权利要求1至8中任一项所述的计算机实现的方法，其中，所述第一语音识别器(200)包括转换器解码器模型，所述转换器解码器模型被配置为生成多个候选假设，每个候选假设对应于所述话语(12)的候选转录并且由相应假设子词单元的序列表示。

10.根据权利要求9所述的计算机实现的方法，其中，所述转换器解码器模型包括递归神经网络-转换器(RNN-T)模型架构。

11.根据权利要求1至10中任一项所述的计算机实现的方法，其中，所述操作进一步包括：

确定所述话语(12)的所述转录(204)的所述话语级置信度得分(350)是否满足置信度阈值；以及

当所述话语(12)的所述转录(204)的所述话语级置信度得分(350)不满足所述置信度阈值时：

拒绝从所述第一语音识别器(200)输出的所述转录；以及

指示第二语音识别器(402)处理与用户(10)所说的所述话语(12)对应的音频数据(202)，以重新转录用户所说的所述话语(12)。

12.根据权利要求11所述的计算机实现的方法，其中：

所述第一语音识别器(200)驻留在与用户(10)相关联的用户设备(110)上；

所述第二语音识别器(402)在与所述用户设备(110)通信的远程服务器(410)上执行；以及

当所述话语(12)的所述转录(204)的所述话语级置信度得分(350)不满足所述置信度阈值时，所述用户设备(110)将所述音频数据(202)传输到所述远程服务器(410)。

13.根据权利要求11或12所述的计算机实现的方法，其中，所述第二语音识别器(402)比所述第一语音识别器(200)更为计算密集。

14.一种系统，所述系统包括：

数据处理硬件(112)；以及

存储器硬件(114)，所述存储器硬件(114)与所述数据处理硬件(112)通信并且存储指令，当所述指令在所述数据处理硬件(112)上执行时，所述指令使所述数据处理硬件(112)执行操作，所述操作包括：

使用第二注意力机制(320)生成声学场境向量(322)，

所述第二注意力机制(320)交叉关注编码(212)的序列，每个编码(212)与从对应于所述话语(12)的音频数据(202)中分割的对应声学帧相关联；以及

基于由所述置信度估计模块(300)的输出层(340)作为输入接收的所述置信度特征向量(312)和所述声学场境向量(322)，生成所述对应的子词单元的相应置信度输出得分(302)，作为所述置信度估计模块(300)的所述输出层(340)的输出；以及

基于为所述假设子词单元的序列中的每个子词单元生成的所述相应置信度输出得分(302)，确定所述话语(12)的所述转录(204)的话语级置信度得分(350)。

15.根据权利要求14所述的系统，其中，确定所述话语(12)的所述转录(204)的所述话语级置信度得分(350)包括：

对于所述话语(12)的所述转录(204)的所述一个或多个单词中的每个单词，确定相应词级置信度得分(302)，所述词级置信度得分(302)等于为所述对应的单词中的最终子词单元生成的所述相应置信度输出得分(302)；以及

16.根据权利要求14或15所述的系统，其中，所述操作进一步包括：

根据所述话语级损失来训练所述置信度估计模型(300)。

17.根据权利要求14至16中任一项所述的系统，其中，所述置信度估计模型(300)和所述第一语音识别器(200)被联合训练。

18.根据权利要求14至17中任一项所述的系统，其中，所述操作进一步包括：

在所述话语(12)的单词的序列中的每个位置处，估计删除数；

根据所述删除损失来训练所述置信度估计模型(300)。

19.根据权利要求14至18中任一项所述的系统，其中，所述操作进一步包括：在训练所述置信度估计模型(300)之后，对所述第一语音识别器(200)识别的候选语音识别结果(222)重新评分。

20.根据权利要求14至19中任一项所述的系统，其中，所述子词单元包括单词片段。

21.根据权利要求14至20中任一项所述的系统，其中，所述子词单元包括字素。

22.根据权利要求14至21中任一项所述的系统，其中，所述第一语音识别器(200)包括转换器解码器模型，所述转换器解码器模型被配置为生成多个候选假设，每个候选假设对应于所述话语(12)的候选转录并且由相应假设子词单元的序列表示。

23.根据权利要求22所述的系统，其中，所述转换器解码器模型包括递归神经网络-转换器(RNN-T)模型架构。

24.根据权利要求14至23中任一项所述的系统，其中，所述操作进一步包括：

当所述话语(12)的所述转录(204)的所述话语级置信度得分(350)不满足置信度阈值时：

拒绝从所述第一语音识别器(200)输出的所述转录；以及

指示第二语音识别器(402)处理与用户(10)所说的所述话语(12)对应的音频数据(202)，以重新转录用户(10)所说的所述话语(12)。

25.根据权利要求24所述的系统，其中：

26.根据权利要求24或25所述的系统，其中，所述第二语音识别器(402)比所述第一语音识别器(200)更为计算密集。