CN116888662A

CN116888662A - 学习用于子词端到端自动语音识别的词级置信度

Info

Publication number: CN116888662A
Application number: CN202280015500.5A
Authority: CN
Inventors: 大卫·邱; 李秋嘉; 何彦璋; 张羽; 李博; 曹亮亮; 罗希特·普拉巴瓦尔卡尔; 迪普蒂·巴蒂亚; 李炜; 胡珂; 塔拉·赛纳特; 伊恩·麦克格劳
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-02-23
Filing date: 2022-02-23
Publication date: 2023-10-13
Also published as: US11610586B2; EP4292081A1; JP2024509515A; KR20230147685A; US20220270597A1; JP7436760B1; WO2022182769A1

Abstract

方法(500)包括接收语音识别结果(232)，并且使用置信度估计模块(CEM)(300)，对于语音识别结果的假设子词单元序列中的每个子词单元：获得相应置信度嵌入(242)；使用第一注意力机制(310)生成置信度特征向量(312)；使用第二注意力机制(320)生成声学上下文向量(332)；以及生成每个对应子词单元的相应置信度输出分数(302)，作为来自CEM的输出层(340)的输出。对于由假设子词单元序列形成的一个或多个词中的每一个，该方法还包括确定词的相应词级置信度分数。该方法还包括通过聚合词级置信度分数来确定话语级置信度分数(350)。

Description

学习用于子词端到端自动语音识别的词级置信度

技术领域

本公开涉及学习用于子词端到端自动语音识别的词级置信度。

背景技术

现代自动语音识别(ASR)系统不仅专注于提供质量/准确性(例如，低词错误率(WER))，还专注于提供低时延(例如，用户说话与出现转录之间的短延迟)。此外，当今天使用ASR系统时，要求ASR系统以流式传输方式解码话语，该流式传输方式对应于当用户说话时实时地，或甚至比实时更快地显示话语的转录。为了说明，当ASR系统部署在体验直接用户交互性的手机上时，使用ASR系统的手机上的应用程序可能要求语音识别是流式传输的，使得词、词块和/或单个字符在被说出时立即出现在屏幕上。这里，也可能手机的用户对时延的容忍度较低。由于这种低容忍度，语音识别努力在移动设备上运行，以最大限度地减少可能不利地影响用户体验的时延和不准确的影响。

发明内容

本公开的一方面提供一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使数据处理硬件执行操作，该操作包括从语音识别器接收由用户说出的话语的语音识别结果。该语音识别结果包括形成话语的一个或多个词的假设子词单元的序列。每个子词单元在对应输出步骤从语音识别器输出。使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，操作还包括：获得相应置信度嵌入，该置信度嵌入表示当从语音识别器输出对应子词单元时与对应输出步骤相关联的一组置信度特征；使用第一注意力机制生成置信度特征向量，所述第一注意力机制自注意对应子词单元的相应置信度嵌入以及对于继续对应子词单元的假设子词单元的序列中的任何其它子词单元获得的置信度嵌入；使用第二注意力机制生成声学上下文向量，该第二注意力机制交叉注意声学编码的序列，每个声学编码与从对应于话语的音频数据分割的对应声学帧相关联；以及基于由置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应子词单元的相应置信度输出分数，作为来自置信度估计模块的输出层的输出。对于由假设子词单元的序列形成的一个或多个词中的每一个，操作还包括确定词的相应词级置信度分数；以及通过聚合为话语的一个或多个词确定的相应词级置信度分数来确定语音识别结果的话语级置信度分数。相应词级置信度分数等于为词中的最终子词单元生成的相应置信度输出分数。

本公开的实施方案可以包括以下可选特征中的一个或多个。在一些实施方案中，由相应置信度嵌入表示的一组置信度特征包括在对应输出步骤的语音识别器的softmax后验特征，以及对应子词单元的子词嵌入特征。在附加实施方案中，由相应置信度嵌入表示的一组置信度特征进一步包括：对数后验对数特征，该对数后验对数特征指示与在对应输出步骤从语音识别器输出的对应子词单元的概率/可能性相关联的概率值；以及前K个特征，该前K个特征指示由语音识别器重评分的前K个候选假设在对应输出步骤的K个最大对数概率。这里，前K个候选假设各自由形成话语的一个或多个词的相应假设子词单元的序列表示。

在一些示例中，子词单元包括词块，而在其它示例中，子词单元包括字素。语音识别器可以包括换能器解码器模型和重评分器解码器模型。换能器解码器模型被配置成在第一遍期间生成多个候选假设，并且重评分器解码器模型被配置成在第二遍期间对来自换能器解码器模型在第一遍期间生成的多个候选假设的前K个候选假设进行重评分。每个候选假设对应于话语的候选转录，并且由相应假设子词单元的序列表示。此外，从重评分器解码器模型输出由重评分器解码器模型重评分的前K个候选假设中的候选假设，作为用户说出的话语的语音识别结果，该候选假设由与最高第二遍对数概率相关联的相应假设子词单元的序列表示。换能器解码器模型可以包括递归神经网络-换能器(RNN-T)模型架构，并且重评分器解码器模型可以包括收听、注意和拼写(LAS)模型架构。

在一些实施方案中，操作进一步包括：通过对换能器解码器模型在第一遍期间生成的多个候选假设中的每一个进行编码，使用语音识别器的语言编码器在第二遍期间生成多个假设编码；以及使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，使用交叉注意多个假设编码的第三注意力机制来生成语言上下文向量。在这些实施方案中，生成对应子词单元的相应置信度输出分数进一步基于由置信度估计模块的输出层作为输入接收的语言上下文向量。对多个候选假设中的每一个进行编码可以包括将每个候选假设双向编码成对应假设编码，并且生成多个候选假设可以包括通过级联每个对应假设编码来生成多个假设编码。

可以联合地或单独地训练语音识别器和置信度估计模块。可以基于与语音识别器相关联的特征使用二进制交叉熵损失来训练置信度估计模块。在一些示例中，操作进一步包括确定语音识别结果的话语级置信度分数是否满足置信度阈值，并且当语音识别结果的话语级置信度分数未能满足置信度阈值时，将对应于话语的音频数据传输到另一语音识别器。这里，另一语音识别器被配置成处理音频数据以生成话语的转录。在这些示例中，语音识别器和置信度估计模块可以在用户计算设备上执行，而另一语音识别器可以在经由网络与用户计算设备通信的远程服务器上执行。

本公开的另一方面提供一种系统，该系统包括数据处理硬件和存储器硬件，该存储器硬件与数据处理硬件通信并且存储指令，该指令当在数据处理硬件上执行时使数据处理硬件执行操作，该操作包括从语音识别器接收由用户说出的话语的语音识别结果。该语音识别结果包括形成话语的一个或多个词的假设子词单元的序列。每个子词单元在对应输出步骤从语音识别器输出。使用置信度估计模块，对于假设子词单元的序列中的每个子词单元，操作还包括：获得相应置信度嵌入，该置信度嵌入表示当从语音识别器输出对应子词单元时与对应输出步骤相关联的一组置信度特征；使用第一注意力机制生成置信度特征向量，该第一注意力机制自注意对应子词单元的相应置信度嵌入以及对于继续对应子词单元的假设子词单元的序列中的任何其它子词单元获得的置信度嵌入；使用第二注意力机制生成声学上下文向量，该第二注意力机制交叉注意声学编码的序列，每个声学编码与从对应于话语的音频数据分割的对应声学帧相关联；以及基于由置信度估计模块的输出层作为输入接收的置信度特征向量和声学特征向量，生成对应子词单元的相应置信度输出分数，作为来自置信度估计模块的输出层的输出。对于由假设子词单元的序列形成的一个或多个词中的每一个，操作还包括确定词的相应词级置信度分数；以及通过聚合为话语的一个或多个词确定的相应词级置信度分数来确定语音识别结果的话语级置信度分数。相应词级置信度分数等于为词中的最终子词单元生成的相应置信度输出分数。

该方面可以包括以下可选特征中的一个或多个。在一些实施方案中，由相应置信度嵌入表示的一组置信度特征包括在对应输出步骤的语音识别器的softmax后验特征，以及对应子词单元的子词嵌入特征。在附加实施方案中，由相应置信度嵌入表示的一组置信度特征进一步包括：对数后验对数特征，该对数后验对数特征指示与在对应输出步骤从语音识别器输出的对应子词单元的概率/可能性相关联的概率值；以及前K个特征，该前K个特征指示由语音识别器重评分的前K个候选假设在对应输出步骤的K个最大对数概率。这里，前K个候选假设各自由形成话语的一个或多个词的相应假设子词单元的序列表示。

可以联合地或单独地训练语音识别器和置信度估计模块。可以基于与语音识别器相关联的特征使用二进制交叉熵损失来训练置信度估计模块。在一些示例中，该操作进一步包括确定语音识别结果的话语级置信度分数是否满足置信度阈值，并且当语音识别结果的话语级置信度分数未能满足置信度阈值时，将对应于话语的音频数据传输到另一语音识别器。这里，另一语音识别器被配置成处理音频数据以生成话语的转录。在这些示例中，语音识别器和置信度估计模块可以在用户计算设备上执行，而另一语音识别器可以在经由网络与用户计算设备通信的远程服务器上执行。

下文在附图和具体实施方式中阐述本公开的一个或多个实施方案的细节。其它方面、特征和优点将从具体实施方式和附图以及从权利要求书变得明显。

附图说明

图1是示例语音环境的示意图。

图2A是具有利用变换器重评分器进行语音识别的两遍模型架构的示例语音识别器的示意图。

图2B是具有利用审议重评分器进行语音识别的两遍模型架构的示例语音识别器的示意图。

图3是覆盖在具有两遍模型架构的语音识别器上的示例置信度估计模块的示意图。

图4是用于基于话语级置信度来选择合适的语音识别器的示例基于置信度的例程的示意图。

图5是用于仅使用由语音识别器识别的词的最终假设子词单元的置信度来估计词的词级置信度的方法的操作的示例布置的流程图。

图6是可以用于实现本文中所描述的系统和方法的示例计算设备的示意图。

在各个附图中的相似附图标记指示相似元件。

具体实施方式

自动语音识别(ASR)系统不仅专注于提供质量/准确性(例如，低词错误率(WER))，还专注于提供低时延(例如，用户说话与出现转录之间的短延迟)。最近，诸如递归神经网络-换能器(RNN-T)、变换器或卷积增强变换器换能器的端到端(E2E)ASR模型以及基于注意力的编码器-解码器模型在实现准确性和时延的最先进性能方面得到普及。与包括单独的声学、发音和语言模型的传统混合ASR系统相比，E2E模型应用序列到序列方法联合地学习单个神经网络中的声学和语言建模，该神经网络根据训练数据(例如，话语-转录对)端对端训练。

序列到序列模型的示例包括“基于注意力”模型和“收听-注意-拼写”(LAS)模型。LAS模型使用收听器组件、注意器组件和拼写器组件将语音话语转录成字符。这里，收听器是递归神经网络(RNN)编码器，该RNN编码器接收音频输入(例如，语音输入的时频表示)并且将音频输入映射到更高级特征表示。注意器注意更高级特征，以学习输入特征与预测子词单元(例如，字素(grapheme)或词块(wordpiece))之间的对准。拼写器是基于注意力的RNN解码器，该基于注意力的RNN解码器通过在一组假设词上产生概率分布从输入生成字符序列。利用集成结构，可以将模型的所有组件联合训练为单个端到端(E2E)神经网络。这里，E2E模型指代其架构完全由神经网络构建的模型。完全神经网络在没有外部和/或手动设计的组件(例如，有限状态换能器、词典或文本规范化模块)的情况下起作用。另外，当训练E2E模型时，这些模型通常不需要来自决策树的自举(bootstrapping)或来自单独系统的时间对准。

此外，当今天使用ASR系统时，要求ASR系统以流式传输方式解码话语，该流式传输方式对应于当用户说话时实时地、或甚至比实时更快地显示话语的转录。为了说明，当ASR系统部署在体验直接用户交互性的手机上时，使用ASR系统的移动电话上的应用程序可能要求语音识别是流式传输的，使得词、词块和/或单个字符在被说出时立即出现在屏幕上。这里，也可能移动电话的用户对时延的容忍度较低。由于这种低容忍度，语音识别努力在移动设备上运行，以最大限度地减少可能不利地影响用户体验的时延和不准确的影响。然而，序列到序列模型，诸如通过在生成输出文本之前审查音频的整个输入序列起作用的LAS模型，不允许在接收到输入时流式传输输出。由于这个缺陷，为延迟敏感和/或需要实时话音转录的语音应用程序部署LAS模型可能带来问题。这使得LAS模型本身不是经常依赖于实时应用程序(例如，实时通信应用程序)的移动技术(例如，移动电话)的理想模型。

称为递归神经网络换能器(RNN-T)的另一形式的序列到序列模型不采用注意力机制，并且与通常需要处理整个序列(例如，音频波形)来产生输出(例如，句子)的其它序列到序列模型不同，RNN-T连续地处理输入样本并且流式传输输出符号，这个特征对于实时通信特别有吸引力。例如，利用RNN-T的语音识别可以按语音一个接一个地输出字符。这里，RNN-T使用反馈回路，该反馈回路将由模型预测的符号反馈回其自身以预测下一个符号。因为解码RNN-T包括通过单个神经网络，而不是大型解码器图的波束搜索，所以RNN-T可以扩展到基于服务器的语音识别模型的大小的分数。随着尺寸减小，RNN-T可以完全部署在设备上并且能够离线运行(即，没有网络连接)；从而避免通信网络的不可靠性问题。

然而，单独的RNN-T模型在质量(例如，语音识别准确性)方面仍然落后于大型的最先进传统模型(例如，具有单独AM、PM和LM的基于服务器的模型)。然而，非流式传输E2E LAS模型的语音识别质量与大型的最先进传统模型相当。为了利用非流式传输E2E LAS模型的质量，开发一种两遍语音识别系统(例如，图2A中所示)，该两遍语音识别系统包括RNN-T网络的第一遍组件，然后是LAS网络的第二遍组件。利用这种设计，两遍模型受益于具有低时延的RNN-T模型的流式传输特性，同时通过结合LAS网络的第二遍提高RNN-T模型的准确性。尽管与仅RNN-T模型相比，LAS网络增加时延，但是时延的增加相当轻微并且符合设备上操作的时延限制。关于准确性，与单独的RNN-T相比，两遍模型的WER降低17-22％，并且与大型传统模型相比，WER相似。

置信度分数是ASR系统的一个重要特征，该ASR系统支持许多下游应用程序以减轻语音识别错误。例如，具有从ASR模型输出的实现高置信度的识别结果的未标记话语可以用于ASR模型的半监督训练，这可以减少仅使用转录话语进行训练的费用。另一方面，在诸如用户与在计算设备上执行的数字助理交互的口语对话系统的应用程序中，具有实现低词级置信度的识别结果的话语可以提示用户校正任何错误转录的词。另外，具有低置信度的识别结果可能导致将对应话语的音频传递到不同ASR模型(例如，服务器端)，以改进对话语的识别。

虽然传统的混合ASR系统可以容易地根据从网格或混淆网络计算的词后验概率来估计词级置信度分数，然后进行聚合以提供话语级置信度，但是由E2E ASR模型采用的深度神经网络在预测词时往往表现出过度置信度。由于许多E2E ASR模型被配置成在子词级输出识别结果，使用词的对应固定子词标记化作为参考序列来简单地学习由ASR模型识别的每个子词的置信度分数能够导致用于训练置信度估计模型的不正确地面真值标签，因为识别结果可能包含多个有效的标记化。例如，话语“早晨好(Good morning)”的参考固定子词序列可以是“go,od,morn,ing”，而由ASR模型识别的假设子词序列可以是“go,od,mor,ning,mom”。这里，即使ASR模型正确地识别词“morning(早晨)”，由ASR模型识别的对应假设子词“mor”和“ning”的子词标签也会被标记为不正确，因为它们与词“早晨”的对应参考固定子词“morn”和“ing”不匹配。

为了减轻由于参考固定子词序列之间的不匹配而导致的与估计由ASR模型识别的假设子词序列的子词置信度分数相关的缺点，本文中的实施方案涉及一种置信度估计模型，该置信度估计模型应用自注意力，以便仅使用由组成对应词的ASR模型识别的最终假设子词单元的置信度来估计每个所识别词的词级置信度。本公开的附加实施方案还涉及置信度估计模块，该置信度估计模块另外利用交叉注意力来注意正在被识别的话语的声学场境以及由ASR模型在第一遍期间识别的多个假设(例如，N最佳列表)的语言场境。显而易见，声学和语言交叉注意力两者的利用导致提高由置信度估计模块估计的置信度分数的准确性。

图1是其中用户10通过话音输入与用户设备110交互的示例语音环境100。用户设备110(通常也称为设备110)包括计算设备，该计算设备被配置成捕获来自支持语音环境100内的一个或多个用户10的声音(例如，流式传输音频数据)。这里，流式传输音频数据202可以指代用户10的口头话语106，该口头话语用作可听查询、设备110的命令或由设备110捕获的可听通信。设备110的支持语音系统可以通过回答查询和/或使命令被执行来字段化查询或命令。

用户设备110可以对应于能够接收音频数据202的任何计算设备。用户设备110的一些示例包括但不限于移动设备(例如，手机、平板计算机、膝上型计算机等)、计算机、可穿戴设备(例如，智能手表)、智能电器、物联网(IoT)设备、智能扬声器/显示器、车辆信息娱乐系统等。用户设备110包括数据处理硬件112和存储器硬件114，该存储器硬件114与数据处理硬件112通信并且存储指令，该指令在由数据处理硬件112执行时使数据处理硬件112执行一个或多个操作。用户设备110进一步包括音频子系统116，该音频子系统具有：音频捕获设备(例如，麦克风)116、116a，其用于捕获支持语音系统100内的口头话语12并且将口头话语转换成电信号；以及语音输出设备(例如，扬声器)116、116b，其用于传送可听音频信号(例如，作为来自设备110的输出音频数据)。虽然用户设备110在所示示例中实现单个音频捕获设备116a，但是用户设备110可以在不偏离本公开的范围的情况下实现音频捕获设备116a的阵列，由此阵列中的一个或多个捕获设备116a可以物理上不驻留在用户设备110上，而是与音频子系统116通信。在所示示例中，用户设备110(例如，使用硬件112、114)实现语音识别器200，该语音识别器被配置成对与由用户10说出的话语12相对应的音频数据202执行语音识别。这里，音频捕获设备116a被配置成捕获表示话语12的声学声音，并且将声学声音转换为和与语音识别器200兼容的数字格式相关联的音频数据202。与音频数据202相关联的数字格式可以对应于声学帧(例如，参数化的声学帧)，诸如mel帧。例如，参数化的声学帧对应于log-mel滤波器组能量。

尽管图1示出实施用于在设备上执行语音识别的语音识别器200的用户设备100，但是其它实施方案包括远程服务器410(图4)，该远程服务器通过处理由用户设备110经由网络传输的音频数据202并且将音频数据202的转录204提供回用户设备110来实现语音识别器200。在一些附加实施方案中，用户设备110利用驻留在用户设备110上的本地语音识别器200和在远程服务器410上执行的服务器端语音识别器402(图4)两者。这里，当网络连接不可用或不可用于对延迟敏感和/或需要流式传输转录的语音应用程序时，用户设备110可以使用本地语音识别器200，而当需要附加资源来提高语音识别准确性时，可以利用服务器侧语音识别器402，如下文参考图4更详细地描述的。

在一些示例中，用户10与在使用语音识别器200的用户设备110上执行的程序或应用程序118进行交互。例如，图1描绘用户10与自动助理应用程序118通信。在该示例中，用户(例如，Bill)10通过说出由音频捕获设备116a捕获并转换成对应音频数据202(例如，作为声帧)以供语音识别器200处理的话语12“早晨好(Good morning)”来迎接自动助理应用程序118。在该示例中，语音识别器200将表示话语12的音频数据202转录成转录204(例如，“早晨好”的文本表示)。这里，自动助理应用程序118可以对转录204应用自然语言处理以生成响应119以输出到用户10，该响应传达消息，“早晨好，比尔，您日历上今天的第一个会议是上午9:00。(Good Morning Bill,the first meeting today on your calendar is at 9:00AM.)”自然语言处理通常是指解释书面语言(例如，转录204)并且确定书面语言是否提示任何动作的过程。在该示例中，助理应用程序118使用自然语言处理来识别由用户10说出的话语12旨在调用助理应用程序118以访问用户10的日历应用程序，并且提供指示用户10今天的第一次会议是什么时间的响应119。也就是说，通过利用自然语言处理识别这些细节，助理应用程序118将响应119作为用于通过音频输出设备116a进行可听输出的合成语音表示和/或作为用于在与用户设备110通信的屏幕上显示的文本返回给用户12。在一些示例中，用户设备110在屏幕上显示由用户10说出的话语12的转录204和来自助理应用程序118的对应响应119作为对话。在一些配置中，自然语言处理可以发生在与用户设备110的数据处理硬件112通信的远程系统上。

在一些示例中，语音识别器200实时处理传入音频数据202，以提供流式传输转录204。这里，语音识别器200被配置成产生构成由用户10说出的话语12的词的假设子词单元序列。假设子词单元可以包括词块或单个字符(例如，字素)。在所示示例中，由语音识别器识别的假设子词单元序列包括“SOS_go od_mor ning”，其中‘SOS’指示语音开始标记，并且每个词边界指示符(‘_’)指示每个词的起始/开始子词单元。

参考图2A，在一些实施方案中，语音识别器200、200a在两遍解码架构中被配置并且实现置信度估计模块(CEM)300以估计由语音识别器200预测的最终识别结果232的置信度302。值得注意的是，语音识别器200a利用变换器重评分器架构来执行第二遍208解码/重评分。这里，最终识别结果232对应于子词单元序列，诸如词块或字素，该子词单元当聚集在一起时形成话语的转录204。一般来说，语音识别器200的两遍架构包括至少一个共享编码器210、RNN-T解码器220和由声学编码器250增强的重评分器解码器230。在两遍解码中，第二遍208(例如，示为重评分器解码器230)可以利用诸如晶格重评分或前K个重排序改进来自第一遍206(例如，示为RNN-T解码器220)的初始输出222。换句话说，RNN-T解码器220产生多个候选假设H作为输出222，并且重评分器解码器230重评分/重排序前K个候选假设H，以将最高评分候选假设识别为对应于转录204(图1)的最终识别结果232。尽管通常讨论重评分器解码器230在对来自RNN-T解码器220的流式传输假设H 222进行重评分的重评分模式下起作用，但是取决于设计或其它因素(例如，话语长度)，重评分器解码器230也能够在诸如波束搜索模式的不同模式下操作。此外，尽管本文中的示例描述RNN-T解码器220在第一话语期间执行解码，但是在不脱离本公开的范围的情况下，解码器220可以类似地包括其它类型的换能器模型架构。例如，代替RNN-T模型架构，解码器220可以包括变换器-换能器、卷积神经网络-换能器(ConvNet-换能器)，或卷积增强变换器-换能器模型架构中的一个。

至少一个共享编码器210被配置成接收与作为声学帧序列的话语12相对应的音频数据202作为输入。声学帧先前可以由音频子系统116处理成参数化声学帧(例如，mel帧和/或频谱帧)。在一些实施方案中，参数化声学帧对应于具有log-mel特征的log-mel滤波器组能量。例如，表示输入到编码器210中的音频数据202的参数化输入声学帧可以被表示为x＝(x₁,...,x_T)，其中是log-mel滤波器组能量，T表示x中的帧数，并且d表示log-mel特征的数量。在一些示例中，每个参数化声学帧包括在短移位窗口(例如，32毫秒并且每10毫秒移位一次)内计算的128维log-mel特征。每个特征可以与先前帧(例如，三个先前帧)堆叠以形成更高维度的向量(例如，使用三个先前帧的512维向量)。然后可以对形成向量的特征进行下采样(例如，到30毫秒帧速率)。对于输入到编码器210的音频数据202的每个声学帧x_1:T，编码器210被配置成生成对应共享编码e^s _1:T作为输出212。

尽管编码器210的结构可以以不同方式实现，但是在一些实施方案中，编码器210包括长短期记忆(LSTM)神经网络。例如，LSTM神经网络可以包括八(8)个LSTM层。这里，每个层可以具有2,048个隐藏单元，后面是640维投影层。在一些示例中，在编码器210的第二LSTM层之后插入具有减少因子N＝2的时间缩减层。

在一些配置中，编码器210是共享编码器网络。换句话说，代替具有其自己的单独编码器的每个编网络206、208，每个编206、208共享单个编码器210。编码器210的共享可以减少模型大小和/或减少利用两遍架构的语音识别器200的计算成本。这里，模型大小的减小可以有助于使语音识别器200能够完全在设备上运行。

在一些示例中，图2A的语音识别器200还包括附加编码器，诸如声学编码器250，以使针对每个声学帧x作为来自共享编码器210的输出212生成的共享编码e^s适合于重评分器解码器230的第二遍208以及CEM 300的置信度302估计。这里，声学编码器250进一步在每个时步期间将作为共享编码器210的输出212生成的每个共享编码e^s编码成对应声学编码e_1:T252。在一些实施方案中，声学编码器250包括LSTM编码器(例如，两层LSTM编码器)，该LSTM编码器进一步将来自共享编码器210的每个输出212编码成对应声学编码e_1:T 252。由T表示的x中的帧数中的每一个对应于相应时间步。通过包括声学编码器250，共享编码器210仍然可以被保留为第一遍206与第二遍208之间的共享编码器。

在一些实施方案中，RNN-T解码器220包括预测网络和联合网络。这里，预测网络可以具有2,048个隐藏单元的两个LSTM层和每层640维投影以及128个单元的嵌入层。可以将共享编码器210和预测网络的输出212馈送到包括softmax预测层的联合网络。在一些示例中，RNN-T解码器220的联合网络包括640个隐藏单元，后面是预测4,096个大小写混合词块的softmax层。

在第一遍206期间，RNN-T解码器220接收针对每个声学帧x作为来自共享编码器210的输出212生成的共享编码e^s作为输入，并且生成多个候选假设H作为输出222，每个候选假设由假设子词单元的相应序列y₁,y₂,y₃,…,y_M表示。例如，在用户10说出“早晨好”的示例中，一个候选假设H可以包括假设子词单元[_go,od,_mor,ning]的第一序列，并且另一候选假设H可以包括假设子词单元[_go,od,_morn,ing]的第二序列。可能还有许多其它候选假设H。这里，表示每个候选假设H的假设子词单元的相应序列y₁,y₂,y₃,…,y_M对应于话语12的候选转录。假设子词单元的每个相应序列y₁,y₂,y₃,…,y_M中的每个子词单元y_i表示可能子单元上的概率分布。具有概率分布中的最高概率的子词单元可以被选择为假设子词单元的相应序列中的假设子词。

继续参考图2A，在第二遍208期间，重评分器解码器230接收从声学编码器250输出的声学编码e的序列e_1:T 252以及作为来自RNN-T解码器220的输出222生成的前K个候选假设H作为输入。在一个示例中，K等于四(4)，使得前四个候选假设H被提供作为用于在第二遍208期间进行重评分的重评分器解码器230的输入。对于前K个候选假设H中的每一个，重评分器解码器230被配置成对每个子词单元进行重评分，并且更具体地，使用以下等式对假设子词单元的相应序列y₁,y₂,y₃,…,y_M中的每个子词单元的概率分布进行重评分。

p(y_i|e，y_i：i-1))＝Softmax(Linear(φ(i|e，y_1：i-1))) (1)

其中φ表示用于重评分器解码器230的倒数第二层激活。由与最高第二遍对数概率相关联的假设子词单元的相应序列y₁,y₂,y₃,…,y_M表示的候选假设H可以作为对应于转录204的最终识别结果232被输出。重评分器解码器230可以实现具有四个自注意力层的LAS架构，其中两个自注意力层包含在编码器上的交叉注意力。

为了减小softmax层的大小，与词词汇表相比，可能的子词单元的子词单元词汇表通常较小。子词单元词汇表可以包括字素或词块(WP)。示例WP词汇表可以包括4,096个WP。尽管本公开的示例将WP用作作为来自语音识别器的输出生成的子词单元，但是在不脱离本公开的范围的情况下，能够类似地利用字素作为从语音识别器输出的子词单元。因此，为了计算候选假设H的词错误率(WER)，假设子词单元(例如，WP)的相应序列需要被转换成其对应词序列w₁,w₂,...,w_L。唯一地确定用于将子词序列转换成词序列的这个过程，因为每个词的第一子词单元(例如，WP)以词边界指示符(‘_’)开始。类似地，对于包括Q_j个WP的词w_j，其中y_j,q表示第j个词的第q个WP，用于计算词置信度的简单技术能够表示如下。

c_word(wj)＝agg(c(y_j，1)，...，c(y_j，Q_j)) (2)

其中agg能够是算术平均值、最小值、乘积或神经网络。然而，由于WP正确性与词正确性之间的不匹配，每个词w_j能够被划分为多个不同的有效WP组合，因此使用等式2来估计词级置信度在训练期间创建不期望的计算负担，因为需要在所有可能的参考标记化上搜索具有最少WP编辑的一个。如本文中所使用的，WP编辑包括当假设WP与参考WP匹配时的正确(cor)标签、当有效的假设WP与参考WP不匹配时的替换(sub)标签以及当错误识别假设WP时的插入(ins)。下表1示出示例，其中正确地转录词“早晨”，但是在WP编辑距离输出中产生两个替换。

表1

参考图2B，在一些附加实施方案中，代替图2A的变换器重评分器架构，在两遍解码架构中配置的语音识别器200、200b利用审议(deliberation)重评分器架构执行第二遍208解码/重评分。审议解码器240表示审议重评分器架构，并且包括语言编码器241、假设注意力机制244、声学注意力机制246和重评分器解码器230。语音识别器200b包括与上述图2A的语音识别器200a相同的共享编码器210、第一遍206RNN-T解码器220和声学编码器250。与由图2A的语音识别器200a利用的变换器重评分器架构相比，图2B的语音识别器200b通过注意共享编码器210在声学注意力机制246处的输出212来注意声学，并且通过注意RNN-T解码器220在假设注意力机制244的输出222来注意第一遍候选假设H中的一个或多个，每一个第一遍候选假设由假设子词单元的相应序列y₁,y₂,y₃,…,y_M表示。相反，图2A的语音识别器200仅通过注意编码器210在重评分器解码器230本身的输出212来注意声学。通过注意声学(例如，表示为共享编码e^s的输出212)和第一遍假设，审议解码器240生成最终识别结果232作为输出，该最终识别结果由假设子词单元的相应序列y₁,y₂,y₃,…,y_M表示，该假设子词单元与由重评分器解码器230重评分的最高第二遍对数概率相关联。值得注意的是，每个注意力机制244、246形成输入到重评分器解码器230中的上下文向量245、247(例如，声学上下文向量247和假设上下文向量245)。可以将这些上下文向量245、247的级联输入到重评分器解码器230。注意力机制244、246可以各自包括多头注意力(例如，四个头)。

继续参考图2B，在第二遍208期间，语言编码器241进一步将作为来自RNN-T解码器220的输出222生成的每个候选假设H编码成对应假设编码h 243。因此，语言编码器241可以将多个候选假设编码成多个假设编码h 243，并且将多个假设编码h 243作为输入提供到CEM 300的语言交叉注意力机制330(图3)以用于估计子词单元的置信度。在这种情形下，从多个候选假设H编码的对应假设编码h可以在不提供任何位置信息的情况下级联到多个假设编码h 243中，以允许CEM 300在对当前词评分时使用多个假设之间的一致性。此外，语言编码器241还可以对有用的上下文信息的输出222进行编码以包括在编码假设243中。例如，语言编码器241可以包括能够包括上下文信息的双向编码器。在结构上，语言编码器241可以是双向LSTM(BLSTM)编码器(例如，2层BLSTM编码器)。作为BLSTM编码器，语言编码器241的每一层可以包括2,048个隐藏单元，后面是320维投影。

重评分器解码器230接收声学上下文向量247和假设上下文向量245作为输入，该声学上下文向量注意从声学编码器250输出的声学编码e的序列e_1:T 252，该假设上下文向量注意作为来自RNN-T解码器220的输出222生成的前K个候选假设H的编码假设243。对于前K个候选假设H中的每一个，重评分器解码器230使用上下文向量245、247对每个子词单元进行重评分，并且更具体地，对假设子词单元的相应序列y₁,y₂,y₃,…,y_M中的每个子词单元的概率分布进行重评分。

为了解决WP正确性与如表1所描绘的以WP级输出的语音识别器200产生的词正确性之间的固有不匹配，本文中的实施方案涉及基于变换器/审议的CEM 300，该基于变换器/审议的CEM利用每个词的最终WP处的置信度输出作为词级置信度，同时忽略每个词的所有其它先前WP的置信度。图3示出利用两遍架构覆盖在语音识别器200的顶部上的基于变换器/审议的CEM 300的示例。为了清楚起见，图3仅描绘CEM 300的动作，该CEM预测假设WP的相应序列y₁,y₂,y₃,…,y_M中的第i个WP的置信度输出c(y_i)302，该假设WP表示由重评分器解码器230重评分的最终识别结果232。具体地，图3描绘CEM 300预测假设WP[_go，od，_mor，ning]的相应序列中的“ning”WP的置信度输出c(“ning”)，该WP转换成对应词序列“早晨好”。如下文更详细地描述，所有虚线连接和虚线语言交叉注意力块330仅用于审议CEM300，而不用于变换器CEM 300。

在第一遍206期间，RNN-T解码器220生成多个候选假设H作为输出222，每个候选假设由假设子词单元的相应序列y₁,y₂,y₃,…,y_M表示。例如，在话语12“早晨好”的示例中，作为来自RNN-T解码器220的输出222生成的候选假设H可以包括假设子词单元[_go,od,_mor,ning]的第一序列，并且另一候选假设H可以包括假设子词单元[_go,od,_morn,ing]的第二序列。同时，声学编码器250生成声学编码序列e_1:T252，其中T对应于从话语12分割的多个声学帧x。

在第二遍208期间，重评分器解码器230接收从声学编码器250输出的声学编码e的序列e_1:T 252以及作为来自RNN-T解码器220的输出222生成的前K个候选假设H作为输入。对于前K个候选假设H中的每一个，重评分器解码器230被配置成对每个子词单元进行重评分，并且更具体地，使用等式(1)对假设子词单元的相应序列p(y₁),p(y₂),p(y₃),…,p(y_M)中的每个子词单元的概率分布进行重评分，由此线性+softmax 235可以输出与最高第二遍对数概率相关联的候选假设H作为最终识别结果232。这里，最终识别结果232包括具有语音开始(sos)和语音结束(eos)标记的假设子词(例如，WP)单元[sos_go，od，_mor，ning eos]的序列。

对于表示最终识别结果232的假设子词(例如，WP)单元[sos_go,od,_mor,ningeos]的序列中的每个子词单元(y_i)，表示从语音识别器200获得的一组置信度特征的置信度嵌入b(y_i)301作为输入提供到CEM 300以确定相应置信度输出c(y_i)302。在所示示例中，第i个子词单元对应于WP“ning”。这里，置信度嵌入b(y_i)301传送使用等式(1)的重评分器解码器230的softmax后验特征输入字词+位置嵌入Emb(y_i)特征(例如，Emb(ning))、对数后验对数(p(y_i))特征和前K(i)个特征中的一个或多个。softmax后验特征指示WP“ning”的内部特征、声学编码e的内部特征e₁:_T和重评分器解码器230的倒数第二层激活φ。对数后验对数(p(y₁))特征指示与子词单元y_i包括WP“ning”的概率/可能性相关联的概率值，并且前K(i)个特征指示在解码器索引(例如，时间步)i处的K个最大对数概率。换句话说，前K(i)个特征在解码器索引(例如，时间步)i处提供前K个中的每个候选假设H的概率值。由于语音识别器200和CEM 300两者被配置成在子词(例如WP)级为每个时间步生成输出，因此将CEM 300实现为变换器许可：(1)通过利用在每个词c_word(w_j)的最终WP处的置信度输出c(y_j,Q_j)作为专用词级置信度302，使用词编辑距离输出作为地面真值训练标签；以及(2)并入来自构成词的每个WP的信息/特征。在所示示例中，基于变换器的CEM 300的自注意力机制310基于对应于WP“ning”的第i个子词单元的置信度嵌入b(y_i)301以及同一词中较早子词单元的置信度嵌入而将自注意力应用于置信度特征向量b 312。置信度特征向量b可以由以下等式表示。

b(y_i)＝[Emb(y_i)；φ(i|e，y_1：i-1)；log(p(y_i))；top-K(i)] (3)

b＝{b(y₁),…,b(y_i)} (4)

另外，基于变换器的CEM 300的声学交叉注意力机制320将声学交叉注意力(CA(e))应用于从声学编码器250输出的声学编码e的序列e_1:T 252，以生成声学上下文向量322以用于提高估计对应于WP“ning”的第i个子词单元的相应置信度输出c(y_i)302的准确性。最后，线性+sigmoid块340使用自注意力置信度特征向量SA(b)和交叉注意力CA(e)声学上下文向量322，以许可基于变换器的CEM 300在最终WP处使用置信度输出c(y_j,Q_j)如下产生每个词c_word(w_j)的专用置信度302。

c(y_i)＝σ(Transformer(CA(e)，SA(b))) (5)

cword(w_j)＝c(y_j，Q_j)， (6)

其中在所示示例中的词c_word(早晨)的置信度302对应于构成词的最终WP的置信度输出c(ning)。

在一些实施方案中，语音识别器200利用图2B的审议解码器240进行第二遍重评分以实现基于审议的CEM 300，该基于审议的CEM并入在第一遍206期间作为来自RNN-T解码器220的输出222生成的多个候选假设H的语言信息，以进一步提高置信度准确性。通常，在词之间共享的候选假设H的数量越大，词往往具有越高的置信度。例如，在表1的话语“早晨好”的示例中，互相注意的第一候选假设H的假设子词单元[_go,od,_mor,ning]的第一序列和第二候选假设H的假设子词单元[_go,od,_morn,ing]的第二序列将通知基于审议的CEM它们级联到相同的词序列，并且因此应该映射到相似的置信度分数。值得注意的是，由于CEM300的任务是估计已知假设中每个词的置信度302，因此基于审议的CEM能够在对当前词进行评分/估计时利用假设的未来上下文。除了将声学交叉注意力CA(e)应用于从声学编码器250输出的声学编码e的序列e_1:T 252以生成声学上下文向量322的声学交叉注意力机制320之外，基于审议的CEM 300还包括语言交叉注意力机制330，该语言交叉注意力机制将语言交叉注意力(CA(h))应用于从语言编码器241(图2B)输出的多个候选假设编码h 243，以生成语言上下文向量332以用于估计子词单元的置信度。从图2B的语言编码器241输出的多个假设编码h 243可以如下表示。

其中H是所注意的候选假设的数量并且M_H是第H个假设中的WP的数量。在一个示例中，H等于八(8)。在一个示例中，H等于一(1)，由此仅注意与最终识别结果232相关联的假设编码h 243，以用于估计子词单元的置信度。

另外，当估计对应于WP“ning”的第i个子词单元的相应置信度输出c(y_i)302时，基于审议的CEM 300通过经由声学交叉注意力机制320注意声学编码e的序列e_1:T 252并入声学上下文并且通过经由语言交叉注意力机制330注意多个假设编码h 243并入语言上下文。最后，与CEM 300的线性+sigmoid块340相对应的输出层340使用自注意力置信度特征向量SA(b)、交叉注意力CA(e)声学上下文向量322和交叉注意力CA(h)语言上下文向量332，以许可基于审议的CEM 300如下产生每个子词WP的置信度输出c(y_i)。

c(y_i)＝σ(Transformer(CA(e)+CA(h)，SA(b))) (8)

与基于变换器的CEM 300一样，基于审议的CEM 300可以使用等式(6)，以通过在最终WP处使用置信度输出c(y_j,Q_j)来确定每个词c_word(w_j)的专用置信度302。在基于变换器和基于审议的CEM 300两者中，可以通过聚合对应词序列w_1:L中的每个词c_word(w_j)的专用置信度302来确定话语级置信度分数350(图4)。在一些示例中，聚合包括算术平均聚合器。

CEM 300可以与语音识别器200联合训练，或CEM 300和语音识别器可以彼此分开训练。在一些示例中，CEM 300如下使用二进制交叉熵词级损失训练。

其中表1示出当假设词与参考词匹配时，d(w_j)在词w_j的Levenshtein词级编辑距离输出“正确”(cor)标签时等于1，并且当假设词与参考词不匹配时，d(w_j)在词w_j的Levenshtein词级编辑距离输出“插入”(ins)或“替换”(sub)标签时等于0。值得注意的是，由于语音识别器200和CEM 300在子词级输出(例如，每WP输出)，表1还示出CEM 300应用词尾掩码损失m以仅聚焦于构成词的最终WP，并且忽略与构成同一词的较早WP相关联的WP损失。

图4示出用于选择适当的语音识别器来转录话语12的示例基于置信度的例程的示意图400。在所示示例中，在两遍解码架构中配置的第一语音识别器200(例如，包括图2A的变换器重评分器架构或图2B的审议重评分器架构)用作默认语音识别器，以用于通过处理与由用户10说出的话语12相对应的传入音频数据202来生成转录204。第一语音识别器200可以对应于在与用户10相关联的用户设备110上执行的本地语音识别器。第一语音识别器200还实现CEM 300，以用于确定由第一语音识别器200输出的语音识别结果232的话语级置信度分数350，该语音识别结果对应于转录204。

在一些实施方案中，基于置信度的例程确定由第一语音识别器200转录的话语12的话语级置信度分数350是否满足置信度阈值。在所示示例中，大于置信度阈值的话语级置信度分数350满足置信度阈值，而小于或等于置信度阈值的话语级置信度分数350未能满足置信度阈值。当话语级置信度分数350满足(例如，大于)置信度阈值(例如，判定块450为“是”)时，则接受由第一语音识别器200生成的转录204，以在质量、延迟和可靠性方面实现设备上增益。这里，接受的转录204可以在用户设备110上显示或继续显示，和/或传递给下游自然语言理解(NLU)模块，以用于解释转录204并且在必要时执行相关动作/操作。

当话语级置信度分数350未能满足(例如，小于)置信度阈值(例如，判定块450为“否”)时，则基于置信度的例程拒绝由第一语音识别器200生成的转录204，并且将音频数据202传递到第二语音识别器402进行处理以重新转录话语12。可以将由第二语音识别器402生成的转录204传递回用户设备110和/或下游NLU模块以用于解释。在第一语音识别器200是本地的并且在设备110上执行并且第二语音识别器402是服务器端的并且在远程服务器410上执行的示例中，基于置信度的例程使用户设备110经由网络(未示出)将音频数据202传输到远程服务器410，使得在其上执行的第二语音识别器402可以转录话语12。第二语音识别器402可以利用在大规模语言模型训练数据上训练的大型语言模型，使得第二语音识别器402更适合于识别用于训练第一语音识别器200的训练数据中不存在的专有名词或不太常见的词。

在一些示例中，第一语音识别器200在识别短形式话语时通常比实现较大语言模型和词典的第二语音识别器402更准确(例如，达到更低的词错误率)，第一语音识别器200最终在识别长尾话语时可能不如第二语音识别器402准确。因此，基于置信度的例程可以将置信度分数350小于置信度阈值的所有话语发送到第二语音识别器402以生成转录204，并且使用第一语音识别器200在设备110上转录大部分话语以获得质量、时延和可靠性。

虽然第二语音识别器402显示为服务器端，但是第二语音识别器402也可以在设备上执行。例如，第二语音识别器402可以与计算密集型语音识别器相关联，该语音识别器可以在某些话语上产生比第一语音识别器200更准确的语音识别结果，但代价是减少的时延和增加的功耗。因此，当与由第一语音识别器200生成的识别结果相关联的话语级置信度分数小于置信度阈值时，基于置信度的例程可以利用第二语音识别器402来转录话语12。

软件应用程序(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用程序可以称为“应用程序”、“应用”或程序。示例应用程序包括但不限于系统诊断应用程序、系统管理应用程序、系统维护应用程序、词处理应用程序、电子表格应用程序、消息传递应用程序、媒体流应用程序、社交网络应用程序和游戏应用程序。

非暂时性存储器可以是用于临时地或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

图5是用于仅使用由语音识别器识别的词的最终假设子词单元的置信度来估计该词的词级置信度的方法500的操作的示例布置的流程图。数据处理硬件112(图1)可以执行存储在存储器硬件114(图1)上的指令，以执行方法500的操作的示例布置。在操作502，方法500包括从语音识别器200接收由用户10说出的话语12的语音识别结果232。语音识别器200可以在两遍解码架构中配置，如上文参考图2A和2B所讨论的。这里，语音识别结果232是由语音识别器200的重评分解码器重评分的最高评分候选假设，并且包括形成话语12的一个或多个词的假设子词单元序列，每个子词单元在对应输出步骤从语音识别器200输出。

使用置信度估计模块(CEM)300，对于假设子词单元序列中的每个子词单元，方法500执行操作504、506、508、510。在操作504，方法500包括获得相应置信度嵌入242，该置信度嵌入表示当从语音识别器200输出对应子词单元时与对应输出步骤相关联的一组置信度特征。在操作506，方法500包括使用第一注意力机制310生成置信度特征向量SA(b)312，该第一注意力机制自注意对应子词单元的相应置信度嵌入b(y_i)242以及对于继续对应子词单元的假设子词单元序列中的任何其它子词单元获得的置信度嵌入b(y₁)–b(y_1-i)。在操作508，方法500包括使用第二注意力机制320生成声学上下文向量CA(e)322，该第二注意力机制交叉注意声学编码e的序列e_1:T 252，每个声学编码与从对应于话语12的音频数据202分割的对应声学帧x_T相关联。在操作510，方法500包括基于由CEM 300的输出层作为输入接收的置信度特征向量SA(b)和声学特征向量CA(e)322，生成对应子词单元的相应置信度输出分数302，作为来自CEM 300的输出层340的输出。

在操作512，对于由假设子词单元序列形成的一个或多个词中的每一个，方法500包括确定词的相应词级置信度分数。这里，相应词级置信度分数等于为词中的最终子词单元生成的相应置信度输出分数302。在操作514，方法500包括通过聚合为话语12的一个或多个词确定的相应词级置信度分数来确定语音识别结果232的话语级置信度分数350。

图6是可以用于实现在本文档中描述的系统和方法的示例性计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它合适的计算机。这里所示的组件、组件的连接和关系，以及组件的功能意味着仅仅是示例性的，并且并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640，以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每一个使用各种总线互连，并且组件可以被安装在通用母板上或视情况以其它方式安装。处理器610能够处理用于在计算设备600内执行的指令，包括存储于存储器620中或存储设备630上以将图形用户界面(GUI)的图形信息显示在外部输入/输出设备，诸如耦合到高速接口640的显示器680上的指令。在其它实施方案中，多个处理器和/或多个总线可以视情况与多个存储器以及多种类型的存储器一起使用。此外，可以连接多个计算设备600，其中每个设备提供必要操作的部分(例如，作为服务器组、刀片服务器群组、或多处理器系统)。

存储器620将信息非暂时性地存储在计算设备600内。存储器620可以是计算机可读介质、(多个)易失性存储器单元、或(多个)非易失性存储器单元。非暂时性存储器620可以是用于临时地或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电子可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及磁盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方案中，存储设备630是计算机可读介质。在各种不同实施方案中，存储设备630可以是软盘设备、硬盘设备、光盘设备，或磁带设备、闪存存储器或其它类似的固态存储器设备，或设备的阵列，包括存储区域网络或其它配置中的设备。在附加实施方案中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，该指令在执行时执行一个或多个方法，诸如上述那些方法。信息载体是计算机或机器可读介质，例如，存储器620、存储设备630，或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责的分配仅仅是示例性的。在一些实施方案中，高速控制器640被耦合到存储器620、显示器680(例如，通过图形处理器或加速计)，以及可以接受各种扩展卡(未示出)的高速扩展端口650。在一些实施方案中，低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、指向设备、扫描仪，或诸如交换机或路由器的联网设备。

如图所示，计算设备600可以通过多种不同形式实现。例如，该计算设备可以被实现为标准服务器600a，或多次实现在一组此类服务器600a中、实现为膝上型计算机600b，或实现为机架服务器系统600c的一部分。

本文中描述的系统和技术的各种实施方案可以在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件，和/或它们的组合中实现。这些各种实施方案能够包括在一个或多个计算机程序中的实施方案，该计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以用于专用或通用目的，并且耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并将数据和指令传输到存储系统、至少一个输入设备和至少一个输出设备。

这些计算机程序(还称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以以高级程序化和/或面向对象的编程语言，和/或以汇编/机器语言实现。如本文中所使用，术语“机器可读介质”和“计算机可读介质”指代用于将机器指令和/或数据提供到可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指代用于将机器指令和/或数据提供到可编程处理器的任何信号。

本说明书中描述的过程和逻辑流能够由还称为数据处理硬件的一个或多个可编程处理器执行，该可编程处理器执行一个或多个计算机程序，以通过在输入数据上操作并且生成输出来执行功能。过程和逻辑流还能够通过专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。举例来说，适合于执行计算机程序的处理器包括通用微处理器和专用微处理器两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器，以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传递到一个或多个大容量存储设备，或两者。然而，计算机不必须具有此类设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如，半导体存储器设备，例如EPROM、EEPROM和闪存存储器设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在具有显示设备(例如，CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)的计算机上实现，以将信息显示给用户以及可选地键盘和指向设备(例如，鼠标或轨迹球)，用户能够通过键盘和指向设备将输入提供到计算机。其它种类的设备也能够被用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；以及从用户产生的输入能够以任何形式接收，包括声音、语音或触觉输入。另外，通过将文档发送到由用户使用的设备以及从设备接收文档；例如，通过响应于从网络浏览器接收的请求而将网页发送到用户的客户端设备上的网络浏览器，计算机能够与用户交互。

已经描述多个实施方案。然而，应理解，在不脱离本公开的精神和范围的情况下可以进行各种修改。因此，其它实施方案在所附权利要求书的范围内。

Claims

1.一种计算机实现的方法(500)，所述计算机实现的方法在数据处理硬件(112)上执行时使所述数据处理硬件(112)执行操作，所述操作包括：

从语音识别器(200)接收由用户(10)说出的话语(12)的语音识别结果(232)，所述语音识别结果(232)包括形成所述话语(12)的一个或多个词的假设子词单元的序列，每个子词单元在对应输出步骤从所述语音识别器(200)输出；

使用置信度估计模块(300)，对于所述假设子词单元的序列中的每个子词单元：

获得相应置信度嵌入(242)，所述置信度嵌入表示当从所述语音识别器(200)输出所述对应子词单元时与所述对应输出步骤相关联的一组置信度特征；

使用第一注意力机制(310)生成置信度特征向量(312)，所述第一注意力机制自注意所述对应子词单元的相应置信度嵌入(242)以及对于继续所述对应子词单元的所述假设子词单元的序列中的任何其它子词单元获得的所述置信度嵌入(242)；

使用第二注意力机制(320)生成声学上下文向量(332)，所述第二注意力机制交叉注意声学编码的序列(252)，每个声学编码与从对应于所述话语(12)的音频数据(202)分割的对应声学帧相关联；以及

基于由所述置信度估计模块(300)的输出层(340)作为输入接收的所述置信度特征向量(312)和声学特征向量(322)，生成所述对应子词单元的相应置信度输出分数(302)，作为来自所述置信度估计模块(300)的所述输出层(340)的输出；

对于由所述假设子词单元序列形成的所述一个或多个词中的每一个，确定所述词的相应词级置信度分数，所述相应词级置信度分数等于为所述词中的所述最终子词单元生成的相应置信度输出分数(302)；以及

通过聚合为所述话语(12)的所述一个或多个词确定的相应词级置信度分数来确定所述语音识别结果(232)的话语级置信度分数(350)。

2.根据权利要求1所述的计算机实现的方法(500)，其中，由相应置信度嵌入(242)表示的所述一组置信度特征包括：

在所述对应输出步骤的所述语音识别器(200)的softmax后验特征；以及

所述对应子词单元的子词嵌入特征。

3.根据权利要求1或2所述的计算机实现的方法(500)，其中，由相应置信度嵌入(242)表示的所述一组置信度特征进一步包括：

对数后验对数特征，所述对数后验对数特征指示与在所述对应输出步骤从所述语音识别器(200)输出的所述对应子词单元的概率/可能性相关联的概率值；以及

前K个特征，所述前K个特征指示由所述语音识别器(200)重评分的前K个候选假设在所述对应输出步骤的K个最大对数概率，所述前K个候选假设各自由形成所述话语(12)的一个或多个词的相应假设子词单元的序列表示。

4.根据权利要求1至3中任一项所述的计算机实现的方法(500)，其中，所述子词单元包括词块。

5.根据权利要求1至4中任一项所述的计算机实现的方法(500)，其中，所述子词单元包括字素。

6.根据权利要求1至5中任一项所述的计算机实现的方法(500)，其中，所述语音识别器(200)包括：

换能器解码器模型(220)，所述换能器解码器模型被配置成在第一遍(206)期间生成多个候选假设，每个候选假设对应于所述话语(12)的候选转录并且由相应假设子词单元的序列表示；以及

重评分器解码器模型(230)，所述重评分器解码器模型被配置成在第二遍(208)期间对来自由所述换能器解码器模型在所述第一遍期间生成的所述多个候选假设的前K个候选假设进行重评分，

其中，从所述重评分器解码器模型(230)输出由所述重评分器解码器模型(230)重评分的所述前K个候选假设中的所述候选假设，作为由所述用户(10)说出的所述话语(12)的所述语音识别结果(232)，所述候选假设由与最高第二遍对数概率相关联的相应假设子词单元的序列表示。

7.根据权利要求6所述的计算机实现的方法(500)，其中：

所述换能器解码器模型(220)包括递归神经网络-换能器(RNN-T)模型架构；以及

所述重评分器解码器模型(230)包括收听、注意和拼写(LAS)模型架构。

8.根据权利要求6或7所述的计算机实现的方法(500)，其中，所述操作进一步包括：

通过对由所述换能器解码器模型(220)在所述第一遍(206)期间生成的所述多个候选假设中的每一个进行编码，使用所述语音识别器(200)的语言编码器(241)在所述第二遍(208)期间生成多个假设编码(243)；以及

使用所述置信度估计模块(300)，对于所述假设子词单元的序列中的每个子词单元，使用交叉注意所述多个假设编码(243)的第三注意力机制来生成语言上下文向量(332)，

其中，生成所述对应子词单元的相应置信度输出分数(302)进一步基于由所述置信度估计模块(300)的所述输出层(340)作为输入接收的所述语言上下文向量(332)。

9.根据权利要求8所述的计算机实现的方法(500)，其中：

对所述多个候选假设中的每一个进行编码包括将每个候选假设双向编码成对应假设编码；以及

通过级联每个对应假设编码来生成所述多个假设编码(243)。

10.根据权利要求1至9中任一项所述的计算机实现的方法(500)，其中，所述语音识别器(200)和所述置信度估计模块(300)被联合地训练。

11.根据权利要求1至10中任一项所述的计算机实现的方法(500)，其中，所述语音识别器(200)和所述置信度估计模块(300)被单独地训练。

12.根据权利要求1至11中任一项所述的计算机实现的方法(500)，其中，所述置信度估计模型(300)基于与所述语音识别器(200)相关联的特征使用二进制交叉熵损失而被训练。

13.根据权利要求1至12中任一项所述的计算机实现的方法(500)，其中，所述操作进一步包括：

确定所述语音识别结果(232)的所述话语级置信度分数(350)是否满足置信度阈值；以及

当所述语音识别结果(232)的所述话语级置信度分数(350)未能满足所述置信度阈值时，将对应于所述话语(12)的音频数据(202)传输到另一语音识别器(402)，所述另一语音识别器(402)被配置成处理所述音频数据(202)以生成所述话语(12)的转录(204)。

14.根据权利要求13所述的计算机实现的方法，其中：

所述语音识别器(200)和所述置信度估计模块(300)在用户计算设备(110)上执行；以及

所述另一语音识别器(402)在远程服务器(410)上执行，所述远程服务器经由网络与所述用户计算设备(110)通信。

15.一种系统(100)，包括：

数据处理硬件(112)；以及

存储器硬件(114)，所述存储器硬件与所述数据处理硬件(112)通信并且存储指令，所述指令在所述数据处理硬件(112)上执行时使所述数据处理硬件(112)执行操作，所述操作包括：

16.根据权利要求15所述的系统(100)，其中，由相应置信度嵌入(242)表示的所述一组置信度特征包括：

所述对应子词单元的子词嵌入特征。

17.根据权利要求15或16所述的系统(100)，其中，由相应置信度嵌入(242)表示的所述一组置信度特征进一步包括：

前K个特征，所述前K个特征指示由所述语音识别器(200)重评分的前K个候选假设在所述对应输出步骤的K个最大对数概率，所述前K个候选假设各自由形成所述话语的一个或多个词的相应假设子词单元的序列表示。

18.根据权利要求15至17中任一项所述的系统(100)，其中，所述子词单元包括词块。

19.根据权利要求15至18中任一项所述的系统(100)，其中，所述子词单元包括字素。

20.根据权利要求15至19中任一项所述的系统(100)，其中，所述语音识别器(200)包括：

21.根据权利要求20所述的系统(100)，其中：

22.根据权利要求20或21所述的系统(100)，其中，所述操作进一步包括：

其中，生成所述对应子词单元的相应置信度输出分数进一步基于由所述置信度估计模块的所述输出层作为输入接收的所述语言上下文向量。

23.根据权利要求22所述的系统(100)，其中：

通过级联每个对应假设编码来生成所述多个假设编码(243)。

24.根据权利要求15至23中任一项所述的系统(100)，其中，所述语音识别器(200)和所述置信度估计模块(300)被联合地训练。

25.根据权利要求15至24中任一项所述的系统(100)，其中，所述语音识别器(200)和所述置信度估计模块(300)被单独地训练。

26.根据权利要求15至25中任一项所述的系统(100)，其中，所述置信度估计模型(300)基于与所述语音识别器(200)相关联的特征使用二进制交叉熵损失而被训练。

27.根据权利要求15至26中任一项所述的系统(100)，其中，所述操作进一步包括：

28.根据权利要求27所述的系统，其中：