CN116250038A

CN116250038A - 变换器换能器：一种统一流式和非流式语音识别的模型

Info

Publication number: CN116250038A
Application number: CN202180067877.0A
Authority: CN
Inventors: 安舒曼·特里帕蒂; 哈西姆·萨克; 陆涵; 张骞; 金载荣
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-10-05
Filing date: 2021-03-19
Publication date: 2023-06-09
Also published as: US20220108689A1; US20230368779A1; WO2022076029A1; US11741947B2; JP2023545988A; EP4200842A1; KR20230073297A

Abstract

一种变换器‑换能器模型(200)包括音频编码器(300)、标签编码器(220)和联合网络(230)。音频编码器接收声帧(110)序列，并且在多个时间步长中的每个时间步长处，为每个声帧生成高阶特征表示。标签编码器接收由softmax层(240)输出的非空白符号序列，并且在多个时间步长中的每个时间步长处生成密集表示。联合网络接收在多个时间步长中的每个时间步长处的高阶特征表示和密集表示，并且生成在可能的语音识别假设上的概率分布。模型的音频编码器进一步包括神经网络，该神经网络具有：变换器层(400)的初始堆叠(310)，所述初始堆叠用零前瞻音频场境训练；以及变换器层(400)的最终堆叠(320)，所述最终堆叠用可变前瞻音频场境训练。

Description

变换器换能器：一种统一流式和非流式语音识别的模型

技术领域

本公开涉及使用用于流式和非流式语音识别的统一模型。

背景技术

自动语音识别(ASR)是采用音频输入并且将其转录为文本的过程，已经极大地成为在移动设备和其他设备中使用的一种重要技术。通常，ASR试图通过采用音频输入(例如语音话语)并且将音频输入转录为文本来提供对人所说内容的准确转录。基于深度神经网络的不断发展，现代ASR模型在准确性(例如低词错误率(WER))和时延(例如用户说话与转录之间的延迟)两方面不断提高。当今天使用ASR系统时，需要ASR系统以流式方式解码话语，该流式方式对应于实时或甚至比实时更快，但是也是准确的。然而，开发基于深度学习的ASR模型的一个挑战是，虽然流式模型是低时延的，但它们可能不准确。相反，非流式模型与高时延相关联，但通常提供更高的准确性。

发明内容

本公开的一个方面提供了一种用于统一流式和非流式语音识别的单个变换器-换能器模型。单个变换器-换能器模型包括音频编码器、标签编码器和联合网络。音频编码器被配置为接收声帧序列作为输入，并且在多个时间步长中的每个时间步长处为声帧序列中的对应声帧生成高阶特征表示。标签编码器被配置为接收由最终softmax层输出的非空白符号序列作为输入，并且在多个时间步长中的每个时间步长处生成密集表示。联合网络被配置为接收在多个时间步长中的每个时间步长处由音频编码器生成的高阶特征表示和由标签编码器生成的密集表示作为输入，并且在多个时间步长中的每个时间步长处生成在对应时间步长处的可能的语音识别假设上的概率分布。该模型的音频编码器进一步包括具有多个变换器层的神经网络。多个变换器层包括：变换器层的初始堆叠，初始堆叠中的每一个用零前瞻音频场境训练；以及变换器层的最终堆叠，最终堆叠中的每一个用可变前瞻音频场境训练。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，音频编码器的每个变换器层包括归一化层、具有相对位置编码的掩蔽多头注意力层、残差连接、堆叠/解堆叠层和前馈层。在这些实施方式中，堆叠/解堆叠层可以被配置为改变对应变换器层的帧率，以在训练和推断期间调整单个变换器-换能器模型的处理时间。在一些示例中，变换器层的初始堆叠包括比变换器层的最终堆叠更多的变换器层。在一些示例中，在训练期间，针对变换器层的最终堆叠中的每个变换器层对可变前瞻音频场境进行均匀采样。

在一些实施方式中，该模型进一步包括：低时延解码分支，低时延解码分支被配置为从使用第一前瞻音频场境编码的音频数据中解码输入话语的对应语音识别结果；以及高时延解码分支，高时延解码分支被配置为从使用第二前瞻音频场境编码的音频数据中解码输入话语的对应语音识别结果。此处，第二前瞻音频场境包括比第一前瞻音频场境更长持续时间的前瞻音频。在这些实施方式中，变换器层的初始堆叠可以应用零前瞻音频场境来计算共享激活，以供低时延解码分支和高时延解码分支两者使用，变换器层的最终堆叠可以应用第一前瞻音频场境来计算低时延激活，以供低时延解码分支而非高时延解码分支使用，并且变换器层的最终堆叠可以应用第二前瞻音频场境来计算高时延激活，以供高时延解码分支而非低时延解码分支使用。在一些附加实施方式中，第一前瞻音频场境包括零前瞻音频场境。

在一些示例中，低时延解码分支和高时延解码分支并行执行，以解码输入话语的对应语音识别结果。在这些示例中，由高时延解码分支针对输入话语解码的对应语音识别结果比由低时延解码分支针对输入话语解码的对应语音识别结果延迟持续时间，该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。附加地或备选地，低时延解码分支可以被配置为在由单个变换器-换能器模型接收到输入话语时，将对应语音识别结果作为部分语音识别结果流式传输，并且高时延解码分支可以被配置为在单个变换器-换能器模型接收到完整输入话语之后，输出对应语音识别结果作为最终转录。

在一些实施方式中，输入话语被指向应用，并且由高时延解码分支使用以解码输入话语的对应语音识别结果的第二前瞻音频场境的持续时间是基于输入话语被指向的应用的类型。在一些示例中，标签编码器包括具有多个变换器层的神经网络。备选地，标签编码器可以包括二元嵌入查找解码器模型。单个变换器-换能器模型可以在客户端设备上或者在基于服务器的系统上执行。

本公开的另一方面提供了一种计算机实现的方法，该计算机实现的方法当在数据处理硬件上执行时使数据处理执行操作，该操作包括：接收与口头话语相对应的音频数据作为变换器-换能器模型的输入；以及使用变换器-换能器模型，对音频数据并行执行流式语音识别和非流式语音识别。针对变换器-换能器模型的低时延分支，该操作还包括：当接收到与口头话语相对应的音频数据时，使用第一前瞻音频场境对音频数据进行编码；将使用第一前瞻音频场境编码的音频数据解码为输入话语的部分语音识别结果；以及对输入话语的部分语音识别结果进行流式传输。针对变换器-换能器模型的高时延分支，该操作包括：在与口头话语相对应的音频数据被接收到之后，使用第二前瞻音频场境对音频数据进行编码；将使用第二前瞻音频场境编码的音频数据解码为输入话语的最终语音识别结果；以及用最终语音识别结果替换流式传输的部分语音识别结果。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，该操作进一步包括音频编码器，该音频编码器包括具有多个变换器层的神经网络。多个变换器层包括：变换器层的初始堆叠，初始堆叠中的每一个用零前瞻音频场境训练；以及变换器层的最终堆叠，最终堆叠中的每一个用可变前瞻音频场境训练。每个变换器层可以包括归一化层、具有相对位置编码的掩蔽多头注意力层、残差连接、堆叠/解堆叠层和前馈层。此处，堆叠/解堆叠层可以被配置为改变对应变换器层的帧率，以在训练和推断期间调整单个变换器-换能器模型的处理时间。

在一些示例中，变换器层的初始堆叠包括比变换器层的最终堆叠更多的变换器层。在一些实施方式中，在训练期间，针对变换器层的最终堆叠中的每个变换器层对可变前瞻音频场境进行均匀采样。在一些示例中，变换器层的初始堆叠应用零前瞻音频场境来计算共享激活，以供低时延分支和高时延分支两者使用，变换器层的最终堆叠应用第一前瞻音频场境来计算低时延激活，以供低时延分支而非高时延解码分支使用，并且变换器层的最终堆叠应用第二前瞻音频场境来计算高时延激活，以供高时延分支而非低时延分支使用。第一前瞻音频场境可以包括零前瞻音频场境。在一些实施方式中，由高时延分支针对输入话语解码的最终语音识别结果比由低时延分支针对输入话语解码的部分语音识别结果延迟持续时间，该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。

在一些示例中，该操作进一步包括：接收应用标识符，该应用标识符指示输入话语被指向的应用的类型；以及基于该应用标识符来设置第二前瞻音频场境的持续时间。在一些实施方式中，变换器-换能器模型包括标签编码器，该标签编码器包括具有多个变换器层的神经网络。在一些示例中，变换器-换能器模型包括标签编码器，该标签编码器包括二元嵌入查找解码器模型。数据处理硬件在变换器-换能器模型上执行，并且驻留在客户端设备或基于服务器的系统上。

在下面的附图和描述中阐述本公开的一个或多个实施方式的细节。其他方面、特征和优点将通过描述和附图并且通过权利要求而显而易见。

附图说明

图1是实现单个变换器-换能器模型以执行流式和非流式语音识别的语音环境的示意图。

图2是示例换能器-变换器模型架构的示意图。

图3A是包括多个变换器层的音频编码器的示意图。

图3B是以y架构布置以提供并行的低时延和高时延解码分支的音频编码器的示意图。

图4是示例变换器架构的示意图。

图5是使用图1的变换器-换能器模型来统一流式和非流式语音识别的方法的操作的示例布置的流程图。

图6是可以被用于实现本文描述的系统和方法的示例计算设备的示意图。

在各个附图中，相同的附图标记指示相同的元件。

具体实施方式

自动语音识别(ASR)系统专注于不仅提供质量/准确性(例如低词错误率(WER))，而且还提供低时延(例如用户说话与转录出现之间的短延迟)。最近，端到端(E2E)ASR模型在实现准确性和时延方面的最先进性能中已经受到欢迎。与包括单独的声学、发音和语言模型的常规混合ASR系统相比，E2E模型应用序列到序列的方法来联合学习单个神经网络中的声学和语言建模，该单个神经网络是根据训练数据(例如话语转录对)端对端地训练的。此处，E2E模型是指其架构完全由神经网络构建的模型。完全的神经网络在没有外部和/或手动设计的组件(例如有限状态换能器、词典或文本归一化模块)的情况下工作。附加地，当训练E2E模型时，这些模型通常不需要来自决策树的自举或来自单独系统的时间对准。

序列到序列模型的示例包括“基于注意力的”模型和“倾听-注意-拼写”(LAS)模型。LAS模型使用倾听者组件、注意者组件和拼写者组件将语音话语转录为字符。此处，倾听者是循环神经网络(RNN)编码器，它接收音频输入(例如语音输入的时间-频率表示)并且将音频输入映射到更高级别的特征表示。注意者注意更高级别的特征以学习输入特征和预测的子词单元(例如字素或词块)之间的对准。拼写者是基于注意力的RNN解码器，它通过产生在一组假设的词上的概率分布来从输入生成字符序列。由于诸如LAS模型的基于注意力的模型通常处理整个序列(例如音频波形)，并且在基于该序列生成输出(例如句子)之前使用整个句子的音频场境(context)，因此这些模型将输出提供为非流式转录。

而且，当今天使用ASR系统时，可能需要ASR系统以流式方式解码话语，该流式方式对应于在用户说话时实时或甚至比实时更快地显示话语的描述。为了说明，当ASR系统被显示在体验直接用户交互性的用户计算设备(例如诸如移动电话)上时，在用户设备上执行并且使用ASR系统的应用(例如数字助理应用)可能需要语音识别是流式的，使得词、词块和/或单个字符在它们一被说出时就出现在屏幕上。附加地，用户设备的用户还可能对时延具有低容忍度。例如，当用户说出请求数字助理从日历应用检索即将到来的约会的细节的查询时，用户希望数字助理尽可能快地提供传达检索到的细节的响应。由于这种低容忍度，ASR系统努力以最小化来自可能会对用户的体验产生不利影响的时延和不准确性的影响的方式在用户设备上运行。然而，基于注意力的序列到序列模型(诸如通过在生成输出文本之前审查音频的整个输入序列来起作用的LAS模型)不允许在输入被接收到时流式传输输出。由于该缺陷，为时延敏感和/或需要实时话音转录的语音应用部署基于注意力的序列到序列模型可能会带来问题。这使得LAS模型本身并不是时延敏感应用和/或在用户说话时实时提供流式转录能力的应用的理想模型。

被称为循环神经网络换能器(RNN-T)的另一形式的序列到序列模型不采用注意力机制，并且与通常需要处理整个序列(例如音频波形)以产生输出(例如句子)的其他序列到序列模型不同，RNN-T连续处理输入样本并且流式传输输出符号，该特征对于实时通信特别有吸引力。例如，使用RNN-T的语音识别可以在说出时一个接一个地输出字符。此处，RNN-T使用反馈环路，该反馈环路将由模型预测的符号反馈回其自身，以预测下一符号。因为解码RNN-T包括通过单个神经网络而不是大型解码器图的波束搜索，所以RNN-T可以缩放到基于服务器的语音识别模型的尺寸的分数。随着大小的减小，RNN-T可以被完全部署在设备上，并且能够离线运行(即，在没有网络连接的情况下)；因此避免了关于通信网络的不可靠性问题。

由于它们在预测识别结果时无法应用前瞻(look ahead)音频场境(例如右场境)，RNN-T模型在质量(例如语音识别准确性，如通常通过词错误率(WER)来测量)方面仍然滞后于大型的现有技术的常规模型(例如具有单独的AM、PM和LM的基于服务器的模型)和基于注意力的序列到序列模型(例如LAS模型)。为了补偿语音识别准确性的这些滞后，最近的焦点已经是开发两轮识别系统，该两轮识别系统包括RNN-T网络的第一轮组件，然后是LAS网络的第二轮组件，用于对在第一轮期间生成的识别结果进行重新评分。利用该设计，两轮模型受益于具有低时延的RNN-T模型的流式性质，同时通过结合LAS网络的第二轮提高RNN-T模型的准确性。尽管与仅RNN-T模型相比，LAS网络增加了时延，但时延的增加被认为是相当轻微的，并且符合设备上操作的时延约束。

虽然适合于提供流式转录能力以及通常识别会话查询(例如“设置定时器”、“提醒我买牛奶”等)的时延敏感应用，但利用长短期记忆(LSTM)提供序列编码器的RNN-T模型具有有限的前瞻音频场境的能力，从而在识别长形式语音时变得易于删除词。如本文使用的，长形式语音包括非会话查询，诸如基于听写的查询，其中用户说话以听写电子邮件、消息、文档、社交媒体帖子或其他内容片块。

通常，用户将使用流式语音识别模型(诸如RNN-T模型)来识别会话查询，并且使用单独的非流式语音识别模型来识别非会话查询。通常，用户将他/她的语音指向的应用可以被用于识别流式或非流式语音识别模型中的哪个语音识别模型用于语音识别。取决于应用和/或查询类型，需要不同的和单独的语音识别模型来执行语音识别在计算上是昂贵的，并且需要足够的存储器容量来将相应模型存储在用户设备上。即使模型中的一个模型可在远程服务器上执行，用于连接至远程服务器的附加成本和带宽约束也可能会影响语音识别性能，并且最终影响用户体验。

本文的实施方式涉及一种用于统一流式和非流式语音识别任务的单个变换器-换能器(T-T)模型。如将变得显而易见的，T-T模型可以提供RNN-T模型的积极属性，诸如流式转录能力、低时延语音识别、小计算足迹和低存储器要求，而不会遭受RNN-T模型的上述缺点。即，T-T模型可以在可变前瞻音频场境上被训练，使得在对输入话语执行语音识别时，足够持续时间的前瞻音频场境可以被应用。附加地，T-T模型可以实现y架构，以并行地提供用于对输入话语的流式部分语音识别结果进行解码的低时延分支以及用于对相同输入话语的最终语音识别结果进行解码的高时延分支。

图1是语音环境100的示例。在语音环境100中，用户104与诸如用户设备10的计算设备交互的方式可以是通过话音输入。用户设备10(通常也称为设备10)被配置为捕获来自语音环境100内的一个或多个用户104的声音(例如流式音频数据)。此处，流式音频数据可以指代用户104的口头话语106，该口头话语106用作设备10的可听查询、命令或由设备10捕获的可听通信。设备10的语音启用系统可以通过回答查询和/或使命令由一个或多个下游应用执行/履行来处理查询或命令。

用户设备10可以对应于与用户104相关联并且能够接收音频数据的任何计算设备。用户设备10的一些示例包括但不限于移动设备(例如移动电话、平板计算机、膝上型计算机等)、计算机、可穿戴设备(例如智能手表)、智能电器、物联网(IoT)设备、车辆信息娱乐系统、智能显示器、智能扬声器等。用户设备10包括数据处理硬件12和与数据处理硬件12通信并且存储指令的存储器硬件14，该指令当由数据处理硬件12执行时使数据处理硬件12执行一个或多个操作。用户设备10还包括音频系统16，该音频系统16具有用于捕获语音环境100内的口头话语106并且将其转换为电信号的音频捕获设备(例如麦克风)16、16a以及用于传递可听音频信号(例如作为来自设备10的输出音频数据)的语音输出设备(例如扬声器)16、16b。尽管在所示的示例中用户设备10实现单个音频捕获设备16a，但是用户设备10可以实现音频捕获设备16a的阵列而不脱离本公开的范围，其中阵列中的一个或多个捕获设备16a可以不物理地驻留在用户设备10上，而是与音频系统16通信。

在语音环境100中，实现变换器-换能器(T-T)模型200的自动化语音识别(ASR)系统118驻留在用户104的用户设备10上和/或经由网络40与用户设备10通信的远程计算设备60(例如在云计算环境中执行的分布式系统的一个或多个远程服务器)上。用户设备10和/或远程计算设备60还包括音频子系统108，该音频子系统108被配置为接收由用户104说出并且由音频捕获设备16a捕获的话语106，并且将话语106转换为与能够由ASR系统118处理的输入声帧110相关联的对应数字格式。在所示的示例中，用户说出相应的话语106，并且音频子系统108将话语106转换为对应的音频数据(例如声帧)110，用于输入到ASR系统118。此后，T-T模型200接收与话语106相对应的音频数据110作为输入，并且生成/预测话语106的对应转录120(例如识别结果/假设)作为输出。如下面更详细地描述的，T-T模型200可以用可变前瞻音频场境来训练，以允许T-T模型200在推断期间取决于由话语106指定的查询对时延的敏感程度和/或用户106对时延具有的容忍度多大来设置在执行语音识别时的前瞻语音场境的不同持续时间。例如，在用户设备10上执行的数字助理应用50可能需要语音识别是流式的，使得词、词块和/或单个字符在它们一被说出时就出现在屏幕上。附加地，用户设备10的用户104在发出对要执行的数字助理应用50的查询时还可能对时延具有低容忍度。在这种场景中，当最小化语音识别时延是优选的时，T-T模型200可以应用零或最小前瞻音频场境(也称为“右场境”)，以在用户104说出话语106时实时提供流式转录能力。另一方面，当用户对语音识别时延具有更高的容忍度和/或要识别的话语106与长形式语音相关联时，相同的T-T模型200可以应用足以提供准确转录120的前瞻音频场境的持续时间，但是基于前瞻音频场境的持续时间而招致增加的时延。因此，ASR系统118可以针对多个不同的语音识别任务仅实现单个T-T模型200，以提供流式和非流式转录能力，而不必在逐个任务的基础上利用单独的ASR模型。

在一些实施方式中，T-T模型200对音频数据110并行地执行流式语音识别和非流式语音识别两者。例如，在所示的示例中，T-T模型200并行地执行使用第一解码分支(即，低时延分支321(图3B))对音频数据110的流式语音识别以产生部分语音识别结果120、120a，和使用第二解码分支(即，高时延分支322(图3B))对相同音频数据110的非流式语音识别以产生最终语音识别结果120、120b。值得注意的是，第一解码分支使用可以被设置为零(或大约240毫秒)的第一前瞻音频场境来产生部分语音识别结果120a，而第二解码分支可以使用比第一前瞻音频场境更长持续时间的第二前瞻音频场境来产生最终语音识别结果120b。因此，输入话语106的最终语音识别结果120b可以比输入话语的部分语音识别结果120a延迟持续时间，该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。

用户设备10和/或远程计算设备60还执行用户界面生成器107，该用户界面生成器107被配置为向用户设备10的用户104呈现话语106的转录120的表示。如下面更详细地描述的，用户界面生成器107可以在时间1期间以流式方式显示部分语音识别结果120a，并且随后在时间2期间显示最终语音识别结果120b。在一些配置中，从ASR系统118输出的转录120例如由在用户设备10或远程计算设备60上执行的自然语言理解(NLU)模块处理，以执行由话语106指定的用户命令/查询。附加地或备选地，文本到语音系统(未示出)(例如在用户设备10或远程计算设备60的任何组合上执行)可以将转录转换为合成语音，用于由用户设备10和/或另一设备进行可听输出。

在所示的示例中，用户104与使用ASR系统118的用户设备10的程序或应用50(例如数字助理应用50)进行交互。例如，图1描绘了用户104与数字助理应用50通信，并且数字助理应用50在用户设备10的屏幕上显示数字助理界面18，以描绘用户10和数字助理应用50之间的会话。在该示例中，用户104询问数字助理应用50“What time is the concerttonight？(今晚的音乐会是几点？)”来自用户104的该问题是由音频捕获设备16a捕获并且由用户设备10的音频系统16处理的口头话语106。在该示例中，音频系统16接收口头话语106，并且将其转换为声帧110以用于输入到ASR系统118。

继续该示例，当在用户104说话时接收到与话语106相对应的声帧110时，T-T模型200使用第一前瞻音频场境对声帧110进行编码，然后将使用第一前瞻音频场境编码的声帧110解码为部分语音识别结果120a。在时间1期间，用户界面生成器107经由数字助理界面18以流式方式向用户设备10的用户104呈现话语106的部分语音识别结果120a的表示，使得词、词块和/或单个字符在它们一被说出时就出现在屏幕上。在一些示例中，第一前瞻音频场境等于零。

并行地，并且在与话语106相对应的所有声帧110被接收到之后，T-T模型200使用第二前瞻音频场境对与话语106相对应的所有声帧110进行编码，然后使用第二前瞻音频场境将声帧110解码为最终语音识别结果120b。第二前瞻音频场境的持续时间可以是1.2秒、2.4秒或任何其他持续时间。在一些示例中，诸如指示用户104已经完成说出话语106的结束点的指示触发T-T模型200使用第二前瞻音频场境对所有声帧110进行编码。在时间2期间，用户界面生成器107经由数字助理界面18向用户设备10的用户104呈现话语106的最终语音识别结果120b的表示。在一些实施方式中，用户界面生成器107用最终语音识别结果120b的表示来替换部分语音识别结果120a的表示。例如，由于最终语音识别结果120b被假定为比在不利用前瞻音频场境的情况下产生的部分语音识别结果120a更准确，因此最终显示为转录120的最终语音识别结果120b可以修复可能在部分语音识别结果120a中被错误识别的任何术语。在该示例中，由T-T模型200输出并且在时间1处显示在用户设备10的屏幕上的流式部分语音识别结果120a与低时延相关联，并且向用户104提供他/她的查询正在被处理的响应性，而由T-T模型200输出并且在时间2处显示在屏幕上的最终语音识别结果120b利用前瞻音频场境以在准确性方面提高语音识别质量，但时延增加。然而，由于部分语音识别结果120a是在用户说出话语106时显示的，因此与产生并且最终显示最终识别结果相关联的较高时延对于用户104来说是不明显的。

在图1中所示的示例中，数字助理应用50可以使用自然语言处理来回答由用户10提出的问题。自然语言处理通常是指解读书面语言(例如部分语音识别结果120a和/或最终语音识别结果120b)并且确定书面语言是否提示任何动作的过程。在该示例中，数字助理应用50使用自然语言处理来识别来自用户10的问题涉及用户的日程表，并且更具体地涉及用户的日程表上的音乐会。通过使用自然语言处理识别这些细节，自动化助理向用户的查询返回响应19，其中响应19陈述“Venue doors open at 6:30PM and concert starts at8pm(场馆在晚上6:30开门，并且音乐会在晚上8点开始)”。在一些配置中，自然语言处理发生在与用户设备10的数据处理硬件12通信的远程服务器60上。

参考图2，T-T模型200可以通过将声学、发音和语言模型集成到单个神经网络中来提供端到端(E2E)语音识别，并且不需要词典或单独的文本归一化组件。各种结构和优化机制可以提供增加的准确性和减少的模型训练时间。T-T模型200包括变换器-换能器(T-T)模型架构，它遵守与交互式应用相关联的时延约束。与常规ASR架构相比，T-T模型200提供小计算足迹，并且利用更少的存储器要求，使得T-T模型架构适合于完全在用户设备10上执行语音识别(例如不需要与远程服务器60通信)。T-T模型200包括音频编码器300、标签编码器220和联合网络230。大致类似于传统ASR系统中的声学模型(AM)的音频编码器300包括具有多个变换器层400的神经网络(图3A、图3B和图4)。例如，音频编码器300读取d维特征向量序列(例如声帧110(图1))x＝(x₁,x₂,...,x_T)，其中

并且在每个时间步长处产生高阶特征表示。该高阶特征表示被表示为ah₁、...、ah_T。

类似地，标签编码器220还可以包括变换器层的神经网络或查找表嵌入模型，它与语言模型(LM)一样，将到目前为止由最终Softmax层240输出的非空白符号序列y₀、...、y_ui-1处理为对预测的标签历史进行编码的密集表示Ih_u。在标签编码器220包括变换器层的神经网络的实施方式中，每个变换器层可以包括归一化层、具有相对位置编码的掩蔽多头注意力层、残差连接、前馈层和丢弃层。在这些实施方式中，标签编码器220可以包括两个变换器层。在标签编码器220包括具有二元标签场境的查找表嵌入模型的实施方式中，嵌入模型被配置为学习每个可能的二元标签场境的d维的权重向量，其中d是音频编码器300和标签编码器220的输出的维度。在一些示例中，嵌入模型中的参数的总数为N²×d，其中N是标签的词汇表大小。此处，学习的权重向量然后被用作T-T模型200中的二元标记场境的嵌入，以产生快速标签编码器220运行时间。

最后，利用T-T模型架构，由音频编码器300和标签编码器220产生的表示由联合网络230使用密集层J_u,t来组合。然后，联合网络230预测P(z_u,t|x,t,y₁,...,y_u-1)，其是在下一输出符号上的分布。换句话说，联合网络230在每个输出步骤(例如时间步长)处生成在可能的语音识别假设上的概率分布。此处，“可能的语音识别假设”对应于输出标签(也称为“语音单元”)集合，每个输出标签表示指定自然语言中的字素(例如符号/字符)或词块。例如，当自然语言是英语时，该输出标签集合可以包括二十七(27)个符号，例如对于英语字母表中的26个字母中的每个字母一个标签，并且一个标签特指空格。因此，联合网络230可以输出指示预定输出标签集合中的每个输出标签的发生的可能性的值集。该值集可以是向量(例如独热向量)，并且可以指示在输出标签集合上的概率分布。在一些情况下，输出标签是字素(例如单个字符以及可能的标点符号和其他符号)，但输出标签集合不受此限制。例如，除了字素之外或代替字素，输出标签集合可以包括词块和/或整个词。联合网络230的输出分布可以包括不同输出标签中的每个输出标签的后验概率值。因此，如果有100个不同的输出标签表示不同的字素或其他符号，则联合网络230的输出z_u,t可以包括100个不同概率值，对于每个输出标签一个概率值。然后，概率分布可以被用于在波束搜索过程中(例如通过Softmax层240)选择分数并且将分数指派给候选正字元素(例如字素、词块和/或词)，以确定转录120。

Softmax层240可以采用任何技术来选择分布中具有最高概率的输出标签/符号作为由T-T模型200在对应输出步骤处预测的下一输出符号。通过这种方式，T-T模型200不进行条件独立性假设，而是每个符号的预测不仅以声学为条件，而且以到目前为止输出的标签序列为条件。

参考图3A，在一些实施方式中，T-T模型200的音频编码器300的多个变换器层400包括变换器层400的初始堆叠310和变换器层400的最终堆叠320。初始堆叠310中的每个变换器层400可以用零前瞻音频场境进行训练，而最终堆叠320中的每个变换器层400可以用可变前瞻音频场境进行训练。T-T模型200的初始堆叠310可以具有比变换器层400的最终堆叠320更多的变换器层400。例如，变换器层400的初始堆叠310可以包括15个变换器层400，而变换器层400的最终堆叠320可以包括五(5)个变换器层400。然而，初始堆叠310和最终堆叠320中的每个堆叠中的变换器层400的相应数量是非限制性的。因此，尽管本文的示例可以描述包括15个变换器层400的初始堆叠310和包括五个变换器层400的变换器层的最终堆叠320，但变换器层400的初始堆叠310可以包括少于或多于15个变换器层400，并且变换器层400的最终堆叠320可以包括少于或多于五个变换器层400。此外，由音频编码器300所使用的变换器层400的总数可以小于或大于20个变换器层400。

T-T模型200在音频数据的训练数据集上被训练，该音频数据对应于与对应转录配对的口头话语。训练T-T模型200可以包括在远程服务器60上，并且训练后的T-T模型200可以被推送到用户设备10。用可变前瞻音频场境训练变换器层400的最终堆叠320包括将最终堆叠320中的每个变换器层400的左场境设置为恒定，并且从训练数据集中的给定分布中采样最终堆叠320中的每层的右场境长度。此处，采样右场境长度对应于从给定分布中采样的前瞻音频场境的持续时间。如将变得显而易见的，采样的右场境长度特指由最终堆叠320中的每个变换器层400的对应的掩蔽多头注意力层406(图4)应用的用于自我注意力的掩码。

在一些实施方式中，在音频编码器300的训练期间，针对变换器层400的最终堆叠320中的每个变换器层400对可变前瞻音频场境进行均匀采样。例如，针对变换器层400的最终堆叠320中的每个变换器层400均匀采样的可变前瞻音频场境可以包括0、1.2秒和2.4秒的持续时间。前瞻音频场境的这些持续时间是非限制性的，并且可以包括不同的持续时间和/或对变换器层400的最终堆叠320的前瞻音频场境进行多于或少于三个不同持续时间的采样。在训练期间的这些实施方式中，变换器层400的相应的前瞻场境配置可以针对前瞻音频场境的每个不同持续时间指定。此外，T-T模型200的音频编码器300可以用四个声帧110的输出延迟来训练。例如，继续以上示例，其中15个变换器层400的初始堆叠310是在没有(零)前瞻音频场境的情况下训练的，并且五个变换器层400的最终堆叠320是用可变前瞻音频场境训练的，针对零前瞻音频场境指定的第一前瞻场境配置可以包括[0]×19+[4]，针对1.2秒的前瞻音频场境指定的第二前瞻场境配置可以包括[0]×15+[8]×5，并且针对2.4秒的前瞻音频场境指定的第三前瞻音频场境配置可以包括[0]×15+[16]×5。前瞻音频场境配置中的每个前瞻音频场境配置中的括号中的数字指示与前瞻音频场境的指定持续时间相对应的前瞻音频帧的数量。在以上示例中，用于评估零前瞻音频场境的[0]×19+[4]的第一前瞻场境配置指示最终变换器层400应用四个音频帧110的输出延迟。此处，四个音频帧的输出延迟对应于240毫秒的前瞻音频场境。

在一些附加实施方式中，T-T模型200的音频编码器300的所有变换器层400是用可变前瞻音频场境来训练的，而不是用零前瞻音频场境训练变换器层400的初始堆叠310并且仅用可变前瞻音频场境来训练变换器层400的最终堆叠320。继续以上示例，其中前瞻场境的0、1.2秒和2.4秒的持续时间在训练期间被均匀采样，针对零前瞻音频场境指定的第一前瞻场境配置可以包括[0]×19+[4](例如其中[4]指定最终变换器层400应用与240毫秒的前瞻音频场境相对应的四个音频帧的输出延迟)，针对1.2秒的前瞻音频场境指定的第二前瞻场境配置可以包括[2]×20，并且2.4秒的前瞻音频场境指定的第三前瞻音频场境配置可以包括[4]×20。即，由20个变换器层400中的每个变换器层应用的两[2]个音频帧的输出延迟评估1.2秒的前瞻音频场境的训练数据集的给定分布，并且由20个变换器层400中的每个变换器层应用的四[4]个音频帧的输出延迟评估2.4秒的前瞻音频场境的训练数据集的另一分布。

图3B图示了T-T模型200的示例，该T-T模型200具有以y架构布置的音频编码器300，以使得单个T-T模型200能够对输入话语106并行地执行流式语音识别和非流式语音识别。音频编码器300的y架构由并行的低时延分支321和高时延分支322形成，每个分支从变换器层400的初始堆叠310延伸。如上面参考图3A描述的，变换器层400的初始堆叠310可以用零前瞻音频场境来训练，并且变换器层400的最终堆叠320可以用可变前瞻音频场境来训练。因此，在推断期间，变换器层400的最终堆叠320可以提供以下两者：通过应用第一前瞻音频场境，低时延分支321(也称为‘低时延解码分支321’)；以及通过应用与比第一前瞻音频场境更长持续时间的前瞻音频场境相关联的第二前瞻音频场境，高时延分支322(也称为‘高时延解码分支322’)。

在一些示例中，第一前瞻音频场境为零或最小输出延迟(例如240毫秒)，以减少由于在训练期间应用的约束对准而导致的词错误率损失。第二前瞻音频场境可以包括任何持续时间的前瞻音频场境。例如，第二前瞻音频场境可以包括1.2秒或2.4秒的持续时间。

在所示的示例中，音频编码器300的变换器层400的初始堆叠310接收与由用户104说出并且由用户设备10捕获的输入话语106相对应的音频数据110(例如声帧)。在接收到音频数据110时，变换器层400的初始堆叠310(例如15个变换器层400)可以应用零前瞻音频场境来计算共享激活312，以供低时延分支321和高时延分支322两者使用。此后，并且当在用户104正在说出输入话语106时接收到音频数据110时，变换器层400的最终堆叠320(例如五个变换器层400)使用由变换器层400的初始堆叠310计算的共享激活312，并且应用第一前瞻音频场境来计算低时延激活323，以供低时延分支321而非高时延分支322使用，该低时延激活323可以经由联合网络230和softmax 240解码以提供输入话语106的部分语音识别结果120a。因此，在接收到与输入话语106相对应的音频数据110时，低时延分支321使用第一前瞻音频场境对音频数据110进行编码，并且将编码的音频数据110(即，由低时延激活323表示)解码为部分语音识别结果120a。当输入话语106由用户104说出时，部分语音识别结果120a可以被实时地流式传输以用于在用户设备10(图1)上显示。

在用户104已经完成说出输入话语106并且所有音频数据110被接收到之后，变换器层400的最终堆叠320使用由变换器层400的初始堆叠310计算的共享激活312，并且应用第二前瞻音频场境来计算高时延激活324，以供高时延分支322而非低时延分支321使用，该高时延激活324可以经由联合网络230和softmax层240解码以提供输入话语106的最终语音识别结果120b。此处，由高时延分支322针对输入话语106解码的最终语音识别结果120b比由低时延分支321解码的部分语音识别结果120延迟持续时间，该持续时间基于第二前瞻音频场境与第一前瞻音频场境之间的差异。因此，在与输入话语106相对应的音频数据110被接收到(例如用户104已经完成说出话语106)之后，高时延分支322使用第二前瞻音频场境对音频数据110进行编码，并且将编码的音频数据(即，由高时延激活324表示)解码为最终语音识别结果120b。最终语音识别结果120b可以替换流式传输的部分语音识别结果120。值得注意的是，由于部分语音识别结果120a可以是实时地流式传输的，因此用户104可能不会察觉到由最终语音识别结果120b招致的时延。然而，受益于前瞻音频场境的最终语音识别结果120b可以校正部分语音识别结果120a中存在的任何识别错误，从而使最终语音识别结果120b更适合下游NLU模块和/或应用的查询解读。虽然未示出，但是单独的重新评分模型(例如LAS模型)可以对由高时延解码分支322解码的候选假设进行重新评分。

在一些示例中，第二前瞻音频场境的持续时间是基于输入话语106被指向的应用的类型(例如数字助理应用50)。例如，音频编码器300可以接收应用标识符52，该应用标识符52指示输入话语被指向的应用的类型，并且音频编码器可以基于应用标识符52设置第二前瞻音频场境的持续时间。输入话语106被指向的应用的类型可以用作场境信息，该场境信息指示用户对语音识别时延的容忍度、语音识别准确性、输入话语是对应于会话查询(例如短形式语音)还是非会话查询(例如诸如听写的长形式语音)或者可以被导出以用于优化/调谐所应用的第二前瞻音频场境的持续时间的任何其他信息。

图4示出了音频编码器300的多个变换器层当中的示例变换器层400。此处，在每个时间步长期间，初始变换器层400接收对应的声帧110作为输入，并且生成由下一变换器层400接收作为输入的对应的输出表示/嵌入450。即，在初始变换器层400之后的每个变换器层400可以接收输入嵌入450，该输入嵌入450对应于由紧接在前的变换器层400作为输出而生成的输出表示/嵌入。最终变换器层400(例如最终堆叠320中的最后一个变换器层)在多个时间步长中的每个时间步长处生成对应声帧110的高阶特征表示ah_t(图2)。

标签编码器220(图2)的输入可以包括向量(例如独热向量)，指示到目前为止由最终Softmax层240输出的非空白符号序列y₀、...、y_ui-1。因此，当标签编码器220包括变换器层时，初始变换器层可以通过使独热向量通过查找表来接收输入嵌入111。

音频编码器300的每个变换器层400包括归一化层404、具有相对位置编码的掩蔽多头注意力层406、残差连接408、堆叠/解堆叠层410和前馈层412。具有相对位置编码的掩蔽多头注意力层406提供了一种灵活的方式来控制T-T模型200使用的前瞻音频场境的量(即，持续时间)。具体地，在归一化层404归一化声帧110和/或输入嵌入111之后，掩蔽多头注意力层406将输入投影到所有头部的值。此后，掩蔽多头层406可以掩蔽当前声帧110左侧的注意力分数，以产生仅以先前声帧110为条件的输出。然后，所有头部的加权平均值被级联并且传递到密集层2 416，其中残差连接414被添加到密集层416的归一化输入和输出，以形成具有相对位置编码的多头注意力层406的最终输出。残差连接408被添加到归一化层404的输出，并且被提供作为掩蔽多头注意力层406或前馈层412中的相应一个的输入。堆叠/解堆叠层410可以被用于改变每个变换器层400的帧率，以加速训练和推断。

前馈层412应用归一化层404，随后是密集层1 420、整流线性层(ReLu)418和密集层2 416。ReLu 418被用作对密集层1 420的输出的激活。与具有相对位置编码的多头注意力层406一样，来自归一化层404的输出的残差连接414被添加到密集层2 416的输出。

图5包括用于使用单个变换器-换能器(T-T)模型200来统一流式和非流式语音识别的方法500的示例操作布置的流程图。在操作502处，方法500包括：接收与口头话语106相对应的音频数据110作为T-T模型200的输入。在操作504处，该方法还包括：使用T-T模型200对音频数据110并行地执行流式语音识别和非流式语音识别。

针对T-T模型200的低时延分支321，方法500包括：在操作506处，在接收到与口头话语106相对应的音频数据110时，使用第一前瞻音频场境对音频数据110进行编码。方法500还包括：在操作508处，将使用第一前瞻音频场境编码的音频数据110解码为输入话语106的部分语音识别结果120a。在操作510处，方法500还包括：流式传输输入话语106的部分语音识别结果120a。

针对T-T模型200的高时延分支322，方法500包括：在操作512处，在与口头话语106相对应的音频数据110被接收到之后，使用第二前瞻音频场境对音频数据110进行编码。方法500还包括：在操作514处，将使用第二前瞻音频场境编码的音频数据110解码为输入话语106的最终语音识别结果120b。在操作516处，方法500还包括：用最终语音识别结果120b替换流式传输的部分语音识别结果120a。

图6是可以被用于实现本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片式服务器、大型计算机和其他适当的计算机。此处示出的组件、它们的连接和关系以及它们的功能仅仅旨在是示例性的，并且不意在限制本文档中描述和/或要求保护的本发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接至存储器620和高速扩展端口650的高速接口/控制器640以及连接至低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每个组件使用各种总线来互连，并且可以被安装在公共主板上或者视情况而定以其他方式安装。处理器610可以处理用于在计算设备600内执行的指令，包括存储在存储器620中或者存储设备630上的指令，以在外部输入/输出设备(诸如被耦合至高速接口640的显示器680)上显示图形用户界面(GUI)的图形信息。在其他实施方式中，视情况而定，多个处理器和/或多个总线可以与多个存储器和多种存储器类型一起使用。而且，多个计算设备600可以被连接，其中每个设备都提供必要的操作的部分(例如作为服务器组、一组刀片式服务器或者多处理器系统)。

存储器620将信息非暂时性地存储在计算设备600内。存储器620可以是计算机可读介质、(多个)易失性存储器单元或者(多个)非易失性存储器单元。非暂时性存储器620可以是用于在暂时或者永久基础上存储程序(例如指令序列)或者数据(例如程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及光盘或者磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或者磁带设备、闪存或者其他类似的固态存储器设备或者设备阵列，包括在存储区域网络或其他配置中的设备。在附加实施方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令，该指令在被执行时执行一种或多种方法，诸如上面描述的那些方法。信息载体是计算机可读介质或者机器可读介质，诸如存储器620、存储设备630或者处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集型操作，而低速控制器660管理较低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方式中，高速控制器640被耦合至存储器620、显示器680(例如通过图形处理器或者加速器)和高速扩展端口650，该高速扩展端口650可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660被耦合至存储设备630和低速扩展端口690。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器被耦合至一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或者联网设备(诸如交换机或者路由器)。

如附图所示，计算设备600可以利用多种不同形式来实现。例如，它可以被实现为标准服务器600a或者多次实现在一组这种服务器600a中、实现为膝上型计算机600b或者实现为机架式服务器系统600c的一部分。

本文描述的系统和技术的各种实施方式可以被实现在数字电子和/或光学电路系统、集成电路系统、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括可以是专用或者通用的至少一个可编程处理器，它被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且将数据和指令传输给存储系统、至少一个输入设备和至少一个输出设备。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或者“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息收发应用、媒体流应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于在暂时或者永久基础上存储程序(例如指令序列)或者数据(例如程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及光盘或者磁带。

这些计算机程序(也称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令，并且可以以高级程序和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该一个或多个可编程处理器(也称为数据处理硬件)执行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路))执行。通过示例，适合于执行计算机程序的处理器包括通用和专用微处理器两者以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是用于执行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或者光盘)，或者计算机被可操作地耦合以接收来自该大容量存储设备的数据或者将数据传送给该大容量存储设备或者两者。然而，计算机不需要具有这种设备。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，通过示例包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)；磁盘(例如内部硬盘或者可移除盘)；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路系统补充，或者被并入到该专用逻辑电路系统中。

为了提供与用户的交互，本公开的一个或多个方面可以被实现在计算机上，该计算机具有：用于向用户显示信息的显示设备，例如CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏；以及可选地键盘和定点设备(例如鼠标或者轨迹球)，用户可以通过其向计算机提供输入。其他种类的设备也可以被用于提供与用户的交互；例如提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或者触觉反馈；并且来自用户的输入可以用任何形式(包括声学输入、语音输入或者触觉输入)来接收。另外，计算机可以通过将文档发送给由用户所使用的设备并且接收来自该设备的文档；例如通过响应于从web浏览器接收的请求来将网页发送给在用户的客户端设备上的web浏览器来与用户交互。

已经描述了许多实施方式。然而，将理解的是，可以在不脱离本公开的精神和范围的情况下进行各种修改。因此，其他实施方式在随附权利要求的范围内。

Claims

1.一种用于统一流式和非流式语音识别的单个变换器-换能器模型(200)，所述单个变换器-换能器模型(200)包括：

音频编码器(300)，所述音频编码器被配置为：

接收声帧(110)序列作为输入；以及

在多个时间步长中的每个时间步长处，为所述声帧(110)序列中的对应声帧(110)生成高阶特征表示；

标签编码器(220)，所述标签编码器被配置为：

接收由最终softmax层(240)输出的非空白符号序列作为输入；以及

在所述多个时间步长中的每个时间步长处生成密集表示；以及

联合网络(230)，所述联合网络被配置为：

接收由所述音频编码器(300)在所述多个时间步长中的每个时间步长处生成的所述高阶特征表示和由所述标签编码器(220)在所述多个时间步长中的每个时间步长处生成的所述密集表示作为输入；以及

在所述多个时间步长中的每个时间步长处生成在对应时间步长处的可能的语音识别假设上的概率分布，

其中所述音频编码器(300)包括具有多个变换器层(400)的神经网络，所述多个变换器层(400)包括：

变换器层(400)的初始堆叠(310)，所述初始堆叠中的每一个变换器层用零前瞻音频场境训练；以及

变换器层(400)的最终堆叠(320)，所述最终堆叠中的每一个变换器层用可变前瞻音频场境训练。

2.根据权利要求1所述的单个变换器-换能器模型(200)，其中所述音频编码器(300)的每个变换器层(400)包括：

归一化层(404)；

具有相对位置编码的掩蔽多头注意力层(406)；

残差连接(408)；

堆叠/解堆叠层(410)；以及

前馈层(412)。

3.根据权利要求2所述的单个变换器-换能器模型(200)，其中所述堆叠/解堆叠层(410)被配置为改变对应变换器层(400)的帧率，以在训练和推断期间调整所述单个变换器-换能器模型(200)的处理时间。

4.根据权利要求1至3中任一项所述的单个变换器-换能器模型(200)，其中变换器层(400)的所述初始堆叠(310)包括比变换器层(400)的所述最终堆叠(320)更多的变换器层(400)。

5.根据权利要求1至4中任一项所述的单个变换器-换能器模型(200)，其中在训练期间，针对变换器层(400)的所述最终堆叠(320)中的每个变换器层(400)对所述可变前瞻音频场境进行均匀采样。

6.根据权利要求1至5中任一项所述的单个变换器-换能器模型(200)，进一步包括：

低时延解码分支(321)，所述低时延解码分支被配置为从使用第一前瞻音频场境编码的音频数据(110)中解码输入话语(106)的对应语音识别结果(120)；以及

高时延解码分支(322)，所述高时延解码分支被配置为从使用第二前瞻音频场境编码的音频数据(110)中解码所述输入话语(106)的对应语音识别结果(120)，所述第二前瞻音频场境包括比所述第一前瞻音频场境更长持续时间的前瞻音频。

7.根据权利要求6所述的单个变换器-换能器模型(200)，其中：

变换器层(400)的所述初始堆叠(310)应用零前瞻音频场境来计算共享激活(312)，以供所述低时延解码分支(321)和所述高时延解码分支(322)两者使用；

变换器层(400)的所述最终堆叠(320)应用所述第一前瞻音频场境来计算低时延激活(323)，以供所述低时延解码分支(321)而非所述高时延解码分支(322)使用；以及

变换器层(400)的所述最终堆叠(320)应用所述第二前瞻音频场境来计算高时延激活(324)激活(312)，以供所述高时延解码分支(322)而非所述低时延解码分支(321)使用。

8.根据权利要求6或7所述的单个变换器-换能器模型(200)，其中所述第一前瞻音频场境包括零前瞻音频场境。

9.根据权利要求6至8中任一项所述的单个变换器-换能器模型(200)，其中所述低时延解码分支(321)和所述高时延解码分支(322)并行执行，以解码所述输入话语(106)的所述对应语音识别结果(120)。

10.根据权利要求9所述的单个变换器-换能器模型(200)，其中由所述高时延解码分支(322)针对所述输入话语(106)解码的所述对应语音识别结果(120)比由所述低时延解码分支(321)针对所述输入话语(106)解码的所述对应语音识别结果(120)延迟持续时间，所述持续时间基于所述第二前瞻音频场境与所述第一前瞻音频场境之间的差异。

11.根据权利要求6至10中任一项所述的单个变换器-换能器模型(200)，其中：

所述低时延解码分支(321)被配置为当由所述单个变换器-换能器模型(200)接收到所述输入话语(106)时，将所述对应语音识别结果(120)作为部分语音识别结果(120)流式传输；并且

所述高时延解码分支(322)被配置为在所述单个变换器-换能器模型(200)接收到完整输入话语(106)之后，输出所述对应语音识别结果(120)作为最终转录(120)。

12.根据权利要求6至11中任一项所述的单个变换器-换能器模型(200)，其中：

所述输入话语(106)被指向应用(50)；并且

由所述高时延解码分支(322)使用以解码所述输入话语(106)的所述对应语音识别结果(120)的所述第二前瞻音频场境的持续时间是基于所述输入话语(106)被指向的所述应用的类型。

13.根据权利要求1至12中任一项所述的单个变换器-换能器模型(200)，其中所述标签编码器(220)包括具有多个变换器层(400)的神经网络。

14.根据权利要求1至12中任一项所述的单个变换器-换能器模型(200)，其中所述标签编码器(220)包括二元嵌入查找解码器模型。

15.根据权利要求1至14中任一项所述的单个变换器-换能器模型(200)，其中：

所述单个变换器-换能器模型(200)在客户端设备(10)上执行；或者

所述单个变换器-换能器模型(200)在基于服务器的系统(60)上执行。

16.一种计算机实现的方法(500)，所述计算机实现的方法当在数据处理硬件(12)上执行时使所述数据处理硬件(12)执行操作，所述操作包括：

接收与口头话语(106)相对应的音频数据(110)作为变换器-换能器模型(200)的输入；以及

使用所述变换器-换能器模型(200)，通过以下操作对所述音频数据(110)并行执行流式语音识别和非流式语音识别：

针对所述变换器-换能器模型(200)的低时延分支(321)：

当接收到与所述口头话语(106)相对应的所述音频数据(110)时，使用第一前瞻音频场境对所述音频数据(110)进行编码；

将使用所述第一前瞻音频场境编码的所述音频数据(110)解码为所述口头话语(106)的部分语音识别结果(120)；以及

对所述口头话语(106)的所述部分语音识别结果(120)进行流式传输；以及

针对所述变换器-换能器模型的高时延分支(322)：

在与所述口头话语(106)相对应的所述音频数据(110)被接收到之后，使用第二前瞻音频场境对所述音频数据(110)进行编码；

将使用所述第二前瞻音频场境编码的所述音频数据(110)解码为所述口头话语(106)的最终语音识别结果(120)；以及

用所述最终语音识别结果(120)替换流式传输的部分语音识别结果(120)。

17.根据权利要求16所述的计算机实现的方法(500)，其中所述变换器-换能器模型(200)包括音频编码器(300)，所述音频编码器(300)包括具有多个变换器层(400)的神经网络，所述多个变换器层(400)包括：

变换器层(400)的初始堆叠(310)，所述初始堆叠中的每一个用零前瞻音频场境训练；以及

变换器层(400)的最终堆叠(320)，所述最终堆叠中的每一个用可变前瞻音频场境训练。

18.根据权利要求17所述的计算机实现的方法(500)，其中每个变换器层(400)包括：

归一化层(404)；

具有相对位置编码的掩蔽多头注意力层(406)；

残差连接(408)；

堆叠/解堆叠层(410)；以及

前馈层(412)。

19.根据权利要求18所述的计算机实现的方法(500)，其中所述堆叠/解堆叠层(410)被配置为改变对应变换器层(400)的帧率，以在训练和推断期间调整所述单个变换器-换能器模型(200)的处理时间。

20.根据权利要求17至19中任一项所述的计算机实现的方法(500)，其中变换器层(400)的所述初始堆叠(310)包括比变换器层(400)的所述最终堆叠(320)更多的变换器层(400)。

21.根据权利要求17至20中任一项所述的计算机实现的方法(500)，其中在训练期间，针对变换器层(400)的所述最终堆叠(320)中的每个变换器层(400)对所述可变前瞻音频场境进行均匀采样。

22.根据权利要求17至21中任一项所述的计算机实现的方法(500)，其中：

变换器层(400)的所述初始堆叠(310)应用零前瞻音频场境来计算共享激活(312)，以供所述低时延分支(321)和所述高时延分支(322)两者使用；

变换器层(400)的所述最终堆叠(320)应用所述第一前瞻音频场境来计算低时延激活(323)，以供所述低时延分支(321)而非所述高时延解码分支(322)使用；以及

变换器层(400)的所述最终堆叠(320)应用所述第二前瞻音频场境来计算高时延激活(324)激活(312)，以供所述高时延分支(322)而非所述低时延分支(321)使用。

23.根据权利要求16至22中任一项所述的计算机实现的方法(500)，其中所述第一前瞻音频场境包括零前瞻音频场境。

24.根据权利要求16至23中任一项所述的计算机实现的方法(500)，其中由所述高时延分支(322)针对所述口头话语(106)解码的所述最终语音识别结果(120)比由所述低时延分支(321)针对所述口头话语(106)解码的所述部分语音识别结果(120)延迟持续时间，所述持续时间基于所述第二前瞻音频场境与所述第一前瞻音频场境之间的差异。

25.根据权利要求16至24中任一项所述的计算机实现的方法(500)，其中所述操作进一步包括：

接收应用标识符(52)，所述应用标识符(52)指示所述口头话语(106)被指向的应用(50)的类型；以及

基于所述应用标识符(52)来设置所述第二前瞻音频场境的持续时间。

26.根据权利要求16至25中任一项所述的计算机实现的方法(500)，其中所述变换器-换能器模型(200)包括标签编码器(220)，所述标签编码器(220)包括具有多个变换器层(400)的神经网络。

27.根据权利要求16至25中任一项所述的计算机实现的方法(500)，其中所述变换器-换能器模型(200)包括标签编码器(220)，所述标签编码器(220)包括二元嵌入查找解码器模型。

28.根据权利要求16至27中任一项所述的计算机实现的方法(500)，其中所述数据处理硬件(12)执行所述变换器-换能器模型(200)，并且驻留在：

客户端设备(10)；或者

基于服务器的系统(60)上。