CN115362497A

CN115362497A - 具有延迟阈值的序列到序列语音识别

Info

Publication number: CN115362497A
Application number: CN202180026145.7A
Authority: CN
Inventors: Y·高尔; 李锦宇; 陆亮; 稻熊宽文; 龚一凡
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-04-06
Filing date: 2021-02-15
Publication date: 2022-11-18
Also published as: US11562745B2; WO2021206804A1; US20230154467A1; US20210312923A1; EP4133478A1

Abstract

一种计算系统，包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器可以在序列到序列语音识别模型处生成音频输入的文本转录，该序列到序列语音识别模型可以将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入，一个或多个处理器可以生成多个隐藏状态。基于多个隐藏状态，一个或多个处理器可以生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记，输出对齐和外部模型对齐之间的延迟可以低于预定延迟阈值。一个或多个处理器可以输出文本转录。

Description

具有延迟阈值的序列到序列语音识别

背景技术

在自动语音识别(ASR)中，语音输入的文本转录在计算设备处被生成。当用户说话时，该文本转录经常被实时生成。在ASR被实时执行时，在用户说出输入的时间和计算设备输出转录的时间之间存在延迟。输入和输出之间的长延迟可以使ASR应用程序使用起来慢且笨重。

此外，先前尝试减少ASR的延迟经常导致字错误率(WER)的增加，即ASR应用程序错误地标识包括在输入中的字的比率。因此，现有的ASR方法具备在低延迟和低WER之间的权衡。

发明内容

根据本公开的一个方面，提供了一种计算系统，包括被配置为接收音频输入的一个或多个处理器。该一个或多个处理器还可以被配置为在序列到序列语音识别模型中生成音频输入的文本转录。序列到序列语音识别模型可以被配置为将相应的多个外部模型文本标记分配给包括在音频输入中的多个帧。每个外部模型文本标记可以具有在音频输入内的外部模型对齐。基于音频输入，序列到序列语音识别模型还可以被配置为生成多个隐藏状态。基于多个隐藏状态，序列到序列语音识别模型还可以被配置为生成对应于多个帧的多个输出文本标记。每个输出文本标记可以具有在音频输入内的对应的输出对齐。针对每个输出文本标记，输出对齐和外部模型对齐之间的延迟可以低于预定的延迟阈值。该一个或多个处理器还可被配置为将包括多个输出文本标记的文本转录输出到应用程序、用户界面或文件存储位置。

提供本发明内容以简化形式介绍选择出来的概念，该概念将在下文具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在被用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。

附图说明

图1示意性地示出了根据本公开的一个实施例的包括被配置为执行序列到序列语音识别模型的一个或多个处理器的示例计算系统。

图2示出了根据图1的实施例，针对音频输入的文本转录的生成的示例时间线。

图3A示意性地示出了根据图1的实施例，在外部对齐模型和编码器神经网络的训练期间的一个或多个处理器。

图3B示意性地示出了根据图1的实施例，在使用多任务训练时在编码器神经网络的训练期间的一个或多个处理器。

图3C示意性地示出了根据图1的实施例，在编码器神经网络的训练期间在利用逐帧交叉熵损失项来预训练编码器神经网络时的一个或多个处理器。

图4A示出了根据图1的实施例，在解码器模型是单调逐块注意力模型时，针对多个隐藏状态的相应的选择概率。

图4B示出了在解码器神经网络包括一维卷积层的实施例中图4A的选择概率。

图5A示意性地示出了根据图1的实施例，在解码器神经网络的训练期间的一个或多个处理器。

图5B示意性地示出了根据图1的实施例，在第一线性瓶颈层和第二线性瓶颈层部分地训练编码器神经网络时，在编码器神经网络和解码器神经网络的并发训练期间的一个或多个处理器。

图6A示出了根据图1的实施例，可在计算系统处用于生成音频输入的文本转录的方法的流程图。

图6B示出了在训练编码器神经网络时可以被执行的图6A的方法的附加步骤。

图6C示出了在训练解码器神经网络时可以被执行的图6A的方法的附加步骤。

图7示出其中可以扮演图1的计算机设备的示例计算环境的示意图。

具体实施方式

端到端ASR模型是一类ASR模型，其中输入和输出被各自表示为有序的值序列。例如，端到端ASR模型的输入和输出可以被各自表示为向量。输入序列和输出序列的相应的元素可以各自分别编码对应于输入序列和输出序列中的时间间隔的帧。端到端ASR模型可以是帧同步模型，其中输入序列的长度等于输出序列的长度。帧同步模型的示例包括联结主义时间分类(CTC)、循环神经网络传感器(RNN－T)和循环神经对齐器(RNA)模型。备选地，端到端ASR模型可以是标签同步模型，其中输入序列和输出序列具有分别不同的长度。标签同步模型的示例包括基于注意力的序列到序列(S2S)和转换器模型。

一些先前开发的基于注意力的S2S模型具有比帧同步模型更低的WER。然而，由于基于注意力的S2S模型具有高延迟，因此先前在实时流场景中对应用基于注意力的S2S模型的尝试遇到了困难。

为了解决现有ASR模型的缺点，提供了一种计算系统10，如在图1中根据一个示例实施例示意性示出的。计算系统10可以包括一个或多个处理器12。在一些实施例中，一个或多个处理器12可以各自包括多个处理器核，在该处理器核上一个或多个处理器线程可以被执行。计算系统10还可以包括被可操作地耦合到一个或多个处理器12的存储器14，使得一个或多个处理器12可将数据存储在存储器14中，并且从存储器14取回数据。存储器14可以包括随机存取存储器(RAM)，并且还可以包括非易失性存储装置。非易失性存储装置可以存储被配置为由一个或多个处理器12执行的指令。

计算系统10还可以包括一个或多个输入设备16，该输入设备16可以被可操作地耦合到一个或多个处理器12。例如，一个或多个输入设备16可以包括一个或多个麦克风、一个或多个摄像机(例如RGB摄像机、深度摄像机或立体摄像机)、一个或多个加速度计、一个或多个方向传感器(例如陀螺仪或磁力计)、一个或多个按钮、一个或多个触摸传感器或其它类型的输入设备16。计算系统10还可以包括一个或多个输出设备18，该输出设备18也可以被可操作地耦合到一个或多个处理器12。例如，一个或多个输出设备18可以包括例如一个或多个显示器、一个或多个扬声器、一个或多个触觉反馈单元或其它类型的输出设备18。计算系统10的一个或多个处理器12可以被配置为传送指令以在一个或多个输出设备18上输出诸如图形用户界面的用户界面74。此外，一个或多个处理器12还可以被配置为经由一个或多个输入设备16接收与用户界面74交互的用户输入。

在一些实施例中，一个或多个处理器12和存储器14的功能可以跨越多个可操作地耦合的计算设备来被实例化。例如，计算系统10可以包括被通信地耦合到一个或多个服务器计算设备的一个或多个客户端计算设备。每个被可操作地耦合的计算设备可以执行下文讨论的一个或多个处理器12或存储器14的一些或全部功能。例如，客户端计算设备可以在一个或多个输入设备16处接收一个或多个输入，并且可以将处理那些输入的一个或多个步骤卸载到一个或多个服务器计算设备。在该示例中，服务器计算设备可以将一个或多个输出返回给客户端计算设备以在一个或多个输出设备18上输出。在这种实施例中，一个或多个处理器12被分布在客户机计算设备和一个或多个服务器计算设备之间。

一个或多个处理器12可以被配置为接收音频输入20。在处理器12和一个或多个麦克风被包括在相同的物理计算设备中的实施例中，处理器12可以经由应用程序接口(API)从一个或多个麦克风接收音频输入20。在其它实施例中，一个或多个处理器12中的至少一个处理器12可以接收从另一物理计算设备(例如瘦客户端计算设备)被传送到处理器12的音频输入20。在一些实施例中，一个或多个处理器12还可以被配置为通过将音频输入20划分为对应于音频输入20内的时间间隔的有序帧序列22来预处理音频输入20。

一个或多个处理器12还可以被配置为在序列到序列语音识别模型30处生成音频输入20的文本转录70，如下文进一步详细描述的。文本转录70可以包括多个输出文本标记62，该输出文本标记62可以指示字、字的部分、标点符号、说话者标识符、话语分隔符和/或指示音频输入20的一个或多个特征的其它文本。在一些实施例中，音频输入20可以是由一个或多个处理器12在输入时间间隔上接收的流式音频输入。在这种实施例中，一个或多个处理器12还可以被配置为在接收音频输入20的同时在输入时间间隔期间输出文本转录70。因此，一个或多个处理器12可以被配置为在音频输入20被接收到时实时转录音频输入20。在文本转录70已经被生成之后，一个或多个处理器12还可以被配置为将包括多个输出文本标记62的文本转录70输出给应用程序72、用户界面74或文件存储位置76。

S2S语音识别模型30可以包括外部对齐模型40、编码器神经网络50和解码器神经网络60。下文进一步详细描述S2S语音识别模型30的这些子模型中的每个子模型。

在外部对齐模型40处，一个或多个处理器12还可以被配置为将相应的多个外部模型文本标记42分配给被包括在音频输入20中的多个帧22。外部模型文本标记42被分配到的帧22可以是在预处理期间音频输入20被分段为的帧22。外部对齐模型40可以是声学特征检测模型，该声学特征检测模型被配置为分配外部模型文本标记42以指示音频输入20中的三状态级(senone-level)特征。例如，可以在外部对齐模型40处估计被包括在音频输入20中的字之间的边界。外部对齐模型40可以是循环神经网络(RNN)。在一些实施例中，外部对齐模型40可以是CTC模型。

在外部对齐模型40处标识的每个外部模型文本标记42可以在音频输入20内具有外部模型对齐44。外部模型文本标记42的外部模型对齐44可以是与外部模型文本标记42相关联的帧22的指示。因此，外部模型对齐44可以是用户的话语中的声学特征的真实数据(ground-truth)对齐的估计。

在编码器神经网络50处，基于音频输入20，一个或多个处理器12还可以被配置为生成多个隐藏状态52。隐藏状态52可以是被包括在音频输入20中的特征的字级或子字级潜在表示。在一些实施例中，多个隐藏状态52可以被表示为编码器输出的向量h_j。编码器神经网络50可以是RNN，诸如长短期记忆(LSTM)网络、门控递归单元(GRU)或一些其它类型的RNN。

在解码器神经网络60处，一个或多个处理器12还可以被配置为基于多个隐藏状态52来生成多个输出文本标记62，如下文进一步详细讨论的。多个输出文本标记62可以被表示为向量y＝(y₁，...，y_L)，其中L是输出文本标记62的总数目。多个输出文本标记62可以被包括在由S2S语音识别模型30输出的文本转录70中。在解码器神经网络60处生成的每个输出文本标记62可以与音频输入20的帧22相关联，并且在音频输入20内具有对应的输出对齐64，该输出对齐64指示与输出文本标记62相关联的帧22。

针对每个输出文本标记62，输出对齐64和外部模型对齐44之间的延迟66可以低于预定延迟阈值68。预定延迟阈值68的示例值是4帧、8帧、12帧、16帧、24帧和32帧。备选地，预定延迟阈值68可以是一些其它数目的帧。

图2示出了针对音频输入20“为明天晚上七点三十分的晚餐添加事件”的文本转录70的生成的示例时间线90。在图2的示例中，针对音频输入20的每个字以及针对标记话语结束的分隔符<EOS>分别生成输出文本标记62。图2的时间线90还示出了针对每个输出文本标记62的输出对齐64。针对输出文本标记62中的一个输出文本标记，时间线90还示出了针对该输出文本标记62的外部模型对齐44，以及输出对齐64与外部模型对齐44之间的延迟66。

为了针对多个音频输入20评估输出对齐64和外部模型对齐44之间的延迟66，一个或多个处理器12可以被配置为计算语料库级延迟Δ_corpus或话语级延迟Δ_utterance。语料库级延迟Δ_corpus可以被计算为多个输出文本标记62中的每个输出文本标记的相应的边界

与在外部对齐模型40处计算的外部模型文本标记42的对应的边界

之间的差(例如，帧22的数目)。以下提供针对语料库级延迟Δ_corpus的示例等式：

在该等式中，N是音频输入20的数目，以及y^k是第k个输出文本标记62。话语级延迟Δ_utterance可以被计算为针对每个音频输入20的平均延迟的平均值。针对话语级延迟Δ_utterance的示例等式如下：

现在转向图3A，根据一个示例实施例示出了在训练外部对齐模型140和编码器神经网络150时的一个或多个处理器12。在图3A的示例中，使用多个训练音频输入120来训练外部对齐模型140和编码器神经网络150，每个训练音频输入120包括多个训练帧122。针对每个训练音频输入120，一个或多个处理器12可以被配置为在外部对齐模型140处生成具有相应的多个训练外部模型对齐144的多个训练外部模型文本标记142。可以使用三状态级(senone-level)逐帧交叉熵损失函数146来训练外部对齐模型140。在一些实施例中，相同的训练音频输入120可以被用于训练外部对齐模型140和编码器神经网络150两者。

在图3A的示例中，在编码器神经网络150被训练时，一个或多个处理器12还可以被配置为针对每个训练音频输入120生成多个训练隐藏状态152。编码器神经网络150可以至少部分地利用编码器损失函数158来训练，编码器损失函数158包括序列到序列损失项158A和逐帧交叉熵损失项158B。在一个示例实施例中，可以使用以下编码器损失函数158：

L_total＝(1-λ_CE)L_S2S(y|x)+λ_CEL_CE(A|x)

在上述等式中，λ_CE是可以具有0到1之间的值的可调超参数。x可以是被表示为向量x＝(x₁，...，x_T)的编码器神经网络150的输入序列。y可以是被表示为向量y＝(y₁，...，y_L)的多个真实数据输出文本标记，其中L是与训练音频输入120相关联的训练输出文本标记的总数目，如下文进一步详细讨论的。此外，A＝(a₁，...，a_T)可以是从外部对齐模型140接收的多个字级对齐，其中每个a_j是K维独热(one-hot)向量。在该示例中，K是外部对齐模型140的词汇大小。逐帧交叉熵损失项158B可以由以下等式给出：

在该等式中，T是输入标记的总数目，并且

是第j个针对逐帧交叉熵损失项158B的后验概率分布。

上文针对编码器损失函数158的等式可以被用于编码器神经网络150与解码器神经网络160被同时训练的实施例中，如下文参照图3B进一步详细讨论的。在其它实施例中，可以利用不依赖于解码器神经网络160的输出的一些其它损失函数来预训练编码器神经网络150，并且随后可以利用由经预训练的编码器神经网络150输出的训练隐藏状态152来训练解码器神经网络160。

在一些实施例中，可以经由多任务学习同时利用序列到序列损失项158A和逐帧交叉熵损失项158B来训练编码器神经网络150。在这种实施例中，在上文等式中针对编码器损失函数1580＜λ_CE＜1。在经由多任务学习训练编码器神经网络150时，编码器神经网络150的神经网络可以与解码器神经网络160同时被训练，如图3B所示。在图3B的示例中，在编码器神经网络150处生成的多个训练隐藏状态152被输出到解码器神经网络160和逐帧交叉熵层170。一个或多个处理器12可以被配置为使用由编码器神经网络150输出的训练隐藏状态152来计算序列到序列损失项158A，以及从逐帧交叉熵层170的输出来计算逐帧交叉熵损失项158B。

在其它实施例中，编码器神经网络150可以在利用序列到序列损失项158A训练之前利用逐帧交叉熵损失项158B被预训练。在这种实施例中，如图3C所示，编码器神经网络150可以在第一训练阶段102期间利用逐帧交叉熵损失项158B被训练，以及在第二训练阶段104期间利用序列到序列损失项158A被训练。在使用上文所示的示例编码器损失函数158时，可调超参数λ_CE可以在第一训练阶段102期间被设置为1，并且在第二训练阶段104期间被设置为0。

回到图1，解码器神经网络60可以被配置为从编码器神经网络50接收多个隐藏状态52。类似于编码器神经网络50，解码器神经网络60可以是诸如LSTM或GRU的RNN。在一些实施例中，解码器神经网络60可以是单调逐块(chunkwise)注意力模型。在解码器神经网络60是单调逐块注意力模型时，一个或多个处理器12还可以被配置为随机地确定针对每个隐藏状态52的二进制注意力状态56，该二进制注意力状态56指示是否生成对应于该隐藏状态52的输出文本标记62。

图4A示出了针对解码器输出y_i和隐藏状态h_j对的选择概率p_i，j的网格200。选择概率p_i，j可以使用以下等式来计算：

在这些等式中，

是单调能量激活，h_j是由编码器神经网络50输出的第j个隐藏状态52，s_i是解码器神经网络60的第i个状态，σ是S型(sigmoid)函数，ReLU是整流线性单位函数，以及g、v、W_h、W_s、b和r是解码器神经网络60的可学习参数。

图4A中所示的网格200包括多个块202，每个块202包括针对多个连续隐藏状态h_j和解码器输出y_i的相应的选择概率p_i，j。多个块202中的每个块202可以包括等于预定块大小w的多个选择概率p_i，j。在图4A的示例中，预定块大小w是4。在其它实施例中，一些诸如3或5的其它预定块大小可以被使用。包括隐藏状态向量h的第一或最后元素的块202可以小于用于其它块202的预定块大小w。

针对每个块202，一个或多个处理器12可以被配置为从被包括在该块202中的选择概率p_i，j的概率分布中采样伯努利随机变量z_i，j。在图4A的示例网格200中，较暗的颜色对应于较高的选择概率p_i，j。在伯努利随机变量z_i，j具有针对选择概率的值为1时，一个或多个处理器12还可以被配置为通过输出隐藏状态h_j和编码器输出y_i之间的关联来“注意”与该选择概率p_i，j相关联的隐藏状态h_j。在伯努利随机变量z_i，j具有针对选择概率的值为0时，一个或多个处理器12可以改为选择一些其它隐藏状态h_j以与编码器输出的值y_i相关联。

一个或多个处理器12还可以被配置为针对被包括在每个块202中的每个选择概率p_i，j确定相应的输出对齐64。对应于选择概率p_i，j的输出对齐α_i，j由以下等式给出：

多个输出对齐α_i，j可以指示在输出文本标记62之间的预期边界在音频输入20中的位置。因此，如上文所述，单调能量激活

可以被用于确定选择概率p_i，j，该选择概率p_i，j可以被用于确定输出对齐α_i，j。

一个或多个处理器12还可以被配置为确定针对每个块202的逐块能量激活

例如，一个或多个处理器12可以使用以下针对

的示例等式：

在上述等式中，

是大小等于块大小w的标量数组。应当理解，h_chunk是针对块202中包括的选择概率p_i，j的相应隐藏状态52的序列，以及S_chunk是针对那些选择概率p_i，j的相应解码器状态的序列。此外，U、V和W是仿射尺寸变化层，并且可以在训练解码器神经网络160时被训练。

一个或多个处理器12还可以被配置为使用以下针对诱导概率分布{β_i，j}的等式来归一化(normalize)逐块能量激活

在该等式中，w是上面讨论的预定块大小。诱导概率分布{β_i，j}可以是输出文本标记62的概率分布，该概率分布可以由解码器神经网络50输出。

一个或多个处理器12还可以被配置为确定使用诱导概率分布{β_i，j}加权的多个加权编码器记忆值c_i，如以下等式所示：

因此，不是仅将加权编码器记忆值c_i设置为等于对应的隐藏值h_j，而是一个或多个处理器12可以被配置为计算被包括在每个块202中的选择概率p_i，j的相应的柔性最大值传输函数(softmax)。加权编码记忆值c_i可以被包括在上下文向量中，解码器神经网络60可以使用该上下文向量作为输入。

在一些实施例中，如图1所示，由编码器神经网络50生成的多个隐藏状态52可以在生成二进制注意力状态56之前通过一维卷积层54。一维卷积层54可以被表示为

其中k是内核大小(例如，3、4或5)，以及d是针对一维卷积层54的通道大小。通道大小d可以等于隐藏状态h_j的尺寸。一个或多个处理器12还可以被配置为使用以下转换将隐藏状态h_j转换到注意力空间：

h′_i，j＝W_h(W_c*h_j)

在该等式中，h′_i，j是经转换的隐藏状态。

图4B示出了在解码器神经网络60中包括一维卷积层54的实施例中选择概率p_i，j的另一示例网格210。在图4B的实施例中，一个或多个处理器12还被配置为从每个针对z_i，j＝1的选择概率p_i，j中往回“看”j的一个值以及往前“看”j的一个值。因此，通过合并来自在所选择的帧22之前或之后的一个或多个帧22的信息，可以使由解码器神经网络60做出的边界预测更加准确。

图5A示出了根据一个示例实施例，在训练解码器神经网络160时的一个或多个处理器12。在图4A的示例中，解码器神经网络150可以使用编码器神经网络150的训练隐藏状态152作为训练数据。在一些实施例中，解码器神经网络160可以被配置为接收训练隐藏状态152作为加权编码器记忆值的上下文向量{c_i}。

在训练解码器神经网络160时，解码器神经网络160可以被配置为生成对应于多个训练隐藏状态152的多个训练二进制注意力状态156。在一些实施例中，如图5A的示例所示，解码器神经网络160还可以包括一维卷积层154。在生成训练二进制注意力状态156之前，可以将多个训练隐藏状态152输入到一维卷积层154中。一维卷积层154可以与解码器神经网络160的其它层同时被训练。

从多个训练二进制注意力状态156，解码器神经网络160还可以被配置为生成具有相应的多个训练输出对齐164的相应的多个训练输出文本标记162。解码器神经网络160可以被配置为生成多个训练输出文本标记162，使得每个训练输出文本标记162具有低于预定延迟阈值68的训练延迟166。在一个示例实施例中，以下约束可以被应用于训练输出对齐α_i，j：

在上述等式中，b_i是第i个外部模型对齐44并且δ是预定延迟阈值68。因此，训练延迟166可以在解码器神经网络60的训练期间以及在运行时保持低于预定延迟阈值68。

可以使用包括序列到序列损失项168A的解码器损失函数168来训练解码器神经网络160。在一些实施例中，解码器损失函数168可以是包括序列到序列损失项168A和注意力权重正则化项168B的延迟约束训练损失函数。例如，可以使用以下等式来计算解码器损失函数168：

在上述等式中，L_total是解码器损失函数168，L_S2S是序列到序列损失项168A，λ_QUA是可调超参数，以及L是训练输出文本标记162的总数目。通过在解码器损失函数168中包括注意力权重正则化项168B，可以避免{α_i，j}的指数衰减，并且α_i，j的非零值的数目可以被匹配到L。

作为延迟约束损失函数的备选，解码器损失函数168可以是包括序列到序列损失项168A和最小延迟损失项168C的最小延迟训练损失函数。最小延迟损失项168C可以由以下等式给出：

在上述等式中，λ_MinLT是可调超参数。此外，jα_i，j的值的总和表示第i个训练输出文本标记162的预期边界位置。在计算解码器损失函数168的值时，最小延迟训练可以解释不同训练输出文本标记162的训练延迟166中的差异。

在一些实施例中，如图5B所示，可以同时训练编码器神经网络150和解码器神经网络160。在这种实施例中，编码器神经网络150可以至少部分地在第一线性瓶颈层180和第二线性瓶颈层182处被训练。第一线性瓶颈层180和第二线性瓶颈层182可以各自被配置为从编码器神经网络150接收多个训练隐藏状态152。在一些实施例中，第一线性瓶颈层180和第二线性瓶颈层182可以被配置为接收多个训练隐藏状态152作为加权编码器记忆值的上下文向量{c_i}。一个或多个处理器12还可以被配置为级联(concatenate)第一线性瓶颈层180和第二线性瓶颈层182的输出以形成级联瓶颈层184。级联瓶颈层184的输出可以用作在解码器神经网络160处的训练输入。此外，第二线性瓶颈层182的输出可以在逐帧交叉熵层170处被接收。一个或多个处理器12还可以被配置为基于逐帧交叉熵层170的输出来计算逐帧交叉熵损失项158B。

图6A示出了根据一个示例实施例，用于与计算系统一起使用的方法300的流程图。方法300可以在图1的计算系统10处或在一些其它计算系统处被执行。在步骤302处，方法300可以包括接收音频输入。可以在一个或多个处理器处经由被包括在计算系统中的一个或多个麦克风来接收音频输入。一个或多个处理器和一个或多个麦克风可以被提供在通信地耦合的相同物理计算设备中或单独的物理计算设备中。在一些实施例中，可以通过诸如将音频输入划分为与相应的时间间隔相关联的多个帧来预处理音频输入。

在步骤304处，方法300还可以包括在序列到序列语音识别模型处生成音频输入的文本转录。序列到序列语音识别模型可以包括被配置为生成多个外部模型文本标记的外部对齐模型、被配置为生成多个隐藏状态的编码器神经网络、以及被配置为生成多个输出文本标记的解码器神经网络。外部对齐模型、编码器神经网络和解码器神经网络中的每个可以是RNN，诸如LSTM、GRU或一些其它类型的RNN。

在步骤306处，步骤304可以包括将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。这些外部模型文本标记可以由外部对齐模型分配。被分配给帧的每个外部模型文本标记可以在音频输入内具有外部模型对齐，该外部模型对齐指示外部模型文本标记被分配给的帧。外部对齐模型可以是声学模型，该声学模型被配置为标识音频输入中的三状态级特征并将外部模型文本标记分配给三状态级特征。

在步骤308处，步骤304还可以包括基于音频输入生成多个隐藏状态。隐藏状态可以在编码器神经网络处被生成，并且可以是被包括在音频输入中的特征的字级或子字级隐藏表示。

在步骤310处，步骤304还可以包括在解码器神经网络处生成对应于多个帧的多个输出文本标记。可以基于多个隐藏状态在解码器神经网络处生成多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐，该输出对齐指示与输出文本标记相关联的帧。此外，解码器神经网络可被配置为生成多个输出文本标记，使得针对每个输出文本标记，输出对齐与外部模型对齐之间的延迟低于预定延迟阈值。该延迟约束可以被执行，例如，可以通过生成多个输出对齐并丢弃具有比相对于外部模型对齐的预定延迟阈值更高的延迟的任何输出对齐。

在步骤312处，方法300还可以包括将包括多个输出文本标记的文本转录输出到应用程序、用户界面或文件存储位置。在一些实施例中，音频输入可以是在输入时间间隔上接收的流式音频输入。在这种实施例中，可以在接收音频输入的同时在输入时间间隔期间输出文本转录。因此，当音频输入在被接收的过程中时，可以实时地生成和输出文本转录。

图6B示出了可以在一些实施例中被执行以训练编码器神经网络的方法300的附加步骤。图6B所示的步骤可以在图6A的步骤302处接收音频输入之前被执行。在步骤314处，方法300还可以包括至少部分地利用编码器损失函数来训练编码器神经网络，该编码器损失函数包括序列到序列损失项和逐帧交叉熵损失项。在一些实施例中，步骤314还可以包括，在步骤316处，在第一训练阶段期间利用逐帧交叉熵损失项来预训练编码器神经网络。在利用逐帧交叉熵损失项预训练编码器神经网络的实施例中，逐帧交叉熵损失项可以从逐帧交叉熵层的输出来计算，逐帧交叉熵层被配置为接收由编码器神经网络输出的多个训练隐藏状态。在编码器神经网络被预训练之后，步骤314还可以包括，在步骤318处，在第二训练阶段期间利用序列到序列损失项训练编码器神经网络。

备选地，步骤314可以包括，在步骤320处，经由多任务学习同时利用序列到序列损失项和逐帧交叉熵损失项来训练编码器神经网络。在经由多任务学习训练编码器神经网络时，可以同时训练编码器神经网络和解码器神经网络。在一些实施例中，经由多任务学习方式来训练编码器神经网络可以包括至少部分地在第一线性瓶颈层和第二线性瓶颈层处训练编码器神经网络，如步骤322所示。在使用第一线性瓶颈层和第二线性瓶颈层来训练编码器神经网络时，第一线性瓶颈层和第二线性瓶颈层的输出可以被级联以形成级联瓶颈层。级联瓶颈层的输出可以用作解码器神经网络的输入。此外，第二线性瓶颈层的输出可以在逐帧交叉熵层处被接收。可以从逐帧交叉熵层的输出计算逐帧交叉熵损失项。

图6C示出了可以在一些实施例中被执行以训练解码器神经网络的方法300的附加步骤。在步骤324处，方法300还可以包括至少部分地利用包括序列到序列损失项和注意力权重正则化项的延迟约束训练损失函数来训练解码器神经网络。备选地，在步骤326处，方法300还可以包括至少部分地利用包括序列到序列损失项和最小延迟项的最小延迟训练损失函数来训练解码器神经网络。在一些实施例中，解码器神经网络可以与编码器神经网络同时被训练。

使用上述系统和方法，与诸如CTC、RNN-T和RNA的常规ASR技术相比，可以减少ASR期间在输入和输出之间的延迟。该延迟的减少可以通过减少用户在输入语音输入时不得不等待的时间量来改进使用ASR的体验。通过减少ASR系统的用户不得不等待语音输入被处理成文本的时间量，上述系统和方法可以允许用户更快地并且具有较少的中断地获得语音输入的文本转录。与现有的S2S ASR方法相比，上文讨论的系统和方法还可以具有更高的处理效率。作为该处理效率增加的结果，当S2S语音识别模型至少部分地在与客户端设备通信的一个或多个服务器计算设备处被实例化时，网络延迟也可以被减少。此外，与现有ASR技术相比，上述系统和方法可以降低字错误率。

在一些实施例中，在本文中描述的方法和过程可以被绑定到一个或多个计算设备的计算系统。特别地，这种方法和过程可以被实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其它计算机程序产品。

图7示意性地示出了可以执行上述方法和过程中的一个或多个的计算系统400的非限制性实施例。计算系统400被以简化形式示出。计算系统400可以实现上述并在图1中示出的计算系统10。计算系统400可以采取以下形式：一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其它计算设备、以及诸如智能手表和头戴式增强现实设备的可穿戴计算设备。

计算系统400包括逻辑处理器402、易失性存储器404和非易失性存储装置设备406。计算系统400可以可选地包括显示子系统408、输入子系统410、通信子系统412和/或图7中未示出的其它组件。

逻辑处理器402包括被配置为执行指令的一个或多个物理设备。例如，逻辑处理器可以被配置为执行作为一个或多个应用程序、程序、例程、库、对象、组件、数据结构或其它逻辑构造的部分的指令。这种指令可以被实现以执行任务、实现数据类型、转换一个或多个组件的状态、实现技术效果或以其它方式达到期望的结果。

逻辑处理器可以包括被配置为执行软件指令的一个或多个物理处理器(硬件)。附加地或备选地，逻辑处理器可以包括被配置为执行硬件实现逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器402的处理器可以是单核或多核的，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑处理器的单个组件可选地可以被分布在两个或更多个分离的设备中，该设备可以远程定位和/或配置用于协同处理。逻辑处理器的方面可以由以云计算配置进行配置的可远程访问的、联网的计算设备来虚拟化和执行。在这种情况下，应当理解，这些虚拟化方面在各种不同机器的不同物理逻辑处理器上被运行。

非易失性存储装置设备406包括一个或多个物理设备，该物理设备被配置为保存可由逻辑处理器执行的指令以实现本文中所述的方法和过程。在实施这种方法和过程时，非易失性存储装置设备406的状态可以被转换，例如，以保存不同数据。

非易失性存储设备406可以包括可移动和/或内置的物理设备。非易失性存储装置设备406可以包括光存储器(例如，CD、DVD、HD－DVD、蓝光光盘等)、半导体存储器(例如，ROM，EPROM，EEPROM，闪存等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或其它大容量存储设备技术。非易失性存储装置设备406可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应当理解，非易失性存储装置设备406被配置为即使在切断到非易失性存储设备406的电力时仍保持指令。

易失性存储器404可以包括具有随机存取存储器的物理设备。易失性存储器404通常由逻辑处理器402使用以在软件指令的处理期间临时存储信息。应当理解，在切断易失性存储器404的电力时，易失性存储器404通常不继续存储指令。

逻辑处理器402的方面，易失性存储器404和非易失性存储设备406可以被一起集成到一个或多个硬件逻辑组件中。例如，这种硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序及专用集成电路(PASIC/ASIC)、程序及专用标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑设备(CPLD)。

术语“模块”、“程序”和“引擎”可以被用于描述计算系统400的一方面通常由处理器以软件方式实现，以使用易失性存储器的部分来执行特定的功能，该功能涉及特别地配置处理器以执行该功能的转换性处理。因此，模块、程序或引擎可以使用易失性存储器404的部分，经由执行由非易失性存储装置设备406保存的指令的逻辑处理器402来被实例化。应当理解，不同的模块，程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等来实例化。同样地，相同的模块、程序和/或引擎可以由不同的应用服务、代码块、对象、例程、API、函数等来实例化。术语“模块”、“程序”和“引擎”可以包括单个或成组的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

在包括显示子系统408时，该显示子系统408可以被用于呈现由非易失性存储设备406保存的数据的可视表示。可视表示可以采用图形用户界面(GUI)的形式。如本文中所描述的方法和过程改变了由非易失性存储装置设备保持的数据，并且因此转换了非易失性存储装置设备的状态，显示子系统408的状态可以同样被转换为可视地表示在基础数据中的改变。显示子系统408可以包括实际上利用任何类型的技术的一个或多个显示设备。这种显示设备可以与逻辑处理器402、易失性存储器404和/或非易失性存储装置设备406被组合在共享的外壳中，或这种显示设备可以是外围显示设备。

在包括输入子系统410时，该输入子系统410可以包括或连接一个或多个用户输入设备，诸如键盘、鼠标、触摸屏或游戏控制器。在一些实施例中，输入子系统可以包括或连接经选择的自然用户输入(NUI)组件部分。这种组件部分可以是集成的或外围的，并且输入动作的转换和/或处理可以在板上或板外被处理。示例NUI组件部分可以包括用于语音和/或声音识别的麦克风；用于机器视觉和/或姿势识别的红外、彩色、立体和/或深度摄像机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪；以及用于评估大脑活动的电场传感组件部分；和/或任何其它合适的传感器。

在包括通信子系统412时，该通信子系统412可以被配置为将本文中所述的各种计算设备彼此以及与其它设备通信地耦合。通信子系统412可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可以被配置用于经由无线电话网络，或有线或无线局域网或广域网(诸如在WiFi连接上的HDMI)进行通信。在一些实施例中，通信子系统可以允许计算系统400经由诸如互联网的网络向其它设备发送消息和/或从其它设备接收消息。

根据本公开的一个方面，提供了一种计算系统，包括被配置为接收音频输入的一个或多个处理器。一个或多个处理器还可以被配置为在序列到序列语音识别模型处生成音频输入的文本转录，该序列到序列语音识别模型被配置为至少将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入，序列到序列语音识别模型还可以被配置为生成多个隐藏状态。基于多个隐藏状态，序列到序列语音识别模型还可以被配置为生成对应于所述多个帧的多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记，输出对齐和外部模型对齐之间的延迟可以低于预定的延迟阈值。一个或多个处理器还可以被配置为将包括多个输出文本标记的文本转录输出到应用程序、用户界面或文件存储位置。

根据该方面，序列到序列语音识别模型可以包括被配置为生成多个外部模型文本标记的外部对齐模型、被配置为生成多个隐藏状态的编码器神经网络、以及被配置为生成多个输出文本标记的解码器神经网络。编码器神经网络和解码器神经网络可以是循环神经网络。

根据该方面，解码器神经网络可以是单调逐块注意力模型。

根据该方面，针对每个隐藏状态，一个或多个处理器还被配置为随机地确定二进制注意力状态。

根据该方面，音频输入可以是由一个或多个处理器在输入时间间隔上接收的流式音频输入。一个或多个处理器可以被配置为在接收音频输入的同时在输入时间间隔期间输出文本转录。

根据该方面，编码器神经网络可以至少部分地利用包括序列到序列损失项和逐帧交叉熵损失项的编码器损失函数而被训练。

根据该方面，在利用序列到序列损失项训练之前，编码器神经网络可以利用逐帧交叉熵损失项而被预训练。

根据该方面，编码器神经网络可以经由多任务学习同时利用序列到序列损失项和逐帧交叉熵损失项而被训练。

根据该方面，编码器神经网络可以至少部分地在第一线性瓶颈层和第二线性瓶颈层处被训练。

根据该方面，解码器神经网络可以至少部分地利用包括序列到序列损失项和注意力权重正则化项的延迟约束训练损失函数而被训练。

根据该方面，解码器神经网络可以至少部分地利用包括序列到序列损失项和最小延迟损失项的最小延迟训练损失函数而被训练。

根据本公开的另一方面，提供了一种用于与计算系统一起使用的方法。该方法可以包括接收音频输入。该方法还可以包括在序列到序列语音识别模型处生成音频输入的文本转录。文本转录可以至少通过将相应的多个外部模型文本标记分配给被包括在音频输入中的多个帧而被生成。每个外部模型文本标记可以在音频输入内具有外部模型对齐。基于音频输入，可以通过生成多个隐藏状态来进一步生成文本转录。基于多个隐藏状态，可以通过生成对应于多个帧的多个输出文本标记来进一步生成文本转录。每个输出文本标记可以在音频输入内具有对应的输出对齐。对于每个输出文本标记，输出对齐和外部模型对齐之间的延迟可以低于预定的延迟阈值。该方法还可以包括将包括多个输出文本标记的文本转录输出到应用程序、用户界面或文件存储位置。

根据该方面，音频输入可以是在输入时间间隔上接收的流式音频输入。可以在输入时间间隔期间接收音频输入的同时输出文本转录。

根据该方面，该方法还可以包括至少部分地利用包括序列到序列损失项和逐帧交叉熵损失项的编码器损失函数来训练编码器神经网络。

根据该方面，该方法还可以包括在利用序列到序列损失项训练之前，利用逐帧交叉熵损失项来预训练编码器神经网络。

根据该方面，该方法还可以包括经由多任务学习同时利用序列到序列损失项和逐帧交叉熵损失项来训练编码器神经网络。

根据该方面，该方法还可以包括至少部分地利用包括序列到序列损失项和注意力权重正则化项的延迟约束训练损失函数来训练解码器神经网络。解码器神经网络可以是单调逐块注意力模型。

根据该方面，该方法还可以包括至少部分地利用包括序列到序列损失项和最小延迟损失项的最小延迟训练损失函数来训练解码器神经网络。解码器神经网络可以是单调逐块注意力模型。

根据本公开的另一方面，提供了一种计算系统，包括被配置为接收音频输入的一个或多个处理器。一个或多个处理器还可以被配置为在序列到序列语音识别模型处生成音频输入的文本转录，序列到序列语音识别模型被配置为至少在外部对齐模型处将相应的多个外部模型文本标记分配给包括在音频输入中的多个帧。每个外部模型文本标记可以在音频输入内具有外部模型对齐。序列到序列语音识别模型还可以被配置为在至少包括单调逐块注意力模型的一个或多个循环神经网络处，生成对应于多个帧的多个输出文本标记。每个输出文本标记可以在音频输入内具有对应的输出对齐。针对每个输出文本标记，输出对齐和外部模型对齐之间的延迟可以低于预定的延迟阈值。一个或多个处理器还可以被配置为将包括多个输出文本标记的文本转录输出到应用程序、用户界面或文件存储位置。

应当理解，本文中描述的配置和/或方法本质上是示例性的，并且这些特定的实施例或示例不应被认为是限制性的，因为多个变化是可能的。本文中描述的特定的例程或方法可以表示任何数目的处理策略中的一个或多个处理策略。因此，所示和/或所述的各种动作可以以所示和/或所述的顺序、以其它顺序、并行地或省略地被执行。同样，上述过程的顺序可以被改变。

本公开的主题包括本文中公开的各种过程、系统和配置以及其它特征、功能、动作和/或属性的所有新颖和非显而易见的组合和子组合，以及其任何和所有等同物。

Claims

1.一种计算系统，包括：

一个或多个处理器，被配置为：

接收音频输入；

在序列到序列语音识别模型处生成所述音频输入的文本转录，所述序列到序列语音识别模型被配置为至少：

将相应的多个外部模型文本标记分配给被包括在所述音频输入中的多个帧，其中每个外部模型文本标记在所述音频输入内具有外部模型对齐；

基于所述音频输入，生成多个隐藏状态；以及

基于所述多个隐藏状态，生成对应于所述多个帧的多个输出文本标记，其中：

每个输出文本标记在所述音频输入内具有对应的输出对齐；并且

针对每个输出文本标记，所述输出对齐和所述外部模型对齐之间的延迟低于预定延迟阈值；以及

将包括所述多个输出文本标记的所述文本转录输出到应用程序、用户界面或文件存储位置。

2.根据权利要求1所述的计算系统，其中：

所述序列到序列语音识别模型包括被配置为生成所述多个外部模型文本标记的外部对齐模型、被配置为生成所述多个隐藏状态的编码器神经网络、以及被配置为生成所述多个输出文本标记的解码器神经网络；并且

所述编码器神经网络和所述解码器神经网络是循环神经网络。

3.根据权利要求2所述的计算系统，其中所述解码器神经网络是单调逐块注意力模型。

4.根据权利要求3所述的计算系统，其中针对每个隐藏状态，所述一个或多个处理器还被配置为随机地确定二进制注意力状态。

5.根据权利要求1所述的计算系统，其中：

所述音频输入是由所述一个或多个处理器在输入时间间隔上接收的流式音频输入；并且

所述一个或多个处理器被配置为在接收所述音频输入的同时在所述输入时间间隔期间输出所述文本转录。

6.根据权利要求1所述的计算系统，其中所述编码器神经网络至少部分地利用编码器损失函数而被训练，所述编码器损失函数包括序列到序列损失项和逐帧交叉熵损失项。

7.根据权利要求6所述的计算系统，其中所述编码器神经网络在利用所述序列到序列损失项训练之前，利用所述逐帧交叉熵损失项而被预训练。

8.根据权利要求6所述的计算系统，其中所述编码器神经网络经由多任务学习同时利用所述序列到序列损失项和所述逐帧交叉熵损失项而被训练。

9.根据权利要求8所述的计算系统，其中所述编码器神经网络至少部分地在第一线性瓶颈层和第二线性瓶颈层处被训练。

10.根据权利要求1所述的计算系统，其中所述解码器神经网络至少部分地利用包括序列到序列损失项和注意力权重正则化项的延迟约束训练损失函数而被训练。

11.根据权利要求1所述的计算系统，其中所述解码器神经网络至少部分地利用包括序列到序列损失项和最小延迟损失项的最小延迟训练损失函数而被训练。

12.一种用于与计算系统一起使用的方法，所述方法包括：

接收音频输入；

在序列到序列语音识别模型处生成所述音频输入的文本转录，其中所述文本转录至少通过以下而被生成：

基于所述音频输入，生成多个隐藏状态；以及

13.根据权利要求12所述的方法，其中：

14.根据权利要求12所述的方法，其中：

所述音频输入是在输入时间间隔上被接收的流式音频输入；并且

在接收所述音频输入的同时，所述文本转录在所述输入时间间隔期间被输出。

15.根据权利要求12所述的方法，还包括至少部分地利用编码器损失函数来训练所述编码器神经网络，所述编码器损失函数包括序列到序列损失项和逐帧交叉熵损失项。