CN116324973A

CN116324973A - 包含时间缩减层的基于变换器的自动语音识别系统

Info

Publication number: CN116324973A
Application number: CN202180068843.3A
Authority: CN
Inventors: 阿胡马德·拉希德; 邢超
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-21
Filing date: 2021-06-29
Publication date: 2023-06-23
Also published as: WO2022083165A1; US20220122590A1; US11715461B2

Abstract

提供了一种用于自动语音识别的计算机实现的方法和系统。使用编码器NN的时间缩减操作，将第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自第一集合中包括的相应多个语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量。使用所述编码器NN的自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列。使用所述编码器NN的概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列。还使用解码器NN处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

Description

包含时间缩减层的基于变换器的自动语音识别系统

本申请要求于2020年10月21日提交的、发明名称为“包含时间缩减层的基于变换器的自动语音识别系统(TRANSFORMER-BASED AUTOMATIC SPEECH RECOGNITION SYSTEMINCORPORATING TIME-REDUCTION LAYER)”的美国专利申请序列号17/076,794的优先权，该专利申请以引用的方式并入本文中，如全文再现一样。

技术领域

本发明涉及使用神经网络的自动语音识别。

背景技术

端到端自动语音识别(automatic speech recognition，ASR)系统日益变得重要，因为与传统的基于隐藏马尔可夫模型(hidden Markov model，HMM)的系统相比，它们依赖于相对简单的训练和推理过程。其中一个这种ASR系统采用了变换器架构，该变换器架构使用多头自注意力来建模时间上下文信息。这种ASR系统通常称为基于变换的ASR系统。基于变换器的ASR系统对音频文件的帧级声学特征序列执行ASR。基于变换器的ASR包括变换器编码器和变换器解码器，该变换器编码器和变换器解码器分别使用相应的神经网络层集合实现。变换器编码器接收帧级声学特征序列(x1，……，xT)作为输入，并将帧级声学特征序列映射到高级表示序列(h1，……，hN)。解码器一次一个标记(字级标记或子字单元，例如通过字节对编码产生的字符，或句子片段)生成音频文件的转录(y1，……，yL)。每个标记yl通过注意力机制以表示(h1，……，hN)和先前生成的标记(y1，……，yl–1)为条件。音频文件的基本事实转录(即目标转录或目标序列)由字级标记或子字单元表示，例如通过字节对编码产生的字符，或句子片段。与基于递归神经网络(recurrent neural network，RNN)的系统架构相比，基于变换器的ASR系统已被证明可以实现显著更低的字错误率(word errorrate，WER)。这种基于变换器的ASR系统的一个示例在以下中描述：S.Karita等人，语音应用中变换器与RNN的比较研究(ACOMPARATIVE STUDY ON TRANSFORMER VS RNN IN SPEECHAPPLICATIONS)，ASRU 2019，arXiv:1909.06317v2[cs.CL]，2019年9月28日。

自注意力机制将注意力矩阵应用于帧级声学特征序列，以学习帧级声学特征输入序列内部的时间依赖性。将自注意力应用于语音识别是具有挑战性的，因为包括声学特征的个体语音帧不像字等词法单元。个体语音帧不能传达不同的含义，这可能会使自动自注意力机制计算适当的注意力权重变得具有挑战性。基于变换器的ASR系统存在计算效率降低问题，并且对于更长的输入序列会学习更长但毫无意义的依赖关系。

因此，需要改进基于变换器的ASR系统。

发明内容

本发明提供了一种基于变换器的ASR系统，该基于变换器的ASR系统可以优化计算效率并丰富输入特征级声学特征，以用于输入到基于变换器的ASR系统的帧级声学特征的更长序列，并且提供了一种使用基于变换器的ARS系统执行ASR的方法。

根据本发明的第一示例性方面，提供一种用于自动语音识别的计算机实现的方法，包括：获取包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用编码器NN的时间缩减操作，将所述第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；使用所述编码器NN的自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；使用所述编码器NN的概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列；使用解码器NN处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

在至少一些场景下，在自注意力操作之前应用时间缩减操作可以减少自注意力操作需要执行的计算操作的数量。

在上述方面的至少一些示例中，所述方法包括，在所述编码器NN和所述解码器NN的训练阶段期间：基于所述预测的第一标签序列和所述预测的第二标签序列计算损失函数；使用梯度下降执行反向传播，以更新所述解码器NN和所述编码器NN的可学习参数，以减小所述损失函数。

在上述方面中的一个或多个方面的至少一些示例中，所述方法包括在推理阶段期间，基于所述预测的第一标签序列和所述预测的第二标签序列，计算所述第三语音序列的标签序列。

在上述方面中的一个或多个方面的至少一些示例中，获取包括语音帧特征向量的输入集合的输入语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用所述编码器NN的子采样操作将所述输入语音序列处理为所述第一语音序列，其中，所述第一语音序列包括比所述输入语音序列少的语音帧特征向量。

在上述方面中的一个或多个方面的至少一些示例中，所述时间缩减操作使用所述编码器NN的一个或多个线性NN层执行。

在上述方面中的一个或多个方面的至少一些示例中，获取所述第一语音序列包括：获取包括语音帧特征向量的初始集合的初始语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用在所述时间缩减操作之前的所述编码器NN的另一自注意力操作，将所述第一语音序列处理为所述第一语音序列。

在上述方面中的一个或多个方面的至少一些示例中，获取所述初始语音序列包括：获取包括语音帧特征向量的输入集合的输入语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用所述编码器NN的子采样操作将所述输入语音序列处理为所述初始语音序列，其中，所述初始语音序列包括比所述输入语音序列少的语音帧特征向量。

在上述方面中的一个或多个方面的至少一些示例中，所述自注意力操作和所述另一自注意力操作各自由自注意力层的相应子网络执行。

在上述方面中的一个或多个方面的至少一些示例中，所述方法包括基于获得的超参数，针对所述自注意力操作和所述另一自注意力操作中的每一个使用相应数量的自注意力层。

根据另一个示例性方面，公开了一种自动语音识别计算系统，包括：存储可执行指令的存储器；与所述存储器通信的处理设备。所述处理设备用于执行所述指令以使所述计算系统：获取包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用时间缩减操作，将所述第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；使用自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；使用概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列；使用另一自注意力操作和另一概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

在所述系统的一些示例性实施例中，所述处理设备用于执行所述指令以使所述计算系统实现编码器神经网络(neural network，NN)和解码器NN，其中，所述时间缩减操作、所述自注意力操作和所述概率操作各自使用所述编码器NN的相应子网络执行，并且所述另一自注意力操作和所述另一概率操作各自使用所述解码器NN的相应子网络执行。

根据另一示例性方面，提供一种计算机可读介质，存储计算机指令，所述计算机指令由计算机系统的处理设备执行时，使所述计算机系统：获取包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；使用编码器NN的时间缩减操作，将所述第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；使用所述编码器NN的自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；使用所述编码器NN的概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列；使用解码器NN处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

根据又一个示例性方面，提供一种自动语音识别系统，包括：编码器神经网络，可以获取包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧，所述编码器神经网络实现：时间缩减操作，将所述第一语音序列变换为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；自注意力操作，使用自注意力机制将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；概率操作，预测对应于所述语音帧特征向量的第三集合的第一标签序列。所述系统还包括解码器神经网络，对所述第三语音序列进行处理，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

附图说明

现在通过示例参考示出本申请的示例性实施例的附图，其中：

图1是示例性实施例提供的自动语音识别(automatic speech recognition，ASR)系统的结构的框图；

图2是示例性实施例提供的图1的ASR系统的子采样操作的框图；

图3是示例性实施例提供的图1的ASR系统的时间缩减操作的框图；

图4是示例性实施例提供的图1的ASR系统的训练阶段过程的流程图；

图5是另一示例性实施例提供的ASR系统的结构的框图；

图6是示例性实施例提供的图5的ASR系统的编码器训练阶段过程的流程图；

图7是另一示例性实施例提供的ASR系统的结构的框图；

图8是另一示例性实施例提供的ASR系统的结构的框图；

图9是示例性实施例的可用于托管ASR系统的计算系统的框图。

不同附图中可以使用相同的附图标记来表示相同的组件。

具体实施方式

下文将参考附图更全面地描述示例性实施例，其中示出了本发明的一些实施例，但不是全部实施例。本发明中呈现的特征和方面可以以许多不同的形式体现，并且不应解释为限于本文中阐述的实施例。在可能的情况下，本文以单数形式表示的任何术语意指也包括复数形式，反之亦然，除非另有明确说明。在本发明中，使用术语“一/一个”、“所述”也旨在包括复数形式，除非上下文另外清楚地表明。此外，术语“包括”、“具有”当在本发明中使用时，指定了存在所述元件，但不排除存在或添加其它元件。

本发明涉及一种基于变换器的ASR系统，其在一些应用中可以使用比已知的基于变换器的ASR方案少的计算资源，和/或提高预测精度。例如，与以前的方案相比，实现本文档中公开的基于变换器的ASR系统和方法可能需要的计算操作和/或系统内存更少。

在至少一些应用中，所公开的基于变换器的ASR系统和方法可以通过降低在基于变换器的ASR系统的子网络中使用的帧率来提高语音识别的性能。在示例性实施例中，这是通过结合对输入语音帧执行的卷积子采样操作和时间缩减操作来实现的。在一些示例中，可以降低用于训练基于变换器的ARS系统的编码器和解码器以及在推理期间执行训练后的基于变换器的ASR系统的操作的计算成本，同时实现ASR的准确结果。例如，计算成本可以减少到nk²倍，其中，k是帧率降低比，n是时间缩减操作之后的自注意力层的数量。

图1是示例性实施例提供的基于变换器的端到端ASR系统100的框图。如本文所使用的，端到端可以指在系统训练期间，可以同时为从系统输入到输出的所有神经网络和神经网络层学习系统的可学习神经网络参数的系统。在本发明中使用的“学习”可以指在神经网络的训练期间已经调整的操作或值。

基于变换器的ASR系统100接收呈表示口头话语的声源序列X形式的音频输入，并预测表示话语的字素、字符、字或句子片段的对应序列(即转录)Y。声源序列X包括语音帧序列，每个语音帧表示为相应的语音帧特征向量：X＝[x₁,…,x_T](即，帧级声学特征序列)。在示例性实施例中，每个语音帧特征向量x₁，……，x_T包括一组元素，这些元素嵌入了表示其对应语音帧的信息，并且每个语音帧对应于一个时间步长。在示例性实施例中，d_att是包括在每个语音帧特征向量中的元素(即维度)的数量。例如，每个语音帧特征向量x₁，……，x_T中包括的元素可以共同表示其对应语音帧的功率谱包络。每个语音帧具有相同的预定义持续时间(例如，作为非限制性示例，10ms或15ms时间步长持续时间)。在示例性实施例中，每个语音帧特征向量x_i(其中，i是源帧索引，1≤i≤T)是对数梅尔滤波器组特征向量，包括一组称为对数梅尔频率倒谱系数(Mel frequency cepstral coefficient，MFCC)的d_att个元素。

声源序列X中包括的源语音帧的数量通常远多于目标序列Y(即，目标转录)中包括的文本字符或句子片段的数量。例如，对应于15秒长话语的目标序列Y可以包括150个文本字符(例如，30个字，每个字平均5个字符)，这将基于1500个语音帧(假设每帧10ms)预测。因此，帧率降低是成功训练基于变换器的ASR系统100的重要方面。

基于变换器的ASR系统100包括两个神经网络(neural network，NN)，即编码器NN102和解码器NN 104。在训练期间，编码器NN 102和解码器NN 104在给定对应声源序列X下分别预测目标序列Y的逐帧后验分布，即p_ctc(Y|X)和p_s2s(Y|X)。

编码器NN 102包括多个层，其中，连续层的组形成执行相应任务特定操作的NN子网络。在图1中，由编码器NN 102的NN子网络实现的任务特定操作包括：子采样操作106、时间缩减操作108、自注意力操作110和线性/softmax概率操作114。解码器NN 104还包括形成执行相应任务特定操作的NN子网络的多个层。由解码器NN 102的相应NN子网络实现的任务特定操作包括：嵌入操作116、源注意力+自注意力操作118和线性/softmax概率操作120。现在在下文更详细地解释这些操作。

编码器NN 102的子采样操作106用作预处理机制，用于通过应用帧堆叠和跳帧技术，使用卷积来捕获一组源语音帧的嵌入(其示例如图2所示)，以降低输入序列X的帧率。在某些情况下，组合来自多个源语音帧的信息可以形成变换帧，与源语音帧相比，变换帧更有意义地表示音素等单元。在一个示例性实施例中，子采样操作106应用基于卷积的方法来降低帧率，如下所述：Y.Wang等人，用于混合语音识别的基于变换器的声学建模(TRANSFORMER-BASED ACOUSTIC MODELING FOR HYBRID SPEECH RECOGNITION)，ICASSP2020，arXiv:1910.09799v2[cs.CL]2020年4月30日。

在示例性实施例中，子采样操作106可以由等式(1)表示，如下所示：

X₀＝EncPre(X) (1)

在一个示例性实施例中，EncPre(X)子采样操作106通过使用子网络将声源序列X变换为子采样序列

该子网络包括两个卷积神经网络(convolution neuralnetwork，CNN)块202，这两个CNN块各自具有步长大小＝2和核大小＝3，与X的源语音帧率相比，它们共同将输出序列X₀的帧率降低4倍(n_sub是输出序列X₀的帧特征向量的数量，d_att是每个帧特征向量中的元素数量)。CNN块202各自包括CNN层和Relu层，并通过在基于变换器的ASR系统100的端到端训练期间学习的相应可学习参数集配置，所述可学习参数包括权重矩阵和偏置向量。

在示例性实施例中，包括时间缩减操作108，以使用与子采样操作106应用的帧率降低技术不同的帧率降低技术应用另一帧率降低技术。在示例性实施例中，时间缩减操作108用于级联子采样序列X₀中的相邻帧以输出另一时间缩减序列

其中，n_sub2是输出序列X_R的帧长度(例如，输出帧特征向量的数量)，并且n_sub2<n_sub。

图3示出了由等式(2)表示的时间缩减操作108的示例：

X_R＝TR(X₀) (2)

在示例性实施例中，时间缩减操作108使用编码器NN 102的至少一个线性NN层实现，该至少一个线性NN层将学习的线性变换应用于序列

以生成时间缩减的序列X_R＝(h₁,h₂,…,h_nsub2)。在一个示例中，时间缩减操作108基于学习的权重矩阵302将来自序列X₀的两个或更多个帧(例如，语音特征向量)级联到相应帧(例如，语音特征向量)。在一个示例性实施例中，时间分辨率可以降低k倍，其中，k是级联的帧数量。例如，时间分辨率可以降低k＝2^l倍，其中，l是时间缩减操作108中的层数量。通过子采样序列X₀的时间缩减操作生成的时间缩减序列X_R具有减小的长度，即，n_sub2<n_sub。在示例性实施例中，层数量l可以是超参数。在l＝1和k＝2的示例性实施例中，当k＝2时，第i个时间步长的输出处第j层的TR的示例可以用以下等式(4)描述：

时间缩减操作108的一个或多个NN层通过在ASR系统100的端到端训练期间学习的相应可学习参数集配置，所述可学习参数包括权重矩阵302和偏置向量。在各种示例性实施例中，在时间缩减操作108层中计算

不仅限于连续步骤的级联。它可以是减少变换器层中的时间步长的任何技术，例如注意力、级联、密集组合等。

如上所述，基于变换器的ASR系统接收帧级特征向量序列作为输入，并将帧级特征向量序列映射到高级特征向量表示序列。解码器一次一个标记生成转录序列(y1，…，yL)。每个标记yl以高级特征向量表示和通过注意力机制先前生成的标记(y1，…，yl–1)为条件。在这方面，编码器NN 102包括形成用于执行自注意力操作110的子网络的另外一组层。自注意力操作110包括一个或多个自注意力机制，该一个或多个自注意力机制将时间缩减序列X_R变换为高级编码特征向量的另一个序列

如以下等式(5)所示：

X_e＝EncBody(X_R) (5)

其中，e是包括在自注意力操作110中的NN层的数量。

在示例性实施例中，自注意力操作110可以使用如下描述的技术实现：S.Karita等人，语音应用中变换器与RNN的比较研究(A COMPARATIVE STUDY ON TRANSFORMER VS RNNIN SPEECH APPLICATIONS)，ASRU 2019，arXiv:1909.06317v2[cs.CL]，2019年9月28日。

在这方面，自注意力操作110用于使用自注意力机制学习序列信息。通过上下文，点注意力层可以由以下等式(6)定义：

其中，

和/>

是注意力层的输入，d_att是特征维度的数量，n^q是X^q的长度，n^k是X^k的长度。在示例性实施例中，q等于k。

在本发明中，X^qX^kT称为“注意力矩阵”。输入X^q可以视为查询，输入X^k和X^v是键值对集合。

由等式(6)表示的层可以扩展到并行处理多个注意力的多头注意力(multi-headattention，MHA)，如下文等式(7)和等式(8)所示：

其中，

是MHA层的输入，/>

是第h个自注意力层输出(h＝1、……、d^head)，/>

是可学习权重矩阵，d^head是MHA层执行的自注意力操作110的数量。

在一个说明性示例中，自注意力操作110(X_e＝EncBody(X_R))包括e个NN层，并且每个NN层可以定义如下：

其中，i＝0、……、e-1为层索引，f为层范数运算，FF_i为第i个两层前馈网络：

其中，

是输入序列X_R的第t帧，/>

是可学习权重矩阵，/>

是可学习偏置向量。等式(10)中的分量MHA_i(X_i,X_i,X_i)可称为“自注意力”。

在示例性实施例中，线性/softmax概率操作114由线性层执行，然后是softmax层。线性层将学习的线性变换应用于由自注意力操作110生成的高级序列X_e，以便将高级序列X_e投影到用于由softmax层处理的合适空间。然后，softmax层对线性层的输出应用softmax函数，以生成可能的网络输出的概率分布(例如，所有可能的标记(也称为标签)的概率)。因此，编码器NN 102输出目标序列Y的逐帧后验分布(即，p_ctc(Y|X))。在示例性实施例中，线性/softmax概率操作114用于生成联结主义时间分类(connectionist temporalclassification，CTC)输出和评分值。

在示例性实施例中，解码器NN 104使用上述文档中描述的解码器结构实现：S.Karita等人，语音应用中变换器与RNN的比较研究(A COMPARATIVE STUDY ONTRANSFORMER VS RNN IN SPEECH APPLICATIONS)，ASRU 2019，arXiv:1909.06317v2[cs.CL]，2019年9月28日。

如上所述，由解码器NN 102的相应NN子网络实现的任务特定操作包括：嵌入操作116、源注意力+自注意力操作118和交叉熵(cross-entropy，CE)操作120。

嵌入操作116可以由等式(12)表示：

Y₀[1:t-1]＝DecPre(Y[1:t-1-) (12)

其中，t是目标帧索引，Y[1:t-1-是目标Y[t]的上下文。

嵌入操作116用于使用已知的嵌入技术将标记嵌入上下文序列Y₀[1:t-1]中。例如，标记可以是字素、字符、字或句子片段。提供嵌入操作116的NN层的子网络通过在ASR系统100的端到端训练期间学习的相应可学习参数集配置，所述可学习参数包括权重矩阵和偏置向量。

在基于变换器的ASR系统100的训练阶段期间，解码器NN 104输入是对应于源序列X的转录的地面真值标签的地面真值上下文序列Y[1:t-1-。在训练后推理阶段期间，解码器输入是目标上下文序列Y[1:t-1-和开始标记s，该目标上下文序列是由编码器网络102生成的输出。

源注意力操作和自注意力操作118可以分别由

和

表示，其输出可以表示为等式13：

Y_d[t-＝DecBody(X_e,Y₀[1:t-1]) (13)

其中，d是包括在源注意力+自注意力操作118中的NN层的数量。

在示例性实施例中，源注意力+自注意力操作118(DecBody(X_e,Y₀[1:t-1]))用于使用编码序列X_e(由自注意力操作110生成)和目标上下文Y[1:t-1]生成下一个目标帧。源注意力+自注意力操作118(DecBody(X_e,Y₀[1:t-1]))可以通过使用两个注意力模块(自注意力和源注意力)来描述，这两个注意力模块用以下等式表示：

其中，j＝0、……、d-1是解码器层的索引。

描述为编码器-解码器注意力。对于使用解码器生成单向序列，第t个目标帧处的注意力矩阵被掩码，以便它们不会与t之后的未来帧连接。

线性CE操作120可以由等式(17)表示：

Y_post[1:t]＝DecPost(Y_d[1:t]) (17)

线性/softmax概率操作120(DecPost(Y_d[1:t]))用于预测下一个标记预测Y_post[1:t]的后验分布。在示例性实施例中，线性/softmax概率操作120由线性层执行，然后是softmax层。在示例性实施例中，线性/softmax概率操作114用于生成交叉熵(crossentropy，CE)输出和评分值。

因此，解码器NN 104接收标记ID的编码序列X_e和目标上下文序列Y[1:t-1]。首先，嵌入操作116(DecPre(.))将标记嵌入可学习向量Y₀[1:t-1]中。然后，源注意力+自注意力操作(DecBody(.))和线性/softmax操作120(DecPost(.))在给定X_e和Y[1:t-1]下预测下一个标记预测Y_post[t-的后验分布。

形成嵌入操作116、源注意力+自注意力操作118和概率操作120的NN子网络层各自通过在ASR系统100的端到端训练期间学习的相应可学习参数集配置，所述可学习参数包括权重矩阵和偏置向量。

在示例性实施例中，ASR系统100的变换器子网络(即，编码器自注意力操作110和解码器源注意力+自注意力操作118)不包括卷积层或递归层。因此，提供给编码器自注意力操作110和解码器源注意力+自注意力操作118的输入序列中的位置信息可以使用正弦位置编码来表示，如等式18所示：

序列X₀和序列Y₀在分别应用于自注意力操作110和源注意力+自注意力操作118之前与(PE[1]，PE[2]，……)级联。在一些示例性实施例中，子采样操作106也可以应用类似VGG的卷积子采样，在这种情况下，不需要序列X₀的位置编码。

在ASR系统的训练期间，由解码器NN 104预测目标序列Y的“序列到序列”(sequence–to-sequence，S2S)逐帧后验分布(即，例如p_s2s(Y|X))，并且由编码器NN 102的线性/softmax操作114预测目标序列Y的联结主义时间分类(connectionist temporalclassification，CTC)逐帧后验分布(即，p_ctc(Y|X))。由损失函数操作122计算的训练的基于CTC和CE的损失可以描述为：

L_ASR＝-αlogp_s2s(Y|X)-(1-α)logp_ctc(Y|X) (19)

其中，α是超参数。

在至少一些示例性实施例中，训练后推理阶段(也称为解码阶段)，在给定语音特征x和先前预测的标记下，使用波束搜索预测下一个标记，该波束搜索组合了S2S(例如解码器NN 104输出)、CTC(例如，编码器NN 102输出)以及训练后的RNN语言模型(lm)的输出的分数：

其中，y^*是目标序列Y的假设集合，λ、γ是超参数。在这类示例中，RNN lm可以使用已知的架构和训练技术来实现。在一些示例中，RNN lm可以被省略。

在一个示例性实施例中，ASR系统100在训练阶段期间的总体操作可以参考图4描述为：

输入：语音帧序列X和目标输出标签Y

输出：预测的输出标签

以下过程400由编码器NN 102执行：

步骤402：子采样操作108(X₀＝EncPre(X))将序列X变换为序列

以降低帧率。此外，在子采样操作106应用卷积子采样的情况下，序列X₀与等式(18)中描述的(PE[1-，PE[2-，……)级联。

步骤404：将时间缩减操作108(X_R＝TR(X₀))应用于序列X₀，以进一步将序列长度减少k倍。

步骤406：将自注意力操作110(X_e＝EncBody(X_R))应用于时间缩减的序列X_R e次，以生成另一嵌入序列X_e。

步骤408：将概率操作114应用于另一嵌入序列X_e步骤，以在给定源序列X下计算目标序列Y的逐帧后验分布p_ctc(Y|X)。

以下过程410由解码器NN 104执行：

步骤412：嵌入操作116(Y₀[1:t-1]＝DecPre(Y[1:t-1]))应用于输入目标序列Y，以将标记ID的目标序列Y[1:t-1-的先前上下文嵌入可学习向量Y₀[1:t-1-。此外，序列Y₀与(PE[1]，PE[2]，……)连接，如等式(18)中所述。

步骤414：应用源注意力+自注意力操作118(Y_d[t]＝DecBody(X_e,Y₀[1:t-1]))和概率操作120(Y_post[1:t]＝DecPost(Y_d[1:t]))，以在给定X_e和Y[1:t-1-下预测下一个标记预测Y_post[t]的后验分布p_s2s(Y|X)。DecBody(.)应用了d次。

步骤416：应用损失函数操作122来计算

L_ASR＝-αlogp_s2s(Y|X)-(1-α)logp_ctc(Y|X)

步骤418：执行反向传播以使用梯度下降更新ASR系统100参数(例如，权重矩阵和偏置向量)，目的是减少损失。

重复步骤402至418，直到达到阈值损失标准或执行了定义的最大训练迭代次数。

在已经训练ASR系统100后，可以将它部署到一个或多个设备上，并用于现实世界的语音识别活动。如上所述，在一些示例中，ASR系统100可以用训练后的RNN lm网络(未示出)补充，并且使用等式20预测输出标签

给定来自序列X的语音特征x和上一个预测的标记，使用波束搜索预测下一个标记，该搜索波束组合了S2S、CTC和RNN语言模型的分数。

图5示出了基于变换器的E2E ASR系统500的另一示例性实施例，该基于变换器的E2EASR系统500与ASR系统100相同，不同之处在于，在NN编码器102中，时间缩减操作108被插入包括在自注意力操作110中的e个变换器NN层的堆叠中。如图5所示，时间缩减操作108的NN层已经被划分为实现第一自注意力操作110-1和第二自注意力操作110-2的第一子网络和第二子网络，时间缩减操作108位于第一自注意力操作与第二自注意力操作之间。在一个示例性实施例中，第一自注意力操作110-1包括e1个层，第二自注意力操作110-2包括e2个层，其中，e＝e1+e2。ASR系统500的NN编码器102可以表示如下：

X₀＝EncPre(X)

X₁＝Enc1Body(X₀)

X_R＝TR(X₁)

X_e＝Enc2Body(X_R)

另外是层数的差异，Enc1Body(.)和Enc2Body(.)各自具有与上文关于EncBody(.)描述的相同的配置。在至少一些场景下，在执行时间缩减之前应用一些自注意力层可以提高ASR系统500相对于ASR系统100的精度。

图6是由ASR系统500的NN编码器102执行的修改的编码器NN过程400A的流程图。编码器NN过程400A与编码器NN过程400A相同，不同之处在于，时间缩减操作108在自注意力操作的层之间移动，如以下描述所示：

步骤402：子采样操作108(X₀＝EncPre(X))将序列X变换为序列

以降低帧率。此外，在子采样操作106应用卷积子采样的情况下，序列X₀与等式(18)中描述的(PE[1]，PE[2]，……)级联。

步骤406A：将第一自注意力操作110-1(X₁＝Enc1Body(X₀))应用于帧减少序列X₀e1次，以生成另一嵌入序列X₁。

步骤404：将时间缩减操作108(X_R＝TR(X₁))应用于序列X₁，以进一步将序列长度减少k倍。

步骤406B：将第二自注意力操作110-2(X_e＝Enc2Body(X_R))应用于时间缩减的序列X_R e2次，以生成另一嵌入序列X_e。

尽管越来越受欢迎，但在语音和语义识别领域中以前已知的基于变换器的ASR系统，如果长度l的输入序列增加m步，计算效率就会下降

本文描述的示例性实施例在某些情况下可以通过应用时间缩减子网络来减轻变换器的计算效率负担。在某些应用中，所提出的方法可以将编码器自注意力操作的计算成本降低nk²倍，其中，k是帧率降低，n是时间缩减子网络层之后的变换器层的数量。所描述的实施例组合了变换器中的时间步长，其可以应用于不限于文本分类的语音和语义领域，并且还可以应用于神经机器翻译、自动语音识别、说话人验证和关键字发现任务等。

图7示出了基于变换器的E2E ASR系统700的另一示例性实施例，该基于变换器的E2EASR系统700与ASR系统100相同，不同之处在于，在NN编码器102中省略了子采样操作106，并且时间缩减操作108直接对输入语音序列X操作(例如，X_R＝EncPre(X))。在这类示例中，可以将附加NN层添加到时间缩减操作108中，以提供其它级别的帧级联。

图8示出了基于变换器的E2E ASR系统800的另一示例性实施例，该基于变换器的E2EASR系统800与ASR系统100相同，不同之处在于，子采样操作106被侦察NN 806替换，时间缩减操作108被自适应时间缩减操作808替换。侦察NN 806(例如，可以使用如C.Wang等人，使用侦察网络的低延迟端到端流语音识别，https://arxiv.org/abs/2003.10369 2020 [12]中描述的侦察网络来实现)用于在强制对齐器的帮助下检测字边界。侦察NN 806确定语音中字开始和停止的边界。自适应时间缩减操作808用于相对于由侦察NN 806网络输出的字边界级联不同数量的帧。本实施例可能需要单独的神经网络在ASR系统编码器中应用自适应时间缩减。

图9是适用于实现本文所述的实施例的计算系统100的简化示例性实现方式的框图。本发明的示例可以在其它计算机系统中实现，所述其它计算机系统可以包括与下文讨论的组件不同的组件。例如，在一些示例中，计算系统100可以是人工智能(artificialintelligence，AI)芯片、专用集成电路(application specific integrated circuit，ASIC)或现场可编程门阵列(field programmable gate array，FPGA)，其包括根据本文描述的示例所述的压缩嵌入矩阵的电路。

虽然图9示出了每个组件的单个实例，但是在计算系统100中可能存在每个组件的多个实例。

计算系统100可以是包括位于数据中心中的一个或多个服务器的服务器端设备，或云计算系统等，其中，嵌入矩阵可以根据本文描述的示例进行压缩。在一些示例中，计算系统100可以是用户设备，例如客户端设备/终端、用户设备(equipment/device)(userequipment，UE)、移动站(station，STA)、智能手机、笔记本电脑、计算机、平板电脑、智能设备、机器类通信设备、智能(或连接)车辆或消费电子设备，等等。在一些示例中，计算系统100可以是边缘计算设备。

计算系统100可以包括一个或多个处理设备114，例如处理器、微处理器、数字信号处理器、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、专用逻辑电路、专用人工智能处理单元、张量处理单元、神经处理单元、硬件加速器，或其组合。计算系统100还可以包括一个或多个可选输入/输出(input/output，I/O)接口116，这些可选I/O接口116可以支持与一个或多个可选输入设备118和/或可选输出设备120连接。

在所示的示例中，一个或多个输入设备118(例如，键盘、鼠标、麦克风、触摸屏和/或小键盘)和一个或多个输出设备120(例如，显示器、扬声器和/或打印机)示出为可选且在服务器外部。在其它示例性实施例中，可能不存在任何输入设备118和输出设备120，在这种情况下，可能不需要I/O接口116。

计算系统100可以包括一个或多个网络接口122，用于与网络中的其它计算设备进行有线或无线通信。一个或多个网络接口122可以包括用于网络内和/或网络间通信的有线链路(例如，以太网线)和/或无线链路(例如，一个或多个天线)。

计算系统100还可以包括一个或多个存储单元124，其中，所述一个或多个存储单元124可以包括固态驱动器、硬盘驱动器、磁盘驱动器和/或光盘驱动器等大容量存储单元。

计算系统100可以包括一个或多个存储器128，其中，所述一个或多个存储器128可以包括易失性或非易失性存储器(例如，闪存、随机存取存储器(random access memory，RAM)和/或只读存储器(read-only memory，ROM))。一个或多个非瞬时性存储器128可以存储由一个或多个处理设备114执行的指令，例如，以执行本发明中所描述的示例性实施例。一个或多个存储器128可以包括其它软件指令，例如用于实现操作系统和其它应用/功能的软件指令。

在一些示例性实施例中，一个或多个存储单元124(或一个或多个存储器128)可以包括供处理设备1114执行以实现ASR系统100、500、700或800的软件指令1101。在一些示例性实施例中，或者或另外，一个或多个存储器128可以包括供处理设备114执行以实现ASR系统100、500、700或800的软件指令。在一些示例性实施例中，另外或或者，计算系统100可以执行来自外部存储器(例如，与服务器有线或无线通信的外部驱动器)的指令，或者可以由瞬时性或非瞬时性计算机可读介质提供可执行指令。非瞬时性计算机可读介质的示例包括RAM、ROM、可擦除可编程ROM(erasable programmable ROM，EPROM)、电可擦除可编程ROM(electrically erasable programmable ROM，EEPROM)、闪存、CD-ROM或其它便携式存储器。

可以对所描述的实施例进行某些调整和修改。因此，应认为上文讨论的实施例是说明性的，而不是限制性的。

在本发明中识别的所有发表论文的内容通过引用的方式并入本文。

Claims

1.一种使用基于变换器的ASR系统进行自动语音识别的计算机实现的方法，其特征在于，包括：

获取包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；

使用编码器NN的时间缩减操作，将所述第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；

使用所述编码器NN的自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；

使用所述编码器NN的概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列；

使用解码器NN处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

2.根据权利要求1所述的方法，其特征在于，所述方法包括，在所述编码器NN和所述解码器NN的训练阶段期间：

基于所述预测的第一标签序列和所述预测的第二标签序列计算损失函数；

使用梯度下降执行反向传播，以更新所述解码器NN和所述编码器NN的可学习参数，以减小所述损失函数。

3.根据权利要求2所述的方法，其特征在于，所述方法包括在推理阶段期间，

基于所述预测的第一标签序列和所述预测的第二标签序列，计算所述第三语音序列的标签序列。

4.根据权利要求1至3中任一项所述的方法，其特征在于，获取所述第一语音序列包括：

获取包括语音帧特征向量的输入集合的输入语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；

使用所述编码器NN的子采样操作将所述输入语音序列处理为所述第一语音序列，其中，所述第一语音序列包括比所述输入语音序列少的语音帧特征向量。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述时间缩减操作使用所述编码器NN的一个或多个线性NN层执行。

6.根据权利要求1至5中任一项所述的方法，其特征在于，获取所述第一语音序列包括：

获取包括语音帧特征向量的初始集合的初始语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧；

使用在所述时间缩减操作之前的所述编码器NN的另一自注意力操作，将所述第一语音序列处理为所述第一语音序列。

7.根据权利要求6所述的方法，其特征在于，获取所述初始语音序列包括：

使用所述编码器NN的子采样操作将所述输入语音序列处理为所述初始语音序列，其中，所述初始语音序列包括比所述输入语音序列少的语音帧特征向量。

8.根据权利要求6所述的方法，其特征在于，所述自注意力操作和所述另一自注意力操作各自由自注意力层的相应子网络执行。

9.根据权利要求8所述的方法，其特征在于，所述方法包括基于获得的超参数，针对所述自注意力操作和所述另一自注意力操作中的每一个使用相应数量的自注意力层。

10.一种自动语音识别计算系统，其特征在于，包括：

存储可执行指令的存储器；

与所述存储器通信的处理设备，所述处理设备用于执行所述指令以使所述计算系统：

使用时间缩减操作，将所述第一语音序列处理为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；

使用自注意力操作，将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；

使用概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第一标签序列；

使用另一自注意力操作和另一概率操作处理所述第三语音序列，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。

11.根据权利要求10所述的系统，其特征在于，所述处理设备用于执行所述指令以使所述计算系统实现编码器神经网络(neural network，NN)和解码器NN，其中，所述时间缩减操作、所述自注意力操作和所述概率操作各自使用所述编码器NN的相应子网络执行，并且所述另一自注意力操作和所述另一概率操作各自使用所述解码器NN的相应子网络执行。

12.根据权利要求11所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算系统在所述编码器NN和所述解码器NN的训练阶段期间：

13.根据权利要求11所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算系统在推理阶段期间：

14.根据权利要求10至13中任一项所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算系统通过以下方式获得所述第一语音序列：

使用子采样操作将所述输入语音序列处理为所述第一语音序列，其中，所述第一语音序列包括比所述输入语音序列少的语音帧特征向量。

15.根据权利要求10至14中任一项所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算机系统通过以下方式获得所述第一语音序列：

16.根据权利要求15所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算机系统通过以下方式获得所述初始语音序列：

17.根据权利要求15所述的系统，其特征在于，所述处理设备用于执行所述指令以使所述计算机系统使用自注意力层的相应子网络来执行所述自注意力操作和所述另一自注意力操作。

18.根据权利要求17所述的系统，其特征在于，所述处理设备用于执行所述指令，以使所述计算机系统基于获得的超参数，针对所述自注意力操作和所述另一自注意力操作中的每一个使用相应数量的自注意力层。

19.一种计算机可读介质，其特征在于，包括指令，所述指令由计算机系统的处理设备执行时，使所述计算机系统执行根据权利要求1至9中任一项所述的方法。

20.一种计算机程序，其特征在于，包括指令，所述指令由计算机系统的处理设备执行时，使所述计算机系统执行根据权利要求1至9中任一项所述的方法。

21.一种自动语音识别系统，其特征在于，包括：

编码器神经网络，用于处理包括语音帧特征向量的第一集合的第一语音序列，所述语音帧特征向量各自表示对应于相应时间步长的相应语音帧，所述编码器神经网络实现：

时间缩减操作，将所述第一语音序列变换为包括语音帧特征向量的第二集合的第二语音序列，所述语音帧特征向量各自级联来自所述第一集合中包括的相应多个所述语音帧特征向量的信息，其中，所述第二语音序列包括比所述第一语音序列少的语音帧特征向量；

自注意力操作，使用自注意力机制将所述第二语音序列变换为包括语音帧特征向量的第三集合的第三语音序列；

概率操作，预测对应于所述语音帧特征向量的第三集合的第一标签序列；

解码器神经网络，对所述第三语音序列进行处理，以预测对应于所述语音帧特征向量的第三集合的第二标签序列。