CN115019785A

CN115019785A - 流式语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN115019785A
Application number: CN202210576178.5A
Authority: CN
Inventors: 王方圆; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-09-06

Abstract

本发明提供一种流式语音识别方法、装置、电子设备及存储介质，其中流式语音识别方法包括：获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码，并引入移位块自注意力编码层，实现了自注意力得分的跨块计算，确保了音频编码器的线性时间复杂度；从而快速生成具有全局上下文信息的目标音频编码特征序列，对该特征序列进行解码并生成语音识别文本，有效提高了流式语音识别的准确率。

Description

流式语音识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种流式语音识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，基于深度神经网络的端到端技术推动语音识别迈入了实用阶段。当前主流的架构是基于转换器(Transformer)编解码框架的端到端语音识别系统。其中，Transformer模型由于其可以更好地对全局序列信息进行建模，使得序列到序列预测问题的性能得到了提升。

然而在相关技术中，基于Transformer的端到端语音识别系统难以直接应用于流式语音识别。主要原因包括：首先，Transformer在解码过程中，需要全部的输入信息，无法直接支持流式识别；其次，Transformer的自注意力机制的计算量和内存占用量随着输入序列长度的增加呈二次方增长。

综上所述，相关技术中，在利用Transformer模型对流式语音进行识别时，识别的准确率较低。因此，如何提高流式语音识别的准确率是目前业界亟待解决的重要课题。

发明内容

针对现有技术存在的问题，本发明是实施例提供一种流式语音识别方法、装置、电子设备及存储介质。

本发明提供一种流式语音识别方法，包括：

获取原始音频数据，基于所述原始音频数据生成原始特征序列；

将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，所述音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；

将所述目标音频编码特征序列输入音频解码器，生成语音识别文本。

可选地，在所述基于所述原始音频数据生成原始特征序列之前，还包括：

对所述原始音频数据进行数据扩充及数据增强处理。

可选地，所述基于所述原始音频数据生成原始特征序列，包括：

提取所述原始音频数据的倒谱域特征序列；

将所述倒谱域特征序列进行下采样操作，生成下采样操作后的特征序列；

将所述下采样操作后的特征序列尾部进行填充，生成符合预设长度的原始特征序列。

可选地，所述将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，包括：

将所述原始特征序列输入所述分块自注意力机制编码层，生成第一音频编码特征序列；将所述第一音频编码特征序列输入所述移位块自注意力机制编码层，生成第二音频编码特征序列；

将所述第二音频编码特征序列输入至所述分块自注意力机制编码层进行N次循环迭代，得到所述移位块自注意力机制编码层输出的所述目标音频编码特征序列；N为正整数。

可选地，所述将所述原始特征序列输入所述分块自注意力机制编码层，生成第一音频编码特征序列，包括：

将所述原始特征序列进行均匀分块处理，得到多个第一特征序列块；

计算每个所述第一特征序列块的第一自注意力得分，并基于每个第一特征序列块中的特征序列及每个第一特征序列块对应的第一自注意力得分，生成所述第一音频编码特征序列。

可选地，所述将所述第一音频编码特征序列输入所述移位块自注意力机制编码层，生成第二音频编码特征序列，包括：

利用循环移位的方式对所述第一音频编码特征序列重新进行分块处理，得到多个第二特征序列块；

计算每个所述第二特征序列块的第二自注意力得分，并基于每个第二特征序列块中的特征序列及每个第二特征序列块对应的第二自注意力得分，生成所述第二音频编码特征序列。

可选地，所述基于每个第二特征序列块中的特征序列及每个第二特征序列块对应的第二自注意力得分，生成所述第二音频编码特征序列，包括：

识别每个所述第二特征序列块之间特征序列的时序约束，并基于所述时序约束，采用预设掩码机制对每个所述第二特征序列块的第二自注意力得分进行掩码处理；

基于掩码后的第二自注意力得分，生成所述第二音频编码特征序列。

可选地，所述音频解码器包括连接时序分类解码层和Transformer解码层；

所述将所述目标音频编码特征序列输入音频解码器，生成语音识别文本，包括：

将所述目标音频编码特征序列分别输入连接时序分类解码层和所述Transformer解码层，得到第一声学预测得分和第二声学预测得分；

根据所述第一声学预测得分和所述第二声学预测得分，基于集束搜索算法，生成所述语音识别文本。

本发明还提供一种流式语音识别装置，包括：

获取模块，用于获取原始音频数据，基于所述原始音频数据生成原始特征序列；

第一生成模块，用于将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，所述音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；

第二生成模块，用于将所述目标音频编码特征序列输入音频解码器，生成语音识别文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述流式语音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述流式语音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述流式语音识别方法。

本发明提供的流式语音识别方法、装置、电子设备及存储介质，通过获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码，在此基础上引入移位块自注意力编码层，实现了自注意力得分的跨块计算，并能够确保音频编码器具有线性时间复杂度，从而快速生成具有全局上下文信息的目标音频编码特征序列，对该特征序列进行解码并生成语音识别文本，有效提高了流式语音识别的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的流式语音识别方法的流程示意图之一；

图2是本发明提供的音频编码器的结构示意图；

图3是本发明提供的移位块自注意力机制计算方式示意图；

图4是本发明提供的循环移位方式示意图；

图5是本发明提供的掩码方式示意图；

图6是本发明提供的流式语音识别方法的流程示意图之二；

图7是本发明提供的流式语音识别装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着人工智能的发展，基于深度神经网络的端到端技术推动语音识别迈入了实用阶段。当前主流的架构包括：一是基于连接时序分类(Connectionist TemporalClassification，CTC)的端到端语音识别系统；二是基于循环神经网络传感器(RecurrentNeural Network Transducer，RNN-T)的端到端语音识别系统；三是基于转换器(Transformer)编解码框架的端到端语音识别系统。其中，Transformer模型由于其可以更好地对全局序列信息进行建模，使得序列到序列预测问题的性能得到了大幅度的提升，显示出巨大的应用潜力。

然而，基于Transformer的端到端语音识别系统难以直接应用于流式语音识别。主要原因包括：首先，Transformer在解码过程中，需要全部的输入信息，无法直接支持流式识别；其次，Transformer的自注意力机制的计算量和内存占用量随着输入序列长度的增加呈二次方增长。

目前针对上述问题主要有以下三种解决方案：一是基于受限时长的方法，对历史输入信息和有限长度的未来输入信息之间进行注意力计算，此类方法虽可以对全局历史信息进行建模，但由于感受野随Transformer层数线性增长，该方法会引入较大的延迟；二是基于分块(Chunk)机制的方法，将语音在时间序列上进行分块，并在块内计算自注意力，此类方法虽然在分块长度固定的条件下具备线性时间复杂度，由于忽略了不同块之间的关系，此类方法的识别准确率往往会急剧下降；三是基于记忆机制的方法，引入记忆模块对历史信息进行编码，并通过与分块机制结合提升识别性能，然而此类方法由于引入了有时序依赖管的记忆机制，Transformer的可并行训练的特性遭到破坏，通常需要更长的训练时间。

由此可见，当前尚未缺乏同时具备全局历史序列建模、线性时间复杂度与可并行训练的基于Transformer的端到端流式语音识别方法。

基于上述问题，为了提高流式语音识别的准确率，本发明提供了一种流式语音识别方法，从而能够提高流式语音识别的准确率。

下面结合图1-图6对本发明提供的流式语音识别方法进行详细说明。

参见图1，图1是本发明提供的流式语音识别方法的流程示意图之一，具体包括步骤101-步骤103。

步骤101、获取原始音频数据，基于所述原始音频数据生成原始特征序列。

具体地，在本实施例中，原始音频数据是指待识别的音频数据，其音频数据的格式可以为多种，例如WAV格式、AIFF格式、FLAC格式、ALAC格式等等，本发明对原始音频数据的格式不做限定。

在获取到原始音频数据之后，需要基于原始音频数据生成原始特征序列，其中，原始特征序列是包括有原始音频元素的特征序列。

可选地，为了提高流式语音识别的准确率，在获取到原始音频数据之后，基于原始音频数据生成原始特征序列之前，还需要对所述原始音频数据进行数据扩充及数据增强处理。

在实际应用中，一方面，对原始音频数据进行数据扩充可以通过多种方式实现，具体地，可以对原始音频数据进行变速率处理，例如，对原始音频数据的播放速率进行加快或减慢；还可以对原始音频数据的音调进行处理，例如，对原始音频数据的音调进行升高或降低等。

通过上述方式，可以将原始音频数据进行有效的扩充。

另一方面，除了对原始音频数据进行数据扩充之外，还需要对原始音频数据进行数据增强处理，对原始音频数据进行数据增强可以通过多种方式实现。

具体地，可以利用SpecAugment算法对原始音频数据进行数据增强，也可以对原始音频数据进行音频加噪处理进行数据增强。

其中，SpecAugment算法是一种应用于log梅尔声谱层面上的数据增强算法，也就是说，将原始音频数据转换为梅尔频谱，然后将梅尔频谱作为一通道的图像数据，对图像进行平移数据增强，随机掩盖图像上的连续若干行进行时间维度的增强，随机掩盖图像上的连续若干列进行频率维度的增强，从而实现对时间维度以及频率维度的增强。

在上述实施方式中，通过对原始音频数据进行数据扩充以及数据增强处理，从而提升了原始音频数据对噪音数据的鲁棒性。

可选地，在本发明实施例一种可能的实现方式中，基于所述原始音频数据生成原始特征序列，具体可以通过以下方式实现：

提取所述原始音频数据的倒谱域特征序列；

在本实施例中，在获取到原始音频数据之后，需要提取原始音频数据的倒谱域特征，然后将倒谱域特征进行下采样操作，生成下采样操作后的特征序列，最后将下采样操作后的特征序列的尾部进行填充，进而得到符合预设特征序列长度的原始特征序列。

具体地，所述倒谱域特征序列用于提取原始音频数据的语音特征，且倒谱域特征序列是将原始音频数据的功率谱的对数进行傅里叶反变换得到的。

例如，倒谱域特征序列用于提取原始音频数据的声道特征信息(例如包络特征)，以此作为描述音韵的特征参数而应用于语音识别；又例如，倒谱域特征序列用于提取原始音频数据的音源信息(例如基音特征)，以此作为描述音韵特征的辅助参数而应用于语音识别。

一般地，在实际应用中，在提取原始音频数据的倒谱域特征序列时，可以提取80维Fbank特征序列。

在提取出原始音频数据的倒谱域特征序列之后，便对倒谱域特征序列进行下采样操作。

一般地，在实际应用中，在对倒谱域特征序列进行下采样操作时，可以采用两层卷积神经网络(Convolutional Neural Networks，CNN)对倒谱域特征序列进行4倍下采样，进而生成下采样操作后的特征序列。

在本实施例中，对倒谱域特征序列进行下采样操作，其目的是为了减少对倒谱域特征序列进行采样的频率，从而减少了运算时间，进而可以提高语音识别的效率。

在生成下采样操作后的特征序列之后，需要将下采样操作后的特征序列的尾部进行填充，生成符合预设长度的原始特征序列，从而使得各下采样操作后的特征序列等长，减少了语音识别运算的复杂度，进而能够提高语音识别的效率。其中，预设长度为预设特征序列长度，该预设长度是基于当批下采样操作后的特征序列的长度决定的。

具体地，由于在流式语音中，批量处理的下采样操作后的特征序列不等长，因此需要对同一批次(Batch)的下采样操作后的特征序列的尾部进行填充(Padding)至相同长度，使得各下采样操作后的特征序列的长度均略大于当批最长的特征序列的长度，并且该特征序列长度可被音频编码器中的块尺寸(Chunk Size)整除。需要说明的是，音频编码器的相关实施例内容将在步骤102中进行具体阐述，故在此不再赘述。

在上述实施方式中，通过提取原始音频数据的倒谱域特征序列，可以提取出原始音频数据的声道特征信息；将倒谱域特征进行下采样操作，生成下采样操作后的特征序列，减少对倒谱域特征序列进行采样的频率，从而减少了语音识别的运算时间，进而可以提高语音识别的效率；将下采样操作后的特征序列尾部进行填充，生成符合预设长度的原始特征序列，使得各下采样操作后的特征序列等长，减少了语音识别运算的复杂度，进而能够提高语音识别的效率。

步骤102、将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，所述音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层。

具体地，在本实施例中，在获取到原始音频数据，基于原始音频数据生成原始特征序列之后，需要将原始特征序列输入音频编码器，从而生成音频编码特征序列。

其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层，是一种基于移位块策略的网络结构。

参见图2，图2是本发明提供的音频编码器的结构示意图。在图2中，基于移位块策略的网络结构包括两部分，分别为分块自注意力机制编码层(Chunk-Multihead Self-Attention，C-MSA)和移位块自注意力机制编码层(Shifted Chunk-Multihead Self-Attention，SC-MSA)。

其中，在图2中，C-MSA表示分块自注意力机制编码单元；SC-MSA表示移位块自注意力机制编码单元；FFN表示前向传播单元；LN表示层归一化单元；

表示分块自注意力机制编码层的输出；z^l表示移位块自注意力机制编码层的输出。

N个基于移位块策略的单层网络结构进行叠加，从而构成音频编码器，N为正整数。

需要说明的是，分块自注意力机制编码层与传统自注意力机制层的区别在于，分块自注意力机制编码层在进行自注意力计算时，采用均匀划分的块内进行自注意计算；

移位块自注意力机制编码层与传统自注意力机制层的区别在于，移位块自注意力机制编码层在进行自注意力计算时，采用移位块划分的块内进行自注意计算。

可选地，在本发明实施例一种可能的实现方式中，将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，具体可以通过以下方式实现：

具体地，在本实施例中，音频编码器为N个分块自注意力机制编码层以及移位块自注意力机制编码层进行叠加生成的。

因此，在将原始特征序列输入音频编码器进行编码时，首先需要将原始特征序列输入分块自注意力编码层进行编码，从而生成第一音频编码特征序列，其中，第一音频编码特征序列为分块自注意力编码特征序列；

再将第一音频编码特征序列输入移位块自注意力机制编码层，从而生成第二音频编码特征序列，其中，第二音频编码特征序列为移位块自注意力编码特征序列；

然后再将第二音频编码特征序列迭代输入至分块自注意力机制编码层，在经过N次循环迭代之后，便可得到移位块自注意力机制编码层输出的目标音频编码特征序列。

也就是说，在将原始特征序列输入音频编码器进行编码时，先将原始特征序列输入音频编码器第一层的分块自注意力机制编码层，然后将第一层分块自注意力机制编码层的输出作为第一层移位块自注意力机制编码层的输入；

然后将第一层移位块自注意力机制编码层的输出作为第二层分块自注意力机制编码层的输入，将第二层分块自注意力机制编码层的输出作为第二层移位块自注意力机制编码层的输入，依次迭代执行N次，直到将第N-1层移位块自注意力机制编码层的输出作为第N层分块自注意力机制编码层的输入，将第N层分块自注意力机制编码层的输出作为第N层移位块自注意力机制编码层的输入，便可得到第N层移位块自注意力机制编码层输出的目标音频编码特征序列。

通过上述实施方式，基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码，在此基础上引入移位块自注意力编码层，并能够确保音频编码器的线性时间复杂度，实现了自注意力得分的跨块计算，从而快速生成具有全局上下文信息的目标音频编码特征序列。进一步地，对该目标音频编码特征序列进行解码并生成语音识别文本，进而有效提高了流式语音识别的准确率。

可选地，在本申请实施例一种可能的实现方式中，将所述原始特征序列输入所述分块自注意力机制编码层，生成第一音频编码特征序列，具体可以通过以下方式实现：

具体地，在本实施例中，首先需要将原始特征序列输入分块自注意力机制编码层，然后利用分块自注意力机制编码层中的固定尺寸的块，将原始特征序列进行均匀分块处理，进而得到多个特征序列块作为第一特征序列块。在实际应用中，可以将块的尺寸设定为16。

然后计算每个第一特征序列块中的第一自注意力得分，基于每个第一特征序列块的第一自注意力得分，生成第一音频编码特征序列，其中，第一自注意力得分是指基于自注意力机制计算每一个第一特征序列块范围内特征序列的自注意力得分。

具体地，每个第一特征序列块中的第一自注意力得分可以通过以下公式(1)-(2)计算得到：

其中，C-MSA表示分块自注意力机制编码层中的分块自注意力机制编码单元；FFN表示前向传播单元；LN表示层归一化单元；

在利用公式(1)-(2)计算出每个第一特征序列块中的第一自注意力得分之后，将每个第一特征序列块中的第一自注意力得分与每个第一特征序列块中的特征序列相乘，从而生成第一音频编码特征序列。

在上述实施方式中，通过将原始特征序列输入分块自注意力机制编码层，从而能够生成具有局部上下文信息的第一音频编码特征序列。

可选地，在本发明实施例一种可能的实现方式中，将所述第一音频编码特征序列输入所述移位块自注意力机制编码层，生成第二音频编码特征序列，具体可以通过以下方式实现：

具体地，在本实施例中，在生成第一音频编码特征序列之后，分块自注意力机制编码层中的固定尺寸的块依旧会将第一音频编码特征序列划分为多个特征序列块。

此时，需要利用循环移位的方式，对划分为多个特征序列块的第一音频编码特征序列重新进行均匀分块处理，从而得到第二特征序列块，其中，第二自注意力得分是指基于自注意力机制计算每一个第二特征序列块范围内特征序列的自注意力得分。

然后计算每个第二特征序列块中的第二自注意力得分，基于每个第二特征序列块的第二自注意力得分，生成第二音频编码特征序列。

具体地，每个第二特征序列块中的第二自注意力得分可以通过以下公式(3)-(4)计算得到：

其中，SC-MSA表示移位块自注意力机制编码层中的移位块自注意力机制编码单元；FFN表示前向传播单元；LN表示层归一化单元；

在利用公式(3)-(4)计算出每个第二特征序列块中的第二自注意力得分之后，将每个第二特征序列块中的第二自注意力得分与每个第二特征序列块中的特征序列相乘，从而生成第二音频编码特征序列。

图3是本发明提供的移位块自注意力机制计算方式示意图。参见图3所示，在第L层采用分块自注意力机制编码层对原始特征序列进行均匀分块，得到第一音频编码特征序列以及第一音频编码特征序列对应的多个第一特征序列块，并在每个第一特征序列块内计算第一自注意力得分；

在L+1层采用移位块自注意力机制编码层对第一音频编码特征序列对应的多个第一特征序列块重新进行分块处理，得到第二音频编码特征序列以及第二音频编码特征序列对应的多个第二特征序列块，并在每个第二特征序列块内计算第二自注意力得分。

由于第二特征序列块跨越了L层中第一特征序列块的边界，因此能够提供跨块的上下文信息，通过多层的迭代操作进而可获取具有全局上下文信息的目标音频编码特征序列。

具体地，利用循环移位的方式对第一音频编码特征序列重新进行分块处理，可以通过以下方式实现：

首先将第一音频编码特征序列中各特征序列块的特征序列从尾部反向循环移动到头部，移动位数为固定尺寸块长度的1/2，从而实现对第一音频编码特征序列重新进行分块处理。

具体循环移位的过程如图4所示，图4是本发明提供的循环移位方式示意图。在图4的原始块分区(即上文提及的多个第一特征序列块)中，A、B、C、D为多个第一特征序列块中第一个特征序列块的特征序列；E、F、G、H为多个第一特征序列块中第二个特征序列块的特征序列；I、J、K、L为多个第一特征序列块中第三个特征序列块的特征序列；M、PAD1、PAD2、PAD3为多个第一特征序列块中第四个特征序列块的特征序列，其中，PAD1、PAD2、PAD3为对第一音频编码特征序列的尾部进行填充的特征序列。

然后将多个第一特征序列块中第一个特征序列块的前1/2特征序列移动到第四个特征序列块的尾部，第一个特征序列块的后1/2特征序列左移至原前1/2特征序列处，后续所有特征序列块中的特征序列以此类推，最终生成移位后块分区(即上文提及的多个第二特征序列块)。

具体地，C、D、E、F为多个第二特征序列块中第一个特征序列块的特征序列；G、H、I、J为多个第二特征序列块中第二个特征序列块的特征序列；K、L、M、PAD1为多个第二特征序列块中第三个特征序列块的特征序列；PAD2、PAD3、A、B为多个第二特征序列块中第四个特征序列块的特征序列。

通过上述方法进行循环移位的优点在于移位之后的特征序列块数量与移位前的特征序列块数量一致，便于对原始特征序列进行批量并行计算，从而提高生成目标音频编码特征序列的效率。

可选地，在本发明实施例一种可能的实现方式中，基于所述第二自注意力得分，生成所述第二音频编码特征序列，具体可以通过以下方式实现：

具体地，在本实施例中，由于输入音频编码器的原始特征序列是由流式音频数据生成的，流式语音在时序上具有很强的逻辑关系。若直接在循环移位后多个第二特征序列块内计算第二自注意力得分，会破坏流式语音在时序上的逻辑关系。

例如，按照流式语音在时序上的逻辑关系，图4中移位之后的多个第二特征序列块中，第一个特征序列块中包含有特征序列C、D、E、F，其中，C、D不能参与E、F的第二自注意力计算。

原因在于，E、F相对于C、D而言是未来的特征序列，反之E、F可以参加C、D的第二自注意力计算。因为相对于E、F而言，C、D属于历史特征序列。

因此，在本实施例中，在基于第二自注意力得分，生成第二音频编码特征序列时，需要先识别每个第二特征序列块之间特征序列的时序约束，采用预设掩码机制将每个第二特征序列块中的未来特征序列的自注意力得分进行掩码处理，然后基于掩码后的第二自注意力得分，生成第二音频编码特征序列。

具体利用掩码机制进行掩码处理的过程如图5所示，图5是本发明提供的掩码方式示意图。在图5中，横向坐标为移位块自注意力机制编码层的输入，纵向坐标为移位块自注意力机制编码层的输出，在若干个第二特征序列块中，底色为黑色的区域为某个第二特征序列块的历史特征序列的第二自注意力得分，底色为白色的区域为某个第二特征序列块的未来特征序列的第二自注意力得分。

在进行掩码时，需要将底色为白色的区域的未来特征序列进行掩码处理，然后掩码后的第二自注意力得分，生成所述第二音频编码特征序列。

通过上述方法，采用预设掩码机制对每个第二特征序列块的第二自注意力得分进行掩码处理；基于掩码后的第二自注意力得分，生成第二音频编码特征序列，可以保证流式语音在时序上的逻辑关系，从而提高流式语音识别的准确率。

步骤103、将所述目标音频编码特征序列输入音频解码器，生成语音识别结果。

在本实施例中，在将原始特征序列输入音频编码器，生成目标音频编码特征序列之后，还需要将目标音频编码特征序列输入音频解码器，从而生成语音识别结果，其中，语音识别结果为原始音频数据对应的识别文本。

具体地，音频解码器包括连接时序分类解码层和Transformer解码层；

将所述目标音频编码特征序列输入音频解码器，生成语音识别结果，具体可以通过以下方式实现：

在本实施例中，音频解码器包括连接时序分类解码层(即连接时序分类模型(Connectionist Temporal Classification，CTC))以及Transformer解码层；将目标音频编码特征分别输入至连接时序分类解码层以及Transformer解码层，从而能够获得第一声学预测得分和第二声学预测得分。

具体地，CTC解码层由一个线性层和一个log softmax层构成，将目标音频编码特征输入到CTC解码层，在训练CTC解码层的测试阶段得到CTC声学预测得分，也即第一声学预测得分，其中，第一声学预测得分是指CTC解码层输出的原始音频数据对应的多个识别文本中每一个字的声学预测得分；

同时，将目标音频编码特征输入Transformer解码层中，训练Transformer解码层的网络参数，在训练Transformer解码层的测试阶段得到Transformer解码的声学预测得分，也即第二声学预测得分，其中，第二声学预测得分是指Transformer解码层输出的原始音频数据对应的多个识别文本中每一个字的声学预测得分。

在得到第一声学预测得分以及第二声学预测得分之后，基于集束搜索算法，从第一声学预测得分以及第二声学预测得分中选取出预设数目个预测得分最高的文本作为最终原始语音数据对应的语音识别文本。

在上述实施方式中，利用连接时序分类解码层和Transformer解码层获得第一声学预测得分以及第二声学预测得分，并采用集束搜索算法，从第一声学预测得分以及第二声学预测得分中选取出预设数目个预测得分最高的文本作为最终原始语音数据对应的语音识别文本，能够有效的提高语音识别的准确性。

本发明提供的流式语音识别方法，通过获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码，在此基础上引入移位块自注意力编码层，实现了自注意力得分的跨块计算，并能够确保音频编码器的线性时间复杂度，从而快速生成具有全局上下文信息的目标音频编码特征序列，对该特征序列进行解码并生成语音识别文本，进而有效提高了流式语音识别的准确率。

参见图6，图6是本发明提供的流式语音识别方法的流程示意图之二，具体包括步骤601-步骤609：

步骤601、获取原始音频数据。

步骤602、对原始音频数据进行数据扩充及数据增强处理，得到数据扩充及数据增强后的原始音频数据。

步骤603、提取数据扩充及数据增强后的原始音频数据的倒谱域特征序列。

步骤604、将倒谱域特征序列进行下采样操作，生成下采样操作后的特征序列。

步骤605、将下采样操作后的特征序列尾部进行填充，生成符合预设长度的原始特征序列。

步骤606、将原始特征序列进行均匀分块处理，得到多个第一特征序列块；计算每个第一特征序列块的第一自注意力得分，并基于每个第一特征序列块中的特征序列及每个第一特征序列块对应的第一自注意力得分，生成第一音频编码特征序列。

步骤607、利用循环移位的方式对第一音频编码特征序列重新进行分块处理，得到多个第二特征序列块；识别每个第二特征序列块之间特征序列的时序约束，并基于时序约束，采用预设掩码机制对每个第二特征序列块的第二自注意力得分进行掩码处理；基于掩码后的第二自注意力得分，生成第二音频编码特征序列。

步骤608、将第二音频编码特征序列输入至分块自注意力机制编码层进行N次循环迭代，得到移位块自注意力机制编码层输出的目标音频编码特征序列；N为正整数。

步骤609、将目标音频编码特征序列输入音频解码器，生成语音识别文本。

本发明提供的流式语音识别方法，基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码，在此基础上引入移位块自注意力编码层，利用循环移位的方式对第一音频编码特征序列重新进行分块处理，得到多个第二特征序列块；实现了自注意力得分的跨块计算，并能够确保音频编码器的线性时间复杂度，从而显著增强了全局上下文信息的建模能力；同时，识别每个第二特征序列块之间特征序列的时序约束，并基于时序约束，采用预设掩码机制对每个第二特征序列块的第二自注意力得分进行掩码处理，可以保证流式语音在时序上的逻辑关系，从而能够快速生成同时具有流式语音线性时间复杂度、全局上下文信息以及时序逻辑关系的目标音频编码特征序列。

进一步地，对该特征序列进行解码并生成语音识别文本，进而能够提高流式语音识别的准确率。

下面结合图7对本发明提供的流式语音识别装置进行描述，下文描述的流式语音识别装置与上文描述的流式语音识别方法可相互对应参照。图7是本发明提供的流式语音识别装置700的结构示意图。

获取模块701，用于获取原始音频数据，基于原始音频数据生成原始特征序列；

第一生成模块702，用于将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；

第二生成模块703，用于将目标音频编码特征序列输入音频解码器，生成语音识别文本。

本发明提供的流式语音识别装置，通过获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。基于音频编码器的分块自注意力机制编码层对原始音频数据进行编码在此基础上引入移位块自注意力编码层，实现了自注意力得分的跨块计算，并能够确保音频编码器的线性时间复杂度，从而快速生成具有全局上下文信息的目标音频编码特征序列，对该特征序列进行解码并生成语音识别文本，进而能够提高流式语音识别的准确率。

可选地，获取模块701进一步用于：

对原始音频数据进行数据扩充及数据增强处理。

可选地，获取模块701进一步用于：

提取所述原始音频数据的倒谱域特征序列；

可选地，第一生成模块702进一步用于：

将原始特征序列输入分块自注意力机制编码层，生成第一音频编码特征序列；将第一音频编码特征序列输入移位块自注意力机制编码层，生成第二音频编码特征序列；

将第二音频编码特征序列输入至分块自注意力机制编码层进行N次循环迭代，得到移位块自注意力机制编码层输出的目标音频编码特征序列。

可选地，第一生成模块702进一步用于：

将原始特征序列进行均匀分块处理，得到多个第一特征序列块；

计算每个第一特征序列块的第一自注意力得分，并基于每个第一特征序列块中的特征序列及每个第一特征序列块对应的第一自注意力得分，生成第一音频编码特征序列。

可选地，第一生成模块702进一步用于：

利用循环移位的方式对第一音频编码特征序列重新进行分块处理，得到多个第二特征序列块；

计算每个第二特征序列块的第二自注意力得分，并基于每个第二特征序列块中的特征序列及每个第二特征序列块对应的第二自注意力得分，生成第二音频编码特征序列。

可选地，第一生成模块702进一步用于：

识别每个第二特征序列块之间特征序列的时序约束，并基于时序约束，采用预设掩码机制对每个第二特征序列块的第二自注意力得分进行掩码处理；

基于掩码后的第二自注意力得分，生成第二音频编码特征序列。

可选地，音频解码器包括连接时序分类解码层和Transformer解码层；

可选地，第二生成模块703进一步用于：

将目标音频编码特征序列分别输入连接时序分类解码层和Transformer解码层，得到第一声学预测得分和第二声学预测得分；

根据第一声学预测得分和第二声学预测得分，基于集束搜索算法，生成所述语音识别文本。

图8是本发明提供的电子设备800的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行流式语音识别方法，该方法包括：获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的流式语音识别方法，该方法包括：获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的流式语音识别方法，该方法包括：获取原始音频数据，基于原始音频数据生成原始特征序列；将原始特征序列输入音频编码器，生成目标音频编码特征序列，其中，音频编码器包括分块自注意力机制编码层和移位块自注意力机制编码层；将目标音频编码特征序列输入音频解码器，生成语音识别文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种流式语音识别方法，其特征在于，包括：

2.根据权利要求1所述的流式语音识别方法，其特征在于，在所述基于所述原始音频数据生成原始特征序列之前，还包括：

对所述原始音频数据进行数据扩充及数据增强处理。

3.根据权利要求1所述的流式语音识别方法，其特征在于，所述基于所述原始音频数据生成原始特征序列，包括：

提取所述原始音频数据的倒谱域特征序列；

4.根据权利要求1-3中任一项所述的流式语音识别方法，其特征在于，所述将所述原始特征序列输入音频编码器，生成目标音频编码特征序列，包括：

5.根据权利要求4所述的流式语音识别方法，其特征在于，所述将所述原始特征序列输入所述分块自注意力机制编码层，生成第一音频编码特征序列，包括：

6.根据权利要求4所述的流式语音识别方法，其特征在于，所述将所述第一音频编码特征序列输入所述移位块自注意力机制编码层，生成第二音频编码特征序列，包括：

7.根据权利要求6所述的流式语音识别方法，其特征在于，所述基于每个第二特征序列块中的特征序列及每个第二特征序列块对应的第二自注意力得分，生成所述第二音频编码特征序列，包括：

8.根据权利要求1所述的流式语音识别方法，其特征在于，所述音频解码器包括连接时序分类解码层和Transformer解码层；

9.一种流式语音识别装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述流式语音识别方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述流式语音识别方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述流式语音识别方法。