CN116312502A

CN116312502A - 基于顺序采样分块机制的端到端流式语音识别方法及装置

Info

Publication number: CN116312502A
Application number: CN202211735842.2A
Authority: CN
Inventors: 王方圆; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-06-23

Abstract

本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置，包括：针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中SSC‑MHSA模块输出的多个语音样本的第二声学特征信息，输入特征提取网络中C‑MHSA模块，得到多个语音样本的第一声学特征信息；将多个语音样本的第一声学特征信息，输入特征提取网络的SSC‑MHSA模块，得到多个语音样本的第二声学特征信息；将初始语音识别模型中最后一个特征提取网络输出的多个语音样本的第二声学特征信息，输入初始语音识别模型中的解码器网络，得到多个语音样本的预测信息；基于多个语音样本的预测信息和标签信息，更新初始语音识别模型的模型参数，以得到性能较好的流式语音识别模型。

Description

基于顺序采样分块机制的端到端流式语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于顺序采样分块机制的端到端流式语音识别方法及装置。

背景技术

流式语音识别是能够对输入的语音流进行识别，实时得到识别结果(例如字符序列)的一种语音识别技术。

在相关技术中，流式语音识别模型能够对语音流进行识别，实时得到识别结果，流式语音识别模型具有如下两种：基于Transformer网络的语音识别模型、以及基于Conformer网络的语音识别模型。上述流式语音识别模型均是基于均匀分块机制，对语音流进行识别，使得流式语音识别模型对语音流的学习局限于一个分块内，无法利用历史上文信息，导致流式语音识别模型的性能较差。

发明内容

本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置，用以解决现有技术中流式语音识别模型对语音流的学习局限于一个分块内，无法利用历史上文信息的缺陷，实现增强流式语音识别模型性能的目的。

第一方面，本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法，包括：

针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；

将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；

基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，将前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，输入所述特征提取网络中C-MHSA模块，得到所述语音样本的第一声学特征信息，包括：

将所述前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，输入所述C-MHSA模块中的第一层归一化子模块，得到第一特征信息；

将所述第一特征信息，输入所述C-MHSA模块中的第一前馈神经网络，得到第二特征信息；

基于所述第二特征信息和所述前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，确定第三特征信息；

将所述第三特征信息，输入所述C-MHSA模块中的第二层归一化子模块，得到第四特征信息；

将所述第四特征信息，输入所述C-MHSA模块中的C-MHSA层，得到第五特征信息；

基于所述第五特征信息和所述第三特征信息，确定第六特征信息；

将所述第六特征信息，输入所述C-MHSA模块中的第三层归一化子模块，得到第七特征信息；

将所述第七特征信息，输入所述C-MHSA模块中的卷积层，得到第八特征信息；

基于所述第八特征信息和所述第六特征信息，确定第九特征信息；

将所述第九特征信息，输入所述C-MHSA模块中的第四层归一化子模块，得到第十特征信息；

将所述第十特征信息，输入所述C-MHSA模块中的第二前馈神经网络，得到第十一特征信息；

基于所述第十一特征信息和所述第九特征信息，确定第十二特征信息；

将所述第十二特征信息，输入所述C-MHSA模块中的第五层归一化子模块，得到语音样本的第一声学特征信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，所述将所述第四特征信息，输入所述C-MHSA模块中的C-MHSA层，得到第五特征信息，包括：

通过所述C-MHSA层，按照预设特征分块大小，对所述第四特征信息进行分块处理，得到多个第一特征分块；

针对每个第一特征分块，确定所述第一特征分块中包括的每个特征的第一自注意力得分；

将由所述第一自注意力得分组成的第一得分矩阵，与第一掩码矩阵相乘，得到所述第五特征信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，所述将所述第七特征信息，输入所述C-MHSA模块中的卷积层，得到第八特征信息，包括：

通过所述卷积层，对所述第七特征信息进行分块卷积处理，得到第一卷积结果；

对所述第七特征信息进行因果卷积处理，得到第二卷积结果；

对所述第一卷积结果和所述第二卷积结果进行加权求和处理，得到第八特征信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，将所述语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述语音样本的第二声学特征信息，包括：

将所述第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中的第一层归一化子模块，得到第十三特征信息；

将所述第十三特征信息，输入所述特征提取网络的SSC-MHSA模块中的第一前馈神经网络，得到第十四特征信息；

基于所述第十四特征信息和所述第一声学特征信息，确定第十五特征信息；

将所述第十五特征信息，输入所述特征提取网络的SSC-MHSA模块中的第二层归一化子模块，得到第十六特征信息；

将所述第十六特征信息，输入所述特征提取网络的SSC-MHSA模块中的SSC-MHSA层，得到第十七特征信息；

基于所述第十七特征信息和所述第十五特征信息，确定第十八特征信息；

将所述第十八特征信息，输入所述特征提取网络的SSC-MHSA模块中的第三层归一化子模块，得到第十九特征信息；

将所述第十九特征信息，输入所述特征提取网络的SSC-MHSA模块中的卷积层，得到第二十特征信息；

基于所述第二十特征信息和所述第十八特征信息，确定第二十一特征信息；

将所述第二十一特征信息，输入所述特征提取网络的SSC-MHSA模块中的第四层归一化子模块，得到第二十二特征信息；

将所述第二十二特征信息，输入所述特征提取网络的SSC-MHSA模块中的第二前馈神经网络，得到第二十三特征信息；

基于所述第二十三特征信息和所述第二十一特征信息，确定第二十四特征信息；

将所述第二十四特征信息，输入所述特征提取网络的SSC-MHSA模块中的第五层归一化子模块，得到语音样本的第二声学特征信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，所述将所述第十六特征信息，输入所述特征提取网络的SSC-MHSA模块中的SSC-MHSA层，得到第十七特征信息，包括：

通过所述SSC-MHSA层，基于预设特征分块大小和所述第十六特征信息的序列长度，将所述第十六特征信息，转换为特征矩阵，其中，所述特征矩阵的行数等于所述预设特征分块大小；

按照行，将所述特征矩阵的转置矩阵，转换为特征序列；

基于所述预设特征分块大小，对所述特征序列进行分块处理，得到多个第二特征分块；

针对每个第二特征分块，确定所述第二特征分块中包括的每个特征的第二自注意力得分；

将由所述第二自注意力得分组成的第二得分矩阵，与第二掩码矩阵相乘，得到所述第十七特征信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，所述方法还包括：

基于所述第十六特征信息的序列长度，随机生成索引向量；

基于所述基于预设特征分块大小和所述第十六特征信息的序列长度，将所述索引向量，转换为索引矩阵，其中，所述索引矩阵的行数等于所述预设特征分块大小；

针对所述索引矩阵中的每个元素，将所述元素，替换为所述元素与所述预设特征分块大小比值的整数部分，以得到目标矩阵；

通过预设维度扩充方法，基于第一预设值，对所述目标矩阵进行维度扩充，得到第一矩阵；基于第二预设值，对所述目标矩阵进行维度扩充，得到第二矩阵；

确定所述第一矩阵和所述第二矩阵的差值矩阵；

将所述差值矩阵中小于预设阈值的元素设置为第三预设值，将所述差值矩阵中大于或等于所述预设阈值的元素设置为所述预设阈值，得到第二掩码矩阵。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，将所述初始语音识别模型中的最后一个特征提取网络输出的所述语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述语音样本的预测信息，包括：

将所述初始语音识别模型中的最后一个特征提取网络输出的所述语音样本的第二声学特征信息，输入所述解码器网络中的CTC解码器，得到所述语音样本的第一声学预测得分；

将所述初始语音识别模型中的最后一个特征提取网络输出的所述语音样本的第二声学特征信息，输入所述解码器网络中的Transfomer解码器，得到语音样本的第二声学预测得分；

通过集束搜索算法，对所述第一声学预测得分和所述第二声学预测得分进行处理，得到所述语音样本的预测信息。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法，该方法还包括：

提取各语音样本的FBank特征序列；

将所述各语音样本的FBank特征序列，输入所述初始语音识别模型中的二维卷积网络，得到所述各语音样本的声学特征序列；

确定各语音样本的声学特征序列中最长声学特征序列的第一长度；

在所述第一长度与预设特征分块大小的比值为整数的情况下，针对各语音样本的FBank特征序列，基于所述第一长度，在长度小于所述第一长度的FBank特征序列之后，补充预设数值，得到所述语音样本的初始声学特征信息，其中，所述初始声学特征信息的长度等于所述第一长度；

在所述第一长度与所述预设特征分块大小的比值不为整数的情况下，确定所述第一长度与所述预设特征分块大小的比值的整数部分，与预设值的和值；将所述和值与所述预设特征分块乘积，确定为第二长度；针对各语音样本的FBank特征序列，基于所述第二长度，在长度小于所述第二长度的FBank特征序列之后，补充预设数值，得到所述语音样本的初始声学特征信息，其中，所述初始声学特征信息的长度等于所述第二长度。

第二方面，本发明还提供一种基于顺序采样分块机制的端到端流式语音识别装置，包括：

编码模块，用于针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；

解码模块，用于将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；

更新模块，用于基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，编码模块具体用于：

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，所述编码模块具体用于：

按照行，将所述特征矩阵的转置矩阵，转换为特征序列；

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，编码模块还用于：

基于所述第十六特征信息的序列长度，随机生成索引向量；

确定所述第一矩阵和所述第二矩阵的差值矩阵；

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，解码模块具体用于：

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，该装置还包括：

获取模块，提取各语音样本的FBank特征序列；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于顺序采样分块机制的端到端流式语音识别方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于顺序采样分块机制的端到端流式语音识别方法。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于顺序采样分块机制的端到端流式语音识别方法。

本发明提供一种基于顺序采样分块机制的端到端流式语音识别方法及装置，在该方法中，初始语音识别模型包括多个特征提取网络，针对每个特征提取网络，其中的SSC-MHSA模块可以对第一声学特征信息进行重新分块处理，得到第二声学特征信息，避免历史上下文信息局限在一个分块中，使得流式语音识别模型能够学习历史上文信息和少量未来信息提升流式语音识别模型的性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于顺序采样分块机制的端到端流式语音识别方法的流程示意图；

图2是本发明提供的C-MHSA模块的结构示意图；

图3是本发明提供的C-MHSA层无交叠均匀划分机制的分块示意图；

图4是本发明提供的SSC-MHSA模块的结构示意图；

图5是本发明提供的SSC-MHSA层基于顺序采样分块机制的分块示意图；

图6是本发明提供的初始语音识别模型的结构示意图；

图7是本发明提供的基于顺序采样分块机制的端到端流式语音识别装置的结构示意图；

图8是本发明提供的电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，基于Transformer网络的语音识别模型和基于Conformer网络的语音识别模型均是基于均匀分块机制，对语音流进行识别，使得流式语音识别模型对语音流的学习局限于一个分块内，无法利用历史上文信息，导致流式语音识别模型的性能较差。

在本发明中，为了提升流式语音识别模型的性能，发明人通过将流式语音识别模型中的基于均匀分块机制的自注意力模块和基于顺序采样分块机制的自注意力模块按照顺序相结合的方式，使得流式语音识别模型对语音流的学习不再局限于一个分块内，进而使得流式语音识别模型可以充分利用历史上文信息建模，提升了流式语音识别模型的识别性能。

下面结合具体实施例描述本发明提供的一种基于顺序采样分块机制的端到端流式语音识别方法。

图1是本发明提供的基于顺序采样分块机制的端到端流式语音识别方法的流程示意图。如图1所示，本实施例提供的基于顺序采样分块机制的端到端流式语音识别方法包括：

S101、针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力(Sequentially Sampled Chunks Based Multi-head Self-Attention，SSC-MHSA)模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力(Chunks Based Multi-head Self-Attention，C-MHSA)模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的。

可选地，本发明提供的基于顺序采样分块机制的端到端流式语音识别方法，其执行主体可以为电子设备，也可以为设置在电子设备中的基于顺序采样分块机制的端到端流式语音识别装置。基于顺序采样分块机制的端到端流式语音识别装置可以通过软件和/或硬件的结合来实现。

下面以执行主体为基于顺序采样分块机制的端到端流式语音识别装置对本发明提供的基于顺序采样分块机制的端到端流式语音识别方法进行说明。对初始语音识别模型的详细说明，请参见图6实施例。对C-MHSA模块的详细说明可以参见图2实施例。对SSC-MHSA模块的详细说明可以参见图3实施例。

多个语音样本为一个训练批次。

可选地，多个语音样本可以包括语音识别数据集的多条初始语音数据，也可以包括对多条初始语音数据进行数据增强处理后的多条增强语音数据，还可以包括上述多条初始语音数据和多条增强语音数据。

可选地，语音识别数据集可以包括THCHS30、ST-CMDS、AISHELL和Aidatatang等中的至少一个数据集。

可选地，进行数据增强处理所采用的增强方法可以为音量增强、混响增强、速度增强、音调增强、噪声增强、频域掩盖和时域掩盖等中的至少一种。

在多个语音样本包括多条初始语音数据和多条增强语音数据的情况下，若多条初始语音数据包括THCHS30和ST-CMDS中的语音数据，则可以通过如下方式得到多条增强语音数据：

通过预设工具(例如开源工具torchaudio)，基于第一预设速率，对多条初始语音数据进行音频速率变化处理，得到第一增强语音数据集，基于第二预设速率，对多条初始语音数据进行音频速率变化处理，得到第二增强语音数据集，基于第三预设速率，对多条初始语音数据进行音频速率变化处理，得到第三增强语音数据集；

通过预设算法(例如SpecAugment算法)，分别对第一增强语音数据集、第二增强语音数据集和第三增强语音数据集中的语音数据进行随机掩盖处理，得到多条增强语音数据。

例如第一预设速率可以为0.9，第二预设速率为1.0，第三预设速率为1.1。

可选地，标签信息是通过人工识别语音样本之后，记录的语音样本对应的字符序列。

可选地，初始声学特征信息可以是对语音样本进行提取的FBank特征序列，也可以为通过初始语音识别模型中的二维卷积网络对FBank特征序列进行下采样变化处理之后的声学特征信息等。

S102、将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息。

可选地，解码器网络可以包括连接主义时间分类(Connectionist TemporalClassification，CTC)解码器和/或Transfomer解码器。

可选地，CTC解码器可以由一个线性层和一个log softmax层构成。

S103、基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

可选地，计算多个语音样本的预测信息和标签信息之间的平滑交叉熵损失值(label smoothing cross entropy loss)，基于平滑交叉熵损失值，更新初始语音识别模型的模型参数，以得到流式语音识别模型。

平滑交叉熵损失值可以是采用交叉熵损失函数指导预测信息拟合标签信息得到的损失值。

可选地，在更新初始语音识别模型的模型参数的过程中，可以采用Adam优化器进行反传优化。

在得到流式语音识别模型的过程中，采用其他批次中的多个语音样本，对更新后的初始语音识别模型的模型参数继续进行更新，在上述模型参数收敛或者更新次数达到预设次数的情况下，得到流式语音识别模型。

在本发明中，初始语音识别模型包括多个特征提取网络，针对每个特征提取网络，其中的SSC-MHSA模块可以对第一声学特征信息进行重新分块处理，得到第二声学特征信息，避免历史上下文信息局限在一个分块中，使得流式语音识别模型能够学习历史上文信息和少量未来信息提升流式语音识别模型的性能。

在上述实施例的基础上，下面结合图2对C-MHSA模块进行说明。

图2是本发明提供的C-MHSA模块的结构示意图。如图2所示，C-MHSA模块包括：第一层归一化子模块(Layer Normalization，LN)(记为LN 1)、第一前馈神经网络(FeedForward Network，FFN)(记为FFN 1)、第二层归一化子模块(记为LN 2)、C-MHSA层、第三层归一化子模块(记为LN 3)、卷积层(记为C2Conv)、第四层归一化子模块(记为LN 4)、第二前馈神经网络(记为FFN 2)、第五层归一化子模块(记为LN 5)和加法器。

可选地，可以通过如下第一步至第十三步，实现将前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，输入所述特征提取网络中C-MHSA模块，得到语音样本的第一声学特征信息。

第一步，将前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，输入C-MHSA模块中的LN 1，通过LN 1对初始声学特征信息进行层归一化，得到第一特征信息。

第二步，将第一特征信息，输入C-MHSA模块中的FFN 1，通过FFN 1对第一特征信息进行处理，得到第二特征信息。

第三步，基于第二特征信息和前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，确定第三特征信息。

可选地，确定第二特征信息与第一预设权重的乘积，将该乘积与初始声学特征信息的和，确定为第三特征信息。第一预设权重例如可以为0.5、0.6等。

可选地，可以通过如下公式1得到第三特征信息：

其中，l表示初始语音识别模型中包括的特征提取网络的标识，

表示第三特征信息，A表示第一预设权重，

表示前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，

表示第一特征信息，

表示第二特征信息。

第四步，将第三特征信息，输入C-MHSA模块中的LN 2，通过LN 2对第三特征信息进行层归一化，得到第四特征信息。

第五步，将第四特征信息，输入C-MHSA模块中的C-MHSA层，通过C-MHSA层对第四特征信息进行处理，得到第五特征信息。

第六步，基于第五特征信息和第三特征信息，确定第六特征信息。

可选地，将第五特征信息和第三特征信息的和，确定为第六特征信息。

可选地，可以通过如下公式2得到第六特征信息：

其中，

表示第六特征信息，

表示第三特征信息，

表示第四特征信息，

表示第五特征信息。

第七步，将第六特征信息，输入C-MHSA模块中的LN 3，通过LN 3对第六特征信息进行层归一化，得到第七特征信息。

第八步，将第七特征信息，输入C-MHSA模块中的卷积层，得到第八特征信息。

第九步，基于第八特征信息和第六特征信息，确定第九特征信息。

可选地，将第八特征信息和第六特征信息的和，确定为第九特征信息。

可选地，可以通过如下公式3得到第九特征信息：

其中，

表示第九特征信息，

表示第六特征信息，

表示第七特征信息，

表示第八特征信息。

第十步，将第九特征信息，输入C-MHSA模块中的LN 4，通过LN 4对第九特征信息进行层归一化，得到第十特征信息。

第十一步，将第十特征信息，输入C-MHSA模块中的FFN 2，通过FFN2对第十特征信息进行处理，得到第十一特征信息。

第十二步，基于第十一特征信息和第九特征信息，确定第十二特征信息。

可选地，确定第十一特征信息与第二预设权重的乘积，将该乘积与第九特征信息的和，确定为第十二特征信息。

可选地，第二预设权重可以为0.5、0.6等。

第十三步，将第十二特征信息，输入C-MHSA模块中的LN 5，通过LN 5对第十二特征信息进行层归一化，得到语音样本的第一声学特征信息。

可选地，可以通过如下公式4得到第一声学特征信息：

其中，

表示第一声学特征信息，B表示第二预设权重，

表示第九特征信息，

表示第十特征信息，

表示第十一特征信息，B×

表示第十二特征信息。

在一些实施例中，通过C-MHSA层，按照预设特征分块大小，对所述第四特征信息进行分块处理，得到多个第一特征分块；

针对每个第一特征分块，确定第一特征分块中包括的每个特征的第一自注意力得分；

可选地，预设特征分块大小可以为4、8、16和32等。

可选地，分块处理的所采用的分块机制可以是图3所示的无交叠均匀划分机制。下面结合图3对C-MHSA层的无交叠均匀划分机制进行说明。图3是本发明提供的C-MHSA层无交叠均匀划分机制的分块示意图。如图3所示，例如第四特征信息中包括12个特征(分别为X1、X2、……X12)。在预设特征分块大小为4的情况下，可以将第四特征信息划分为3个第一特征分块(分为chunk11、chunk12和chunk13)。

可选地，在每个第一特征分块内，可以采用通用的自注意力(self-attention)机制计算方法，确定第一特征分块中包括的每个特征的第一自注意力得分。

可选地，第一掩码矩阵可以为预设掩码矩阵。

在一些实施例中，将第七特征信息，输入C-MHSA模块中的卷积层，得到第八特征信息，包括：

通过卷积层，对第七特征信息进行分块卷积处理，得到第一卷积结果；

对第七特征信息进行因果卷积处理，得到第二卷积结果；

对第一卷积结果和第二卷积结果进行加权求和处理，得到第八特征信息。

可选地，可以通过如下公式5得到第一卷积结果：

其中，

表示第一卷积结果，chunked-convolution表示分块卷积处理，x表示第七特征信息。

可选地，可以通过如下公式6得到第二卷积结果：

其中，

表示第二卷积结果，casual-convolution表示因果卷积处理。

可选地，可以通过如下公式7得到第八特征信息：

其中，y_c表示第八特征信息，λ为加权因子。

现有流式的Conformer模型中仅采用因果卷积，即卷积操作仅涉及历史元素。而在本发明中，是在不增加额外延迟的前提下，通过分块卷积适当引入少量的未来下文信息，以提升卷积层的上下文建模的能力。

需要说明的是，将第十九特征信息，输入SSC-MHSA模块中的卷积层，得到第二十特征信息的方法与上述得到第八特征信息的方法相同，此处不再赘述。

在上述实施例的基础上，下面结合图4对SSC-MHSA模块进行说明。

图4是本发明提供的SSC-MHSA模块的结构示意图。如图4所示SSC-MHSA模块包括：第一层归一化子模块(Layer Normalization，LN)(记为LN 1)、第一前馈神经网络(FeedForward Network，FFN)(记为FFN 1)、第二层归一化子模块(记为LN 2)、SSC-MHSA层、第三层归一化子模块(记为LN 3)、卷积层(记为C2Conv)、第四层归一化子模块(记为LN 4)、第二前馈神经网络(记为FFN 2)、第五层归一化子模块(记为LN 5)和加法器。

可选地，可以通过如下第一步至第十三步，将语音样本的第一声学特征信息，输入特征提取网络的SSC-MHSA模块中，得到语音样本的第二声学特征信息。

第一步，将第一声学特征信息，输入SSC-MHSA模块中的LN 1，通过LN 1对第一声学特征信息进行层归一化，得到第十三特征信息。

第二步，将第十三特征信息，输入SSC-MHSA模块中的FFN 1，通过FFN 1对第十三特征信息进行处理，得到第十四特征信息。

第三步，基于第十四特征信息和第一声学特征信息，确定第十五特征信息。

可选地，确定第十四特征信息与第三预设权重的乘积，将该乘积与第一声学特征信息的和，确定为第十五特征信息。

可选地，第三预设权重可以为0.5、0.6等。

可选地，可以通过如下公式8得到第十五特征信息：

其中，

表示第十五特征信息，C表示第三预设权重，

表示第一声学特征信息，

表示第十三特征信息，

表示第十四特征信息。

第四步，将第十五特征信息，输入SSC-MHSA模块中的LN 2，通过LN 2对第十五特征信息进行层归一化，得到第十六特征信息。

第五步，将第十六特征信息，输入SSC-MHSA模块中的SSC-MHSA层，通过SSC-MHSA层对第十六特征信息进行处理，得到第十七特征信息(得到第十六特征信息的具体过程请参见图5实施例)。

第六步，基于第十七特征信息和第十五特征信息，确定第十八特征信息。

可选地，将第十七特征信息和第十五特征信息的和，确定为第十八特征信息。

可选地，可以通过如下公式9得到第十八特征信息：

其中，

表示第十八特征信息，

表示第十五特征信息，

表示第十六特征信息，

表示第十七特征信息。

第七步，将第十八特征信息，输入SSC-MHSA模块中的LN 3，通过LN 3对第十八特征信息进行层归一化，得到第十九特征信息。

第八步，将第十九特征信息，输入SSC-MHSA模块中的卷积层，得到第二十特征信息。

第九步，基于第二十特征信息和第十八特征信息，确定第二十一特征信息。

可选地，将第二十特征信息和第十八特征信息的和，确定为第二十一特征信息。

可选地，可以通过如下公式10得到第二十一特征信息：

其中，

表示第二十一特征信息，

表示第十八特征信息，

表示第十九特征信息，

表示第二十特征信息。

第十步，将第二十一特征信息，输入SSC-MHSA模块中的LN 4，通过LN 4对第二十一特征信息进行层归一化，得到第二十二特征信息。

第十一步，将第二十二特征信息，输入SSC-MHSA模块中的FFN 2，通过FFN2对第二十二特征信息进行处理，得到第二十三特征信息。

第十二步，基于第二十三特征信息和第二十一特征信息，确定第二十四特征信息。

第十三步，将第二十四特征信息，输入SSC-MHSA模块中的LN 5，通过LN 5对第二十四特征信息进行层归一化，得到语音样本的第二声学特征信息。

可选地，确定第二十三特征信息与第四预设权重的乘积，将该乘积与第二十一特征信息的和，确定为第二十四特征信息。可选地，第四预设权重可以为0.5、0.6等。

可选地，可以通过如下公式11得到第二声学特征信息：

其中，

表示第二声学特征信息，

表示第二十一特征信息，

表示第二十二特征信息，

表示第二十三特征信息，

表示第二十四特征信息。

在一些实施例中，将第十六特征信息，输入SSC-MHSA模块中的SSC-MHSA层，得到第十七特征信息，包括：

基于预设特征分块大小和第十六特征信息的序列长度，将第十六特征信息，转换为特征矩阵，其中，特征矩阵的行数等于预设特征分块大小；

按照行，将特征矩阵的转置矩阵转换为特征序列；

基于预设特征分块大小，对特征序列进行分块处理，得到多个第二特征分块；

针对每个第二特征分块，确定第二特征分块中包括的每个特征的第二自注意力得分；

例如，在预设特征分块大小为W，第十六特征信息的序列长度为L的情况下，将第十六特征信息转为包括W行、L/W列的特征矩阵。

例如在第十六特征信息包括12个特征(分别为Y1、Y2、……Y12)的情况下，若W等于4，则特征矩阵为

特征矩阵的转置矩阵为

可选地，按照行，将转置矩阵转换成的特征序列为：Y1、Y4、Y7、Y10……Y12。

在本发明中，基于预设特征分块大小和第十六特征信息的序列长度，将第十六特征信息，转换为特征矩阵，其中，特征矩阵的行数等于预设特征分块大小；按照行，将特征矩阵的转置矩阵转换为特征序列，基于预设特征分块大小，对特征序列进行分块处理，得到多个第二特征分块，可以实现SSC-MHSA层基于顺序采样分块机制，得到多个第二特征分块。

下面结合图5对基于预设特征分块大小，对特征序列进行分块处理，得到多个第二特征分块进行说明。图5是本发明提供的SSC-MHSA层基于顺序采样分块机制的分块示意图。如图5所示，例如在第十六特征信息包括Y1、Y2、……Y12，W等于4的情况下，可以得到多个第二特征分块(分为chunk21、chunk22和chunk23)。

针对每个第二特征分块，确定第二特征分块中包括的每个特征的第二自注意力得分，与确定第一特征分块中包括的每个特征的第一自注意力得分相同，此处不再赘述。

在一些实施例中，第二掩码矩阵可以通过如下方法获取：

基于所述第十六特征信息的序列长度，随机生成索引向量；

确定所述第一矩阵和所述第二矩阵的差值矩阵；

例如，序列长度为L的情况下，索引向量为[0,1,2,3,……,L-1]。

例如，在预设特征分块大小为W和第十六特征信息的序列长度为L的情况下，将索引向量转换为包括W行、L/W列的索引向量。

目标矩阵中的每一个元素表示重新分块后该元素在无交叠均匀划分机制中的块索引序列号。

可选地，预设维度扩充方法可以为tensor扩展维度方法。

可选地，第一预设值和第二预设值的大小不同。例如在第一预设值为2的情况下，第二预设值为1。

例如，在第一预设值为2、第二预设值为1的情况下，差值矩阵M＝Z.unsqueeze(2)-Z.unsqueeze(1)，其中，Z.unsqueeze(2)表示第一矩阵，Z.unsqueeze(1)表示第二矩阵。

可选地，第三预设值可以为0，也可以为其他值，此处不再进行限定。

在本发明中，在C-MHSA模块中采用无交叠均匀划分机制的方式对输入的特征序列进行均匀分块之后，通过SSC-MHSA模块采用顺序采样机制，对基于均匀划分机制得到的特征信息，进行重划分，打破了原始分块的边界限制，使得重划分的块中，因此能够提供高效的跨块的上下文信息，包括长距离的上下文信息。

基于顺序采样分块机制的分块方法，对特征序列进行分块处理，解决了在流式传输时，流式语音识别模型受线性时间、空间复杂度约束的缺陷，显著地增强了流式语音识别模型的上下文建模能力。

在一些实施例中，将所述初始语音识别模型中的最后一个特征提取网络输出的所述语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述语音样本的预测信息，包括：

通过集束搜索(beam search)算法，对第一声学预测得分和第二声学预测得分进行处理，得到语音样本的预测信息。

可选地，对第一声学预测得分和第二声学预测得分进行处理的方法还可以采用贪心搜索(greedy search)算法。

下面结合图6对初始语音识别模型进行说明。

图6是本发明提供的初始语音识别模型的结构示意图。如图6所示，初始语音识别模型包括二维卷积网络、多个特征提取网络、CTC解码器和Transfomer解码器。每个特征提取网络包括C-MHSA模块和SSC-MHSA模块。需要说明的是，图6是以初始语音识别模型中包括6个特征提取网络为例进行说明的。

在本发明中，发明人将顺序采样分块机制、分块卷积与因果卷积的融合卷积结合起来，在顺序采样分块机制、分块卷积与因果卷积的融合卷积的作用下，使得流式语音识别模型的性能、计算和存储的复杂度，超过了现有的例如U2、U2++的平方级时间复杂度的先进流式识别模型。

在一些实施例中，初始语音识别模型中还包括二维卷积网络，本发明提供的方法还包括：获取多个语音样本的初始声学特征信息。

具体的，获取多个语音样本的初始声学特征信息，包括：

提取各语音样本的FBank特征序列；

将各语音样本的FBank特征序列，输入初始语音识别模型中的二维卷积网络，得到各语音样本的声学特征序列；

在第一长度与预设特征分块大小的比值为整数的情况下，针对各语音样本的FBank特征序列，基于第一长度，在长度小于第一长度的FBank特征序列之后，补充预设数值，得到语音样本的初始声学特征信息，其中，初始声学特征信息的长度等于第一长度；

在第一长度与预设特征分块大小的比值不为整数的情况下，确定第一长度与预设特征分块大小的比值的整数部分，与预设值的和值；将和值与预设特征分块乘积，确定为第二长度；针对各语音样本的FBank特征序列，基于第二长度，在长度小于第二长度的FBank特征序列之后，补充预设数值，得到语音样本的初始声学特征信息，其中，初始声学特征信息的长度等于第二长度。

可选地，针对各语音样本，对语音样本依次进行预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等处理，得到语音样本的FBank特征序列。

可选地，FBank特征序列的维度可以为80。

可选地，在分帧时，帧宽为25毫秒、帧移为10毫秒。

二维卷积网络用于对FBank特征序列进行下采样样处理，使得声学特征序列的长度等于1/4的FBank特征序列的长度。

由于FBank特征序列中包含冗余信息且与文本端标注序列(即标签信息)的长度差异较大，因此通过需要采用二维卷积网络的方式对FBank特征序列进行转换降维(即下采样处理)，从而得到初始声学特征信息，降低初始声学特征信息和文本端标注序列的长度差异。

可选地，预设数值可以为0、1等。

例如，在预设数值为1的情况下，若各语音样本的声学特征序列中最长声学特征序列的第一长度为16，则在某个语音样本的声学特征序列为Z1、Z2、……、Z12的情况下，在声学特征序列之后增加4个1，得到初始声学特征信息(包括Z1、Z2、……、Z12、1、1、1、1)。

可选地，预设值可以为1。

在第一长度与预设特征分块大小的比值不为整数的情况下，可以通过如下公式确定第二长度：

其中，

表示向下取整数据操作。L表示第一长度，W表示预设特征分块大小。

下面对本发明提供的基于顺序采样分块机制的端到端流式语音识别装置进行描述，下文描述的基于顺序采样分块机制的端到端流式语音识别装置与上文描述的基于顺序采样分块机制的端到端流式语音识别方法可相互对应参照。

图7是本发明提供的基于顺序采样分块机制的端到端流式语音识别装置的结构示意图。如图7所示，基于顺序采样分块机制的端到端流式语音识别装置包括：

编码模块710，用于针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；

解码模块720，用于将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；

更新模块730，用于基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，编码模块710具体用于：

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，所述编码模块710具体用于：

按照行，将所述特征矩阵的转置矩阵，转换为特征序列；

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，编码模块710还用于：

基于所述第十六特征信息的序列长度，随机生成索引向量；

确定所述第一矩阵和所述第二矩阵的差值矩阵；

根据本发明提供的一种基于顺序采样分块机制的端到端流式语音识别装置，解码模块720具体用于：

获取模块，提取各语音样本的FBank特征序列；

图8是本发明提供的电子设备的实体结构示意图。如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行基于顺序采样分块机制的端到端流式语音识别方法，该方法包括：针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于顺序采样分块机制的端到端流式语音识别方法，该方法包括：针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于顺序采样分块机制的端到端流式语音识别方法，该方法包括：针对初始语音识别模型中的每个特征提取网络，将前一个特征提取网络中基于顺序采样分块机制的多头自注意力SSC-MHSA模块输出的多个语音样本的第二声学特征信息，输入所述特征提取网络中基于均匀分块机制的多头自注意力C-MHSA模块，得到所述多个语音样本的第一声学特征信息；将所述多个语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述多个语音样本的第二声学特征信息；其中，所述前一个特征提取网络中的SSC-MHSA模块输出的多个语音样本的第二声学特征信息为基于所述多个语音样本的初始声学特征信息得到的；将所述初始语音识别模型中的最后一个特征提取网络输出的所述多个语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述多个语音样本的预测信息；基于所述多个语音样本的预测信息和标签信息，更新所述初始语音识别模型的模型参数，以得到所述流式语音识别模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于顺序采样分块机制的端到端流式语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将前一个特征提取网络中SSC-MHSA模块输出的语音样本的第二声学特征信息，输入所述特征提取网络中C-MHSA模块，得到所述语音样本的第一声学特征信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述第四特征信息，输入所述C-MHSA模块中的C-MHSA层，得到第五特征信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述第七特征信息，输入所述C-MHSA模块中的卷积层，得到第八特征信息，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，将所述语音样本的第一声学特征信息，输入所述特征提取网络的SSC-MHSA模块中，得到所述语音样本的第二声学特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第十六特征信息，输入所述特征提取网络的SSC-MHSA模块中的SSC-MHSA层，得到第十七特征信息，包括：

按照行，将所述特征矩阵的转置矩阵，转换为特征序列；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述第十六特征信息的序列长度，随机生成索引向量；

确定所述第一矩阵和所述第二矩阵的差值矩阵；

8.根据权利要求1至4任一项所述的方法，其特征在于，将所述初始语音识别模型中的最后一个特征提取网络输出的所述语音样本的第二声学特征信息，输入所述初始语音识别模型中的解码器网络，得到所述语音样本的预测信息，包括：

9.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

提取各语音样本的FBank特征序列；

10.一种基于顺序采样分块机制的端到端流式语音识别装置，其特征在于，包括：

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述基于顺序采样分块机制的端到端流式语音识别方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于顺序采样分块机制的端到端流式语音识别方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于顺序采样分块机制的端到端流式语音识别方法。