CN114203170A

CN114203170A - 基于非自回归模型的流式语音识别系统及方法

Info

Publication number: CN114203170A
Application number: CN202111541837.3A
Authority: CN
Inventors: 董立波
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-18

Abstract

本发明公开了基于非自回归模型的流式语音识别系统及方法，方法包括：S11，提取声学特征序列；S12，生成声学编码状态序列；S13，生成声学编码状态序列；S14，计算CTC输出概率分布和联结时序损失；S15，利用维特比算法进行对齐；S16，逐段输入并计算联合交叉熵损失；S17，根据联结时序损失和联合交叉熵损失的联合损失计算梯度，进行反向传播；S18，循环执行S12至S17，直至完成训练；系统包括：依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性变换层和非自回归解码器。本发明通过对输入的音频段进行逐段的非自回归解码，实现了流式推理速度的提升。避免了语言建模能力的损失。

Description

基于非自回归模型的流式语音识别系统及方法

技术领域

本发明属于电子信号处理技术领域，尤其涉及一种基于非自回归模型的流式语音识别系统及方法。

背景技术

语音识别作为人机交互的入口，在辅助机器获取外部信息以及提高人机交互体验方面具有重要的应用价值。流式语音识别方法通常采用基于自回归模型的模型进行实现，常见的模型包括RNN-Transducer模型和基于注意力机制的编码解码模型，其解码器从起始符号开始，在编辑器输出的基础上，逐步或者逐帧地预测出对应的文本序列，直到预测到结束标记为止。这种自回归式解码的解码方式依赖于过去时间生成的标记，这种时序依赖特性严重影响了解码的效率，也很难通过并行计算来进一步优化推理速度。非自回归语音识别方法已经在非流式语音识别任务中获得了突破性进展，其极快的推理效率获得了很多关注，本发明针对流式识别自回归解码慢的问题，将非自回归技术引入其中，首创了基于非自回归模型的流式语音识别方法。

发明内容

本发明目的在于提供一种基于非自回归模型的流式语音识别系统及方法，以解决现有的语音识别解码的效率低，语音识别实时性差的技术问题。

为解决上述技术问题，本发明的一种基于非自回归模型的流式语音识别系统及方法的具体技术方案如下：

一种基于非自回归模型的流式语音识别系统，包括：依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层和非自回归解码器；

所述声学特征序列提取模块，用于对输入语音序列进行特征提取；

所述流式声学编码器，用于将输入语音序列转换进行流式编码，并输出声学编码状态序列；

所述CTC线性映射层，用于计算得到CTC输出概率分布，辅助确定文本标记位置；

所述非自回归解码器，用于对块状声学编码状态子序列进行非自回归解码。

本发明还公开了一种基于非自回归模型的流式语音识别方法，包括如下步骤：

S11，获取语音训练数据与对应文本数据构成语音-文本对作为训练数据，并提取声学特征序列；

S12，将声学特征序列输入流式声学编码器中，通过前向计算，输出声学编码状态序列；

S13，将声学编码状态序列输入CTC线性变换层计算得到CTC输出概率分布，并结合文本标注计算联结时序损失，即CTC损失；

S14，根据维特比算法利用CTC输出概率分布将声学编码状态序列与对应的文本标记序列进行对齐，确定文本标记序列在声学编码状态序列中的位置，并进行记录；

S15，将声学编码状态划分为等长且不重叠的声学编码特征块，如果有文本标记位于本块内部，则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入，计算出非自回归概率分布；

S16，将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失，并进行求和，得到联合非自回归交叉熵损失L_CE；

S17，将联结时序损失和联合非自回归交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播；

S18，循环执行S12至S17，直至达到预设的训练结束条件，完成训练。

进一步地，所述步骤S11中通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，所述系数是梅尔频率倒谱系数或梅尔滤波器组系数，或者通过各种预训练模型生成的低层次或者高层次特征表示。

进一步地，所述步骤S12中流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器，卷积部分负责对局部声学特征建模和时序降采样；单向自注意力网络负责建模输入序列的上文依赖关系；所述流式声学编码器由单向的循环网络模型或者卷积神经网络来构建。

进一步地，所述步骤S13中CTC线性变换层仅包含一层线性映射，负责将流式声学编码器的输出映射到输出词表大小，其每个输出单元与词表中的一个标签一一对应，所述词表中包含空格标签，对应到CTC模型中的空格标志。

进一步地，所述步骤S15中非自回归解码器的输入包含三部分，分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列；本块声学特征子序列用于计算注意力机制以获取声学信息；先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入；填充序列的长度等于一个切分中所包含的标签的个数的最大值；模型仅在填充标记位置计算出非自回归概率分布。

进一步地，所述步骤S16中交叉熵损失的计算遵循常用的交叉熵损失计算方法。

进一步地，所述步骤S17中联合损失函数L＝αL_CTC+(1-α)L_CE，α表示联结时序损失在联合损失函数中的权重，L_CTC表示联结时序损失，L_CE表示联合非自回归交叉熵损失，α为0.5。

进一步地，在完成训练后，对语音数据进行解码，包括如下步骤：

S21，从外部音频采集设备中得到一个固定长度的语音包进行逐包输入识别系统，语音包长度等于训练过程中一个块对应的音频长度；

S22，对输入语音包语音数据提取特征，得到语音特征序列；

S23，将语音特征序列输入流式声学编码器，计算得到声学编码状态序列；

S24，利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记；将声学编码状态序列通过CTC线性变换层，计算标记的CTC输出概率分布，并计算非空格标记的概率，如果非空格标记的概率大于0.5，则认为本切分中存在标记，则继续步骤S25，否则跳转是S21，重复S21～S24步骤；

S25，将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接，与本块声学编码状态子序列一起作为非自回归解码器的输入，并计算出非自回归概率分布；如果先前预测标记序列为空，则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入；

S26，对预测得到的非自回归概率分布进行解析，从填充标记的第一个位置开始，取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记，并从左到右拼接起来，直到填充的最后一个位置的输出，或者空格标记或者结束标记为止；

S27，重复S21～S26，至最后一个语音包输入并计算到解码最后一个位置为止，解码完成。

本发明的一种基于非自回归模型的流式语音识别系统及方法具有以下优点：本发明通过对输入的音频段进行逐段的非自回归解码，实现了流式推理速度的提升。每块之间又具有一定的依赖关系，从而避免了语言建模能力的损失。

附图说明

图1是本发明的整体结构示意图。

图2是本发明中训练流程示意图。

图3是本发明中解码流程示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于非自回归模型的流式语音识别系统及方法做进一步详细的描述。

如图1所示，本发明的一种基于非自回归模型的流式语音识别系统，包括：依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层、非自回归解码器。

声学特征序列提取模块，用于对输入语音序列进行特征提取；

流式声学编码器，将输入语音序列转换进行流式编码，并输出声学编码状态序列；

CTC线性映射层，用于计算得到CTC输出概率分布，辅助确定文本标记位置；

非自回归解码器，用于对块状声学编码状态子序列进行非自回归解码。如图2所示，基于非自回归模型的流式语音识别方法，包括如下步骤：

S11，获取语音训练数据与对应文本数据构成语音-文本对作为训练数据，并提取声学特征序列；通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，所述系数是梅尔频率倒谱系数或梅尔滤波器组系数，或者通过各种预训练模型生成的低层次或者高层次特征表示。

S12，将声学特征序列输入流式声学编码器中，通过前向计算，输出声学编码状态序列；流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器，卷积部分负责对局部声学特征建模和时序降采样。单向自注意力网络负责建模输入序列的上文依赖关系。其中流式声学编码器也可以由单向的循环网络模型或者卷积神经网络来构建。

S13，将声学编码状态序列输入CTC线性变换层计算得到CTC输出概率分布，并结合文本标注计算联结时序损失(CTC损失)；CTC线性变换层仅包含一层线性映射，负责将流式声学编码器的输出映射到输出词表大小，其每个输出单元与词表中的一个标签一一对应。词表中包含空格标签，对应到CTC模型中的空格标志。

S14，根据维特比算法利用CTC输出概率分布来声学编码状态序列与对应的文本标记序列进行对齐，确定每个标签在声学编码状态序列中的位置，并进行记录；

S15，将声学编码状态划分为等长且不重叠的声学编码特征块，如果有文本标记位于本块内部，则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入，计算出非自回归概率分布；非自回归解码器的输入包含三部分，分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列。本块声学特征子序列用于计算注意力机制以获取声学信息。先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入；填充序列的长度等于一个切分中所包含的标签的个数的最大值；模型仅在填充标记位置计算出非自回归概率分布；

S16，将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失，并进行求和，得到联合非自回归交叉熵损失L_CE；其中交叉熵损失的计算遵循常用的交叉熵损失计算方法。

S17，将联结时序损失和联合非自回归交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播；联合损失函数L＝αL_CTC+(1-α)L_CE，α表示联结时序损失在联合损失函数中的权重，L_CTC表示联结时序损失，L_CE表示联合非自回归交叉熵损失，α为0.5。

如图3所示，基于非自回归模型的流式语音识别方法在于完成训练后，对语音数据进行解码，包括如下步骤：

S22，对输入语音包语音数据提取特征，得到语音特征序列；

S24，利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记；将声学编码状态序列通过CTC线性变换层，计算标记的CTC输出概率分布，并计算非空格标记的概率(1-空格标记的概率)，如果非空格标记的概率大于0.5，则认为本切分中存在标记，则继续步骤S25，否则跳转是S21，重复S21～S24步骤；

S27，重复上述步骤，至最后一个语音包输入并计算到解码最后一个位置为止，解码完成。

实施例一：

基于非自回归模型的流式语音识别系统训练方法，其包括声学特征序列提取模块、流式声学编码器、CTC线性映射层、非自回归解码器，如图1所示，训练过程包括以下步骤：

步骤1，获取语音训练数据和对应的文本标注训练数据，并提取一系列语音训练数据的特征，构成语音特征序列；

语音识别的目标是将连续语音信号转化为文字序列，在识别过程中，通过对时域下的波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)，本实施例采用80维FBANK特征作为输入，其他实施例中可以采取其他特征。

步骤2，将声学特征输入一个流式声学编码器中，输出声学编码状态序列；

本实施例中流式声学编码器采用的是基于卷积网络和单向自注意力机制的声学编码器构成，卷积网络用来对输入特征进行局部建模以及时序降采样，在其他实现中，编码器可以使用基于单向长短时记忆网络(LSTM)等其他类型的编码器来代替，而基于单向自注意力机制的声学编码器，由6层或者12层的单向自注意力机制的编码模块堆叠构成，每个模块包含一个多头单向自注意力层(Multi-Head Attention)和一个前馈网络层(Feed-Forward Network)，通过经验参数，采用4或者8个注意力头，前馈网络层包含两层线性变换，线性层之间使用非线性激活函数，根据经验使用门控线性单元(GLU)作为激活函数。

多头注意力机制的实现为：

MultiHeadAttention(Q，K，V)＝Concat(head₁，...，head_n)W^O

其中MultiHeadAttention表示多头注意力机制，其将多个自注意力机制的输出向量head_i拼接到一起后经过线性层映射到一个固定维度，然后通过前馈网络FFN得到输出结果，公式中的

WO都是可以学习的权重矩阵，对于自注意力编码模块，Q＝K＝V＝X，均表示第一层自注意力编码模块输入的卷积降采样序列，或者前一层自注意力编码模块的输出，d_k是向量K的维度(等于X的维度)；

前馈计算的实现为：

FFN(x)＝GLU(xW₁+b₁)W₂+b₂

x表示前馈网络层的输入，W₁和W₂表示权重矩阵，b₁和b₂表示权重偏置向量。

步骤3，将声学编码状态序列输入一个CTC线性变换层，计算得到CTC输出概率分布并结合文本标注训练数据计算联结时序损失(CTC损失)；

其中CTC损失的计算遵循通用CTC损失计算方法，通过前后向算法对所有可能的对齐路径进行概率求和，并对概率和的负对数形式进行优化。

步骤4，根据维特比算法利用CTC输出概率分布来声学编码状态序列与对应的文本标记序列进行对齐，确定每个标签在声学编码状态序列中的位置，并进行记录；

使用维特比算法生成对齐路径的方法在语音识别中比较常用，对齐路径通过对输出概率分布中概率最大的路径进行回溯而生成。

步骤5，将声学编码状态划分为等长且不重叠的声学编码特征块，如果有文本标记位于本块内部，则将本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列作为非自回归解码器输入，计算出非自回归概率分布；

声学编码特征块的长度通常对应与长度为1秒左右的语音，其长度设置可以根据系统实时性要求进行。

步骤6，将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失，并进行求和，得到联合非自回归交叉熵损失；

针对每个编码块都需要计算交叉熵损失，每个块的输出标记根据CTC输出概率分布产生的对齐标记的位置确定。每个块仅使用块内的标记和空白标记来计算交叉熵损失。并对不同块输出的交叉熵损失进行求和，作为联合非自回归交叉熵损失L_CE。

步骤7，将联结时序损失和联合非自回归交叉熵损失进行加权，根据两者的联合损失计算梯度，进行反向传播；

联合损失函数L＝αL_CTC+(1-α)L_CE，α表示联结时序损失在联合损失函数中的权重，L_CTC表示联结时序损失，L_CE表示联合非自回归交叉熵损失，α为0.5。

步骤8，循环执行S12至S17，直至达到预设的训练结束条件，完成训练。

基于非自回归模型的流式语音识别方法，其解码包括如下步骤：

解码步骤1，从外部音频采集设备中得到一个固定长度的语音包，语音包长度等于训练过程中一个块对应的音频长度；

外部音频采集设备可以是智能手机或者其他嵌入式设备。

解码步骤2，对输入语音包语音数据提取特征，得到语音特征序列；

语音特征为梅尔频率倒谱系数(MFCC)或梅尔滤波器组系数(FBANK)，特征处理方法与训练过程保持一致。

解码步骤3，将语音特征序列输入流式声学编码器，计算得到声学编码状态序列；

解码步骤4，将声学编码状态序列通过CTC线性变换层，计算标记的CTC输出概率分布，并计算非空格标记的概率(1-空格标记的概率)，如果非空格标记的概率大于0.5，则认为本切分中存在标记，则继续步骤S25，否则跳转是S21，重复S21～S24步骤；

解码步骤5，将先前已经预测得到的标记序列以及固定长度的填充序列进行拼接，与本块声学编码状态子序列一起作为非自回归解码器的输入，并计算出非自回归概率分布；如果先前预测标记序列为空，则仅将固定长度的填充序列与本块声学编码状态子序列一起作为非自回归解码器的输入；

解码步骤6，对预测得到的非自回归概率分布进行解析，从填充标记的第一个位置开始，取得每个位置预测得到的概率最大输出对应的词表中的标记作为输出标记，并从左到右拼接起来，直到填充的最后一个位置的输出，或者空格标记或者结束标记为止；

解码步骤7，重复上述步骤，至最后一个语音包输入并计算到解码最后一个位置为止，解码完成。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于非自回归模型的流式语音识别系统，其特征在于，包括：依次相互连接的声学特征序列提取模块、流式声学编码器、CTC线性映射层和非自回归解码器；

2.一种利用如权利要求1所述的基于非自回归模型的流式语音识别系统进行流式语音识别的方法，其特征在于，包括如下步骤：

S16，将每块对应的非自回归概率分布与每块对应的文本标记分别计算交叉熵损失，并进行求和，得到联合非自回归交叉熵损失

；

3.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S11中通过对时域下的语音波形信号加窗分帧后进行离散傅里叶变换，提取特定频率分量的系数组成特征向量，一系列的特征向量构成语音特征序列，所述系数是梅尔频率倒谱系数或梅尔滤波器组系数，或者通过各种预训练模型生成的低层次或者高层次特征表示。

4.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S12中流式声学编码器是基于卷积网络和单向自注意力网络构的声学编码器，卷积部分负责对局部声学特征建模和时序降采样；单向自注意力网络负责建模输入序列的上文依赖关系；所述流式声学编码器由单向的循环网络模型或者卷积神经网络来构建。

5.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S13中CTC线性变换层仅包含一层线性映射，负责将流式声学编码器的输出映射到输出词表大小，其每个输出单元与词表中的一个标签一一对应，所述词表中包含空格标签，对应到CTC模型中的空格标志。

6.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S15中非自回归解码器的输入包含三部分，分别是本块声学特征子序列、先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列；本块声学特征子序列用于计算注意力机制以获取声学信息；先前声学编码特征块对应的文本标记序列以及固定长度的空白填充标记序列被按照顺序拼接起来作为输入；填充序列的长度等于一个切分中所包含的标签的个数的最大值；模型仅在填充标记位置计算出非自回归概率分布。

7.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S16中交叉熵损失的计算遵循常用的交叉熵损失计算方法。

8.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，所述步骤S17中联合损失函数

，α表示联结时序损失在联合损失函数中的权重，L _CTC表示联结时序损失，L _CE表示联合非自回归交叉熵损失，α为0.5。

9.根据权利要求2所述的基于非自回归模型的流式语音识别方法，其特征在于，在完成训练后，对语音数据进行解码，包括如下步骤：

S22，对输入语音包语音数据提取特征，得到语音特征序列；

S24，利用CTC输出概率分布中是否存在非空格标记概率大于0.5的条件来判断本块声学编码子序列中是否存在待解码标记；将声学编码状态序列通过CTC线性变换层，计算标记的CTC输出概率分布，并计算非空格标记的概率，如果非空格标记的概率大于0.5，则认为本切分中存在标记，则继续步骤S25，否则跳转是S21，重复S21~S24步骤；

S27，重复S21~S26，至最后一个语音包输入并计算到解码最后一个位置为止，解码完成。