CN113035178A

CN113035178A - 基于transformer的语音识别解码加速方法

Info

Publication number: CN113035178A
Application number: CN202110282790.7A
Authority: CN
Inventors: 张淳; 张伟彬; 徐向民; 邢晓芬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-25
Anticipated expiration: 2041-03-16
Also published as: CN113035178B

Abstract

本发明属于端到端语音识别技术领域，涉及的基于transformer的语音识别解码加速方法，包括以下步骤：S1、向transformer语音识别模型输入一条待识别音频特征序列和启动标签，语音识别模型输出初始时刻预测结果；S2、将启动标签同预测结果拼接，作为解码下一时刻历史预测结果；S3、向语音识别模型输入另一条待识别音频特征序列和历史预测结果，通过解码器模块的加速运算，加速计算解码各时刻预测结果序列；S4、将各时刻预测结果序列同该时刻预测结果做拼接，更新历史预测结果；S5、重复步骤上述，直至音识别模型预测出终止标签，此时解码完成，将最终的历史预测结果去除初始标签即为解码序列。

Description

基于transformer的语音识别解码加速方法

技术领域

本发明属于端到端语音识别技术领域，涉及改一种基于transformer的语音识别解码加速。

背景技术

目前最经典的语音识别方法是基于隐马尔科夫模型(Hidden Markov Model，HMM)和神经网络(Deep Neural Network,DNN)相结合的方法。尽管这种方法很好地利用了语音信号的短时平稳特性，但仍存在声学模型、发音词典、语言模型多模型级联，模型训练目标不一致、解码空间大等缺点。而端到端语音识别的发明简化了整个语音识别流程，训练目标简单一致。

目前端到端语音识别模型可以主要分为三类：连续时间分类模型(ConnectionistTemporal Classification,CTC),循环神经网络转换机模型(Recurrent Neural Network-Transducer,RNN-Transducer)和基于注意力机制的序列模型(Attention-based End-to-End Model,A-E2E)。其中，CTC模型中引入独立性假设，RNN-Transducer主要应用于流式语音识别模型，而基于注意力机制的序列模型采用注意力机制对齐帧级语音信号与文字序列，其准确性于端到端语音识别中较高。端到端语音识别框架主要分为听，注意，拼写(Listen Attend and Spell,LAS)语音识别框架和基于transformer的端到端语音识别框架。其中，基于transformer的模型因为将自注意力机制替换传统时序建模模型，其准确性有明显提高(Zhou S,Dong L,Xu S,et al.Syllable-based sequence-to-sequencespeech recognition with the transformer in mandarin chinese[J].arXiv preprintarXiv:1804.10752,2018.)。而transformer注意力模块在并行计算加快训练速度的同时，解码速度却受到了较大的影响。解码各步，自注意力模块对全部历史预测结果进行时序建模，再通过编码器-解码器注意力模块针对语音信号进行映射处理，以得到当前时刻预测结果。由此可见，transformer框架解码各步针对全部历史结果进行预测，这种建模方式在模型精度、训练效率上有很大的优势，但在解码时刻容易遇到时延过长等问题，故基于transformer的端到端语音识别模型需要在解码步骤中引入加速操作，加速解码进程。

发明内容

针对现有技术的不足，本发明提供一种改进的基于transformer的语音识别解码加速方法，在考虑模型建模结构、解码步骤等方面的因素下，通过在transformer解码各步中进行重复性比较、提炼，并且缓存重复计算步骤相应的计算结果，保存缓存结果并进行显示建模，避免重复计算，在不损失模型精度的同时提升了各个步骤的解码速度。与传统的transformer模型相比，其解码效率更高，工业实用性更强。

本发明至少通过如下技术方案之一实现。

基于transformer的语音识别解码加速方法，包括以下步骤：

S1、向transformer语音识别模型输入待识别音频特征序列和启动标签，transformer语音识别模型输出初始时刻预测结果；

S2、将启动标签同预测结果拼接，作为解码下一时刻历史预测结果；

S3、向transformer语音识别模型输入所述待识别音频特征序列和历史预测结果，transformer语音识别模型通过解码器模块的加速运算，加速计算解码各时刻预测结果序列；

S4、将各时刻预测结果序列同该时刻预测结果做拼接，更新历史预测结果；

S5、重复步骤S1～步骤S4，直至transformer语音识别模型预测出终止标签，此时解码完成，将最终的历史预测结果去除初始标签即为解码序列。

优选的，所述transformer语音识别模型包括编码器模块和解码器模块。

优选的，输入的待识别音频特征序列包括滤波器组特征、梅尔频率倒谱系数特征。

优选的，所述编码器模块为使用循环神经网络、长短时记忆网络。

优选的，所述编码器模块包括第一自注意力模块，待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示，具体公式为：

Q_B＝W_QX

K_B＝W_kX

V_B＝W_VX

其中，X＝[x₁，x₂，...，x_t，...，x_T]为待识别音频特征序列，其中x_t代表第t帧音频特征，且X∈R^T×d，T为音频序列长度，d为模型维度；W_Q、W_k、W_V代表不同的维度变换矩阵；Q_B∈R^T ^×d、K_B∈R^T×d、V_B∈R^T×d分别代表编码器查询向量、键向量、值向量，各向量通过第一自注意力模块，即为编码器模块输出的结果H_B∈R^T×d：

H_B＝V_Bsoft max(Q_BK_B ^T/√d_k)

其中，d_k为缩放因子。

优选的，所述解码器模块包括两级注意力模块，分别为第二自注意力模块和编码器-解码器注意力模块；

第二自注意力模块进行时序信息建模，具体公式为：

Q_{self_0}＝W_{Q_self}y₀

K_{self_0}＝W_{k_self}y₀

V_{self_0}＝W_{V_self}y₀

其中，y₀∈R^1×d表示初始时刻向解码器模块输入的启动标签SOS，W_{Q_self}、W_{k_self}、W_{V_self}代表维度变换矩阵；Q_{self_0}∈R^d×d、K_{self_0}∈R^d×d、V_{self_0}∈R^d×d分别为初始时刻解码器模块的查询向量、键向量、值向量；第二自注意力模块的输出为H_{self_0}∈R^1×d：

H_{self_0}＝V_{self_0}soft max(Q_{self_0}K_{self_0}T/√d_k)

所述编码器-解码器注意力模块根据第二自注意力模块建模的结果，确定当前时刻重点输入的音频特征序列区间，如下：

Q_{src_0}＝W_{Q_src}H_{self_0}

K_{src_0}＝W_{k_src}H_B

V_{src_0}＝W_{V_src}H_B

其中，W_{Q_src}、W_{k_src}、W_{V_src}代表维度变换矩阵；Q_{src_0}∈R^1×d、K_{src_0}∈R^T×d、V_{src_0}∈R^T×d分别代表时刻t＝0时的查询向量、键向量、值向量，所述编码器-解码器注意力模块的输出为H_{src_0}∈R^1×d：

H_{src_0}＝V_{src_0}soft max(Q_{src_0}K_{src_0} ^T/√d_k)。

优选的，步骤S2具体是：将输出结果H_{src_0}经过前馈层、softmax层归一化得到初始预测时刻全部文字输出概率，则输出概率最大的文字作为初始时刻预测结果y₁，且y₁∈R¹ ^×d；将y₁拼接到初始时刻向解码器模块输入的启动标签y₀之后，拼接结果作为下一时刻的历史预测结果替换y₀参与下一步的解码，此时当前模型历史预测结果为[y₀，y₁]。

优选的，步骤S3所述的加速运算包括进行第二自注意力模块和编码器-解码器注意力模块的加速运算。

优选的，所述第二自注意力模块的加速运算，具体包括以下步骤：

(1).若当前为解码时刻为t，则当前历史预测结果应为Y_t＝[y₀，y₁，...，y_t-1]，且Y_t∈R^t×d，其中y_t-1为t-1时刻模型预测结果，Y_t为初始标签同0至t-1时刻预测结果拼接所得，将t-1时刻的自注意力机制结果为缓存向量cache∈R^t-1×d，即cache＝H_{self_t-1}；

(2).解码时刻t，取y_t-1∈R^1×d作为查询向量维度变换输入，则注意力表示为：

Q_{self_t}＝W_{Q_self}y_t-1

K_{self_t}＝W_{k_self}Y_t

V_{self_t}＝W_{V_self}Y_t

H_{self_t_mid}＝V_{self_t}soft max(Q_{self_t}K_{self_t} ^T/√d_k)

其中，Q_{self_t}∈R^1×d、K_{self_t}∈R^t×d、V_{self_t}∈R^t×d为时刻t的查询向量、键向量、值向量，H_{self_t_mid}∈R^1×d为自注意力机制结果；

(3).将缓存向量cache与H_{self_t_mid}拼接，作为解码时刻t完整的自注意力机制值H_{self_t}∈R^t×d，即：

H_{self_t}＝Concat(cache，H_{self_t_mid})

其中，Concat为拼接操作，同时将H_{self_t}替换为t时刻缓存向量cache。

优选的，所述编码器-解码器注意力模块的加速运算，具体包括以下步骤：

1).将t＝0时刻键向量、值向量分别存入缓存向量cache_k∈R^T×d、cache_v∈R^T×d，即：

cache_k＝K_{src_0}

cache_v＝V_{src_0}；

2).编码器-解码器注意力模块运算表示为：

Q_{self_t}＝W_Q-selfH_{self_t}

H_{self_t}＝cache_v soft max(Q_{self_t} cache_k^T/√d_k)

其中，Q_{self_t}∈R^t×d为查询向量，H_{self_t}∈R^t×d为当前时刻编码器-解码器注意力机制运算结果。

与现有的技术相比，本发明的有益效果为：基于transformer模型的解码加速过程可以在不损失任何精度的情况下大幅度提升模型解码速度。本发明通过在解码器模块两级注意力模块内部引入加速机制，相较于传统模型可大幅减少计算复杂度，提升解码效率解决模型功耗低资源问题。

附图说明

图1为本实施例基于transformer的语音识别解码加速方法的示意图；

图2为本实施例transformer解码器自注意力模块进行加速过程的流程图；

图3为本实施例编码器-解码器注意力模块进行加速过程的流程图。

具体实施方式

下面对本发明作进一步详细的描述。

如图1、图2所示，本实施例的基于transformer的语音识别解码加速方法，包括以下步骤：

本实施中使用对选取的语音数据集提取40维FBANK作为输入音频特征，所述声学特征经过2维的卷积层，进行帧级别声学特征的隐层特征提取、降采样等操作。

S1、将待识别音频特征输入transformer语音识别模型的编码器模块。

本实施中使用对选取的语音数据集提取40维FBANK作为输入音频特征。

所述声学特征经过2维的卷积层，进行帧级别声学特征的隐层特征提取、降采样等操作。

作为另一实施例，输入额待识别音频特征可为滤波器组特征、梅尔频率倒谱系数特征。

所述编码器模块包括第一自注意力模块，待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示，具体公式为：

Q_B＝W_QX

K_B＝W_kX

V_B＝W_VX

其中，X＝[x₁，x₂，...，x_t，...，x_T]为待识别音频特征序列其中x_t代表第t帧音频特征，且X∈R^T×d，T为音频序列长度，d为模型维度；W_Q、W_k、W_V代表不同的维度变换矩阵；Q_B∈R^T ^×d、K_B∈R^T×d、V_B∈R^T×d分别代表编码器查询向量、键向量、值向量，各向量通过第一自注意力模块，即为编码器模块输出的结果H_B∈R^T×d：

H_B＝V_Bsoft max(Q_BK_B ^T/√d_k)

其中，d_k为缩放因子。

上述向量通过第一自注意力模块得出音频特征高维特征表示，即编码器模块输出结果H_B∈R^T×d：

H_B＝V_Bsoft max(Q_BK_B ^T/√d_k)

其中，d_k为缩放因子，通常取64。

作为另一实施例，编码器模块可使用循环神经网络替换自注意力模块。使用循环神经网络为：

r_t＝RNN(r_t-1，c_t-1，x_t)

其中RNN代表循环神经网络模块，r_t-1表示t-1时刻循环神经网络输出结果，c_t-1表示t-1时刻神经网络隐层表示，x_t代表第t帧音频特征；则音频特征高维表示表示为R_B＝[r₁，r₂，...，r_t，...，r_T]。

作为另一实施例，长短时记忆网络替换自注意力模块，长短时记忆网络为：

l_t＝LSTM(l_t-1，f_t-1，x_t)

其中LSTM代表长短时记忆模块，l_t-1表示t-1时刻长短时记忆网络输出结果，f_t-1表示t-1时刻神经网络隐层表示，x_t代表第t帧音频特征；则音频特征高维表示可表示为L_B＝[l₁，l₂，...，l_t，...，l_T]。

S2、同时初始时刻向transformer语音识别模型的解码器模块输入启动标签SOS，表示为y₀∈R^1×d。

所述解码器模块包括两级注意力模块，分别为第二自注意力模块和编码器-解码器注意力模块；其中：所述第二自注意力模块针对输入音频进行时序信息建模，所述编码器-解码器注意力模块则根据第二自注意力模块建模结果，确定当前时刻重点输入音频的特征序列区间。

第二自注意力模块针进行时序信息建模，具体公式为：

Q_{self_0}＝W_{Q_self}y₀

K_{self_0}＝W_{k_self}y₀

V_{self_0}＝W_{V_self}y₀

H_{self_0}＝V_{self_0}soft max(Q_{self_0}K_{self_0} ^T/√d_k)

如图3所示，所述编码器-解码器注意力模块根据第二自注意力模块建模的结果，确定当前时刻重点输入的音频特征序列区间，如下：

Q_{src_0}＝W_{Q_src}H_{self_0}

K_{src_0}＝W_{k_src}H_B

V_{src_0}＝W_{V_src}H_B

H_{src_0}＝V_{src_0}soft max(Q_{src_0}K_{src_0} ^T/√d_k)。

S3、将编码器-解码器注意力模块输出结果经过前馈层、softmax层归一化计算可得初始预测时刻全部文字输出概率，则输出概率最大的文字可视作初始时刻预测结果y₁，且y₁∈R^1×d。

S4、将y₁拼接到启动标签y₀之后，作为下一时刻的历史预测结果替换y₀参与后续解码器运算，即当前模型历史预测结果为[y₀，y₁]。

S5、transformer模型后续解码时刻，进行模型加速解码。

假设当前为解码步骤t，则历史预测结果应为Y_t＝[y₀，y₁，...，y_t-1]，且Y_t∈R^t×d。首先进行自注意力模块加速，加速解码包括以下步骤：

a、第二自注意力模块加速运算，具体包括以下步骤：

(1).保存t-1时刻的自注意力机制结果为缓存向量cache∈R^t-1×d，即cache＝H_{self_t-1}；

(2).解码时刻t，取y_t-1∈R^1×d作为查询向量维度变换输入，则注意力计算可表示为：

Q_{self_t}＝W_{Q_self}y_t-1

K_{self_t}＝W_{k_self}Y_t

V_{self_t}＝W_{V_self}Y_t

H_{self_t_mid}＝V_selftsoft max(Q_{self_t}K_{self_t} ^T/√d_k)

其中，Q_{self_t}∈R^1×d、K_{self_t}∈R^t×d、V_{self_t}∈R^t×d为查询向量、键向量、值向量。H_{self_t_mid}∈R^1×d为自注意力机制计算结果；

H_{self_t}＝Concat(cache，H_{self_t_mid})

其中，Concat为拼接操作。同时将H_{self_t}替换为t时刻缓存向量cache；

其自注意力计算简化在于，查询向量由Y_t替换为y_t-1，大小由t缩减为1，减少计算量，提升计算速度；

b、进行解码时刻t的编码器-解码器注意力加速运算，具体包括以下步骤：

1).将t＝0时刻键、值向量分别存入缓存向量cache_k∈R^T×d、cache_v∈R^T×d，即：

cache_k＝K_{src_0}

cache_v＝V_{src_0}

2).编码器-解码器注意力模块运算可表示为：

Q_{self_t}＝W_{Q_self}H_{self_t}

H_{self_t}＝cache_v soft max(Q_{self_t} cache_k^T/√d_k)

其计算简化在于，对于解码t大于1的所有步骤，省去键、值向量的计算，减少计算量，提升计算速度。

S6、将输出结果H_{self_t}经过前馈层、softmax层归一化操作可得t时刻全部文字输出概率，则输出概率最大的文字即可视作t时刻预测结果y_t。将y_t拼接到历史预测结果Y_t之后，作为t+1时刻的历史预测结果Y_t+1，即Y_t+1＝[y₀，y₁，...，y_t-1，y_t]，替换Y_t参与后续解码器运算。

S7、重复步骤S5、步骤S6计算步骤，直到解码时刻模型预测概率最大文字为停止标签EOS，解码结束。将历史预测结果去掉起始标签SOS可表示为带识别音频对应的模型识别结果。

加速处理具有以下特点：

1)假设当前时刻解码时间为t，则加速过程需要设置缓存向量cache，在自注意力模块中将前一时刻的注意力结果保存为缓存向量；编码器-解码器注意力模块加速中将t＝1时刻维度变换相应的键、值向量保存为缓存向量，方便于后续使用。

2)加速操作减少计算的目的是减少参与计算的矩阵，从而减少计算量。本发明所涉及的技术方法，在本领域的技术人员可以很容易应用到其他网络结构中，都应视为本发明的变种。上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于transformer的语音识别解码加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于transformer的语音识别解码加速方法，其特征在于，所述transformer语音识别模型包括编码器模块和解码器模块。

3.根据权利要求2所述的基于transformer的语音识别解码加速方法，其特征在于，输入的待识别音频特征序列包括滤波器组特征、梅尔频率倒谱系数特征。

4.根据权利要求3所述的基于transformer的语音识别解码加速方法，其特征在于，所述编码器模块为使用循环神经网络、长短时记忆网络。

5.根据权利要求3所述的基于transformer的语音识别解码加速方法，其特征在于，所述编码器模块包括第一自注意力模块，待识别音频特征序列输入第一自注意力模块得出音频特征高维特征表示，具体公式为：

Q_B＝W_QX

K_B＝W_kX

V_B＝W_VX

其中，X＝[x₁，x₂，...，x_t，...，x_T]为待识别音频特征序列，其中x_t代表第t帧音频特征，且X∈R^T×d，T为音频序列长度，d为模型维度；W_Q、W_k、W_V代表不同的维度变换矩阵；Q_B∈R^T×d、K_B∈R^T×d、V_B∈R^T×d分别代表编码器查询向量、键向量、值向量，各向量通过第一自注意力模块，即为编码器模块输出的结果H_B∈R^T×d：

其中，d_k为缩放因子。

6.根据权利要求5所述的基于transfomer的语音识别解码加速方法，其特征在于，所述解码器模块包括两级注意力模块，分别为第二自注意力模块和编码器-解码器注意力模块；

第二自注意力模块进行时序信息建模，具体公式为：

Q_{self_0}＝W_{Q_self}y₀

K_{self_0}＝W_{k_self}y₀

V_{self_0}＝W_{V_self}y₀

Q_{src_0}＝W_{Q_src}H_{self_0}

K_{src_0}＝W_{k_src}H_B

V_{src_0}＝W_{V_src}H_B

7.根据权利要求6所述的基于transformer的语音识别解码加速方法，其特征在于，步骤S2具体是：将输出结果H_{src_0}经过前馈层、softmax层归一化得到初始预测时刻全部文字输出概率，则输出概率最大的文字作为初始时刻预测结果y₁，且y₁∈R^1×d；将y₁拼接到初始时刻向解码器模块输入的启动标签y₀之后，拼接结果作为下一时刻的历史预测结果替换y₀参与下一步的解码，此时当前模型历史预测结果为[y₀，y₁]。

8.根据权利要求7所述的基于transformer的语音识别解码加速方法，其特征在于，步骤S3所述的加速运算包括进行第二自注意力模块和编码器-解码器注意力模块的加速运算。

9.根据权利要求8所述的基于transformer的语音识别解码加速方法，其特征在于，所述第二自注意力模块的加速运算，具体包括以下步骤：

(1).若当前为解码时刻为t，则当前历史预测结果应为Y_t＝[y₀，y₁，...，y_t-1]，且Y_t∈R^t ^×d，其中y_t-1为t-1时刻模型预测结果，Y_t为初始标签同0至t-1时刻预测结果拼接所得，将t-1时刻的自注意力机制结果为缓存向量cache∈R^t-1×d，即cache＝H_{self_t-1}；

Q_{self_t}＝W_{Q_self}y_t-1

K_{self_t}＝W_{k_self}Y_t

V_{self_t}＝W_{V_self}Y_t

H_{self_t}＝Concat(cache，H_{self_t_mid})

10.根据权利要求9所述的基于transformer的语音识别解码加速方法，其特征在于，所述编码器-解码器注意力模块的加速运算，具体包括以下步骤：

cache_k＝K_{src_0}

cache_v＝V_{src_0}；

2).编码器-解码器注意力模块运算表示为：

Q_{self_t}＝W_{Q_self}H_{self_t}