CN113140220A

CN113140220A - 基于卷积自注意力变换网络的轻量级端到端语音识别方法

Info

Publication number: CN113140220A
Application number: CN202110398481.6A
Authority: CN
Inventors: 张晓雷; 李盛强; 陈星�
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-20
Anticipated expiration: 2041-04-12
Also published as: CN113140220B

Abstract

本发明公开了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型，该模型对卷积自注意力变换网络进行改进，构成高效卷积自注意力变换网络；将低秩分解用于卷积自注意力变换网络中的前馈层，形成低秩前馈模块；提出多头高效自注意力MHESA，并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力；最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性，并将整个模型的参数量减少了约50％，而性能基本不变。

Description

基于卷积自注意力变换网络的轻量级端到端语音识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种轻量级端到端语音识别方法。

背景技术

语音识别(ASR，Automatic Speech Recognition)旨在将语音信号转换为文本内容，它可以形象地比喻为“机器的听觉系统”，是人机通信和交互技术的重要研究领域，也是人工智能的关键技术之一。语音识别可以应用到包括语音助手、自动驾驶、智能家居、手持移动设备等许多方面。近年来发展出的端到端语音识别技术，相比传统方法有着众多优点，如训练数据的标注简单、对语言学知识的依赖小、不需要隐马尔可夫模型中基于马尔科夫链的状态转移概率的条件独立假设，同时模型的训练和解码过程也更简单。目前主要有三种流行的端到端的方法，即连接时序分类(CTC，Connectionist TemporalClassification)、递归神经网络变换器(RNN-T，Recurrent Neural Network-Transducer)和基于注意力机制的编码器-解码器(AED，Attention based Encoder-Decoder)。

其中AED模型主要有两种，第一种AED模型采用递归神经网络(RNN,RecurrentNeural Network)作为其编码器和解码器的基础模块。第二种AED模型采用Transformer作为其编码器和解码器的基础模块。由于Transformer比RNN准确率高，训练速度快，因此基于Transformer的AED模型逐渐成为主流。但Transformer也存在一些缺点，如点积自注意力的计算复杂度随输入特征序列长度呈二次方增长、模型参数量大等。

近年来涌现了一些降低点积自注意力计算复杂度的研究：①通过轻量级的动态卷积代替了自注意力层；②利用局部密集的合成器注意力，来限制注意力权重的长度，从而减少了存储和计算的复杂度；③使用正交正随机特征进行快速注意力计算，并获得了很好的效果。另一方面，有许多压缩模型，减小参数量的工作。比如：①QuartzNet模型使用一维可分离卷积，基于CTC损失训练，并在LibriSpeech数据集上实现了近乎最高的准确性；②Low-rank Transformer采用低秩矩阵分解来压缩模型大小，同时性能下降很少；③卷积自注意力变换网络将自注意力与相对位置编码、卷积相结合，从而以较小的模型尺寸实现了最新的结果；④ContextNet结合了全卷积编码器和RNN-T解码器，该编码器通过添加Squeeze和Excitation模块将全局上下文信息合并到卷积层中。

发明内容

为了克服现有技术的不足，本发明提供了一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，首先构建基于卷积自注意力变换网络的轻量级端到端语音识别模型，该模型对卷积自注意力变换网络进行改进，构成高效卷积自注意力变换网络；将低秩分解用于卷积自注意力变换网络中的前馈层，形成低秩前馈模块；提出多头高效自注意力MHESA，并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力；最终经过训练得到语音识别模型对语音进行识别。本发明将编码器自注意力层的计算复杂度降为线性，并将整个模型的参数量减少了约50％，而性能基本不变。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建基于卷积自注意力变换网络的轻量级端到端语音识别模型；

步骤1-1：对卷积自注意力变换网络的编码器进行改进，构成高效卷积自注意力变换网络；

步骤1-2：高效卷积自注意力变换网络的编码器包括两个低秩前馈模块，以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块；

对于第i个高效卷积自注意力变换网络的输入X_i，输出Y_i由公式(1)到(4)得到：

X″_i＝X′_i+Conv(X′_i) (3)

其中LFFN(.)表示低秩前馈模块，MHESA(.)表示多头高效自注意力模块，Conv(.)表示卷积模块，Layernorm(.)表示层归一化；

步骤1-3：低秩前馈模块；

将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵，用这两个矩阵替换原来的线性层权重矩阵，形成低秩前馈模块；对于低秩前馈模块的输入X，输出为：

LFFN(X)＝Dropout(Dropout(Swish(XE₁D₁))E₂D₂) (5)其中，Dropout(.)表示线性层，Swish(.)表示Swish激活函数；

E₁和D₁为第一个线性层权重矩阵分解的两个矩阵，E₂和D₂为第二个线性层权重矩阵分解的两个矩阵；d和d_ff表示前馈模块的输出维度和隐层维度，d_bn表示所添加的瓶颈层的维度；

步骤1-4：多头高效自注意力模块；

对于多头高效自注意力模块中的第h个头，输入特征

通过三个线性投影层形成查询

键

和值

多头高效自注意力模块的第h个头的输出为：

其中，σ_row和σ_col分别表示沿矩阵的行或列应用softmax函数，d_k＝d_m/H表示每个头的输出维度，H表示注意力头的个数，d_m表示多头自注意力层的隐层维度，T是输入特征的长度；

多头高效自注意力用公式(7)表示：

MultiHead(Q，K，V)＝Concat(Z₁，…，Z_H)W^O (7)

其中，

为输出投影层的参数矩阵，U_h则有如下表示：

Z_h＝E(Q_h，K_h，V_h) (8)

步骤1-5：卷积模块；

卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化；

步骤1-6：高效卷积自注意力变换网络包括N个编码器和M个解码器，N个编码器和M个解码器依次串行连接，构成语音识别模型；

步骤2：采用语料库数据，使用Adam优化器，设定训练参数，训练语音识别模型；

步骤3：将待识别语音输入训练完成的语音识别模型，语音识别模型进行识别输出相应的文本。

优选地，所述N＝12，M＝6。

本发明的有益效果如下：

1.本发明将多头高效自注意力引入卷积自注意力变换网络，成功将编码器自注意力层的计算复杂度降为线性。

2.本发明首次将低秩矩阵分解应用于卷积自注意力变换网络中的前馈模块，将参数量减少了约50％，而性能下降很小。

附图说明

图1为本发明方法的低秩前馈模块示意图。

图2本发明方法中高效卷积自注意力变换网络计算过程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了多头高效自注意力(MHESA,Multi-Head Effcient Self-Attention)，并采用MHESA取代了卷积自注意力变换网络编码器中的点积自注意力，使得其中自注意力层的计算复杂度从输入序列长度的二次方降低为线性。MHESA比点积自注意力计算复杂度低，训练速度快，而且性能一样。此外，将低阶矩阵分解用于卷积自注意力变换网络中的前馈模块以降低模型参数量。

一种基于卷积自注意力变换网络的轻量级端到端语音识别方法，包括以下步骤：

X″_i＝X′_i+Conv(X′_i) (3)

步骤1-3：低秩前馈模块；

在卷积自注意力变换网络的编码器和解码器中都包含前馈模块，每个前馈模块由两个线性层和Swish激活函数组成，如图1所示；则对于前馈模块的输入X，输出为：

FFN(X)＝Dropout(Dropout(Siwsh(XW₁))W₂)

其中，

分别是两个线性层的权重矩阵，同时考虑到矩阵分解，用两个小矩阵去近似原始线性层的权重矩阵，进而得到：

LFFN(X)＝Dropout(Dropout(Swish(XE₁D₁))E₂D₂) (5)

其中，

矩阵W₁需要d×d_ff个参数和d×d_ff次浮点运算，而E₁，D₁只需d_bn×(d+d_ff)个参数和d_bn×(d+d_ff)次浮点运算。通常，由于瓶颈层的尺寸非常小，有d_bn＜＜d_ff，d，所以E₁，D₁的参数量和浮点运算次数比W₁要小得多。

步骤1-4：多头高效自注意力模块；

对于多头点积自注意力中的第h个头，输入特征

通过三个线性投影层以形成查询

键

和值

其中，T是输入特征的长度，H是注意力头的个数，d_m是多头自注意力层的隐层维度，d_k＝d_m/H是每个头的输出维度；第h个点积自注意力模块的输出为：

点积自注意力需要计算注意力权重矩阵

则每个头的计算复杂度为O(T²)；

多头点积自注意力可以用下式表示：

MultiHead(Q，K，V)＝Concat(U₁，…，U_H)W^O

其中，

为输出投影层的参数矩阵，Uh则有如下表示：

为了将自注意力层的计算复杂度降低到线性，本发明提出了一种简单但有效的多头高效自注意力模块，该模块在效果上等效于点积注意力，但速度更快，具体如下：

对于多头高效自注意力模块中的第h个头，输入特征

通过三个线性投影层形成查询

键

和值

多头高效自注意力模块的第h个头的输出为：

其中，σ_row和σ_col分别表示沿矩阵的行或列应用softmax函数；

如图2所示，高效的自注意力将矩阵乘法的顺序从(QK^T)V变换为Q(K^TV)，并且对效果没有影响，但是将每个头的计算复杂度从O(T²)降低为

多头高效自注意力用公式(7)表示：

MultiHead(Q，K，V)＝Concat(Z₁，…，Z_H)W^O (7)其中，

为输出投影层的参数矩阵，Z_h则有如下表示：

Z_h＝E(Q_h，K_h，V_h) (8)

步骤1-5：卷积模块；

卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化，批归一化的作用是帮助训练模型；

步骤1-6：高效卷积自注意力变换网络包括12个编码器和6个解码器，N个编码器和M个解码器依次串行连接，构成语音识别模型；

具体实施例：

1、数据准备：

在实施例中，实验数据采用公共语言普通话语料库AISHELL-1。训练集包含由340位说话人录制的大约150个小时(120,098条语句)的语音；开发集包含由40位说话人录制的大约20个小时(14,326条语句)的语音；测试集包含由20位说话人录制的大约10个小时(7,176条语句)的语音。

2、数据处理：

提取80维的对数梅尔滤波器组特征，帧长为25ms，帧移为10ms，并且对特征进行归一化，使每个说话人的特征均值为0，方差为1。此外，选择4233个字符(包括填充符号“<PAD>”，未知符号“<UNK>”和句子结尾符号“<EOS>”)作为建模单元。

3、搭建网络：

本发明提出的模型和基线模型均基于ESPnet工具包，基线模型采用此工具包中提供的卷积自注意力变换网络。本发明中的高效卷积自注意力变换网络模型由12个编码器块和6个解码器块组成，模型中所有的多头注意力均采用4个头。卷积前端采用两个2-D卷积层，卷积核大小为3*3，步长为2，通道数为256，激活函数为ReLU。多头注意力和前馈层的输出特征向量维度是256。编码器和解码器中低秩前馈模块的瓶颈层维度均为100。

对于模型训练，使用Adam优化器，学习率峰值为0.0005，并进行30k次步骤的预热。此外，使用SpecAugment进行数据增强。一共训练50个周期，将最后10个周期的模型参数进行平均作为最终的模型。在测试阶段，设置波束搜索的宽度为20，并且引入基于Transformer的语言模型进行浅层融合。

4、实验效果：

表1比较不同ASR模型的各项指标(T是输入特征长度)

表1在AISHELL-1数据集上，比较了本发明中的高效Conformer模型和一些最先进模型的字错误率，这些模型包括：Speech-Transformer，Low-rank Transformer，LDSA和Conformer。

本发明模型在开发集和测试集上的字错误率分别为4.71％和5.05％，只比卷积自注意力变换网络稍差一些。但本发明模型的主要优点是：与卷积自注意力变换网络相比，参数量减少了约50％，并提高了训练速度。从表中各项指标看，本发明的模型明显优于其他具有代表性的ASR模型。

表2高效Conformer在消融实验中的各项指标(T是输入特征长度)

从高效卷积自注意力变换网络开始，逐渐移除它的特征组块，来分析各项指标。a.将低秩前馈模块(LFFN)替换为普通前馈模块(FFN)；b.用MHSA代替MHESA。

本发明的高效卷积自注意力变换网络与传统卷积自注意力变换网络主要有以下几点区别：多头高效自注意力、低秩前馈模块以及编码器-解码器注意力相邻层间的残差连接。表2显示了每次更改的效果：a.LFFN将参数数量减少了约50％，而性能下降很小；b.MHESA将编码器自注意力层的计算复杂度从O(T²)降低到O(T)，而不会降低性能。