CN113380237A

CN113380237A - 增强局部依赖关系无监督预训练语音识别模型及训练方法

Info

Publication number: CN113380237A
Application number: CN202110642843.1A
Authority: CN
Inventors: 朱秋实; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-10

Abstract

本发明提供了一种增强局部依赖关系的无监督预训练语音识别模型，所述语音识别模型包括编码器模块和解码器模块；所述编码器模块包括特征提取模块和上下文模块，所述上下文模块采用包括深度可分离卷积模块的transformer编码器，所述transformer编码器包括自注意力模块；其中，所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下：所述自注意力模块后接所述深度可分离卷积模块，两者是串行关系；所述自注意力模块和所述深度可分离卷积模块并行；所述自注意力模块先和所述深度可分离卷积模块并行，然后再和所述深度可分离卷积模块串行；所述自注意力模块先和所述深度可分离卷积模块串行，然后再和所述深度可分离卷积模块并行。

Description

增强局部依赖关系无监督预训练语音识别模型及训练方法

技术领域

本发明涉及低资源语音识别领域，尤其涉及一种增强局部依赖关系的无监督预训练语音识别模型及训练方法。

背景技术

语音识别也称为自动语音识别(Automatic Speech Recognition,ASR)。其目标是将人类语音转换为计算机可读的文字或指令。低资源语音识别是语音识别的一个领域，目前利用无监督语音预训练方法来提升低资源语音识别性能是其中一种主流的方法。

无监督预训练方法采用大量无标签语音数据进行训练，能够充分利用极易获取的无标签语音数据，学习语音中的结构信息。一个具有代表性的语音无监督预训练模型是wav2vec 2.0模型。Wav2vec 2.0掩蔽语音帧信息，通过上下文预测被掩蔽的语音帧信息，然后构建对比损失函数来区分正负样本，学习语音中的结构信息。wav2vec 2.0模型是基于transformer模型结构，而transformer模型结构能够有效对长距离的上下文依赖关系进行建模，但是缺乏对细粒度局部信息的建模。由于声音事件经常发生在短时间范围内，所以长距离的上下文依赖关系和局部细粒度依赖关系都是有必要的。有研究者提出了端到端conformer模型，此模型结合深度可分离卷积模块和自注意力模块来同时建模语音中的长距离的上下文依赖关系和局部细粒度依赖关系，该模型减少了语音识别错误率。但是该conformer模型是用在端到端语音识别模型中。又有研究者提出了lite transformer模型，该模型包含两个分支，一个分支是卷积模块，另一个分支是自注意力模块，然后对两个分支的输出进行拼接。卷积模块能够捕获局部的依赖关系，而自注意力模块专注于捕获上下文依赖关系，它们各司其职，然后在机器翻译任务上取得了性能提升。这些类似的思想在不同领域均带来了性能的提升，但是在语音领域，如何在预训练模型中对局部和全局依赖性关系进行建模仍然是一个开放性的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种增强局部依赖关系的无监督预训练语音识别模型，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一方面，提供了一种增强局部依赖关系的无监督预训练语音识别模型，所述语音识别模型包括编码器模块和解码器模块；所述编码器模块包括特征提取模块和上下文模块，所述上下文模块采用包括深度可分离卷积模块的transformer编码器，所述transformer编码器包括自注意力模块；其中，

所述深度可分离卷积模块和所述自注意力模块的位置的组合方式如下：所述自注意力模块后接所述深度可分离卷积模块，两者是串行关系；所述自注意力模块和所述深度可分离卷积模块并行；所述自注意力模块先和所述深度可分离卷积模块并行，然后再和所述深度可分离卷积模块串行；所述自注意力模块先和所述深度可分离卷积模块串行，然后再和所述深度可分离卷积模块并行。

其中，所述特征提取模块采用多层卷积神经网络。

其中，所述特征提取模块包含7层卷积，卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2)，所述特征提取模块输出帧长25ms，帧移20ms。

其中，将原始语音采样点经过特征提取器提取浅层特征，所述浅层特征经过上下文模块获取上下文特征。

其中，所述解码器模块采用线性映射层或transformer decoder层。

其中，所述解码器模块的输入为上下文特征向量，输出为预测文本。

其中，所述语音识别模型还包括损失函数，所述语音识别模型在预训练阶段使用3个损失函数，在有标签数据上微调时使用1个损失函数。

其中，所述语音识别模型在预训练阶段使用3个损失函数，这3个损失函数包括对比损失函数、码本多样性损失函数和L2损失函数。

其中，在有标签数据上微调时使用1个损失函数，这个损失函数为CTC损失函数或者CE损失函数。

作为本发明的另一方面，还提供了一种如上所述的语音识别模型的训练方法，包括以下步骤：

采用如上所述的语音识别模型对语音数据进行预训练；

当语音识别模型预训练完成后，在上下文模块之后接入解码器模块，采用有标签数据用CTC损失函数或CE损失函数微调预训练模型；

利用无标签数据进行无监督预训练，在有标签数据上进行微调。

基于上述技术方案可知，本发明的增强局部依赖关系的无监督预训练语音识别模型相对于现有技术至少具有如下有益效果的一部分：

本发明提出的增强局部依赖关系的无监督预训练语音识别模型能弥补无监督预训练模型wav2vec 2.0建模局部依赖关系不足问题，能够更快地迁移到语音识别任务并且降低识别错误率。

附图说明

图1为本发明实施例提供的增强局部依赖关系的无监督预训练语音识别模型图；

图2为本发明实施例提供的transformer模块中自注意模块和深度可分离卷积模块位置关系；

图3为本发明实施例提供的960小时预训练模型在不同epoch微调WER结果。

具体实施方式

目前基于无监督预训练wav2vec 2.0方法进行低资源语音识别存在着局部信息建模不足、预训练模型训练时间长以及无监督预训练模型不能更快地迁移到低资源语音识别任务上等问题。因此本发明提出了一种增强建模局部依赖关系的无监督预训练语音识别模型，在增加少量参数的条件下，能够提高预训练效率、更快的迁移到低资源语音识别任务上以及提升低资源识别准确率。

本发明提出了一种增强局部依赖关系的无监督预训练语音识别模型。该模型的transformer编码器通过结合串并行深度可分离卷积模块来增强模型建模局部依赖关系的能力，同时使用共享参数的前馈神经网络。该发明提出的模型在保证增加少量参数的条件下，能够提升预训练效率，提高预训练模型在有标签数据上微调的速度，减少语音识别错误率。

本发明利用深度可分离卷积模块增强模型建模局部依赖关系的方法，针对transformer建模局部依赖关系能力不足的问题，在transformer结构中引入串并行深度可分离卷积模块，串并行深度可分离卷积模块能够建模局部依赖关系，transformer中的自注意力模块能够建模长距离的依赖关系。为了保证只增加少量参数，又能和conformer结构相对比，引入共享前馈神经网络层，每一个transformer层中的两层前馈神经网络层共享参数，每一个transformer层都是三明治结构(前馈神经网络-自注意力模块(卷积模块)-前馈神经网络)。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，为本发明提出的增强局部依赖关系的无监督预训练语音识别模型图，如图1左侧部分，在预训练阶段，模型输入16KHz语音采样点X＝[x₁,x₂,…,x_m…,x_n]，经过特征提取器模块获得浅层特征Z＝[z₁,z₂,…,z_t…,z_T]，然后浅层特征Z经过上下文模块获得上下文向量C＝[c₁,c₂,…,c_t…,c_T]。其中，上下文模块可以选择如图2中所示的不同卷积模块增强的transformer模块。模型预训练完成后，会在上下文模块之后接入线性映射层或者decoder(如图1右侧部分所示)，然后在有标签数据上进行微调。

该模型由编码器和解码器两部分构成，还包括损失函数。下边对其分别进行详细介绍。

(1)编码器模块

编码器模块包含特征提取模块和上下文模块。其中特征提取模块采用7层卷积神经网络,特征提取模块输入为16KHz语音采样点X＝[x₁,x₂,…,x_m…,x_n]，经过特征提取器模块获得浅层特征Z＝[z₁,z₂,…,z_t…,z_T]。上下文模块采用深度可分离卷积网络增强的transformer编码器。上下文模块包含12层transformer编码器模块，上下文模块的输入为浅层特征Z＝[z₁,z₂,…,z_t…,z_T]，输出为上下文特征向量C＝[c₁,c₂,…,c_t…,c_T]。其中卷积增强的上下文模块有多种组合方式，如图3所示。深度可分离卷积模块和自注意力模块的位置有多种组合方式，1)自注意力模块后接深度可分离卷积模块，两者是串行关系。2)自注意力模块和深度可分离卷积模块并行。3)自注意力模块先和深度可分离卷积模块并行，然后再和深度可分离卷积模块串行。4)自注意模块和深度可分离卷积模块串行，然后再和深度可分离卷积模块并行。

(2)解码器模块

解码器模块采用线性映射层或多层transformer decoder层作为解码器。解码器的输入为上下文特征向量C＝[c₁,c₂,…,c_t…,c_T]，输出为预测文本，预测文本和真实文本计算CTC损失函数或者CE损失函数。

(3)损失函数

在无监督预训练阶段，模型采用3种损失函数。1)对比损失函数。2)码本多样性损失函数。3)L2损失函数。无监督预训练的损失函数L＝L_m+αL_d+βL_f，其中L_m为对比损失函数，L_d为码本多样性函数，L_f为L2正则函数,α和β为可调节超参数。

公式中sim表示余弦相似度，q_t是经过量化之后的语音表示。p_g,v表示选择第g组第v个码本的概率。通过对比损失函数使得模型学习到区分性表示信息，通过码本多样性损失函数使得模型尽可能多地利用学到的码本增强表示的鲁棒性，通过L2损失函数使得预训练过程更加稳定。无监督语音预训练完成后，在有标签数据上微调时，使用CTC(Connectionist Temporal Classification)损失函数或者CE(Cross Entropy)损失函数。

模型预训练完成后，会在上下文模块之后接入线性映射层或者decoder，然后在有标签数据上进行微调。此时采用的损失函数为CTC损失函数或者CE损失函数。然后不断优化模型，使得模型在验证集上的损失函数最小。

本发明还公开了一种如上所述的语音识别模型的训练方法，包括以下步骤：

采用如上所述的语音识别模型对语音数据进行预训练；

为了验证本发明所提出方法的有效性，设计了如下实验。

(1)实验设置

本文在预训练阶段使用的无标签数据是公开英语数据集librispeech，一共包含960小时的语音数据。有标签数据为librispeech的100小时子集。在预训练阶段，特征提取模块包含7层卷积，卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2)，特征提取模块输出Z帧长25ms，帧移20ms。上下文模块包含12层卷积增强的transformer模块，transformer模型维度为768，前馈神经网络维度为3072，深度可分离卷积核大小为32，深度可分离卷积维度为256。模型使用pytorch实现，Adam优化器对参数进行优化。

(2)实验结果

当模型预训练完成后，在上下文模块之后接入线性映射层，采用有标签数据用CTC损失函数微调预训练模型。首先先用100小时无监督数据进行无监督预训练，然后在10小时有监督数据进行CTC微调，结果如表1所示，从表1可知transformer encoder2字错误率WER(Word Error Rate)最低，也即自注意力模块先和深度可分离卷积模块并行，然后再和深度可分离卷积模块串行性能最好。

表1利用100小时无监督数据，在10小时有监督数据微调WER结果

然后利用960小时无监督数据进行无监督预训练，在100小时有监督数据进行CTC微调。根据图3结果所示，深度可分离卷积增强的模型在预训练阶段收敛速度更快，这表明增强局部依赖关系能够提高预训练模型的训练效率。960小时预训练模型分别在1小时、10小时和100h微调，实验结果如表2所示。当增强模型建模局部依赖关系之后，模型在有标签低资源数据上WER更低。

表2：利用960小时无监督数据，分别在1小时，10小时，100小时有监督数据微调WER结果

总的来说，本发明提出了一种增强局部依赖关系的无监督预训练模型。该方法的优点在于：第一，仅增加少量模型参数的条件下，该模型能够在预训练阶段提高模型预训练效率。第二，该模型在低资源有标签数据上微调时，能够将局部的上下文信息更好的微调到下游任务中，因此语音识别准确率更好。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种增强局部依赖关系的无监督预训练语音识别模型，其特征在于，所述语音识别模型包括编码器模块和解码器模块；所述编码器模块包括特征提取模块和上下文模块，所述上下文模块采用包括深度可分离卷积模块的transformer编码器，所述transformer编码器包括自注意力模块；其中，

2.根据权利要求1所述的语音识别模型，其特征在于，所述特征提取模块采用多层卷积神经网络。

3.根据权利要求1所述的语音识别模型，其特征在于，所述特征提取模块包含7层卷积，卷积步长为(5,2,2,2,2,2,2)卷积核为(10,3,3,3,3,3,2,2)，所述特征提取模块输出帧长25ms，帧移20ms。

4.根据权利要求1所述的语音识别模型，其特征在于，将原始语音采样点经过特征提取器提取浅层特征，所述浅层特征经过上下文模块获取上下文特征。

5.根据权利要求1所述的语音识别模型，其特征在于，所述解码器模块采用线性映射层或transformer decoder层。

6.根据权利要求1所述的语音识别模型，其特征在于，所述解码器模块的输入为上下文特征向量，输出为预测文本。

7.根据权利要求1所述的语音识别模型，其特征在于，所述语音识别模型还包括损失函数，所述语音识别模型在预训练阶段使用3个损失函数，在有标签数据上微调时使用1个损失函数。

8.根据权利要求7所述的语音识别模型，其特征在于，所述语音识别模型在预训练阶段使用3个损失函数，这3个损失函数包括对比损失函数、码本多样性损失函数和L2损失函数。

9.根据权利要求7所述的语音识别模型，其特征在于，在有标签数据上微调时使用1个损失函数，这个损失函数为CTC损失函数或者CE损失函数。

10.一种如权利要求1-9任一项所述的语音识别模型的训练方法，其特征在于，包括以下步骤：

采用如权利要求1-9任一所述的语音识别模型对语音数据进行预训练；