CN113345418B

CN113345418B - 基于跨语种自训练的多语种模型训练方法

Info

Publication number: CN113345418B
Application number: CN202110642597.XA
Authority: CN
Inventors: 张自强; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2024-08-09
Anticipated expiration: 2041-06-09
Also published as: CN113345418A

Abstract

本发明提供了一种基于跨语种自训练的多语种模型训练方法，所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络，然后训练主网络来逼近所述声学音素分类器在多语种上的表征；具体包括：获取目标网络；训练主网络；将训练好的主网络迁移至目标语种自动语音识别模型。

Description

基于跨语种自训练的多语种模型训练方法

技术领域

本发明涉及低资源语音识别和语音表示学习领域，尤其涉及一种基于跨语种自训练的多语种模型训练方法。

背景技术

目前先进的语音识别(Automatic Speech Recognition,ASR)模型通常需要在成百上千的有标注数据上训练得到，而这种规模的标注数据通常在低资源语种上难以获取。预训练方法可有效解决低资源ASR的数据问题，它先通过其他资源(其他语种数据或本语种无标注数据)预训练一个模型，然后将该模型迁移到低资源ASR模型上去。

已有的预训练方法可分为有监督和无监督方法。早期的研究关注于有监督预训练，在该方法中，预训练模型通常是在一个或多个其他语种的有标注数据上训练得到，然后用来初始化目标语种ASR模型的声学模型部分或者整个模型。

在现实世界中，无标注数据通常比有标注数据更容易获取，因此与有监督预训练相比，无监督预训练具有利用大量无标注数据的优势。在此情景下，我们期望无监督模型可以产生对语音有意义的压缩表征，类似于有监督模型产生的语义表征那样。无监督预训练可以通过根据上下文重建语音帧的方式，也可以通过对比损失的方式构建自监督任务，后者中的wav2vec 2.0也成为目前单语种和多语种最先进的无监督预训练模型。

对于单语种而言，另一种同时利用有标注数据和无标注数据的训练模型的方法为自训练(Self-training,ST)，它先在有标注数据上正常训练一个ASR模型，称之为教师模型，然后利用教师模型为无标注数据生成伪标签，最后再所有的重新标注后的数据上训练一个新的ASR模型，称之为学生模型。由于教师模型不能解码其他语种的语音，因此自训练的方法只能利用本语种的数据。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于跨语种自训练的多语种训练方法及模型，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种基于跨语种自训练的多语种模型训练方法，所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络，然后训练主网络来逼近所述声学音素分类器在多语种上的表征；具体包括：

获取目标网络；

训练主网络；

将训练好的主网络迁移至目标语种自动语音识别模型。

其中，所述训练主网络包括：

获取目标网络表征，在输入多语种数据时，使用多视角数据增强对数据进行扰动；

获取主网络表征，输入多语种数据时，使用多视角数据增强对数据进行扰动；

模型参数滑动平均。

其中，所述多视角数据增强对输入的语音特征序列进行随机扰动，使所述目标网络和所述主网络分别接收不同视角下的语音特征序列，以此来增强所述主网络的表征重建能力和上下文建模能力。

其中，所述模型参数滑动平均在训练的过程中将所述主网络的模型参数以滑动平均的方式加到所述目标网络上去，不断优化所述目标网络的表征，使得训练过程朝着多语种表征能力不断增强的方向进行。

其中，所述训练方法还包括构建损失函数，以产生训练信号并指导主网络参数更新；接收目标网络和主网络的输出语音表征序列，并计算两个语音表征序列模值归一化之后的欧式距离。

其中，所述将训练好的主网络迁移至目标语种自动语音识别模型，具体包括：

主网络训练完毕后，单独拿出来去掉MLP非线性预测器之后，作为下游目标语种自动语音识别模型的声学部分，并在其上加上随机初始化的线性分类层。

其中，所述目标网络和主网络的结构一致，包括级联的卷积结构、Transformer层和MLP非线性预测器。

其中，所述目标网络是在某个语种上预先训练好的音素分类器，用于产生帧级别的语音表征；所述目标网络的输入是任一语种的语音特征序列，输出是时域降采样后的语音表征序列。

其中，通过训练所述主网络来优化主网络对于多语种的语音表示能力；所述主网络的输入是任一语种的语音特征序列，输出是时域降采样后的语音表征序列。

基于上述技术方案可知，本发明的基于跨语种自训练的多语种模型训练方法相对于现有技术至少具有如下有益效果的一部分：

目前基于无监督的训练方法存在语音表征不足、而有监督训练方法又存在数据不足的局限性。因此本发明提出了基于跨语种自训练的训练方法，目的是利用少量的有标注数据来增强模型在多语种无标注数据上的语义表征能力。

附图说明

图1为基于跨语种自训练的多语种预训练方法的流程图。

具体实施方式

目前基于无监督的预训练方法存在语义表征不足的局限性，而有监督预训练方法又存在数据不足的局限性。因此本发明提出了基于跨语种自训练的多语种训练方法，目的是利用少量的有标注数据来增强模型在多语种无标注数据上的语义表征能力。通过该方法预训练得到的模型，可作为多语种通用的初始化模型，迁移到任何一个低资源语种上去，促进低资源语种ASR模型的准确率。

本发明提出了一种基于跨语种自训练(Cross-lingual Self-training,XLST)的模型训练方法。在该训练模型的框架中，我们假设帧级的语音表征在具有跨语种的共享特性。该方法先在某个高资源语种的有标注数据上训练一个声学音素分类器，然后训练另一个模型来逼近该声学音素分类器在多语种上的表征。在此过程中，多视角数据增强(Multi-view augmentation)和滑动平均(Moving Average,MA)被用来促进训练。本发明能有效利用少量的某个高资源语种的有标注数据来促进模型在多语种无标注数据上的表示能力，预训练后的模型在下游的语音识别任务上具有跟好的迁移性能。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出了一种基于跨语种自训练的多语种模型训练方法，其技术方案如下：

该模型由两个平行的网络构成，称之为目标网络和主网络，两个网络的结构一致，由级联的卷积结构、Transformer层和MLP非线性预测器组成。另外，损失函数模块、多视角数据增强模块、滑动平均机制用于模型训练阶段。

1.目标网络模块。该模块是在某个语种上预先训练好的音素分类器，用于产生帧级别的语音表征。它的输入是任一语种的语音特征序列，依次通过卷积(CNN)网络层，Transformer层和MLP非线性预测层，输出时域降采样后的语音表征序列。该模块的预先训练是在某个高资源语种的少量有标注数据上完成的，使用传统的交叉熵训练准则。

2.主网络模块。该模块的网络结构和目标网络模块相同，通过训练该网络来优化它对于多语种的语音表示能力。它的输入是和目标网络输入相同的语音特征序列，输出是语音表征序列。

3.损失函数模块。该模块用于构建损失函数，产生训练信号并指导主网络参数更新。它接收目标网络和主网络的输出语音表征序列，并计算它们模值归一化之后的欧式距离(等价于余弦相似度)，训练的目标是最大化帧级表征在两个网络之间的相似度。

4.多视角数据增强模块。该模块用于对输入的语音特征序列进行随机扰动，使目标网络和主网络分别接收不同视角下的语音特征序列，以此来增强主网络的表征重建能力和上下文建模能力。随机扰动包括三种：1)频域掩蔽，即随机掩蔽掉语音频谱中的某些频带；2)时域掩蔽，即随机掩蔽掉语音频谱中的某些时域带；3)Mixup，即随机混合两条语音特征序列。

5.滑动平均机制。该机制用于在训练的过程中将主网络的参数以滑动平均的方式加到目标网络上去，不断优化目标网络的表征，使得训练过程朝着多语种表征能力不断增强的方向进行。

最后，在主网络训练完毕后，其网络参数可用来初始化任一目标语种的ASR模型的声学部分，通过在目标语种的少量有标注数据上进行微调，即可得到目标语种的ASR系统。

本发明公开了一种基于跨语种自训练的多语种预训练方法，方法包括先在某个高资源语种的有标注数据上训练目标网络，然后训练主网络来逼近该声学音素分类器在多语种上的表征；具体包括：获取目标网络；训练主网络；将训练好的主网络迁移至目标语种自动语音识别模型。

其中，所述训练主网络包括：获取目标网络表征，在输入多语种数据时，使用多视角数据增强对数据进行扰动；获取主网络表征，输入多语种数据时，使用多视角数据增强对数据进行扰动；参数滑动平均。

在本发明进一步的实施例中，预训练一共涉及两个阶段，目标网络的获得和主网络的训练。预训练结束后，将主网络作为初始化，对下游目标语种进行微调得到ASR模型。下面依次介绍各个阶段：

步骤1：目标网络的获取，所需模块：目标网络模块、多视角数据增强模块。

目的是得到一个初始化的表征，在本发明中，目标网络是预先在某个高资源语种(如英语)的有标注数据上，通过传统有监督训练得到的。假设提供的有标注数据集中的每条语音特征x＝(x₁,x₂,…,x_T)(时间长度为T)具有帧级别的音素标注p＝(p₁,p₂,…,p_T)。目标网络接收增强后的x作为输入，输出每帧的音素后验概率分布，然后通过交叉熵准则进行训练。

步骤2：主网络的训练，所需模块：所有模块。

目标网络得到后，构建如图1所示的训练框架，如图1所示，左边的虚线框内表示目标网络其参数θ_o预先通过传统有监督的方式在某高资源语种的有标注数据上训练好，然后在此用作对多语种语音样本x^u提供初始化的表征序列，即其中A和A′表示多视角数据增强模块。右边虚线框表示主网络f_θ，其参数θ为可训参数，主网络接收x^u同样产生一条表征序列，即e＝f_θ(A′(x^u))。损失函数模块为最上方的Similarity部分，这里计算两条表征的归一化后的欧式距离，即滑动平均机制(MA)用于将主网络的参数加权到目标网络上去，即θ_o←λθ_o+(1-λ)θ.训练后的主网络参数可以作为任一目标语种ASR模型声学部分的初始化。

主网络训练的具体流程为：

步骤2.1：目标表征的获取，所需模块：目标网络模块，多视角数据增强模块

利用上一步训练好的目标网络，对多语种数据(时间长度为T)生成帧级别的表征，该表征取自目标网络的分类层之前，即同时，在输入x^u时，可使用数据增强模块对其扰动。

步骤2.2：主网络表征的获取。所需模块：主网络模块，多视角数据增强模块

由于主网络的模型结构和目标网络相同，只是参数不同，因此可以产生相同形状但不同内容的表征，即e＝f_θ(A′(x^u))，在这里，同样使用数据增强模块对输入进行扰动，A′的意思表示它与目标网络做的是不同随机化的扰动，因此，该扰动会使主网络的表征内容进一步偏离目标网络，训练的目的就是在此前提下使主网络的表征逼近目标网络，以此来提升主网络的信息抽取能力和上下文建模能力。

步骤2.3：损失函数的计算和梯度更新，所需模块：损失函数模块

损失函数模块用于计算主网络和目标网络的表征的相似度。这里用模值归一化后的欧式距离来衡量，即随后，使用梯度下降算法如Adam等更新主网络的参数θ。

步骤2.4：参数滑动平均，所需模块：主网络、目标网络

在主网络每进行一次梯度更新之后，滑动平均机制(MA)用于将主网络的参数以权重(1-λ)加到目标网络上去，以优化目标网络对多语种的表征，即θ_o←λθ_o+(1-λ)θ。

步骤3：迁移至目标语种ASR阶段，所需模块：主网络模块

主网络训练完毕后，单独拿出来去掉MLP层之后，作为下游目标语种ASR模型的声学部分，并在其上加上随机初始化的分类层。如分类数为目标语种音素个数的线性投影层，用于CTC训练；或者自回归的Decoder层，用于ED训练。

为了验证本发明所提出方法的有效性，设计了如下实验：

(1)实验设置

实验使用100小时的英语作为高资源语种的有标注数据，另外使用793小时的来自10个语种的无标注语音数据作为多语种数据，对比实验使用了1250小时英语无标注语音数据。实验首先使用100小时有标注数据和交叉熵损失训练目标网络，记为T-100；然后使用T-100和457小时无标注英语数据按照本发明提出的方法训练得到主网络，记为ST-en457，该步骤仍是在英语即单一语种上进行的；最终，使用ST-en457作为目标网络，793小时多语种无标注数据按照本实验提出的方法训练得到主网络，记为XLST-multi793；作为对比，使用ST-en457作为目标网络，额外的793小时英语无标注数据来训练得到主网络，记为ST-en1250.

实验使用VGG-Transformer作为目标网络和主网络的结构，包含两个VGG层和12个Transformer层，Transformer层的attention维度和ffn维度分别是512和2048。在网络的最上方包含一个MLP非线性投影层，其隐层维度为2048，输出维度为256。单个网络模型参数量为45M。输入语音特征为83维的fbank(对数梅尔谱)，经过VGG层时域降采样为原来的1/2。

训练时，使用的多视角数据增强配置如下：频域掩蔽为2条宽度为0-27的频带；时域掩蔽为随机采样的宽度为10帧的窗口，整条序列被掩蔽的比率为40％；为简化训练，Mixup只用在目标网络的获取阶段即有监督训练阶段。

主网络训练好后，选取5个语种(西语、法语、意大利语、俄语、鞑靼语)作为下游ASR任务，ASR模型为主网络去掉MLP层之后加上一个2拼帧线性分类层。ASR模型在目标语种的1小时有标注数据上进行CTC训练。

(2)实验结果

关于跨语种自训练的实验结果如表1所示。从该表可以看出，1)对于英语预训练模型来说，使用本方法的若监督模型(ST-1250)的迁移性能甚至超过了全有监督预训练模型(CTC-Transfer)，说明本发明提出的方法即使只在英语上预训练，也更具有可迁移性；2)多语种上本发明提出的方法得到的预训练模型(ST-multi793)的迁移性能得到进一步增强，对比同样数据条件下的无监督预训练模型(wav2vec 2.0-Multi)，其下游ASR任务平均音素错误率(PER)相对下降了18.6％，相对于英语预训练模型(ST-1250)，PER下降了34.7％，可见本发明的预训练模型在多语种上可以学习到更好的语音表征。

表1.跨语种自训练得到的预训练模型在下游任务上的ASR结果，数据栏的*标注表示有标注数据

为了验证多视角数据增强模块和滑动平均机制的作用，进行了如表2和表3的实验，表2说明，滑动平均机制在只使用英语数据时虽然没有正面效果，但在从英语迁移到多语种时效果显著；表3表明，多视角数据增强模块对模型的迁移性能的提升起到了很重要的角色，特别是时域掩蔽，它可以促使模型学习到更多的上下文依赖关系。

表2.滑动平均机制(MA)对预训练模型的影响

表3.多视角数据增强模块对预训练的影响

总的来说，本发明提出了一种基于跨语种自训练的多语种训练方法，它从一个额外的有标注语种上训练的音素分类器出发，通过跨语种自训练，逐渐学习到多语种的语音表示。在此过程中，滑动平均机制和多视角数据增强模块起到了重要的作用。最后，在相似的数据条件下，本发明方法训练得到的模型可以显著提升在下游ASR任务上的性能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于跨语种自训练的多语种模型训练方法，其特征在于，所述方法包括先在某个高资源语种的有标注数据上训练声学音素分类器作为目标网络，然后在多语种无标注数据上训练主网络来逼近所述声学音素分类器在多语种上的表征；具体包括：

获取目标网络；

训练主网络，其中，所述训练主网络包括：

获取目标网络表征，在输入多语种数据时，使用多视角数据增强对数据进行扰动；获取主网络表征，输入多语种数据时，使用多视角数据增强对数据进行扰动；模型参数滑动平均；

将训练好的主网络迁移至目标语种自动语音识别模型。

2.根据权利要求1所述的多语种模型训练方法，其特征在于，所述多视角数据增强对输入的语音特征序列进行随机扰动，使所述目标网络和所述主网络分别接收不同视角下的语音特征序列，以此来增强所述主网络的表征重建能力和上下文建模能力。

3.根据权利要求1所述的多语种模型训练方法，其特征在于，所述模型参数滑动平均在训练的过程中将所述主网络的模型参数以滑动平均的方式加到所述目标网络上去，不断优化所述目标网络的表征，使得训练过程朝着多语种表征能力不断增强的方向进行。

4.根据权利要求1所述的多语种模型训练方法，其特征在于，所述训练方法还包括构建损失函数，以产生训练信号并指导主网络参数更新；接收目标网络和主网络的输出语音表征序列，并计算两个语音表征序列模值归一化之后的欧式距离。

5.根据权利要求1所述的多语种模型训练方法，其特征在于，所述将训练好的主网络迁移至目标语种自动语音识别模型，具体包括：

6.根据权利要求1所述的多语种模型训练方法，其特征在于，所述目标网络和主网络的结构一致，包括级联的卷积结构、Transformer层和MLP非线性预测器。

7.根据权利要求1所述的多语种模型训练方法，其特征在于，所述目标网络是在某个语种上预先训练好的音素分类器，用于产生帧级别的语音表征；所述目标网络的输入是任一语种的语音特征序列，输出是时域降采样后的语音表征序列。

8.根据权利要求1所述的多语种模型训练方法，其特征在于，通过训练所述主网络来优化主网络对于多语种的语音表示能力；所述主网络的输入是任一语种的语音特征序列，输出是时域降采样后的语音表征序列。