CN115273827A

CN115273827A - 多口音语音识别的具有域对抗训练的自适应注意力方法

Info

Publication number: CN115273827A
Application number: CN202210729139.4A
Authority: CN
Inventors: 杨颜冰; 王龙标; 侯庆志
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-01

Abstract

本发明公开多口音语音识别的具有域对抗训练的自适应注意力方法。首先建立基于Transformer的对抗端到端网络，使用细分类的领域对抗训练对模型进行预训练，使模型具有更好的口音鲁棒性，产生口音鲁棒的语音识别特征；通过外部口音分类网络提取每条语音的口音判别性特征；建立基于自注意力机制的自适应模块，加载用对抗训练预训练好的Transformer模型，将生成器生成的特征和使用口音分类网络提取的口音特征一同输入到自适应模块中进生成的自适应特征输入到解码器中，推理时加载口音特征提取网络、自适应模块和语音识别网络。本发明提高多口音语音识别性能。此外，所提出的方法对看不见的口音有很好的性能提升。

Description

多口音语音识别的具有域对抗训练的自适应注意力方法

技术领域

本发明涉及语音识别技术领域，具体为一种多口音语音识别的具有域对抗训练的自适应注意力方法，基于多层自注意力模型、对抗训练和自适应方法的语音识别算法。

背景技术

自动语音识别(ASR)旨在从语音中获取转录。在众多直播录制场景中取得了骄人的成绩。然而，现实世界中的语音可变性问题对ASR系统提出了严峻的挑战。口音是一个典型的语音变异问题，它是由地理区域、社会群体等引起的(参考文献^[1])。不同口音的ASR之间的性能差距仍然很大，在一种口音或标准语音上训练的ASR系统在面对其他口音语音时会降级。因此，很难用有限的口音语音数据构建口音鲁棒系统。

以前的工作主要通过两种方式探索构建具有口音鲁棒性的ASR系统：引入口音相关信息和生成口音无关特征。引入口音相关信息的主要思想是使用口音相关信息，例如i-vectors、口音IDs或口音嵌入来管理多口音ASR系统，或以多任务方式使用它。一些口音自适应网络还引入了口音相关信息(参考文献^[2])。这些架构旨在将口音信息合并到单个通用模型中，它们总是在看到的口音中取得更好的结果，而口音相关的自适应网络还可以减少训练数据和测试数据之间的不匹配。

为了生成与口音无关的特征，ASR系统通常使声学模型的输出包含尽可能少的口音信息。对抗性训练可以有效缓解口音不匹配问题。域对抗训练(DAT)是对抗训练的常用技术，它强制中间表示对于不同的口音语音是口音不变的。DAT已被证明可以提高多口音ASR模型的口音鲁棒性。域对抗训练(DAT)(参考文献^[3])尝试从端到端(E2E)编码器(参考文献^[4])的输出中去除口音信息。但对抗训练并不能使得生成器生成的特征完全不受口音的影响，对于一些口音所生成的特征还具有很高的口音判别性，这使得生成的用于语音识别的特征对口音不够鲁棒，影响多口音语音识别的准确率。参考文献如下：

[1]Koenecke,Allison,et al."Racial disparities in automated speechrecognition."Proceedings of the National Academy of Sciences 117.14(2020):7684-7689.

[2]Zhu,Han,et al."Multi-accent adaptation based on gate mechanism."arXiv preprint arXiv:2011.02774(2020).

[3]Ganin,Yaroslav,et al."Domain-adversarial training of neuralnetworks."The journal of machine learning research 17.1(2016):2096-2030.

[4]Vaswani,Ashish,et al."Attention is all you need."Advances inneural information processing systems 30(2017).

Kim,Suyoun,Takaaki Hori,and Shinji Watanabe."Joint CTC-attentionbased end-to-end speech recognition using multi-task learning."2017IEEEinternational conference on acoustics,speech and signal processing(ICASSP).IEEE,2017.

发明内容

本发明为了提高多口音语音识别的准确度，提出了具有域对抗训练的自适应注意力方法(AANet)，使用域对抗训练并且进一步使用自适应方法，消除DAT中残留口音信息的影响。AANet采用DAT来初始化Transformer编码器。实验结果表明，AANet可以进一步减少DAT训练模型中的口音不匹配，可以提高许多口音的语音识别能力，尤其是提高看不见口音的性能。在AANet网络中，自适应注意力模块将编码器的输出转换为自适应特征并输入到Transformer模型的解码器中，而基于注意力的适配器通过口音分类器获取口音信息。

本发明的目的是通过以下技术方案实现的：多口音语音识别的具有域对抗训练的自适应注意力方法，包括如下步骤：

(一)基于Transformer模型的对抗训练模型：

领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统，例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说，为口音不变的特征)。

对抗训练策略可三个过程：优化口音分类器的参数，使其对训练数据的误差最小化；优化注意力编码器和解码器的参数以最小化ASR任务的损失；同时对生成器的参数进行了优化，以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器(Transformer的编码器)和口音分类器(编码器后接的线性分类网络)之间应用梯度反转层，将三个训练过程嵌入到一个网络中。

(二)口音判别性特征的提取

口音提取器网络使用Transformer-CTC模型(参考文献^[5])构建的，是一个基于自注意(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类，在最后一个编码器之后应用平均标准池化层以在T维度上池化输出，池化后，将其输入线性层以区分口音类并优化交叉熵损失。此外，使用ASR下游任务训练的编码器来初始化口音分类网络的编码器，以提高口音特征的口音判别性。

(三)自适应

所提出的带有DAT的自适应注意力方法(AANet)模型的架构基于E2E-DAT架构，具有口音判别性特征提取网络和新颖的自适应注意力模块。使用多头自注意力，并使用线性层作为位置编码层，这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。

(四)训练流程

根据分析，DAT生成的特征仍然是口音判别信息。因此，本发明应用提出的自适应注意模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。

(1)对口音提取器进行预训练。它用于输出稳定的口音识别嵌入；

(2)冻结口音提取器的参数，通过DAT训练E2E ASR网络，直到E2E网络收敛。

判别器中口音分类的准确率不再下降，保持在一个较低的值。

(3)冻结口音鉴别器的参数，并应用基于注意力的方法来优化DAT预训练的ASR网络。

与现有技术相比，本发明具有的优点：

与现有技术相比，本发明提出了一种基于域对抗训练(DAT)的口音自适应器，进一步消除DAT中剩余口音信息的影响。

本发明使用DAT对Transformer编码器进行了预训练。然后，编码器输出和口音嵌入被输入到适配器以获得自适应特征。

本发明发现DAT对每种口音的处理方式不同；大多数编码器输出包含剩余的当前口音信息；一些编码器输出包含不正确的口音信息；而少数编码器输出包含丰富的口音信息或较少的口音信息。本发明所提出的方法在有限的数据集合上进行训练，不仅使用了对抗训练进行多口音语音识别的训练，使得模型具有鲁棒性，并且在对抗训练之后，使用基于自注意力的自适应机制，对域对抗训练后编码器中残留的口音进行自适应，从而进一步提高了多口音语音识别的准确性。

附图说明

图1为本发明所使用的所有网络架构：

(a)DAT架构的流程图；(b)提议的自适应注意力模块；(c)具有

E2E基线的自适应注意力；(d)提议的AANet；

图2为本发明在2020AESRC测试集合不同口音上的语音识别结果；

图3为本发明的口音特征提取起的分类精度；

图4为本发明训练集合不可见的口音被口音分类网络分类为可见的某种口音的概率；

图5为本发明中DAT模型(测试集)中第n个最大softmax值的口音分类精度，Sn代表第n个最大的softmax；

图6模型(测试集)中第n个最大softmax值的训练集不存在的口音精度，Sn代表第n个最大的softmax。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

(一)基于transfomer模型的对抗训练模型：

领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统，例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说，为口音不变的特征)。本发明的语音识别领域对抗框架在图1(a)中进行了说明，它由三个主要组件组成：口音不变特征f、生成器G、输入语音特征x和参数θ_f；口音分类网络C、输入口音判别性特征f_a和参数θ_a，其中输入的口音判别性特征f_a由注意力解码器产生的特征f输入到T维上的池化层中，产生的均值特征f_mean和方差特征f_std得到：

f_a＝f_mean+f_std

整个训练策略分为三个过程：优化口音分类器的参数，使其对训练数据的误差最小化；优化注意力编码器和解码器的参数以最小化ASR任务的损失；同时对生成器的参数进行了优化，以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器和口音分类器之间应用梯度反转层，将三个训练过程嵌入到一个网络中。

整个流程的损失函数为：

E(θ_f，θ_y，θ_c)＝L_ASR(θ_f，θ_y)-λL_C(θ_f，θ_c))

其中θ_f，θ_y，θ_c，分别是生成器G，解码器D，口音分类器C的权重矩阵；L_ASR为Transformer模型的损失函数，Lc是口音分类模型的损失函数：

L_ASR＝(1-γ)L_ATT+γL_CTC

其中L_ATT为注意力的损失函数，L_CTC为基于神经网络的时序类分类损失函数，γ为CTC损失函数的权重系数。

对抗训练的优化策略为：

梯度下降的规则为：

(二)口音判别性特征的提取

口音提取器网络是使用Transformer-CTC模型构建的，它是一个基于自注意力(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类，在最后一个编码器之后应用平均标准池化层以在T维度上池化输出，池化后，本发明将其输入线性层以区分口音类并优化交叉熵损失：

L_E＝CE(Linear(mean(v_a)+std(v_a))，v_true)

其中V_true是样本的真实口音标签，v_a是输入的口音相关特征。

此外，本发明还使用ASR下游任务训练的编码器来初始化口音分类网络的编码器，以提高口音特征的口音判别性。

(三)自适应注意力

所提出的带有域对抗训练的自适应注意力方法(AANet)模型的架构基于Transformer-CTC和DAT架构，具有口音判别性特征提取网络和新颖的自适应注意模块。在本节中，本发明将详细描述每个模块并说明AANet的相应训练策略。

自适应注意力模块的架构如图1(b)和图1(c)，分布描述了自适应注意力方法在简单的E2E网络中使用时的结构。自适应模块在下文中称为A_att。将编码器输出表示为f，v_a是该样本的口音音嵌入，att表示注意力和位置层网络，其参数为θ_a。

整个适应过程描述为如下公式：

其中⊙表示元素级积，att(v_a,θ_a)表示注意力网络。

特别地，本发明使用多头自注意力，并使用线性层作为位置编码层，这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。

(四)训练流程

根据分析，DAT生成的特征仍然是口音判别信息。因此，本发明应用提出的自适应注意力模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。

判别器中口音分类的准确率不再下降，保持在一个较低的值；

图2为本发明在2020AESRC测试集合不同口音上的语音识别结果；

图3为本发明的口音特征提取起的分类精度；

Claims

1.多口音语音识别的具有域对抗训练的自适应注意力方法，其特征在于，包括如下步骤

(1)训练基于Transformer的对抗训练语音识别网络：

首先使用对抗训练进行Transformer模型的预训练，领域对抗训练通过使用梯度翻转层，同时优化生成器和分类器，最小化语音识别和口音分类的损失，使得生成器和分类器优化目标对抗，促进生成器生成更有泛化性的特征；

(2)训练口音分类网络，提取口音判别性特征

训练基于Transformer的口音分类器，使用Transformer的编码器后接线性层计算交叉熵损失来进行口音分类，并把训练好的Transformer的编码器输出作为口音判别性特征，为达到更好的分类效果，该模型经过同数据集的语音识别预训练；

(3)使用自适应模块进行语音识别模型的口音自适应

使用DAT进行预训练后，Transformer编码器输出特征中仍具有一些口音的判别性，所构建的基于注意力的自适应模块，通过将输入的语音同时也输入到口音分类网络中，提取口音判别性特征，随后将判别性特征输入到自适应模块里，通过权重计算与主体网络的编码器输出特征融合以达到自适应的目的。

2.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法，其特征在于，步骤(1)中，使用DAT预训练Transformer语音识别网络，DAT网络通过在生成器和口音分类器之间应用梯度反转层，将三个训练过程嵌入到一个网络中，同时最小化ASR任务的损失并最大化口音分类器的损失。

3.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法，其特征在于，步骤(2)中，使用语音识别预训练Transformer，并使用此Transformer的编码器后接线性层计算交叉熵损失来进行口音分类，用编码器的特征作为口音判别性特征。

4.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法，其特征在于，步骤(3)中，具体步骤如下：

(1)对口音提取器进行预训练，用于输出稳定的用于口音判别性特征；

(2)冻结口音提取器的参数，通过DAT训练端到端的ASR网络，直到E2E网络收敛，判别器中口音分类的准确率不再下降，保持在一个较低的值；

DAT整个流程的损失函数为：E(θ_f，θ_y，θ_c)＝L_ASR(θ_f，θ_y)-λ_LC(θ_f，θ_c))

其中：θ_f，θ_y，θ_c，分别是生成器G，解码器D，口音分类器C的权重矩阵；

L_ASR为Transformer模型的损失函数，Lc是口音分类模型的损失函数：

L_ASR＝(1-γ)L_ATT+γL_CTC

其中：L_ATT为注意力的损失函数，L_CTC为基于神经网络的时序类分类损失函数，γ为CTC损失函数的权重系数；

其优化策略为：

(3)冻结口音鉴别器的参数，并应用基于注意力的方法来优化DAT预训练的语音识别模型的识别效果，整个适应过程描述为如下公式：

其中：⊙表示元素级积，att(v_a,θ_a)表示注意力网络；

使用多头自注意力，并使用线性层作为位置编码层，这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。