CN115064155A

CN115064155A - 一种基于知识蒸馏的端到端语音识别增量学习方法及系统

Info

Publication number: CN115064155A
Application number: CN202210652586.4A
Authority: CN
Inventors: 林志贤; 刘皓轩; 林珊玲; 郭太良; 林坚普; 徐万颜; 肖智阳
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-16

Abstract

本发明涉及一种基于知识蒸馏的端到端语音识别增量学习方法及系统，该方法首先将语音识别模型初始化为教师模型和学生模型；编码器的目标函数的第一部分是对教师、学生模型的编码器的输出概率分布做KL散度，第二部分是利用Grad‑cam++方法由教师、学生模型的编码器的输出生成各自的注意力图，并对注意力图做转移；同理，计算解码器的目标函数，然后将产生的loss进行线性组合并在原有训练策略的配合下训练学生模型；同时基于文本聚类思想对旧数据集的标签聚类，在每个类中抽取少量旧数据加入新数据集中训练学生模型。该方法及系统有利于在不接触或仅少量接触旧数据集的前提下解决灾难性遗忘的问题，实现模型在小数据集上快速微调收敛进而节约时间和计算成本。

Description

一种基于知识蒸馏的端到端语音识别增量学习方法及系统

技术领域

本发明属于语音识别技术领域，具体涉及一种基于知识蒸馏的端到端语音识别增量学习方法及系统。

背景技术

端到端语音识别作为多分类问题，将声学模型和语言模型统一建模，目前该方法逐步达到甚至超越了传统的机器学习方法。但是多分类的端到端语音识别方法在新任务的fine-tune训练存在灾难性遗忘问题，因此，需要一种有效的训练策略在能够快速降低新场景数据错误率的前提下尽可能降低对旧数据集的遗忘。

常见的fine-tune训练方法在不加限制的条件下直接在新数据集上训练，由于新数据集的分布不一致等问题往往导致灾难性遗忘，即旧数据集的错误率急剧增大。基于知识蒸馏的增量学习方法一般需要接触较多旧数据集或者与旧数据集一起联合训练，但这在实际应用中往往受限且消耗的时间和计算成本很大。通过有效的目标函数的约束实现注意力转移进而在不接触或仅少量接触旧数据的前提下实现基于知识蒸馏的增量学习在实际中有广阔的应用前景。

发明内容

本发明的目的在于提供一种基于知识蒸馏的端到端语音识别增量学习方法及系统，该方法及系统有利于在不接触或仅少量接触旧数据集的前提下解决灾难性遗忘的问题，实现模型在小数据集上快速微调收敛进而节约时间和计算成本。

为实现上述目的，本发明采用的技术方案是：一种基于知识蒸馏的端到端语音识别增量学习方法，利用知识蒸馏框架并设计多任务目标函数实现增量学习；首先将端到端的语音识别模型初始化为教师模型和学生模型；编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度，以使在训练过程中学生模型的输出概率分布尽可能接近教师模型，第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图，并对教师模型和学生模型的注意力图做转移；采用同样的方法计算解码器的目标函数的第一部分和第二部分，然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型，以使学生模型快速适应新场景数据且遗忘较少；同时基于文本聚类思想对旧数据集的标签聚类，在每个类中抽取少量旧数据加入新数据集中训练学生模型，进一步确保学生模型不会遗忘旧数据集。

进一步地，使教师模型和学生模型的编码器或解码器的输出概率分布尽可能接近的具体方法为：

对教师模型和学生模型的编码器或解码器的输出概率分布做KL散度，计算两者分布差异，得到增量学习的多任务目标函数的第一部分，产生的loss在训练过程中使学生模型的输出概率分布尽可能接近教师模型，控制学生模型对旧数据集的遗忘。

进一步地，采用Grad-cam++方法生成教师模型和学生模型各自的注意力图的具体方法为：

选择编码器的输出作为特征图，利用Grad-cam++思想计算特征图的权重矩阵，将所述权重矩阵与特征图逐元素再相乘，经过ReLU函数去除负类的影响，最终得到教师模型和学生模型各自的注意力图；教师模型和学生模型的解码器以同样的方法处理得到其各自的注意力图。

进一步地，对教师模型和学生模型的注意力图做转移的具体方法为：

将生成的注意力图进行全局归一化之后，经过ReLU函数过滤掉负类的影响，对教师模型和学生模型生成的注意力图计算L_2范数，这部分的计算结果为增量学习的多任务目标函数的第二部分；编码器或解码器的目标函数均为各自的第一部分和第二部分的线性组合。

进一步地，在原有训练策略的配合下训练学生模型的具体方法为：

原有训练策略为训练端到端的语音识别学生模型的时序分类CTC、交叉熵CE目标函数，本方法总的目标函数为知识蒸馏产生的目标函数与原有训练策略产生的线性组合，以加速原有训练策略的目标函数的快速收敛，并控制遗忘。

进一步地，基于文本聚类思想抽取旧数据加入训练的具体方法为：

首先利用text-to-vec对旧数据集的标签做句嵌入，具体为采用CoSENT模型将标签统一为固定长度的矢量；然后利用k-means方法对标签矢量聚类，聚类中心大于预设值以消除text-to-vec的高语义相关性，使聚类的类别尽可能从不同的文本及发音信息涵盖旧数据集；在每个类中从类中心到边缘依次递减抽取少量旧数据加入新数据集中训练学生模型，进一步确保学生模型不会遗忘旧数据集。

本发明还提供了一种端到端语音识别的增量学习系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：本发明能够在不接触旧数据集或少量接触旧数据集的前提下快速适应新场景的数据集且对旧数据集几乎没有遗忘，而新场景数据集的wer/cer快速下降。本发明有效的解决了灾难性遗忘的问题，使得在新场景的业务数据下不再需要重新训练，极大地节约了时间和计算成本。

附图说明

图1为本发明实施例的方法实现流程图。

图2为本发明实施例的模型架构图。

图3为本发明与其他方法的测试对比结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于知识蒸馏的端到端语音识别增量学习方法，该方法利用知识蒸馏框架并设计多任务目标函数实现增量学习。该方法针对的端到端的语音识别模型包括Conformer等sequence-to-sequence结构和非sequence-to-sequence结构。首先将端到端的语音识别模型初始化为教师模型和学生模型；编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度，以使在训练过程中学生模型的输出概率分布尽可能接近教师模型，第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图，并对教师模型和学生模型的注意力图做转移。采用同样的方法计算解码器的目标函数的第一部分和第二部分。然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型，以使学生模型快速适应新场景数据且遗忘较少。同时基于文本聚类思想对旧数据集的标签聚类，在每个类中抽取少量旧数据加入新数据集中训练学生模型，进一步确保学生模型不会遗忘旧数据集。本实施例的模型结构如图2所示。

在本实施例中，对教师模型和学生模型的输出概率分布的具体处理方法为：

利用KL散度的线性组合来衡量两者的分布，具体而言，对应图2中的sequence-to-sequence模型，教师模型和学生模型的编码器的输出经过全连接层和softmax后，输出为多分类任务的输出概率分布矩阵。利用KL散度计算两个模型输出概率矩阵的差异，得到增量学习的多任务目标函数的第一部分，产生的loss在训练过程中使得教师模型和学生模型的输出分布尽可能接近。教学模型和学生模型的解码器做同样的操作。这一部分的目标函数主要是为了控制遗忘，并不会直接作用在新数据集的拟合上。

其中，p和q分别表示学生模型和教师模型的输出概率分布，这部分计算出的目标函数为增量学习的多任务目标函数的第一部分，对应于图2中的RBKD部分。

在本实施例中，生成教师模型和学生模型各自的注意力图并对注意力做转移的具体方法为：

首先利用Grad-cam++思想从特征图生成注意力图，以编码器的输出作为特征图，表示为

其中d_h为维数，K是序列长度。特征图经过全连接层和softmax输出的概率矩阵表示为

M为字典长度。利用CTC greedy search计算模型的得分，即为：

可以假设类别C获得的得分Y^C是对特征图A_υ的全局线性加权，即

权重矩阵

一般为CTC greedy search Y^C得分对特征图A_υ的一阶导数，因为梯度可以一定程度反应信息的重要程度，如果再增加一个额外的权重对一阶梯度进行加权，

变为：

其中

如下：

生成的注意力图表示为：

其中Q_v即为生成的注意力图，在本方法中，注意力图为模型的最可能预测提供了与高层次感兴趣特征相关的推理，这被证明对学生模型学习教师模型的行为非常有用。

教师模型和学生模型的解码器以同样的方法处理得到其各自的注意力图。

对注意力图做转移，注意力转移的计算过程为：

这部分计算出的目标函数为增量学习的多任务目标函数的第二部分，对应于图2中的SBKD部分。

基于知识蒸馏的增量学习的loss为：L_st＝α·L_RBKD+β·L_SBKD，即编码器或解码器的目标函数均为各自的第一部分和第二部分的线性组合。

需要说明的是，本方法还是需要在原有训练策略的配合下训练学生模型，原有训练策略为训练端到端的语音识别模型的学生模型的CTC(Connectionist temporalclassification，时序分类)、CE(交叉熵)目标函数，本方法总的目标函数为知识蒸馏产生的目标函数与原有训练策略产生的线性组合，以加速原有训练策略的目标函数的快速收敛，并控制遗忘。

以Conformer模型为例，学生网络还是需要加持基于编码器输出的CTC loss和基于解码器输出的CE loss来训练，这两部分loss表示为L_ctc+ce。因此训练学生网络的loss表示为：Loss＝γ·L_ctc+ce+δ·L_st。同时，基于教师-学生网络的解码器经过同样的处理，即L_st＝μ·L_st-encoder+(1-μ)·L_st-decoder。整个训练过程基于教师模型的训练配置，新数据集和训练教师模型的旧数据集没有交集。

在本实施例中，基于文本聚类思想抽取旧数据加入训练的具体方法为：

首先利用text-to-vec对旧数据集的标签做句嵌入，本实施例中采用的是CoSENT模型将标签统一为固定长度的矢量；然后利用k-means方法对标签矢量聚类，聚类中心大于预设值以消除text-to-vec的高语义相关性，使聚类的类别尽可能从不同的文本及发音信息涵盖旧数据集；在每个类中从类中心到边缘依次递减抽取少量旧数据加入新数据集中训练学生模型，进一步确保学生模型不会遗忘旧数据集。

图3示出了几种增量学习方法的测试结果，其中Dataset1,2,3分别表示aishell、aidatatang、方言数据集，新数据集统一训练7轮。其中New training栏下可以很想比较几种方法在新数据集的测试错误率，Old training和New training的第二栏可以比较旧数据集的遗忘。从图3中可以看出，与其他先进的增量学习方法相比，此方法能够较为明显的控制遗忘，也能保证新数据集的错误率快速降低，可以很好地解决灾难性遗忘的问题，同时利用文本聚类抽取旧数据加入训练效果是最好的，因为抽取的旧数据一般控制在0.5％左右，因此不会耗费更多资源。

当仅在新场景数据集上增量学习遗忘较大，如新场景数据是特殊方言时，需要抽取一部分旧数据和新场景数据联合训练。接触旧数据的策略是利用CoSENT等模型对旧数据集的标签做句嵌入，输出统一为768维的特征矢量。之后利用k-means聚类，在每个类中抽取一部分旧数据加入新数据集中训练学生模型。在每个簇中抽取数据具体操作为从簇中心到边缘依次递减抽取，抽取的数据总量约为旧数据集的0.5％左右。将抽取的数据和新场景数据联合在本发明提出的目标函数和训练策略下训练学生模型。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，利用知识蒸馏框架并设计多任务目标函数实现增量学习；首先将端到端的语音识别模型初始化为教师模型和学生模型；编码器的目标函数的第一部分是对教师模型和学生模型的编码器的输出概率分布做KL散度，以使在训练过程中学生模型的输出概率分布尽可能接近教师模型，第二部分是利用Grad-cam++方法由教师模型和学生模型的编码器的输出生成各自的注意力图，并对教师模型和学生模型的注意力图做转移；采用同样的方法计算解码器的目标函数的第一部分和第二部分，然后将教师模型和学生模型的编码器和解码器产生的loss进行线性组合并在原有训练策略的配合下训练学生模型，以使学生模型快速适应新场景数据且遗忘较少；同时基于文本聚类思想对旧数据集的标签聚类，在每个类中抽取少量旧数据加入新数据集中训练学生模型，进一步确保学生模型不会遗忘旧数据集。

2.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，使教师模型和学生模型的编码器或解码器的输出概率分布尽可能接近的具体方法为：

3.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，采用Grad-cam++方法生成教师模型和学生模型各自的注意力图的具体方法为：

4.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，对教师模型和学生模型的注意力图做转移的具体方法为：

5.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，在原有训练策略的配合下训练学生模型的具体方法为：

6.根据权利要求1所述的一种基于知识蒸馏的端到端语音识别增量学习方法，其特征在于，基于文本聚类思想抽取旧数据加入训练的具体方法为：

7.一种基于知识蒸馏的端到端语音识别增量学习系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-6任一项所述的方法步骤。