CN112699678A

CN112699678A - 一种结合动态词汇增强的模型蒸馏方法

Info

Publication number: CN112699678A
Application number: CN202110309962.5A
Authority: CN
Inventors: 顾嘉晟; 李瀚清; 岳小龙; 高翔; 纪达麒; 陈运文
Original assignee: Daguan Data Chengdu Co ltd
Current assignee: Daguan Data Chengdu Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-04-23
Anticipated expiration: 2041-03-24
Also published as: CN112699678B

Abstract

本发明涉及人工智能领域中的自然语言处理技术领域，公开了一种结合动态词汇增强的模型蒸馏方法，包括：在ALBert语言模型的基础上，通过微调技术结合动态词汇增强技术对语言模型进行调整，得到微调后的语言模型，将其作为教师模型；在对语言模型进行微调时，不同于常规的微调逻辑，在微调过程中，先将词典信息的特征与语言模型的输出特征进行合并，然后再进行微调；微调结束后，对教师模型进行蒸馏，将获取的模型预测结果作为学生模型的训练依据。本发明提供的模型蒸馏方法，通过引入词典信息作为关键信息，使得模型在大幅缩减尺寸的情况下仍然可以捕获词典信息作为特征，从而达到在不牺牲抽取准确性的情况下大幅降低模型尺寸、加快推断速度的目的。

Description

一种结合动态词汇增强的模型蒸馏方法

技术领域

本发明涉及人工智能领域中的自然语言处理技术领域，尤其涉及一种结合动态词汇增强的模型蒸馏方法。

背景技术

文本关键信息抽取是自然语言处理领域中最常见的一项任务。近些年自从Bert出现后，基于Transformer机制的模型层出不穷，从Bert到RoBERTa，再到XLNet、GPT-3等模型不断刷新着关键信息提取任务的准确率。然而在NLP任务实际落地时，企业考虑到成本、效率等因素，往往会使用高并发模型部署的技术架构，而大尺寸的模型在多副本的体系中意味着占用大量的GPU资源。企业追求的往往不是最高的准确率，而是在准确率和推断速度中得到最好的权衡。这使得这些在学术界一再刷新纪录的模型在工业落地中确面临着极大的问题：模型尺寸过大，参数过多，从而导致模型训练过程太过耗费资源，同时模型推断也过于依赖高配置设备，推断速度过慢等。

近些年逐渐有企业意识到模型落地难，成本高昂的问题，也在尝试使用各种方法尝试降低模型尺寸。例如华为在今年10月发布的TinyBert[1]，通过对Bert模型实现蒸馏，模型缩小了7.5倍，实现了9.4倍的推断提速，然而模型准确率却下降了3.2%，其原因是在迁移学习过程中，丢失了一定的语义信息。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供了一种结合动态词汇增强的模型蒸馏方法，该方法在模型微调的过程中通过增加词典信息来降低模型尺寸并提升模型准确率，结合动态词汇增强技术实现模型蒸馏。

本发明采用的技术方案如下：一种结合动态词汇增强的模型蒸馏方法，包括以下步骤：

步骤1：在ALBert语言模型的基础上，通过微调技术结合动态词汇增强技术对语言模型进行调整，得到微调后的语言模型，将其作为教师模型；

其中，动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现；而所述词典信息为针对不同的专业领域而收集的相应的专业信息构成的信息集合。

在对语言模型进行微调时，不同于常规的微调逻辑，在微调过程中，先将词典信息的特征与语言模型的输出特征进行合并，然后再进行微调。

步骤2：对教师模型进行蒸馏，将获取的模型预测结果作为学生模型的训练依据。

在该过程中，首先将语言模型的输出特征与词典信息的特征合并为embedding向量，再将embedding向量输入至教师模型的全连接层，通过该全连接层对embedding向量进行降维操作，然后再连接进条件随机场，通过条件随机场对教师模型中的原句的每个token做出预测，将该预测结果作为学生模型的训练依据。

进一步的，在对教师模型进行蒸馏的过程中，还包括计算蒸馏过程中的损失值，其具体过程如下：通过计算教师模型和学生模型之间预测值的差，将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值，从而实现蒸馏过程中损失值的梯度更新。

与现有技术相比，采用上述技术方案的有益效果为：

1．通过在模型结构中引入词典信息，可以弥补无监督语言模型语义理解不够精准的问题。该种方式无需对语料分词，只需通过匹配信息讲词语的embedding合并进Bert语言模型的输出即可，在为模型增加语义信息的同时也不会增加模型计算的负担。

2．通过使用模型蒸馏的方式，在训练教师模型的基础上训练了更小型的学生模型，虽然小程度上增加了训练过程的复杂度，但是由于学生模型的结构更简单，且语义信息都是从教师模型通过迁移学习的方式蒸馏过来，因此可以大幅降低模型推断的时间。

3．当为专有业务领域文本训练模型时，可以通过配置中增加专有领域词典来提升模型在该领域内的语义理解度。

4．该方法可以使得最终训练生成的学生模型大小远远小于常规模型的大小，同时由于其推断速度快，占用资源少，十分方便被部署在微服务架构的系统中。

5．由于大大减少了模型尺寸，该方法在推断过程中可以摆脱对GPU的依赖，可以在较为低配的小型设备上进行使用。

附图说明

图1是本方法的工作流程示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

为了使本实施例给出的技术方案清楚明白，下面对本实施例中提到的专业用语进行解释：

Encode：表示编码。

Token：表示令牌。

CRF：表示条件随机场。

GPU：表示显卡。

本实施例提供一种结合动态词汇增强的模型蒸馏方法，该方法采取模型蒸馏和在微调过程中增加词典信息来降低学生模型尺寸并提升学生模型准确率，整体的工作流程如图1所示，具体步骤如下：

首先，针对ALBert语言模型，对其进行微调，不同于常规的微调逻辑，在对ALBert语言模型进行微调的过程中，将微调技术和动态词汇增强技术进行结合，这样可以弥补无监督语言模型语义理解不够精准的问题；将微调后ALBert语言模型作为教师模型，进行下一步的模型蒸馏。

在常规的对ALBert语言模型进行微调的过程中，下游模型通常使用基准预训练模型得到的参数进行初始化，然后使用来自下游具体任务的标签数据对模型中所有参数进行微调。

而在本实施例中的微调过程中，动态词汇增强技术要求在进行参数初始化过程中使用基准预训练模型对词典中的所有匹配词语都进行encode，并叠加在原始语料上进行相应地升维操作。例如设置768维的原始文字在输入层中的权重维度为1，该字所在的所有词汇中高频词汇权重为0.2，低频词汇为0.1，以此将文本中的每个token定义为1000维的向量，以此提升下游模型对专有领域语义的理解能力。

其中，动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现；而所述词典信息为针对相应的专业领域而收集的专业信息构成的信息集合。

然后，对教师模型进行蒸馏，将获取的模型预测结果作为学生模型的训练依据。

在该过程中，将已经合并的ALBert语言模型的输出特征与词典信息的特征作为embedding向量，然后将embedding向量输入至教师模型的全连接层，通过该全连接层对embedding向量进行降维操作，然后再连接进CRF，通过CRF对教师模型中的原句的每个token做出预测，将该预测结果作为学生模型的训练依据。

在对教师模型进行蒸馏的过程中，还包括计算蒸馏过程中的损失值；在计算蒸馏过程的损失值时，可以通过计算教师模型和学生模型之间预测值的差，将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值，从而实现蒸馏过程中损失值的梯度更新，以此方式来获得一个更高性能和精度的学生模型。

在本方法中，通过在模型微调过程中加入词典信息，为每个位置的token都叠加以该token为结尾的所有词语的embedding信息。这样设计的好处有两个：一是很大程度上为模型后续的处理人为地注入语义信息，二是在不同领域预料的任务下可以通过人为地控制专有语料词典来达到不同领域语料微调的效果。

例如，在医疗领域有大量的专有词汇，在医疗领域文本抽取任务中，如果模型没有充足的领域词汇的积累往往会导致模型准确率不高。使用该发明方法，可以使用通用词典+医疗领域专有词典构成一份特定的词典。在获取输入层向量时，使用ALBert模型的输出叠加词典匹配的embedding信息构成输入层，再将输出连入全连接层进行降维，再接入CRF进行标签解码得出最终结果。而这一过程中学生模型可以学到教师模型中的泛化能力。

这样训练出来的推断模型甚至可以摆脱对GPU的限制，及时是在医生普通的办公电脑上都可以实现快速的推断，医生可以通过本机部署该服务后，快速抽取病例或其他医学文献中的关键信息。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

Claims

1.一种结合动态词汇增强的模型蒸馏方法，其特征在于，包括：

步骤1：在ALBert语言模型的基础上，通过微调技术以及动态词汇增强技术对该语言模型进行微调，得到微调后的语言模型，将其作为教师模型；

2.根据权利要求1所述的一种结合动态词汇增强的模型蒸馏方法，其特征在于，所述动态词汇增强技术通过在教师模型的网络结构中添加词典信息实现；其中，所述词典信息为针对不同的专业领域而收集的相应的专业信息构成的信息集合。

3.根据权利要求2所述的一种结合动态词汇增强的蒸馏模型方法，其特征在于，所述通过微调技术以及动态词汇增强技术对该语言模型进行微调的过程包括：将词典信息的特征与语言模型的输出特征进行合并后，再对语言模型进行微调。

4.根据权利要求3所述的一种结合动态词汇增强的模型蒸馏方法，其特征在于，所述步骤2具体包括：将语言模型的输出特征与词典信息的特征合并为embedding向量，再将embedding向量输入至教师模型的全连接层，通过该全连接层对embedding向量进行降维操作，然后再连接进条件随机场，通过条件随机场对教师模型中的原句的每个token做出预测，将该预测结果作为学生模型的训练依据。

5.根据权利要求2或4所述的一种结合动态词汇增强的模型蒸馏方法，其特征在于，在对教师模型进行蒸馏的过程中还包括：

计算蒸馏过程中的损失值，其具体过程如下：通过计算教师模型和学生模型之间预测值的差，将两者预测值的差和学生模型的损失值加在一起来计算整个蒸馏过程的损失值，从而实现蒸馏过程中损失值的梯度更新。