CN114510943A

CN114510943A - 一种基于伪样本重放的增量式命名实体识别方法

Info

Publication number: CN114510943A
Application number: CN202210150846.8A
Authority: CN
Inventors: 夏宇; 李素建
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-17
Anticipated expiration: 2042-02-18
Also published as: CN114510943B

Abstract

本发明公布了一种基于伪样本重放的增量式命名实体识别方法，是知识图谱构建技术的基础，属于自然语言处理中的信息抽取技术领域。本发明在学习阶段，给定了一个只包含新实体类型的训练集，将旧模型作为教师，训练新的学生模型时，在常规的交叉熵损失上增加了知识蒸馏损失；在复习阶段，生成关于旧类型的伪样本作为复习材料，通过在复习材料上进一步蒸馏，来温故旧知识，并将其和新知识整合起来。本发明使用旧类型的伪样本为复习材料提供新类型的监督信号，使用教师提供旧类型的监督信号，有了上述新旧类型的监督信号后，本发明可以使用此监督信号来约束新学生模型在复习材料上的输出。

Description

一种基于伪样本重放的增量式命名实体识别方法

技术领域

本发明提供一种增量式命名实体识别技术，具体设计一种基于伪样本重放的命名实体识别方法，是知识图谱构建技术的基础，属于自然语言处理中的信息抽取技术领域。

背景技术

传统的命名实体识别^[1]是指从无结构化文本中抽取指定类别的实体(比如，人名、地名、机构名)，是信息抽取的重要步骤之一。传统方法局限于抽取预定义类别的实体，然而在现实中，待抽取的实体类别往往会随着需求动态扩增，比如，在对话系统中时不时会遇到新的意图，新的实体类型会随之引入，这就要求模型能够识别一个动态扩增的实体类型集合。为了适配上述场景，一个简单的方法是给所有见过的实体类型标注一个数据集，并用它来训练一个新的模型，然而这个方法对标注的需求过大，且耗费的计算资源过多，在实体类型特别多的场景下，甚至是不可行的。于是Monaikul等人^[2]提出了一个对于标注需求和计算资源要求较低的设置，每次只需提供一个标注了新的实体类型的数据集，并利用旧模型中关于旧类型实体的知识来训练新的模型。

这种学习范式又被称为持续学习(终生学习，增量式学习)，更具体地来说，属于类别增量式持续学习。然而，持续学习技术离实际应用仍然有一定的差距，其中最大的挑战就是灾难性遗忘问题^[3]，灾难性遗忘指的是，学习新任务时模型在旧任务上的表现大幅下降。灾难性遗忘问题产生的原因是：和人类不同的是，神经网络是通过参数来存储任务知识，当它学习新实体类型时，不可避免地会更新到旧任务相关的参数，于是造成了旧任务表现的下降。除了灾难性遗忘问题，类别增量式持续学习还面临着类别混淆问题^[4]，类别混淆问题指的是，模型不能很好地区分不同类别，此问题产生的原因是：不同类别的样本出现在了不同的任务中，模型每次训练时只见到了部分类别，没有同时对所有类别进行建模。

由于缺乏统一的基准数据集来衡量持续学习场景下的命名实体识别，相关工作的设置较为混乱，最适合实际应用场景的是Monaikul等人^[2]提出的设置，Monaikul等人将现有的传统场景下的命名实体识别数据集转化成了类别增量式的设置：假设在第k步，目标是学习一个新的实体类型集合

提供的训练数据集

中只需要标注出属于

的实体，其他旧类型的实体并不需要标注出来。为了学习新类型并且不忘记旧类型，Monaikul将旧模型作为教师，训练新的学生模型时，在常规的交叉熵损失上增加了知识蒸馏损失^[5]，知识蒸馏损失的目的是用教师模型的输出来约束学生模型在旧类型上的输出，以防学生模型忘记旧类型。尽管上述方法取得了初步的成功，然而它具有下述缺陷：这种基于蒸馏的方法依赖训练数据集

中旧类型实体的数量，若

中不具有旧类型实体，教师模型就难以将旧知识蒸馏进学生模型。

发明内容

为了解决灾难性遗忘和类别混淆问题，本发明提出了一个两阶段的训练框架Learn-and-Review(L&R)，它受启发于人类的学习过程，在常规的“学习阶段”之后引入了一个“复习阶段”。

本发明提供的技术方案如下：

参考图1，本发明提供的一种基于伪样本重放的的命名实体识别方法，其特征在于，包括学习阶段和复习阶段，在学习阶段，给定一个只包含新实体类型的训练集，将旧模型作为教师，训练新的学生模型时，在常规的交叉熵损失上增加知识蒸馏损失；在复习阶段，生成关于旧类型的伪样本作为复习材料，通过在复习材料上进一步蒸馏，来温故旧知识，并将其和新知识整合起来；具体包括如下步骤：

1)学习阶段中，在第k步骤，得到当前数据集D_k和上一步骤得到的M_k-1，G_1：k-1模型；

2)将M_k-1视作教师、

视作学生，并通过知识蒸馏将M_k-1中旧实体类型的知识蒸馏到

中；

3)复习阶段中，对于每个旧任务i∈{1，2，...，k-1}，生成包含了旧类型E_i的无标注文本

4)将无标注文本分别喂入M_k-1和第一阶段得到的学生

得到所有见过的实体类型上的输出概率分布P(x_i；θ_k-1，T)和

5)取M_k-1的输出分布中的前

维，

的输出分布中的第

至第

维，将他们拼接得到

6)复习阶段后得到一个模型M_k，它能够识别所有见过的实体类型

计算M_k的输出分布与

之间的KL散度作为蒸馏损失函数：

7)数据集D_k中的每个词分为两类：一类是带着实体标签，另一类是不带着实体标签；对于带着实体标签的词，计算

的输出与实体标签的交叉熵损失函数：

对于带着O标签的词，计算

的输出分布与M_k-1的输出分布的KL散度：

其中，

分别表示M_k-1和

的输出分布；T表示蒸馏中的温度，用来得到更加平滑的概率分布；

8)上述三个损失函数的加权和得到复习阶段的总损失函数：

本发明使用旧类型的无标注文本为复习材料提供新类型的监督信号，使用教师提供旧类型的监督信号，有了上述新旧类型的监督信号后，本发明使用此监督信号来约束新学生模型在复习材料上的输出。

附图说明

图1是本发明的整体框架；

图2是数据集统计信息；

图3是主实验结果。

具体实施方式

本发明包括了一种是用于做命名实体识别的主模型(M)，另一种是用于生成伪样本的生成器(G)，

主模型命名实体识别通常被建模成序列标注任务，即给每个词分配一个标签。本发明主模型由特征抽取器和分类层组成。特征抽取器采用了预训练语言模型BERT-base，分类层采用了带softmax的线性层。给定一个长度为L的词序列[x₁，x₂，...，x_L]以及每个词的标签[y₁，y₂，...，y_L]，首先通过特征抽取器得到每个词的隐向量[h₁，h₂，...，h_L]，然后通过线性层将隐向量映射到标签空间[s₁，s₂，...，s_L]，再通过softmax得到每个词在所有类型上的概率[p₁，p₂，...，p_L]：

z_i＝Wh_i+b

其中，

d是预训练语言模型的隐向量大小，d为768；

m是标签集合的大小，取决于所采用的标签体系，本发明采用了BIO标签体系，m为2n+1，n是实体类型的数量，每一步动态增加。

主模型的训练目标函数是交叉熵损失，它鼓励模型正确地预测每个词的标签：

其中，

是词x_i属于标签y_i的概率；θ是所有可训练的参数。

生成器生成器是由嵌入层、LSTM层、分类器构成的语言模型，给定一个长度为L的词序列[x₁，x₂，...，x_L]，首先通过嵌入层得到每个词的词向量，这里本发明采用的是FastText词向量^[6]，然后通过LSTM层得到融入了上下文信息的隐向量[h₁，h₂，...，h_L]，最后由带softmax的线性层得到下一个词的概率：

z_i＝Wh_i+b

其中，z_i∈R^V，V是词典的大小,由数据集决定；index(x_i)表示x_i在词典中的编号。

生成器的训练目标是语言建模损失函数，它最小化预测下一个词的负对数似然损失：

本发明的学习阶段

假设在第k步骤，能够使用的东西包括了当前数据集D_k和上一步骤得到的M_k-1，G_1：k-1模型，学习阶段的目标是得到一个模型

它能够识别所有见过的实体类型

首先，使用M_k-1的参数来初始化当前的模型

并且将其线性层进行扩展以适应新的实体类型数量。具体来说，是从h×(2n+1)扩展成h×(2n+2m+1)，其中

m＝|E_k|，分别表示旧类型数量和新类型数量。

其次，本发明将M_k-1视作教师、

中。具体来说，数据集中的每个词可以分为两类：一类是带着实体标签，另一类是不带着实体标签(标签为O)。对于带着实体标签的词，本发明计算

的输出与实体标签的交叉熵损失函数：

对于带着O标签的词，它有可能是旧类型的实体标签，但是在本发明的设定下，这个信息并没有被标注出来，本发明计算

的输出分布与M_k-1的输出分布的KL散度：

其中，

分别表示M_k-1和

的输出分布；T表示蒸馏中的温度，用来得到更加平滑的概率分布，本发明设置成2。为了使得上述两个输出分布的维度相同，本发明将M_k-1的输出的类别维度上补上一个很小的常数，然后重新归一化。

综上所述，学习阶段的总损失函数是两个损失函数的加权和：

其中，α和β的取值都设置为1。

本发明的复习阶段

复习阶段的目的是通过在旧类型的伪样本上做进一步蒸馏，来唤醒旧类型知识并且和新类型知识整合起来，得到第k步的最终模型M_k。

首先，对于每个旧任务i∈{1，2，...，k-1}，本发明使用G_i来生成包含了旧类型E_i的无标注文本

其次，本发明将无标注文本分别喂入M_k-1和第一阶段得到的一号学生

得到所有见过的实体类型上的输出概率分布P(x_i；θ_k-1，T)和

然后本发明取M_k-1的输出分布中的前

维，

的输出分布中的第

至第

维，将他们拼接得到

然后，计算M_k的输出分布与

之间的KL散度作为蒸馏损失函数：

在D_k上仍然计算学习阶段中的损失：

综上所述，复习阶段的总损失函数是三个损失函数的加权和：

本发明参照着Monaikul等人提供的细节来进行实现，使用BERT-base作为抽取器，Huggingface的Pytorch作为编程框架，在单张GeForce RTX3090显卡上运行程序，批大小为32，最大句子长度为128，最大训练轮数是20，早停轮数设置为3，使用Adam作为优化器，学习率是5e-5，损失函数的权重都设置为1，L&R中的生成器默认生成3000条样本，对CoNLL-03和OntoNotes-5.0分别采样6种和8种任务顺序。

初步实验发现，使用一层LSTM模型作为生成器即可取得显著的提升，平均运行时间是10min/每个任务，模型大小约50MB/每个任务。

本发明使用了命名实体识别常用的数据集CoNLL-03^[7]和OntoNotes-5.0^[8]，CoNLL-03包含了四种实体类型：person(PER)、location(LOC)、organization(ORG)、miscellaneous(MISC),本发明参照Monaikul等人挑选了OntoNotes-5.0中最具代表性的六种实体类型：person(PER)、geo-political entity(GPE)、organization(ORG)、cardinal(CARD)、Nationalities and Religious Political Group(NORP)。

本发明采取了以下设置来模拟现实中的数据积累过程，本发明对原数据集中的样本进行如下操作来构建第k个任务的训练/验证集：对于原训练/验证集的一句话[x₁，x₂，...，x_L]以及它的标签[y₁，y₂，...，y_L]，本发明将y_i替换成O如果

本发明将替换后的标签记作

如果

不全是O，则将其加入第k个任务的训练/验证集。构建第k个任务的测试集时，本发明将上述的E_k替换成

通过上述操作后，每个任务的训练/验证/测试集的统计数据如图2：

参照Monaikul等人，为了评估模型在所有见过的类型上的平均表现，使用了宏平均F1(macro-average F1)，并且对采样的多个任务顺序的结果取了平均，定义如下：

其中

表示r任务顺序下，累计到第k步所有见过的实体类型，

表示r任务顺序下第k步的e实体的F1值。

为了对模型有更加全面的认识，本发明还衡量了模型对于任务顺序的鲁棒性，本发明采用的指标是误差上界(Error Bound，EB)，定义如下：

其中，

是α置信度下的置信系数，σ是在n个不同任务顺序下算得的标准差，越低的误差上界表示了越低的顺序敏感度。

本发明以Monaikul等人提出的ExtendNER作为基线与本项目的方法进行对比，并选取2.1.3章节中的第一部分提到的“多任务训练”来衡量上限效果。

实验结果如图3所示，由图中第一行以及第三行可以看出，本发明提出的L&R在两个数据集的所有步骤(step)上，均超过了ExtendNER，而且步骤越多，L&R的提升就越明显，这是因为本发明的方法提高了每一步的效果，由此缓解了蒸馏所带来的错误传播。除了上述累积的提升，本发明也给出了每一步做完“复习阶段”后立刻的提升，第五行代表了模型在“复习阶段”之前的效果，第四行代表了模型在“复习阶段”之后的效果，它们的差值就是“复习阶段”所带来的立刻提升。图3的第二行和第四行也给出了模型的误差上界，可以看到L&R的误差上界更低，说明本发明的模型对任务顺序较不敏感。

参考文献：

[1]Monaikul N,Castellucci G,Filice S,et al.Continual Learning forNamed Entity Recognition[C]//Proceedings of the Thirty-Fifth AAAI Conferenceon Artificial Intelligence.2021.

[2]Lample G,Ballesteros M,Subramanian S,et al.Neural architecturesfor named entity recognition[J].arXiv preprint arXiv:1603.01360,2016.

[3]Kirkpatrick J,Pascanu R,Rabinowitz N,et al.Overcoming catastrophicforgetting in neural networks[J].Proceedings of the national academy ofsciences,2017,114(13):3521-3526.

[4]Masana M,Liu X,Twardowski B,et al.Class-incremental learning:survey and performance evaluation on image classification[J].arXiv preprintarXiv:2010.15277,2020.

[5]Hinton G,Vinyals O,Dean J.Distilling the knowledge in a neuralnetwork[J].arXiv preprint arXiv:1503.02531,2015.

[6]Joulin A,Grave E,Bojanowski P,et al.Fasttext.zip:Compressing textclassification models[J].arXiv preprint arXiv:1612.03651,2016.

[7]Sang E F,De Meulder F.Introduction to the CoNLL-2003shared task:Language-independent named entity recognition[J].arXiv preprint cs/0306050,2003.

[8]Hovy E,Marcus M,Palmer M,et al.OntoNotes:the 90％solution[C]//Proceedings of the human language technology conference of the NAACL,Companion Volume:Short Papers.2006:57-60.

Claims

1.一种增量式命名实体识别方法，其特征在于，包括学习阶段和复习阶段，在学习阶段，给定一个只包含新实体类型的训练集，将旧模型作为教师，训练新的学生模型时，在常规的交叉熵损失上增加知识蒸馏损失；在复习阶段，生成关于旧类型的伪样本作为复习材料，通过在复习材料上进一步蒸馏，来温故旧知识，并将其和新知识整合起来；具体步骤包括：

2)将M_k-1视作教师、

中；

3)复习阶段中，对于每个旧任务i∈(1，2，...，k-1}，生成包含了旧类型E_i的无标注文本

4)将无标注文本分别喂入M_k-1和第一阶段得到的学生

得到所有见过的实体类型上的输出概率分布p(x_i；θ_k-1，T)和

5)取M_k-1的输出分布中的前

维，

的输出分布中的第

至第

维，将他们拼接得到

计算M_k的输出分布与

之间的KL散度作为蒸馏损失函数：

的输出与实体标签的交叉熵损失函数：

对于带着O标签的词，计算

的输出分布与M_k-1的输出分布的KL散度：

其中，

分别表示M_k-1和

8)上述三个损失函数的加权和得到复习阶段的总损失函数：

2.如权利要求1所述的增量式命名实体识别方法，其特征在于，模型M_k由特征抽取器和分类层组成，特征抽取器采用了预训练语言模型BERT-base，分类层采用了带softmax的线性层。

3.如权利要求2所述的增量式命名实体识别方法，其特征在于，给定一个长度为L的词序列[x₁，x₂，...，x_L]以及每个词的标签[y₁，y₂，...，y_L]，首先通过特征抽取器得到每个词的隐向量[h₁，h₂，...，h_L]，然后通过线性层将隐向量映射到标签空间[s₁，s₂，...，s_L]，再通过softmax得到每个词在所有类型上的概率[p₁，p₂，...，p_L]：

z_i＝Wh_i+b

其中，

d是预训练语言模型的隐向量大小，d为768；

m是标签集合的大小，取决于所采用的标签体系。

4.如权利要求1所述的增量式命名实体识别方法，其特征在于，步骤3)中用于生成无标注文本的生成器(G)是由嵌入层、LSTM层、分类器构成的语言模型。

5.如权利要求4所述的增量式命名实体识别方法，其特征在于，给定一个长度为L的词序列[x₁，x₂，...，x_L]，首先通过嵌入层得到每个词的词向量，然后通过LSTM层得到融入了上下文信息的隐向量[h₁，h₂，...，h_L]，最后由带softmax的线性层得到下一个词的概率：

z_i＝Wh_i+b

其中，

V是词典的大小，由数据集决定；index(x_i)表示x_i在词典中的编号。

6.如权利要求4所述的增量式命名实体识别方法，其特征在于，生成器的训练目标是语言建模损失函数，它最小化预测下一个词的负对数似然损失：