CN112101484B

CN112101484B - 基于知识巩固的增量事件识别方法、系统、装置

Info

Publication number: CN112101484B
Application number: CN202011244409.XA
Authority: CN
Inventors: 陈玉博; 赵军; 刘康; 曹鹏飞
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-12
Anticipated expiration: 2040-11-10
Also published as: CN112101484A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于知识巩固的增量事件识别方法、系统、装置，旨在解决现有的事件识别方法在微调模型后识别新类别的事件时，容易出现灾难遗忘，导致识别精度较低的问题。本系统方法包括获取待识别事件的文本，作为输入文本；通过预训练的语言模型提取输入文本中各单词的上下文特征；基于所述上下文特征，通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。

Description

基于知识巩固的增量事件识别方法、系统、装置

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于知识巩固的增量事件识别方法、系统、装置。

背景技术

随着互联网的大规模发展，信息的获取变得越来越容易，人们几乎无时无刻都会接触涉及各个领域的海量信息，比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的，并且存在一定程度的信息冗余。如何在计算机的辅助下，从海量信息中发现感兴趣的事件是亟需解决的问题。事件识别（Event Identification）技术正是解决这一问题的有力手段。事件识别是事件抽取（Event Extraction）的一个独立的子任务，主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。

一个事件由一个触发词（trigger）、一种事件类型（event type）和若干事件的参与者及其角色（arguments and roles）组成，其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分，并以结构化的形式展现出来。例如，对于文本“He died in hotel.”，一个理想的事件抽取结果如表1所示。

表1

事件识别和事件抽取的不同之处在于，其只关注事件触发词和事件类型的识别，并不关注事件参与者及其角色。例如，对于上面的例子，事件识别的任务是识别出该句子描述了一个事件，该事件的触发词是“died”，事件类型是Die。

现有的事件识别方法都是要求提前固定好事件类别，并且在相应的数据上进行训练。这种实验设定虽然简单，便于测试，但很难满足实际应用。在实际应用中，新的事件类别往往会不断出现，所以一个实用化的事件识别系统需要能够不断地学习新的事件类别。而现有的事件识别方法如果将训练好的事件识别模型在新的事件类别数据上进行微调，模型会存在“灾难遗忘”的问题，即模型对已有事件类别的识别性能会严重下降。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的事件识别方法在微调模型后识别新类别的事件时，容易出现灾难遗忘，导致识别精度较低的问题，本发明第一方面，提出了一种基于知识巩固的增量事件识别方法，该方法包括：

步骤S10，获取待识别事件的文本，作为输入文本；

步骤S20，通过预训练的语言模型提取所述输入文本中各单词的上下文特征，并通过多层感知器模型得到所述待识别事件的类别；

所述语言模型、所述多层感知器模型，训练方法为：

步骤A10，获取新类别的事件数据，并结合记忆单元中存储的旧类别的事件数据，构建训练样本集；所述事件数据包括事件的文本及事件的真实类别；

步骤A20，对训练样本集中的各事件，通过语言模型提取其文本中每个单词的上下文特征，并通过多层感知器模型得到其对应的预测类别；

步骤A30，基于训练样本集中各事件的真实类别、预测类别，通过交叉熵损失函数获取交叉熵损失值，作为第一损失值；

步骤A40，对训练样本集中旧类别的事件、新类别的事件，基于其文本中每个单词的上下文特征，通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值，作为第二损失值；并基于其预测类别对应的概率分布，通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值，作为第三损失值；

步骤A50，将所述第一损失值、所述第二损失值、所述第三损失值加权求和后，更新所述语言模型、所述多层感知器模型的网络参数；

A60，计算所述记忆单元各旧类别中待删除事件的数量，按照该数量删除各旧类别中距离类别中心较远的事件；

步骤A70，计算新类别的类别中心，将距离该类别中心较近的新类别的事件保留，并增入所述记忆单元；

步骤A80，循环执行步骤A10-A70，直至得到训练好的语言模型、多层感知器模型。

在一些优选的实施方式中，所述交叉熵损失值，其获取方法为：

其中，

表示交叉熵损失值，

表示训练样本集中事件的数量，

、

分别表示训练样本集中各事件的真实类别、预测类别，

、

表示事件的文本、文本中的单词。

在一些优选的实施方式中，所述基于特征的蒸馏损失值，其获取方法为：

其中，

表示基于特征的蒸馏损失值，

、

分别表示训练样本集中旧类别、新类别事件文本中每个单词的上下文特征。

在一些优选的实施方式中，所述基于预测的蒸馏损失值，其获取方法为：

其中，

表示基于预测的蒸馏损失值，

表示记忆单元中旧类别的数量，

、

分别为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层感知器模型的logit表示，

表示温度标量，

表示下标。

在一些优选的实施方式中，步骤A60中“计算所述记忆单元各旧类别中待删除事件的数量”，其方法为：

其中，

表示记忆单元存储空间的大小，

表示新类别的数量，

表示记忆单元各旧类别中待删除事件的数量。

在一些优选的实施方式中，步骤A70中“计算新类别的类别中心”，其方法为：

其中，

表示新类别的类别中心，

表示属于类别

的事件的数目，

表示新类别的事件的真实类别。

本发明的第二方面，提出了一种基于知识巩固的增量事件识别系统，该系统包括事件文本获取模块、事件类别获取模块；

所述事件文本获取模块，配置为获取待识别事件的文本，作为输入文本；

所述事件类别获取模块，配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征，并通过多层感知器模型得到所述待识别事件的类别；

所述语言模型、所述多层感知器模型，训练方法为：

步骤A10，获取新事件的文本及其对应的真实类别，并结合记忆单元中存储的旧事件的文本及其对应的真实类别，构建训练样本集；

步骤A20，对训练样本集中各事件，通过语言模型提取其文本中每个单词的上下文特征，并通过多层感知器模型得到其对应的预测类别；

步骤A40，对训练样本集中旧事件、新事件，基于其文本中每个单词的上下文特征，通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值，作为第二损失值；并基于其预测类别对应的概率分布，通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值，作为第三损失值；

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。

本发明的有益效果：

本发明提高了事件识别的精度。

（1）本发明主要依据事件距离相应类别中心的距离，删除距离类别中心较远的旧类别的事件，并计算每条新类别的事件到相应类别中心的距离，选择距离类别中心较近的一些新类别的事件存储到记忆单元中。这样可以在有限的记忆单元的存储空间中，存储最具代表性的训练事件，保证了训练数据的质量。

（2）本发明对语言模型、多层感知器模型的训练过程中，使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型，可以使得知识模型、多层感知器模型能够不断学习新的类别的事件，并且保持在旧的类别上的性能，避免出现“灾难遗忘”，提高事件识别的精度。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于知识巩固的增量事件识别方法的流程示意图；

图2是本发明一种实施例的基于知识巩固的增量事件识别系统的框架示意图；

图3是本发明一种实施例的基于知识巩固的增量事件识别方法的简略流程示意图；

图4是本发明一种实施例的语言模型、多层感知器模型的训练方法的流程示意图；

图5是本发明一种实施例的通过知识蒸馏进行知识迁移的框架示意图；

图6是本发明一种实施例的现有方法与本发明方法在ACE 2005数据上的对比结果示意图；

图7是本发明一种实施例的现有方法与本发明方法在TAC KBP 2017数据上的对比结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于知识巩固的增量事件识别方法，，如图1所示，包括以下步骤：

步骤S10，获取待识别事件的文本，作为输入文本；

所述语言模型、所述多层感知器模型，训练方法为：

为了更清晰地对本发明基于知识巩固的增量事件识别方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

在下述实施例中，先对语言模型、多层感知器模型的训练方法进行详述，如图4所示，再对基于知识巩固的增量事件识别方法获取待识别事件的类别的过程进行详述。

1、语言模型、多层感知器模型的训练方法

在本实施例中，为了保持语言模型、多层感知器模型在旧类别的事件上的识别性能，将存储在记忆单元中的旧的类别的事件数据和获取的新的类别的事件数据混合在一起，形成训练样本集。事件数据包括事件的文本及事件的真实类别。

其中，记忆单元为类似于存储器的存储单元。

在本实施例中，通过语言模型提取训练样本集中各事件的文本中每个单词的上下文特征；基于上下文特征，通过多层感知器模型（MLP）得到其对应的预测类别。其中，语言模型在本发明中优选采用BERT语言模型，在其他实施例中可以根据实际需要选取语言模型。

在本实施例中，基于训练样本集中各事件的真实类别、预测类别，通过交叉熵损失函数获取交叉熵损失值。其中，交叉熵损失函数如公式（1）所示：

（1）

其中，

表示交叉熵损失值，

表示训练样本集中事件的数量，

、

分别表示训练样本集中各事件的真实类别、预测类别，

、

分别表示事件的文本、文本中的单词。

在本实施例中，为了使得语言模型、多层感知器模型保持在旧的类别上的性能，使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型，即分别计算通过第一蒸馏损失函数（基于特征的蒸馏损失函数）获取基于特征的蒸馏损失值、通过第二蒸馏损失函数（基于预测的蒸馏损失函数）获取基于预测的蒸馏损失值。如图5所示，图5中“Data for Attack”“Data for Meet”“Data for Die”分别表示攻击事件数据、开会事件数据、死亡事件数据，“Learn Attack Event”表示学习攻击事件，其他的类似，Prototype Enhanced Retrospection：原型（类别中心）增强的回顾模块，“removing oldexemplars”“selecting new examples”分别表示移除旧类别的事件范例、筛选新类别的事件范例，“Combined data”表示合并数据，rigger Extractor：触发词抽取器（在事件抽取任务中，一个事件一般是由一个动词引起的，引起事件发生的词被称为“触发词”，“触发词抽取器”是模型的一个模块，为了从句子中抽取出“触发词”），“Current model”“Originalmodel”表示当前模型（t-1轮迭代训练过程中的模型）、原始模型（t轮迭代训练过程中的模型），“BERT”表示BERT语言模型，Hierarchical Distillation 表示层级蒸馏，Memoryafter Meet：学习完“开会”类别之后的内存单元的变化，“feature”表示特征，logit表示logit表示，“features-level distillation”“predictions-level distillation”分别表示基于特征的蒸馏损失函数、基于预测的蒸馏损失函数，“prob”是“probability”的缩写，指的是类别的预测概率，classes表示类别。

其中，基于特征的蒸馏损失函数，如公式（2）所示：

（2）

其中，

表示基于特征的蒸馏损失值，

、

基于预测的蒸馏损失函数，如公式（3）（4）所示：

（3）

（4）

其中，

表示基于预测的蒸馏损失值，

表示记忆单元中旧类别的数量，

、

表示温度标量，

表示下标。

在本实施例中，将第一损失值、第二损失值、第三损失值加权求和后，得到总损失值，根据总损失值对语言模型、多层感知器模型的网络参数进行更新。其中，总损失值

的获取方法，如公式（5）所示：

（5）

步骤A60，计算所述记忆单元各旧类别中待删除事件的数量，按照该数量删除各旧类别中距离类别中心较远的事件；

在本实施例中，由于记忆单元的存储空间是有限的，所以当新的类别的事件出现时，需要减少旧的类别的事件在记忆单元中的数量。在减少旧的类别的事件在记忆单元中的数量时，主要依据各事件距离相应类别中心的距离，删除距离类别中心（或简称为原型）较远的一些事件，具体为：计算各旧类别的事件到对应类别中心的距离，并进行升序排序，排序后，删除前g（各旧类别中需要删除的事件的数量）个事件。其中，记忆单元各旧类别中需要删除的事件的数量

的计算，如公式（6）所示：

（6）

表示记忆单元存储空间的大小，

表示新类别的数量，

表示记忆单元各旧类别中待删除事件的数量。

在本实施例中，计算新类别的类别中心，如公式（7）所示：

（7）

其中，

表示新类别的类别中心，

表示属于类别

的事件的数目，

表示新类别的事件的真实类别，

即表示新出现的类别。

另外，由于记忆单元的存储空间是有限的，所以尽可能存储最具代表性的新类别的事件。具体为：计算各新类别的事件到类别中心的距离，并进行降序排序，将排序前g

个保留，并增入记忆单元，其他的事件删除。

步骤A80，循环执行步骤A10-步骤A70，直至得到训练好的语言模型、多层感知器模型。

在本实施例中，循环对语言模型、多层感知器模型进行训练，直至得到训练好的语言模型、多层感知器模型。

2、基于知识巩固的增量事件识别方法

步骤S10，获取待识别事件的文本，作为输入文本；

在本实施例中，获取待识别事件的文本。

步骤S20，通过预训练的语言模型提取所述输入文本中各单词的上下文特征，并通过多层感知器模型得到所述待识别事件的类别。

在本实施例中，通过预训练的语言模型提取所述输入文本中各单词的上下文特征；基于所述上下文特征，通过多层感知器模型得到待识别事件的类别。

另外，为了验证本发明方法的有效性，在ACE 2005数据集和TAC KBP2017数据集进行训练和验证，由于这两个数据集是长尾分布，选取训练集中样本数目排名前十的类别对应的数据，每一次让模型学习一个新的事件类别。现有的方法和本发明方法的对别结果如图6和图7所示，其中，图6和图7中UpperBound表示上线模型，KCN是KnowledgeConsolidation Network（知识巩固网络）的缩写，也就是本发明基于语言模型、多层感知器模型构建的模型；EMR是Episodic Memory Replay（情景记忆回放）的缩写，LwF是Learningwithout Forgetting（不遗忘的学习）的缩写，EWC是Elastic Weight Consolidation（弹性权重巩固）的缩写，Finetune表示微调模型，F1 score表示F1分数，number of classes表示类别的数量。可以图6和图7的实验结果可以看出，本发明基于知识巩固的增量事件识别的方法在ACE 2005数据集和TAC KBP 2017数据集上的表现超过了现有方法，这表明本发明方法能够不断地学习新类别的事件，并且尽可能地保持模型对已有的类别（旧类别）的事件的识别性能。

本发明第二实施例的一种基于知识巩固的增量事件识别系统，如图2所示，包括：事件文本获取模块100、事件类别获取模块200；

所述事件文本获取模块100，配置为获取待识别事件的文本，作为输入文本；

所述事件类别获取模块200，配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征，并通过多层感知器模型得到所述待识别事件的类别；

所述语言模型、所述多层感知器模型，训练方法为：

步骤A70，结合新类别的事件，重新计算所述记忆单元各类别的类别中心，并将距离类别中心较近的新类别的事件增入对应的类别；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于知识巩固的增量事件识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于知识巩固的增量事件识别方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、 “第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。