CN112101484B - 基于知识巩固的增量事件识别方法、系统、装置 - Google Patents

基于知识巩固的增量事件识别方法、系统、装置 Download PDF

Info

Publication number
CN112101484B
CN112101484B CN202011244409.XA CN202011244409A CN112101484B CN 112101484 B CN112101484 B CN 112101484B CN 202011244409 A CN202011244409 A CN 202011244409A CN 112101484 B CN112101484 B CN 112101484B
Authority
CN
China
Prior art keywords
event
category
loss value
text
old
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011244409.XA
Other languages
English (en)
Other versions
CN112101484A (zh
Inventor
陈玉博
赵军
刘康
曹鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011244409.XA priority Critical patent/CN112101484B/zh
Publication of CN112101484A publication Critical patent/CN112101484A/zh
Application granted granted Critical
Publication of CN112101484B publication Critical patent/CN112101484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。

Description

基于知识巩固的增量事件识别方法、系统、装置
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置。
背景技术
随着互联网的大规模发展,信息的获取变得越来越容易,人们几乎无时无刻都会接触涉及各个领域的海量信息,比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的,并且存在一定程度的信息冗余。如何在计算机的辅助下,从海量信息中发现感兴趣的事件是亟需解决的问题。事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。
一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出来。例如,对于文本“He died in hotel.”,一个理想的事件抽取结果如表1所示。
表1
Figure 946717DEST_PATH_IMAGE001
事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类型是Die。
现有的事件识别方法都是要求提前固定好事件类别,并且在相应的数据上进行训练。这种实验设定虽然简单,便于测试,但很难满足实际应用。在实际应用中,新的事件类别往往会不断出现,所以一个实用化的事件识别系统需要能够不断地学习新的事件类别。而现有的事件识别方法如果将训练好的事件识别模型在新的事件类别数据上进行微调,模型会存在“灾难遗忘”的问题,即模型对已有事件类别的识别性能会严重下降。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题,本发明第一方面,提出了一种基于知识巩固的增量事件识别方法,该方法包括:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
在一些优选的实施方式中,所述交叉熵损失值,其获取方法为:
Figure 343195DEST_PATH_IMAGE002
其中,
Figure 592910DEST_PATH_IMAGE003
表示交叉熵损失值,
Figure 906080DEST_PATH_IMAGE004
表示训练样本集中事件的数量,
Figure 950259DEST_PATH_IMAGE005
Figure 99612DEST_PATH_IMAGE006
分别表示训 练样本集中各事件的真实类别、预测类别,
Figure 621860DEST_PATH_IMAGE007
Figure 55116DEST_PATH_IMAGE008
表示事件的文本、文本中的单词。
在一些优选的实施方式中,所述基于特征的蒸馏损失值,其获取方法为:
Figure 4617DEST_PATH_IMAGE010
其中,
Figure 903915DEST_PATH_IMAGE011
表示基于特征的蒸馏损失值,
Figure 964275DEST_PATH_IMAGE012
Figure 517616DEST_PATH_IMAGE013
分别表示训练样本集中旧类 别、新类别事件文本中每个单词的上下文特征。
在一些优选的实施方式中,所述基于预测的蒸馏损失值,其获取方法为:
Figure 638019DEST_PATH_IMAGE014
Figure 27543DEST_PATH_IMAGE015
其中,
Figure 891594DEST_PATH_IMAGE016
表示基于预测的蒸馏损失值,
Figure 299442DEST_PATH_IMAGE017
表示记忆单元中旧类别的数量,
Figure 590746DEST_PATH_IMAGE018
Figure 201987DEST_PATH_IMAGE019
分别为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层 感知器模型的logit表示,
Figure 869729DEST_PATH_IMAGE020
表示温度标量,
Figure 132083DEST_PATH_IMAGE021
表示下标。
在一些优选的实施方式中,步骤A60中“计算所述记忆单元各旧类别中待删除事件的数量”,其方法为:
Figure 594288DEST_PATH_IMAGE022
其中,
Figure 692825DEST_PATH_IMAGE023
表示记忆单元存储空间的大小,
Figure 164258DEST_PATH_IMAGE024
表示新类别的数量,
Figure 281118DEST_PATH_IMAGE025
表示记忆单元各 旧类别中待删除事件的数量。
在一些优选的实施方式中,步骤A70中“计算新类别的类别中心”,其方法为:
Figure 914225DEST_PATH_IMAGE026
其中,
Figure 497129DEST_PATH_IMAGE027
表示新类别的类别中心,
Figure 506673DEST_PATH_IMAGE027
表示属于类别
Figure 478040DEST_PATH_IMAGE028
的事件的数目,
Figure 547627DEST_PATH_IMAGE029
表示新类 别的事件的真实类别。
本发明的第二方面,提出了一种基于知识巩固的增量事件识别系统,该系统包括事件文本获取模块、事件类别获取模块;
所述事件文本获取模块,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新事件的文本及其对应的真实类别,并结合记忆单元中存储的旧事件的文本及其对应的真实类别,构建训练样本集;
步骤A20,对训练样本集中各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧事件、新事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
本发明的有益效果:
本发明提高了事件识别的精度。
(1)本发明主要依据事件距离相应类别中心的距离,删除距离类别中心较远的旧类别的事件,并计算每条新类别的事件到相应类别中心的距离,选择距离类别中心较近的一些新类别的事件存储到记忆单元中。这样可以在有限的记忆单元的存储空间中,存储最具代表性的训练事件,保证了训练数据的质量。
(2)本发明对语言模型、多层感知器模型的训练过程中,使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型,可以使得知识模型、多层感知器模型能够不断学习新的类别的事件,并且保持在旧的类别上的性能,避免出现“灾难遗忘”,提高事件识别的精度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于知识巩固的增量事件识别方法的流程示意图;
图2是本发明一种实施例的基于知识巩固的增量事件识别系统的框架示意图;
图3是本发明一种实施例的基于知识巩固的增量事件识别方法的简略流程示意图;
图4是本发明一种实施例的语言模型、多层感知器模型的训练方法的流程示意图;
图5是本发明一种实施例的通过知识蒸馏进行知识迁移的框架示意图;
图6是本发明一种实施例的现有方法与本发明方法在ACE 2005数据上的对比结果示意图;
图7是本发明一种实施例的现有方法与本发明方法在TAC KBP 2017数据上的对比结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于知识巩固的增量事件识别方法,,如图1所示,包括以下步骤:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
为了更清晰地对本发明基于知识巩固的增量事件识别方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述实施例中,先对语言模型、多层感知器模型的训练方法进行详述,如图4所示,再对基于知识巩固的增量事件识别方法获取待识别事件的类别的过程进行详述。
1、语言模型、多层感知器模型的训练方法
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
在本实施例中,为了保持语言模型、多层感知器模型在旧类别的事件上的识别性能,将存储在记忆单元中的旧的类别的事件数据和获取的新的类别的事件数据混合在一起,形成训练样本集。事件数据包括事件的文本及事件的真实类别。
其中,记忆单元为类似于存储器的存储单元。
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
在本实施例中,通过语言模型提取训练样本集中各事件的文本中每个单词的上下文特征;基于上下文特征,通过多层感知器模型(MLP)得到其对应的预测类别。其中,语言模型在本发明中优选采用BERT语言模型,在其他实施例中可以根据实际需要选取语言模型。
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
在本实施例中,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值。其中,交叉熵损失函数如公式(1)所示:
Figure 355177DEST_PATH_IMAGE002
(1)
其中,
Figure 433992DEST_PATH_IMAGE030
表示交叉熵损失值,
Figure 994286DEST_PATH_IMAGE031
表示训练样本集中事件的数量,
Figure 500354DEST_PATH_IMAGE032
Figure 919834DEST_PATH_IMAGE033
分别表示训 练样本集中各事件的真实类别、预测类别,
Figure 880968DEST_PATH_IMAGE034
Figure 967872DEST_PATH_IMAGE035
分别表示事件的文本、文本中的单词。
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
在本实施例中,为了使得语言模型、多层感知器模型保持在旧的类别上的性能,使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型,即分别计算通过第一蒸馏损失函数(基于特征的蒸馏损失函数)获取基于特征的蒸馏损失值、通过第二蒸馏损失函数(基于预测的蒸馏损失函数)获取基于预测的蒸馏损失值。如图5所示,图5中“Data for Attack”“Data for Meet”“Data for Die”分别表示攻击事件数据、开会事件数据、死亡事件数据,“Learn Attack Event”表示学习攻击事件,其他的类似,Prototype Enhanced Retrospection:原型(类别中心)增强的回顾模块,“removing oldexemplars”“selecting new examples”分别表示移除旧类别的事件范例、筛选新类别的事件范例,“Combined data”表示合并数据,rigger Extractor:触发词抽取器(在事件抽取任务中,一个事件一般是由一个动词引起的,引起事件发生的词被称为“触发词”,“触发词抽取器”是模型的一个模块,为了从句子中抽取出“触发词”),“Current model”“Originalmodel”表示当前模型(t-1轮迭代训练过程中的模型)、原始模型(t轮迭代训练过程中的模型),“BERT”表示BERT语言模型,Hierarchical Distillation 表示层级蒸馏,Memoryafter Meet:学习完“开会”类别之后的内存单元的变化,“feature”表示特征,logit表示logit表示,“features-level distillation”“predictions-level distillation”分别表示基于特征的蒸馏损失函数、基于预测的蒸馏损失函数,“prob”是“probability”的缩写,指的是类别的预测概率,classes表示类别。
其中,基于特征的蒸馏损失函数,如公式(2)所示:
Figure 503896DEST_PATH_IMAGE036
(2)
其中,
Figure 410672DEST_PATH_IMAGE011
表示基于特征的蒸馏损失值,
Figure 441076DEST_PATH_IMAGE012
Figure 116908DEST_PATH_IMAGE013
分别表示训练样本集中旧类 别、新类别事件文本中每个单词的上下文特征。
基于预测的蒸馏损失函数,如公式(3)(4)所示:
Figure 823833DEST_PATH_IMAGE037
(3)
Figure 483484DEST_PATH_IMAGE038
(4)
其中,
Figure 783491DEST_PATH_IMAGE039
表示基于预测的蒸馏损失值,
Figure 844988DEST_PATH_IMAGE040
表示记忆单元中旧类别的数量,
Figure 457235DEST_PATH_IMAGE041
Figure 338603DEST_PATH_IMAGE042
分别为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层 感知器模型的logit表示,
Figure 710810DEST_PATH_IMAGE043
表示温度标量,
Figure 361234DEST_PATH_IMAGE044
表示下标。
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
在本实施例中,将第一损失值、第二损失值、第三损失值加权求和后,得到总损失 值,根据总损失值对语言模型、多层感知器模型的网络参数进行更新。其中,总损失值
Figure 409962DEST_PATH_IMAGE045
的 获取方法,如公式(5)所示:
Figure 513047DEST_PATH_IMAGE046
(5)
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
在本实施例中,由于记忆单元的存储空间是有限的,所以当新的类别的事件出现 时,需要减少旧的类别的事件在记忆单元中的数量。在减少旧的类别的事件在记忆单元中 的数量时,主要依据各事件距离相应类别中心的距离,删除距离类别中心(或简称为原型) 较远的一些事件,具体为:计算各旧类别的事件到对应类别中心的距离,并进行升序排序, 排序后,删除前g(各旧类别中需要删除的事件的数量)个事件。其中,记忆单元各旧类别中 需要删除的事件的数量
Figure 423365DEST_PATH_IMAGE047
的计算,如公式(6)所示:
Figure 459454DEST_PATH_IMAGE022
(6)
Figure 554449DEST_PATH_IMAGE048
表示记忆单元存储空间的大小,
Figure 269464DEST_PATH_IMAGE049
表示新类别的数量,
Figure 108107DEST_PATH_IMAGE047
表示记忆单元各旧类别 中待删除事件的数量。
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
在本实施例中,计算新类别的类别中心,如公式(7)所示:
Figure 608490DEST_PATH_IMAGE026
(7)
其中,
Figure 874386DEST_PATH_IMAGE050
表示新类别的类别中心,
Figure 76697DEST_PATH_IMAGE050
表示属于类别
Figure 719031DEST_PATH_IMAGE051
的事件的数目,
Figure 805412DEST_PATH_IMAGE052
表示新类 别的事件的真实类别,
Figure 507788DEST_PATH_IMAGE051
即表示新出现的类别。
另外,由于记忆单元的存储空间是有限的,所以尽可能存储最具代表性的新类别 的事件。具体为:计算各新类别的事件到类别中心的距离,并进行降序排序,将排序前g
Figure 197396DEST_PATH_IMAGE053
个保留,并增入记忆单元,其他的事件删除。
步骤A80,循环执行步骤A10-步骤A70,直至得到训练好的语言模型、多层感知器模型。
在本实施例中,循环对语言模型、多层感知器模型进行训练,直至得到训练好的语言模型、多层感知器模型。
2、基于知识巩固的增量事件识别方法
步骤S10,获取待识别事件的文本,作为输入文本;
在本实施例中,获取待识别事件的文本。
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别。
在本实施例中,通过预训练的语言模型提取所述输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。
另外,为了验证本发明方法的有效性,在ACE 2005数据集和TAC KBP2017数据集进行训练和验证,由于这两个数据集是长尾分布,选取训练集中样本数目排名前十的类别对应的数据,每一次让模型学习一个新的事件类别。现有的方法和本发明方法的对别结果如图6和图7所示,其中,图6和图7中UpperBound表示上线模型,KCN是KnowledgeConsolidation Network(知识巩固网络)的缩写,也就是本发明基于语言模型、多层感知器模型构建的模型;EMR是Episodic Memory Replay(情景记忆回放)的缩写,LwF是Learningwithout Forgetting(不遗忘的学习)的缩写,EWC是Elastic Weight Consolidation(弹性权重巩固)的缩写,Finetune表示微调模型,F1 score表示F1分数,number of classes表示类别的数量。可以图6和图7的实验结果可以看出,本发明基于知识巩固的增量事件识别的方法在ACE 2005数据集和TAC KBP 2017数据集上的表现超过了现有方法,这表明本发明方法能够不断地学习新类别的事件,并且尽可能地保持模型对已有的类别(旧类别)的事件的识别性能。
本发明第二实施例的一种基于知识巩固的增量事件识别系统,如图2所示,包括:事件文本获取模块100、事件类别获取模块200;
所述事件文本获取模块100,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块200,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,结合新类别的事件,重新计算所述记忆单元各类别的类别中心,并将距离类别中心较近的新类别的事件增入对应的类别;
步骤A80,循环执行步骤A10-步骤A70,直至得到训练好的语言模型、多层感知器模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于知识巩固的增量事件识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于知识巩固的增量事件识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于知识巩固的增量事件识别方法,其特征在于,该方法包括以下步骤:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
2.根据权利要求1所述的基于知识巩固的增量事件识别方法,其特征在于,所述交叉熵损失值,其获取方法为:
Figure 692996DEST_PATH_IMAGE001
其中,
Figure 27026DEST_PATH_IMAGE002
表示交叉熵损失值,
Figure 493779DEST_PATH_IMAGE003
表示训练样本集中事件的数量,
Figure 546049DEST_PATH_IMAGE004
Figure 137043DEST_PATH_IMAGE005
分别表示训练样 本集中各事件的真实类别、预测类别,
Figure 184633DEST_PATH_IMAGE006
Figure 573020DEST_PATH_IMAGE007
分别表示事件的文本、文本中的单词。
3.根据权利要求2所述的基于知识巩固的增量事件识别方法,其特征在于,所述基于特征的蒸馏损失值,其获取方法为:
Figure 112586DEST_PATH_IMAGE008
其中,
Figure 493889DEST_PATH_IMAGE009
表示基于特征的蒸馏损失值,
Figure 412297DEST_PATH_IMAGE010
Figure 361799DEST_PATH_IMAGE011
分别表示训练样本集中旧类别、新 类别事件文本中每个单词的上下文特征。
4.根据权利要求3所述的基于知识巩固的增量事件识别方法,其特征在于,所述基于预测的蒸馏损失值,其获取方法为:
Figure 247715DEST_PATH_IMAGE012
Figure 917862DEST_PATH_IMAGE013
其中,
Figure 80990DEST_PATH_IMAGE014
表示基于预测的蒸馏损失值,
Figure 326027DEST_PATH_IMAGE015
表示记忆单元中旧类别的数量,
Figure 574605DEST_PATH_IMAGE016
Figure 45513DEST_PATH_IMAGE017
分别 为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层感知 器模型的logit表示,
Figure 187782DEST_PATH_IMAGE018
表示温度标量,
Figure 479086DEST_PATH_IMAGE019
表示下标。
5.根据权利要求4所述的基于知识巩固的增量事件识别方法,其特征在于,步骤A60中“计算所述记忆单元各旧类别中待删除事件的数量”,其方法为:
Figure 824748DEST_PATH_IMAGE020
其中,
Figure 351544DEST_PATH_IMAGE021
表示记忆单元存储空间的大小,
Figure 489264DEST_PATH_IMAGE022
表示新类别的数量,
Figure 561257DEST_PATH_IMAGE023
表示记忆单元各旧类别 中待删除事件的数量。
6.根据权利要求1中所述的基于知识巩固的增量事件识别方法,其特征在于,步骤A70中“计算新类别的类别中心”,其方法为:
Figure 909061DEST_PATH_IMAGE024
其中,
Figure 849335DEST_PATH_IMAGE025
表示新类别的类别中心,
Figure 716928DEST_PATH_IMAGE026
表示属于类别
Figure 474669DEST_PATH_IMAGE027
的事件的数目,
Figure 185136DEST_PATH_IMAGE028
表示新类别的 事件的真实类别。
7.一种基于知识巩固的增量事件识别系统,其特征在于,该系统包括事件文本获取模块、事件类别获取模块;
所述事件文本获取模块,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于知识巩固的增量事件识别方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于知识巩固的增量事件识别方法。
CN202011244409.XA 2020-11-10 2020-11-10 基于知识巩固的增量事件识别方法、系统、装置 Active CN112101484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011244409.XA CN112101484B (zh) 2020-11-10 2020-11-10 基于知识巩固的增量事件识别方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011244409.XA CN112101484B (zh) 2020-11-10 2020-11-10 基于知识巩固的增量事件识别方法、系统、装置

Publications (2)

Publication Number Publication Date
CN112101484A CN112101484A (zh) 2020-12-18
CN112101484B true CN112101484B (zh) 2021-02-12

Family

ID=73785833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011244409.XA Active CN112101484B (zh) 2020-11-10 2020-11-10 基于知识巩固的增量事件识别方法、系统、装置

Country Status (1)

Country Link
CN (1) CN112101484B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN114510572B (zh) * 2022-04-18 2022-07-12 佛山科学技术学院 一种终身学习的文本分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659744A (zh) * 2019-09-26 2020-01-07 支付宝(杭州)信息技术有限公司 训练事件预测模型、评估操作事件的方法及装置
CN111275350A (zh) * 2020-02-08 2020-06-12 支付宝(杭州)信息技术有限公司 更新事件评估模型的方法及装置
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141978A (zh) * 2010-02-02 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659744A (zh) * 2019-09-26 2020-01-07 支付宝(杭州)信息技术有限公司 训练事件预测模型、评估操作事件的方法及装置
CN111275350A (zh) * 2020-02-08 2020-06-12 支付宝(杭州)信息技术有限公司 更新事件评估模型的方法及装置
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111738436A (zh) * 2020-06-28 2020-10-02 电子科技大学中山学院 一种模型蒸馏方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Event Extraction via Bidirectional Long Short-Term Memory Tensor Neural Networks;Yubo Chen 等;《NLP-NABD 2016, CCL 2016: Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data》;20161010;全文 *
基于联合标注和全局推理的篇章级事件抽取;仲伟峰 等;《中文信息学报》;20190915;第33卷(第9期);全文 *

Also Published As

Publication number Publication date
CN112101484A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108255934B (zh) 一种语音控制方法及装置
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN111078836A (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN109816438B (zh) 信息推送方法及装置
CN108304373B (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN113255340B (zh) 面向科技需求的主题提取方法、装置和存储介质
CN112101484B (zh) 基于知识巩固的增量事件识别方法、系统、装置
CN110232112A (zh) 文章中关键词提取方法及装置
CN113688951B (zh) 视频数据处理方法以及装置
CN117112744B (zh) 大语言模型的评估方法、装置及电子设备
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN112667791A (zh) 潜在事件预测方法、装置、设备及存储介质
CN114661872A (zh) 一种面向初学者的api自适应推荐方法与系统
CN112580896A (zh) 知识点预测方法、装置、设备及存储介质
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN111813941A (zh) 结合rpa和ai的文本分类方法、装置、设备及介质
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN115964997A (zh) 选择题的混淆选项生成方法及装置、电子设备、存储介质
WO2023048807A1 (en) Hierarchical representation learning of user interest
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant