CN112101484B - 基于知识巩固的增量事件识别方法、系统、装置 - Google Patents
基于知识巩固的增量事件识别方法、系统、装置 Download PDFInfo
- Publication number
- CN112101484B CN112101484B CN202011244409.XA CN202011244409A CN112101484B CN 112101484 B CN112101484 B CN 112101484B CN 202011244409 A CN202011244409 A CN 202011244409A CN 112101484 B CN112101484 B CN 112101484B
- Authority
- CN
- China
- Prior art keywords
- event
- category
- loss value
- text
- old
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000007596 consolidation process Methods 0.000 title claims abstract description 30
- 238000004821 distillation Methods 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 56
- 230000015654 memory Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 6
- 238000013140 knowledge distillation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001073 episodic memory Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置,旨在解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题。本系统方法包括获取待识别事件的文本,作为输入文本;通过预训练的语言模型提取输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。本发明提高了事件识别的精度。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于知识巩固的增量事件识别方法、系统、装置。
背景技术
随着互联网的大规模发展,信息的获取变得越来越容易,人们几乎无时无刻都会接触涉及各个领域的海量信息,比如体育、娱乐、军事等等领域的新闻。然而这些信息一般都是无序、杂乱、非结构的,并且存在一定程度的信息冗余。如何在计算机的辅助下,从海量信息中发现感兴趣的事件是亟需解决的问题。事件识别(Event Identification)技术正是解决这一问题的有力手段。事件识别是事件抽取(Event Extraction)的一个独立的子任务,主要研究如何从含有事件信息的非结构化文本中识别出用户感兴趣的事件及其类型。
一个事件由一个触发词(trigger)、一种事件类型(event type)和若干事件的参与者及其角色(arguments and roles)组成,其中事件的触发词是文本中最能指示事件发生的词。事件抽取的目标是如何从描述事件的自然语言文本中抽取事件的上述各个成分,并以结构化的形式展现出来。例如,对于文本“He died in hotel.”,一个理想的事件抽取结果如表1所示。
表1
事件识别和事件抽取的不同之处在于,其只关注事件触发词和事件类型的识别,并不关注事件参与者及其角色。例如,对于上面的例子,事件识别的任务是识别出该句子描述了一个事件,该事件的触发词是“died”,事件类型是Die。
现有的事件识别方法都是要求提前固定好事件类别,并且在相应的数据上进行训练。这种实验设定虽然简单,便于测试,但很难满足实际应用。在实际应用中,新的事件类别往往会不断出现,所以一个实用化的事件识别系统需要能够不断地学习新的事件类别。而现有的事件识别方法如果将训练好的事件识别模型在新的事件类别数据上进行微调,模型会存在“灾难遗忘”的问题,即模型对已有事件类别的识别性能会严重下降。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的事件识别方法在微调模型后识别新类别的事件时,容易出现灾难遗忘,导致识别精度较低的问题,本发明第一方面,提出了一种基于知识巩固的增量事件识别方法,该方法包括:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
在一些优选的实施方式中,所述交叉熵损失值,其获取方法为:
在一些优选的实施方式中,所述基于特征的蒸馏损失值,其获取方法为:
在一些优选的实施方式中,所述基于预测的蒸馏损失值,其获取方法为:
其中,表示基于预测的蒸馏损失值,表示记忆单元中旧类别的数量,、
分别为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层
感知器模型的logit表示,表示温度标量,表示下标。
在一些优选的实施方式中,步骤A60中“计算所述记忆单元各旧类别中待删除事件的数量”,其方法为:
在一些优选的实施方式中,步骤A70中“计算新类别的类别中心”,其方法为:
本发明的第二方面,提出了一种基于知识巩固的增量事件识别系统,该系统包括事件文本获取模块、事件类别获取模块;
所述事件文本获取模块,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新事件的文本及其对应的真实类别,并结合记忆单元中存储的旧事件的文本及其对应的真实类别,构建训练样本集;
步骤A20,对训练样本集中各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧事件、新事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
本发明的有益效果:
本发明提高了事件识别的精度。
(1)本发明主要依据事件距离相应类别中心的距离,删除距离类别中心较远的旧类别的事件,并计算每条新类别的事件到相应类别中心的距离,选择距离类别中心较近的一些新类别的事件存储到记忆单元中。这样可以在有限的记忆单元的存储空间中,存储最具代表性的训练事件,保证了训练数据的质量。
(2)本发明对语言模型、多层感知器模型的训练过程中,使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型,可以使得知识模型、多层感知器模型能够不断学习新的类别的事件,并且保持在旧的类别上的性能,避免出现“灾难遗忘”,提高事件识别的精度。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于知识巩固的增量事件识别方法的流程示意图;
图2是本发明一种实施例的基于知识巩固的增量事件识别系统的框架示意图;
图3是本发明一种实施例的基于知识巩固的增量事件识别方法的简略流程示意图;
图4是本发明一种实施例的语言模型、多层感知器模型的训练方法的流程示意图;
图5是本发明一种实施例的通过知识蒸馏进行知识迁移的框架示意图;
图6是本发明一种实施例的现有方法与本发明方法在ACE 2005数据上的对比结果示意图;
图7是本发明一种实施例的现有方法与本发明方法在TAC KBP 2017数据上的对比结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于知识巩固的增量事件识别方法,,如图1所示,包括以下步骤:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
为了更清晰地对本发明基于知识巩固的增量事件识别方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述实施例中,先对语言模型、多层感知器模型的训练方法进行详述,如图4所示,再对基于知识巩固的增量事件识别方法获取待识别事件的类别的过程进行详述。
1、语言模型、多层感知器模型的训练方法
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
在本实施例中,为了保持语言模型、多层感知器模型在旧类别的事件上的识别性能,将存储在记忆单元中的旧的类别的事件数据和获取的新的类别的事件数据混合在一起,形成训练样本集。事件数据包括事件的文本及事件的真实类别。
其中,记忆单元为类似于存储器的存储单元。
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
在本实施例中,通过语言模型提取训练样本集中各事件的文本中每个单词的上下文特征;基于上下文特征,通过多层感知器模型(MLP)得到其对应的预测类别。其中,语言模型在本发明中优选采用BERT语言模型,在其他实施例中可以根据实际需要选取语言模型。
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
在本实施例中,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值。其中,交叉熵损失函数如公式(1)所示:
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
在本实施例中,为了使得语言模型、多层感知器模型保持在旧的类别上的性能,使用基于特征层面的知识蒸馏和基于预测层面的知识蒸馏将旧模型的知识迁移到当前模型,即分别计算通过第一蒸馏损失函数(基于特征的蒸馏损失函数)获取基于特征的蒸馏损失值、通过第二蒸馏损失函数(基于预测的蒸馏损失函数)获取基于预测的蒸馏损失值。如图5所示,图5中“Data for Attack”“Data for Meet”“Data for Die”分别表示攻击事件数据、开会事件数据、死亡事件数据,“Learn Attack Event”表示学习攻击事件,其他的类似,Prototype Enhanced Retrospection:原型(类别中心)增强的回顾模块,“removing oldexemplars”“selecting new examples”分别表示移除旧类别的事件范例、筛选新类别的事件范例,“Combined data”表示合并数据,rigger Extractor:触发词抽取器(在事件抽取任务中,一个事件一般是由一个动词引起的,引起事件发生的词被称为“触发词”,“触发词抽取器”是模型的一个模块,为了从句子中抽取出“触发词”),“Current model”“Originalmodel”表示当前模型(t-1轮迭代训练过程中的模型)、原始模型(t轮迭代训练过程中的模型),“BERT”表示BERT语言模型,Hierarchical Distillation 表示层级蒸馏,Memoryafter Meet:学习完“开会”类别之后的内存单元的变化,“feature”表示特征,logit表示logit表示,“features-level distillation”“predictions-level distillation”分别表示基于特征的蒸馏损失函数、基于预测的蒸馏损失函数,“prob”是“probability”的缩写,指的是类别的预测概率,classes表示类别。
其中,基于特征的蒸馏损失函数,如公式(2)所示:
基于预测的蒸馏损失函数,如公式(3)(4)所示:
其中,表示基于预测的蒸馏损失值,表示记忆单元中旧类别的数量,、
分别为上一轮迭代训练过程中多层感知器模型的logit表示、当前轮迭代训练过程中多层
感知器模型的logit表示,表示温度标量,表示下标。
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
在本实施例中,由于记忆单元的存储空间是有限的,所以当新的类别的事件出现
时,需要减少旧的类别的事件在记忆单元中的数量。在减少旧的类别的事件在记忆单元中
的数量时,主要依据各事件距离相应类别中心的距离,删除距离类别中心(或简称为原型)
较远的一些事件,具体为:计算各旧类别的事件到对应类别中心的距离,并进行升序排序,
排序后,删除前g(各旧类别中需要删除的事件的数量)个事件。其中,记忆单元各旧类别中
需要删除的事件的数量的计算,如公式(6)所示:
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
在本实施例中,计算新类别的类别中心,如公式(7)所示:
步骤A80,循环执行步骤A10-步骤A70,直至得到训练好的语言模型、多层感知器模型。
在本实施例中,循环对语言模型、多层感知器模型进行训练,直至得到训练好的语言模型、多层感知器模型。
2、基于知识巩固的增量事件识别方法
步骤S10,获取待识别事件的文本,作为输入文本;
在本实施例中,获取待识别事件的文本。
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别。
在本实施例中,通过预训练的语言模型提取所述输入文本中各单词的上下文特征;基于所述上下文特征,通过多层感知器模型得到待识别事件的类别。
另外,为了验证本发明方法的有效性,在ACE 2005数据集和TAC KBP2017数据集进行训练和验证,由于这两个数据集是长尾分布,选取训练集中样本数目排名前十的类别对应的数据,每一次让模型学习一个新的事件类别。现有的方法和本发明方法的对别结果如图6和图7所示,其中,图6和图7中UpperBound表示上线模型,KCN是KnowledgeConsolidation Network(知识巩固网络)的缩写,也就是本发明基于语言模型、多层感知器模型构建的模型;EMR是Episodic Memory Replay(情景记忆回放)的缩写,LwF是Learningwithout Forgetting(不遗忘的学习)的缩写,EWC是Elastic Weight Consolidation(弹性权重巩固)的缩写,Finetune表示微调模型,F1 score表示F1分数,number of classes表示类别的数量。可以图6和图7的实验结果可以看出,本发明基于知识巩固的增量事件识别的方法在ACE 2005数据集和TAC KBP 2017数据集上的表现超过了现有方法,这表明本发明方法能够不断地学习新类别的事件,并且尽可能地保持模型对已有的类别(旧类别)的事件的识别性能。
本发明第二实施例的一种基于知识巩固的增量事件识别系统,如图2所示,包括:事件文本获取模块100、事件类别获取模块200;
所述事件文本获取模块100,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块200,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,结合新类别的事件,重新计算所述记忆单元各类别的类别中心,并将距离类别中心较近的新类别的事件增入对应的类别;
步骤A80,循环执行步骤A10-步骤A70,直至得到训练好的语言模型、多层感知器模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于知识巩固的增量事件识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于知识巩固的增量事件识别方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于知识巩固的增量事件识别方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于知识巩固的增量事件识别方法,其特征在于,该方法包括以下步骤:
步骤S10,获取待识别事件的文本,作为输入文本;
步骤S20,通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
7.一种基于知识巩固的增量事件识别系统,其特征在于,该系统包括事件文本获取模块、事件类别获取模块;
所述事件文本获取模块,配置为获取待识别事件的文本,作为输入文本;
所述事件类别获取模块,配置为通过预训练的语言模型提取所述输入文本中各单词的上下文特征,并通过多层感知器模型得到所述待识别事件的类别;
所述语言模型、所述多层感知器模型,训练方法为:
步骤A10,获取新类别的事件数据,并结合记忆单元中存储的旧类别的事件数据,构建训练样本集;所述事件数据包括事件的文本及事件的真实类别;
步骤A20,对训练样本集中的各事件,通过语言模型提取其文本中每个单词的上下文特征,并通过多层感知器模型得到其对应的预测类别;
步骤A30,基于训练样本集中各事件的真实类别、预测类别,通过交叉熵损失函数获取交叉熵损失值,作为第一损失值;
步骤A40,对训练样本集中旧类别的事件、新类别的事件,基于其文本中每个单词的上下文特征,通过预设的第一蒸馏损失函数获取基于特征的蒸馏损失值,作为第二损失值;并基于其预测类别对应的概率分布,通过预设的第二蒸馏损失函数得到基于预测的蒸馏损失值,作为第三损失值;
步骤A50,将所述第一损失值、所述第二损失值、所述第三损失值加权求和后,更新所述语言模型、所述多层感知器模型的网络参数;
步骤A60,计算所述记忆单元各旧类别中待删除事件的数量,按照该数量删除各旧类别中距离类别中心较远的事件;
步骤A70,计算新类别的类别中心,将距离该类别中心较近的新类别的事件保留,并增入所述记忆单元;
步骤A80,循环执行步骤A10-A70,直至得到训练好的语言模型、多层感知器模型。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于知识巩固的增量事件识别方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于知识巩固的增量事件识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244409.XA CN112101484B (zh) | 2020-11-10 | 2020-11-10 | 基于知识巩固的增量事件识别方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244409.XA CN112101484B (zh) | 2020-11-10 | 2020-11-10 | 基于知识巩固的增量事件识别方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101484A CN112101484A (zh) | 2020-12-18 |
CN112101484B true CN112101484B (zh) | 2021-02-12 |
Family
ID=73785833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244409.XA Active CN112101484B (zh) | 2020-11-10 | 2020-11-10 | 基于知识巩固的增量事件识别方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101484B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011176A (zh) * | 2021-03-10 | 2021-06-22 | 云从科技集团股份有限公司 | 语言模型训练及其语言推理方法、装置及计算机存储介质 |
CN114510572B (zh) * | 2022-04-18 | 2022-07-12 | 佛山科学技术学院 | 一种终身学习的文本分类方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN111275350A (zh) * | 2020-02-08 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 更新事件评估模型的方法及装置 |
CN111553479A (zh) * | 2020-05-13 | 2020-08-18 | 鼎富智能科技有限公司 | 一种模型蒸馏方法、文本检索方法及装置 |
CN111738436A (zh) * | 2020-06-28 | 2020-10-02 | 电子科技大学中山学院 | 一种模型蒸馏方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102141978A (zh) * | 2010-02-02 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及系统 |
-
2020
- 2020-11-10 CN CN202011244409.XA patent/CN112101484B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659744A (zh) * | 2019-09-26 | 2020-01-07 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型、评估操作事件的方法及装置 |
CN111275350A (zh) * | 2020-02-08 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 更新事件评估模型的方法及装置 |
CN111553479A (zh) * | 2020-05-13 | 2020-08-18 | 鼎富智能科技有限公司 | 一种模型蒸馏方法、文本检索方法及装置 |
CN111738436A (zh) * | 2020-06-28 | 2020-10-02 | 电子科技大学中山学院 | 一种模型蒸馏方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Event Extraction via Bidirectional Long Short-Term Memory Tensor Neural Networks;Yubo Chen 等;《NLP-NABD 2016, CCL 2016: Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data》;20161010;全文 * |
基于联合标注和全局推理的篇章级事件抽取;仲伟峰 等;《中文信息学报》;20190915;第33卷(第9期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112101484A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN111078836A (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN109816438B (zh) | 信息推送方法及装置 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN113255340B (zh) | 面向科技需求的主题提取方法、装置和存储介质 | |
CN112101484B (zh) | 基于知识巩固的增量事件识别方法、系统、装置 | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN113688951B (zh) | 视频数据处理方法以及装置 | |
CN117112744B (zh) | 大语言模型的评估方法、装置及电子设备 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN112667791A (zh) | 潜在事件预测方法、装置、设备及存储介质 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN112580896A (zh) | 知识点预测方法、装置、设备及存储介质 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN114490926A (zh) | 一种相似问题的确定方法、装置、存储介质及终端 | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
CN115964997A (zh) | 选择题的混淆选项生成方法及装置、电子设备、存储介质 | |
WO2023048807A1 (en) | Hierarchical representation learning of user interest | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |