CN116663545A - 事件抽取方法及装置 - Google Patents

事件抽取方法及装置 Download PDF

Info

Publication number
CN116663545A
CN116663545A CN202310315234.4A CN202310315234A CN116663545A CN 116663545 A CN116663545 A CN 116663545A CN 202310315234 A CN202310315234 A CN 202310315234A CN 116663545 A CN116663545 A CN 116663545A
Authority
CN
China
Prior art keywords
model
event
tensor
data
ernie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310315234.4A
Other languages
English (en)
Inventor
孟繁绅
郭冬冬
苗琳
李宁
刘秀磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Publication of CN116663545A publication Critical patent/CN116663545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种事件抽取方法及装置,该方法首先依据小样本数据对通用信息抽取模型进行微调,然后将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据,之后将小样本数据和新增样本数据作为训练数据对ERNIE模型进行训练,依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量,最后依据Global Pointer模型对特征向量进行解码,得到事件元素,该方法基于UIE、ERNIE和Global Pointer进行事件元素的抽取,可以针对领域事件抽取标注数据样本较少的问题,通过自动化的方式对训练样本进行扩充,将准确率、召回率和F1作为评价指标,提高了事件识别任务上和论元识别任务上的F1值,能有效提升小样本下的抽取性能,并且还解决了论元重叠的问题。

Description

事件抽取方法及装置
技术领域
本公开涉及文本处理技术领域,尤其涉及事件抽取方法及装置。
背景技术
事件抽取(Event Extraction,EE)是信息抽取领域中一个重要的研究方向之一,其任务目标是从自然语言文本中识别事件类型与事件论元,是为商业、科技等领域情报工作服务的人工智能应用的重要技术基础。随着用户从开源数据中获取事件信息的需求逐渐增多,事件抽取在自动化信息抽取研究领域愈加重要。
随着互联网数据逐年积累,网络中的文本数据越来越多。事件抽取可以从海量文本数据中抽取用户需要的事件元素以结构化形式进行表示。经过事件抽取以获得结构化数据,使文本主干内容更加清晰,是问答系统、决策支持等领域应用的数据基础。
目前主要采用的事件抽取方法是机器学习的事件抽取方法。机器学习的方法是通过学习将下层输入转化为更加抽象的上层输出,重复进行转化直到输出特征。但是,针对领域中文文本事件抽取,基于百科、新闻数据的领域数据标注样本较少,缺少相关数据集,并且存在论元重叠的问题,小样本下的事件抽取性能较差,难以满足用户的需求。
发明内容
为了解决上述技术问题中的至少一个,本公开提供了事件抽取方法及装置。
本公开第一方面提出了一种事件抽取方法,包括:依据小样本数据对通用信息抽取模型进行微调;将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据;将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练;依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量;依据Global Pointer模型对所述特征向量进行解码,得到事件元素。
根据本公开的一个实施方式,依据小样本数据对通用信息抽取模型进行微调,包括:将结构模式指导器SSI的信息和小样本数据输入所述通用信息抽取模型,得到目标文本中的正样例;引入负样例作为噪声样例,得到包括所述正样例和所述负样例的样例集合;依据所述样例集合和交叉熵损失函数计算损失值。
根据本公开的一个实施方式,所述正样例包括事件类别的正样例和事件论元的正样例。
根据本公开的一个实施方式,将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练,包括:通过分词编码器将所述训练数据转换为第一向量;将所述第一向量输入ERNIE模型得到第一张量;对第一张量进行切割,得到第一切割张量和第二切割张量;通过旋转位置编码将相对位置信息加入到所述第一切割张量和所述第二切割张量中;对所述第一切割张量和所述第二切割张量进行求和;依据求和结果计算损失值,并通过反向传播对所述编码输出进行调整。
根据本公开的一个实施方式,所述ERNIE模型为Transformer模型,所述Transformer模型包括编码器Encoder和解码器Decoder。
根据本公开的一个实施方式,所述第一向量包括:input_ids向量、attention_mask向量和token_type_ids向量。
根据本公开的一个实施方式,所述第一张量具有多个维度,所述多个维度包括:当前批次中的样本数、句子中的位置数量和所述编码器的节点数。
根据本公开的一个实施方式,在对第一张量进行切割之前,先将所述第一张量输入线性层进行形状调整,得到调整后的第一张量。
根据本公开的一个实施方式,依据求和结果计算损失值,包括:将求和结果中的二维矩阵和相应的正确标签矩阵输入损失函数,算出预测值与正确值;依据所述预测值和所述正确值计算损失值。
本公开第二方面提出了一种事件抽取装置,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行上述任一实施方式所述的事件抽取方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1是根据本公开的一个实施方式的事件抽取方法的流程示意图。
图2是根据本公开的一个实施方式的事件抽取方法的模型结构示意图。
图3是根据本公开的一个实施方式的分词编码器进行文本分词的示意图。
图4是根据本公开的一个实施方式的特征编码求和结果中的一个二维矩阵的示意图。
图5是根据本公开的一个实施方式的BERT模型和ERNIE模型的mask策略区别示意图。
图6是根据本公开的一个实施方式的编码矩阵中表示触发词论元位置的示意图。
图7是根据本公开的一个实施方式的编码矩阵中表地点词论元位置的示意图。
图8是根据本公开的一个实施方式的编码矩阵中表示主体论元位置的示意图。
图9是根据本公开的一个实施方式的编码矩阵中表示时间论元位置的示意图。
图10是根据本公开的一个实施方式的存在论元重叠时编码矩阵的示意图。
图11是根据本公开的一个实施方式的采用处理系统的硬件实现方式的事件抽取装置的示意图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
本文使用的术语是为了描述具体实施例的目的,而不是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
下面参考附图描述本公开的事件抽取方法及装置。
事件抽取任务可以分为限定域事件抽取与开放域事件抽取,其中限定域事件抽取是指通过预先定义结构化的事件表示框架来进行的事件抽取任务。
限定域事件抽取分为以下四个层次。
(1)事件提及:识别出包含事件的短语或句子,短语或句子中包括触发词与事件元素。
(2)事件触发词:能够清楚地表达发生事件的类型的词语。
(3)事件元素:能够描述一个事件的论元,其中包括时间、地点、主体等。
(4)元素角色:事件元素在其事件中的角色分类。
以句子“2014年11月28日,地铁站点一个出站口在当地时间28日发生拥堵”为例,根据预先定义的事件框架,其中“拥堵”是该事件的触发词,所触发的事件类别为“交通”,子类别为“拥堵”。事件的组成元素分别为“2014年11月28日”、“地铁站点”、“出站口”,分别对应着“拥堵”这一事件类型论元模板中的三个元素标签,即时间、地点、主体。
事件论元抽取:事件论元(Event Argument)指的是事件中的参与者,包含实体、时间、数值、文本等数据组成。例如,“张三在2022年成功晋升”中的张三、2022年均为“晋升”事件的事件论元。
图1是根据本公开的一个实施方式的事件抽取方法的流程示意图。参阅图1,本实施方式的事件抽取方法S10,可以包括以下步骤。
S100,依据小样本数据D1对通用信息抽取模型进行微调。
图2是根据本公开的一个实施方式的事件抽取方法的模型结构示意图。参阅图2,对预训练好的通用信息抽取(Universal Information Extraction,UIE)模型进行微调,实现了实体抽取、关系抽取、事件抽取、情感分析等任务的统一建模,并使得不同任务间具备良好的迁移和泛化能力。该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
S100可以包括以下步骤:将结构模式指导器SSI的信息和小样本样本数据D1输入通用信息抽取模型,得到目标文本中的正样例;引入负样例作为噪声样例,得到包括正样例和负样例的样例集合;依据样例集合和交叉熵损失函数计算损失值。
在微调时,UIE模型的输入可以包括小样本标注数据D1和事件结构信息,输出为结构化数据。
采取UIE finetuned辅助进行数据增强,将模式指导器(Structural SchemaInstructor,SSI)与小样本原始文本D1输入,对UIE进行微调,提取目标文本y中的正样例。正样例包括事件类别(事件触发词)的正样例Ss+和事件论元(实体在事件中的角色)的正样例Sa+。
可以通过Dpair任务对UIE进行微调:Dpair={(x,y)}。Dpair用于实现UIE的从文本到结构的转换能力。在UIE的微调任务中,Dpair的形式是{s,x,y},即结构化模式指导器(Structural Schema Instructor,SSI)与Dpair相结合。其中s为结构模式指导器SSI的信息,x为原始文本,y为目标文本,y为采用结构化抽取语言(Structural ExtractionLanguage,SEL)描述的结构化数据。
引入部分噪声样例,包括事件类别的负样例Ss-和事件论元的负样例Sa-,得到样例集合Smeta:Smeta=S+∪SS-∪Sa-。其中,Ss-与Sa-为引入的不存在的负样例,S+=Ss+∪Sa+,即S+为y中存在的正样例的集合。通过在UIE的微调过程中添加了部分负样例,能够使UIE学习拒绝误导性数据并准确的学习有限知识中的有效部分,生成的数据具有较高准确性。
最终Loss如下式所示:
其中,Lpair为损失值,p为概率,p(y|x)为在样本x中输出y的正确概率,θe为编码器参数,θd为解码器参数。
S200,将生语料数据D2输入微调后的通用信息抽取模型进行预测,得到新增样本数据。
UIE在zero-shot(零次学习)与few-shot(小样本学习)的表现较好,UIE的作用主要是生成为后续结构训练的训练数据,解决样本数量少的问题。由于ERNIE模型和GlobalPointer模型需要大量的标注数据才能够发挥较好的效果,通过辅助生成的训练数据经过再次训练可以获得较好的效果。
使用UIE fine-tune模型预测生语料数据D2,通过简单的数据清洗选取有效数据,得到的新增样本数据能够增强训练集规模。。
S300,将小样本数据D1和新增样本数据作为训练数据D3,对ERNIE模型进行训练,也就是对ERNIE模型进行微调。
ERNIE(Enhanced Language Representation with Informative Entities)模型利用了知识图谱中的多信息实体来作为外部知识改善语言表征。ERNIE模型的输入为文本,主要用于对UIE模型生成的数据与原始训练数据进行编码。ERNIE模型的结构可以采用多头Transformer模型,Transformer模型包括编码器Encoder和解码器Decoder。本实施方式主要使用了其中的编码器Encoder进行编码。输入的数据通过输入编码后,经过N层多头注意力机制、前馈神经网络、归一化计算输出编码。
S300中,对ERNIE模型进行训练的方式可以包括:通过分词编码器将训练数据转换为第一向量;将第一向量输入ERNIE模型,得到第一张量;对第一张量进行切割,得到第一切割张量和第二切割张量;分别依据第一切割张量和第二切割张量生成相应的旋转位置编码矩阵;对生成的旋转位置编码矩阵进行求和;依据求和结果计算损失值,并通过反向传播对所述编码输出进行调整。
图3是根据本公开的一个实施方式的分词编码器进行文本分词的示意图。参阅图3,分词编码器Tokenizer用于将句子划分为多个词块(token),生成一个词表,并通过模型学习到更好的表示。经过分词编码器Tokenizer将输入ERNIE模型的文本转换为input_ids向量、attention_mask向量和token_type_ids向量。其中,input_ids是输入文本映射到模型中的字典ID,attention_mask是多个文本统一长度的掩码,token_type_ids是词对应的语句的ID。图3中,CLS表示第一个句子的首位,SEP表示第一个句子的结束和第二个句子的开始。S1-S10为目标文本中每个词对应的编码,下标代表位置,上标的Tok、Seg、Pos代表编码类型。Input Embedding输入层对应输入的第一向量,第一向量通过三个嵌入层PositionEmbedding、Segment Embedding和Token Embedding相加得到。其中,Token Embedding层用于将各个词转换成固定维度的向量。Segment Embedding层用于识别句子对中的前句和后句。Position Embeddings层用于识别词的顺序。
第一张量具有多个维度,包括:当前批次中的样本数batch_size的维度,句子中的位置数量sequence_length的维度,以及编码器的节点数hidden_size的维度。也就是说,ERNIE模型输出的第一张量的维度为[batch_size,sequence_length,hidden_size]。其中,hidden_size的数量可以设置为768。
在得到ERNIE模型输出的编码结果(第一张量)后,可以通过Global Pointer模型对ERNIE编码后的特征向量进行解码。解决论元重叠的问题。Global Pointer模型采用了一种RoPE(Rotary Position Embedding,旋转位置编码)旋转矩阵通过绝对编码的方式实现相对位置编码,有效减少了可学习参数。可以理解的是,RoPE是对其中的相对位置特征进行编码,即是在ERNIE编码后的结果之上将相对位置特征融入ERNIE的编码结果。
在将第一张量输入Global Pointer模型进行解码前,为了对第一张量的维度进行调整,得到格式与GlobalPointer的输入格式相适配的张量,可以先将第一张量输入线性层进行形状调整,得到调整后的第一张量,然后再对调整后的第一张量进行切割。具体的,对ERNIE模型输出的维度为[batch_size,sequence_length,hidden_size]的第一张量,通过线性层对第一张量进行特征提取,输出调整后的第一张量,其形状为[batch_size,sequence_length,ent_type_size*inner_dim*2]。其中,inner_dim可以设置为64,ent_type_size为事件论元的类别数量。
将维度调整后的第一张量输入Global Pointer模型中,Global Pointer模型可以先通过torch对第一张量进行切分,得到形状为[batch_size,sequence_length,ent_type_size,inner_dim*2]的切分后的第一张量。
之后对切分后的第一张量再次进行切割,得到第一切割张量qw和第二切割张量kw,qw和kw是两个形状为[batch_size,sequence_length,ent_type_size,inner_dim]的张量。qw和kw由线性层的结果切分而来,各自代表一部分由线性层转化后的向量的特征。
然后通过旋转位置编码将相对位置信息分别加入到第一切割张量qw和第二切割张量kw中。矩阵采用Sinusoidal位置编码,选取角度θi=10000(-2i/d),其中,d为inner_dim。旋转位置编码矩阵RoPE为:
其中,m为位置,对应于Position Embeeding,是通过句子长度得到的绝对位置。q为长度为d的特征向量,对应于第一切割张量qw或第二切割张量kw。在向qw和kw中加入相对位置信息时,将qw作为特征向量q带入上式的RoPE计算公式,得出带有相对位置的第一特征编码RoPE(qw),RoPE(qw)也可通过qwbmhd表示。以及将kw作为特征向量q带入上式的RoPE计算公式,得出带有相对位置的第二特征编码RoPE(kw),RoPE(kw)也可通过kwbnhd表示。该操作将原本的特征值转化为了RoPE编码矩阵,但不会改变qw和kw的形状。
第一特征编码qwbmhd和第二特征编码kwbnhd的维度为[batch_size,sequence_length,ent_type_size,inner_dim],可以表示为在每一个batch的数据下,针对每一种事件论元entity_type的一部分特征。
然后将第一特征编码qwbmhd和第二特征编码kwbnhd这两个张量进行求和:
Cbhmn=∑dqwbmhdkwbnhd
其中,Cbhmn是特征编码求和结果,d为inner_dim,bmhd代表qw张量的维度,bnhd代表kw张量的维度。Cbhmn的维度为[batch_size,ent_type_size,sequence_length,sequence_length],该矩阵的长宽为句子的长度,矩阵内的数值则代表着其行、列索引为起始、终止位置的实体的打分。
图4是根据本公开的一个实施方式的特征编码求和结果中的一个二维矩阵的示意图。参阅图4,第一张量代表在每一个批次下,针对每一种事件论元ent_type均构建一个长宽为句子长度的二维矩阵。
图5是根据本公开的一个实施方式的BERT模型和ERNIE模型的mask策略区别示意图。参阅图5,ERNIE编码器是一种带有先验知识的字输入词掩码,其mask策略与BERT(Bidirectional Encoder Representation from Transformers,基于转换器的事件双向编码表示)模型不同,BERT模型采取了字级别随机masking,而ERNIE模型采取了字、实体、短语三个级别的masking。
S300中,依据求和结果计算损失值,并通过反向传播对所述编码输出进行调整的具体方式可以包括:将求和结果中的二维矩阵和相应的正确标签矩阵输入损失函数,算出预测值与正确值;依据预测值和正确值计算损失值。
具体的,经过运算将求和结果Cbhmn中对应类别的二维矩阵与正确的标签矩阵输入损失函数,计算其预测值与正确值的损失函数,然后进行反向传播。在小样本及样本充足的条件下ERNIE预训练模型的效果较好,因为ERNIE在训练时加入了先验知识,通过前后文学习到语义知识而非字符知识。
设从i到j的连续片段的类型为α的实体打分,其损失函数如下所示:
Pα={(i,j)|t[i:j]是实体类型为α的实体} (2)
Qα=Ω-Pα (3)
Ω={(i,j)|1≤i≤j≤n} (4)
其中,Ω代表全部的候选实体与非实体,i代表起始位置,j代表终止位置,n代表最大位置,t[i:j]为起始位置为i、终止位置为j的候选实体是α类型的实体,Pα即是其集合,也就是样本的所有类型为α的实体的首尾集合。Qα即是非候选实体与候选实体类型不为α的实体的集合,也就是样本的所有非实体或者类型不为α的实体的首尾集合。Sα为类型为α的实体的打分,也就是图4中的数值。
图6是根据本公开的一个实施方式的编码矩阵中表示触发词论元位置的示意图。图7是根据本公开的一个实施方式的编码矩阵中表地点词论元位置的示意图。图8是根据本公开的一个实施方式的编码矩阵中表示主体论元位置的示意图。图9是根据本公开的一个实施方式的编码矩阵中表示时间论元位置的示意图。参阅图6-图9,针对日期、地点、主体、触发词等元素对应构建多个编码矩阵,分别用于抽取其对应的文本。在解码阶段,则将编码矩阵中大于0的片段确定为类型为α的实体。论元位置的标注在图6-图9所示矩阵中对应的开始位置为行坐标,结束位置为列坐标。
通过Global Pointer能够解决命名实体识别(Named Entity Recognition)中的实体重叠问题。例如“A市大学”是一个机构,其中的“A市”是城市,因此存在实体重叠。论元重叠包含了以下三种不同情况。
情况1:在同一事件中,同一词语代表了两种以上角色。例如,句子“雨云到达了当地一个山区,为植物和动物降温补水”中,“植物”与“动物”皆为“降温补水”事件的对象。
情况2:在同一事件中,同一角色的文本间有重叠。例如,句子“太空杯水壶在超市进行售卖”中,“太空杯”与“太空杯水壶”皆为售卖事件的主体。
情况3:在不同事件中,同一文本代表了不同论元。例如,句子“11月10日,清洁工清扫了马路两旁的下水口,下水口排水变得通畅”中,“下水口”即是“清扫”事件的地点,又是“排水”事件的地点。
通过Global Pointer能够解决上述事件抽取任务中的论元重叠问题,且相比于双指针解码方式更为先进,尤其是在上述情况2的处理上。因此使用该方法进行解码。
图10是根据本公开的一个实施方式的存在论元重叠时编码矩阵的示意图。参阅图10,假设“地铁站出站口”与“出站口”为同一事件中相同角色,则该结构可以同时表示“地铁站出站口”与“出站口”两个论元。
Global Pointer对损失函数进行了优化,将多分类问题变成多个二分类问题优化为将目标类别得分与非目标类别得分比较,平衡了权重,在类别数量大、数据不均衡的样本效果更好。本实施方式提供的方法,在总类别标签数目大、目标类别标签数目小的多标签分类问题中具有较高的效率与优秀的表现。
S400,依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量。
S500,依据Global Pointer模型对特征向量进行解码,得到事件元素,包括时间、地点、主体、触发词等内容。
参阅图2,假设目标文本为“XX街道的菜市场开业”,通过ERNIE模型对该目标文本进行编码。之后通过Global Pointer模型进行解码,得到事件元素,例如得到地点为“XX街道”,主体为“菜市场”,等等。
以下对本实施方式的事件抽取方法进行验证。
数据集事件类型与事件元素定义如表1所示:
表1事件Schema定义表
采用训练集400条、验证集150条、生语料1000条进行验证和训练数据的扩充。研究选取标准精确度P(Precision)、召回率R(Recall),R和F测度(F1)作为评价指标来评估结果。计算公式如下所示:
其中,P(Precision)查准率为在预测当中查找准确个数的比例。R(Recall)查全率为在预测中看看真正预测对的占全有对的比率。TP(True Positive)为分类器预测结果为正样本,实际也为正样本,即正样本被正确识别的数量。FP(False Positive)为分类器预测结果为正样本,实际为负样本,即误报的负样本数量。FN(False Negative)为分类器预测结果为负样本,实际为正样本,即漏报的正样本数量。
不同模型之间的事件检测效果对比表如表2所示。
表2模型效果对比表
根据表2所示对比实验分析,在小样本及样本充足的条件下ERNIE预训练模型的效果比BERT模型效果在中文数据集上表现更好,因为ERNIE在训练时加入了先验知识,通过前后文学习到语义知识而非字符知识。UIE fine-tune的小样本表现最佳,可能的原因是UIE在微调的过程中添加了部分负样例,能够使模型准确的学习有限知识中的有效部分。同时,Global Pointer的表现相较于CRF也有了较大的提升。
使用UIE fine-tune模型预测生语料数据,通过简单的数据清洗选取有效数据,增强训练集规模后,UIE与ERNIE+Global Pointer的效果均有提升,但是ERNIE+GlobalPointer的提升效果明显且较UIE效果更好,可能的原因是Global Pointer对损失函数进行了优化,将多分类问题变成多个二分类问题优化为将目标类别得分与非目标类别得分比较,平衡了权重,在类别数量大、数据不均衡的样本效果更好。
根据本公开的实施方式提出的事件抽取方法,基于UIE、ERNIE和Global Pointer进行事件元素的抽取,可以针对领域事件抽取标注数据样本较少的问题,通过自动化的方式对训练样本进行扩充,有效地学习百科、新闻数据上下文交互信息,抽取百科、新闻数据中领域装备的事件,将准确率、召回率和F1作为评价指标,在事件识别任务上F1值提高了1.26%,在论元识别任务上F1值提高了1.58%,能有效提升小样本下的抽取性能,并且还解决了论元重叠的问题。
图11是根据本公开的一个实施方式的采用处理系统的硬件实现方式的事件抽取装置的示意图。参阅图11,本实施方式的事件抽取装置1000,可以包括存储器1300和处理器1200。存储器1300存储执行指令,处理器1200执行存储器1300存储的执行指令,使得处理器1200执行上述任一实施方式的事件抽取方法。
该装置1000可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
例如,事件抽取装置1000可以包括第一模型微调模块1002、训练数据扩充模块1004、第二模型训练模块1006、文本编码模块1008和解码模块1010。
第一模型微调模块1002用于依据小样本数据对通用信息抽取模型进行微调。训练数据扩充模块1004用于将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据。第二模型训练模块1006用于将小样本数据和新增样本数据作为训练数据对ERNIE模型进行训练。文本编码模块1008用于依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量。解码模块1010用于依据Global Pointer模型对特征向量进行解码,得到事件元素。
第一模型微调模块1002对通用信息抽取模型进行微调的方式可以包括:将结构模式指导器SSI的信息和小样本数据输入通用信息抽取模型,得到目标文本中的正样例;引入负样例作为噪声样例,得到包括正样例和负样例的样例集合;依据样例集合和交叉熵损失函数计算损失值。其中,正样例可以包括事件类别的正样例和事件论元的正样例。
第二模型训练模块1006对ERNIE模型进行训练的方式可以包括:通过分词编码器将训练数据转换为第一向量;将第一向量输入ERNIE模型得到第一张量;对第一张量进行切割,得到第一切割张量和第二切割张量;通过旋转位置编码将相对位置信息加入到第一切割张量和第二切割张量中;对第一切割张量和第二切割张量进行求和;依据求和结果计算损失值,并通过反向传播对编码输出进行调整。其中,ERNIE模型为Transformer模型,Transformer模型包括编码器Encoder和解码器Decoder。第一向量可以包括:input_ids向量、attention_mask向量和token_type_ids向量。第一张量具有多个维度,多个维度可以包括:当前批次中的样本数、句子中的位置数量和编码器的节点数。第二模型训练模块1006在对第一张量进行切割之前,可以先将第一张量输入线性层进行形状调整,得到调整后的第一张量。第二模型训练模块1006依据求和结果计算损失值的方式可以包括:将求和结果中的二维矩阵和相应的正确标签矩阵输入损失函数,算出预测值与正确值;依据预测值和正确值计算损失值。
需要说明的是,本实施方式的事件抽取装置1000中未披露的细节,可参照本公开提出的上述实施方式的事件抽取方法S10中所披露的细节,此处不再赘述。
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。
总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
根据本公开的实施方式提出的事件抽取装置,基于UIE、ERNIE和Global Pointer进行事件元素的抽取,可以针对领域事件抽取标注数据样本较少的问题,通过自动化的方式对训练样本进行扩充,有效地学习百科、新闻数据上下文交互信息,抽取百科、新闻数据中领域装备的事件,将准确率、召回率和F1作为评价指标,在事件识别任务上F1值提高了1.26%,在论元识别任务上F1值提高了1.58%,能有效提升小样本下的抽取性能,并且还解决了论元重叠的问题。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须是相同的实施方式/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。

Claims (10)

1.一种事件抽取方法,其特征在于,包括:
依据小样本数据对通用信息抽取模型进行微调;
将生语料数据输入微调后的通用信息抽取模型进行预测,得到新增样本数据;
将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练;
依据训练好的ERNIE模型对目标文本进行编码,得到相应的特征向量;
依据GlobalPointer模型对所述特征向量进行解码,得到事件元素。
2.根据权利要求1所述的方法,其特征在于,依据小样本数据对通用信息抽取模型进行微调,包括:
将结构模式指导器SSI的信息和小样本数据输入所述通用信息抽取模型,得到目标文本中的正样例;
引入负样例作为噪声样例,得到包括所述正样例和所述负样例的样例集合;
依据所述样例集合和交叉熵损失函数计算损失值。
3.根据权利要求2所述的方法,其特征在于,所述正样例包括事件类别的正样例和事件论元的正样例。
4.根据权利要求1所述的方法,其特征在于,将所述小样本数据和所述新增样本数据作为训练数据对ERNIE模型进行训练,包括:
通过分词编码器将所述训练数据转换为第一向量;
将所述第一向量输入ERNIE模型得到第一张量;
对第一张量进行切割,得到第一切割张量和第二切割张量;
通过旋转位置编码将相对位置信息加入到所述第一切割张量和所述第二切割张量中;
对所述第一切割张量和所述第二切割张量进行求和;
依据求和结果计算损失值,并通过反向传播对所述编码输出进行调整。
5.根据权利要求4所述的方法,其特征在于,所述ERNIE模型为Transformer模型,所述Transformer模型包括编码器Encoder和解码器Decoder。
6.根据权利要求5所述的方法,其特征在于,所述第一向量包括:input_ids向量、attention_mask向量和token_type_ids向量。
7.根据权利要求5所述的方法,其特征在于,所述第一张量具有多个维度,所述多个维度包括:当前批次中的样本数、句子中的位置数量和所述编码器的节点数。
8.根据权利要求5所述的方法,其特征在于,在对第一张量进行切割之前,先将所述第一张量输入线性层进行形状调整,得到调整后的第一张量。
9.根据权利要求5所述的方法,其特征在于,依据求和结果计算损失值,包括:
将求和结果中的二维矩阵和相应的正确标签矩阵输入损失函数,算出预测值与正确值;
依据所述预测值和所述正确值计算损失值。
10.一种事件抽取装置,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如权利要求1至9中任一项所述的事件抽取方法。
CN202310315234.4A 2023-03-01 2023-03-28 事件抽取方法及装置 Pending CN116663545A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202310225309 2023-03-01
CN202310225309X 2023-03-01

Publications (1)

Publication Number Publication Date
CN116663545A true CN116663545A (zh) 2023-08-29

Family

ID=87712448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310315234.4A Pending CN116663545A (zh) 2023-03-01 2023-03-28 事件抽取方法及装置

Country Status (1)

Country Link
CN (1) CN116663545A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648430A (zh) * 2024-01-30 2024-03-05 南京大经中医药信息技术有限公司 对话式大语言模型监督训练评价系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648430A (zh) * 2024-01-30 2024-03-05 南京大经中医药信息技术有限公司 对话式大语言模型监督训练评价系统
CN117648430B (zh) * 2024-01-30 2024-04-16 南京大经中医药信息技术有限公司 对话式大语言模型监督训练评价系统

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN110209823B (zh) 一种多标签文本分类方法及系统
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN116738994A (zh) 基于上下文增强的提示微调的关系抽取方法
CN112800768A (zh) 一种嵌套命名实体识别模型的训练方法及装置
CN116663545A (zh) 事件抽取方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN106448660B (zh) 一种引入大数据分析的自然语言模糊边界确定方法
CN117349423A (zh) 一种模板匹配式水利领域知识问答模型
CN112528653A (zh) 短文本实体识别方法和系统
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN116450813A (zh) 文本关键信息提取方法、装置、设备以及计算机存储介质
CN115221284A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
Liu et al. Keyword retrieving in continuous speech using connectionist temporal classification
CN111797234A (zh) 一种自然语言处理分类模型中多标签分布学习的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination