CN114757181A - 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 - Google Patents

基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 Download PDF

Info

Publication number
CN114757181A
CN114757181A CN202210300209.4A CN202210300209A CN114757181A CN 114757181 A CN114757181 A CN 114757181A CN 202210300209 A CN202210300209 A CN 202210300209A CN 114757181 A CN114757181 A CN 114757181A
Authority
CN
China
Prior art keywords
event
text
recognition
training
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210300209.4A
Other languages
English (en)
Other versions
CN114757181B (zh
Inventor
熊朝阳
黄宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Shitong Hengqi Beijing Technology Co ltd
Original Assignee
Zhongke Shitong Hengqi Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Shitong Hengqi Beijing Technology Co ltd filed Critical Zhongke Shitong Hengqi Beijing Technology Co ltd
Priority to CN202210300209.4A priority Critical patent/CN114757181B/zh
Publication of CN114757181A publication Critical patent/CN114757181A/zh
Application granted granted Critical
Publication of CN114757181B publication Critical patent/CN114757181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置,方法包括:针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别;根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,训练预先搭建的基于transformer的encoder‑decoder架构的事件网络模型,得到目标模型。应用本发明实施例,对不同领域数据的迁移成本也更低。

Description

基于先验知识端到端的事件抽取模型的训练、事件抽取方法 及装置
技术领域
本发明涉及自然语言处理技术领域,更具体涉及基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置。
背景技术
近年来,随着互联网技术的高速发展,互联网上的信息量得到了爆发性的增长。因此,如何在信息高度冗余的情况下高效的实现信息中关键信息提取是亟待解决技术问题。常见的关键信息提取方式为事件抽取,是将非结构化文本中的事件信息转换为结构化形式。其在舆情监测、文本摘要、自动问答、事理图谱自动构建等领域有着重要应用。当前对于事件抽取的主要抽取方式为基于句法规则的无监督方法,其具体流程为实体识别、触发词提取、论元角色提取、事件检测,还有多种任务的管道建模或联合建模等。但是这些方法都有一些或多或少的问题制约抽取效果的提升,例如,拆分成多任务会导致错误的逐级传播,下级任务效果上限受上级任务制约;基于规则的方式则会因为参考案例的独特性导致规则的效果片面,难以适用所有情况。
目前,大多数事件提取方法采用分解策略,即分解将复杂事件结构预测为多个分离的子任务主要包括实体识别、触发器检测、参数分类,然后组合不同子任务的组件,以预测整个事件结构。这些措施的主要缺点是:它们需要针对不同任务的添加大量细粒度子任务,这通常会导致每个单一子任务数据利用效率低下;设计最佳的子任务组合是一项非常具有挑战性的工作;不同子任务的信息传递过程中,通常会导致错误传播。联合模型需要启发式地预定义信息共享,而且最终决策依赖触发检测、参数分类、和实体识别的共同作用,同样会导致错误的累积。也有一些采用传统的基于依存句法和槽值填充的规则的方式来实现事件抽取,但是这种方式往往需要专业人士的事件总结和规则提取能力,而且规则与事件模式相互限制严重,规则维护成本高,且对不同数据的泛用能力较差,迁移成本高。
发明内容
本发明所要解决的技术问题在于提供了基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置,以提高模型泛用能力以及降低迁移成本。
本发明是通过以下技术方案解决上述技术问题的:
本发明提供了一种基于先验知识端到端的事件抽取模型的训练方法,所述方法包括:
S1:针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
S2:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
S3:基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;
S4:根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
可选的,其特征在于,S3步骤包括:
用事件类型链接到事件树的虚拟根节点,训练数据事件中事件触发词链接到事件类型作为标签,将若干个事件参数类型与事件类型连接,训练数据事件中论元词汇链接到作为标签的相应事件参数类型节点,其中,事件参数类型节点为事件树中除虚拟根节点以外的节点。
将训练文本中的每一个字符按照针对事件树的遍历顺序排列组成事件文本序列;将训练文本中的每一个字符对应的节点的标签按照针对事件树的遍历顺序排列组成事件角色类型伴生序列,将事件文本序列与事件角色类型伴生序列的组合作为第一序列对。
可选的,事件模板树的生成过程包括:
基于事件结构模板语句,将所有事件类型字段作为虚拟根节点的子节点连接到虚拟根节点,事件类型对应的事件参数字段作为事件类型字段的子节点链接到事件类型字段对应的事件树中的其他节点;
在每一个以事件类型字段为父节点的子树中包含的、未作为父节点的,所有事件参数类型字段作为子节点链接到该事件参数角色类型字段,依次递归,直到该事件类型字段所包含的所有事件参数类型字段均被连接到每一条树分支上。
可选的,在事件网络模型的每一次迭代训练时,所述方法还包括:
判断当前迭代步骤为奇数步还是偶数步;
在奇数步时,以当前迭代步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制输出,以及上一奇数步的输出token yi-1,利用公式,
Figure BDA0003565193550000031
解码输出本步token yi和当前迭代步骤的解码器隐状态
Figure BDA0003565193550000032
其中,
yi为当前迭代步骤的输出;
Figure BDA0003565193550000041
为当前迭代步骤的解码器隐状态;Decoder()为解码算法;
Figure BDA0003565193550000042
为当前步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制算法;i为当前迭代步骤的序号,取值为正整数;yi-1为上一奇数步的输出;
Figure BDA0003565193550000043
为当前步骤之前所有奇数步的解码器隐状态,且
Figure BDA0003565193550000044
Figure BDA0003565193550000045
为第一个奇数迭代步骤的解码器隐状态,类似的,
Figure BDA0003565193550000046
为第i-2个奇数迭代步骤的解码器隐状态。
可选的,在当前迭代步骤为偶数步的情况下,所述方法包括:
利用交叉注意力机制算法处理与上一奇数步输入相同的所有之前奇数步的解码器隐状态的自注意力机制、编码器隐含层向量H得到的输出结果,以及上一偶数步骤的输出token ym-1,利用公式,
Figure BDA0003565193550000047
解码输出本步token ym和本步解码器隐状态
Figure BDA0003565193550000048
其中,
M为当前迭代步骤对应的次数;
Figure BDA0003565193550000049
为与上一奇数步输入相同的所有之前奇数步的解码器隐状态
Figure BDA00035651935500000410
Figure BDA00035651935500000411
为第一个偶数迭代步骤的解码器隐状态,类似的,
Figure BDA00035651935500000412
为第m-2个偶数迭代步骤的解码器隐状态。
可选的,在事件网络模型的每一次迭代结束后,所述方法还包括:
利用公式,
Figure BDA00035651935500000413
计算当前次迭代步骤的整个输出序列的条件概率p(y|x),其中,
p(y|x)为整个输出序列的条件概率;y为当前次迭代的输出序列;x为词汇的标识;П为求积运算符;p(yi|y<i,x)为每个迭代步骤的输出序列中词汇x对应的概率;y<i=y1...yi-1
判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值;
若是,将当前次迭代步骤整个输出序列中的事件模式词作为下一次迭代步骤的事件模式词的来源。
可选的,在判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值步骤的判断结果为否时,所述方法还包括:
在当前迭代步骤的下一次迭代步骤中将事件模板树作为事件模式词的来源。
本发明还提供了一种基于先验知识端到端的事件抽取方法,所述方法包括:
S6:针对待处理文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对待处理文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
S7:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到待处理文本对应的融合结果;
S8:基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如权利要求1训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件。
本发明还提供了一种基于先验知识端到端的事件抽取模型的训练装置,所述装置包括:
第一外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第一融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第一数据预处理模块,用于基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;
训练模块,用于根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
本发明还提供了一种基于先验知识端到端的事件抽取装置,所述装置还包括
第二外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第二融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第二数据预处理模块,用于基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如权利要求1训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件。
本发明相比现有技术具有以下优点:
本发明采用encoder-decoder事件网络模型的架构,相较于传统的基于依存句法和槽值填充的规则,无需提取规则,维护更简洁,抽取事件范围更广,对不同领域数据的迁移成本也更低。
附图说明
图1为本发明实施例提供的一种基于先验知识端到端的事件抽取的模型的训练方法流程示意图;
图2为本发明实施例提供的一种基于先验知识端到端的事件抽取的方法的原理示意图;
图3为本发明实施例提供的训练文本事件树与第一序列对之间的对应关系示意图;
图4为本发明实施例提供的encoder-decoder事件网络模型的架构图;
图5为本发明实施例提供的事件结构模板库对应的事件模板树的结构示意图;
图6为本发明实施例提供的一种基于先验知识端到端的事件抽取方法流程示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
图1为本发明实施例提供的一种基于先验知识端到端的事件抽取的模型的训练方法流程示意图;图2为本发明实施例提供的一种基于先验知识端到端的事件抽取的方法的原理示意图,如图1和图2所示,方法包括:
S1:针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别。
可以基于预先配置的实体识别模型、先验触发词识别模型以及先验论元词汇识别模型分别进行实体、触发词以及论元词汇识别。
具体地,可以使用现有的实体识别模型进行实体识别,得到对应的实体类型;属于某个语义类别的对象或对象集合,其中包括:人、地理政治区域名、组织机构、地名、武器、建筑设施和交通工具。本发明实施例中实体识别模型可以为bert+crf算法,用于从文本中抽取出一个或多个作为实体的字符段,并能标记实体的类型。进一步的,可以针对属于不同事件类型的训练文本针对性的使用相应的实体识别模型。可以理解的是,所谓相应的实体识别模型可以为利用被识别事件类型下的预先标注了实体的文本集合训练出来的。
可以基于预先配置的先验触发词配置表,使用先验触发词识别模型识别出文本中的触发词。触发词为表示事件发生的核心词,多为动词或名词。先验触发词配置表是指待抽取事件所涉及的触发词的集合,通过训练数据的标注获得,也可自行配置。
类似的,可以基于预先配置的先验论元词汇配置表,利用现有的论元词汇识别模型识别出文本中的论元词汇。所述所述论元词汇是指各类事件下相应的角色对应的词汇,例如在“小王于本月2日乘飞机前往W市开展市场调研”语句中,施事者:“小王”,交通方式:“飞机”,目的地:“W市”,时间:“本月2日”均为论元词汇。具体来说,“施事者、交通方式、目的地、时间”均为“小王、飞机、W市、本月2日”一一对应的标签,该标签是预先标注好的。在进行词汇识别时,可以根据训练文本中的词汇与先验论元词汇配置表中的词汇之间的相似度高低来实现的,例如相似度高的可以直接识别为先验论元词汇配置表中的词汇,相似度较低的可以直接舍弃。实体根据训练数据的不同可以分为不同事件种类,多以有具体事或物对照的词居多,经验上看,论元词汇有较大概率包含实体。
先验触发词识别模型以及先验论元词汇识别模型,是指一种基于相似字符数的词汇识别算法,文本通过对候选词的相似值比较获取所涉及的目标词,高于相似阈值则取,反之不取。相似值是指先验触发词配置表或者先验论元词汇配置表中的词汇文本与候选词汇之间公共字串长度在候选词字串长度中的占比,该占比是预先设置的,其中,候选词来源于训练文本,目标词来源于先验触发词配置表或者先验论元词汇配置表,当训练文本中的词汇与目标词相似度高于相似阈值时,训练文本中的该词汇也可以被列入目标词汇的范畴。需要强调的是,此处的先验触发词,先验论元词汇的识别结果,并不能作为最终抽取结果,仅在S2步骤中数据融合时作为输入信息的一部分补充,以增强真实候选触发词和论元词汇的信息量以区别于其它词汇。
进而可以到每一个被识别出的实体、触发词,论元词汇对应的字符串进行标记,标记信息包括:该字符串在文本中的开始位置、结束位置、实体类型、是否为触发词、是否为论元词汇。
然后,使用现有分词工具对训练文本进行文本分词、词性标注以及依存句法识别。对训练文本进行文本分词可以得到文本分词结果和每个词汇在文本中的开始和结束位置信息。对训练文本进行词性标注可以得到词性标注信息,如名词、动词等。对训练文本进行依存句法信息,可以得到分词结果对应的依存关系,如主谓关系、动宾关系等。
应用本发明实施例,巧妙地利用实体信息,分词、词性及句法信息的结合,将监督数据中的触发词和论元信息作为原文本语义信息的补充,可以极大增强真实触发词和论元词汇的信息量,从而提高触发词和论元词汇的提取准确率,
S2:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果,并使用最终得到的融合结果代替原训练文本。
具体的,可以分别对实体识别,先验触发词,先验论元词汇识别的结果与分词结果进行原文本位置重叠分析,即对比实体、先验触发词,先验论元词汇的字符串在文本中的开始和结束位置信息与分词结果的开始和结束位置信息是否有交叉。
若有,则为对应分词添加对应的实体类型信息,触发词信息,论元词汇信息,即将实体类型信息,触发词信息,论元词汇信息加入该分词的文本分词信息、词性标注信息、依存句法信息中作为该分词的标签。
若无则为对应分词添加对应空值。
以上述信息作为该分的补充属性形成融合信息分词序列代替原文本,进而可以将训练数据事件转换为一个类似于一般文本生成任务的事件序列,形式包括但不限于:
[(词_1,(实体类型,词性、依存关系,是否先验触发词、是否先验论元词汇)),...,(词_n,(实体类型,词性、依存关系,是否先验触发词、是否先验论元词汇))]。
本发明实施例中,通过已知训练数据的先验知识,对非结构化文本数据进行知识融合并编码,使得触发词和论元词汇的特征编码与文本中其它词的差异性被大大提高,再经过基于transformer的深度神经网络端到端地抽取事件结果,可以提高事件抽取的准确率。
S3:基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对。
根据融合结果,利用事件树生成方法将训练数据转转第一序列对,第一序列对是由为事件文本序列和事件角色类型伴生序列构成的,其中,训练数据包括了训练文本以及对应的标注。
具体地,图3为本发明实施例提供的训练文本事件树与第一序列对之间的对应关系示意图,如图3所示,首先将训练数据转换为一个带标签的训练数据事件树,用事件类型“旅行”链接到事件树的虚拟根节点,训练数据事件中事件触发词链“前往”接到事件类型作为标签,将若干个事件参数类型,如“施事者”、“时间”、“交通方式”以及“目的地”与事件类型连接,训练数据事件中论元词汇“小王、本月2日”、“飞机”、“W市”链接到作为标签的相应事件参数类型节点。从虚拟根节点到某一个节点,路径上经过的字段连接起来,就是该节点对应的字符串;每个节点的所有子节点包含的字段都不相同。
融合结果中的论元词汇作为标签节点连接相应事件参数或者角色类型节点。以此类推,进而可以参照事件树的结构,将S2步骤得到的融合结果转换为事件树结构信息。
将训练数据进行事件伴生序列化是指将训练数据事件转换为一个类似于一般文本生成任务的第一序列对,第一序列对中包含事件文本序列以及事件角色类型伴生序列,例如,可以通过深度优先遍历方法将其线性化为标记序列。当节点的具备相同深度时,其遍历顺序采用节点对应的字段在文本中出现的顺序:
具体来说,可以将事件树对应的训练文本中的每一个字符按照顺序排列组成事件文本序列;将训练文本中的每一个字符对应的节点的标签按照针对事件树的遍历顺序排列组成事件角色类型伴生序列。
一般的,事件文本序列与事件角色类型伴生序列中的元素数量是相等的,事件文本序列与事件角色类型伴生序列中各元素关系按遍历顺序一一对应。
S4:根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
具体地,图4为本发明实施例提供的encoder-decoder事件网络模型的架构图,如图4示,通过基于transformer层构建encoder-decoder架构的生成事件网络结构,生成事件网络结构主体包含encoder编码器和decoder跳步解码器两个部分,其中,encoder编码器是一个具有多层多头注意机制的transformer网络,其可以使用现有技术中的编码器。编码器用于提取出输入的第一序列对x=x1,…,xx的隐含层向量,并将隐含层向量H=h1,…,hx作为encoder编码器的输出,并将该输出输入到decoder跳步解码器中。
本发明实施例重点对decoder跳步解码器的原理进行介绍:
是指一个由若干层的transformer层依次串联的网络,每一层transformer层的都具有自注意机制、解码器隐状态-编码器隐状态交叉注意机制。本发明实施例中还有奇数步和偶数步分开解码的跳步机制,用于隔离事件文本序列和事件角色类型伴生序列在语义上的相互干扰。本发明实施例还使用偶数步被先验知识约束解码机制用于解码输出定义事件文本第一序列对应的事件角色类型伴生序列。
解码器将事件文本序列的隐含层向量逐步解码生成输出事件角色类型伴生序列,在逐步解码过程中,判断当前迭代步骤为奇数步还是偶数步。
在奇数步时,以当前迭代步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制输出,以及上一奇数步的输出token yi-1,利用公式,
Figure BDA0003565193550000131
解码输出本步token yi和当前迭代步骤的解码器隐状态
Figure BDA0003565193550000132
其中,
yi为当前迭代步骤的输出;
Figure BDA0003565193550000133
为当前迭代步骤的解码器隐状态;Decoder()为解码算法;
Figure BDA0003565193550000134
为当前步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制算法,且交叉注意力机制算法可以使用现有的算法实现;i为当前迭代步骤的序号,取值为正整数;yi-1为上一奇数步的输出;
Figure BDA0003565193550000135
为当前步骤之前所有奇数步的解码器隐状态,且
Figure BDA0003565193550000136
Figure BDA0003565193550000137
为第一个奇数迭代步骤的解码器隐状态,类似的,
Figure BDA0003565193550000138
为第i-2个奇数迭代步骤的解码器隐状态。
需要说明的是,在奇数步时解码机制与现有技术中一般文本生成任务的解码过程相同。
在当前迭代步骤为偶数步时,利用交叉注意力机制算法处理与上一奇数步输入相同的所有之前奇数步的解码器隐状态的自注意力机制、编码器隐含层向量H得到的输出结果,以及上一偶数步骤的输出token ym-1,利用公式,
Figure BDA0003565193550000139
解码输出本步token ym和本步解码器隐状态
Figure BDA00035651935500001310
其中,
M为当前迭代步骤对应的次数;
Figure BDA00035651935500001311
为与上一奇数步输入相同的所有之前奇数步的解码器隐状态
Figure BDA00035651935500001312
Figure BDA00035651935500001313
为第一个偶数迭代步骤的解码器隐状态,类似的,
Figure BDA00035651935500001314
为第m-2个偶数迭代步骤的解码器隐状态。
需要强调的是,在偶数步时m仅仅是为了与奇数步骤中的i区分,在实际应用中,可以使用实际步骤序号进行计算。
本发明实施例采用端到端的事件抽取模式,在解码事件序列时采用跳步解码机制,同时配合采用的伴生第一序列对的方式描述事件,不仅实现了事件在线性和结构性之间的可逆转化,且介于事件角色类型伴生序列与输入文本序列差距过大,而事件角色序列与输入文本序列关系明显,此方式也可有效地减少事件文本序列和事件角色类型伴生序列在语义上的相互干扰,而且生成序列队中均不存在语义不明地符号,或大量相同字符,不存在该种情况导致的误差。
进一步的,在本发明实施例中,在偶数步时加入先验知识约束解码机制。通过执行事件模板树来确保生成有效的事件角色类型伴生序列,执行先验的事件模板树搜索过程,来限制每一步生成的事件模式词,即事件类型和事件参数类型的候选范围。
首先,图5为本发明实施例提供的事件结构模板库对应的事件模板树的结构示意图,如图5所示,在事件模板树的的构件过程中,可以将所有“事件类型”,如“旅行”、“离职”、“拘捕”等字段作为虚拟根节点的子节点连接到虚拟根节点,即连接到<root>节点;事件类型对应的“事件参数类型”字段作为“事件类型”字段的子节点链接到“事件类型”字段对应的事件树中的其他节点。
事件类型对应的事件参数类型字段作为子节点链接到该事件类型字段,如“施事者”、“时间”、“交通方式”、“目的地”连接到“旅行”。
然后,针对每一个事件类型字段,将其所包含的、未作为父节点的所有事件参数类型字段作为子节点链接到该事件参数类型字段:
如,“时间”、“交通方式”、“目的地”连接到“root-->旅行-->施事者”;
“施事者”、“交通方式”、“目的地”分别作为子节点连接到“root-->旅行-->时间”;
“交通方式”、“目的地”连接到“root-->旅行-->施事者-->时间”;
依次类推,如此“root-->旅行-->交通方式”、“root-->旅行-->目的地”也均被链接,当事件类型字段“旅行”所包含的所有事件参数类型字段均被连接到“旅行”这一条树分支上为止。依次类推可以得到针对不同事件类型的事件结构模板树。
然后,可以利用公式,
Figure BDA0003565193550000151
计算当前次迭代步骤的整个输出序列的条件概率p(y|x),每个输出序列均是由若干个事件模板树中的事件模式词组合而成;其中,
p(y|x)为整个输出序列的条件概率;y为当前次迭代的输出序列;x为词汇的标识;П为求积运算符;p(yi|y<i,x)为每个迭代步骤的输出序列中词汇x对应的概率;y<i=y1...yi-1
在实际应用中,仅将条件概率大于设定阈值的事件模式词组合作为最终结果,该组合中的事件类型以及事件参数类型即为每一个迭代步骤的输出。本发明进一步地依据事件模板树指导解码器解码事件角色类型伴生序列时的事件模式词的选择,从而使解码出的事件角色类型伴生序列结构更加完整,减少冗余角色的出现。
偶数步骤的解码从事件模板树的虚拟根节点开始,在叶节点结束。开始时事件模式词的来源可以为事件模板树虚拟根的所有子节点,在当前次迭代步骤结束时,事件模式词的组合是最后生成的节点和其子节点的组合:例如,当最后生成的节点为某一事件类型,事件模式词为以该事件类型为虚拟根节点的事件角色候选词树上所有子节点对应的字段和虚拟根节点对应的字段的组合。事件模式词的解码结果所在的子树作为下一次迭代步骤的事件模式词的来源。可以理解的是,在没有解码结果作为下一次迭代步骤的事件模式词的来源时,可以在当前迭代步骤的下一次迭代步骤中将事件模板树作为事件模式词的来源。
最后,解码器的输出将转换为事件模式词的组合,并用作最终提取结果。
此外,本发明实施例的encoder-decoder事件网络模型中训练时的损失函数为负对数似然函数,利用该损失函数计算当前迭代步骤时对应的损失值,当损失值小于设定值时,判定事件网络模型收敛,即可得到目标模型。
实施例2
图6为本发明实施例提供的一种基于先验知识端到端的事件抽取方法流程示意图,如图6所示,本发明实施例2在实施例1的基础上增加了以下步骤:
S6:针对待处理文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对待处理文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
S7:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到待处理文本对应的融合结果;
实施例2中S6-S7步骤与实施例1中S1-S2步骤方法相同,区别仅在于处理对象的区别,因此,本发明实施例在此不再进行赘述。
S8:基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如实施例1训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件.
在目标模型中输入融合文本分词信息、词性标注信息、依存句法信息、实体类型信息,触发词信息,论元词汇信息的的第二序列对,将解码器的输出将转换为结构性事件并用作最终抽取结果。
实施例3
对应于本发明实施例1,本发明实施例3还提供了一种基于先验知识端到端的事件抽取模型的训练装置,所述装置包括:
第一外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第一融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第一数据预处理模块,用于基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;
训练模块,用于根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
实施例4
对应于本发明实施例2,本发明实施例4还提供了一种基于先验知识端到端的事件抽取装置,所述装置还包括
第二外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第二融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第二数据预处理模块,用于基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如实施例1或实施例2训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,所述方法包括:
S1:针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
S2:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
S3:基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;
S4:根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
2.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,S3步骤包括:
用事件类型链接到事件树的虚拟根节点,训练数据事件中事件触发词链接到事件类型作为标签,将若干个事件参数类型与事件类型连接,训练数据事件中论元词汇链接到作为标签的相应事件参数类型节点,其中,事件参数类型节点为事件树中除虚拟根节点以外的节点;
将训练文本中的每一个字符按照针对事件树的遍历顺序排列组成事件文本序列;将训练文本中的每一个字符对应的节点的标签按照针对事件树的遍历顺序排列组成事件角色类型伴生序列,将事件文本序列与事件角色类型伴生序列的组合作为第一序列对。
3.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,事件模板树的生成过程包括::
基于事件结构模板语句,将所有事件类型字段作为虚拟根节点的子节点连接到虚拟根节点,事件类型对应的事件参数字段作为事件类型字段的子节点链接到事件类型字段对应的事件树中的其他节点;
在每一个以事件类型字段为父节点的子树中包含的、未作为父节点的,所有事件参数类型字段作为子节点链接到该事件参数角色类型字段,依次递归,直到该事件类型字段所包含的所有事件参数类型字段均被连接到每一条树分支上。
4.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,在事件网络模型的每一次迭代训练时,所述方法还包括:
判断当前迭代步骤为奇数步还是偶数步;
在奇数步时,以当前迭代步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制输出,以及上一奇数步的输出token yi-1,利用公式,yi,
Figure FDA0003565193540000021
解码输出本步token yi和当前迭代步骤的解码器隐状态
Figure FDA0003565193540000022
其中,
yi为当前迭代步骤的输出;
Figure FDA0003565193540000023
为当前迭代步骤的解码器隐状态;Decoder()为解码算法;
Figure FDA0003565193540000024
为当前步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制算法;i为当前迭代步骤的序号,取值为正整数;yi-1为上一奇数步的输出;
Figure FDA0003565193540000025
为当前步骤之前所有奇数步的解码器隐状态,且
Figure FDA0003565193540000026
Figure FDA0003565193540000027
为第一个奇数迭代步骤的解码器隐状态,类似的,
Figure FDA0003565193540000031
为第i-2个奇数迭代步骤的解码器隐状态。
5.根据权利要求4所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,在当前迭代步骤为偶数步的情况下,所述方法包括:
利用交叉注意力机制算法处理与上一奇数步输入相同的所有之前奇数步的解码器隐状态的自注意力机制、编码器隐含层向量H得到的输出结果,以及上一偶数步骤的输出token ym-1,利用公式,ym,
Figure FDA0003565193540000032
解码输出本步token ym和本步解码器隐状态
Figure FDA0003565193540000033
其中,
M为当前迭代步骤对应的次数;
Figure FDA0003565193540000034
为与上一奇数步输入相同的所有之前奇数步的解码器隐状态
Figure FDA0003565193540000035
Figure FDA0003565193540000036
为第一个偶数迭代步骤的解码器隐状态,类似的,
Figure FDA0003565193540000037
为第m-2个偶数迭代步骤的解码器隐状态。
6.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,在事件网络模型的每一次迭代结束后,所述方法还包括:
利用公式,
Figure FDA0003565193540000038
计算当前次迭代步骤的整个输出序列的条件概率p(y|x),其中,
p(y|x)为整个输出序列的条件概率;y为当前次迭代的输出序列;x为词汇的标识;П为求积运算符;p(yi|y<i,x)为每个迭代步骤的输出序列中词汇x对应的概率;y<i=y1...yi-1
判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值;
若是,将当前次迭代步骤整个输出序列中的事件模式词作为下一次迭代步骤的事件模式词的来源。
7.根据权利要求6所述的一种基于先验知识端到端的事件抽取模型的训练方法,其特征在于,在判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值步骤的判断结果为否时,所述方法还包括:
在当前迭代步骤的下一次迭代步骤中将事件模板树作为事件模式词的来源。
8.一种基于先验知识端到端的事件抽取方法,其特征在于,所述方法包括:
S6:针对待处理文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对待处理文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
S7:分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到待处理文本对应的融合结果;
S8:基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如权利要求1训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件。
9.一种基于先验知识端到端的事件抽取模型的训练装置,其特征在于,所述装置包括:
第一外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第一融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第一数据预处理模块,用于基于事件树的生成遍历顺序,将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对;
训练模块,用于根据事件结构模板库,建立事件模板树,将所述融合结果和第一序列对作为样本,将事件模板树作为受限解码器机制的事件模式词的候选范围,训练预先搭建的基于transformer的encoder-decoder架构的事件网络模型,得到目标模型。
10.一种基于先验知识端到端的事件抽取装置,其特征在于,所述装置还包括
第二外部先验知识模块,用于针对训练文本,基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别,并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息,其中,所述词汇识别包括:触发词识别以及论元词汇识别;
第二融合模块,用于分别对实体识别、触发词识别,论元词汇识别的结果与分词结果进行原文本位置重叠分析,根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中,得到训练文本对应的融合结果;
第二数据预处理模块,用于基于事件模板树,将所述待处理文本对应的融合结果进行转换并输入到如权利要求1训练得到的目标模型中,得到待处理文本对应的事件文本序列和事件角色类型的第二伴生序列对,将第二伴生序列对作为待处理文本中的结构性事件。
CN202210300209.4A 2022-03-25 2022-03-25 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 Active CN114757181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210300209.4A CN114757181B (zh) 2022-03-25 2022-03-25 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210300209.4A CN114757181B (zh) 2022-03-25 2022-03-25 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置

Publications (2)

Publication Number Publication Date
CN114757181A true CN114757181A (zh) 2022-07-15
CN114757181B CN114757181B (zh) 2023-02-28

Family

ID=82326386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210300209.4A Active CN114757181B (zh) 2022-03-25 2022-03-25 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置

Country Status (1)

Country Link
CN (1) CN114757181B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609519A (zh) * 2024-01-22 2024-02-27 云南大学 一种电力碳排放计算公式中的实体关系抽取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN113704476A (zh) * 2021-09-02 2021-11-26 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113821605A (zh) * 2021-10-12 2021-12-21 广州汇智通信技术有限公司 一种事件抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163416A (zh) * 2020-10-09 2021-01-01 北京理工大学 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN113704476A (zh) * 2021-09-02 2021-11-26 中科雨辰科技有限公司 目标事件抽取数据处理系统
CN113821605A (zh) * 2021-10-12 2021-12-21 广州汇智通信技术有限公司 一种事件抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEJUN GONG ET AL.: "A Biomedical Events Extracted Approach Based on Phrase Structure Tree", 《2017 13TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD 2017)》 *
黄河燕 等: "面向新领域的事件抽取研究综述", 《智能系统学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609519A (zh) * 2024-01-22 2024-02-27 云南大学 一种电力碳排放计算公式中的实体关系抽取方法
CN117609519B (zh) * 2024-01-22 2024-04-19 云南大学 一种电力碳排放计算公式中的实体关系抽取方法

Also Published As

Publication number Publication date
CN114757181B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
US10409911B2 (en) Systems and methods for text analytics processor
Toutanova et al. A global joint model for semantic role labeling
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
Zhang et al. SG-Net: Syntax guided transformer for language representation
Mabona et al. Neural generative rhetorical structure parsing
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
Fernández-González et al. Faster shift-reduce constituent parsing with a non-binary, bottom-up strategy
Jung et al. End-to-end Korean part-of-speech tagging using copying mechanism
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN114757181B (zh) 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
Chuan-An et al. A unified RvNN framework for end-to-end chinese discourse parsing
Clark et al. Learning auxiliary fronting with grammatical inference
CN116663567A (zh) 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统
Liu et al. Learning algebraic recombination for compositional generalization
CN116483314A (zh) 一种自动化智能活动图生成方法
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN116187437A (zh) 一种基于对比学习的数学应用题求解系统及方法
US11720559B2 (en) Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
Magerman Parsing as statistical pattern recognition
Kankanampati et al. Multitask Easy-First Dependency Parsing: Exploiting Complementarities of Different Dependency Representations
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质
CN114528459A (zh) 一种基于语义的网页信息抽取方法及系统
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant