CN109325228B - 英文事件触发词抽取方法和系统 - Google Patents

英文事件触发词抽取方法和系统 Download PDF

Info

Publication number
CN109325228B
CN109325228B CN201811093486.2A CN201811093486A CN109325228B CN 109325228 B CN109325228 B CN 109325228B CN 201811093486 A CN201811093486 A CN 201811093486A CN 109325228 B CN109325228 B CN 109325228B
Authority
CN
China
Prior art keywords
event
sentence
word
trigger
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811093486.2A
Other languages
English (en)
Other versions
CN109325228A (zh
Inventor
吴文涛
李培峰
朱巧明
周国栋
朱晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201811093486.2A priority Critical patent/CN109325228B/zh
Publication of CN109325228A publication Critical patent/CN109325228A/zh
Application granted granted Critical
Publication of CN109325228B publication Critical patent/CN109325228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种英文事件触发词抽取方法,包括:读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形。上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。

Description

英文事件触发词抽取方法和系统
技术领域
本发明涉及文本信息抽取领域,特别是涉及英文事件触发词抽取方法和系统。
背景技术
事件(Event)作为信息的一个重要载体,其定义是指特定的人、物、事在特定时间和特定地点相互作用的客观事实,如离职事件,会面事件,攻击事件等。一个完整的事件可以表达成为“5W”形式(Who(实施者(谁)),What(什么),Whom(受事者(谁)),When(什么时候),Where(什么地方)),其中“What”的语义一般由触发词(如:袭击,攻击)来体现,其余4个“W”则对应事件中扮演不同的角色的实体类型。其中,When和Where对应的角色所填充的论元一般不具有明显的事件类型区分度;只有Who和Whom对应的角色所填充的论元才具有鲜明的事件类型区分度。所以,一个事件的核心语义是由触发词和论元表达的。
早期的触发词抽取方法主要集中在特征选择方面,Ahn[1]使用了一系列特征,如词汇特征(词性),句法特征(依存句法)以及外部语义知识(WordNet)来抽取事件。Grishman[2]针对事件抽取语料中Attack(表示攻击)事件分布不平衡的情况,在传统句子级事件类型分类器的基础上,引入文档级事件类型分类器,用于判断该文档包含Attack事件的置信度。Liao[3],[4]等通过文档级别的跨事件推理方法,利用相关事件的信息和事件类型一致性等特征进行事件抽取。Hong[5]等提出利用跨实体推理进行事件抽取,其核心是充分实体类型的一致性特征,通过搜索引擎构建实体的背景信息,并根据实体的背景信息,采用聚类方法对实体类型进行更细粒度的区分,进一步提升了事件抽取性能。Li[6]等针对传统的串行结构事件抽取方法存在错误传递的情况,采用基于结构化感知机的联合模型,将触发词分类和事件成员分类看作一个整体的序列标注任务,分析并检验多种局部和全局特征,进而体现联合模型解决错误传递问题的有效性。Liu[7]等使用基于概率逻辑方法将局部和全局特征联合在一起。
随着这几年的深度学习方法的流行,Nguyen[8]等人摒弃了人工设计特征的方法,采用CNN(Convolution Neural Network)深度学习模型,仅以待测词及其上下文和实体类型作为特征,在触发词分类和领域适应性实验中,性能较特征工程有所提升。Chen[9]等针对基于CNN的事件抽取方法很好地处理一个句子包含多个事件的情况,提出DMCNN(DynamicMulti-Pooling Convolutional Neural Network)深度学习模型,有效解决一个句子包含多个事件的情况。Nguyen[10]等利用循环神经网络同时对触发词和论元进行抽取,联合模型可以捕获到事件的内部和外部依赖关系。
参考文献:
David Ahn.The Stages of Event Extraction[C].Proceedings of theWorkshop of the ACL on Annotating and Reasoning about Time and Events,2006:pages 1-8.
Grishman R.The Impact of Task and Corpus on Event Extraction System[C].Proceedings of the International Conference on Language Resources andEvaluation(LERC 2010),Valletta,Malta,2010,17-23.
Shasha Liao and Ralph Grishman.2010.Using document level cross-eventinference to improve event extraction.In Proceedings of ACL,pages 789–797.
Shasha Liao and Ralph Grishman.Acquiring Topic Features to ImproveEvent Extraction.In Proceedings of ACL,pages 9-16..
Yu Hong,Jianfeng Zhang,Bin Ma,Jianmin Yao,Guodong Zhou,and QiaomingZhu.2011.Using cross-entity inference to improve event extraction.InProceedings of ACL-HLT,pages 1127–1136.
Qi Li,Heng Ji,and Liang Huang.2013.Joint event extraction viastructured prediction with global features.In Proceedings of ACL,pages 73–82.
Shulin Liu,Kang Liu,Shizhu He,and Jun Zhao.2016b.A probabilistic softlogic based approach to exploiting latent and global information in eventclassification.In Proceedings of AAAI,pages 2993-2999.
Huu Thien Nguyen and Ralph Grishman.2015.Event detection and domainadaptation with convolutional neural networks.In Proceedings of ACL,pages365-371.
Yubo Chen,Liheng Xu,Kang Liu,Daojian Zeng,and Jun Zhao.2015.Eventextraction via dynamic multi-pooling convolutional neural networks.InProceedings of ACL,pages 167-176.
Huu Thien Nguyen,Kyunghyun Cho,and Ralph Grishman.2016.Joint eventextraction via recurrent neural networks.In Proceedings of NAACL,pages 300-309.
传统技术存在以下技术问题:
当前,绝大多数的事件触发词抽取方法主要存在两个问题:1)传统的基于特征工程的事件抽取方法依赖于人工精心设计的特征和复杂的自然语言处理工具。这些方法经过实验证明是有效,但是花费了大量的人工精力。另外特征工程需要专业知识和丰富的外部资源,在一些低质量的语料库上却不适用,缺乏泛化能力。2)基于表示的事件抽取方法中,更多的关注触发词本身,把事件实例编码成词向量输入到神经网络模型,自动捕获数据中的隐含特征。这种方法往往忽略了论元对触发词抽取的作用,特别是对于一些一词多义的触发词,论元可以起到消歧的作用。此外,一些学者提出联合学习的方法,同时解决触发词抽取和论元抽取任务。但是这些方法只对论元抽取任务有效,因为论元抽取是触发词抽取的后续过程,论元可以利用到触发词信息,而在触发词抽取过程无法利用到论元信息。
发明内容
基于此,有必要针对上述技术问题,提供一种英文事件触发词抽取方法,利用预测论元和触发词之间的联系,采用循环神经网络对句子和预测的论元编码来进行触发词抽取。
一种英文事件触发词抽取方法,包括:
读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表;统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合;
对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合;其中,所述原始文本是没有任何标注信息的生文本;
分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,并将对应句子组合后分别加入训练事件句集合和候选事件句集合;
根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;
将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
一种英文事件触发词抽取系统,包括:
事件句子预处理模块,读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合,标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表。统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合,是本发明训练模型的基础。
句子处理模块,对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合,其中,所述原始文本是没有任何标注信息的生文本;
候选触发词抽取模块,分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,和对应句子组合后分别加入训练事件句集合和候选事件句集合;
论元预测模块,根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;
候选触发词类型识别模块,将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
上述英文事件触发词抽取方法,基于论元预测的事件触发词抽取系统和方法,将预测的论元和句子转化成词向量,利用循环神经网络自动的捕获触发词和论元之间的隐含特征,以及论元的深层语义信息。本发明的方法和系统,与现有方法和系统相比,触发词抽取性能得到了提升。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1是本发明英文事件触发词抽取方法的流程图。
图2是本发明事件句子预处理的流程图。
图3是本发明句子处理的流程图。
图4是本发明候选触发词抽取的流程图。
图5是本发明论元预测的流程图。
图6是本发明候选触发词类型识别的流程图。
图7是本发明英文事件触发词抽取系统的结构图。
图8是本发明事件句子预处理模块的结构图。
图9是本发明句子处理模块的结构图。
图10是本发明候选触发词抽取模块的结构图。
图11是本发明论元预测模块的结构图。
图12是本发明候选触发词类型识别模块的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明用的术语解释如下:
实体(Entity):一个语义类别中的对象或对象的集合,如人名、机构名和地名等。
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色。
事件类型(Event Type):事件的类别,如“出生”、“死亡”、“地震”等。
事件实例(Event Mention):在具体文档中描述一个事件的句子。
触发词(Trigger):用于识别事件的谓词(动词和名词居多),又称为锚(Anchor),是事件的基本要素之一。抽取事件也就是抽取事件的触发词。如“attack”、“fight”等就是“Attack”事件的触发词。
触发词实例(Trigger Mention):触发词在具体句子中的出现,如在句子“Iraqisstill haven’t used chemical weapons even though many experts feared suchattacks as the u.s.troops neared Baghdad”是1个事件实例,其中“attacks”就是触发词“attack”的1个实例。
论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色。
角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色。
触发词抽取(Trigger Extraction):触发词抽取主要是从文本中抽取触发词实例并判定其事件类型。
召回率(Recall):系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽取性能的指标之一。
准确率(Precision):系统正确抽取的事件个数占所有抽取出的事件的比例。衡量事件抽取性能的指标之一。
F1指数(F1-Measure):衡量事件抽取性能的综合指标之一,准确率(P)和召回率(R)的加权几何平均值,即:
Figure BDA0001804960420000071
一种英文事件触发词抽取方法,如图1所示,包括:
S10,读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合,标注语料事件集合和词形还原文档集合。对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表。统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合。所述标注文档是已经标注了实体信息和事件信息的文档集合,是本发明训练模型的基础。
其中,如图2所示,S10的具体过程如下:
S101,根据标记读取标注文档中的实体标注信息,得到标注语料实体集合。所述标注语料实体集合中每一个实体实例格式如下:
<entity><实体类型><实体词,实体位置></entity>
以例1为例,
例1:标注文档CNN_IP_20030402.1600.00-3.apf.xml:
<entity ID="CNN_IP_20030402.1600.00-3-E19"TYPE="PER">
<head>
<charseq START="1341"END="1344">that</charseq>
</head>
</entity>
<entity ID="CNN_IP_20030402.1600.00-3-E47"TYPE="FAC">
<head>
<charseq START="1361"END="1368">building</charseq>
</head>
</entity>
<event ID="CNN_IP_20030402.1600.00-3-EV6"TYPE="Movement">
<event_argument
REFID="CNN_IP_20030402.1600.00-3-E47"ROLE="Destination"/>
<event_argument
REFID="CNN_IP_20030402.1600.00-3-E19"ROLE="Artifact"/>
<ldc_scope>
<charseq START="1307"END="1388">But they are doing a job,
the men that went into that building and
brought her out</charseq>
</ldc_scope>
<anchor>
<charseq START="1346"END="1349">went</charseq>
</anchor>
<event_mention_argument
REFID="CNN_IP_20030402.1600.00-3-E47-46"ROLE="Destination">
<extent>
<charseq START="1356"END="1368">that building</charseq>
</extent>
</event_mention_argument>
<event_mention_argument
REFID="CNN_IP_20030402.1600.00-3-E19-41"ROLE="Artifact">
<extent>
<charseq START="1341"END="1344">that</charseq>
</extent>
</event_mention_argument>
</event_mention>
</event>
其中,entity表示实体,entity属性TYPE是标记了实体的类型。该例子中标记了两个实体实例,第一个实体为“PER”(人物)类型的实体“that”,第二个实体为“FAC”(设施)类型的实体“building”。
例1在所述标注语料实体集合中表示为:
例2::<entity><PER><that,START=“1341”,END=“1344”></entity>
<entity><FAC><building,START=“1361”,END=“1368”></entity>
其中,START表示实体在文档中的开始位置,END表示实体在文档中的结束位置。
S102,根据标记读取标注文档的事件标注信息,得到标注语料事件集合。所述标注语料事件集合包含了事件类型对应的角色以及角色所填充的实体类型,标注语料事件集合的每个事件实例的格式如下:
<event><事件类型><触发词><句中触发词位置><事件句><论元角色1><实体类型1>…<论元角色n><实体类型n></event>
在例1所述的标注文档中event、anchor、event_mention_argument分别是事件、触发词和事件论元的标记,event的属性TYPE标记了此事件的类型(该事件触发词为“went”,事件类型为“Movement”(移动))。event_mention_argument的属性ROLE表示该论元填充的角色名称,例如论元“thatbuilding”填充的角色是“Destination”(目的地),对应的实体类型是“FAC”(设施);“that”填充的角色是“Artifact”(运送对象),对应的实体类型是“PER”(人)。
从例1中抽取的所述标注语料事件集合的事件实例为:
例3:<event><Movement><went><9><But they are doing a job,the men thatwent into that building and brought her out><Destination><FAC><Artifact><PER></event>
其中,句中触发词位置是指触发词在句子中的位置。在例3中触发词位置为9,表示触发词“went”是该句子中第9个单词(从0开始计数)。
S103,对标注语料事件集合的每个事件句调用词形还原工具,得到词形还原文档集合。
例3中的事件句经过词形还原后为:
例4:But/but they/they are/be doing/do a/a job/job,/,the/the men/manthat/that went/go into/into that/that building/building and/and brought/bringher/she out/out.
其中,词形还原是指把任何形式的英语单词还原到一般形式,“/”号前的单词是原文本中的单词,“/”号后的单词是经词形还原后得到的一般形式的单词(称为原形)。如“went/go”中,单词“went”的还原词形是“go”。
S104,对标注语料事件集合的每个触发词,在词形还原文档集合找到其对应的原形,再将该触发词以及触发词原形作为一项加入触发词表中;再对触发词表中原形一致的项合并为一项,得到触发词表。所述触发词表格式为:<触发词原形>{<触发词1>…<触发词n>}。
例3中,触发词是“went”,经过词形还原后得到的原形是“go”,加入到触发词表中的项为“<go>{<went>}”。另外有一个标注事件句在触发词表中对应的项为“<go>{<goes>}”。最后,将这两项原形一致的项合成一项:
例5:<go>{<went><goes>}。
S105,对触发词表中每一项,在标注语料事件集合中查找所有触发词在该项中出现的事件及其类型,并统计每个类型的比例,得到触发词原形事件类型集合。所述触发词原形事件类型集合中每个触发词原形对应的事件类型实例格式为:
<触发词原形><触发词1,…,触发词n>{<事件类型1,所占比率>…<事件类型n,所占比率>}。
例5中,“go”有两个对应的触发词“went”和“goes”。“went”在标注语料事件集合中事件类型为Movement(移动)有3个,事件类型为Arrest-Jail(逮捕-监狱)有4个。“goes”在标注语料事件集合中事件类型为Movement(移动)有8个,事件类型为Arrest-Jail(逮捕-监狱)有3个,Meeting(会议)类型有2个。则对原形“go”而言,事件类型为Movement(移动)的比例是(3+8)/(3+4+8+3+2)=55%,事件类型为Arrest-Jail(逮捕-监狱)的比例为35%,事件类型为Meeting(会议)的比例为10%。则触发词原形事件类型集合中该项为:
例6:<go><went,goes>{<Movement,55%><Arrest-Jail,45%><Meeting,10%>}。
S106,对标注语料事件集合中每一种事件类型对应的角色进行统计,得到事件类型角色列表集合。所述事件类型角色集合中每一个事件类型对应的角色实例格式如下:
<事件类型>{<角色1>…<角色n>}
例6中,事件类型“Movement”对应的事件角色有Destination和Artifact。所以,所述事件类型角色集合中该项为:
例7:<Movement>{<Destination><Artifact>}
S107,对标注语料事件集合中每一种事件角色对应的实体类型进行统计,得到角色实体类型集合。所述角色实体类型集合中每一个角色对应的实体类型格式如下:
<角色>{<实体类型1>…<实体类型n>}
例如,事件角色Destination对应实体类型<FAC>和<LOC>(地点)。事件角色Artifact对应实体类型<PER>和<VEH>(交通工具)。所以,以上在所述角色实体类型集合中的表示为:
例8:<Destination>{<FAC><LOC>}
<Artifact>{<PER><VEH>}
S20,对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合。所述原始文本是没有任何标注信息的生文本。
其中,如图3所示,S20的具体过程如下:
S201,对标注文档和待抽取文档中的每一个原始文本以“.”,“!”,“?”进行分句,分别得到标注句子集合和待抽取句子集合。
S202,对标注句子集合和待抽取句子集合每一句调用词形还原工具,分别得到标注句子词形还原集合和待抽取句子词形还原集合。
例如,待抽取句子集合中的一个句子“the company's performance wasn't allthat hot even before the CEO went to prison.”,经过词形还原后为:
例9:the/the company/company's/be performance/performance was/be n't/not all/all that/that hot/hot even/even before/before the/the CEO/CEO went/goto/to prison/prison./.。
S203,对待抽取句子集合中每一句调用命名实体识别工具,得到待抽取句子实体类型集合。待抽取句子实体类型集合中每个实体实例格式如下:
<entity><实体类型><实体词,实体位置></entity>。
下面是一个调用命名实体识别工具后的例子:
例10:the/O company/ORG's/O performance/O was/O n't/O all/O that/Ohot/O even/O before/O the/O CEO/PER went/O to/O prison/FAC.
其中,“/”号前面的是词,“/”号后面的实体标签是词对应的实体类型。实体标签ORG、PER、FAC和O分别代表实体类型组织、人物、设施和非实体类型。
例10在待抽取句子实体类型集合中每一个实例表示为:
例11:<entity><ORG><company,START=“4”,END=“10”></entity>
<entity><PER><CEO,START=“64”,END=“66”></entity>
<entity><FAC><prison,START=“76”,END=“81”></entity>
S30,分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,和对应句子组合后分别加入训练事件句集合和候选事件句集合。所述训练事件句集合和候选事件句集合中每一个候选触发词实例格式为:
<事件类型><候选触发词><句子><句中触发词位置>。
其中,句子中的每个词的格式为“词/实体类型”。
其中,如图4所示,S30的具体过程如下:
S301,根据触发词表,从标注句子词形还原集合中抽取出候选触发词,加入训练事件句集合。具体过程如下:
对标注句子词形还原集合中每个句子,遍历该句子中的每个词,考虑以下三种情况:
若当前词的原形出现在触发词表中且当前词在标注语料事件集合中被标记为触发词,记录当前词在句中位置,将当前词作为触发词的事件类型(用1-n表示n种事件类型)、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合;
若当前词原形出现在触发词表中且当前词在标注语料事件集合中不被标记为触发词,将“0”(用0表示该触发词不是定义的某种事件类型)、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合;
若当前词不出现在触发词表中,不做任何操作。
例3是标注语料事件集合中的事件句,经过候选触发词抽取后,抽取出两个候选触发词“went”,“brought”。其中“went”是标注语料事件集合中的触发词,事件类型为“Movement”(用“1”表示);“brought”(用“0”表示)是未在标注语料事件集合中标记的触发词(即非事件触发词),因此训练事件句集合中的候选触发词实例表示如下:
例12:<1><went><But/O they/ORG are/O doing/O a/O job/O,the/O men/PERthat/PER went/O into/O that/O building/FAC and/O brought/O her/PER out/O><10>。
<0><brought><But/O they/ORG are/O doing/O a/O job/O,the/O men/PER
that/PER went/O into/O that/O building/FAC and/O brought/O her/PERout/O><15>。
S302,根据触发词表,从待抽取句子词形还原集合中抽取出候选触发词,加入候选事件句集合。具体过程如下:
对待抽取句子词形还原集合中每个句子,遍历该句子中的每个词。若当前词原形出现在触发词表中,将“-1”、当前词、当前词所在的句子和当前词的位置这个四元组加入到候选事件句集合;否则,不做任何操作。
例9经过候选触发词抽取后,得到候选触发词“went”,事件类型未知,用“-1”表示,所述候选事件句集合中的实例表示为:
例13:<-1><went><the/O company/ORG's/O performance/O was/O n't/O all/Othat/O hot/O even/O before/O the/O CEO/PER went/O to/O prison/FAC><13>
S40,根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合。
其中,如图5所示,S40的具体过程如下:
S401,对训练事件句集合和候选事件句集合中每个候选触发词,从触发词原形事件类型集合中匹配该候选触发词所在的项,将该项中所占比率最高的两个事件类型赋予该触发词,分别得到训练事件句第一特征集合和候选事件句第一特征集合。所述训练事件句第一特征集合和候选事件句第一特征集合中候选触发词实例为:
<候选触发词><句子><句中触发词位置><事件类型1,事件类型2>
例13中,候选事件句的触发词“went”在触发词表中的原形“go”,根据触发词原形事件类型集合中实例<go><went,goes>{<Movement,55%><Arrest-Jail,45%><Meet,10%>}。本发明选取实例中出现比率最大的两种事件类型赋予给该触发词“went”,所以触发词“went”对应的事件类型集合是{Movement,Arrest-Jail}。
例13在候选事件句第一特征集合中的每个候选触发词特征表示如下:
例14:<went><the/O company/ORG's/O performance/O was/O n't/O all/Othat/O hot/O even/O before/O the/O CEO/PER went/O to/O prison/FAC><13><Movement,Arrest-Jail>。
S402,对训练事件句集合和候选事件句集合中每个候选触发词,进行候选论元预测,分别添加到训练事件句第一特征集合和候选事件句第一特征集合中,得到标注语料特征集合和待抽取语料特征集合。所述标注语料特征集合和待抽取语料特征集合中每个候选触发词特征格式如下:
<候选触发词><句子><句中触发词位置><事件类型1><预测论元词表1><事件类型2><预测论元词表2>
其中,预测论元词表中每项格式为:预测论元词/论元词实体类型。
对于训练事件句集合和候选事件句集合中每个候选触发词,具体候选论元预测方法如下:
根据该触发词对应的每个事件类型,检索事件类型角色列表集合,得到该事件类型对应的所有角色的列表;
对该列表中的每个角色,检索角色实体类型集合,得到每个角色对应的实体类型集合,加入实体类型列表;
从标注语料实体集合和待抽取句子实体类型集合中,抽取该触发词所在句子中实体类型在实体类型列表中的实体,分别添加到训练事件句第一特征集合和候选事件句第一特征集合中,得到标注语料特征集合和待抽取语料特征集合。
例14中的候选触发词“went”对应的事件类型有<Movement,Arrest-Jail>。对于事件类型Movement,角色实体类型集合Movement对应的角色列表{<Destination><Artifact>}。角色实体类型集合Destination对应的实体类型{<FAC><LOC>},Artifact对应的实体类型{<PER><VEH>},合并得到实体类型列表{FAC,PER,VEH}。考虑当前句子中的实体类型在实体类型列表中的实体,将句子中这三种类型的实体预测为论元,得到预测论元词表<CEO/PER,prison/FAC>。另外,对于事件类型“Arrest-Jail”,Arrest-Jail对应的角色列表{<Person>(人物)<Agent>(施事者)},而在角色实体类型集合中,Person对应的实体类型为{PER},Agent对应的实体类型为{<PER><ORG><GPE>(政治)},得到实体类型列表{PER,ORG,GPE}。因此考虑当前句子中的实体类型在实体类型列表中的实体,将句子中这三种类型的实体预测为论元,得到预测论元词表<company/ORG,CEO/PER>。另外,本发明认为时间和地点这两种类型的实体不具有明显的事件区分度,因此不予考虑。
最后将预测论元词表特征加入到候选事件句第一特征集合中,得到待抽取语料特征集合,所述候选触发词“went”的特征集合表示如下:
例15:<went><the/O company/ORG's/O performance/O was/O n't/O all/Othat/O hot/O even/O before/O the/O CEO/PER went/O to/O prison/FAC><13><Movement><CEO/PER,prison/FAC><Arrest-Jail><company/OR G,CEO/PER>。
S50,将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到标注语料实体集合。
其中,如图6所示,S50的具体过程如下:
S501,将标注语料特征集合中每个候选触发词的特征构造成神经网络能接受的输入形式,得到标注语料特征输入集合。
标注语料特征集合中的一个候选触发词特征例子如例15所示。具体方法如下:
将候选触发词拼接上预测论元词表中的预测论元词和论元词实体类型,形式为
Figure BDA0001804960420000161
其中
Figure BDA0001804960420000162
是拼接操作符,t是候选触发词,ai是预测论元词,ei是预测论元词的实体类型,作为循环神经网络的输入A。
将句子中每个词和每个词的实体类型也拼接在一起,形式为
Figure BDA0001804960420000171
其中,wi是句子的中每个词,eni是每个词对应的实体类型,和句中触发词位置特征一起作为循环神经网络的输入B。
最后对特征进行向量初始化,其中词汇使用Google预训练的词向量,维度是300维,实体类型特征采取随机初始化的策略,维度是50维,触发词位置特征采用实值。
S502,使用深度学习工具(如keras等)搭建一个基于注意力机制的循环神经网络分类器,将标注语料特征输入集合作为输入,训练出触发词抽取模型;其中注意力机制就是对循环神经网络的隐藏层向量进行加权求和输出。所述循环神经网络事件触发词抽取模型包括标注语料特征集合和训练得到的参数。
S503,将待抽取语料特征集合中的每个候选触发词特征也构造相同格式的输入A和B,得到待抽取语料特征输入集合,调用基于循环神经网络事件触发词抽取模型对每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。所述待抽取语料预测集合中每个候选触发词的预测单元如下:
<候选触发词T,预测类别I>。
其中,候选触发词T是被预测的候选触发词,预测类别I是基于循环神经网络事件触发词抽取模型的预测结果,预测类别I是对候选触发词的预测,有0(不是事件类型),和非0(33种事件类型中的一种事件类型)共34个值。
例如:在例15中,对候选触发词“went”进行触发词类别识别后得到预测单元<went,2>,其中2表示事件类型“Arrest-Jail”。
一种英文事件触发词抽取系统如图7所示,包括事件句子预处理模块10、句子处理模块20、候选触发词抽取模块30、论元预测模块40和候选触发词类型识别模块50。
事件句子预处理模块10,读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合,标注语料事件集合和词形还原文档集合。对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表。统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合。所述标注文档是已经标注了实体信息和事件信息的文档集合,是本发明训练模型的基础。
句子处理模块20,对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合。所述原始文本是没有任何标注信息的生文本。
候选触发词抽取模块30,分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,和对应句子组合后分别加入训练事件句集合和候选事件句集合。
论元预测模块40,根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合。
候选触发词类型识别模块50,将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
其中,如图8所示,事件句子预处理模块10包括实体读取单元101、事件句读取单元102、事件句词形还原单元103、触发词表构造单元104、触发词原形事件类型集合构造单元105、事件类型角色列表集合构造单元106和角色实体类型集合构造单元107。
实体读取单元101,根据标记读取标注文档中的实体标注信息,得到标注语料实体集合;
事件句读取单元102,根据标记读取标注文档的事件标注信息,得到标注语料事件集合;
事件句词形还原单元103,对标注语料事件集合的每个事件句调用词形还原工具,得到词形还原文档集合;
触发词表构造单元104,对标注语料事件集合的每个触发词,在词形还原文档集合找到其对应的原形,再将该触发词以及触发词原形作为一项加入触发词表中;再对触发词表中原形一致的项合并为一项,得到触发词表;
触发词原形事件类型集合构造单元105,对触发词表中每一项,在标注语料事件集合中查找所有触发词在该项中出现的事件及其类型,并统计每个类型的比例,得到触发词原形事件类型集合;
事件类型角色列表集合构造单元106,对标注语料事件集合中每一种事件类型对应的角色进行统计,得到事件类型角色列表集合;
角色实体类型集合构造单元107,对标注语料事件集合中每一种事件角色对应的实体类型进行统计,得到角色实体类型集合;
其中,如图9所示,句子处理模块20包括分句单元201、词形还原单元202和实体识别单元203。
分句单元201,对标注文档和待抽取文档中的每一个原始文本以“.”,“!”,“?”进行分句,分别得到标注句子集合和待抽取句子集合;
词形还原单元202,对标注句子集合和待抽取句子集合每一句调用词形还原工具,分别得到标注句子词形还原集合和待抽取句子词形还原集合;
实体识别单元203,对待抽取句子集合中每一句调用命名实体识别工具,得到待抽取句子实体类型集合。
其中,如图10所示,候选触发词抽取模块30包括训练事件句构造单元301和候选事件句构造单元302。
训练事件句构造单元301,根据触发词表,从标注句子词形还原集合中抽取出候选触发词,加入训练事件句集合。具体过程如下:
对标注句子词形还原集合中每个句子,遍历该句子中的每个词,考虑以下三种情况:
若当前词的原形出现在触发词表中且当前词在标注语料事件集合中被标记为触发词,记录当前词在句中位置,将当前词作为触发词的事件类型(用1-n表示n种事件类型)、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合;
若当前词原形出现在触发词表中且当前词在标注语料事件集合中不被标记为触发词,将“0”(用0表示该触发词不是定义的某种事件类型)、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合;
若当前词不出现在触发词表中,不做任何操作。。
候选事件句构造单元302,根据触发词表,从待抽取句子词形还原集合中抽取出候选触发词,加入候选事件句集合。具体过程如下:
对待抽取句子词形还原集合中每个句子,遍历该句子中的每个词。若当前词原形出现在触发词表中,将“-1”、当前词、当前词所在的句子和当前词的位置这个四元组加入到候选事件句集合;否则,不做任何操作。
其中,如图11所示,论元预测取模块40包括事件类型预测单元401和论元预测单元402。
事件类型预测单元401,对训练事件句集合和候选事件句集合中每个候选触发词,从触发词原形事件类型集合中匹配该候选触发词所在的项,将该项中所占比率最高的两个事件类型赋予该触发词,分别得到训练事件句第一特征集合和候选事件句第一特征集合。所述训练事件句第一特征集合和候选事件句第一特征集合中候选触发词实例为:
<候选触发词><句子><句中触发词位置><事件类型1,事件类型2>
论元预测单元402,对训练事件句集合和候选事件句集合中每个候选触发词,进行候选论元预测,分别添加到训练事件句第一特征集合和候选事件句第一特征集合中,得到标注语料特征集合和待抽取语料特征集合。所述标注语料特征集合和待抽取语料特征集合中每个候选触发词特征格式如下:
<候选触发词><句子><句中触发词位置><事件类型1><预测论元词表1><事件类型2><预测论元词表2>
其中,预测论元词表中每项格式为:预测论元词/论元词实体类型。
对于训练事件句集合和候选事件句集合中每个候选触发词,具体候选论元预测方法如下:
根据该触发词对应的每个事件类型,检索事件类型角色列表集合,得到该事件类型对应的所有角色的列表;
对该列表中的每个角色,检索角色实体类型集合,得到每个角色对应的实体类型集合,加入实体类型列表;
从标注语料实体集合和待抽取句子实体类型集合中,抽取该触发词所在句子中实体类型在实体类型列表中的实体,分别添加到训练事件句第一特征集合和候选事件句第一特征集合中,得到标注语料特征集合和待抽取语料特征集合。
其中,如图12所示,候选触发词类型识别模块50包括标注语料特征集合构造单元501、模型训练单元502和候选触发词类型识别单元503。
标注语料特征集合构造单元501,将标注语料特征集合中每个候选触发词的特征构造成神经网络能接受的输入形式,按照以下方法得到标注语料特征输入集合。
将候选触发词拼接上预测论元词表中的预测论元词和论元词实体类型,形式为
Figure BDA0001804960420000211
其中
Figure BDA0001804960420000212
是拼接操作符,t是候选触发词,ai是预测论元词,ei是预测论元词的实体类型,作为循环神经网络的输入A。
将句子中每个词和每个词的实体类型也拼接在一起,形式为
Figure BDA0001804960420000213
其中,wi是句子的中每个词,eni是每个词对应的实体类型,和句中触发词位置特征一起作为循环神经网络的输入B。
最后对特征进行向量初始化,其中词汇使用Google预训练的词向量,维度是300维,实体类型特征采取随机初始化的策略,维度是50维,触发词位置特征采用实值。
模型训练单元502,使用深度学习工具(如keras等)搭建一个基于注意力机制的循环神经网络分类器,将标注语料特征输入集合作为输入,训练出触发词抽取模型;其中注意力机制就是对循环神经网络的隐藏层向量进行加权求和输出。所述循环神经网络事件触发词抽取模型包括标注语料特征集合和训练得到的参数。
候选触发词类型识别单元503,将待抽取语料特征集合中的每个候选触发词特征也构造相同格式的输入A和B,得到待抽取语料特征输入集合,调用基于循环神经网络事件触发词抽取模型对每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。所述待抽取语料预测集合中每个候选触发词的预测单元如下:
<候选触发词T,预测类别I>。
其中,候选触发词T是被预测的候选触发词,预测类别I是基于循环神经网络事件触发词抽取模型的预测结果,预测类别I是对候选触发词的预测,有0(不是事件类型),和非0(33种事件类型中的一种事件类型)共34个值。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种英文事件触发词抽取方法,其特征在于,包括:
读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表;统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合;
对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合;其中,所述原始文本是没有任何标注信息的生文本;
分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,并将对应句子组合后分别加入训练事件句集合和候选事件句集合;
根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;
将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
2.根据权利要求1所述的英文事件触发词抽取方法,其特征在于,读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合、标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表;统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合;具体包括:
根据标记读取标注文档中的实体标注信息,得到标注语料实体集合;
根据标记读取标注文档的事件标注信息,得到标注语料事件集合;
对标注语料事件集合的每个事件句调用词形还原工具,得到词形还原文档集合;
对标注语料事件集合的每个触发词,在词形还原文档集合找到其对应的原形,再将该触发词以及触发词原形作为一项加入触发词表中;再对触发词表中原形一致的项合并为一项,得到触发词表;
对触发词表中每一项,在标注语料事件集合中查找所有触发词在该项中出现的事件及其类型,并统计每个类型的比例,得到触发词原形事件类型集合;
对标注语料事件集合中每一种事件类型对应的角色进行统计,得到事件类型角色列表集合;
对标注语料事件集合中每一种事件角色对应的实体类型进行统计,得到角色实体类型集合。
3.根据权利要求1所述的英文事件触发词抽取方法,其特征在于,对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合;其中,所述原始文本是没有任何标注信息的生文本;具体包括:
对标注文档和待抽取文档中的每一个原始文本以“.”,“!”,“?”进行分句,分别得到标注句子集合和待抽取句子集合;
对标注句子集合和待抽取句子集合每一句调用词形还原工具,分别得到标注句子词形还原集合和待抽取句子词形还原集合;
对待抽取句子集合中每一句调用命名实体识别工具,得到待抽取句子实体类型集合。
4.根据权利要求1所述的英文事件触发词抽取方法,其特征在于,分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,并将对应句子组合后分别加入训练事件句集合和候选事件句集合;具体包括:
根据触发词表,从标注句子词形还原集合中抽取出候选触发词,加入训练事件句集合;具体过程如下:
对标注句子词形还原集合中每个句子,遍历该句子中的每个词;
若当前词的原形出现在触发词表中且当前词在标注语料事件集合中被标记为触发词,记录当前词在句中位置,将当前词作为触发词的事件类型、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合,其中,用1-n表示n种事件类型;
若当前词原形出现在触发词表中且当前词在标注语料事件集合中不被标记为触发词,将“0”、当前词、当前词所在的句子和当前词的位置这个四元组加入到训练事件句集合,其中,“0”表示该触发词不是定义的某种事件类型;
若当前词不出现在触发词表中,不做任何操作;
根据触发词表,从待抽取句子词形还原集合中抽取出候选触发词,加入候选事件句集合;具体过程如下:
对待抽取句子词形还原集合中每个句子,遍历该句子中的每个词,若当前词原形出现在触发词表中,将“-1”、当前词、当前词所在的句子和当前词的位置这个四元组加入到候选事件句集合;否则,不做任何操作。
5.根据权利要求1所述的英文事件触发词抽取方法,其特征在于,根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;具体包括:
对训练事件句集合和候选事件句集合中每个候选触发词,从触发词原形事件类型集合中匹配该候选触发词所在的项,将该项中所占比率最高的两个事件类型赋予该触发词,分别得到训练事件句第一特征集合和候选事件句第一特征集合;所述训练事件句第一特征集合和候选事件句第一特征集合中候选触发词实例为:<候选触发词><句子><句中触发词位置><事件类型1,事件类型2>
对训练事件句集合和候选事件句集合中每个候选触发词,进行候选论元预测,分别添加到训练事件句第一特征集合和候选事件句第一特征集合中,得到标注语料特征集合和待抽取语料特征集合,所述标注语料特征集合和待抽取语料特征集合中每个候选触发词特征格式如下:<候选触发词><句子><句中触发词位置><事件类型1><预测论元词表1><事件类型2><预测论元词表2>其中,预测论元词表中每项格式为:预测论元词/论元词实体类型。
6.根据权利要求1所述的英文事件触发词抽取方法,其特征在于,将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合;具体包括:
将标注语料特征集合中每个候选触发词的特征构造成神经网络能接受的输入形式,按照以下方法得到标注语料特征输入集合:
将候选触发词拼接上预测论元词表中的预测论元词和论元词实体类型,形式为
Figure FDA0003959516050000051
其中
Figure FDA0003959516050000052
是拼接操作符,t是候选触发词,ai是预测论元词,ei是预测论元词的实体类型,作为循环神经网络的输入A;
将句子中每个词和每个词的实体类型也拼接在一起,形式为
Figure FDA0003959516050000053
Figure FDA0003959516050000054
其中,wi是句子的中每个词,eni是每个词对应的实体类型,和句中触发词位置特征一起作为循环神经网络的输入B;
最后对特征进行向量初始化,其中词汇使用Google预训练的词向量,维度是300维,实体类型特征采取随机初始化的策略,维度是50维,触发词位置特征采用实值;
使用深度学习工具搭建一个基于注意力机制的循环神经网络分类器,将标注语料特征输入集合作为输入,训练出触发词抽取模型;其中注意力机制就是对循环神经网络的隐藏层向量进行加权求和输出;循环神经网络事件触发词抽取模型包括标注语料特征集合和训练得到的参数;
将待抽取语料特征集合中的每个候选触发词特征也构造相同格式的输入A和B,得到待抽取语料特征输入集合,调用基于循环神经网络事件触发词抽取模型对每个候选触发词进行触发词类型识别,得到待抽取语料预测集合;所述待抽取语料预测集合中每个候选触发词的预测单元如下:
<候选触发词T,预测类别I>;
其中,候选触发词T是被预测的候选触发词,预测类别I是基于循环神经网络事件触发词抽取模型的预测结果,预测类别I是对候选触发词的预测,有0,即不是事件类型,和非0,即33种事件类型中的一种事件类型,共34个值。
7.一种英文事件触发词抽取系统,其特征在于,包括:
事件句子预处理模块,读取标注文档的实体标注信息和事件标注信息,对标注文档中的每一个事件句调用词形还原工具进行词形还原,分别得到标注语料实体集合,标注语料事件集合和词形还原文档集合;对标注语料事件集合中每个触发词,匹配词形还原文档集合中的词原形,得到触发词表,统计标注语料事件集合中触发词对应的事件类型,事件类型对应的角色,以及角色对应的实体类型,分别得到触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合;其中,所述标注文档是已经标注了实体信息和事件信息的文档集合,是训练模型的基础;
句子处理模块,对标注文档中每一个原始文本调用分句工具和词形还原工具分别得到每个文档的标注句子集合和标注句子词形还原集合;对待抽取文档中每一个原始文本分别调用分句工具,词形还原工具和命名实体识别工具进行分句,词形还原和命名实体识别得到待抽取句子集合,待抽取句子词形还原集合和待抽取句子实体类型集合,其中,所述原始文本是没有任何标注信息的生文本;
候选触发词抽取模块,分别将标注句子词形还原集合和待抽取句子词形还原集合中每个句子的每个词原形和触发词表中的触发词原形进行比较,如果该词原形出现在触发词表中,则该词为候选触发词,和对应句子组合后分别加入训练事件句集合和候选事件句集合;
论元预测模块,根据触发词原形事件类型集合、事件类型角色列表集合和角色实体类型集合,分别为训练事件句集合和候选事件句集合中的每个触发词赋予比率最大的两种事件类型,并根据论元选择策略,构建得到标注语料特征集合和待抽取语料特征集合;
候选触发词类型识别模块,将标注语料特征集合中每个候选触发词的特征作为输入,训练一个基于注意力机制的循环神经网络模型触发词抽取模型,然后针对待抽取语料特征集合中的每个候选触发词进行触发词类型识别,得到待抽取语料预测集合。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201811093486.2A 2018-09-19 2018-09-19 英文事件触发词抽取方法和系统 Active CN109325228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811093486.2A CN109325228B (zh) 2018-09-19 2018-09-19 英文事件触发词抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811093486.2A CN109325228B (zh) 2018-09-19 2018-09-19 英文事件触发词抽取方法和系统

Publications (2)

Publication Number Publication Date
CN109325228A CN109325228A (zh) 2019-02-12
CN109325228B true CN109325228B (zh) 2023-02-10

Family

ID=65264880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811093486.2A Active CN109325228B (zh) 2018-09-19 2018-09-19 英文事件触发词抽取方法和系统

Country Status (1)

Country Link
CN (1) CN109325228B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135457B (zh) * 2019-04-11 2021-04-06 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110232160B (zh) * 2019-06-20 2021-12-07 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110609896B (zh) * 2019-07-19 2022-03-22 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110704598B (zh) * 2019-09-29 2023-01-17 北京明略软件系统有限公司 一种语句信息的抽取方法、抽取装置及可读存储介质
CN111078886B (zh) * 2019-12-18 2023-04-18 成都迪普曼林信息技术有限公司 基于dmcnn的特殊事件提取系统
CN111428504B (zh) * 2020-03-17 2023-04-28 北京明略软件系统有限公司 一种事件抽取方法和装置
CN111597811B (zh) * 2020-05-09 2021-11-12 北京合众鼎成科技有限公司 一种基于图神经网络算法的金融篇章级多关联事件抽取方法
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112069811B (zh) * 2020-08-24 2024-01-26 武汉大学 多任务交互增强的电子文本事件抽取方法
CN112052665B (zh) * 2020-09-12 2023-06-20 广东工业大学 一种远程监督事件抽取方法及其应用
CN112149386A (zh) * 2020-09-25 2020-12-29 杭州中软安人网络通信股份有限公司 一种事件抽取方法、存储介质及服务器
CN112817561B (zh) * 2021-02-02 2023-08-18 山东省计算中心(国家超级计算济南中心) 软件需求文档的事务类功能点结构化抽取方法及系统
CN112861527A (zh) * 2021-03-17 2021-05-28 合肥讯飞数码科技有限公司 一种事件抽取方法、装置、设备及存储介质
CN113722462B (zh) * 2021-09-02 2022-03-04 中科雨辰科技有限公司 目标论元信息抽取数据处理系统
CN114169317B (zh) * 2021-12-12 2023-02-14 海南港航控股有限公司 一种基于规则的人物属性提取方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160089846A (ko) * 2015-01-20 2016-07-28 한국과학기술원 지식표현 확장 방법 및 장치
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160089846A (ko) * 2015-01-20 2016-07-28 한국과학기술원 지식표현 확장 방법 및 장치
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An event-extraction approach for business analysis from online Chinese news;Songqiao Han 等;《Electronic Commerce Research and Applications》;20180223;第244-260页 *
一个基于语义的中文事件论元抽取方法;黄媛;《计算机科学》;20150228;第237-240页 *

Also Published As

Publication number Publication date
CN109325228A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325228B (zh) 英文事件触发词抽取方法和系统
Jiang et al. Wikipedia-based information content and semantic similarity computation
Lee et al. A text-driven rule-based system for emotion cause detection
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
Rashwan et al. Ontology-based classification of non-functional requirements in software specifications: A new corpus and SVM-based classifier
Ratinov et al. Learning-based multi-sieve co-reference resolution with knowledge
CN106055536A (zh) 一种中文事件联合推理方法和系统
Braud et al. Learning connective-based word representations for implicit discourse relation identification
CN114297394B (zh) 对文本中的事件论元进行抽取的方法和电子设备
CN111813931B (zh) 事件检测模型的构建方法、装置、电子设备及存储介质
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN110909122A (zh) 一种信息处理方法及相关设备
CN106897364B (zh) 基于事件的中文指代语料库构建方法
CN109359184B (zh) 英文事件同指消解方法和系统
Liu et al. Mining learning-dependency between knowledge units from text
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN114997288A (zh) 一种设计资源关联方法
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
Specia et al. A hybrid approach for extracting semantic relations from texts
Li et al. Neural factoid geospatial question answering
US11520994B2 (en) Summary evaluation device, method, program, and storage medium
Lee et al. Detecting suicidality with a contextual graph neural network
Pedersen et al. Compiling a suitable level of sense granularity in a lexicon for AI purposes: The open source COR lexicon
Alabbas Textual entailment for modern standard arabic
Hendriks et al. Recognizing and Linking Entities in Old Dutch Text: A Case Study on VOC Notary Records.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant