CN106021229A - 一种中文事件同指消解方法和系统 - Google Patents

一种中文事件同指消解方法和系统 Download PDF

Info

Publication number
CN106021229A
CN106021229A CN201610333173.4A CN201610333173A CN106021229A CN 106021229 A CN106021229 A CN 106021229A CN 201610333173 A CN201610333173 A CN 201610333173A CN 106021229 A CN106021229 A CN 106021229A
Authority
CN
China
Prior art keywords
event
argument
relation
entity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610333173.4A
Other languages
English (en)
Other versions
CN106021229B (zh
Inventor
滕佳月
李培峰
朱巧明
周国栋
朱晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610333173.4A priority Critical patent/CN106021229B/zh
Publication of CN106021229A publication Critical patent/CN106021229A/zh
Application granted granted Critical
Publication of CN106021229B publication Critical patent/CN106021229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出篇章级别的中文事件同指消解方法和系统,该方法和系统能利用篇章知识来识别文档中的事件同指关系。在实现方法上,本发明采用机器学习、全局优化和联合学习推理相结合的方法,利用中文语言知识进行事件同指消解。本发明的中文事件同指消解方法和系统,与现有方法和系统相比,消解性能得到了明显提升。

Description

一种中文事件同指消解方法和系统
技术领域
本发明属于自然语言处理领域,特别是涉及一种事件间的同指关系的方法和系统。
背景技术
事件是信息表示的一种主要形式,在语言学、认知心理学等多个学科领域引起了广泛地讨论。自然事件是特定的人、物、事在特定的时间、地点相互作用的客观事实,如地震、雪灾、战争等。一篇文章中经常包含许多事件,事件之间存在各种关系,如“同指”关系。事件的同指关系是一种重要的事件关系,能够有效地结合上下文来理解该事件的详细经过。同指的事件可以相互补充与扩展语义信息,从而获得更多更有用的信息,提高语言理解效果。
研究事件同指消解,不仅可以更加准确详细的了解语义信息,而且对其他自然语言处理领域具有很大的促进作用。作为事件抽取的后续工作,事件同指消解可以帮助验证事件抽取的效果,进而可以反作用于抽取过程,提高事件抽取性能。同指事件在时序关系上是一致,因此对事件时序关系识别有很大帮助。同指事件具有极高的相似性,在信息抽取、文本摘要、问答系统等领域有广泛应用。
早期的共指消解相关研究着重于指代消解与实体同指等领域,主要使用语言学方法进行共指消解。J.Hobbs于1978年提出了Hobbs代词消解算法,通过分析句法知识和语义信息,使用广度优先搜索从左至右搜索句法树,其执行效果取决于句法分析结果的准确性。后来,Sidner于1983年提出了中心理论,认为由于篇章连贯性特点,一篇文章的多个表述通常满足一定的变化规律,通过关注句子中心的转换来刻画表述之间的连贯性,进而确定表述之间的共指关系。近年来,基于统计机器学习(Machine Learning)的方法趋于主流,事件同指消解逐渐成为了新的研究热点。下面分别从英文和中文两个方面介绍研究现状。
英文事件同指消解方法主要使用事件对模型进行研究。其思想是将任意两个事件组成事件对,针对词语、句子、距离等方面提出合理有效的特征,然后使用机器学习方法进行训练与预测,最终完成事件同指消解。Ahn把事件同指消解转化成事件对相似度计算,构建了一个简单的事件对同指消解系统。Bejan等进一步具体化事件对的特征属性,认为事件的结构包含该事件与其他事件之间的关系状态,使用结构化特征进行事件同指消解研究,并提供了标注规则以及语料库。随着自动内容抽取(Automatic Content Extraction,ACE)的发展,ACE语料库逐渐成为研究事件抽取等领域的权威性语料库。Chen等针对ACE语料库,基于最大熵模型建立了特征压缩的事件对同指消解系统。此外,Chen利用一种谱图聚类算法,将同指事件聚集生成事件关系图,然后对该图进行优化,得到了较高的消解性能。Bejan等基于非参贝叶斯模型,提出一种新的无监督方法,并在ACE语料库与ECB(EventCorefBank)上分别进行验证。黎耀炳等提出了一种利用中心语信息的共指消解方法,引入先行语与照应语的中心语字符串特征,并提出一种竞争模式的匹配算法。
然而,基于事件对模型的同指消解,一般假设数据样本是独立的,忽略了事件之间的内在联系,容易造成同指事件链不一致问题。通过优化同指链,可以很好地弥补事件对模型的缺陷,提高同指消解性能。针对实体同指消解问题,Nicolae等根据聚类算法生成实体关系图,然后提出BestCut算法,对该图进行优化,从而完成实体同指消解。Chen等整合7种同指消解器,并提出一种图分割算法优化同指事件链。Sangeetha等使用聚类算法生成事件关系图,然后用Mincut算法对其进行优化。基于图模型对同指链优化,一般是将事件作为顶点,同指关系作为边,经过计算并衡量每一条边做出取舍,然后对分割后的子图再进行评估衡量,最终完成同指消解。图模型优化方法对稀疏图的处理较好,对于稠密图而言,容易造成准确率较高而召回率较低现象。
目前,采用联合学习模型的方法逐渐增多。Song等提出一种联合学习方法,将事件对分类与事件聚类方法整合,并使用马尔科夫逻辑网络进行全局推理。Lee将事件同指与实体同指消解联合,并在跨文本语料库中得到较高的性能提升。Araki基于结构化感知器将事件触发词识别与事件同指消解联合,并在ProcessBank语料库上进行了验证。针对事件时序关系识别,Chambers在有监督的机器学习基础上,构造了事件时序关系优化推理模型,Xuan等提出一种联合推理的事件时间链结构,即把一篇文章中的事件按照其发生的时间先后顺序构造成一条完整的事件链,然后加入事件同指关系,使实验结果有了显著地提高。
相对于英文事件同指问题,中文事件同指消解研究较少,语料库匮乏,并且主要采用事件对模型。由于中英文语言学上的差异,中文词汇较多,一词多义现象十分普遍。而且,中文语法较为随意,不像英文那么严谨,没有明显的时态、单复数等,即使使用语法分析树也很难掌握语句的重点事件,导致中文事件同指消解的效果偏低。
在指代消解领域上,胡乃全等针对中文语料库进行了指代消解研究,其采用最大熵模型的机器学习方法建立中文指代消解系统。许荣华在事件抽取的基础上引入了指代消解和信息融合理论,通过指代消解实现数据融合,使单个事件信息更加明确。高俊伟等针对OntoNotes 3.0中文新闻语料库实现了一个基于SVM的中文名词短语指代消解平台,其思想是将指代消解问题看作为一个二元分类问题,通过分类器判断照应语和每个候选的先行语是否具有指代关系。周炫余针对实体指代研究进行总结,并实现了5类基本的中文指代消解模型。
在共指消解领域上,谢永康等针对中文共指消解任务,提出了一种谱聚类方法,该方法使用最大熵模型计算实体对的共指概率,然后以此概率作为相似度进行谱聚类,最终得到实体共指消解结果。李渝勤等针对中文共指消解中不同类别名词短语特征向量的使用差异,提出一种基于特征分选策略的方法。庞宁等针对突发事件新闻,使用了多种语义特征进行共指消解,增加了维基百科的语义相关特征,使得共指消解模型有所提高。
当前,绝大多数的事件同指消解方法存在两个问题:1)普遍使用事件对模型进行同指消解,将事件对孤立起来。这些方法忽略一篇文章中的多个事件间存在关系,而且事件之间相互影响;2)现有方法研究任务单一,其消解结果在其他应用领域中存在矛盾,难以复用。
为更好地理解本发明,下面首先对相关名词作相应介绍:
实体(Entity):一个语义类别中的对象或对象的集合,如人名、机构名和地名等;
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件;
论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色;
角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色;
触发词(Trigger):用于识别事件的核心词(一般为动词和名词居多)。如“生于”、“出生”等就是出生事件触发词;
句法分析树(Parsing Tree):对句子中的词语语法功能进行分析,并将其构建成树形结构;
事件同指消解(Event Coreference Resolution):事件同指(或共指)是事件的重要关系,表示两个事件指向同一个事件本体。事件同指消解则是寻找具有同指关系的事件链,同指链中的任意两个事件均具有同指关系;
MUC-6评价标准:消息理解会议(Message Understanding Conference,MUC)于1995年召开的第六次会议中增加了命名实体识别(Named EntitiesRecognition)和指代(Coreference)任务。该评价标准是一种基于链的算法,通过计算实验结果中共指链的丢失链接来计算召回率(Recall、R)和准确率(Precision、P),然后计算综合指标(F-Measure,F)。
发明内容
为解决上述技术问题,本发明的目的是提供一种篇章级的中文事件同指消解方法和系统,利用全局优化方法融合孤立的事件对,使其消解结果全局最优。
本发明的中文事件同指消解方法,包括步骤:
S10、对需要进行事件同指消解的原始文本中的每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2;
S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模型,再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关系,得到事件同指关系第一集合;
S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型与条件随机场事件论元识别模型,利用所述最大熵事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合1,利用所述条件随机场事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2;
S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同指关系集合和事件论元识别集合。
进一步的,所述步骤S10还包括:
S101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合;
S103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
S104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
进一步的,所述步骤S20中标注语料特征集合1与测试语料特征集合1用于事件同指消解,且不包含事件论元信息;标注语料特征集合2与测试语料特征集合2用于事件论元识别,且不包含事件同指关系信息。
进一步的,所述步骤S20还包括:
S201、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的任意两个事件E1和E2,两两事件构成一个事件对(E1,E2),所有从标注语料集合中抽取的所述事件对构成标注语料事件对集合,所有从测试语料集合中抽取的所述事件对构成测试语料事件对集合;
S202、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的候选事件论元,所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测试语料集合中抽取的候选事件论元构成测试语料论元集合;
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1,为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特征集合1;其中,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的类型-E2的类型><2=E1的子类型-E2的子类型><3=E1的形态-E2的形态><4=E1的极性-E2的极性><5=E1的泛型-E2的泛型><6=E1的时态-E2的时态><7=E1的触发词><8=E2的触发词><9=E1的触发词词性><10=E2的触发词词性><11=E1触发词的句法树深度><12=E2触发词的句法树深度><13=E1触发词的词语位置><14=E2触发词的词语位置><15=E1所在语句><16=E2所在语句><17=E1的实体个数><18=E2的实体个数>;
其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系;
S204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征集合1;其中,每个事件对(E1,E2)的关系特征集合如下:
<19=E1类型和E2类型是否相同(0不相同,1相同)><20=E1触发词与E2触发词语义是否相似(0不相似,1相似)><21=E1触发词词性与E2触发词词性是否一致(0不一致,1一致)><22=E1实体与E2实体相同个数><23=E1实体与E2实体不相同个数><24=E1实体类型与E2实体类型相同个数><25=E1实体类型与E2实体类型不相同个数><26=E1触发词到E2触发词距离><27=E1触发词的句法分析树深度与E2触发词句法分析树深度差><28=E1与E2所在语句差><29=E1与E2间隔的事件个数><30=E1与E2间隔的语句差>;
其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则;
S205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2;其中,每个候选论元的基本特征集合如下:
<1=候选论元><2=实体类型><3=事件触发词><4=触发词词性><5=实体和触发词在语法树中的深度差><6=触发词的前一词+词性><7=触发词的后一词+词性><8=实体前一词+词性><9=实体后一词+词性><10=实体与触发词的相对位置(前或后)><11=实体到触发词的距离><12=实体到触发词的句法分析树><13=触发词和当前实体的依存路径>;
其中,事件论元用数字表示,0表示该候选论元不是事件的论元,正数表示该论元的角色类型。
进一步的,所述步骤S30还包括:
S301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件同指消解模型,所述最大熵事件同指消解模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;
S302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合,所述事件同指关系第一集合中的每个事件对的格式如下:
<是否同指(0表示不同指,1表示同指),事件E1,事件E2,置信度P>;
其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
进一步的,所述步骤S40还包括:
S401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件论元识别模型,所述最大熵事件论元识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;
S402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合1;所述事件论元第一集合1中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>;
其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率;
S403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一个条件随机场事件论元识别模型,所述条件随机场事件论元识别模型包括标注语料特征集合、训练得到的参数和条件随机场分类工具;
S404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合2,所述事件论元第一集合2中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>;
其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率。
进一步的,所述步骤S50中涉及事件论元和论元角色的信息由事件论元第一集合1和事件论元第一集合2共同提供。
进一步的,所述步骤S50还包括:
S501、对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对(E1,E2)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)的同指关系为1,得到新的事件同指关系第一集合;
S502、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1触发词与E2触发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对(E1,E1)的同指关系为1,得到新的事件同指关系第一集合;
S503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句差表示E1与E2在同一句、相邻句、间隔一句,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合,或者,E1与E2之间存在1~2个事件,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
S504、对于事件同指关系第一集合中的任意一个事件对(E1,E2),在事件论元第一集合1中找出属于E1的候选论元集合A11和在事件论元第一集合2中找出属于E1的候选论元集合A12,取候选论元集合A11和候选论元集合A12的交集作为E1的论元集合A1;在事件论元第一集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取候选论元集合A21和候选论元集合A22的交集作为E2的论元集合A2;
如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且E1的触发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色集合ARG中,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
以上S501~S505不区分执行先后顺序,实时动态的更新。
进一步的,所述步骤S504中高概率论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出,具体如下:
司法类事件:审判者、罪行、被告、人物;
受伤或死亡事件:施事者、工具、地点、受害者;
移动类事件:移动者、目的地;
攻击事件:攻击者、目标;
任意类型事件:职位、时间内。
本发明的中文事件同指消解系统,包括事件预处理模块10、事件及论元特征抽取模块20、事件同指关系识别模块30、事件论元识别模块40和事件同指消解联合推理模块50,所述事件预处理模块10包括分词单元101、实体识别单元102、句法分析单元103和事件抽取单元104;所述事件及论元特征抽取模块20包括事件对抽取单元201、事件论元抽取单元202、事件基本特征抽取单元203、事件对关系特征抽取单元204和事件论元基本特征抽取单元205;所述事件同指关系识别模块30包括事件同指关系模型训练单元301和事件对同指关系识别单元302;所述事件论元识别模块40包括最大熵模型训练单元401、事件论元识别单元402、条件随机场模块训练单元403和事件论元识别单元404;所述事件同指消解联合推理模块50包括传递性推理单元501、触发词推理单元502、事件距离推理单元503、论元中心词推理单元504和论元角色推理单元505。
借由上述方案,本发明采用联合学习与推理方法,利用各种语言知识来消解中文事件同指关系;本发明与现有方法和系统相比,消解性能得到了明显提升;另外,本发明可以充分利用事件之间的各种关系及其多种篇章知识对中文事件同指消解进行识别和推理,从而提高了事件同指消解的性能。
本发明在基于中文ACE2005语料库中的测试结果表明,本发明的系统比现有方法相比在综合指标F1上提高了3.55%。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明中文事件同指消解方法的流程图;
图2是本发明预处理的流程图;
图3是本发明抽取事件及论元特征的流程图;
图4是本发明事件对同指关系识别的流程图;
图5是本发明事件论元识别的流程图;
图6是本发明事件同指消解推理的流程图;
图7是本发明中文事件同指消解系统的结构图;
图8是本发明事件预处理模块的结构图;
图9是本发明事件及论元特征抽取模块的结构图;
图10是本发明事件同指关系识别模块的结构图;
图11是本发明事件论元识别模块的结构图;
图12是本发明事件同指消解推理模块的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种中文事件同指消解方法,如图1所示,包括步骤:
S10、对需要进行事件同指消解的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合。
其中,如图2所示,S10的具体过程如下:
S101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
例如:文档“江现冰认为网站公司为延续商业机制,因此相继会有许多公司会有并购的情形。那是大中国公司这边比较特殊,大部分还是packcompany,它不是一个公开上市的公司,所以它会借由并购的方式来延续它的商业机制。我想未来还会看到许多会有这样并购或是收编,或者是靠航,最后可能会形成几个集团的情形。”经过词语切分后为:
例1:江现冰认为网站公司为延续商业机制,因此相继会有许多公司会有并购的情形。那是大中国公司这边比较特殊,大部分还是packcompany,它不是一个公开上市的公司,所以它会借由并购的方式来延续它的商业机制。我想未来还会看到许多会有这样并购或是收编,或者是靠航,最后可能会形成几个集团的情形。
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合。所述第二文档集合中每个实体标注格式为“实体/实体类型”。
例1经过实体识别后为:
例2:江现冰/PER认为网站公司/ORG为延续商业机制,因此相继会有许多公司/ORG会有并购的情形。那是大中国/LOC公司/ORG这边比较特殊,大部分/ORG还是packcompany/ORG,它/ORG不是一个公开上市的公司/ORG,所以它/ORG会借由并购的方式来延续它/ORG的商业机制。我/PER想未来还会看到许多/ORG会有这样并购或是收编,或者是靠航,最后可能会形成几个集团/ORG的情形。
其中,实体标签PER、ORG分别表示实体类型人物、组织。
S103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
例2经过句法分析后为:
例3:((IP(NP(NR江现冰))(VP(VV认为)(IP(NP(NN网站)(NN公司))(VP(PP(P为)(IP(VP(VV延续)(NP(NN商业)(NN机制)))))(PU,)(ADVP(AD因此))(ADVP(AD相继))(VP(VV会)(VP(VE有)(NP(CP(IP(NP(QP(CD许多))(NP(NN公司)))(VP(VV会)(VP(VE有)(NP(NN并购)))))(DEC的))(NP(NN情形))))))))(PU。)))(IP(NP(PN那))(VP(VC是)(IP(NP(NP(NR大中国)(NN公司))(NP(NN这边)))(VP(ADVP(AD比较))(VP(VA特殊))))))(PU,)(IP(NP(NN大部))(VP(ADVP(AD分))(ADVP(AD还))(VP(VC是)(NP(NN packcompany)))))(PU,)(IP(NP(PN它))(VP(ADVP(AD不))(VP(VC是)(NP(CP(IP(NP(NN一个))(VP(ADVP(AD公开))(VP(VV上市))))(DEC的))(NP(NN公司))))))(PU,)(IP(ADVP(AD所以))(NP(PN它))(VP(VV会)(VP(VP(VV借)(NP(DNP(PP(P由)(NP(NN并购)))(DEG的))(NP(NN方式))))(VP(MSP来)(VP(VV延续)(NP(DNP(NP(PN它))(DEG的))(NP(NN商业)(NN机制))))))))((IP(NP(PN我))(VP(VV想)(VP(VP(NP(NT未来))(ADVP(AD还))(VP(VV会)(VP(VV看到)(IP(VP(VV许)(IP(VP(VP(ADVP(AD多))(VP(VV会)(VP(VE有)(NP(ADJP(JJ这样))(NP(NN并购))))))(CC或是)(VP(VV收编)))))))))(PU,)(CC或者)(VP(VC是)(NP(CP(IP(PP(P靠)(NP(NN航)))(PU,)(ADVP(AD最后))(VP(VV可能)(VP(VV会)(VP(VV形成)(NP(QP(CD几)(CLP(M个)))(NP(NN集团)))))))(DEC的))(NP(NN情形))))))(PU。)
其中,句法分析是指对句子中的词语语法功能进行分析。“NR”、“VV”、“NN”、“P”、“PU”、“AD”、“VE”、“CD”、“DEC”、“DEG”、“CC”、“M”、“NT”、“MSP”、“VC”、“PN”和“JJ”是句法分析的标签,分别表示专用名词、普通动词、普通名词、介词、标点符号、副词、词“有”、数量词、词“的”、词“的”、不确定词、单位词、时间词、连接词、确定词、代词和冠词;“IP”、“NP”、“VP”、“PP”、“ADVP”、“CP”、“QP”、“DNP”、“CLP”,分别表示子句、名词性短语、动词性短语、介词性短语、副词性短语、词“的”构成的修饰性关系短语、量词性短语、代词短语、单位词短语。
S104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
例3经过事件抽取后,抽取了3个事件:
例4:E1:Trigger=并购Etype=Business Args={许多公司/ORG/Org}
E2:Trigger=并购Etype=Business Args={它/ORG/Org}
E3:Trigger=形成Etypes=Business Args={几个集团/ORG/Org未来/TIME/Time}
其中,E1是事件的编号,Trigger、Etype和Args分别是该事件的触发词、事件类型和论元集合;每个论元的格式为:论元/实体类型/论元角色。Org、Time分别表示论元角色组织、时间。
S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2。标注语料特征集合1与测试语料特征集合1用于事件同指消解,该集合中不包含事件论元信息;标注语料特征集合2与测试语料特征集合2用于事件论元识别,该集合中不包含事件同指关系信息。
其中,所述标注语料集合是已经标注了实体、句法结构和事件信息的文档集合,每个文档的结构和例1-例4一致。
其中,如图3所示,S20的具体过程如下:
S201、分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对(如事件E1和E2,可构成(E1,E2)和(E2,E1)两个事件对,本发明只取其中一个)。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合。
需要说明的是,一个文档中任意两个事件可以构成一个事件对,例4中有3个事件,可以组成3个事件对:(E1,E2)、(E2,E3)和(E1,E3)。
S202、分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的候选事件论元。所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测试语料集合中抽取的论元构成测试语料论元集合。
如例4中的3个事件:E1、E2和E3。
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特征集合1。其中,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的类型-E2的类型><2=E1的子类型-E2的子类型><3=E1的形态-E2的形态><4=E1的极性-E2的极性><5=E1的泛型-E2的泛型><6=E1的时态-E2的时态><7=E1的触发词><8=E2的触发词><9=E1触发词词性><10=E2的触发词词性><11=E1触发词的句法树深度><12=E2触发词的句法树深度><13=E1触发词的词语位置><14=E2触发词的词语位置><15=E1所在语句><16=E2所在语句><17=E1的实体个数><18=E2的实体个数>。
其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系。
例如例4中的事件E1和E2构成事件对(E1,E2)的基本特征如下:
例5:
<1=Business-Business><2=E1Merge-Org-Merge-Org><3=Asserted-Asserted><4=Positive-Positive><5=Generic-Generic><6=Unspecifed-Unspecified><7=并购>
<8=并购><9=名词>
<10=名词><11=3><12=3><13=304><14=369><15=6><16=7><17=1><18=1>。
以上特征部分可由例2-例4中得到,其中特征1-6可由标记语料集合中读取到,特征11、12可由句法分析树中计算得出,特征13-16可由原始文本读取得到。
S204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征集合1。其中,每个事件对(E1,E2)的关系特征集合如下:
<19=E1类型和E2类型是否相同(0不相同;1相同)><20=E1触发词与E2触发词语义是否相似(0不相似;1相似)><21=E1触发词词性与E2触发词词性是否一致(0不一致;1一致)><22=E1实体与E2实体相同个数><23=E1实体与E2实体不相同个数><24=E1实体类型与E2实体类型相同个数><25=E1实体类型与E2实体类型不相同个数><26=E1触发词到E2触发词距离><27=E1触发词的句法分析树深度与E2触发词句法分析树深度差><28=E1与E2所在语句差><29=E1与E2间隔的事件个数><30=E1与E2间隔的语句差>。
其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则。
例如,例4中事件E1和E2构成事件对(E1,E2)的关系特征如下:
例6:
<19=1><20=1><21=1><22=1><23=0><24=1><25=0><26=65><27=0><28=1><29=0><30=0>。
其中触发词语义相似计算方法使用语义相似度计算和词语匹配规则,前者可直接调用计算工具;后者匹配规则如下:
①如果两个词语从字符串角度上一样,则认为一致;
②否则,计算语义相似度,其结果大于等于0.5则认为一致;
③否则,如果具有相同前缀、后缀,则认为一致(如举行、举办;大选、民选);
④否则,如果词语为三字以内,含有相同字则认为一致(如募捐、捐款);
否则,则认为词语不一致。
事件E1与E2的触发词都为“并购”,经语义相似度计算为1.0,本发明归一为0-1整数,所以特征19为1。若有两个触发词经计算,相似度较小,则进行以上词语匹配规则。
把基本特征和关系合并,得到事件对E1和E2的特征集合{1~30}。
S205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2。其中,每个候选论元的基本特征集合如下:
<1=候选论元><2=实体类型><3=事件触发词><4=触发词词性><5=实体和触发词在语法树中的深度差><6=触发词的前一词+词性><7=触发词的后一词+词性><8=实体前一词+词性><9=实体后一词+词性><10=实体与触发词的相对位置(前或后)><11=实体到触发词的距离><12=实体到触发词的句法分析树><13=触发词和当前实体的依存路径>
其中,事件论元用数字表示,0表示该候选论元不是事件的论元,正数表示该论元的角色类型。
例如,例4中的事件及论元信息,具体可以表示如下:
例7:<1=公司><2=ORG><3=并购><4=NN><5=1><6=有+VE><7=的+DEC>
<8=有+VE><9=会+VV>
<10=前><11=1><12=NP^BP^VP^VP^NP><13=dobj^nsubj>。
其中特征1-12可由例1-5中获取,特征13可由依存句法分析工具得出。
S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模型;再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关系,得到事件同指关系第一集合。
其中,如图4所示,S30的具体过程如下:
S301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件同指消解模型;所述最大熵事件同指消解模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。
标注语料特征集合1中的特征的例子如例5、6所示,另外,每对事件对带有是否同指的标签。利用最大熵分类工具,如Mallet或Maxent等,可以训练得到一个最大熵事件同指消解模型。
S302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合。所述事件同指关系第一集合中的每个事件对的格式如下:
<是否同指(0表示不同指;1表示同指),事件E1,事件E2,置信度P>
其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
例如:以下是对例4中的事件进行同指消解识别的输出结果:
例8:1E1,E2,0.973
0E2,E3,0.274
0E1,E3,0.167
注意,无论分类结果为同指(标签为1)还是不同指(标签为0),其置信度都表示具有同指关系的概率。
S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型与条件随机场事件论元识别模型;利用所述最大熵事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合1;利用所述条件随机场事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2。
其中,如图5所示,S40的具体过程如下:
S401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件论元识别模型;所述最大熵事件论元识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。
标注语料特征集合2中的特征的例子如例7所示,另外每个候选论元带有论元角色的类别,其中0表示不是论元。利用最大熵分类工具,可以训练得到最大熵事件论元识别模型。
S402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合1。所述事件论元第一集合1中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>
其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率。
例如:例4中的论元及候选论元识别后的输出结果:
例9:1A1,0.864
0A2,0.326
0A3,0.293
S403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一个条件随机场事件论元识别模型;所述条件随机场事件论元识别模型包括标注语料(训练集)特征集合、训练得到的参数和条件随机场分类工具。
标注语料特征集合2中的特征的例子如例7所示,另外每个候选论元带有论元角色的类别,其中0表示不是论元。利用条件随机场工具,可以训练得到条件随机场事件论元识别模型。
S404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合2。所述事件论元第一集合2中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>
其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率。
例如:例4中的论元及候选论元识别后的输出结果:
例10:1A1,0.927
0A2,0.226
0A3,0.249
S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同指关系集合和事件论元识别集合;其中,涉及事件论元和论元角色的信息由事件论元第一集合1和事件论元第一集合2共同提供。
其中,如图6所示,S50的具体过程如下:
S501、对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对(E1,E2)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)的同指关系为1,得到新的事件同指关系第一集合。
例如,假设有以下分类结果:
例11:1E1,E2,0.9
1E2,E3,0.8
0E1,E3,0.4
由于同指关系具有传递性,事件E1与E2同指,E2与E3同指,则根据传递性推理将事件E1与E3修改为同指,即:1E1,E3,1。
S502、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1触发词与E2触发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对(E1,E1)的同指关系为1,得到新的事件同指关系第一集合。
假设存在以下事件E1和E2,
例12:两国首脑在巴黎举行会议(E1)。会议(E2)中讨论了双边贸易问题。
在以上例12中,事件“会议”的触发词语义相似度一致,并且距离非常近,则修改事件同指关系第一集合中的事件对(E1,E2)的同指关系为1,其置信度也为1。
S503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句差为0、1、2(即表示E1与E2在同一句、相邻句、间隔一句),并且这两个事件的类型在该文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。或者,E1与E2之间存在1~2个事件,并且这两个事件的类型在该文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
如例12所示,假设该文档中会议事件(事件类型为会见Meeting)出现最多,则可以对例12中的事件对(E1,E2)进行推理。事件E1、E2在相邻句,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
再如,假设例12中的事件E1、E2所在语句差大于2,但两个事件之间并无其他事件间隔,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
S504、对于事件同指关系第一集合中的任意一个事件对(E1,E2),在事件论元第一集合1中找出属于E1的候选论元集合A11和在事件论元第一集合2中找出属于E1的候选论元集合A12,取两个的交集作为E1的论元集合A1;在事件论元第一集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取两个的交集作为E2的论元集合A2。
如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且E1的触发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
其中,高概率论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出。具体如下:
司法类事件:审判者、罪行、被告、人物;
受伤或死亡事件:施事者、工具、地点、受害者;
移动类事件:移动者、目的地;
攻击事件:攻击者、目标;
任意类型事件:职位、时间内。
例如:
例13:杨富家(A1)教授起程赴世界著名大学英国诺丁汉大学(A2)就任(E1)校长(A3)。他(A4)说,诺丁汉大学(A5)聘请我担任(E2)校长(A6),表明中国教育水平和管理水平取得显著成就并得到国际上的广泛认可。
事件E1“就任”与事件E2“担任”互为同指事件,尽管“杨富家教授”、“他”作为事件论元,并且从语义上讲,两个论元相同,但对于一般的论元识别模型,很难把两个论元识别为相同。然而,“诺丁汉大学”以及“校长”分别作为事件地点(Place)论元和职位(Position)论元,而这两个论元在两个事件中均存在,并且论元角色相同。因此通过该推理规则可将事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色集合ARG中,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
例如:
例14:以色列(ET1)一辆轿车20号在加沙走廊(ET2)遭到卡车撞击(E1),造成两名以色列成年人受伤。这起车祸(E2)发生在加沙走廊南部附近(ET3),由以色列全面掌控的区域(ET4)。
其中实体ET1-ET4的类型为地点(Location,LOC),并在两个事件E1、E2中,充当事件论元(其他实体不充当事件论元,故没有标出)。因此修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合。
以上S501~S505并不区分执行先后顺序,为实时动态的更新,牵一发而动全身。即当S505执行后,如果发现此时有事件对符合S501,则再一次进行S501的推理。
一种中文事件同指消解系统如图7所示,包括事件预处理模块10、事件及论元特征抽取模块20、事件同指关系识别模块30、事件论元识别模块40、事件同指消解联合推理模块50,各模块的工作原理分别对应上述的中文事件同指消解方法的步骤S10~S50。
其中,如图8所示,事件预处理模块10包括分词单元101、实体识别单元102、句法分析单元103、事件抽取单元104,各单元的工作的原理分别对应上述步骤S10中的S101~S104。
其中,如图9所示,事件及论元特征抽取模块20包括事件对抽取单元201、事件论元抽取单元202、事件基本特征抽取单元203、事件对关系特征抽取单元204、论元基本特征抽取单元205,各单元的工作的原理分别对应上述步骤S20中的S201~S205。
其中,如图10所示,事件同指关系识别模块30包括事件同指关系模型训练单元301、事件对同指关系识别单元302,各单元的工作原理分别对应上述步骤S30中的S301~S302。
其中,如图11所示,事件论元识别模块40包括最大熵模型训练单元401、事件论元识别单元402、条件随机场模型训练单元403、事件论元识别单元404,各单元的工作原理分别对应上述步骤S40中的S401~S404。
其中,如图12所示,事件同指消解联合推理模块50包括传递性推理单元501、触发词推理单元502、事件距离推理单元503、论元中心词推理单元504、论元角色推理单元505,各单元的工作原理分别对应上述步骤S50中的S501~S505。以上单元501~505并不区分执行先后顺序,为实时动态的更新,牵一发而动全身。即当单元505执行后,如果发现此时有事件对符合单元501,则再一次进行单元501的推理。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种中文事件同指消解方法,其特征在于,包括步骤:
S10、对需要进行事件同指消解的原始文本中的每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
S20、以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合1、2和测试语料特征集合1、2;
S30、根据标注语料特征集合1中各个事件对的特征,训练一个最大熵事件同指消解模型,再利用所述最大熵事件同指消解模型识别测试语料特征集合1中每个事件对的同指关系,得到事件同指关系第一集合;
S40、根据标注语料特征集合2中各个事件的特征,训练一个最大熵事件论元识别模型与条件随机场事件论元识别模型,利用所述最大熵事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合1,利用所述条件随机场事件论元识别模型识别测试语料特征集合2中的每个事件的论元,得到事件论元第一集合2;
S50、以文档为单位,对事件同指关系第一集合中的所有事件对以及事件论元第一集合1中所有事件,利用传递性推理方法、事件触发词推理方法、事件距离推理方法、论元中心词推理方法和论元角色推理方法进行事件同指消解和事件论元识别的联合推理,得到事件同指关系集合和事件论元识别集合。
2.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S10还包括:
S101、对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合;
S103、对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
S104、对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
3.根据权利要求1所述的中文事件同指消解方法,其特征在于:所述步骤S20中标注语料特征集合1与测试语料特征集合1用于事件同指消解,且不包含事件论元信息;标注语料特征集合2与测试语料特征集合2用于事件论元识别,且不包含事件同指关系信息。
4.根据权利要求2所述的中文事件同指消解方法,其特征在于,所述步骤S20还包括:
S201、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的任意两个事件E1和E2,两两事件构成一个事件对(E1,E2),所有从标注语料集合中抽取的所述事件对构成标注语料事件对集合,所有从测试语料集合中抽取的所述事件对构成测试语料事件对集合;
S202、分别从标注语料集合和测试语料集合中,以文档为单位抽取每个文档中的候选事件论元,所有从标注语料集合中抽取的候选事件论元构成标注语料论元集合,所有从测试语料集合中抽取的候选事件论元构成测试语料论元集合;
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料第一特征集合1,为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料第一特征集合1;其中,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的类型-E2的类型><2=E1的子类型-E2的子类型><3=E1的形态-E2的形态><4=E1的极性-E2的极性><5=E1的泛型-E2的泛型><6=E1的时态-E2的时态><7=E1的触发词><8=E2的触发词><9=E1的触发词词性><10=E2的触发词词性><11=E1触发词的句法树深度><12=E2触发词的句法树深度><13=E1触发词的词语位置><14=E2触发词的词语位置><15=E1所在语句><16=E2所在语句><17=E1的实体个数><18=E2的实体个数>;
其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系;
S204、为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料第一特征集合1中的所述事件对的基本特征合并,添加到标注语料特征集合1;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料第一特征集合1中的所述事件对的基本特征合并,添加到测试语料特征集合1;其中,每个事件对(E1,E2)的关系特征集合如下:
<19=E1类型和E2类型是否相同(0不相同,1相同)><20=E1触发词与E2触发词语义是否相似(0不相似,1相似)><21=E1触发词词性与E2触发词词性是否一致(0不一致,1一致)><22=E1实体与E2实体相同个数><23=E1实体与E2实体不相同个数><24=E1实体类型与E2实体类型相同个数><25=E1实体类型与E2实体类型不相同个数><26=E1触发词到E2触发词距离><27=E1触发词的句法分析树深度与E2触发词句法分析树深度差><28=E1与E2所在语句差><29=E1与E2间隔的事件个数><30=E1与E2间隔的语句差>;
其中,两个触发词词语相似度使用语义相似度计算和词语匹配规则;
S205、为标注语料论元集合中的每个论元从标注语料集合中抽取所述候选事件论元的基本特征,并加入已标注的事件论元,构成标注语料特征集合2;为测试语料论元集合中的每个论元从测试语料集合中抽取所述候选事件论元的基本特征,构成测试语料特征集合2;其中,每个候选论元的基本特征集合如下:
<1=候选论元><2=实体类型><3=事件触发词><4=触发词词性><5=实体和触发词在语法树中的深度差><6=触发词的前一词+词性><7=触发词的后一词+词性><8=实体前一词+词性><9=实体后一词+词性><10=实体与触发词的相对位置(前或后)><11=实体到触发词的距离><12=实体到触发词的句法分析树><13=触发词和当前实体的依存路径>;
其中,事件论元用数字表示,0表示该候选论元不是事件的论元,正数表示该论元的角色类型。
5.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S30还包括:
S301、把标注语料特征集合1中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件同指消解模型,所述最大熵事件同指消解模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;
S302、把测试语料特征集合1中的每个事件对的特征作为输入,调用最大熵事件同指消解模型识别每个所述事件对的同指关系,得到事件同指关系第一集合,所述事件同指关系第一集合中的每个事件对的格式如下:
<是否同指(0表示不同指,1表示同指),事件E1,事件E2,置信度P>;
其中,是否同指与置信度P是最大熵事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
6.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S40还包括:
S401、把标注语料特征集合2中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件论元识别模型,所述最大熵事件论元识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具;
S402、把测试语料特征集合2中的每个候选事件论元作为输入,调用最大熵事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合1;所述事件论元第一集合1中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>;
其中,论元角色类型A与置信度P是最大熵事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率;
S403、把标注语料特征集合2中的特征作为输入,调用条件随机场分类工具训练得到一个条件随机场事件论元识别模型,所述条件随机场事件论元识别模型包括标注语料特征集合、训练得到的参数和条件随机场分类工具;
S404、把测试语料特征集合2中的每个候选事件论元作为输入,调用条件随机场事件论元识别模型识别每个所述候选事件论元,得到事件论元第一集合2,所述事件论元第一集合2中的每个事件论元的格式如下:
<论元角色类型A(0表示不是论元),候选事件论元,置信度P>;
其中,论元角色类型A与置信度P是条件随机场事件论元识别模型的输出结果,置信度P为一个0-1的分类结果,表示具有A类型的概率。
7.根据权利要求1所述的中文事件同指消解方法,其特征在于,所述步骤S50中涉及事件论元和论元角色的信息由事件论元第一集合1和事件论元第一集合2共同提供。
8.根据权利要求7所述的中文事件同指消解方法,其特征在于,所述步骤S50还包括:
S501、对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对(E1,E2)和(E2,E3)均为同指事件,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)的同指关系为1,得到新的事件同指关系第一集合;
S502、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1触发词与E2触发词语义相似度一致,并且E1与E2距离非常近,则修改事件同指关系第一集合中的事件对(E1,E1)的同指关系为1,得到新的事件同指关系第一集合;
S503、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1与E2所在语句差表示E1与E2在同一句、相邻句、间隔一句,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合,或者,E1与E2之间存在1~2个事件,并且这两个事件的类型在文档中出现次数最多,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
S504、对于事件同指关系第一集合中的任意一个事件对(E1,E2),在事件论元第一集合1中找出属于E1的候选论元集合A11和在事件论元第一集合2中找出属于E1的候选论元集合A12,取候选论元集合A11和候选论元集合A12的交集作为E1的论元集合A1;在事件论元第一集合1中找出属于E2的候选论元集合A21和在事件论元第一集合2中找出属于E2的候选论元集合A22,取候选论元集合A21和候选论元集合A22的交集作为E2的论元集合A2;
如果A1与A2中存在语义相似的论元,并且E1触发词与E2触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;如果A1与A2中存在相同的论元角色,并且该论元角色在高概率论元角色集合ARG中,且E1的触发词与E2的触发词语义相似,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
S505、对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果两个事件具有相同的实体类型,并且这两个实体分别在各事件中充当论元,且论元角色在高概率论元角色集合ARG中,则修改事件同指关系第一集合中事件对(E1,E2)的同指关系为1,得到新的事件同指关系第一集合;
以上S501~S505不区分执行先后顺序,实时动态的更新。
9.根据权利要求8所述的中文事件同指消解方法,其特征在于,所述步骤S504中高概率论元角色集合ARG由标注语料特征集合1中取少量数据作为开发集统计得出,具体如下:
司法类事件:审判者、罪行、被告、人物;
受伤或死亡事件:施事者、工具、地点、受害者;
移动类事件:移动者、目的地;
攻击事件:攻击者、目标;
任意类型事件:职位、时间内。
10.一种中文事件同指消解系统,其特征在于:包括事件预处理模块(10)、事件及论元特征抽取模块(20)、事件同指关系识别模块(30)、事件论元识别模块(40)和事件同指消解联合推理模块(50),所述事件预处理模块(10)包括分词单元(101)、实体识别单元(102)、句法分析单元(103)和事件抽取单元(104);所述事件及论元特征抽取模块(20)包括事件对抽取单元(201)、事件论元抽取单元(202)、事件基本特征抽取单元(203)、事件对关系特征抽取单元(204)和事件论元基本特征抽取单元(205);所述事件同指关系识别模块(30)包括事件同指关系模型训练单元(301)和事件对同指关系识别单元(302);所述事件论元识别模块(40)包括最大熵模型训练单元(401)、事件论元识别单元(402)、条件随机场模块训练单元(403)和事件论元识别单元(404);所述事件同指消解联合推理模块(50)包括传递性推理单元(501)、触发词推理单元(502)、事件距离推理单元(503)、论元中心词推理单元(504)和论元角色推理单元(505)。
CN201610333173.4A 2016-05-19 2016-05-19 一种中文事件同指消解方法 Active CN106021229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610333173.4A CN106021229B (zh) 2016-05-19 2016-05-19 一种中文事件同指消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610333173.4A CN106021229B (zh) 2016-05-19 2016-05-19 一种中文事件同指消解方法

Publications (2)

Publication Number Publication Date
CN106021229A true CN106021229A (zh) 2016-10-12
CN106021229B CN106021229B (zh) 2018-11-02

Family

ID=57098529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610333173.4A Active CN106021229B (zh) 2016-05-19 2016-05-19 一种中文事件同指消解方法

Country Status (1)

Country Link
CN (1) CN106021229B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106844448A (zh) * 2016-12-16 2017-06-13 苏州大学 一种中文事件事实性识别方法和系统
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107679041A (zh) * 2017-10-20 2018-02-09 苏州大学 基于卷积神经网络的英文事件同指消解方法及系统
CN108717405A (zh) * 2018-04-18 2018-10-30 西安理工大学 基于思维导图的楼梯设计规范缺省主语的补全方法
CN109359184A (zh) * 2018-10-16 2019-02-19 苏州大学 英文事件同指消解方法和系统
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件系统有限公司 一种标签标注方法和装置、计算机可读存储介质
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN111626042A (zh) * 2020-05-28 2020-09-04 成都网安科技发展有限公司 指代消解方法及装置
CN111859903A (zh) * 2020-07-30 2020-10-30 苏州思必驰信息科技有限公司 事件同指模型训练方法、事件同指消解方法
CN112585596A (zh) * 2018-06-25 2021-03-30 易享信息技术有限公司 用于调查实体之间的关系的系统和方法
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222395A1 (en) * 2007-12-21 2009-09-03 Marc Light Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222395A1 (en) * 2007-12-21 2009-09-03 Marc Light Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAYUE TENG 等: "Chinese Event Co-reference Resolution Based on Trigger Semantics and Combined Features", 《CHINESE LEXICAL SEMANTICS》 *
滕佳月 等: "基于全局优化的中文事件同指消解方法", 《北京大学学报(自然科学版)》 *
祁坤珏: "《藏文分词与标注研究》", 30 April 2015 *
谭红叶: "中文事件抽取关键技术研究", 《中国博士学位论文全文数据库 信息科学辑(月刊)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776550A (zh) * 2016-12-06 2017-05-31 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106776550B (zh) * 2016-12-06 2019-12-13 桂林电子科技大学 一种英语作文语篇连贯质量的分析方法
CN106844448A (zh) * 2016-12-16 2017-06-13 苏州大学 一种中文事件事实性识别方法和系统
CN106844448B (zh) * 2016-12-16 2020-05-15 苏州大学 一种中文事件事实性识别方法和系统
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107679041A (zh) * 2017-10-20 2018-02-09 苏州大学 基于卷积神经网络的英文事件同指消解方法及系统
CN107679041B (zh) * 2017-10-20 2020-12-01 苏州大学 基于卷积神经网络的英文事件同指消解方法及系统
CN108717405B (zh) * 2018-04-18 2019-08-16 西安理工大学 基于思维导图的楼梯设计规范缺省主语的补全方法
CN108717405A (zh) * 2018-04-18 2018-10-30 西安理工大学 基于思维导图的楼梯设计规范缺省主语的补全方法
CN112585596A (zh) * 2018-06-25 2021-03-30 易享信息技术有限公司 用于调查实体之间的关系的系统和方法
CN109359184A (zh) * 2018-10-16 2019-02-19 苏州大学 英文事件同指消解方法和系统
CN109508382A (zh) * 2018-10-19 2019-03-22 北京明略软件系统有限公司 一种标签标注方法和装置、计算机可读存储介质
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN111626042A (zh) * 2020-05-28 2020-09-04 成都网安科技发展有限公司 指代消解方法及装置
CN111859903A (zh) * 2020-07-30 2020-10-30 苏州思必驰信息科技有限公司 事件同指模型训练方法、事件同指消解方法
CN111859903B (zh) * 2020-07-30 2024-01-12 思必驰科技股份有限公司 事件同指模型训练方法、事件同指消解方法
CN115983268A (zh) * 2023-03-17 2023-04-18 北京澜舟科技有限公司 一种金融事件链分析方法和计算机可读存储介质
CN117435697A (zh) * 2023-12-21 2024-01-23 中科雨辰科技有限公司 一种获取核心事件的数据处理系统
CN117435697B (zh) * 2023-12-21 2024-03-22 中科雨辰科技有限公司 一种获取核心事件的数据处理系统

Also Published As

Publication number Publication date
CN106021229B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN106021229A (zh) 一种中文事件同指消解方法和系统
Sidorov et al. Empirical study of machine learning based approach for opinion mining in tweets
Chinsha et al. A syntactic approach for aspect based opinion mining
CN106055536B (zh) 一种中文事件联合推理方法
CN105302794B (zh) 一种中文同指事件识别方法及系统
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
Chong et al. Natural language processing for sentiment analysis: an exploratory analysis on tweets
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
Nasr et al. Joint dependency parsing and multiword expression tokenization
CN105573977A (zh) 一种中文事件时序关系识别方法及系统
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
Kaur et al. Sentiment analysis from social media in crisis situations
CN109359184B (zh) 英文事件同指消解方法和系统
Abdullah et al. Multilingual Sentiment Analysis: A Systematic Literature Review.
Mladenović et al. Using lexical resources for irony and sarcasm classification
Parameswarappa et al. Kannada word sense disambiguation using decision list
Kurniasih et al. On the role of text preprocessing in BERT embedding-based DNNs for classifying informal texts
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
Plepi et al. Unifying data perspectivism and personalization: An application to social norms
Brönnimann Multilanguage sentiment-analysis of Twitter data on the example of Swiss politicians
Makarov Automated acquisition of patterns for coding political event data: two case studies
Adams et al. Textual entailment through extended lexical overlap and lexico-semantic matching
Baqapuri Twitter sentiment analysis
Alva et al. Hidden Markov model for POS tagging in word sense disambiguation
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant