CN105573977A - 一种中文事件时序关系识别方法及系统 - Google Patents
一种中文事件时序关系识别方法及系统 Download PDFInfo
- Publication number
- CN105573977A CN105573977A CN201510698260.5A CN201510698260A CN105573977A CN 105573977 A CN105573977 A CN 105573977A CN 201510698260 A CN201510698260 A CN 201510698260A CN 105573977 A CN105573977 A CN 105573977A
- Authority
- CN
- China
- Prior art keywords
- event
- sequential relationship
- document
- order serie
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种中文事件时序关系识别方法及系统,对需要识别事件时序关系的原始文本的每个文档进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,并根据标注语料特征集合中各个事件对的特征,训练最大熵事件时序关系识别模型;再利用最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种中文事件时序关系识别方法及系统。
背景技术
事件(Event)是信息表示的一种主要形式,它是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”),如人的受伤、死亡事件和食品的添加剂事件等。事件是客观事实诉诸文字的独特语用形式,而一篇文章一般由围绕某个话题或者相关主题的各种事件组成,这些事件表达了文章的核心内容。因而文本中的事件往往不是孤立个体,其发生与发展往往与外在的围绕同一话题的其他事件有着一定的关系,如“时序”关系。事件的时序关系是一种重要的事件关系,它连接了某一话题下事件从开始到结束的演变过程以及事件的相互关系,近年来成为信息抽取研究的一个热点。
形成一种自动识别事件之间时序关系的处理机制,对其他自然语言处理领域具有促进作用。对于一系列的新闻报道,了解各个事件之间的关系,可以更好地对文章内容进行归纳总结,以便人们快速获取有效信息。在文景转换系统中,需要知道文中事件发生的先后顺序,以此来排列动画场景,保证整个故事情节的连续性。因此,事件时序关系的研究不仅具有理论意义,还具有一定的实用价值。
目前,事件时序关系识别绝大多数面向英文,中文事件时序关系识别方法较少。英文事件时序关系识别研究所使用的方法由早期的规则方法转变为统计机器学习方法。由于缺少成熟的语料库,早期的英文事件时序关系识别模型多数基于规则建立,常见的规则方法有规则推理法和模式匹配法等。规则推理法主要是通过定义的规则集合来实现事件关系的识别与推理。Allen首先提出了一种13类时序关系的分类体系,将时间看作一个区间,利用“区间代数”法定义了一系列的时序关系推理规则。也有些人通过不同的知识来推断事件的时间顺序,如时间状语、时态、体态、修辞关系、实际惯例和背景知识等。由于规则推理法具有较高的强制性,它虽然有很高的准确率,但召回率偏低。模式匹配法就是根据人工定义的模板抽取文本中符合模板的事件关系对,该方法通常借助事件触发词间的关系来识别事件之间的关系。比如,Chklovski等通过LSP(Lexcial-SyntacticPattern,即词-句匹配模板)来抽取事件关系对,并将抽取的结果整理成一个知识库(称为VerbOcean),在定义的模板中共包括六种时序关系(Similarity,Strength,Antonymy,Enablement,Happens和Before)。人工定义的事件关系对模板受数量限制,也会造成低召回率的问题;另外,由于模板的通用性较强,会产生许多噪声信息,影响准确率。
随着TimeML(TimeMarkupLanguage)标注体系的发展以及TimeBank语料库的出现,统计机器学习方法开始广泛应用于事件时序关系识别研究。TimeBank语料库现已成为众多学者研究英文事件时序关系的专业语料库。Mani等在TimeBank语料库和Opinion语料库的基础上,提出了事件属性特征(称为“完美特征”):事件类别、体态、形态、极性、时态等,并使用最大熵分类算法对事件对进行时序关系的识别。Chambers在Mani的基础上,对特征空间进一步扩展,加入了更多的词法、上下文及句法特征,使用两步识别来解决事件时序关系识别问题,其中第一步是识别时态、极性、体态等属性,第二步将第一步识别的结果加入到特征集合中来识别事件之间的时序关系,实验结果较Mani有较大提升。D’Souza总结了大量用于事件时序关系识别的特征,并提出了有关篇章级别的特征,使系统性能有了一定的提高。Mirza在实验中发现在仅使用一些简单的特征却比使用一些复杂的语义信息的识别效果更好。
在中文事件时序关系识别方面,国内还未展开大规模的深入研究,只有少数研究者做了部分有益的尝试。由于缺少专业的语料库支持,无法进行统一评测,因此,其相关研究工作比较零散、不成体系。Li最先研究中文事件时序关系识别问题,提出了一种基于规则的识别方法,即定义了时序关系指示词到时序关系的映射规则,虽然实现原理简单,但效率差。仲兆满提出了一种事件关系表示模型,并进行了一个简单的事件关系推理实验。王风娥采用最大熵分类器识别句子内的事件时序关系,实验中使用了一些有助于提高同句内事件时序关系的语言特征。
当前,绝大多数的事件时序关系识别方法存在两个问题:1)不管是规则方法还是机器学习方法,多数把一对对事件孤立起来,进而识别其时序关系。这些方法普遍没有考虑一个篇章中的多个事件间存在关系,而且相互影响;2)现有方法重点识别句子内部或相邻句子中事件的时序关系,没有考虑到不相邻句子中事件的时序关系。
针对以上问题,本发明提出篇章级别的中文事件时序关系识别方法和系统,利用篇章知识来识别句子内、相邻句子和不相邻句子中的事件的时序关系。
发明内容
本发明提供一种中文事件时序关系识别方法,包括以下步骤。
S1、对需要识别事件时序关系的原始文本的每个文档,分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。
S2、以文档为单位,分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,得到测试语料特征集合和标注语料特征集合;其中,所述标注语料集合是预先标注了实体、句法结构、依存结构和事件信息的文档集合。
S3、根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。
S4、以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
优选的,步骤S1还包括:
S101、对需要识别事件时序关系的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合,所述第二文档集合中每个实体标注格式为“实体/实体类型”;
S103、对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第三文档集合;
S104、对第三文档集合中每个文档调用依存关系分析工具进行依存关系分析,得到第四文档集合;
S105、对第四文档集合中每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
优选的,步骤S2还包括:
S201、分别从标注语料集合和测试语料事件集合中,以文档为单位抽取每个文档中的任意2个事件,两两构成2个事件对。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料事件集合中抽取的事件对构成测试语料事件对集合;
S202、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并且加入已标注的事件时序关系,构成标注语料第一特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料第一特征集合;
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取事件对的关系特征,和标注语料第一特征集合中所述事件对的基本特征合并,添加到标注语料特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的关系特征,和测试语料第一特征集合中所述事件对的基本特征合并,添加到测试语料特征集合。
优选的,在步骤S202中,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词的前一词><4=E1的触发词的前一词的词性><5=E1的触发词的后一词><6=E1的触发词的后一词的词性><7=E1的触发词在依存关系中的支配者><8=E1的触发词在依存关系中的支配者的词性><9=E1的触发词及其支配者的依存关系><10=E2的触发词><11=E2的触发词的词性><12=E2的触发词的前一词><13=E2的触发词的前一词的词性><14=E2的触发词的后一词><15=E2的触发词的后一词的词性><16=E2的触发词在依存关系中的支配者><17=E2的触发词在依存关系中的支配者的词性><18=E2的触发词及其支配者的依存关系>。
优选的,事件时序关系共有四种,为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)。
优选的,在步骤S203中,每个事件对(E1,E2)的关系特征集合如下:
<19=事件E1和E2的触发词词性是否相同(0-不相同;1-相同)><20=事件E1是否出现在E2前面(0-不是;1-是)><21=事件E1和E2是否同句(0-不是;1-是)><22=事件E1和E2间隔句子数><23=事件E1和E2间隔词个数><24=事件E1和E2触发词是否为同义词(0-不是;1-是)><25=事件E1和E2之间的连接词><26=事件E1和E2的施事者是否相同(0-不相同;1-相同)><27=事件E1和E2受事者是否相同(0-不相同;1-相同)><28=事件E1和E2的时间论元(角色为Time(时间)的论元)是否相同(0-不相同,1-相同)><29=事件E1和E2的地点论元(角色为Place(地点)的论元)是否相同(0-不相同,1-相同)><30=事件E1的施事者是否为事件E2的受事者(0-不是,1-是)><31=事件E1的受事者是否为事件E2的施事者(0-不是,1-是)>。
优选的,步骤S3还包括,
S301、把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件时序关系识别模型;所述最大熵事件时序关系识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具;
S302、把测试语料特征集合中每个事件对的特征作为输入,调用最大熵事件时序关系识别模型识别每个所述事件对的时序关系,得到事件时序关系第一集合。
优选的,在步骤S302中,所述事件时序关系第一集合中的每个事件对的格式如下:
<事件E1,事件E2,时序关系T,置信度P>,其中,时序关系T和置信度P是最大熵事件时序关系识别模型的输出结果,时序关系T为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)之一,置信度P为一个0-1之间的分类结果,表示时序关系T的概率。
优选的,步骤S4还包括:
S401、对于事件时序关系第一集合中的每个事件对(E1,E2),如果事件E1和E2均有时间论元(Time)A1和A2,并且A1和A2都可以规范化,则对A1和A2进行规范化,否则不做处理;然后,比较得到A1和A2的时序关系T’;最后,把所述事件对(E1,E2)的时序关系替换为T’,置信度设置为最高值1,得到事件时序关系第二集合;
S402、对于事件时序关系第二集合中的每个事件对(E1,E2),如果事件E1和E2具有至少一个相同论元,并且它们的事件类型和事件类型时序表中的某项一致,则把事件对(E1,E2)的时序关系修改为事件类型时序表中所述项的时序关系,置信度设置为最高值1,得到事件时序关系第三集合;
S403、对于事件时序关系第三集合中的每个事件对(E1,E2)及其反序事件对(E2,E1),如果它们的时序关系T1和T2构成的二元组不属于自反时序集合,则利用自反性推理修改事件时序关系第三集合中所述事件对(E1,E2)或所述反序事件对(E2,E1)的时序关系,得到事件时序关系第四集合;
S404、对于事件时序关系第四集合中的任意3个事件E1,E2和E3,如事件对(E1,E2)和(E2,E3)的时序关系均为Before或After,则根据时序关系Before和After具有传递性修改事件时序关系第四集合中事件对(E1,E3)的时序关系为Before或After,得到最终的事件时序关系集合。
本发明还提供一种中文事件时序关系识别系统,包括事件预处理模块、事件特征抽取模块、事件时序关系分类模块及事件时序关系推理模块,所述事件预处理模块连接事件特征抽取模块,所述事件特征抽取模块连接事件时序关系分类模块,所述事件时序关系分类模块连接事件时序关系推理模块,所述事件预处理模块,用于对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分,实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合。所述事件特征抽取模块,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合;其中,所述标注语料集合是已经标注了实体、句法结构、依存结构和事件信息的文档集合。所述事件时序关系分类模块,用于根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。所述事件时序关系推理模块,用于以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
通过本发明提供的中文事件时序关系识别方法及系统,对需要识别事件时序关系的原始文本的每个文档,分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。以文档为单位,分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,得到测试语料特征集合和标注语料特征集合;其中,所述标注语料集合是预先标注了实体、句法结构、依存结构和事件信息的文档集合。根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。如此,采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系,识别性能得到了明显提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的中文事件时序关系识别方法流程图;
图2是本发明较佳实施例提供的中文事件时序关系识别方法步骤S1分解流程图;
图3是本发明较佳实施例提供的中文事件时序关系识别方法步骤S2分解流程图;
图4是本发明较佳实施例提供的中文事件时序关系识别方法步骤S3分解流程图;
图5是本发明较佳实施例提供的中文事件时序关系识别方法步骤S4分解流程图;
图6是本发明较佳实施例提供的中文事件时序关系识别系统示意图;
图7是本发明较佳实施例提供的中文事件时序关系识别系统事件预处理模块分解示意图;
图8是本发明较佳实施例提供的中文事件时序关系识别系统事件特征抽取模块分解示意图;
图9是本发明较佳实施例提供的中文事件时序关系识别系统事件时序关系分类模块分解示意图;
图10是本发明较佳实施例提供的中文事件时序关系识别系统事件时序关系推理模块示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的中文事件时序关系识别方法流程图。如图1所示,本发明较佳实施例提供的中文事件时序关系识别方法包括步骤S1~S4。
步骤S1:对需要识别事件时序关系的原始文本的每个文档,分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。
图2是本发明较佳实施例提供的中文事件时序关系识别方法步骤S1分解流程图。如图2所示,步骤S1还包括,
S101、对需要识别事件时序关系的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
举例而言,文档“7月2日,詹姆斯来到波士顿。随后,他购买了一瓶香槟。……4日,詹姆斯进入他的前老板道格拉斯家后,向道格拉斯送上香槟,导致道格拉斯被捕。”经过词语切分后为:
例1:7月2日,詹姆斯来到波士顿。随后,他购买了一瓶香槟。……4日,詹姆斯进入他的前老板道格拉斯家后,向道格拉斯送上香槟,导致道格拉斯被捕。
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合,所述第二文档集合中每个实体标注格式为“实体/实体类型”。
例1经过实体识别后为:
例2:7月2日/TIME,詹姆斯/PER来到波士顿/LOC。随后,他/PER购买了一瓶香槟/ITEM。……4日/TIME,詹姆斯/PER进入他/PER的前老板/PER道格拉斯/PER家/LOC后,向道格拉斯/PER送上香槟/ITEM,导致道格拉斯/PER被捕。
其中,实体标签TIME,PER,LOC,ITEM分别表示实体类型时间、人物、地点和物品。
S103、对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第三文档集合。
例2经过句法分析后为:
例3:((IP(IP(NP(NT7月2日/TIME))(PU,)(NP(NR詹姆斯/PER))(VP(VV来到)(NP(NR波士顿/LOC))))(PU。)))
((IP(ADVP(AD随后))(PU,)(NP(PN他/PER))(VP(VV购买)(AS了)(NP(NN一瓶)(NN香槟/ITEM)))(PU。)))
……
((IP(NP(NT4日/TIME))(PU,)(LCP(IP(NP(NR詹姆斯/PER))(VP(VV进入)(NP(NP(DNP(NP(PN他/PER))(DEG的))(NP(NR前老板/PER)(NN道格拉斯/PER)))(NP(NN家/LOC)))))(LC后))(PU,)(VP(VP(PP(P向)(NP(NR道格拉斯/PER)))(VP(VV送上)(NP(NN香槟/ITEM))))(PU,)(VP(VV导致)(IP(NP(NN道格拉斯/PER))(VP(VV被捕)))))(PU。)))
其中,句法分析是指对句子中的词语语法功能进行分析。“NT”、“NR”、“P”、“NN”、“VV”、“PU”、“AD”、“AS”、“DEG”、“PN”、和“LC”是句法分析的标签,分别表示时间词、专用名词、介词、普通名词、普通动词、标点符号、副词、时态词、词“的”、代词和方位词;“LCP”、“DNP”、“ADVP”、“NP”、“VP”、“PP”和“IP”分别表示方位词短语、所属关系短语、副词性短语、名词性短语、动词性短语、介词性短语和子句。
S104、对第三文档集合中每个文档调用依存关系分析工具进行依存关系分析,得到第四文档集合。
例3经过依存分析后为:
例4:tmod(来到-4,7月2日-1)nsubj(来到-4,詹姆斯-3)dobj(来到-4,波士顿-5)
advmod(购买-4,随后-1)nsubj(购买-4,他-3)asp(购买-4,了-5)nn(香槟-7,一瓶-6)dobj(购买-4,香槟-7)
……
tmod(送上-14,4日-1)nsubj(进入-4,詹姆斯-3)lccomp(后-10,进入-4)assmod(道格拉斯-8,他-5)assm(他-5,的-6)nn(道格拉斯-8,前老板-7)nn(家-9,道格拉斯-8)dobj(进入-4,家-9)loc(送上-14,后-10)prep(送上-14,向-12)pobj(向-12,道格拉斯-13)dobj(送上-14,香槟-15)dep(送上-14,导致-17)nsubj(被捕-19,道格拉斯-18)ccomp(导致-17,被捕-19)
其中,“tmod”,“advmod”、“lccomp”、“assmod”、“assm”、“nn”,“nsubj”、“dobj”、“asp”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具输出的关系标签,分别表示时间修饰、副词修饰、位置补语、关联修饰、关联标记、并列名词、主谓关系、直接宾语、时态标词、从句补语、其它关系、介词宾语和介词关系。依存关系由支配者(Government)、受支配者(Dependent)和它们之间的语法关系(Relation)组成的三元组,如“nsubj(进入-4,詹姆斯-3)”,表示支配者“詹姆斯”是受支配者“进入”的nsubj(形式主语)。词语后面的数字表示该词语在句子中的序号。
S105、对第四文档集合中每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
例4经过事件抽取后,抽取了5个事件:
例5:E1:Trigger=来到Etype=MovementArgs={7月2日/TIME/Time詹姆斯/PER/Agent波士顿/LOC/Place}
E2:Trigger=购买Etype=Transfer-OwnershipArgs={他/PER/Buyer香槟/ITEM/Artifact}
E3:Trigger=进入Etype=MovementArgs={4日/TIME/Time詹姆斯/PER/Agent家/LOC/Place}
E4:Trigger=送上Etype=Transfer-OwnershipArgs={詹姆斯/PER/Seller道格拉斯/PER/Buyer香槟/ITEM/Artifact}
E5:Trigger=被捕Etype=ArrestArgs={道格拉斯/PER/Person}
其中,E1-E5是事件的编号,Trigger,Args和Etype分别是该事件的触发词、论元集合和事件类型;每个论元的格式为:论元/实体类型/事件角色。Time、Place、Artifact、Agent、Buyer和Seller分别表示角色时间、地点、移送物品、实施者、受物人和送物人。事件类型Movement、Transfer-Ownership和Arrest分别表示移动事件、物品所有人转移事件和被捕事件。
步骤S2:以文档为单位,分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,得到测试语料特征集合和标注语料特征集合;其中,所述标注语料集合是预先标注了实体、句法结构、依存结构和事件信息的文档集合。
图3是本发明较佳实施例提供的中文事件时序关系识别方法步骤S2分解流程图。如图3所示,步骤S2包括,
S201、分别从标注语料集合和测试语料事件集合中,以文档为单位抽取每个文档中的任意2个事件,两两构成2个事件对,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料事件集合中抽取的事件对构成测试语料事件对集合。
具体而言,一个文档中任意2个事件可以构成2个事件对,假如一个文档有n个事件,则可以抽取n×(n-1)个事件对。例5中有5个事件,则可以抽取出20个事件对,如(E1,E2)、(E2,E1)、(E1,E3)、(E3,E1)等。
S202、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并且加入已标注的事件时序关系,构成标注语料第一特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料第一特征集合。
具体地,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词的前一词><4=E1的触发词的前一词的词性><5=E1的触发词的后一词><6=E1的触发词的后一词的词性><7=E1的触发词在依存关系中的支配者><8=E1的触发词在依存关系中的支配者的词性><9=E1的触发词及其支配者的依存关系><10=E2的触发词><11=E2的触发词的词性><12=E2的触发词的前一词><13=E2的触发词的前一词的词性><14=E2的触发词的后一词><15=E2的触发词的后一词的词性><16=E2的触发词在依存关系中的支配者><17=E2的触发词在依存关系中的支配者的词性><18=E2的触发词及其支配者的依存关系>。
其中,事件时序关系共有四种,为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)。
举例而言,例5中事件E1和E2构成事件对(E1,E2)的基本特征如下:
例6:<1=来到><2=VV><3=詹姆斯><4=NR><5=波士顿><6=NR><7=詹姆斯><8=NR><9=nsubj><7=波士顿><8=NR><9=dobj><10=购买><11=VV><12=他><13=PN><14=了><15=AS><16=随后><17=AD><18=advmod><16=他><17=PN><18=nsubj><16=了><17=AS><18=asp><16=香槟><17=NN><18=dobj>
以上特征可以从例2-例5中得到。其中事件E1的特征7/8/9各有2个是因为和触发词“来到”具有依存关系的词语有2个。同理,事件E2的特征16/17/18有4个,因为和触发词“购买”的具有依存关系的词语有4个。
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取事件对的关系特征,和标注语料第一特征集合中所述事件对的基本特征合并,添加到标注语料特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的关系特征,和测试语料第一特征集合中所述事件对的基本特征合并,添加到测试语料特征集合。
具体而言,每个事件对(E1,E2)的关系特征集合如下:
<19=事件E1和E2的触发词词性是否相同(0-不相同;1-相同)><20=事件E1是否出现在E2前面(0-不是;1-是)><21=事件E1和E2是否同句(0-不是;1-是)><22=事件E1和E2间隔句子数><23=事件E1和E2间隔词个数><24=事件E1和E2触发词是否为同义词(0-不是;1-是)><25=事件E1和E2之间的连接词><26=事件E1和E2的施事者是否相同(0-不相同;1-相同)><27=事件E1和E2受事者是否相同(0-不相同;1-相同)><28=事件E1和E2的时间论元(角色为Time(时间)的论元)是否相同(0-不相同,1-相同)><29=事件E1和E2的地点论元(角色为Place(地点)的论元)是否相同(0-不相同,1-相同)><30=事件E1的施事者是否为事件E2的受事者(0-不是,1-是)><31=事件E1的受事者是否为事件E2的施事者(0-不是,1-是)>。
其中,两个词是否是同义词根据同义词词典《同义词词林》检索得到。事件的施事者和受事者泛指事件的动词性触发词的主语和宾语。如果事件的触发词不是动词,那么所述事件没有施事者和受事者(特征为空)。
例如,例5中事件E1和E2构成事件对(E1,E2)的关系特征如下:
例7:<19=1><20=1><21=0><22=0><23=0><24=0><25=随后><26=1><27=0><28=0><29=0><30=0><31=0>
由于事件E1和E2的触发词词性相同(都是VV),特征19设置为1;由于事件E1出现在E2前面,特征20设置为1;由于事件E1和E2不同句,特征21设置为0;事件E1和E2间隔0句,特征22设置为0;由于事件E1和E2间隔0句,所以特征23间隔词个数设置为0;由于事件E1和E2触发词不是同义词,特征24设置为0;可以查预先设定的连接词词典得到事件E1和E2之间的连接词为“随后”,设置特征25为“随后”。
事件的施事者和受事者可以根据触发词的依存关系得到。事件的施事者和触发词具有nsubj依存关系,而事件的受事者和触发词具有dobj关系。事件E1的施事者和受事者分别是“詹姆斯”和“波士顿”,事件E2的施事者和受事者分别是“他”和“香槟”。所以,事件E1和E2的施事者相同(可调用指代消解工具得到“他”和“詹姆斯”指向同一个实体),特征26设置为1;由于事件E1和E2受事者不相同,特征27设置为0;由于事件E2没有时间和地点论元,特征28和29设置为0;由于事件E1的施事者不是事件E2的受事者,以及事件E1的受事者不是事件E2的施事者,特征30和31设置为0。
把基本特征和关系特征合并,得到了事件对E1和E2的特征集合:
例8:<1=来到><2=VV><3=詹姆斯><4=NR><5=波士顿><6=NR><7=詹姆斯><8=NR><9=nsubj><7=波士顿><8=NR><9=dobj><10=购买><11=VV><12=他><13=PN><14=了><15=AS><16=随后><17=AD><18=advmod><16=他><17=PN><18=nsubj><16=了><17=AS><18=asp><16=香槟><17=NN><18=dobj><19=1><20=1><21=0><22=0><23=0><24=0><25=随后><26=1><27=0><28=0><29=0><30=0><31=0>
步骤S3:根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。
图4是本发明较佳实施例提供的中文事件时序关系识别方法步骤S3分解流程图。如图4所示,步骤S3包括,
S301、把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件时序关系识别模型;所述最大熵事件时序关系识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。
标注语料特征集合中的特征的例子如例8所示,另外每个特征带有事件对的时序关系类别。利用最大熵分类工具,如Mallet,Maxent,StanfordClassifier等,可以训练得到一个最大熵事件时序关系识别模型。
S302、把测试语料特征集合中每个事件对的特征作为输入,调用最大熵事件时序关系识别模型识别每个所述事件对的时序关系,得到事件时序关系第一集合。
具体而言,所述事件时序关系第一集合中的每个事件对的格式如下:
<事件E1,事件E2,时序关系T,置信度P>
其中,时序关系T和置信度P是最大熵事件时序关系识别模型的输出结果,时序关系T为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)之一,置信度P为一个0-1之间的分类结果,表示时序关系T的概率。
例如:以下是对例5中的事件进行时序关系识别后的部分输出结果:
例9:E1,E2,Before,0.965
E2,E1,Unknown,0.541
E1,E3,Overlap,0.686
……
E3,E4,Before,0.593
E4,E3,After,0.768
E3,E5,Overlap,0.702
E4,E5,Unknown,0.659
步骤S4:以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
图5是本发明较佳实施例提供的中文事件时序关系识别方法步骤S4分解流程图。如图5所示,步骤S4包括,
S401、对于事件时序关系第一集合中的每个事件对(E1,E2),如果事件E1和E2均有时间论元(Time)A1和A2,并且A1和A2都可以规范化,则对A1和A2进行规范化,否则不做处理;然后,比较得到A1和A2的时序关系T’;最后,把所述事件对(E1,E2)的时序关系替换为T’,置信度设置为最高值1,得到事件时序关系第二集合。
具体地,要比较两个时间论元的时序关系,需要将它们规范化,即统一成标准格式,然后根据文档时间作为参考时间将其中的非数字时间论元映射为数字形式。由于中文时间信息表达方法繁多,要将所有的时间论元都进行规范化很难做到。本发明仅对表达相对精确的时间论元(如:“1999年10月1日”、“昨天晚上八点”等)进行统一规范化并进行比较发生时间次序;由于那些模糊的时间论元以及描述一段时间的时间论元(如“最近”、“不久”、“如今”、“近几年来”等等)较为复杂,不作为本发明规范的对象,这些时间论元不具有可比性。本发明制定的时间论元规范化格式如下所示:
年-月-日-段-时-分-秒
其中“段”为一天当中划分的时间段,具体为:1-凌晨(0点到4点)、2-早上(5点到7点)、3-上午(8点到11点)、4-中午(12点到13点)、5-下午(14点到17点)、6-傍晚(18点到19点)、7-晚上(20点到23点)。
文档时间可以直接由文件的时间属性获得,本发明采用以下方法进行时间论元规范化:首先对所有的时间论元进行分词处理,得到一个以词为单位的时间集合;再经过人工筛选(只保留比较常见的时间词),得到一个时间词典;然后人工给时间词制定映射规则把时间转化为确定的值,如“xxxx年”映射为“xxxx”、“今年”映射为“文档时间的年份”、“昨天”映射为“文档时间的日期-1”等等。最后对所有的时间论元根据时间词典中的映射规则进行规范化。本发明的时间论元规范化格式采用左对齐方式,比如“昨天上午”、“今天上午九点”(假设文档时间为2000年12月12日)分别转化为“2000-12-11-3”、“2000-12-12-3-9”,这样便于两个时间论元的比较。
规范化后的时间论元比较方法如下:
假设时间论元A1和A2的规范化时间分别为Time1和Time2,若Time1>Time2,则时间论元A1和A2的关系是After;若Time1=Time2,则时间论元A1和A2的关系是Overlap;若Time1<Time2,则时间论元A1和A2的关系是Before。其中,比较2个规范化时间的方法如下:根据规范化格式“年-月-日-段-时-分-秒”,从左往右依次进行比较年、月、日、段、时、分、秒等项,如果不等则返回比较结果;如果相等则比较下一项;如果比较了最后一项后结果还是相等则返回结果“相等”。
例如:例5中只有事件E1和E3具有时间论元(Time)“7月2日”和“4日”。首先对这两个时间论元进行规范化:假设文档时间是2010年7月7日,则这两个时间论元转换为规范化时间“2010-07-02”和“2010-07-04”。经过比较发现前者比后者小,则返回的比较结果为“小于”,说明“7月2日”发生在“4日”前,时间论元“7月2日”和“4日”的时序关系为Before。则修改例9中的“E1,E3,Overlap,0.686”为“E1,E3,Before,1”。
S402、对于事件时序关系第二集合中的每个事件对(E1,E2),如果事件E1和E2具有至少一个相同论元,并且它们的事件类型和事件类型时序表中的某项一致,则把事件对(E1,E2)的时序关系修改为事件类型时序表中所述项的时序关系,置信度设置为最高值1,得到事件时序关系第三集合。
其中,所述事件类型时序表由人工构建,每项格式如下:
<事件类型1,事件类型2,时序关系>
由于同一主题的不同类型事件间存在确定的时序关系,所有可根据事件类型来确定事件对的时序关系。如一个人的“出生”事件总是先于“死亡”事件,则得到<出生,死亡,Before>。另外,条件“具有至少一个相同的论元”是用于确保两个事件属于同一主题(如出生和死亡事件必须是同一人才有确定的时序关系)。
假如一个事件类型时序表的部分表项如下:
例10:<Transfer-Ownership,Arrest,Before>
<Attack,Injure,Before>
<Born,Die,Before>
……
则例5中的5个事件中只有事件对(E4,E5)对应的事件类型对<Transfer-Ownership,Arrest>可以在事件类型时序表中检索得到,并且它们拥有一个共同的论元“道格拉斯”,所以把事件对(E4,E5)的时序关系修改为<Transfer-Ownership,Arrest,Before>表项中的时序关系“Before”,置信度修改为1,即例9中的“E4,E5,Unknown,0.659”改为“E4,E5,Before,1”。
S403、对于事件时序关系第三集合中的每个事件对(E1,E2)及其反序事件对(E2,E1),如果它们的时序关系T1和T2构成的二元组不属于自反时序集合,则利用自反性推理修改事件时序关系第三集合中所述事件对(E1,E2)或所述反序事件对(E2,E1)的时序关系,得到事件时序关系第四集合。
其中,自反性推理的方法如下:
如果事件对(E1,E2)的置信度P1大于等于反序事件对(E2,E1)的置信度P2,则修改事件时序关系第三集合中的反序事件对(E2,E1)的时序关系T2为事件对(E1,E2)的时序关系T1的反序关系;如果事件对(E1,E2)的置信度P1小于反序事件对(E2,E1)的置信度P2,则修改事件时序关系第三集合中事件对(E1,E2)的时序关系T1为反序事件对(E2,E1)的时序关系T2的反序关系。
其中,本发明把事件对(E2,E1)称为事件对(E1,E2)的反序事件对,反之亦然。所述自反时序集合为事件对及其反序事件对的时序关系对照表,每项为一个二元组,由以下4项组成:(Before,After)、(After,Before)、(Overlap,Overlap)和(Unknown,Unknown)。另外,Before,After的反序关系分别是After,Before,Overlap和Unknown的反序关系是其自身。
例如,例9中“E1,E2,Before,0.965”和“E2,E1,Unknown,0.541”两项说明事件对(E1,E2)及其反序事件对(E2,E1)的时序关系是(Before,Unknown)。(Before,Unknown)无法在自反时序集合中找到,说明其违反了自反性。由于事件对(E1,E2)的置信度0.965大于其反序事件对(E2,E1)的置信度0.541,所以,修改反序事件对(E2,E1)的时序关系为事件对(E1,E2)的时序关系Before的反序关系After,即“E2,E1,After,0.541”。
S404、对于事件时序关系第四集合中的任意3个事件E1,E2和E3,如事件对(E1,E2)和(E2,E3)的时序关系均为Before或After,则根据时序关系Before和After具有传递性修改事件时序关系第四集合中事件对(E1,E3)的时序关系为Before或After,得到最终的事件时序关系集合。
例如,对于时间E3、E4和E5,事件对(E3,E4)和(E4,E5)的时序关系均为Before(其中后者的时序关系已经由S402改为Before),则修改事件对(E3,E5)的时序关系也为Before。则例9经过S401-S404后为:
例11:E1,E2,Before,0.965
E2,E1,After,0.541
E1,E3,Before,1
……
E3,E4,Before,0.593
E4,E3,After,0.768
E3,E5,Before,0.702
E4,E5,Before,1
图6是本发明较佳实施例提供的中文事件时序关系识别系统示意图。如图6所示,本发明较佳实施例提供的中文事件时序关系识别系统包括事件预处理模块1、事件特征抽取模块2、事件时序关系分类模块3及事件时序关系推理模块4,所述事件预处理模块1连接事件特征抽取模块2,所述事件特征抽取模块2连接事件时序关系分类模块3,所述事件时序关系分类模块3连接事件时序关系推理模块4。所述事件预处理模块1,用于对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分,实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合。所述事件特征抽取模块2,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合;其中,所述标注语料集合是已经标注了实体、句法结构、依存结构和事件信息的文档集合。所述事件时序关系分类模块3,用于根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。所述事件时序关系推理模块4,用于以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
图7是本发明较佳实施例提供的中文事件时序关系识别系统事件预处理模块分解示意图。如图7所示,事件预处理模块包括分词单元11、实体识别单元12、句法分析单元13、依存分析单元14和事件抽取单元15。所述分词单元11连接实体识别单元12,所述实体识别单元12连接句法分析单元13,所述句法分析单元13连接依存分析单元14,所述依存分析单元14连接事件抽取单元15。其中:
分词单元11,用于对需要识别事件时序关系的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
实体识别单元12,用于调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合;
句法分析单元13,用于对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第三文档集合;
依存分析单元14,用于对第三文档集合中每个文档调用依存关系分析工具进行依存关系分析,得到第四文档集合;
事件抽取单元15,用于对第四文档集合中每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
图8是本发明较佳实施例提供的中文事件时序关系识别系统事件特征抽取模块分解示意图。如图8所示,事件特征抽取模块包括事件对抽取单元21、基本特征抽取单元22和关系特征抽取单元23。所述事件对抽取单元21连接基本特征抽取单元22,所述基本特征抽取单元22连接关系特征抽取单元23。其中:
事件对抽取单元21,用于分别从标注语料集合和测试语料事件集合中,以文档文单位抽取每个文档中的任意2个事件,两两构成2个事件对(如2个事件E1和E2,由于时序关系是有序的,可构成(E1,E2)和(E2,E1)两个事件对)。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料事件集合中抽取的事件对构成测试语料事件对集合;
基本特征抽取单元22,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并且加入已标注的事件时序关系,构成标注语料第一特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料第一特征集合;
关系特征抽取单元23,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的关系特征,和标注语料第一特征集合中所述事件对的基本特征合并,添加到标注语料特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的关系特征,和测试语料第一特征集合中所述事件对的基本特征合并,添加到测试语料特征集合。
图9是本发明较佳实施例提供的中文事件时序关系识别系统事件时序关系分类模块分解示意图。如图9所示,事件时序关系分类模块包括模型训练单元31和事件对时序关系分类单元32。所述模型训练单元31连接事件对时序关系分类单元32。其中:
模型训练单元301,把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件时序关系识别模型;所述最大熵事件时序关系识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具;
事件对时序关系分类单元302,把测试语料特征集合中每个事件对的特征作为输入,调用最大熵事件时序关系识别模型识别每个所述事件对的时序关系,得到事件时序关系第一集合。
图10是本发明较佳实施例提供的中文事件时序关系识别系统事件时序关系推理模块示意图。如图10所示,事件时序关系推理模块包括时间词推理单元41、事件关系推理单元42、自反性推理单元43和传递性推理单元44。所述时间词推理单元41连接事件关系推理单元42,所述事件关系推理单元42连接自反性推理单元43,所述自反性推理单元43连接传递性推理单元44。其中:
时间词推理单元41,对于事件时序关系第一集合中的每个事件对(E1,E2),如果事件E1和E2均有时间论元(Time)A1和A2,并且A1和A2都可以规范化,则对A1和A2进行规范化,否则不做处理;然后,比较得到A1和A2的时序关系T’;最后,把所述事件对(E1,E2)的时序关系替换为T’,置信度设置为最高值1,得到事件时序关系第二集合。
事件关系推理单元42,对于事件时序关系第二集合中的每个事件对(E1,E2),如果事件E1和E2具有至少一个相同论元,并且它们的事件类型和事件类型时序表中的某项一致,则把事件对(E1,E2)的时序关系修改为事件类型时序表中所述项的时序关系,置信度设置为最高值1,得到事件时序关系第三集合。
自反性推理单元43,对于事件时序关系第三集合中的每个事件对(E1,E2)及其反序事件对(E2,E1),如果它们的时序关系T1和T2构成的二元组不属于自反时序集合,则利用自反性推理修改事件时序关系第三集合中所述事件对(E1,E2)或所述反序事件对(E2,E1)的时序关系,得到事件时序关系第四集合。
传递性推理单元44,对于事件时序关系第四集合中的任意3个事件E1,E2和E3,如事件对(E1,E2)和(E2,E3)的时序关系均为Before或After,则根据时序关系Before和After具有传递性修改事件时序关系第四集合中事件对(E1,E3)的时序关系为Before或After,得到最终的事件时序关系集合。
通过本发明较佳实施例提供的中文事件时序关系识别方法及系统,对需要识别事件时序关系的原始文本的每个文档,分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合。以文档为单位,分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,得到测试语料特征集合和标注语料特征集合;其中,所述标注语料集合是预先标注了实体、句法结构、依存结构和事件信息的文档集合。根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合。以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。如此,采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系,识别性能得到了明显提升。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种中文事件时序关系识别方法,其特征在于,包括以下步骤:
S1、对需要识别事件时序关系的原始文本的每个文档,分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取动作,得到测试语料事件集合;
S2、以文档为单位,分别从测试语料事件集合和标注语料集合中抽取所有事件对及其特征信息,得到测试语料特征集合和标注语料特征集合;其中,所述标注语料集合是预先标注了实体、句法结构、依存结构和事件信息的文档集合;
S3、根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合;
S4、以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
2.根据权利要求1所述的中文事件时序关系识别方法,其特征在于,步骤S1还包括,
S101、对需要识别事件时序关系的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
S102、调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合,所述第二文档集合中每个实体标注格式为“实体/实体类型”;
S103、对第二文档集合中每个文档调用句法分析工具进行句法分析,得到第三文档集合;
S104、对第三文档集合中每个文档调用依存关系分析工具进行依存关系分析,得到第四文档集合;
S105、对第四文档集合中每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
3.根据权利要求1所述的中文事件时序关系识别方法,其特征在于,步骤S2还包括,
S201、分别从标注语料集合和测试语料事件集合中,以文档为单位抽取每个文档中的任意2个事件,两两构成2个事件对,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料事件集合中抽取的事件对构成测试语料事件对集合;
S202、为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并且加入已标注的事件时序关系,构成标注语料第一特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料第一特征集合;
S203、为标注语料事件对集合中的每个事件对从标注语料集合中抽取事件对的关系特征,和标注语料第一特征集合中所述事件对的基本特征合并,添加到标注语料特征集合;为测试语料事件对集合中每个事件对从测试语料事件集合中抽取所述事件对的关系特征,和测试语料第一特征集合中所述事件对的基本特征合并,添加到测试语料特征集合。
4.根据权利要求3所述的中文事件时序关系识别方法,其特征在于,在步骤S202中,每个事件对(E1,E2)的基本特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词的前一词><4=E1的触发词的前一词的词性><5=E1的触发词的后一词><6=E1的触发词的后一词的词性><7=E1的触发词在依存关系中的支配者><8=E1的触发词在依存关系中的支配者的词性><9=E1的触发词及其支配者的依存关系><10=E2的触发词><11=E2的触发词的词性><12=E2的触发词的前一词><13=E2的触发词的前一词的词性><14=E2的触发词的后一词><15=E2的触发词的后一词的词性><16=E2的触发词在依存关系中的支配者><17=E2的触发词在依存关系中的支配者的词性><18=E2的触发词及其支配者的依存关系>。
5.根据权利要求4所述的中文事件时序关系识别方法,其特征在于,事件时序关系共有四种,为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)。
6.根据权利要求3所述的中文事件时序关系识别方法,其特征在于,在步骤S203中,每个事件对(E1,E2)的关系特征集合如下:
<19=事件E1和E2的触发词词性是否相同(0-不相同;1-相同)><20=事件E1是否出现在E2前面(0-不是;1-是)><21=事件E1和E2是否同句(0-不是;1-是)><22=事件E1和E2间隔句子数><23=事件E1和E2间隔词个数><24=事件E1和E2触发词是否为同义词(0-不是;1-是)><25=事件E1和E2之间的连接词><26=事件E1和E2的施事者是否相同(0-不相同;1-相同)><27=事件E1和E2受事者是否相同(0-不相同;1-相同)><28=事件E1和E2的时间论元(角色为Time(时间)的论元)是否相同(0-不相同,1-相同)><29=事件E1和E2的地点论元(角色为Place(地点)的论元)是否相同(0-不相同,1-相同)><30=事件E1的施事者是否为事件E2的受事者(0-不是,1-是)><31=事件E1的受事者是否为事件E2的施事者(0-不是,1-是)>。
7.根据权利要求1所述的中文事件时序关系识别方法,其特征在于,步骤S3还包括,
S301、把标注语料特征集合中的特征作为输入,调用最大熵分类工具训练得到一个最大熵事件时序关系识别模型;所述最大熵事件时序关系识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具;
S302、把测试语料特征集合中每个事件对的特征作为输入,调用最大熵事件时序关系识别模型识别每个所述事件对的时序关系,得到事件时序关系第一集合。
8.根据权利要求7所述的中文事件时序关系识别方法,其特征在于,在步骤S302中,所述事件时序关系第一集合中的每个事件对的格式如下:
<事件E1,事件E2,时序关系T,置信度P>,其中,时序关系T和置信度P是最大熵事件时序关系识别模型的输出结果,时序关系T为Before(前)、After(后)、Overlap(发生时间有交叉)和Unknown(无法确定)之一,置信度P为一个0-1之间的分类结果,表示时序关系T的概率。
9.根据权利要求1所述的中文事件时序关系识别方法,其特征在于,步骤S4还包括,
S401、对于事件时序关系第一集合中的每个事件对(E1,E2),如果事件E1和E2均有时间论元(Time)A1和A2,并且A1和A2都可以规范化,则对A1和A2进行规范化,否则不做处理;然后,比较得到A1和A2的时序关系T’;最后,把所述事件对(E1,E2)的时序关系替换为T’,置信度设置为最高值1,得到事件时序关系第二集合;
S402、对于事件时序关系第二集合中的每个事件对(E1,E2),如果事件E1和E2具有至少一个相同论元,并且它们的事件类型和事件类型时序表中的某项一致,则把事件对(E1,E2)的时序关系修改为事件类型时序表中所述项的时序关系,置信度设置为最高值1,得到事件时序关系第三集合;
S403、对于事件时序关系第三集合中的每个事件对(E1,E2)及其反序事件对(E2,E1),如果它们的时序关系T1和T2构成的二元组不属于自反时序集合,则利用自反性推理修改事件时序关系第三集合中所述事件对(E1,E2)或所述反序事件对(E2,E1)的时序关系,得到事件时序关系第四集合;
S404、对于事件时序关系第四集合中的任意3个事件E1,E2和E3,如事件对(E1,E2)和(E2,E3)的时序关系均为Before或After,则根据时序关系Before和After具有传递性修改事件时序关系第四集合中事件对(E1,E3)的时序关系为Before或After,得到最终的事件时序关系集合。
10.一种中文事件时序关系识别系统,其特征在于,包括事件预处理模块、事件特征抽取模块、事件时序关系分类模块及事件时序关系推理模块,所述事件预处理模块连接事件特征抽取模块,所述事件特征抽取模块连接事件时序关系分类模块,所述事件时序关系分类模块连接事件时序关系推理模块,
所述事件预处理模块,用于对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分,实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合;
所述事件特征抽取模块,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合;其中,所述标注语料集合是已经标注了实体、句法结构、依存结构和事件信息的文档集合;
所述事件时序关系分类模块,用于根据标注语料特征集合中各个事件对的特征,训练一个最大熵事件时序关系识别模型;再利用所述最大熵事件时序关系识别模型识别测试语料特征集合中每个事件对的时序关系,得到事件时序关系第一集合;
所述事件时序关系推理模块,用于以文档为单位,对事件时序关系第一集合中的所有事件对,利用时间词推理方法、事件关系推理方法、自反性推理方法和传递性推理方法进行事件时序关系推理,得到事件时序关系集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510698260.5A CN105573977A (zh) | 2015-10-23 | 2015-10-23 | 一种中文事件时序关系识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510698260.5A CN105573977A (zh) | 2015-10-23 | 2015-10-23 | 一种中文事件时序关系识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105573977A true CN105573977A (zh) | 2016-05-11 |
Family
ID=55884129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510698260.5A Pending CN105573977A (zh) | 2015-10-23 | 2015-10-23 | 一种中文事件时序关系识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105573977A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN106095748A (zh) * | 2016-06-06 | 2016-11-09 | 东软集团股份有限公司 | 一种生成事件关系图谱的方法及装置 |
CN106156299A (zh) * | 2016-06-29 | 2016-11-23 | 北京小米移动软件有限公司 | 文本信息的主题内容识别方法及装置 |
CN106339412A (zh) * | 2016-08-12 | 2017-01-18 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106844448A (zh) * | 2016-12-16 | 2017-06-13 | 苏州大学 | 一种中文事件事实性识别方法和系统 |
CN109145224A (zh) * | 2018-08-20 | 2019-01-04 | 电子科技大学 | 社交网络事件时序关系分析方法 |
CN109359184A (zh) * | 2018-10-16 | 2019-02-19 | 苏州大学 | 英文事件同指消解方法和系统 |
CN109885662A (zh) * | 2019-03-01 | 2019-06-14 | 陈包容 | 一种判断事件时态的方法 |
CN111488735A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111897777A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 电子发票版式文件的处理方法、装置、设备及存储介质 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114398898A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志事件关系生成kpi曲线并标记波段特征的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5796926A (en) * | 1995-06-06 | 1998-08-18 | Price Waterhouse Llp | Method and apparatus for learning information extraction patterns from examples |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
-
2015
- 2015-10-23 CN CN201510698260.5A patent/CN105573977A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5796926A (en) * | 1995-06-06 | 1998-08-18 | Price Waterhouse Llp | Method and apparatus for learning information extraction patterns from examples |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
Non-Patent Citations (2)
Title |
---|
QUANG XUAN DO ET.AL: "Joint Inference for Event Timeline Construction", 《PROCEEDINGS OF THE 2012 JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL NATURAL LANGUAGE LEARNING》 * |
郑新 等: "中文时间时序关系的标注和分类方法", 《计算机科学》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055536B (zh) * | 2016-05-19 | 2018-08-21 | 苏州大学 | 一种中文事件联合推理方法 |
CN106055536A (zh) * | 2016-05-19 | 2016-10-26 | 苏州大学 | 一种中文事件联合推理方法和系统 |
CN106095748A (zh) * | 2016-06-06 | 2016-11-09 | 东软集团股份有限公司 | 一种生成事件关系图谱的方法及装置 |
CN106095748B (zh) * | 2016-06-06 | 2019-08-27 | 东软集团股份有限公司 | 一种生成事件关系图谱的方法及装置 |
CN106156299A (zh) * | 2016-06-29 | 2016-11-23 | 北京小米移动软件有限公司 | 文本信息的主题内容识别方法及装置 |
CN106156299B (zh) * | 2016-06-29 | 2019-09-20 | 北京小米移动软件有限公司 | 文本信息的主题内容识别方法及装置 |
CN106339412B (zh) * | 2016-08-12 | 2019-09-10 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN106339412A (zh) * | 2016-08-12 | 2017-01-18 | 中国电子科技集团公司第二十八研究所 | 一种中文国际政治事件的参与者关系抽取方法 |
CN106372060B (zh) * | 2016-08-31 | 2019-05-03 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106372060A (zh) * | 2016-08-31 | 2017-02-01 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
CN106844448A (zh) * | 2016-12-16 | 2017-06-13 | 苏州大学 | 一种中文事件事实性识别方法和系统 |
CN106844448B (zh) * | 2016-12-16 | 2020-05-15 | 苏州大学 | 一种中文事件事实性识别方法和系统 |
CN109145224B (zh) * | 2018-08-20 | 2021-11-23 | 电子科技大学 | 社交网络事件时序关系分析方法 |
CN109145224A (zh) * | 2018-08-20 | 2019-01-04 | 电子科技大学 | 社交网络事件时序关系分析方法 |
CN109359184A (zh) * | 2018-10-16 | 2019-02-19 | 苏州大学 | 英文事件同指消解方法和系统 |
CN109885662A (zh) * | 2019-03-01 | 2019-06-14 | 陈包容 | 一种判断事件时态的方法 |
CN109885662B (zh) * | 2019-03-01 | 2023-04-07 | 陈包容 | 一种判断事件时态的方法 |
CN111488735A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111488735B (zh) * | 2020-04-09 | 2023-10-27 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111581954A (zh) * | 2020-05-15 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种基于语法依存信息的文本事件抽取方法及装置 |
CN111897777A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 电子发票版式文件的处理方法、装置、设备及存储介质 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114330354B (zh) * | 2022-03-02 | 2022-12-23 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114398898A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志事件关系生成kpi曲线并标记波段特征的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105573977A (zh) | 一种中文事件时序关系识别方法及系统 | |
CN108763333B (zh) | 一种基于社会媒体的事件图谱构建方法 | |
Zou et al. | Retrieving similar cases for construction project risk management using Natural Language Processing techniques | |
CN107291687B (zh) | 一种基于依存语义的中文无监督开放式实体关系抽取方法 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN106055536B (zh) | 一种中文事件联合推理方法 | |
Vicient et al. | An automatic approach for ontology-based feature extraction from heterogeneous textualresources | |
CN112199511A (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN102567509B (zh) | 视觉信息辅助的即时通信方法及系统 | |
CN106294593A (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
CN112434532B (zh) | 一种支持人机双向理解的电网环境模型及建模方法 | |
Van de Camp et al. | The socialist network | |
CN106021229A (zh) | 一种中文事件同指消解方法和系统 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Golshan et al. | A study of recent contributions on information extraction | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN109359299A (zh) | 一种基于商品数据的物联网设备能力本体自构建方法 | |
CN111898928B (zh) | 面向时空界的多方服务价值-质量-能力指标对齐方法 | |
CN109947914A (zh) | 一种基于模板的软件缺陷自动问答方法 | |
Yaman et al. | Address entities extraction using named entity recognition | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
Höffner et al. | Overcoming challenges of semantic question answering in the semantic web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160511 |
|
RJ01 | Rejection of invention patent application after publication |