CN105302794B - 一种中文同指事件识别方法及系统 - Google Patents
一种中文同指事件识别方法及系统 Download PDFInfo
- Publication number
- CN105302794B CN105302794B CN201510726584.5A CN201510726584A CN105302794B CN 105302794 B CN105302794 B CN 105302794B CN 201510726584 A CN201510726584 A CN 201510726584A CN 105302794 B CN105302794 B CN 105302794B
- Authority
- CN
- China
- Prior art keywords
- event
- text
- document
- feature
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种中文同指事件识别方法及系统,所述方法包括:对同指标注文本和测试文本中每个包含事件的句子进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种识别事件间的中文同指事件识别方法及系统。
背景技术
事件(Event)是信息表示的一种主要形式,它是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”),如人的受伤、死亡事件和食品的添加剂事件等。一篇文章中经常会包含许多事件,这些事件之间存在各种关系。当两个事件指向同一个事件本体时,认为这两个事件具有同指(或共指)关系。例如:
例1:两国首脑今天在巴黎举行会谈。……双方在会谈中讨论了中东和平问题。
例2:2007年美国爆发了金融危机。……这一事件对美国乃至全世界产生了深远的影响。
例1中触发词“会谈”在两个语句中都指向同一个事件本体,它们具有同指关系。例2中“这一事件”与“金融危机”都指向了同一事件,它们也互为同指事件。
同指事件识别(也称消解)是信息抽取的一个子任务,用于识别一个文档中指向同一个事件本体的事件集合。正确识别同指事件,将更加准确地概括文章大意,有利于篇章理解、文本摘要、机器翻译等应用。与实体指代大多数情况存在于相邻句子之间有所不同,同指事件往往跨越句子、跨越段落,甚至跨文本,这是同指事件识别的难点之一。此外,中文和英文同指事件也有所不同。英文的语法更加严谨,词语多义性相对较少。而中文常常省略主语,没有明显的时态、单复数等,导致中文语法较为复杂、随意。而且,中文词汇量庞大,一词多义性普遍存在,使得中文同指事件识别的研究具有很大困难,识别率偏低。
目前,对事件同指问题研究相对较少,绝大多数面向英文。Ahn在研究英文事件抽取时提到了事件同指识别问题,依据实体同指的思想把事件同指问题转化成事件对相似度计算问题。Adrian则更加具体化事件对的特征属性,认为事件的结构包含该事件与其他事件之间的关系状态,使用结构化特征进行同指事件的研究,并提供了标注规则以及英文语料库。Chen基于英文ACE语料库建立了特征压缩的事件对同指识别系统。此外,Chen利用聚类算法,将英文同指事件聚集生成图模型。Fatemeh在AQUAINT TimeML语料库上手工标注了同指链,利用语义类型识别和相似度匹配方法识别英文同指事件。
相对于英文事件同指问题,中文事件的同指识别研究更少。针对中文语料库上的指代消解问题,胡乃全基于最大熵模型建立中文指代消解系统,在ACE05bnews中文语料库上有一定提高。张牧宇等使用中心词匹配约束,对共指消解效果有很大提高。庞宁等针对突发事件新闻,使用了多种语义特征进行共指消解,增加了维基百科的语义相关特征,使得共指消解模型有所提高。
目前,在中文同指事件识别领域,多数方法采用基于分类器的机器学习方法和规则方法,这些方法存在以下问题:1)多数采用机器学习的中文同指事件识别方法还是沿用英文同指事件识别的方法,语言针对性不够。和英文不同,中文是一种意合语言,具有语法较为复杂、表达较为随意、常常省略主语、没有明显的时态、单复数等特点。这些特点使得沿用英文同指事件识别的方法在性能上欠缺;2)机器学习方法假设事件对之间相互独立,容易造成分类结果矛盾,同指事件链不一致等问题;3)规则方法的缺点在于规则的构建成本高,而且通用性不够,无法跨领域使用。
为此,本发明首先按照事件对识别思想,将同指事件识别转化成事件对的语义相似度问题,以具有中文特色的词语相似度特征、词语匹配特征,转化组合项特征为核心利用分类模型来识别同指事件。其次,本发明利用全局优化方法进一步对分类模型识别出的同指事件链进行文档级的全局推理,消除部分识别错误的同指事件,并能根据同指事件的传递性等推理出分类模型未识别的同指事件。和现有方法相比,本发明的方法大大提高了同指事件识别的性能。
为更好地理解本发明,下面首先对相关名词作相应介绍。
实体(Entity):一个语义类别中的对象或对象的集合,如人名、机构名和地名等。
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件。
论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色。
角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色。
触发词(Trigger):用于识别事件的核心词(一般为动词和名词居多)。如“生于”、“出生”等就是出生事件触发词。
句法树(Syntax Tree):对句子中的词语语法功能进行分析就是句法分析。句子经过句法分析后产生的树形结构为句法树。
同指事件(Co-reference Events):当两个事件指向同一个事件本体时,这两个事件具有同指(或共指)关系。如爆炸事件“天津爆炸发生于2015年。”和“2015年8月晚11时30分左右,天津滨海新区瑞海公司危险品仓库发生爆炸。”属于同指事件。
召回率(Recall):系统正确识别的同指事件个数占所有同指事件个数的比例。衡量同指事件识别性能的指标之一。
准确率(Pricision):系统正确识别的同指事件个数占所有识别为同指事件个数的比例。衡量同指事件识别性能的指标之一。
F1指数(F1-Measure):衡量同指事件识别性能的综合指标之一,准确率(P)和召回率(R)的加权几何平均值,即:
发明内容
本发明提供一种中文同指事件识别方法,包括以下步骤:
S1、对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合;
S2、分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;
S3、根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合;
S4、对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
优选的,在步骤S1中,所述同指标注文本和所述测试文本是已经标注了事件各类信息的文本,由各种事件抽取工具或人工生成,且所述同指标注文本是进行同指事件识别的训练语料,标注了所有的同指事件关系;所述测试文本是进行同指事件识别的文本。
优选的,步骤S1还包括:
S101、分别对同指标注文本和测试文本中的每个事件句调用分词工具切分词语,得到用空格分隔词语的分词标注集合和分词测试集合;
S102、分别对分词标注集合和分词测试集合中的每个事件句调用实体识别工具识别实体并标注实体类型,得到实体识别标注集合和实体识别测试集合,所述实体识别标注集合和实体识别测试集合中每个实体标注格式为“实体/实体类型”;
S103、分别对实体识别标注集合和实体识别测试集合中的每个事件句调用句法分析工具进行句法分析,得到预处理标注文本集合和预处理测试文本集合。
优选的,步骤S2还包括:
S201、从预处理测试文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的同类型事件表的每个表项,若所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入测试文本事件对集合;
S202、从预处理标注文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入标注文本事件对集合;
S203、为标注文本事件对集合和测试文本事件对集合中的每个事件对分别从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件属性特征,得到标注文本第一特征集合和测试文本第一特征集合;
其中,每个事件对(E1,E2)的事件属性特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词在句法树中的层数深度><4=E1的核心论元的实体类型><5=E2的触发词><6=E2的触发词的词性><7=E2的触发词在句法树中的层数深度><8=E2的核心论元的实体类型>;
S204、为标注文本事件对集合和测试文本事件对集合中的每个事件对从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件对特征,分别和标注文本第一特征集合和测试文本第一特征集合中所述事件对的事件属性特征合并,添加到标注文本特征集合和测试文本特征集合;
其中,每个事件对(E1,E2)的事件对特征集合如下:
<9=事件E1和E2的事件类型(Type)是否相同(0-不相同;1-相同)><10=事件E1和E2的极性(Polarity)是否相同(0-不相同;1-相同)><11=事件E1和E2的时态(Tense)是否相同(0-不相同;1-相同)><12=事件E1和E2的触发词是否相同(0-不相同;1-相同)><13=事件E1和E2触发词是否为同义词(0-不是;1-是)><14=事件E1和E2相同论元个数><15=事件E1和E2不相同论元个数><16=事件E1和E2间隔句子数><17=事件E1和E2的触发词是否匹配(0-不是;1-是)><18=事件E1和E2的转化组合项特征>;
S205、为标注文本特征集合中的每个特征根据所述特征对应的事件对从同指标注文本中检索所述事件对是否存在于标注同指事件表中:如果存在,把类别“1”加入所述特征前;如果不存在,把类别“0”加入所述特征前,最后,把加了所述类别的特征更新到标注文本特征集合。
优选的,特征17的设置方法如下:如果两个事件的触发词满足以下任意一个条件,则认为触发词匹配,否则为不匹配:1)两个触发词相同;2)触发词语义相似度θ大于等于第一阈值;3)两个触发词均为二字词并且具有相同前缀(首字)或后缀(尾字)。
其中,两个触发词t1和t2的语义相似度θ计算方法如下:d是在Hownet义原层次体系中t1的义原到t2的义原的路径长度,α是一个可调节的参数,Hownet是一个汉语词汇语义的本体,
另外,假设两个事件E1和E2的论元相同个数记为SA,E1中包含但E2不包含的论元数记为NSA1,E2包含但E1不包含的论元数记为NSA2,事件对(E1,E2)的转化组合项特征设置方法如下:
如果SA>0则把特征19置为1,否则转2);
如果NSA1>0并且NSA2>0则把特征19置为0,否则转3);
如果SA>NSA1或者SA>NSA2则把特征19置为1,否则置为0。
优选的,步骤S3还包括:
S301、把标注文本特征集合中的特征作为输入,调用分类工具训练得到一个同指事件识别模型,其中,所述同指事件识别模型包括标注文本(训练集)特征集合、训练得到的参数和分类工具;
S302、把测试文本特征集合中每个事件对的特征作为输入,调用同指事件识别模型识别每个所述事件对是否为同指事件,得到事件同指第一集合。
优选的,优化过程为:根据事件同指第一集合构建全局优化文档集合,所述全局优化文档集合中的每个文档包括一个目标函数和4种约束条件,所述4种约束条件为传递性约束、触发词词距离约束、触发词句距离约束和角色约束;并调用整形线性规划工具,对所述全局优化文档集合中的每个文档求解,得到最终的事件同指集合。
优选的,步骤S4还包括:
S401、以文档为单位,基于分类概率最大化的思想为测试文本中的每个文档创建目标函数,加入所述文档对应的全局优化文档(初始为空),所有的全局优化文档构成全局优化文档集合;
S402、根据同指事件的传递性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同指事件,则Ei和Ek是同指事件,为全局优化文档集合中的每个文档加入传递性约束条件,所述传递性约束条件为:x<i,j>+x<j,k>-x<i,k>≤1;
S403、如果事件同指第一集合中任意一个事件对(Ei,Ej)的触发词词距离小于第二阈值,并且它们的语义相似度θ大于等于第三阈值,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词词距离约束条件为:x<i,j>=1,其中,触发词词距离是指分词后文档中的两个触发词之间词组的数量;
S404、如果事件同指第一集合中任意一个事件对(Ei,Ej)在文档中对应的事件句是相邻句或间隔1句,并且它们对应的事件类型在所述文档中出现次数最多,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词句距离约束条件为:x<i,j>=1,其中,相邻句是指在文档中首尾相邻的两个句子;间隔1句是指两个句子中间有一个句子间隔;
S405、如果事件同指第一集合中任意一个事件对(Ei,Ej)具有至少一个相同的论元,并且所述论元在不同事件中对应的角色都在预先设定的角色约束集合中,则为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入角色约束条件为:x<i,j>=1,其中,所述角色约束集合为根据同指标注文本统计得到的角色集合;
S406、把全局优化文档集合中的每个全局优化文档作为输入,调用整形线性规划工具,对每个所述全局优化文档求解,得到最终的事件同指集合。其中,所述事件同指集合的每一项表示一个事件对的结果,其格式为:x<i,j>=0或1,其中值为1表示事件对(Ei,Ej)是同指事件,值为0表示不是同指事件。
优选的,所述目标函数如下:
其中,D表示一个文档中的所有事件对集合,每个文档都有一个目标函数;P<i,j>表示事件对(Ei,Ej)被分类为同指事件的概率,来自事件同指第一集合中的置信度C,如果所述事件同指第一集合中事件对(Ei,Ej)被分类为同指事件(同指结果R<i,j>=1),则P<i,j>=C<i,j>;否则,P<i,j>=1-C<i,j>,R<i,j>和C<i,j>分别表示在所述事件同指第一集合中事件对(Ei,Ej)的同指结果和置信度属性,在x<i,j>是一个二元变量(0或1),是目标函数最终的输出结果,x<i,j>为1表示事件对(Ei,Ej)被推理为同指事件,为0表示事件对(Ei,Ej)被推理为非同指事件。
本发明还提供一种中文同指事件识别系统,包括:文本预处理模块、同指特征抽取模块、同指事件初步识别模块及同指事件全局优化模块,所述文本预处理模块连接同指特征抽取模块,所述同指特征抽取模块连接同指事件初步识别模块,所述同指事件初步识别模块连接同指事件全局优化模块,所述文本预处理模块,用于对同指标注文本和测试文本中每个事件句分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合;所述同指特征抽取模块,用于分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;所述同指事件初步识别模块,用于根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合;所述同指事件全局优化模块,用于对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
根据本发明提供的中文同指事件识别方法及系统,所述方法对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的中文同指事件识别方法流程图;
图2是本发明较佳实施例提供的中文同指事件识别方法步骤S1分解流程图;
图3是本发明较佳实施例提供的中文同指事件识别方法步骤S2分解流程图;
图4是本发明较佳实施例提供的中文同指事件识别方法步骤S3分解流程图;
图5是本发明较佳实施例提供的中文同指事件识别方法步骤S4分解流程图;
图6是本发明较佳实施例提供的中文同指事件识别系统示意图;
图7是本发明较佳实施例提供的中文同指事件识别系统文本预处理模块内部结构示意图;
图8是本发明较佳实施例提供的中文同指事件识别系统同指特征抽取模块内部结构示意图;
图9是本发明较佳实施例提供的中文同指事件识别系统同指事件初步识别模块内部结构示意图;
图10是本发明较佳实施例提供的中文同指事件识别系统同指事件全局优化模块内部结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的中文同指事件识别方法流程图。如图1所示,本发明较佳实施例提供的中文同指事件识别方法包括步骤S1~S4。
步骤S1:对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合。
具体而言,在本步骤中,所述同指标注文本和所述测试文本是已经标注了事件各类信息的文本,由各种事件抽取工具或人工生成,且所述同指标注文本是进行同指事件识别的训练语料,标注了所有的同指事件关系;所述测试文本是进行同指事件识别的文本。
以下是一个自然文本的例子:
例1:2012年12月14日早上7点,10多个猴子在陈棚村玉米地用猴爪制造了一起伤人案。4名村民遭猴爪抓挠而受伤。随后,制造伤人案的猴子被民警驱赶。截至目前,2名村民重伤。……这群猴子曾闯入一名独居老人的住处。猴子在攻击了老人时,遭遇了老人反抗。在老人轻伤后,猴子又冲入了陈棚村玉米地。
事件标注信息可以由事件抽取工具或人工生成,如例2所示:
例2:E1:Tri=伤人案SenID=1 Type=Attack Args={2012年12月14日早上7点/TIME/Time;10多个猴子/PER/Attacker;猴爪/WEA/Instrument;陈棚村玉米地/LOC/Place}Polarity=True Tense=Past
E2:Tri=抓挠SenID=2 Type=Attack Args={村民/PER/Target;猴爪/WEA/Instrument}Polarity=True Tense=Past
E3:Tri=受伤SenID=2 Type=Injure Args={村民/PER/Victim;猴爪/WEA/Instrument}Polarity=True Tense=Past
E4:Tri=伤人案SenID=3 Type=Attack Args={猴子/PER/Attacker}Polarity=True Tense=Past
E5:Tri=驱赶SenID=3 Type=Arrest Args={民警/PER/Agent;猴子/PER/Person}Polarity=True Tense=Past
E6:Tri=重伤SenID=4 Type=Injure Args={目前/TIME/Time;村民/PER/Victim}Polarity=True Tense=Past
E7:Tri=闯入SenID=9 Type=Transport Args={猴子/PER/Artifact;住处/LOC/Place}Polarity=True Tense=Past
E8:Tri=攻击SenID=10 Type=Attack Args={猴子/PER/Attacker;老人/PER/Target}Polarity=True Tense=Past
E9:Tri=轻伤SenID=11 Type=Injure Args={猴子/PER/Attacker;老人/PER/Target}Polarity=True Tense=Past
E10:Tri=冲入SenID=11 Type=Transport Args={猴子/PER/Artifact;陈棚村玉米地/LOC/Place}Polarity=True Tense=Past
其中,E1-E10是事件的编号,Tri、SenID、Args、Type、Polarity和Tense分别是该事件的触发词、句子序号、论元集合、事件类型、极性(True-肯定;False-否定)和时态等事件信息;每个论元的格式为:论元/实体类型/事件角色。Time、Place、Instrument、Artifact、Attacker、Target、Victim、Agent和Person分别表示角色时间、地点、武器装备、运送对象、攻击者、攻击目标、牺牲者、驱赶者和被驱赶者。Attack、Injure、Arrest和Transport是事件类型,分别表示攻击事件、受伤事件、驱赶事件和移动事件。
例1和例2的内容构成了每个所述测试文本,同指事件识别的目的是从中找出同指事件。其中,例2的事件信息可以根据例1的自然文本由事件抽取工具或人工生成。而所述同指标注文本则除了包含例1的自然文本和例2的事件标注信息外,还包含有标注同指事件表,如下所示:
例3:<E1E2E4>
<E3E6>
表示E1和E2,E1和E4,E2和E4,E3和E6是同指事件。
图2是本发明较佳实施例提供的中文同指事件识别方法步骤S1分解流程图。如图2所示,本发明较佳实施例提供的中文同指事件识别方法步骤S1还包括如下步骤。
S101、分别对同指标注文本和测试文本中的每个事件句调用分词工具切分词语,得到用空格分隔词语的分词标注集合和分词测试集合。
例如:事件句“2012年12月14日早上7点多,10多个猴子在陈棚村玉米地用猴爪制造了一起伤人案。”经过词语切分后为:
例4:2012年12月14日早上7点,10多个猴子在陈棚村玉米地用猴爪制造了一起伤人案。
S102、分别对分词标注集合和分词测试集合中的每个事件句调用实体识别工具识别实体并标注实体类型,得到实体识别标注集合和实体识别测试集合,所述实体识别标注集合和实体识别测试集合中每个实体标注格式为“实体/实体类型”。
例4经过实体识别后,部分词语合并为一个实体,如下所示:
例5:2012年12月14日早上7点/TIME,10多个猴子/PER在陈棚村玉米地/LOC用猴爪/WEA制造了一起伤人案。
其中,Time、PER、WEA和LOC分别表示实体类型时间、人或动物、武器装备和地点。
S103、分别对实体识别标注集合和实体识别测试集合中的每个事件句调用句法分析工具进行句法分析,得到预处理标注文本集合和预处理测试文本集合。
例5经过句法分析后为:
例6:(IP(NP(NT 2012年12月14日早上7点))(PU,)(NP(NR 10多个猴子))(VP(PP(P在)(NP(NR陈棚村玉米地)))(PP(P用)(NP(NN猴爪)))(VP(VV制造)(AS了)(NP(NP(NN一起))(NP(NN伤人案)))))(PU。))
其中,句法分析是指对句子中的词语语法功能进行分析。“NT”、“NR”、“P”、“NN”、“VV”、“PU”、“AS”是句法分析的标签,分别表示时间词、专用名词、介词、普通名词、普通动词、标点符号、时态词;“NP”、“VP”、“PP”和“IP”分别表示名词性短语、动词性短语、介词性短语和子句。
步骤S2:分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。
图3是本发明较佳实施例提供的中文同指事件识别方法步骤S2分解流程图。如图3所示,本发明较佳实施例提供的中文同指事件识别方法步骤S2还包括以下步骤。
S201:从预处理测试文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的同类型事件表的每个表项,若所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入测试文本事件对集合。
具体地,一个所述同类型事件表中的一个表项假如有n个事件,则可以抽取n×(n-1)/2个事件对。
假如例1和例2组成的文档是所述预处理测试文本集合中的一个文档,则所述文档的同类型事件表如下:
例7:<E1 E2 E4 E8>
<E3 E6 E9>
<E7 E10>
<E5>
每种事件类型作为一个表项,一共有Attack、Injure、Arrest和Transport四种事件类型,所以有4个表项。例7中的所述同类型事件表可以生成的事件对有6+3+1+0=10对,具体如下:
例8:(E1,E2)(E1,E4)(E1,E8)(E2,E4)(E2,E8)(E4,E8)(E3,E6)(E3,E9)(E6,E9)(E7,E10)
需要说明的是,如果2个事件的事件类型不同,那它们就肯定不是同指事件。所以,不需要把所有的事件都两两配对。
S202:从预处理标注文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入标注文本事件对集合。
本步骤对所述预处理标注文本集合的处理方法和S201一致。
S203:为标注文本事件对集合和测试文本事件对集合中的每个事件对分别从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件属性特征,得到标注文本第一特征集合和测试文本第一特征集合。
每个事件对(E1,E2)的事件属性特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词在句法树中的层数深度><4=E1的核心论元的实体类型><5=E2的触发词><6=E2的触发词的词性><7=E2的触发词在句法树中的层数深度><8=E2的核心论元的实体类型>
其中,句法树是由工具Berkeley Parser生成,这是一个自然语言处理中常用的基础工具,用于分析生成一个句子的句法树。以触发词为起点往上找一条到达该句法树根结点的路径的长度就是触发词在句法树中的层数深度。特征1-8可从事件标注信息、预处理标注文本集合和预处理测试文本集合中得到。除了事件和地点角色外的所有事件角色均为核心角色,填充核心角色的论元称为核心论元。
例如:例2中的事件E1和E2的事件对(E1,E2)的事件属性特征为:
例9:<1=伤人案><2=NN><3=5><4=PER><4=WEA><4=LOC><5=抓挠><6=VV><7=5><8=PER><8=WEA>
由于事件E1和E2的核心论元分别有3个和2个,所以特征4和8各有3个和2个。
S204:为标注文本事件对集合和测试文本事件对集合中的每个事件对从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件对特征,分别和标注文本第一特征集合和测试文本第一特征集合中所述事件对的事件属性特征合并,添加到标注文本特征集合和测试文本特征集合。
具体地,每个事件对(E1,E2)的事件对特征集合如下:
<9=事件E1和E2的事件类型(Type)是否相同(0-不相同;1-相同)><10=事件E1和E2的极性(Polarity)是否相同(0-不相同;1-相同)><11=事件E1和E2的时态(Tense)是否相同(0-不相同;1-相同)><12=事件E1和E2的触发词是否相同(0-不相同;1-相同)><13=事件E1和E2触发词是否为同义词(0-不是;1-是)><14=事件E1和E2相同论元个数><15=事件E1和E2不相同论元个数><16=事件E1和E2间隔句子数><17=事件E1和E2的触发词是否匹配(0-不是;1-是)><18=事件E1和E2的转化组合项特征>
其中,事件类型(Type)、极性(Polarity)、时态(Tense)、论元信息可从标注好的事件信息中获取。两个词是否是同义词根据同义词词典《同义词词林》检索得到。
特征17的设置方法如下:如果两个事件的触发词满足以下任意一个条件,则认为触发词匹配,否则为不匹配:1)两个触发词相同;2)触发词语义相似度θ大于等于第一阈值;3)两个触发词均为二字词并且具有相同前缀(首字)或后缀(尾字)。其中,两个触发词t1和t2的语义相似度θ计算方法如下:。其中,d是在Hownet义原层次体系中t1的义原到t2的义原的路径长度,α是一个可调节的参数。Hownet是一个汉语词汇语义的本体。
另外,假设两个事件E1和E2的论元相同个数记为SA,E1中包含但E2不包含的论元数记为NSA1,E2包含但E1不包含的论元数记为NSA2。事件对(E1,E2)的转化组合项特征设置方法如下:
如果SA>0则把特征19置为1,否则转2);
如果NSA1>0并且NSA2>0则把特征19置为0,否则转3);
如果SA>NSA1或者SA>NSA2则把特征19置为1,否则置为0。
例如:例2中的事件E1和E2的事件对(E1,E2)的事件属性特征为:
例10:<9=1><10=1><11=1><12=0><13=0><14=1><15=2><16=0><17=0><18=1>
事件E1和E2的事件类型(Type)、极性(Polarity)和时态(Tense)一致,所以特征9、10和11设置为1;事件E1和E2的触发词不同,特征12设置为0;事件E1和E2的触发词不是同义词,特征13设置为0;事件E1和E2的相同论元个数为1(猴爪),不同的为0个(只有2个事件的某个相同核心角色都有对应论元,才比较是否相同或不同),则特征14和15分别设置为1和0;事件E1和E2所在的事件句为第1句和第2句(从SenID获取),所以间隔句子数为0;事件E1和E2的触发词不匹配,特征17设置为0;两个事件E1和E2的论元相同个数SA记为1,E1中包含但E2不包含的论元数NSA1记为3,E2包含但E1不包含的论元数NSA2记为1,。则由于SA>0,把特征19设置为1。
S205:为标注文本特征集合中的每个特征根据所述特征对应的事件对从同指标注文本中检索所述事件对是否存在于标注同指事件表中:如果存在,把类别“1”加入所述特征前;如果不存在,把类别“0”加入所述特征前,最后,把加了所述类别的特征更新到标注文本特征集合。
具体地,加了类别后的每个特征格式为:<类别><各个特征>。所述标注同指事件表是表示同指事件关系的表,每个表项中包含指向同一个事件本体的事件集合。类别“0”和“1”分别表示事件对不是/是同指事件。
假如例1、例2和例3的内容组成标注文本特征集合中的一个文档,则由于在例7的同类型事件表中找到E1和E2是同指事件(第一项),则E1和E2的事件对(E1,E2)特征为:
例11:<1><1=伤人案><2=NN><3=5><4=PER><4=WEA><4=LOC><5=看><6=VV><7=5><8=PER><8=WEA><9=1><10=1><11=1><12=0><13=0><14=1><15=2><16=0><17=0><18=1>
测试文本特征集合中的每个特征项没有类别,需要同指事件识别方法为其识别两个事件是否存在同指关系。
步骤S3:根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。
图4是本发明较佳实施例提供的中文同指事件识别方法步骤S3分解流程图。如图4所示,本发明较佳实施例提供的中文同指事件识别方法步骤S3还包括以下步骤。
S301:把标注文本特征集合中的特征作为输入,调用分类工具训练得到一个同指事件识别模型,其中,所述同指事件识别模型包括标注文本(训练集)特征集合、训练得到的参数和分类工具。
于此,所述分类工具可以是贝叶斯分类器、支持向量机分类器或最大熵分类器等。
标注文本特征集合中的特征的例子如例11所示。利用贝叶斯、支持向量机或最大熵等分类器,可以训练得到一个所述同指事件识别模型。
S302:把测试文本特征集合中每个事件对的特征作为输入,调用同指事件识别模型识别每个所述事件对是否为同指事件,得到事件同指第一集合。
所述事件同指第一集合中的每个事件对的格式如下:
<事件E1,事件E2,同指结果R,置信度C>
其中,同指结果R和置信度C是同指事件识别模型的输出结果,同指结果R为1表示同指事件,为0表示不是同指事件。置信度C为一个0-1之间的概率。
例如:以下是对例8中的事件对进行同指关系识别后的输出结果:
例12:E1,E2,1,0.574
E1,E4,1,0.952
E1,E8,0,0.845
E2,E4,0,0.862
E2,E8,0,0.941
E4,E8,0,0.759
E3,E6,0,0.508
E3,E9,0,0.653
E6,E9,0,0.873
E7,E10,0,0.671
步骤S4:对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
具体而言,上述优化过程为:根据事件同指第一集合构建全局优化文档集合,所述全局优化文档集合中的每个文档包括一个目标函数和4种约束条件,所述4种约束条件为传递性约束、触发词词距离约束、触发词句距离约束和角色约束;并调用整形线性规划工具,对所述全局优化文档集合中的每个文档求解,得到最终的事件同指集合。
图5是本发明较佳实施例提供的中文同指事件识别方法步骤S4分解流程图。如图5所示,本发明较佳实施例提供的中文同指事件识别方法步骤S4还包括以下步骤。
S401、以文档为单位,基于分类概率最大化的思想为测试文本中的每个文档创建目标函数,加入所述文档对应的全局优化文档(初始为空),所有的全局优化文档构成全局优化文档集合。
本步骤中,所述目标函数如下:
其中,D表示一个文档中的所有事件对集合,每个文档都有一个目标函数;P<i,j>表示事件对(Ei,Ej)被分类为同指事件的概率,来自事件同指第一集合中的置信度C,如果所述事件同指第一集合中事件对(Ei,Ej)被分类为同指事件(同指结果R<i,j>=1),则P<i,j>=C<i,j>;否则,P<i,j>=1-C<i,j>,R<i,j>和C<i,j>分别表示在所述事件同指第一集合中事件对(Ei,Ej)的同指结果和置信度属性,在x<i,j>是一个二元变量(0或1),是目标函数最终的输出结果,x<i,j>为1表示事件对(Ei,Ej)被推理为同指事件,为0表示事件对(Ei,Ej)被推理为非同指事件。
例如,例12所对应文档的目标函数根据定义为:
例13:
Max(x12*log(0.574)+(1-x12)*log(1-0.574))+(x14*log(0.952)+(1-x14)*log(1-0.952))+(x18*log(1-0.845)+(1-x18)*log(0.845))+(x24*log(1-0.862)+(1-x24)*log(0.862))+(x28*log(1-0.941)+(1-x28)*log(0.941))+(x48*log(1-0.759)+(1-x48)*log(0.759))+(x36*log(1-0.508)+(1-x36)*log(0.508))+(x39*log(1-0.653)+(1-x39)*log(0.653))+(x69*log(1-0.873)+(1-x69)*log(0.873))+(x710*log(1-0.671)+(1-x710)*log(0.671)))
例13是形式化描述的目标函数展开后的一个例子。其中,x12等以x开头的变量是0-1二元变量,用于指示事件对是否存在同指关系。如:x12和x89分别对应事件对(E1,E2)和(E8,E9),其它依次类推。Max是一个整形线性规划工具的运算符,表示求后面公式的最大值。
S402、根据同指事件的传递性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同指事件,则Ei和Ek是同指事件,为全局优化文档集合中的每个文档加入传递性约束条件,所述传递性约束条件为:x<i,j>+x<j,k>-x<i,k>≤1。
例如,例12所对应文档的传递性约束条件有:
例14:
x12+x24-x14<=1
x12+x28-x18<=1
x14+x48-x18<=1
x24+x48-x18<=1
x36+x69-x39<=1
S403、如果事件同指第一集合中任意一个事件对(Ei,Ej)的触发词词距离小于第二阈值,并且它们的语义相似度θ大于等于第三阈值,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词词距离约束条件为:
,其中,触发词词距离是指分词后文档中的两个触发词之间词组的数量。
例如,设置第二阈值和第三阈值分别为15和0.8,例1所示的文本中,E3(受伤)和E6(重伤)触发词词距离为12,小于第二阈值,“受伤”和“重伤”的语义相似度θ为0.862,大于第三阈值,则设置以下触发词词距离约束条件:
例15:x36=1
S404、如果事件同指第一集合中任意一个事件对(Ei,Ej)在文档中对应的事件句是相邻句或间隔1句,并且它们对应的事件类型在所述文档中出现次数最多,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词句距离约束条件为:,其中,相邻句是指在文档中首尾相邻的两个句子;间隔1句是指两个句子中间有一个句子间隔。
例如,事件E2和E4位于相邻句,而且它们的事件类型“Attack”对应的事件数量最多(5个),则设置以下触发词句距离约束条件:
例16:x24=1
S405、如果事件同指第一集合中任意一个事件对(Ei,Ej)具有至少一个相同的论元,并且所述论元在不同事件中对应的角色都在预先设定的角色约束集合中,则为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入角色约束条件为:,其中,所述角色约束集合为根据同指标注文本统计得到的角色集合。
假设预先设定的角色约束集合中包含有角色“Victim”,则事件E3和E6具有1个相同论元“村民”,它们对应的角色都是“Victim”,则设置以下角色约束条件:
例16:x36=1
S406、把全局优化文档集合中的每个全局优化文档作为输入,调用整形线性规划工具,对每个所述全局优化文档求解,得到最终的事件同指集合。其中,所述事件同指集合的每一项表示一个事件对的结果,其格式为:x<i,j>=0或1,其中值为1表示事件对(Ei,Ej)是同指事件,值为0表示不是同指事件。
例12中的事件对经过全局优化后,得到的结果如下:
例17:x12=1
x14=1
x18=0
x24=1
x28=0
x48=0
x36=1
x39=1
x69=1
x710=0
其中,值为1表示是同指事件,为0表示不是同指事件。如“x24=1”表示事件E2和E4是同指事件。
图6是本发明较佳实施例提供的中文同指事件识别系统示意图。如图6所示,本发明较佳实施例提供的中文同指事件识别系统包括文本预处理模块1、同指特征抽取模块2、同指事件初步识别模块3及同指事件全局优化模块4,所述文本预处理模块1连接同指特征抽取模块2,所述同指特征抽取模块2连接同指事件初步识别模块3,所述同指事件初步识别模块3连接同指事件全局优化模块4。所述文本预处理模块1,用于对同指标注文本和测试文本中每个事件句分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合。所述同指特征抽取模块2,用于分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。所述同指事件初步识别模块3,用于根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。所述同指事件全局优化模块4,用于对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
图7是本发明较佳实施例提供的中文同指事件识别系统文本预处理模块内部结构示意图。如图7所示,本发明较佳实施例提供的中文同指事件识别系统文本预处理模块内部结构包括词语切分单元11、实体识别单元12和句法分析单元13。所述词语切分单元11连接实体识别单元12,所述实体识别单元12连接句法分析单元13。词语切分单元11,分别对同指标注文本和测试文本中的每个事件句调用分词工具切分词语,得到用空格分隔词语的分词标注集合和分词测试集合。实体识别单元12,分别对分词标注集合和分词测试集合中的每个事件句调用实体识别工具识别实体并标注实体类型,得到实体识别标注集合和实体识别测试集合。句法分析单元13,分别对实体识别标注集合和实体识别测试集合中的每个事件句调用句法分析工具进行句法分析,得到预处理标注文本集合和预处理测试文本集合。
图8是本发明较佳实施例提供的中文同指事件识别系统同指特征抽取模块内部结构示意图。如图8所示,本发明较佳实施例提供的中文同指事件识别系统同指特征抽取模块内部结构包括测试文本事件对抽取单元21、标注文本事件对抽取单元22、事件属性特征抽取单元23、事件关系特征抽取单元24和类别添加单元25。所述测试文本事件对抽取单元21连接标注文本事件对抽取单元22,所述标注文本事件对抽取单元22连接事件属性特征抽取单元23,所述事件属性特征抽取单元23连接事件关系特征抽取单元24,所述事件关系特征抽取单元24连接类别添加单元25。测试文本事件对抽取单元21,从预处理测试文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入测试文本事件对集合。标注文本事件对抽取单元22,从预处理标注文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入标注文本事件对集合。事件属性特征抽取单元23,为标注文本事件对集合和测试文本事件对集合中的每个事件对分别从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件属性特征,得到标注文本第一特征集合和测试文本第一特征集合。事件关系特征抽取单元24,为标注文本事件对集合和测试文本事件对集合中的每个事件对从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件对特征,分别和标注文本第一特征集合和测试文本第一特征集合中所述事件对的事件属性特征合并,添加到标注文本特征集合和测试文本特征集合。类别添加单元25,为标注文本特征集合中的每个特征根据所述特征对应的事件对从同指标注文本中检索所述事件对是否存在于标注同指事件表中。如果存在,把类别“1”加入所述特征前;如果不存在,把类别“0”加入所述特征前。最后,把加了所述类别的特征更新到标注文本特征集合。
图9是本发明较佳实施例提供的中文同指事件识别系统同指事件初步识别模块内部结构示意图。如图9所示,本发明较佳实施例提供的中文同指事件识别系统同指事件初步识别模块内部结构包括同指事件识别模型训练单元31和同指事件分类单元32。所述同指事件识别模型训练单元31连接同指事件分类单元32。同指事件识别模型训练单元31,把标注文本特征集合中的特征作为输入,调用分类工具训练得到一个同指事件识别模型;所述同指事件识别模型包括标注文本(训练集)特征集合、训练得到的参数和分类工具。同指事件分类单元32,把测试文本特征集合中每个事件对的特征作为输入,调用同指事件识别模型识别每个所述事件对是否为同指事件,得到事件同指第一集合。
图10是本发明较佳实施例提供的中文同指事件识别系统同指事件全局优化模块内部结构示意图。如图10所示,本发明较佳实施例提供的中文同指事件识别系统同指事件全局优化模块内部结构包括目标函数生成单元41、传递性约束单元42、触发词词距离约束单元43、触发词句距离约束单元44、角色约束单元45和全局优化求解单元46。所述目标函数生成单元41连接传递性约束单元42,所述传递性约束单元42连接触发词词距离约束单元43,所述触发词词距离约束单元43连接触发词句距离约束单元44,所述触发词句距离约束单元44连接角色约束单元45,所述角色约束单元45连接全局优化求解单元46。
目标函数生成单元41,以文档为单位,基于分类概率最大化的思想为测试文本中的每个文档创建目标函数,加入所述文档对应的全局优化文档(初始为空),所有的全局优化文档构成全局优化文档集合。传递性约束单元42,根据同指事件的传递性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同指事件,那么可以推理出Ei和Ek是同指事件。为全局优化文档集合中的每个文档加入传递性约束条件。触发词词距离约束单元43,如果事件同指第一集合中任意一个事件对(Ei,Ej)的触发词词距离小于第二阈值,并且它们的语义相似度θ大于等于第三阈值,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词词距离约束条件为:。触发词句距离约束单元44,如果事件同指第一集合中任意一个事件对(Ei,Ej)在文档中对应的事件句是相邻句或间隔1句,并且它们对应的事件类型在所述文档中出现次数最多,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词句距离约束条件为:。角色约束单元45,如果事件同指第一集合中任意一个事件对(Ei,Ej)具有至少一个相同的论元,并且所述论元在不同事件中对应的角色都在预先设定的角色约束集合中,则为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入角色约束条件为:。全局优化求解单元46,把全局优化文档集合中的每个全局优化文档作为输入,调用整形线性规划工具,对每个所述全局优化文档求解,得到最终的事件同指集合。其中,所述事件同指集合的每一项表示一个事件对的结果,格式为:x<i,j>=0或1。
关于上述系统的操作方法与本发明方法操作流程类似,故于此不再赘述。
综上所述,根据本发明较佳实施例提供的中文同指事件识别方法及系统,所述方法对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合,并分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合。根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合。对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。如此,提高了同指事件识别的性能。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种中文同指事件识别方法,其特征在于,包括以下步骤:
S1、对同指标注文本和测试文本中每个包含事件的句子分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合;
S2、分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;
S3、根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合;
S4、对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合;优化过程为:根据事件同指第一集合构建全局优化文档集合,所述全局优化文档集合中的每个文档包括一个目标函数和4种约束条件,所述4种约束条件为传递性约束、触发词词距离约束、触发词句距离约束和角色约束;并调用整形线性规划工具,对所述全局优化文档集合中的每个文档求解,得到最终的事件同指集合,具体步骤包括:
S401、以文档为单位,基于分类概率最大化的思想为测试文本中的每个文档创建目标函数,加入所述文档对应的全局优化文档(初始为空),所有的全局优化文档构成全局优化文档集合;
S402、根据同指事件的传递性原理,如果Ei和Ej是同指事件,并且Ej和Ek是同指事件,则Ei和Ek是同指事件,为全局优化文档集合中的每个文档加入传递性约束条件,所述传递性约束条件为:x<i,j>+x<j,k>-x<i,k>≤1;
S403、如果事件同指第一集合中任意一个事件对(Ei,Ej)的触发词词距离小于第二阈值,并且它们的语义相似度θ大于等于第三阈值,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词词距离约束条件为:x<i,j>=1,其中,触发词词距离是指分词后文档中的两个触发词之间词组的数量;
S404、如果事件同指第一集合中任意一个事件对(Ei,Ej)在文档中对应的事件句是相邻句或间隔1句,并且它们对应的事件类型在所述文档中出现次数最多,为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入触发词句距离约束条件为:x<i,j>=1,其中,相邻句是指在文档中首尾相邻的两个句子;间隔1句是指两个句子中间有一个句子间隔;
S405、如果事件同指第一集合中任意一个事件对(Ei,Ej)具有至少一个相同的论元,并且所述论元在不同事件中对应的角色都在预先设定的角色约束集合中,则为全局优化文档集合中的事件对(Ei,Ej)所在的文档加入角色约束条件为:x<i,j>=1,其中,所述角色约束集合为根据同指标注文本统计得到的角色集合;
S406、把全局优化文档集合中的每个全局优化文档作为输入,调用整形线性规划工具,对每个所述全局优化文档求解,得到最终的事件同指集合,其中,所述事件同指集合的每一项表示一个事件对的结果,其格式为:x<i,j>=0或1,其中值为1表示事件对(Ei,Ej)是同指事件,值为0表示不是同指事件。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述同指标注文本和所述测试文本是已经标注了事件各类信息的文本,由各种事件抽取工具或人工生成,且所述同指标注文本是进行同指事件识别的训练语料,标注了所有的同指事件关系;所述测试文本是进行同指事件识别的文本。
3.根据权利要求1所述的方法,其特征在于,步骤S1还包括:
S101、分别对同指标注文本和测试文本中的每个事件句调用分词工具切分词语,得到用空格分隔词语的分词标注集合和分词测试集合;
S102、分别对分词标注集合和分词测试集合中的每个事件句调用实体识别工具识别实体并标注实体类型,得到实体识别标注集合和实体识别测试集合,所述实体识别标注集合和实体识别测试集合中每个实体标注格式为“实体/实体类型”;
S103、分别对实体识别标注集合和实体识别测试集合中的每个事件句调用句法分析工具进行句法分析,得到预处理标注文本集合和预处理测试文本集合。
4.根据权利要求1所述的方法,其特征在于,步骤S2还包括:
S201、从预处理测试文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的同类型事件表的每个表项,若所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入测试文本事件对集合;
S202、从预处理标注文本集合中以文档为单位抽取事件类型相同的事件,每种事件类型对应的所有事件集合作为一个表项,每个文档创建一张同类型事件表;遍历所有的所述同类型事件表的每个表项,如果所述表项中事件的数量大于1,则所述表项中的任意2个事件构成1个事件对,加入标注文本事件对集合;
S203、为标注文本事件对集合和测试文本事件对集合中的每个事件对分别从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件属性特征,得到标注文本第一特征集合和测试文本第一特征集合;
其中,每个事件对(E1,E2)的事件属性特征集合如下:
<1=E1的触发词><2=E1的触发词的词性><3=E1的触发词在句法树中的层数深度><4=E1的核心论元的实体类型><5=E2的触发词><6=E2的触发词的词性><7=E2的触发词在句法树中的层数深度><8=E2的核心论元的实体类型>;
S204、为标注文本事件对集合和测试文本事件对集合中的每个事件对从预处理标注文本集合和预处理测试文本集合中抽取所述事件对的事件对特征,分别和标注文本第一特征集合和测试文本第一特征集合中所述事件对的事件属性特征合并,添加到标注文本特征集合和测试文本特征集合;
其中,每个事件对(E1,E2)的事件对特征集合如下:
<9=事件E1和E2的事件类型(Type)是否相同(0-不相同;1-相同)><10=事件E1和E2的极性(Polarity)是否相同(0-不相同;1-相同)><11=事件E1和E2的时态(Tense)是否相同(0-不相同;1-相同)><12=事件E1和E2的触发词是否相同(0-不相同;1-相同)><13=事件E1和E2触发词是否为同义词(0-不是;1-是)><14=事件E1和E2相同论元个数><15=事件E1和E2不相同论元个数><16=事件E1和E2间隔句子数><17=事件E1和E2的触发词是否匹配(0-不是;1-是)><18=事件E1和E2的转化组合项特征>;
S205、为标注文本特征集合中的每个特征根据所述特征对应的事件对从同指标注文本中检索所述事件对是否存在于标注同指事件表中:如果存在,把类别“1”加入所述特征前;如果不存在,把类别“0”加入所述特征前,最后,把加了所述类别的特征更新到标注文本特征集合。
5.根据权利要求4所述的方法,其特征在于,在步骤S204中,特征17的设置方法如下:如果两个事件的触发词满足以下任意一个条件,则认为触发词匹配,否则为不匹配:1)两个触发词相同;2)触发词语义相似度θ大于等于第一阈值;3)两个触发词均为二字词并且具有相同前缀(首字)或后缀(尾字);
其中,两个触发词t1和t2的语义相似度θ计算方法如下:d是在Hownet义原层次体系中t1的义原到t2的义原的路径长度,α是一个可调节的参数,Hownet是一个汉语词汇语义的本体,
另外,假设两个事件E1和E2的论元相同个数记为SA,E1中包含但E2不包含的论元数记为NSA1,E2包含但E1不包含的论元数记为NSA2,事件对(E1,E2)的转化组合项特征18设置方法如下:
如果SA>0则把特征19置为1,否则转2);
如果NSA1>0并且NSA2>0则把特征19置为0,否则转3);
如果SA>NSA1或者SA>NSA2则把特征19置为1,否则置为0。
6.根据权利要求1所述的方法,其特征在于,步骤S3还包括:
S301、把标注文本特征集合中的特征作为输入,调用分类工具训练得到一个同指事件识别模型,其中,所述同指事件识别模型包括标注文本(训练集)特征集合、训练得到的参数和分类工具;
S302、把测试文本特征集合中每个事件对的特征作为输入,调用同指事件识别模型识别每个所述事件对是否为同指事件,得到事件同指第一集合。
7.根据权利要求1所述的方法,其特征在于,步骤S401中,所述目标函数如下:
其中,D表示一个文档中的所有事件对集合,每个文档都有一个目标函数;P<i,j>表示事件对(Ei,Ej)被分类为同指事件的概率,来自事件同指第一集合中的置信度C,如果所述事件同指第一集合中事件对(Ei,Ej)被分类为同指事件(同指结果R<i,j>=1),则P<i,j>=C<i,j>;否则,P<i,j>=1-C<i,j>,R<i,j>和C<i,j>分别表示在所述事件同指第一集合中事件对(Ei,Ej)的同指结果和置信度属性,在x<i,j>是一个二元变量(0或1),是目标函数最终的输出结果,x<i,j>为1表示事件对(Ei,Ej)被推理为同指事件,为0表示事件对(Ei,Ej)被推理为非同指事件。
8.一种中文同指事件识别系统,其特征在于,包括:文本预处理模块、同指特征抽取模块、同指事件初步识别模块及同指事件全局优化模块,所述文本预处理模块连接同指特征抽取模块,所述同指特征抽取模块连接同指事件初步识别模块,所述同指事件初步识别模块连接同指事件全局优化模块,
所述文本预处理模块,用于对同指标注文本和测试文本中每个事件句分别调用分词工具、实体识别工具和句法分析工具进行词语切分、实体识别和句法分析,得到预处理标注文本集合和预处理测试文本集合;
所述同指特征抽取模块,用于分别从预处理标注文本集合和预处理测试文本集合中以文档为单位抽取事件类型相同的事件对及其特征信息,得到标注文本特征集合和测试文本特征集合;
所述同指事件初步识别模块,用于根据标注文本特征集合中各个事件对的特征,训练一个同指事件识别模型;再利用所述同指事件识别模型判别测试文本特征集合中每个特征对应的事件对是否存在同指关系,得到事件同指第一集合;
所述同指事件全局优化模块,用于对事件同指第一集合中初步识别的同指事件结果以文档为单位进行全局优化,得到事件同指集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510726584.5A CN105302794B (zh) | 2015-10-30 | 2015-10-30 | 一种中文同指事件识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510726584.5A CN105302794B (zh) | 2015-10-30 | 2015-10-30 | 一种中文同指事件识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105302794A CN105302794A (zh) | 2016-02-03 |
CN105302794B true CN105302794B (zh) | 2018-08-07 |
Family
ID=55200073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510726584.5A Active CN105302794B (zh) | 2015-10-30 | 2015-10-30 | 一种中文同指事件识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105302794B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021229B (zh) * | 2016-05-19 | 2018-11-02 | 苏州大学 | 一种中文事件同指消解方法 |
CN106095748B (zh) * | 2016-06-06 | 2019-08-27 | 东软集团股份有限公司 | 一种生成事件关系图谱的方法及装置 |
CN106354787A (zh) * | 2016-08-24 | 2017-01-25 | 齐鲁工业大学 | 一种基于相似度的实体共指消解方法 |
CN106897364B (zh) * | 2017-01-12 | 2021-02-23 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN107679041B (zh) * | 2017-10-20 | 2020-12-01 | 苏州大学 | 基于卷积神经网络的英文事件同指消解方法及系统 |
CN107943786B (zh) * | 2017-11-16 | 2021-12-07 | 广州市万隆证券咨询顾问有限公司 | 一种中文命名实体识别方法及系统 |
CN109145219B (zh) * | 2018-09-10 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 |
CN109446517B (zh) * | 2018-10-08 | 2022-07-05 | 平安科技(深圳)有限公司 | 指代消解方法、电子装置及计算机可读存储介质 |
CN109359184B (zh) * | 2018-10-16 | 2020-08-18 | 苏州大学 | 英文事件同指消解方法和系统 |
CN112740200B (zh) * | 2019-07-25 | 2024-05-03 | 百度时代网络技术(北京)有限公司 | 用于基于共指消解的端到端深度强化学习的系统和方法 |
CN110705306B (zh) * | 2019-08-29 | 2020-08-18 | 首都师范大学 | 一种作文文题一致性的测评方法 |
CN113111661A (zh) * | 2020-01-09 | 2021-07-13 | 图灵人工智能研究院(南京)有限公司 | 文本信息分类方法、系统、设备及可读存储介质 |
CN111797233B (zh) * | 2020-06-12 | 2021-04-30 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN113657090A (zh) * | 2021-08-23 | 2021-11-16 | 中国人民解放军32801部队 | 一种军事新闻长文本层次化事件抽取方法 |
CN116821276A (zh) * | 2022-10-26 | 2023-09-29 | 中移(苏州)软件技术有限公司 | 文本处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及系统 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
-
2015
- 2015-10-30 CN CN201510726584.5A patent/CN105302794B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693219A (zh) * | 2012-06-05 | 2012-09-26 | 苏州大学 | 一种中文事件的抽取方法及系统 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN104331480A (zh) * | 2014-11-07 | 2015-02-04 | 苏州大学 | 一种中文事件触发词的抽取系统及方法 |
Non-Patent Citations (5)
Title |
---|
中文事件时序关系的标注和分类方法;郑新等;《计算机科学》;20150731;第42卷(第7期);第276-279、313页 * |
中文事件论元抽取研究;黄媛;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20141015(第10期);第1-52页 * |
基于MLN的中文事件触发词推理方法;朱少华等;《http://www.cnki.net/kcms/detail/11.2442.N.20150930.1254.010.html》;20150930;第1-8页 * |
基于全局优化的中文事件同指消解方法;滕佳月等;《http://www.cnki.net/kcms/detail/11.2442.N.20150930.1103.002.html》;20150930;第1-7页 * |
多种语义特征在突发事件新闻中的共指消解研究;庞宁等;《中文信息学报》;20140131;第28卷(第1期);第26-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105302794A (zh) | 2016-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105302794B (zh) | 一种中文同指事件识别方法及系统 | |
Karoui et al. | Towards a contextual pragmatic model to detect irony in tweets | |
Shen et al. | Linden: linking named entities with knowledge base via semantic knowledge | |
CN106445998A (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
Kanerva et al. | Syntactic n-gram collection from a large-scale corpus of internet finnish | |
CN106055536A (zh) | 一种中文事件联合推理方法和系统 | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN104331480A (zh) | 一种中文事件触发词的抽取系统及方法 | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
CN106021229A (zh) | 一种中文事件同指消解方法和系统 | |
CN103678287B (zh) | 一种关键词翻译统一的方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN106951530A (zh) | 一种事件类型抽取方法和装置 | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN108287825A (zh) | 一种术语识别抽取方法及系统 | |
Chen et al. | SinoCoreferencer: An End-to-End Chinese Event Coreference Resolver. | |
CN111428031B (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
Bella et al. | Domain-based sense disambiguation in multilingual structured data | |
Monisha et al. | Classification of bengali questions towards a factoid question answering system | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
Makarov | Automated acquisition of patterns for coding political event data: two case studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |