CN109359184B - 英文事件同指消解方法和系统 - Google Patents
英文事件同指消解方法和系统 Download PDFInfo
- Publication number
- CN109359184B CN109359184B CN201811203139.0A CN201811203139A CN109359184B CN 109359184 B CN109359184 B CN 109359184B CN 201811203139 A CN201811203139 A CN 201811203139A CN 109359184 B CN109359184 B CN 109359184B
- Authority
- CN
- China
- Prior art keywords
- event
- sentence
- word
- sentences
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种英文事件同指消解方法和系统。本发明英文事件同指消解方法,包括:读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合。本发明的有益效果:利用从事件句中抽取的信息特征和事件对匹配特征,采用循环神经网络对事件对之间的同指关系进行判定;本发明采用循环神经网络模型,利用深度学习来解决事件同指消解问题;本发明的方法和系统,与现有的方法和系统相比,英文事件同指消解性能得到了明显提升。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种事件同指消解方法。
背景技术
同指消解是自然语言处理中的一个难点。近年来,绝大多数研究针对实体同指消解,事件同指消解的研究相对较少,仍然是一项具有挑战性的工作。事件同指消解是在判断文本中的两个事件句是否指向了真实世界中的同一个事件的基础上,将它们链接到同一个事件链。根据事件句是否在同一个文档中,可以把事件同指消解任务划分为文档内事件同指消解和跨文档事件同指消解。
目前,相对于实体同指消解[1]的研究,事件同指消解研究还很少。事件同指消解由实体同指消解演变而来,研究方法与实体同指消解类似。事件同指消解一般分为文档内事件同指消解和跨文档事件同指消解。
目前,仅仅有少数的关于跨文档事件同指消解的研究。Bejan和Harabagiu创建了Event Coreference Bank(ECB)语料库,这是第一个为跨文档事件同指消解提供的语料库。同时,他们也提供了一系列无监督型的贝叶斯方法。Cybulska和Vossen二人指出ECB语料库的词汇不具有多样性,为此,他们二人又建立了一个更庞大的ECB+语料库。目前,在该领域大部分的研究都是使用的扩展型贝叶斯模型,例如无参数型贝叶斯[2]和分层贝叶斯模型[3]。
早期的文档内事件同指消解研究都建立在实体同指消解的基础上,使用的传统机器学习的方法,比如基于概率的模型和基于图的模型等等。Chen[4]提出了一种基于一系列事件对属性(如触发词,时态,极性等)的事件对同指消解分类器。Chen和Jin[5]提出了一种基于图模型的聚类方法,他们使用最小图切割的方法来处理事件同指链,将不属于该链的事件句剔除出去。Liu[6]从事件句中提取出了100多种的特征来放入SVM事件对分类器中进行实验。Lu[7]提出了一种基于马尔科夫链的联合推理模型用于纠正分类器产生的错误结果。Liu[8]则采用了基于图的传统方法,将非同指的事件句从图中切割出去,而且该方法引入了许多特征,比如框架特征,论元特征,事件句距离等等。
如今,深度学习的方法已经成为自然语言处理领域的一种主流方法。神经网络模型在问答系统,相似度比较等任务中都取得了不错的效果。Krause[9]首次使用神经网络模型在事件同指消解任务上进行了尝试,取得了不错的效果。他先用CNN和池化层对事件句和触发词的上下文进行处理,提取出特征,然后引入了一些事件对之间的特征来辅助判别事件对之间是否存在同指关系。该方法也成为了目前的主流。Choubey[10]先用全连接层对两个事件句进行了变维操作,然后计算两个事件句的Cosine距离和欧式距离,最后通过激活函数得出一个置信度来判定同指关系。
传统技术存在以下技术问题:
当前,绝大多数事件同指消解主要存在两个问题:1)在以往研究中,通常使用基于概率的模型或者基于图的模型[4],这些方法通常不能提取出事件句的全局信息,事件句内单词与单词之间的局部信息以及事件句中相对重要的部分。同时,它们不能提取出触发词之间,论元之间以及事件结构之间的语义信息。2)近年来,人们将事件同指消解看作是基于事件对的事件同指消解,即把任意两个事件句放在一起组成一对事件对,判断它们二者是否是同指关系。但这种方法也有一种弊端,各个事件对之间可能会产生相互的冲突,从而影响对于事件对是否同指的判断,尽管目前可以施加规则来减轻这种问题的干扰,但毕竟不是长久之计,如果更换了语料库,规则也要随之改变。
本发明参考文献如下:
[1]Haghighi A,Dan K.Simple Coreference Resolution with Rich Syntacticand Semantic Features[C]//Meeting of the Empirical Methods in NaturalLanguage Processing,2009:1152-1161.
[2]Bejan C A,Harabagiu S.Unsupervised event coreference resolutionwith rich linguistic features[C]//Meeting of the Association forComputational Linguistics,2010:1412-1422.
[3]Yang B,Cardie C,Frazier P.A Hierarchical Distance-dependentBayesian Model for Event Coreference Resolution[J].Computer Science,2015:517-528.
[4]Chen Z,Ji H.Graph-based event coreference resolution[C]//Meetingof the Association for Computational Linguistics,2009:54-57.
[5]Chen Z,Ji H,Haralick R.Apairwise event coreference model,featureimpact and evaluation for event coreference resolution[C]//Meeting of theAssociation for Computational Linguistics,2009:17-22.
[6]Liu Z,Araki J,Hovy E,et al.Supervised within-document eventcoreference using information propagation[J].Computer Science,2014:4539-4544.
[7]Lu J,Ng V.Joint Learning for Event Coreference Resolution[C]//Meeting of the Association for Computational Linguistics,2017:90-101.
[8]Liu Z,Mitamura T,Hovy E.Graph-Based Decoding for Event Sequencingand Coreference Resolution[C]//Meeting of the Computational Natural LanguageLearning,2018.
[9]Krause S,Xu F,Uszkoreit H,et al.Event Linking with SententialFeatures from Convolutional Neural Networks[C]//Meeting of the ComputationalNatural Language Learning,2016:239-249.
[10]Choubey P K,Huang R.Event Coreference Resolution by IterativelyUnfolding Inter-dependencies among Events[C]//Meeting of the EmpiricalMethods in Natural Language Processing,2017:2124-2133.
发明内容
本发明要解决的技术问题是提供一种基于循环神经网络的英文事件触发词抽取方法和系统,利用从事件句中抽取的信息特征和事件对匹配特征,采用循环神经网络对事件对之间的同指关系进行判定;本发明采用循环神经网络模型,利用深度学习来解决事件同指消解问题;本发明的方法和系统,与现有的方法和系统相比,英文事件同指消解性能得到了明显提升。
一种英文事件同指消解方法,包括:
S10、读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合;
S20、对标注语料事件集合中每个实例,调用词形还原工具还原触发词,得到触发词还原词形;调用数据清洗工具和词性标注工具清洗和标注事件句部分,得到新事件句和词性信息;在每个触发词前后各取事件句中的3个单词得到事件短句;以每个触发词为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置;用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
S30、将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合;将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较(相同置为1,否则为0);根据事件句起始位置和结束位置计算两个事件句是否重叠(重叠值置1,否则置0)和二者距离;根据两个事件句的同指ID判断其是否相同(相同置为1,否则为0);把以上信息都存入事件对匹配集合中;
S40、将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络模型事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系。
一种英文事件同指消解系统,包括:
事件句预处理模块,读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合;
句子处理模块,对标注语料事件集合中每个实例,调用词形还原工具还原触发词,得到触发词还原词形;调用数据清洗工具和词性标注工具清洗和标注事件句部分,得到新事件句和词性信息;在每个触发词前后各取事件句中的3个单词得到事件短句;以每个触发词为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置;用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
事件对处理模块,将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合;将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较(相同置为1,否则为0);根据事件句起始位置和结束位置计算两个事件句是否重叠(重叠值置1,否则置0)和二者距离;根据两个事件句的同指ID判断其是否相同(相同置为1,否则为0);把以上信息都存入事件对匹配集合中;
同指关系预测模块,将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络模型事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
利用从事件句中抽取的信息特征和事件对匹配特征,采用循环神经网络对事件对之间的同指关系进行判定;本发明采用循环神经网络模型,利用深度学习来解决事件同指消解问题;本发明的方法和系统,与现有的方法和系统相比,英文事件同指消解性能得到了明显提升。
附图说明
图1是本发明英文事件同指消解方法的流程图。
图2是本发明事件句预处理的流程图。
图3是本发明句子处理的流程图。
图4是本发明事件对处理的流程图。
图5是本发明同指关系预测的流程图。
图6是本发明英文事件同指消解系统的结构图。
图7是本发明事件句预处理模块的结构图。
图8是本发明句子处理模块的结构图。
图9是本发明事件对处理模块的结构图。
图10是本发明同指关系预测模块的结构图。
图11是神经网络分类器的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
术语解释:
实体(Entity):一个语义类别中的对象或对象的集合,如人名、机构名和地名等。
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色。
事件类型(Event Type):事件的类别,如“出生”、“死亡”、“地震”等。
事件实例(Event Mention):在具体文档中描述一个事件的句子。
触发词(Trigger):用于识别事件的谓词(动词和名词居多),又称为锚(Anchor),是事件的基本要素之一。抽取事件也就是抽取事件的触发词。如“attack”、“fight”等就是“Attack”事件的触发词。
触发词实例(TriggerMention):触发词在具体句子中的出现,如在句子“Iraqisstill haven’t used chemical weapons even though many experts feared suchattacks as the u.s.troops neared Baghdad”是1个事件实例,其中“attacks”就是触发词“attack”的1个实例。
事件同指(Event Coreference):如果两个事件句指向现实世界中同一个事件,则两个事件句是同指的。
召回率(Recall):系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽取性能的指标之一。
准确率(Precision):系统正确抽取的事件个数占所有抽取出的事件的比例。衡量事件抽取性能的指标之一。
一种英文事件同指消解方法,如图1所示,包括:
S10,读取标注文档的事件标注信息,得到标注语料事件集合。统计标注语料事件集合中文档ID,同指ID,事件句ID,事件句类型,事件句子类型,事件句形态,以及触发词的起始位置,得到事件句信息集合。所述标注文档是已经标注了事件信息的文档集合,是本发明训练模型的基础。
其中,如图2所示,S10的具体过程如下:
S101,根据标记读取标注文档中的事件标注信息,得到标注语料事件集合。所述标注语料事件集合中每一个事件句实例格式如下:
<text><start><end><hopper_id><event_mention_id><type><subtype><realis><trigger><source><offset>
以例1为例,
例1:标注文档:
<hopper id="h-8">
<event_mentionid="em-120"type="justice"subtype="convict"realis="actual">
<text start="302"end="506">The conviction of 29-year-old Ali AsadChandia is the government's 11th conviction in its investigation of what itcalled a``Virginia jihad network”that used paintball games to train forglobal holy war.</text>
<triggersource="3f71fead3fa119ccdcdf01769ffee5b1"offset="306">conviction</trigger>
</event_mention>
<event_mentionid="em-133"type="justice"subtype="convict"realis="actual">
<textstart="209"end="300">A Maryland teacher has been convicted oflending aid to a Pakistani terrorist organization.</text>
<triggersource="3f71fead3fa119ccdcdf01769ffee5b1"offset="237">convicted</trigger>
</event_mention>
</hopper>
<hopper id="h-10">
<event_mentionid="em-172"type="transaction"subtype="transaction"realis="actual">
<text start="4915"end="5105">A federal jury convicted Chandia inJune of three counts ofproviding material support to Lashkar-e-Taiba orconspiring to do so and acquitted him on a fourth count ofsupportingterrorists.</text>
<triggersource="3f71fead3fa119ccdcdf01769ffee5b1"offset="4975">providing</trigger>
</event_mention>
</hopper>
其中,hopper的属性id表示同指ID,hopper的子树是event mention,eventmention的属性id是事件句ID,type是事件句类型,subtype是事件句子类型,realis是事件句形态。event mention的子树是text和trigger,text存储了事件句,trigger存储了触发词,trigger的属性source是触发词所在的语料文件名,offset是触发词在文档中的起始位置,length是触发词的长度。例子中标记了4个事件实例,通过读取标注文档得到标注语料事件集合。
比如第一个事件句实例在标注语料事件集合中如例2所示:
例2:<The conviction of29-year-oldAliAsad Chandia is the government's11th conviction in its investigation of what it called a“Virginia jihadnetwork”that used paintball games to train for global holy war.><302><506><h-8><em-120><justice><convict><actual><conviction><3f71fead3fa119ccdcdf01769ffee5b1><306>
S20,对标注语料事件集合中每个实例,调用词形还原工具还原触发词(trigger),得到触发词还原词形trig_lemma;调用数据清洗工具和词性标注工具清洗和标注事件句(text)部分,得到新事件句sentence和词性信息postag;在每个触发词(trigger)前后各取事件句中的3个单词得到事件短句context;以每个触发词(trigger)为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置loc;用新事件句sentence替换标注语料事件集合中的事件句text,并将词性信息postag、触发词还原词形trig_lemma、事件短句context和句内单词位置loc添入标注语料事件集合的所述实例中。添加了以上信息的标注语料事件集合格式如下:
<sentence><start><end><hopper_id><event_mention_id><type><subtype><realis><trigger><source><offset><trig_lemma><postag><context><loc>
其中,如图3所示,S20的具体过程如下:
S201,对标注语料事件集合中每个实例的触发词(trigger)调用词形还原工具,得到触发词还原词形trig_lemma。
其中,词形还原是指把任何形式的英语单词还原到一般形式,如单词“went/gone”的还原词形是“go”。词形还原工具是自然语言处理基本工具,如NLTK中的WordNetLemmatizer类等。例如:
例2中的触发词“conviction”经过词形还原后为“convict”。
S202,调用清洗工具,将标注语料事件集合中每个实例中事件句text中单词的大写字母转换成小写字母并去除掉标点符号,得到每个实例的新事件句sentence。
例3:例2中的“The conviction of 29-year-old Ali Asad Chandia is thegovernment's 11th conviction in its investigation of what it called a“Virginia jihad network”that used paintball games to train for global holywar.”变为“the conviction of 29 year old ali asad chandia is the government11th conviction in its investigation of what it called a virginia jihadnetwork that used paintballgames to train for global holy war”。
S203,对标注事件句集合中每个实例的事件句(text)调用词性标注工具,得到词性信息postag。所述词性标注工具为自然语言处理常用工具,如StanfordPosTag。
例4:对例3中的text调用词性标注工具得到词性信息为:“DT NN IN CD NN JJNNP NNP NNP VBZ DT NN POS CD NN IN PRP NN IN WP PRP VBD DT NNP VBD NN WDT VBDDT NNS TO VB IN JJ JJ NN”。
S204,根据标注语料事件集合中每个实例的事件句(text),取触发词前后各3个单词,得到事件短句context。
例如:例3中的事件句取触发词前后各3各单词得到事件短句:“government 11thconviction in its investigation”。
S205,对标注语料事件集合中每个实例中的事件句(text),把触发词的位置下标置为0,前后单词到触发词的距离为其各自的位置下标,得到事件句句内单词位置loc。以例3为例:
例3的句内单词位置为:<-13-12-11-10-9-8-7-6-5-4-3-2-10123456789101112131415161718192021>。
S206,对标注语料事件集合中每个实例,用新事件句sentence替换标注语料事件集合中的事件句text,并将词性信息postag、触发词还原词形trig_lemma、事件短句context和句内单词位置loc添入标注语料事件集合的所述实例中。标注事件句集合的形式变为:
<sentence><start><end><hopper_id><event_mention_id><type><subtype><realis><trigger><source><offset><trig_lemma><postag><context><loc>
以例2为例,标注事件句集合的形式如例5所示:
例5:<The conviction of29-year-oldAliAsad Chandia is the government's11th conviction in its investigation of what it called a“Virginia jihadnetwork”that used paintball games to train for global holy war.><302><506><h-8><em-120><justice><convict><actual><conviction><3f71fead3fa119ccdcdf01769ffee5b1><306><convict><DT NN IN CD NN JJ NNP NNP NNP VBZ DT NN POS CD NN IN PRPNN IN WP PRP VBD DT NNP VBD NN WDT VBD DT NNS TO VB IN JJ JJ NN><government11th conviction in its investigation><-13-12-11-10-9-8-7-6-5-4-3-2-1 0 1 2 34 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21>
S30,将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合。将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较(相同置为1,否则为0);根据事件句起始位置和结束位置计算两个事件句是否重叠(重叠值置1,否则置0)和二者距离;根据两个事件句的同指ID判断其是否相同(相同置为1,否则为0)。把以上信息都存入事件对匹配集合中。事件对匹配集合形如:
<triglem_match><type_match><subtype_match><realis_match><overlap><distance><cor_label>
分别对应触发词原形匹配值,事件句类型匹配值,事件句子类型匹配值,事件句形态匹配值,是否重叠,事件句距离,是否同指。
S301,将标注事件句集合中的任意两个事件句信息进行组合,得到事件对信息集合。例如:
将例1中的3个事件句信息进行两两组合,得到3对事件:<事件1,事件2><事件1,事件3>和<事件2,事件3>。所述事件对信息集合格式如下:
<sentence_1><start_1><end_1><hopper_id_1><event_mention_id_1><type_1><subtype_1><realis_1><trigger_1><source_1><offset_1><trig_lemma_1><postag_1><context_1><loc_1>||<sentence_2><start_2><end_2><hopper_id_2><event_mention_id_2><type_2><subtype_2><realis_2><trigger_2><source_2><offset_2><trig_lemma_2><postag_2><context_2><loc_2>
S302,将标注事件句集合每个实例中的两个事件句中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两对比,如果相同则置为1,反之则为0,存入事件对匹配集合中。事件对匹配集合中每个实例格式如下:
<triglem_match><type_match><subtype_match><realis_match>
以例1中第一个和第二个事件配对为例,事件对匹配集合的一个实例为例6所示:
例6:<1><1><1><1>
S303,根据事件句起始位置和结束位置计算标注事件句集合每个实例中的两个事件句是否重叠和二者的距离。如果重叠值置1,否则置0;距离是指两个事件句在文档内间隔的句子数目。把是否重叠和二者的距离的值存入事件对匹配集合中。
事件对匹配集合中每个实例格式如下:
<triglem_match><type_match><subtype_match><realis_match><overlap><distance>
以例1中第一个和第二个事件配对为例,事件对匹配集合的一个实例为例7所示:
例7:<1><1><1><1><0><2>
S304,根据标注事件句集合每个实例中的两个事件句的同指ID是否相同(相同置为1,否则为0)信息,存入事件对匹配集合中。
以例1中第一个和第二个事件配对为例,事件对匹配集合的一个实例如下所示:
事件1的同指ID为“h-8”,事件2的同指ID也为“h-8”,二者的同指ID相同则置1。
S40,将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络模型事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系。
S401,将事件对信息集合和事件句对匹配集合构造成神经网络能接受的输入形式,得到标注语料特征输入集合。
构造标注语料特征输入集合的具体方法如下:
对特征进行向量初始化,其中词汇使用Glove预训练的词向量,维度是50维,句内单词位置特征采取随机初始化的策略,维度是100维,事件对匹配集合采用实值。
对事件短句使用Glove预训练的词向量,维度是50维,作为输入B。
对事件对匹配集合采用实值输入,作为输入C。
标注语料特征输入集合中的每项由A、B、C和事件对匹配集合中的是否同指cor_label信息构成。
S402,使用深度学习工具(如keras等)搭建一个基于注意力机制的神经网络分类器,将标注语料特征输入集合作为输入,训练出事件同指消解模型;其中注意力机制就是对神经网络的隐藏层向量进行词向量和权重点积操作。所述神经网络事件同指消解模型包括标注语料特征输入集合和训练得到的参数。图11是神经网络分类器的流程图。
将事件对信息集合分别输入到神经网络中的Bi-LSTM模块、CNN模块和Attention模块,然后将3个模块的输出结果和事件对匹配集合拼接起来输入到分类器中,最后得出同指关系的预测结果。
S403,测试集按照S10,S20,S301,S302所述的方法构成事件对信息集合和事件对匹配集合,并按照S401构造出相同格式的输入A、B和C,得到测试集语料特征输入集合,调用基于神经网络事件同指消解模型对每对事件句进行事件同指判定,得到测试集语料预测集合。所述测试集语料预测集合中每对事件句的预测单元如下:
<事件句1,事件句2,预测同指关系P>。
其中,同指关系P是基于神经网络事件同指消解模型的预测结果,有0(不是同指关系),和非0(是同指关系)共2个值。例如:
将S301和例7构造成输入A、B和C输入到神经网络模型中,得到预测单元为:
<The conviction of 29-year-old Ali Asad Chandia is the government's11th conviction in its investigation of what it called a``Virginia jihadnetwork”that used paintball games to train for global holywar.,A Marylandteacher has been convicted of lending aid to a Pakistani terroristorganization.,1>
一种英文事件同指消解系统如图7所示,包括事件句预处理模块10、句子处理模块20、事件对处理模块30和同指关系预测模块40。
事件句预处理模块10,读取标注文档的事件标注信息,得到标注语料事件集合。统计标注语料事件集合中文档ID,同指ID,事件句ID,事件句类型,事件句子类型,事件句形态,以及触发词的起始位置,得到事件句信息集合。所述标注文档是已经标注了事件信息的文档集合,是本发明训练模型的基础。
句子处理模块20,对标注语料事件集合中每个实例,调用词形还原工具还原触发词(trigger),得到触发词还原词形trig_lemma;调用数据清洗工具和词性标注工具清洗和标注事件句(text)部分,得到新事件句sentence和词性信息postag;在每个触发词(trigger)前后各取事件句中的3个单词得到事件短句context;以每个触发词(trigger)为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置loc;用新事件句sentence替换标注语料事件集合中的事件句text,并将词性信息postag、触发词还原词形trig_lemma、事件短句context和句内单词位置loc添入标注语料事件集合的所述实例中。
事件对处理模块30,将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合。将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较(相同置为1,否则为0);根据事件句起始位置和结束位置计算两个事件句是否重叠(重叠值置1,否则置0)和二者距离;根据两个事件句的同指ID判断其是否相同(相同置为1,否则为0)。把以上信息都存入事件对匹配集合中。
同指关系预测模块40,将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络模型事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系。
其中,如图8所示,事件句子预处理模块10包括语料读取单元101。
语料读取单元101,根据标记读取标注文档中的事件标注信息,得到标注语料事件集合。
其中,如图9所示,句子处理模块20包括词形还原单元201、数据清洗单元202、词性标注单元203、事件短句抽取单元204、句内单词位置标记单元205和标注语料事件集合更新单元206。
词形还原单元201,对标注语料事件集合中每个实例的触发词(trigger)调用词形还原工具,得到触发词还原词形trig_lemma。
数据清洗单元202,调用清洗工具,将标注语料事件集合中每个实例中事件句text中单词的大写字母转换成小写字母并去除掉标点符号,得到每个实例的新事件句sentence。
词性标注单元203,对标注事件句集合中每个实例的事件句(text)调用词性标注工具,得到词性信息postag。所述词性标注工具为自然语言处理常用工具,如StanfordPosTag。
事件短句抽取单元204,根据标注语料事件集合中每个实例的事件句(text),取触发词前后各3个单词,得到事件短句context。
句内单词位置标记单元205,对标注语料事件集合中每个实例中的事件句(text),把触发词的位置下标置为0,前后单词到触发词的距离为其各自的位置下标,得到事件句句内单词位置loc。
标注语料事件集合更新单元206,对标注语料事件集合中每个实例,用新事件句sentence替换标注语料事件集合中的事件句text,并将词性信息postag、触发词还原词形trig_lemma、事件短句context和句内单词位置loc添入标注语料事件集合的所述实例中。
其中,如图10所示,事件对处理模块30包括事件对构造单元301,事件对匹配特征构造单元302,事件对重叠与距离构造单元303和事件对同指匹配构造单元304。
事件对构造单元301,将标注事件句集合中的任意两个事件句信息进行组合,得到事件对信息集合。
事件对匹配特征构造单元302,将标注事件句集合每个实例中的两个事件句中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两对比,如果相同则置为1,反之则为0,存入事件对匹配集合中。
事件对重叠与距离构造单元303,根据事件句起始位置和结束位置计算标注事件句集合每个实例中的两个事件句是否重叠和二者的距离。如果重叠值置1,否则置0;距离是指两个事件句在文档内间隔的句子数目。把是否重叠和二者的距离的值存入事件对匹配集合中。
事件对同指匹配构造单元304,根据标注事件句集合每个实例中的两个事件句的同指ID是否相同(相同置为1,否则为0)信息,存入事件对匹配集合中。
其中,如图10所示,同指关系预测模块40包括训练集输入单元401,训练模型单元402和测试集预测单元403。
训练集输入单元401,将事件对信息集合和事件句对匹配集合构造成神经网络能接受的输入形式,得到标注语料特征输入集合。
构造标注语料特征输入集合的具体方法如下:
对特征进行向量初始化,其中词汇使用Glove预训练的词向量,维度是50维,句内单词位置特征采取随机初始化的策略,维度是100维,事件对匹配集合采用实值。
对事件短句使用Glove预训练的词向量,维度是50维,作为输入B。
对事件对匹配集合采用实值输入,作为输入C。
标注语料特征输入集合中的每项由A、B、C和事件对匹配集合中的是否同指cor_label信息构成。
训练模型单元402,使用深度学习工具(如keras等)搭建一个基于注意力机制的神经网络分类器,将标注语料特征输入集合作为输入,训练出事件同指消解模型;其中注意力机制就是对神经网络的隐藏层向量进行词向量和权重点积操作。所述神经网络事件同指消解模型包括标注语料特征输入集合和训练得到的参数。
测试集预测单元403,测试集按照S10,S20,S301,S302所述的方法构成事件对信息集合和事件对匹配集合,并按照S401构造出相同格式的输入A、B和C,得到测试集语料特征输入集合,调用基于神经网络事件同指消解模型对每对事件句进行事件同指判定,得到测试集语料预测集合。所述测试集语料预测集合中每对事件句的预测单元如下:
<事件句1,事件句2,预测同指关系P>。
其中,同指关系P是基于神经网络事件同指消解模型的预测结果,有0(不是同指关系),和非0(是同指关系)共2个值。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (4)
1.一种英文事件同指消解方法,其特征在于,包括:
S10、读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合;
S20、对标注语料事件集合中每个实例,调用词形还原工具还原触发词,得到触发词还原词形;调用数据清洗工具和词性标注工具清洗和标注事件句部分,得到新事件句和词性信息;在每个触发词前后各取事件句中的3个单词得到事件短句;以每个触发词为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置;用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
S30、将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合;将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较,相同置为1,否则为0;根据事件句起始位置和结束位置计算两个事件句是否重叠和二者距离,其中,重叠值置1,否则置0;根据两个事件句的同指ID判断其是否相同,相同置为1,否则为0;把以上信息都存入事件对匹配集合中;
S40、将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系;
所述S20具体包括:
S201、对标注语料事件集合中每个实例的触发词调用词形还原工具,得到触发词还原词形;
S202、调用清洗工具,将标注语料事件集合中每个实例中事件句中单词的大写字母转换成小写字母并去除掉标点符号,得到每个实例的新事件句;
S203、对标注事件句集合中每个实例的事件句调用词性标注工具,得到词性信息;所述词性标注工具为自然语言处理常用工具;
S204、根据标注语料事件集合中每个实例的事件句,取触发词前后各3个单词,得到事件短句;
S205、对标注语料事件集合中每个实例中的事件句,把触发词的位置下标置为0,前后单词到触发词的距离为其各自的位置下标,得到事件句句内单词位置;
S206、对标注语料事件集合中每个实例,用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
所述S30具体包括:
S301、将标注事件句集合中的任意两个事件句信息进行组合,得到事件对信息集合;
S302、将标注事件句集合每个实例中的两个事件句中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两对比,如果相同则置为1,反之则为0,存入事件对匹配集合中;
S302、根据事件句起始位置和结束位置计算标注事件句集合每个实例中的两个事件句是否重叠和二者的距离;如果重叠值置1,否则置0;距离是指两个事件句在文档内间隔的句子数目;把是否重叠和二者的距离的值存入事件对匹配集合中;
S303、根据标注事件句集合每个实例中的两个事件句的同指ID是否相同信息,存入事件对匹配集合中,其中,相同置为1,否则为0;
所述S40具体包括:
S401、将事件对信息集合和事件句对匹配集合构造成神经网络能接受的输入形式,得到标注语料特征输入集合;
构造标注语料特征输入集合的具体方法如下:
对特征进行向量初始化,其中词汇使用Glove预训练的词向量,维度是50维,句内单词位置特征采取随机初始化的策略,维度是100维,事件对匹配集合采用实值;
对事件短句使用Glove预训练的词向量,维度是50维,作为输入B;
对事件对匹配集合采用实值输入,作为输入C;
标注语料特征输入集合中的每项由A、B、C和事件对匹配集合中的是否同指cor_label信息构成;
S402、使用深度学习工具搭建一个基于注意力机制的神经网络分类器,将标注语料特征输入集合作为输入,训练出事件同指消解模型;其中注意力机制就是对神经网络的隐藏层向量进行词向量和权重点积操作;所述神经网络事件同指消解模型包括标注语料特征输入集合和训练得到的参数;将事件对信息集合分别输入到神经网络中的Bi-LSTM模块、CNN模块和Attention模块,然后将3个模块的输出结果和事件对匹配集合拼接起来输入到分类器中,最后得出同指关系的预测结果;
S403、测试集按照S10,S20,S301,S302所述的方法构成事件对信息集合和事件对匹配集合,并按照S401构造出相同格式的输入A、B和C,得到测试集语料特征输入集合,调用基于神经网络事件同指消解模型对每对事件句进行事件同指判定,得到测试集语料预测集合;所述测试集语料预测集合中每对事件句的预测单元如下:
<事件句1,事件句2,预测同指关系P>;
其中,同指关系P是基于神经网络事件同指消解模型的预测结果,有0,和非0共2个值,其中,0不是同指关系,非0是同指关系。
2.一种英文事件同指消解系统,其特征在于,包括:
事件句预处理模块,读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合;
句子处理模块,对标注语料事件集合中每个实例,调用词形还原工具还原触发词,得到触发词还原词形;调用数据清洗工具和词性标注工具清洗和标注事件句部分,得到新事件句和词性信息;在每个触发词前后各取事件句中的3个单词得到事件短句;以每个触发词为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置;用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
事件对处理模块,将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合;将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较,相同置为1,否则为0;根据事件句起始位置和结束位置计算两个事件句是否重叠和二者距离,其中,重叠值置1,否则置0;根据两个事件句的同指ID判断其是否相同,相同置为1,否则为0;把以上信息都存入事件对匹配集合中;
同指关系预测模块,将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系;
所述句子处理模块具体包括:
词形还原单元,对标注语料事件集合中每个实例的触发词调用词形还原工具,得到触发词还原词形;
数据清洗单元,调用清洗工具,将标注语料事件集合中每个实例中事件句中单词的大写字母转换成小写字母并去除掉标点符号,得到每个实例的新事件句;
词性标注单元,对标注事件句集合中每个实例的事件句调用词性标注工具,得到词性信息;所述词性标注工具为自然语言处理常用工具;
事件短句抽取单元,根据标注语料事件集合中每个实例的事件句,取触发词前后各3个单词,得到事件短句;
句内单词位置标记单元,对标注语料事件集合中每个实例中的事件句,把触发词的位置下标置为0,前后单词到触发词的距离为其各自的位置下标,得到事件句句内单词位置;
标注语料事件集合更新单元,对标注语料事件集合中每个实例,用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
所述事件对处理模块具体包括:
事件对构造单元,将标注事件句集合中的任意两个事件句信息进行组合,得到事件对信息集合;
事件对匹配特征构造单元,将标注事件句集合每个实例中的两个事件句中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两对比,如果相同则置为1,反之则为0,存入事件对匹配集合中;
事件对重叠与距离构造单元,根据事件句起始位置和结束位置计算标注事件句集合每个实例中的两个事件句是否重叠和二者的距离;如果重叠值置1,否则置0;距离是指两个事件句在文档内间隔的句子数目;把是否重叠和二者的距离的值存入事件对匹配集合中;
事件对同指匹配构造单元,根据标注事件句集合每个实例中的两个事件句的同指ID是否相同信息,存入事件对匹配集合中,其中,相同置为1,否则为0;
所述同指关系预测模块包括:
训练集输入单元,将事件对信息集合和事件句对匹配集合构造成神经网络能接受的输入形式,得到标注语料特征输入集合;
构造标注语料特征输入集合的具体方法如下:
对特征进行向量初始化,其中词汇使用Glove预训练的词向量,维度是50维,句内单词位置特征采取随机初始化的策略,维度是100维,事件对匹配集合采用实值;
对事件短句使用Glove预训练的词向量,维度是50维,作为输入B;
对事件对匹配集合采用实值输入,作为输入C;
标注语料特征输入集合中的每项由A、B、C和事件对匹配集合中的是否同指cor_label信息构成;
训练模型单元,使用深度学习工具搭建一个基于注意力机制的神经网络分类器,将标注语料特征输入集合作为输入,训练出事件同指消解模型;其中注意力机制就是对神经网络的隐藏层向量进行词向量和权重点积操作;所述神经网络事件同指消解模型包括标注语料特征输入集合和训练得到的参数;将事件对信息集合分别输入到神经网络中的Bi-LSTM模块、CNN模块和Attention模块,然后将3个模块的输出结果和事件对匹配集合拼接起来输入到分类器中,最后得出同指关系的预测结果;
测试集预测单元,测试集按照S10,S20,S301,S302所述的方法构成事件对信息集合和事件对匹配集合,并按照S401构造出相同格式的输入A、B和C,得到测试集语料特征输入集合,调用基于神经网络事件同指消解模型对每对事件句进行事件同指判定,得到测试集语料预测集合;所述测试集语料预测集合中每对事件句的预测单元如下:
<事件句1,事件句2,预测同指关系P>;
其中,同指关系P是基于神经网络事件同指消解模型的预测结果,有0,和非0共2个值,其中,0是同指关系,非0是同指关系。
3.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811203139.0A CN109359184B (zh) | 2018-10-16 | 2018-10-16 | 英文事件同指消解方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811203139.0A CN109359184B (zh) | 2018-10-16 | 2018-10-16 | 英文事件同指消解方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359184A CN109359184A (zh) | 2019-02-19 |
CN109359184B true CN109359184B (zh) | 2020-08-18 |
Family
ID=65349178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811203139.0A Active CN109359184B (zh) | 2018-10-16 | 2018-10-16 | 英文事件同指消解方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359184B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134944A (zh) * | 2019-04-08 | 2019-08-16 | 国家计算机网络与信息安全管理中心 | 一种基于强化学习的指代消解方法 |
CN111241302B (zh) * | 2020-01-15 | 2023-09-15 | 北京百度网讯科技有限公司 | 职位信息图谱生成方法、装置、设备和介质 |
CN111859903B (zh) * | 2020-07-30 | 2024-01-12 | 思必驰科技股份有限公司 | 事件同指模型训练方法、事件同指消解方法 |
CN112580330B (zh) * | 2020-10-16 | 2023-09-12 | 昆明理工大学 | 基于中文触发词指导的越南语新闻事件检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN105302794A (zh) * | 2015-10-30 | 2016-02-03 | 苏州大学 | 一种中文同指事件识别方法及系统 |
CN107515851A (zh) * | 2016-06-16 | 2017-12-26 | 佳能株式会社 | 用于共指消解、信息提取以及相似文档检索的装置和方法 |
CN107679041A (zh) * | 2017-10-20 | 2018-02-09 | 苏州大学 | 基于卷积神经网络的英文事件同指消解方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
CN106021229B (zh) * | 2016-05-19 | 2018-11-02 | 苏州大学 | 一种中文事件同指消解方法 |
-
2018
- 2018-10-16 CN CN201811203139.0A patent/CN109359184B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN105302794A (zh) * | 2015-10-30 | 2016-02-03 | 苏州大学 | 一种中文同指事件识别方法及系统 |
CN107515851A (zh) * | 2016-06-16 | 2017-12-26 | 佳能株式会社 | 用于共指消解、信息提取以及相似文档检索的装置和方法 |
CN107679041A (zh) * | 2017-10-20 | 2018-02-09 | 苏州大学 | 基于卷积神经网络的英文事件同指消解方法及系统 |
Non-Patent Citations (1)
Title |
---|
面向多语料库的通用事件指代消解;陆震寰,孔 芳,周国栋;《中文信息学报》;20180131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109359184A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359184B (zh) | 英文事件同指消解方法和系统 | |
CN109325228B (zh) | 英文事件触发词抽取方法和系统 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
US9262406B1 (en) | Semantic frame identification with distributed word representations | |
JP2020098616A (ja) | テキストの意味を自動検出して一義性を自動測定する方法 | |
CN106021229B (zh) | 一种中文事件同指消解方法 | |
Braud et al. | Learning connective-based word representations for implicit discourse relation identification | |
Kolajo et al. | A framework for pre-processing of social media feeds based on integrated local knowledge base | |
Glickman et al. | A probabilistic classification approach for lexical textual entailment | |
CN111382571A (zh) | 一种信息抽取方法、系统、服务器和存储介质 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
Peng et al. | Using Chinese part-of-speech patterns for sentiment phrase identification and opinion extraction in user generated reviews | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
Larson et al. | Redwood: Using collision detection to grow a large-scale intent classification dataset | |
Dong et al. | Named entity recognition in the food field based on BERT and Adversarial training | |
Liu et al. | Biological event extraction using subgraph matching. | |
Padó et al. | Deciding Entailment and Contradiction with Stochastic and Edit Distance-based Alignment. | |
Mahafdah et al. | Arabic Part of speech Tagging using k-Nearest Neighbour and Naive Bayes Classifiers Combination. | |
El-Najjar et al. | Improving dependency parsing of verbal arabic sentences using semantic features | |
Kumar Kolya et al. | A hybrid approach for event extraction | |
Jayasuriya et al. | Sentiment classification of Sinhala content in social media | |
Kavehzadeh et al. | A transformer-based approach for persian text chunking | |
Batyrshin et al. | Advances in Computational Intelligence | |
Jung et al. | Multiple Agent Based Entailment System (MABES) for RTE. | |
Rao et al. | Automatic identification of cause-effect relations in tamil using CRFs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |