CN107679041A - 基于卷积神经网络的英文事件同指消解方法及系统 - Google Patents
基于卷积神经网络的英文事件同指消解方法及系统 Download PDFInfo
- Publication number
- CN107679041A CN107679041A CN201710997259.1A CN201710997259A CN107679041A CN 107679041 A CN107679041 A CN 107679041A CN 201710997259 A CN201710997259 A CN 201710997259A CN 107679041 A CN107679041 A CN 107679041A
- Authority
- CN
- China
- Prior art keywords
- event
- language material
- testing
- relation
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于卷积神经网络的英文事件同指消解方法及系统,为了提升事件同指消解性能而设计。本发明基于卷积神经网络的英文事件同指消解方法及系统,得到测试语料事件集合,然后通过引入多语料库通用的过滤策略降低数据分布不均衡的影响,并兼顾不同的事件标注策略,采用最小事件描述和事件间关系描述相结合的特征表示方法,通过引入全局优化对部分识别结果进行后处理。结合WordNet等外部资源进行事件间语义关系的计算。最后采用卷积神经网络模型与推理方法,利用深度学习来消解事件同指关系。本发明可以充分利用事件之间的各种关系及其所在的句子信息对事件同指消解进行识别和推理,从而提高了事件同指消解的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于卷积神经网络的英文事件同指消解方法及系统。
背景技术
作为信息的一个重要的载体,事件是人、物、事在特定时间和特定地点相互作用的事实。同一篇文章中通常会包含多个相互关联的事件,而同一个事件在不同的上下文中会采用不同的表述,当多个事件表述指向一个自然事件本体时,则认为这些事件表述间具有同指关系。
一般情况下,对于某一事件的报道,往往是先进行大致说明,然后对事件发生的时间、地点、参与者等进行详细说明,最后分析该事件造成的影响。通过事件同指消解将这些事件表述指向同一个自然事件能够更好的去理解自然事件。事件同指消解作为信息抽取的子任务,正确识别事件表述间的同指关系,不仅有助于理解事件本身,对事件间的逻辑语义关系分析、篇章理解、信息抽取等任务也意义重大。
事件同指消解最早在Ahn研究事件抽取问题时被提出,通过借鉴Florian研究实体同指消解的思想,将事件同指问题转化为事件表述对之间的相似度计算问题。近年来基于机器学习的事件同指研究取得了一定的成果,主要分为有监督的事件对模型消解研究和无监督的事件图模型消解研究两个流派。
在有监督的事件对模型研究方面,Chen等通过训练多个分类器对OntoNotes中不同的句法类型(例如,动词-名词同指,动词-动词同指)进行联合推理;Lee,Liu等人在特征工程基础上通过引入WordNet、FrameNet等知识库从而促进事件同指消解效果;Teng针对事件间的内在联系,提出了中文事件同指消解全局优化模型;Zeng首次将卷积神经网络引入实体关系分类,并证明了深度学习在关系分类任务上的有效性;Krause,Santos通过将词、词位置等信息嵌入到神经网络中,也在一定程度上提升了同指消解的效果;Ding分别考虑事件层次的语义信息和跨事件层次有关语义信息,并将这些信息嵌入到浅层卷积神经网络中,在事件多关系分类任务上取得了一定的提升。
针对事件同指语料较为欠缺的问题,部分学者提出了基于图模型的无监督事件同指消解方法。Do基于集中分布相似度和篇章间的联系提出了一种弱监督方法;Bejan等基于参数贝叶斯思想分别设计了基于混合狄里克雷分布的有限特征模型、基于MIBP(MarkovIndia Buffet Process)的无限特征模型以及基于因果隐马尔科夫模型和隐马尔科夫模型的事件同指混合模型。
当前,绝大多数的事件同指消解方法存在两个问题:1)目前的提出的模型在多语料库上没有适应性;2)普遍使用事件对模型进行同指消解,且并未考虑事件对之间的关系,导致事件对之间的结果相互矛盾,对最终的结果造成影响。
鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种基于卷积神经网络的英文事件同指消解方法及系统,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是为提供一种有效提升消解性能的基于卷积神经网络的英文事件同指消解方法及系统。
为达到上述发明目的,本发明基于卷积神经网络的英文事件同指消解方法,包括:
对需要进行事件同指消解的原始文本中每个文档分别进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对以及其特征信息,得到标注语料特征集合和测试语料特征集合,其中,所述标注语料集合是已经标注了事件信息的文档集合;
以事件对为单位,基于多语料通用过滤规则,将不可能具有同指关系的事件对滤去,其中在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留,但将这些事件对存储为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;再利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
以文档为单位,对事件同指关系第一集合中的所有事件对进行事件同指消解,得到事件同指关系集合。
具体地,所述的将不可能具有同指关系的事件对滤去具体包括:
事件对基于类型过滤:在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第一预定阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对基于时态过滤:在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第二预定阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
具体地,标注语料特征集合和测试语料特征集合的获取方法具体包括:
分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E;
为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合;为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合;
对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合;对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合;其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合;
分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对,其中,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合;
为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合;
为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并;
为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合;为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合。
具体地,事件同指关系第一集合的获取方法包括:
把标注语料特征集合中的特征作为输入,使用深度学习工具训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料特征集合、训练得到的参数和深度学习工具;
把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。
具体地,所述的事件同指关系集合获取方法具体包括:
对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对E1,E2和事件对E2,E3都为同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对E1,E3之间也具有同指关系,得到新的事件同指关系第一集合;
对于事件同指关系第一集合中的任意一个事件对E1,E2,如果事件E1和事件E2不属于同一个事件簇,则分别对事件E1和事件E2进行统计事件E1、事件E2所在的簇中其他事件的总数和与事件E1或事件E2具有同指关系的事件对数,比较事件E1的事件E2的总数与同指对数的比值,如果事件E1的值大于事件E2,则将事件E2从当前簇中移除并加入到事件E1所在的事件簇中,反之则将事件E1从当前簇中移除并加入事件E2所在的事件簇中;
其中,S501、S502并不区分执行先后顺序,为实时动态的更新,当S502执行后,如果发现此时有事件对符合S501,则再一次进行对S501,设置S501和S502循环进行的次数为3。
为达到上述发明目的,本发明基于卷积神经网络的英文事件同指消解系统,包括:
事件预处理模块,用于对需要进行事件同指消解的原始文本中每个文档分别行词语切分,句法分析和事件抽取,得到测试语料事件集合;
事件特征抽取模块,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合。其中,所述标注语料集合是已经标注了事件信息的文档集合;
事件对过滤模块,用于以事件对为单位,基于多语料通用过滤规则,将不可能具有同指关系的事件对滤去,其中,在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留但直接将这些事件对判为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对同指关系分类模块,用于根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
事件同指消解全局优化模块,用于以文档为单位,对事件同指关系第一集合中的所有事件对,进行事件同指消解,得到事件同指关系集合。
具体地,所述事件对过滤模块具体包括:
事件对类型过滤单元,在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对时态过滤单元,在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第二阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
具体地,所述事件特征抽取模块具体包括:
事件抽取单元,用于分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E;
事件句子特征抽取单元,用于为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合;为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合;
事件潜在特征单元,用于对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合;对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合;其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合;
事件对抽取单元,用于分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对,其中,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合;
事件基本特征抽取单元,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合;
事件对关系特征抽取单元,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并;
事件对特征组合单元,用于为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合;为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合。
具体地,所述事件同指关系分类模块包括:
事件对同指关系训练单元,用于把标注语料特征集合中的特征作为输入,使用深度学习工具训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料特征集合、训练得到的参数和深度学习工具;
事件对同指关系识别单元,用于把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。
具体地,所述事件同指消解全局优化模块包括:
传递性推理单元,用于对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对E1,E2和事件对E2,E3都为同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对E1,E3之间也具有同指关系,得到新的事件同指关系第一集合;
事件簇推理单元,对于事件同指关系第一集合中的任意一个事件对E1,E2,如果事件E1和事件E2不属于同一个事件簇,则分别对事件E1和事件E2进行统计事件E1、事件E2所在的簇中其他事件的总数和与事件E1或事件E2具有同指关系的事件对数,比较事件E1的事件E2的总数与同指对数的比值,如果事件E1的值大于事件E2,则将事件E2从当前簇中移除并加入到事件E1所在的事件簇中,反之则将事件E1从当前簇中移除并加入事件E2所在的事件簇中;
其中,传递性推理单元、事件簇推理单元不区分执行先后顺序,为实时动态的更新,当事件簇推理单元执行后,如果发现此时有事件对符合传递性推理单元,则再一次执行传递性推理单元,设置传递性推理单元和事件簇推理单元循环执行的次数为3。
与现有技术相比,本发明基于卷积神经网络的英文事件同指消解方法及系统具有以下优点:
本发明,首先得到测试语料事件集合,然后通过引入多语料库通用的过滤策略降低数据分布不均衡的影响,并兼顾不同的事件标注策略,采用最小事件描述和事件间关系描述相结合的特征表示方法,通过引入全局优化对部分识别结果进行后处理。最小事件描述也即与通用事件标注策略相关,仅考虑事件自身所包含的触发词及位置信息,事件间关系描述也即基于通用事件标注信息,结合WordNet等外部资源进行事件间语义关系的计算。最后采用卷积神经网络模型与推理方法,利用深度学习来消解事件同指关系。本发明提出篇章级别的中文事件同指消解方法和系统,带方法和系统能利用句子信息来识别篇章层次中的事件同指关系。在实现方法上,本发明采用噪音过滤、深度学习和全局推理相结合的方法,利用各种语言知识进行事件同指消解。本发明的方法和系统,与现有方法和系统相比,消解性能得到了明显提升。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明基于卷积神经网络的英文事件同指消解方法的流程图;
图2是本发明基于卷积神经网络的英文事件同指消解方法的预处理的流程图;
图3是本发明基于卷积神经网络的英文事件同指消解方法的抽取事件即句子特征的流程图;
图4是本发明基于卷积神经网络的英文事件同指消解方法的事件对过滤流程图;
图5是本发明基于卷积神经网络的英文事件同指消解方法的事件同指关系分类流程图;
图6是本发明基于卷积神经网络的英文事件同指消解方法的事件同指消解全局优化的流程图;
图7是本发明基于卷积神经网络的英文事件同指消解系统的框图;
图8是本发明基于卷积神经网络的英文事件同指消解系统的事件预处理模块的框图;
图9是本发明基于卷积神经网络的英文事件同指消解系统的事件及句子特征抽取模块的框图;
图10是本发明基于卷积神经网络的英文事件同指消解系统的事件对过滤模块的框图;
图11是本发明基于卷积神经网络的英文事件同指消解系统的事件同指关系分类模块的框图;
图12是本发明基于卷积神经网络的英文事件同指消解系统的事件同指全局优化模块的框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
如图1所示,本实施例基于卷积神经网络的英文事件同指消解方法,包括:
S10,对需要进行事件同指消解的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合。
S20,以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合。其中,所述标注语料集合是已经标注了事件信息的文档集合,是本发明进行学习和推理的基础。
S30,以事件对为单位,引入多语料通用过滤规则,在配对的过程中将不可能具有同指关系的事件对直接滤去,其中在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留但直接将这些事件对判为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
S40,根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;再利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合。
S50,以文档为单位,对事件同指关系第一集合中的所有事件对,利用事件关系推理方法、自反性推理方法和传递性推理方法进行事件同指消解,得到事件同指关系集合。
本实施例中,如图2所示,S10的具体过程如下:
S101,对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合。
例如:文档“广州各级妇联近来接获了许多投诉丈夫包二奶的案例,而且不少的家庭矛盾迅速激化,专家们呼吁妻子要有危机意识和自我保护的意识,建议运用法律手段维护子女以及自己的合法权益。”经过词语切分后为:
例1广州/n各级/r妇联/n近/v来/v接获/n了/u许多/m投诉/v丈夫/n包/v二/m奶/n的/u案例/n,/w而且/c不少/m的/u家庭/n矛盾/a迅速/a激化/v,/w专家/n们/k呼吁/v妻子/n要/v有/v危机/n意识/n和/c自我/r保护/v的/u意识/n,/w建议/v运用/v法律/n手段/n维护/v子女/n以及/c自己/r的/u合法/a权益/n。/w
S102,调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合。所述第二文档集合中每个实体标注格式为“实体/实体类型”。
例1经过实体识别后为:
例2:广州/LOC各级妇联/ORG近来接获了许多投诉丈夫/PER包二奶/PER的案例,而且不少的家庭矛盾迅速激化,专家/PER们呼吁妻子/PER要有危机意识和自我保护的意识,建议运用法律手段维护子女以及自己的合法权益。
其中,实体标签PER、ORG、LOC分别表示实体类型人物、组织、地点。
S103,对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
例2经过句法分析后为:
例3:((IP(IP(NP(NR广州)(NR各级)(NN妇联))(VP(ADVP(AD近来))(VP(VV接获)(AS了)(NP(CP(IP(NP(QP(CD许多))(NP(NN投诉)(NN丈夫)))(VP(VV包)(NP(NN二奶))))(DEC的))(NP(NN案例))))))(PU,)(IP(ADVP(AD而且))(NP(DNP(QP(CD不少))(DEG的))(NP(NN家庭)))(NP(NN矛盾))(VP(ADVP(AD迅速))(VP(VV激化))))(PU,)(IP(NP(NN专家们))(VP(VP(VV呼吁)(NP(NN妻子))(IP(VP(VV要)(VP(VE有)(NP(NP(NN危机)(NN意识))(CC和)(NP(DNP(NP(NP(PN自我))(NP(NN保护)))(DEG的))(NP(NN意识))))))))(PU,)(VP(VP(VV运用)(NP(NN法律)(NN手段)))(VP(VV维护)(NP(NP(NN子女))(CC以及)(NP(DNP(NP(PN自己))(DEG的))(ADJP(JJ合法))(NP(NN权益))))))))(PU。)))
其中,句法分析是指对句子中的词语语法功能进行分析。“NR”、“VV”、“NN”、“P”、“PU”、“AD”、“VE”、“CD”、“DEC”、“DEG”、“CC”、“M”、“NT”、“MSP”、“VC”、“PN”和“JJ”是句法分析的标签,分别表示专用名词、普通动词、普通名词、介词、标点符号、副词、词“有”、数量词、词“的”、词“的”、不确定词、单位词、时间词、连接词、确定词、代词和冠词;“IP”、“NP”、“VP”、“PP”、“ADVP”、“CP”、“QP”、“DNP”、“CLP”,分别表示子句、名词性短语、动词性短语、介词性短语、副词性短语、词“的”构成的修饰性关系短语、量词性短语、代词短语、单位词短语。
S104,对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
例3经过事件抽取后,抽取了3个事件:
例4:E1:Trigger=激化Etype=Confilict Args={家庭/ORG/Org}
E2:Trigger=呼吁Etype=Conatct Args={专家/PER,妇女/PER}
E3:Trigger=建议Etype=Conatct Args={专家/PER}
其中,E1是事件的编号,Trigger、Etype和Args分别是该事件的触发词、事件类型和论元集合;每个论元的格式为:论元/实体类型/论元角色。Org、Time分别表示论元角色组织、时间。
S20,以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合。其中,所述标注语料集合是已经标注了事件信息的文档集合,是本发明进行学习和推理的基础;
其中,所述标注语料集合是已经标注了实体、句法结构和事件信息的文档集合,每个文档的结构和例1-例4一致。
实施例2
如图3所示,本实施例基于卷积神经网络的英文事件同指消解方法,在实施例1的基础上,提供了一种实现S20的具体过程:
S201,分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E。所有从标注语料集合中抽取的事件对构成标注语料事件集合,所有从测试语料集合中抽取的事件对构成测试语料事件集合。
例4中有3个事件,可以组成3个事件:E1、E2和E3。
S202,为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合。为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合。其中,每个事件E的基本特征集合如下:
<1=E所在句子中的词><2=E所在句子中每个词的词性><3=E所在句子中每个词相对触发词的相对距离>
例如例4中的事件E1的基本特征如下:
例5:<1=[广州,各级,妇联,近来,接获,了,许多,投诉,丈夫,包,二奶,的,案例,而且,不少,的,家庭,矛盾,迅速,激化,,,专家们,呼吁,妻子,要,有,危机,意识,和,自我,保护,的,意识,,,运用,法律,手段,维护,子女,以及,自己,的,合法,权益,。]><2=[/n,/r,/n,/v,/v,/n,/u,/m,/v,/n,/v,/m,/n,/u,/n,/w,/c,/m,/u,/n,/a,/a,/v,/w,/n,/k,/v,/n,/v,/v,/n,/n,/c,/r,/v,/u,/n,/w,/v,/v,/n,/n,/v,/n,/c,/r,/u,/a,/n,w]><3=[-21,-20,-19,-18,-17,-16,-15,-14,-13,-12,-11,-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25]>
S203,对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合。对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合。其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合。
其中,卷积窗口的大小为3,卷积核的大小为128,词向量维度为300,词性向量为9,相对位置向量维度为8,所采用的激活函数为RELU,池化采取的策略为全局最大池化,隐层输出的维度为64.即句子特征用一个64的向量表示。
S204,分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对(如事件E1和E2,可构成(E1,E2)和(E2,E1)两个事件对,本发明只取其中一个)。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合。
需要说明的是,一个文档中任意2个事件可以构成2个事件对,假如一个文档有n个事件,则可以抽取n×(n-1)/2个事件对。例5中有5个事件,则可以抽取出10个事件对,如(E1,E2)、(E1,E3)、(E1,E4)、(E1,E5)等。
S205,为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合。为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合。其中,每个事件对(E1,E2)的基本特征集合如下:
<4=E1的类型-E2的类型><5=E1的子类型-E2的子类型><6=E1的时态-E2的时态><7=E1的触发词><8=E2的触发词><9=E1触发词的词根><10=E2触发词的词根><11=E1触发词的句法树深度><12=E2触发词的句法树深度>
例如例4中的事件E1和E2构成事件对(E1,E2)的基本特征如下:
例5:<4=Conatct-Conatct><5=Conatct-Conatct><6=Generic-Generic><7=呼吁><8=建议><9=呼吁><10=建议><11=3><12=3>
以上特征部分可由例2-例4中得到,其中特征4-10可由标记语料集合中读取到,特征11、12可由句法分析树中计算得出。
S206,为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并。为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并。其中,每个事件对(E1,E2)的关系特征集合如下:
<13=E1类型和E2类型是否相同(0不相同。1相同)><14=E1子类型和E2子类型是否相同(0不相同。1相同)><15=E1类型和E2时态是否相同(0不相同。1相同)><16=E1触发词与E2触发词语义是否一致(0不一致。1一致)><17=E1触发词词根与E2触发词词根语义是否一致(0不一致。1一致)><18=E1触发词的句法分析树深度与E2触发词句法分析树深度差>
例如,例4中事件E2和E3构成事件对(E2,E3)的关系特征如下:
例6:<13=1><14=1><15=1><16=1><17=1><18=0>
其中触发词语义相似计算方法使用语义相似度计算和词语匹配规则,前者可直接调用计算工具。后者匹配规则如下:
①如果两个词语从字符串角度上一样,则认为一致。
②否则,计算WordNet语义相似度,其结果大于等于0.5则认为一致。
③否则,如果具有相同前缀、后缀,则认为一致(如举行、举办。大选、民选)。
否则,则认为词语不一致。
事件E1与E2的触发词为“呼吁”、“建议”,经语义相似度计算为0.9,本发明归一为0-1整数,所以特征19为1。若有两个触发词经计算,相似度较小,则进行以上词语匹配规则。
把基本特征和关系合并,得到事件对E2和E3的特征集合{4~18}。
S207,为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合。为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合。
把句子特征和关系合并,得到事件对E2和E3的特征集合{1~19}。
S30,以事件对为单位,引入多语料通用过滤规则,在配对的过程中将不可能具有同指关系的事件对直接滤去,其中在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留但直接将这些事件对判为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
如图4所示,本实施例基于卷积神经网络的英文事件同指消解方法,在实施例2的基础上,提供了一种实现S30的具体过程:
S301,在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于某一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
例如,例4中事件E1和E2构成事件对(E1,E2)不符合过滤规则,对之进行过滤。
(E1type=Conflict,E2type=Contact)不一致
S302,在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于某一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
例如,例4中事件E1和E2构成事件对(E1,E2)不符合过滤规则,对之进行过滤。
S40,根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;再利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
如图5所示,上述各实施例中,S40的具体过程如下:
S401,把标注语料特征集合中的特征作为输入,使用深度学习工具,如tensorflow,theano等训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料(训练集)特征集合、训练得到的参数和深度学习工具;
S402,把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。所述事件同指关系第一集合中的每个事件对的格式如下:
<是否同指(0表示不同指;1表示同指),事件E1,事件E2,置信度P>
其中,是否同指与置信度P是卷积神经网络事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
例如:以下是对例4中的事件进行同指消解识别的输出结果:
例8:1E1,E2,0.08
0E2,E3,0.92
0E1,E3,0.11
注意,无论分类结果为同指(标签为1)还是不同指(标签为0),其置信度都表示具有同指关系的概率。
如图6所示,上述各实施例中,S50的具体过程如下:
S501,对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对(E1,E2)和(E2,E3)都是同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)也具有同指关系,得到新的事件同指关系第一集合。
例如,假设有以下分类结果:
例11:1E1,E2,0.8
1E2,E3,0.8
0E1,E3,0.3
由于同指关系具有传递性,事件E1与E2同指,E2与E3同指,则根据传递性推理将事件E1与E3修改为同指,即:1E1,E3,1。
S502,对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1和E2不属于同一个事件簇,则分别对E1和E2进行统计E1、E2所在的簇中其他事件的总数和与E1或E2具有同指关系的事件对数,比较E1的E2的总数与同指对数的比值,如果E1的值大于E2,则将E2从当前簇中移除并加入到E1的簇中,反之则将E1从当前簇中移除并加入E2中;
假设存在以下事件簇(E1,E3,E4),(E2,E5,E6)
E1和E4、E5均具有同指关系。E2仅仅和E5具有同指关系,且E1和E2在输出中有具有较大的概率被判为负例,则将E2从第二个簇中移除并加入第一个簇中,得到最终簇的结果为(E1,E2,E3,E4),(E5,E6)
以上S501、S502并不区分执行先后顺序,为实时动态的更新。例如当S502执行后,如果发现此时有事件对符合S501,则再一次进行S501的推理。同时为了避免陷入死循环,设置闭环的推理深度为3,在实际应用中也可以设置其他的推理深度。
实施例4
如图7所示,本实施例基于卷积神经网络的英文事件同指消解系统,包括事件预处理模块10、事件及论元特征抽取模块20、事件同指关系识别模块30、事件论元识别模块40、事件同指消解联合推理模块50。
事件预处理模块10,用于对需要进行事件同指消解的原始文本中每个文档分别调用分词工具、实体识别工具、句法分析工具和事件抽取工具进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
事件及论元特征抽取模块20,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合。其中,所述标注语料集合是已经标注了事件信息的文档集合,是本发明进行学习和推理的基础;
事件同指关系识别模块30,用于以事件对为单位,引入多语料通用过滤规则,在配对的过程中将不可能具有同指关系的事件对直接滤去,其中在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留但直接将这些事件对判为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件论元识别模块40,用于根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;再利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
事件同指消解全局优化模块50,用于以文档为单位,对事件同指关系第一集合中的所有事件对,利用事件关系推理方法、自反性推理方法和传递性推理方法进行事件同指消解,得到事件同指关系集合。
其中,如图8所示,事件预处理模块10包括分词单元101、实体识别单元102、句法分析单元103、事件抽取单元104。
分词单元101,对需要进行事件同指消解的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;
实体识别单元102,调用实体识别工具对第一文档集合中的每个文档识别文档中的实体并标注实体类型,得到第二文档集合。
句法分析单元103,对第二文档集合中的每个文档调用句法分析工具进行句法分析,得到第三文档集合;
事件抽取单元104,对第三文档集合中的每个文档调用事件抽取工具抽取事件及其属性,得到测试语料事件集合。
实施例5
如图9所示,本实施例基于卷积神经网络的英文事件同指消解系统,在实施例4的基础上,事件及论元特征抽取模块20包括事件抽取单元201,事件句子特征抽取单元202,事件潜在特征单元203,事件对抽取单元204,事件基本特征抽取单元205,事件对关系特征抽取单元206,事件对特征组合单元207。
事件抽取单元201,分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E。所有从标注语料集合中抽取的事件对构成标注语料事件集合,所有从测试语料集合中抽取的事件对构成测试语料事件集合。
事件句子特征抽取单元202,为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合;为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合。其中,每个事件E的基本特征集合如下:
<1=E所在句子中的词><2=E所在句子中每个词的词性><3=E所在句子中每个词相对触发词的相对距离>
事件潜在特征单元203,对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合;对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合;其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合。
事件对抽取单元204,分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对(如事件E1和E2,可构成(E1,E2)和(E2,E1)两个事件对,本发明只取其中一个)。所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合。
事件基本特征抽取单元205,为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合。其中,每个事件对(E1,E2)的基本特征集合如下:
<4=E1的类型-E2的类型><5=E1的子类型-E2的子类型><6=E1的时态-E2的时态><7=E1的触发词><8=E2的触发词><9=E1触发词的词根><10=E2触发词的词根><11=E1触发词的句法树深度><12=E2触发词的句法树深度>
其中,事件同指关系用数字表示,1表示具有同指关系,0表示不具有同指关系。
事件对关系特征抽取单元206,为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并。其中,每个事件对(E1,E2)的关系特征集合如下:
<13=E1类型和E2类型是否相同(0不相同;1相同)><14=E1子类型和E2子类型是否相同(0不相同;1相同)><15=E1类型和E2时态是否相同(0不相同;1相同)><16=E1触发词与E2触发词语义是否一致(0不一致;1一致)><17=E1触发词词根与E2触发词词根语义是否一致(0不一致;1一致)><18=E1触发词的句法分析树深度与E2触发词句法分析树深度差>
其中,两个触发词词语相似度使用基于WordNet的语义相似度计算和词语匹配规则。
事件对特征组合单元207,为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合;为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合;
如图10所示,事件同指关系识别模块30包括事件对类型过滤单元301、事件对时态过滤单元302。
事件对类型过滤单元301,在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于某一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集;
事件对时态过滤单元302,在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于某一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
其中,如图11所示,事件论元识别模块40包括事件对同指关系训练单元401、事件对同指关系识别单元402。
事件对同指关系训练单元401,把标注语料特征集合中的特征作为输入,使用深度学习工具训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料(训练集)特征集合、训练得到的参数和深度学习工具;
事件对同指关系识别单元402,把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。所述事件同指关系第一集合中的每个事件对的格式如下:
<是否同指(0表示不同指;1表示同指),事件E1,事件E2,置信度P>
其中,是否同指与置信度P是卷积神经网络事件同指消解模型的输出结果,置信度P为一个0-1之间分类结果,表示具有同指关系的概率。
如图12所示,事件同指消解联合推理模块50包括传递性推理单元501,事件簇推理单元502,事件距离推理单元503。
传递性推理单元501,对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对(E1,E2)和(E2,E3)都为同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对(E1,E3)之间也具有同指关系,得到新的事件同指关系第一集合。
事件簇推理单元502,对于事件同指关系第一集合中的任意一个事件对(E1,E2),如果E1和E2不属于同一个事件簇,则分别对E1和E2进行统计E1、E2所在的簇中其他事件的总数和与E1或E2具有同指关系的事件对数,比较E1的E2的总数与同指对数的比值,如果E1的值大于E2,则将E2从当前簇中移除并加入到E1的簇中,反之则将E1从当前簇中移除并加入E2中;
以上501、502并不区分执行先后顺序,为实时动态的更新。即当502执行后,如果发现此时有事件对符合501,则再一次进行501的推理。同时为了避免陷入死循环,设置闭环的推理深度为3。
本发明可以充分利用事件之间的各种关系及其所在的句子信息对事件同指消解进行识别和推理,从而提高了事件同指消解的性能。本发明在基于英文ACE2005和英文KBP2015语料库中的测试结果表明,本发明的系统比现有方法相比在综合指标F1上平均提高了14%左右。
本发明术语解释:
实体(Entity):一个语义类别中的对象或对象的集合,如人名、机构名和地名等。
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件。
论元(Argument):参与事件的实体,每个论元在事件中都有对应的角色。
角色(Role):事件的参与者和属性,一般用论元来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色。
触发词(Trigger):用于识别事件的核心词(一般为动词和名词居多)。如“生于”、“出生”等就是出生事件触发词。
句法分析树(Parsing Tree):对句子中的词语语法功能进行分析,并将其构建成树形结构。
事件同指消解(Event Coreference Resolution):事件同指(或共指)是事件的重要关系,表示两个事件指向同一个事件本体。事件同指消解则是寻找具有同指关系的事件链,同指链中的任意两个事件均具有同指关系。
MUC-6评价标准:消息理解会议(Message Understanding Conference,MUC)于1995年召开的第六次会议中增加了命名实体识别(Named Entities Recognition)和指代(Coreference)任务。该评价标准是一种基于链的算法,通过计算实验结果中共指链的丢失链接来计算召回率(Recall)和准确率(Precision),然后计算综合指标(F-Measure)。
B-CUBED评价标准:针对MUC评价标准未考虑只包含一个事件的链以及评价时不考虑链的长度等缺陷,提出的新的评价标准。分别计算召回率(Recall)和准确率(Precision),然后计算综合指标(F-measure)。
BLANK评价标准:对上述两个指标在评价时注重事件链而忽略了非同指事件对的缺陷,通过综合考虑事件对中的正例和负例来计算召回率(Recall)和准确率(Precision),然后计算综合指标(F-measure)。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (10)
1.一种基于卷积神经网络的英文事件同指消解方法,其特征在于,包括:
对需要进行事件同指消解的原始文本中每个文档分别进行词语切分,句法分析和事件抽取,得到测试语料事件集合;
以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对以及其特征信息,得到标注语料特征集合和测试语料特征集合,其中,所述标注语料集合是已经标注了事件信息的文档集合;
以事件对为单位,基于多语料通用过滤规则,将不可能具有同指关系的事件对滤去,其中在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留,但将这些事件对存储为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;再利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
以文档为单位,对事件同指关系第一集合中的所有事件对进行事件同指消解,得到事件同指关系集合。
2.根据权利要求1所述的基于卷积神经网络的英文事件同指消解方法,其特征在于,所述的将不可能具有同指关系的事件对滤去具体包括:
事件对基于类型过滤:在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第一预定阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对基于时态过滤:在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第二预定阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
3.根据权利要求1所述的基于卷积神经网络的英文事件同指消解方法,其特征在于,标注语料特征集合和测试语料特征集合的获取方法具体包括:
分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E;
为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合;为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合;
对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合;对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合;其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合;
分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对,其中,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合;
为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合;
为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并;
为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合;为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合。
4.根据权利要求1所述的基于卷积神经网络的英文事件同指消解方法,其特征在于,事件同指关系第一集合的获取方法包括:
把标注语料特征集合中的特征作为输入,使用深度学习工具训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料特征集合、训练得到的参数和深度学习工具;
把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。
5.根据权利要求1所述的基于卷积神经网络的英文事件同指消解方法,其特征在于,所述的事件同指关系集合获取方法具体包括:
对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对E1,E2和事件对E2,E3都为同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对E1,E3之间也具有同指关系,得到新的事件同指关系第一集合;
对于事件同指关系第一集合中的任意一个事件对E1,E2,如果事件E1和事件E2不属于同一个事件簇,则分别对事件E1和事件E2进行统计事件E1、事件E2所在的簇中其他事件的总数和与事件E1或事件E2具有同指关系的事件对数,比较事件E1的事件E2的总数与同指对数的比值,如果事件E1的值大于事件E2,则将事件E2从当前簇中移除并加入到事件E1所在的事件簇中,反之则将事件E1从当前簇中移除并加入事件E2所在的事件簇中;
其中,S501、S502并不区分执行先后顺序,为实时动态的更新,当S502执行后,如果发现此时有事件对符合S501,则再一次进行对S501,设置S501和S502循环进行的次数为3。
6.一种基于卷积神经网络的英文事件同指消解系统,其特征在于,包括:
事件预处理模块,用于对需要进行事件同指消解的原始文本中每个文档分别行词语切分,句法分析和事件抽取,得到测试语料事件集合;
事件特征抽取模块,用于以文档为单位,分别从预先标注了各类信息的标注语料集合和测试语料集合中抽取所有事件对及其特征信息,得到标注语料特征集合和测试语料特征集合。其中,所述标注语料集合是已经标注了事件信息的文档集合;
事件对过滤模块,用于以事件对为单位,基于多语料通用过滤规则,将不可能具有同指关系的事件对滤去,其中,在标注语料中直接进行丢弃,剩余的事件对构成标注语料事件对集合,在测试语料中进行保留但直接将这些事件对判为负例构成测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对同指关系分类模块,用于根据标注语料特征集合中标注语料事件对集合所有事件对的特征,训练一个卷积神经网络事件同指消解模型;利用所述卷积神经网络事件同指消解模型识别测试语料特征集合中测试语料事件对集合每个事件对的同指关系,与测试语料事件对负例集合合并得到事件同指关系第一集合;
事件同指消解全局优化模块,用于以文档为单位,对事件同指关系第一集合中的所有事件对,进行事件同指消解,得到事件同指关系集合。
7.根据权利要求6所述的基于卷积神经网络的英文事件同指消解系统,其特征在于,所述事件对过滤模块具体包括:
事件对类型过滤单元,在标注语料中该类型事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第一阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合;
事件对时态过滤单元,在标注语料中该时态事件对出现的频数以及对应它们以正例出现的频度,如果正例出现的比例低于第二阈值,则认为这两类事件为不相容事件,在标注语料中对这些事件对进行舍弃,剩余的事件对构成标注语料事件对集合,在测试语料中将这些事件对加入到测试语料事件对负例集合,剩余的事件对构成测试语料事件对集合。
8.根据权利要求6所述的基于卷积神经网络的英文事件同指消解系统,其特征在于,所述事件特征抽取模块具体包括:
事件抽取单元,用于分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的每个事件E;
事件句子特征抽取单元,用于为标注语料事件集合中的每个事件从标注语料集合中抽取所述事件的基本特征,构成标注语料事件句子特征集合;为测试语料事件集合中每个事件对从测试语料事件集合中抽取所述事件对的基本特征,构成测试语料事件句子特征集合;
事件潜在特征单元,用于对标注语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到标注语料潜在特征集合;对测试语料事件句子特征集合中的特征通过卷积神经网络进行潜在特征抽取,添加到测试语料潜在特征集合;其中每个事件E的潜在特征获取过程如下:
对事件中每个句子特征分别进行向量初始化,其中词汇使用Google预训练的词向量,词性和相对位置采取随机初始化的策略,将初始化的向量通过卷积层、池化层以及隐层得到一个事件表征矩阵M,所有的M组合成为语料潜在特征集合;
事件对抽取单元,用于分别从标注语料集合和测试语料集合中,以文档单位抽取每个文档中的任意两个事件,两两构成一个事件对,其中,所有从标注语料集合中抽取的事件对构成标注语料事件对集合,所有从测试语料集合中抽取的事件对构成测试语料事件对集合;
事件基本特征抽取单元,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取所述事件对的基本特征,并加入已标注的事件同指关系,构成标注语料事件对特征集合;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的基本特征,构成测试语料事件对特征集合;
事件对关系特征抽取单元,用于为标注语料事件对集合中的每个事件对从标注语料集合中抽取的所述事件对的关系特征,和标注语料事件对特征集合中的所述事件对的基本特征合并;为测试语料事件对集合中的每个事件对从测试语料集合中抽取所述事件对的关系特征,和测试语料事件对集合中的所述事件对的基本特征合并;
事件对特征组合单元,用于为标注语料事件对集合中的每个事件对获取其在标注语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在标注语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到标注语料特征集合;为测试语料事件对集合中的每个事件对获取其在测试语料事件对特征集合中的所属事件对的关系特征,并获取这个事件对中两个事件在测试语料潜在特征集合中的两个特征,并将之与事件对关系特征合并,添加到测试语料特征集合。
9.根据权利要求6所述的基于卷积神经网络的英文事件同指消解系统,其特征在于,所述事件同指关系分类模块包括:
事件对同指关系训练单元,用于把标注语料特征集合中的特征作为输入,使用深度学习工具训练得到一个卷积神经网络事件同指消解模型;所述卷积神经网络事件同指消解模型包括标注语料特征集合、训练得到的参数和深度学习工具;
事件对同指关系识别单元,用于把测试语料特征集合中的每个事件对的特征作为输入,调用卷积神经网络事件同指消解模型识别每个所述事件对的同指关系,并与之前已经通过过滤得到的测试语料事件对负例集合合并得到事件同指关系第一集合。
10.根据权利要求6所述的基于卷积神经网络的英文事件同指消解系统,其特征在于,所述事件同指消解全局优化模块包括:
传递性推理单元,用于对于事件同指关系第一集合中的任意三个事件E1,E2,E3,如果事件对E1,E2和事件对E2,E3都为同指事件对,则根据事件同指关系具有传递性修改事件同指关系第一集合中的事件对E1,E3之间也具有同指关系,得到新的事件同指关系第一集合;
事件簇推理单元,对于事件同指关系第一集合中的任意一个事件对E1,E2,如果事件E1和事件E2不属于同一个事件簇,则分别对事件E1和事件E2进行统计事件E1、事件E2所在的簇中其他事件的总数和与事件E1或事件E2具有同指关系的事件对数,比较事件E1的事件E2的总数与同指对数的比值,如果事件E1的值大于事件E2,则将事件E2从当前簇中移除并加入到事件E1所在的事件簇中,反之则将事件E1从当前簇中移除并加入事件E2所在的事件簇中;
其中,传递性推理单元、事件簇推理单元不区分执行先后顺序,为实时动态的更新,当事件簇推理单元执行后,如果发现此时有事件对符合传递性推理单元,则再一次执行传递性推理单元,设置传递性推理单元和事件簇推理单元循环执行的次数为3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710997259.1A CN107679041B (zh) | 2017-10-20 | 2017-10-20 | 基于卷积神经网络的英文事件同指消解方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710997259.1A CN107679041B (zh) | 2017-10-20 | 2017-10-20 | 基于卷积神经网络的英文事件同指消解方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679041A true CN107679041A (zh) | 2018-02-09 |
CN107679041B CN107679041B (zh) | 2020-12-01 |
Family
ID=61140411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710997259.1A Active CN107679041B (zh) | 2017-10-20 | 2017-10-20 | 基于卷积神经网络的英文事件同指消解方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679041B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359184A (zh) * | 2018-10-16 | 2019-02-19 | 苏州大学 | 英文事件同指消解方法和系统 |
CN110365691A (zh) * | 2019-07-22 | 2019-10-22 | 云南财经大学 | 基于深度学习的钓鱼网站判别方法及装置 |
CN111104477A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN111797233A (zh) * | 2020-06-12 | 2020-10-20 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN111859903A (zh) * | 2020-07-30 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 事件同指模型训练方法、事件同指消解方法 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302794A (zh) * | 2015-10-30 | 2016-02-03 | 苏州大学 | 一种中文同指事件识别方法及系统 |
CN106021229A (zh) * | 2016-05-19 | 2016-10-12 | 苏州大学 | 一种中文事件同指消解方法和系统 |
-
2017
- 2017-10-20 CN CN201710997259.1A patent/CN107679041B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302794A (zh) * | 2015-10-30 | 2016-02-03 | 苏州大学 | 一种中文同指事件识别方法及系统 |
CN106021229A (zh) * | 2016-05-19 | 2016-10-12 | 苏州大学 | 一种中文事件同指消解方法和系统 |
Non-Patent Citations (4)
Title |
---|
AGATA CYBULSKA等: ""Using semantic relations to solve event coreference in text"", 《PROCEEDINGS OF THE LREC WORKSHOP ON SEMANTIC RELATIONS-II ENHANCING RESOURCES AND APPLICATIONS(SEMREL 2012)》 * |
JING LU等: ""Joint inference for event coreference resolution"", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS:TECHNICAL PAPERS》 * |
SEBASTIAN KRAUSE等: ""Event Linking with Sentential Features from Convolutional Neural Networks"", 《PROCEEDINGS OF THE 20TH SIGNLL CONFERENCE ON COMPUTATIONAL NATURAL LANGUAGE LEARNING(CONLL)》 * |
张宁等: ""基于机器学习方法的英文事件代词消解研究"", 《中文信息学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359184B (zh) * | 2018-10-16 | 2020-08-18 | 苏州大学 | 英文事件同指消解方法和系统 |
CN109359184A (zh) * | 2018-10-16 | 2019-02-19 | 苏州大学 | 英文事件同指消解方法和系统 |
CN111104477A (zh) * | 2018-10-29 | 2020-05-05 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN111104477B (zh) * | 2018-10-29 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN110365691A (zh) * | 2019-07-22 | 2019-10-22 | 云南财经大学 | 基于深度学习的钓鱼网站判别方法及装置 |
CN110365691B (zh) * | 2019-07-22 | 2021-12-28 | 云南财经大学 | 基于深度学习的钓鱼网站判别方法及装置 |
CN113297843A (zh) * | 2020-02-24 | 2021-08-24 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN111797233B (zh) * | 2020-06-12 | 2021-04-30 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN111797233A (zh) * | 2020-06-12 | 2020-10-20 | 南京擎盾信息科技有限公司 | 基于垂直领域的事件链结构识别的方法和装置 |
CN111859903A (zh) * | 2020-07-30 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 事件同指模型训练方法、事件同指消解方法 |
CN111859903B (zh) * | 2020-07-30 | 2024-01-12 | 思必驰科技股份有限公司 | 事件同指模型训练方法、事件同指消解方法 |
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
CN115859968B (zh) * | 2023-02-27 | 2023-11-21 | 四川省计算机研究院 | 一种基于自然语言解析及机器学习的政策颗粒化分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107679041B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679041A (zh) | 基于卷积神经网络的英文事件同指消解方法及系统 | |
CN106055536B (zh) | 一种中文事件联合推理方法 | |
Mohammed et al. | Arabic named entity recognition using artificial neural network | |
CN106021229B (zh) | 一种中文事件同指消解方法 | |
Vashishtha et al. | Temporal reasoning in natural language inference | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
Gast et al. | The areal factor in lexical typology | |
Goel et al. | Studying leaders & their concerns using online social media during the times of crisis-A COVID case study | |
CN110399496A (zh) | 一种基于cr决策树的知识图谱构建方法 | |
Jayaweera et al. | Hidden markov model based part of speech tagger for sinhala language | |
Chesnevar et al. | An argumentative approach to assessing natural language usage based on the web corpus | |
CN107862037A (zh) | 一种基于实体连通图的事件模版构造方法 | |
CN104572633A (zh) | 一种确定多义词词义的方法 | |
CN106202036B (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
Chen et al. | Exploring how online responses change in response to debunking messages about COVID-19 on WhatsApp | |
CN107992473A (zh) | 基于逐点互信息技术的诈骗信息特征词提取方法及系统 | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
Bügel et al. | Multilingual analysis of twitter news in support of mass emergency events | |
Xu et al. | COVID-19 vaccine sensing: Sentiment analysis from Twitter data | |
Liu et al. | Recognition of collocation frames from sentences | |
Li et al. | Identification of public opinion on COVID-19 in microblogs | |
Li et al. | Web of things based social media fake news classification with feature extraction using pre-trained convoluted recurrent network with deep fuzzy learning | |
Angelopoulou et al. | Analysis of public sentiment on COVID-19 mitigation measures in social media in the United States using machine learning | |
Karagoz et al. | Extracting location information from crowd-sourced social network data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |