CN102298635B - 事件信息融合方法和系统 - Google Patents
事件信息融合方法和系统 Download PDFInfo
- Publication number
- CN102298635B CN102298635B CN 201110269307 CN201110269307A CN102298635B CN 102298635 B CN102298635 B CN 102298635B CN 201110269307 CN201110269307 CN 201110269307 CN 201110269307 A CN201110269307 A CN 201110269307A CN 102298635 B CN102298635 B CN 102298635B
- Authority
- CN
- China
- Prior art keywords
- event
- argument
- mark
- text
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种事件信息融合方法和系统,用于对事件信息进行抽取、补全、事件聚类和融合,形成事件信息完整度高的完备事件。本发明实施例方法包括:生成包括多个事件的初选事件集合;比较初选事件集中的事件与事件抽取模式的相似度,形成候选事件集合;甄别和标注候选事件集合,生成训练样本,通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;从待抽取完备事件的网页中获取网页正文,生成事件标注正文,对存在结构缺失的子句进行结构补全,生成事件补全标注正文;抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;对第一事件集合的事件实例进行聚类,再进行归一化,生成完备事件。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种事件信息融合方法和系统。
背景技术
由于本发明涉及了事件信息处理系统中的多个和事件相关的概念,为了更好的理解本发明,先对相关概念作出说明:
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件,由于表达方式的不同,每个特定的事件可能有不止一个的事件实例。
实体(Entity):一个语义类别中的对象或对象的集合,如人名、交通工具和地名等。
事件实例(Event Mention,EM):描述一个事件的句子或子句,如“张三1973年出生于江苏苏州。”就是一个类别为出生事件的事件实例。
锚(Anchor):事件的触发词(一般为动词和名词居多)称为锚,用于识别事件。如“生于”、“出生”等就是出生事件的锚。
事件角色(Event Role):事件包含的元素就是事件角色,如出生事件包含“人名”、“出生时间”、“出生地点”等角色。
事件论元(Event Argument):事件角色的实例(或取值)就是事件论元。如“1997年”、“1997年5月3日”等就是特定的出生事件中的角色“出生时间”的论元。
同指事件实例(Coreference Event Mentions):描述同一事件的事件实例。如图1中EM1和EM2就是同指事件实例,简称同指事件,都是描述了永州法院枪击案中的死亡事件。
相关事件(Related Events):两个或多个事件存在内在联系,这些事件称为相关事件,如图1中EM3(攻击事件)、EM4(死亡事件)和EM5(受伤事件)就是相关事件,它们描述了一个主题事件“永州法院枪击事件”的三个侧面。
完备事件(Complete Event):各个事件角色的论元尽可能不缺失且内容尽可能完整的事件称为完备事件。如图1中死亡事件EM1、EM2和EM4描述了同一个事件,它们是同指事件,假设一个死亡事件有4个角色:死亡时间、死亡地点、死亡人员和凶手。那么,这3个事件实例都缺少部分论元或论元的内容不完备,如EM1缺少死亡时间、死亡地点和凶手,另外死亡人员信息也不完备,根据同指事件EM1、EM2和EM4,以及它们的相关事件EM3,可以得到一个完备事件。
事件融合(Events Fusion):针对每个特定的事件,根据该事件的同指事件和相关事件的描述,融合生成一个描述尽可能完备、论元内容完整全面的完备事件的过程,也就是根据同指事件和相关事件生成完备事件的过程,如由图1中EM1、EM2、EM4和EM3得到EM6的过程就是事件融合的过程。
指代消解(Coreference Resolution):如果两个词或短语指示现实世界中同一实体,那么它们存在指代关系,指代消解就是在文档中找出指示同一个实体的所有词或短语,把它们链接成为一个指代链。如上面两个句子中就存在一条指代链“词或短语←→它们←→词或短语”。
基于互联网的信息抽取技术一般分为两种形式:半结构化文本信息抽取和无结构化文本信息抽取,前者主要根据网页中的HTML标注生成包装器(Wrapper)并利用包装器来从文本中抽取信息,它主要用于抽取那些信息表示具有一定结构的网页中的数据,如商品比价系统就是它的一个应用实例。目前,绝大多数的Web信息抽取系统和方法就属于这一类;而后者针对的是自然文本,如网页的正文、邮件的正文等,自然文本由大段的文字组成,而这些文字之间并无结构或标注,所以在实现上比前一种方法更加困难,事件信息处理就属于这一类。
目前,事件信息抽取研究主要集中在简单语句或者句群中的事件抽取,没有对事件抽取后的事件融合技术,使得事件信息不完整和不准确,存在事件属性缺失的问题。
发明内容
本发明实施例提供了一种事件信息融合方法和系统,用于对事件信息进行抽取、事件属性补全、事件聚类和融合,形成事件信息完整度高的完备事件。
本发明实施例提供了一种事件信息融合方法,包括以下步骤:
设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;
比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文;
抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合;
对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合,所述同指事件链根据聚成一类的事件实例生成,所述同指事件链的具体形式为<Coreference Events Cata=x>若干个事件实例</Coreference Events>;
根据所述同指事件链对所述第三事件集合的事件论元进行归一化,生成完备事件;
抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合具体过程为:
对所述事件补全标注正文进行时间、量词和专有名词的规范化,形成事件规范化标注正文;
将所述事件规范化标注正文中的每个子句作为候选事件,根据所述事件识别和抽取模型特征的定义从所述事件规范化标注正文中抽取每个子句特征,用向量表示所述子句特征,输入所述事件识别和抽取模型;
根据所述子句特征,用设置了参数的最大熵分类器计算每个子句和在训练样本中每类事件的相似度;
如果所述子句和每类事件的相似度取值都小于一个预设阈值,则该子句不是一个事件,否则,取相似度取值最高的事件类别作为该子句的事件类别,并在所述事件规范化标注正文中进行标注,形成事件抽取正文;
从一个事件实例中抽取所有的实体,删除实体类型与该事件模板中定义的所有角色的类型都不匹配的实体,形成候选论元集合;
根据论元识别和抽取模型特征的定义从所述事件抽取正文的标注中为每个候选论元抽取其特征;
把所述每个候选论元的特征用向量表示,输入到论元识别和抽取模型;
根据所述候选论元的特征,用设置了参数的最大熵分类器计算每个候选论元和训练样本中该事件的各角色的相似度;
对于候选论元集合的每个候选论元,如果它和所有角色的相似度取值都小于一个预设阈值,则该候选论元不是一个该事件的论元;否则,取和它相似度取值最高的角色标记为该候选论元的角色,并存储到事件抽取正文中;
从事件抽取正文中抽取所有的事件及其事件类别,生成所述第一事件集合。
依据本发明又一实施例的一种事件信息融合系统,包括:
规则和模型生成模块,用于生成训练样本,并根据所述训练样本采用最大熵和决策树学习器生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
文本预处理模块,用于对初选事件集合进行标注,生成事件标注正文;
零指代识别模块,用于判断所述事件标注正文句法结构上是否有缺失成分,如果有则调用零指代消解模型进行填充,生成事件补全标注正文;
实体规范化模块,用于把事件补全标注正文中的时间、数量词和各类专用名词调用规则进行规范化处理,形成事件规范化标注正文;
事件抽取模块,用于调用事件识别和抽取模型从事件规范化正文中抽取出事件实例,并调用论元识别和抽取模型识别出事件实例中各个角色对应的论元,得到第一事件集合;
同指事件识别模块,用于对所述第一事件集合中的事件实例按照事件类别分成类,对每类事件中的事件实例进行聚类,生成同指事件链,把所有的同指事件链加入第一事件集合,得到第二事件集合,所述同指事件链根据聚成一类的事件实例生成,所述同指事件链的具体形式为<Coreference EventsCata=x>若干个事件实例</Coreference Events>;
相关事件推理模块,用于根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;
事件融合模块,用于根据所述同指事件链对第三事件集合的事件论元进行归一化,生成完备事件。
从以上技术方案可以看出,本发明实施例具有以下优点:
(1)根据事件表述时属性省略成分偏多的特点,在事件抽取前加入零指代识别模块,跨句子补全缺失的句子成分,提高事件抽取和论元识别的性能;
(2)根据同指事件,在系统中加入同指事件识别模块,利用同指事件描述同一事件的事实,来补全事件论元;
(3)增加了相关事件推理模块,从相关事件中获取缺失的论元,进一步明确表述不清楚的事件论元;
(4)对事件各属性进行识别,聚类和归一化,提高了事件信息表述的准确度和完整性。
附图说明
图1是本发明事件信息融合方法的一个应用实例示意图;
图2是本发明事件信息融合方法的实施例流程示意图;
图3是本发明事件信息融合系统的实施例模块示意图;
图4是本发明事件信息融合系统的规则和模型生成模块结构示意图;
图5是本发明事件信息融合系统的文本预处理模块结构示意图;
图6是本发明事件信息融合系统的零指代识别模块结构示意图;
图7是本发明事件信息融合系统的实体规范化模块结构示意图;
图8是本发明事件信息融合系统的事件抽取模块结构示意图;
图9是本发明事件信息融合系统的事件融合模块结构示意图。
具体实施方式
本发明实施例提供了一种事件信息融合方法和系统,用于对事件信息进行抽取、事件属性补全、事件聚类和融合,形成事件信息完整度高的完备事件。以下将结合具体实施例详细描述本发明的实施过程,对本领域技术人员一些较常用的技术手段不做详细描述,以避免造成对本发明不必要的限制。
参考图2,所示为本发明事件信息融合方法的流程示意图,一种事件信息融合方法,包括以下步骤:
S10,设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;
S10更具体的动作过程为:
S101,提供一个界面让用户定义需要抽取的事件及其相关事件的模板,包括事件名称、事件类别、事件常用锚集合、锚的类型、每个角色的名称、角色类型、角色是否可省略等属性;
例如死亡事件的角色定义如下:
另外,用户根据系统提供的标注界面,生成第一标注样本种子库,该库中每类事件至少需要5个标注的事件样本,再调用句法和依存关系分析工具对第一标注样本种子库中的句子进行句法和依存关系的标注,生成带句法树和依存关系的第二标注样本种子库;
S102,根据用户定义的事件模板,从第二标注样本种子库中取出一个标注的事件实例,从标注信息中得到该事件实例的锚和各个角色对应的论元,把锚分别和其中的每个角色组成一个形式为<锚集合,论元及其属性>的二元组,论元的属性包括论元类型如时间、人名、地名等、是否可以是代词、锚和论元的依存路径、包含锚和论元的最小句法树等,再把二元组中的锚和该事件实例对应的事件模板中定义的锚集合合并生成了二元组中的锚集合,得到了用二元组表示的事件抽取模式,以下就是死亡事件的一个模板:
(“死亡”,Role(Cata=2,Type=Person,可以为代词,“nsubj,dobj,range->dobj,...”,....))
S103,针对用户定义的每类事件,如死亡事件、攻击事件和受伤事件等,首先从第二标注样本种子库中抽取每个事件实例的论元和锚,两两组合构成若干个由2个关键词组成的检索条件,如:事件“12人死于交通事故”可以生成“人死于”、“人交通事故”和“事故人”三个查询条件,通过搜索引擎进行查询扩展,查询包含该检索条件的网页,得到一个网页集合;
S104,从该网页集合中删除不包含任意一个检索条件的句子,把剩余的句子利用句法和依存关系分析工具进行句法和依存关系标注,构成初选事件集合。
S20,比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
S20更具体的动作过程为,把初选事件集合中的每个句子分别和该类事件的事件抽取模式进行相似度计算得到该句子和每个模式的相似度,再累加得到所有相似度的总和,如该总和大于一个预设阈值,则该句子标识为候选事件,否则标识为非事件句子,所有的候选事件生成候选事件集合。
为了事件信息聚类和融合,需要定义和生成模型对事件信息进行处理。
模型的定义和生成过程如下:
根据系统提供的界面,对候选事件集合中的事件实例和论元进行甄别和标注,标注的内容包括事件、论元、实体、指代链等信息;
如果每类事件的个数小于100个,则继续获取该类事件的实例;
对每个事件实例,标注同指事件链、缺失论元填充路径和每个同指事件链的完备事件,经过以上步骤生成了一个训练样本。
抽取训练样本中所有的缺失论元填充路径,从中取得缺失成分标记,该缺失成分的可能词性、在句子中的成分、其上下文,指它前面和后面的词语的标记,缺失成分的先行语,指用来填充的部分、先行语的词性、在句子中的成分、其上下文及其标注等信息作为特征,每个特征的值是“1”和“0”,“1”表示该特征存在,“0”表示该特征不存在,把这些特征交给最大熵分类器根据最大熵原理进行分析,最大熵分类器从符合条件的训练样本分布中选择熵最大的分布作为最优的分布,从而学习到最大熵分类器需要的各个参数,构造出由训练样本、参数和最大熵分类器三者组成的零指代消解模型;
抽取训练样本中所有标注的事件,从中取得锚、锚的词性、锚的前一词和后一词及其词性、句中实体的类型等平面特征,句法树的深度、锚的依存关系、包含锚的短语的类型等句法特征,锚在知网中的语义类别等语义特征作为事件的特征,每个特征的值是“1”和“0”,“1”表示该特征存在,“0”表示该特征不存在,把这些特征交给最大熵分类器根据最大熵原理进行分析,最大熵学习器从符合条件的训练样本分布中选择熵最大的分布作为最优的分布,从而学习到最大熵分类器需要的各个参数,构造出由训练样本、参数和最大熵分类器三者组成的事件识别和抽取模型;
抽取训练样本中所有标注的论元,从中取得锚、事件类型、实体类型、实体的核心词、锚的前一词和后一词及其词性平面特征,包含锚的子句法树、实体的位置、实体和锚的依存路径等句法特征作为论元的特征,每个特征的值是“1”和“0”,“1”表示该特征存在,“0”表示该特征不存在,把这些特征交给最大熵分类器根据最大熵原理进行分析,最大熵学习器从符合条件的训练样本分布中选择熵最大的分布作为最优的分布,从而学习到最大熵分类器需要的各个参数,构造出由训练样本、参数和最大熵分类器三者组成的事件论元识别和抽取模型;
把训练样本中和论元相关的各种标注信息输入决策树学习器,从根结点开始从上到下遍历决策树,每个结点是一个分类问题,对每个结点的不同判别导致了不同的走向,最后到达叶子结点,整条路径就是一条规则。得到的所有规则构成了相关事件推理规则。
S30,从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
S30更具体的动作过程为:把待抽取完备事件的网页表示成一棵DOM树,遍历这棵DOM树查找到最内层的常用分块标记,如:<DIV>、<TABLE>等,把每个分块标记包含的所有结点抽取出来构成一个个区块,根据每个区块中的文字、链接、视频、邮件地址和图片的数目等统计信息计算得到一个综合评分,如果该综合评分大于一个预设的阈值,则该区块是正文块,否则就删除该区块,可能是导航块、广告块等,最后把所有剩下的正文块合并,得到了网页正文。图1中上半部分是从一个网页抽取的正文的部分内容,不包括“<>”内的标注信息,再调用已有的分词工具把网页正文中的句子分成一个个词或短语,再调用实体识别工具在分词后的正文中识别出文中包含的实体。在此基础上,调用已有的句法分析工具和依存关系分析工具对识别了实体的正文的每个句子标注其句法树和依存关系树,形成事件标注正文。
S40,判断事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对存在结构缺失的子句进行结构补全,生成事件补全标注正文;
S40更具体的动作过程为:根据标注正文中每个句子的句法树,找到所有的最内层“IP”和“CP”标记,把该标记包含的所有结点抽取出来得到最内层子句。如附图1中的段落“导致三名法官当场死亡,三名受伤,嫌凶当场自杀。”的句法树如下:
((IP(IP(VP(VV导致)(IP(NP(NN三名法官))(VP(ADVP(AD当场))(VP(VV死亡))))))(PU,)(IP(NP(NN三名))(VP(VV受伤)))(PU,)(IP(NP(NN嫌凶))(VP(ADVP(AD当场))(VP(VV自杀))))(PU。)))
句法树是由工具Berkeley Parser生成,这是一个自然语言处理中常用的基础工具,用于分析生成一个句子的句法树。标记IP、VP、NP、ADVP、PU、VV、NN、AD分别标识子句、动词性短语、名词性短语、副词性短语、标点符号、一般动词、名词和副词。
以每个最内层子句为起点往上找一条到达该句法树根结点的路径,裁剪掉不包含在这条路径中的结点,把这条路径和该最内层子句合并构成一个新的句法树,包含在该句法树中的结点构成了一个新的用于标注缺失成分的子句。
按照本实施例的方法,可以裁剪三个子句:
IP1:(IP(VP(VV导致)(IP(NP(NN三名法官))(VP(ADVP(AD当场))(VP(VV死亡))))))
IP2:(IP(VP(VV导致)(IP(NP(NN三名))(VP(VV受伤)))))
IP3:(IP(VP(VV导致)(IP(NP(NN嫌凶))(VP(ADVP(AD当场))(VP(VV自杀))))))
把每个子句调用规则进行判别,如果符合这些规则中的某一条,则说明该子句存在缺失成分,根据该规则在该子句的相应位置标识它的缺失主语,标注为SubMissing,或缺失宾语,标注为ObjMissing,形成缺失成分标注正文。
如子句IP1可生成如下的句法树IP4:
IP4:(IP(NP-SBJ(NONE SubMissing))(VP(VV导致)(IP(NP(NN三名法官))(VP(ADVP(AD当场))(VP(VV死亡))))))
调用已有的指代消解工具对缺失成分标注正文中的实体进行指代消解,并把指向同一个概念的实体构造指代链,每条指代链有一个头标识,标识一个唯一的概念,表示同样概念的实体指向同一个指代链的头标识,把该指代链添加到缺失成分标注正文中。
把子句中标注的缺失成分,主要是主语和宾语,和它前面的所有类型相同的实体两两构成候选对,为每个候选对根据零指代消解模型的特征的定义从缺失成分标注正文中取得其所有特征,把所有候选对的特征用向量表示,输入到零指代消解模型,用设置了参数的最大熵分类器在训练样本上计算每个候选对和训练样本的相似度,取相似度取值最高的候选对作为分类器的最终选择,把该候选对中的实体填充到缺失成分处,生成补全了缺失成分的子句。
如IP4补全为IP5:
IP5:(IP(NP-SBJ(NP NN(零陵区邮政分局职工兼保安队长朱军)))(VP(VV导致)(IP(NP(NN三名法官))(VP(ADVP(AD当场))(VP(VV死亡))))))
把缺失成分标注正文中的所有包括缺失成分标注的句子进行以上操作,生成补全了缺失成分的事件补全正文。
S50,抽取事件补全标注正文的事件实例和事件论元,得到第一事件集合;
S50的具体过程为:把补全正文中出现的所有时间按照在文中出现的先后构造一条时序链,把时序链上的相对时间或不完备时间与时间规格化规则中的相对时间集合进行匹配,如果匹配成功则调用相应的规则把该相对时间转换为形式为“****年**月**日hh:mm:ss:类型”,类型为时间点、时间段、开始时间、结束时间的绝对时间,然后存放到补全正文中,生成时间规格化后的补全正文,简称时间规格化正文。如图1中的时间“1日上午10时左右”和“2010年6月1日上午”分别转换为转换为“2010年06月01日10:00:00:时间点”和“2010年06月01日8:00:00:开始时间”。
然后,将大写的数字统一转化为小写格式,如“三名”转换为“3名”;再将数字以规定的格式来表示,如“3名”表示为“3/名”;
最后,把专用名词进行规范化处理,如“零陵区邮政分局”根据规则可以扩展为“湖南永州市零陵区邮政分局”,最终得到规范化正文。
把规范化正文中的每个子句都作为候选事件,根据事件识别和抽取模型特征的定义从规范化正文的标注中为每个子句抽取其特征,把每个句子的特征用向量表示,输入到事件识别和抽取模型,用设置了参数的最大熵分类器计算每个子句的特征和在训练样本中每类事件的相似度,对于规范化正文中的每个子句,如果它和每类事件的相似度取值都小于一个预设阈值,则该子句不是一个事件;否则,取相似度取值最高的事件类别作为该子句的事件类别,并在规范化中进行标注,形成事件抽取正文;采用和以上相似的方法基于事件论元识别和抽取模型对事件抽取正文中的每个事件实例标识其每个角色对应的论元,生成第一事件集合。
如子句IP5抽取成为一个死亡事件,标记如下:
<EM4Type“死亡”><Role Type=凶手>零陵区邮政分局职工兼保安队长朱军</Role>导致<RoleType=死亡人员>三名法官</Role><Role Type=死亡地点>当场</Role><Anchor>死亡</Anchor></EM4>。
S60,对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;
S60更具体的过程为:假设一类事件的所有事件实例的集合为E={E1,E2,E3,......,En},把每个事件Ei归为1类,则有n个初始化类{C1,C2,C3,......,Cn};
对于每个类Ci,如果存在另外一个类Cj中有一个事件实例的论元和Ci中任意一个个事件实例的论元在同一条指代链上,则把Ci和Cj中的所有事件实例为归一类Ci,删除类Cj,直到无法合并任意2个类;
以所有的论元为特征,用词频*反文档频度(Term Frequency&InverseDocumentation Frequency,TFIDF)计算得到每个特征的值,计算任意两个类的相对熵(也称KL距离),如果该相对熵小于一个预设阈值,则把这两个类归一类,直到无法合并任意两个类。
对第一事件集合中的事件实例按照事件类别分成若干类,对每类事件中的事件实例进行聚类操作,把聚成一类的事件实例看成是同指事件,生成一条同指事件链。图1的聚类结果如下,形成三条同指事件链:
<Coreference Events Cata=1>EM7EM3EM11</Coreference Events>
<Coreference Events Cata=2>EM1EM2EM4</Coreference Events>
<Coreference Events Cata=3>EM8EM9EM5</Coreference Events>
把所有的同指事件链加入第一事件集合,得到第二事件集合。对第二事件集合中的任意一条同指事件链上的每个事件实例,判断其是否存在没有论元的角色,如果有则在相关事件推理规则中找是否有该角色的推理规则,如果有则从该规则定义的相关事件中得到该角色的论元,生成第三事件集合。如<Coreference Events Cata=2>对应一个事实上的死亡事件,它有EM1、EM2和EM4三个实例。其中,EM1、EM2和EM4分别缺少3个、2个和1个论元,具体如下所示:
<EM1Type=”死亡”>当场造成<Role Type=死亡人员>3名法官</Role>死亡、</EM1>
<EM2Type=”死亡”><RoleType=死亡人员>赵户林庭长、蒋启东副庭长及黄兰</Role><Role Type=死亡地点>当场</Role>死亡,</EM2>
<EM4Type=“死亡”><Role Type=凶手>湖南永州市零陵区邮政分局职工兼保安队长朱军</Role>导致<Role Type=死亡人员>三名法官</Role><Role Type=死亡地点>当场</Role><Anchor>死亡</Anchor></EM4>
对于该死亡事件,如根据“规则:死亡事件.死亡时间=攻击事件.死亡时间,死亡事件.死亡地点=攻击事件.死亡地点|条件:<当场>”这条规则,从EM3和EM11得到两个“死亡时间”的论元“2010年06月01日10:00:00:时间点”和“2010年06月01日8:00:00:开始时间”,从EM3得到一个角色“死亡地点”的论元“湖南永州市零陵区法院”。
S70,根据同指事件链对第一事件集合的事件论元进行归一化,生成完备事件。
S70的具体动作过程为:
判断所述第一事件集合中的事件是否存在同指事件,假如一个事件没有同指事件,则该事件就是融合得到的完备事件,结束;否则对第三事件集合中的每个事件实例的每个论元根据论元本身的精度、实体长度、是否为实体指代的头、是否为代词、是否包含了同类事件实例的相同角色的论元等信息得到一个得分,对于每一条同指事件链,为该事件的每个角色选取得分最高2个论元作为双候选论元;再根据双候选论元采用穷尽的方法生成所有的候选完备事件,假如该事件有N个角色,则一共有2N个候选完备事件,针对每个候选完备事件,计算其得分,为每个事件选择一个得分最高的候选完备事件作为最终的完备事件。
完备事件的得分计算方法为:完备事件得分=该事件N个候选论元的平均分*(1+惩罚因子),惩罚因子的取值通过训练样本获得。应用实例得到的完备事件如图1中的EM6所示。
通过以上实施例,首先,根据中文句子表达上省略成分偏多的特点,在事件抽取前加入零指代识别过程,跨句子补全缺失的句子成分,从而可以提高事件抽取和论元识别的性能,进一步提高事件信息的完整性;根据同指事件的特性,在系统中加入了一个同指事件识别过程,利用同指事件描述同一事件的事实,来补全事件的论元;最后,增加了一个相关事件推理过程,从相关事件中获取缺失的论元,进一步明确表述不清楚的论元。本发明利用零指代模型、同指事件识别模型和相关事件推理规则,采用机器学习和推理规则相结合的方法系统性地提高抽取事件的完整性,具有正确度高、角色信息完整等优点。
以下对事件信息融合系统实施例进行具体描述。
参考图3,所示为事件信息融合系统的模块示意图,一种事件信息融合系统,包括以下模块:
规则和模型生成模块10,用于生成训练样本,并根据训练样本采用最大熵和决策树学习器生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、事件论元识别和抽取模型;
文本预处理模块20,从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
零指代识别模块30,用于判断事件标注正文句法结构上是否有缺失成分,如果有则调用零指代消解模型进行填充,生成事件补全标注正文;
实体规范化模块40,用于把事件补全标注正文中的时间、数量词和各类专用名词调用规则进行规范化处理,形成事件规范化标注正文;
事件抽取模块50,用于调用事件识别和抽取模型从事件规范化正文中抽取出事件实例,并调用论元识别和抽取模型识别出事件实例中各个角色对应的论元,得到第一事件集合;
同指事件识别模块60,用于对第一事件集合中的事件实例按照事件类别分类,对每类事件中的事件实例进行聚类,生成同指事件链,把所有的同指事件链加入第一事件集合,得到第二事件集合;
相关事件推理模块70,用于根据相关事件推理规则,为第二事件集合中每个事件的每个存在缺失论元的角色从相关事件中获取论元,生成第三事件集合;
事件融合模块80,用于根据同指事件链对第三事件集合的事件论元进行归一化,生成完备事件。
以下将对事件信息融合系统的各模块结构单元和功能做进一步的描述,以使本实施例更详细具体的呈现此发明的技术方案实施过程。
参考图4,规则和模型生成模块10进一步包括以下单元:
用户事件和样本定义单元101,用于定义需要抽取的事件及其相关事件的模板,包括事件名称、事件类别、事件常用锚集合、锚的类型、每个角色的名称、角色类型、角色是否可省略等属性,同时用于生成第一标注样本种子库,再调用句法和依存关系分析工具对第一标注样本种子库中的句子进行句法和依存关系的标注,该库中每类事件至少需要5个标注的事件样本,生成带句法树和依存关系的第二标注样本种子库;
事件抽取模式生成单元102,用于根据定义的事件模板,从第二标注样本种子库中取出一个标注的事件实例,从标注信息中得到事件实例的锚和论元的二元组,形成用二元组表示的事件抽取模式;
其中二元组是由锚分别和其中的每个角色组成的形式为<锚集合,论元及其属性>,论元的属性包括论元类型,如时间、人名、地名等,是否可以是代词,锚和论元的依存路径、包含锚和论元的最小句法树等,再把二元组中的锚和该事件实例对应的事件模板中定义的锚集合合并生成二元组中的锚集合,得到了用二元组表示的事件抽取模式。
训练样本生成单元103,用于从第二标注样本种子库中抽取定义的事件及其相关事件的事件实例的论元和锚,组合形成检索条件,通过检索条件检索生成初选事件集合,
将初选事件集合中的每个句子分别和对应事件的事件抽取模式进行相似度计算,相似度计算值大于一预设阈值的事件形成候选事件集合,
对候选事件集合中的事件实例和论元进行甄别和标注,生成训练样本;
训练样本生成单元103更具体的动作过程为:针对用户定义的每类事件,包括需要抽取的事件和它的相关事件,首先从第二标注样本种子库中抽取每个事件实例的论元和锚,两两组合构成若干个由2个关键词组成的检索条件,通过搜索引擎进行查询扩展,查询包含该检索条件的网页,得到一个网页集合,从该网页集合中删除不包含任意一个检索条件的句子,把剩余的句子利用句法和依存关系分析工具进行句法和依存关系标注,构成初选事件集合;把初选事件集合中的每个句子分别和该类事件的事件抽取模式进行相似度计算得到该句子和每个模式的相似度,再累加得到所有相似度的总和,如该总和大于一个预设阈值,则该句子标识为候选事件,否则标识为非事件句子,所有的候选事件生成候选事件集合;根据系统提供的界面,对候选事件集合中的事件实例和论元进行甄别和标注,标注的内容包括事件、论元、实体、指代链、同指事件关系和填充论元路径、完备事件等信息;如果每类事件的个数小于100个,则继续进行查询扩展,直到每类事件的个数不小于100个,最终生成了一个训练样本。
模型生成单元104,用于针对所需建立的模型抽取训练样本中的数据及其标注作为特征,用“0”表示特征不存在,用“1”表示特征存在,利用最大熵分类器学习特征,分别构造出由训练样本、参数和最大熵分类器三者组成的零指代消解模型、事件识别和抽取模型、事件论元识别和抽取模型;
针对不同模型分别抽取训练样本中的数据及其标注作为特征,零指代消解模型的特征包括缺失成分标记,该缺失成分的可能词性、在句子中的成分、其上下文,指它前面和后面的词语的标记,缺失成分的先行语,指用来填充的部分、先行语的词性、在句子中的成分、其上下文的标记等;事件识别和抽取模型的特征包括平面特征锚、锚的词性、锚的前一词和后一词及其词性,句中实体的类型等,句法特征句法树的深度、锚的依存关系、包含锚的短语的类型等,语义特征锚在知网中的语义类别等;事件识别和抽取模型包括平面特征锚、锚的词性、锚的前一词和后一词及其词性,句中实体的类型等,句法特征句法树的深度、锚的依存关系、包含锚的短语的类型等,语义特征锚在知网中的语义类别等,每个特征的值是“1”和“0”,用“0”表示特征不存在,用“1”表示特征存在,把这些特征交给最大熵学习器根据最大熵原理进行分析,最大熵学习器从符合条件的训练样本分布中选择熵最大的分布作为最优的分布,从而学习到最大熵分类器需要的各个参数,分别构造出由训练样本、参数和最大熵分类器三者组成的零指代消解模型、事件识别和抽取模型、事件论元识别和抽取模型。
规则生成单元105,用于将训练样本中和论元相关的标注信息输入决策树学习器,从根结点开始从上到下遍历决策树,每个结点形成一个分类问题,对每个结点的不同判别导致不同的走向,最后到达叶子结点,整条路径形成一条规则,生成相关事件推理规则。
规则的基本格式如下:“规则:A事件论元I=B事件论元J|条件”。其中条件就是决策树中的结点,主要有:A事件或B事件中是否包含某个词语、是否在同一个句子中,是否具有相同的主语或宾语、是否具有相同或相近的时间词等。
参考图5,文本预处理模块20进一步包括以下单元:
正文抽取单元201,把待抽取完备事件的网页信息表示成DOM树,遍历DOM树查找到最内层的常用分块标记,如<DIV><TABLE>,把每个分块标记包含的所有结点抽取出来构成多个区块,计算每一区块得分,得分大于一个预设的阈值则判断区块是正文块,即可去除网页中的链接、视频、邮件地址和图片,集合正文块得到网页的正文;
正文标注单元202,用于利用分词工具将正文中的句子分成词或短语,再调用实体识别出文中包含的实体,实体由词和短语构成,调用句法分析工具和依存关系分析工具标注其句法树和依存关系树,形成标注正文。
参考图6,零指代识别模块30进一步包括:
缺失成分标注单元301,用于根据标注正文中句子的句法树,通过最内层标记“IP”“CP”,找到所有的最内层子句,以最内层子句为起点往上找一条到达该句法树根结点的路径,裁剪掉不包含在路径中的结点,路径和最内层子句合并构成一个新的句法树,包含在该句法树中的结点构成了一个新的用于标注缺失成分的子句,把每一新的用于标注缺失成分的子句调用规则进行判别,如果符合这些规则中的某一条,则根规则在相应的位置标识该子句的缺失结构,主要包括主语和宾语的缺失,形成缺失成分标注正文;
实体指代消解单元302,用于利用指代消解工具对缺失成分标注正文中的实体进行指代消解,并把指向同一个概念的实体构造指代链,每条指代链有一个头标识,表示同样概念的实体指向同一个指代链的头标识,把指代链添加到缺失成分标注正文中;
零指代消解单元303,用于子句中标注的缺失成分与其前面所有类型相同的实体两两构成候选对,每个候选对根据零指代消解模型的特征的定义从缺失成分标注正文中取得其所有特征,将候选对特征用向量表示,输入到零指代消解模型,用设置了参数的最大熵分类器在训练样本上计算每个候选对和训练样本的相似度,取相似度取值最高的候选对作为分类器的最终选择,把该候选对中的实体填充到缺失成分处,生成补全了缺失成分的事件补全正文。
参考图7,实体规范化模块40进一步包括时间规格化单元401、数量词规格化单元和专用名词规范化单元,
时间规格化单元401,把补全正文中出现的所有时间按照在文中出现的先后构造一条时序链,把时序链上的相对时间,如“昨天”,“今年夏天”,或不完备时间,如:“下午2时”与时间规格化规则中的相对时间集合进行匹配,如果匹配成功则调用相应的规则把该相对时间转换为形式为“****年**月**日hh:mm:ss:类型”其中类型为时间点、时间段、开始时间、结束时间的绝对时间,然后存放到补全正文中,生成时间规格化后的补全正文,简称时间规格化正文。
时间规格化规则基本格式如下:规则(相对时间集合:是否和其它时间词同现:时间词位置:操作:精度),相对时间集合包含了需要规格化的相对时间词,是否和其它时间词同现表示该时间词是独立出现还是包含在不完备时间中,时间词位置表示以哪个时间词为基准进行规格化,操作表示规格化的操作方式,精度表示时间的精度。如规则(今天|当日|今日|当天|本日:0:段首:替换:日)表示把独立出现的“今天|当日|今日|当天|本日”中的任意一个词用本文从头开始第一个出现的绝对时间词替换,时间精度是日。
数量词规格化单元402,该单元首先把数量词根据其确定程度分为3类:1)确定的数量词。如:“5人”、“1欧元”等;2)大约数量词。如:“约100元”、“二十来人”等;3)不确定数量词。如:“若干小时”、“几天后”等。然后,从时间规格化正文中抽取出所有的数量词,将这些数量词中的大写数字转化为小写数字,再把确定数量词以“数字/量词”的形式表示,把大约数量词以“基准数字/浮动方向/量词”的形式表示(其中浮动方向以“+”“-”表示,如:“至少10人”可规范化为“10/+/人”),把不确定数量词表示为“X/单位/量词”的形式表示(如:“数百人”表示为“X/百/人”),把转换后的数量词存放到时间规格化正文中,生成数量词规格化后的时间规格化正文(简称数量词规格化正文)。
专用名词规范化单元403,专用名词E1=X1X2...Xn,Xi是组成专用名词E1的词,如果文中存在另一个专用名词E2=Y1Y2...Yn,Yi是组成专用名词E2的词且条件X1X2...Xi=YjXj+1...Xj+i满足,把专用名词E1表示为Y1Y2...Yj-1X1X2...Xn并保存到数量词规格化正文中;从数量词规格化正文中抽取所有的指代链,将该指代链中的代词删除,在该指代链上统计出现次数最多的词C1和第二多的词C2,从该指代链中取出包含了C1和C2且长度最长的实体作为该指代链的头,如果没有这样的实体,则去包含了C1且长度最长的实体作为该指代链的头,所有在该指代链上的实体都用它来替换;最后,对空间实体(主要是地名)通过GOOGLE地图提供的接口进行扩展,如“苏州”可以扩展得到“中国江苏苏州”,最终得到一个规范化正文。
参考图8,事件抽取模块50进一步包括:
事件识别和抽取单元501,该单元把规范化正文中的每个子句都作为候选事件,根据事件识别和抽取模型特征的定义从规范化正文的标注中为每个子句抽取其特征,把每个句子的特征用向量表示,输入到事件识别和抽取模型模型,用设置了参数的最大熵分类器计算每个子句的特征和在训练样本中每类事件的相似度,对于规范化中的每个子句,如果它和每类事件的相似度取值都小于一个预设阈值,则该子句不是一个事件;否则,取相似度取值最高的事件类别作为该子句的事件类别,并在规范化中进行标注,形成事件抽取正文;
事件论元识别和抽取单元502,该单元对于事件抽取正文中的每个事件实例,作以下的处理并从事件抽取正文中抽取所有的事件及其标志,生成第一事件集合:从该事件实例中抽取所有的实体,删除实体类型和该事件模板中定义的所有角色的类型都不匹配的实体,形成候选论元集合,根据事件论元识别和抽取模型特征的定义从事件抽取正文的标注中为每个候选论元抽取其特征,把每个候选论元的特征用向量表示,输入到事件论元识别和抽取模型,用设置了参数的最大熵分类器计算每个候选论元的特征和训练样本中该事件的各个角色的相似度,对于候选论元集合的每个候选论元,如果它和所有角色的相似度取值都小于一个预设阈值,则该候选论元不是一个该事件的论元;否则,取和它相似度取值最高的角色标记为该候选论元的角色,并存储到事件抽取正文中。
参考图9,事件融合模块80进一步包括:
事件论元评分单元801,该单元对第三事件集合中的每个事件实例的每个论元根据论元本身的精度、实体长度、是否为实体指代的头、是否为代词、是否包含了同类事件实例的相同角色的论元等信息得到一个得分,对于每一条同指事件链,为该事件的每个角色选取得分最高2个论元作为双候选论元。
事件融合单元802,该单元根据双候选论元采用穷尽的方法生成所有的候选完备事件,假如该事件有N个角色,则一共有2N个候选完备事件,针对每个候选完备事件,计算其得分,为每个事件选择一个得分最高的候选完备事件作为最终的完备事件。完备事件的得分计算方法为:完备事件得分=该事件N个候选论元的平均分*(1+惩罚因子),惩罚因子的取值由训练样本得到,其目的是以保证论元间的一致性为宗旨。
为了使事件信息融合系统的提取信息和融合更加完整,事件信息融合系统进一步包括相关事件推理模块,用于判断第二事件集合中的任意一条同指事件链上的每个事件实例是否存在没有论元的角色,如果有则在相关事件推理规则中寻找是否有该角色的推理规则,如果存在论元的角色的推理规则定义的相关事件中得到该角色的论元,存放到第二事件集合中该事件的标注信息中,生成第三事件集合。
通过以上实施例,首先,根据中文句子表达上省略成分偏多的特点,在事件抽取前加入一个零指代识别模块,跨句子补全缺失的句子成分,从而可以提高事件抽取和论元识别的性能,进一步提高事件信息的完整性;根据同指事件的特性,在系统中加入了一个同指事件识别模块,利用同指事件描述同一事件的事实,来补全事件的论元;最后,增加了一个相关事件推理模块,从相关事件中获取缺失的论元,进一步明确表述不清楚的论元。本发明利用零指代模块、同指事件识别模块和相关事件推理模块,采用机器学习和推理规则相结合的方法系统性地提高抽取事件的完整性,具有正确度高、角色信息完整等优点。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种事件信息融合方法和系统进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种事件信息融合方法,其特征在于,包括以下步骤:
设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;
比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文;
抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合;
对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合,所述同指事件链根据聚成一类的事件实例生成,所述同指事件链的具体形式为<CoreferenceEvents Cata=x>若干个事件实例</CoreferenceEvents>;
根据所述同指事件链对所述第三事件集合的事件论元进行归一化,生成完备事件;
抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合具体过程为:
对所述事件补全标注正文进行时间、量词和专有名词的规范化,形成事件规范化标注正文;
将所述事件规范化标注正文中的每个子句作为候选事件,根据所述事件识别和抽取模型特征的定义从所述事件规范化标注正文中抽取每个子句特征,用向量表示所述子句特征,输入所述事件识别和抽取模型;
根据所述子句特征,用设置了参数的最大熵分类器计算每个子句和在训练样本中每类事件的相似度;
如果所述子句和每类事件的相似度取值都小于一个预设阈值,则该子句不是一个事件,否则,取相似度取值最高的事件类别作为该子句的事件类别,并在所述事件规范化标注正文中进行标注,形成事件抽取正文;
从一个事件实例中抽取所有的实体,删除实体类型与该事件模板中定义的所有角色的类型都不匹配的实体,形成候选论元集合;
根据论元识别和抽取模型特征的定义从所述事件抽取正文的标注中为每个候选论元抽取其特征;
把所述每个候选论元的特征用向量表示,输入到论元识别和抽取模型;
根据所述候选论元的特征,用设置了参数的最大熵分类器计算每个候选论元和训练样本中该事件的各角色的相似度;
对于候选论元集合的每个候选论元,如果它和所有角色的相似度取值都小于一个预设阈值,则该候选论元不是一个该事件的论元;否则,取和它相似度取值最高的角色标记为该候选论元的角色,并存储到事件抽取正文中;
从事件抽取正文中抽取所有的事件及其事件类别,生成所述第一事件集合。
2.根据权利要求1所述的事件信息融合方法,其特征在于,设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合之前进一步包括:
定义事件各属性的值及其相关事件各属性的值,并进行标注,生成第一标注样本种子库;
对所述第一标注样本种子库中的句子进行句法和依存关系标注,生成第二标注样本种子库;
从所述第二标注样本种子库中抽取事件实例对应的锚和论元,生成形式为<锚集合,论元及其属性>的二元组,得到用所述二元组表示的事件抽取模式。
3.根据权利要求2所述的事件信息融合方法,其特征在于:所述检索条件是所述第二标注样本种子库中的锚和论元的组合。
4.根据权利要求1所述的事件信息融合方法,其特征在于:甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型具体为:
对所述候选事件集合中的事件实例和论元进行识别和标注,生成训练样本;
对所述训练样本进行同指事件链标注、缺失论元填充路径标注和同指事件链的完备事件标注;
抽取所述训练样本缺失论元填充路径的特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成零指代消解模型;
抽取所述训练样本事件的特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成事件识别和抽取模型;
抽取所述训练样本的论元特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成论元识别和抽取模型;
抽取所述训练样本的论元标注信息,将其输入决策树学习器生成相关事件推理规则。
5.根据权利要求1所述的事件信息融合方法,其特征在于,判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文具体过程为:
根据所述事件标注正文中每个句子的句法树,找到最内层子句标记,把所述最内层子句标记包含的所有结点抽取出来得到最内层子句;
以所述每一最内层子句为起点往上找一条到达该句法树根结点的路径,裁剪掉不包含在所述路径中的结点,将所述路径和所述最内层子句合并构成新的句法树,包含在所述新句法树中的结点构成了一个新的用于标注缺失成分的子句;
判断所述新的用于标注缺失成分的子句中是否存在缺失成分,如果存在,进行缺失成分标注,形成事件缺失成分标注正文;
调用指代消解工具对所述事件缺失成分标注正文中的实体进行指代消解,并将指向同一概念的实体构造指代链,每条指代链有一个头标识,将所述指代链添加到所述事件缺失成分标注正文;
将所述标注的缺失成分与其前面的所有类型相同的实体两两构成候选对,为每一所述候选对根据所述零指代消解模型从事件缺失成分标注正文中取得其所有特征,将所述所有特征用向量表示,输入所述零指代消解模型;
用设置了参数的最大熵分类器在所述训练样本上计算每个候选对和训练样本的相似度,选择相似度取值最高的候选对作为分类器的输出结果;
将所述选择的候选对中的实体填充到缺失成分处,生成补全了缺失成分的事件补全标注正文。
6.根据权利要求1所述的事件信息融合方法,其特征在于,对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合的具体过程为:
对所述第一事件集合中的事件实例按照事件类别分成若干类,对每类事件中的事件实例进行聚类操作;
把聚成一类的事件实例看成是同指事件,生成一条同指事件链;
把所有的同指事件链加入所述第一事件集合,得到第二事件集合;
根据相关事件推理规则,为所述第二事件集合中每个事件的每个存在缺失论元的角色从相关事件中获取论元,生成第三事件集合。
7.根据权利要求6所述的事件信息融合方法,其特征在于,对所述第一事件集合中的事件实例按照事件类别分成若干类,对每类事件中的事件实例进行聚类操作的具体过程为:
假设一类事件的所有事件实例的集合为E={E1,E2,E3,......,En},把每个事件Ei归为1类,则有n个初始化类{C1,C2,C3,......,Cn};
对于每个类Ci,如果存在另外一个类Cj中有一个事件实例的论元和Ci中任意一个事件实例的论元在同一条指代链上,则把Ci和Cj中的所有事件实例为归一类Ci,删除类Cj,直到无法合并任意2个类;
以所有的论元为特征,用词频*反文档频度(Term Frequency&InverseDocumentation Frequency,TFIDF)方法计算每个特征的值,计算任意两个类的相对熵,如果所述相对熵小于一预设阈值,则把这两个类归一类,直到无法合并任意两个类。
8.一种事件信息融合系统,其特征在于,包括:
规则和模型生成模块,用于生成训练样本,并根据所述训练样本采用最大熵和决策树学习器生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
文本预处理模块,用于对初选事件集合进行标注,生成事件标注正文;
零指代识别模块,用于判断所述事件标注正文句法结构上是否有缺失成分,如果有则调用零指代消解模型进行填充,生成事件补全标注正文;
实体规范化模块,用于把事件补全标注正文中的时间、数量词和各类专用名词调用规则进行规范化处理,形成事件规范化标注正文;
事件抽取模块,用于调用事件识别和抽取模型从事件规范化正文中抽取出事件实例,并调用论元识别和抽取模型识别出事件实例中各个角色对应的论元,得到第一事件集合;
同指事件识别模块,用于对所述第一事件集合中的事件实例按照事件类别分成类,对每类事件中的事件实例进行聚类,生成同指事件链,把所有的同指事件链加入第一事件集合,得到第二事件集合,所述同指事件链根据聚成一类的事件实例生成,所述同指事件链的具体形式为<CoreferenceEventsCata=x>若干个事件实例</CoreferenceEvents>;
相关事件推理模块,用于根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;
事件融合模块,用于根据所述同指事件链对第三事件集合的事件论元进行归一化,生成完备事件。
9.根据权利要求8所述的事件信息融合系统,其特征在于:所述规则和模型生成模块进一步包括:
用户事件和样本定义单元,用于定义需要抽取的事件及其相关事件的模板,
同时用于生成第一标注样本种子库,再调用句法和依存关系分析工具对第一标注样本种子库中的句子进行句法和依存关系的标注,生成带句法树和依存关系的第二标注样本种子库;
事件抽取模式生成单元,用于根据所述定义的事件模板,从所述第二标注样本种子库中取出一个标注的事件实例,从标注信息中得到所述事件实例的锚和论元的二元组,形成用二元组表示的事件抽取模式;
训练样本生成单元,用于从所述第二标注样本种子库中抽取所述定义的事件及其相关事件的事件实例的论元和锚,组合形成检索条件,
通过所述检索条件检索生成初选事件集合,
将所述初选事件集合中的每个句子分别和对应所述事件的事件抽取模式进行相似度计算,相似度计算值大于一预设阈值的事件形成候选事件集合,
对所述候选事件集合中的事件实例和论元进行甄别和标注,生成训练样本;
模型生成单元,用于针对所需建立的模型抽取所述训练样本中的数据及其标注作为特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,
利用最大熵分类器学习所述特征,分别构造出由训练样本、参数和最大熵分类器三者组成的零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
规则生成单元,用于将所述训练样本中和论元相关的标注信息输入决策树学习器,从根结点开始从上到下遍历所述决策树,每个结点形成一个分类问题,对每个结点的不同判别导致不同的走向,最后到达叶子结点,整条路径形成一条规则,生成相关事件推理规则。
10.根据权利要求8所述的事件信息融合系统,其特征在于,所述零指代识别模块进一步包括:
缺失成分标注单元,用于根据所述标注正文中句子的句法树,找到所有的最内层子句,
以所述最内层子句为起点往上找一条到达该句法树根结点的路径,裁剪掉不包含在所述路径中的结点,
所述路径和最内层子句合并构成一个新的句法树,包含在该句法树中的结点构成了一个新的用于标注缺失成分的子句,
把所述每一新的用于标注缺失成分的子句调用相关事件推理规则进行判别,如果符合这些规则中的某一条,则根所述规则在相应的位置标识该子句的缺失结构,形成缺失成分标注正文;
实体指代消解单元,用于利用指代消解工具对所述缺失成分标注正文中的实体进行指代消解,
并把指向同一个概念的实体构造指代链,每条所述指代链有一个头标识,表示同样概念的实体指向同一个指代链的头标识,把所述指代链添加到缺失成分标注正文中;
零指代消解单元,用于所述子句中标注的缺失成分与其前面所有类型相同的实体两两构成候选对,
每个候选对根据所述零指代消解模型的特征的定义从缺失成分标注正文中取得其所有特征,
将所述候选对特征用向量表示,输入到零指代消解模型,
用设置了参数的最大熵分类器在训练样本上计算每个候选对和训练样本的相似度,
取相似度取值最高的候选对作为分类器的最终选择,把该候选对中的实体填充到缺失成分处,生成补全了缺失成分的事件补全正文。
11.根据权利要求8所述的事件信息融合系统,其特征在于,所述实体规范化模块进一步包括:
数量词规格化单元,用于先将数量词根据其确定程度分为确定的数量词、大约数量词和不确定数量词,
从所述事件补全正文中抽取出所有的数量词,
将所述数量词中的大写数字转化为小写数字,
再把确定数量词以“数字/量词”的形式表示,
把大约数量词以“基准数字/浮动方向/量词”的形式,把不确定数量词表示为“X/单位/量词”的形式表示,把所述转换后的数量词存放到所述事件补全正文中,生成数量词规格化正文;
专用名词规范化单元,用于判断当所述单元专用名词E1=X1X2...Xn,Xi是组成专用名词E1的词,如果文中存在另一专用名词E2=Y1Y2...Yn,Yi是组成专用名词E2的词,且条件X1X2...Xi=YjXj+1...Xj+i满足,则将名词E1表示为Y1Y2...Yj-1X1X2...Xn并保存到所述数量词规格化正文中,
从数量词规格化正文中抽取所有的指代链,将所述指代链中的代词删除,
在所述指代链上统计出现次数最多的词C1和第二多的词C2,
从所述指代链中取出包含了C1和C2且长度最长的实体作为该指代链的头,如果没有这样的实体,则取包含了C1且长度最长的实体作为该指代链的头,所有在所述指代链上的实体都用所述指代链的头来替换,
再对空间实体通过地图提供的接口进行扩展,形成事件规范化标注正文。
12.根据权利要求8所述的事件信息融合系统,其特征在于,所述事件抽取模块进一步包括:
事件识别和抽取单元,用于将所述事件规范化标注正文中的每个子句都作为候选事件,
根据事件识别和抽取模型特征的定义抽取所述事件规范化标注正文中的每个子句特征,
将所述子句特征用向量表示,输入到零指代消解模型,根据所述子句特征,用设置了参数的最大熵分类器计算每个子句与所述训练样本中每类事件的相似度,
如果所述相似度取值都小于一个预设阈值,则该子句不是一个事件;否则,取相似度取值最高的事件类别作为所述子句的事件类别,并在所述事件规范化标注正文中进行标注,形成事件抽取正文;
事件论元识别和抽取单元,用于对所述事件抽取正文中的每个事件实例中抽取所有的实体,
删除实体类型与该事件模板中定义的所有角色的类型都不匹配的实体,形成候选论元集合,
根据论元识别和抽取模型特征的定义从事件抽取正文的标注中为每个候选论元抽取其特征,
把所述每个候选论元的特征用向量表示,输入到论元识别和抽取模型,
根据所述候选论元的特征,用设置了参数的最大熵分类器计算每个候选论元和训练样本中该事件的各个角色的相似度,对于候选论元集合的每个候选论元,
如果它和所有角色的相似度取值都小于一个预设阈值,则该候选论元不是一个该事件的论元,
否则,取和它相似度取值最高的角色标记为该候选论元的角色,并存储到事件抽取正文中,
并从事件抽取正文中抽取所有的事件及其事件类别,生成第一事件集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110269307 CN102298635B (zh) | 2011-09-13 | 2011-09-13 | 事件信息融合方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110269307 CN102298635B (zh) | 2011-09-13 | 2011-09-13 | 事件信息融合方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102298635A CN102298635A (zh) | 2011-12-28 |
CN102298635B true CN102298635B (zh) | 2013-09-04 |
Family
ID=45359049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110269307 Expired - Fee Related CN102298635B (zh) | 2011-09-13 | 2011-09-13 | 事件信息融合方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102298635B (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693219B (zh) * | 2012-06-05 | 2014-11-05 | 苏州大学 | 一种中文事件的抽取方法及系统 |
CN102831236B (zh) * | 2012-09-03 | 2015-02-04 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN103678281B (zh) * | 2013-12-31 | 2016-10-19 | 北京百度网讯科技有限公司 | 对文本进行自动标注的方法和装置 |
CN103810156B (zh) * | 2014-01-17 | 2017-01-18 | 浙江大学 | 利用二次语义标注的文本信息提取方法 |
WO2015175443A1 (en) * | 2014-05-12 | 2015-11-19 | Google Inc. | Automated reading comprehension |
CN104376397B (zh) * | 2014-10-15 | 2018-07-06 | 中国农业银行股份有限公司 | 一种数据实时分析方法及装置 |
CN104484459B (zh) * | 2014-12-29 | 2019-07-23 | 北京奇虎科技有限公司 | 一种对知识图谱中的实体进行合并的方法及装置 |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
CN104778163A (zh) * | 2015-05-11 | 2015-07-15 | 苏州大学 | 一种事件触发词识别方法及系统 |
CN104916281B (zh) * | 2015-06-12 | 2018-09-21 | 科大讯飞股份有限公司 | 大语料音库裁剪方法及系统 |
CN105760515A (zh) * | 2016-02-24 | 2016-07-13 | 国家电网公司 | 一种多数据源的同一对象数据的融合方法 |
US10372743B2 (en) * | 2016-07-20 | 2019-08-06 | Baidu Usa Llc | Systems and methods for homogeneous entity grouping |
CN106445999A (zh) * | 2016-07-27 | 2017-02-22 | 天津海量信息技术股份有限公司 | 一种基于事件要素的事件抽取方法及系统 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN106502969A (zh) * | 2016-10-21 | 2017-03-15 | 天津海量信息技术股份有限公司 | 司法案件涉案金额的归一化方法 |
CN107145947B (zh) * | 2017-04-26 | 2020-08-07 | 北京汉王数字科技有限公司 | 一种信息处理方法、装置及电子设备 |
CN108304466B (zh) * | 2017-12-27 | 2022-01-11 | 中国银联股份有限公司 | 一种用户意图识别方法以及用户意图识别系统 |
CN108829699B (zh) * | 2018-04-19 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 一种热点事件的聚合方法和装置 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109582949B (zh) * | 2018-09-14 | 2022-11-22 | 创新先进技术有限公司 | 事件元素抽取方法、装置、计算设备及存储介质 |
CN109446513B (zh) * | 2018-09-18 | 2023-06-20 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN109634939A (zh) * | 2018-12-28 | 2019-04-16 | 中国农业银行股份有限公司 | 一种缺失值的确定方法、装置及电子设备 |
CN110245239A (zh) * | 2019-05-13 | 2019-09-17 | 吉林大学 | 一种面向汽车领域知识图谱的构建方法及系统 |
CN110298039B (zh) * | 2019-06-20 | 2023-05-30 | 北京百度网讯科技有限公司 | 事件地的识别方法、系统、设备及计算机可读存储介质 |
CN110727803A (zh) * | 2019-10-10 | 2020-01-24 | 北京明略软件系统有限公司 | 文本事件抽取方法及装置 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111325020B (zh) * | 2020-03-20 | 2023-03-31 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111414765B (zh) * | 2020-03-20 | 2023-07-25 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111522906B (zh) * | 2020-04-22 | 2023-03-28 | 电子科技大学 | 一种基于问答模式的金融事件主体抽取方法 |
CN113673210B (zh) * | 2020-05-13 | 2023-12-01 | 复旦大学 | 文档生成系统 |
CN111626042B (zh) * | 2020-05-28 | 2023-07-21 | 成都网安科技发展有限公司 | 指代消解方法及装置 |
CN111797241B (zh) * | 2020-06-17 | 2023-08-22 | 北京北大软件工程股份有限公司 | 基于强化学习的事件论元抽取方法及装置 |
CN111967601B (zh) * | 2020-06-30 | 2024-02-20 | 北京百度网讯科技有限公司 | 事件关系的生成方法、事件关系规则的生成方法和装置 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN111858894A (zh) * | 2020-07-29 | 2020-10-30 | 网易(杭州)网络有限公司 | 语义缺失的识别方法及装置、电子设备、存储介质 |
CN112528676B (zh) * | 2020-12-18 | 2022-07-08 | 南开大学 | 文档级别的事件论元抽取方法 |
CN113327344B (zh) * | 2021-05-27 | 2023-03-21 | 北京百度网讯科技有限公司 | 融合定位方法、装置、设备、存储介质及程序产品 |
CN113468307B (zh) * | 2021-06-30 | 2023-06-30 | 网易(杭州)网络有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN113987163A (zh) * | 2021-09-27 | 2022-01-28 | 浙江大学 | 一种基于本体指导的终身事件抽取方法 |
CN113901170A (zh) * | 2021-12-07 | 2022-01-07 | 北京道达天际科技有限公司 | 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备 |
CN114328687B (zh) * | 2021-12-23 | 2023-04-07 | 北京百度网讯科技有限公司 | 事件抽取模型训练方法及装置、事件抽取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013421B (zh) * | 2007-02-02 | 2012-06-27 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN102317940B (zh) * | 2009-02-27 | 2014-04-23 | 三菱电机株式会社 | 信息处理装置、信息处理方法以及程序 |
CN101833442B (zh) * | 2009-03-13 | 2012-11-21 | 华东电网有限公司 | 一种goose和mms事件量信息可视化融合方法 |
-
2011
- 2011-09-13 CN CN 201110269307 patent/CN102298635B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102298635A (zh) | 2011-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102298635B (zh) | 事件信息融合方法和系统 | |
CN110516067A (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
CN107193798B (zh) | 一种基于规则的试题类自动问答系统中的试题理解方法 | |
CN108763333A (zh) | 一种基于社会媒体的事件图谱构建方法 | |
CN107491531A (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
EP3203383A1 (en) | Text generation system | |
CN105824933A (zh) | 基于主述位的自动问答系统及其实现方法 | |
WO2015043075A1 (zh) | 面向微博的情感实体搜索系统 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN101414310A (zh) | 一种自然语言搜索的方法和装置 | |
CN104794169A (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN110532328A (zh) | 一种文本概念图构造方法 | |
Alkhalifa et al. | Automatically extending named entities coverage of Arabic WordNet using Wikipedia | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112733547A (zh) | 一种利用语义依存分析的中文问句语义理解方法 | |
CN112883182A (zh) | 一种基于机器阅读的问答匹配方法及装置 | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
JP4931114B2 (ja) | データ表示装置、データ表示方法及びデータ表示プログラム | |
CN110162791B (zh) | 一种面向国防科技领域的文本关键词提取方法及系统 | |
Alkhalifa et al. | Automatically extending NE coverage of Arabic WordNet using Wikipedia | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
Gao et al. | High accuracy question answering via hybrid controlled natural language | |
Ouda | QuranAnalysis: a semantic search and intelligence system for the Quran | |
Garcia-Gorrostieta et al. | Argument component classification in academic writings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130904 Termination date: 20160913 |
|
CF01 | Termination of patent right due to non-payment of annual fee |