CN106055536B

CN106055536B - 一种中文事件联合推理方法

Info

Publication number: CN106055536B
Application number: CN201610333246.XA
Authority: CN
Inventors: 朱少华; 李培峰; 朱巧明; 周国栋; 朱晓旭
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2018-08-21
Anticipated expiration: 2036-05-19
Also published as: CN106055536A

Abstract

本发明提出篇章级别的中文事件联合推理方法和系统，该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取，减少传统管道模型中的级联错误。在实现方法上，本发明采用机器学习和推理相结合的方法，利用各种语言知识来识别中文事件时序关系。本发明的方法和系统，与现有方法和系统相比，识别性能得到了一定提升。

Description

一种中文事件联合推理方法

技术领域

本发明属于自然语言处理领域，特别是涉及事件抽取的系统和方法。

背景技术

作为信息表示的一种主要形式，事件(Event)是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”)，如人的受伤、死亡事件和食品的添加剂事件等。事件抽取的目标是抽取文本中的事件实例并识别其类型，再为每个抽取的事件实例抽取论元并赋予相应的角色，如何人、何地借助何物做了何事，这是从文本中获取有价值信息的基础研究工作。

事件抽取作为信息抽取的重要研究课题，具有深远的理论意义和广泛的应用价值。在理论方面，事件抽取涉及到自然语言处理、数据挖掘、机器学习和数据库等多个学科的技术和方法，因此本文的研究不仅对解决事件抽取任务有帮助，而且对于相关学科理论完善和发展也将产生积极的促进作用。在应用方面，事件抽取已被广泛应用于问答系统、自动文摘和信息检索等领域。

国外对事件抽取的研究起步较早且取得了较多成果。如Grishman使用基于规则的方法进行事件信息抽取，这些方法根据某一特定领域内事件描述的规则，通过领域专家构建大规模的知识库，利用这些规则来提取事件信息。国外的学者也开展了基于模式匹配的信息抽取研究，并研发了一些系统，例如PALKA、AutoSlog-TS、ExDisco和TIMES等。基于模式匹配的方法是在一些模式的指导下进行，首先获取模式，再利用获取的模式来抽取事件信息。可以看出，模式获取是信息抽取领域的核心步骤。Chun等在医药文献的事件抽取中，采用自举(Bootstrapping)方法获取事件模式，首先定义一些简单的模式，通过这些模式抽取出的事件信息，然后再泛化模式，利用泛化后的模式再抽取事件，直到满足终止条件。

基于机器学习的方法是目前主流的事件抽取策略，该方法将事件抽取分为几个子任务，并且将这些子任务作为分类问题来处理。基于机器学习方法的关键是分类器构建和特征发现和选择。英文事件抽取一般分为两个不同类别：基于句子的事件抽取和基于文档的事件抽取。早期的研究聚焦于句子级别的事件抽取。例如，Chieu首次在事件抽取中引入最大熵分类器，用于事件论元角色的识别。Ahn结合MegaM和Timbl两种机器学习方法分别实现了事件抽取任务中事件触发词及其类别识别和事件元素识别这两个主要步骤，完成了一个简单的事件抽取系统。Grishman在ACE2005评测的基础上，提出了一个考虑多种特征进行事件抽取的方法。Hardy等利用各种表象的特征进行事件抽取。Chen和Ji采用自举方法分别在英文和中文语料上进行事件抽取的联合训练，尝试从跨语言事件抽取中利用联合训练来提高中文和英文事件抽取性能。

近年来，在ACE英文语料上出现了较多使用更高级别的信息进行事件抽取的研究。例如，Ji和Grishman受“一个段落，一种主题”思想的启发，将主题相似的文档聚集成类，并采用规则方法实现句子和文档级别的事件和论元的一致性。Patwardhan和Riloff提出一个事件抽取模型，该模型由句子和文档级别事件识别模块和角色填充模块两部分组成，并采用一个概率模型将这两个模块统一并联合作出最后的决策。Liao和Grishman提出了单文档跨事件推理方法，认为同一文档中事件类型分别具有一致性。Ji基于平行语料库和跨语言信息，提出了一个归纳学习框架。Hong等则根据实体类别的一致性来预测事件并采用推理方法来提高事件抽取中论元识别的性能。Lu等提出了一个基于半监督马尔科夫随机场的结构优先模型，并用于事件抽取。Huang等针对单一特征信息存在的局限性，提出了结构化特征的表示方法，从词汇、篇章和角色分布三个不同角度探索特征的组合和表示方法，从而体现不同论元、不同事件和不同角色之间的关联性。基于框架语义句法分析和事件抽取在结构上是相同的任务这个猜想，Judea和Strube重新训练SEMAFOR(一个最先进的框架语义句法分析系统)来预测触发词和论元，取得了不错的效果。

最近几年，深度学习模型应用在自然语言处理取得了不错的效果。例如，Chen等引入字表示模型来获取词汇语义线索，提出动态多池卷积神经网络(DMCNN)获取句子级别线索，从纯文本中抽取词汇和句子级别特征。Nguyen和Grishman使用卷积神经网络克服了传统的特征工程方法的两个局限：在大量特征上的特征工程和错误传播。

中文事件抽取研究起步较晚，但也取得了一些成果。周剑辉采用机器学习的方法获取规则集，并对金融领域的收购、分红和贷款三类金融事件进行了事件抽取。姜吉发提出了模式自动学习方法GenPAM，该方法定义了事件模式、事件触发模式以及事件抽取模式三种模式，根据这三种模式来定义事件框架，利用关键词定位事件的候选描述句来抽取事件信息。梁晗等提出了一种基于框架的信息抽取模式并建立了统一的灾难事件框架，利用框架的继承归纳性质概括事件信息，并提出了按时间顺序的线索性事件抽取的输出方式。

针对ACE中文事件抽取任务，就研究方法而言，目前国际上的研究主要从特征选择和触发词扩展两个方面入手。在特征选择方面，Tan等以句子为驱动，先检测出事件句，再根据一定的特征判定其类型，将触发词的检测建立在事件类型已知的基础上，通过构建模板来反映事件论元角色和触发词之间的关系，并探讨了基于多层模板和条件随机场(Conditional Random Field,CRF)模型的事件论元角色识别方法。Chen和Ji根据中文触发词可能位于某个词内的特点，从词汇、句法、语义和相邻信息等多个角度抽取特征，用于中文事件抽取。Fu等提出了一个特征加权方法，用于对各种特征进行权重的重新分配，并用于触发词的识别和事件分类。Wang把各种特征，如项频度、句子位置和长度、标题词覆盖率、语义角色标注等组合起来选择信息化最大的句子作为事件的候选。Chen和Ng把字符信息、语义角色标注信息、触发词概率信息、零指代信息、触发词一致性信息和论元一致性信息等特征用于中文事件抽取。在触发词扩展方面，Chen和Ji采用自举方法分别在英文和中文语料上进行事件抽取的联合训练，尝试从跨语言事件抽取中利用联合训练来提高中文和英文事件抽取性能。Ji从平行语料库入手，从英文中利用中英翻译来扩展中文触发词。Qin等则用“同义词词林”来扩展中文事件触发词。Li等根据中文词组的组合语义学原理，分别从动词构词结构和形态结构两个方面入手，识别在训练语料中没出现的未知触发词，并结合篇章级别的一致性信息进行事件识别。

近几年，联合学习模型在自然语言处理中已成为一个研究热点，该方法可以很好地协同多个任务。

在英文事件抽取的联合学习方面，Riedel和Chun利用马尔科夫逻辑构建一个通用的联合学习框架来抽取生物医学中的事件实例。Poon和Vanderwende用马尔科夫逻辑来联合预测生物信息学中事件及其论元。Riedel和McCallum提出了面向生物医学事件抽取的3个联合模型。Li等提出了一个基于结构预测的事件抽取联合学习架构，并利用Beam Search来获得较优解。

在中文事件抽取的联合学习方面，Li等提出了一种中文事件触发词识别和分类的联合学习模型，该模型不仅有效地促进了触发词识别和分类这两个模型的互动，也融入了很多有效的约束条件。Li等提出了一个事件论元识别和角色分配的联合学习模型，该模型利用各种约束来保证论元在事件内和事件间的一致性。Li等针对事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题，提出了基于语义的中文事件触发词抽取联合学习模型。

当前，绝大多数的事件抽取方法存在两个问题：1)现有的事件抽取大多采用机器学习方法，将事件实例看成是孤立的个体，进而进行分类，普遍没有考虑一个篇章中的多个事件实例间的内在联系；2)现有的事件抽取大多采用管道模型，但这种方法的最大问题是后面任务的结果无法反馈到前面任务，不仅会造成级联错误，而且丢失很多有价值的信息。

为更好地理解本发明，下面首先对相关名词作相应介绍：

事件实例(Event Mention)：文中具体描述事件的句子或片段；

触发词(Trigger)：又称为锚(Anchor)，最能表现事件发生的词语，同时也能表现事件类型，抽取事件也就是抽取事件的触发词；

事件类型(Event Type)：根据触发词类型的不同，事件分为8大类和33小类；

事件范围(Event Extent)：事件实例所在的子句；

实体(Entity)：语义类别中的对象或对象的集合，每种实体具有相应类别，如人物(PER)、地点(LOC)和时间(TIME)等；

论元(Argument)：在事件中担任某类角色的实体、数值或时间，主要包括时间参与者以及与事件相关的属性；

角色(Role)：表述论元和事件的关系，每类事件对应的论元角色有所不同，ACE2005语料库中共有35种角色，一个事件实例往往涉及多个论元角色，每个事件类型有其对应的论元角色；

依存关系(Dependency Relation)：依存句法是由法国语言学家L.Tesniere提出，通过分析语言各成分之间的依存关系揭示其句法结构，主张句子中谓语动词是支配其它成分的中心成分，而它本身却不受其他任何成分的支配，所有受支配成分都以某种依存关系从属于支配者，依存关系由支配者(Government)、受支配者(Dependent)和它们之间的语法关系(Relation)组成的三元组，如“nsubj(购买，他)”，表示支配者“他”是受支配者“购买”的nsubj(形式主语)；

准确率(Precision)：测试数据中被正确分类的正例样本数目占被分为正例样本数目的比例，反映的是系统的准确程度；

召回率(Recall)：测试数据中被正确分类的正例样本数目占正例样本数目的比例，反映的是系统的完备性；

F-Measure：准确率和召回率的几何加权平均值，用于判别系统的整体性能。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于马尔科夫逻辑网络(MarkovLogic Networks，MLN)的篇章级别的中文事件联合推理方法和系统。

本发明的中文事件联合推理方法，包括步骤：

S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取，得到测试语料事件集合；

S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息，得到标注语料特征集合和测试语料特征集合；

S30、根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别模型和一个触发词分类模型，接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型，再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类，利用论元识别模型识别测试预料特征集合中每个候选论元，最后得到事件联合推理第一集合；

S40、对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合。

进一步的，所述步骤S10还包括：

S101、对需要识别触发词的原始文本中的每个文档调用分词工具切分词语，得到用空格分隔词语的第一文档集合；

S102、对第一文档集合中每个文档调用句法分析工具进行句法分析，得到第二文档集合；

S103、对第二文档集合中每个文档调用依存关系分析工具进行依存关系分析，得到测试语料事件集合。

进一步的，所述步骤S20中所述标注语料集合是标注了实体、句法结构、依存结构和事件信息的文档集合。

进一步的，所述步骤S20还包括：

S201、从标注语料集合中抽取触发词识别和分类时的特征，构成标注语料触发词抽取特征集合，从测试语料集合中抽取触发词识别和分类时的特征，构成测试语料触发词抽取特征集合；

S202、从标注语料集合中抽取论元识别时的特征，构成标注语料论元识别特征集合，从测试语料集合中抽取论元识别时的特征，构成测试语料论元识别特征集合。

进一步的，所述步骤S201中触发词识别和分类的特征如下：

<1＝候选触发词><2＝候选触发词的词性><3＝候选触发词的前一词+候选触发词><4＝候选触发词+候选触发词的后一词><5＝候选触发词的前一词词性+候选触发词词性><6＝候选触发词词性+候选触发词的后一词的词性><7＝候选触发词在句法树中的深度><8＝候选触发词在句法树中的短语结构><9＝候选触发词左边的句法上最近的实体类型和实体><10＝候选触发词右边的句法上最近的实体类型和实体><11＝候选触发词左边的物理上最近的实体类型和实体><12＝候选触发词右边的物理上最近的实体类型和实体><13＝候选触发词是否是中文Propbank中的谓词(0或1)><14＝候选触发词在中文同义词词典中的入口编号>。

进一步的，所述步骤S202中论元识别的特征如下：

<1＝触发词><2＝触发词词性><3＝事件类型><4＝实体中心词><5＝实体类型><6＝实体前一词和词性><7＝实体后一词和词性><8＝触发词前一词和词性><9＝触发词后一词和词性><10＝触发词和当前实体(或实体中心词)之间的依存路径><11＝实体和触发词在树中的深度差)><12＝实体到触发词的最短路径><13＝实体与触发词的相对位置(前或后)>；

其中，事件类型为触发词分类后的结果。

进一步的，所述步骤S30还包括：

S301、把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵触发词识别模型和一个触发词分类模型，所述最大熵触发词识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具；

S302、把测试语料特征集合中每个触发词的特征作为输入，调用最大熵触发词识别模型进行触发词识别，得到触发词识别第一集合；

S303、在识别后的结果集中设置一个阈值γ，概率大于等于γ的候选触发词实例认为可信，小于γ认为不可信，分别构成可信集合和不可信集合；

S304、用训练好的触发词分类模型对可信集合和不可信集合上的所有候选触发词进行触发词分类，即每个候选触发词对应一个事件类型，得到触发词分类集合；

S305、把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵论元识别模型，所述最大熵论元识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具；

S306、把测试语料特征集合中经过S304中分类得到的事件类型作为论元识别基准系统的输入，得到论元识别测试集；

S307、调用训练好的最大熵论元识别模型对论元识别测试集进行论元识别，得到论元识别结果集。

进一步的，所述步骤S40还包括：

S401、找出触发词识别第一集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，其中论元集合为测试预料特征集合中被最大熵论元识别模型识别为真论元的那部分集合，利用触发词与论元信息推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第二集合，其中，触发词与论元信息推理规则如下：

通过论元的类型、触发词的词性、触发词与论元的相对位置关系和触发词与论元之间的依存关系路径来推理该触发词是否是真触发词，触发词与论元之间的依存关系路径中有两个相邻的依存关系相同，则去掉其中一个，去掉相邻的重复依存关系后，如果依存路径中的依存关系数量大于N，则该依存路径为NULL；

S402、在触发词识别第二集合中设置一个阈值，将集合分为可信集合和不可信集合，找出触发词识别第二集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，利用论元数量推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第三集合，其中，论元数量推理规则如下：

通过论元的数量来推理对应的触发词是否是真触发词，在进行论元识别时，一个候选触发词可对应多个候选论元，如果这些候选论元中没有识别为真论元或者识别为真论元的数量很少，则该候选触发词是假触发词的概率很大，反之，如果这些候选论元中有多个候选论元被识别为了真论元，则该候选触发词是真触发词的概率就很大；

S403、在触发词识别第三集合中设置一个阈值，将集合分为可信集合和不可信集合，找出触发词识别第三集合中识别为假触发词的触发词集合及对应的论元集合，利用论元同指一致性推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到最终的触发词识别集合，其中，论元同指一致性推理规则如下：

利用可信集合产生的论元，与不可信集合产生的论元建立联系，作为推理的证据，在同一文档中，有两个候选触发词对应的论元同指，其中一个候选触发词是真触发词，则另一个候选触发词也很有可能是真触发词；

S404、用最大熵触发词分类模型对推理出来为真触发词的最终触发词识别集合进行触发词分类。

本发明的中文事件联合推理系统，包括事件预处理模块(10)、事件特征抽取模块(20)、事件分类模块(30)和事件联合推理模块(40)，所述事件预处理模块(10)包括分词单元(101)、句法分析单元(102)和依存分析单元(103)；所述事件特征抽取模块(20)包括触发词识别和分类特征抽取单元(201)和论元识别特征抽取单元(202)；所述事件分类模块(30)包括触发词抽取模型训练单元(301)、触发词识别单元(302)、触发词识别结果集分类单元(303)、触发词分类单元(304)、论元识别模型训练单元(305)、论元识别测试集抽取单元(306)和论元识别单元(307)；所述事件联合推理模块(40)包括触发词与论元信息推理单元(401)、论元数量推理单元(402)、论元同指一致性推理单元(403)和触发词分类单元(404)。

借由上述方案，本发明采用机器学习和推理相结合的方法，利用各种语言知识来识别中文事件触发词，可以充分利用事件论元之间的关系及其篇章知识对中文事件触发词进行推理，从而提高了事件中触发词识别和分类的性能，与现有方法和系统相比，识别性能得到了一定程度的提升；本发明在基于中文ACE(Automatic Context Extraction)2005语料库标注的中文事件语料库中的测试结果表明，和基准系统相比，本发明的系统在触发词识别和触发词分类上性能分别提高了1.68％和1.63％。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明中文事件时序关系识别方法的流程图；

图2是本发明预处理的流程图；

图3是本发明抽取事件对及其特征的流程图；

图4是本发明事件分类的流程图；

图5是本发明事件联合推理的流程图；

图6是本发明中文事件联合推理系统的结构图；

图7是本发明事件预处理模块的结构图；

图8是本发明事件特征抽取模块的结构图；

图9是本发明事件分类模块的结构图；

图10是本发明事件联合推理模块的结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种中文事件联合推理方法，如图1所示，包括：

S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分，实体识别、句法分析、依存关系分析和事件抽取，得到测试语料事件集合。

其中，如图2所示，S10的具体过程如下：

例如：文档中句子“另据报道，佛州议会将于8号举行参众两院联席特别会议，直接认命该州的25名选举人，由于共和党在佛州议会总人数中占优势，任命结果很可能对布什有利。”经过词语切分后为：

例1：另据报道，佛州议会将于8号举行参众两院联席特别会议，直接认命该州的25名选举人，由于共和党在佛州议会总人数中占优势，任命结果很可能对布什有利。中央台编译报道。

例1经过句法分析后为：

例2：((IP(ADVP(AD另))(PP(P据)(NP(NN报道)))(PU，)(NP(NR佛州)(NN议会))(VP(VP(ADVP(AD将))(PP(P于)(NP(NT 8号)))(VP(VP(VV举行))(VP(VV参)(NP(QP(CD众))(NP(NP(QP(CD两))(NP(NN院)))(NP(QP(CD联)(CLP(M席)))(ADJP(JJ特别))(NP(NN会议))))))))(PU，)(VP(ADVP(AD直接))(VP(VV认命)(NP(DNP(NP(DP(DT该))(NP(NN州)))(DEG的))(QP(CD 25)(CLP(M名)))(NP(NN选举人)))))(PU，)(VP(PP(P由于)(IP(NP(NR共和党))(VP(PP(P在)(LCP(NP(NP(NR佛州)(NN议会))(ADJP(JJ总))(NP(NN人数)))(LC中)))(VP(VV占)(NP(NN优势))))))(PU，)(VP(VV任命)(NP(NN结果))(IP(VP(ADVP(AD很))(VP(VV可能)(VP(PP(P对)(NP(NN布什)))(VP(VV有利)))))))))(PU。)))

其中，句法分析是指对句子中的词语语法功能进行分析。“NT”、“NR”、“P”、“NN”、“VV”、“PU”、“AD”、“AS”、“DEG”、“PN”、和“LC”是句法分析的标签，分别表示时间词、专用名词、介词、普通名词、普通动词、标点符号、副词、时态词、词“的”、代词和方位词；“LCP”、“DNP”、“ADVP”、“NP”、“VP”、“PP”和“IP”分别表示方位词短语、所属关系短语、副词性短语、名词性短语、动词性短语、介词性短语和子句。

例2经过依存分析后：

例3：advmod(举行-10，另-1)prep(举行-10，据-2)pobj(据-2，报道-3)nn(议会-6，佛州-5)nsubj(举行-10，议会-6)advmod(举行-10，将-7)prep(举行-10，于-8)pobj(于-8，8号-9)conj(参-11，举行-10)dep(举行-10，参-11)nummod(会议-18，众-12)nummod(院-14，两-13)nn(会议-18，院-14)nummod(席-16，联-15)clf(会议-18，席-16)amod(会议-18，特别-17)dobj(参-11，会议-18)advmod(认命-21，直接-20)dep(举行-10，认命-21)det(州-23，该-22)assmod(选举人-27，州-23)assm(州-23，的-24)nummod(名-26，25-25)clf(选举人-27，名-26)dobj(认命-21，选举人-27)prep(任命-40，由于-29)nsubj(占-37，共和党-30)prep(占-37，在-31)nn(议会-33，佛州-32)nn(人数-35，议会-33)amod(人数-35，总-34)lobj(中-36，人数-35)plmod(在-31，中-36)pccomp(由于-29，占-37)dobj(占-37，优势-38)dep(举行-10，任命-40)dobj(任命-40，结果-41)advmod(有利-46，很-42)mmod(有利-46，可能-43)prep(有利-46，对-44)pobj(对-44，布什-45)dep(任命-40，有利-46)

其中，“tmod”，“advmod”、“lccomp”、“assmod”、“assm”、“nn”，“nsubj”、“dobj”、“asp”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具输出的关系标签，分别表示时间修饰、副词修饰、位置补语、关联修饰、关联标记、并列名词、主谓关系、直接宾语、时态标词、从句补语、其它关系、介词宾语和介词关系。依存关系由支配者(Government)、受支配者(Dependent)和它们之间的语法关系(Relation)组成的三元组，如“nsubj(举行-10,会议-6)”，表示支配者“会议”是受支配者“举行”的nsubj(形式主语)。词语后面的数字表示该词语在句子中的序号。

S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息，得到标注语料特征集合和测试语料特征集合。其中，所述标注语料集合是已经标注了实体、句法结构、依存结构和事件信息的文档集合，是本发明进行学习和推理的基础。

其中，如图3所示，S20的具体过程如下：

S201、从标注语料集合中抽取触发词识别和分类时的特征，构成标注语料触发词抽取特征集合，从测试语料集合中抽取触发词识别和分类时的特征，构成测试语料触发词抽取特征集合；其中，触发词识别和分类的特征如下：

<1＝候选触发词><2＝候选触发词的词性><3＝候选触发词的前一词+候选触发词><4＝候选触发词+候选触发词的后一词><5＝候选触发词的前一词词性+候选触发词词性><6＝候选触发词词性+候选触发词的后一词的词性><7＝候选触发词在句法树中的深度><8＝候选触发词在句法树中的短语结构><9＝候选触发词左边的句法上最近的实体类型和实体><10＝候选触发词右边的句法上最近的实体类型和实体><11＝候选触发词左边的物理上最近的实体类型和实体><12＝候选触发词右边的物理上最近的实体类型和实体><13＝候选触发词是否是中文Propbank中的谓词(0或1)><14＝候选触发词在中文同义词词典中的入口编号>

没有的特征不写出来。其中，触发词类型共有33种，分别用数字1-33编号。中文同义词词林为《同义词词林》。

例如，例1中候选触发词“任命”对应的特征如下：

例4：<1＝任命><2＝VV><3＝。+任命><4＝任命+结果><5＝PU+VV><6＝VV+NN><7＝4><8＝VP><9＝ORG共和党><10＝PER布什><11＝ORG议会><12＝PER布什><13＝1><14＝Hc25>

以上特征可以从例1-例3中得到。

S202、从标注语料集合中抽取论元识别时的特征，构成标注语料论元识别特征集合，从测试语料集合中抽取论元识别时的特征，构成测试语料论元识别特征集合；其中，论元识别的特征如下：

<1＝触发词><2＝触发词词性><3＝事件类型><4＝实体中心词><5＝实体类型><6＝实体前一词和词性><7＝实体后一词和词性><8＝触发词前一词和词性><9＝触发词后一词和词性><10＝触发词和当前实体(或实体中心词)之间的依存路径><11＝实体和触发词在树中的深度差)><12＝实体到触发词的最短路径><13＝实体与触发词的相对位置(前或后)>

其中，事件类型为触发词分类后的结果。

例如，例1中候选触发词“任命”对应的候选论元“议会”的特征如下：

例5：<1＝任命><2＝VV><3＝14><4＝议会><5＝ORG><6＝在+P><7＝总+JJ><8＝。+PU><9＝结果+NN><10＝prep^pccomp^prep^plmod^lobj^nn><11＝6>

<12＝NP^NP^NP^LCP^PP^VP^IP^PP^VP><13＝前>

以上特征可以从例1-例3中得到。

S30、根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别识别模型和一个触发词分类模型，接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型，再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类(每个候选触发词对一个一个事件类型)，利用论元识别模型识别测试预料特征集合中每个候选论元，最后得到事件联合推理第一集合。

其中，如图4所示，S30的具体过程如下：

S301、把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵触发词识别模型和一个触发词分类模型，所述最大熵触发词识别(或分类)模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具；

标注语料特征集合中的特征的例子如例4所示，每个候选触发词实例带有相应的事件类别。利用最大熵分类工具，如Mallet，Maxent，Stanford Classifier等，可以训练得到一个最大熵触发词识别模型和一个最大熵触发词分类模型。

S302、把测试语料特征集合中每个触发词的特征作为输入，调用最大熵触发词识别模型进行触发词识别，得到触发词识别第一集合；每个候选触发词实例识别后的格式如下：

<特征集，标准类型，识别的结果，置信度>

置信度为一个0-1之间的分类结果，表示概率。

例如：以下是对例1中的候选触发词实例“任命”识别后的输出结果：

例6：

1＝任命2＝VV3＝。+任命4＝任命+结果5＝PU+VV6＝VV+NN7＝48＝VP9＝ORG共和党10＝PER布什11＝ORG议会12＝PER布什13＝114＝Hc25>100.6273886874310958

S304、用训练好的触发词分类模型对可信集合和不可信集合上的所有候选触发词进行触发词分类，即每个候选触发词对应一个事件类型，得到触发词分类集合；每个候选触发词实例分类后的格式如下：

<特征集，标准类型，分类的结果，置信度>

置信度为一个0-1之间的分类结果，表示概率。

例如：以下是对例1中的候选触发词实例“任命”分类后的输出结果：

例7：

1＝任命2＝VV3＝。+任命4＝任命+结果5＝PU+VV6＝VV+NN7＝48＝VP9＝ORG共和党10＝PER布什11＝ORG议会12＝PER布什13＝114＝Hc25>14140.7993876431508394

S305、把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵论元识别模型，所述最大熵论元识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具；

标注语料特征集合中的特征的例子如例5所示，每个候选论元实例带有相应的论元类别(0或1)。

例如例5中的一个特征<3＝14>这个14就是候选论元实例“议会”对应的触发词“任命”在S304中分类的结果。

S307、调用训练好的最大熵论元识别模型对论元识别测试集进行论元识别，得到论元识别结果集。每个候选论元实例识别后的格式如下：

<特征集，标准类型，识别的结果，置信度>

置信度为一个0-1之间的分类结果，表示概率。

例如：以下是对例5中的候选论元实例“议会”识别后的输出结果：

例8：

1＝任命2＝VV 3＝144＝议会5＝ORG 6＝在+P 7＝总+JJ 8＝。+PU 9＝结果+NN10＝prep^pccomp^prep^plmod^lobj^nn 11＝6

12＝NP^NP^NP^LCP^PP^VP^IP^PP^VP 13＝前100.8170714403750499

S40、对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合。由于本部分只使用论元数量推理中的例子来具体说明推理规则，所以只有S402和S404。

其中，如图5所示，S40的具体过程如下：

S402、找出触发词识别第一集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，其中论元集合为测试预料特征集合中被最大熵论元识别模型识别为真论元的那部分集合，利用论元数量推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第二集合。其中，论元数量推理规则如下：

通过论元的数量来推理对应的触发词是否是真触发词。在事件抽取任务中，传统的做法是先进行触发词识别，然后是触发词分类；分类完成后，该触发词对应的事件类型就已知，接着再进行论元识别和论元分类。在ACE2005中文语料库中，触发词和论元有紧密的联系，如果一个触发词触发了事件，则该触发词在绝大部分情况下有其对应的论元，触发词和论元共同构成了一个完整的事件。所以，论元的数量可作为触发词推理的依据。在进行论元识别时，一个候选触发词可对应多个候选论元，如果这些候选论元中没有识别为真论元或者识别为真论元的数量很少，则该候选触发词是假触发词的概率很大；反之，如果这些候选论元中有多个候选论元被识别为了真论元，则该候选触发词是真触发词的概率就很大。例如例9：

例9：另据报道，佛州议会将于8号举行参众两院联席特别会议，直接认命该州的25名选举人，由于共和党在佛州议会(Entity)总人数中占优势，任命(Personnel:Start-Position)结果很可能对布什有利。

在例9中的其中一个事件实例中，触发词是“任命”，论元是“佛州议会”。在论元识别中，模型将“议会”、“8号”、“警方”这些候选论元识别成了真论元，论元数量为2，所以有很有可能将候选触发词“任命”推理成真触发词。

例如，将S402中推理出来的真触发词“任命”重新进行触发词分类，所用的特征和之前的一样。结果如下：

例10：

一种中文事件联合推理系统，如图6所示，包括事件预处理模块10、事件特征抽取模块20、事件分类模块30和事件联合推理模块40。

事件预处理模块10，用于对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分，实体识别、句法分析、依存关系分析和事件抽取，得到测试语料事件集合；

事件特征抽取模块20，用于分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息，得到标注语料特征集合和测试语料特征集合；其中，所述标注语料集合是已经标注了实体、句法结构、依存结构和事件信息的文档集合，是本发明进行学习和推理的基础；

事件分类模块30，用于根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别识别模型和一个触发词分类模型；接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型；再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类(每个候选触发词对一个一个事件类型)，利用论元识别模型识别测试预料特征集合中每个候选论元；最后得到事件联合推理第一集合；

事件联合推理模块40，用于对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合。

其中，如图7所示，事件预处理模块10包括分词单元101、句法分析单元102、依存分析单元103。

分词单元101，对需要识别触发词的原始文本中的每个文档调用分词工具切分词语，得到用空格分隔词语的第一文档集合；

句法分析单元102，对第一文档集合中每个文档调用句法分析工具进行句法分析，得到第二文档集合；

依存分析单元103，对第二文档集合中每个文档调用依存关系分析工具进行依存关系分析，得到测试语料事件集合。

其中，如图8所示，事件特征抽取模块20包括触发词识别和分类特征抽取单元201和论元识别特征抽取单元202。

触发词识别和分类特征抽取单元201，从标注语料集合中抽取触发词识别和分类时的特征，构成标注语料触发词抽取特征集合；从测试语料集合中抽取触发词识别和分类时的特征，构成测试语料触发词抽取特征集合。其中，触发词识别和分类的特征如下：

论元识别特征抽取单元202，从标注语料集合中抽取论元识别时的特征，构成标注语料论元识别特征集合；从测试语料集合中抽取论元识别时的特征，构成测试语料论元识别特征集合。其中，论元识别的特征如下：

其中，事件类型为触发词分类后的结果。

其中，如图9所示，事件分类模块30包括触发词抽取模型训练单元301、触发词识别单元302、触发词识别结果集分类单元303、触发词分类单元304、论元识别模型训练单元305、论元识别测试集抽取单元306和论元识别单元307。

触发词抽取模型训练单元301，把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵触发词识别模型和一个触发词分类模型；所述最大熵触发词识别(或分类)模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具；

触发词识别单元302，把测试语料特征集合中每个触发词的特征作为输入，调用最大熵触发词识别模型进行触发词识别，得到触发词识别第一集合；

触发词识别结果集分类单元303，在识别后的结果集中设置一个阈值γ，概率大于等于γ的候选触发词实例认为可信，小于γ认为不可信，分别构成可信集合和不可信集合；

触发词分类单元304，用训练好的触发词分类模型对可信集合和不可信集合上的所有候选触发词进行触发词分类，即每个候选触发词对应一个事件类型，得到触发词分类集合；

论元识别模型训练单元305，把标注语料特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵论元识别模型；所述最大熵论元识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具；

论元识别测试集抽取单元306，把测试语料特征集合中经过S304中分类得到的事件类型作为论元识别基准系统的输入，得到论元识别测试集；

论元识别单元307，调用训练好的最大熵论元识别模型对论元识别测试集进行论元识别，得到论元识别结果集。

其中，如图10所示，事件联合推理模块40包括触发词与论元信息推理单元401、论元数量推理单元402、论元同指一致性推理单元403和触发词分类单元404。

触发词与论元信息推理单元401，找出触发词识别第一集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，其中论元集合为测试预料特征集合中被最大熵论元识别模型识别为真论元的那部分集合，利用触发词与论元信息推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第二集合。其中，触发词与论元信息推理规则如下：

通过论元的类型、触发词的词性、触发词与论元的相对位置关系和触发词与论元之间的依存关系路径来推理该触发词是否是真触发词。其中，论元的类型就是实体的类型，有PER、GPE和LOC等；触发词词性主要有VV(动词)和NN(名词)；触发词与论元相对位置有前或后(0或1来表示)。值得一提的是触发词与论元之间的依存关系路径，依存路径的稀疏性造成模型效果不好，所以不能用原始的依存路径。具体做法如下：如果依存路径中有两个相邻的依存关系相同，则去掉其中一个。去掉相邻的重复依存关系后，如果依存路径中的依存关系数量大于N，则该依存路径为NULL。例如某个依存路径dep_dep_dobj_assmod_nn，去除重复后依存路径为dep_dobj_assmod_nn，如果N＝3，而依存路径中的依存关系数量为4，则最终的依存路径为NULL，如果N＝4，则依存路径为dep_dobj_assmod_nn。以句子1为例：

例11：警方发言人周二表示，甘达拉在被调查过程中表现不合作，警员已

一再警告如果他不伏下，便会向他发射胡椒弹，但甘达拉没有听命，警员(Attacker)于是发射(Conflict:Attack)胡椒弹。

在上面的例11中有一个事件实例，触发词是“发射”，论元是“警员”和“胡椒弹”。当候选触发词“发射”是否是真触发词未知时，由于已知“警员”和“胡椒弹”是论元，“发射”的词性为动词，“警员”在“发射”之前，且该论元的类型为PER，“警员”与“发射”之间的依存关系路径是nsubj，“胡椒弹”在“发射”之后，且该论元的类型为WEA，“发射”与“胡椒弹”之前的依存关系路径是dobj，容易推理出候选触发词“发射”是真触发词。

论元数量推理单元402，在触发词识别第二集合中设置一个阈值，将集合分为可信集合和不可信集合。找出触发词识别第二集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，利用论元数量推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第三集合。其中，论元数量推理规则如下：

通过论元的数量来推理对应的触发词是否是真触发词。在事件抽取任务中，传统的做法是先进行触发词识别，然后是触发词分类；分类完成后，该触发词对应的事件类型就已知，接着再进行论元识别和论元分类。在ACE2005中文语料库中，触发词和论元有紧密的联系，如果一个触发词触发了事件，则该触发词在绝大部分情况下有其对应的论元，触发词和论元共同构成了一个完整的事件。所以，论元的数量可作为触发词推理的依据。在进行论元识别时，一个候选触发词可对应多个候选论元，如果这些候选论元中没有识别为真论元或者识别为真论元的数量很少，则该候选触发词是假触发词的概率很大；反之，如果这些候选论元中有多个候选论元被识别为了真论元，则该候选触发词是真触发词的概率就很大。例如例12：

例12：而在警方(Attacker)和安全部队(Attacker)突击伊斯坦堡的温拉尼约监狱的时候，射(Conflict:Attack)死第3名朝着军警冲去的自焚囚犯(Target)，同时目击者也看到了黑佣从监狱里传出来。

在例12中的其中一个实例中，触发词是“射”，论元是“警方”、“部队”和“囚犯”。在论元识别中，模型将“温拉尼约监狱”、“部队”、“警方”和“伊斯坦堡”这些候选论元识别成了真论元，论元数量为4，所以有很高的概率将候选触发词“射”推理成真触发词。

论元同指一致性推理单元403，在触发词识别第三集合中设置一个阈值，将集合分为可信集合和不可信集合。找出触发词识别第三集合中识别为假触发词的触发词集合及对应的论元集合，利用论元同指一致性推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到最终的触发词识别集合。其中，论元同指一致性推理规则如下：

和上面两条推理规则不同，该推理规则需要可信集合产生的论元，因为这部分集合可以与不可信集合产生的论元建立联系，作为推理的证据；而且该推理规则不局限于句子级别信息，还使用到了篇章级信息。由于中文作为主题结构的语言，同一篇文档往往讲述同一话题。从标注语料集合中，容易观察到这样的现象：在同一文档中，有两个候选触发词对应的论元同指，其中一个候选触发词是真触发词，则另一个候选触发词也很有可能是真触发词。以例句13和例句14为例：

例13：位在高雄县阿莲乡(Place)的卢姓夫妇和17岁的女儿一家三口(Attacker,Target)在昨天深夜(Time)集体喝下了除草剂自杀(Conflict:Attack)。

例14：而家属在院外焦急的等候，经过医师的努力三个人(Victim)总算是稳住的病情(Life:Injure)。

在例13的事件实例中，触发词是“自杀”，论元是“高雄县阿莲乡”、“一家三口”和“昨天深夜”。在例14的事件实例中，触发词是“病情”，论元是“三个人”。在例13中的触发词“自杀”由于在训练集中经常被标注为真触发词，所以很容易被识别出来。而在例14中的触发词“病情”由于在训练集中不常见，而且缺少上下文信息所以很难被识别出来。但是，例13中的论元“一家三口”和例14中的论元“三个人”是同指的，而又已知“自杀”是真触发词，所以可以推理出“病情”也是真触发词。

触发词分类单元404，用最大熵触发词分类模型对推理出来为真触发词的最终触发词识别集合进行触发词分类。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种中文事件联合推理方法，用于识别从原始文本中抽取事件实例，其特征在于包括步骤：

S30、根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别模型和一个触发词分类模型，接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型，再利用所述最大熵触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类，利用论元识别模型识别测试语料特征集合中每个候选论元，最后得到事件联合推理第一集合；

S40、对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合；

所述步骤S30还包括：

S303、在识别后的结果集中设置一个阈值，概率大于等于的候选触发词实例认为可信，小于认为不可信，分别构成可信集合和不可信集合；

S307、调用训练好的最大熵论元识别模型对论元识别测试集进行论元识别，得到论元识别结果集；

所述步骤S40还包括：

S401、找出触发词识别第一集合中分类为不可信集合且识别为假触发词的触发词集合及对应的论元集合，其中论元集合为测试语料特征集合中被最大熵论元识别模型识别为真论元的那部分集合，利用触发词与论元信息推理规则将在最大熵论元识别时识别为假触发词的触发词重新识别出来，得到触发词识别第二集合，其中，触发词与论元信息推理规则如下：

2.根据权利要求1所述的中文事件联合推理方法，其特征在于，所述步骤S10还包括：

3.根据权利要求1所述的中文事件联合推理方法，其特征在于：所述步骤S20中所述标注语料集合是标注了实体、句法结构、依存结构和事件信息的文档集合。

4.根据权利要求3所述的中文事件联合推理方法，其特征在于，所述步骤S20还包括：