CN106844448A

CN106844448A - 一种中文事件事实性识别方法和系统

Info

Publication number: CN106844448A
Application number: CN201611170133.9A
Authority: CN
Inventors: 何天雄; 李培峰; 朱晓旭; 朱巧明; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-06-13
Anticipated expiration: 2036-12-16
Also published as: CN106844448B

Abstract

本发明涉及一种中文事件事实性识别方法和系统，利用事件事实性信息和它们之间的联系，采用机器学习和推理相结合的方法来识别中文事件的事实性。本发明的方法和系统，与现有的方法和系统相比，总体的识别性能有所提升，同时，在处理类别的不均衡问题上有更好的效果，尤其在事件数目较少的类别的事实性识别上有明显的性能提升。

Description

一种中文事件事实性识别方法和系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种中文事件事实性识别方法和系统。

背景技术

当人们谈论某一事件，表达对事件的观点和想法时，不仅仅传达了事件发生的时间、地点和人物等信息，还包含了对事件的立场和态度。其中态度和立场可分为两类：主观性和确定性，主观性即叙述者对当前事件主观性的看法，如赞成、反对或中立^[2]。确定性即叙述者对当前事件真实与否的确定性程度，如一定发生、可能发生或者仍未发生等^[3]。这里的确定性，即本文所指的事件事实性。

事件事实性识别就是判定当前事件发生的确定性程度。事件事实性的影响因素很多，事件句中的谓词语义往往隐含了事件叙述者的态度，例如“确实”、“证实”表示确定，“怀疑”、“推断”表示可能。否定词和一些特殊的句法结构如条件和目的从句，也会影响事件事实性的表达。除此之外，事件发生的时态、一些特殊的形容词和副词(可能、必须等)都会对事件的事实性造成影响。

目前有关事件事实性的研究较少，主要集中在英文方面，Diab^[7]提出了一个基于机器学习模型的事实性标记方法。为简化模型，只认为事实性由文档作者表达，然后将事实性分为三类：“确定的事实性”(非常有可能会发生)、“不确定的事实性”(有可能会发生)和“不存在”(无法确定是否发生)。为验证他们的想法，建立了小型的语料库并使用YAMCHA序列标签系统，除一些基本特征外还使用了词性标签、词类特征、浅层句法信息等作为特征。Prabhakaran^[8]使用了类似的方法，将其分成两个子任务：识别文档的主题和根据主题进行事实性分类，在引入了依存句法关系作为特征的同时使用了基于SVM和CRF模型的标记工具。Velldal^[9]在Conan Doyle语料库的基础上，将事实性分为两类：“确定的事实性”和“不确定的事实性”，利用已标注的否定信息用于事实性分类，并将该方法用于辅助否定事件检测任务，使得否定事件检测精度得到提升。Kilicoglu^[11]提出了一种基于规则的组合方法用于识别生物医学领域事件的事实性，该方法注重同一覆盖域内事件谓词之间的联系，并对其进行分类。实验通过一系列规则实现事件的确定性和极性的识别，使用GENIA事件语料库，在事件确定性的识别上取得不错的效果，但在极性的识别上稍弱。使用机器学习的方法分别识别克罗地亚语料事件的确定性和极性，考虑到克罗地亚语的特性，对特定的词汇信息进行处理并作为特征来识别极性，而在识别确定性上则着重考虑到某些触发词出现的位置信息，整体上取得了不错的效果。Lee^[13]验证了无监督的方法用于事件监测和事实性识别的可行性，通过使用高质量的数据样本和一些简单的模型可以在一定程度上完成事件检测和事实性识别两个任务。

Sauri^[5]从语言学的角度设计了一个事实性分析器-De Facto。为验证自己的思想，在TimeBank语料库的基础上，建立了用于事件事实性分析的FactBank语料库^[6]，FactBank将事件事实性分为七类：“确定发生”、“确定不发生”、“很可能发生”、“很有可能不发生”、“有可能发生”、“有可能不发生”和“不确定”。钱忠^[10]提出了一个将事件事实性分析拆解为两步的方法。首先，依据事件事实性相关信息建立最大熵模型将事件分为“确定发生”和“不确定发生”两类，然后根据规则对“确定发生”类别再进行细分。

中文方面，曹媛构建一个基于ACE(Automatic Content Extraction)2005的事件事实性分析语料库^[1]，将事件事实性分为五类：“当然发生”、“当然不发生”、“可能发生”、“可能不发生”和“不确定”。同时，对语料库中的中文事件进行标注，标注了五类事实性相关信息，如“事件选择谓词”、“事件源”、“程度词”、“否定词”和“从句”。她认为事件事实性相关信息大部分是词汇级信息，不利于分析事件事实性，为此提出三维的中文事件事实性表示方法^[4]。在已标注的事件事实性信息基础上依据规则建立三维模型(级别、极性和时态)，这三类属性由五类事实性相关信息通过一定的规则转化而成，然后根据三类属性对事件事实性的影响不同，制定规则，将级别、极性和时态结合推出的事件事实性。

当前，主要的中文事件事实性分析方法存在三个问题：1)通过制定规则来分析事件的事实性，识别的效率很大程度上依赖于规则制定的好坏，所以需要相关领域的专家学者来制定。这就需要较高的成本，同时不具备普遍的适用性。2)在当前规则的方法下，类别的不均衡问题导致识别性能的不均衡出现的更为严重，事件数较多的类别能取得不错的召回率，但准确率不高，事件数较少的类别能取得不错的准确率，但召回率偏低。3)机器学习领域的大发展推动计算机相关研究领域方向进一步发展，事件事实性识别方法本质上也可简化成分类问题，天然的适合机器学习的方法来进行研究。

有鉴于上述的缺陷，本设计人，积极加以研究创新，提出一种新的中文事件事实性识别方法和系统。

术语解释：

事件(Event)：在真实世界中已经/可能/将要发生的事情，一般包括时间、地点和人物等角色，如出生、死亡、地震和车祸等事件。

事件源(Event Source)：事件的叙述者，事件态度的持有者。

事件选择谓词(Event Selecting Predicate)：通常以事件触发词的上层谓词形式出现，代表事件叙述者对事件的立场与态度。不同的谓词，对其包含事件的可信度影响不同。1)意见型谓词(如建议、认为)表示可能；2)证明型谓词(显示、证明)表示确定等。因此，谓词有级别属性，表示不同的谓词对事件事实性的不同的确定程度。

程度词(Degree)：用于表示事实性的确定性程度或者事件发生的时间，此类词一般包含两个属性：时态和级别。可分为三类：1)时态程度词(纯时态词，多为表示时间的副词或名词，级别属性为无)；2)级别程度词(多用于修饰动词，表示事件的确定性程度，时态属性为无)；3)混合程度词(既表示事件的时态也表示事件的确定性程度，既包含时态属性也包含级别属性)。

否定词(Negative)：表示否定意义的词，一般为副词，也有动词的情形，对事件的极性有着决定性的影响。

情态(Modality)：该属性用于表示该事件是否是在真实世界中发生的事件。一般有两个值：Asserted(确定的)和Other(其他)。

极性(Polarity)：表示事件是否发生，是为正，否为负。

时态(Tense):表示事件发生时间，有“过去”、“现在”和“将来”三种。

级别(Degree):表示事件发生的可能性，有“确定”、“可能”和“不确定”三种。

事件事实性(Event Factuality)：表示事件的叙述者，也可称为事件源，对事件发生与否的确定性程度。本文使用语料库将事件的事实性分为五类：“当然发生”、“当然不发生”、“可能发生”、“可能不发生”和“不确定”。

正确率(Accuracy)：系统正确识别时序关系的事件对个数占所有事件对的比例，是衡量事件时序关系识别性能的指标。

语料库文档：每个语料库文档由一系列不同类型的事件句组成，而每个事件句包含一系列中文事件。其中，每个事件句标注有所属的“事件句ID”(用于标识唯一性)、“事件句情态”和“事件句时态”。其中的每个中文事件分别标注了当前事件的事实性相关信息，包括“事件文本”、“事件源”、“事件选择谓词”、“程度词”和“否定词”。另外，标注语料库标注了当前事件的事实性信息，而测试语料库并未标注。

参考文献：

[1]曹媛,朱巧明,李培峰.中文事件事实性信息语料库的构建方法[J].中文信息学报,2013,27(6):38-44.

[2]曹韵.主观性与主观化简析[J].黑龙江教育学院学报.2013(4):137-138.

[3]刘碧辉.文学语言的不确定性[J].广东培正学院学报.2013(4):47-50.

[4]CAO Yuan,ZHUQiaoming,LIPeifeng.3D Representation of Chinese EventFactuality[C]//Chinese Lexical Semantic Workshop.2014:7-13.

[5]SauríR.A factuality profiler for eventualities in text[M].ProQuest,2008.

[6]SauríR,Pustejovsky J.FactBank:a corpus annotated with eventfactuality.[J].Language Resources&Evaluation,2009,43(3):227-268.

[7]Diab M T,Levin L,Mitamura T,et al.Committed belief annotation andtagging[C]//Linguistic Annotation Workshop.Association for ComputationalLinguistics.2009:68-73.

[8]Prabhakaran V,Rambow O,Diab M.Automat-ic committed belief tagging[C]//International Conference on Computational Linguistics.2010:1014-1022.

[9]Velldal E,Read J.Factuality detection on the cheap:inferringfactuality for increased precision in detecting negated events[C]//Proceedings of the Workshop on ExtraPropositional Aspects of Meaning inComputational Linguistics.2012:28-36.

[10]QIAN Zhong,LI Peifeng,ZHUQiaoming.A Two-Step Approach for EventFactuality Identification[C]//The 19th International Conference on AsianLanguage Processing.2015:10-16.

[11]Kilicoglu H,Rosemblat G,Cairelli M J,et al.A CompositionalInterpretation of Biomedical Event Factuality[J].ExProM 2015,2015,22(3):16-26.

[12]G,J,B D.Are You for Real？Learning EventFactuality in Croatian Texts[C]//Information Society 2012-Con-ference on DataMining and Data Warehouse-s.2012:18-22.

Lee K,Artzi Y,Choi Y,et al.Event Detect-ion and Factuality Assessmentwith NonExpert Supervision[J].Computer Science&Engineering,2015,12(2):18-24.

发明内容

为解决上述技术问题，本发明的目的是提供一种中文事件事实性识别方法和系统，利用事件事实性信息和它们之间的联系，采用机器学习和推理相结合的方法来识别中文事件的事实性。本发明的方法和系统，与现有的方法和系统相比，总体的识别性能有所提升，同时，在处理类别的不均衡问题上有更好的效果，尤其在事件数目较少的类别的事实性识别上有明显的性能提升。

本发明的中文事件事实性识别方法，其特征在于：用于识别中文事件的事实性，包括步骤：

S10、从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合；从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合；

S20、在标注语料集合上，针对每个中文事件的事实性相关信息，使用规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，再加入事件的真实事实性，构造出标注语料特征集合；

在测试语料集合上，针对每个中文事件的事实性相关信息，使用相同规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，构造出测试语料特征集合；

S30、根据标注语料特征集合中各个事件的特征，训练一个最大熵事件事实性识别模型，再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

进一步的，所述步骤S10的具体过程如下：

S101、从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来，同时，从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，最后，抽取该事件的真实“事件事实性”，构造出标注语料集合；

从测试语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”抽取出来，同时，从当前事件信息中抽取出事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，构造出测试语料集合；

其中，事件句情态是event结点的Modality属性值，事件句时态是event结点的Tense属性值，事件源是source结点值，事件选择谓词是event_selecting_predicates结点值，并包括LEVEL这个级别属性，程度词为degree的结点值，包括LEVEL级别属性值和TENSE时态属性值，否定词为negative_word的结点值。

进一步的，所述步骤S20的具体过程如下：

S201、事件句特征处理，选取每个事件所属的事件句情态和时态信息作为特征，并以此构造语料特征集合；

在标注语料集合中，选取每个事件所属的事件句的情态和时态信息作为事件句特征，并构造标注语料特征集合；

在测试语料集合中，选取每个事件所属的事件句的情态和时态信息作为事件句特征，并构造测试语料特征集合；

S202、词汇级特征处理，对每个事件的事件源、否定词和程度词进行词性标注，进而选取此三者词性作为词汇级特征，并加入到语料特征集合中；

在标注语料集合中，使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注，选取它们的词性作为特征，若当前事件不存在以上某一词汇，则默认其对应词性特征为“无”，并将此三类信息加入到语料特征集合中；

在测试语料集合中，使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注，选取它们的词性作为特征，若当前事件不存在以上某一词汇，则默认其对应词性特征为“无”，并将此三类信息加入到语料特征集合中；

S203、谓词级别特征处理，对每个事件的事件选择谓词的级别属性进行规则转化，进而获取谓词级别特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件按规则转化其事件选择谓词的级别属性，进而获取谓词级别特征；

在测试语料集合中，对每个事件按规则转化其事件选择谓词的级别属性，进而获取谓词级别特征；

考虑到有部分事件包含多个事件选择谓词，其具体转化规则如下：

(1)首先默认当前事件的谓词级别特征为“无”；

(2)如果当前事件仅存在单个事件选择谓词，则选择其级别属性作为谓词级别特征；

(3)如果当前事件存在多个事件选择谓词，则按照“不确定”>“可能”>“确定”的优先级顺序进行选择性获取，作为谓词级别特征；

S204、程度词属性特征处理，对每个事件的程度词时态和级别进行特征转化，获取程度词的时态特征和级别特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件的程度词时态和级别按规则进行特征转化，获取程度词的时态特征和级别特征，即程度词属性特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件的程度词时态和级别按规则进行特征转化，获取程度词的时态特征和级别特征，即程度词属性特征，并加入到语料特征集合中；

程度词包含时态和级别两种属性，分别对其时态和级别进行特征转化，形成程度词时态特征和程度词级别特征；

由于存在三种程度词，即时态程度词(包含时态，级别为“无”)、级别程度词(包含级别，时态为“无”)和混合程度词(既包含时态也包含级别)，则需进行如下的特征转化：

程度词时态特征将由时态程度词和混合程度词的时态进行简单的词汇组合，形成程度词时态特征，如存在时态程度词“明天”(级别为“无”，时态为“将来”)，混合程度词“被”(级别为“确定”，时态为“过去”)，则其时态特征为“将来_过去”；

程度词级别特征将按如下规则进行转化：

(1)首先默认当前事件的程度词级别特征为“无”；

(2)如果当前事件仅存在单个包含级别的程度词(级别程度词和混合程度词都包含级别属性)，则选择其级别作为程度词级别特征；

(3)如果当前事件存在多个包含级别的程度词(级别程度词和混合程度词都包含级别属性)，则按照“不确定”>“可能”>“确定”优先级对这些程度词的级别属性进行选择性获取，作为程度词级别特征；

S205、级别特征处理，对每个事件的事件选择谓词的级别和程度词的级别进行规则转化，进而获取级别特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化，获取级别特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化，获取级别特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认当前事件的级别特征为“确定”；

(2)如果当前事件中存在事件选择谓词或者包含级别的程度词，若它们的级别是一致的，则选择该级别作为级别特征，若不一致，则按照“不确定”>“可能”>“确定”的优先级对这些级别属性进行选择性获取，作为级别特征；

S206、极性特征处理，依据每个事件的否定词的个数对其进行特征处理，得到极性特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件进行极性特征处理，若否定词个数为偶数，则极性特征为“正”，若为奇数，则极性特征为“负”，继而获取极性特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件进行极性特征处理，若否定词个数为偶数，则极性特征为“正”，若为奇数，则极性特征为“负”，继而获取极性特征，并加入到语料特征集合中；

S207、时态特征处理，依据每个事件的所属事件句时态和其包含时态的程度词(时态程度词和混合程度词都包含时态)，进行规则转化，获取时态特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件的所属事件句时态和包含时态的程度词(时态程度词和混合程度词都包含时态)按照规则进行转化，进而获取时态特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件的所属事件句时态和包含时态的程度词(时态程度词和混合程度词都包含时态)按照规则进行转化，进而获取时态特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认事件的时态为“过去”；

(2)如果当前事件中存在时态程度词(包含时态，级别为“无”)，则以时态程度词的时态为准，若仅存在单个时态程度词，则选择其时态作为时态特征，若存在多个时态程度词，则按照“过去”>“现在”>“将来”的优先级进行选择性获取，作为最终的时态特征，后续的步骤将不再进行；

(3)如果当前事件中存在混合程度词(包含时态和级别两种属性)，则以混合程度词的时态为准，若仅存在单个混合程度词，则选择其时态作为时态特征，若存在多个混合程度词，则同样按照“过去”>“现在”>“将来”的优先级进行选择性获取，作为最终的时态特征，后续的步骤将不再进行；

(4)如果当前事件中既不存在时态程度词也不存在混合程度词，则此时考虑其所属事件句的时态，若所属事件句的时态为“Future”，则置其时态特征为“将来”；

具体的转化规则如下：

(1)将事件的级别与极性结合出初始事实性特征；

(2)将初始事实性特征与时态结合出最终的事件事实性特征；

S208、事实性特征处理，在经过步骤S201～S207后，将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化，构造出事件事实性特征，并加入到语料特征集合中；

在标注语料集合中，对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化，进而构造出事实性特征，并加入到语料特征集合中；

在测试语料集合中，对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化，进而构造出事实性特征，并加入到语料特征集合中。

进一步的，所述步骤S30的具体过程如下：

S301、将标注语料特征集合中的事件的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件事实性识别模型；所述的最大熵事件事实性识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具；

S302、把测试语料特征集合中的事件特征作为输入，调用最大熵事件事实性识别模型识别每个事件的事实性。

本发明的中文事件事实性识别系统，包括：

事件预处理模块，用于从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合；从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合；

事件特征处理模块，用于在标注语料集合的上，针对每个中文事件的事实性相关信息，使用规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，再加入事件的真实事实性，继而构造出标注语料特征集合；

在测试语料集合的上，针对每个中文事件的事实性相关信息，使用相同规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，继而构造出测试语料特征集合；

事件事实性推理模块，用于根据标注语料特征集合中各个事件的特征，训练一个最大熵事件事实性识别模型，再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

进一步的，所述事件预处理模块的具体包括：

事件事实性信息抽取单元，用于从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来，同时，从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，最后，抽取该事件的真实“事件事实性”，并构造出标注语料集合；

进一步的，所述事件特征处理模块具体包括：

事件句特征处理单元，用于事件句特征的处理，选取每个事件所属的事件句情态和时态信息作为特征，并以此构造语料特征集合；

词汇级特征处理单元，用于词汇级特征的处理，对每个事件的事件源、否定词和程度词进行词性标注，进而选取此三者词性作为词汇级特征，并加入到语料特征集合中；

谓词级别特征处理单元，用于谓词级别特征的处理，对每个事件的事件选择谓词的级别属性进行规则转化，进而获取谓词级别特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件按规则转化其事件选择谓词的级别属性，进而获取谓词级别特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件按规则转化其事件选择谓词的级别属性，进而获取谓词级别特征，并加入到语料特征集合中；

(1)首先默认当前事件的谓词级别特征为“无”；

程度词属性特征处理单元，用于程度词属性特征的处理，对每个事件的程度词时态和级别进行特征转化，获取程度词的时态特征和级别特征，并加入到语料特征集合中；

由于存在三种程度词，即时态程度词(包含时态，级别为“无”)、级别程度词(包含级别，时态为“无”)和混合程度词(既包含时态也包含级别)，则需进行如下的特征转化；

程度词级别特征将按如下规则进行转化：

(1)首先默认当前事件的程度词级别特征为“无”；

级别特征处理单元，用于级别特征的处理，对每个事件的事件选择谓词的级别和程度词的级别进行规则转化，进而获取级别特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认当前事件的级别特征为“确定”；

极性特征处理单元，用于极性特征的处理，依据每个事件的否定词的个数对其进行特征处理，得到极性特征，并加入到语料特征集合中；

时态特征处理单元，用于时态特征的处理，依据每个事件的所属事件句时态和其包含时态的程度词(时态程度词和混合程度词都包含时态)，进行规则转化，获取时态特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认事件的时态为“过去”；

事实性特征处理单元，用于事实性特征处理，将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化，构造出事件事实性特征，并加入到语料特征集合中；

在测试语料集合中，对获取到的事件级别特征、极性特征和时态特征的按照规则进行转化，进而构造出事实性特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)将事件的级别与极性结合出初始事实性特征；

(2)将初始事实性特征与时态结合出最终的事件事实性特征。

进一步的，所述事件事实性推理模块的具体包括：

事件事实性模型训练单元，用于将标注语料特征集合中的事件的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件事实性识别模型；所述最大熵事件事实性识别模型包括标注语料特征集合、训练得到的参数和最大熵分类工具；

事件事实性识别单元，用于把测试语料特征集合中的事件特征作为输入，调用最大熵事件事实性识别模型识别每个事件的事实性。

借由上述方案，本发明使用了事件句的事实性信息，事件句中每个中文事件的基本信息及其事实性信息，并充分利用了它们之间的关系，运用语言学知识通过规则的方法构造出更有利于最大熵分类器训练的特征，从而提高事件事实性识别的性能；本发明在现有标准语料库中测试结果表明，本发明与现有方法相比在正确率上提高了3.35％，同时在处理类别不均衡问题时，具有更好的识别效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明中文事件事实性识别方法的流程图；

图2是本发明事件预处理的流程图；

图3是本发明事件事实性特征转化的流程图；

图4是事实性特征处理的具体转化过程中将事件的级别与极性结合出初始事实性特征表；

图5是事实性特征处理的具体转化过程中将初始事实性特征与时态结合出最终的事件事实性特征表；

图6是本发明事件事实性推理的流程图；

图7是本发明中文事件事实性识别系统的结构图；

图8是本发明事件预处理模块的结构图；

图9是本发明事件事实性特征转化模块的结构图；

图10是本发明事件事实性推理模块的结构图。

具体实施方式

下面结合一个具体的实例，对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明，并不用于限制本发明的范围。

为了简化说明流程，下面将结合例图说明本发明的实施过程。

一种中文事件事实性识别方法，如图1所示，包括步骤：

S10，从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合；从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合。

其中，如图2所示，S10的具体过程如下：

S101，从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来，同时，从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，最后，抽取该事件的真实“事件事实性”，并构造出标注语料集合；

从测试语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”抽取出来，同时，从当前事件信息中抽取出事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，继而构造出测试语料集合。

其中，事件句情态是event结点的Modality属性值，事件句时态是event结点的Tense属性值，事件源是source结点值，事件选择谓词是event_selecting_predicates结点值，并包括LEVEL这个级别属性，程度词为degree的结点值，包括LEVEL级别属性值和TENSE时态属性值，否定词为negative_word的结点值(如例1所示)。

例1：检警人员担心[级别：可能]她可能[时态：无，级别：可能]真的就这样不回台湾了，目前正密切透过驻外人员和国际合作试图掌握朱婉清的行踪。

如例1所示，抽取出其所属的事件句情态(event结点的Modality属性)为“Other”，其事件句时态(event结点Tense属性)为“Unspecified”；

然后，抽取出事件的事件源(souce结点)为“检警人员”，事件选择谓词(event_selecting_predicates结点)为“担心”，其级别(event_selecting_predicates结点LEVEL属性)为“可能”；

最后，抽取事件的程度词(degree结点)为“可能”，其级别(degree结点LEVEL属性)为“可能”，其时态(degree结点TENSE属性)为“无”，否定词(negative_word结点)为“不”；事件真实的事实性(Factual结点)为“可能不发生”，另外，测试语料库中无事件事实性，不需抽取。

抽取出以上信息后，标注语料集合内的信息构造如例2所示，而测试语料集合内的信息构造如例3所示。

例2：Modality：Other/Tense：Unspecified/Source：检警人员/ESP_Word：担心/ESP_Level：可能/Degree_Word：可能/Degree_Level：可能/Degree_Tense＝无/Negative：不/Facutuality：可能不发生。

例3：Modality：Other/Tense：Unspecified/Source：检警人员/ESP_Word：担心/ESP_Level：可能/Degree_Word：可能/Degree_Level：可能/Degree_Tense＝无/Negative：不。

S20，在标注语料集合上，针对每个中文事件的事实性相关信息，使用规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，再加入事件的真实事实性，继而构造出标注语料特征集合；

在测试语料集合上，针对每个中文事件的事实性相关信息，使用相同规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，继而构造出测试语料特征集合。

其中，如图3所示，S20的具体过程如下：

S201，事件句特征处理，选取每个事件所属的事件句情态和时态信息作为特征，并以此构造语料特征集合；

在测试语料集合中，选取每个事件所属的事件句的情态和时态信息作为事件句特征，并构造测试语料特征集合。

如例2和例3所示，其事件句情态为“Other”，事件句时态为“Unspecified”。将此两者信息直接作为特征抽取出来构造特征集合，标注语料特征集合和测试语料特征集合经相同处理后均如例4所示。

例4：<1＝Other><2＝Unspecified>。

S202，词汇级特征处理，对每个事件的事件源、否定词和程度词进行词性标注，进而选取此三者词性作为词汇级特征，并加入到语料特征集合中。

在标注语料集合中，使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注，选取它们的词性作为特征，若当前事件不存在以上某一词汇，则默认其对应词性特征为“无”，并将此三类信息加入到语料特征集合中。

在测试语料集合中，使用词性标注工具对事件源、否定词和程度词三类词汇信息进行词性标注，选取它们的词性作为特征，若当前事件不存在以上某一词汇，则默认其对应词性特征为“无”，并将此三类信息加入到语料特征集合中。

在例2和例3中，事件源“检警人员”被标注为“NN”，否定词“不”被标注为“AD”，程度词“可能”被标注“VV”。将此三类信息作为特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例5所示。

例5：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV>。

S203，谓词级别特征处理，对每个事件的事件选择谓词的级别属性进行规则转化，进而获取谓词级别特征，并加入到语料特征集合中。

在测试语料集合中，对每个事件按规则转化其事件选择谓词的级别属性，进而获取谓词级别特征，并加入到语料特征集合中。

(1)首先默认当前事件的谓词级别特征为“无”；

(3)如果当前事件存在多个事件选择谓词，则按照“不确定”>“可能”>“确定”的优先级顺序进行选择性获取，作为谓词级别特征。

在例2和例3中，事件选择谓词为“担心”，其级别为“可能”。因其仅存在单个事件选择谓词，则经过转化后，其谓词级别特征为“可能”。将此特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例6所示。

例6：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能>。

S204，程度词属性特征处理，对每个事件的程度词时态和级别进行特征转化，获取程度词的时态特征和级别特征，并加入到语料特征集合中。

在测试语料集合中，对每个事件的程度词时态和级别按规则进行特征转化，获取程度词的时态特征和级别特征，即程度词属性特征，并加入到语料特征集合中。

程度词包含时态和级别两种属性，分别对其时态和级别进行特征转化，形成程度词时态特征和程度词级别特征。

由于存在三种程度词，即时态程度词(包含时态，级别为“无”)、级别程度词(包含级别，时态为“无”)和混合程度词(既包含时态也包含级别)，则需进行如下的特征转化。

程度词时态特征将由时态程度词和混合程度词的时态进行简单的词汇组合，形成程度词时态特征。如存在时态程度词“明天”(级别为“无”，时态为“将来”)，混合程度词“被”(级别为“确定”，时态为“过去”)，则其时态特征为“将来_过去”。

程度词级别特征将按如下规则进行转化：

(1)首先默认当前事件的程度词级别特征为“无”；

(2)如果当前事件仅存在单个包含级别的程度词(级别程度词和混合程度词都包含级别属性)，则选择其级别作为程度词级别特征。

(3)如果当前事件存在多个包含级别的程度词(级别程度词和混合程度词都包含级别属性)，则按照“不确定”>“可能”>“确定”优先级对这些程度词的级别属性进行选择性获取，作为程度词级别特征。

在例2和例3中，仅存在单个表级别的程度词“可能”(其级别为“可能”，时态为“无”)，故其程度词时态特征为“无”，程度词级别特征为“可能”。将这两类特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例7所示。

例7：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能>。

S205，级别特征处理，对每个事件的事件选择谓词的级别和程度词的级别进行规则转化，进而获取级别特征，并加入到语料特征集合中。

在测试语料集合中，对每个事件的事件选择谓词的级别和程度词的级别按规则进行特征转化，获取级别特征，并加入到语料特征集合中。

具体的转化规则如下：

(1)首先默认当前事件的级别特征为“确定”；

(2)如果当前事件中存在事件选择谓词或者包含级别的程度词，若它们的级别是一致的，则选择该级别作为级别特征，若不一致，则按照“不确定”>“可能”>“确定”的优先级对这些级别属性进行选择性获取，作为级别特征。

在例2和例3中，事件选择谓词“担心”的级别为“可能”，程度词“可能”级别也为“可能”，故而其级别特征转化后为“可能”。将这此级别特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例8所示。

例8：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能>。

S206，极性特征处理，依据每个事件的否定词的个数对其进行特征处理，得到极性特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件进行极性特征处理，若否定词个数为偶数，则极性特征为“正”，若为奇数，则极性特征为“负”，继而获取极性特征，并加入到语料特征集合中。

在例2和例3中，存在一个否定词“不”，则其极性特征为“负”。将这此极性特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例9所示。

例9：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能><10＝负>。

S207，时态特征处理，依据每个事件的所属事件句时态和其包含时态的程度词(时态程度词和混合程度词都包含时态)，进行规则转化，获取时态特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件的所属事件句时态和包含时态的程度词(时态程度词和混合程度词都包含时态)按照规则进行转化，进而获取时态特征，并加入到语料特征集合中。

具体的转化规则如下：

(1)首先默认事件的时态为“过去”；

(4)如果当前事件中既不存在时态程度词也不存在混合程度词，则此时考虑其所属事件句的时态，若所属事件句的时态为“Future”，则置其时态特征为“将来”。

在例2和例3中，首先默认时态特征为“过去”，但其仅存在级别程度词“可能”(其级别为“可能”，时态为“无”)，不存在时态程度词和混合程度词，同时事件句时态为“Unspecified”而不是“Future”，不满足转化条件，故其时态特征为“过去”。将这此时态特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例10所示。

例10：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能><10＝负><11＝过去>。

S208，事实性特征处理，在经过上述步骤后，将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化，构造出事件事实性特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)将事件的级别与极性结合出初始事实性特征，如图4所示，在例10中，事件的级别为“可能”，极性为“负”，则其初始事实性特征为“可能不发生”；

(2)将初始事实性特征与时态结合出最终的事件事实性特征，如图5所示，在例10中，事件时态为“过去”且其初始事实性特征为“可能不发生”，则其最终的事实性特征为“可能不发生”。将这此事实性特征加入到语料特征集合中，则标注语料特征集合和测试语料特征集合经相同处理后均如例11所示。

例11：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能><10＝负><11＝过去><12＝可能不发生>。

另外，在处理完上述特征后，需在标注语料特征集合的事件特征后加上其事件真实事实性，从例2中可知事件真实事实性为“可能不发生”，则构造完毕后的标注语料特征集合如例12所示：

例12：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能><10＝负><11＝过去><12＝可能不发生><Label＝可能不发生>。

而测试语料特征集合不需加入真实事实性，例3处理后即如例11所示。

S30，根据标注语料特征集合中各个事件的特征，训练一个最大熵事件事实性识别模型，再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

其中，如图6所示，S30的具体过程如下：

S301，将标注语料特征集合中的事件的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件事实性识别模型；所述的最大熵事件事实性识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具。

标注语料特征集合中的特征的例子如例12所示，然后利用最大熵分类工具，如Mallet，Maxent，Stanford Classifier等，可以训练得到一个最大熵事件事实性识别模型。

S302，把测试语料特征集合中的事件特征作为输入，调用最大熵事件事实性识别模型即可识别每个事件的事实性。

对测试语料特征集合进行测试后，即可得到如例13所示的事件的集合，其中对例11测试后，得到事件的事实性为“可能不发生”。

例13：<1＝Other><2＝Unspecified><3＝NN><4＝AD><5＝VV><6＝可能><7＝无><8＝可能><9＝可能><10＝负><11＝过去><12＝可能不发生><Label＝可能不发生>。

本发明的中文事件事实性识别系统，如图7所示，包括事件预处理模块10，事件特征处理模块20和事件事实性推理模块30。

具体的，事件预处理模块10，用于从预先标注了各类事实性信息的标注语料库中抽取中文事件的事实性相关信息及其真实事实性构造基本的标注语料集合；从预先标注了各类事实性信息的测试语料库中抽取中文事件的事实性相关信息构造基本的测试语料集合；

事件特征处理模块20，用于在标注语料集合的上，针对每个中文事件的事实性相关信息，使用规则的方法，进行特征的处理、转化和融合，得到一系列事实性相关特征，再加入事件的真实事实性，继而构造出标注语料特征集合；

事件事实性推理模块30，用于根据标注语料特征集合中各个事件的特征，训练一个最大熵事件事实性识别模型，再利用最大熵事件事实性识别模型识别测试语料特征集合中事件的事实性。

其中，如图8所示，事件预处理模块10包括事件事实性信息抽取单元101。

事件事实性信息抽取单元101，用于从标注语料库中将每个事件所属事件句的“事件句情态”和“事件句时态”信息抽取出来，同时，从当前事件信息中抽取事件的“事件源”、“事件选择谓词”、“程度词”和“否定词”，最后，抽取该事件的真实“事件事实性”，并构造出标注语料集合；

其中，如图9所示，事件特征转化模块20包括事件句特征处理单元201、词汇级特征处理单元202、谓词级别特征处理单元203、程度词属性特征处理单元204、级别特征处理单元205、极性特征处理单元206、时态特征处理单元207和事实性特征处理单元208。

事件句特征处理单元201，用于事件句特征的处理，选取每个事件所属的事件句情态和时态信息作为特征，并以此构造语料特征集合；

词汇级特征处理单元202，用于词汇级特征的处理，对每个事件的事件源、否定词和程度词进行词性标注，进而选取此三者词性作为词汇级特征，并加入到语料特征集合中；

谓词级别特征处理单元203，用于谓词级别特征的处理，对每个事件的事件选择谓词的级别属性进行规则转化，进而获取谓词级别特征，并加入到语料特征集合中；

(1)首先默认当前事件的谓词级别特征为“无”；

程度词属性特征处理单元204，用于程度词属性特征的处理，对每个事件的程度词时态和级别进行特征转化，获取程度词的时态特征和级别特征，并加入到语料特征集合中；

程度词级别特征将按如下规则进行转化：

(1)首先默认当前事件的程度词级别特征为“无”；

级别特征处理单元205，用于级别特征的处理，对每个事件的事件选择谓词的级别和程度词的级别进行规则转化，进而获取级别特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认当前事件的级别特征为“确定”；

极性特征处理单元206，用于极性特征的处理，依据每个事件的否定词的个数对其进行特征处理，得到极性特征，并加入到语料特征集合中。

时态特征处理单元207，用于时态特征的处理，依据每个事件的所属事件句时态和其包含时态的程度词(时态程度词和混合程度词都包含时态)，进行规则转化，获取时态特征，并加入到语料特征集合中；

具体的转化规则如下：

(1)首先默认事件的时态为“过去”；

事实性特征处理单元208，用于事实性特征处理，在经过上述步骤后，将获取到的事件级别特征、极性特征和时态特征按照规则进行特征转化，构造出事件事实性特征，并加入到语料特征集合中。

具体的转化规则如下：

(1)将事件的级别与极性结合出初始事实性特征，如图4所示；

(2)将初始事实性特征与时态结合出最终的事件事实性特征，如图5所示。

其中，如图10所示，事件事实性识别模块30包括事件事实性模型训练单元301和事件事实性识别单元302。

事件事实性模型训练单元301，用于将标注语料特征集合中的事件的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件事实性识别模型；所述的最大熵事件事实性识别模型包括标注语料(训练集)特征集合、训练得到的参数和最大熵分类工具；

事件事实性识别单元302，用于把测试语料特征集合中的事件特征作为输入，调用最大熵事件事实性识别模型识别每个事件的事实性。

本发明主要利用机器学习的方法完成了中文事件事实性识别方法和系统，利用事件的事实性信息并充分考虑到它们之间的联系，采用机器学习和推理相结合的方法来识别中文事件的事实性。本发明的方法和系统，与现有的方法和系统相比，总体的识别性能有所提升，同时，在处理类别的不均衡问题上有更好的效果，尤其在事件数目较少的类别的事实性识别上有明显的性能提升。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种中文事件事实性识别方法，其特征在于：用于识别中文事件的事实性，包括步骤：

2.根据权利要求1所述的中文事件事实性识别方法，其特征在于：所述步骤S10的具体过程如下：

3.根据权利要求1所述的中文事件事实性识别方法，其特征在于：所述步骤S20的具体过程如下：

S207、时态特征处理，依据每个事件的所属事件句时态和其包含时态的程度词，进行规则转化，获取时态特征，并加入到语料特征集合中；

在标注语料集合中，对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化，进而获取时态特征，并加入到语料特征集合中；

在测试语料集合中，对每个事件的所属事件句时态和包含时态的程度词按照规则进行转化，进而获取时态特征，并加入到语料特征集合中；

4.根据权利要求1所述的中文事件事实性识别方法，其特征在于：所述步骤S30的具体过程如下：

5.一种中文事件事实性识别系统，其特征在于，包括：

6.根据权利要求5所述的中文事件事实性识别系统，其特征在于：所述事件预处理模块的具体包括：

7.根据权利要求5所述的中文事件事实性识别系统，其特征在于：所述事件特征处理模块具体包括：

时态特征处理单元，用于时态特征的处理，依据每个事件的所属事件句时态和其包含时态的程度词，进行规则转化，获取时态特征，并加入到语料特征集合中；

8.根据权利要求5所述的中文事件事实性识别系统，其特征在于：所述事件事实性推理模块的具体包括：