CN104598535A

CN104598535A - 一种基于最大熵的事件抽取方法

Info

Publication number: CN104598535A
Application number: CN201410838622.1A
Authority: CN
Inventors: 崔现鹏; 黎建辉; 杨风雷; 王鹏尧; 汪海燕; 周昊
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2014-12-29
Filing date: 2014-12-29
Publication date: 2015-05-06
Anticipated expiration: 2034-12-29
Also published as: CN104598535B

Abstract

本发明公开了一种基于最大熵的事件抽取方法。本方法为：1)构建一触发词词典和一事件元素角色词典；2)对于已标注训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR；3)根据触发词对需要抽取事件的语料进行过滤，将匹配到设定触发词的句子作为候选事件；4)通过最大熵模型MT对所述候选事件进行分类，获取属于设定事件类别的事件句子；5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语，完成事件抽取。本发明使用广泛性、准确性高，大大提高了事件抽取效果。

Description

一种基于最大熵的事件抽取方法

技术领域

本发明属于信息技术领域，涉及一种事件抽取的方法，主要应用于自然语言处理、数据挖掘、信息检索、食品安全等领域。

背景技术

随着互联网的迅速普及和发展，大量数据信息在网络中产生和传播，信息总量以指数级的增速迅猛增长。数据量大，结构不统一，冗余度较高是这些信息的特点，传统的信息获取方式已经难以满足要求，如何从浩瀚的数据海洋中快速的选取出自己感兴趣的信息成为迫切的问题。信息抽取的研究就是在这种背景下产生的。

信息抽取的目的是指通过自然语言处理的方法从文档中识别抽取出人们感兴趣的信息，将无结构的文本转化为结构化或者半结构化的信息，供用户查询和进一步的分析处理。事件抽取是信息抽取的一个重要的研究方向，是将文本中人们感兴趣的事件以结构化的形式展现出来。

事件是指在某个特定的时间片段和地域范围内发生的，由一个或者多个角色参与的，由一个或者多个动作组成的一件事情。目前对于事件抽取的研究主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法接近人的思维方式，更关注于事件模式的定义，通过定义抽取模板进行事件抽取，准确率较高，知识表示直观、自然。但是这种方式依赖于具体的领域和格式，可移植行差，手工编写规则专业性较强，编制过程比较耗时并且难以覆盖所有的情况。基于机器学习的方法灵活性好，不需要太多的人工干预和领域知识，召回率较高，但是机器学习的方法比较依赖语料，如果语料不合适可能会对抽取结果有影响。

当前机器学习的方法主要基于统计模型，目前常用的统计模型有隐马尔科夫模型(HiddenMarkov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(Conditional Random Field,CRF)等。但是此种方法存在着因为语料本身问题造成的数据稀疏的问题，同时特征选取以及中文本身的复杂性影响着最终的抽取结果，实际中经常出现把非事件信息错当成事件信息抽取出来，已抽取的事件元素不完整的情形。

发明内容

本发明的目的在于提出一种基于最大熵的事件抽取方法，适用于食品安全事件抽取的方法，同时该方法可以应用于其它领域方面的事件抽取工作。

本发明首先进行事件类别判断，通过触发词对事件做初步判断，触发词直接引发事件的产生，是决定事件类别的重要特征，将匹配到触发词的句子称作候选事件。通过最大熵模型对候选事件进行多分类判断，预测概率满足阈值的成为真正的事件。之后对事件进行元素识别，通过命名实体识别、句法分析以及最大熵模型抽取出句子中的各个事件元素，最终完成事件的抽取工作。其特征是所述方法包括：

步骤1：语料预处理。以食品安全领域为例，搜集食品安全相关的文本语料，对收集的设定领域的训练语料进行标注。

步骤2：构建触发词词典。词典中每一行的内容包括触发词以及触发词对应的事件类别。

步骤3：构建事件元素角色词典。该词典中的每一行内容包括事件中的词语以及词语对应的事件角色。比如：

2014.12.25：事件时间；

国家质检总局：事件发起者；

词典名称叫做：事件元素角色词典即可。

步骤4：对于标注的训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT。

步骤5：对于已标注的训练语料中的事件句中的每一个词语，提取词语和句子特征，训练最大熵模型MR用于从事件句子中抽取事件元素。

步骤6：对于需要抽取事件的未标注语料，通过匹配触发词来判断是否是候选事件。

步骤7：对于候选事件，通过应用最大熵模型MT进一步判断，获取真正的事件句子，即属于设定事件类别的事件句子。

步骤8：对于真正的事件句，应用最大熵模型MR抽取事件的各个元素词语，完成事件抽取任务。

所述步骤2具体包括：

步骤201：手工制定种子触发词词典，词典中的每一行包括种子触发词以及触发词对应的事件类别，事件类别涵盖需要预测的所有类别。

步骤202：对于每一个种子触发词T，通过匹配同义词典获取其所有同义、近义词语，根据一定规则进行种子触发词词典的扩充。

步骤203：循环处理每一个种子触发词，直至遍历结束，构建完成触发词词典。

所述步骤3具体包括：

步骤301：手工制定种子事件元素角色词典，词典中的每一行包括事件中的元素词语以及词语对应的角色类别。词典中的角色类别涵盖常见事件中所有的角色类别。

步骤302：对于每一个元素词语R，通过匹配同义词典获取其所有同义、近义词语，根据一定规则进行词典的扩充。

步骤303：循环处理每一个种子事件元素角色词语，直至遍历结束构建完成事件元素角色词典。

所述步骤4具体包括：

步骤401：读取训练语料，对于每一篇语料进行分段、分句处理。

步骤402：对于每一个句子，通过标签判断是否包括事件信息。

步骤403：对于包含事件信息的句子，对句子进行分词和词性识别。获取事件的触发词、事件类型。不包含事件信息的句子没有事件特征，抛弃不做处理。

步骤404：对包含事件信息的句子分词后提取事件实体的特征，所选的特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别等特征。

步骤405：将所有事件的特征生成统一格式的输入文件，通过机器学习的方法训练获取最大熵模型MT。

所述步骤5具体包括：

步骤501：对于事件中的每一个元素词语，提取元素词语的基本特征和上下文环境特征。

步骤502：将事件句中所有元素词语的特征生成统一格式的输入文件，通过机器学习的方法进行模型训练获取最大熵模型MR。

所述步骤6具体包括：

步骤601：读取待抽取的语料，对语料进行分段、分句处理。

步骤602：对于每一个句子进行分词处理，判断词语中是否包含触发词，如果包含触发词则将句子归为候选事件句。

所述步骤7具体包括：

步骤701：对于候选事件句，分词后获取词语对应的词性。提取候选事件句的特征，具体特征如步骤404所述。

步骤702：将提取的所有特征，生成统一格式的输入文件，应用步骤4中的最大熵模型MT进行预测，将预测概率与设定的阈值做比较，超过阈值则将候选事件划为真正的事件。

所述步骤8具体包括：

步骤801：对于真正的事件句进行分词、词性识别、命名实体识别以及句法分析工作。

步骤802：判断分词后的每一个词语是否出现在事件角色词典中，标注事件角色特征。

步骤803：提取事件句中词语的特征，包括词语基本特征以及词语的上下文环境特征。生成统一格式的文件进行处理，采用最大熵模型MR进行预测，对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。

步骤804：循环处理事件句，最终完成事件抽取任务。

与现有技术相比，本发明的积极效果为：

在现有的方法技术中经常存在将非事件错当成事件抽取出来，以及抽取的事件元素有缺失的问题。本发明以大量训练语料为依托，构建触发词词典以及事件元素角色词典，采用机器学习的方法训练获取事件抽取的模型，保证了特征的准确性和完整性，能够有效解决事件抽取中存在的上述两个问题。基于本方法的思想实现了事件抽取的程序功能，并以食品安全领域中的语料做了相应的测试，通过结果可以看到抽取的事件类别较为准确并且事件的各个元素信息也较为完备。

附图说明

图1是语料预处理和构建触发词词典的流程图。

图2是构建元素角色词典的流程图。

图3是提取训练语料特征，机器学习生成用于事件类别判断的最大熵模型的流程图。

图4是提取事件中词语的特征，运用机器学习方法生成用于事件元素角色识别的最大熵模型的流程图。

图5是对待处理语料识别候选句，采用最大熵模型筛选真正事件句的流程图。

图6是对采用最大熵模型获取事件句中各个事件角色词语的流程图。

具体实施方式

下面结合附图对本方法进行详细说明。

图1是语料预处理和构建触发词词典的实施过程，具体方法包括：

步骤1：语料预处理。手工搜集食品安全相关的事件语料，对收集的训练语料进行标注，对于语料中的每个句子通过打标签的方式来标注事件，标注事件中的触发词、事件类型信息、事件元素的角色信息。

语料的质量和规模极大地影响着机器学习的结果，本方法中所使用的语料均为手工收集筛选的文本，突出事件的代表性，同时涵盖要处理的所有的事件类型。通过对语料打标签，在程序处理过程中来识别句子中是否包含事件信息，以及事件的类型和事件中的各个元素角色。

事件触发词是决定事件类别的重要特征，清楚地表达了事件的发生，事件类别识别的任务可以转换为触发词类别的识别任务，同时触发词对于后续的事件元素的角色识别也有着重要作用。

本步骤的具体实施过程包括：

步骤202：对于每一个种子触发词T，通过匹配北京大学计算语言所的《中文概念词典》获取其所有同义、近义词语，判断所有词语中是否有M个以上在种子触发词词典中并且触发词所属的事件类别与触发词T的类别相同。如果相同则将所有的同义、近义词语置于种子触发词词典中，所属的事件类别与T的事件类别相同。

图2是构建元素角色触发词词典的实施过程，具体步骤包括：

步骤3：构建事件元素角色词典。

每个事件中都包含事件角色信息，总体上来说有事件发生的时间、地点、事件参与者(事件发出者和事件承受者)、事件结果描述等信息。事件角色多由实体词语来充当，事件的各个角色构成了事件的整体信息。对事件元素的抽取任务转换为对事件中各个元素的角色识别工作。

本步骤的具体实施过程包括：

步骤301：手工制定种子元素角色词典，词典中的每一行包括事件中的元素词语以及词语对应的角色类别，词典中的角色类别涵盖常见事件中所有的角色类别。

步骤302：对于每一个元素词语R，通过匹配北京大学计算语言所的《中文概念词典》获取其所有同义、近义词语，判断所有词语中是否有N个以上在元素角色词典中并且元素词语所属的角色类别与元素词语R的角色类别相同。如果相同则将所有的同义、近义词语置于角色词典中，所属的角色类别与R的角色类别相同。

步骤303：循环处理每一个种子触发词，直至遍历结束，构建完成事件元素角色词典。

图3通过对训练语料提取特征，进行机器学习最终生成用于识别事件类别的最大熵模型。具体步骤包括：

步骤4：对于标注的训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT。最大熵模型基于最大熵理论，即当我们需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。最大熵模型的一个显著特点是不要求特征相互独立，因此可以任意加入对最终分类有效的特征。本方法中涉及到大量的词语本身和上下文的特征，并且特征的维数并不完全一致，因此采用最大熵方法进行模型训练和预测。

本步骤的具体实施过程包括：

步骤403：对于包含事件信息的句子，对句子进行分词和词性识别。获取事件的触发词、事件类型。

步骤404：对包含事件信息的句子分句后提取事件实体的特征，所选的特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别等特征。

图4是对事件句中每个词语提取特征，进行机器学习并最终生成用于识别事件实体中个元素角色的最大熵模型。具体步骤包括：

步骤5：对于事件句中的每一个词语，提取词语和句子特征，训练最大熵模型MR用于从事件句子中抽取事件元素。训练语料中应该涵盖事件元素的所有角色，事件中每个词语对应一个角色，词语的角色识别最终转化为对词语的多分类处理任务。

本步骤的具体实施过程包括：

步骤501：对于事件中的每一个元素词语，提取元素特征，具体特征包括元素词语的词形、词性、命名实体识别结果、角色类型、元素词语前面和后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型、词语跟触发词之间的句法关系依存链、所属事件的事件类型。

图5是对新语料进行事件抽取识别，预处理之后通过触发词判断候选事件，对于获取的候选事件通过最大熵模型MR筛选真正的事件。具体步骤包括：

步骤6：对于需要抽取事件的语料，进行分段、分句、分词处理，对于每个句子中的词语判断是否出现在触发词词典中，如果出现则将句子划分为候选事件，否则将句子抛弃处理。

本步骤的具体实施过程包括：

步骤601：读取待抽取的语料，对语料进行分段、分句处理。

步骤7：对于候选事件，通过应用最大熵模型MT进行多分类处理，模型会输出当前候选事件属于每一事件类别的概率，将概率与预先设置的阈值对比，超过阈值则将事件划归为对应类别。

本步骤的具体实施过程包括：

步骤701：对于候选事件句，分词后获取词语对应的词性。提取候选事件的特征，具体特征如步骤404所述。

步骤702：对于所有的候选事件句，生成统一格式的输入文件，应用步骤4中的最大熵模型MT进行预测，将预测概率与设定的阈值做比较，超过阈值则将候选事件划为真正的事件。

图6对识别出的事件句提取特征，包括事件句中的词语基本特征和上下文特征，采用最大熵模型MR对每个词语进行事件角色类别判断，选择每种角色类别预测概率最大的词语作为事件的最终词语。具体步骤包括：

本步骤的具体实施过程包括：

步骤802：判断分词后的每一个词语是否出现在事件角色词典中，标注事件角色特征。步骤803：提取事件句中词语的特征，具体特征如步骤501所述。生成统一格式的文件进行处理，采用最大熵模型MR进行预测，对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。

步骤804：循环处理事件句，最终完成事件抽取任务。

至此，本文提出的基于最大熵模型的事件抽取方法的整个流程结束。本发明首先通过触发词来识别候选事件，对于识别出来的候选事件提取基本特征和上下文环境特征，应用最大熵模型进行筛选，对输出预测概率结果与阈值做比较选择真正的事件句子。确定好事件句后接下来的工作是确定事件的各个组成元素，本方法继续采用最大熵模型，提取事件句中各个词语的特征、词语上下文环境特征和句法特征，对每个词语进行角色类别的多分类预测，选择每种角色列表预测概率最大的词语作为事件最终的组成元素。本发明采用机器学习方法，以大量语料为基础，保证了模型的广泛性和准确性，并且取得了较好的抽取效果。

Claims

1.一种基于最大熵的事件抽取方法，其步骤为：

1)构建一触发词词典和一事件元素角色词典；其中，触发词词典中每一触发词对应一事件类别，事件元素角色词典中记录每一事件中的事件元素对应的角色名称；

2)对于已标注训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR；

3)根据触发词对需要抽取事件的语料进行过滤，将匹配到设定触发词的句子作为候选事件；

4)通过最大熵模型MT对所述候选事件进行分类，获取属于设定事件类别的事件句子；

5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语，完成事件抽取。

2.如权利要求1所述的方法，其特征在于，所述触发词词典的构建方法为：

21)初始设置一种子触发词词典，词典中的每一行包括种子触发词以及触发词对应的事件类别，所述事件类别为涵盖需要预测的多个类别；

22)对于每一个种子触发词T，通过匹配同义词典得到其所有同义、近义词语，进行种子触发词词典的扩充，得到所述触发词词典。

3.如权利要求1所述的方法，其特征在于，所述事件元素角色词典的构建方法为：

31)初始设置种子事件元素角色词典，词典中的每一行包括事件中的元素词语以及词语对应的角色类别；所述角色类别涵盖每一设定事件中的多个角色类别；

32)对于每一元素词语R，通过匹配同义词典获取其所有同义、近义词语，进行事件元素角色词典的扩充。

4.如权利要求1或2或3所述的方法，其特征在于，获取所述最大熵模型MT的方法为：

41)读取已标注训练语料，对于每一篇语料进行分段、分句处理；

42)对于得到的每一句子，通过标签判断是否包括事件信息；对于包含事件信息的句子，对句子进行分词和词性识别，获取事件的触发词、事件类型；

43)提取事件实体的特征，然后将所提取特征生成统一格式的输入文件，通过机器学习的方法训练获取所述最大熵模型MT。

5.如权利要求4所述的方法，其特征在于，所述特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别。

6.如权利要求1或2或3所述的方法，其特征在于，获取所述最大熵模型MR的方法为：

61)读取已标注训练语料，对于每一篇语料进行分段、分句处理；

62)对于得到的每一事件句中的每一个元素词语，提取元素特征并将其生成统一格式的输入文件，通过机器学习的方法进行模型训练获取所述最大熵模型MR。

7.如权利要求6所述的方法，其特征在于，所述元素特征包括：元素词语的词形、词性、命名实体识别结果、角色类型，元素词语前面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型，元素词语后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型，元素词语与触发词之间的句法关系依存链，元素词语所属事件的事件类型。

8.如权利要求1所述的方法，其特征在于，所述候选事件的获取方法为：首先对需要抽取事件的语料进行分段、分句处理，然后对分句后得到的每一个句子进行分词处理，判断词语中是否包含触发词，如果包含触发词则将句子归为候选事件句。

9.如权利要求1所述的方法，其特征在于，所述获取属于设定事件类别的事件句子的方法为：首先对于每一所述候选事件句进行分词后获取词语对应的词性；然后提取候选事件句的特征并将其生成统一格式的输入文件，然后利用所述最大熵模型MT进行预测，将预测概率与设定的阈值做比较，超过阈值则将对应的候选事件划为属于设定事件类别的事件句子。

10.如权利要求1所述的方法，其特征在于，所述步骤5)中进行事件抽取的方法为：首先对属于设定事件类别的事件句子进行分词、词性识别、命名实体识别以及句法分析；然后判断分词后的每一个词语是否出现在所述事件元素角色词典中，标注事件角色特征，提取事件句中词语的特征并生成统一格式的输入文件，然后采用所述最大熵模型MR进行预测，对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。