CN104834718A

CN104834718A - 基于最大熵模型的事件论元识别方法及系统

Info

Publication number: CN104834718A
Application number: CN201510236814.XA
Authority: CN
Inventors: 李寿山; 朱珠; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2015-08-12

Abstract

本发明公开了一种基于最大熵模型的事件论元识别方法，建立最大熵分类模型，其中，所述建立最大熵分类模型包括：获取事件的实体信息并根据所述实体信息确定事件论元候选项；获取所述事件论元候选项的特征信息；将所述特征信息按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；利用所述训练语料文本训练最大熵模型，得到最大熵分类模型；包括：利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，得到识别结果该方法可以充分的利用有效的特征，提高事件论元的识别效率及性能；本发明还提供一种基于最大熵模型的事件论元识别系统。

Description

基于最大熵模型的事件论元识别方法及系统

技术领域

本发明涉及信息处理领域，特别是涉及一种基于最大熵模型的事件论元识别方法及系统。

背景技术

随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，从而使得大量的信息以电子文本的形式呈现在人们面前。因此，如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。事件由事件触发词和描述事件结构的元素构成，事件抽取(Event Extraction)是信息抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection andrecognition)，即识别特定类型的事件，并进行相关信息的确定和抽取。事件论元是事件的重要组成元素，对事件论元的识别是进行事件抽取其他子任务的基础。例如：“高中同学前一个月结婚了”，其中包括事件论元“Person”(“高中同学”)和“Time”(“前一个月”)。

目前，事件论元的识别方法大致可以分为两种：第一种是基于模式匹配的方法，它主要是通过人工或自动的方式来设定或获取一定的模式，然后在该模式的指导下进行事件信息的识别和抽取。该方法匹配出的事件准确性较好，但是模式的建立需要取决于具体的领域和使用的环境，建立起来较困难。第二种方法是基于机器学习的方法，即使用统计的方法进行研究。这种方法把事件论元识别看成分类问题，选择合适的特征并使用合适的分类器来完成，更具有一般性；但是需要发现和选择有效的特征。

因此，如何提供一种全局化的方法，选择合适的特征，有效的实现事件论元的识别，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种基于最大熵模型的事件论元识别方法，该方法能够充分的利用有效的特征，提高事件论元的识别效率及性能；本发明的另一目的是提供一种基于最大熵模型的事件论元识别系统。

为解决上述技术问题，本发明提供一种基于最大熵模型的事件论元识别方法，建立最大熵分类模型；包括：

利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，得到识别结果；

其中，所述建立最大熵分类模型包括：

获取事件的实体信息，并根据所述实体信息确定事件论元候选项；

获取所述事件论元候选项的特征信息；

将所述特征信息按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；

利用所述训练语料文本训练最大熵模型，得到最大熵分类模型。

其中，所述获取所述事件论元候选项的特征信息包括：

从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征；

通过标注工具对所述事件论元候选项所在的事件句进行词性标注及依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征以及依存关系特征。

其中，所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征包括：

从原始语料中抽取得到所述事件论元候选项的词特征和所述事件论元候选项的首单词，所述事件论元候选项所属的实体类型，所述事件论元候选项所属的实体子类型，所述事件论元候选项所在事件的触发词，所述事件论元候选项所在事件的事件类型，所述事件论元候选项的上下文单词。

其中，所述通过标注工具对所述事件论元候选项所在的事件句进行词性标注及依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征以及依存关系特征包括：

通过词性标注工具对所述事件论元候选项所在的事件句进行词性标注；获取所述事件论元候选项的词性特征，所述事件论元候选项的首单词的词性特征，所述事件论元候选项所在事件的触发词的词性特征，所述事件论元候选项的上下文单词的词性特征及依存关系特征。

其中，所述获取事件的实体信息，并根据所述实体信息确定事件论元候选项包括：

利用ACE2005对事件论元的定义和相关标注信息获取事件的实体信息，通过所述实体信息确定事件论元候选项。

其中，所述的事件论元识别方法还包括：

定期对所述最大熵分类模型进行更新。

本发明还提供一种基于最大熵模型的事件论元识别系统，包括：

最大熵分类模型建立模块，用于获取事件的实体信息，并根据所述实体信息确定事件论元候选项；获取所述事件论元候选项的特征信息；将所述特征信息按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；利用所述训练语料文本训练最大熵模型，得到最大熵分类模型；

识别模块，用于利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，得到识别结果。

其中，所述最大熵分类模型建立模块包括：

事件论元候选项单元，用于利用ACE2005对事件论元的定义和相关标注信息获取事件的实体信息，通过所述实体信息确定事件论元候选项；

抽取单元，用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征；

标注单元，用于利用词性标注工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征；

融合单元，用于将所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征，所述事件论元候选项的词特征和实体信息特征按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；

训练模块，用于利用所述训练语料文本训练最大熵模型，得到最大熵分类模型。

其中，所述的事件论元识别系统，还包括：

更新模块，用于定期对所述最大熵分类模型进行更新。

本发明所提供的一种基于最大熵模型的事件论元识别方法，该方法通过获取事件论元候选项，进而获取对应的有效的特征信息，并对所述特征信息进行预处理，然后使用训练语料文本训练一个最大熵模型，得到最大熵分类模型，有效的通过特征信息和最大熵分类模型识别出事件论元，有利于进一步提高识别效果；该方法通过事件的实体信息及论元信息将事件论元的识别任务看作是二元分类问题，使用最大熵模型，这样做的好处在于可以充分的利用有效的特征，建立一个统一的概率模型，其意义在于有利于提高事件论元的识别效率及性能。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于最大熵模型的事件论元识别方法的流程图；

图2为本发明实施例提供的基于最大熵模型的事件论元识别系统的结构框图；

图3为本发明实施例提供的最大熵分类模型建立模块的结构框图；

图4为本发明实施例提供的另一基于最大熵模型的事件论元识别系统的结构框图。

具体实施方式

本发明的核心是提供一种基于最大熵模型的事件论元识别方法，该方法能够充分的利用有效的特征，提高事件论元的识别效率及性能；本发明的另一目的是提供一种基于最大熵模型的事件论元识别系统。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的基于最大熵模型的事件论元识别方法的流程图；该方法可以包括：

步骤s100、基于最大熵模型的事件论元识别方法；

其中，所述建立最大熵分类模型可以包括：

其中，事件论元是事件的重要组成元素，主要包括事件的参与者。事件论元主要由实体、值和时间表达式组成，用独一无二的ID和角色来定义；和关系不同，事件允许在同一个角色中有多种论元。事件论元识别主要从众多实体、值和时间表达式中识别出真正的事件元素。本发明可以将实体、值和时间统一为事件论元候选项，从中识别出真正的事件论元。其中，本发明可以是利用事件的论元信息作为事件论元候选项的标签，即表明该事件论元候选项是否为论元，这样做的好处是将事件语料分成两个部分，因此将事件论元的识别任务看作是二元分类问题，进而进行最大熵二元分类来获得最大熵分类模型。

获取所述事件论元候选项的特征信息；

其中，利用语料处理工具来对所述事件论元候选项进行处理，获得所述事件论元候选项的特征信息。例如可以利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析，从而进一步构建事件论元候选所需的特征语料。

其中，可以将各个特征在处理过程中将每一类特征依次排列。

可以将可用语料文本的一部分用于对最大熵模型的训练，一部分用于对训练好的最大熵分类模型进行测试，得到最大熵分类模型的分类准确率。

利用所述训练语料文本训练最大熵模型，得到最大熵分类模型；

其中，最大熵模型系统地描述了条件最大熵的框架和实现算法，并在自然语言处理任务上取得了非常好的效果，在自然语言处理的各个领域都取得了巨大的成功，最大熵模型目前是近年来自然语言处理领域最成功的机器学习方法。

最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。近年来，最大熵模型广泛地应用于自然语言处理的各项任务，包括分词、词性标注、词义排岐、短语识别、机器翻译等。

在自然语言处理领域，假设a表示某个类别，b表示文档中出现的词，我们想知道包含词b的文档属于类别a的概率，最容易的方法是使用训练语料文本来进行统计。给定一个训练集，A＝{a₁,a₂,...,a_m}是文档所属的类别集，B＝{b₁,b₂,...,b_n}是文档的特征词集，具体来说如下：

求解满足最大熵原则的概率分布的公式如下：

p^{*} = \arg \underset{p &Element; P}{\max H} (p)

如果没有其他任何先验知识，根据熵的性质，上述公式得到最大值的条件是：

p (a | b) = \frac{1}{| A |}

其中，

\underset{a &Element; A}{Σ} p (a | b) = 1 .

在最大熵模型中，通常用二值特征函数来表示特征函数，定义如下：

f_{i} (a, b) = \{\begin{matrix} 1, if & b &Element; a \\ 0, & others \end{matrix}

对于特征函数f_i，它相对于经验概率分布的期望值为：

E_{\tilde{p}} f_{i} = \underset{a, b}{Σ} \tilde{p} (a, b) f_{i} (a, b)

特征函数f_i相对于模型p(a|b)的期望值为：

E_{p} f_{i} = \underset{a, b}{Σ} \tilde{p} (b) p (a | b) f_{i} (a, b)

我们限制在训练集中，这两个期望值相同，即：

E_{p} f_{i} = E_{\tilde{p}} f_{i}

其中，i＝1,2,...,k。

现在问题变成了满足一组约束条件的最优解问题，即

P = {p | E_{p} f_{i} = E_{\tilde{p}} f_{i}, i = 1,2, . . ., k}

p^{*} = \arg \underset{p &Element; P}{\max H} (p)

求解这个最优解的经典方法是拉格朗日乘子算法，结论如下：

p^{*} (a | b) = \frac{1}{π (b)} \exp (Σ_{i = 1}^{k} λ_{i} f_{i} (a, b))

其中π(b)是归一化因子，λ_i是参数，可以看成是特征函数的权值，可以通过GIS算法求出，知道了λ_i的值，就得到了概率分布函数，完成了最大熵模型的构造。

目前，最大熵概率模型的优势主要有：首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决了统计模型中参数平滑的问题。

步骤s110、利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，得到识别结果。

其中，利用最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，可以得到概率数值，通过概率数值判断识别的结果。也可以一个队测试语料文本的识别结果得到该最大熵分类模型的准确性。

基于上述技术方案，本发明实施例提供的基于最大熵模型的事件论元识别方法，该方法通过获取事件论元候选项，进而获取对应的有效的特征信息，并对所述特征信息进行预处理，然后使用训练语料文本训练一个最大熵模型，得到最大熵分类模型，有效的通过特征信息和最大熵分类模型识别出事件论元，有利于进一步提高识别效果；该方法将事件论元的识别任务看作是二元分类问题，使用最大熵模型，这样做的好处在于可以充分的利用有效的特征，建立一个统一的概率模型，其意义在于有利于提高事件论元的识别效率及性能。

优选的，所述获取所述事件论元候选项的特征信息包括：

其中，对于英文语料来说可以直接获得分词结构，对于中文可以通过中科院分词工具进行分词；继而从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征；

其中，所述标注工具可以是Stanford词性标注工具，由于，Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具，本发明即利用这些工具来实现某些特征的获取。但是本发明对词性标注工具并不限定。

利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征。

其中，Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具，本发明即利用这些工具来实现某些特征的获取。通过有效的工具可以得到有效的特征，有利于提高识别效率。本发明可以利用Stanford工具获取所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征。根据实际情况，也可以获取其他特征。

可选的，所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征可以包括：

从原始语料中抽取得到所述事件论元候选项的词特征和论元候选项的首单词，论元候选项所属的实体类型，论元候选项所属的实体子类型，论元候选项所在事件的触发词，论元候选项所在事件的事件类型，论元候选项的上下文单词。

可选的，所述通过标注工具对所述事件论元候选项所在的事件句进行词性标注及依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征以及依存关系特征可以包括：

其中，所述标注工具可以是Stanford词性标注工具。

利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析，获取所述事件论元候选项的词性特征，论元候选项的首单词的词性特征，论元候选项所在事件的触发词的词性特征，论元候选项的上下文单词的词性特征及依存关系特征。

其中，本发明最后所选择的特征可以包括：论元候选项的词本身，论元候选项的词性，论元候选项的首单词，论元候选项首单词的词性特征，论元候选项的类型(如实体类型等)和子类型，论元候选项所在事件的触发词，论元候选项所在事件的事件类型，论元候选项的上下文单词和词性特征(窗口为2)。但并不限定于此，可以根据实际情况对选择的特征进行加减。例1为一个“Transport”事件，以其中的实体“a small village”为例说明其特征表达。

例1：事件：Saddam's clan is said to have left for a small village inthe desert.

论元候选项：a small village

特征表达：a_small_village DT_JJ_NN a DT GPE_Population-Centerleft_trigger Movement_Transport for_l1 IN_l1 left_l2 VBN_l2 in_r1IN_r1 the_r2 DT_r2。

可选的，所述获取事件的实体信息，并根据所述实体信息事件论元候选项包括：

其中，获取事件的实体信息，进而针对实体获取选择有效的特征，其中包括使用Stanford工具获取词性信息等。通过上述特征可以充分利用事件的有效特征，具有全局性，能够提高事件论元的识别效率及性能。通过利用ACE2005对事件论元的定义和相关标注信息即论元信息可以利用标签确定所述事件论元候选项是否为论元。

优选的，还包括：

定期对所述最大熵分类模型进行更新。

其中，这样有助于保证最大熵分类模型的准确率。使得利用最大熵分类模型进行的事件论元识别效果更好，提高其性能。

基于上述技术方案，本发明实施例提供的基于最大熵模型的事件论元识别方法，该方法通过获取事件论元候选项，且利用Stanford词性标注工具(其是目前比较先进且应用比较广泛的相关工具)，通过利用这些工具来实现某些有效的特征信息，能够充分的利用上下文信息，并对所述特征信息进行预处理，然后使用训练语料文本训练一个最大熵模型，得到最大熵分类模型，有效的通过特征信息和最大熵分类模型识别出事件论元，有利于进一步提高识别效果；该方法将事件论元的识别任务看作是二元分类问题，使用最大熵模型，这样做的好处在于可以充分的利用有效的特征，建立一个统一的概率模型，其意义在于有利于提高事件论元的识别效率及性能。定期对所述最大熵分类模型进行更新，这样也助于保证最大熵分类模型的准确率。

本发明实施例提供了基于最大熵模型的事件论元识别方法，通过上述方法能够充分的利用有效的特征，提高事件论元的识别效率及性能。

下面对本发明实施例提供的基于最大熵模型的事件论元识别系统进行介绍，下文描述的基于最大熵模型的事件论元识别系统与上文描述的基于最大熵模型的事件论元识别方法可相互对应参照。

请参考图2，图2为本发明实施例提供的基于最大熵模型的事件论元识别系统的结构框图；该系统可以包括：

最大熵分类模型建立模块100，用于获取事件的实体信息，根据所述实体信息确定事件论元候选项；获取所述事件论元候选项的特征信息；将所述特征信息按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；利用所述训练语料文本训练最大熵模型，得到最大熵分类模型；

识别模块200，用于利用所述最大熵分类模型对所述测试语料文本中的事件论元候选项进行识别，得到识别结果。

可选的，请参考图3，图3为本发明实施例提供的最大熵分类模型建立模块的结构框图；该最大熵分类模型建立模块100可以包括：

事件论元候选项单元110，用于利用ACE2005对事件论元的定义和相关标注信息获取事件的实体信息，通过所述实体信息确定事件论元候选项；

抽取单元120，用于从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征；

标注单元130，用于利用Stanford工具对所述事件论元候选项所在的事件句进行词性标注和依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征；

融合单元140，用于将所述事件论元候选项的词性特征，上下文的词性特征，及依存关系特征，所述事件论元候选项的词特征和实体信息特征按照最大熵模型格式进行融合，得到可用语料文本，其中，所述可用语料文本包括训练语料文本和测试语料文本；

训练模块150，用于利用所述训练语料文本训练最大熵模型，得到最大熵分类模型。

可选的，请参考图4，图4为本发明实施例提供的另一基于最大熵模型的事件论元识别系统的结构框图；该系统还可以包括：

更新模块300，用于定期对所述最大熵分类模型进行更新。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于最大熵模型的事件论元识别方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于最大熵模型的事件论元识别方法，其特征在于，建立最大熵分类模型；包括：

其中，所述建立最大熵分类模型包括：

获取所述事件论元候选项的特征信息；

2.如权利要求1所述的事件论元识别方法，其特征在于，所述获取所述事件论元候选项的特征信息包括：

3.如权利要求2所述的事件论元识别方法，其特征在于，所述从原始语料中抽取得到所述事件论元候选项的词特征和实体信息特征包括：

4.如权利要求3所述的事件论元识别方法，其特征在于，所述通过标注工具对所述事件论元候选项所在的事件句进行词性标注及依存关系分析，获取所述事件论元候选项的词性特征，上下文的词性特征以及依存关系特征包括：

5.如权利要求1所述的事件论元识别方法，其特征在于，所述获取事件的实体信息，并根据所述实体信息确定事件论元候选项包括：

6.如权利要求1所述的事件论元识别方法，其特征在于，还包括：

定期对所述最大熵分类模型进行更新。

7.一种基于最大熵模型的事件论元识别系统，其特征在于，包括：

8.如权利要求7所述的事件论元识别系统，其特征在于，所述最大熵分类模型建立模块包括：

9.如权利要求7所述的事件论元识别系统，其特征在于，还包括：

更新模块，用于定期对所述最大熵分类模型进行更新。