CN104778163A

CN104778163A - 一种事件触发词识别方法及系统

Info

Publication number: CN104778163A
Application number: CN201510236590.2A
Authority: CN
Inventors: 陈敬; 李寿山; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-05-11
Filing date: 2015-05-11
Publication date: 2015-07-15

Abstract

本发明公开了一种事件触发词识别方法，利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果；其中，所述最大熵识别模型的获取包括：获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；利用所述训练样本训练最大熵模型，得到最大熵识别模型；该方法能够有效的提高事件触发词的识别性能；本发明公开一种事件触发词识别系统。

Description

一种事件触发词识别方法及系统

技术领域

本发明涉及信息处理领域，特别是涉及一种事件触发词识别方法及系统。

背景技术

随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，从而使得大量的信息以电子文本的形式呈现在人们面前。因此，如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。事件由事件触发词和描述事件结构的元素构成，事件抽取(Event Extraction)是信息抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Event detection andrecognition)，即识别特定类型的事件，并进行相关信息的确定和抽取。事件触发词是直接引发事件发生的词，对事件触发词的识别是进行事件抽取其他子任务的基础。例如：“高中同学前一个月结婚了”的触发词为“结婚”，所触发的事件类别为“Marry”，而“美国总统布什将于2月访问德国并与施罗德会谈”这一事件的触发词则为“会谈”,触发的事件类别为“Meet”。

目前，事件触发词的识别方法大致可以分为两种：第一种是基于规则的方法，它主要是通过收集训练集中的触发词构成触发词表，然后通过触发词表及其他一些标注信息来识别出测试集中的触发词。该方法可以识别出较多的触发词，但是规则的定义需要耗费大量的人力，而且规则如果定义的不够好，则可能会过滤掉一些本身可以充当触发词的单词而导致识别效果较低。第二种方法是基于机器学习的方法，即使用统计的方法进行研究。这种方法把事件触发词识别看成分类问题，选择合适的特征并使用合适的分类器来完成。该方法虽然更加智能，但是却存在不能充分的利用到上下文信息，特征无法全局归一化等缺憾。

因此，如何使事件触发词更加全局化且有效的提高事件触发词的识别性能，是本领域技术人员需要解决的技术问题。

发明内容

本发明的目的是提供一种事件触发词识别方法，该方法能够使事件触发词更加全局化且有效的提高事件触发词的识别性能；本发明的另一目的是提供一种事件触发词识别系统。

为解决上述技术问题，本发明提供一种事件触发词识别方法，包括：

利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果；

其中，所述最大熵识别模型的获取包括：获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；利用所述训练样本训练最大熵模型，得到最大熵识别模型。

其中，所述的事件触发词识别方法还包括：

更新所述最大熵识别模型。

其中，所述获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征包括：

从原始语料样本中抽取所述原始语料样本的词特征和实体信息特征；

利用Stanford工具获取所述原始语料样本的词性特征，依存关系特征。

其中，所述将所述可用样本按照预定规则分为训练样本和测试样本包括：

将选取得到的所述可用样本的80％作为训练样本，剩余的20％作为测试样本。

本发明提供一种事件触发词识别系统包括：

识别模型建立模块，用于获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；利用所述训练样本训练最大熵模型，得到最大熵识别模型；

识别模块，用于利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果。

其中，所述最大熵识别模型建立模块包括：

特征单元，用于利用Stanford工具获取所述原始语料样本的词性特征，依存关系特征；

抽取单元，用于从原始语料样本中抽取所述原始语料样本的词特征和实体信息特征；

样本单元，用于获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；

训练单元，用于利用所述训练样本训练最大熵模型，得到最大熵识别模型。

其中，所述的事件触发词识别系统还包括：

更新模块，用于更新所述最大熵识别模型。

本发明所提供的一种事件触发词识别方法及系统，该方法及系统通过建立最大熵识别模型，即该模型能够充分的利用上下文信息，获取原始语料样本的特征信息，建立一个统一的概率模型，利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，有利于提高事件触发词的识别效率及性能。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的事件触发词识别方法的流程图；

图2为本发明实施例提供的事件触发词识别系统的结构框图；

图3为本发明实施例提供的最大熵识别模型建立模块的结构框图；

图4为本发明实施例提供的另一事件触发词识别系统的结构框图。

具体实施方式

本发明的核心是提供一种事件触发词识别方法，该方法能够使事件触发词更加全局化且有效的提高事件触发词的识别性能；本发明的另一目的是提供一种事件触发词识别系统。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的事件触发词识别方法的流程图，该方法可以包括：

步骤s100、得到最大熵识别模型；

其中，得到最大熵识别模型具体可以包括：

获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；

其中，首先需要对原始语料样本即原始的事件语料进行预处理，即获取原始语料样本中的一些特征信息，并利用获取的特征信息进一步的构建出本发明中的可用样本。其中，具体的过程可以是首先获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征。

获取所述词特征，词性特征，实体信息特征和依存关系特征的特征向量，根据所述特征向量得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；

其中，可以将上述得到的各个特征在处理过程中将每一类特征依次排列即各占一行，形成特征向量。

利用所述训练样本训练最大熵模型，得到最大熵识别模型；

其中，最大熵模型系统地描述了条件最大熵的框架和实现算法，并在自然语言处理任务上取得了非常好的效果，在自然语言处理的各个领域都取得了巨大的成功，最大熵模型目前是近年来自然语言处理领域最成功的机器学习方法。

最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。F_k,c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 & and & c^{'} = c \\ 0, & otherwise \end{matrix}

目前，最大熵概率模型的优势主要有以下两点：

首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；

其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决了统计模型中参数平滑的问题。

步骤s110、利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果。

其中，利用最大熵识别模型对所述测试样本中的事件触发词进行计算识别，可以得到概率数值，通过概率数值判断识别的结果。

基于上述技术方案，本发明实施例提供的事件触发词识别方法，能够通过建立最大熵识别模型，即该模型能够充分的利用上下文信息，获取原始语料样本的特征信息，通过获取这样的特征能够提高特征的全局性，能够更加精确建立一个统一的概率模型，利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，有利于提高事件触发词的识别效率及性能。

优选的，所述获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征可以包括：

利用Stanford工具获取所述原始语料样本的词性特征，依存关系特征；

从原始语料样本中抽取得到所述原始语料样本的词特征和实体信息特征。

其中，Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具，本发明即利用这些工具来实现某些特征的获取。

例1就是一个英文事件及其对应词性标注结果。

例1：原事件：Death of Arafat(1)Controversial PLO leader YasserArafat died in a Paris hospital last week.

词性标注结果：Death/NN of/IN Arafat/NNP(/-LRB-1/CD)/-RRB-Controversial/NNP PLO/NNP leader/NN Yasser/NNP Arafat/NNPdied/VBD in/IN a/DT Paris/NNP hospital/NN last/JJ week/NN./.

依存关系结果：nsubj(died-12,Death-1)prep_of(Death-1,Arafat-3)appos(Arafat-3,1-5)nn(Arafat-11,Controversial-7)nn(Arafat-11,PLO-8)nn(Arafat-11,leader-9)nn(Arafat-11,Yasser-10)dep(Arafat-3,Arafat-11)det(hospital-16,a-14)nn(hospital-16,Paris-15)prep_in(died-12,hospital-16)amod(week-18,last-17)tmod(died-12,week-18)

实体关系:Arafat/PER/Individual PLO/ORG/Non-Governmental/EPR/Individual Controversial PLO leader/EPR/Individual

Controversial PLO leader Yasser Arafat/EPR/Individual

Paris/GPE/Population-Center a Paris hospital/FAC/Building-Grounds last week/time/time

可用样本的格式需严格按照最大熵模型要求的格式，即每类特征占一列。

可选的，所述将所述可用样本按照预定规则分为训练样本和测试样本可以包括：

其中，可以将大量的原始语料样本都按照上述方法进行相应的特征提取，得到可用样本，可以将可用样本按照需要分成训练样本和测试样本，这里优选的将选取得到的所述可用样本的80％作为训练样本，剩余的20％作为测试样本；是由于训练样本是用于训练训练最大熵模型，得到最大熵识别模型的，因此训练样本的数量越多，特征越好，得到的最大熵识别模型也就越准确；而测试样本是用于对得到的最大熵识别模型进行测试，看其识别效果怎么样。这里的比例可以按照实际情况进行划分。

优选的，所述的事件触发词识别方法还可以包括：

定期对所述最大熵识别模型进行更新。

其中，这样有助于保证最大熵识别模型的准确率。使得利用最大熵识别模型进行的事件触发词识别效果更好。

基于上述技术方案，本发明实施例提供的事件触发词识别方法，能够通过建立最大熵识别模型，即该模型能够充分的利用上下文信息，获取原始语料样本的特征信息，且使用的Stanford词性标注工具是目前比较先进且应用比较广泛的相关工具，本发明即利用这些工具来实现某些特征的获取。通过获取实体关系，依存关系结果等特征能够提高特征的全局性，能够更加精确建立一个统一的概率模型，利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，有利于提高事件触发词的识别效率及性能。

本发明实施例提供了事件触发词识别方法，可以通过上述方法能够使事件触发词更加全局化且有效的提高事件触发词的识别性能。

下面对本发明实施例提供的事件触发词识别系统进行介绍，下文描述的事件触发词识别系统与上文描述的事件触发词识别方法可相互对应参照。

请参考图2，图2为本发明实施例提供的事件触发词识别系统的结构框图；该系统可以包括：

识别模型建立模块100，用于获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征；将所述词特征，词性特征，实体信息特征和依存关系特征按照最大熵模型格式进行融合，得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；利用所述训练样本训练最大熵模型，得到最大熵识别模型；

识别模块200，用于利用所述最大熵识别模型对所述测试样本中的事件触发词进行识别，得到识别结果。

可选的，请参考图3，图3为本发明实施例提供的最大熵识别模型建立模块的结构框图；该最大熵识别模型建立模块100可以包括：

抽取单元110，用于所述原始语料样本的词特征和实体信息特征从原始语料样本中抽取；

特征单元120，用于利用Stanford工具获取所述原始语料样本的词性特征，依存关系特征；

样本单元130，用于将所述词特征，词性特征，实体信息特征和依存关系特征按照最大熵模型格式进行融合，得到可用样本，将所述可用样本按照预定规则分为训练样本和测试样本；

训练单元140，用于利用所述训练样本训练最大熵模型，得到最大熵识别模型。

可选的，请参考图4，图4为本发明实施例提供的另一事件触发词识别系统的结构框图；该系统还可以包括：

更新模块300，用于更新所述最大熵识别模型。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的事件触发词识别方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种事件触发词识别方法，其特征在于，包括：

2.如权利要求1所述的事件触发词识别方法，其特征在于，还包括：

更新所述最大熵识别模型。

3.如权利要求1所述的事件触发词识别方法，其特征在于，所述将所述可用样本按照预定规则分为训练样本和测试样本包括：

4.如权利要求1所述的事件触发词识别方法，其特征在于，所述获取原始语料样本的词特征，词性特征，实体信息特征和依存关系特征包括：

5.一种事件触发词识别系统，其特征在于，包括：

6.如权利要求5所述的事件触发词识别系统，其特征在于，所述最大熵识别模型建立模块包括：

7.如权利要求5所述的事件触发词识别系统，其特征在于，还包括：

更新模块，用于更新所述最大熵识别模型。