CN105138520A

CN105138520A - 一种事件触发词识别方法及装置

Info

Publication number: CN105138520A
Application number: CN201510530965.6A
Authority: CN
Inventors: 李寿山; 朱珠; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Suzhou University; Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-09
Anticipated expiration: 2035-08-26
Also published as: CN105138520B

Abstract

本发明公开了一种事件触发词识别方法及装置，该方法包括：将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料；根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词；其中，所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。本发明所提供的事件触发词识别方法及装置，同时从事件的原始以及翻译语料入手，使用二者的综合信息去识别事件的触发词，可以避免语料的稀疏问题，有利于提高系统的识别性能。

Description

一种事件触发词识别方法及装置

技术领域

本发明涉及信息抽取技术以及模式识别技术领域，特别是涉及一种事件触发词识别方法及装置。

背景技术

随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，从而使得大量的信息以电子文本的形式呈现在人们面前。因此，如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本中自动获取信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。事件抽取(EventExtraction)是信息抽取的一个重要研究方向。ACE2005将事件抽取的任务定义为事件的检测与识别(Eventdetectionandrecognition)，即识别特定类型的事件，并进行相关信息的确定和抽取。主要的相关信息包括：事件触发词、事件的类型和子类型、事件的元素等。触发词是触发事件发生的词，触发词的识别任务是进行事件抽取其他子任务的基础。例如：“高中同学前一个月结婚了”，通过事件触发词识别，可知“结婚”为触发词触发了事件的发生，而“美国总统布什将于2月访问德国并与施罗德会谈”这一事件则是由触发词“会谈”触发的。

目前，事件抽取的方法大致可以分为两种：第一种是基于模式匹配的方法，它是指某类事件的识别和抽取是在一些模式的指导下进行的，而所需的模式则需要人工或自动的方式来设定或获取。该方法分为两个过程：模式获取和信息抽取。其中，模式的建立需要取决于具体的领域和使用的环境，建立起来有困难。但是根据特征提取出来的模式在其应用范围内准确率很高，根据模式匹配出的事件准确性也较好。第二种方法是基于机器学习的方法，即使用统计的方法进行事件抽取的研究。这种方法把事件抽取看成分类问题，选择合适的特征并使用合适的分类器来完成。基于机器学习的方法虽然不依赖于语料的内容与格式，但需要大规模的标注语料，否则会出现较为严重的数据稀疏问题。

因此，怎样避免数据稀疏现象及选取有效的特征，是基于机器学习的事件抽取方法研究的一大难点。

发明内容

本发明的目的是提供一种事件触发词识别方法及装置，目的在于解决现有的事件触发词识别方法中数据稀疏的问题。

为解决上述技术问题，本发明提供一种事件触发词识别方法，包括：

将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料；

根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；

通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词；其中，所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。

可选地，所述第一单语特征包括：

词袋特征、所述当前候选词的词形和词性特征、距离所述当前候选词左/右最近的词的词形和词性特征、距离所述当前候选词左/右最近的实体的词特征和类型特征。

可选地，所述第二单语特征包括：

所述当前候选词翻译后的词特征和整句翻译文本的词袋特征。

可选地，所述将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料包括：

使用机器翻译技术对所述原始语料进行整句翻译和逐词翻译。

可选地，所述将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料之后还包括：

当翻译后的语料为中文时，对翻译后的文本进行分词处理。

可选地，预先建立所述二元分类器包括：

建立最大熵二元分类器。

本发明还提供了一种事件触发词识别装置，包括：

获取模块，用于将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料；

确定模块，用于根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；

分类模块，用于通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词；其中，所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。

可选地，所述获取模块用于将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料包括：

所述获取模块具体用于使用机器翻译技术对所述原始语料进行整句翻译和逐词翻译。

可选地，还包括：

分词模块，用于在将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料之后，当翻译后的语料为中文时，对翻译后的文本进行分词处理。

本发明所提供的事件触发词识别方法及装置，通过将待识别原始语料进行整句翻译和逐词翻译，获得翻译后的语料，将原始语料以及翻译语料有效的融合，作为当前候选词的双语特征。根据双语特征，使用预先建立的二元分类器对当前候选词进行分类，以确定当前候选词是否为事件触发词。本发明所提供的事件触发词识别方法及装置，同时从事件的原始以及翻译语料入手，使用二者的综合信息去识别事件的触发词，可以在一定程度上避免语料的稀疏问题，有利于提高系统的识别性能。

附图说明

图1为本发明所提供的事件触发词识别方法的一种具体实施方式的方法流程图；

图2为本发明所提供的事件触发词识别方法的另一种具体实施方式的方法流程图；

图3为本发明所提供的事件触发词识别装置的一种具体实施方式的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的事件触发词识别方法的一种具体实施方式的方法流程图如图1所示，该方法包括：

步骤S101：将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料；

步骤S102：根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；

步骤S103：通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词；其中，所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。

本发明所提供的事件触发词识别方法，通过将待识别原始语料进行整句翻译和逐词翻译，获得翻译后的语料，将原始语料以及翻译语料有效的融合，作为当前候选词的双语特征。根据双语特征，使用预先建立的二元分类器对当前候选词进行分类，以确定当前候选词是否为事件触发词。本发明所提供的事件触发词识别方法，同时从事件的原始以及翻译语料入手，使用二者的综合信息去识别事件的触发词，可以在一定程度上避免语料的稀疏问题，有利于提高系统的识别性能。

需要指出的是，上述第一单语特征可以具体包括：词袋特征、所述当前候选词的词形和词性特征、距离所述当前候选词左/右最近的词的词形和词性特征、距离所述当前候选词左/右最近的实体的词特征和类型特征；

上述第二单语特征可以具体包括：所述当前候选词翻译后的词特征和整句翻译文本的词袋特征。

当然，第一单语特征以及第二单语特征还可以包括其他特征，并不限于这里指出的特征。这都不影响本发明的实现。

从国内外的研究现状可知，中文的事件抽取研究起步较晚，关于可用资源的建设相对薄弱。相对而言，英文的事件抽取研究则起步较早，相关的研究也比较深入，但是数据稀疏这一问题仍然存在。因此，本发明提出的基于双语信息的事件触发词识别方法，可以应用于中英文事件触发词识别技术中，利用机器翻译系统来消除中英文两种语言之间的障碍，把一个源语言的事件句翻译成另一种语言。

本实施例提供了事件触发词识别方法的另一种具体实施方式，如图2方法流程图所示。该方法具体包括：

步骤S201：使用机械翻译技术对中英文的原始语料进行整句翻译和逐词翻译；

谷歌翻译工具是目前比较先进且应用比较广泛的机器翻译系统之一，本实施例即利用该工具来实现事件的文本翻译。例1就是一个英文事件及其对应的整句中文翻译。

例1：Saddam'sclanissaidtohaveleftforasmallvillageinthedesert.

中文翻译：据说萨达姆家族已经离开沙漠中的一个小村庄。

如果是把英文翻译成中文，那么还需要对翻译后的文本进行分词处理。本实施例中使用中科院的分词工具完成这一分词过程。

步骤S202：根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；

双语特征的文本表示过程，即中英文信息的融合过程。特征选择是机器学习的一个关键问题，本发明为了使机器可以同时学习双语信息，需要对文本的特征表示进行优化。本发明使用的方法是在原有的单语特征基础上加入候选词翻译后的词特征，其中单语特征包括词袋特征、候选词的词形和词性特征、距离候选词左/右最近的词的词形和词性特征、距离候选词左/右最近的实体的词特征和类型特征。

具体地，仅适用单语信息时，以英文为例，一个英文文本x被表示为：

x = (\begin{matrix} e_{1}, e_{2} ..., e_{n}, W o r d, P O S_W o r d, W o r d_c o n, \\ P O S_co n, E n t, E n t_t y p e, E n t_s u b t y p e \end{matrix})

其中，e_i为当前候选词所在句的词特征，e₁,e₂…,e_n即词袋特征，Word和POS_Word分别为当前候选词及其词性，Word_con和POS_con为距离当前候选词左/右最近的词及其词性，Ent为距离当前候选词左/右最近的实体，Ent_type和Ent_subtype为对应的实体的类型和子类型。

当使用双语信息时，需要在上述的单语表示的基础上加上双语信息，此时的x表示为：

x = (\begin{matrix} e_{1}, e_{2} ..., e_{n}, W o r d, P O S_W o r d, W o r d_co n, P O S_co n, \\ E n t, E n t_t y p e, E n t_s u b t y p e, c_{1}, c_{2}, ..., c_{m}, T r a n s_W o r d \end{matrix})

其中，c_j为当前候选词所在的原英文句对应的中文翻译句的词特征，Trans_Word为当前候选词Word的翻译。通过该方法，本发明将双语信息有效的融合在一起，为机器学习奠定了良好的基础。

步骤S203：使用机器学习的方法对训练样本进行训练，构建一个二元分类器；

所述二元分类器为对多个具有双语特征的训练样本进行训练得到的。具体地，该二元分类器可以为最大熵的二元分类器。

最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。F_k,c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 a n d c^{'} = c \\ 0, & o t h e r w i s e \end{matrix}

步骤S204：通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词。

本发明同时从中文和英文的事件语料入手，使用二者的综合信息去识别事件的触发词，这样做的好处在于中英文事件中往往包含着类似的信息，将二者有效的融合在一起，可以在一定程度上避免语料的稀疏问题，并充分考虑到了中英文的有益信息，令二者可以相互帮助，其意义在于有利于提高系统的识别效果。

综合来看，本发明能够有效解决事件触发词识别问题中的数据稀疏问题，获得的识别效果要远远好于使用单语的触发词识别方法。本发明的方法在ACE2005的中英文测试语料中取得了更好的分类正确率。

在本次测试中，中文事件共有633个文本，英文事件共有599个文本。对中英文语料分别进行单语和双语测试，实验选用的评价标准是F1-score(F1)，F1＝2*P*R/(P+R)，其中P是精确率，R为召回率。F1值是评价一般分类问题的综合评价标准。

如表1本发明的测试实验结果所示，其中参与比较的分类方法包括：

“中文单语”表示仅使用中文单语特征进行基于最大熵分类方法的事件触发词识别，在中文单语语料上进行测试；

“中文双语”表示在中英文单语特征的基础上加入双语信息，使用中英文双语特征文本进行基于最大熵分类方法的事件触发词识别，在中文双语语料上进行测试。

“英文单语”表示仅使用英文单语特征进行基于最大熵分类方法的事件触发词识别，在英文单语语料上进行测试；

“英文双语”表示在中英文单语特征的基础上加入双语信息，使用中英文双语特征文本进行基于最大熵分类方法的事件触发词识别，在英文双语语料上进行测试。

表1

中文单语	0.620
		中文双语	0.680
英文单语	0.651
		英文双语	0.659

从上述表1所示的对比数据可以看出，使用双语信息的方法要好于单纯的单语的事件触发词识别方法的结果，尤其是中文事件的触发词识别结果，这个结果显示本发明所使用的方法能够在一定程度上有效的处理事件触发词识别中数据稀疏的问题。在事件触发词识别任务中，数据稀疏问题往往表现得很突出，所以本发明的方法更适合实际需要。

本发明所提供的事件触发词识别装置的一种具体实施方式的结构框图如图3所示，该装置包括：

获取模块100，用于将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料；

确定模块200，用于根据所述原始语料以及所述翻译语料，确定当前候选词的双语特征，所述双语特征包括原始语料的第一单语特征以及翻译语料的第二单语特征；

分类模块300，用于通过所述双语特征，使用预先建立的二元分类器对所述当前候选词进行分类，以确定所述当前候选词是否为事件触发词；其中，所述二元分类器为通过对多个具有双语特征的训练样本进行训练得到的。

本发明所提供的事件触发词识别装置，通过将待识别原始语料进行整句翻译和逐词翻译，获得翻译后的语料，将原始语料以及翻译语料有效的融合，作为当前候选词的双语特征。根据双语特征，使用预先建立的二元分类器对当前候选词进行分类，以确定当前候选词是否为事件触发词。本发明所提供的事件触发词识别装置，同时从事件的原始以及翻译语料入手，使用二者的综合信息去识别事件的触发词，可以在一定程度上避免语料的稀疏问题，准确地通过更多更有效的特征和训练样本同时识别出中英文事件的触发词，有利于提高系统的识别性能。

本发明所提供的事件触发词识别装置，与上述事件触发词识别方法相对应，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种事件触发词识别方法，其特征在于，包括：

2.如权利要求1所述的事件触发词识别方法，其特征在于，所述第一单语特征包括：

3.如权利要求1所述的事件触发词识别方法，其特征在于，所述第二单语特征包括：

4.如权利要求1至3任一项所述的事件触发词识别方法，其特征在于，所述将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料包括：

5.如权利要求1至3任一项所述的事件触发词识别方法，其特征在于，所述将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料之后还包括：

当翻译后的语料为中文时，对翻译后的文本进行分词处理。

6.如权利要求1至3任一项所述的事件触发词识别方法，其特征在于，预先建立所述二元分类器包括：

建立最大熵二元分类器。

7.一种事件触发词识别装置，其特征在于，包括：

8.如权利要求7所述的事件触发词识别装置，其特征在于，所述获取模块用于将待识别原始语料进行整句翻译和逐词翻译，获得翻译语料包括：

9.如权利要求7或8所述的事件触发词识别装置，其特征在于，还包括：