CN104462229A

CN104462229A - 一种事件分类方法及装置

Info

Publication number: CN104462229A
Application number: CN201410640920.XA
Authority: CN
Inventors: 李寿山; 朱珠; 周国栋; 段湘煜
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2015-03-25

Abstract

本申请公开了一种事件分类方法及装置，对原始语料进行翻译获取翻译样本，将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；将所述双语样本作为训练样本，构建分类器；最后，利用所述分类器对待分类事件进行分类。基于上述方法和装置，使用翻译样本与单语特征的综合信息判断事件类型，可以在一定程度上避免数据稀疏的问题。

Description

一种事件分类方法及装置

技术领域

本发明涉及信息抽取及模式识别技术领域，尤其涉及一种事件分类方法及装置。

背景技术

随着互联网的高速发展和信息高速公路的兴起，网络信息数据不断增加，使得大量信息以电子文本的形式呈现在人们面前。因此，如何从这些以电子文本形式呈现的大量信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从电子文本中自动获取信息的一种主要手段。信息抽取是将无结构的电子文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询、分析或利用。

事件分类是信息抽取的一个重要研究方向。事件分类被定义为事件的检测与识别，即识别特定类型的事件，并进行相关信息的确定和抽取。主要的相关信息包括：事件的类型和子类型、事件的元素等。ACE2005把事件分为8个类型，33个子类型，事件分类就是分配给某事件一个确定的类型。例如：“高中同学前一个月结婚了”，通过事件分类，该事件将被分为“Marry”子类型，而“美国总统布什将于2月访问德国并与施罗德会谈”这一事件则会被分为“Meet”子类型。

目前，常用的事件分类的方法是基于机器学习的方法，即使用统计的方法进行事件抽取的研究，这种方法把事件抽取看成分类问题，选择合适的特征并使用合适的分类器来完成。但是，基于机器学习的方法虽然不依赖语料的内容与格式，但需要大规模的标注语料，否则会出现较为严重的数据稀疏问题。

发明内容

有鉴于此，本发明提供了一种事件分类方法及装置，以克服现有技术中基于机器学习的方法虽然不依赖语料的内容与格式，但需要大规模的标注语料，否则会出现较为严重的数据稀疏的问题。

为实现上述目的，本发明提供如下技术方案：

一种事件分类方法，所述方法包括：

对原始语料进行翻译获取翻译样本；

将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；

将所述双语样本作为训练样本，构建分类器；

利用所述分类器对待分类事件进行分类。

优选的，所述对原始语料进行翻译获取翻译样本具体包括：

使用机器翻译系统对原始语料进行翻译获取翻译样本。

优选的，所述方法还包括：

如果所述翻译样本为中文，则对所述翻译样本进行分词处理。

优选的，所述将所述双语样本作为训练样本，构建分类器具体包括：

将所述双语样本作为训练样本，构建最大熵分类器。

优选的，所述利用所述分类器对待分类事件进行分类具体包括：

利用所述最大熵分类器对所述待分类事件进行分类。

一种事件分类装置，所述装置包括：

翻译单元，用于对原始语料进行翻译获取翻译样本；

双语样本获取单元，用于将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；

构建单元，用于将所述双语样本作为训练样本，构建分类器；

分类单元，用于利用所述分类器对待分类事件进行分类。

优选的，所述翻译单元具体用于：

使用机器翻译系统对原始语料进行翻译获取翻译样本。

优选的，所述装置还包括：

分词单元，用于如果所述翻译样本为中文，则对所述翻译样本进行分词处理。

优选的，所述构建单元具体用于：

将所述双语样本作为训练样本，构建最大熵分类器。

优选的，所述分类单元具体用于：

利用所述最大熵分类器对所述待分类事件进行分类。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种事件分类方法及装置，对原始语料进行翻译获取翻译样本，将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；将所述双语样本作为训练样本，构建分类器；最后，利用所述分类器对待分类事件进行分类。基于上述方法和装置，使用翻译样本与单语特征的综合信息判断事件类型，可以在一定程度上避免数据稀疏的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种事件分类方法具体流程示意图；

图2为本发明实施例二公开的一种事件分类装置具体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

由背景技术可知，现有技术中基于机器学习的方法虽然不依赖语料的内容与格式，但需要大规模的标注语料，否则会出现较为严重的数据稀疏问题。

为此，本发明公开了一种事件分类方法及装置，对原始语料进行翻译获取翻译样本，将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；将所述双语样本作为训练样本，构建分类器；最后，利用所述分类器对待分类事件进行分类。基于上述方法和装置，使用翻译样本与单语特征的综合信息判断事件类型，可以在一定程度上避免数据稀疏的问题。

下面将通过具体实施例对本发明公开的事件分类方法及装置进行详细说明。

实施例一

请参阅附图1，为本发明实施例一公开的一种事件分类方法的具体流程示意图，该方法具体包括如下步骤：

S101：对原始语料进行翻译获取翻译样本。

原始语料为中文或英文。该步骤通过使用机器翻译系统对原始语料进行翻译获取翻译样本，所述机器翻译系统可以为多种现有的翻译工具，比如：谷歌翻译工具，对此，本发明实施例不做任何限制。

例如，原始语料为“Saddam's clan is said to have left for a small village in thedesert.”，则翻译样本为“据说萨达姆家族已经离开沙漠中的一个小村庄。”。需要说明的是，如果是把英文翻译成中文，则还需要对翻译样本进行分词处理，本实施例中，可使用中科院的分词工具完成这一分词处理过程。以上述翻译样本为例说明，分词处理后的句子是：据说萨达姆家族已经离开沙漠中的一个小村庄。

S102：将所述翻译样本的词特征与单语特征相加获得双语样本。

所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征。

具体的，仅使用单语特征时，以英文为例，一个英文文本x被表示为：

x = (\begin{matrix} e_{1}, e_{2} . . ., e_{n}, Tri, POS_Tri, Tri_con, \\ POS_con, Ent, Ent_type, Ent_subtype \end{matrix})

其中，e_i为该英文文本的词特征，Tri和POS_Tri分别为该英文文本的触发词及其词性，Tri_con和POS_con为触发词前后若干个词及其词性，Ent为触发词前后若干个实体，Ent_type和Ent_subtype为实体的类型和子类型。

本实施例中，将所述翻译样本的词特征与单语特征相加获得双语样本，此时，x可表示为：

x = (\begin{matrix} e_{1}, e_{2} . . ., e_{n}, Tri, POS_Tri, Tri_con, POS_con, \\ Ent, Ent_type, Ent_subtype, c_{1}, c_{2}, . . ., c_{m} \end{matrix})

其中，c_j为原英文事件句对应的中文翻译句的词特征。

S103：将所述双语样本作为训练样本，构建分类器。

在该步骤中可根据最大熵分类方法将所述双语样本作为训练样本，构建最大熵分类器。最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。F_k,c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 and c^{'} = c \\ 0, & otherwise \end{matrix}

其中，D为训练集，c为类别

S104：利用所述分类器对待分类事件进行分类。

该步骤中，可利用最大熵分类器对所述待分类事件进行分类。

本实施例公开了一种事件分类方法，对原始语料进行翻译获取翻译样本，将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征；将所述双语样本作为训练样本，构建分类器；最后，利用所述分类器对待分类事件进行分类。基于上述方法，使用翻译样本与单语特征的综合信息判断事件类型，可以在一定程度上避免数据稀疏的问题。

基于上述方法实施例，本发明还公开了一种事件分类装置，下面将通过以下实施例进行详细描述。

实施例二

请参阅附图2，为本发明实施例二公开的一种事件分类装置的具体结构示意图，该装置具体包括如下单元：

翻译单元11，用于对原始语料进行翻译获取翻译样本。

双语样本获取单元12，用于将所述翻译样本的词特征与单语特征相加获得双语样本；所述单语特征包括词特征、触发词、所述触发词的词性和所述触发词的上下文特征。

构建单元13，用于将所述双语样本作为训练样本，构建分类器。

分类单元14，用于利用所述分类器对待分类事件进行分类。

其中，所述翻译单元具体用于：

使用机器翻译系统对原始语料进行翻译获取翻译样本。

所述构建单元具体用于：

将所述双语样本作为训练样本，构建最大熵分类器。

所述分类单元具体用于：

利用所述最大熵分类器对所述待分类事件进行分类。

如果所述翻译样本为中文，所述装置还包括：

分词单元，用于对所述翻译样本进行分词处理。

需要说明的是，上述各个单元的具体功能实现已在方法实施例中进行详细说明，本实施例不再赘述，具体请参见方法实施例的相关说明。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种事件分类方法，其特征在于，所述方法包括：

对原始语料进行翻译获取翻译样本；

将所述双语样本作为训练样本，构建分类器；

利用所述分类器对待分类事件进行分类。

2.根据权利要求1所述的方法，其特征在于，所述对原始语料进行翻译获取翻译样本具体包括：

使用机器翻译系统对原始语料进行翻译获取翻译样本。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述双语样本作为训练样本，构建分类器具体包括：

将所述双语样本作为训练样本，构建最大熵分类器。

5.根据权利要求4所述的方法，其特征在于，所述利用所述分类器对待分类事件进行分类具体包括：

利用所述最大熵分类器对所述待分类事件进行分类。

6.一种事件分类装置，其特征在于，所述装置包括：

翻译单元，用于对原始语料进行翻译获取翻译样本；

分类单元，用于利用所述分类器对待分类事件进行分类。

7.根据权利要求6所述的装置，其特征在于，所述翻译单元具体用于：

使用机器翻译系统对原始语料进行翻译获取翻译样本。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述构建单元具体用于：将所述双语样本作为训练样本，构建最大熵分类器。

10.根据权利要求9所述的装置，其特征在于，所述分类单元具体用于：利用所述最大熵分类器对所述待分类事件进行分类。