CN106095928B

CN106095928B - 一种事件类型识别方法及装置

Info

Publication number: CN106095928B
Application number: CN201610409465.1A
Authority: CN
Inventors: 佟玲玲; 杜翠兰; 钮艳; 刘洋; 段东圣; 鲁睿; 程光; 项菲; 柳毅
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-12
Filing date: 2016-06-12
Publication date: 2019-10-29
Anticipated expiration: 2036-06-12
Also published as: CN106095928A

Abstract

本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤：对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型，提取文本的特征，将文本表示为特征向量；对于训练集进行事件类型聚类，训练带有类型聚类正则化项的神经网络模型；对于测试样本同样进行分析、提取词性处理，并利用已经训练好的词向量模型，得到特征表示；利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案，能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

Description

一种事件类型识别方法及装置

技术领域

本发明涉及计算机自然语言处理领域，特别涉及一种事件类型识别方法及装置。

背景技术

随着大数据时代的来临，特别是微博、微信、购物等移动应用的推广，文本数量呈爆炸式增长，如何从文本中挖掘出有价值的信息成为当前的一项重要研究课题。信息抽取是从大量无结构文本中识别和抽取人们感兴趣的信息，为进一步的话题检测与跟踪、信息检索、知识问答等应用打下基础。例如，从网站浏览记录中提取用户关心的话题，从新闻报道中提取爆炸、恐怖袭击等重大事件。美国著名机构TDT(Topic Detection and Tracking)针对新闻媒体等网络文本设立了专门的研究课题，目的是能够对新闻媒体中的热点话题进行持续地追踪和检索。TDT的主要任务包括：(a)文本数据信息过滤和提取；(b)热点事件发生时间抽取；(c)热点事件与话题挖掘。其中事件类型识别是TDT的关键技术。目前主流的事件类型识别方法采用了有监督学习方法。有监督学习方法利用标注好的实例集合来训练分类器。但是，现在可获取的已标注数据都是高度不平衡的。原因在于常见事件和不常见事件的出现情况有很大不同。举例来说，ACE2005将事件分为了8个大类，33个小类。

表一

表一显示了ACE2005语料中的已标注事件中最常见及最不常见事件的统计信息。最常出现的事件的出现次数比最不常见的事件的出现次数高了大约55(3187/57)倍。对于普通事件来说，比如攻击和运输，它们在现实生活中经常发生，语料中也有数以百计的此类标注实例。然而，对于那些不常见的事件，语料中仅仅只有几条标注的实例。像引渡、假释和宣告无罪这些类别的事件，在语料库中只有不到10条标注实例。显然，在这样一个小规模的训练数据集上很难得到一个令人满意的结果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种事件类型识别方法及装置。

本发明的提供一种事件类型识别方法，包括以下步骤：

对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将训练样本集表示为特征向量[r₁,r₂,...,r_n]；

在特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型；

对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将测试样本表示为特征向量；

将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率。

本发明还提供了一种事件类型识别装置，包括训练样本集特征提取模块、事件类型聚类及训练模块、测试样本集特征提取模块、以及测试模块；

所述训练样本集特征提取模块，用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将训练样本集表示为特征向量[r₁，r₂，...，r_n]；

所述事件类型聚类及训练模块，用于在特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型；

所述测试样本集特征提取模块，用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将所述测试样本表示为特征向量；

所述测试模块，用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率。

本发明有益效果如下：

本发明实施例运用聚类算法将所有事件类型自动聚为几个群组，并且提出类型-群组正则项来促进同一个群组中的类型在训练过程中共享信息，这样稀疏的类型的事件就可以从同一个群组中的密集类型中获取部分信息。进一步的，本发明实施例的神经网络模型使用词向量作为输入并且具有自动学习特征，充分利用了神经网络的优势，能够解决事件检测任务中数据不平衡带来的问题。

附图说明

图1是本发明方法实施例的事件类型识别方法的流程图；

图2是本发明方法实施例实例1的事件类型识别方法的示意图；

图3是本发明装置实施例的事件类型识别装置的结构示意图。

具体实施方式

为了解决现有技术事件检测任务中数据不平衡带来的问题，本发明提供了一种事件类型识别方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

根据本发明的方法实施例，提供了一种事件类型识别方法，图1是本发明方法实施例的事件类型识别方法的流程图，如图1所示，根据本发明方法实施例的事件类型识别方法，包括如下处理：

步骤101，对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将训练样本集表示为特征向量[r₁,r₂,...,r_n]。

在步骤101中，所述预定词性的词语为名称和动词。

进一步的，所述对训练样本集和测试样本集除进行分词以及标注词性处理，还包括去除停用词等。

具体的，对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤：

对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w₁,w₂,...,w_T}，对所述词序列{w₁,w₂,...,w_T}构建模型的目标函数，所述模型的目标函数如公式1所示；

在公式1中，T代表词序列中词的个数；c是词向量模型训练过程中限定的上下文范围；p(w_t+j|w_t)用公式2表示；

在公式2中，和分别表示w_t的输入向量和输出向量；W代表词典集合的大小；

根据所述模型的目标函数，对训练样本集进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量。

具体的，将训练样本集中的名词和动词作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将所述训练样本集表示为特征向量[r₁,r₂,...,r_n]包括以下步骤：

根据训练样本集中词语的词性，将训练样本集中的名词和动词作为事件触发词；

根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将所述训练样本集表示为特征向量[r₁,r₂,...,r_n]；

在公式[r₁,r₂,...,r_n]中，ri表示r₁～r_n中任意一个触发词加上触发词上下文的特征表示，n为触发词的总个数；表示r_i属于d_l的实数空间；d_l=d_w×n_l，d_l表示r_i词向量的维度，d_w表示r_i所对应的触发词的词向量的维度，n_l表示r_i所对应的触发词的上下文词语的数量。

步骤102，在特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型。

具体的，在所述特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理包括以下步骤：

在所述特征向量r_i的基础上加入事件类型得到特征向量v，进而得到所述训练样本集的特征向量V，其中，即v属于d_in的实数空间，d_in=d_i+m,，d_l表示r_i词向量的维度，m表示触发词对应的事件类型的个数；

根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V，利用K-means聚类算法对训练样本集进行事件类型聚类，得到多个聚类簇；

统计每一个聚类簇中事件类型的个数和触发词的个数，如果某个事件在聚类簇中的触发词个数比在所述标注样本集中触发词个数的一半还少，那么将该事件类型从聚类簇中移除；如果聚类簇只包含一个事件类型，那么将该聚类簇删除。

具体的，根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型包括以下步骤：

对训练集合(x⁽ⁱ⁾；y⁽ⁱ⁾)，定义负对数似然损失函数J(θ)，

在公式3，J(θ)表示负对数似然损失函数，y⁽ⁱ⁾表示一个事件类别的标签；X⁽ⁱ⁾代表训练样本，θ代表参数；

定义正则化项R(θ)，

在公式4中，c是C中的一个聚类簇；C代表训练样本集中所有的聚类簇；n^(o，k)代表第c聚类簇中第k个事件类型的触发词个数，W₀代表输出层的权重矩阵，代表第c类簇中第k个事件类型的权重；代表c中所有权重向量的平均值；其中，代表第c聚类簇中第j个事件类型的权重；

将J(θ)和R(θ)代入公式5，采用随机梯度下降法(SGD)将损失函数最小化获得θ的值；

损失函数J′(θ)，J′(θ)＝J(θ)+αR(θ) 公式5；

在公式5中，J′(θ)代表损失函数，u是权衡J(θ)和R(θ)的超参数。

步骤103，对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将所述测试样本表示为特征向量。在本发明中，所述测试样本指的是测试样本集中的文本。

本发明步骤103的具体操作与步骤101相同或相似。

步骤104，将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率。

具体的，将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中并进行softmax操作得到测试样本属于某一事件的概率包括以下步骤：

将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中，对于某一个事件s，得到以θ为参数的人工神经网络输出向量o；

利用公式6对所有事件类型进行softmax操作，得到测试样本属于某一事件的概率；

在公式6中，p(i|x，θ)表示给定文本x属于第i类事件的概率；o_i代表第i个类别的值，o_k代表第k个类别的值；k代表一个事件，m代表事件的种类，θ代表参数。

为了使本发明方式实施例更加清楚明白，以下结合具体实例1，对本发明进一步详细说明。

本发明方法实施例实例1的执行环境采用一台具有2.4G赫兹中央处理器和8G字节内存的奔腾4计算机并用JAVA语言编制了事件类型识别程序，还可以采用其他的执行环境，在此不再赘述。

图2是本发明方法实施例实例1的事件类型识别方法的示意图，如图2所示，所述方法包括以下步骤：

步骤1：对训练样本集中每一个文本进行分词等文本预处理工作；

其中，步骤1中所述分词指的是利用NLPIR的分词工具将一个文本切割为一个个独立的词语，那么一个文本就可以表示为[词1,词2…词n]，其中n为该文本的词语数目。

步骤1中所述预处理工作包括去除文本的停用词、标注词语的词性，以达到去除一定的干扰的目的。

所述词性指的是词语属于名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词、区别词、语气词、或状态词中的一种。

步骤2：对分词后的文本进行词向量模型训练。

本发明方法实施例实例1使用Skip-gram模型进行词向量模型训练。在传统n元语言模型的上下文中，通常是给出第i个词之前的n个词的序列{w_i-n,...,w_i-1}，要求预测第i个词w_i的概率分布，该过程是一个连续序列的预测过程。而对于Skip-gram语言模型，给定一个词w_t，它的输出是预测第w_t+j的概率。其中，j可能是大于1或小于-1的整数，因而词w_t与词w_t+j在词序列中的位置并不一定连续，此所谓“跳跃”。形式化的，给定词序列{w₁,w₂,...,w_T}，模型的目标函数为最大化如下指数概率：

在公式1中，T代表代表词序列中词的个数，c是训练模型过程中限定的上下文范围。c值越大，模型利用的上下文范围越广，则训练所得的模型可能越准确。对于p(w_t+j|w_t)用公式2表示，

在公式2中，和分别表示w_t的输入向量和输出向量；W代表词典集合的大小。

步骤3：提取文本的特征，将文本表示为特征向量；

所述步骤3进一步包括以下步骤：

步骤31：提取文本中的名词和动词作为事件触发词；

步骤32：根据步骤2得到每一个触发词的词向量其中w代表词向量，d_w表示词向量的维度，表示d_w的实数空间，表示w属于这个实数空间。为了更有效地描述文本，我们引入每一个触发词的上下文作为特征表示，那么一个文本可以表示为：[r₁，r₂，...，r_n]，其中d_i＝d_w×r_n，n为触发词的总个数，n_l为上下文词语的数量。

步骤4：对于训练集进行事件类型聚类。

所述步骤4进一步包括以下步骤：

步骤41：为每一个触发词构造一个特征向量v，其中d_in＝d_l+m。m为事件类型的个数。具体来讲，特征向量的内容由触发词的词向量，其上下文的词向量以及触发词对应的事件类型的词向量拼接而成。后m维的向量，用来区分不同的事件类型，使得同一类型的事件聚到一个类中。不同类别的向量之间正交，这样使得不同类型的向量差异最大，相同类型的向量差异最小。

步骤42：利用K-means聚类算法对训练集中的触发词进行训练。假设训练样本集有N个触发词以及他们的描述向量V＝{v₁，v₂，...，v_N}，给定群组数量k，那么K-mean算法的目标是将V分成k个群组S＝{S₁，S₂，...，S_k}；

步骤43：对每一个聚类簇，统计其中的事件类型的个数以及触发词个数。

步骤44：如果某个事件在聚类簇c中的触发词个数比它在整个语料中触发词个数的一半还少，那么将该事件类型从聚类簇c中移除。

步骤45：如果聚类簇c只包含一个事件类型，那么将该聚类簇删除。

步骤5：训练带有类型聚类正则化项的神经网络模型；

基于人工神经网络，把模型训练成如下形式＝(WE，W_h，W_o)³。

其中WE是指词向量，W_h和W_o分别为人工神经网络的隐藏层和输出层。对于一个给定的事件s，以θ为参数的人工神经网络输出向量o，其中的第i个值o_i是第i个类别的置信度。为了获得条件概率p(i|x，θ)，对所有事件类型进行softmax操作：

在公式6中，o_i代表第i个类别的值，o_k代表第k个类别的值；k代表一个事件，m代表事件的种类，θ代表参数；

为了共享不同事件类型的相关信息，将一个正则化项添加到损失函数中，定义正则化项R(θ)，

在公式4中，c是C中的一个聚类簇；C代表训练样本集中所有的聚类簇；n^(o，k)代表第c聚类簇中第k个事件类型的触发词个数，W_o代表输出层的权重矩阵，代表第c类簇中第k个事件类型的权重；代表c中所有权重向量的平均值；其中，代表第c聚类簇中第j个事件类型的权重；

其中C是所有类型聚类簇，c是C中的一个聚类。n^(o，k)是c中第k个类型的触发词个数，是c中所有类型的权重向量的平均值。W_o是输出层的权重矩阵。这个假设背后的直觉是，相似的事件类型应该有相似的权重向量。上述方程中的二次项使得同一个群组中的权重向量相似。而它的系数使得实例越多的类型越不会受到这一项的惩罚。也就是说，有足够多的已标注实例的类型将基本保持它们的权重向量不变。相反，那些实例很少的类型就需要从群组中学习。这样，稀疏类型就可以从密集类型中获益，让我们的模型能够减轻因为标注数据不平衡给事件类别识别带来的影响。

最终的损失函数J′(θ)表述如下：

J′(θ)＝J(θ)+αR(θ) 公式5；

其中，α是权衡J和R的超参数。采用随机梯度下降法(SGD)将上述损失函数最小化来获得θ的值。

步骤6：对于待分类的文本，同样进行分词预处理，并得到文本的特征向量表示，最后利用步骤5得到的分类器模型进行分类。

本发明方法实施例公开的面向非均衡样本的事件类型识别方法，与现有技术相比，具有如下优点：

1、提出了一个全新的事件类型识别框架。通过使同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

2、分类模型将词向量作为特征输入，能够利用神经网络的优势自动学习特征。

装置实施例

根据本发明的装置实施例，提供了一种事件类型识别方法装置，图3是本发明装置实施例的事件类型识别装置的结构示意图，如图3所示，根据本发明装置实施例的事件类型识别装置包括：训练样本集特征提取模块10、事件类型聚类及训练模块12、测试样本集特征提取模块14、以及测试模块16；以下对本发明实施例的各个模块进行详细的说明。

具体地，所述训练样本集特征提取模块10，用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将训练样本集表示为特征向量[r₁，r₂，...，r_n]。

更加具体的，所述训练样本集特征提取模块10包括训练样本集分词子模块、训练样本集特征表示子模块；

所述训练样本集分词子模块具体用于：

根据所述模型的目标函数，对训练样本集进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；

所述训练样本集特征表示子模块具体用于：

根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将所述训练样本集表示为特征向量[r₁，r₂，...，r_n]；

在公式[r₁，r₂，...，r_n]中，r_i表示r₁～r_n中任意一个触发词加上触发词上下文的特征表示，n为触发词的总个数；表示r_i属于d_l的实数空间；d_l＝d_w×n_l，d_l表示r_i词向量的维度，d_w表示r_i所对应的触发词的词向量的维度，n_l表示r_i所对应的触发词的上下文词语的数量。

所述事件类型聚类及训练模块12，用于在特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集中的触发词进行事件类型聚类，得到多个聚类簇并进行处理；根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型。

更加具体的，所述事件类型聚类及训练模块12包括事件类型聚类子模块、及神经网络模型训练子模块；

所述事件类型聚类子模块具体用于：

在所述特征向量r_i的基础上加入事件类型得到特征向量v，进而得到所述训练样本集的特征向量V，其中，即v属于d_in的实数空间，d_in＝d_l+m，d_l表示r_i词向量的维度，m表示触发词对应的事件类型的个数；

统计每一个聚类簇中事件类型的个数和触发词的个数，如果某个事件在聚类簇中的触发词个数比在所述标注样本集中触发词个数的一半还少，将该事件类型从聚类簇中移除；如果聚类簇只包含一个事件类型，将该聚类簇删除；

所述神经网络模型训练子模块具体用于，

定义正则化项R(θ)，

损失函数J′(θ)，J′(θ)＝J(θ)+αR(θ) 公式5；

所述测试样本集特征提取模块14，用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将所述测试样本表示为特征向量。

所述测试模块16，用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率。

更加具体的，所述测试模块16具体用于：

将将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中，对于某一个事件s，得到以θ为参数的人工神经网络输出向量o；

本发明实施例提出了一种采用神经网络模型来解决事件检测任务中数据不平衡(非均衡样本)问题的方法和装置，在训练过程中促进不同的事件类型共享有效信息。具体来说，首先，运用聚类算法将所有事件类型自动聚为几个群组，并且提出一个类型‐群组正则项来促进同一个群组中的类型在训练过程中共享信息。这样，稀疏的类型的事件就可以从同一个群组中的密集类型中获取部分信息。进一步，我们的模型使用词向量作为输入并且自动学习特征，充分利用了神经网络的优势。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种事件类型识别方法，其特征在于，包括以下步骤：

对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量；将训练样本集中的预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将训练样本集表示为特征向量[r₁，r₂，...，r_n]；

对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量；将测试样本集中预定词性的词语作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量，进而将测试样本表示为特征向量，所述测试样本为测试样本集中的文本；

将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率；

根据所述聚类簇，训练所述训练样本集，得到带有类型聚类正则化项的神经网络模型包括以下步骤：

定义正则化项R(θ)，

在公式4中，c是C中的一个聚类簇；C代表训练样本集中所有的聚类簇；n^(c，k)代表第c聚类簇中第k个事件类型的触发词个数，W_o代表输出层的权重矩阵，代表第c类簇中第k个事件类型的权重；代表c中所有权重向量的平均值；其中，代表第c聚类簇中第j个事件类型的权重；

将J(θ)和R(θ)代入公式5，采用随机梯度下降法将损失函数最小化获得θ的值；

损失函数J′(θ)，J′(θ)＝J(θ)+αR(θ) 公式5；

在公式5中，J′(θ)代表损失函数，α是权衡J(θ)和R(θ)的超参数。

2.如权利要求1所述的事件类型识别方法，其特征在于，对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练，根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤：

对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w₁，w₂，...，w_T}，对所述词序列{w₁，w₂，...，w_T}构建模型的目标函数，所述模型的目标函数如公式1所示；

在公式2中，和分别表示w_t的输入向量和输出向量；W表示词典集合的大小；

3.如权利要求1所述的事件类型识别方法，其特征在于，将训练样本集中的名词和动词作为事件触发词，根据事件触发词的词向量，将触发词及触发词的上下文表示为特征向量r_i，进而将所述训练样本集表示为特征向量[r₁，r₂，...，r_n]包括以下步骤：

4.如权利要求1所述的事件类型识别方法，其特征在于，在所述特征向量r_i的基础上加入事件类型向量得到特征向量v，对训练样本集进行事件类型聚类，得到多个聚类簇并进行处理包括以下步骤：

统计每一个聚类簇中事件类型的个数和触发词的个数，如果某个事件在聚类簇中的触发词个数比在所述训练样本集中触发词个数的一半还少，那么将该事件类型从聚类簇中移除；如果聚类簇只包含一个事件类型，那么将该聚类簇删除。

5.如权利要求1所述的事件类型识别方法，其特征在于，将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中并进行softmax操作得到测试样本属于某一事件的概率包括以下步骤：

6.一种事件类型识别装置，其特征在于，包括训练样本集特征提取模块、事件类型聚类及训练模块、测试样本集特征提取模块、以及测试模块；

所述测试模块，用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型，然后进行softmax操作得到测试样本属于某一事件的概率；

所述神经网络模型训练子模块具体用于，

定义正则化项R(θ)，

损失函数J′(θ)，J′(θ)＝J(θ)+αR(θ) 公式5；

7.如权利要求6所述的事件类型识别装置，其特征在于，所述训练样本集特征提取模块包括训练样本集分词子模块、训练样本集特征表示子模块；

所述训练样本集分词子模块具体用于：

所述训练样本集特征表示子模块具体用于：

8.如权利要求6所述的事件类型识别装置，其特征在于，所述事件类型聚类及训练模块包括事件类型聚类子模块、及神经网络模型训练子模块；

所述事件类型聚类子模块具体用于：

统计每一个聚类簇中事件类型的个数和触发词的个数，如果某个事件在聚类簇中的触发词个数比在所述训练样本集中触发词个数的一半还少，将该事件类型从聚类簇中移除；如果聚类簇只包含一个事件类型，将该聚类簇删除。

9.如权利要求6所述的事件类型识别装置，其特征在于，所述测试模块具体用于：