CN106095928B - 一种事件类型识别方法及装置 - Google Patents
一种事件类型识别方法及装置 Download PDFInfo
- Publication number
- CN106095928B CN106095928B CN201610409465.1A CN201610409465A CN106095928B CN 106095928 B CN106095928 B CN 106095928B CN 201610409465 A CN201610409465 A CN 201610409465A CN 106095928 B CN106095928 B CN 106095928B
- Authority
- CN
- China
- Prior art keywords
- event
- word
- training sample
- vector
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Abstract
本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。
Description
技术领域
本发明涉及计算机自然语言处理领域,特别涉及一种事件类型识别方法及装置。
背景技术
随着大数据时代的来临,特别是微博、微信、购物等移动应用的推广,文本数量呈爆炸式增长,如何从文本中挖掘出有价值的信息成为当前的一项重要研究课题。信息抽取是从大量无结构文本中识别和抽取人们感兴趣的信息,为进一步的话题检测与跟踪、信息检索、知识问答等应用打下基础。例如,从网站浏览记录中提取用户关心的话题,从新闻报道中提取爆炸、恐怖袭击等重大事件。美国著名机构TDT(Topic Detection and Tracking)针对新闻媒体等网络文本设立了专门的研究课题,目的是能够对新闻媒体中的热点话题进行持续地追踪和检索。TDT的主要任务包括:(a)文本数据信息过滤和提取;(b)热点事件发生时间抽取;(c)热点事件与话题挖掘。其中事件类型识别是TDT的关键技术。目前主流的事件类型识别方法采用了有监督学习方法。有监督学习方法利用标注好的实例集合来训练分类器。但是,现在可获取的已标注数据都是高度不平衡的。原因在于常见事件和不常见事件的出现情况有很大不同。举例来说,ACE2005将事件分为了8个大类,33个小类。
表一
表一显示了ACE2005语料中的已标注事件中最常见及最不常见事件的统计信息。最常出现的事件的出现次数比最不常见的事件的出现次数高了大约55(3187/57)倍。对于普通事件来说,比如攻击和运输,它们在现实生活中经常发生,语料中也有数以百计的此类标注实例。然而,对于那些不常见的事件,语料中仅仅只有几条标注的实例。像引渡、假释和宣告无罪这些类别的事件,在语料库中只有不到10条标注实例。显然,在这样一个小规模的训练数据集上很难得到一个令人满意的结果。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种事件类型识别方法及装置。
本发明的提供一种事件类型识别方法,包括以下步骤:
对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];
在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;
对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特征向量;
将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
本发明还提供了一种事件类型识别装置,包括训练样本集特征提取模块、事件类型聚类及训练模块、测试样本集特征提取模块、以及测试模块;
所述训练样本集特征提取模块,用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];
所述事件类型聚类及训练模块,用于在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;
所述测试样本集特征提取模块,用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试样本表示为特征向量;
所述测试模块,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
本发明有益效果如下:
本发明实施例运用聚类算法将所有事件类型自动聚为几个群组,并且提出类型-群组正则项来促进同一个群组中的类型在训练过程中共享信息,这样稀疏的类型的事件就可以从同一个群组中的密集类型中获取部分信息。进一步的,本发明实施例的神经网络模型使用词向量作为输入并且具有自动学习特征,充分利用了神经网络的优势,能够解决事件检测任务中数据不平衡带来的问题。
附图说明
图1是本发明方法实施例的事件类型识别方法的流程图;
图2是本发明方法实施例实例1的事件类型识别方法的示意图;
图3是本发明装置实施例的事件类型识别装置的结构示意图。
具体实施方式
为了解决现有技术事件检测任务中数据不平衡带来的问题,本发明提供了一种事件类型识别方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的方法实施例,提供了一种事件类型识别方法,图1是本发明方法实施例的事件类型识别方法的流程图,如图1所示,根据本发明方法实施例的事件类型识别方法,包括如下处理:
步骤101,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn]。
在步骤101中,所述预定词性的词语为名称和动词。
进一步的,所述对训练样本集和测试样本集除进行分词以及标注词性处理,还包括去除停用词等。
具体的,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤:
对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w1,w2,...,wT},对所述词序列{w1,w2,...,wT}构建模型的目标函数,所述模型的目标函数如公式1所示;
在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范围;p(wt+j|wt)用公式2表示;
在公式2中,和分别表示wt的输入向量和输出向量;W代表词典集合的大小;
根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量。
具体的,将训练样本集中的名词和动词作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn]包括以下步骤:
根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;
根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn];
在公式[r1,r2,...,rn]中,ri表示r1~rn中任意一个触发词加上触发词上下文的特征表示,n为触发词的总个数;表示ri属于dl的实数空间;dl=dw×nl,dl表示ri词向量的维度,dw表示ri所对应的触发词的词向量的维度,nl表示ri所对应的触发词的上下文词语的数量。
步骤102,在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型。
具体的,在所述特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理包括以下步骤:
在所述特征向量ri的基础上加入事件类型得到特征向量v,进而得到所述训练样本集的特征向量V,其中,即v属于din的实数空间,din=di+m,,dl表示ri词向量的维度,m表示触发词对应的事件类型的个数;
根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;
统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触发词个数比在所述标注样本集中触发词个数的一半还少,那么将该事件类型从聚类簇中移除;如果聚类簇只包含一个事件类型,那么将该聚类簇删除。
具体的,根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型包括以下步骤:
对训练集合(x(i);y(i)),定义负对数似然损失函数J(θ),
在公式3,J(θ)表示负对数似然损失函数,y(i)表示一个事件类别的标签;X(i)代表训练样本,θ代表参数;
定义正则化项R(θ),
在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(o,k)代表第c聚类簇中第k个事件类型的触发词个数,W0代表输出层的权重矩阵,代表第c类簇中第k个事件类型的权重;代表c中所有权重向量的平均值;其中,代表第c聚类簇中第j个事件类型的权重;
将J(θ)和R(θ)代入公式5,采用随机梯度下降法(SGD)将损失函数最小化获得θ的值;
损失函数J′(θ),J′(θ)=J(θ)+αR(θ) 公式5;
在公式5中,J′(θ)代表损失函数,u是权衡J(θ)和R(θ)的超参数。
步骤103,对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试样本表示为特征向量。在本发明中,所述测试样本指的是测试样本集中的文本。
本发明步骤103的具体操作与步骤101相同或相似。
步骤104,将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
具体的,将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中并进行softmax操作得到测试样本属于某一事件的概率包括以下步骤:
将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中,对于某一个事件s,得到以θ为参数的人工神经网络输出向量o;
利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;
在公式6中,p(i|x,θ)表示给定文本x属于第i类事件的概率;oi代表第i个类别的值,ok代表第k个类别的值;k代表一个事件,m代表事件的种类,θ代表参数。
为了使本发明方式实施例更加清楚明白,以下结合具体实例1,对本发明进一步详细说明。
本发明方法实施例实例1的执行环境采用一台具有2.4G赫兹中央处理器和8G字节内存的奔腾4计算机并用JAVA语言编制了事件类型识别程序,还可以采用其他的执行环境,在此不再赘述。
图2是本发明方法实施例实例1的事件类型识别方法的示意图,如图2所示,所述方法包括以下步骤:
步骤1:对训练样本集中每一个文本进行分词等文本预处理工作;
其中,步骤1中所述分词指的是利用NLPIR的分词工具将一个文本切割为一个个独立的词语,那么一个文本就可以表示为[词1,词2…词n],其中n为该文本的词语数目。
步骤1中所述预处理工作包括去除文本的停用词、标注词语的词性,以达到去除一定的干扰的目的。
所述词性指的是词语属于名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词、区别词、语气词、或状态词中的一种。
步骤2:对分词后的文本进行词向量模型训练。
本发明方法实施例实例1使用Skip-gram模型进行词向量模型训练。在传统n元语言模型的上下文中,通常是给出第i个词之前的n个词的序列{wi-n,...,wi-1},要求预测第i个词wi的概率分布,该过程是一个连续序列的预测过程。而对于Skip-gram语言模型,给定一个词wt,它的输出是预测第wt+j的概率。其中,j可能是大于1或小于-1的整数,因而词wt与词wt+j在词序列中的位置并不一定连续,此所谓“跳跃”。形式化的,给定词序列{w1,w2,...,wT},模型的目标函数为最大化如下指数概率:
在公式1中,T代表代表词序列中词的个数,c是训练模型过程中限定的上下文范围。c值越大,模型利用的上下文范围越广,则训练所得的模型可能越准确。对于p(wt+j|wt)用公式2表示,
在公式2中,和分别表示wt的输入向量和输出向量;W代表词典集合的大小。
步骤3:提取文本的特征,将文本表示为特征向量;
所述步骤3进一步包括以下步骤:
步骤31:提取文本中的名词和动词作为事件触发词;
步骤32:根据步骤2得到每一个触发词的词向量其中w代表词向量,dw表示词向量的维度,表示dw的实数空间,表示w属于这个实数空间。为了更有效地描述文本,我们引入每一个触发词的上下文作为特征表示,那么一个文本可以表示为:[r1,r2,...,rn],其中di=dw×rn,n为触发词的总个数,nl为上下文词语的数量。
步骤4:对于训练集进行事件类型聚类。
所述步骤4进一步包括以下步骤:
步骤41:为每一个触发词构造一个特征向量v,其中din=dl+m。m为事件类型的个数。具体来讲,特征向量的内容由触发词的词向量,其上下文的词向量以及触发词对应的事件类型的词向量拼接而成。后m维的向量,用来区分不同的事件类型,使得同一类型的事件聚到一个类中。不同类别的向量之间正交,这样使得不同类型的向量差异最大,相同类型的向量差异最小。
步骤42:利用K-means聚类算法对训练集中的触发词进行训练。假设训练样本集有N个触发词以及他们的描述向量V={v1,v2,...,vN},给定群组数量k,那么K-mean算法的目标是将V分成k个群组S={S1,S2,...,Sk};
步骤43:对每一个聚类簇,统计其中的事件类型的个数以及触发词个数。
步骤44:如果某个事件在聚类簇c中的触发词个数比它在整个语料中触发词个数的一半还少,那么将该事件类型从聚类簇c中移除。
步骤45:如果聚类簇c只包含一个事件类型,那么将该聚类簇删除。
步骤5:训练带有类型聚类正则化项的神经网络模型;
基于人工神经网络,把模型训练成如下形式=(WE,Wh,Wo)3。
其中WE是指词向量,Wh和Wo分别为人工神经网络的隐藏层和输出层。对于一个给定的事件s,以θ为参数的人工神经网络输出向量o,其中的第i个值oi是第i个类别的置信度。为了获得条件概率p(i|x,θ),对所有事件类型进行softmax操作:
在公式6中,oi代表第i个类别的值,ok代表第k个类别的值;k代表一个事件,m代表事件的种类,θ代表参数;
对训练集合(X(i);y(i)),定义负对数似然损失函数J(θ),
在公式3,J(θ)表示负对数似然损失函数,y(i)表示一个事件类别的标签;X(i)代表训练样本,θ代表参数;
为了共享不同事件类型的相关信息,将一个正则化项添加到损失函数中,定义正则化项R(θ),
在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(o,k)代表第c聚类簇中第k个事件类型的触发词个数,Wo代表输出层的权重矩阵,代表第c类簇中第k个事件类型的权重;代表c中所有权重向量的平均值;其中,代表第c聚类簇中第j个事件类型的权重;
其中C是所有类型聚类簇,c是C中的一个聚类。n(o,k)是c中第k个类型的触发词个数,是c中所有类型的权重向量的平均值。Wo是输出层的权重矩阵。这个假设背后的直觉是,相似的事件类型应该有相似的权重向量。上述方程中的二次项使得同一个群组中的权重向量相似。而它的系数使得实例越多的类型越不会受到这一项的惩罚。也就是说,有足够多的已标注实例的类型将基本保持它们的权重向量不变。相反,那些实例很少的类型就需要从群组中学习。这样,稀疏类型就可以从密集类型中获益,让我们的模型能够减轻因为标注数据不平衡给事件类别识别带来的影响。
最终的损失函数J′(θ)表述如下:
J′(θ)=J(θ)+αR(θ) 公式5;
其中,α是权衡J和R的超参数。采用随机梯度下降法(SGD)将上述损失函数最小化来获得θ的值。
步骤6:对于待分类的文本,同样进行分词预处理,并得到文本的特征向量表示,最后利用步骤5得到的分类器模型进行分类。
本发明方法实施例公开的面向非均衡样本的事件类型识别方法,与现有技术相比,具有如下优点:
1、提出了一个全新的事件类型识别框架。通过使同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。
2、分类模型将词向量作为特征输入,能够利用神经网络的优势自动学习特征。
装置实施例
根据本发明的装置实施例,提供了一种事件类型识别方法装置,图3是本发明装置实施例的事件类型识别装置的结构示意图,如图3所示,根据本发明装置实施例的事件类型识别装置包括:训练样本集特征提取模块10、事件类型聚类及训练模块12、测试样本集特征提取模块14、以及测试模块16;以下对本发明实施例的各个模块进行详细的说明。
具体地,所述训练样本集特征提取模块10,用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn]。
更加具体的,所述训练样本集特征提取模块10包括训练样本集分词子模块、训练样本集特征表示子模块;
所述训练样本集分词子模块具体用于:
对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w1,w2,...,wT},对所述词序列{w1,w2,...,wT}构建模型的目标函数,所述模型的目标函数如公式1所示;
在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范围;p(wt+j|wt)用公式2表示;
在公式2中,和分别表示wt的输入向量和输出向量;W代表词典集合的大小;
根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;
所述训练样本集特征表示子模块具体用于:
根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;
根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn];
在公式[r1,r2,...,rn]中,ri表示r1~rn中任意一个触发词加上触发词上下文的特征表示,n为触发词的总个数;表示ri属于dl的实数空间;dl=dw×nl,dl表示ri词向量的维度,dw表示ri所对应的触发词的词向量的维度,nl表示ri所对应的触发词的上下文词语的数量。
所述事件类型聚类及训练模块12,用于在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集中的触发词进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型。
更加具体的,所述事件类型聚类及训练模块12包括事件类型聚类子模块、及神经网络模型训练子模块;
所述事件类型聚类子模块具体用于:
在所述特征向量ri的基础上加入事件类型得到特征向量v,进而得到所述训练样本集的特征向量V,其中,即v属于din的实数空间,din=dl+m,dl表示ri词向量的维度,m表示触发词对应的事件类型的个数;
根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;
统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触发词个数比在所述标注样本集中触发词个数的一半还少,将该事件类型从聚类簇中移除;如果聚类簇只包含一个事件类型,将该聚类簇删除;
所述神经网络模型训练子模块具体用于,
对训练集合(x(i);y(i)),定义负对数似然损失函数J(θ),
在公式3,J(θ)表示负对数似然损失函数,y(i)表示一个事件类别的标签;x(i)代表训练样本,θ代表参数;
定义正则化项R(θ),
在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(o,k)代表第c聚类簇中第k个事件类型的触发词个数,Wo代表输出层的权重矩阵,代表第c类簇中第k个事件类型的权重;代表c中所有权重向量的平均值;其中,代表第c聚类簇中第j个事件类型的权重;
将J(θ)和R(θ)代入公式5,采用随机梯度下降法(SGD)将损失函数最小化获得θ的值;
损失函数J′(θ),J′(θ)=J(θ)+αR(θ) 公式5;
在公式5中,J′(θ)代表损失函数,u是权衡J(θ)和R(θ)的超参数。
所述测试样本集特征提取模块14,用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试样本表示为特征向量。
所述测试模块16,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率。
更加具体的,所述测试模块16具体用于:
将将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中,对于某一个事件s,得到以θ为参数的人工神经网络输出向量o;
利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;
在公式6中,p(i|x,θ)表示给定文本x属于第i类事件的概率;oi代表第i个类别的值,ok代表第k个类别的值;k代表一个事件,m代表事件的种类,θ代表参数。
本发明实施例提出了一种采用神经网络模型来解决事件检测任务中数据不平衡(非均衡样本)问题的方法和装置,在训练过程中促进不同的事件类型共享有效信息。具体来说,首先,运用聚类算法将所有事件类型自动聚为几个群组,并且提出一个类型‐群组正则项来促进同一个群组中的类型在训练过程中共享信息。这样,稀疏的类型的事件就可以从同一个群组中的密集类型中获取部分信息。进一步,我们的模型使用词向量作为输入并且自动学习特征,充分利用了神经网络的优势。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种事件类型识别方法,其特征在于,包括以下步骤:
对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];
在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;
对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将测试样本表示为特征向量,所述测试样本为测试样本集中的文本;
将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率;
根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型包括以下步骤:
对训练集合(x(i);y(i)),定义负对数似然损失函数J(θ),
在公式3,J(θ)表示负对数似然损失函数,y(i)表示一个事件类别的标签;x(i)代表训练样本,θ代表参数;
定义正则化项R(θ),
在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(c,k)代表第c聚类簇中第k个事件类型的触发词个数,Wo代表输出层的权重矩阵,代表第c类簇中第k个事件类型的权重;代表c中所有权重向量的平均值;其中,代表第c聚类簇中第j个事件类型的权重;
将J(θ)和R(θ)代入公式5,采用随机梯度下降法将损失函数最小化获得θ的值;
损失函数J′(θ),J′(θ)=J(θ)+αR(θ) 公式5;
在公式5中,J′(θ)代表损失函数,α是权衡J(θ)和R(θ)的超参数。
2.如权利要求1所述的事件类型识别方法,其特征在于,对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量包括以下步骤:
对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w1,w2,...,wT},对所述词序列{w1,w2,...,wT}构建模型的目标函数,所述模型的目标函数如公式1所示;
在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范围;p(wt+j|wt)用公式2表示;
在公式2中,和分别表示wt的输入向量和输出向量;W表示词典集合的大小;
根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量。
3.如权利要求1所述的事件类型识别方法,其特征在于,将训练样本集中的名词和动词作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn]包括以下步骤:
根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;
根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn];
在公式[r1,r2,...,rn]中,ri表示r1~rn中任意一个触发词加上触发词上下文的特征表示,n为触发词的总个数; 表示ri属于dl的实数空间;dl=dw×nl,dl表示ri词向量的维度,dw表示ri所对应的触发词的词向量的维度,nl表示ri所对应的触发词的上下文词语的数量。
4.如权利要求1所述的事件类型识别方法,其特征在于,在所述特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理包括以下步骤:
在所述特征向量ri的基础上加入事件类型得到特征向量v,进而得到所述训练样本集的特征向量V,其中,即v属于din的实数空间,din=dl+m,dl表示ri词向量的维度,m表示触发词对应的事件类型的个数;
根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;
统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触发词个数比在所述训练样本集中触发词个数的一半还少,那么将该事件类型从聚类簇中移除;如果聚类簇只包含一个事件类型,那么将该聚类簇删除。
5.如权利要求1所述的事件类型识别方法,其特征在于,将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中并进行softmax操作得到测试样本属于某一事件的概率包括以下步骤:
将测试样本集的特征向量输入到所述带有类型聚类正则化项的神经网络模型中,对于某一个事件s,得到以θ为参数的人工神经网络输出向量O;
利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;
在公式6中,p(i|x,θ)表示给定文本x属于第i类事件的概率;Oi代表第i个类别的值,Ok代表第k个类别的值;k代表一个事件,m代表事件的种类,θ代表参数。
6.一种事件类型识别装置,其特征在于,包括训练样本集特征提取模块、事件类型聚类及训练模块、测试样本集特征提取模块、以及测试模块;
所述训练样本集特征提取模块,用于对训练样本集中所有文本进行分词、标注词性处理后进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;将训练样本集中的预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将训练样本集表示为特征向量[r1,r2,...,rn];
所述事件类型聚类及训练模块,用于在特征向量ri的基础上加入事件类型向量得到特征向量v,对训练样本集进行事件类型聚类,得到多个聚类簇并进行处理;根据所述聚类簇,训练所述训练样本集,得到带有类型聚类正则化项的神经网络模型;
所述测试样本集特征提取模块,用于对测试样本集中所有文本进行分词、标注词性处理后输入所述词向量模型得到测试样本中每个词语的词向量;将测试样本集中预定词性的词语作为事件触发词,根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量,进而将所述测试样本表示为特征向量;
所述测试模块,用于将测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型,然后进行softmax操作得到测试样本属于某一事件的概率;
所述神经网络模型训练子模块具体用于,
对训练集合(x(i);y(i)),定义负对数似然损失函数J(θ),
在公式3,J(θ)表示负对数似然损失函数,y(i)表示一个事件类别的标签;x(i)代表训练样本,θ代表参数;
定义正则化项R(θ),
在公式4中,c是C中的一个聚类簇;C代表训练样本集中所有的聚类簇;n(c,k)代表第c聚类簇中第k个事件类型的触发词个数,Wo代表输出层的权重矩阵,代表第c类簇中第k个事件类型的权重;代表c中所有权重向量的平均值;其中,代表第c聚类簇中第j个事件类型的权重;
将J(θ)和R(θ)代入公式5,采用随机梯度下降法将损失函数最小化获得θ的值;
损失函数J′(θ),J′(θ)=J(θ)+αR(θ) 公式5;
在公式5中,J′(θ)代表损失函数,α是权衡J(θ)和R(θ)的超参数。
7.如权利要求6所述的事件类型识别装置,其特征在于,所述训练样本集特征提取模块包括训练样本集分词子模块、训练样本集特征表示子模块;
所述训练样本集分词子模块具体用于:
对训练样本集中所有文本进行分词、标注词性处理后得到词序列{w1,w2,...,wT},对所述词序列{w1,w2,...,wT}构建模型的目标函数,所述模型的目标函数如公式1所示;
在公式1中,T代表词序列中词的个数;c是词向量模型训练过程中限定的上下文范围;p(wt+j|wt)用公式2表示;
在公式2中,和分别表示wt的输入向量和输出向量;W代表词典集合的大小;
根据所述模型的目标函数,对训练样本集进行词向量模型训练,根据词向量模型的输出得到训练样本集中每个词语的词向量;
所述训练样本集特征表示子模块具体用于:
根据训练样本集中词语的词性,将训练样本集中的名词和动词作为事件触发词;
根据事件触发词的词向量,将触发词及触发词的上下文表示为特征向量ri,进而将所述训练样本集表示为特征向量[r1,r2,...,rn];
在公式[r1,r2,...,rn]中,ri表示r1~rn中任意一个触发词加上触发词上下文的特征表示,n为触发词的总个数; 表示ri属于dl的实数空间;dl=dw×nl,dl表示ri词向量的维度,dw表示ri所对应的触发词的词向量的维度,nl表示ri所对应的触发词的上下文词语的数量。
8.如权利要求6所述的事件类型识别装置,其特征在于,所述事件类型聚类及训练模块包括事件类型聚类子模块、及神经网络模型训练子模块;
所述事件类型聚类子模块具体用于:
在所述特征向量ri的基础上加入事件类型得到特征向量v,进而得到所述训练样本集的特征向量V,其中,即v属于din的实数空间,din=dl+m,dl表示ri词向量的维度,m表示触发词对应的事件类型的个数;
根据训练样本集中每一个触发词的特征向量v和训练样本集的特征向量V,利用K-means聚类算法对训练样本集进行事件类型聚类,得到多个聚类簇;
统计每一个聚类簇中事件类型的个数和触发词的个数,如果某个事件在聚类簇中的触发词个数比在所述训练样本集中触发词个数的一半还少,将该事件类型从聚类簇中移除;如果聚类簇只包含一个事件类型,将该聚类簇删除。
9.如权利要求6所述的事件类型识别装置,其特征在于,所述测试模块具体用于:
将将测试样本集中的每一个测试样本的特征向量输入到所述带有类型聚类正则化项的神经网络模型中,对于某一个事件s,得到以θ为参数的人工神经网络输出向量O;
利用公式6对所有事件类型进行softmax操作,得到测试样本属于某一事件的概率;
在公式6中,p(i|x,θ)表示给定文本x属于第i类事件的概率;Oi代表第i个类别的值,Ok代表第k个类别的值;k代表一个事件,m代表事件的种类,θ代表参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610409465.1A CN106095928B (zh) | 2016-06-12 | 2016-06-12 | 一种事件类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610409465.1A CN106095928B (zh) | 2016-06-12 | 2016-06-12 | 一种事件类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095928A CN106095928A (zh) | 2016-11-09 |
CN106095928B true CN106095928B (zh) | 2019-10-29 |
Family
ID=57227927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610409465.1A Active CN106095928B (zh) | 2016-06-12 | 2016-06-12 | 一种事件类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095928B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108241662B (zh) * | 2016-12-23 | 2021-12-28 | 北京国双科技有限公司 | 数据标注的优化方法及装置 |
CN106611054A (zh) * | 2016-12-26 | 2017-05-03 | 电子科技大学 | 海量文本中企业行为或事件的抽取方法 |
CN108345583B (zh) * | 2017-12-28 | 2020-07-28 | 中国科学院自动化研究所 | 基于多语注意力机制的事件识别及分类方法及装置 |
CN108563655B (zh) * | 2017-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于文本的事件识别方法和装置 |
CN109993189A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 一种网络故障预警方法、装置和介质 |
CN108415897A (zh) * | 2018-01-18 | 2018-08-17 | 北京百度网讯科技有限公司 | 基于人工智能的类别判别方法、装置及存储介质 |
CN110309313B (zh) * | 2018-03-09 | 2022-04-22 | 北京国双科技有限公司 | 生成事件转移图谱的方法及装置 |
CN108595519A (zh) * | 2018-03-26 | 2018-09-28 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
CN110209807A (zh) * | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN109214407B (zh) * | 2018-07-06 | 2022-04-19 | 创新先进技术有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN111104477B (zh) * | 2018-10-29 | 2023-04-14 | 阿里巴巴集团控股有限公司 | 事件确认方法、装置及电子设备 |
CN109460461A (zh) * | 2018-11-13 | 2019-03-12 | 苏州思必驰信息科技有限公司 | 基于文本相似度模型的文本匹配方法及系统 |
CN111191456B (zh) * | 2018-11-15 | 2023-05-09 | 零氪科技(天津)有限公司 | 一种使用序列标注进行识别文本分段的方法 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN109800413A (zh) * | 2018-12-11 | 2019-05-24 | 北京百度网讯科技有限公司 | 新闻事件的识别方法、装置、设备及可读存储介质 |
CN109753566B (zh) * | 2019-01-09 | 2020-11-24 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN110263172B (zh) * | 2019-06-26 | 2021-05-25 | 国网江苏省电力有限公司南京供电分公司 | 一种电网监控告警信息事件化自主识别方法 |
CN110413993A (zh) * | 2019-06-26 | 2019-11-05 | 重庆兆光科技股份有限公司 | 一种基于稀疏权值神经网络的语义分类方法、系统和介质 |
CN110727695B (zh) * | 2019-09-29 | 2022-05-03 | 浙江大学 | 面向新型供电城轨列车数据运维的自然语言查询解析方法 |
CN112819020A (zh) * | 2019-11-15 | 2021-05-18 | 富士通株式会社 | 训练分类模型的方法和装置及分类方法 |
CN111949795A (zh) * | 2020-08-14 | 2020-11-17 | 中国工商银行股份有限公司 | 工单自动分类方法及装置 |
CN112100038A (zh) * | 2020-09-27 | 2020-12-18 | 北京有竹居网络技术有限公司 | 数据时延监控方法、装置、电子设备和计算机可读介质 |
CN112559747A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 事件分类处理方法、装置、电子设备和存储介质 |
CN112732913B (zh) * | 2020-12-30 | 2023-08-22 | 平安科技(深圳)有限公司 | 一种非均衡样本的分类方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102541050A (zh) * | 2012-01-05 | 2012-07-04 | 浙江大学 | 一种基于改进支持向量机的化工过程故障诊断方法 |
CN104965819B (zh) * | 2015-07-12 | 2017-12-26 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
-
2016
- 2016-06-12 CN CN201610409465.1A patent/CN106095928B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106095928A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095928B (zh) | 一种事件类型识别方法及装置 | |
CN106202561B (zh) | 基于文本大数据的数字化应急管理案例库构建方法及装置 | |
CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN104598535B (zh) | 一种基于最大熵的事件抽取方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN108629633A (zh) | 一种基于大数据建立用户画像的方法及系统 | |
CN105760439B (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
CN104346379B (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN107766585A (zh) | 一种面向社交网络的特定事件抽取方法 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN109271640B (zh) | 文本信息的地域属性识别方法及装置、电子设备 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN105205163B (zh) | 一种科技新闻的增量学习多层次二分类方法 | |
CN110263169A (zh) | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 | |
CN110837601A (zh) | 一种警情的自动分类与预测方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN103268346B (zh) | 半监督分类方法及系统 | |
CN104391852B (zh) | 一种建立关键词词库的方法和装置 | |
CN107590193A (zh) | 一种政务舆情监测管理系统 | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |