CN107766585B

CN107766585B - 一种面向社交网络的特定事件抽取方法

Info

Publication number: CN107766585B
Application number: CN201711282321.5A
Authority: CN
Inventors: 胡岩峰; 赵安; 黎谢鹏; 吕晓强; 陈诗旭; 任金宝; 俞信; 包伟伟
Original assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Current assignee: Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2020-04-03
Anticipated expiration: 2037-12-07
Also published as: CN107766585A

Abstract

本发明公开了一种面向社交网络的特定事件抽取方法，一方面利用神经网络实现了文本的表示学习，提取适用于海量数据的泛化能力强的特征；另一方面采用有监督的学习方法，相较于无监督学习方法更具有针对性，可以提供语义清晰的事件表示，使用基于关键词的初滤算法滤除大量与事件无关的推文，提升算法速度；利用神经网络实现对于推文的事件分类，无需人工设计特征，算法泛化能力更强；构建从事件类型到事件实例的层次化分类，形成系统的事件体系；对事件实例簇进行信息抽取，即从描述同一事件的不同推文中综合提取事件的信息，更加全面。

Description

一种面向社交网络的特定事件抽取方法

技术领域

本发明属于自然语言处理领域，尤其涉及一种面向社交网络的特定事件抽取方法。

背景技术

社交网络作为一种新兴的网络应用吸引了世界各地的大量用户，用户可以通过社交网络发布分享文字、图片、音频、视频等信息，并关注其他人的动态。推特是近年来最活跃的社交平台之一，作为一个微博应用，推特允许用户将自己的动态编辑为少于140字符的短文本发布在网站上。由于推特具有大量的注册活跃用户以及快速的信息分享模式，突发事件或热点事件在推特上的传播速度和影响范围远远大于传统新闻媒体，因此针对社交网络的海量数据进行挖掘有利于尽早检测突发事件并抽取其中的重要信息。然而推文的内容与传统新闻媒体不同，通常包含大量的非正式用语、缩写、拼写错误、表情以及超链接等，这些特点使推文的处理和信息抽取更加困难，所以针对传统文本的处理方法并不适用于社交网络文本；

事件抽取分为事件检测和相关信息抽取两个子任务，它已经有一段较长的研究历史，最早从话题检测与跟踪研究项目中演化而来。早期的事件抽取主要关注新闻报道、网络博客、论坛文章等，致力于“从连续的新闻数据流中识别出新事件或未定义事件”。近年来，随着社交网络应用的迅速发展，基于社交网络的事件抽取成为了新兴的研究热点。

根据是否在事件抽取之前获取事件的信息可以将该任务分为开放域事件抽取和特定事件抽取，开放域事件抽取通常通过检测社交网络数据流中的尖突信号或利用非监督聚类方法实现。然而事件在未发酵前信号较微弱，无法在社交网络中形成尖突信号，因此第一种方法很难在事件发生早期检测到事件。现有基于非监督聚类的事件检测算法主要采用一种特征的聚类表示一个事件，这种表示方法可解释性不强，有些甚至是无意义的聚类，不能提供语义清晰的事件表示，且相似度阈值和聚类个数需要根据经验人为设置，对于最终的结果影响较大。特定事件抽取通常采用有监督的机器学习方法实现，它在抽取之前确定了感兴趣事件的范围，针对性更强。近年来，神经网络在自然语言处理的各个领域获得了令人瞩目的成就，一方面它克服了人工设计特征的局限性，另一方面它更适用于处理海量数据。因此本发明采用基于神经网络的有监督算法实现对于社交网络海量数据的事件抽取。

发明内容

本发明所要解决的技术问题是提供了一种基于神经网络的多层次事件抽取算法，一方面利用神经网络实现了文本的表示学习，提取适用于海量数据的泛化能力强的特征；另一方面采用有监督的学习方法，相较于无监督学习方法更具有针对性，可以提供语义清晰的事件表示。

本发明为解决上述技术问题采用以下技术方案

一种面向社交网络的特定事件抽取方法，其特征在于：具体包含如下步骤：

设已知事件类型的训练集T_train＝{t_{train_1},t_{train_2},…,t_{train_N}；y_{train_1},y_{train_2},…y_{train_N}}，其中t_{train_i}表示一条推文文本以及retweet、hashtag、用户等推文相关信息，y_{train_i}表示推文所属的事件类型且y_{train_i}∈{0,1,2,3}，时间段t内采集的推文测试集T_test＝{t_{test_1},t_{test_2},…,t_{test_N}}；

步骤1，建立初滤模块的关键字集合；

步骤2，对测试集中的推文进行初滤；

步骤3，对步骤2初滤后的测试集中的推文进行拼写纠正规范化处理以及分词、词性标注去停用词、提取表情符号、词干化预处理；

步骤4，对于训练集T_train，训练卷积神经网络，得到事件分类模型；

步骤5，利用步骤4得到的事件分类模型对经过步骤3预处理后的测试集推文进行分类，

并将类型为其他的推文滤除；

步骤6，利用K-means算法将测试集中同一类型的推文聚类成多个事件实例簇；

步骤7，对步骤6得到的事件实例簇按照下述步骤提取事件要素。

作为本发明一种面向社交网络的特定事件抽取方法的进一步优选方案，所述步骤1具体包含如下步骤；

步骤1.1，对于每个待检测的特定事件类型名称，分别利用基于维基百科训练的词向量得到该特定事件类型名称的相关词列表；

步骤1.2，对于每个类型，分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词，扩充其关键词集合；

步骤1.3，对于每个类型，分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表，扩充其关键词集合；

步骤1.4，将三个关键字集合合并得到初滤模块的关键字集合。

作为本发明一种面向社交网络的特定事件抽取方法的进一步优选方案，所述步骤2

具体包含如下步骤；

步骤2.1，若推文中包含hashtag，且hashtag中包含关键字集合中的关键字，则判定该推文与特定事件相关；

步骤2.2，若上述条件不符合，则计算推文与关键字集合间的Jaccard相似度，若该相似度高于预设阈值，则判定该推文与事件相关。

作为本发明一种面向社交网络的特定事件抽取方法的进一步优选方案，所述步骤4

具体包含如下步骤；

步骤4.1，将T_train中的每条推文由词向量的串联表示，采用200维基于GloVe在推文数据集上训练的词向量，通过TF-IDF对词向量进行加权并将hashtag中的词权重加倍；

步骤4.2，,将上述推文向量及标签作为输入，卷积神经网络采用Xavier方法进行初始化，偏置项均初始化为0，采用

正则化以及dropout策略，通过随机梯度下降法更新输入特征向量以及网络参数，得到事件分类模型。

作为本发明一种面向社交网络的特定事件抽取方法的进一步优选方案，所述步骤6

具体包含如下步骤；

步骤6.1，将推文采用Step 5中卷积神经网络全连接层中的200维向量表示，并利用余弦相似度计算文本相似度；

步骤6.2，利用命名实体识别算法抽取推文的命名实体，并利用余弦相似度计算命名实体相似度；

步骤6.3，根据预处理中词性标注的结果滤除介词、冠词等，滤除命名实体，之后通过基于hashtag加权的TF-IDF算法获得推文的关键词，取排名前10的关键词计算关键词相似度；

步骤6.4，根据公式计算两条推文的相似度。

作为本发明一种面向社交网络的特定事件抽取方法的进一步优选方案，所述步骤7

具体包含如下步骤；

步骤7.1，计算簇中所有推文对于簇的重要性weight_ik，并通过加权合并得到该事件实例簇的主体、时间、地点、关键词；

步骤7.2，计算事件实例的热度和可信度。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)使用基于关键词的初滤算法滤除大量与事件无关的推文，提升算法速度；

2)利用神经网络实现对于推文的事件分类，无需人工设计特征，算法泛化能力更强；

3)构建从事件类型到事件实例的层次化分类，形成系统的事件体系；

4)对事件实例簇进行信息抽取，即从描述同一事件的不同推文中综合提取事件的信息，更加全面。

附图说明

图1是面向社交网络的特定事件抽取方法结构框图；

图2是事件分类卷积网络结构图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

第一部分

下面结合附图对本发明作进一步说明。

图1是本发明方法的结构框图，面向社交网络的特定事件抽取方法主要分为三个模块：模块I是初滤模块，利用基于关键词的初滤算法滤除与事件无关的推文，将描述事件的推文送入下一模块；模块II是事件检测识别模块，利用神经网络实现推文的事件分类，筛选出感兴趣事件类型的推文送入下一模块；模块III是事件要素抽取模块，分为同类型事件的事件实例聚类和事件实例簇要素抽取两个步骤。

图2是事件分类卷积网络结构图，包含两个卷积层(convolution)、两个最大池化层(max pooling)以及一个全连接层(fully connected)。事件分类卷积网络是一种有监督的学习方法，因此需要已标注类别的推文数据作为训练集，并在此基础上利用随机梯度下降法更新参数，训练模型。在推文通过初滤模块后，则利用上述模型获取推文的事件类型。

第二部分：

下面本发明以抽取武装冲突与袭击、自然灾害与事故、犯罪与法律三类特定事件为例，详细说明本发明的技术方案以及所依据的科学原理。

1.模块I中基于关键词的初滤算法方法如下：

当推文长度过短时很难提供事件的详细描述，因此滤除文本长度小于5个词的推文。除此之外，推文流中包含大量与事件无关的推文(描述心情、转发链接等)，这些推文大约占推文流的90％，因此在算法前期滤除这些推文可以极大地减轻计算压力，提升算法速度。现有初滤算法分为两类，分别是基于规则的算法和基于机器学习的算法。通过实验表明，基于规则的算法具有更高的召回率，因此本发明采用基于关键词的初滤算法，主要分为建立关键词集合和推文相关性评估两个步骤。

凭借经验人工建立关键词集合具有较大的局限性，本发明采用基于词向量的关键词扩展算法挖掘关键词间的关联关系，建立关键词集合。本发明以三种特定事件为例，因此需要建立三个关键词集合，具体方法如下：对于每个类型，首先利用基于维基百科训练的词向量得到该类型名称的相关词列表作为该类型的初始关键词集合；然后利用TextRank算法提取初始集合中所有关键词的维基百科词条的关键词，扩充关键词集合；最后利用基于Twitter文本训练的词向量分别得到关键词集合中所有关键词的相关词列表，扩充关键词集合。

Hashtag是推文中以“#”开头的标签，用于标注推文的关键词和话题，因此是推文分类的重要依据。在获取关键词集合后，若推文的hashtag包含集合中的关键词，则判定该推文与事件相关；否则，采用Jaccard相似度计算推文与关键词集合的相关性，并滤除相关性低于阈值的推文，Jaccard相似度如公式所示，其中A,B分别表示推文词语集合和关键词集合。

2.模块Ⅱ中基于卷积神经网络的文本分类方法如下：

本发明采用的神经网络结构图如2所示，包含两个卷积层、两个池化层以及一个全连接层，激活函数为绝对双曲正切函数(Absolute Hyperbolic Tangent)。给定推文训练集T＝{t_{train_i},y_{train_i}},i＝1,…,N，其中t_{train_i}表示一条推文文本以及其retweet、hashtag、发布用户等推文相关信息，y_{train_i}表示推文所属的事件类型且y_{train_i}∈{0,1,2,3}，推文事件类型共有四类，分别为重点关注的三种特定类型的事件以及其他，其他类用于滤除初滤模块没有过滤掉的非特定事件类型推文。文本无法直接输入卷积神经网络中，因此需要将输入的推文抽象为特征向量。用g_j∈R^k表示一条推文中第j个词语的k维词向量，则一条长度为m的推文特征向量可以表示为g₁…g_m的串联。由于推文的长度小于140个词，为了使输入特征向量维度相同，将所有输入样本特征向量补零至140行。本发明采用200维基于GloVe在推文数据集上训练的词向量表示词语，由于关键词对于事件类型的确定十分重要，为了充分利用关键词信息，通过TF-IDF对词向量进行加权。除此之外，为了充分利用推文hashtag中包含的关键信息，将hashtag中的词权重加倍，由此得到的输入层维度为(200,140,1)。第一层卷积层采用3,4,5三种卷积核，分别得到对应的100个特征图(feature map)，采用不同大小卷积核的目的在于充分提取文本的n-gram特征。第一层池化层采用尺寸为3步长为一的最大池化，进一步提取文本的局部特征，并将特征图统一为相同维度。第二层卷积层采用1×1大小的卷积核，实现了跨通道信息即不同大小n-gram的交互和整合，提取更加高层的语言特征；同时，它也提升了网络的非线性，方便深入刻画海量数据输入和输出之间复杂的函数关系；除此之外，它降低了特征的维度，减少卷积核参数从而降低运算复杂度和训练难度。第二个池化层在每个特征图上选择最大值实现最大池化，最终得到200维的特征向量，该低维向量是高维输入样本的抽象表示，大幅降低了表示推文所需的空间复杂度，本发明将基于该特征向量实现模块Ⅲ中的聚类算法，有利于降低算法的时间复杂度。最后通过全连接层和softmax层得到4维的输出，分别代表推文属于各个类别的概率值。

为了减轻网络的过拟合，本发明采用了

正则化以及dropout策略。具体的网络参数设置如下：网络采用Xavier方法进行初始化，偏置项均初始化为0，通过随机梯度下降法更新输入特征向量以及网络参数，更新输入特征向量的目的是根据训练集修正输入向量的表达，使其更加符合特定数据的特点。动量项为0.9，

权重衰减参数设置为5×10^-4，dropout比例为0.5，学习速率初始化为0.01，batch size则定为128。

3.模块Ⅲ中同一类型事件的事件实例聚类方法如下：

通过模块Ⅱ对于推特流中推文数据的事件分类，得到各特定事件类型的推文集合，同一类型的推文集合包括不同的事件实例。因此，为了进一步将推文划分至具体的事件实例，利用K-means聚类算法将描述同一事件实例的推文聚为事件实例簇。推文的相似度S_tweet通过文本相似度S_text、命名实体相似度S_entity、关键词相似度S_keyword等衡量，具体如下：

推文采用模块Ⅱ卷积神经网络全连接层中的200维向量表示，该向量维数较低，可以提高聚类算法的效率。除此之外，该向量通过加权词向量以及卷积操作隐含了关键词、hashtag以及n-gram等关键信息，为文本相似度提供重要依据。

通过命名实体识别可以得到推文中包含的人名、地名、机构名、时间等事件要素，若两条推文的事件主体、地名、时间均相同，则推文很可能描述的是同一个事件实例。

根据预处理中词性标注的结果滤除介词、冠词等，滤除命名实体，之后通过TF-IDF算法可以获得推文的关键词，为了充分考虑hashtag的重要性，将其权重加倍，取排名前10的关键词计算关键词相似度。

上述相似度均采用余弦相似度衡量，则推文相似度计算公式如下：

S_tweet＝0.3×S_text+0.4×S_entity+0.3×S_keyword\*MERGEFORMAT(2)

4.模块Ⅲ中面向事件实例簇的事件要素抽取方法如下：

为了对聚类得到的每个事件实例进行规范化的表达，需要提取事件的相关要素并定义事件的描述规范。本发明采用一个多元组表示事件实例：

事件描述＝<主体，时间，地点，类型，关键词，热度，可信度>

面向事件实例簇的事件要素抽取分为两个部分，分别是多推文事件要素合并和基于事件实例簇的要素抽取，前者用于抽取事件的主体、时间、地点、关键词等要素，后者用于抽取热度、可信度等要素。一个事件实例簇包含多条推文，每条推文利用命名实体识别算法可以获取其中包含的人名、地名、机构名、时间等；利用模块Ⅲ中基于hashtag加权的TF-IDF算法可以获取推文的关键词候选。将多条推文的事件要素合并有利于获得该事件实例簇的综合要素信息，本发明采用基于推文在簇中重要性的加权方法对于多条推文要素进行合并，推文i在事件实例簇k中的重要性weight_ik的计算方式如下：

weight_ik＝log(1+0.7×retweet_i+0.2×comment_i+0.1×favarate_i)\*MERGEFORMAT(3)

其中retweet_i,comment_i,favorate_i分别表示推文i的转发、评论、点赞数量，代表了该推文的受关注程度，根据三种操作的重要性加权从而得到该推文的重要性。获取每条推文在簇中的重要性后，则可以通过加权合并得到该事件实例簇的主体、时间、地点、关键词。

事件实例簇k的事件热度popularity_k与它包含的推文数目N_k成正比，事件热度的定义如下：

其中t表示所有推文的时间跨度。

事件实例簇k的事件可信度confidence_k与发布该事件相关推文的用户的权威度相关，因此事件可信度的定义如下：

其中followers_i表示推文i发布者的关注者数量，followers_i越多，则推文发布者的重要性和关注度越大，N_km为事件实例簇k中followers大于阈值m的推文数目。

第三部分：

面向社交网络的特定事件抽取方法具体实现步骤如下所述。

输入：已知事件类型的训练集T_train＝{t_{train_1},t_{train_2},…,t_{train_N}；y_{train_1},y_{train_2},…y_{train_N}}，其中t_{train_i}表示一条推文文本以及retweet、hashtag、用户等推文相关信息，y_{train_i}表示推文所属的事件类型且y_{train_i}∈{0,1,2,3}，时间段t内采集的推文测试集T_test＝{t_{test_1},t_{test_2},…,t_{test_N}}。

Step 1：按照以下步骤建立初滤模块的关键字集合。

Step 1.1：对于每个待检测的特定事件类型名称，分别利用基于维基百科训练的词向量得到该类型名称的相关词列表，取前300个作为初始关键词集合。

Step 1.2：对于每个类型，分别利用TextRank算法提取其初始集合中关键词的维基百科词条的关键词，扩充其关键词集合。

Step 1.3：对于每个类型，分别利用基于Twitter文本训练的词向量得到其关键词集合中所有关键词的相关词列表，扩充其关键词集合。

Step 1.4：将三个关键字集合合并得到初滤模块的关键字集合。

Step 2：按照以下步骤对测试集中的推文进行初滤。

Step 2.1：若推文中包含hashtag，且hashtag中包含上述关键字集合中的关键字，则判定该推文与事件相关；

Step 2.2：若上述条件不符合，则计算推文与关键字集合间的Jaccard相似度，若该相似度高于预设阈值，则判定该推文与事件相关；

Step 3：对Step2初滤后的测试集推文进行拼写纠正等规范化处理以及分词、词性标注、去停用词、提取表情符号、词干化等预处理。

Step 4：对于训练集T_train，按照下述步骤训练图2所示的卷积神经网络，得到事件分类模型：

Step 4.1：将T_train中的每条推文由词向量的串联表示，采用200维基于GloVe在推文数据集上训练的词向量，通过TF-IDF对词向量进行加权并将hashtag中的词权重加倍。若推文向量表示不足140行，则补零至140行。

Step 4.2：将上述推文向量及标签作为输入，卷积神经网络采用Xavier方法进行初始化，偏置项均初始化为0，采用

正则化以及dropout策略，通过随机梯度下降法更新输入特征向量以及网络参数，得到事件分类模型；

Step 5：利用Step 4得到的事件分类模型对经过Step 3预处理后的测试集推文进行分类，

并将类型为其他的推文滤除；

Step 6：利用K-means算法将测试集中同一类型的推文聚类成多个事件实例簇，两条推文的相似度计算方式如下：

Step 6.1：将推文采用Step 5中卷积神经网络全连接层中的200维向量表示，并利用余弦相似度计算文本相似度；

Step 6.2：利用命名实体识别算法抽取推文的命名实体，并利用余弦相似度计算命名实体相似度；

Step 6.3：根据预处理中词性标注的结果滤除介词、冠词等，滤除命名实体，之后通过基于hashtag加权的TF-IDF算法获得推文的关键词，取排名前10的关键词计算关键词相似度；

Step 6.4：根据公式计算两条推文的相似度。

Step 7：对Step 6得到的事件实例簇按照下述步骤提取事件要素：

Step 7.1：利用公式(3)计算簇中所有推文对于簇的重要性weight_ik，并通过加权合并得到该事件实例簇的主体、时间、地点、关键词；

Step 7.2：利用公式(6)～(7)计算事件实例的热度和可信度；

输出：多个事件实例簇以及其事件描述多元组。

Claims

1.一种面向社交网络的特定事件抽取方法，其特征在于：具体包含如下步骤：

设已知事件类型的训练集T_train＝{t_{train_1},t_{train_2},…,t_{train_N}；y_{train_1},y_{train_2},…y_{train_N}}，其中t_{train_i}表示一条推文文本以及retweet、hashtag、用户推文相关信息，y_{train_i}表示推文所属的事件类型且y_{train_i}∈{0,1,2,3}，时间段t内采集的推文测试集T_test＝{t_{test_1},t_{test_2},…,t_{test_N}}；

步骤1，建立初滤模块的关键字集合；

步骤2，对测试集中的推文进行初滤；

步骤5，利用步骤4得到的事件分类模型对经过步骤3预处理后的测试集推文进行分类，并将类型不属于事件分类模型的推文滤除；

步骤7，对步骤6得到的事件实例簇提取事件要素。

2.根据权利要求1所述的一种面向社交网络的特定事件抽取方法，其特征在于：所述步骤1具体包含如下步骤；

3.根据权利要求1所述的一种面向社交网络的特定事件抽取方法，其特征在于：所述步骤2具体包含如下步骤；

步骤2.2，若步骤2.1条件不符合，则计算推文与关键字集合间的Jaccard相似度，若该相似度高于预设阈值，则判定该推文与事件相关。

4.根据权利要求1所述的一种面向社交网络的特定事件抽取方法，其特征在于：所述步骤4具体包含如下步骤；

步骤4.2，将步骤4.1推文向量及标签作为输入，卷积神经网络采用Xavier方法进行初始化，偏置项均初始化为0，采用l₂正则化以及dropout策略，通过随机梯度下降法更新输入特征向量以及网络参数，得到事件分类模型。

5.根据权利要求1所述的一种面向社交网络的特定事件抽取方法，其特征在于：所述步骤6具体包含如下步骤；

步骤6.1，将推文采用步骤5中卷积神经网络全连接层中的200维向量表示，并利用余弦相似度计算文本相似度；

步骤6.3，根据预处理中词性标注的结果滤除介词、冠词，滤除命名实体，之后通过基于hashtag加权的TF-IDF算法获得推文的关键词，取排名前10的关键词计算关键词相似度；

步骤6.4，计算两条推文的相似度。

6.根据权利要求1所述的一种面向社交网络的特定事件抽取方法，其特征在于：所述步骤7具体包含如下步骤；

步骤7.2，计算事件实例的热度和可信度。