CN105956197A

CN105956197A - 基于社交媒体图表示模型的社会风险事件抽取方法

Info

Publication number: CN105956197A
Application number: CN201610438133.6A
Authority: CN
Inventors: 凌立刚; 朱海鹏
Original assignee: Hangzhou Measurement Data Technology Co Ltd
Current assignee: Hangzhou Measurement Data Technology Co Ltd
Priority date: 2016-06-15
Filing date: 2016-06-15
Publication date: 2016-09-21

Abstract

本发明公开了一种基于社交媒体图表示模型的社会风险事件抽取的方法。包括如下步骤：1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别与流级别的上下文对事件进行多粒度抽取；2)根据被抽取事件的HCCG图，利用最大公共子图和最小公共超图的信息量之比进行相似度计算；3)通过社交媒体的上下文信息对HCCG进行增量式聚类，在聚类过程中逐渐突出新闻的事件要素；4)通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件。本发明能有效地汇聚分散的社交媒体信息，直观地用实体关系模型多粒度地表达中间和最终的事件探测结果，相比传统的社交媒体事件抽取方法有更强的泛化应用能力以及更高的精确性。

Description

基于社交媒体图表示模型的社会风险事件抽取方法

技术领域

本发明涉及信息查询与检索领域，尤其涉及一种基于社交媒体图表示模型的社会风险事件抽取的方法。

背景技术

随着信息社会消息的传播速度大大提升，社会风险事件的舆论影响日益突出，对社会风险事件进行实时监控和社会性分析有了越来越广泛的应用需求。在网络环境下，真实世界和虚拟世界具有相互映射的便利性，用户持续并大量地汇集到网络社交平台。社交媒体的实时数据从侧面反映了现实世界事件的发展动向，对于社会风险事件的抽取与分析有着巨大的价值。

现有基于互联网数据进行事件感知技术的研究主要可分为两大类，一是利用自然语言处理方法在句子级别上进行原子事件的抽取进而支持摘要的生成，如欧盟项目NewsReader，商业系统RecordedFuture；二是利用聚类方法实现文档级别的主题事件检测进而支持主题演化分析，如欧盟联合研究中心(JRC)研制的NEXUS系统。为了支持社会风险事件的多粒度感知，往往需要有机整合两大类技术，形成多阶段的处理框架，典型的有JRC后续研发的Frontex框架。这类框架一般在数据汇聚的基础上，通过语义分析、事件检测、信息融合等多个阶段实现事件的感知。

传统的互联网新闻是由权威机构发布的报道性长文本，通常具备完整的新闻五要素，在组织结构上有比较固定的表达，而且长文本本身自带丰富的上下文信息。相比之下，社交媒体上的数据是海量、冗杂且缺乏组织的短文本，并常常伴随着新词语的大量出现、词义嬗变、词语拼写错误以及句子语法不符合规范等情况。同时，社交媒体中发表的内容也不具备传统新闻媒体的严谨性，在进行事件抽取时，判断结果的正确性尤其重要。上述的这些特点为基于社交媒体的社会风险事件抽取带来了许多新的挑战。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于社交媒体图表示模型的社会风险事件抽取的方法。

基于社交媒体图表示模型的社会风险事件抽取的方法包括如下步骤：

1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别(word-level)与流级别(steam-level)的上下文对事件进行多粒度抽取；

2)根据被抽取事件的HCCG图，利用最大公共子图和最小公共超图的信息量之比进行相似度计算；

3)通过社交媒体的上下文信息对HCCG进行增量式聚类，在聚类过程中逐渐突出新闻的事件要素；

4)通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件。

所述的步骤1)具体为：

1)使用HCCG模型对事件建模，则HCCG可表示为一个无向有权图，图中的节点代表社交媒体文本中出现的实体；图中的边对应在统一文本中以邻近次序出现，语义上相关联的两个实体之间的联系。模型中将节点分为六类，分别是灾难中心，参与者，地点，事件，动作和普通实体。前五类实体作为关键节点，以灾难中心节点为中心紧密围绕。普通实体分布在离灾难中心较远的位置。实体距离的远近由边权重刻画，权重越高，实体距离越近。

2)HCCG是无向有权图，因为每个实体之间的语义关联强弱并不相同。对于某社交媒体文本转化而来的图G＝(V，E)，定义关联边e∈E的权重weight(e)由3部分组成，分别为：基本权重bw(e)、第二部分的权重kw(e_i，j)、第三部分的权值scw(e_i，j)；

基本权重bw(e)即反应了两实体在原文中的距离，有如下公式：

b w (e_{i, j}) = \frac{1}{d i s \tan c e (v_{i}, v_{j})}, v_{i}, v_{j} &Element; V - - - (1)

对distance(v_i，v_j)的定义即为两个实体之间间隔的分词数加一。

第二部分的权重kw(e_i，j)由判定关键要素得来，如果构成e的两个节点v_i,v_j属于时间，参与者，动作，地点要素中的一项，这条关连边e有额外的权值分。

K_{v a l} (v) = {\begin{matrix} 1, & i f v i s a k e y v e c t o r \\ 0, & o t h e r w i s e \end{matrix} - - - (2)

累加两端节点的关键要素判定分得到kw(e_i，j)，如公式3所示。

kw(e_i，j)＝∑_k∈i，jK_val(v_k)，v_k∈V (3)

第三部分的权值scw(e_i，j)来自两级上下文，反应了该实体对在灾难事件中有持续的关注度。本模型运用信号处理中的方法检测本文流中的关联实体在统计上的脉冲，将在一天内出现脉冲的实体对作为局部上下文信息，将在一个月内持续出现脉冲的实体对作为全局上下文信息。对于社交媒体文本解析的实体对，查看其是否是全局或局部上下文信息，如果是则额外增加权重S，如公式4所示。

s c w (e_{i, j}) = {\begin{matrix} s, & i f e_{i, j} h a s c o n t e x t u a l \inf o r m a t i o n \\ 0, & o t h e r w i s e \end{matrix} - - - (4)

将这三部分权重相加，得到边e的最终权重。

weight(e_i，j)＝bw(e_i，j)+kw(e_i，j)+scw(e_i，j) (5)

由于HCCG中不同属性的节点的重要程度不同，模型对节点也定义了权重，节点权重由该点在图中的度乘以系数得来。

weight(v)＝C*degree(v) (6)

本模型定义对不同属性节点定义的系数是，灾难中心为3，新闻要素实体为2，普通节点为1。在以上权重的设置下，图的重心将位于灾难中心和新闻要素实体上，并且所有实体将形成向灾难中心汇聚的趋势，对社会风险事件本身有十分直观的表达。

所述的步骤2)具体为：

1)首先定义HCCG的信息量infosum(G)计算方法

infosum(G)＝Σ_e∈Eweight(v_i)·weight(v_j)·weight(e_i，j)，v_i，v_j∈V (7)

算法的执行流程为：对图G中的每条边e进行遍历，根据公式5、6介绍的边和点权重的计算法则将边和两个节点的权重分别相乘，并将图G中所有边e累加。

2)在计算两图相似度前需要先获得两图的交集和并集，即最大公共子图G_sub和最小公共超图G_sup。

公式8给出两图相似性数值化的计算公式

d i f f (G_{1}, G_{2}) = - \log (\frac{\inf o s u m (G_{s u b})}{\inf o s u m (G_{\sup})}) - - - (8)

最大公共子图表达了两源相似性，故放在分子；最小公共超图表达了两源涵盖元素的广度，放在分母起归一化作用。当两图信息完全相同时，diff(G₁，G₂)＝0，diff(G₁，G₂)的数值越大，两源数据越不相似。

所述的对HCCG进行增量式聚类的步骤为：

在HCCG的事件聚类过程中，对于某社交媒体上发表的文本，将其与现有的事件簇进行相似度计算，取diff最小的聚类，查看这个diff是否达到认为其属于已存在事件的阈值ε。如果达到阈值则将它们的HCCG做合并处理。没有达到则将其作为一个新的事件保存。为了保持diff阈值ε的有效性，合并后的新 HCCG需要根据实际情况做一定的剪枝处理，去掉不太重要的边和节点，使事件图保持在一个相对合理的大小。在这个阶段，爆发性出现的被监控实体对的流级别上下文信息将被汇聚到增长的HCCG图中。

所述的通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件的步骤为：

在经过增量式聚类后，形成很多聚类每个聚类都以HCCG的形式表达。组成HCCG的实体有灾难中心，时间，地点，参与者和动作这些新闻要素，还有作为语义补充的普通实体，以及连接这些实体的有权边。图中的节点被作为预测HCCG所表达的事件是社会风险事件的主要依据：将图中的节点作为特征并根据节点的属性以及与灾难中心的关联度赋予其不同的权重，使用朴素贝叶斯分类方法对选定的特征进行条件概率计算，根据训练样本集上得出的先验最佳阈值过滤非事件类，得出目标事件类。

对于社会风险事件形成的HCCG，一般具有最显著的事件特征便是有明确的时间地点参与者动作等要素的描写，由于HCCG在构建时已经将各节点根据属性和与HCCG中其他实体的关联度计算了权重，直接抽取HCCG中的时间、地点、参与者、动作，累加其权重所谓关键要素信息量，并计算这个信息量占全部节点累加权重后的比重，将这一比重作为贝叶斯分类器的输入特征。

本发明能有效地汇聚分散的社交媒体信息，直观地用实体关系模型多粒度地表达中间和最终的事件探测结果，因此比传统的社交媒体事件抽取方法所得到的结果更准确，应用场景也更加广泛。

附图说明

图1是基于社交媒体图的社会风险事件抽取任务框架。

图2是单条微博形成的HCCG实例图。

图3是不同相似度阈值下的聚类结果。

图4是不同上下文附加权重下的聚类结果。

具体实施方式

所述的步骤1)的结果如图2所示

1)对输入的社交媒体文本进行分词、词性标注等自然语言处理；

2)对文本中的实体进行识别、标引，抽取时间、人名、地名、机构名等；

3)抽取社会风险事件中心，将实体节点与事件中心节点进行语义上的关联，

计算关联边的权重；

4)根据节点的度数计算节点权重，最后得到的无向有权图即对单条社交媒体建模的HCCG图。

所述的步骤2)具体为：

1)定义HCCG图的信息量计算方法为

infosum(G)＝Σ_e∈Eweight(v_i)·weight(v_j)·weight(e_i，j)，v_i，v_j∈V

算法执行过程中，对图G中的每条边e进行遍历，根据边和点权重的计算法则将边和两个节点的权重分别相乘，并将图G中所有边e累加；

2)计算待比较两图的交集和并集，即最大公共子图和最小公共超图；

3)两图相似性数值化的计算公式

d i f f (G_{1}, G_{2}) = - \log (\frac{\inf o s u m (G_{s u b})}{\inf o s u m (G_{\sup})})

所述的基于HCCG进行增量式聚类具体说明如下：

1)对于输入的社交媒体文本，用HCCG对其建模；

2)将得到的HCCG与现有的事件簇进行相似度计算，取diff最小的聚类，查看这个diff是否达到认为其属于已存在事件的阈值ε。如果达到阈值则将它们的HCCG做合并处理，并更新事件簇的时间戳。没有达到则将其作为一个新的事件保存。

3)为了保持diff阈值ε的有效性，对HCCG进行合并后，需要根据实际情况做一定的剪枝处理，去掉不太重要的边和节点，使事件图保持在一个相对合理的大小；

4)现有事件簇每次与新输入HCCG作比较时，检查时间戳与当前时间之差是否超过预先设置的时间窗口，如果超出则将事件类视为稳定状态，并从临时存储转为持久存储。

所述的基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件的步骤：

1)在经过增量式聚类后，形成很多聚类每个聚类都以HCCG的形式表达。组成HCCG的实体有灾难中心，时间，地点，参与者和动作这些新闻要素，还有作为语义补充的普通实体，以及连接这些实体的有权边。图中的节点被作为预测HCCG所表达的事件是社会风险事件的主要依据：将图中的节点作为特征并根据节点的属性以及与灾难中心的关联度赋予其不同的权重，使用朴素贝叶斯分类方法对选定的特征进行条件概率计算，训练得到分类器以及最佳先验过滤阈值。

2)对于所有进入稳定状态的聚类结果，直接抽取HCCG中的时间、地点、参与者、动作，累加其权重所谓关键要素信息量，并计算信息量占全部节点累加权重后的比重，输入分类器，并利用最佳先验过滤阈值对结果进行过滤，通过过滤的聚类结果即可以有较高的置信度被认为是真正的事件。

实施例

由于在社交媒体平台事件检测领域没有标准的衡量准则。实验采用新浪微博平台上的真实数据检测本发明的方法。在爬取微博时，用基于关键词搜索的方式，向微博大数据投入灾难中心关键词，在返回的数据中选取最新发布的微博。使用“埃博拉”作为灾难中心词通过新浪API，共获得了13538微博，它们的发布日期在2014年1月1号到2014年1月30号之间。在对微博数据进行清洗后，剩下总计10452条微博。这些微博信息是埃博拉话题下吸引了较多关注的微博。2)系统首先对微博进行原发转发判断，噪音判断等等的前期清洗工作。对于原发微博，噪音判断的标准是当原文字数少于10或NPL处理后识别的实体数少于3则不作为事件微博进行分析，直接从流中滤除；转发微博作为原发微博的加权处理。

接下来利用TF-IDF聚类结合人工标注的方法获取标准集。在标注工作完成之后，我们得到1056个事件聚类，聚类大小从1条微博到70条微博不等。为了获得一个更加平衡的标准集，删除那些聚类大小少于5条微博的事件类。最终剩下的895个事件聚类组成了聚类实验的标准集。

分类实验的目标是将灾难事件从非事件中区分出来。分类实验的基础数据在基于HCCG聚类的最佳结果上进行。由志愿者对聚类结果进行标注，区分聚类事件是否反映了真实世界的灾难事件。根据微博发布的时间，将这895个聚类分为1月份上半月和1月份下半月两部分，分别包含400和495个事件聚类。

在对聚类性能进行评估时，选用正确率，召回率和F1分数作为性能度量。正确率、召回率和F1值是广泛用于信息检索和统计学分类领域的三个度量值，用来评价结果的质量。

图1是本发明进行事件抽取的任务框架。图2给出了对单条微博进行的社会风险事件抽取的一个具体例子。图3是不同相似度阈值下的HCCG聚类结果。图4是不同上下文附加权重下的HCCG聚类结果。

为了验证本发明的有效性，我们实现了基于词向量的TF-IDF方法并用余弦距离计算文本相似度，以此作为比较基准。聚类实验结果由表1给出。其中HCCG表示基于图的建模方法，HCCGc表示在加入全局和局部上下文附加权的建模方法。

表1 ε＝6时的聚类结果

Methods	Precision	Recall	F值
				TF-IDF	0.699	0.782	0.738
HCCG	0.796	0.759	0.777
				HCCGc	0.849	0.839	0.844

结果显示出本发明的HCCG建模是一种更好的短文本表示方法，因为模型考虑到文本互信息和文本结构两个方面并突出了事件的新闻特征。当将上下文附加权加入HCCG中，召回率得到明显改善，F值超过了TF-IDF和HCCG，分别提升了14.3％和8.6％。这个结果表明信息的历史上下文对事件聚类性能有明显的改善作用。

分类的目标是将社会风险事件从非事件中区分出来。在评价HCCG模型下的事件分类时，关键点在于对事件特征的选取。我们用传统的基于文本的特征选取作为比较基准，这种特征是将所有在文本中出现的词作为特征并不计权重。本发明的HCCG特征则是选取图中的新闻要素节点并将各节点的权重一并考虑进来。分类实验的结果如表2所示

表2分类实验的正确率

特征组合	训练集	测试集
			基于文本	0.932	0.819
HCCG	0.963	0.836

实验结果说明，本发明提出的HCCG模型下提炼的特征比基于本文的方法在两个标注集上都有更好的表现。这证明了HCCG特征组合在选取表达事件的特征时有很高的效率，因为这些特征本身就是描述事件的关键实体。在另一个层面，模型在积累过程中的剪枝操作去除了集合中与事件不相关的噪音信息，这也是提升事件特征质量的一个关键。

实验结果表明，本发明能有效地汇聚分散的社交媒体信息，直观地用实体关系模型多粒度地表达中间和最终的事件探测结果，因此比传统的社交媒体事件抽取方法所得到的结果更准确，应用场景也更加广泛。

Claims

1.一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于包括如下步骤：

1)采用HCCG模型对事件建模，定义实体关系生成规则，刻画事件属性，利用词级别与流级别的上下文对事件进行多粒度抽取；

2.根据权利要求1所述的一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于，所述的步骤1)具体为：

1)使用HCCG模型对事件建模，HCCG表示为一个无向有权图，图中的节点代表社交媒体文本中出现的实体；图中的边对应在统一文本中以邻近次序出现、语义上相关联的两个实体之间的联系，模型中将节点分为六类，分别是灾难中心，参与者，地点，事件，动作和普通实体，前五类实体作为关键节点，以灾难中心节点为中心紧密围绕，普通实体分布在离灾难中心较远的位置，实体距离的远近由边权重刻画，权重越高，实体距离越近；

2)HCCG是无向有权图，因为每个实体之间的语义关联强弱并不相同，对于某社交媒体文本转化而来的图G＝(V，E)，定义关联边e∈E的权重weight(e)由三部分的权重计算组成，分别为：基本权重bw(e)、第二部分的权重kw(e_i，j)、第三部分的权值scw(e_i，j)；

b w (e_{i, j}) = \frac{1}{d i s \tan c e (v_{i}, v_{j})}, v_{i}, v_{j} &Element; V - - - (1)

对distance(v_i，v_j)的定义即为两个实体之间间隔的分词数加一；

第二部分的权重kw(e_i，j)由判定关键要素得来，如果构成e的两个节点v_i,v_j属于时间，参与者，动作，地点要素中的一项，这条关连边e有额外的权值分；

K_{v a l} (v) = \{\begin{matrix} 1, & i f v i s a k e y v e c t o r \\ 0, & o t h e r w i s e \end{matrix} - - - (2)

累加两端节点的关键要素判定分得到kw(e_i，j)，如公式(3)所示；

kw(e_i，j)＝∑_k∈i，jK_val(v_k)，v_k∈V (3)

第三部分的权值scw(e_i，j)来自两级上下文，反应了该实体对在灾难事件中有持续的关注度，运用信号处理中的方法检测本文流中的关联实体在统计上的脉冲，将在一天内出现脉冲的实体对作为局部上下文信息，将在一个月内持续出现脉冲的实体对作为全局上下文信息，对于社交媒体文本解析的实体对，查看其是否是全局或局部上下文信息，如果是则额外增加权重s，如公式(4)所示，

s c w (e_{i, j}) = \{\begin{matrix} s, & i f e_{i, j} h a s c o n t e x t u a l \inf o r m a t i o n \\ 0, & o t h e r w i s e \end{matrix} - - - (4)

将这三部分权重相加，得到边e的最终权重：

weight(e_i，j)＝bw(e_i，j)+kw(e_i，j)+scw(e_i，j) (5)由于HCCG中不同属性的节点的重要程度不同，模型对节点也定义了权重，节点权重由该点在图中的度乘以系数C得来：

weight(v)＝C*degree(v) (6)。

3.根据权利要求1所述的一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于，所述的步骤2)具体为：

1)首先定义HCCG的信息量infosum(G)计算方法

infosum(G)＝∑_e∈Eweight(v_i)·weight(v_j)·weight(e_i，j)，v_i，v_j∈V (7)

算法的执行流程为：对图G中的每条边e进行遍历，根据公式(5)、(6)计算边和节点权重，将边和两个节点的权重分别相乘，并将图G中所有边e累加；

2)在计算两图相似度前需要先获得两图的交集和并集，即最大公共子图G_sub和最小公共超图G_sup；

公式8给出两图相似性数值化的计算公式

d i f f (G_{1}, G_{2}) = - \log (\frac{\inf o s u m (G_{s u b})}{\inf o s u m (G_{\sup})}) - - - (8)

最大公共子图表达了两源相似性，故放在分子；最小公共超图表达了两源涵盖元素的广度，放在分母起归一化作用，当两图信息完全相同时，diff(G₁，G₂)＝0，diff(G₁，G₂)的数值越大，两源数据越不相似。

4.根据权利要求1所述的一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于，所述的对HCCG进行增量式聚类的步骤为：

在HCCG的事件聚类过程中，对于某社交媒体上发表的文本，将其与现有的事件簇进行相似度计算，取diff最小的聚类，查看这个diff是否达到认为其属于已存在事件的阈值ε，如果达到阈值则将它们的HCCG做合并处理，没有达到则将其作为一个新的事件保存，为了保持diff阈值ε的有效性，合并后的新HCCG需要根据实际情况做一定的剪枝处理，去掉不太重要的边和节点，使事件图保持在一个相对合理的大小，在这个阶段，爆发性出现的被监控实体对的流级别上下文信息将被汇聚到增长的HCCG图中。

5.根据权利要求1所述的一种基于社交媒体图表示模型的社会风险事件抽取的方法，其特征在于，所述的通过基于HCCG模型的聚类结果进行事件判别，判断聚类结果是否为真正的事件的步骤为：

在经过增量式聚类后，形成很多聚类，每个聚类都以HCCG的形式表达，组成HCCG的实体有灾难中心，时间，地点，参与者和动作这些新闻要素，还有作为语义补充的普通实体，以及连接这些实体的有权边，图中的节点被作为预测HCCG所表达的事件是社会风险事件的依据：将图中的节点作为特征并根据节点的属性以及与灾难中心的关联度赋予其不同的权重，使用朴素贝叶斯分类方法对选定的特征进行条件概率计算，根据训练样本集上得出的先验最佳阈值过滤非事件类，得出目标事件类；