CN104166726B

CN104166726B - 一种面向微博文本流的突发关键词检测方法

Info

Publication number: CN104166726B
Application number: CN201410424542.1A
Authority: CN
Inventors: 杨武; 董国忠; 王巍; 苘大鹏; 玄世昌
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2017-11-28
Anticipated expiration: 2034-08-26
Also published as: CN104166726A

Abstract

本发明涉及互联网信息管理领域，尤其涉及一种面向微博文本流的突发关键词检测方法。本发明包括：实时采集微博数据，针对实时微博数据流建立基于动态滑动窗口机制的消息会话模型；从消息会话模型中抽取用户信任属性，根据设定的信任窗口大小构建动态信任模型，计算用户的信任度；根据设定的消息窗口大小对实时微博消息流进行切分，融合用户信任度计算每个时间窗口中关键词的权重，形成突发关键词的权重序列；针对突发关键词的权重序列，采用基于动力学模型的突发关键词发现算法计算关键词的突发权值，如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词。此方法能够降低人类作息时间的影响，提高检测突发关键词的准确度。

Description

一种面向微博文本流的突发关键词检测方法

技术领域

本发明涉及互联网信息管理领域，尤其涉及一种面向微博文本流的突发关键词检测方法。

背景技术

随着2006年Twitter正式上线以及Web2.0技术的快速发展，以互联网为载体的各种社交网络平台成为Web2.0时代最具代表性的应用，其中微博客(以下简称微博)作为其中主要的平台得到了广大网民的关注。国内包括新浪、腾讯、搜狐和网易等主要网络媒体平台自2009年开始分别推出各自的微博服务，微博正式进入中文上网主流人群视野。

目前微博以及成为网民获取信息的重要途径之一，微博从满足人们弱关系的社交需求上逐渐演变成为大众化的舆论平台，越来越多机构及公众人物都通过微博来发布或传播信息。由于微博的即时性、自主性以及互动性，使得许多非常规突发事件发生后，微博作为人们信息发布的主要载体为突发事件提供了第一传播平台，包括“2013年吉林省松原地震”以及“青岛石油管线爆炸”等突发事件，微博都是最早的信息来源。

微博中对于社会突发事件的报道和讨论对于危机应对和态势感知是有积极意义的，但是由于用户参与微博的技术门槛较低，用户自身素质良莠不齐，特别是微博用户中存在一些僵尸粉丝为了自身利益以人为外力作用的方式协同推动对消费者有蛊惑的虚假突发话题，这类话题一旦通过微博在短时间内不断被转发扩散，将会助长虚假突发话题的传播并产生极为不良的影响。微博已经成为互联网舆情形成的主要网络媒体之一，其中对突发话题的检测是网络舆情管理的重要目标之一，因此，突发关键词检测作为突发话题检测最重要的一个步骤显得尤为重要。

现有的微博突发关键词发现方法中未考虑僵尸粉丝在突发话题形成过程中的推动作用以及人类生活作息对突发关键词检测方法的准确度的影响，应用到实际微博舆情监管中可能将僵尸粉丝推动以及受人类生活作息影响较大的关键词误判为突发关键词从而导致较大的误报率、较低的检测率。

发明内容

本发明的目的是提供一种提高突发关键词检测率和准确度的面向微博文本流的突发关键词检测方法。

本发明的目的是这样实现的：

(1)实时采集微博数据，针对实时微博数据流建立基于动态滑动窗口机制的消息会话模型；

(2)从消息会话模型中抽取用户信任属性，根据设定的信任窗口大小构建动态信任模型，计算用户的信任度；

(3)根据设定的消息窗口大小对实时微博消息流进行切分，融合用户信任度计算每个时间窗口中关键词的权重，形成突发关键词的权重序列；

(4)针对突发关键词的权重序列，采用基于动力学模型的突发关键词发现算法计算关键词的突发权值，如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词。

动态滑动窗口机制为动态滑动信任窗口和动态滑动消息窗口。

消息会话模型中包括：

微博消息、微博用户以及关键词的关联操作；

针对实时消息流消息会话模型的更新以及删除操作。

在抽取用户信任属性之前还包括：

根据用户交互行为定义用户交互动作以及用户交互指数；

根据信任窗口内的用户交互动作建立用户交互图。

用户信任属性包括：

用户交互度以及用户交互质量。

在计算关键词的权重之前还包括：

对微博消息内容进行预处理，包括中文分词、标签的识别与提取、去停用词、提取名词和动词作为关键词。

在生成关键词的权重序列之前还包括：

根据用户作息时间以及关键词的历史权重值消除用户作息时间对突发关键词检测的影响。

基于动力学模型的突发关键词发现算法包括：

定义与形式化基于动力学的趋势分析指标对关键词权重序列进行处理。

本发明的有益效果在于：

1、本发明提出一个基于用户交互行为的信任模型，利用两个信任属性评估用户的信任度，融合此信任模型的突发关键词发现方法能够避免发现由僵尸粉丝推动的伪突发关键词。

2、本发明提出一个基于动力学模型的突发关键词发生方法，此方法能够降低人类作息时间的影响，提高检测突发关键词的准确度。

附图说明

图1是本发明提供的微博突发关键词检测的方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

此方法利用信任模型对微博用户的交互行为进行可信度评估从而获取用户可信度，只有用户信任度高于设定信任阈值的可信用户的微博消息才可以作为基于动力学的突发关键词发现算法的输入，结合信任模型以及基于动力学的突发关键词发现算法检测微博中的突发关键词从而降低微博中僵尸粉丝以及人类生活作息时间的影响，快速准确的检测微博中的突发关键词。

为实现上诉发明目的，本发明提供一种面向微博文本流的突发关键词检测方法，该方法包括：

实时采集微博数据，针对实时微博数据流建立基于动态滑动窗口机制的消息会话模型；

从消息会话模型中抽取用户信任属性，根据设定的信任窗口大小构建动态信任模型，计算用户的信任度；

根据设定的消息窗口大小对实时微博消息流进行切分，融合用户信任度计算每个消息窗口中关键词的权重，形成突发关键词的权重序列；

针对突发关键词的权重序列，采用基于动力学模型的突发关键词发现算法计算关键词的突发权值，如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词。

进一步地，所述动态滑动窗口机制为动态滑动信任窗口和动态滑动消息窗口，并且根据突发关键词的检测精度和实时性角度考虑设定信任窗口以及消息窗口的大小。

进一步地，在所述的消息会话模型中包括：

微博消息、微博用户以及关键词的关联操作；

针对实时消息流消息会话模型的更新以及删除操作。

进一步地，在抽取用户信任属性之前还包括：

根据用户交互行为定义用户交互动作以及用户交互指数；

根据信任窗口内的用户交互动作建立用户交互图。

进一步地，所述用户信任属性包括：

用户交互度以及用户交互质量。

进一步地，在计算关键词的权重之前还包括：

进一步地，在生成关键词的权重序列之前还包括：

进一步地，所述基于动力学模型的突发关键词发现算法包括：

图1是本发明实施例提供的面向微博文本流的突发关键词检测方法的实现流程图，该方法详述如下：

在步骤101中，实时采集微博数据，针对实时微博数据流建立基于动态滑动窗口机制的消息会话模型。

针对采集到的微博实时消息流的微博消息，对消息内容进行切分处理，并对切分结果进行处理，便于添加和删除，同时进行微博消息、用户和消息内容关联操作。由于微博消息流中微博消息更新速度快，方案中通过增量更新方法更新二部图中已有的边的权值，考虑不同窗口下的流特征模式增加淘汰机制，针对超过阈值时间没有更新的节点或者权值衰退为0的边进行删除操作。

在步骤102中，从消息会话模型中抽取用户信任属性，根据设定的滑动信任窗口大小构建动态社会信任模型，计算用户的信任度。

示例性地，在信任模型中从用户交互度以及用户交互质量两个信任属性对微博用户的可信度进行评估，在抽取用户信任属性之前，根据用户交互行为定义用户交互动作、用户交互图以及用户交互指数：

用户交互动作：对于用户u_i和u_j，如果u_i与u_j主动交互(评论、转发等行为)则称单向交互为主动交互，其中u_i主动用户，u_j为被动用户。当u_j回应u_i的主动交互(回复)，则称其为被动交互，单向用户交互转变为双向用户交互。

用户交互图：用户交互图定义为无向有权图G＝(U,E,W)，用户交互图中U表示用户集合，E表示顶点之间有双向交互关系的边的集合，对于任意的w_ij∈W，w_ij表示用户u_i和u_j的交互次数。

用户交互指数：如果用户u_i在用户交互图G中的至少有r个邻居节点，每个邻居节点至少有r次交互，则称用户u_i的交互指数为r。

示例性地，在社会信任模型中利用滑动信任窗口机制根据被动交互的时间将用户的历史交互划分成M个信任窗口，每个窗口大小为T_t。用户动态社会信任模型主要由三部分构成：用户交互度、用户交互质量以及用户交互演变，其量化指标如下：

⑴用户交互度

假设用户u_i在信任窗口m的用户交互图表示为G_i,m，用户u_i的双向交互数的计算公式如下：

其中U_i,m为用户u_i的邻居节点集合，用户u_i的交互度定义如下：

⑵用户交互质量

用户u_i的交互质量计算公式如下：

其中I(i,m)表示用户u_i在信任窗口m的交互指数。用户u_i的交互质量在一定程度上反应了与用户u_i有交互关系的用户质量。结合用户交互度和交互质量，用户在信任窗口m的信任值计算公式如下：

T(i,m)＝λR(i,m)+(1-λ)D(i,m)

其中λ(0≤λ≤1)为调节因子，表示用户交互度和用户交互质量在计算用户信任值的不同权重。

⑶用户交互演变

由于用户的信任会随着时间不断变化，因此需要基于历史信任窗口的信任值建立长期动态信任模型。假设用户u_i的历史信任值为T(i,m)，其中1≤m≤M，M为最近的历史信任窗口数，历史信任窗口的信任值可以表示如下：

其中θ^M-n(0＜θ≤1,1≤m≤M)表示第m个历史信任窗口的信任权重，当θ＝1时，其表示历史信任窗口的平均值。

用户u_i的长期信任由当前信任窗口和历史信任窗口的信任值共同决定，其动态信任值计算公式如下：

T(i)＝α·T(i,m)+β·T_a(i)

其中α+β＝1(0≤α≤1,0≤β≤1)，α和β调节当前信任窗口与历史信任窗口信任值的权重。

在步骤103中，根据设定的消息窗口大小对实时微博消息流进行切分，融合用户信任度计算每个消息窗口中关键词的权重，形成突发关键词的权重序列。

在滑动消息窗口模型中，根据实时微博消息流中的微博消息时间将消息划分到对应的微博窗口中，示例性地，第d天第k个微博窗口可以表示为：

其中，表示第d天第k个微博窗口，表示第d天第k个微博窗口的开始时间,T_m表示微博窗口的大小。

示例性地，融合用户信任度的关键词在微博消息中的权重计算公式如下：

其中，w表示消息窗口中的关键词,ms表示消息窗口中的微博消息,表示关键词w在标签中的词频，tf_w表示关键词w在不在标签中的词频。由于在标签中的关键词在微博中的重要性高于不在标签中的关键词，调节因子γ为标签中关键词的调节因子，wt_i表示发布微博消息ms的用户i的可信度且其值由下式决定：

为了避免发现僵尸粉丝推动的伪突发关键词，在计算关键词权重过程中，去除用户i在对应信任窗口的信任度低于信任阈值的微博消息，关键词w在微博窗口中的权重计算公式可表示如下：

其中，表示关键词w在第d天第k个微博窗口的权重。

示例性地，为了降低人类生活作息对检测突发关键词准确度的影响，利用关键词在对应的历史微博窗口的权重对当前微博窗口的关键词权重进行修正，关键词w在第d天第k个微博窗口的权重修正公式表示如下：

其中，表示关键词w在过去D天中第k个微博窗口的权重平均值，其计算公式如下：

综上所述，根据动态时间窗口选择机制，分析消息突发模式，在不同时间窗口内的关键词权重时考虑关键词在作息周期内对应历史时间窗口内的历史权重对关键词权重进行消除作息时间处理，关键词权重序列最终可以表示为：

其中，n代表时间窗口序号，代表关键词w在第n个时间窗口的权重，W_w表示关键词w的权重序列。

在步骤104中，针对突发关键词的权重序列，采用基于动力学模型的突发关键词发现算法计算关键词的突发权值，如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词。

示例性地，给定关键词的权重序列，提出一个基于动力学的趋势分析指标发现突发关键词，此方法能够在线性时间内发现突发关键词并且能够以在线方式运行。动力学模型中的基本概念定义如下：

指数移动平均值(EMA)：对于每个时间窗口的变量x满足第n个时间窗口的指数移动平均值可以表示如下：

其中，EMA_w(n)[x]_t表示特征w在第n个窗口的指数移动平均值，ε_n为平滑因子，其值通常取为ε_n＝2/(n+1)。

指数平滑异同移动平均值(MACD)：特征w的短期(n₁个时间窗口)与长期(n₂个时间窗口)的指数平滑异同移动平均值可以表示如下：

MACD_w(n₁,n₂)＝EMA_w(n₁)-EMA_w(n₂)

基于以上定义，关键词w的突发权值可以由下式计算得出：

BST_w(n₁,n₂,n₃)＝MACD_w(n₁,n₂)-EMA_w(n₃)[MACD(n₁,n₂)]

关键词w在每个时间窗口的突发权值序列可以表示如下：

如果关键词w在某个时间窗口的突发权值大于设定的突发阈值，则该关键词为突发关键词。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种面向微博文本流的突发关键词检测方法，其特征在于，包括：

(4)针对突发关键词的权重序列，采用基于动力学模型的突发关键词发现算法计算关键词的突发权值，如果关键词的突发权值大于系统设定的突发阈值则该词为突发关键词；

所述动态滑动窗口机制为动态滑动信任窗口和动态滑动消息窗口；

在所述的消息会话模型中包括：

微博消息、微博用户以及关键词的关联操作；

针对实时消息流消息会话模型的更新以及删除操作；

在抽取用户信任属性之前还包括：

根据用户交互行为定义用户交互动作以及用户交互指数；根据信任窗口内的用户交互动作建立用户交互图；

用户交互度

设用户u_i在信任窗口m的用户交互图表示为G_i,m，用户u_i的双向交互数的计算公式如下：

<mrow> <mi>N</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>&Element;</mo> <msub> <mi>U</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </mrow> </munder> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

w_ij表示用户u_i和u_j的交互次数,其中U_i,m为用户u_i的邻居节点集合，用户u_i的交互度定义如下：

用户交互质量

用户u_i的交互质量计算公式如下：

其中I(i,m)表示用户u_i在信任窗口m的交互指数；用户u_i的交互质量在一定程度上反应了与用户u_i有交互关系的用户质量；结合用户交互度和交互质量，用户在信任窗口m的信任值计算公式如下：

T(i,m)＝λR(i,m)+(1-λ)D(i,m)

2.根据权利要求1所述的一种面向微博文本流的突发关键词检测方法，其特征在于，在计算关键词的权重之前还包括：

3.根据权利要求1所述的一种面向微博文本流的突发关键词检测方法，其特征在于，在生成关键词的权重序列之前还包括：

4.根据权利要求1所述的一种面向微博文本流的突发关键词检测方法，其特征在于，所述基于动力学模型的突发关键词发现算法包括：