CN105956184B

CN105956184B - 一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法

Info

Publication number: CN105956184B
Application number: CN201610383009.4A
Authority: CN
Inventors: 周亚东; 党琪; 高峰; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2017-05-31
Anticipated expiration: 2036-06-01
Also published as: CN105956184A

Abstract

本发明公开一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，包括：1)通过话题传播网络中的拓扑特性来识别分布在多个话题中的垃圾信息发布团体；2)基于相邻时间间隔的话题转发网络之间的相似度对比，识别垃圾信息发布团体参与的异常话题；3)根据用户在多个话题中的累计权重进行聚类，把参与异常话题的所有用户分为正常用户和垃圾信息发布团体的异常用户；本发明所公开的一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，基于话题传播中的转发网络的拓扑信息进行分析，不需要相关话题的文本内容及用户的其他信息，使得实现算法简单、计算复杂度低，能够有效识别微博中的垃圾信息发布团体。

Description

一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法

技术领域

本发明涉及在线社会网络领域，特别涉及一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法。

背景技术

近些年在线社会网络取得了令人瞩目的发展速度，逐渐成为人们的日常生活和获取信息的重要手段。同时，垃圾信息及其发布者随着社会网络的发展以各种形式入侵了各个社会网络。这些垃圾信息发布者利用蓄意的用户行为影响了正常用户的交流和在线活动，或者以传播一些恶意的、错误的信息为目的。例如邮件系统中的垃圾邮件，移动通讯系统中的垃圾短信，微博中的恶意软件和钓鱼网站，购物网站中的虚假评论等等。由于低成本和易传播，这些垃圾信息及其发布者在各个社交网站中变得极为泛滥并且成长迅速。

近期在微博社会网络中，有一种新的协作化及组织化的垃圾信息发布团体成长的极为迅速，被人们称为“水军”。他们受雇于一些公关公司，通过发布某些特定的微博内容来营销他们的产品或者传播特定的观点来影响公众舆情。由于影响公共舆论已经成为一个有竞争性的商业领域，这些用户演变成为一种有组织的协同合作的团体来获取更大的影响力。他们伪装成为普通用户来参与到各个热点话题中。如果某个团体拥有足够多的社交网络账号，那么他们就能轻易的引导某个热点话题的舆论导向。这些组织内的用户通过某个蓄意的观点参与到话题中来，这就会误导人们远离某个话题的真实情况，从而严重影响人们的判断和决定。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，首先通过基于拓扑结构的图相似度，动态地对比热点话题发展过程中的转发网络，来识别垃圾信息发布团体参与的异常话题；在参与多个异常话题的用户中，定义了话题参与用户的权重，通过对多个话题累计用户权重进行聚类来识别垃圾信息发布团体，本发明可解决微博社会网络中垃圾信息发布组织的发现问题，为识别和阻断虚假的、蓄意的网络信息传播提供技术支持。

为了实现上述目的，本发明采用的技术方案是：

一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，包括：

步骤1，在多个热点话题中发现有垃圾信息发布团体参与的异常话题，具体步骤如下：

步骤1.1，构建热点话题的动态转发网络，热点话题T_i在时间t的转发网络表示为有向图G^t＝(V^t，E^t)，其中V^t和E^t分别是节点集合和边集合，V^t中的任意一个节点表示用户u_i在起始时间到时间t之间发表了话题T_i相关的微博，E^t中任意一条边(u_g，u_k，w_ug，uk)表示用户u_k转发了用户u_g关于话题T_i的微博，w_ug，uk为边的权重，表示用户u_k和u_g之间转发微博的次数；由于热点话题随着时间在不断的动态变化，热点话题T_i的动态转发网络表示为G^t(T_i)＝{G¹，G²，…，G^t}；

步骤1.2，对每个热点话题T_i的转发网络，计算相邻时间段的转发网络的相似度；话题在时间t的转发网络G^t表示为j个弱连通子图G^t＝{g₁ ^t，g₂ ^t，…，g_j ^t}，其中g_j ^t表示第j个弱连通子图；计算相邻时间间隔转发网络的相似度指计算G^t-1＝(V^t-1，E^t-1)和G^t＝(V^t，E^t)之间的相似度sim^t，首先对两个网络的弱连通子图按照节点个数进行排序，分别得到两个网络的弱连通子图序列，两个子图的相似度由对应子图序列之间的斯皮尔曼相关系数来表示；

步骤1.3，根据各个转发网络的相似度序列，识别异常话题；通过话题T_i的动态转发网络G^t(T_i)＝{G¹，G²，…，G^t}得到相邻网络的相似度序列{sim¹，sim²，…，sim^t-1}，若该序列中存在某个相似度小于相似度阈值0.6，则该话题为异常话题；

步骤2，在参与异常话题的所有用户中，识别垃圾信息发布团体用户，具体步骤如下：

步骤2.1，在话题转发网络中定义用户权重；根据话题转发网络的定义，出度大的节点对于话题传播和信息扩散具有更多的影响力，在单个话题转发网络中的用户权重由该用户在转发网络中的出度来定义，再利用归一化和对数函数进行变形来便于计算；由于多次参与异常话题的用户以及参与多个异常话题的用户具有更大的可能是垃圾信息发布团体的成员，因此对单个转发网络中的用户权重进行加权求和来得到该用户的累计用户权重；

步骤2.2，在参与所有热点话题的用户中人工标注多个初始标签用户U_labe1＝{u₁，u₂，…，u_q}；为了使标签用户尽可能地少参与相同话题并且每个标签用户参与尽可能多的话题，初始标签用户的选择遵循以下策略：迭代地根据话题参与的频率来选择标签用户，在每次迭代中选择一个标签用户，从话题集合中移除上个标签用户参与的话题，重复之前的迭代直到话题集合中的大部分话题都被移除；

步骤2.3，对于初始标签用户集中的每个用户u_q，首先获得该用户参与的热点话题序列T(u_q)＝{T₁，T₂，…，T_uq}，对于参与该话题序列的所有用户U(u_q)的权重进行加权求和获得每个用户的累计用户权重W(u_q)，然后基于k-means算法对累计用户权重列表进行聚类获得与初始标签用户属于同一组织的垃圾信息发布团体。

所述步骤1.1中，热点话题的动态转发网络的构建，以用户为节点，以用户之间的转发关系为边。

所述步骤1.2中，通过网络中弱连通子图排序得到子图序列，通过计算子图序列之间的距离来定义网络之间的相似度，所述弱连通子图是指将有向图的所有有向边替换为无向边，若该子图在无向图中是联通子图，则称该子图为弱连通子图；斯皮尔曼相关系数指两个向量之间的相关系数，是反映向量相关程度的统计分析指标。

所述步骤1.3中，通过判断转发网络拓扑结构的剧烈变化而引起的相似度变化，从而识别有垃圾信息发布团体参与的异常话题，转发网络之间的相似度具体计算如下：

w_s＝1-w_v

其中λ表示参与排序的弱连通子图中最小的节点个数，g(λ)表示选择节点个数大于λ的子图来排序；当λ＝0时，表示所有网络中的子图包括单一节点都用来排序；w_v表示单一节点子图的权重，w_s表示出了单一节点的其他子图的权重；w_g表示子图g的权重；R_g ^t-1表示子图g在G^t-1中的排名，R_g ^t表示子图g在G^t中的排名；V_v ^t-1表示G^t-1中单一节点的集合，V_v ^t表示G^t中单一节点的集合；V^t-1表示G^t-1中所有节点的集合，V^t表示G^t中所有节点的集合。

所述步骤2.1中，根据单个话题中用户节点出度的归一化和对数函数变化来定义用户权重，然后通过加权求和来计算多个话题中用户的累计用户权重，用户u_i在单个话题转发网络G_h中的权重定义为：

其中d_o ^Gh(u_i)表示用户的出度；|E^Gh|表转发网络中总的边数，相当于所有节点的出度和；Z是一个正整数，用来保证用户权重大于零，

用户u_i在H个话题转发网络{G₁，G₂，…，G_H}中的累计权重定义为：

其中F_(ui，Gh)表示用户u_i在转发网络G_h中发表微博的次数，h_ui表示用户u_i在H个话题中出现的次数。

所述步骤2.2中，初始标签用户的选择策略，通过迭代使得初始标签用户能够尽可能多地覆盖步骤1中所得到异常话题。初始的输入为步骤1中所发现的异常话题序列和参加话题的所有用户，每次迭代过程为：计算话题序列中所有用户参加异常话题的频率，在这些用户中选择频率最高的用户作为初始标记用户，然后从话题序列中删除该用户参与的异常话题。在初始异常话题序列中迭代以上过程，直到话题序列中的大多数话题被删除，迭代终止。

所述步骤2.3中，基于对垃圾信息发布者的用户行为分析，在聚类过程中选择目标类别k＝3。首先获得该用户参与的热点话题序列T(u_q)＝{T₁，T₂，…，T_uq}，对于参与该话题序列的所有用户U(u_q)的权重进行加权求和获得每个用户的累计用户权重W(u_q)，然后基于k-means算法对累计用户权重列表进行聚类获得与初始标签用户属于同一组织的垃圾信息发布团体。

与现有技术相比，本发明的有益效果是：

1.本方法基于热点话题动态传播中的网络拓扑结构特性来识别垃圾信息发布团体，不需要相关话题的文本内容及用户的其他信息，从而使算法的适应性得到提高。

2.在计算相邻动态网络相似度的过程中，对不同网络中的子图进行排名，把网络的相似度转化为两个排名列表的相似度比较，降低了相关计算量和复杂度，并且具有较高的准确率。

附图说明

图1是本发明一种微博社会网络中协作化及组织化的垃圾信息发布团体识别方法框架示意图。

图2是一个真实热点话题参与人数及相似度的动态演化图。

图3是正常话题和异常话题相邻时间间隔相似度的动态对比图。

图4是异常用户的发现流程图。

图5是本发明对于一个热点话题的垃圾信息发布团体识别的结果示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1，所示为本发明一个微博社会网络中协作化及组织化的垃圾信息发布团体识别方法框架示意图，包括以下异常话题识别和异常用户发现两个步骤:

1、异常话题识别

图2是一个真实热点话题参与人数及相似度的动态演化图，参与话题的用户数在10个小时内逐渐增加到5000人左右，相似度变化的序列为{1，1，1，1，1，0.54，0.92，0.98，0.99}。垃圾信息发布团体在第7个时间间隔的时候参与到改热点话题的传播中，从而引起了话题转发网络拓扑特性的大规模变化，对应相邻时间间隔的转发网络之间的相似度突然减小到0.54左右，小于相似度阈值0.6。因此这个热点话题被识别为垃圾信息发布团体参与的异常话题。转发网络之间的相似度具体计算如下：

w_s＝1-w_v

其中λ表示参与排序的弱连通子图中最小的节点个数，g(λ)表示选择节点个数大于λ的子图来排序；当λ＝0时，表示所有网络中的子图(包括单一节点)都用来排序；w_v表示单一节点子图的权重，w_s表示出了单一节点的其他子图的权重；w_g表示子图g的权重；R_g ^t-1表示子图g在G^t-1中的排名，R_g ^t表示子图g在G^t中的排名；V_v ^t-1表示G^t-1中单一节点的集合，V_v ^t表示G^t中单一节点的集合；V^t-1表示G^t-1中所有节点的集合，V^t表示G^t中所有节点的集合。

图3是正常话题和异常话题相邻时间间隔相似度的动态对比图，其中话题1和2正常话题，相似度变化基本保持不变；话题3、4、5是有垃圾信息发布团体参与的话题，他们的相似度序列都在某一时间间隔发生了较大的变化，从而可以被识别为异常话题。

2、异常用户发现

图4是异常用户的发现流程图，根据步骤1中所识别的异常话题数据及参与对应话题的用户数据，首先标注初始标签用户，获得对应标签用户的话题序列和参与用户；然后根据定义的用户权重分别计算在单个话题中的用户权重和多个话题中的累计权重；最后根据累计用户权重进行聚类获得最终的垃圾信息发布团体。

用户u_i在单个话题转发网络G_h中的权重定义为：

其中d_o ^Gh(u_i)表示用户的出度；|E^Gh|表转发网络中总的边数，相当于所有节点的出度和；Z是一个正整数，用来保证用户权重大于零。

垃圾信息发布者会在单个话题中发布多条微博，并且这些用户会重复参加多个异常话题。根据上面的用户权重定义，垃圾信息发布者的累计权重会远大于正常用户。在垃圾信息发布团体中，被转发者在转发网络中会有比较大的出度，因此被转发者的累计用户权重会大于转发者的累计用户权重。在参与异常话题序列的所有用户中，这些用户的累计权重会被聚类为3个差异比较大的类。其中用户权重最大的用户是垃圾信息发布团体中的核心用户；权重次之的类别中的用户是垃圾信息发布团体中的转发用户；权重最小的类别中的用户是参与到这些异常话题中的正常用户。

图5是本发明对于一个热点话题的垃圾信息发布团体识别的结果示意图。其中图5A表示一个完整的热点话题的转发网络，不同用户之间的转发关系构成了多个弱连通子图，图5B表示了话题转发网络中的一个弱连通子图在不同时间点的拓扑结构变化，识别出来的垃圾信息发布者和正常用户分别用圆圈和方块来表示。

Claims

1.一种微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，其特征在于，包括：

步骤1.1，构建热点话题的动态转发网络，热点话题T_i在时间t的转发网络表示为有向图G^t＝(V^t,E^t)，其中V^t和E^t分别是节点集合和边集合，V^t中的任意一个节点表示用户u_i在起始时间到时间t之间发表了话题T_i相关的微博，E^t中任意一条边(u_g,u_k,w_ug,uk)表示用户u_k转发了用户u_g关于话题T_i的微博，w_ug,uk为边的权重，表示用户u_k和u_g之间转发微博的次数；由于热点话题随着时间在不断的动态变化，热点话题T_i的动态转发网络表示为G^t(T_i)＝{G¹,G²,…,G^t}；

步骤1.2，对每个热点话题T_i的转发网络，计算相邻时间段的转发网络的相似度：话题在时间t的转发网络G^t表示为j个弱连通子图G^t＝{g₁ ^t,g₂ ^t,…,g_j ^t}，其中g_j ^t表示第j个弱连通子图；计算相邻时间段转发网络的相似度指计算G^t-1＝(V^t-1,E^t-1)和G^t＝(V^t,E^t)之间的相似度sim^t，首先对两个网络的弱连通子图按照节点个数进行排序，分别得到两个网络的弱连通子图序列，两个子图的相似度由对应子图序列之间的斯皮尔曼相关系数来表示；

步骤1.3，根据各个转发网络的相似度序列，识别异常话题：通过话题T_i的动态转发网络G^t(T_i)＝{G¹,G²,…,G^t}得到相邻网络的相似度序列{sim¹,sim²,…,sim^t-1}，若该序列中存在某个相似度小于相似度阈值0.6，则该话题为异常话题；

步骤2.1，在话题转发网络中定义用户权重：根据话题转发网络的定义，出度大的节点对于话题传播和信息扩散具有更多的影响力，在单个话题转发网络中的用户权重由该用户在转发网络中的出度来定义，再利用归一化和对数函数进行变形来便于计算；由于多次参与异常话题的用户以及参与多个异常话题的用户具有更大的可能是垃圾信息发布团体的成员，因此对单个转发网络中的用户权重进行加权求和来得到该用户的累计用户权重；

具体地，用户u_i在单个话题转发网络G_h中的权重定义为：

w_{u_{i}}^{G_{h}} = l o g \frac{d_{o}^{G_{h}} (u_{i}) + 1}{| E^{G_{h}} |} + Z

用户u_i在H个话题转发网络{G₁,G₂,…,G_H}中的累计权重定义为：

w_{u_{i}} = Σ_{h = 1}^{H} w_{u_{i}}^{G_{h}} F_{(u_{i}, G_{h})} e^{\frac{h_{u_{i}}}{H}}

其中F_(ui,Gh)表示用户u_i在转发网络G_h中发表微博的次数，h_ui表示用户u_i在H个话题中出现的次数；

步骤2.2，在参与所有热点话题的用户中人工标注多个初始标签用户U_label＝{u₁,u₂,…,u_q}：为了使标签用户尽可能地少参与相同话题并且每个标签用户参与尽可能多的话题，初始标签用户的选择遵循以下策略：迭代地根据话题参与的频率来选择标签用户，在每次迭代中选择一个标签用户，从话题集合中移除上个标签用户参与的话题，重复之前的迭代直到话题集合中的大部分话题都被移除；

其中，初始标签用户的选择策略，是通过迭代使得初始标签用户能够尽可能多地覆盖步骤1中所得到异常话题，初始的输入为步骤1中所发现的异常话题序列和参加话题的所有用户，每次迭代过程为：计算话题序列中所有用户参加异常话题的频率，在这些用户中选择频率最高的用户作为初始标记用户，然后从话题序列中删除该用户参与的异常话题，在初始异常话题序列中迭代以上过程，直到话题序列中的大多数话题被删除，迭代终止；

步骤2.3，对于初始标签用户集中的每个用户u_q，首先获得该用户参与的热点话题序列T(u_q)＝{T₁,T₂,…,T_uq}，对于参与该话题序列的所有用户U(u_q)的权重进行加权求和获得每个用户的累计用户权重W(u_q)，然后基于k-means算法对累计用户权重列表进行聚类获得与初始标签用户属于同一组织的垃圾信息发布团体。

2.根据权利要求1所述微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，其特征在于，所述步骤1.1中，热点话题的动态转发网络的构建，以用户为节点，以用户之间的转发关系为边。

3.根据权利要求1所述微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，其特征在于，所述步骤1.2中，通过网络中弱连通子图排序得到子图序列，通过计算子图序列之间的距离来定义网络之间的相似度，所述弱连通子图是指将有向图的所有有向边替换为无向边，若该子图在无向图中是联通子图，则称该子图为弱连通子图；斯皮尔曼相关系数指两个向量之间的相关系数，是反映向量相关程度的统计分析指标。

4.根据权利要求1所述微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，其特征在于，所述步骤1.3中，通过判断转发网络拓扑结构的剧烈变化而引起的相似度变化，从而识别有垃圾信息发布团体参与的异常话题，转发网络之间的相似度具体计算如下：

s i m (G^{t - 1}, G^{t}) = \{\begin{matrix} 1 - w_{s} \times \frac{\underset{g (λ) &Element; G^{t - 1} \cup G^{t}}{Σ} w_{g} \times {(R_{g}^{t - 1} - R_{g}^{t})}^{2}}{N} - w_{v} \frac{| V_{v}^{t - 1} \cup V_{v}^{t} | - | V_{v}^{t - 1} \cap V_{v}^{t} |}{| V_{v}^{t - 1} \cup V_{v}^{t} |}, & λ = 0 \\ 1 - \frac{\underset{g (λ) &Element; G^{t - 1} \cup G^{t}}{Σ} w_{g} \times {(R_{g}^{t - 1} - R_{g}^{t})}^{2}}{N}, & λ > 0 \end{matrix}

w_{v} = \frac{| V_{v}^{t - 1} | + | V_{v}^{t} |}{| V^{t - 1} | + | V^{t} |}

w_s＝1-w_v

5.根据权利要求1所述微博社会网络中协作化及组织化的垃圾信息发布团体的识别方法，其特征在于，所述步骤2.3中，基于对垃圾信息发布者的用户行为分析，在聚类过程中选择目标类别k＝3，首先获得该用户参与的热点话题序列T(u_q)＝{T₁,T₂,…,T_uq}，对于参与该话题序列的所有用户U(u_q)的权重进行加权求和获得每个用户的累计用户权重W(u_q)，然后基于k-means算法对累计用户权重列表进行聚类获得与初始标签用户属于同一组织的垃圾信息发布团体。