CN105005594B

CN105005594B - 异常微博用户识别方法

Info

Publication number: CN105005594B
Application number: CN201510377075.6A
Authority: CN
Inventors: 盛斌; 吴丹; 裴淑炜; 高吟; 周旭楚; 张越青
Original assignee: Jiaxing Hiikon Smart Technology Co Ltd
Current assignee: Jiaxing Hiikon Smart Technology Co Ltd
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2018-07-13
Anticipated expiration: 2035-06-29
Also published as: CN105005594A

Abstract

本发明公开了一种异常微博用户识别方法，包括如下步骤：第一，采集微博用户的微博数据；第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户，实验结果表明，本发明方法在识别异常用户方面可以得到很高的正确率。

Description

异常微博用户识别方法

技术领域

本发明涉及计算机信息技术，尤其是异常微博用户识别方法。

背景技术

由于微博长度较短，人们可以快速地表达和传播自己的想法和获得的信息，其已成为互联网上一种时尚的社交交流方式，它在市场营销和信息传播等方面蕴含着巨大的市场。随着微博的发展，有大量的异常用户传播无用信息，危害公众和互联网环境，因此识别异常用户是一个迫切需要解决的重要问题。从美国推特的第一次出现到新浪微博，微博用户数一直呈现爆发式的增长，如今微博用户数已数以亿计。新浪微博目前已成为中国最有影响力的微博平台。在互联网上，微博用户十分关注自己的粉丝数量，绝大多数用户希望他们有较多的追随者。很多异常用户往往主动成为微博用户的粉丝。一些用户为获取知名度和影响力，主动购买僵尸粉，另一方面，一些用户通过操纵假粉丝，污染网络环境。比如他们发送大量广告等无用信息，困扰用户。同时，扰乱了正常的微博平台的营销和推广。因此，识别和了解这些垃圾信息的发送者是十分必要的。然而，随着网络技术和微博的发展，垃圾信息发送者也在同时进化升级，现有检测异常用户的特征在高级的异常用户面前不是那么的有效。例如，垃圾信息发送者只需花费很少的成本就可从第三方网站购买追随者或者与他人进行交换追随者，根据其追随者的数量来识别他们的难度增大。

发明内容

本发明所要解决的技术问题就是提供一种异常微博用户识别方法，提高对异常微博用户识别的有效性和准确率。

为解决上述技术问题，本发明采用如下技术方案：异常微博用户识别方法，包括如下步骤：

第一，采集微博用户的微博数据；

第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；

第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。

进一步的，采集微博数据的具体方法为：首先，随机采集一些用户数据作为起始节点数据，然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息；一直重复这个过程，直到收集到所有相关数据。社交网络关系图涉及个人ID号、粉丝ID号列表和关注者ID号列表，语义特征分析涉及最近10条微博内容信息。

进一步的，在社交网络关系图分析中，利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析，异常用户从网络中移除，网络的拉普拉斯能量减少很小。异常用户的拉普拉斯能量平均值比样本集中心区域的正常用户平均值大约少24.83％。

进一步的，在社交网络关系图分析中，还采用局部聚类系数分析异常用户，异常用户的局部聚类系数比正常用户要小。样本集中异常用户的局部聚类系数平均值比正常用户平均值大约少25.31％。

进一步的，在社交网络关系图分析中，还采用特征向量中心度分析异常用户，异常用户的特征向量中心度低于正常用户。样本集中异常用户的特征向量中心度平均值大概只占正常用户平均值7.71％，因为特征向量中心度的计算考虑了整个网络节点。

进一步的，在语义特征分析中，采用内容相似度分析，使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度，异常用户内容相似度大于正常用户。样本集异常用户内容相似度比正常用户大约大3.08％。

进一步的，在语义特征分析中，还采用超链接比重分析，异常用户网页超链接比重高于正常用户。样本集异常用户超链接比重比正常用户大约多66.76％。

进一步的，在语义特征分析中，还采用主题标签比重分析，异常用户主题标签比重高于正常用户。样本集中异常用户近5次微博内容均有主题标签的比重比正常用户大一倍左右。

本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户，实验结果表明，本发明方法在识别异常用户方面可以得到很高的正确率。

具体实施方式

本发明异常微博用户识别方法包括如下步骤：

第一，采集微博用户的微博数据；

在微博数据采集时，使用新浪微博提供的API函数结合网页爬虫工具采集微博数据。首先，随机采集了一些用户数据作为起始节点数据，然后收集这些起始节点的个人信息、粉丝列表、关注者列表、微博内容信息。一直重复这个过程，直到收集到足够多数据。

在绘制社交网络关系图时，将微博中的社交关系建模为一个有向图G＝(V,E)。图的节点V表示用户，图的边E表示社交关系。一条从节点V_i指向节点V_j的边a＝(i,j)表示用户i关注用户j。即使异常用户可以改变自身属性，也较难改变他们在有向图中的位置。因此，本发明设计了三个基于社交关系图的特征：拉普拉斯中心度、局部聚类系数和特征向量中心。

1.拉普拉斯中心度

2.局部聚类系数

3.特征向量中心度

特征向量中心度度量了顶点在图中的重要程度。它考虑了整个网络结构，网络中每个节点都有一个相对指数值，连接到高指数节点对于特征向量中心度的贡献更大。节点V_i的特征向量中心度被定义为其中λ是邻接矩阵A＝[a_ij]_n×n的最大特征值，c是对应的特征向量。正常用户的粉丝通常可能相互认识，且之间有着很强的连接，这会导致正常用户的特征向量中心度较高。而异常用户的关注者往往不会反过来关注异常用户，所以其特征向量中心度应该比较低。

正常用户和异常用户在发布的微博内容方面有着明显的差异，这些微博内容的语义特征也是识别异常用户的关键特征。本发明设计了三个简单有效的语义特征：内容相似度、超链接比重和主题标签比重。

1.内容相似度

通常来说，异常用户处于自身特定的商业利益，其发布的微博内容往往有很大的相似性，而正常用户发布的微博内容往往相差很大。虽然高级的异常用户会转发一些正常用户的微博内容，他仍然会发布大量重复的微博内容、有害链接等信息，这些信息具有高度的相似性。因此，高内容相似度的微博用户有很大可能是异常用户。本发明使用自然语言工具去分析微博内容的相似度。本发明首先将微博内容分解为词组，然后使用语义分析的方法计算这些词组语义的相似度。本发明有一个封闭的语义集用来计算内容相似度。每个语义集包含一个列表，列表中包含相似语义的词语。通过检查这些词语的相似度，本发明可以得到整个内容的相似度。相似度越高，越有可能是异常用户。

2.超链接比重

异常用户主要通过网页超链接URL去吸引正常用户，这些超链接的网页往往包含有害信息。这些有害信息可能包括诈骗信息、病毒木马等。有些超链接的网站是钓鱼网站。这些异常用户一般不会只发布一次这样的内容，他们的微博内容中URL的比重往往很高。而正常用户往往倾向于发布个人生活和情感变化的微博内容，URL的比重不会很高。

3.主题标签比重

微博内容可以包含很多主题。主题标签用井号#表示。对于正常用户来说，微博内容可能包括个人生活内容、感兴趣的新闻、转发的别人的微博。主题标签会有个相对均衡的比例，也就是说它的比重是可以大致预测的。而异常用户通常比正常用户包含更多的主题标签，目的是吸引更多的正常用户的注意。异常用户往往随机获取大量主题标签放在其微博内容内用以引起用户注意，所以其主题标签比重一般较高。

最后，使用数据挖掘工具WEKA中的标准分类方法对数据集进行十折交叉验证，检验本发明所提取特征的有效性。使用J48、随机森林RF、逻辑回归Logistic和贝叶斯网络BN这四种方法对数据集进行分类，计算其分类方法的准确率、召回率和F值，并使用两个标准的属性评估方法：信息增益和增益比率去评估本发明设计的特征属性的有效性。结果表明拉普拉斯中心度和网页链接比重是检测异常用户中贡献最大的两个特征。

利用社交网络关系图分析的异常微博用户是在社交网络中关系很弱的节点，其在网络关系中重要性不高，符合异常微博用户的很多行为特征，是异常用户的可能性很大；语义特征分析从发布的微博内容上判断该用户是否为异常微博用户。社交网络分析和语义特征分析这两者须同时参与认定异常微博用户，这类用户符合网络关系弱且发布微博内容异常的特点。

社交网络关系图分析有三种特征拉普拉斯中心度、局部聚类系数和特征向量中心度，这种三种特征同时参与认定的微博用户才是从网络关系层面最终认定的异常用户，因为不同手段侧重于网络关系的不同层面的分析，为尽可能地避免将正常用户误判为异常用户，需同时从网络关系多个层面进行认定。语义特征分析包括内容相似度、超链接比重和主题标签比重这三个特征。这三个特征同时参与认定的用户才是从内容层面最终认定的异常用户。最终异常用户的认定需要这六个特征同时参与进来，最终识别出来的异常用户不一定是各个特征分析出来的异常用户的简单交叉重合，因为这六个维度不是简单的线性关系。最终的识别出来的异常用户有可能比各个手段简单的交叉重合的用户多，这依赖于机器学习训练的模型，训练样本特点选取越接近于测试样本特点，则识别准确率越高。

Claims

1.异常微博用户识别方法，其特征在于包括如下步骤：

第一，采集微博用户的微博数据；

第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户；

采集微博数据的具体方法为：首先，随机采集一些用户数据作为起始节点数据，然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息；一直重复这个过程，直到收集到所有相关数据，在社交网络关系图分析中，利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析，异常用户从网络中移除，网络的拉普拉斯能量减少很小。

2.根据权利要求1所述的异常微博用户识别方法，其特征在于：在社交网络关系图分析中，还采用局部聚类系数分析异常用户，异常用户的局部聚类系数比正常用户要小。

3.根据权利要求2所述的异常微博用户识别方法，其特征在于：在社交网络关系图分析中，还采用特征向量中心度分析异常用户，异常用户的特征向量中心度低于正常用户。

4.根据权利要求1至3任意一项所述的异常微博用户识别方法，其特征在于：在语义特征分析中，采用内容相似度分析，使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度，异常用户内容相似度大于正常用户。

5.根据权利要求4所述的异常微博用户识别方法，其特征在于：在语义特征分析中，还采用超链接比重分析，异常用户网页超链接比重高于正常用户。

6.根据权利要求4所述的异常微博用户识别方法，其特征在于：在语义特征分析中，还采用主题标签比重分析，异常用户主题标签比重高于正常用户。