CN103150374B

CN103150374B - 一种识别微博异常用户的方法和系统

Info

Publication number: CN103150374B
Application number: CN201310076056.0A
Authority: CN
Inventors: 王鹏; 张鹏; 刘铁男; 孙亮
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2013-03-11
Filing date: 2013-03-11
Publication date: 2017-02-08
Anticipated expiration: 2033-03-11
Also published as: CN103150374A

Abstract

本发明涉及一种识别微博异常用户的方法，包括：获取多个用户微博数据存储入数据库中；根据用户微博数据，以用户行为的时间间隔的统计分布做为用户的行为时间特征，并生成行为时间特征向量和界定参数；计算正常用户行为时间特征向量与待测用户行为时间特征间的Kullback‑Leibler距离，将计算出的Kullback‑Leibler距离超出界定参数的待测用户判定为异常用户；对异常用户的内容进行关键词抽取和展示。对应该方法，本发明还提供了一种识别微博异常用户的系统。本发明可以快速提取出异常用户的博文内容关键词，可以准确识别营销，广告等垃圾信息发布者，适用于多个微博服务平台检测，且具有准确性高，效率高，适用性广的优点。

Description

一种识别微博异常用户的方法和系统

技术领域

本发明涉及社交网络安全领域，特别是涉及一种微博异常用户快速识别的方法和系统。

背景技术

当前，上网已经成为了多数人必不可少的日常工作，其中微博等社交网络更是成蓬勃发展势头。微博的发展，丰富了信息的传播方式、传播内容，使网络信息的形成机制和传播机制发生了重大变化。但是与此同时，各种垃圾信息也在社交网络上肆意传播，微博异常用户就是利用程序在网上传播广告、话题炒作、商品营销的等垃圾信息。因此，如何有效地规范社交网络的信息传播秩序，是现今面对的一个极大考验。

微博异常用户是指由程序自动生成的微博用户账号，背后没有具体人使用，多数时候都是在由程序控制着进行微博的转发、评论活动。异常用户控制者通过向管理程序发送各种命令来控制异常用户的行为。微博异常用户所形成的网络拥有众多用户节点，可以形成规模庞大且复杂的消息传播网络。假设一条带有社会危害性的消息通过异常用户网络来传播，通过异常用户的传递会在很短的时间内扩大影响范围，最终将会带来严重的危害。经过大量研究表明，微博异常用户的主要危害包括两个方面：

第一是虚假消息传播，这也是微博异常用户网络的主要危害。造谣者向自己控制的所有微博账户发送指令，让它们在特定的时间同时转发同意消息，经过异常用户网的传播，同一消息可能会由不同的路径传递到普通用户。由于消息是由不同路径传播而来，所以普通用户会认为这则消息的可靠性比较高，最终达到造谣者的目的。由于异常用户网络可以形成庞大的规模，这使得消息的传播范围也会非常广，使得这种手段具有更高的危害性，也更难防范。

第二是垃圾信息泛滥。微博网络正经历着当初电子邮件遇到的问题，各种垃圾信息如赚钱信息、商业或个人广告、成人广告等正在网络中流传。大量的垃圾信息不但占用网络资源，降低整个网络的运行效率，而且还可能会耗费用户的时间、精力，屏蔽用户感兴趣的信息。更加严重的是这些垃圾信息可能传播色情、消极的不良内容，对社会危害极大。

由于微博异常用户的危害性很高，所以对其的检测发现成为迫在眉睫的事情，很多著名的公司和组织均参与其中。目前，检测发现微博异常用户的方法大都是设置一些比较简单的规则来判断用户是否是异常用户，比如用户粉丝数、微博数量等。但这些判断标准都过于粗犷，结论过于武断，具有明显的缺陷。

发明内容

本发明所要解决的技术问题是提供准确、快速、高效的识别微博异常用户的方法和系统，用于解决现有技术中存在的对微博异常用户检测的检测结果不准确、不完备的问题。

本发明解决上述技术问题的技术方案如下：一种识别微博异常用户的方法，包括：

步骤1，获取多个用户微博数据，并将用户微博数据存储入数据库中；

步骤2，根据从数据库中获取的用户微博数据，以用户行为的时间间隔的统计分布做为用户的行为时间特征，并根据行为时间特征生成行为时间特征向量和界定参数；

步骤3，计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离，若计算出的Kullback-Leibler距离超出界定参数，则判定待测用户为异常用户，否则为正常用户；

步骤4，对已判定的异常用户的微博内容进行关键词抽取，并将抽取的关键词以用户标签的形式进行展示。

这里，Kullback-Leibler距离也叫做相对熵（Relative Entropy），是一种衡量的是概率空间里的两个概率分布的差异大小，适用于多个领域，也是本领域的常用技术。另外，用户行为的时间间隔包括在用户微博数据中。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1中采用网络爬虫方法获取多个用户微博数据。

进一步，所述步骤2具体包括：

步骤21，根据从数据库中获取的用户微博数据，以用户行为的时间间隔的统计分布做为用户的行为时间特征；

步骤22，采用聚类算法将所有的认证用户的行为时间特征聚成一类，取其聚类中心为正常用户行为时间特征向量；

步骤23，手动标注出异常用户，并爬取异常用户的微博数据，再根据获得的微博数据计算异常用户的行为时间特征向量；

步骤24，采用聚类算法将异常用户的行为时间特征向量聚成一类，取其聚类中心作为异常用户行为时间特征向量；

步骤25，计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离，再根据计算结果通过最小二乘方误差方法确定正常用户的特征空间范围，并根据特征空间范围确定界定参数。

采用最小二乘方误差法确定正常用户的特征空间范围具体可以是：用一个向量W来表示特征空间范围，这个向量可以用如下公式计算W=（X^TX）^-1X^TY，这里X是用户行为时间特征向量组成的矩阵，Y是用户类别，如1表示是正常的用户，0表示是异常用户，计算出W的即做为空间范围界定参数，其表明了特征空间范围。

进一步，所述聚类算法可采用Kmeans算法，同时其它聚类方案也适用于本发明。

这里，Kmeans算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一，其基本思想是：随机选择数据空间中k个点为初始聚类中心进行聚类，对空间中的对象按到K个点的距离归类，随即更新每个类簇的中心。通过迭代计算，直至聚类结果收敛。

进一步，所述步骤4具体包括：

步骤41，训练语料库；

步骤42，对语料库中每篇文章进行分词处理，去除停用词；

步骤43，基于语料库训练转换词对模型，将标题和摘要中出现的词组成候选关键词集合；

步骤44：利用TF-IDF值来衡量候选关键词的权重，并采用TOP-K排序算法输出需要的关键词。

这里，TF-IDF值（全称为Term Frequency & Inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术，属于统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。其中TF表示所选定关键词的出现频率，IDF表示逆文本频率指数。

TOP-K排序算法是本领域常用算法，是指查询并返回K个权重最高的对象作为查询结果。

对应上述方法，本发明的技术方案还包括一种识别微博异常用户的系统，其包括依次连接的微博数据获取模块、数据库模块、用户行为时间特征训练模块、异常用户识别模块和异常用户展示模块；

所述微博数据获取模块，用于获取多个用户微博数据，并将数据整理后存入所述数据库模块中；

所述数据库模块，用于存放用户微博数据；

所述用户行为时间特征训练模块，其与所述数据库模块连接，用于从所述数据库模块中获取用户微博数据，以用户行为的时间间隔的统计分布做为用户的行为时间特征，并生成行为时间特征向量和界定参数；

所述异常用户识别模块，其与所述用户行为时间特征训练模块连接，用于计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离，并将计算出的Kullback-Leibler距离超出界定参数的待测用户判定为异常用户；

所述异常用户展示模块，其与所述异常用户识别模块连接，对已判定的异常用户的微博内容进行关键词抽取，并将抽取的关键词以用户标签的形式进行展示。

进一步，所述用户行为时间特征训练模块包括行为时间特征向量生成模块和界定参数生成模块；

所述行为时间特征向量生成模块，用于根据计算出的用户的行为时间特征分别生成正常用户行为时间特征向量和异常用户行为时间特征向量；

所述界定参数生成模块，用于计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离，并根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围，以确定正常用户的界定参数。

进一步，所述异常用户识别模块包括计算模块和异常用户判定模块；

所述计算模块，用于计算待测用户行为的时间特征向量，并计算正常用户行为时间特征向量与待测用户行为时间特征向量间的Kullback-Leibler距离；

所述异常用户判定模块，用于判断所述计算模块计算出的Kullback-Leibler距离是否超出界定参数，将超出界定参数的待测用户判定为异常用户。

进一步，所述异常用户展示模块包括关键词抽取模块和用户标签展示模块；

所述关键词抽取模块，用于根据TF-IDF算法和TOP-K排序算法从异常用户微博内容中抽取关键词；

所述用户标签展示模块，用于以用户标签的形式展示抽取的关键词。

本发明的有益效果是：与其他的识别微博异常用户的方法相比，本发明对异常用户的检测不是简单地定义一些规则，而是利用人类行为时间特征来进行判断，即以用户行为间隔的统计分布做为特征进行判断，实践证明其较传统方法有比较强的鲁棒性，更具有说服力，且易于实现，只需训练出向量，然后再根据向量来判定即可。同时，本发明的识别系统在运行时的内存代价不高，且拥有很高的效率，并能保障识别的准确率。综合来说，本发明从从训练时间、检测效率以及检测质量来讲，都优于现有技术，具有准确性高、效率高的优点，适用于多个微博服务平台检测。

附图说明

图1为本发明所述的一种识别微博异常用户的方法的流程示意图；

图2为本发明实施例一中获取微博数据的流程示意图；

图3为本发明实施例一中进行向量训练与异常用户识别的流程示意图；

图4为本发明所述的一种识别微博异常用户的系统的结构示意图图；

附图中，各标号所代表的部件列表如下：

1、微博数据获取模块，2、数据库模块、3、用户行为时间特征训练模块，4、异常用户识别模块，5、异常用户展示模块，31、行为时间特征向量生成模块，32、界定参数生成模块，41、计算模块，42、异常用户判定模块，51、关键词抽取模块，52、用户标签展示模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，实施例一提供了一种微博异常用户检测方法，包括：

以新浪微博为例，对于上述四个步骤，其具体实施步骤描述如下：

第一，获取用户微博数据。

其具体流程如图2所示，描述如下:

目前国内的微博平台API开放并不是很完善，功能不一定能达到实际要求，所以本实施例采用网络爬虫的方式来获得新浪微博数据。

准备过程：在64位linux平台下安装配置MongoDB数据库，编写爬虫程序SpiderSina。

1）在主机上持续运行爬虫程序SpiderSina。由于新浪微博给每个用户都分配了不同的ID，所以爬虫并不需要去重操作。爬取策略以自身账户为中心的广度优先。

首先利用模拟浏览器技术，进行微博模拟登陆，登陆后便可使用页面解析方式取得用户ID等数据信息。

利用IsVerity(ID)函数判断给定ID是否是认证用户，如果是认证用户则将其放入用户队列等待爬取。其中，getFollowID(ID)函数是返回给定ID的关注者ID；getWeibo(ID)函数功能是爬取给定ID用户的全部微博信息，包括时间和内容。最终将微博信息数据存入MongoDB数据库中。

2）MongoDB数据库的设计。MongoDB是当今比较流行的NoSQL数据库，其最大的特点是高性能、易部署、易使用，存储数据非常方便。微博信息的设计字段如下：

ID（用户ID），text（微博内容），time（发布时间）

这里，函数void SpiderSina()的定义仅起示例和说明的作用，本领域普通技术人员应理解可以在现有的操作系统平台上使用已有的任何编程语言来实现该函数的功能，即获取用户微博信息数据。

第二，分析用户行为时间特性，自动生成特征向量。

泊松过程被广泛应用与人类活动的量化模型中，描述单位时间内或指定范围内特定事件出现的统计规律性，例如估计移动通信中占线的电话数量。该过程假设每个时间片段一件事情发生的概率都是恒定的，如果把时间发生的时间都花在时间轴上，这些点的分布是非常均匀的。

但是最近的研究表明，人类在某些生活活动方面相继发生两件事情的时间服从的并不是指数分布，而是一个幂函数分布。也就是说事件的到达非常不均匀，有时候很多时间犹如爆发般连续到达，而这些爆发之间往往是长时间的静默。

在本实施例中，首先需要计算用户时间特征，由函数getTimeBehavior(ID)实现。在数据库中time字段是用户发微博的发布时间。检索用户的所有微博的时间，并进行排序生成时间列表。然后计算相邻微博发布时间的时间间隔interval，最后对时间间隔进行统计，最终得到一个统计分布，即此用户的发微博的时间特征。

getTimeBehavior(ID)主要定义如下：

getTimeBehavior(ID)

{

检索数据库查找ID所发微博的所有记录，提取时间集合T；

对时间集合T进行排序得到时间T'；

计算相邻时间的时间间隔得到D；

由getTimeBehavior(ID)可以获得特定用户的行为时间特征。当把所有的认证用户的行为时间特征都计算出来后，便可进行正常用户行为时间特征向量的训练。使用Kmeans聚类算法将所有的认证用户的行为时间特征向量集分成K类。这K个类的聚类中心就是我们最终生成的行为时间特征向量。具体实现函数getPattern()定义如下:

最后，还需要一个界定参数L来判断当某一用户特征值在哪个范围内属于正常，哪个范围属于异常。这一步骤需要手动的标注一些异常用户，并对这些异常用户的微博数据进行爬取，然后计算这些异常用户的行为时间特征，将这些行为时间特征聚成一类，聚类中心就是异常用户的特征向量。最后计算异常用户的特征值与正常用户的特征向量的每一聚类中心值的Kullback-Leibler距离，即为最后的界定参数L。

具体实现函数为getParameter()定义如下:

得到异常用户的行为时间特征；

使用异常用户的行为时间特征向量分别与正常用户时间特征向量的K个聚类中心进行Kullback-Leibler计算；

最终的Kullback-Leibler值为返回界定参数L；

函数结束；

}

第三，利用生成的用户行为时间特征向量和界定参数对给定的微博用户进行识别。

利用前面已经生成的正常用户行为时间特征向量与界定参数对待测用户进行匹配，如满足条件则属于用户行为正常，如果不满足条件则判定为异常用户。若用户被判定为异常则应对其微博内容进行分析，并最终显示出来。在内容分析上首先应该对其微博内容进行分词，最后返回最关键的N个词作为用户的标签。

具体实现函数为IsUnusual(ID)定义如下:

第四，利用异常用户展示模块对异常用户的内容进行关键词提取。

由于每条微博的信息量过少，所以传统的主题抽取并不适用，因此本实施例采用一种新式的关键词抽取方法。该方法首先训练语料库，选取最近的大量新闻文章作为训练语料，然后利用训练结果进行关键词的抽取。具体地：

Step1：对语料库中每篇文章进行分词处理，去除停用词。将文章题目中出现的词记为集合T，将文摘中出现的系记为集合S，将文章正文出现的词记为集合W。

Step2：训练转换词对，计算：Pr<D,T>(t|w)——正文中出现词w，标题中出现词t的概率；Pr<D,S>(t|w)——正文中出现词w，摘要中出现词t的概率。

Step3：关键词抽取，利用TFIDF计算每一篇文章d中词w的重要性Pr(w|d)，再计算候选关键词的权重，最终选取TOP-K的词输出，对应公式为

\Pr (p | d) = Σ_{t &Element; p} Σ_{w &Element; d} \Pr_{< D, T >} (t | w) \Pr (w | d)

上述第二、第三、第四的实施步骤如图3所示，完成了一个向量训练与异常用户识别的流程。

如图4所示，对应上述方法，实施例一还提出了一种识别微博异常用户的系统，其包括依次连接的微博数据获取模块1、数据库模块2、用户行为时间特征训练模块3、异常用户识别模块4和异常用户展示模块5；

所述微博数据获取模块1，用于获取多个用户微博数据，并将数据整理后存入所述数据库模块2中；

所述数据库模块2，用于存放用户微博数据；

所述用户行为时间特征训练模块3，其与所述数据库模块2连接，用于从所述数据库模块2中获取用户微博数据，以用户行为的时间间隔的统计分布做为用户的行为时间特征，并生成行为时间特征向量和界定参数；

所述异常用户识别模块4，其与所述用户行为时间特征训练模块3连接，用于计算正常用户行为时间特征向量与待测用户行为时间特征向量的Kullback-Leibler距离，并将计算出的Kullback-Leibler距离超出界定参数的待测用户判定为异常用户；

所述异常用户展示模块5，其与所述异常用户识别模块4连接，对已判定的异常用户的微博内容进行关键词抽取，并将抽取的关键词以用户标签的形式进行展示，确定异常用户的类型。

对于上述模块，所述用户行为时间特征训练模块3进一步包括行为时间特征向量生成模块31和界定参数生成模块32；

所述行为时间特征向量生成模块31，用于根据计算出的用户的行为时间特征分别生成正常用户行为时间特征向量和异常用户行为时间特征向量；

所述界定参数生成模块32，用于计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离，并根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围，以确定正常用户的界定参数。

所述异常用户识别模块4进一步包括计算模块41和异常用户判定模块42；

所述计算模块41，用于计算待测用户行为的时间特征向量，并计算正常用户行为时间特征向量与待测用户行为时间特征向量间的Kullback-Leibler距离；

所述异常用户判定模块42，用于判断所述计算模块41计算出的Kullback-Leibler距离是否超出界定参数，将超出界定参数的待测用户判定为异常用户。

所述异常用户展示模块5进一步包括关键词抽取模块51和用户标签展示模块52；

所述关键词抽取模块51，用于根据TF-IDF算法和TOP-K排序算法从异常用户微博内容中抽取关键词；

所述用户标签展示模块52，用于以用户标签的形式展示抽取的关键词。

该系统的原理和操作同本实施例所述的一种微博异常用户检测方法。

实施例二是实施例一的一个具体应用，其采用的数据集为国内最大微博平台新浪微博平台原始数据，共20.178万个微博用户的全部发布微博，其中包括营销、广告账户。对9.81万认证用户进行模型训练后得到相应正常用户行为时间特征向量的时间约为11分钟，利用向量对20.178万用户进行识别，识别时间约为4分钟，其中检测出机器用户5,089个，多为广告、营销账户。因此，从训练时间、检测效率以及检测质量来讲，该方法可以满足当前的大部分微博平台的要求。

本发明实施例中涉及的识别微博异常用户的方法和系统不局限于任何软件或硬件平台，在上述实施例中所使用的具体的操作系统平台、编程语言、数据库以及库函数等均起示例的作用，本领域普通的技术人员应理解可以使用其他现有的技术来实现本发明所提供的异常用户检测方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别微博异常用户的方法，其特征在于，包括：

所述步骤2具体包括：

步骤25，计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离，再根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围，并根据特征空间范围确定界定参数；

2.根据权利要求1所述的方法，其特征在于，所述步骤1中采用网络爬虫方法获取多个用户微博数据。

3.根据权利要求1所述的方法，其特征在于，所述聚类算法采用Kmeans算法。

4.根据权利要求1所述的方法，其特征在于，所述步骤4具体包括：

步骤41，训练语料库；

步骤42，对语料库中每篇文章进行分词处理，去除停用词；

5.一种识别微博异常用户的系统，其特征在于，包括依次连接的微博数据获取模块、数据库模块、用户行为时间特征训练模块、异常用户识别模块和异常用户展示模块；

所述数据库模块，用于存放用户微博数据；

所述用户行为时间特征训练模块包括行为时间特征向量生成模块和界定参数生成模块；

所述界定参数生成模块，用于计算异常用户行为时间特征向量与正常用户行为特征向量的聚类中心值的Kullback-Leibler距离，并根据计算结果通过最小二乘方误差法确定正常用户的特征空间范围，以确定正常用户的界定参数；

6.根据权利要求5所述的系统，其特征在于，所述异常用户识别模块包括计算模块和异常用户判定模块；

7.根据权利要求5所述的系统，其特征在于，所述异常用户展示模块包括关键词抽取模块和用户标签展示模块；