CN105005594B - 异常微博用户识别方法 - Google Patents
异常微博用户识别方法 Download PDFInfo
- Publication number
- CN105005594B CN105005594B CN201510377075.6A CN201510377075A CN105005594B CN 105005594 B CN105005594 B CN 105005594B CN 201510377075 A CN201510377075 A CN 201510377075A CN 105005594 B CN105005594 B CN 105005594B
- Authority
- CN
- China
- Prior art keywords
- microblog
- analysis
- abnormal
- users
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明公开了一种异常微博用户识别方法,包括如下步骤:第一,采集微博用户的微博数据;第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出异常用户;第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异常用户。本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户,实验结果表明,本发明方法在识别异常用户方面可以得到很高的正确率。
Description
技术领域
本发明涉及计算机信息技术,尤其是异常微博用户识别方法。
背景技术
由于微博长度较短,人们可以快速地表达和传播自己的想法和获得的信息,其已成为互联网上一种时尚的社交交流方式,它在市场营销和信息传播等方面蕴含着巨大的市场。随着微博的发展,有大量的异常用户传播无用信息,危害公众和互联网环境,因此识别异常用户是一个迫切需要解决的重要问题。从美国推特的第一次出现到新浪微博,微博用户数一直呈现爆发式的增长,如今微博用户数已数以亿计。新浪微博目前已成为中国最有影响力的微博平台。在互联网上,微博用户十分关注自己的粉丝数量,绝大多数用户希望他们有较多的追随者。很多异常用户往往主动成为微博用户的粉丝。一些用户为获取知名度和影响力,主动购买僵尸粉,另一方面,一些用户通过操纵假粉丝,污染网络环境。比如他们发送大量广告等无用信息,困扰用户。同时,扰乱了正常的微博平台的营销和推广。因此,识别和了解这些垃圾信息的发送者是十分必要的。然而,随着网络技术和微博的发展,垃圾信息发送者也在同时进化升级,现有检测异常用户的特征在高级的异常用户面前不是那么的有效。例如,垃圾信息发送者只需花费很少的成本就可从第三方网站购买追随者或者与他人进行交换追随者,根据其追随者的数量来识别他们的难度增大。
发明内容
本发明所要解决的技术问题就是提供一种异常微博用户识别方法,提高对异常微博用户识别的有效性和准确率。
为解决上述技术问题,本发明采用如下技术方案:异常微博用户识别方法,包括如下步骤:
第一,采集微博用户的微博数据;
第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出异常用户;
第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异常用户。
进一步的,采集微博数据的具体方法为:首先,随机采集一些用户数据作为起始节点数据,然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息;一直重复这个过程,直到收集到所有相关数据。社交网络关系图涉及个人ID号、粉丝ID号列表和关注者ID号列表,语义特征分析涉及最近10条微博内容信息。
进一步的,在社交网络关系图分析中,利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析,异常用户从网络中移除,网络的拉普拉斯能量减少很小。异常用户的拉普拉斯能量平均值比样本集中心区域的正常用户平均值大约少24.83%。
进一步的,在社交网络关系图分析中,还采用局部聚类系数分析异常用户,异常用户的局部聚类系数比正常用户要小。样本集中异常用户的局部聚类系数平均值比正常用户平均值大约少25.31%。
进一步的,在社交网络关系图分析中,还采用特征向量中心度分析异常用户,异常用户的特征向量中心度低于正常用户。样本集中异常用户的特征向量中心度平均值大概只占正常用户平均值7.71%,因为特征向量中心度的计算考虑了整个网络节点。
进一步的,在语义特征分析中,采用内容相似度分析,使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度,异常用户内容相似度大于正常用户。样本集异常用户内容相似度比正常用户大约大3.08%。
进一步的,在语义特征分析中,还采用超链接比重分析,异常用户网页超链接比重高于正常用户。样本集异常用户超链接比重比正常用户大约多66.76%。
进一步的,在语义特征分析中,还采用主题标签比重分析,异常用户主题标签比重高于正常用户。样本集中异常用户近5次微博内容均有主题标签的比重比正常用户大一倍左右。
本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户,实验结果表明,本发明方法在识别异常用户方面可以得到很高的正确率。
具体实施方式
本发明异常微博用户识别方法包括如下步骤:
第一,采集微博用户的微博数据;
第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出异常用户;
第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异常用户。
在微博数据采集时,使用新浪微博提供的API函数结合网页爬虫工具采集微博数据。首先,随机采集了一些用户数据作为起始节点数据,然后收集这些起始节点的个人信息、粉丝列表、关注者列表、微博内容信息。一直重复这个过程,直到收集到足够多数据。
在绘制社交网络关系图时,将微博中的社交关系建模为一个有向图G=(V,E)。图的节点V表示用户,图的边E表示社交关系。一条从节点Vi指向节点Vj的边a=(i,j)表示用户i关注用户j。即使异常用户可以改变自身属性,也较难改变他们在有向图中的位置。因此,本发明设计了三个基于社交关系图的特征:拉普拉斯中心度、局部聚类系数和特征向量中心。
1.拉普拉斯中心度
2.局部聚类系数
3.特征向量中心度
特征向量中心度度量了顶点在图中的重要程度。它考虑了整个网络结构,网络中每个节点都有一个相对指数值,连接到高指数节点对于特征向量中心度的贡献更大。节点Vi的特征向量中心度被定义为其中λ是邻接矩阵A=[aij]n×n的最大特征值,c是对应的特征向量。正常用户的粉丝通常可能相互认识,且之间有着很强的连接,这会导致正常用户的特征向量中心度较高。而异常用户的关注者往往不会反过来关注异常用户,所以其特征向量中心度应该比较低。
正常用户和异常用户在发布的微博内容方面有着明显的差异,这些微博内容的语义特征也是识别异常用户的关键特征。本发明设计了三个简单有效的语义特征:内容相似度、超链接比重和主题标签比重。
1.内容相似度
通常来说,异常用户处于自身特定的商业利益,其发布的微博内容往往有很大的相似性,而正常用户发布的微博内容往往相差很大。虽然高级的异常用户会转发一些正常用户的微博内容,他仍然会发布大量重复的微博内容、有害链接等信息,这些信息具有高度的相似性。因此,高内容相似度的微博用户有很大可能是异常用户。本发明使用自然语言工具去分析微博内容的相似度。本发明首先将微博内容分解为词组,然后使用语义分析的方法计算这些词组语义的相似度。本发明有一个封闭的语义集用来计算内容相似度。每个语义集包含一个列表,列表中包含相似语义的词语。通过检查这些词语的相似度,本发明可以得到整个内容的相似度。相似度越高,越有可能是异常用户。
2.超链接比重
异常用户主要通过网页超链接URL去吸引正常用户,这些超链接的网页往往包含有害信息。这些有害信息可能包括诈骗信息、病毒木马等。有些超链接的网站是钓鱼网站。这些异常用户一般不会只发布一次这样的内容,他们的微博内容中URL的比重往往很高。而正常用户往往倾向于发布个人生活和情感变化的微博内容,URL的比重不会很高。
3.主题标签比重
微博内容可以包含很多主题。主题标签用井号#表示。对于正常用户来说,微博内容可能包括个人生活内容、感兴趣的新闻、转发的别人的微博。主题标签会有个相对均衡的比例,也就是说它的比重是可以大致预测的。而异常用户通常比正常用户包含更多的主题标签,目的是吸引更多的正常用户的注意。异常用户往往随机获取大量主题标签放在其微博内容内用以引起用户注意,所以其主题标签比重一般较高。
最后,使用数据挖掘工具WEKA中的标准分类方法对数据集进行十折交叉验证,检验本发明所提取特征的有效性。使用J48、随机森林RF、逻辑回归Logistic和贝叶斯网络BN这四种方法对数据集进行分类,计算其分类方法的准确率、召回率和F值,并使用两个标准的属性评估方法:信息增益和增益比率去评估本发明设计的特征属性的有效性。结果表明拉普拉斯中心度和网页链接比重是检测异常用户中贡献最大的两个特征。
利用社交网络关系图分析的异常微博用户是在社交网络中关系很弱的节点,其在网络关系中重要性不高,符合异常微博用户的很多行为特征,是异常用户的可能性很大;语义特征分析从发布的微博内容上判断该用户是否为异常微博用户。社交网络分析和语义特征分析这两者须同时参与认定异常微博用户,这类用户符合网络关系弱且发布微博内容异常的特点。
社交网络关系图分析有三种特征拉普拉斯中心度、局部聚类系数和特征向量中心度,这种三种特征同时参与认定的微博用户才是从网络关系层面最终认定的异常用户,因为不同手段侧重于网络关系的不同层面的分析,为尽可能地避免将正常用户误判为异常用户,需同时从网络关系多个层面进行认定。语义特征分析包括内容相似度、超链接比重和主题标签比重这三个特征。这三个特征同时参与认定的用户才是从内容层面最终认定的异常用户。最终异常用户的认定需要这六个特征同时参与进来,最终识别出来的异常用户不一定是各个特征分析出来的异常用户的简单交叉重合,因为这六个维度不是简单的线性关系。最终的识别出来的异常用户有可能比各个手段简单的交叉重合的用户多,这依赖于机器学习训练的模型,训练样本特点选取越接近于测试样本特点,则识别准确率越高。
Claims (6)
1.异常微博用户识别方法,其特征在于包括如下步骤:
第一,采集微博用户的微博数据;
第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出异常用户;
第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异常用户;
采集微博数据的具体方法为:首先,随机采集一些用户数据作为起始节点数据,然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息;一直重复这个过程,直到收集到所有相关数据,在社交网络关系图分析中,利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析,异常用户从网络中移除,网络的拉普拉斯能量减少很小。
2.根据权利要求1所述的异常微博用户识别方法,其特征在于:在社交网络关系图分析中,还采用局部聚类系数分析异常用户,异常用户的局部聚类系数比正常用户要小。
3.根据权利要求2所述的异常微博用户识别方法,其特征在于:在社交网络关系图分析中,还采用特征向量中心度分析异常用户,异常用户的特征向量中心度低于正常用户。
4.根据权利要求1至3任意一项所述的异常微博用户识别方法,其特征在于:在语义特征分析中,采用内容相似度分析,使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度,异常用户内容相似度大于正常用户。
5.根据权利要求4所述的异常微博用户识别方法,其特征在于:在语义特征分析中,还采用超链接比重分析,异常用户网页超链接比重高于正常用户。
6.根据权利要求4所述的异常微博用户识别方法,其特征在于:在语义特征分析中,还采用主题标签比重分析,异常用户主题标签比重高于正常用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377075.6A CN105005594B (zh) | 2015-06-29 | 2015-06-29 | 异常微博用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510377075.6A CN105005594B (zh) | 2015-06-29 | 2015-06-29 | 异常微博用户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005594A CN105005594A (zh) | 2015-10-28 |
CN105005594B true CN105005594B (zh) | 2018-07-13 |
Family
ID=54378270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510377075.6A Active CN105005594B (zh) | 2015-06-29 | 2015-06-29 | 异常微博用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005594B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105897714B (zh) * | 2016-04-11 | 2018-11-09 | 天津大学 | 基于dns流量特征的僵尸网络检测方法 |
CN108108743B (zh) * | 2016-11-24 | 2022-06-24 | 百度在线网络技术(北京)有限公司 | 异常用户识别方法和用于识别异常用户的装置 |
CN107145897B (zh) * | 2017-03-14 | 2020-01-07 | 中国科学院计算技术研究所 | 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统 |
CN107196942B (zh) * | 2017-05-24 | 2020-05-15 | 山东省计算中心(国家超级计算济南中心) | 一种基于用户语言特征的内部威胁检测方法 |
CN107835113B (zh) * | 2017-07-05 | 2020-09-08 | 中山大学 | 一种基于网络映射的社交网络中异常用户检测方法 |
CN107229871A (zh) * | 2017-07-17 | 2017-10-03 | 梧州井儿铺贸易有限公司 | 一种安全性高的信息获取装置 |
CN107370664A (zh) * | 2017-07-17 | 2017-11-21 | 陈剑桃 | 一种有效的微博垃圾用户发现系统 |
CN108764667A (zh) * | 2018-05-15 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 风险数据确定方法及装置 |
CN109413439B (zh) * | 2018-09-30 | 2021-04-23 | 武汉斗鱼网络科技有限公司 | 一种确定嫌疑用户的方法及相关设备 |
CN109587523B (zh) * | 2018-11-30 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种虚假关注的识别方法以及相关设备 |
CN109597856B (zh) * | 2018-12-05 | 2020-12-25 | 北京知道创宇信息技术股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN109657147B (zh) * | 2018-12-21 | 2022-11-11 | 岭南师范学院 | 基于萤火虫和加权极限学习机的微博异常用户检测方法 |
CN109905399B (zh) * | 2019-03-14 | 2021-06-01 | 哈尔滨工程大学 | 一种基于自我网络结构演化的社交媒体个体异常用户检测方法 |
CN110430245B (zh) * | 2019-07-17 | 2022-06-10 | 北京达佳互联信息技术有限公司 | 一种异常账户识别的控制方法、装置、设备及介质 |
CN113946758B (zh) * | 2020-06-30 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种数据识别方法、装置、设备及可读存储介质 |
CN112149037B (zh) * | 2020-09-28 | 2024-03-19 | 微梦创科网络科技(中国)有限公司 | 基于逻辑回归的实时识别异常关注的方法及系统 |
CN112528162B (zh) * | 2020-11-27 | 2024-03-22 | 微梦创科网络科技(中国)有限公司 | 一种刷转发量行为用户的实时识别方法及装置 |
CN112650932B (zh) * | 2021-01-04 | 2022-09-23 | 重庆邮电大学 | 一种融合社交和位置关系的神经协同过滤poi推荐方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103364421A (zh) * | 2012-04-02 | 2013-10-23 | 波音公司 | 用于检测物品内瑕疵的x射线反向散射系统和方法 |
CN103457799A (zh) * | 2013-09-03 | 2013-12-18 | 上海交通大学 | 基于关系图的微博僵尸用户检测方法 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN104484390A (zh) * | 2014-12-11 | 2015-04-01 | 哈尔滨工程大学 | 一种面向微博的僵尸粉丝检测方法 |
CN104518930A (zh) * | 2015-01-09 | 2015-04-15 | 哈尔滨工程大学 | 一种面向微博的异常用户和消息同时检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8495289B2 (en) * | 2010-02-24 | 2013-07-23 | Red Hat, Inc. | Automatically detecting discrepancies between storage subsystem alignments |
-
2015
- 2015-06-29 CN CN201510377075.6A patent/CN105005594B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN103364421A (zh) * | 2012-04-02 | 2013-10-23 | 波音公司 | 用于检测物品内瑕疵的x射线反向散射系统和方法 |
CN103150374A (zh) * | 2013-03-11 | 2013-06-12 | 中国科学院信息工程研究所 | 一种识别微博异常用户的方法和系统 |
CN103457799A (zh) * | 2013-09-03 | 2013-12-18 | 上海交通大学 | 基于关系图的微博僵尸用户检测方法 |
CN103853841A (zh) * | 2014-03-19 | 2014-06-11 | 北京邮电大学 | 一种社交网用户异常行为的分析方法 |
CN104484390A (zh) * | 2014-12-11 | 2015-04-01 | 哈尔滨工程大学 | 一种面向微博的僵尸粉丝检测方法 |
CN104518930A (zh) * | 2015-01-09 | 2015-04-15 | 哈尔滨工程大学 | 一种面向微博的异常用户和消息同时检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105005594A (zh) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005594B (zh) | 异常微博用户识别方法 | |
Schouten et al. | Supervised and unsupervised aspect category detection for sentiment analysis with co-occurrence data | |
KR101708508B1 (ko) | 향상된 개체 발췌에 기초하여 메시지 및 대화 간의 의미 유사성을 계산하는 방법 | |
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
CN103246670B (zh) | 微博排序、搜索、展示方法和系统 | |
KR101716905B1 (ko) | 개체의 유사성을 계산하는 방법 | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN104778186B (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN103235824A (zh) | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN111309864B (zh) | 一种微博热点话题的用户群体情感倾向迁移动态分析方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN109446393B (zh) | 一种网络社区话题分类方法及装置 | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
CN116362811A (zh) | 一种基于大数据的广告自动化投放管理系统 | |
CN112307336A (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
Abbasi et al. | Organizing resources on tagging systems using t-org | |
CN111882224A (zh) | 对消费场景进行分类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 314001 1, 1701-12, 1701-14, 1701-16, 1539 Chengnan Road, Jiaxing, Zhejiang. Applicant after: JIAXING HIIKON SMART TECHNOLOGY CO., LTD. Address before: 314200 201, room 988, 988 new two road, Pinghu Economic Development Zone, Jiaxing, Zhejiang Applicant before: JIAXING HIIKON SMART TECHNOLOGY CO., LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |