CN103458042B - 一种微博广告用户检测方法 - Google Patents

一种微博广告用户检测方法 Download PDF

Info

Publication number
CN103458042B
CN103458042B CN201310410578.XA CN201310410578A CN103458042B CN 103458042 B CN103458042 B CN 103458042B CN 201310410578 A CN201310410578 A CN 201310410578A CN 103458042 B CN103458042 B CN 103458042B
Authority
CN
China
Prior art keywords
user
data
microblog
advertisement
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310410578.XA
Other languages
English (en)
Other versions
CN103458042A (zh
Inventor
邹福泰
姚雨石
吴嘉玮
王佳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310410578.XA priority Critical patent/CN103458042B/zh
Publication of CN103458042A publication Critical patent/CN103458042A/zh
Application granted granted Critical
Publication of CN103458042B publication Critical patent/CN103458042B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种微博广告用户检测方法,包括:收集用户信息,为每个用户添加分类标识;对获得的用户信息进行特征抽取,基于数据挖掘方法得到广告用户和普通用户的内容和行为的特征属性集;根据具有分类标识的特征属性集进行模型训练,得到广告用户判别模型。本发明通过对微博用户各个特征的全面分析,训练出来的判别模型的准确度和回归度较高,综合性能较好,解决了新浪自带的检测工具对广告用户十分不灵敏的缺陷。

Description

一种微博广告用户检测方法
技术领域
本发明涉及社交网络安全领域,特别是涉及一种微博广告用户检测的方法。
背景技术
在中国,在线社交网络已经成为一个主要的平台,人们在网络上搜集信息,结交志同道合的人。新浪微博被称为“Twitter”,因为它类似于Twitter。然而,从用户使用习惯和不同的文化的角度来看,我们所说的微博和Twitter是不同的。根据惠普实验室的研究,人们在微博上更喜欢转发信息而不是发表原创的微博,只要分享的有价值,人们在微博上会很热心帮助转发。此外,两者在用户体验方面也不同。在Twitter,人们只能分享文本信息,但在新浪人们也能分享照片,视频和音频。此外,新浪微博也允许用户跟帖评论微博内容并在同一时间转发,这在Twitter是不可行的。由于微博和Twitter的巨大差异,所采用的检测广告用户的方法也有所不同。因此,研究新浪微博的广告用户监测机制是很有意义的探索。
有许多人研究西方社交网站,然而,对中国社交网络的研究却是一片空白。无论在新浪还是Twitter广告用户都十分猖獗,原因是多方面的,一方面,微博用户数量之庞大使得新浪微博成为广告用户的目标。统计显示,人们往往在社交网站花费更多的时间,并且大多数的社交网站提供移动平台来让人们保持在线另一方面,在新浪微博散布广告消息是十分方便的。社交网络像提供给广告用户一个便利的平台来达到自己的目的。微博用户可以发布有趣的新闻故事或发布链接到他最喜欢的网站。所以广告用户经常利用这个功能创建欺诈帐户和发布链接,诱使用户点击网站。因为微博对所有统一资源定位符(UniformResourceLocato,URL)转换为短连接——这就有可能会误导用户,如果短链接是恶意网站的网址重定向,那么其危险性就不言而喻了。另一方面,为了增加广告微博出现在搜索结果中的持续时间,广告用户经常添加无关的话热门话题或流行词。这种行为可以被广告用户用来大肆宣传自己的网站,目前,许多用户深受广告用户的骚扰,同时广告用户还降低社交网络实时搜索引擎的效率。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种微博广告用户检测方法,准确、快速、高效地识别出微博中存在的广告用户,减轻用户所受骚扰,提高社交网络实时搜索引擎的效率。
本发明解决上述技术问题的技术方案如下:一种微博广告用户检测方法,包括以下步骤:
步骤1收集微博用户数据,并进行人工类别标识;
步骤2对所述步骤1中的所述用户进行特征抽取,并选取出特征属性集;
步骤3根据步骤1标识好的用户类别以及步骤2抽取的特征属性集,利用数据挖掘分类算法进行模型训练,得到用户判别模型;
步骤4利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测。
进一步地,所述步骤1具体步骤如下:
步骤1-1通过新浪API收集一个用户的数据,获得所述一个用户的粉丝和关注者,并加入他们的账户到用户列表,从用户列表中选择下一个用户的账户,并将所述一个用户的粉丝和关注者的账户加入到用户列表,得到所述用户的社交图;
步骤1-2根据所述一个用户的社交图获取图中每一用户对应的用户数据,即通过新浪API访问所述用户微博主页,获取所述用户的用户数据,包括用户的个人资料和发表的微博内容;
步骤1-3步骤1-3、根据收集到的所述用户数据,通过人工判别为所述每个用户添加一个标签,将所述用户分类标识为广告用户或普通用户。
进一步地,所述步骤2的具体步骤如下:
步骤2-1、从所述步骤1中得到的所述用户数据中确定可能具有区分度的属性,所述属性能反映所述用户的行为和所述用户发布的内容特点;
步骤2-2、对所述每个属性,绘制所述广告用户和普通用户的比较图,观察所述属性的区分度,所述区分度大小的判断依据是所述广告用户和普通用户在所述属性上的差异性;
步骤2-3、选取所述区分度最大的前20个所述属性作为所述特征属性集。
更进一步地,所述步骤2-1中所述属性包括内容属性和行为属性,是具有明确的数据字段或不定形式的数据,所述明确的字段数据只能取有限个值,如“性别”、“年龄”和“关系”,所述不定形式的数据指用户的文字信息输入,如“关于我”、“兴趣”和“微博内容”。
进一步地,所述步骤3的具体步骤如下:
步骤3-1、使用WEKA对所述特征属性集进行机器学习,进行分类实验;
步骤3-2、利用所述WEKA输出的训练结果,评估各种数据挖掘算法生成的判别模型的性能,所述模型的性能以所述各种数据挖掘算法的准确度和回归度为标准衡量;
步骤3-3、以性能最好的随机森林算法作为最终的训练算法,并训练出用户判别模型。
更进一步地,所述步骤3-1中所述分类实验使用10倍交叉验证进行,在每次试验中,原始样本划分为10个子样本,其中9个作为训练数据,1个用于测试。
更进一步地,所述步骤3-3中所述随机森林算法由多个决策树组成,每个决策树产生算法流程如下:
(a)设置训练类的数量N,分类器中变量的数量M;
(b)m个输入的变量将用于确定在该树的节点所做的决定;m<<M;
(c)通过从N个训练集中以要重复取样的方式选择n(n<N)次来为这棵树选择一个训练集;使用剩下的训练集用来估计这课树的误差;
(d)对于树的每个节点,随机选择m个以此节点作为判断的变量,计算其最佳的分割方式。
本发明提供的微博广告用户检测方法通过对微博用户各个特征的全面分析,训练出来的判别模型的准确度和回归度较高,综合性能较好,解决了新浪自带的检测工具对广告用户十分不灵敏的缺陷。适用于中国社交网络的广告用户判别。
以下将结合附图对本发明的构思、具体流程及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1为本发明所述的一种微博广告用户检测方法的流程示意图;
图2为本发明较佳实施例的收集用户数据流程示意图;
图3为本发明较佳实施例的用户特征抽取流程示意图。
图4为本发明较佳实施例的分类模型训练流程示意图。
具体实施方式
如图1所示,实施例提供了一种微博异常用户检测方法,包括:
步骤1收集微博用户数据,并进行人工类别标识;
步骤2对所述步骤2中的所述用户进行特征抽取,并选取出特征属性集;
步骤3根据步骤1标识好的用户类别以及步骤2抽取的特征属性集,利用数据挖掘分类算法进行模型训练,得到用户判别模型;
步骤4利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测。
以新浪微博为例,对于上述四个步骤,其具体实施步骤描述如下:
第一、收集微博用户数据,并进行人工类别标识。
其具体流程如图2所示,描述如下:
通过新浪API收集用户数据,由用户和他们的粉丝以及他们关注的人得到用户的社交图。数据的收集过程开始从一个用户,获得用户的粉丝和关注者,并加入他们帐户的用户列表,然后选择下一个用户帐户的列表。为了保证随机性的样本,选择不超过1000个粉丝和关注者。第一步是直接解析网页。可以通过登录新浪微博和获取包含用户信息的页面。用这种方法是因为每个用户都有一个个人页面的链接http://weibo.com/userid。“用户名”是一个十进制数,每个用户在新浪微博有一个独特的id。用户数据收集完后进行人工判断将这些用户分为两类:广告用户和普通用户,也可以直接获取新浪微博的“可疑用户”来得到更多的广告用户数据。
第二,进行特征抽取,选取出特征属性集。
具体流程如图3所示,从抓取到的数据中分析那些能反映用户行为的属性以及用户发布的内容特点的属性,并针对他们的区分能力进行筛选,具体步骤如下:
(1)人工确定所有可能具有区分度的属性。如:粉丝数与关注数之比,帐号的申请时间,微博内容是否包含敏感词等等;
(2)对每个属性,通过绘制两种用户的分布来观察该属性的区分度是否够大。区分度大小的判断依据是两种用户在该属性上的差异性。
(3)选取区分度最大的前20个属性作为特征是属性集,用于算法输入。
比较广告用户和普通用户的内容属性和行为属性,可以分析考虑2种数据,在社交网络的个人资料中:
(1)明确的数据字段,只能取有限个值,例如:“性别”,“年龄”,和“关系”等。
(2)不定形式的数据:通常的文字信息输入的用户,例如:“关于我”和“兴趣”,“微博内容”等。
第三,模型训练,得到广告用户判别模型
具体流程如图4所示,主要的步骤如下:
(1)使用WEKA对训练数据集进行机器学习来进行分类实验,分类实验使用10倍交叉验证进行。在每次试验中,原始样本划分为10个子样本,其中9个作为训练数据,1个用于测试。
其中,WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化等。
(2)利用WEKA输出的训练结果(这些结果包含的召回,精度,ROC曲线下面积等等),评估每一个测试算法所生成的模型的预测性能,评估标准主要以高精度、低误报率为准。
(3)以性能最好的随机森林算法作为最终的训练算法,并训练出判别模型。
随机森林算法由许多决策树组成。它输出一个由单个的树的输出所组成的类。
每棵树都由下面的算法产生:
(a)设置训练类的数量N,分类器中变量的数量M.
(b)m个输入的变量将用于确定在该树的节点所做的决定;m<<M
(c)通过从N个训练集中以要重复取样的方式选择n(n<N)次来为这棵树选择一个训练集。使用剩下的训练集用来估计这课树的误差。
(d)对于树的每个节点,随机选择m个以此节点作为判断的变量,计算其最佳的分割方式。
第四,利用步骤3中训练得到的判别模型对微博广告用户进行预测。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (6)

1.一种微博广告用户检测方法,其特征在于,包括以下步骤:
步骤1、收集微博用户数据,并进行人工类别标识;
步骤2、对所述步骤1中的所述用户进行特征抽取,并选取出特征属性集;
步骤3、根据步骤1标识好的用户类别以及步骤2抽取的特征属性集,利用数据挖掘分类算法进行模型训练,得到用户判别模型;
步骤4、利用所述步骤3中训练得到的所述用户判别模型对微博广告用户进行预测;
其中,所述步骤3的具体步骤如下:
步骤3-1、使用WEKA对所述特征属性集进行机器学习,进行分类实验;
步骤3-2、利用所述WEKA输出的训练结果,评估各种数据挖掘分类算法生成的所述用户判别模型的性能,所述模型的性能以所述各种数据挖掘分类算法的准确度和回归度为标准衡量;
步骤3-3、以随机森林算法作为最终的训练算法,训练出所述用户判别模型。
2.如权利要求1所述的微博广告用户检测方法,其中,所述步骤1具体步骤如下:
步骤1-1、通过新浪API收集一个用户的数据,获得所述一个用户的粉丝和关注者,并加入所述粉丝和关注者的账户到用户列表,从所述用户列表中选择下一个用户的账户,并将所述下一个用户的粉丝和关注者的账户加入到用户列表,得到所述一个用户的社交图;
步骤1-2、根据所述一个用户的社交图获取图中每一用户对应的用户数据,即通过新浪API访问所述用户微博主页,获取所述用户的用户数据,包括用户的个人资料和发表的微博内容;
步骤1-3、根据收集到的所述用户数据,通过人工判别为所述每个用户添加一个标签,将所述用户分类标识为广告用户或普通用户。
3.如权利要求1所述的微博广告用户检测方法,其中,所述步骤2的具体步骤如下:
步骤2-1、从所述步骤1中得到的所述用户数据中确定可能具有区分度的属性,所述属性能反映所述用户的行为和所述用户发布的内容特点;
步骤2-2、对所述每个属性,绘制所述广告用户和普通用户的比较图,观察所述属性的区分度,所述区分度大小的判断依据是所述广告用户和普通用户在所述属性上的差异性;
步骤2-3、选取所述区分度最大的前20个所述属性作为所述特征属性集。
4.如权利要求3所述的微博广告用户检测方法,其中,所述步骤2-1中所述属性包括内容属性和行为属性,具有明确的数据字段或不定形式的数据,所述明确的字段数据只能取有限个值,所述不定形式的数据指用户的文字信息输入。
5.如权利要求1所述的微博广告用户检测方法,其中,所述步骤3-1中所述分类实验使用10倍交叉验证进行,在每次试验中,原始样本划分为10个子样本,其中9个作为训练数据,1个用于测试。
6.如权利要求1所述的微博广告用户检测方法,其中,所述步骤3-3中所述随机森林算法由多个决策树组成,每个决策树产生算法流程如下:
(a)设置训练类的数量N,分类器中变量的数量M;
(b)m个输入的变量将用于确定在该树的节点所做的决定;m<<M;
(c)通过从N个训练集中以要重复取样的方式选择n次来为这棵树选择一个训练集,其中n<N;使用剩下的训练集用来估计这课树的误差;
(d)对于树的每个节点,随机选择m个以此节点作为判断的变量,计算其最佳的分割方式。
CN201310410578.XA 2013-09-10 2013-09-10 一种微博广告用户检测方法 Expired - Fee Related CN103458042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310410578.XA CN103458042B (zh) 2013-09-10 2013-09-10 一种微博广告用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310410578.XA CN103458042B (zh) 2013-09-10 2013-09-10 一种微博广告用户检测方法

Publications (2)

Publication Number Publication Date
CN103458042A CN103458042A (zh) 2013-12-18
CN103458042B true CN103458042B (zh) 2016-06-01

Family

ID=49739984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310410578.XA Expired - Fee Related CN103458042B (zh) 2013-09-10 2013-09-10 一种微博广告用户检测方法

Country Status (1)

Country Link
CN (1) CN103458042B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102819B (zh) * 2014-06-27 2017-12-19 北京奇艺世纪科技有限公司 一种用户自然属性的确定方法和装置
CN105281971A (zh) * 2014-07-23 2016-01-27 江苏威盾网络科技有限公司 一种基于可信度的网络账号异常检测方法
CN104298719B (zh) * 2014-09-23 2018-02-27 新浪网技术(中国)有限公司 基于社交行为进行用户的类别划分、广告投放方法和系统
CN106033586B (zh) * 2015-03-17 2020-05-05 北京国双科技有限公司 基于社交平台的分组方法和装置
CN104901847B (zh) * 2015-05-27 2018-10-30 国家计算机网络与信息安全管理中心 一种社交网络僵尸账号检测方法及装置
CN106886518B (zh) * 2015-12-15 2020-10-09 国家计算机网络与信息安全管理中心 一种微博账号分类的方法
CN105893484A (zh) * 2016-03-29 2016-08-24 西安交通大学 一种基于文本特征和行为特征的微博Spammer识别方法
CN106897729B (zh) * 2016-06-28 2020-09-11 阿里巴巴集团控股有限公司 信息识别方法、模型训练方法、装置及处理设备
CN106250532A (zh) * 2016-08-04 2016-12-21 广州优视网络科技有限公司 应用推荐方法、装置及服务器
CN106446146B (zh) * 2016-09-21 2019-05-17 中国国防科技信息中心 一种微博中事件持续关注者的识别模型建立及识别方法
CN108108743B (zh) * 2016-11-24 2022-06-24 百度在线网络技术(北京)有限公司 异常用户识别方法和用于识别异常用户的装置
CN107835113B (zh) * 2017-07-05 2020-09-08 中山大学 一种基于网络映射的社交网络中异常用户检测方法
CN107895277A (zh) * 2017-09-30 2018-04-10 平安科技(深圳)有限公司 在应用程序中推送贷款广告的方法、电子装置及介质
CN110019677A (zh) * 2017-11-30 2019-07-16 南京大学 基于聚类分析的微博广告发布者识别方法及装置
CN108564423A (zh) * 2017-12-28 2018-09-21 携程旅游网络技术(上海)有限公司 票务订单的恶意占位识别方法、系统、设备和存储介质
CN108564380B (zh) * 2018-04-11 2021-07-20 重庆大学 一种基于迭代决策树的电信用户分类方法
CN109739846A (zh) * 2018-12-27 2019-05-10 国电南瑞科技股份有限公司 一种电网数据质量分析方法
CN110096013A (zh) * 2019-05-24 2019-08-06 广东工业大学 一种工业控制系统的入侵检测方法及装置
CN112328866A (zh) * 2019-08-05 2021-02-05 四川大学 一种网络空间安全领域特定用户群体挖掘方法
CN113486243B (zh) * 2021-07-13 2023-09-05 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010144618A1 (en) * 2009-06-09 2010-12-16 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
CN103150374A (zh) * 2013-03-11 2013-06-12 中国科学院信息工程研究所 一种识别微博异常用户的方法和系统
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统

Also Published As

Publication number Publication date
CN103458042A (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
CN103458042B (zh) 一种微博广告用户检测方法
Beskow et al. Bot conversations are different: leveraging network metrics for bot detection in twitter
Ferrara Measuring social spam and the effect of bots on information diffusion in social media
Cao et al. Detecting spam urls in social media via behavioral analysis
Ghosh et al. On sampling the wisdom of crowds: Random vs. expert sampling of the twitter stream
CN103116605B (zh) 一种基于监测子网的微博热点事件实时检测方法及系统
Lehmann et al. Finding news curators in twitter
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
Dewan et al. Facebook Inspector (FbI): Towards automatic real-time detection of malicious content on Facebook
CN105224608A (zh) 基于微博数据分析的热点新闻预测方法及系统
Liu et al. Do rumors diffuse differently from non-rumors? a systematically empirical analysis in sina weibo for rumor identification
CN104090931A (zh) 一种基于网页链接参数分析的信息预测采集方法
CN102609475A (zh) 微博内容监测方法及监测系统
Hanley et al. No calm in the storm: investigating QAnon website relationships
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN105550275A (zh) 一种微博转发量预测方法
Cao et al. Behavioral detection of spam URL sharing: posting patterns versus click patterns
Shafiq et al. Effective packet number for 5G IM wechat application at early stage traffic classification
Cheng et al. ISC: An iterative social based classifier for adult account detection on twitter
CN106411704A (zh) 一种分布式垃圾短信识别方法
Puigbò et al. Influencer detection approaches in social networks: A current state-of-the-art
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
Dan et al. Study of bot detection on Sina-Weibo based on machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Zou Futai

Inventor after: Yao Yushi

Inventor after: Wu Jiawei

Inventor after: Wang Jiahui

Inventor before: Zou Futai

Inventor before: Yao Yushi

Inventor before: Wu Jiawei

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601

Termination date: 20210910

CF01 Termination of patent right due to non-payment of annual fee