CN105893484A - 一种基于文本特征和行为特征的微博Spammer识别方法 - Google Patents

一种基于文本特征和行为特征的微博Spammer识别方法 Download PDF

Info

Publication number
CN105893484A
CN105893484A CN201610187897.2A CN201610187897A CN105893484A CN 105893484 A CN105893484 A CN 105893484A CN 201610187897 A CN201610187897 A CN 201610187897A CN 105893484 A CN105893484 A CN 105893484A
Authority
CN
China
Prior art keywords
user
model
spammer
ratio
behavior characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610187897.2A
Other languages
English (en)
Inventor
刘均
占梦婷
陈浩
米建红
吕彦章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201610187897.2A priority Critical patent/CN105893484A/zh
Publication of CN105893484A publication Critical patent/CN105893484A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种基于用户文本特征和行为特征的微博Spammer识别方法,属于计算机社交网络数据分析技术领域。该方法包括:(1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;(2)多视图特征抽取,抽取文本特征与行为特征;(3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。本发明能够基于多视图分类识别Spammer,解决现有技术不能全面考虑Spammer特征和依赖大量带标签数据的技术缺陷,为后续的社交网络挖掘提供良好的数据集。

Description

一种基于文本特征和行为特征的微博Spammer识别方法
技术领域
本发明属于计算机社交网络数据分析技术领域,具体涉及一种基于文本特征和行为特征的微博Spammer识别方法。
背景技术
随着互联网的发展和普及,Twitter、Facebook、新浪微博等这类通过关注机制分享简短实时信息的广播式的社交网络平台,已经拥有大量注册及参与用户,成为人们社交生活的一个重要参与平台。在线社交网络已经成为人们交友、获取和发布信息的一个重要途径。微博独具的信息多样化、表达自由化、裂变式传播速度等特性,同时也使其成为spammer活跃的主要平台。
在中国影响力最大的社交网络站点新浪微博中,含有大量Spammer用户,这些用户利用微博传播商业广告信息,推销传播自己的思想或恶意窃取他人账户隐私等,向正常用户传递垃圾信息,阻碍了真正有效信息的传播,造成人们无法从大量信息中迅速而准确地找到有用的信息。
Spammer的发帖行为和内容往往都带有某种目的,如有些Spammer出于商业利益重复发帖,这些原因使得Spammer与正常用户在文本和行为特征上存在区别。因而,我们需要通过抽取这些特征来进行Spammer的检测。
现有技术中,公开了一种识别微博异常用户的方法和系统[专利号:CN201310076056.0];在该专利中,系统充分利用了用户微博数据,以用户行为的时间间隔的统计分布做为用户的行为时间特征,生成行为时间特征向量和界定参数,将超出界定参数的待测用户判定为异常用户并对异常用户的内容进行关键词抽取和展示。该发明专利的方法主要解决了异常用户的判定方法,需要大量带标签数据且依赖用户行为数据的完整性,但是,其仍然无法识别与正常用户行为相似的Spammer,如有些Spammer发帖时间与正常用户一致,但其微博内容都是推销商品的,这类用户就无法通过该方法进行识别。
发明内容
本发明的目的在于提供一种基于文本特征和行为特征的微博Spammer识别方法,该方法能够基于多视图分类识别Spammer,为后续的社交网络挖掘提供良好的数据集。
本发明是通过以下技术方案来实现:
本发明公开了一种基于文本特征和行为特征的微博Spammer识别方法,包括以下步骤:
1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;
2)多视图特征抽取,抽取文本特征和行为特征;
3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。
本发明公开的基于文本特征和行为特征的微博Spammer识别方法方法,具体包括以下步骤:
1)获取用户信息元数据
在微博页面,通过爬虫工具获取所得帖子的链接并进行保存,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面解析获取用户信息元数据;
2)多视图特征抽取
抽取文本特征和行为特征;
其中,文本特征抽取包括:用户发帖中的帖子相似度fsim、帖子为转发帖的比例fre、帖子中包含话题标签的比例ftag和帖子中包含URL的比例furl
行为特征抽取包括:用户等级fclass、关注数/粉丝数ffof、帖子中包含@的比例fat和午夜发帖比例fmidn
3)基于多视图分类的Spammer检测
首先,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;
然后,定义实例空间X=X1∪X2,其中X1和X2对应于观察实例的文本特征集和行为特征集,针对文本特征集x1采用SVM作为分类器h1,针对行为特征集x2,采用C4.5作为分类器h2
再次,令带标签的数据构成实例集合L,令未带标签的数据构成实例集合U;在L上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在U上进行标注;
最后,将U中一致性高的实例加入L并从U中删除,重复此过程直至U为空,得到Spammer识别结果。
步骤1)所述的获取用户信息元数据的具体操作为:
第一步,通过爬虫工具selenium启动IE9浏览器,进入微博页面;
第二步,通过selenium的变量current_url获取所得帖子的链接urlp并保存;
第三步,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面中用Beautifulsoup解析出用户信息字段,包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数,并存储在数据库的相应表中;
第四步,通过发帖人user_id,得到粉丝链接和关注列表链接,爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。
第四步中,该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。
步骤2)中,文本特征的抽取具体操作为:
用户发帖中的帖子相似度fsim:采用字符串匹配来统计该用户发帖中每种帖子重复的次数ri,计算公式如下所示:
fsim=max(r1,r2,...);
帖子为转发帖的比例fre:统计该用户所发的所有帖子中为转发帖的比例,计算公式如下所示,其中Nre表示转发帖子的总数,N表示该用户的总发贴数:
f r e = N r e N ;
帖子中包含话题标签的比例ftag:统计该用户所发的所有帖子中包含话题标签“##”帖子的比例,计算公式如下所示,其中Ntag表示包含话题标签的帖子的总数:
f t a g = N t a g N ;
帖子中包含URL的比例furl:统计该用户所发的所有帖子中包含URL帖子的比例,计算公式如下所示,其中Nurl表示包含URL的帖子的总数:
f u r l = N u r l N .
步骤2)中,行为特征的抽取具体操作为:
用户等级fclass:直接从用户元数据中获取;
关注数/粉丝数ffof:直接从用户元数据中获取该用户的关注数Nfollowee、粉丝数Nfollower,计算公式如下所示:
f f o f = N f o l l o w e e N f o l l o w e r ;
帖子中包含@的比例fat:统计用户所发的所有帖子中为包含“@”的帖子的比例,计算公式如下所示,其中Nat表示包含“@”的帖子的总数:
f a t = N a t N ;
午夜发帖比例fmidn:统计用户在午夜,24:00~6:00时间段内发帖数占总发帖数的比例,计算公式如下所示,其中Nmidn表示午夜发帖总数:
f m i d n = N m i d n N .
步骤3)所述基于多视图分类的Spammer检测的具体操作如下:
第一步,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;输出是一个函数h:X×Y→[0,1],h(x,y)是一个条件概率p(x|y)的估计值;定义实例空间X=X1∪X2,X1和X2对应于观察实例的两个不同“视图”,即文本特征和行为特征;f代表在所有实例上的组合目标概念,对于任何观测到标记为1的实例,都有f(X)=f(X1)=f(X2)=1;设n个实例中前m个有标签yi,而i=m+1…n的实例未带标签;找出函数f,满足f(x1i,x2i)=yi,满足:
当i=1…m时,f1(x1,i)=f2(x2,i)=yi
当i=m+1…n时,f1(x1,i)=f2(x2,i);
令带标签的数据构成实例集合L,未带标签的数据构成实例集合U;
第二步,从U中随机选择u个实例构成集合U’;
第三步,使用L训练只考虑x的x1部分的分类器h1;使用L训练只考虑x的x2部分的分类器h2,其中针对文本特征x1,采用SVM作为分类器h1,针对行为特征x2,采用C4.5作为分类器h2
第四步,用h1来标注U’得到p1个正例和n1个反例;用h2来标注U’得到p2个正例和n2个反例;
第五步,选取p1,p2和n1,n2中一致性高的实例作为正确分类的带标签实例加入L并从U’中删除;
第六步,若U和U’不收敛,转至第三步继续执行;反之,Spammer识别结束。
与现有技术相比,本发明具有以下有益的技术效果:
本发明公开的基于用户文本特征和行为特征的微博Spammer识别方法,首先,通过抽取用户的文本特征和行为特征,考虑了用户的行为和发帖内容两方面信息。同时,采用多视图分类器进行识别,使用少量的带标签数据进行训练,将测试结果正确的可能性较大的未带标签用户加入带标签数据集中再次进行训练,直至结果收敛,解决了带标签微博用户数据集量少、获得困难、人工标记成本较大的问题。与现有相关方法的显著效果是:可以完成基于文本特征和行为特征对微博Spammer的识别,并且不需要大量带标签用户数据。本发明方法能够基于多视图分类识别Spammer,为后续的社交网络挖掘提供良好的数据集。
附图说明
图1为基于文本语义和行为特征的微博Spammer识别的流程示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
新浪微博上基于用户文本特征和行为特征的微博Spammer识别方法的实现过程如图1所示,可以分为如下3个过程:
(1)用户信息元数据获取,包括4个步骤。
第1步:通过爬虫工具selenium启动IE9浏览器,进入新浪微博页面http://s.weibo.com/,选择“综合”搜索查询接口;
第2步:根据搜索结果显示的帖子列表,通过selenium的变量current_url获取所得帖子的链接urlp并保存;
第3步:从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面中用Beautifulsoup解析出用户信息字段,包括用户id、用户名、关注数、粉丝数,利用Beautifulsoup定位标签<div class="WB_cardwrap S_bg2">,解析出该用户所发的帖子,针对每个帖子解析出所需字段,包括“帖子id(post_id)、帖子内容、发帖时间、评论数、转发数”,存储在数据库的相应表中;
第4步:通过发帖人的user_id,得到好友关系(粉丝和关注列表)链接,爬取该用户的关注和粉丝用户相应数据(用户信息、用户所发帖子信息)存储在数据库的相应表中。
这些步骤的流程如图1用户元数据获取所示。
(2)用户多视图特征抽取,包括2个步骤。
第1步:在文本特征上抽取的特征为:用户发帖中的帖子相似度、帖子为转发帖的比例、帖子中包含话题标签的比例和帖子中包含URL的比例。文本特征的抽取方法如下所示:
帖子相似度(fsim):采用字符串匹配来统计该用户发帖中每种帖子的相似度,对每条发帖,其帖子相似度为其所有发帖中的最大重复次数ri,计算公式如下所示:
fsim=max(r1,r2,...)
帖子为转发帖的比例(fre):统计该用户所发的所有帖子中为转发帖的比例,计算公式如下所示,其中Nre表示转发帖子的总数,N表示该用户的总发贴数:
f r e = N r e N
帖子中包含话题标签的比例(ftag):统计该用户所发的所有帖子中包含话题标签(“##”)帖子的比例,话题”是一类特殊的微博,里面必须包含将关键字放在两个“#”号之间的一段形式,后面再加上自己想写的内容,例用户可以通过点击“#...#”里的文字看到所有谈论过这个话题的微博。计算公式如下所示,其中Ntag表示包含话题标签的帖子的总数:
f t a g = N t a g N
帖子中包含URL的比例(furl):统计该用户所发的所有帖子中包含URL帖子的比例,计算公式如下所示,其中Nurl表示包含URL的帖子的总数:
f u r l = N u r l N
第2步:在行为特征上抽取的特征为:用户等级、关注数/粉丝数、帖子中包含@的比例和午夜发帖比例,抽取方法如下所示。
用户等级(fclass):直接从用户元数据中获取。
关注数/粉丝数(ffof):直接从用户元数据中获取该用户的关注数Nfollowee、粉丝数Nfollower,计算公式如下所示:
f f o f = N f o l l o w e e N f o l l o w e r
帖子中包含@的比例(fat):统计用户所发的所有帖子中为包含“@”的帖子的比例,微博中存在一个用户交互的功能@,在微博中的意思是“向某某人说”,这一功能的使用户之间的交流有了更强的针对性。微博中包含“@昵称”的时,用户名为该昵称的用户就能看到这条微博;用户可以通过微博中“@昵称”的信息,直接点击昵称进入到这个用户的个人页面;用户可以在“我的首页”右侧中“提到我的微博”中查看所有@此用户的微博;计算公式如下所示,其中Nat表示包含“@”的帖子的总数:
f a t = N a t N
午夜发帖比例(fmidn):统计用户在午夜(24:00~6:00)时间段内发帖数占总发帖数的比例,计算公式如下所示,其中Nmidn表示午夜发帖总数:
f m i d n = N m i d n N
这些步骤的流程如图1多视图特征抽取所示。
(3)基于多视图分类的Spammer检测的方法,包括6个步骤。
第1步:将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型。输出是一个函数h:X×Y→[0,1],h(x,y)是一个条件概率p(x|y)的估计值。定义实例空间X=X1∪X2,其中X1和X2对应于观察实例的两个不同“角度”(文本特征和行为特征),f代表在所有实例上的组合目标概念,对于任何观测到标记为1的实例,都有f(X)=f(X1)=f(X2)=1。设n个实例中前m个有标签yi,而i=m+1…n的实例未带标签。学习的任务是找出函数f,满足f(x1i,x2i)=yi,满足:
当i=1…m时,f1(x1,i)=f2(x2,i)=yi
当i=m+1…n时,f1(x1,i)=f2(x2,i);
将带标签的数据构成实例集合L,未带标签的数据构成实例集合U;
第2步:从U中随机选择u个实例构成集合U’;
第3步:使用L训练只考虑x的x1部分的分类器h1;使用L训练只考虑x的x2部分的分类器h2,其中针对文本特征(x1)采用SVM作为分类器(h1),针对行为特征(x2)采用C4.5作为分类器(h2);
第4步:用h1来标注U’得到p1个正例和n1个反例;用h2来标注U’得到p2个正例和n2个反例;
第5步:选取p1,p2和n1,n2中一致性较高的实例作为正确分类的带标签实例加入L并从U’中删除;
第6步:若U和U’不收敛,转至第3步继续执行;反之,Spammer检测结束。
上述有关本方法的内容的叙述也给出了一个本方法的实例,但本方法不局限与这一实例和附图所公开的内容,凡是未脱离本方法的精神所完成的等效或修改,都落入本方法保护的范围。

Claims (7)

1.一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,包括以下步骤:
1)用户信息元数据获取,通过爬虫工具selenium获得相应的用户链接,在用户页面解析获取用户信息元数据;
2)多视图特征抽取,抽取文本特征和行为特征;
3)基于多视图分类的Spammer检测,在带标签的数据构成实例集合上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在未带标签的数据集合上进行标注,得到Spammer识别结果。
2.根据权利要求1所述的基于文本特征和行为特征的微博Spammer识别方法,其特征在于,包括以下步骤:
1)获取用户信息元数据
在微博页面,通过爬虫工具获取所得帖子的链接并进行保存,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面解析获取用户信息元数据;
2)多视图特征抽取
抽取文本特征和行为特征;
其中,文本特征抽取包括:用户发帖中的帖子相似度fsim、帖子为转发帖的比例fre、帖子中包含话题标签的比例ftag和帖子中包含URL的比例furl
行为特征抽取包括:用户等级fclass、关注数/粉丝数ffof、帖子中包含@的比例fat和午夜发帖比例fmidn
3)基于多视图分类的Spammer检测
首先,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;
然后,定义实例空间X=X1∪X2,其中X1和X2对应于观察实例的文本特征集和行为特征集,针对文本特征集x1采用SVM作为分类器h1,针对行为特征集x2,采用C4.5作为分类器h2
再次,令带标签的数据构成实例集合L,令未带标签的数据构成实例集合U;在L上根据多视图特征分别同步训练两个分类器,并使用训练所得分类器在U上进行标注;
最后,将U中一致性高的实例加入L并从U中删除,重复此过程直至U为空,得到Spammer识别结果。
3.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤1)所述的获取用户信息元数据的具体操作为:
第一步,通过爬虫工具selenium启动IE9浏览器,进入微博页面;
第二步,通过selenium的变量current_url获取所得帖子的链接urlp并保存;
第三步,从保存的帖子链接中逐一提取链接获得相应的用户链接,在用户页面中用Beautifulsoup解析出用户信息字段,包括用户id、用户名、关注数、粉丝数和每个帖子的帖子id、帖子内容、发帖时间、评论数、转发数,并存储在数据库的相应表中;
第四步,通过发帖人user_id,得到粉丝链接和关注列表链接,爬取该用户的关注和粉丝用户相应数据并存储在数据库的相应表中。
4.根据权利要求3所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,第四步中,该用户的关注和粉丝用户相应数据包括用户信息、用户所发帖子信息。
5.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤2)中,文本特征的抽取具体操作为:
用户发帖中的帖子相似度fsim:采用字符串匹配来统计该用户发帖中每种帖子重复的次数ri,计算公式如下所示:
fsim=max(r1,r2,...);
帖子为转发帖的比例fre:统计该用户所发的所有帖子中为转发帖的比例,计算公式如下所示,其中Nre表示转发帖子的总数,N表示该用户的总发贴数:
f r e = N r e N ;
帖子中包含话题标签的比例ftag:统计该用户所发的所有帖子中包含话题标签“##”帖子的比例,计算公式如下所示,其中Ntag表示包含话题标签的帖子的总数:
f t a g = N t a g N ;
帖子中包含URL的比例furl:统计该用户所发的所有帖子中包含URL帖子的比例,计算公式如下所示,其中Nurl表示包含URL的帖子的总数:
f u r l = N u r l N .
6.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤2)中,行为特征的抽取具体操作为:
用户等级fclass:直接从用户元数据中获取;
关注数/粉丝数ffof:直接从用户元数据中获取该用户的关注数Nfollowee、粉丝数Nfollower,计算公式如下所示:
f f o f = N f o l l o w e e N f o l l o w e r ;
帖子中包含@的比例fat:统计用户所发的所有帖子中为包含“@”的帖子的比例,计算公式如下所示,其中Nat表示包含“@”的帖子的总数:
f a t = N a t N ;
午夜发帖比例fmidn:统计用户在午夜,24:00~6:00时间段内发帖数占总发帖数的比例,计算公式如下所示,其中Nmidn表示午夜发帖总数:
f m i d n = N m i d n N .
7.根据权利要求2所述的一种基于文本特征和行为特征的微博Spammer识别方法,其特征在于,步骤3)所述基于多视图分类的Spammer检测的具体操作如下:
第一步,将每个用户表示为(x,y),其中x为属性集,y是该实例所代表的类型;输出是一个函数h:X×Y→[0,1],h(x,y)是一个条件概率p(x|y)的估计值;定义实例空间X=X1∪X2,X1和X2对应于观察实例的两个不同“视图”,即文本特征和行为特征;f代表在所有实例上的组合目标概念,对于任何观测到标记为1的实例,都有f(X)=f(X1)=f(X2)=1;设n个实例中前m个有标签yi,而i=m+1…n的实例未带标签;找出函数f,满足f(x1i,x2i)=yi,满足:
当i=1…m时,f1(x1,i)=f2(x2,i)=yi
当i=m+1…n时,f1(x1,i)=f2(x2,i);
令带标签的数据构成实例集合L,未带标签的数据构成实例集合U;
第二步,从U中随机选择u个实例构成集合U’;
第三步,使用L训练只考虑x的x1部分的分类器h1;使用L训练只考虑x的x2部分的分类器h2,其中针对文本特征x1,采用SVM作为分类器h1,针对行为特征x2,采用C4.5作为分类器h2
第四步,用h1来标注U’得到p1个正例和n1个反例;用h2来标注U’得到p2个正例和n2个反例;
第五步,选取p1,p2和n1,n2中一致性高的实例作为正确分类的带标签实例加入L并从U’中删除;
第六步,若U和U’不收敛,转至第三步继续执行;反之,Spammer识别结束。
CN201610187897.2A 2016-03-29 2016-03-29 一种基于文本特征和行为特征的微博Spammer识别方法 Pending CN105893484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610187897.2A CN105893484A (zh) 2016-03-29 2016-03-29 一种基于文本特征和行为特征的微博Spammer识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610187897.2A CN105893484A (zh) 2016-03-29 2016-03-29 一种基于文本特征和行为特征的微博Spammer识别方法

Publications (1)

Publication Number Publication Date
CN105893484A true CN105893484A (zh) 2016-08-24

Family

ID=57014646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610187897.2A Pending CN105893484A (zh) 2016-03-29 2016-03-29 一种基于文本特征和行为特征的微博Spammer识别方法

Country Status (1)

Country Link
CN (1) CN105893484A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484775A (zh) * 2016-09-12 2017-03-08 北京量科邦信息技术有限公司 一种基于selenium的爬虫抓取方法及系统
CN106557983A (zh) * 2016-11-18 2017-04-05 重庆邮电大学 一种基于模糊多类svm的微博垃圾用户检测方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN107330081A (zh) * 2017-07-03 2017-11-07 深圳市比量科技传媒有限公司 一种信息特征提取方法
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法
CN110727861A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于微博水军识别的方法与设备
CN110956210A (zh) * 2019-11-29 2020-04-03 重庆邮电大学 一种基于ap聚类的半监督网络水军识别方法及系统
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN112989799A (zh) * 2021-04-26 2021-06-18 扆亮海 微博数据流演化主题建模文档聚类解析法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069732A1 (en) * 2004-09-07 2006-03-30 Marvin Shannon Systems and Methods to Rank Electronic Messages and Detect Spammer Probe Accounts
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
US20130247192A1 (en) * 2011-03-01 2013-09-19 Sven Krasser System and method for botnet detection by comprehensive email behavioral analysis
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069732A1 (en) * 2004-09-07 2006-03-30 Marvin Shannon Systems and Methods to Rank Electronic Messages and Detect Spammer Probe Accounts
US20130247192A1 (en) * 2011-03-01 2013-09-19 Sven Krasser System and method for botnet detection by comprehensive email behavioral analysis
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
CN103117891A (zh) * 2013-01-18 2013-05-22 武汉大学 微博平台上的僵尸用户探测方法
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104077417A (zh) * 2014-07-18 2014-10-01 中国科学院计算技术研究所 社交网络中的人物标签推荐方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何锦潮: "微博垃圾信息大规模爆发的检测方法研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
马英财: "社交网络下的垃圾信息过滤技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484775A (zh) * 2016-09-12 2017-03-08 北京量科邦信息技术有限公司 一种基于selenium的爬虫抓取方法及系统
CN106557983A (zh) * 2016-11-18 2017-04-05 重庆邮电大学 一种基于模糊多类svm的微博垃圾用户检测方法
CN106557983B (zh) * 2016-11-18 2020-11-17 重庆邮电大学 一种基于模糊多类svm的微博垃圾用户检测方法
CN106991160B (zh) * 2017-03-30 2020-07-24 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN106991160A (zh) * 2017-03-30 2017-07-28 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN107330081A (zh) * 2017-07-03 2017-11-07 深圳市比量科技传媒有限公司 一种信息特征提取方法
CN108269122A (zh) * 2017-12-29 2018-07-10 广东神马搜索科技有限公司 广告的相似度处理方法和装置
CN110347897A (zh) * 2019-06-28 2019-10-18 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法
CN110347897B (zh) * 2019-06-28 2021-09-21 哈尔滨理工大学 基于事件检测的微博网络情感社区识别方法
CN110727861A (zh) * 2019-09-23 2020-01-24 上海蜜度信息技术有限公司 用于微博水军识别的方法与设备
CN110956210A (zh) * 2019-11-29 2020-04-03 重庆邮电大学 一种基于ap聚类的半监督网络水军识别方法及系统
CN110956210B (zh) * 2019-11-29 2023-03-28 重庆邮电大学 一种基于ap聚类的半监督网络水军识别方法及系统
CN111259140A (zh) * 2020-01-13 2020-06-09 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN111259140B (zh) * 2020-01-13 2023-07-28 长沙理工大学 一种基于lstm多实体特征融合的虚假评论检测方法
CN112989799A (zh) * 2021-04-26 2021-06-18 扆亮海 微博数据流演化主题建模文档聚类解析法

Similar Documents

Publication Publication Date Title
CN105893484A (zh) 一种基于文本特征和行为特征的微博Spammer识别方法
Lee et al. Uncovering social spammers: social honeypots+ machine learning
Ferrara Measuring social spam and the effect of bots on information diffusion in social media
CN106886518B (zh) 一种微博账号分类的方法
CN106126582A (zh) 推荐方法及装置
CN102902821B (zh) 基于网络热点话题的图像高级语义标注、检索方法及装置
WO2017211051A1 (zh) 目标对象的社交账号挖掘方法、服务器和存储介质
CN106940732A (zh) 一种面向微博的疑似水军发现方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN105045857A (zh) 一种社交网络谣言识别方法及系统
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN104376010B (zh) 用户推荐方法和装置
KR20160055930A (ko) 연속적인 소셜 커뮤니케이션에 사용되는 콘텐츠를 능동적으로 구성하기 위한 시스템 및 방법
CN102195899B (zh) 通信网络的信息挖掘方法与系统
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN107169063A (zh) 一种基于社交信息的用户属性预测方法与系统
CN104008203A (zh) 一种融入本体情境的用户兴趣挖掘方法
CN112771564A (zh) 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎
Song et al. Who are the spoilers in social media marketing? Incremental learning of latent semantics for social spam detection
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN110287405A (zh) 情感分析的方法、装置和存储介质
Tiwari et al. Not everything you read is true! Fake news detection using machine learning algorithms
CN105447144A (zh) 基于大数据分析技术的微博转发可视化分析方法及系统
Khun et al. Visualization of Twitter sentiment during the period of US banned huawei
US8620918B1 (en) Contextual text interpretation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication