CN108009220A - 一种网络热点舆情事件中检测和定位异常用户的方法 - Google Patents
一种网络热点舆情事件中检测和定位异常用户的方法 Download PDFInfo
- Publication number
- CN108009220A CN108009220A CN201711172800.1A CN201711172800A CN108009220A CN 108009220 A CN108009220 A CN 108009220A CN 201711172800 A CN201711172800 A CN 201711172800A CN 108009220 A CN108009220 A CN 108009220A
- Authority
- CN
- China
- Prior art keywords
- user
- abnormal
- text
- candidate
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 239000006185 dispersion Substances 0.000 claims abstract description 4
- 239000002131 composite material Substances 0.000 claims description 10
- 230000008451 emotion Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000010903 husk Substances 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000056139 Brassica cretica Species 0.000 description 1
- 235000003351 Brassica cretica Nutrition 0.000 description 1
- 235000003343 Brassica rupestris Nutrition 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- QKSKPIVNLNLAAV-UHFFFAOYSA-N bis(2-chloroethyl) sulfide Chemical compound ClCCSCCCl QKSKPIVNLNLAAV-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 235000010460 mustard Nutrition 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络热点舆情事件中检测和定位异常用户的方法,该方法通过将网络热点舆情事件中的文本数据,从热度、文章作者离散度差异、简单文章比例差异、新注册ID比例以及地域分布等特征进行综合分析,判断出事件是否存在异常用户。并通过分析事件相关用户的互动情况,构建用户协作网络,从而分析出异常用户群,最后得到事件中被炒作次数最多TOPN的用户列表以及异常用户的TOPN列表。本发明具有可扩展性好、实现简单的优点。
Description
技术领域
本发明属于信息处理技术领域,涉及一种网络热点舆情事件中检测和定位异常用户的方法。
背景技术
中国正处在一个爆发式发展的网络时代中,任何人都可以成为网络信息的发布者和舆情演化的参与者这在方便人们交流的同时,也产生了一些诸如色情、暴力、虚假信息等混乱现象,甚至有些组织或团体,幕后推动舆论,制造出一些人为网络热点事件,混淆视听。这些人为热点事件和虚假信息一样,肆意挥霍着网民的信任,造成了互联网的信任危机。更有甚者,由于我国目前正处于政治经济制度的转型时期,快速发展的同时也必然会产生一些社会矛盾和问题,如果一些异常用户(比如网络推手),煽动网民情绪,挟制舆论导向,恶意攻击政府和社会,便会造成一些不应有的恶劣影响。
因此对人为推动的网络热点事件进行研究,总结出人为推动事件与普通网络热点事件的不同特征,从而在一个网络热点事件爆发时,能够首先有效地甄别出热点事件的爆发是网民意志的自然体现,还是某些团体在幕后推动的结果,然后再做出不同的应对,才能够使网络热点事件得到更好的解决。
发明内容
发明目的:本发明所要解决的技术问题是针对现有分析方法不足,提供一种针对网络热点舆情事件既能检测是否存在异常用户(比如网络推手),又能准确定位异常用户的方法。该方法可以应用于舆情监测等领域中。
技术方案:本发明主要步骤如下:
步骤1,获取网络热点舆情事件中的发文数据(数据来源包括新闻、微博、论坛、贴吧、移动APP以及微信等);
步骤2,根据热度统计获取可能存在异常用户的时间段,针对该时间段内的数据进行特征分析,得到特征值;
步骤3,将特征值通过动态加权求和得到推动综合指数,根据综合指数判断是否存在异常用户,如果存在,执行步骤4,否则返回步骤1;
步骤4,将步骤2特征分析过程中得到的用户ID作为候选用户ID;
步骤5,计算候选用户ID两两之间的用户协作度,根据用户协作度构建用户协作网络,去除用户协作网络中用户协作度低于阈值的边,获得异常用户群;
步骤6,统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的次数,按由高到低排序,获得被炒作用户TOPN列表,计算异常用户群中各用户节点的介数值,获得当前网络热点舆情事件中的异常用户TOPN(最异常的前N个用户)列表,定位到具体的异常用户。被炒作用户是被异常用户通过评论、跟帖、转发行为在事件中较为突出的用户,异常用户则是通过自身网络行为推动网络舆情事件的用户。
步骤2包括如下步骤:
步骤2-1,根据文本数据的发布时间,按照一定时间间隔进行统计,计算文本数据增长率(下一个时间间隔的数据量相对于上一个时间间隔的数据量增长的百分比),将文本数据增长率大于阈值(如50%以上)的连续时间间隔组成的时间段作为可能存在异常用户的时间段T,平均增长率作为特征A1;
步骤2-2,对时间段T内的文本数据,根据发布作者进行统计,计算文章作者离散度差异(即主推用户ID发文数量占总文章数量的比例),将发文超过一定数量(如5 篇及以上)的用户ID判定为是主推用户ID,用主推用户ID发布文章数量占事件中所有用户发文总数量的比例作为特征A2;
步骤2-3,对时间段T内的文本数据,将文本字符数小于一定阈值(一般设为10 个字符)的文本判定为是短文本,将文本编辑距离小于一定值且出现两次以上的文本判定为是重复文本,这两类文本统称为简单文章,将简单文章所占文本数据的比例作为特征A3;
步骤2-4,对时间段T内的文本数据,根据发布作者的注册时间,将注册时间早于一个时间点(如事件发生时间前一个月)的ID判定为是新注册用户ID,新注册用户ID 占发布作者的比例作为特征A4;
步骤2-5,对时间段T内的文本数据,根据发布作者的地域或者IP进行统计,发布作者数量最多的地域或者IP的发布者数量占总的发布者数量比例作为特征A5。
步骤3包括如下步骤:根据特征维度,设置依次从大到小的权值,每个权值对应的特征值不固定,由于特征值计算时出现一两个较为明显的特征,就有很大的可能性存在异常用户,故权值对应的特征值也按从大到小对应,大的权值对应大的特征值,进行动态加权求和,求得推动综合指数,当指数大于一定阈值(一般设为0.2),则判定存在异常用户,计算方法如公式1所示:
其中Ai为步骤2计算得到的特征值,n为特征数量,取值为5,ωi对应特征值Ai的权重,若ω4>ω3>ω2>ω1且A4>A3>A2>A1,则ω4对应A4,ω3对应A3,ω2对应 A2,
ω1对应A1。
步骤4包括如下步骤:
将发文数量超过一定阈值(一般为5篇)的用户ID作为候选用户ID;
将发表简单文本和重复文本数量及比例超过一定阈值(比例超过50%且数量超过3 篇以上)的用户ID作为候选用户ID;
将发表过情感极性大于阈值(情感极性绝对值大于5)或者发表过敏感文本的用户ID作为候选用户ID;
将新注册用户ID和热点地域(即某地域用户数占参与事件用户数比例最高的地域) 用户ID作为候选用户ID。
步骤5包括如下步骤:
步骤5-1,通过如下公式计算用户协作度:
其中UCAB为候选用户A与候选用户B的用户协作度,nA为候选用户A发表的文章数量,nB为候选用户B发表的文章数量,nA∩nB则为候选用户A与候选用户B统计时间段T内两个用户之间共同评论、跟帖或者转发的文章数量的杰卡德距离,EAi和 EBi分别为用户A对主帖i发文的情感向量和用户B对主帖i发文的情感向量,为用户A与用户B对共同评论、跟帖或者转发的文章情感极性的余弦相似度的计算[1],两者乘积的绝对值作为用户协作网络;
步骤5-2,整个候选用户集两两用户构成一条边,用户协作度通过一定阈值(一般可设置为0.2)的筛选,去除用户协作网络中用户协作度较低的边,得到两个以上相互不连通的子图,每个连通子图则为一个异常用户群。
步骤6包括如下步骤:
步骤6-1,统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的次数,按由高到低排序,获得被炒作用户TOPN列表;
步骤6-2,通过弗洛伊德算法,获取异常用户群中所有用户两两之间的最短路径[2],得出经过每个用户的最短路径数,从而计算异常用户群中各用户节点的介数值[3],根据介数值倒序排序获得当前网络热点舆情事件中的异常用户TOPN列表。
引用文献:[1]项亮.推荐系统实践[M].人民邮电出版社,2012.
[2]沙克尔福德.计算与算法导论[M].电子工业出版社,2003.
[3]Ulrik Brandes.Afaster algorithm for betweenness centrality*[J].Journal of Mathematical Sociology,2001,25(2):163-177.
有益效果:本发明具有如下优点:
1、本发明实施例提供的检测和定位异常用户的方法,通过对网络热点舆情事件中的文本进行特征分析,并使用动态加权求和的方法计算出推动综合指数来检测是否存在异常用户,该检测方法特征维度和内容没有限定,可扩展性好;且通过构建用户协作网络,得出异常用户群,并进一步分析得出被炒作和异常用户TOPN列表计算,该定位方法简单且提高了定位的精度。
2、本发明实施例可以通过更改不同的特征体系,可适用于微博、博客、论坛、贴吧、新闻网站、微信以及新闻app等不同类型的网站或者移动客户端,可应用范围广泛。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明的方法整体流程示意图。
图2是本发明的检测异常用户流程示意图。
图3是本发明的定位异常用户流程示意图。
图4为某明星事件历史新闻截图。
图5为某明星事件的热度图。
图6为网络推手群示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本发明提供的一种检测和定为异常用户方法的整体步骤如下:
S1、获取网络热点舆情事件中的文本数据,来源包括新闻、微博、论坛、贴吧、移动APP以及微信等;
S2、根据热度统计获取可能异常用户活跃的时间段,针对该时间段内的文本数据进行特征计算,包括热度分析、文章作者离散度差异、简单文章比例差异、新注册ID比例以及地域分布等;
S3、通过动态加权求和的方法,求得推动综合指数,根据综合指数判断是否存在异常用户,若存在则进行异常用户定位;
S4、将特征分析过程中得到的主推ID、发表简单文章超过一定数量及比例的ID、发表过情感极性较高或者敏感文本的ID,新注册ID以及热点地域ID作为候选ID;
S5、根据候选ID之间互动所发表文本的情感极性的相似度与两者之间互动发文所占比例计算得出候选ID两两之间的用户协作度,从而构建用户协作网络,通过一定阈值的筛选,去除用户协作度较低的边,获得异常用户群;
S6、统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的频率,获得被炒作用户列表TOPN列表,计算异常用户群中各用户节点的介数值,获得当前网络热点舆情事件中的异常用户TOPN列表。
上述检测和定位异常用户的方法,通过步骤S1-S6,通过对网络热点舆情事件中的文本进行特征分析,并使用动态加权求和的方法计算出推动综合指数来检测是否存在异常用户,该检测方法特征维度和内容没有限定,可扩展性好;且通过构建用户协作网络,得出异常用户群,并进一步分析得出被炒作和异常用户TOPN列表计算,该定位方法简单且提高了定位的精度。另外通过更改不同的特征体系,可适用于微博、博客、论坛、贴吧、新闻网站、微信以及新闻app等不同类型的网站或者移动客户端,应用范围广泛。上述方法维护成本低、可大规模运用,为网络热点舆情事件中检测和定位异常用户提供了支撑。
上述步骤S1中的获取网络热点舆情事件中的文本数据的步骤包括:
S11、利用爬虫程序获取舆情事件发生时间段内的所有数据,包括正文文本、作者信息、发布时间等,并通过技术人员自定义的数据模板将不同来源的数据统一进行转换。
S12、利用solr或其他索引开源工具,将转换后数据的各个字段建立索引,数据正文等较大的字段需要进行摘要抽取后建立索引,原始正文信息可以录入Hbase或其他开源存储工具。
上述获取数据方法,通过步骤S11-S12,可以将微博、博客、论坛、贴吧、新闻网站、微信以及新闻app等不同类型的网站或者移动客户端的数据建立统一索引和存储。
上述步骤S2的具体方法包括以下步骤:
S21、实现一个类FeatureStat类,实现特征分析计算;
S22、在类FeatureStat的timeNum(Date,Date)方法中,将当前舆情事件中起止时间内所有发文数据按照一定时间间隔(一小时、四小时或者天)进行发文数量统计,并将数据增长率大于某个阈值的连续区间作为可能存在异常用户的时间段;
S23、在类FeatureStat的userNum(Date,Date,Date)方法中,统计在S22步骤中得到的可能存在异常用户的时间段内每个网站每个发表过言论的用户信息,包括用户的注册时间和用户的地域或者IP,最后计算得出新注册ID的比例以及各地域的用户数比例。
S24、在类FeatureStat的user_action_num(Date,Date)方法中,统计在S22步骤中得到的可能存在异常用户的时间段内每个网站每个用户发文的数量,将发文数量大于一定阈值的用户当作主推ID,最后计算得出主推ID的比例。
S25、在类FeatureStat的user_content(Date,Date)方法中,统计在S22步骤中得到的可能存在异常用户的时间段内每个网站每个用户发文的简单文章的比例,简单文章包含文本少于一定字符数的短文本以及在统计时间段内重复次数较高的重复文本,当前方法中对于重复的定义为编辑距离小于3的文本。
本领域的技术人员应当理解,检测存在异常用户的方法并不限于上述通过类FeatureStat统计的几个特征,也可以提出其他特征来描述异常用户现象。
上述步骤S3包括:
S31、在类IsNeedToDetect中,根据S2步骤中的特征维度,设置相应数量的权值,权值由大到小排序,将S2步骤中计算得到的特征值也由大到小排序,大的特征值对应大的权值,由此动态加权求和。
S32、动态加权求和得出来的值大于一定阈值则认为当前网络热点舆情事件中存在异常用户现象。
如S2步骤中所述,特征维度可以扩展,相应的S3中的权值也可以跟随特征维度的扩展而增加。S2和S3步骤主要是用于检测事件中是否存在异常用户,其示意图如图 2所示。
上述步骤S4中,获取异常用户候选ID的步骤包括:
S41、在类DetectPromoter中的getCandidate(Date,Date)方法中将发文数量超过一定阈值的ID作为候选ID。
S42、将发表简单文本和重复文本数量及比例超过一定阈值的作为候选ID。
S43、将发表过情感极性大于某个阈值或者发表过敏感文本的ID作为候选ID。
S44、将新注册ID和热点地域ID作为候选ID。
上述步骤S5中构建用户协作网络,进而得到异常用户群的步骤包括:
S51、在类DetectPromoter中的calActionSimilarity(String,String)方法中,通过计算统计时间段内两个用户之间共同评论、跟帖或者转发的文章数量的杰卡德距离和情感相似度的乘积作为用户之间的协作关系。具体计算方法如公式1所示
其中UCAB为候选用户A与候选用户B的用户协作度,nA为候选用户A发表的文章数量,nB为候选用户B发表的文章数量,nA∩nB则为用户A与用户B统计时间段内两个用户之间共同评论、跟帖或者转发的文章数量的杰卡德距离,后半部分为用户A与用户B对共同评论、跟帖或者转发的文章情感极性的相似度的计算,两者乘积的绝对值作为用户协作网络,绝对值是因为用户之间进行炒作可能是共同推即情感极性相同向 1接近,也可能是互相争吵引起争论或者围观那情感极性相似度则向-1接近。
S52、在类DetectPromoter中的judge(double,Date,Date)方法中,通过一定阈值的筛选,去除用户协作度较低的边,得到多个相互不连通的连通子图,每个连通子图则为一个异常用户群。
上述步骤S6可以包括:
S61、在类DetectPromoter中manHidden()方法中统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的频率,获得被炒作用户TOPN列表。
S62、在类DetectPromoter中manInterupt()方法中通过弗洛伊德算法,获取异常用户群中所有用户两两之间的最短路径,从而可以得出经过每个用户的最短路径数,从而计算异常用户群中各用户节点的介数值,根据介数值倒序排序获得当前网络热点舆情事件中的异常用户TOPN列表。
如图3所示,S4、S5以及S6步骤主要是用于在已经检测出事件中存在异常用户的前提下,定位事件中的异常用户。
实施例
通过观察发现在2016年12月12日14:00后,话题“某明星不拍戏就蹲着”四个小时内在新浪微博热搜话题排名迅速升高至前三名,并持续占据热搜至第二天下午 20:00左右,但该话题早在几个月前就出现过,如图4所示,故该话题有很高的炒作嫌疑。
通过新浪微博商业接口获取了该时间段内所有带“某明星不拍戏就蹲着”话题的微博,以及评论和转发的微博数据,每个微博和评论数据除了有本身文本信息,还包含作者信息以及转发和回复关系信息,每条数据都做了相应的敏感性和情感极性判断的预处理。数据集包含1733条微博,9139条评论,参与其中的用户有7115位。从12日14 点开始以两个小时为一个时间窗口进行统计,绘制成了事件的热度图,如图5所示(图中,峰值在1000左右的是微博数量曲线,峰值最高在4000以上的是总数量曲线,峰值在两者之间的是评论数量曲线)。
根据数据增长率将发生网络推手行为的时间段定在20161216至20161220之间,在疑似发生炒作的时间段内,数据从8增长到了4257,平均增长率即特征A1值为2206%,该时间段内主推文章比例即特征A2值为24.4%,简单文章比例即特征A3值为21.6%,新注册用户比例即特征A4值较小2.59%,地域分布较为平均最高地域广州所占比例即特征A5值为4.5%,按照综合推动指数分别给予权重5,4,3,1,2,最后综合推动指数为 7.47远大于设定的阈值,所以判定存在异常用户。
根据上述分析网络推手群的方法,得出的网络推手群如图6所示。
根据介数值和被炒作次数的统计,得到的被炒作用户和异常用户TOPN列表如表1所示:
表1被炒作用户和异常用户TOPN列表
| 被炒作用户topN列表 | 异常用户topN列表 |
| 某明星 | 皮卡丘不吃芥末_ |
| 扒圈圈 | 秀丽军出没 |
| 娱叔 | 风铃清响颖轻轻笑 |
| 你能不能多见见世面 | 叫这位美女妈妈 |
| 胖颖飞刀 | 颖宝宝是我的动力 |
| 手机上的新浪 | 阿酒醉梦 |
| 某明星全球粉丝后援会 | 吃饭睡觉打锦烛 |
| 雁鸣陌上寒 | cassiopeia--jiao |
| 思恋v成伤 | 从小吃可爱长大_ |
| 我不是胖刀 | 云的传说 |
本发明提供了一种网络热点舆情事件中检测和定位异常用户的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.一种网络热点舆情事件中检测和定位异常用户的方法,其特征在于,包含以下步骤:
步骤1,获取网络热点舆情事件中的发文数据;
步骤2,根据热度统计获取可能存在异常用户的时间段,针对该时间段内的数据进行特征分析,得到特征值;
步骤3,将特征值通过动态加权求和得到推动综合指数,根据综合指数判断是否存在异常用户,如果存在,执行步骤4,否则返回步骤1;
步骤4,将步骤2特征分析过程中得到的用户ID作为候选用户ID;
步骤5,计算候选用户ID两两之间的用户协作度,根据用户协作度构建用户协作网络,去除用户协作网络中用户协作度低于阈值的边,获得异常用户群;
步骤6,统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的次数,按由高到低排序,获得被炒作用户TOPN列表,计算异常用户群中各用户节点的介数值,获得当前网络热点舆情事件中的异常用户TOPN(最异常的前N个用户)列表,定位到具体的异常用户。
2.根据权利要求1所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1,根据文本数据的发布时间,按照一定时间间隔进行统计,计算文本数据增长率,将文本数据增长率大于阈值的连续时间间隔组成的时间段作为可能存在异常用户的时间段T,平均增长率作为特征值A1;
步骤2-2,对时间段T内的文本数据,根据发布作者进行统计,计算文章作者离散度差异,即主推用户ID发文数量占总文章数量的比例,将发文超过一定数量的用户ID判定为是主推用户ID,用主推用户ID发布文章数量占事件中所有用户发文总数量的比例作为特征A2;
步骤2-3,对时间段T内的文本数据,将文本字符数小于一定阈值的文本判定为是短文本,将文本编辑距离小于一定值且出现两次以上的文本判定为是重复文本,这两类文本统称为简单文章,将简单文章所占文本数据的比例作为特征A3;
步骤2-4,对时间段T内的文本数据,根据发布作者的注册时间,将注册时间早于一个时间点的ID判定为是新注册用户ID,新注册用户ID占发布作者的比例作为特征A4;
步骤2-5,对时间段T内的文本数据,根据发布作者的地域或者IP进行统计,如果发布作者数量最多的地域或者IP的发布者数量占总的发布者数量比例作为特征A5。
3.根据权利要求2所述的方法,其特征在于,步骤3包括如下步骤:根据特征维度,设置依次从大到小的权值,权值对应的特征值也按从大到小对应,大的权值对应大的特征值,进行动态加权求和,求得推动综合指数,当指数大于一定阈值,则判定存在异常用户,计算方法如公式1所示:
其中Ai为步骤2计算得到的特征值,n为特征数量,ωi对应特征值Ai的权重,若ω4>ω3>ω2>ω1且A4>A3>A2>A1,则ω4对应A4,ω3对应A3,ω2对应A2,
ω1对应A1。
4.根据权利要求3所述的方法,其特征在于,步骤4包括如下步骤:
将发文数量超过一定阈值的用户ID作为候选用户ID;
将发表简单文本和重复文本数量及比例超过一定阈值的用户ID作为候选用户ID;
将发表过情感极性大于阈值或者发表过敏感文本的用户ID作为候选用户ID;
将新注册用户ID和热点地域用户ID作为候选用户ID。
5.根据权利要求4所述的方法,其特征在于,步骤5包括如下步骤:
步骤5-1,通过如下公式计算用户协作度:
其中UCAB为候选用户A与候选用户B的用户协作度,nA为候选用户A发表的文章数量,nB为候选用户B发表的文章数量,nA∩nB则为候选用户A与候选用户B统计时间段T内两个用户之间共同评论、跟帖或者转发的文章数量的杰卡德距离,EAi和EBi分别为用户A对主帖i发文的情感向量和用户B对主帖i发文的情感向量,为用户A与用户B对共同评论、跟帖或者转发的文章情感极性的余弦相似度的计算,两者乘积的绝对值作为用户协作网络;
步骤5-2,整个候选用户集两两用户构成一条边,用户协作度通过一定阈值的筛选,去除用户协作网络中用户协作度较低的边,得到两个以上相互不连通的子图,每个连通子图则为一个异常用户群。
6.根据权利要求5所述的方法,其特征在于,步骤6包括如下步骤:
步骤6-1,统计异常用户群中所有用户转发、评论和跟帖的主帖作者出现的次数,按由高到低排序,获得被炒作用户TOPN列表;
步骤6-2,通过弗洛伊德算法,获取异常用户群中所有用户两两之间的最短路径,得出经过每个用户的最短路径数,从而计算异常用户群中各用户节点的介数值,根据介数值倒序排序获得当前网络热点舆情事件中的异常用户TOPN列表。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201711172800.1A CN108009220A (zh) | 2017-11-22 | 2017-11-22 | 一种网络热点舆情事件中检测和定位异常用户的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201711172800.1A CN108009220A (zh) | 2017-11-22 | 2017-11-22 | 一种网络热点舆情事件中检测和定位异常用户的方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN108009220A true CN108009220A (zh) | 2018-05-08 |
Family
ID=62053465
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201711172800.1A Pending CN108009220A (zh) | 2017-11-22 | 2017-11-22 | 一种网络热点舆情事件中检测和定位异常用户的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN108009220A (zh) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109739736A (zh) * | 2018-12-13 | 2019-05-10 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据的用户异常行为检测方法 |
| CN109948024A (zh) * | 2019-03-12 | 2019-06-28 | 安徽新华学院 | 一种基于微博的舆情监控方法及系统 |
| CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
| CN110706026A (zh) * | 2019-09-25 | 2020-01-17 | 精硕科技(北京)股份有限公司 | 一种异常用户的识别方法、识别装置及可读存储介质 |
| CN111079026A (zh) * | 2019-11-28 | 2020-04-28 | 精硕科技(北京)股份有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
| CN111767472A (zh) * | 2020-07-08 | 2020-10-13 | 吉林大学 | 一种社交网络异常账号检测方法及系统 |
| CN112000711A (zh) * | 2020-07-21 | 2020-11-27 | 微梦创科网络科技(中国)有限公司 | 一种基于Spark确定刷评用户的方法及系统 |
| CN117390602A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市瑞迅通信息技术有限公司 | 一种信息安全风险评价方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
| CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
-
2017
- 2017-11-22 CN CN201711172800.1A patent/CN108009220A/zh active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20150120717A1 (en) * | 2013-10-25 | 2015-04-30 | Marketwire L.P. | Systems and methods for determining influencers in a social data network and ranking data objects based on influencers |
| CN106980692A (zh) * | 2016-05-30 | 2017-07-25 | 国家计算机网络与信息安全管理中心 | 一种基于微博特定事件的影响力计算方法 |
Non-Patent Citations (3)
| Title |
|---|
| 杨臻等: "基于多特征的网络水军识别方法", 《激光杂志》 * |
| 焦超: "网络突发事件推手检测与热点预测研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
| 陈桂茸等: "一种网络论坛水军账号快速检测算法", 《湖南大学学报(自然科学版)》 * |
Cited By (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109739736A (zh) * | 2018-12-13 | 2019-05-10 | 浙江每日互动网络科技股份有限公司 | 一种基于移动终端数据的用户异常行为检测方法 |
| CN109739736B (zh) * | 2018-12-13 | 2022-07-08 | 每日互动股份有限公司 | 一种基于移动终端数据的用户异常行为检测方法 |
| CN109948024A (zh) * | 2019-03-12 | 2019-06-28 | 安徽新华学院 | 一种基于微博的舆情监控方法及系统 |
| CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
| CN110009430B (zh) * | 2019-04-11 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
| CN110706026A (zh) * | 2019-09-25 | 2020-01-17 | 精硕科技(北京)股份有限公司 | 一种异常用户的识别方法、识别装置及可读存储介质 |
| CN111079026A (zh) * | 2019-11-28 | 2020-04-28 | 精硕科技(北京)股份有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
| CN111079026B (zh) * | 2019-11-28 | 2023-11-24 | 北京秒针人工智能科技有限公司 | 一种确定人物印象数据的方法、存储介质和装置 |
| CN111767472A (zh) * | 2020-07-08 | 2020-10-13 | 吉林大学 | 一种社交网络异常账号检测方法及系统 |
| CN112000711A (zh) * | 2020-07-21 | 2020-11-27 | 微梦创科网络科技(中国)有限公司 | 一种基于Spark确定刷评用户的方法及系统 |
| CN117390602A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市瑞迅通信息技术有限公司 | 一种信息安全风险评价方法及系统 |
| CN117390602B (zh) * | 2023-12-11 | 2024-03-29 | 深圳市瑞迅通信息技术有限公司 | 一种信息安全风险评价方法及系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108009220A (zh) | 一种网络热点舆情事件中检测和定位异常用户的方法 | |
| CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
| JP5560367B2 (ja) | ネットワーク内の友人の動的情報を管理するための方法、システムおよびサーバ | |
| Hoang et al. | Virality and susceptibility in information diffusions | |
| CN103116605B (zh) | 一种基于监测子网的微博热点事件实时检测方法及系统 | |
| CN103136330B (zh) | 基于微博平台的用户可信度评估方法 | |
| CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
| CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
| CN103745000A (zh) | 一种中文微博客的热点话题检测方法 | |
| CN101986298A (zh) | 用于在线论坛的信息实时推荐方法 | |
| CN104834695A (zh) | 基于用户兴趣度和地理位置的活动推荐方法 | |
| CN109949174B (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
| CN107045533B (zh) | 基于标签的教育资源推荐方法及系统 | |
| Liu et al. | Information diffusion and opinion leader mathematical modeling based on microblog | |
| CN108230169B (zh) | 基于社交影响力的信息传播模型及态势感知系统及方法 | |
| Zhu et al. | Information dissemination model for social media with constant updates | |
| CN105045822A (zh) | 一种微博中特定用户的相似用户监控方法 | |
| Li et al. | Fake reviews tell no tales? dissecting click farming in content-generated social networks | |
| CN104090961A (zh) | 一种基于机器学习的社交网络垃圾用户过滤方法 | |
| Xia et al. | Characterization of user online dating behavior and preference on a large online dating site | |
| Wang et al. | A study on influential user identification in online social networks | |
| CN104063456B (zh) | 基于向量查询的自媒体传播图谱分析方法和装置 | |
| Kong et al. | Towards the prediction problems of bursting hashtags on T witter | |
| Yamamoto et al. | Twitter user tagging method based on burst time series | |
| Chang et al. | Research on Dynamic Political Sentiment Polarity analysis of specific group Twitter based on Deep learning method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180508 |