CN112115324B - 一种基于幂律分布确认刷赞用户的方法及装置 - Google Patents
一种基于幂律分布确认刷赞用户的方法及装置 Download PDFInfo
- Publication number
- CN112115324B CN112115324B CN202010796580.5A CN202010796580A CN112115324B CN 112115324 B CN112115324 B CN 112115324B CN 202010796580 A CN202010796580 A CN 202010796580A CN 112115324 B CN112115324 B CN 112115324B
- Authority
- CN
- China
- Prior art keywords
- praise
- network activity
- data
- power law
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 150
- 238000012937 correction Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 208000012260 Accidental injury Diseases 0.000 abstract description 6
- 208000014674 injury Diseases 0.000 abstract description 6
- 238000007418 data mining Methods 0.000 abstract description 5
- 230000000977 initiatory effect Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007790 scraping Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/09—Mapping addresses
- H04L61/25—Mapping addresses of the same type
- H04L61/2503—Translation of Internet protocol [IP] addresses
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Algebra (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种基于幂律分布确认刷赞用户的方法及装置,实时获取当前时间之前的第一设定周期内为某网络活动发起点赞的IP以及各IP的点赞数量;并与当前的点赞阈值进行比对;当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP;采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。通过对一定时间内点赞数量过高的网络活动进行数据挖掘,使用基于幂律分布对点赞数据进行分析,有效的降低对正常用户的误伤。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种基于幂律分布确认刷赞用户的方法及装置。
背景技术
在现代的社交媒体的互联网帐号中,点赞是一种非常重要的互动行为。于是出现大量不法分子利用脚本批量的刷赞,发起刷赞行为的用户就是刷赞用户。刷赞是对普通用户和对平台都不利的,要想办法找出来。现有技术中,通过统计点赞用户的每个IP的发起赞的数量n,简单通过阈值判断n>a实现。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
在实际操作中,有些IP是小区出口IP,或者有些IP是机房IP,这种简单阈值判断极易误伤或者放过一部分刷赞。阈值a是极难确定的,需要人工经验来定义。
发明内容
本发明实施例提供一种基于幂律分布确认刷赞用户的方法及装置,通过对一定时间内点赞数量过高的网络活动进行数据挖掘,使用基于幂律分布对点赞数据进行分析,自适应的自动调整拦截用户的点赞阈值有效提高刷赞的拦截量,有效的降低对正常用户的误伤。
为达上述目的,一方面,本发明实施例提供一种基于幂律分布确认刷赞用户的方法,包括:
针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
其中,所述点赞阈值通过如下方法周期性修正:
周期性获取第二设定周期内为该网络活动发起的点赞总数;
当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量;并
采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
另一方面,本发明实施例提供一种基于幂律分布确认刷赞用户的装置,包括:
统计模块,用于针对具有互动性网络活动,实时获取当前时间之前的第一设定周期内为其发起点赞的IP以及各IP的点赞数量;
比对模块,用于针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
比对模块,用于将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
判定模块,用于当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
阈值修正模块,用于周期性获取第二设定周期内为该网络活动发起的点赞总数;当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量;并采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
上述技术方案具有如下有益效果:通过对一定时间内点赞数量过高的网络活动进行数据挖掘,使用基于幂律分布对点赞数据进行分析,自适应的自动调整拦截用户的点赞阈值,有效提高刷赞的拦截量,有效的降低对正常用户的误伤。从而实现动态拦截刷赞用户。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于幂律分布确认刷赞用户的方法流程图;
图2是本发明实施例的基于幂律分布确认刷赞用户的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种基于幂律分布确认刷赞用户的方法,包括:
S101:针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
S102:将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
S103:当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
S104:所述点赞阈值通过如下方法周期性修正:
周期性获取第二设定周期内为该网络活动发起的点赞总数;
当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量;并
采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
优选地,步骤104的“当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量”具体包括:
S1041:在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP以及各IP的点赞数量,并形成该网络活动点赞数据的第一列表,所述第一列表包括多条点赞数据,每条点赞数据包括:点赞IP、以及该点赞IP所对应的点赞数量;
S1042:将该网络活动点赞数据的第一列表进行数据转化,形成以各IP所发起的点赞数量为基准的该网络活动点赞数据的第二列表,所述第二列表用于幂律分布拟合,所述第二列表包括:每种点赞数量、以及该种点赞数量所对应的IP数量。
优选地,步骤104的“采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度”具体包括:
S1043:将该网络活动点赞数据的第二列表的每种点赞数量作为幂律分布的自变量,以及将该种点赞数量所对应的IP数量作为幂律分布的因变量,得到该网络活动点赞数据的幂律分布拟合曲线,并从所述幂律分布拟合曲线中提取出幂律分布系数,根据幂律分布系数得到该网络活动点赞数据的拟合优度。
优选地,步骤104的“根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值”具体包括:
S1044:使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值。
优选地,步骤104“根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值”具体包括:
判断该网络活动点赞数据的拟合优度是否小于第二预设值;
当该网络活动点赞数据的拟合优度小于第二预设值时,使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值;
当该网络活动点赞数据的拟合优度不小于第二预设值时,使用预设的点赞阈值修正当前的点赞阈值。
如图2所示,结合本发明的实施例,提供一种基于幂律分布确认刷赞用户的装置,包括:
比对模块21,用于针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
比对模块22,用于将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
判定模块23,用于当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
阈值修正模块24,用于周期性获取第二设定周期内为该网络活动发起的点赞总数;当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量;并采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
优选地,所述阈值修正模块24包括:
第一数据子模块241,用于当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP以及各IP的点赞数量,并形成该网络活动点赞数据的第一列表,所述第一列表包括多条点赞数据,每条点赞数据包括:点赞IP、以及该点赞IP所对应的点赞数量;
第二数据子模块242,用于将该网络活动点赞数据的第一列表进行数据转化,形成以各IP所发起的点赞数量为基准的该网络活动点赞数据的第二列表,所述第二列表用于幂律分布拟合,所述第二列表包括:每种点赞数量、以及该种点赞数量所对应的IP数量。
优选地,所述阈值修正模块24还包括:
拟合子模块243,用于将该网络活动点赞数据的第二列表的每种点赞数量作为幂律分布的自变量,以及将该种点赞数量所对应的IP数量作为幂律分布的因变量,得到该网络活动点赞数据的幂律分布拟合曲线,并从所述幂律分布拟合曲线中提取出幂律分布系数,根据幂律分布系数得到该网络活动点赞数据的拟合优度。
优选地,所述阈值修正模块24还包括:
第一修正子模块,用于使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值。
优选地,所述阈值修正模块24还包括:
第二修正子模块,用于判断该网络活动点赞数据的拟合优度是否小于第二预设值;当该网络活动点赞数据的拟合优度小于第二预设值时,使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值;当该网络活动点赞数据的拟合优度不小于第二预设值时,使用预设的点赞阈值修正当前的点赞阈值。
本发明所取得的有益效果为:
通过对一定时间内点赞数量过高的网络活动进行数据挖掘,使用基于幂律分布对点赞数据进行分析,自适应的自动调整拦截用户的点赞阈值(拦截刷赞IP的阈值能根据当前被刷赞的量做自适应的调整),有效提高刷赞的拦截量,有效的降低对正常用户的误伤。从而实现动态拦截刷赞用户。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及到的缩略语和关键术语定义:
刷赞和刷赞用户:在现代的社交媒体的互联网社交平台中,点赞是一种非常重要的互动行为。于是出现大量不法分子利用脚本批量的刷赞,发起刷赞行为的用户就是刷赞用户。
行为日志:互联网帐号进行上行操作时所记录的日志,如点赞,评论,关注等行为。其信息有操作行为号,帐号,时间,目标等信息。
本发明为一种基于幂律分布的动态拦截刷赞系统的方法流程,具体技术方案为:
针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP。
其中,所述点赞阈值通过如下方法周期性修正:
周期性获取第二设定周期内为该网络活动发起的点赞总数;当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP数量以及各IP的点赞数量;并采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
下面以任一条微博为互动性网络活动为例详述如何修正预设点赞阈值:
1.对于上一小时(第二周期)所有新增点赞大于N的微博,针对每条微博,统计其上一小时给其发起点赞的IP及其点赞数,得到各条微博攒点数据的第一列表即IP与点赞次数列表L1:{u1:n1,u2:n2…uk:nk},其中u1、u2、…uk为IP地址,n1为IP u1发起的点赞数量,nk为IP uk发起的点赞数量。
2.在L1中统计点赞次数为i的IP个数,得到各条微博攒点数据的第二列表即点赞次数与IP个数第二列表L2:{1:m1,2:m2…},其中,1:m1表示点赞数量为1的IP的数量为m1个。
3.将该网络活动点赞数据的第二列表的每种点赞数量作为幂律分布的自变量,以及将该种点赞数量所对应的IP数量作为幂律分布的因变量,得到该网络活动点赞数据的幂律分布曲线,并提出去该网络活动点赞数据的幂律分布曲线的系数,根据幂律分布系数得到该网络活动点赞数据的拟合优度。即:统计学上一般次数(每种点赞次数)的个数(每种点赞次数所对应的IP个数)服从幂律分布,使用幂律分布拟合L2,取其拟合优度s=r2(即s=r方);详见下面举例。4.Ts为第二设定值,若s<Ts则认为预设点赞阈值(原阈值)b是需要动态调整的,此时新的阈值即当前点赞阈值调整为b*s。
也可以不加s<Ts的判断,直接将预设点赞阈值修定为当前点赞阈值:b*s。
5.并且周期性(比如每小时)重复进行一次步骤1、2、3以更新b*s。
6.修正预设点赞阈值以每条微博为单位,每条微博修正后的当前点赞阈值可能不同。
根据本发明修正预设点赞阈值的技术方案进行举例如下:
1.对于上一小时新增赞大于1000的微博,统计其上一小时给其发起点赞的IP及其点赞数,得到IP-点赞次数列表L1:{12.10.144.21:50,11.9.10.29:5,9.10.11.12:3,9.10.11.13:3,9.9.10.11:2,9.9.10.12:2,9.9.10.13:2}
2.在L1中统计点赞次数为i的IP个数,得到点赞次数与IP个数列表L2:{2:3,3:2,5:1,50:1}
3.使用幂律分布拟合L2,取其拟合优度s=r2:
可以把L2的每组数据看成是平面上的一些点,这些点命名为(x,y),y即f(x)
采用拟合方法来用最优的a,k来拟合f(x)=ax-k,从而得到最优拟合曲线,并提取最优拟合曲线的系数a,k。
最优化拟合有很多种软件可以实现,此处使用python和scIPy程序包的curve_fit方法。定义f为上面的f(x),则:
popt,pcov=curve_fit(f,x,y)
执行这条语句后,popt里就装好了最优化的a,k。
拟合优度r方的计算:
sum0=0
sum1=0
average=numpy.average(y)
for i in range(len(yvals)):
sum0+=(y[i]-yvals[i])**2
sum1+=(y[i]-average)**2
r2=1-(sum0/sum1)
其中yvals为x带入f的值,也即f(x),即yvals的计算要a、k值
计算得到s=r2=0.32,r2越接近1,则拟合效果越好,也就是刷的量越少。
假设之前根据人为经验确定的b为100,则调整后的当前点赞阈值为100*0.32=32,若某IP的点赞量超过32则为刷赞IP,对应的用户为刷赞用户,对该刷赞可进行封禁。此例里的r2=0.32,那么这个例子里点赞50次的IP显然是刷赞的,说明该微博有大量的刷赞的现象存在。
4.并且周期性即每小时自动的算一次新的阈值。
本发明所取得的有益效果为:
通过对一定时间内点赞数量过高的网络活动进行数据挖掘,使用基于幂律分布对点赞数据进行分析,自适应的自动调整拦截用户的点赞阈值(拦截刷赞IP的阈值能根据当前被刷赞的量做自适应的调整),有效提高刷赞的拦截量,有效的降低对正常用户的误伤。从而实现动态拦截刷赞用户。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于幂律分布确认刷赞用户的方法,其特征在于,包括:
针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
其中,所述点赞阈值通过如下方法周期性修正:
周期性获取第二设定周期内为该网络活动发起的点赞总数;
当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP以及各IP的点赞数量,并形成该网络活动点赞数据的第一列表,所述第一列表包括多条点赞数据,每条点赞数据包括:点赞IP、以及该点赞IP所对应的点赞数量;
将该网络活动点赞数据的第一列表进行数据转化,形成以各IP所发起的点赞数量为基准的该网络活动点赞数据的第二列表,所述第二列表用于幂律分布拟合,所述第二列表包括:每种点赞数量、以及该种点赞数量所对应的IP数量;采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度;根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值;
所述采用幂律分布对为该网络活动发起点赞的IP数量以及各IP的点赞数量进行拟合,得到幂律分布拟合曲线,根据幂律分布拟合曲线得到该网络活动点赞数据的拟合优度,具体包括:
将该网络活动点赞数据的第二列表的每种点赞数量作为幂律分布的自变量,以及将该种点赞数量所对应的IP数量作为幂律分布的因变量,得到该网络活动点赞数据的幂律分布拟合曲线,并从所述幂律分布拟合曲线中提取出幂律分布系数,根据幂律分布系数得到该网络活动点赞数据的拟合优度。
2.根据权利要求1所述的基于幂律分布确认刷赞用户的方法,其特征在于,所述根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值,具体包括:
使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值。
3.根据权利要求1所述的基于幂律分布确认刷赞用户的方法,其特征在于,所述根据该网络活动点赞数据的拟合优度修正当前的点赞阈值,具体包括:
判断该网络活动点赞数据的拟合优度是否小于第二预设值;
当该网络活动点赞数据的拟合优度小于第二预设值时,使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值;
当该网络活动点赞数据的拟合优度不小于第二预设值时,使用预设的点赞阈值修正当前的点赞阈值。
4.一种基于幂律分布确认刷赞用户的装置,其特征在于,包括统计模块、比对模块、判定模块和阈值修正模块,所述阈值修正模块包括第一数据子模块、第二数据子模块和拟合子模块;其中:
所述统计模块,用于针对具有互动性的网络活动,实时获取当前时间之前的第一设定周期内为该网络活动发起点赞的IP以及各IP的点赞数量;
所述比对模块,用于将每个IP在第一设定周期内为该网络活动发起的点赞数量与当前的点赞阈值进行比对;
所述判定模块,用于当某个IP在第一设定周期内为该网络活动发起的点赞数量不小于当前的点赞阈值时,判定该IP为刷赞IP,该刷赞IP所对应的用户为刷赞用户,所述刷赞IP是指参与该网络活动时违规批量点赞的IP;
所述第一数据子模块,用于周期性获取第二设定周期内为该网络活动发起的点赞总数;当在第二设定周期内为该网络活动发起的点赞总数大于第一预设值时,统计为该网络活动发起点赞的IP以及各IP的点赞数量,并形成该网络活动点赞数据的第一列表,所述第一列表包括多条点赞数据,每条点赞数据包括:点赞IP、以及该点赞IP所对应的点赞数量;
所述第二数据子模块,用于将该网络活动点赞数据的第一列表进行数据转化,形成以各IP所发起的点赞数量为基准的该网络活动点赞数据的第二列表,所述第二列表用于幂律分布拟合,所述第二列表包括:每种点赞数量、以及该种点赞数量所对应的IP数量;
所述拟合子模块,用于将该网络活动点赞数据的第二列表的每种点赞数量作为幂律分布的自变量,以及将该种点赞数量所对应的IP数量作为幂律分布的因变量,得到该网络活动点赞数据的幂律分布拟合曲线,并从所述幂律分布拟合曲线中提取出幂律分布系数,根据幂律分布系数得到该网络活动点赞数据的拟合优度,根据得到的该网络活动点赞数据的拟合优度修正当前的点赞阈值。
5.根据权利要求4所述的基于幂律分布确认刷赞用户的装置,其特征在于,所述阈值修正模块还包括:
第一修正子模块,用于使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值。
6.根据权利要求4所述的基于幂律分布确认刷赞用户的装置,其特征在于,所述阈值修正模块还包括:
第二修正子模块,用于判断该网络活动点赞数据的拟合优度是否小于第二预设值;当该网络活动点赞数据的拟合优度小于第二预设值时,使用该网络活动点赞数据的拟合优度与预设的点赞阈值之积修正当前的点赞阈值;当该网络活动点赞数据的拟合优度不小于第二预设值时,使用预设的点赞阈值修正当前的点赞阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010796580.5A CN112115324B (zh) | 2020-08-10 | 2020-08-10 | 一种基于幂律分布确认刷赞用户的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010796580.5A CN112115324B (zh) | 2020-08-10 | 2020-08-10 | 一种基于幂律分布确认刷赞用户的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115324A CN112115324A (zh) | 2020-12-22 |
CN112115324B true CN112115324B (zh) | 2023-10-24 |
Family
ID=73804042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010796580.5A Active CN112115324B (zh) | 2020-08-10 | 2020-08-10 | 一种基于幂律分布确认刷赞用户的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115324B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861128B (zh) * | 2021-01-21 | 2024-06-18 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571485A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种在微博平台上识别机器人用户的方法 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN105872819A (zh) * | 2015-12-02 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种对声音评论进行点赞的实现方法及系统 |
CN105898336A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 热评确定方法、热评显示系统及服务器 |
CN106301899A (zh) * | 2016-08-08 | 2017-01-04 | 武汉斗鱼网络科技有限公司 | 一种对网络直播内容的质量进行量化分析的方法及系统 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN109783773A (zh) * | 2018-12-14 | 2019-05-21 | 微梦创科网络科技(中国)有限公司 | 一种确定网站接口非正常流量的方法及装置 |
CN109783586A (zh) * | 2019-01-21 | 2019-05-21 | 福州大学 | 基于聚类重采样的水军评论检测系统及方法 |
CN109818921A (zh) * | 2018-12-14 | 2019-05-28 | 微梦创科网络科技(中国)有限公司 | 一种网站接口非正常流量的分析方法及装置 |
CN110297990A (zh) * | 2019-05-23 | 2019-10-01 | 东南大学 | 众包营销微博与水军的联合检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8069210B2 (en) * | 2008-10-10 | 2011-11-29 | Microsoft Corporation | Graph based bot-user detection |
-
2020
- 2020-08-10 CN CN202010796580.5A patent/CN112115324B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102571485A (zh) * | 2011-12-14 | 2012-07-11 | 上海交通大学 | 一种在微博平台上识别机器人用户的方法 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
CN105872819A (zh) * | 2015-12-02 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种对声音评论进行点赞的实现方法及系统 |
CN105898336A (zh) * | 2015-12-15 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 热评确定方法、热评显示系统及服务器 |
CN106301899A (zh) * | 2016-08-08 | 2017-01-04 | 武汉斗鱼网络科技有限公司 | 一种对网络直播内容的质量进行量化分析的方法及系统 |
CN107895010A (zh) * | 2017-11-13 | 2018-04-10 | 华东师范大学 | 一种基于网络点赞检测网络水军的方法 |
CN109783773A (zh) * | 2018-12-14 | 2019-05-21 | 微梦创科网络科技(中国)有限公司 | 一种确定网站接口非正常流量的方法及装置 |
CN109818921A (zh) * | 2018-12-14 | 2019-05-28 | 微梦创科网络科技(中国)有限公司 | 一种网站接口非正常流量的分析方法及装置 |
CN109783586A (zh) * | 2019-01-21 | 2019-05-21 | 福州大学 | 基于聚类重采样的水军评论检测系统及方法 |
CN110297990A (zh) * | 2019-05-23 | 2019-10-01 | 东南大学 | 众包营销微博与水军的联合检测方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于深度神经网络的企业信息系统用户异常行为预测;尹隽 等;《管理科学》;第33卷(第01期);30-45 * |
微博网络中用户特征量和增长率分布的研究;苑卫国 等;《计算机学报》;第37卷(第04期);767-778 * |
社交网络异常用户识别技术综述;仲丽君 等;《计算机工程与应用》;第54卷(第16期);13-23 * |
Also Published As
Publication number | Publication date |
---|---|
CN112115324A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090826B (zh) | 一种电话催收方法及终端设备 | |
KR102193502B1 (ko) | 지불 임계값을 취득하기 위한 방법 및 디바이스 | |
WO2019205325A1 (zh) | 确定用户风险等级的方法、终端设备及计算机可读存储介质 | |
WO2020211247A1 (zh) | 账户信息的登录方法、装置、计算机设备及计算机存储介质 | |
US20170230366A1 (en) | Method and device for verifying a trusted terminal | |
CN107481090A (zh) | 一种用户异常行为检测方法、装置和系统 | |
CN110266510B (zh) | 网络控制策略生成方法及装置、网络控制方法、存储介质 | |
CN110830445B (zh) | 一种异常访问对象的识别方法及设备 | |
CN108234293B (zh) | 表情管理方法、表情管理装置及智能终端 | |
US10327134B2 (en) | Method and apparatus for recognizing service request to change mobile phone number | |
CN110620770A (zh) | 一种分析网络黑产账号的方法及装置 | |
CN112115324B (zh) | 一种基于幂律分布确认刷赞用户的方法及装置 | |
CN109818921B (zh) | 一种网站接口非正常流量的分析方法及装置 | |
CN109389988A (zh) | 音效调整控制方法和装置、存储介质及电子装置 | |
CN110876072A (zh) | 一种批量注册用户识别方法、存储介质、电子设备及系统 | |
CN116739759A (zh) | 基于订单风险识别的资产资金匹配方法、装置及设备 | |
CN112149036B (zh) | 一种批量非正常互动行为的识别方法及系统 | |
CN108170292B (zh) | 表情管理方法、表情管理装置及智能终端 | |
CN111047146B (zh) | 一种企业用户的风险识别方法、装置及设备 | |
CN106934708B (zh) | 事件记录方法和装置 | |
CN111353860A (zh) | 产品信息推送方法及系统 | |
CN110674505A (zh) | 一种漏洞扫描剩余时间估算方法和装置 | |
CN107689969A (zh) | 一种缓存策略的确定方法及装置 | |
CN113220741B (zh) | 互联网广告虚假流量识别方法、系统、设备及存储介质 | |
CN109783773B (zh) | 一种确定网站接口非正常流量的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |