CN112149036A - 一种批量非正常互动行为的识别方法及系统 - Google Patents
一种批量非正常互动行为的识别方法及系统 Download PDFInfo
- Publication number
- CN112149036A CN112149036A CN202011038236.6A CN202011038236A CN112149036A CN 112149036 A CN112149036 A CN 112149036A CN 202011038236 A CN202011038236 A CN 202011038236A CN 112149036 A CN112149036 A CN 112149036A
- Authority
- CN
- China
- Prior art keywords
- fitting
- network activity
- behaviors
- interactive
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 187
- 230000003993 interaction Effects 0.000 title claims abstract description 98
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000000694 effects Effects 0.000 claims abstract description 113
- 230000002452 interceptive effect Effects 0.000 claims abstract description 78
- 230000000977 initiatory effect Effects 0.000 claims abstract description 38
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 230000001419 dependent effect Effects 0.000 claims description 33
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 2
- 241000218645 Cedrus Species 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 208000012260 Accidental injury Diseases 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 208000014674 injury Diseases 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003360 curve fit method Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种批量非正常互动行为的识别方法及系统,包括:获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当为该网络活动发起的互动行为数量大于预设数量阈值时,获取所有互动行为对应的发起时间点;统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度;根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为。通过基于柏松分布的概率函数识别某待识别的网络活动有无发生批量非正常互动行为现象。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种批量非正常互动行为的识别方法及系统。
背景技术
在现代的社交媒体的互联网帐号中,点赞是一种非常重要的互动行为。于是出现大量不法分子利用脚本批量的刷赞,发起刷赞行为的用户就是刷赞用户。刷赞是对普通用户和对平台都不利的,要想办法找出来。通常采用统计点赞用户的每个ip的发起赞的数量n,通过阈值判断n>a实现。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:
在实际操作中,有些ip是小区出口ip,或者有些ip是机房ip,这种简单阈值判断极易误伤或者放过一部分刷赞。阈值a是极难确定的,需要人工经验定义。
发明内容
本发明实施例提供一种批量非正常互动行为的识别方法及系统,通过基于柏松分布的概率函数识别批量非正常互动行为,能够确定某待识别的网络活动有无发生批量非正常互动行为现象。
为达上述目的,一方面,本发明实施例提供一种批量非正常互动行为的识别方法,包括:
周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
另一方面,本发明实施例提供一种批量非正常互动行为的识别系统,包括:
获取单元,用于周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
拟合单元,用于根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
判断单元,用于根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
上述技术方案具有如下有益效果:通过基于柏松分布的概率函数识别批量非正常互动行为,能够确定某待识别的网络活动有无发生批量非正常互动行为现象。而且能利用互动行为发起时间点这一信息来辅助决策,利用所有的互动行为信息,有效提高刷赞的拦截量,有效的降低对正常用户的误伤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种批量非正常互动行为的识别方法的流程图;
图2是本发明实施例的一种批量非正常互动行为的识别系统的结构图;
图3是为正常点赞微博的随预设相隔时间变化点赞量的直方图;
图4是为刷赞微博的随预设相隔时间变化点赞量的直方图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的实施例,提供一种批量非正常互动行为的识别方法,包括:
S101:周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
S102:根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
S103:根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
优选地,网络活动的发布时间点、以及每一个互动行为的发起时间点采用时间戳表示;
步骤102具体包括:
S1021:将每一个互动行为的发起时间戳减去网络活动的发布时间戳,得到该网络活动的互动行为发起时间差列表;
S1022:设置固定的间隔时间段,根据该网络活动的互动行为发起时间差列表、以及所述间隔时间段,统计得到每个固定的间隔时间段内为该网络活动发起的互动行为数量。
优选地,步骤102具体包括:
S1023:将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量;
S1024:通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合,得到为该网络活动发起的互动行为对应的泊松分布的概率拟合曲线,并从所述泊松分布的概率拟合曲线中提取出拟合系数,根据拟合系数、以及拟合后的泊松分布的概率拟合曲线上的因变量得到泊松分布的拟合优度。
优选地,步骤1023和1024之间还包括(即:在所述将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量之后,所述通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合之前,还包括):
S1025:通过归一参数修正因变量,使得互动行为在其相应的间隔时间段出现的概率之和是1,以使拟合时使用的因变量为修正后的因变量。
优选地,步骤103具体包括:
S1031:当拟合优度小于第一预设值、且拟合系数大于第二预设值时,则判定该网络活动目前的互动行为为批量非正常互动行为;
S1032:当拟合优度大于等于第一预设值、或者拟合系数小于等于第二预设值时,则判定该网络活动目前的互动行为为正常互动行为。
如图1所示,结合本发明的实施例,提供一种批量非正常互动行为的识别系统,包括:
获取单元21,用于周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
拟合单元22,用于根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
判断单元23,用于根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
优选地,该网络活动的发布时间点、以及每一个互动行为的发起时间点采用时间戳表示;
所述拟合单元22包括:
时间差子单元221,用于将每一个互动行为的发起时间戳减去网络活动的发布时间戳,得到该网络活动的互动行为发起时间差列表;
互动行为统计规整子单元222,用于设置固定的间隔时间段,根据该网络活动的互动行为发起时间差列表、以及所述间隔时间段,统计得到每个固定的间隔时间段内为该网络活动发起的互动行为数量。
优选地,所述拟合单元22还包括:
泊松分布计算子单元223,用于将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量;
拟合子单元224,用于通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合,得到为该网络活动发起的互动行为对应的泊松分布的概率拟合曲线,并从所述泊松分布的概率拟合曲线中提取出拟合系数,根据拟合系数、以及拟合后的泊松分布的概率拟合曲线上的因变量得到泊松分布的拟合优度。
优选地,所述拟合单元22还包括修正子单元225:
用于在所述泊松分布计算子单元223得到因变量之后,通过归一参数修正因变量,使得互动行为在其相应的间隔时间段出现的概率之和是1,并将修正后的因变量输出给所述拟合子单元224供拟合时使用。也就是说,在所述将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量之后,所述通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合之前,通过归一参数修正因变量,使得互动行为在其相应的间隔时间段出现的概率之和是1,以使拟合时使用的因变量为修正后的因变量。
优选地,所述判定单元23包括:
第一判定单元231,用于当拟合优度小于第一预设值、且拟合系数大于第二预设值时,则判定该网络活动目前的互动行为为批量非正常互动行为;
第二判定单元232,用于当拟合优度大于等于第一预设值、或者拟合系数小于等于第二预设值时,则判定该网络活动目前的互动行为为正常互动行为。
本发明取得的有益效果:
通过基于柏松分布的概率函数识别批量非正常互动行为,能够确定某待识别的网络活动有无发生批量非正常互动行为现象。而且能利用互动行为发起时间点这一信息来辅助决策,利用所有的互动行为信息,有效提高刷赞的拦截量,有效的降低对正常用户的误伤。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明涉及的缩略语和关键术语定义
刷赞和刷赞用户:在现代的社交媒体的互联网社交平台中,点赞是一种非常重要的互动行为。于是出现大量不法分子利用脚本批量的刷赞,发起刷赞行为的用户就是刷赞用户。
行为日志:互联网帐号进行上行操作时所记录的日志,如点赞,评论,关注等行为。其信息有操作行为号、帐号、时间、目标等信息。
本发明的待识别的网络活动包括微博、qq空间等类似社交平台;某一待识别的网络活动相应地可为一条微博、一条qq空间信息;互动行为包括刷赞、评论、转发等产生互动交流的行为;
下面,某一待识别的网络活动以一条微博为例,互动行为以点赞为例,来说明本发明的方法和系统,本实施例提供一种基于柏松分布的刷赞感知系统的方法流程,避免现有技术中准确率较低、有一定的误伤的问题,能利用起点赞时间这一信息来辅助决策来确定一条微博有无被刷赞现象。本发明的技术方案为:
一条微博从发布时作为获得点赞量的起点,其获得点赞量一般服从泊松分布的概率函数,这是此方法的理论基础。
一、对于前一周期(比如上一小时)所有新增点赞大于N的微博,统计其从发布至今给其发起点赞的所有请求的发起时间点(点赞时间点)t1,t2,t3…tn,各点赞时间点所对应的点赞数量依次为q1、q2、q3、…、qn,n(即q1、q2、q3、…、qn之和)为该条微博总收到的点赞数。又令t0为这条微博的发布时间点。其中,通过时间戳分别表示该网络活动发布的时间点和点赞时间点,且点赞的时间戳与该网络活动发布的时间戳采用统一时间戳形式,将点赞时间戳分别减去t0得到时间差列表。设该网络活动发布的时间戳为t0,点赞的时间戳依次为t1、t2、t3、…、tn,各点赞时间戳所对应的点赞数量依次为q1、q2、q3、…、qn;其中t1表示第一次发起点赞的时间戳,tn表示最后一次发起点赞的时间戳,q1为在时间点t1时发起的点赞数量,qn为在时间点tn时发起的点赞数量。
二、设置固定的相隔时间段T,根据点赞时间差列表、相隔时间段T,以及每个点赞时间点所对应的点赞数量q1、q2、q3、…、qn,来统计每隔tz时间(相隔时间段T)的总点赞量(或点赞量),也就得到了该微博发布后0-tz时间的点赞量T0,tz-2tz的点赞量T1,2tz-3tz的点赞量T2…等等。
三、对于序列T0,T1,T2,各点赞量是在服从时间影响的泊松分布的的概率函数的前提下,对其进行泊松分布的概率函数的拟合得到拟合参数(拟合系数)lambda(λ)。k这里指代不同的时间分块,比如k=0代表T0的对应时间块。
最优化拟合有很多种软件,比如本发明采用python和scipy程序包的curve_fit方法。定义f为上面的P(X=k)再乘以乘数a(a归一化参数,让整个概率加起来是1),则:popt,pcov=curve_fit(f,x,T)
定义x=[1,2,3…]长度和T的长度一致。
执行这条语句后,popt里就装好了最优化的拟合参数lambda和a。
拟合优度R方的计算:
yvals=f(x)
sum0=0
sum1=0
average=numpy.average(T)
for i in range(len(yvals)):
sum0+=(T[i]-yvals[i])**2
sum1+=(T[i]-average)**2
r2=1-(sum0/sum1)
四、进行拟合优度检验,如果序列T0,T1,T2…随着时间平滑的增大或减小则拟合优度R2(即公式里的r2)应该接近1,拟合参数lambda会较小。如果是刷赞的话序列T0,T1,T2是不怎么变化的几乎固定的数字,则R2会很低,参数lambda会很大。
五、定义R2的第一预设值R0,lambda的第二预设值L0,若R2<R0且lambda>L0则认为该微博是被刷赞的;若R2≥R0且lambda≤L0则认为该微博未被刷赞。
具体举例如下:
对于上一小时新增赞大于1000的所有微博来说,执行操作:
一、以其中一条微博来说,假设它的发布时间戳是t=100,总共收到了n=500点赞,收获赞的时间戳分别是[100,101,102,102,103,103,103…],将收获赞的时间戳分别减去t0得到时间差列表。
然后根据时间差列表统计每隔tz=5分钟的点赞量,得到直方图,如图3所示;
二、在正常点赞的情况下,几乎所有微博的正常点赞随时间变化都是这样分布的:统计得到T:T0,T1,T2…:[30,75,115,103,90,50,23,11,2,1,…],即第一个5分钟收到了30个赞,第二个5分钟收到了75个赞等等。
三、下一步,拟合泊松分布的概率函数:
最优化拟合采用python和scipy程序包的curve_fit方法。定义f为上面的P(X=k)再乘以乘数a(a归一化参数,让整个概率加起来是1),则:
popt,pcov=curve_fit(f,x,T)
定义x=[1,2,3…]长度和T的长度一致。
执行这条语句后,popt里就装好了最优化的拟合参数lambda和a。
拟合优度R方的计算:
yvals=f(x)
sum0=0
sum1=0
average=numpy.average(T)
for i in range(len(yvals)):
sum0+=(T[i]-yvals[i])**2
sum1+=(T[i]-average)**2
r2=1-(sum0/sum1)
(i为第i个时间段T,即T0,T1,T2)
四、针对这条微博的计算结果是拟合系统lambda=2.97,拟合优度R2=0.9905644163062401
五、取R0=0.0,L0=20,那么本条微博是正常的、未被刷赞。
再来看一条被刷微博,如图4所示:它的T是[9.,10.,12.,10.,10.,9.,12.,11.,6.,11.],从微博发布开始后点赞的赞量不随时间变化。这条微博的计算结果是lambda=86.73,R2=-2.95。取R0=0.0,L0=20,则这条微博被判断为被刷赞。
本发明取得的有益效果:
使用了这种基于柏松分布的刷赞感知系统的方法流程之后,现在能够确定一条微博有无被刷赞现象。而且本系统能利用起点赞时间这一信息来辅助决策来拦截刷赞,能够有效提高刷赞的拦截量,有效的降低对正常用户的误伤。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种批量非正常互动行为的识别方法,其特征在于,包括:
周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
2.根据权利要求1所述的批量非正常互动行为的识别方法,其特征在于,该网络活动的发布时间点、以及每一个互动行为的发起时间点采用时间戳表示;
所述根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量,具体包括:
将每一个互动行为的发起时间戳减去网络活动的发布时间戳,得到该网络活动的互动行为发起时间差列表;
设置固定的间隔时间段,根据该网络活动的互动行为发起时间差列表、以及所述间隔时间段,统计得到每个固定的间隔时间段内为该网络活动发起的互动行为数量。
3.根据权利要求2所述的批量非正常互动行为的识别方法,其特征在于,所述对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,具体包括:
将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量;
通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合,得到为该网络活动发起的互动行为对应的泊松分布的概率拟合曲线,并从所述泊松分布的概率拟合曲线中提取出拟合系数,根据拟合系数、以及拟合后的泊松分布的概率拟合曲线上的因变量得到泊松分布的拟合优度。
4.根据权利要求3所述的批量非正常互动行为的识别方法,其特征在于,在所述将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量之后,所述通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合之前,还包括:
通过归一参数修正因变量,使得互动行为在其相应的间隔时间段出现的概率之和是1,以使拟合时使用的因变量为修正后的因变量。
5.根据权利要求3或4所述的批量非正常互动行为的识别方法,其特征在于,所述根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,具体包括:
当拟合优度小于第一预设值、且拟合系数大于第二预设值时,则判定该网络活动目前的互动行为为批量非正常互动行为;
当拟合优度大于等于第一预设值、或者拟合系数小于等于第二预设值时,则判定该网络活动目前的互动行为为正常互动行为。
6.一种批量非正常互动行为的识别系统,其特征在于,包括:
获取单元,用于周期性获取前一监控周期内为某一待识别的网络活动发起的互动行为数量,当前一监控周期内为该网络活动发起的互动行为数量大于预设数量阈值时,自该网络活动发布时起获取所有互动行为对应的发起时间点;
拟合单元,用于根据该网络活动的发布时间点、以及所有互动行为对应的发起时间点,统计自该网络活动发布时起每个固定的间隔时间段内为该网络活动发起的互动行为数量;对每一个间隔时间段及其对应的互动行为数量进行泊松分布的概率函数的拟合,得到为该网络活动发起的互动行为所对应的泊松分布的拟合系数和拟合优度,所述间隔时间段远远小于监控周期;
判断单元,用于根据泊松分布的拟合系数和拟合优度判断为该网络活动发起的互动行为是否为批量非正常互动行为,所述批量非正常互动行为是指参与该网络活动时利用脚本违规批量发起互动行为的网络行为。
7.根据权利要求6所述的批量非正常互动行为的识别系统,其特征在于,该网络活动的发布时间点、以及每一个互动行为的发起时间点采用时间戳表示;
所述拟合单元包括:
时间差子单元,用于将每一个互动行为的发起时间戳减去网络活动的发布时间戳,得到该网络活动的互动行为发起时间差列表;
互动行为统计规整子单元,用于设置固定的间隔时间段,根据该网络活动的互动行为发起时间差列表、以及所述间隔时间段,统计得到每个固定的间隔时间段内为该网络活动发起的互动行为数量。
8.根据权利要求7所述的批量非正常互动行为的识别系统,其特征在于,所述拟合单元具体还包括:
泊松分布计算子单元,用于将每个固定的间隔时间段、各间隔时间段内的互动行为数量代入泊松分布的概率函数得到因变量;
拟合子单元,用于通过拟合软件根据各间隔时间段内的互动行为数量、各间隔时间段的起点到该网络活动发布时的时间间隔、因变量进行拟合,得到为该网络活动发起的互动行为对应的泊松分布的概率拟合曲线,并从所述泊松分布的概率拟合曲线中提取出拟合系数,根据拟合系数、以及拟合后的泊松分布的概率拟合曲线上的因变量得到泊松分布的拟合优度。
9.根据权利要求8所述的批量非正常互动行为的识别系统,其特征在于,所述拟合单元还包括修正子单元:
用于在所述泊松分布计算子单元得到因变量之后,通过归一参数修正因变量,使得互动行为在其相应的间隔时间段出现的概率之和是1,并将修正后的因变量输出给所述拟合子单元供拟合时使用。
10.根据权利要求8或9所述的批量非正常互动行为的识别系统,其特征在于,所述判定单元包括:
第一判定单元,用于当拟合优度小于第一预设值、且拟合系数大于第二预设值时,则判定该网络活动目前的互动行为为批量非正常互动行为;
第二判定单元,用于当拟合优度大于等于第一预设值、或者拟合系数小于等于第二预设值时,则判定该网络活动目前的互动行为为正常互动行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011038236.6A CN112149036B (zh) | 2020-09-28 | 2020-09-28 | 一种批量非正常互动行为的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011038236.6A CN112149036B (zh) | 2020-09-28 | 2020-09-28 | 一种批量非正常互动行为的识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149036A true CN112149036A (zh) | 2020-12-29 |
CN112149036B CN112149036B (zh) | 2023-11-10 |
Family
ID=73895625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011038236.6A Active CN112149036B (zh) | 2020-09-28 | 2020-09-28 | 一种批量非正常互动行为的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149036B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1143355A2 (en) * | 2000-04-03 | 2001-10-10 | Lucent Technologies Inc. | Method and apparatus for updating records in a database system based on an improved model of time-dependent behavior |
US20040249931A1 (en) * | 2003-06-03 | 2004-12-09 | Proactivenet, Inc. | Network management system to monitor managed elements |
CN1950778A (zh) * | 2004-03-09 | 2007-04-18 | Ip锁有限公司 | 数据库用户行为监控系统及方法 |
CN103294903A (zh) * | 2013-05-17 | 2013-09-11 | 北京邮电大学 | 网络业务流的泊松过程的计算机模拟方法 |
US20150067845A1 (en) * | 2013-08-27 | 2015-03-05 | International Business Machines Corporation | Detecting Anomalous User Behavior Using Generative Models of User Actions |
CN105354721A (zh) * | 2015-09-29 | 2016-02-24 | 北京金山安全软件有限公司 | 一种识别机器操作行为的方法及装置 |
CN106302534A (zh) * | 2016-09-30 | 2017-01-04 | 微梦创科网络科技(中国)有限公司 | 一种检测和处理非法用户的方法及系统 |
WO2018125628A1 (en) * | 2016-12-29 | 2018-07-05 | Alcatel-Lucent Usa Inc. | A network monitor and method for event based prediction of radio network outages and their root cause |
CN109818921A (zh) * | 2018-12-14 | 2019-05-28 | 微梦创科网络科技(中国)有限公司 | 一种网站接口非正常流量的分析方法及装置 |
CN110086649A (zh) * | 2019-03-19 | 2019-08-02 | 深圳壹账通智能科技有限公司 | 异常流量的检测方法、装置、计算机设备及存储介质 |
CN110100013A (zh) * | 2016-10-24 | 2019-08-06 | 香港中文大学 | 用于肿瘤检测的方法和系统 |
-
2020
- 2020-09-28 CN CN202011038236.6A patent/CN112149036B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1143355A2 (en) * | 2000-04-03 | 2001-10-10 | Lucent Technologies Inc. | Method and apparatus for updating records in a database system based on an improved model of time-dependent behavior |
US20040249931A1 (en) * | 2003-06-03 | 2004-12-09 | Proactivenet, Inc. | Network management system to monitor managed elements |
CN1950778A (zh) * | 2004-03-09 | 2007-04-18 | Ip锁有限公司 | 数据库用户行为监控系统及方法 |
CN103294903A (zh) * | 2013-05-17 | 2013-09-11 | 北京邮电大学 | 网络业务流的泊松过程的计算机模拟方法 |
US20150067845A1 (en) * | 2013-08-27 | 2015-03-05 | International Business Machines Corporation | Detecting Anomalous User Behavior Using Generative Models of User Actions |
CN105354721A (zh) * | 2015-09-29 | 2016-02-24 | 北京金山安全软件有限公司 | 一种识别机器操作行为的方法及装置 |
CN106302534A (zh) * | 2016-09-30 | 2017-01-04 | 微梦创科网络科技(中国)有限公司 | 一种检测和处理非法用户的方法及系统 |
CN110100013A (zh) * | 2016-10-24 | 2019-08-06 | 香港中文大学 | 用于肿瘤检测的方法和系统 |
WO2018125628A1 (en) * | 2016-12-29 | 2018-07-05 | Alcatel-Lucent Usa Inc. | A network monitor and method for event based prediction of radio network outages and their root cause |
CN109818921A (zh) * | 2018-12-14 | 2019-05-28 | 微梦创科网络科技(中国)有限公司 | 一种网站接口非正常流量的分析方法及装置 |
CN110086649A (zh) * | 2019-03-19 | 2019-08-02 | 深圳壹账通智能科技有限公司 | 异常流量的检测方法、装置、计算机设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
L. XU等: "Analyzing the time-limited behavior of mobile devices carriers", INTERNATIONAL CONFERENCE ON CYBERSPACE TECHNOLOGY (CCT 2014), pages 1 - 4 * |
唐晓彬;周志敏;董莉;: "大数据背景下网络突发事件动态监测研究", 统计研究, no. 02, pages 46 - 56 * |
张桌箫: "面向云平台的尾延迟测评方法研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 2, pages 139 - 56 * |
朱亚锋;程光;: "基于时空特性的恶意流量生成方法的研究与实现", 网络空间安全, no. 01, pages 83 - 89 * |
程铖等: "基于Esscher变换的巨灾指数期权定价与数值模拟", 中国管理科学, vol. 22, no. 1, pages 20 - 28 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861128A (zh) * | 2021-01-21 | 2021-05-28 | 微梦创科网络科技(中国)有限公司 | 一种批量识别机器账号的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112149036B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理系统 | |
CN108234347B (zh) | 一种提取特征串的方法、装置、网络设备及存储介质 | |
CN109543373B (zh) | 一种基于用户行为的信息识别方法及装置 | |
CN110620770B (zh) | 一种分析网络黑产账号的方法及装置 | |
CN106202280B (zh) | 一种信息处理方法及服务器 | |
CN110474871B (zh) | 一种异常账号检测方法、装置、计算机设备及存储介质 | |
CN104836781A (zh) | 区分访问用户身份的方法及装置 | |
CN107070940B (zh) | 一种从流式登录日志中判断恶意登录ip地址的方法及装置 | |
CN113127746B (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
CN110830445B (zh) | 一种异常访问对象的识别方法及设备 | |
CN106874165B (zh) | 网页检测方法和装置 | |
CN113505272B (zh) | 基于行为习惯的控制方法和装置、电子设备和存储介质 | |
CN111258593A (zh) | 应用程序预测模型的建立方法、装置、存储介质及终端 | |
CN113553596A (zh) | 一种应用于大数据服务的信息防护方法及服务器 | |
CN113992340B (zh) | 用户异常行为识别方法、装置、设备和存储介质 | |
CN109583731B (zh) | 一种风险识别方法、装置及设备 | |
CN109978575B (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN107729375B (zh) | 一种日志数据排序的方法及装置 | |
CN112149036A (zh) | 一种批量非正常互动行为的识别方法及系统 | |
CN111988278B (zh) | 一种基于用户地理位置日志的异常用户确定方法及装置 | |
CN112115324B (zh) | 一种基于幂律分布确认刷赞用户的方法及装置 | |
CN106934708B (zh) | 事件记录方法和装置 | |
CN112861120A (zh) | 识别方法、设备及存储介质 | |
CN114650239B (zh) | 一种数据的刷量识别方法、存储介质和电子设备 | |
US10693855B1 (en) | Fraud detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |