CN108053256A - 一种基于PageRank的反作弊方法 - Google Patents

一种基于PageRank的反作弊方法 Download PDF

Info

Publication number
CN108053256A
CN108053256A CN201711439224.2A CN201711439224A CN108053256A CN 108053256 A CN108053256 A CN 108053256A CN 201711439224 A CN201711439224 A CN 201711439224A CN 108053256 A CN108053256 A CN 108053256A
Authority
CN
China
Prior art keywords
mrow
iprank
pagerank
values
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711439224.2A
Other languages
English (en)
Inventor
彭文元
周小强
申晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Silver Orange Culture Media Ltd By Share Ltd
Original Assignee
Shanghai Silver Orange Culture Media Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Silver Orange Culture Media Ltd By Share Ltd filed Critical Shanghai Silver Orange Culture Media Ltd By Share Ltd
Priority to CN201711439224.2A priority Critical patent/CN108053256A/zh
Publication of CN108053256A publication Critical patent/CN108053256A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于PageRank的反作弊方法,包括以下步骤:监测并获取IP行为数据;根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;建立一个IpRank和作弊概率的映射关系;根据映射关系及IpRank的值获得作弊概率;针对流量作弊,通过ip为突破口,参照经典PageRank网络模型,计算了各个ip的IpRank值,发现该rank值与作弊程度有关;并建立的rank值和作弊概率的映射模型,通过该模型的优势在于无需做其他频次规则就可明确计算得到数值的作弊概率。

Description

一种基于PageRank的反作弊方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于PageRank的反作弊方法。
背景技术
随着移动互联网的普及,移动网络已经成为一个更加适合传播广告并获得良好展现效果的平台.移动广告已被认为是移动互联网经济最活跃的引擎,应用市场上,各类移动APP、微信公众号层出不穷,为了在海量应用中脱颖而出,推广成为最迫切的需求,而移动广告平台已成为APP移动营销的最佳渠道。随着移动广告爆发,流量作弊的现象也越来越严重,这不仅仅损害了广告主的利益,从长远看,如果广告主在投放移动广告后没有获得所期望的回报,那么广告主毫不留情地放弃移动广告平台,最终受到伤害的还是移动广告平台本身。所以作弊和反作弊将一直是一场矛与盾不断升级的对抗。
常见作弊行为包括:
1.广告CTR异常:主要指虚拟点击或恶意点击,即Click/PV过高比例,或者起伏很大。
2.广告访问IP分布异常:通过Log日志发现某几个IP产生大量的点击或者曝光数。
3.URL、UID、浏览器、操作系统等异常:大量点击或展现同一个用户或操作系统,或占比过高。
4.广告点击对应的曝光或竞价请求不存在或时间间隔异常:广告点击click都应该出现在对应广告曝光之后,曝光应该在对应竞价之后,且2者的时间段得正常分布。
5.广告来源异常:点击或曝光的referer可以标记来源页面,如果大量来源集中在某个页面且不属于已知的广告媒体,可能存在媒体在其他大流量(如BBS)设置隐藏页面来充当曝光和点击。
6.广告访问时间分布异常/规律:某些IP/MZID每分钟定时出现在点击/曝光日志中,或者连续点击/曝光的发生时间间隔过于规律。
常见防作弊手段如下:
IP防作弊:记录ip每天每小时曝光和点击次数,过滤频次过多IP并建立黑名单。
Cookie/设备号防作弊:通过cookie或设备号标记用户,记录同一用户各时间段内的曝光点击次数,过滤掉频次过高的用户。
点击率防作弊:对单个广告创意或广告位,可设点击率上限,超过上限的创意或广告位提示作弊风险。
时间戳防作弊:从广告曝光到点击行为一般需要一定的时间间隔,正常用户符合一定的时间间隔分布,若某些用户、ip的时间间隔行为异常也可发现作弊行为。
发明内容
鉴于目前存在的上述不足,本发明提供一种基于PageRank的反作弊方法,以IP为突破口,假定“使用作弊ip的用户的其他ip往往也是作弊的”并结合PageRank网络的思路,建立IpRank反作弊模型。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基于PageRank的反作弊方法,所述基于PageRank的反作弊方法包括以下步骤:
监测并获取IP行为数据;
根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;
建立一个IpRank和作弊概率的映射关系;
根据映射关系及IpRank的值获得作弊概率。
依照本发明的一个方面,所述监测并获取IP行为数据包括:若干时间间隔段T内有一个用户同时使用了IPi和IPj,那么IPij的连接数加1。
依照本发明的一个方面,所述根据获取IP行为数据结合PageRank建立IpRank模型包括:
对于任意IP,它的IpRank值可表示为如下:其中Bi是所有连接到ipi的其他IP集合,Lij表示IPi和IPj同时使用过的用户数,Lj表示IPj对外连接权值和,IPi的IpRank值公式:
其中,N为网络中所有IP节点总数;d为阻尼因子,设为0.85;IRj为IPj的IpRank值;Lj为IPj链出的连接权值和Bi为连接到IPi的所有其他IP集合。
依照本发明的一个方面,所述计算值包括:
使用迭代方式求解每个ip的IR值:
其中,R(t)为t时刻所有ip的IR值向量;1为长度位N的列向量M为转移概率矩阵,定义为:
依照本发明的一个方面,IRi值的高低取决于该IP在网络中的连接密集程度,使用该IP的用户越多,这些用户使用其他IP越多,则IR值越高。
依照本发明的一个方面,所述建立一个IpRank和作弊概率的映射关系包括:
建立一个rank和作弊概率P的映射关系:
其中p为作弊概率,R为IpRank值,a和b为需要学习的参数。
依照本发明的一个方面,通过对作弊标记数据LR学习,得到a、b参数。
本发明实施的优点:本发明所述的基于PageRank的反作弊方法,包括以下步骤:监测并获取IP行为数据;根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;建立一个IpRank和作弊概率的映射关系;根据映射关系及IpRank的值获得作弊概率;针对流量作弊,通过ip为突破口,参照经典PageRank网络模型,计算了各个ip的IpRank值,发现该rank值与作弊程度有关;并建立的rank值和作弊概率的映射模型,通过该模型的优势在于无需做其他频次规则就可明确计算得到数值的作弊概率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述的一种基于PageRank的反作弊方法示意图;
图2为本发明所述的网络结构示意图;
图3为本发明所述的IpRank统计分布示意图;
图4为本发明所述的IR排序下作弊数量示意图;
图5为本发明所述的作弊概率对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1、图2、图3、图4和图5所示,一种基于PageRank的反作弊方法,所述基于PageRank的反作弊方法包括以下步骤:
步骤S1:监测并获取IP行为数据;
所述步骤S1监测并获取IP行为数据的具体实施方式可为:如图2所示的网络结构,若干时间间隔段T内有一个用户同时使用了(产生Pv数据)IPi和IPj,那么IPij的连接数+1。
步骤S2:根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;
所述步骤S2根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值的具体实施方式包括:
对于任意IP,它的IpRank值可表示为如下:其中Bi是所有连接到ipi的其他IP集合,Lij表示IPi和IPj同时使用过的用户数,Lj表示IPj对外连接权值和,IPi的IpRank值公式:
其中,N为网络中所有IP节点总数;d为阻尼因子,设为0.85;IRj为IPj的IpRank值;Lj为IPj链出的连接权值和Bi为连接到IPi的所有其他IP集合。
使用迭代方式求解每个ip的IR值:
其中,R(t)为t时刻所有ip的IR值向量;1为长度位N的列向量M为转移概率矩阵,定义为:
从上述公式可看出,IRi值的高低取决于该IP在网络中的连接密集程度,使用该IP的用户越多,这些用户使用其他IP越多,则IR值越高。恰恰作弊ip具有这种使用频繁程度的特点。
可通过如下代码实现:
IpRank-Iterate
R0=e
for(i=0;i<k;i++)
Ri+l=(1-d)e+dMTRi
Return Rk
其中e为单位向量。
步骤S3:建立一个IpRank和作弊概率的映射关系;
所述步骤S3建立一个IpRank和作弊概率的映射关系的具体实施方式可为:
虽然rank高往往比rank值低的IP更可能作弊,但rank值本身无法得知作弊的程度,如图3所示,横坐标是rank值,纵坐标为统计数。所以有必要建立一个rank和作弊概率P的映射关系:
其中p为作弊概率,R为IpRank值,a和b为需要学习的参数。
通过对作弊标记数据LR学习,得到ab参数。
在本实施例中,作弊标记数据使用一份阿里标记的作弊ip,共1万条。
步骤S4:根据映射关系及IpRank的值获得作弊概率。
在实际应用中,用IpRank模型训练2017-12-03百橙Log文件(1200万pv,324万ip),以阿里标记的1w作弊ip为标记数据进行测试。
在IpRank值从高到低排序下,统计标记作弊的占比(每500Ip为单位),其中AUC可达0.9,如图4所示,横坐标是rank值从高到低排序的序号,纵坐标为单位500Ip中统计作弊占比。
结合作弊概率-rank映射关系,训练得到
如图5所示,横坐标为rank值,纵坐标为作弊概率,黑点为标记数据统计,灰点为模型预估。
本发明实施的优点:本发明所述的基于PageRank的反作弊方法,包括以下步骤:监测并获取IP行为数据;根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;建立一个IpRank和作弊概率的映射关系;根据映射关系及IpRank的值获得作弊概率;针对流量作弊,通过ip为突破口,参照经典PageRank网络模型,计算了各个ip的IpRank值,发现该rank值与作弊程度有关;并建立的rank值和作弊概率的映射模型,通过该模型的优势在于无需做其他频次规则就可明确计算得到数值的作弊概率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于PageRank的反作弊方法,其特征在于,所述基于PageRank的反作弊方法包括以下步骤:
监测并获取IP行为数据;
根据获取IP行为数据结合PageRank建立IpRank模型并计算IpRank的值;
建立一个IpRank和作弊概率的映射关系;
根据映射关系及IpRank的值获得作弊概率。
2.根据权利要求1所述的基于PageRank的反作弊方法,其特征在于,所述监测并获取IP行为数据包括:若干时间间隔段T内有一个用户同时使用了IPi和IPj,那么IPij的连接数加1。
3.根据权利要求2所述的基于PageRank的反作弊方法,其特征在于,所述根据获取IP行为数据结合PageRank建立IpRank模型包括:
对于任意IP,它的IpRank值可表示为如下:其中Bi是所有连接到ipi的其他IP集合,Lij表示IPi和IPj同时使用过的用户数,Lj表示IPj对外连接权值和,IPi的IpRank值公式:
<mrow> <msub> <mi>IR</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>d</mi> </mrow> <mi>N</mi> </mfrac> <mo>+</mo> <mi>d</mi> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>&amp;Element;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> </munder> <mfrac> <mrow> <msub> <mi>IR</mi> <mi>j</mi> </msub> </mrow> <msub> <mi>L</mi> <mi>j</mi> </msub> </mfrac> </mrow>
其中,N为网络中所有IP节点总数;d为阻尼因子,设为0.85;IRj为IPj的IpRank值;Lj为IPj链出的连接权值和Bi为连接到IPi的所有其他IP集合。
4.根据权利要求3所述的基于PageRank的反作弊方法,其特征在于,所述计算值包括:
使用迭代方式求解每个ip的IR值:
<mrow> <mi>R</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>d</mi> <mi>M</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>d</mi> </mrow> <mi>N</mi> </mfrac> <mn>1</mn> </mrow>
其中,R(t)为t时刻所有ip的IR值向量;1为长度位N的列向量M为转移概率矩阵,定义为:
5.根据权利要求4所述的基于PageRank的反作弊方法,其特征在于,IRi值的高低取决于该IP在网络中的连接密集程度,使用该IP的用户越多,这些用户使用其他IP越多,则IR值越高。
6.根据权利要求1至5之一所述的基于PageRank的反作弊方法,其特征在于,所述建立一个IpRank和作弊概率的映射关系包括:
建立一个rank和作弊概率P的映射关系:
<mrow> <mi>P</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>b</mi> <mo>*</mo> <msup> <mi>R</mi> <mi>a</mi> </msup> </mrow> </mfrac> </mrow>
其中p为作弊概率,R为IpRank值,a和b为需要学习的参数。
7.根据权利要求6所述的基于PageRank的反作弊方法,其特征在于,通过对作弊标记数据LR学习,得到a、b参数。
CN201711439224.2A 2017-12-27 2017-12-27 一种基于PageRank的反作弊方法 Pending CN108053256A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711439224.2A CN108053256A (zh) 2017-12-27 2017-12-27 一种基于PageRank的反作弊方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711439224.2A CN108053256A (zh) 2017-12-27 2017-12-27 一种基于PageRank的反作弊方法

Publications (1)

Publication Number Publication Date
CN108053256A true CN108053256A (zh) 2018-05-18

Family

ID=62128176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711439224.2A Pending CN108053256A (zh) 2017-12-27 2017-12-27 一种基于PageRank的反作弊方法

Country Status (1)

Country Link
CN (1) CN108053256A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810947A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 基于ip地址的鉴别真实流量的服务器
CN113763167A (zh) * 2021-08-11 2021-12-07 杭州盈火网络科技有限公司 一种基于复杂网络的黑名单挖掘方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601532A (zh) * 2003-09-16 2005-03-30 微软公司 根据结构相关信息排序文档的改进的系统和方法
US20100023513A1 (en) * 2006-06-22 2010-01-28 Yahoo! Inc. User-sensitive pagerank
CN102446180A (zh) * 2010-10-09 2012-05-09 腾讯科技(深圳)有限公司 一种商品搜索方法及其装置
US8762298B1 (en) * 2011-01-05 2014-06-24 Narus, Inc. Machine learning based botnet detection using real-time connectivity graph based traffic features
CN107274212A (zh) * 2017-05-26 2017-10-20 北京小度信息科技有限公司 作弊识别方法及装置
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1601532A (zh) * 2003-09-16 2005-03-30 微软公司 根据结构相关信息排序文档的改进的系统和方法
US20100023513A1 (en) * 2006-06-22 2010-01-28 Yahoo! Inc. User-sensitive pagerank
CN102446180A (zh) * 2010-10-09 2012-05-09 腾讯科技(深圳)有限公司 一种商品搜索方法及其装置
US8762298B1 (en) * 2011-01-05 2014-06-24 Narus, Inc. Machine learning based botnet detection using real-time connectivity graph based traffic features
CN107274212A (zh) * 2017-05-26 2017-10-20 北京小度信息科技有限公司 作弊识别方法及装置
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108810947A (zh) * 2018-05-29 2018-11-13 浙江每日互动网络科技股份有限公司 基于ip地址的鉴别真实流量的服务器
CN108810947B (zh) * 2018-05-29 2021-05-11 每日互动股份有限公司 基于ip地址的鉴别真实流量的服务器
CN113763167A (zh) * 2021-08-11 2021-12-07 杭州盈火网络科技有限公司 一种基于复杂网络的黑名单挖掘方法
CN113763167B (zh) * 2021-08-11 2023-11-17 杭州盈火网络科技有限公司 一种基于复杂网络的黑名单挖掘方法

Similar Documents

Publication Publication Date Title
Lu et al. Characteristics of public concern on haze in China and its relationship with air quality in urban areas
Lelkes et al. The hostile audience: The effect of access to broadband internet on partisan affect
Howe et al. Public perceptions of the health risks of extreme heat across US states, counties, and neighborhoods
CN104602042B (zh) 基于用户行为的标签设置方法
Chalcraft et al. Scale dependence in the species‐richness–productivity relationship: the role of species turnover
CN102394798B (zh) 一种基于多元特征的微博信息传播行为预测方法及系统
Springborn et al. Impression fraud in on-line advertising via {Pay-Per-View} networks
CN103189856B (zh) 确定媒体印象的方法和装置
CN104035926B (zh) 一种互联网信息的投放和系统
US7769786B2 (en) Propensity-to-click targeting and modeling
Miller Using spatially explicit simulated data to analyze animal interactions: a case study with brown hyenas in northern Botswana
WO2011078932A1 (en) Method and apparatus for delivering targeted content to website visitors to promote products and brands
CN103136330A (zh) 基于微博平台的用户可信度评估方法
Wagler et al. Exploring ways social media data inform public issues communication: An analysis of Twitter conversation during the 2012-2013 drought in Nebraska
KR20120007889A (ko) 광고효과를 검증하는 방법, 시스템 및 그 기록매체
Mumenthaler et al. The impact of local temperature volatility on attention to climate change: Evidence from Spanish tweets
US10475047B2 (en) Method and apparatus for delivering targeted content to website visitors
CN109034867A (zh) 点击流量检测方法、装置及存储介质
CN108053256A (zh) 一种基于PageRank的反作弊方法
CN107993078A (zh) 用于评价信息展示效果方法和装置以及计算设备
Zhang et al. A sybil-proof and time-sensitive incentive tree mechanism for crowdsourcing
Short et al. Trophically integrated ecometric models as tools for demonstrating spatial and temporal functional changes in mammal communities
Nath et al. Ad impression forecasting for sponsored search
Qasem et al. Using attractiveness model for actors ranking in social media networks
CN109740060A (zh) 一种推送信息的频次控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180518

RJ01 Rejection of invention patent application after publication