CN106355431B - 作弊流量检测方法、装置及终端 - Google Patents

作弊流量检测方法、装置及终端 Download PDF

Info

Publication number
CN106355431B
CN106355431B CN201610692232.7A CN201610692232A CN106355431B CN 106355431 B CN106355431 B CN 106355431B CN 201610692232 A CN201610692232 A CN 201610692232A CN 106355431 B CN106355431 B CN 106355431B
Authority
CN
China
Prior art keywords
combination
observed
dimensions
index
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610692232.7A
Other languages
English (en)
Other versions
CN106355431A (zh
Inventor
汤奇峰
邓垚泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingzan Advertising (shanghai) Co Ltd
Original Assignee
Jingzan Advertising (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingzan Advertising (shanghai) Co Ltd filed Critical Jingzan Advertising (shanghai) Co Ltd
Priority to CN201610692232.7A priority Critical patent/CN106355431B/zh
Publication of CN106355431A publication Critical patent/CN106355431A/zh
Application granted granted Critical
Publication of CN106355431B publication Critical patent/CN106355431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud

Abstract

一种作弊流量检测方法、装置及终端,作弊流量检测方法包括:确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;根据所述指标值确定所述观测维度组合中的候选异常组合;根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。本发明技术方案可以实现作弊流量的检测。

Description

作弊流量检测方法、装置及终端
技术领域
本发明涉及流量监控领域,尤其涉及一种作弊流量检测方法、装置及终端。
背景技术
在互联网领域中,针对网站或者是投放内容的流量是衡量网站或投放内容被关注度的重要参数。目前在实际应用中,存在通过各种手段人为提高流量的情况,这样的流量即为作弊流量。
例如,目前的网络广告生态圈中,存在着不少作弊流量。作弊流量利用伪造网站、伪造广告点击等各种不同方式来赚取广告主用于网络宣传的经费。如果在网络广告生态圈中的需求方平台(Demand Side Platform,DSP)中采用这种作弊流量,竞价成功并展示广告成功,那么广告主为该流量的花费并没有投放给广告主的正确目标人群,作弊流量也不会给广告主带来转化,则广告主的投资回报率(Return On Investment,ROI)会降低很多。故过滤作弊流量对于DSP来说是一个很重要的步骤。
再例如,某些网站(例如论坛、新闻推送网站、应用商店等)会根据投放内容(例如发表信息、新闻、应用等)的流量来调整该投放内容的排列次序。作弊流量会干扰投放内容的合理排列次序,需要进行滤除。
但是,由于作弊手段的多样性,以及作弊手法的不断更新,从海量数据中直接提取作弊流量非常困难。
发明内容
本发明解决的技术问题是如何实现作弊流量的检测。
为解决上述技术问题,本发明实施例提供一种作弊流量检测方法,作弊流量检测方法包括:确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;根据所述指标值确定所述观测维度组合中的候选异常组合;根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
可选的,所述按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合包括:确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。
可选的,所述确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合包括:按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合;在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合。
可选的,所述观测维度组合的所述待观测指标的指标值是在每次迭代之后计算的,在计算所述指标值之前包括:在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;如果所述当前观测维度组合的待观测指标的指标值小于第一设定阈值,则剔除所述当前观测维度组合。
可选的,所述根据所述指标值确定所述观测维度组合中的候选异常组合之后包括:对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。
可选的,所述确定待检测数据,并选取待观测指标以及多种待观测维度之前还包括:初始化形成所述观测维度组合的白名单。
可选的,所述根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合包括:针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值;如果所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内,则剔除所述候选异常组合;对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;如果所述异常原因是所述历史数据中的设定原因,则将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
可选的,所述根据所述指标值确定所述观测维度组合中的候选异常组合包括:所述观测维度组合的待观测指标的指标值高于第三设定阈值或低于第四设定阈值时,确定所述观测维度组合为所述异常组合。
为解决上述技术问题,本发明实施例还公开了一种作弊流量检测装置,作弊流量检测装置包括:确定单元,适于确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;组合单元,适于按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;计算单元,适于针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;候选异常组合确定单元,适于根据所述指标值确定所述观测维度组合中的候选异常组合;作弊流量分析单元,适于根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
可选的,所述组合单元确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。
可选的,所述组合单元包括:观测维度组合子单元,适于按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合;观测维度取值组合子单元,适于在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合。
可选的,所述观测维度组合的所述待观测指标的指标值是在每次迭代之后计算的,所述计算单元之前包括:父组合确定子单元,适于在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;第一剔除子单元,适于在所述当前观测维度组合的待观测指标的指标值小于第一设定阈值时,剔除所述当前观测维度组合。
可选的,所述作弊流量检测装置还包括:去重单元,适于对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。
可选的,所述作弊流量检测装置还包括:白名单初始单元,适于初始化形成所述观测维度组合的白名单。
可选的,所述作弊流量分析单元包括:计算子单元,适于针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值;第二剔除子单元,适于在所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内使,剔除所述候选异常组合;异常原因分析子单元,适于对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;判定子单元,适于在所述异常原因是所述历史数据中的设定原因时,将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
可选的,所述候选异常组合确定单元在所述观测维度组合的待观测指标的指标值高于第三设定阈值或低于第四设定阈值时,确定所述观测维度组合为所述异常组合。
为解决上述技术问题,本发明实施例还公开了一种终端,所述终端包括所述作弊流量检测装置。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例通过确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;根据所述指标值确定所述观测维度组合中的候选异常组合;根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。由于待观测指标的指标值在正常情况下是稳定的,而存在作弊流量的情况下,指标值会出现异常;故通过对各个观测维度组合的所述待观测指标的指标值进行计算,可以初步确定候选观测维度组合,进而结合历史数据确定异常组合,从而可以确定作弊流量。本发明实施例可以实现作弊流量的检测,及时发现作弊流量,以便用户及时做出响应。
进一步,在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;如果所述当前观测维度组合的待观测指标的指标值小于第一设定阈值,则剔除所述当前观测维度组合。通过对当前观测维度组合的待观测指标的指标值不满足第一设定阈值时,对当前观测维度组合进行过滤,可以减小计算量,加快计算速度,提高检测效率。
进一步,对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。通过目标候选异常组合与其父组合的指标值的比值,确定对父组合的指标值异常影响大的目标候选异常组合,并剔除所述父组合;通过对计算结果的去重处理,提高了检测结果的准确性。
附图说明
图1是本发明实施例一种作弊流量检测方法的流程图;
图2是本发明实施例一种观测维度组合的确定方法的流程图;
图3是本发明实施例一种候选异常组合分析方法的流程图;
图4是本发明实施例一种作弊流量检测装置的结构示意图;
图5是本发明实施例另一种作弊流量检测装置的结构示意图。
具体实施方式
如背景技术中所述,现有技术中由于作弊手段的多样性,以及作弊手法的不断更新,从海量数据中直接提取作弊流量非常困难。
对于需求方平台(Demand Side Platform,DSP)来说,广告主为DSP服务的对象,而广告主对于DSP的网络广告投放是有业务指标(也就是待观测指标)考察要求的,比如投资回报率(Return On Investment,ROI),点击率(Click Through Rate,CTR)等等。对于业务量较大的广告主,其流量也相对较大,其业务指标从统计意义上来说是趋于稳定的;如果在业务指标上出现了异常,则可能是流量中混杂了作弊流量。或者,对于依据流量来调整投放内容的排列次序的网站,作弊流量可能会干扰合理排序。
本发明实施例可以通过对业务指标的异常检测,将检测范围缩小,在小范围内确定作弊流量并进行分析。本发明实施例不限于作弊方式,能够实现作弊流量的检测。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
请参照图1,图1是本发明实施例一种作弊流量检测方法的流程图。
所述作弊流量检测方法可以包括以下步骤:
步骤S101:确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;
步骤S102:按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;
步骤S103:针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;
步骤S104:根据所述指标值确定所述观测维度组合中的候选异常组合;
步骤S105:根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
下面结合图1对上述步骤S101至步骤S105做详细的分析。
具体实施中,在步骤S101中,待检测数据可以是设定时间段内的数据,也可以是指定的数据。例如可以是,将过去一天的数据作为待检测数据。所述待检测数据可以是经过采集得到的。作弊流量是在所述待检测数据中进行检测的。其中,待检测数据可以是与流量相关的数据,例如网站的访问记录数据等。所述待检测数据中可以包括用户信息、网站内容、网站类型、浏览器类型、浏览量、点击量等。
具体实施中,在步骤S101中,选取待观测指标以及多种待观测维度时,可以根据用户的需求进行指定,也可以通过预先配置来自动选取。不同待观测维度可以表示选定的需要观测的不同粒度,可以是每次请求的属性,例如可以是DSP收到的竞价请求的域名,竞价获胜的广告主,竞价获胜的广告创意等等。观测指标(也可以说业务指标)可以包括以下一种或多种:总请求量,独立用户数(Unique Visitor,UV),点击数,点击率(Click ThroughRate,CTR),转化率(Click Value Rate,CVR),浏览量(Page View,PV)等。
例如,选取待观测维度时,由于同一个广告主会根据不同的投放目标,同时对多个不同的广告进行投放;且多个不同的广告也会出现在不同的网站上;广告投放成功后浏览网页的浏览器类型、电脑操作系统也不同。故可以选取的待观测维度可以包括以下一种或多种:广告主,广告主的不同广告,目标投放网站,用户浏览器类型,用户电脑操作系统,流量来源平台。
需要说明的是,待观测指标的数量和待观测维度的种类可以由用户进行自定义配置。优选的,待观测维度的种类小于10。
在步骤S102中,多个观测维度组合可以形成多个待观测的流量集合。待观测指标可以是在形成了待观测的流量集合后,对每个集合的待统计和计算的指标。例如,所述流量可以指DSP收到的竞价请求。
在步骤S103中,针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值。例如,以过去一天的数据为基础,对每个观测维度组合,计算其待观测指标的指标值。
具体实施中,每个待观测指标的数值可以根据其他不同待观测指标计算。例如,总流量就是观测维度组合的广告请求的数目,独立用户数是观测维度组合的用户数目,CTR为点击数与展示数的比值。
在步骤S104中,根据计算出的指标值过滤出的候选异常组合。具体而言,所述观测维度组合的待观测指标的指标值高于第三设定阈值或低于第四设定阈值时,确定所述观测维度组合为所述异常组合。
需要说明的是,所述第三设定阈值和第四设定阈值可以由用户根据实际的应用环境进行适应性的调整。例如,待观测指标为点击率时,可以设置第三设定阈值为1%,也可以从平均水平来设置,可以设置第三设定阈值为平均点击率的30%;待观测指标为PV时,可以设置第三设定阈值为平均浏览量的30%;待观测指标为UV时,可以设置第三设定阈值为平均独立用户数的30%;本发明实施例对此不做限制。
具体实施中,在步骤S104确定候选异常组合后,对候选异常组合的结果进行去重处理。具体而言,对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合;也就是说目标候选异常组合中待观测维度的取值包括父组合,且目标候选异常组合中待观测维度的数量大于父组合中待观测维度的取值。
例如,目标候选异常组合A=a&B=b与其父组合A=a均在待观测指标点击率出现异常,其中,A、B为待观测维度,a为待观测维度A的一种取值,b为待观测维度B的一种取值。如果PV(A=a)=100,PV(A=a&B=b)=80;且80>100*0.5。也就是说,从浏览量上来看,父组合A=a中的流量超过一半来自目标候选异常组合A=a&B=b,可以表明父组合A=a的异常很大程度上来自目标候选异常组合A=a&B=b,此时仅保留目标候选异常组合A=a&B=b;否则同时保留两个组合。
如上所述第二设定阈值可以是0.5。第二设定阈值也可以是0.8。第二设定阈值为0.8时,则表示在父组合A=a中的流量超过80%来自目标候选异常组合A=a&B=b时,剔除父组合A=a,仅保留目标候选异常组合A=a&B=b。
可以理解的是,用户可以根据实际的应用环境对第二设定阈值进行适应性的调整,本发明实施例对此不做限制。
本发明实施例通过对计算结果的去重处理提高了检测结果的准确性。
在步骤S105中,根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合。也就是说,确定候选异常组合后,再根据历史数据进行一次过滤。过滤后可以确定异常组合,根据异常组合可以确定作弊流量。其中,历史数据和待检测数据可以是针对同一网站的访问记录数据,但二者的范围可以不同。例如,待检测数据可以是设定时间段内的数据,而历史数据可以包含待检测数据以及待检测数据之前的其他数据;或者,历史数据也可以不包含待检测数据,而是待检测数据之前的某一时间段内的数据,如果通过事先的分析确认其指标值具有典型性,则可以选作历史数据。
由此,通过对各个观测维度组合的所述待观测指标的指标值进行计算,可以初步确定候选异常组合,进而结合历史数据确定异常组合,从而可以确定作弊流量。本发明实施例可以实现作弊流量的检测,及时发现作弊流量,以便用户及时做出响应。
图2是本发明实施例一种观测维度组合的确定方法的流程图。
所述观测维度组合的方法可以包括如下步骤:
步骤S201:按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合;
步骤S202:在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合;
步骤S203:在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;
步骤S204:如果所述当前观测维度组合的待观测指标的指标值小于第一设定阈值,则剔除所述当前观测维度组合。
下面结合图1和图2对上述步骤S201至步骤S204做详细的分析。
具体实施中,在步骤S102中,可以确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。图2所示观测维度组合的方法可以是步骤S102的一种具体实施方式。
具体而言,在步骤S201中,先进行待观测维度的组合。具体而言,第一次迭代取一种待观测维度进行组合,第二次迭代取两种待观测维度进行组合,以此类推,也即每次迭代增加一种待观测维度,直至多种待观测维度全部组合完成。例如,选取3种待观测维度时,迭代次数为三次。第一次迭代取一种待观测维度进行组合,第二次迭代取两种待观测维度进行组合,第三次迭代取三种待观测维度进行组合。
具体而言,在步骤S202中,确定步骤S201形成的组合涉及的待观测维度的取值,然后将取值分别进行组合,形成观测维度组合。例如,上述3种待观测维度分别为待观测维度A、待观测维度B和待观测维度C。待观测维度A有5个取值,待观测维度B有3个取值,待观测维度C有2个取值;则通过步骤S202可以得到,第一次迭代完成后有5+3+2=10个观测维度组合,第二次迭代完成后有5*3+3*2+5*2=31个观测维度组合,第三次迭代完成后有5*3*2=30个观测维度组合。
本发明实施例通过将多种待观测维度进行组合,实现对流量的切分,从而有利于提高对作弊流量的定位的准确性。
本发明一实施例中,选取“域名”和“广告主”两个待观测维度,待观测维度“域名”的取值可以为“baidu.com”和“sina.com”;待观测维度“广告主”的取值可以为“携程”和“途牛”。那么,观测维度组合有8个,分别为:1.域名“baidu.com”,2.域名“sina.com”,3.广告主“携程”赢得的流量,4.广告主“途牛”赢得的流量,5.广告主“携程”在域名“baidu.com”上赢得的流量,6.广告主“携程”在域名“sina.com”上赢得的流量,7.广告主“途牛”在域名“baidu.com”上赢得的流量,8.广告主“途牛”在域名“sina.com”上赢得的流量。如果广告主“携程”的待观测指标CTR的指标值较高,通过统计广告主“携程”在各个域名上待观测指标CTR的指标值,可以得到作弊流量是否来自域名;如果域名“baidu.com”的待观测指标CTR的指标值很高,且整体流量占比也不小,而其他域名的待观测指标CTR的指标值均正常,可以大致推断作弊流量来自域名“baidu.com”。在进行待观测维度的组合时,由于待观测维度的取值较多,例如“目标网站”的取值较多。如果采用完全组合的方式,则在第二次迭代以及之后的迭代中会产生大量的组合,影响计算速度。故为了快速计算指标值,减少计算时间,在迭代组合时,不采用完全组合的方式,而是在当前迭代时,采用上一次迭代进行过滤后的结果进行迭代。例如,在第二次迭代时,仅采用第一次迭代进行过滤后的结果进行组合。
在步骤S203和步骤S204中,根据待观测指标对每个观测维度组合进行过滤。首先确定当前观测维度组合的待观测指标的指标值,如果所述当前观测维度组合的待观测指标的指标值小于第一设定阈值,则剔除所述当前观测维度组合。也就是说,通过对不满足条件的观测维度组合进行过滤,从而保证在后续的迭代过程不会对该观测维度组合进行迭代计算,节约了计算资源;同时,上述过滤过程是还可以保证统计的合理性。
可以理解的是,第一设定阈值可以由用户根据实际的应用环境进行自定义配置。
例如可以是,在计算待观测指标CTR时,对于第一次迭代中在浏览量或点击量小于第一设定阈值的观测维度组合,则该观测维度组合可以在第二次迭代中过滤。以此类推,第三次迭代时,采用第二次迭代的过滤后结果与第一次的过滤后结果组合即可。例如,观测维度组合A=a的浏览量小于100或者点击量小于10,那么在后续的迭代中将不再对观测维度组合A=a进行组合,也就是说,在后续的迭代过程中,将不会出现观测维度组合A=a的子组合。
可以理解的是,本发明实施例仅以DSP作为具体实施的应用场景,不构成对本发明实施例的限制。本发明实施例还可以应用于其他场景,例如特定网站的作弊流量监测,该特定网站例如可以是论坛、新闻推送网站、应用商店等,以避免对投放内容的合理排列次序的干扰,提高用户的使用体验。在这种场景下,可以选取的待观测维度可以包括:用户浏览器类型、用户电脑操作系统、流量来源地区等;观测指标可以包括点击数、点击率、浏览量等。
图3是本发明实施例一种候选异常组合分析方法的流程图。
所述候选异常组合分析的方法可以包括以下步骤:
步骤S301:针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值;
步骤S302:如果所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内,则剔除所述候选异常组合;
步骤S303:对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;
步骤S304:如果所述异常原因是所述历史数据中的设定原因,则将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
下面结合图3对上述步骤S301至S304进行进一步的解释。
在步骤S301中,所述历史数据可以是与待检测数据不同的设定时间段内的数据,也可以是指定的数据。例如可以是,待检测数据之前两周内的数据。计算所述候选异常组合的所述待观测指标的指标值时,所述待观测指标与计算待检测数据的待检测指标是相同的。
具体实施中,在步骤S302中,候选异常组合的指标值与历史指标值一致,表明候选异常组合指标值持续高/低;由于候选异常组合在白名单中,表明候选异常组合指标值持续地高或低不是由于作弊流量引起的,故指标值异常高或低的原因已得到解释,则将该组合剔除。例如,针对产品P的投放内容的点击率较高,但是由于产品P的特殊性,其点击率一直较高,则针对产品P的点击率高就不能被认为是异常。
可以理解的是,本发明实施例所称“一致”指的是候选异常组合的指标值与历史指标值相等或者候选异常组合的指标值在历史指标值设定的误差范围内。
其中,所述白名单可以用于存储指标值的异常原因可以得到解释的观测维度组合。也就是说,所述白名单内的观测维度组合在指标值异常时,可以排除原因是作弊流量。
具体实施中,在选取待观测指标以及多种待观测维度之前,初始化形成所述观测维度组合的白名单。初始化形成的白名单内可以包括预先形成的观测维度组合。所述白名单所包括的观测维度组合还可以通过后续步骤S304进行进一步增加。
可以理解的是,预先形成的观测维度组合可以是已知设定原因的观测维度组合;也可以是,在初始化所述白名单之前执行作弊流量检测方法所得到的白名单内的观测维度组合。
在步骤S304中,对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;如果所述异常原因是所述历史数据中的设定原因,则将所述候选异常组合加入所述白名单,否则所述候选异常组合为所述异常组合。异常组合对应的流量则可以确定为作弊流量。
可以理解的是,所述设定原因可以是候选异常组合在网站中的浏览位的位置差,由此可以导致待观测指标低;也可以是候选异常组合创意特殊,由此导致待观测指标高。例如,网站中投放内容所在的位置位于用户不易察觉的角落,导致点击率一直很低;或者,网站中投放内容具有吸引力,其点击率一直很高。
需要说明的是,通过分析得到异常原因的过程可以通过现有的任意可实施的方式实现,本发明实施例对此不做限制。
图4是本发明实施例一种作弊流量检测装置的结构示意图。
所述作弊流量检测装置40可以包括:确定单元401、组合单元402、计算单元403、候选异常组合确定单元404和作弊流量分析单元405。
其中,确定单元401适于确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值;
组合单元402适于按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;
计算单元403适于针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;
候选异常组合确定单元404适于根据所述指标值确定所述观测维度组合中的候选异常组合;
作弊流量分析单元405适于根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
具体实施中,组合单元402确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。
具体实施中,作弊流量检测装置40还可以包括去重单元(图未示),去重单元适于对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。
由此,通过目标候选异常组合与其父组合的指标值的比值,将对父组合的指标值影响小的目标候选异常组合进行过滤,提高了检测结果的准确性。
具体实施中,作弊流量检测装置40还可以包括白名单初始单元(图未示),白名单初始单元适于初始化形成所述观测维度组合的白名单。
具体实施中,计算单元403和组合单元402之间还可以包括:父组合确定子单元(图未示)和第一剔除子单元(图未示)。父组合确定子单元适于在每次迭代之后,确定当前观测维度组合的待观测指标的指标值。第一剔除子单元适于在所述当前观测维度组合的待观测指标的指标值小于第一设定阈值时,剔除所述当前观测维度组合。
由此,通过对父组合的待观测指标的指标值不满足第一设定阈值的当前观测维度组合进行过滤,可以减小计算量,加快计算速度,提高检测效率。
本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述。
图5是图4所示作弊流量分析单元的结构示意图。
如图5所示,作弊流量分析单元405可以包括观测维度组合子单元501、观测维度取值组合子单元502、计算子单元503、第二剔除子单元504、异常原因分析子单元505和判定子单元506。
其中,观测维度组合子单元501适于按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合。
观测维度取值组合子单元502适于在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合。
计算子单元503适于针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值。
第二剔除子单元504适于在所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内使,剔除所述候选异常组合。
异常原因分析子单元505适于对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因。
判定子单元506适于在所述异常原因是所述历史数据中的设定原因时,将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
本发明实施例的具体实施方式可参照前述相应实施例,此处不再赘述。
可以理解的是,作弊流量检测装置40和作弊流量检测装置40可以应用于DSP,还可以应用于特定网站的作弊流量监测,例如可以是论坛、新闻推送网站、应用商店等,以避免对投放内容的合理排列次序的干扰,提高用户的使用体验。
本发明实施例还公开了一种终端,所述终端可以包括作弊流量检测装置40。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于以计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (17)

1.一种作弊流量检测方法,其特征在于,包括:
确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值,所述待观测维度表示选定的需要观测的不同粒度,所述待观测维度选自:广告主、广告主的不同广告、目标投放网站、用户浏览器类型、用户电脑操作系统和流量来源平台;
按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;
针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;
根据所述指标值确定所述观测维度组合中的候选异常组合;
根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
2.根据权利要求1所述的作弊流量检测方法,其特征在于,所述按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合包括:
确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。
3.根据权利要求2所述的作弊流量检测方法,其特征在于,所述确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合包括:
按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合;
在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合。
4.根据权利要求3所述的作弊流量检测方法,其特征在于,所述观测维度组合的所述待观测指标的指标值是在每次迭代之后计算的,在计算所述指标值之前还包括:
在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;
如果所述当前观测维度组合的待观测指标的指标值小于第一设定阈值,则剔除所述当前观测维度组合。
5.根据权利要求1所述的作弊流量检测方法,其特征在于,所述根据所述指标值确定所述观测维度组合中的候选异常组合之后还包括:
对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。
6.根据权利要求1所述的作弊流量检测方法,其特征在于,所述确定待检测数据,并选取待观测指标以及多种待观测维度之前还包括:
初始化形成所述观测维度组合的白名单。
7.根据权利要求6所述的作弊流量检测方法,其特征在于,所述根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合包括:
针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值;
如果所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内,则剔除所述候选异常组合;
对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;
如果所述异常原因是所述历史数据中的设定原因,则将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
8.根据权利要求7所述的作弊流量检测方法,其特征在于,所述根据所述指标值确定所述观测维度组合中的候选异常组合包括:
所述观测维度组合的待观测指标的指标值高于第三设定阈值或低于第四设定阈值时,确定所述观测维度组合为所述异常组合。
9.一种作弊流量检测装置,其特征在于,包括:
确定单元,适于确定待检测数据,并选取待观测指标以及多种待观测维度,每种待观测维度具有至少一个取值,所述待观测维度表示选定的需要观测的不同粒度,所述待观测维度选自:广告主、广告主的不同广告、目标投放网站、用户浏览器类型、用户电脑操作系统和流量来源平台;
组合单元,适于按照所述多种待观测维度对各待观测维度的取值进行组合,形成多个观测维度组合;
计算单元,适于针对所述待检测数据,计算每个观测维度组合的所述待观测指标的指标值;
候选异常组合确定单元,适于根据所述指标值确定所述观测维度组合中的候选异常组合;
作弊流量分析单元,适于根据历史数据对候选异常组合进行分析,以确定所述候选异常组合中的异常组合,所述异常组合用于确定作弊流量。
10.根据权利要求9所述的作弊流量检测装置,其特征在于,所述组合单元确定所述多种待观测维度形成的组合,并对于每种待观测维度的组合,确定所述组合涉及的待观测维度的取值形成的组合,以作为所述观测维度组合。
11.根据权利要求10所述的作弊流量检测装置,其特征在于,所述组合单元包括:
观测维度组合子单元,适于按照所述待观测维度的数量从少到多的顺序,迭代地形成所述多种待观测维度的组合;
观测维度取值组合子单元,适于在每次迭代后,对于迭代确定的待观测维度的组合,确定所述组合涉及的所述待观测维度的取值形成的组合,以作为所述观测维度组合。
12.根据权利要求11所述的作弊流量检测装置,其特征在于,所述计算单元在每次迭代之后计算所述观测维度组合的所述待观测指标的指标值,所述计算单元包括:
父组合确定子单元,适于在每次迭代之后,确定当前观测维度组合的待观测指标的指标值;
第一剔除子单元,适于在所述当前观测维度组合的待观测指标的指标值小于第一设定阈值时,剔除所述当前观测维度组合。
13.根据权利要求9所述的作弊流量检测装置,其特征在于,还包括:
去重单元,适于对于任一目标候选异常组合,如果所述目标候选异常组合的所述待观测指标的指标值与其父组合的所述待观测指标的指标值的比值大于第二设定阈值时,则剔除所述父组合,其中,所述父组合中的待观测维度的取值包含于所述目标候选异常组合。
14.根据权利要求9所述的作弊流量检测装置,其特征在于,还包括:
白名单初始单元,适于初始化形成所述观测维度组合的白名单。
15.根据权利要求14所述的作弊流量检测装置,其特征在于,所述作弊流量分析单元包括:
计算子单元,适于针对所述历史数据,计算所述候选异常组合的所述待观测指标的指标值,记为历史指标值;
第二剔除子单元,适于在所述候选异常组合的所述指标值与所述历史指标值一致,且所述候选异常组合包含于所述白名单内使,剔除所述候选异常组合;
异常原因分析子单元,适于对剩余的候选异常组合进行流量提取,并进行分析,得到异常原因;
判定子单元,适于在所述异常原因是所述历史数据中的设定原因时,将所述观测维度组合剩余的候选异常组合加入所述白名单,否则所述剩余的候选异常组合为所述异常组合。
16.根据权利要求15所述的作弊流量检测装置,其特征在于,所述候选异常组合确定单元在所述观测维度组合的待观测指标的指标值高于第三设定阈值或低于第四设定阈值时,确定所述观测维度组合为所述异常组合。
17.一种终端,其特征在于,包括如权利要求8至16任一项所述的作弊流量检测装置。
CN201610692232.7A 2016-08-18 2016-08-18 作弊流量检测方法、装置及终端 Active CN106355431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610692232.7A CN106355431B (zh) 2016-08-18 2016-08-18 作弊流量检测方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610692232.7A CN106355431B (zh) 2016-08-18 2016-08-18 作弊流量检测方法、装置及终端

Publications (2)

Publication Number Publication Date
CN106355431A CN106355431A (zh) 2017-01-25
CN106355431B true CN106355431B (zh) 2020-01-07

Family

ID=57843747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610692232.7A Active CN106355431B (zh) 2016-08-18 2016-08-18 作弊流量检测方法、装置及终端

Country Status (1)

Country Link
CN (1) CN106355431B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694174B (zh) * 2017-04-05 2022-12-23 腾讯科技(深圳)有限公司 内容投放数据的分析方法及装置
CN107229557B (zh) * 2017-06-26 2020-10-20 微鲸科技有限公司 异常点击检测方法及装置、点击量统计方法及装置
CN107241347B (zh) * 2017-07-10 2020-06-02 上海精数信息科技有限公司 广告流量质量的分析方法和装置
CN108133021A (zh) * 2017-12-26 2018-06-08 北京奇艺世纪科技有限公司 一种数据异常检测方法及装置
US20190205926A1 (en) * 2017-12-29 2019-07-04 Oath Inc. Method and system for detecting fraudulent user-content provider pairs
CN108415931B (zh) * 2018-01-22 2020-05-19 北京深演智能科技股份有限公司 一种用于识别作弊流量的模型建立方法及系统
CN108234524B (zh) * 2018-04-02 2020-08-21 广州广电研究院有限公司 网络数据异常检测的方法、装置、设备及存储介质
CN108346011A (zh) * 2018-05-15 2018-07-31 阿里巴巴集团控股有限公司 指标波动分析方法及装置
CN108900909B (zh) * 2018-06-06 2020-07-17 武汉斗鱼网络科技有限公司 作弊用户的判断方法、相关存储介质和电子设备
CN108959415B (zh) * 2018-06-07 2022-03-04 北京奇艺世纪科技有限公司 一种异常维度定位方法、装置及电子设备
CN109146574A (zh) * 2018-09-06 2019-01-04 深圳市木瓜移动科技有限公司 广告点击作弊监测方法及装置
CN111404835B (zh) * 2020-03-30 2023-05-30 京东科技信息技术有限公司 流量控制方法、装置、设备及存储介质
CN111417077B (zh) * 2020-04-16 2020-12-08 刘丽容 移动广告基于微型sdk的流量防作弊方法及系统
CN111865987B (zh) * 2020-07-21 2022-08-05 百度在线网络技术(北京)有限公司 作弊流量处理的方法、装置、设备及存储介质
CN114581126B (zh) * 2022-02-21 2022-11-08 飞书深诺数字科技(上海)股份有限公司 一种电商广告roas异常检测方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN103684896A (zh) * 2012-09-07 2014-03-26 中国科学院计算机网络信息中心 基于域名解析特征的网站作弊检测方法
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN105354272A (zh) * 2015-10-28 2016-02-24 中通服公众信息产业股份有限公司 一种基于维度组合的指标计算方法和系统
CN105824834A (zh) * 2015-01-06 2016-08-03 腾讯科技(深圳)有限公司 搜索流量作弊行为识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393629A (zh) * 2007-09-20 2009-03-25 阿里巴巴集团控股有限公司 一种网络广告效果监测的实现方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103684896A (zh) * 2012-09-07 2014-03-26 中国科学院计算机网络信息中心 基于域名解析特征的网站作弊检测方法
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN105824834A (zh) * 2015-01-06 2016-08-03 腾讯科技(深圳)有限公司 搜索流量作弊行为识别方法及装置
CN105354272A (zh) * 2015-10-28 2016-02-24 中通服公众信息产业股份有限公司 一种基于维度组合的指标计算方法和系统
CN105354272B (zh) * 2015-10-28 2018-08-28 中通服公众信息产业股份有限公司 一种基于维度组合的指标计算方法和系统

Also Published As

Publication number Publication date
CN106355431A (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN106355431B (zh) 作弊流量检测方法、装置及终端
CN106022834B (zh) 广告反作弊方法及装置
JP6494801B2 (ja) 情報推奨方法および装置、ならびにサーバ
US8732015B1 (en) Social media pricing engine
CN103905532B (zh) 微博营销账号的识别方法及系统
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN107026892B (zh) 消息推荐方法和装置
CN110033302B (zh) 恶意账户识别方法及装置
CN105654198B (zh) 具有最优阈值筛选的品牌广告效果优化的方法
WO2008106668A1 (en) User query mining for advertising matching
US10084870B1 (en) Identifying user segment assignments
CN109409928A (zh) 一种素材推荐方法、装置、存储介质、终端
US9286379B2 (en) Document quality measurement
CN106886906B (zh) 一种设备识别方法和装置
CN106599047B (zh) 一种信息的推送方法及装置
CN103580939A (zh) 一种基于账号属性的异常消息检测方法及设备
CN105260458A (zh) 一种用于显示装置的视频推荐方法及显示装置
CN106933905B (zh) 网页访问数据的监测方法和装置
CN107330709B (zh) 确定目标对象的方法及装置
CN105740276B (zh) 适用于商业化搜索的点击反馈模型的估算方法和装置
KR102537601B1 (ko) 광고 전략을 생성하기 위한 광고 방법 및 장치
CN112819476A (zh) 风险识别方法、装置、非易失性存储介质和处理器
CN110222297B (zh) 一种标签用户的识别方法以及相关设备
CN112330373A (zh) 用户行为分析方法、装置及计算机可读存储介质
CN108460630B (zh) 基于用户数据进行分类分析的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant