CN113220741A - 互联网广告虚假流量识别方法、系统、设备及存储介质 - Google Patents

互联网广告虚假流量识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113220741A
CN113220741A CN202110471410.4A CN202110471410A CN113220741A CN 113220741 A CN113220741 A CN 113220741A CN 202110471410 A CN202110471410 A CN 202110471410A CN 113220741 A CN113220741 A CN 113220741A
Authority
CN
China
Prior art keywords
characteristic
flow
data
internet advertisement
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110471410.4A
Other languages
English (en)
Other versions
CN113220741B (zh
Inventor
裴二涛
李向军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huayi Sega Network Co ltd
Original Assignee
Beijing Huayi Sega Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huayi Sega Network Co ltd filed Critical Beijing Huayi Sega Network Co ltd
Priority to CN202110471410.4A priority Critical patent/CN113220741B/zh
Publication of CN113220741A publication Critical patent/CN113220741A/zh
Application granted granted Critical
Publication of CN113220741B publication Critical patent/CN113220741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Computational Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于互联网技术领域,公开了一种互联网广告虚假流量识别方法、系统、设备及存储介质,包括以下步骤:获取互联网广告流量数据;根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。整个识别方法简单易用,不需要大量的资源就能做出来初步效果,使用基于若干流量特征以及各流量特征内各特征的得分来进行识别,能够清晰的了解每一个特征的实际效果,可解释性强。

Description

互联网广告虚假流量识别方法、系统、设备及存储介质
技术领域
本发明属于互联网技术领域,涉及一种互联网广告虚假流量识别方法、系统、设备及存储介质。
背景技术
随着移动互联网的高速发展,广告主利用先进的定向技术、高度个性化的定制服务以及精准的监测,为广告投放带来了超出以往的效果。与此同时,整个移动广告行业不得不面对随之强大的广告作弊组织的挑战。有数据显示,2017年因作弊造成广告推广经费上百亿美元的损失,这一情况对移动广告的价值和可信度造成了巨大的伤害。反作弊一直都是伴随APP推广始终的,随着移动推广市场的不断增长,广告作弊与反作弊这个话题也持续升温。广告反作弊牵扯到广告主、广告平台和媒体三方利益。
目前虚假流量识别主要有两种方式。第一种是先通过人工标注出虚假流量的样本然后通过各种神经网络或者深度学习算法找出虚假流量。该方式的好处是自身能够不断进化,并且准确率和效果比较好。但是需要投入大量的人力资源,技术要求比较高。另外一种是基于规则进行虚假流量识别。例如正常情况下一个设备每天访问次数不会超过100次,如果访问次数大于1000次就可以确定该设备是假量刷机。这种方式一般是先要了解作弊手段,然后根据作弊手段找出规则,根据规则标识出虚假流量。这个方法的缺点很多,首先对于规则不明显的流量无法识别,而且作弊手段是不断变化升级的,对应的规则也要不断更新,效果和准确性没有第一种好,但是优点是简单易用成本低。
发明内容
本发明的目的在于克服上述现有技术中,现有虚假流量识别方法要么成本和技术要求较高,要么识别效果较差的缺点,提供一种互联网广告虚假流量识别方法、系统、设备及存储介质。
为达到上述目的,本发明采用以下技术方案予以实现:
本发明第一方面,一种互联网广告虚假流量识别方法,包括以下步骤:
获取互联网广告流量数据;
根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;
由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;
将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
本发明互联网广告虚假流量识别方法进一步的改进在于:
所述预设的各流量特征通过流量特征确定方法的得到,所述流量特征确定方法包括以下步骤:获取历史互联网广告流量数据及历史互联网广告流量转化数据;
根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据;根据各初始流量特征的统计特征数据及转化特征统计数据,得到各初始流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,以及各初始流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;通过下式得到各初始流量特征的特征分数:
Figure BDA0003045477010000021
其中,n表示特征值总个数;xi表示第i个特征值个数占特征值总个数的比值;yi表示第i个特征值个数占特征值总个数的比值;将特征分数大于预设特征分数阈值的初始流量特征作为流量特征,得到预设的各流量特征。
所述根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据的方法为:根据预设的各初始流量特征,从历史互联网广告流量数据中选取各初始流量特征对应的特征值,得到各初始流量特征的特征统计数据;根据历史互联网广告流量转化数据,从各初始流量特征的特征数据中选取各初始流量特征的转化特征数据。
所述预设的各流量特征包括设备请求次数、设备媒体个数、设备安装app个数、ip请求设备数以及ip请求次数。
所述各流量特征的各特征值的预设分数通过预设分数确定方法得到,所述预设分数确定方法包括以下步骤:获取历史互联网广告流量数据及历史互联网广告流量转化数据;根据预设的各流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各流量特征的特征统计数据及转化特征统计数据;根据各流量特征的特征统计数据及转化特征统计数据,得到各流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,及各流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;遍历各流量特征的各特征值,由下式得到各流量特征的各特征值的预设分数:
特征值的预设分数=(columnScore+assistScore)/2
其中:
Figure BDA0003045477010000041
assistScore=convVal*1.5/minAbnValue
其中,columnScore表示基础分数,assistScore表示辅助分数,diffRate=convRate-bidRate,convRate表示特征统计数据中当前特征值的个数占特征值总个数的比值,bidRate表示转化特征统计数据中当前特征值的个数占转换特征值总个数的比值;maxDiff表示当前流量特征的各特征值中最大的diffRate,minDiff当前流量特征的各特征值中最小的diffRate,convVal表示当前特征值,minAbnValue表示最小异常特征值;并当特征值的预设分数大于1时,修改为1。
所述预设分数确定方法还包括以下步骤:获取历史互联网广告流量数据后一天的互联网广告流量数据和历史互联网广告流量转化数据后一天的互联网广告流量转化数据,得到测试互联网广告流量数据和验证互联网广告流量转化数据;根据各流量特征的各特征值的预设分数,得到测试互联网广告流量数据的得分,识别得分大于预设得分阈值的测试互联网广告流量数据为虚假流量,得到识别结果;根据验证互联网广告流量转化数据,得到识别结果的准确率;当识别结果的准确率大于预设准确率阈值时,将当前各流量特征的各特征值的预设分数作为最终的各流量特征的各特征值的预设分数。
所述由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数的具体方法为:当能从流量特征的各特征值中找到与目标特征值相同的特征值时,将该相同的特征值的预设分数确定为流量特征的目标特征值的分数;否则,流量特征的目标特征值的分数为0.5。
本发明第二方面,一种互联网广告虚假流量识别系统,包括:
获取模块,用于获取互联网广告流量数据;
目标特征值确定模块,用于根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;
目标特征值的分数确定模块,用于由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;
虚假流量识别模块,用于将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述互联网广告虚假流量识别方法的步骤。
本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述互联网广告虚假流量识别方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明互联网广告虚假流量识别方法,通过预先设置各流量特征以及各流量特征的各特征值的预设分数,进而从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值,并根据各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数,然后将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,以此得分结合预设的预设得分阈值,确定当前互联网广告流量数据是否为虚假互联网广告流量数据。整个识别方法简单易用,不需要大量的资源就能做出来初步效果,比起使用机器学习方式做的识别,使用基于若干流量特征以及各流量特征内各特征的得分来进行识别,能够清晰的了解每一个特征的实际效果,可解释性强。并且,通过实际的操作验证,表明本发明互联网广告虚假流量识别方法具有较好的识别准确率。
进一步的,通过在实际应用前进行测试验证,保证预设的各流量特征以及各流量特征的各特征值的预设分数能够到达预想的识别效果,保证识别的准确率。
附图说明
图1为本发明的互联网广告虚假流量识别方法流程图;
图2为本发明的特征统计数据与转化特征统计数据占比曲线图;
图3为本发明的基础分数、辅助分数及特征值的预设分数的曲线图;
图4为本发明的互联网广告虚假流量识别方法的效果示意图;
图5为本发明的互联网广告虚假流量识别方法参与广告竞价的流程图;
图6为本发明的互联网广告虚假流量识别系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明一个实施例中,提供一种互联网广告虚假流量识别方法,该互联网广告虚假流量识别方法基于规则进行虚假流量识别,根据预设的各流量特征以及各流量特征的各特征值的预设分数,给互联网广告流量数据打分,根据打分结果实现互联网广告流量数据的虚假识别,整个方法简单易用,不需要大量的资源就能做出来初步效果,使用概率统计的方法论来弥补无法直接计算准确率的问题,并且,比起使用机器学习方式做的反作弊系统,使用基于统计对比的方式能够清晰的了解每一个特征的实际效果,可解释性强。
具体的,该互联网广告虚假流量识别方法包括以下步骤。
S1:获取互联网广告流量数据。
具体的,获取互联网广告流量数据属于数据收集,本实施例中,主要采集了媒体广告流量请求数据、用户在媒体的行为数据、用户在广告主的转化数据等相关数据收集并传输到云平台上,方便大数据集群统计分析。其中,媒体广告流量的请求数据就是需要做虚假流量识别的流量数据。
优选的,由于广告流量的QPS特别大,对系统性能和服务器要求很高,本实施中在收据收集时采用了动态可伸缩服务器组进行处理。同时,通过ETL将各各服务器的日志数据压缩后上传到云服务器中。并且,结合数据仓库功能,将服务器上的原始数据进行二级清洗,将数据按照不同分区和格式保存到数据仓库中,方便各个系统使用。
S2:根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值。
其中,预设的各流量特征通过流量特征确定方法的得到,所述流量特征确定方法包括以下步骤:获取历史互联网广告流量数据及历史互联网广告流量转化数据;根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据;根据各初始流量特征的统计特征数据及转化特征统计数据,得到各初始流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,以及各初始流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;通过下式得到各初始流量特征的特征分数:
Figure BDA0003045477010000081
其中,n表示特征值总个数;xi表示第i个特征值个数占特征值总个数的比值;yi表示第i个特征值个数占特征值总个数的比值;将特征分数大于预设特征分数阈值的初始流量特征作为流量特征,得到预设的各流量特征。
其中,预设的各初始流量特征根据认为经验确定,本实施例中提供如表1所示初始流量特征表中的初始流量特征作为参考,但不依次为限。
表1初始流量特征表
Figure BDA0003045477010000082
Figure BDA0003045477010000091
表1中,将初始流量特征按照所属不同分为广告媒体、设备以及ip三大类,并且给出了每个初始流量特征的说明。
其中,根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据的具体方法为:根据预设的各初始流量特征,从历史互联网广告流量数据中选取各初始流量特征对应的特征值,得到各初始流量特征的特征统计数据;根据历史互联网广告流量转化数据,从各初始流量特征的特征数据中选取各初始流量特征的转化特征数据。
本实施例中,以“设备媒体个数”这个初始流量特征为例进行说明。
得到设备媒体个数的特征统计数据及转化特征统计数据,其中,特征统计数据如表2所示,转化特征统计数据如表3所示,其中,是否有转化是将广告主反馈的历史互联网广告流量转化数据中转化设备数据与广告流量的设备进行匹配,能匹配上的标记为有转化。
表2特征统计数据表
设备编码 出现的媒体个数 是否有转化
NO1 1
NO2 3
NO3 2
NO4 1
表3转化特征统计数据表
设备编码 出现的媒体个数 是否转化
NO2 3
NO4 1
然后根据设备媒体个数的统计特征数据及转化特征统计数据,得到设备媒体个数的特征统计数据中各设备媒体个数的个数占特征值总个数的比值,参见表4。
表4特征统计数据比值表
出现的媒体个数 设备数 设备占比(设备数/总设备数)
1 2 50%
2 1 25%
3 1 25%
以及设备媒体个数的转化特征统计数据中各设备媒体个数的个数占特征值总个数的比值,参见表5。
表5转化特征统计数据比值表
出现的媒体个数 设备数 设备占比(设备数/总设备数)
1 1 50%
2 0 0%
3 1 50%
计算设备媒体个数的特征分数,特征统计数据中媒体个数设备数占比:x1=50%、x2=25%及x3=25%;转化特征统计数据中媒体个数设备数占比:y1=50%、y2=0%及y3=50%。
Figure BDA0003045477010000101
本实施例中,根据预设的预设特征分数阈值0.06,认定“设备媒体个数”为流量特征。
优选的,预设的各流量特征包括设备请求次数、设备媒体个数、设备安装app个数、ip请求设备数以及ip请求次数。这5个流量特征是经过上述步骤多次筛选得到的,对于大多数互联网广告流量数据具有一定的通用性。
在获得了预设的各流量特征,继而根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值。
S3:由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数。
其中,各流量特征的各特征值的预设分数通过预设分数确定方法得到,所述预设分数确定方法包括以下步骤:获取历史互联网广告流量数据及历史互联网广告流量转化数据;根据预设的各流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各流量特征的特征统计数据及转化特征统计数据;根据各流量特征的特征统计数据及转化特征统计数据,得到各流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,及各流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;遍历各流量特征的各特征值,由下式得到各流量特征的各特征值的预设分数:
特征值的预设分数=(columnScore+assistScore)/2
其中:
Figure BDA0003045477010000111
assistScore=convVal*1.5/minAbnValue
其中,columnScore表示基础分数,assistScore表示辅助分数,diffRate=convRate-bidRate,参见图2,convRate表示特征统计数据中当前特征值的个数占特征值总个数的比值,bidRate表示转化特征统计数据中当前特征值的个数占转换特征值总个数的比值;maxDiff表示当前流量特征的各特征值中最大的diffRate,minDiff当前流量特征的各特征值中最小的diffRate,convVal表示当前特征值,minAbnValue表示最小异常特征值,并当特征值的预设分数大于1时,修改为1。
其中,最小异常特征值是占比小于0.01%的特征值里的最小值。
通过构建辅助数据,按照常识特征值convVal距离最小异常值minAbnValue越近作弊概率应该越大,对应分值应该越大(距离越远作弊概率越小,分值应该越小)。但是columnScore分值是与diffRate相关,diffRate并不是越靠近异常值越大。辅助分数assistScor能够满足距离最小异常值越近分数越大。参见图3,通过辅助分assistScor与columnScore平均可用将特征分数更合理。
具体的,由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数的具体方法为:当能从流量特征的各特征值中找到与目标特征值相同的特征值时,将该相同的特征值的预设分数确定为流量特征的目标特征值的分数;否则,流量特征的目标特征值的分数为0.5。
S4:将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
具体的,将各流量特征的目标特征值的分数加权求和,各权重根据经验人工手动分配的,可根据识别结果进行调整,且所有权重之和为1,这样的设计使得互联网广告流量数据的得分在[0,1]分,该分数表示作弊概率,得分越大表示作弊概率越高,然后过滤掉作弊可能性最高的流量,即得分大于预设得分阈值。
比如,当得分等于0.9表示作弊概率为90%,理论上那些得分为0.9的流量转化率要远小于正常流量,因为90%都是假量,假量是不可能产生转化的,所以当得分为0.9的流量转化占比小于常规流量占比时说明有效果,差越大效果越好。
由于在实际的工作中,互联网广告流量数据的正样本其实很难获得,所以使用了间接方式来证明该互联网广告虚假流量识别方法准确性。
准确率公式如下:虚假流量标识准确率=(流量减少比例–转化减少比例)/流量减少比例。理论依据是,当所有互联网广告流量数据中100%都是真时,能够产生转化的互联网广告流量数据是随机均匀分布在所有互联网广告流量数据中的。如果随机减少30%的互联网广告流量数据,那么转化也会减少30%。当互联网广告流量数据不是100%为真,同样减少30%,转化的减少量会小于30%,因为虚假的互联网广告流量数据不会产生转化。如果互联网广告流量数据中100%都是虚假互联网广告流量数据,那么如果把这些量全部砍掉,转化减少量为0%。由此可以推出,砍掉的互联网广告流量数据越多,并且转化减少的越少,说明虚假互联网广告流量数据识别的正确率越高。
所以在实际操作中,先给互联网广告流量数据打分,使用[0,1]分表示作弊概率,然后过滤掉作弊可能性最高的互联网广告流量数据,然后统计出减少了互联网广告流量数据后对应的转化减少了多少,最后使用上面的公式来评判该互联网广告虚假流量识别方法的准确率和效果。
参见图4,实际操作中使用了A/B测试,一半互联网广告流量数据保持不变,另一半看到得分>0.6以上的互联网广告流量数据。这样就可以对比统计出减少了多少流量和减少了多少转化。根据理论规则来判断虚假流量得分的准确情况。下述是某一版的实际效果:实际上减少了26.84%的互联网广告流量数据,对应转化减少了18.61%,可见该互联网广告流量数据具有较好的准确率和识别效果。
综上,本发明互联网广告虚假流量识别方法,通过预先设置各流量特征以及各流量特征的各特征值的预设分数,进而从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值,并根据各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数,然后将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,以此得分结合预设的预设得分阈值,确定当前互联网广告流量数据是否为虚假互联网广告流量数据。整个识别方法简单易用,不需要大量的资源就能做出来初步效果,比起使用机器学习方式做的识别,使用基于若干流量特征以及各流量特征内各特征的得分来进行识别,能够清晰的了解每一个特征的实际效果,可解释性强。并且,通过实际的操作验证,表明本发明互联网广告虚假流量识别方法具有较好的识别准确率。
本发明再一个实施例中,提供一种互联网广告虚假流量识别方法,除包括上述实施例中的全部内容外,所述预设分数确定方法还包括以下步骤:获取历史互联网广告流量数据后一天的互联网广告流量数据和历史互联网广告流量转化数据后一天的互联网广告流量转化数据,得到测试互联网广告流量数据和验证互联网广告流量转化数据;根据各流量特征的各特征值的预设分数,得到测试互联网广告流量数据的得分,识别得分大于预设得分阈值的测试互联网广告流量数据为虚假流量,得到识别结果;根据验证互联网广告流量转化数据,得到识别结果的准确率;当识别结果的准确率大于预设准确率阈值时,将当前各流量特征的各特征值的预设分数作为最终的各流量特征的各特征值的预设分数。
通过在实际应用前进行测试验证,保证预设的各流量特征以及各流量特征的各特征值的预设分数能够到达预想的识别效果,保证识别的准确率。
本发明再一个实施例中,参见图5,示出了互联网广告虚假流量识别方法参与广告竞价的流程,具体的,流程主要分2个部分:一部分是流量流程、一部分为特征打分。流量流程主要步骤:第一步:广告媒体将广告流量发给网关。第二步:广告实时给流量进行虚假流量打分。第三步:将打分后的流量分成两份进行A/B测试,其中一半流量按照设定好的阈值(一般是大于0.7分)过滤流量。令一半不做任何处理。第四步:网关将流量分发给各业务部门由各业务部门决定是否竞价购买广告流量。第五步:回复广告媒体。特征打分流程如下:第一步:广告媒体的行为数据、广告组的转化数据。第二步:特征清洗。第三步:给特征打分。第四步:分析优化。第五步:将特征得分缓存起来给流量实时打分时使用。
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
参见图6,本发明再一个实施例中,提供一种互联网广告虚假流量识别系统,能够用于实现上述实施例中的互联网广告虚假流量识别方法,具体的,该互联网广告虚假流量识别系统包括:获取模块、目标特征值确定模块、目标特征值的分数确定模块以及虚假流量识别模块。
其中,获取模块用于获取互联网广告流量数据;目标特征值确定模块用于根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;目标特征值的分数确定模块用于由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;虚假流量识别模块用于将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于互联网广告虚假流量识别方法的操作。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关互联网广告虚假流量识别方法的相应步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种互联网广告虚假流量识别方法,其特征在于,包括以下步骤:
获取互联网广告流量数据;
根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;
由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;
将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
2.根据权利要求1所述的互联网广告虚假流量识别方法,其特征在于,所述预设的各流量特征通过流量特征确定方法的得到,所述流量特征确定方法包括以下步骤:
获取历史互联网广告流量数据及历史互联网广告流量转化数据;
根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据;
根据各初始流量特征的统计特征数据及转化特征统计数据,得到各初始流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,以及各初始流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;通过下式得到各初始流量特征的特征分数:
Figure FDA0003045477000000011
其中,n表示特征值总个数;xi表示第i个特征值个数占特征值总个数的比值;yi表示第i个特征值个数占特征值总个数的比值;
将特征分数大于预设特征分数阈值的初始流量特征作为流量特征,得到预设的各流量特征。
3.根据权利要求1所述的互联网广告虚假流量识别方法,其特征在于,所述根据预设的各初始流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各初始流量特征的特征统计数据及转化特征统计数据的方法为:
根据预设的各初始流量特征,从历史互联网广告流量数据中选取各初始流量特征对应的特征值,得到各初始流量特征的特征统计数据;
根据历史互联网广告流量转化数据,从各初始流量特征的特征数据中选取各初始流量特征的转化特征数据。
4.根据权利要求1所述的互联网广告虚假流量识别方法,其特征在于,所述预设的各流量特征包括设备请求次数、设备媒体个数、设备安装app个数、ip请求设备数以及ip请求次数。
5.根据权利要求1所述的互联网广告虚假流量识别方法,其特征在于,所述各流量特征的各特征值的预设分数通过预设分数确定方法得到,所述预设分数确定方法包括以下步骤:
获取历史互联网广告流量数据及历史互联网广告流量转化数据;
根据预设的各流量特征、历史互联网广告流量数据及历史互联网广告流量转化数据,得到各流量特征的特征统计数据及转化特征统计数据;
根据各流量特征的特征统计数据及转化特征统计数据,得到各流量特征的特征统计数据中各特征值的个数占特征值总个数的比值,及各流量特征的转化特征统计数据中各特征值的个数占特征值总个数的比值;
遍历各流量特征的各特征值,由下式得到各流量特征的各特征值的预设分数:
特征值的预设分数=(columnScore+assistScore)/2
其中:
Figure FDA0003045477000000031
assistScore=convVal*1.5/minAbnValue
其中,columnScore表示基础分数,assistScore表示辅助分数,diffRate=convRate-bidRate,convRate表示特征统计数据中当前特征值的个数占特征值总个数的比值,bidRate表示转化特征统计数据中当前特征值的个数占转换特征值总个数的比值;maxDiff表示当前流量特征的各特征值中最大的diffRate,minDiff当前流量特征的各特征值中最小的diffRate,convVal表示当前特征值,minAbnValue表示最小异常特征值;
并当特征值的预设分数大于1时,修改为1。
6.根据权利要求5所述的互联网广告虚假流量识别方法,其特征在于,所述预设分数确定方法还包括以下步骤:
获取历史互联网广告流量数据后一天的互联网广告流量数据和历史互联网广告流量转化数据后一天的互联网广告流量转化数据,得到测试互联网广告流量数据和验证互联网广告流量转化数据;
根据各流量特征的各特征值的预设分数,得到测试互联网广告流量数据的得分,识别得分大于预设得分阈值的测试互联网广告流量数据为虚假流量,得到识别结果;
根据验证互联网广告流量转化数据,得到识别结果的准确率;
当识别结果的准确率大于预设准确率阈值时,将当前各流量特征的各特征值的预设分数作为最终的各流量特征的各特征值的预设分数。
7.根据权利要求1所述的互联网广告虚假流量识别方法,其特征在于,所述由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数的具体方法为:
当能从流量特征的各特征值中找到与目标特征值相同的特征值时,将该相同的特征值的预设分数确定为流量特征的目标特征值的分数;
否则,流量特征的目标特征值的分数为0.5。
8.一种互联网广告虚假流量识别系统,其特征在于,包括:
获取模块,用于获取互联网广告流量数据;
目标特征值确定模块,用于根据预设的各流量特征,从互联网广告流量数据中提取各流量特征对应的特征值,得到各流量特征的目标特征值;
目标特征值的分数确定模块,用于由各流量特征的各特征值的预设分数,得到各流量特征的目标特征值的分数;
虚假流量识别模块,用于将各流量特征的目标特征值的分数加权求和,得到互联网广告流量数据的得分,识别得分大于预设得分阈值的互联网广告流量数据为虚假流量。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述互联网广告虚假流量识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述互联网广告虚假流量识别方法的步骤。
CN202110471410.4A 2021-04-29 2021-04-29 互联网广告虚假流量识别方法、系统、设备及存储介质 Active CN113220741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110471410.4A CN113220741B (zh) 2021-04-29 2021-04-29 互联网广告虚假流量识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110471410.4A CN113220741B (zh) 2021-04-29 2021-04-29 互联网广告虚假流量识别方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113220741A true CN113220741A (zh) 2021-08-06
CN113220741B CN113220741B (zh) 2024-04-05

Family

ID=77089960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110471410.4A Active CN113220741B (zh) 2021-04-29 2021-04-29 互联网广告虚假流量识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113220741B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065644A (zh) * 2022-06-20 2022-09-16 支付宝(杭州)信息技术有限公司 用于阻止机器流量的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110401660A (zh) * 2019-07-26 2019-11-01 秒针信息技术有限公司 虚假流量的识别方法、装置、处理设备及存储介质
CN110661794A (zh) * 2019-09-20 2020-01-07 秒针信息技术有限公司 流量识别方法、装置、电子设备及可读存储介质
WO2020062803A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质
KR20200105372A (ko) * 2019-02-28 2020-09-07 링크아시아 매니지먼트 주식회사 온라인/모바일 광고와 관련한, 부정 광고 행위의 발생을 자동으로 탐지하기 위한 방법 및 장치
CN112016959A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 广告处理方法及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020062803A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 基于模型树算法的异常流量分析方法、装置、电子设备及非易失性可读存储介质
KR20200105372A (ko) * 2019-02-28 2020-09-07 링크아시아 매니지먼트 주식회사 온라인/모바일 광고와 관련한, 부정 광고 행위의 발생을 자동으로 탐지하기 위한 방법 및 장치
CN110401660A (zh) * 2019-07-26 2019-11-01 秒针信息技术有限公司 虚假流量的识别方法、装置、处理设备及存储介质
CN110661794A (zh) * 2019-09-20 2020-01-07 秒针信息技术有限公司 流量识别方法、装置、电子设备及可读存储介质
CN112016959A (zh) * 2020-08-21 2020-12-01 广州欢网科技有限责任公司 广告处理方法及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张艳;王超琼;: "互联网广告数据治理的智能技术应用――基于防范数据造假的视角", 青年记者, no. 15 *
钟艺玲;张艳;: "虚假流量对互联网广告的危害及应对", 青年记者, no. 14 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065644A (zh) * 2022-06-20 2022-09-16 支付宝(杭州)信息技术有限公司 用于阻止机器流量的方法和系统

Also Published As

Publication number Publication date
CN113220741B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
CN108280670B (zh) 种子人群扩散方法、装置以及信息投放系统
KR101300517B1 (ko) 전자 입찰에 있어 투찰금액 예측방법 및 그 시스템
US20230115406A1 (en) Method and System for Providing a User Agent String Database
CN108009915A (zh) 一种欺诈用户社区的标记方法及相关装置
US20110166926A1 (en) Evaluating Online Marketing Efficiency
CN110991875A (zh) 一种平台用户质量评估系统
US20160055320A1 (en) Method and system for measuring effectiveness of user treatment
CN106886906B (zh) 一种设备识别方法和装置
CN109376873B (zh) 运维方法、装置、电子设备及计算机可读存储介质
CN109063736B (zh) 数据分类方法、装置、电子设备及计算机可读存储介质
CN108549973B (zh) 识别模型构建及评估的方法、装置、存储介质及终端
CN110348471B (zh) 异常对象识别方法、装置、介质及电子设备
CN111259952A (zh) 异常用户识别方法、装置、计算机设备及存储介质
CN111061948B (zh) 一种用户标签推荐方法、装置、计算机设备及存储介质
CN113220741A (zh) 互联网广告虚假流量识别方法、系统、设备及存储介质
CN114860742A (zh) 基于人工智能的ai客服交互方法、装置、设备及介质
CN108805332B (zh) 一种特征评估方法和装置
WO2014107517A1 (en) Priority-weighted quota cell selection to match a panelist to a market research project
CN111582757B (zh) 欺诈风险的分析方法、装置、设备及计算机可读存储介质
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN111368131A (zh) 用户关系识别方法、装置、电子设备及存储介质
CN104484330A (zh) 基于分档关键词阈值组合评估的垃圾评论预选方法及装置
CN109391738B (zh) 一种根据移动终端信息进行预警的方法
CN114840660A (zh) 业务推荐模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant