CN112950249A - 广告流量数据的处理方法、系统、电子设备及存储介质 - Google Patents
广告流量数据的处理方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112950249A CN112950249A CN201911291541.3A CN201911291541A CN112950249A CN 112950249 A CN112950249 A CN 112950249A CN 201911291541 A CN201911291541 A CN 201911291541A CN 112950249 A CN112950249 A CN 112950249A
- Authority
- CN
- China
- Prior art keywords
- data
- advertisement
- score
- user
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种广告流量数据的处理方法、系统、电子设备及存储介质,该处理方法包括以下步骤:获取用户在广告请求时的实时广告流量数据;对数据进行数值化处理,得到实时广告流量数值数据;将数值数据输入一GBDT判定模型,判断其输出的分类概率是否大于第一预设阈值,若是则该实时广告流量数据为异常实时流量数据。本发明将广告请求的实时广告流量数据输入一GBDT模型判断是否异常,识别作弊流量并进行拦截。使用大量历史广告流量数据及其是否异常流量的判定结果对GBDT模型进行训练,历史广告流量数据是否异常流量通过用户维度、IP数据、请求规则匹配、媒体维度和代码检测5个维度综合考察,指标全面详细,判定结果稳定可靠。
Description
技术领域
本发明涉及互联网大数据分析领域,特别涉及一种广告流量数据的处理方法、系统、电子设备及存储介质。
背景技术
互联网广告利用网站上的广告横幅、文本链接、多媒体等方法,在互联网刊登或发布广告,是通过网络传递广告信息到互联网用户的一种高科技广告运作方式。互联网广告因为速度快效果佳,可以实时追踪广告投放效果,备受广告主青睐;但是同时也有大量虚假流量充斥在互联网,造成广告主预算损失,所以需要对广告平台的流量进行分析、识别,识别出异常流量就可对其加以屏蔽。现在大多依靠规则库生成设备号黑名单库的方式进行异常流量识别,参数单一,且不能识别未知设备的异常流量。
发明内容
本发明要解决的技术问题是为了克服现有技术中异常广告流量识别参数单一且不能识别未知设备的异常流量的缺陷,提供一种广告流量数据的处理方法、系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种广告流量数据的处理方法,所述广告流量数据的处理方法包括以下步骤:
获取用户在广告请求时的实时广告流量数据;所述实时广告流量数据包括所述用户的基本信息、所述用户的上网位置信息、所述用户的上网设备信息、所述用户的请求广告位信息;
对所述实时广告流量数据进行数值化处理,得到实时广告流量数值数据;
将所述实时广告流量数值数据输入一GBDT判定模型,判断所述GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则所述实时广告流量数值数据对应的所述实时广告流量数据为异常实时流量数据。
较佳地,所述数值化处理包括将所述用户的IP信息转换成32位的IP整数值,将所述用户的上网位置信息利用地域库转换成地理整数值,将所述用户的上网设备信息中的设备机型转换成机型整数值,对所述用户的上网设备信息中的UA特征字符串进行Hash取值,得到UAHash值。
较佳地,在将所述实时广告流量数值数据输入一GBDT判定模型之前,还包括如下步骤:
在日志中保存用户的历史广告流量数据,对所述历史广告流量数据进行评分得到训练数据得分,当所述训练数据得分低于第二预设阈值时,所述历史广告流量数据为异常历史流量数据;
使用若干样本数据对所述GBDT判定模型进行训练,得到所述GBDT判定模型;所述样本数据包括所述历史广告流量数据和所述历史广告流量数据是否为异常历史流量数据的判定结果。
较佳地,在广告请求、广告开始展示、广告点击、视频开始播放、视频播放25%、视频播放50%、视频播放75%和视频播放完成时均在日志中保存一条所述历史广告流量数据;
所述历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据;
所述用户维度数据包括用户广告请求相关数据、用户广告展示相关数据、用户广告点击相关数据和落地页相关数据;
所述IP数据包括用户的IP是否互联网数据中心机房IP、用户的IP是否开通模拟器或代理服务端口;
所述请求规则匹配数据包括广告展示与广告请求的UA是否匹配、广告点击与广告请求的UA是否匹配和广告引用页是否与广告请求来源匹配;
所述媒体维度数据包括媒体中每个IP的独立访客数、媒体中操作系统版本占比与标准操作系统占比的差异值和落地页跳出率异常;
所述代码检测数据包括广告是否在无头浏览器中、广告是否在非手机操作系统浏览器中、广告是否在模拟器中和广告展示区域大小是否与请求声明尺寸匹配;
所述训练数据得分包括历史广告流量数据得分和媒体得分两部分,设置所述历史广告流量数据得分的权重为第一权重,设置所述媒体得分的权重为第二权重,所述第一权重和所述第二权重的和等于1,计算得到所述训练数据得分;
所述广告流量数据得分是对所述历史广告流量数据分别进行阈值比对打分得到所述历史广告流量数据得分;所述媒体得分是分别对所述用户维度数据、所述IP数据、所述请求规则匹配数据、所述媒体维度数据和所述代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分,设置所述用户维度得分的权重为第三权重、所述IP得分的权重为第四权重、所述请求规则匹配得分的权重为第五权重、所述媒体维度得分的权重为第六权重、所述代码检测得分的权重为第七权重,所述第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,计算得到所述媒体得分。
较佳地,所述广告流量数据的处理方法还包括将所述媒体得分标注在媒体的广告位上。
本发明还提供一种广告流量数据的处理系统,所述广告流量数据的处理系统包括实时数据获取模块、数值处理模块、GBDT模型模块;
所述实时数据获取模块用于获取一用户的实时广告流量数据;所述实时广告流量数据包括所述用户的IP信息、所述用户的上网位置信息、所述用户的上网设备信息、所述用户的请求广告位信息;
所述数值处理模块用于对所述实时广告流量数据进行数值化处理,得到实时广告流量数值数据;
所述GBDT模块用于将所述实时广告流量数值数据输入一GBDT判定模型,判断所述GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则所述实时广告流量数值数据对应的所述实时广告流量数据为异常实时流量数据。
较佳地,所述数值处理模块将所述用户的IP信息转换成32位的IP整数值,将所述用户的上网位置信息利用地域库转换成地理整数值,将所述用户的上网设备信息中的设备机型转换成机型整数值,对所述用户的上网设备信息中的UA特征字符串进行Hash取值,得到UAHash值。
较佳地,所述广告流量数据的处理系统还包括历史数据保存模块和历史数据评分模块;
所述历史数据保存模块在日志中保存用户的历史广告流量数据,所述历史数据评分模块对所述历史广告流量数据进行评分得到训练数据得分,所述历史数据评分模块判断所述训练数据得分是否低于第二预设阈值时,若是则所述历史广告流量数据为异常历史流量数据;
所述GBDT模块使用若干样本数据对所述GBDT判定模型进行训练,得到所述GBDT判定模型;所述样本数据包括所述历史广告流量数据和所述历史广告流量数据是否为异常历史流量数据的判定结果。
较佳地,所述历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据;
所述用户维度数据包括用户广告请求相关数据、用户广告展示相关数据、用户广告点击相关数据和落地页相关数据;
所述IP数据包括用户的IP是否互联网数据中心机房IP、用户的IP是否开通模拟器或代理服务端口;
所述请求规则匹配数据包括广告展示与广告请求的UA是否匹配、广告点击与广告请求的UA是否匹配和广告引用页是否与广告请求来源匹配;
所述媒体维度数据包括媒体中每个IP的独立访客数、媒体中操作系统版本占比与标准操作系统占比的差异值和落地页跳出率异常;
所述代码检测数据包括广告是否在无头浏览器中、广告是否在非手机操作系统浏览器中、广告是否在模拟器中和广告展示区域大小是否与请求声明尺寸匹配;
所述训练数据得分包括历史广告流量数据得分和媒体得分两部分,设置所述历史广告流量数据得分的权重为第一权重,设置所述媒体得分的权重为第二权重,所述第一权重和所述第二权重的和等于1,计算得到所述训练数据得分;
所述广告流量数据得分是对所述历史广告流量数据分别进行阈值比对打分得到所述历史广告流量数据得分;所述媒体得分是分别对所述用户维度数据、所述IP数据、所述请求规则匹配数据、所述媒体维度数据和所述代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分,设置所述用户维度得分的权重为第三权重、所述IP得分的权重为第四权重、所述请求规则匹配得分的权重为第五权重、所述媒体维度得分的权重为第六权重、所述代码检测得分的权重为第七权重,所述第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,计算得到所述媒体得分。
较佳地,所述广告流量数据的处理系统还包括媒体得分标注模块,所述媒体得分标注模块用于将所述媒体得分标注在媒体的广告位上。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时实现上述的广告流量数据的处理方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的广告流量数据的处理方法的步骤。
本发明的积极进步效果在于:将实时请求的实时广告流量数据输入GBDT模型判断实时请求是否异常,以识别作弊流量并进行拦截。使用大量的历史广告流量数据及其是否异常流量的判定结果对GBDT模型进行训练,得到可以实际使用的GBDT模型。历史广告流量数据是否异常流量通过用户维度、IP数据、请求规则匹配、媒体维度和代码检测5个维度对历史广告流量数据进行评分,同时根据设定的阈值,对历史广告流量数据进行是否异常流量进行判定,指标全面详细,判定结果稳定可靠。
附图说明
图1为本发明实施例1的广告流量数据的处理方法的流程图。
图2为本发明实施例2的广告流量数据的处理方法的流程图。
图3为本发明实施例3的广告流量数据的处理系统的模块结构图。
图4为本发明实施例4的广告流量数据的处理系统的模块结构图。
图5为本发明实施例5的实现广告流量数据的处理方法的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种广告流量数据的处理方法,如图1所示,该处理方法包括以下步骤:
S101、获取用户在广告请求时的实时广告流量数据。
程序化的广告流程中,包括广告请求、广告展示监测、广告点击监测和落地页展示监测。在请求和监测时都会有用户发起的http(超文本传输协议)请求,该请求中会携带用户信息和广告位信息。在用户进行广告请求时获取用户的http请求中携带的信息,即获取用户在广告请求时的实时广告流量数据。
该实时广告流量数据包括用户的基本信息、用户的上网位置信息、用户的上网设备信息和用户的请求广告位信息。其中用户的基本信息包括用户上网的时间、IP地址、上网方式、语言和是否第一次触达。上网方式指用户是通过手机、电脑还是IPAD(平板电脑)上网。是否第一次触达用于标识该用户是否第一次访问该广告。
用户的上网位置信息包括用户上网的国家、省份、城市、经度和纬度等信息,可以标识用户所在地域,甄别出短时间内上网位置相距甚远的非正常用户。
用户的上网设备信息包括用户上网的设备号、UA(User-Agent,用户代理商)特征字符串、机型、品牌、屏幕宽、屏幕高、操作系统和操作系统版本。设备号是用户上网设备的一个唯一标识号码,在用户访问广告的各个阶段用于唯一标识该用户。UA特征字符串是含有机型、品牌、系统、浏览器等信息的字符串。
用户的请求广告位信息包括媒体代码位、需求方代码位、类别、包名、底价、广告位宽、广告位高、货币等信息。其中媒体代码位指??。需求方代码位是代表有广告一方的一个投放id。类别是指媒体的类别,比如是阅读类、社交类或游戏类等。包名是指用户请求广告的软件或APP(Application的简称,应用软件)的真实代码串,不同APP的包名会不一样。底价是指媒体的该广告位流量在售卖时能接受的最低价格。
S102、对实时广告流量数据进行数值化处理,得到实时广告流量数值数据。
由于实时广告流量数据很多是字符形式的,进入GBDT(Gradient BoostingDecision Tree,梯度下降树)判定模型的数据必须是数值型的,所以需要对实时广告流量数据进行数值化处理,得到实时广告流量数值数据以便输入GBDT判定模型。
数值化处理包括将用户的IP地址转换成32位的IP整数值;将用户的上网位置信息利用地域库转换成地理整数值;将用户的上网设备信息中的设备机型转换成机型整数值;对用户的上网设备信息中的UA特征字符串进行Hash(哈希)取值得到UAHash值,Hash是把任意长度的输入通过散列算法变换成固定长度的输出。
S103、将实时广告流量数值数据输入一GBDT判定模型,判断GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则进入步骤S104。
步骤S102中处理好的实时广告流量数值数据输入一个预先训练好的GBDT判定模型进行计算,然后判断GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则该实时广告流量数值数据对应的实时广告流量数据为异常实时流量数据。此处第一预设阈值取值0.5。
S104、实时广告流量数值数据对应的实时广告流量数据为异常实时流量数据。
判定一个用户的实时广告流量数据为异常实时流量数据后,就需要对该用户的流量进行拦截,将异常流量阻挡在系统之外。
本实施例在用户请求广告阶段获取实时广告流量数据,将数值化处理后的实时广告流量数据输入GBDT模型判断实时请求是否异常,以识别异常流量并进行拦截。
实施例2
本实施例在实施例1的基础上进一步完善而得,提供一种广告流量数据的处理方法,如图2所示,该处理方法包括如下步骤:
S201、在日志中保存历史广告流量数据。
在程序化的广告流程中,在广告请求、广告展示监测、广告点击监测和落地页展示监测时都会有用户发起的http(超文本传输协议)请求,该请求中携带着大量用户信息、用户上网设备信息和媒体的广告位信息等。落地页在浏览器中打开时,还会加载作弊监测的JS(JavaScript,一种解释型或即时编译型编程语言)代码,进一步获取显卡、内核和浏览器的信息。在广告请求、广告开始展示、广告点击、视频开始播放、视频播放25%、视频播放50%、视频播放75%和视频播放完成时分别保存一条历史广告流量数据到日志中,日志保存在系统的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)存储之中。
S202、对历史广告流量数据进行评分得到训练得分,包括广告流量数据得分和媒体得分。
在日志中保存了上述历史广告流量数据之后通过Hadoop MapReduce(Hadoop分布式离线计算模型)任务,分别统计各维度数据。历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据5个维度的数据,5个维度的具体规则项目、阈值和权重如表1所示。
其中用户维度数据包括用户广告请求相关数据、用户广告展示相关数据、用户广告点击相关数据和落地页相关数据。用户维度的指标是从设备的角度来对广告进行统计,单个设备的每日活跃时长、分形式请求频次、每日上网IP数等指标都符合正态分布,而虚假流量的统计数据在分布上属于异常值。通过设置阈值,我们可以从用户维度将不正常请求的设备标出。
IP数据包括用户的IP是否IDC(互联网数据中心)机房IP、用户的IP是否开通模拟器或代理服务端口。IP指标是从用户IP的特征角度对访问流量进行有效性判断。通常作弊流量会通过服务器来运行机器人模拟器来刷取广告,这些流量通常来自服务器机房、或者机器会开启手机模拟器的端口,而正常用户的IP不会来自IDC机房、IP对应的机器应该是正常的手机而不是模拟器。通过IP库和IP服务扫描,建立IP黑名单,来自黑名单的IP的请求都是异常流量。
请求规则匹配数据包括广告展示与广告请求的UA是否匹配、广告点击与广告请求的UA是否匹配和广告监测的referer(引用页)是否与广告请求来源匹配。广告请求时的用户UA、IP、来源信息和后续展示、点击、落地监测的数据理应保持一致,如果出现不一致,这部分也是异常的流量。
媒体维度数据包括媒体中每个IP的UV(Unique Visitor,独立访客)数、媒体中操作系统版本占比与标准操作系统占比的差异值和落地页跳出率异常。UV数是指访问某站点的用户数,此处以cookies为依据做统计;访问网站的一台客户端为一个访客,可以理解成访问某网站的设备的数量。网站判断来访设备的身份是通过来访设备的cookies(小型文本文件,网站为了辨别用户身份而储存在用户本地终端上的数据)实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的。如果用户不保存cookies访问、清除了cookies或者更换设备访问,计数会加1。统计时间段内相同的客户端的多次访问只计为1个UV。每个IP的UV数可以统计来访的每个IP对应的独立用户数,当独立用户数大于2即可判定为异常流量。媒体中操作系统版本占比与标准操作系统占比的差异比例,是对媒体请求日志中的操作系统+操作系统版本进行分组统计,比如android(安卓,一种基于Linux的自由及开放源代码的操作系统,通常用于移动设备)4.0统计10w条、android5.0统计20w条,android6.0统计40w条,然后计算各版本的占比比例,然后会和标准操作系统占比进行对比,差异比例超过阈值50%的会被扣分。落地页跳出率异常是指点击广告后,落地页只有打开没有后续页面交互。
代码检测数据包括广告是否在无头浏览器中、广告是否在非手机操作系统浏览器中、广告是否在模拟器中和广告展示区域大小是否与请求声明尺寸匹配。在广告播放时机在用户设备上执行检测JS代码,读取用户端的品牌、操作系统和浏览器,检测广告是否在无头浏览器中、是否在非手机操作系统浏览器中、广告是否在模拟器中,若是则该流量为异常流量;另外也会读取设备的显卡和内核,通过对比设备厂商公开的信息和实际检测得到的信息,来判断设备是否异常或者是否为模拟机器人。
表1
训练数据得分包括历史广告流量数据得分和媒体得分两部分,广告流量数据得分是对上述历史广告流量数据分别按照表1的规则项目和阈值进行阈值比对打分,然后分别按照权重相加而得。历史广告流量数据中有7个项目是一票否决的,即出现这7个项目异常就直接将分数变为100分,直接判定该历史广告流量数据为异常数据。其中媒体维度数据中的分媒体每个IP的独立访客数和媒体中操作系统版本占比与标准操作系统占比的差异比例在广告流量数据得分中不进行打分。另外用户分广告形式的规则项目中的广告形式包括开屏、通栏、插屏、贴片、激励视频和信息流。
媒体得分是分别对上述的用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分,这里打分是按照扣分制进行,5个维度的得分起始均为100,维度中的规则项目超过阈值就扣除相应的权值分值,一票否决的项目直接将该维度的分数扣为0。
设置用户维度得分的权重为第三权重、IP得分的权重为第四权重、请求规则匹配得分的权重为第五权重、媒体维度得分的权重为第六权重、代码检测得分的权重为第七权重,其中第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,此处第三权重取值0.4,第四权重取值0.15,第五权重取值0.15,第六权重取值0.2,第七权重取值0.1,经过加权计算得到媒体得分。
设置历史广告流量数据得分的权重为第一权重,设置媒体得分的权重为第二权重,第一权重和第二权重的和等于1,此处第一权重取值0.8,第二权重取值0.2,经过加权计算即可得到训练数据得分。
S2031、媒体得分标注在媒体的广告位上。
将步骤S202中得到的媒体得分标注在媒体的各广告位上,可以为广告主采买流量时提供参考。
S2032、判断训练得分是否低于第二预设阈值。
判断步骤S202中得到的训练得分是否低于第二预设阈值,此处第二预设阈值取值0.6,若是则进入步骤S2041,若否则进入步骤S2042。
S2041、历史广告流量数据是异常历史流量数据。
当历史广告流量数据的训练得分低于第二预设阈值时,该历史广告流量数据是异常历史流量数据。
S2042、历史广告流量数据不是异常历史流量数据。
当历史广告流量数据的训练得分不低于第二预设阈值时,该历史广告流量数据不是异常历史流量数据。
S205、历史广告流量数据和其是否是异常历史流量数据的判定结果输入GBDT判定模型进行训练。
将历史广告流量数据和其是否是异常历史流量数据的判定结果作为样本数据,将大量的样本数据输入GBDT判定模型进行训练,得到可以应用于实践的训练好的GBDT判定模型,该GBDT判定模型用于对实时广告流量数据进行是否异常实时流量数据的判定。
步骤S206到步骤S209使用上述训练好GBDT判定模型进行实时广告流量数据是否异常的判定,其实施与实施例1的步骤S101到步骤S104相同,此处不再赘述。
本实施例通过用户维度、IP数据、请求规则匹配、媒体维度和代码检测5个维度对历史广告流量数据进行评分,同时根据设定的阈值,对历史广告流量数据进行是否异常流量进行判定;使用历史广告流量数据及其是否异常流量的判定结果对GBDT模型进行训练,得到可以实际使用的GBDT模型。将实时请求的实时广告流量数据输入GBDT模型判断实时请求是否异常,以识别作弊流量并进行拦截。同时将媒体得分标注在媒体的广告位上,可以对广告主的采买行为提供指导。
实施例3
本实施例提供一种广告流量数据的处理系统,如图3所示,该处理系统包括实时数据获取模块1、数值处理模块2和GBDT模型模块3。
实时数据获取模块1用于在用户进行广告请求时获取用户的http请求中携带的信息,即获取用户在广告请求时的实时广告流量数据。程序化的广告流程包括广告请求、广告展示监测、广告点击监测和落地页展示监测。在请求和监测时都会有用户发起的http(超文本传输协议)请求,该请求中会携带用户信息和广告位信息。
该实时广告流量数据包括用户的基本信息、用户的上网位置信息、用户的上网设备信息和用户的请求广告位信息。其中用户的基本信息包括用户上网的时间、IP地址、上网方式、语言和是否第一次触达。上网方式指用户是通过手机、电脑还是IPAD(平板电脑)上网。是否第一次触达用于标识该用户是否第一次访问该广告。
用户的上网位置信息包括用户上网的国家、省份、城市、经度和纬度等信息,可以标识用户所在地域,甄别出短时间内上网位置相距甚远的非正常用户。
用户的上网设备信息包括用户上网的设备号、UA(User-Agent,用户代理商)特征字符串、机型、品牌、屏幕宽、屏幕高、操作系统和操作系统版本。设备号是用户上网设备的一个唯一标识号码,在用户访问广告的各个阶段用于唯一标识该用户。UA特征字符串是含有机型、品牌、系统、浏览器等信息的字符串。
用户的请求广告位信息包括媒体代码位、需求方代码位、类别、包名、底价、广告位宽、广告位高、货币等信息。其中媒体代码位指??。需求方代码位是代表有广告一方的一个投放id。类别是指媒体的类别,比如是阅读类、社交类或游戏类等。包名是指用户请求广告的软件或APP(Application的简称,应用软件)的真实代码串,不同APP的包名会不一样。底价是指媒体的该广告位流量在售卖时能接受的最低价格。
数值处理模块2用于对实时广告流量数据进行数值化处理,得到实时广告流量数值数据以便输入GBDT判定模型。由于实时广告流量数据很多是字符形式的,进入GBDT(Gradient Boosting Decision Tree,梯度下降树)判定模型的数据必须是数值型的,所以需要对实时广告流量数据进行数值化。
数值处理模块2将用户的IP地址转换成32位的IP整数值;数值处理模块2将用户的上网位置信息利用地域库转换成地理整数值;数值处理模块2将用户的上网设备信息中的设备机型转换成机型整数值;数值处理模块2对用户的上网设备信息中的UA特征字符串进行Hash(哈希)取值得到UAHash值,Hash是把任意长度的输入通过散列算法变换成固定长度的输出。
GBDT模型模块3用于判断实时广告流量是否为异常实时流量数据。处理好的实时广告流量数值数据输入一个预先训练好的GBDT判定模型进行计算,GBDT模型模块3判断GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则该实时广告流量数值数据对应的实时广告流量数据为异常实时流量数据,需要对该用户的流量进行拦截,将异常流量阻挡在系统之外。此处第一预设阈值取值0.5。
本实施例在用户请求广告阶段获取实时广告流量数据,将数值化处理后的实时广告流量数据输入GBDT模型判断实时请求是否异常,以识别异常流量并进行拦截。
实施例4
本实施例在实施例3的基础上进一步完善而得,如图4所示,该广告流量数据的处理系统还包括历史数据保存模块4、历史数据评分模块5和媒体得分标注模块6。
历史数据保存模块4用于在日志中保存用户的历史广告流量数据。在程序化的广告流程中,在广告请求、广告展示监测、广告点击监测和落地页展示监测时都会有用户发起的http(超文本传输协议)请求,该请求中携带着大量用户信息、用户上网设备信息和媒体的广告位信息等。落地页在浏览器中打开时,还会加载作弊监测的JS(JavaScript,一种解释型或即时编译型编程语言)代码,进一步获取显卡、内核和浏览器的信息。在广告请求、广告开始展示、广告点击、视频开始播放、视频播放25%、视频播放50%、视频播放75%和视频播放完成时历史数据保存模块4分别保存一条历史广告流量数据到日志中,日志保存在系统的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)存储之中。历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据5个维度的数据,5个维度的具体规则项目、阈值和权重如表1所示,此处不再赘述。
历史数据评分模块5用于对历史广告流量数据进行评分,得到训练数据得分,训练数据得分包括历史广告流量数据得分和媒体得分两部分,广告流量数据得分是历史数据评分模块5对上述历史广告流量数据分别按照表1的规则项目和阈值进行阈值比对打分,然后分别按照权重相加而得。历史广告流量数据中有7个项目是一票否决的,即出现这7个项目异常就直接将分数变为100分,直接判定该历史广告流量数据为异常数据。其中媒体维度数据中的分媒体每个IP的独立访客数和媒体中操作系统版本占比与标准操作系统占比的差异比例在广告流量数据得分中不进行打分。另外用户分广告形式的规则项目中的广告形式包括开屏、通栏、插屏、贴片、激励视频和信息流。
媒体得分是历史数据评分模块5分别对上述的用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分;这里历史数据评分模块5的打分是按照扣分制进行,5个维度的得分起始均为100,维度中的规则项目超过阈值就扣除相应的权值分值,一票否决的项目历史数据评分模块5会直接将该维度的分数扣为0。
历史数据评分模块5设置用户维度得分的权重为第三权重、IP得分的权重为第四权重、请求规则匹配得分的权重为第五权重、媒体维度得分的权重为第六权重、代码检测得分的权重为第七权重,其中第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,此处第三权重取值0.4,第四权重取值0.15,第五权重取值0.15,第六权重取值0.2,第七权重取值0.1,历史数据评分模块5经过加权计算得到媒体得分。
历史数据评分模块5设置历史广告流量数据得分的权重为第一权重,设置媒体得分的权重为第二权重,第一权重和第二权重的和等于1,此处第一权重取值0.8,第二权重取值0.2,历史数据评分模块5经过加权计算即可得到训练数据得分。
媒体得分标注模块6用于将历史数据评分模块5计算得到的媒体得分标注在媒体的各广告位上,可以为广告主采买流量时提供参考。
历史数据评分模块5还用于判断训练得分是否低于第二预设阈值,此处第二预设阈值取值0.6,若是则该历史广告流量数据是异常历史流量数据,若否则该历史广告流量数据不是异常历史流量数据。
GBDT模型模块3用于将历史广告流量数据和其是否是异常历史流量数据的判定结果输入GBDT判定模型进行训练。将历史广告流量数据和其是否是异常历史流量数据的判定结果作为样本数据,GBDT模型模块3将大量的样本数据输入GBDT判定模型进行训练,得到可以应用于实践的训练好的GBDT判定模型,该GBDT判定模型用于对实时广告流量数据进行是否异常实时流量数据的判定。
实时广告流量数据是否异常的判定过程同实施例3,此处不再赘述。
本实施例通过用户维度、IP数据、请求规则匹配、媒体维度和代码检测5个维度对历史广告流量数据进行评分,同时根据设定的阈值,对历史广告流量数据进行是否异常流量进行判定;使用历史广告流量数据及其是否异常流量的判定结果对GBDT模型进行训练,得到可以实际使用的GBDT模型。将实时请求的实时广告流量数据输入GBDT模型判断实时请求是否异常,以识别作弊流量并进行拦截。同时将媒体得分标注在媒体的广告位上,可以对广告主的采买行为提供指导。
实施例5
图5为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1或2中的广告流量数据的处理方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或2中的广告流量数据的处理方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1或2中的广告流量数据的处理方法中的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1或2中的广告流量数据的处理方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种广告流量数据的处理方法,其特征在于,所述广告流量数据的处理方法包括以下步骤:
获取用户在广告请求时的实时广告流量数据;所述实时广告流量数据包括所述用户的基本信息、所述用户的上网位置信息、所述用户的上网设备信息、所述用户的请求广告位信息;
对所述实时广告流量数据进行数值化处理,得到实时广告流量数值数据;
将所述实时广告流量数值数据输入一GBDT判定模型,判断所述GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则所述实时广告流量数值数据对应的所述实时广告流量数据为异常实时流量数据。
2.如权利要求1所述的广告流量数据的处理方法,其特征在于,所述数值化处理包括将所述用户的IP信息转换成32位的IP整数值,将所述用户的上网位置信息利用地域库转换成地理整数值,将所述用户的上网设备信息中的设备机型转换成机型整数值,对所述用户的上网设备信息中的UA特征字符串进行Hash取值,得到UAHash值。
3.如权利要求1所述的广告流量数据的处理方法,其特征在于,在将所述实时广告流量数值数据输入一GBDT判定模型之前,还包括如下步骤:
在日志中保存用户的历史广告流量数据,对所述历史广告流量数据进行评分得到训练数据得分,当所述训练数据得分低于第二预设阈值时,所述历史广告流量数据为异常历史流量数据;
使用若干样本数据对所述GBDT判定模型进行训练,得到所述GBDT判定模型;所述样本数据包括所述历史广告流量数据和所述历史广告流量数据是否为异常历史流量数据的判定结果。
4.如权利要求3所述的广告流量数据的处理方法,其特征在于,在广告请求、广告开始展示、广告点击、视频开始播放、视频播放25%、视频播放50%、视频播放75%和视频播放完成时均在日志中保存一条所述历史广告流量数据;
所述历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据;
所述用户维度数据包括用户广告请求相关数据、用户广告展示相关数据、用户广告点击相关数据和落地页相关数据;
所述IP数据包括用户的IP是否互联网数据中心机房IP、用户的IP是否开通模拟器或代理服务端口;
所述请求规则匹配数据包括广告展示与广告请求的UA是否匹配、广告点击与广告请求的UA是否匹配和广告引用页是否与广告请求来源匹配;
所述媒体维度数据包括媒体中每个IP的独立访客数、媒体中操作系统版本占比与标准操作系统占比的差异值和落地页跳出率异常;
所述代码检测数据包括广告是否在无头浏览器中、广告是否在非手机操作系统浏览器中、广告是否在模拟器中和广告展示区域大小是否与请求声明尺寸匹配;
所述训练数据得分包括历史广告流量数据得分和媒体得分两部分,设置所述历史广告流量数据得分的权重为第一权重,设置所述媒体得分的权重为第二权重,所述第一权重和所述第二权重的和等于1,计算得到所述训练数据得分;
所述广告流量数据得分是对所述历史广告流量数据分别进行阈值比对打分得到所述历史广告流量数据得分;所述媒体得分是分别对所述用户维度数据、所述IP数据、所述请求规则匹配数据、所述媒体维度数据和所述代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分,设置所述用户维度得分的权重为第三权重、所述IP得分的权重为第四权重、所述请求规则匹配得分的权重为第五权重、所述媒体维度得分的权重为第六权重、所述代码检测得分的权重为第七权重,所述第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,计算得到所述媒体得分。
5.如权利要求4所述的广告流量数据的处理方法,其特征在于,所述广告流量数据的处理方法还包括将所述媒体得分标注在媒体的广告位上。
6.一种广告流量数据的处理系统,其特征在于,所述广告流量数据的处理系统包括实时数据获取模块、数值处理模块、GBDT模型模块;
所述实时数据获取模块用于获取一用户的实时广告流量数据;所述实时广告流量数据包括所述用户的IP信息、所述用户的上网位置信息、所述用户的上网设备信息、所述用户的请求广告位信息;
所述数值处理模块用于对所述实时广告流量数据进行数值化处理,得到实时广告流量数值数据;
所述GBDT模块用于将所述实时广告流量数值数据输入一GBDT判定模型,判断所述GBDT判定模型输出的分类概率是否大于第一预设阈值,若是则所述实时广告流量数值数据对应的所述实时广告流量数据为异常实时流量数据。
7.如权利要求6所述的广告流量数据的处理系统,其特征在于,所述数值处理模块将所述用户的IP信息转换成32位的IP整数值,将所述用户的上网位置信息利用地域库转换成地理整数值,将所述用户的上网设备信息中的设备机型转换成机型整数值,对所述用户的上网设备信息中的UA特征字符串进行Hash取值,得到UAHash值。
8.如权利要求6所述的广告流量数据的处理系统,其特征在于,所述广告流量数据的处理系统还包括历史数据保存模块和历史数据评分模块;
所述历史数据保存模块在日志中保存用户的历史广告流量数据,所述历史数据评分模块对所述历史广告流量数据进行评分得到训练数据得分,所述历史数据评分模块判断所述训练数据得分是否低于第二预设阈值,若是则所述历史广告流量数据为异常历史流量数据;
所述GBDT模块使用若干样本数据对所述GBDT判定模型进行训练,得到所述GBDT判定模型;所述样本数据包括所述历史广告流量数据和所述历史广告流量数据是否为异常历史流量数据的判定结果。
9.如权利要求8所述的广告流量数据的处理系统,其特征在于,所述历史广告流量数据包括用户维度数据、IP数据、请求规则匹配数据、媒体维度数据和代码检测数据;
所述用户维度数据包括用户广告请求相关数据、用户广告展示相关数据、用户广告点击相关数据和落地页相关数据;
所述IP数据包括用户的IP是否互联网数据中心机房IP、用户的IP是否开通模拟器或代理服务端口;
所述请求规则匹配数据包括广告展示与广告请求的UA是否匹配、广告点击与广告请求的UA是否匹配和广告引用页是否与广告请求来源匹配;
所述媒体维度数据包括媒体中每个IP的独立访客数、媒体中操作系统版本占比与标准操作系统占比的差异值和落地页跳出率异常;
所述代码检测数据包括广告是否在无头浏览器中、广告是否在非手机操作系统浏览器中、广告是否在模拟器中和广告展示区域大小是否与请求声明尺寸匹配;
所述训练数据得分包括历史广告流量数据得分和媒体得分两部分,设置所述历史广告流量数据得分的权重为第一权重,设置所述媒体得分的权重为第二权重,所述第一权重和所述第二权重的和等于1,计算得到所述训练数据得分;
所述广告流量数据得分是对所述历史广告流量数据分别进行阈值比对打分得到所述历史广告流量数据得分;所述媒体得分是分别对所述用户维度数据、所述IP数据、所述请求规则匹配数据、所述媒体维度数据和所述代码检测数据进行阈值比对打分得到用户维度得分、IP得分、请求规则匹配得分、媒体维度得分和代码检测得分,设置所述用户维度得分的权重为第三权重、所述IP得分的权重为第四权重、所述请求规则匹配得分的权重为第五权重、所述媒体维度得分的权重为第六权重、所述代码检测得分的权重为第七权重,所述第三权重、第四权重、第五权重、第六权重和第七权重的和等于1,计算得到所述媒体得分。
10.如权利要求9所述的广告流量数据的处理系统,其特征在于,所述广告流量数据的处理系统还包括媒体得分标注模块,所述媒体得分标注模块用于将所述媒体得分标注在媒体的广告位上。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行计算机程序时实现权利要求1-5中任一项所述的广告流量数据的处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-5中任一项所述的广告流量数据的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291541.3A CN112950249A (zh) | 2019-12-16 | 2019-12-16 | 广告流量数据的处理方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291541.3A CN112950249A (zh) | 2019-12-16 | 2019-12-16 | 广告流量数据的处理方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112950249A true CN112950249A (zh) | 2021-06-11 |
Family
ID=76234394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911291541.3A Pending CN112950249A (zh) | 2019-12-16 | 2019-12-16 | 广告流量数据的处理方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112950249A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488754A (zh) * | 2020-11-30 | 2021-03-12 | 上海酷量信息技术有限公司 | 一种广告点击的反作弊系统和方法 |
CN113554474A (zh) * | 2021-08-11 | 2021-10-26 | 上海明略人工智能(集团)有限公司 | 模型的验证方法及装置、电子设备和计算机可读存储介质 |
CN113824733A (zh) * | 2021-10-16 | 2021-12-21 | 西安明德理工学院 | 一种计算机网络管理系统 |
CN114581148A (zh) * | 2022-03-10 | 2022-06-03 | 北京明略软件系统有限公司 | 用于检测广告流量的方法及装置、电子设备、存储介质 |
CN115147152A (zh) * | 2022-07-01 | 2022-10-04 | 浙江出海数字技术有限公司 | 广告投放效果数据采集与统计分析系统 |
-
2019
- 2019-12-16 CN CN201911291541.3A patent/CN112950249A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488754A (zh) * | 2020-11-30 | 2021-03-12 | 上海酷量信息技术有限公司 | 一种广告点击的反作弊系统和方法 |
CN113554474A (zh) * | 2021-08-11 | 2021-10-26 | 上海明略人工智能(集团)有限公司 | 模型的验证方法及装置、电子设备和计算机可读存储介质 |
CN113824733A (zh) * | 2021-10-16 | 2021-12-21 | 西安明德理工学院 | 一种计算机网络管理系统 |
CN113824733B (zh) * | 2021-10-16 | 2023-08-18 | 西安明德理工学院 | 一种计算机网络管理系统 |
CN114581148A (zh) * | 2022-03-10 | 2022-06-03 | 北京明略软件系统有限公司 | 用于检测广告流量的方法及装置、电子设备、存储介质 |
CN115147152A (zh) * | 2022-07-01 | 2022-10-04 | 浙江出海数字技术有限公司 | 广告投放效果数据采集与统计分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112950249A (zh) | 广告流量数据的处理方法、系统、电子设备及存储介质 | |
CN106940705B (zh) | 一种用于构建用户画像的方法与设备 | |
US11157956B2 (en) | Application recommendation method and server | |
US20210035126A1 (en) | Data processing method, system and computer device based on electronic payment behaviors | |
CN110992169A (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
US10270785B2 (en) | Method and apparatus for identifying malicious account | |
US11372942B2 (en) | Method, apparatus, computer device and storage medium for verifying community question answer data | |
CN107483500A (zh) | 一种基于用户行为的风险识别方法、装置及存储介质 | |
US20130198203A1 (en) | Bot detection using profile-based filtration | |
US10084870B1 (en) | Identifying user segment assignments | |
KR20190022431A (ko) | 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체 | |
CN112104642B (zh) | 一种异常账号确定方法和相关装置 | |
CN111178954A (zh) | 一种广告投放方法、系统和电子设备 | |
CN111210335A (zh) | 用户风险识别方法、装置及电子设备 | |
CN111414754A (zh) | 一种事件的情感分析方法、装置、服务器及存储介质 | |
WO2017136295A1 (en) | Adaptive seeded user labeling for identifying targeted content | |
WO2016099447A1 (en) | Personalized application recommendations | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN113761514A (zh) | 一种云桌面多因子安全认证方法及系统 | |
CN111552865A (zh) | 用户兴趣画像方法及相关设备 | |
WO2023040155A1 (zh) | 基于预设标签的策略生成方法、装置及存储介质 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
CN114356747A (zh) | 显示内容的测试方法、装置、设备、存储介质及程序产品 | |
CN106709749A (zh) | 媒体信息的投放方法及服务器 | |
CN111127057B (zh) | 一种多维用户画像恢复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |