CN113610569A - 广告点击农场检测方法、系统、终端及介质 - Google Patents

广告点击农场检测方法、系统、终端及介质 Download PDF

Info

Publication number
CN113610569A
CN113610569A CN202110852092.6A CN202110852092A CN113610569A CN 113610569 A CN113610569 A CN 113610569A CN 202110852092 A CN202110852092 A CN 202110852092A CN 113610569 A CN113610569 A CN 113610569A
Authority
CN
China
Prior art keywords
log
advertisement
group
mobile device
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110852092.6A
Other languages
English (en)
Inventor
朱浩瑾
孙随彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110852092.6A priority Critical patent/CN113610569A/zh
Publication of CN113610569A publication Critical patent/CN113610569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种广告点击农场检测方法及系统,基于机器学习和图算法,以广告平台日志中记录的移动端装置为目标,从日志中计算装置区分度高的特征,使用机器学习分类器标识出疑似欺诈装置,进一步根据欺诈装置间利益的关联性,定义装置间的相似度构建图,使用大规模图算法聚集疑似欺诈装置,实现检测广告欺诈团体的目的。同时提供了一种相应的终端及介质。本发明能够自动化处理广告平台上的竞价日志,从中识别出欺诈性的移动装置,将此类装置产生的无效流量从广告交易流程中剔除,以减少广告主和广告平台遭受的经济损失,此外系统具有自动更新功能,通过定期提供部分携带标签的装置样本,能够应对更多未知的欺诈方式。

Description

广告点击农场检测方法、系统、终端及介质
技术领域
本发明涉及机器学习分类技术和图算法技术领域,具体地,涉及一种基于机器学习和图算法的广告点击农场检测方法、系统、终端及介质。
背景技术
随着程序化广告技术的发展和兴起,互联网广告的市场份额近年来在持续增长,以实时竞价为代表的技术给市场提供了一种类似股票市场的买卖方平台,在这种广告平台上,网站、应用程序开发者可以通过实时拍卖将网站或应用程序上的广告位出售给广告商。在过去的10年间,移动应用内广告已成为广告收入增长的主要方式。据报道,全球实时竞价市场规模有可能从2019年的66亿美元增长到2024年的272美元。
日益增长的收入吸引了欺诈性的广告位卖家(应用程序开发者)的注意力,他们通过伪造虚假的广告请求来增加收入,这些任务通常会外包给点击农场,点击农场可以控制数千个模拟的或真实的移动装置,模仿正常的应用程序使用来欺骗广告主,使他们相信自己的广告被实际感兴趣的用户看到。在广告交易的流程中,广告商通常为每千次的广告展示支付费用(简称CPM),而不是点击支付费用。总的来说,广告系统中的主要欺诈形式从点击欺诈逐渐演变为产生无效流量。根据估算,现实中每年因为欺诈行为而产生的广告展示量高达数万亿次,给广告主造成的损失高达数百亿美元。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于机器学习和图算法的广告点击农场检测方法、系统、终端及介质。
根据本发明的一个方面,提供了一种广告点击农场检测方法,包括:
根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
根据每一条所述日志-装置映射中移动装置对应的广告日志,提取每一条所述广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
将所述装置利益关联图中的移动装置分成团体;
利用所述装置分数预测模型,对得到的所述团体进行团体投票,完成对广告点击农场的检测。
优选地,所述根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射,包括:
针对广告平台中的每一条广告日志,将国际移动设备识别码和设备ID组合形成装置ID,并唯一确定一个对应的移动装置,得到日志-装置映射。
优选地,所述用于反映对应移动装置欺诈性的代表性特征,包括:
统计性特征,包括:日志条数、IP个数以及广告位个数;
熵特征,包括:日志随天数的分布熵、IP熵以及广告位熵;
时空特征,包括:活跃小时数以及最大速度;
不一致性特征,包括:品牌数、虚假品牌比例以及非浏览器用户代理比例。
优选地,所述将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型,包括:
获取带标签的装置号构建数据集,所述标签包括正常装置和欺诈装置;
抽取所述数据集中部分装置号所对应的广告日志,并进行特征提取,形成特征与标签对的集合;
利用所述集合训练机器学习分类模型,得到预训练的机器学习分类模型;
将所述特征向量输入至所述预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分;其中,所述预测得分在0-1之间,0表示移动装置为正常装置,1表示移动装置为欺诈性装置;
通过以上步骤,构建得到装置分数预测模型;
优选地,所述根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数构建装置利益关联图,包括:
根据每一条所述日志-装置映射中移动装置对应的广告日志,统计每一个移动装置对应的广告日志中应用程序包名及对应日志数,选取产生日志数最多的一个或多个应用程序及其对应日志数组成键值对,得到Top-App特征;
将相同Top-App特征的移动装置合并为节点,并计算两两节点之间的余弦相似度作为该节点对的边的权值,若边的权值大于设定阈值,则添加边,由此形成装置利益关联图。
优选地,所述将所述利益关联图中的移动装置分成团体,包括:
采用Louvain团体检测算法,获取所述装置利益关联图中相互之间紧密连接的移动装置群体,完成团体分配;其中:
所述Louvain团体检测算法,包括:
定义模块度Q作为团体检测结果的评价指标;初始时,将所述利益关联图中的每个节点视为一个团体,每次迭代中,尝试把每个节点加入其相邻节点的团体中,以最大化模块度Q,每一轮迭代结束时,将每一个团体视为一个节点,消除其内部边,继续下一轮迭代,当模块度Q达到最大时,停止迭代;
所述模块度Q定义如下:
Figure BDA0003182866450000031
其中:
Aij表示节点i与节点j的边权值;
ki和kj分别表示节点i和节点j的所有边权值之和;
m表示图中所有边权值总和;
ci和cj分别是图中两个团体;
δ是Delta函数,即当x=y时,δ(x,y)=1,当x≠y时,δ(x,y)=0;
经过Louvain团体检测算法后,将分在同一个第一层级团体的移动装置视为相互之间紧密连接的移动装置群体,完成团体分配。
优选地,所述利用所述装置分数预测模型,对得到的所述团体进行团体投票,包括:
将所述团体中每一个移动装置的特征向量分别输入至所述装置分数预测模型,得到每一个移动装置为欺诈性装置的预测得分;
计算所有预测得分的算术平均值作为所述团体的预测得分,若得分高于设定阈值,则认为该团体属于欺诈团体,否则该团体为正常团体,得到团体投票结果。
优选地,所述方法,还包括:
利用团体投票结果,对各团体内部的移动装置进行重标签;
利用重标签的数据集对所述装置分数预测模型进行重训练。
根据本发明的另一个方面,提供了一种广告点击农场检测系统,包括:
日志装置映射模块,该模块根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
装置特征提取模块,该模块根据每一条所述日志-装置映射中移动装置对应的广告日志,提取每一条所述广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
装置分数预测模块,该模块将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
装置利益关联图模块,该模块根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
团体检测模块,该模块将所述装置利益关联图中的移动装置分成团体;
点击农场检测模块,该模块利用所述装置分数预测模型,对得到的所述团体进行团体投票,完成对广告点击农场的检测。
优选地,所述系统,还包括:
模型更新模块,该模块利用团体投票结果,对各团体内部的移动装置进行重标签,并利用重标签的数据集对所述装置分数预测模型进行重训练,进而提高所述装置分数预测模型的预测精度。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法,或,运行上述任一项所述的系统。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法,或,运行上述任一项所述的系统。
由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项的有益效果:
本发明提供的广告点击农场检测方法、系统、终端及介质,基于机器学习和图算法,以广告平台日志中记录的移动端装置为目标,从日志中计算装置区分度高的特征,使用机器学习分类器标识出疑似欺诈装置,进一步根据欺诈装置间利益的关联性,定义装置间的相似度构建图,使用大规模图算法聚集疑似欺诈装置,实现检测广告欺诈团体的目的。
本发明提供的广告点击农场检测方法、系统、终端及介质,能够持续运行于广告平台之上,通过结合机器学习和图算法,能够准确、高效地从广告平台的实时竞价流量中识别出产生无效流量的群体性欺诈装置,即点击农场;通过将此类无效流量从广告结算周期中剔除,能够有效帮助广告主和广告平台减少广告交易流程的损失。
本发明提供的广告点击农场检测方法、系统、终端及介质,通过结合机器学习和图相关算法,能够自动化处理广告平台上的竞价日志,从中识别出欺诈性的移动装置,将此类装置产生的无效流量从广告交易流程中剔除,以减少广告主和广告平台遭受的经济损失,此外系统具有自动更新功能,通过定期提供部分携带标签的装置样本,能够应对更多未知的欺诈方式。
本发明提供的广告点击农场检测方法、系统、终端及介质,通过利用重标签的数据集对所述装置分数预测模型进行重训练,以纠正装置分数预测模型可能的误判,提高分类的精度、召回率等。
本发明提供的广告点击农场检测方法、系统、终端及介质,提出的检测技术具有完全自动化、准确率高、运行效率快的优点。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中广告点击农场检测方法流程图。
图2为本发明一优选实施例中广告点击农场检测方法流程图。
图3为本发明一优选实施例中装置利益关联图示意图。
图4为本发明一实施例中广告点击农场检测系统组成模块示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例提供的广告点击农场检测方法流程图。
如图1所示,该实施例提供的广告点击农场检测方法,可以包括如下步骤:
S100,根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
S200,根据每一条日志-装置映射中移动装置对应的广告日志,提取每一条广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
S300,将特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
S400,根据每一条日志-装置映射中移动装置对应的广告日志,获取每一条广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
S500,将装置利益关联图中的移动装置分成团体;
S600,利用装置分数预测模型,对得到的团体进行团体投票,完成对广告点击农场的检测。
在该实施例的S100中,作为一优选实施例,根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射,可以包括如下步骤:
针对广告平台中的每一条广告日志,将国际移动设备识别码和设备ID组合形成装置ID,并唯一确定一个对应的移动装置,得到日志-装置映射。
在该实施例的S200中,作为一优选实施例,用于反映移动装置欺诈性的代表性特征,可以包括:
统计性特征,包括:日志条数、IP个数以及广告位个数;
熵特征,包括:日志随天数的分布熵、IP熵以及广告位熵;
时空特征,包括:活跃小时数以及最大速度;
不一致性特征,包括:品牌数、虚假品牌比例以及非浏览器用户代理比例。
在该实施例的S300中,作为一优选实施例,将特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型,可以包括如下步骤:
S301,获取带标签的装置号构建数据集,标签包括正常装置和欺诈装置;
S302,提取数据集中部分装置号所对应的广告日志,并进行特征提取,形成特征与标签对的集合;
S303,利用集合训练机器学习分类模型,得到预训练的机器学习分类模型;
S304,将特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分;其中,预测得分在0-1之间,0表示移动装置为正常装置,1表示移动装置为欺诈性装置;
通过以上步骤,构建得到装置分数预测模型。
在该实施例的S400中,作为一优选实施例,根据每一条日志-装置映射中移动装置对应的广告日志,获取每一条广告日志中的应用程序包名以及对应日志数,构建装置利益关联图,可以包括如下步骤:
S401,根据每一条日志-装置映射中移动装置对应的广告日志,统计每一个移动装置对应的广告日志中应用程序包名及对应日志数,选取产生日志数最多的一个或多个应用程序及其对应日志数组成键值对,得到Top-App特征;
S402,将相同Top-App特征的移动装置合并为节点,并计算两两节点之间的余弦相似度作为该节点对的边的权值,若边的权值大于设定阈值,则添加边,由此形成装置利益关联图。
在该实施例的S500中,作为一优选实施例,将利益关联图中的移动装置分成团体,可以包括如下步骤:
S501,采用Louvain团体检测算法,获取装置利益关联图中相互之间紧密连接的移动装置群体,完成团体分配;
S502,相互之间紧密连接的移动装置群体是指,经过Louvain团体检测算法后,被分在同一个第一层级团体的移动装置。
在该实施例的S501中,作为一优选实施例,Louvain团体检测算法,可以包括如下步骤:
定义模块度Q作为团体检测结果的评价指标;初始时,将所述利益关联图中的每个节点视为一个团体,每次迭代中,尝试把每个节点加入其相邻节点的团体中,以最大化模块度Q,每一轮迭代结束时,将每一个团体视为一个节点,消除其内部边,继续下一轮迭代,当模块度Q达到最大时,停止迭代;
所述模块度Q定义如下:
Figure BDA0003182866450000071
其中:
Aij表示节点i与节点j的边权值;
ki和kj分别表示节点i和节点j的所有边权值之和;
m表示图中所有边权值总和;
ci和cj分别是图中两个团体;
δ是Delta函数,即当x=y时,δ(x,y)=1,当x≠y时,δ(x,y)=0;
经过Louvain团体检测算法后,将分在同一个第一层级团体中的移动装置视为相互之间紧密连接的移动装置群体,完成团体分配。
在该实施例的S600中,作为一优选实施例,利用装置分数预测模型,对得到的团体进行团体投票,可以包括如下步骤:
S601,将团体中每一个移动装置的特征向量分别输入至装置分数预测模型,得到每一个移动装置为欺诈性装置的预测得分;
S602,计算所有预测得分的算术平均值作为团体的预测得分,若得分高于设定阈值,则认为该团体属于欺诈团体,否则该团体为正常团体,得到团体投票结果。
在该实施例中,作为一优选实施例,该方法还可以包括如下步骤:
S701,利用团体投票结果,对各团体内部的移动装置进行重标签;
S702,利用重标签的数据集对装置分数预测模型进行重训练,进而提高装置分数预测模型的预测精度。
图2为本发明一优选实施例提供的广告点击农场检测方法流程图。
该优选实施例提供的广告点击农场检测方法,通过点击农场性质的欺诈性集群级别装置在使用特征上具有的一致性来识别出欺诈性装置团体,而不是通过单个装置的异常特征来识别欺诈装置。因此,该优选实施例提供的广告点击农场检测方法,其主要目标除了识别欺诈性装置外,还检测欺诈性装置集群,即点击农场。
如图2所示,该优选实施例提供的广告点击农场检测方法,可以包括如下三个阶段:
1)分类阶段,基于对带标签的装置号数据集中已标签装置的特征分析,构建一个二分类器,通过利用广告竞价日志中提取的特征来区分欺诈装置和正常装置。
2)集群阶段,基于Top-App的集群算法,该算法基于装置之间的一致性特征构建装置图,然后识别出紧密相连的装置集群。
3)聚合阶段,根据集群内的装置标签进行多数表决,对每个集群进行分类,然后根据集群的分类结果对装置进行重新标记,即欺诈性集群内的所有装置都将被标记为欺诈性装置,反之亦然。最后的输出为形如([装置号],标签)对的输出,表明将哪些装置分组到集群中以及这些集群是欺诈性的还是正常的。
进一步地,上述三个阶段分别包括如下步骤:
分类阶段:
步骤1,构建日志-装置映射:根据平台广告日志中的字段(装置ID)确定移动装置唯一标识符;
步骤2,装置特征提取:根据每个装置的广告日志,提取其具有区分性的特征;
步骤3,装置分数预测模型构建:将特征输入机器学习分类器,通过训练构建装置分数预测模型;
集群阶段:
步骤4,构建装置利益关联图:根据装置日志中APP包名及对应数量分布计算装置间利益相似度,根据相似度构边成装置利益关联图;
步骤5,团体检测:使用团体检测算法将利益关联图中的装置分成团体;
聚合阶段:
步骤6,团体投票及标签纠正:结合据步骤3的分类结果和步骤5的团体检测结果进行团体投票和标签纠正。
第一个阶段为分类阶段,可分为3个组件。分类阶段是一个经典的机器学习分类过程。分类模型(即装置分数预测模型)输入是广告竞价日志,输出是每个装置的预测得分sdev,范围是0-1。0表示装置为正常装置,越靠近0,表示装置为正常装置的概率越高,而1表示装置为欺诈性装置,越靠近1,表示装置为欺诈性装置的概率越高。该阶段主要由三部分组成:日志装置映射部分,装置特征提取部分和装置分数预测部分。
日志装置映射部分根据广告竞价日志构建日志装置映射。然后,广告竞价日志作为输入,并输出装置日志映射M,该映射将每个装置ID映射到该装置生成的相应日志。在给定装置(例如Android装置)的情况下,要确定每个装置的唯一ID,该优选实施例使用IMEI和Android ID的MD5组合值。由于IMEI和Android ID都可能由于严格的权限控制而导致为空值,因此结合使用它们来覆盖生态系统中的更多装置。
装置特征提取部分提取那些可以反映装置欺诈性的代表性特征。为此,该优选实施例定义了11个特征来捕获欺诈性装置的性质,这些特征涵盖了广告竞价日志的所有字段,并可将这些功能分为四类,如表1所示,这些特征提取如下。
表1
Figure BDA0003182866450000091
Figure BDA0003182866450000101
装置分数预测部分包含一系列机器学习模型,用于对特征进行训练和测试。特别地,可以潜在地使用任何基于特征的分类器(例如,逻辑回归,决策树,kNN,SVM和神经网络)。
在第一个阶段,该优选实施例提出了一种新颖的分类器,可以根据广告竞价日志将欺诈性装置与正常装置区分开。但是,实际上,这种分类结果可能会受到噪声数据或攻击者的有意操纵的影响。为了解决此问题,在集群阶段中,将装置分为不同的集群,然后利用集群级别的功能来确定集群及其装置是否为欺诈性。该优选实施例提出的基于Top-App的聚类算法包括三个步骤:提取Top-App特征,构建装置图结构,通过将Louvain算法应用于聚类装置来检测图中的社区。
首先,提取Top-App特征旨在提取可代表装置一致性的关键特征。由于攻击者倾向于大规模部署欺诈性装置以获取更多收入,因此,那些欺诈装置生成的广告竞价请求主要针对目标应用。在这里选择应用程序的使用模式作为考虑的主要因素。此外,攻击者必须自动控制大量装置,这导致那些受控装置具有类似的应用程序使用模式。具体来说,装置的使用方式UPdev可以表示为:
UPdev=<freq(app1),…,freq(appn)>
其中,freq(appi)表示当天内使用appi产生的广告日志的条数。然而,整个广告生态系统中有成千上万的应用程序,具有数千个维度的特征向量极大地阻碍了计算。为了降低计算复杂度,本发明中只取靠前的几位应用程序中的freq(UPdev)值保留在特征中。
要使用上述特征构造装置图,该优选实施例使用余弦相似度定义装置对之间的相似度,如下所示:
Figure BDA0003182866450000102
然后,对于每个节点(装置)对,在它们之间添加一条边,并使用相似度作为边的权重。为避免构造出具有大量低权重边缘的加权图,这里设置阈值Simthr,仅当Sim(dev1,dev2)≥Simthr时才在两个装置之间添加边,得到装置利益关联图。
图3中描述了装置利益关联图的一个示例。一个关键的观察结果是,密集连接的集群主要由一种类型的顶点组成,即所有欺诈性顶点或正常顶点。在这里,该优选实施例使用常用的Louvain方法来识别装置图中的团体。
在第三个阶段即聚合阶段中,该优选实施例把分类阶段和集群阶段的结果进行整合,首先,对从第一阶段获得的标签进行多数表决,以确定第二阶段中的集群是欺诈性的还是正常的。具体来说,将每个集群的装置平均预测得分计算为群集的得分sc。如果sc≥sthr,则将装置集群标记为欺诈性的。否则,装置集群为正常。在这里,仅考虑由大于αN组成的集群,N是装置总数。例如,当α=0.1时,仅考虑具有超过0.1N个装置的集群进行标签投票,得到团体投票结果。
第三阶段的显著优势和必要性是能够校准发生在阶段一中的装置标签预测。由于攻击者的配置不同,欺诈装置可能被错误地预测为正常装置。因此,对于大小大于αN的每个群集,在多数投票之后,可使用该群集的标签来重新标记其每个装置。
以上内容描述了该优选实施例的核心步骤和机制,通过在广告平台中实际部署该发明,可将平台中实时产生的竞价日志作为输入,识别出其中由群体欺诈性装置产生的无效流量,有效降低广告欺诈造成的影响。
图4为本发明一实施例提供的广告点击农场检测系统组成模块示意图。
如图4所示,该实施例提供的广告点击农场检测系统,可以包括如下模块:日志装置映射模块、装置特征提取模块、装置分数预测模块、装置利益关联图模块、团体检测模块以及点击农场检测模块;其中:
日志装置映射模块,该模块根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
装置特征提取模块,该模块根据每一条日志-装置映射中移动装置对应的广告日志,提取每一条广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
装置分数预测模块,该模块将特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
装置利益关联图模块,该模块根据每一条日志-装置映射中移动装置对应的广告日志,获取每一条广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
团体检测模块,该模块将装置利益关联图中的移动装置分成团体;
点击农场检测模块,该模块利用装置分数预测模型,对得到的团体进行团体投票,完成对广告点击农场的检测。
在该实施例中,作为一优选实施例,该系统还可以包括:模型更新模块;其中:
模型更新模块,该模块利用团体投票结果,对各团体内部的移动装置进行重标签,并利用重标签的数据集对装置分数预测模型进行重训练,进而提高装置分数预测模型的预测精度。
本发明一实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行本发明上述实施例中任一项的方法,或,运行本发明上述实施例中任一项的系统。
本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法,或,运行本发明上述实施例中任一项的系统。
上述两个实施例中,可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic RandomAccess Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明上述实施例提供的广告点击农场检测方法、系统、终端及介质,基于机器学习和图算法,以广告平台日志中记录的移动端装置为目标,从日志中计算装置区分度高的特征,使用机器学习分类器标识出疑似欺诈装置,进一步根据欺诈装置间利益的关联性,定义装置间的相似度构建图,使用大规模图算法聚集疑似欺诈装置,实现检测广告欺诈团体的目的。同时提供了一种相应的终端及介质。本发明能够自动化处理广告平台上的竞价日志,从中识别出欺诈性的移动装置,将此类装置产生的无效流量从广告交易流程中剔除,以减少广告主和广告平台遭受的经济损失,此外系统具有自动更新功能,通过定期提供部分携带标签的装置样本,能够应对更多未知的欺诈方式。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (12)

1.一种广告点击农场检测方法,其特征在于,包括:
根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
根据每一条所述日志-装置映射中移动装置对应的广告日志,提取每一条所述广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
将所述装置利益关联图中的移动装置分成团体;
利用所述装置分数预测模型,对得到的所述团体进行团体投票,完成对广告点击农场的检测。
2.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射,包括:
针对广告平台中的每一条广告日志,将国际移动设备识别码和设备ID组合形成装置ID,并唯一确定一个对应的移动装置,得到日志-装置映射。
3.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述用于反映对应移动装置欺诈性的代表性特征,包括:
统计性特征,包括:日志条数、IP个数以及广告位个数;
熵特征,包括:日志随天数的分布熵、IP熵以及广告位熵;
时空特征,包括:活跃小时数以及最大速度;
不一致性特征,包括:品牌数、虚假品牌比例以及非浏览器用户代理比例。
4.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型,包括:
获取带标签的装置号构建数据集,所述标签包括正常装置和欺诈装置;
提取所述数据集中部分装置号所对应的广告日志,并进行特征提取,形成特征与标签对的集合;
利用所述集合训练机器学习分类模型,得到预训练的机器学习分类模型;
将所述特征向量输入至所述预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分;其中,所述预测得分在0-1之间,0表示移动装置为正常装置,1表示移动装置为欺诈性装置;
通过以上步骤,构建得到装置分数预测模型。
5.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数构建装置利益关联图,包括:
根据每一条所述日志-装置映射中移动装置对应的广告日志,统计每一个移动装置对应的广告日志中应用程序包名及对应日志数,选取产生日志数最多的一个或多个应用程序及其对应日志数组成键值对,得到Top-App特征;
将相同Top-App特征的移动装置合并为节点,并计算两两节点之间的余弦相似度作为该节点对的边的权值,若边的权值大于设定阈值,则添加边,由此形成装置利益关联图。
6.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述将所述利益关联图中的移动装置分成团体,包括:
采用Louvain团体检测算法,获取所述装置利益关联图中相互之间紧密连接的移动装置群体,完成团体分配;其中:
所述Louvain团体检测算法,包括:
定义模块度Q作为团体检测结果的评价指标;初始时,将所述利益关联图中的每个节点视为一个团体,每次迭代中,尝试把每个节点加入其相邻节点的团体中,以最大化模块度Q,每一轮迭代结束时,将每一个团体视为一个节点,消除其内部边,继续下一轮迭代,当模块度Q达到最大时,停止迭代;
所述模块度Q定义如下:
Figure FDA0003182866440000021
其中:
Aij表示节点i与节点j的边权值;
ki和kj分别表示节点i和节点j的所有边权值之和;
m表示图中所有边权值总和;
ci和cj分别是图中两个团体;
δ是Delta函数,即当x=y时,δ(x,y)=1,当x≠y时,δ(x,y)=0;
经过Louvain团体检测算法后,将分在同一个第一层级团体中的移动装置视为相互之间紧密连接的移动装置群体,完成团体分配。
7.根据权利要求1所述的广告点击农场检测方法,其特征在于,所述利用所述装置分数预测模型,对得到的所述团体进行团体投票,包括:
将所述团体中每一个移动装置的特征向量分别输入至所述装置分数预测模型,得到每一个移动装置为欺诈性装置的预测得分;
计算所有预测得分的算术平均值作为所述团体的预测得分,若得分高于设定阈值,则认为该团体属于欺诈团体,否则该团体为正常团体,得到团体投票结果。
8.根据权利要求1-7中任一项所述的广告点击农场检测方法,其特征在于,还包括:
利用团体投票结果,对各团体内部的移动装置进行重标签;
利用重标签的数据集对所述装置分数预测模型进行重训练。
9.一种广告点击农场检测系统,其特征在于,包括:
日志装置映射模块,该模块根据每一条广告日志中的装置ID确定该广告日志唯一对应的移动装置,构建日志-装置映射;
装置特征提取模块,该模块根据每一条所述日志-装置映射中移动装置对应的广告日志,提取每一条所述广告日志中用于反映对应移动装置欺诈性的代表性特征,构成特征向量;
装置分数预测模块,该模块将所述特征向量输入至预训练的机器学习分类模型,并输出对应移动装置为欺诈性装置的预测得分,构建装置分数预测模型;
装置利益关联图模块,该模块根据每一条所述日志-装置映射中移动装置对应的广告日志,获取每一条所述广告日志中的应用程序包名以及对应日志数,构建装置利益关联图;
团体检测模块,该模块将所述装置利益关联图中的移动装置分成团体;
点击农场检测模块,该模块利用所述装置分数预测模型,对得到的所述团体进行团体投票,完成对广告点击农场的检测。
10.根据权利要求9所述的广告点击农场检测系统,其特征在于,还包括:
模型更新模块,该模块利用团体投票结果,对各团体内部的移动装置进行重标签,并利用重标签的数据集对所述装置分数预测模型进行重训练,进而提高所述装置分数预测模型的预测精度。
11.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-8中任一项所述的方法,或,运行权利要求9-10中任一项所述的系统。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-8中任一项所述的方法,或,运行权利要求9-10中任一项所述的系统。
CN202110852092.6A 2021-07-27 2021-07-27 广告点击农场检测方法、系统、终端及介质 Pending CN113610569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110852092.6A CN113610569A (zh) 2021-07-27 2021-07-27 广告点击农场检测方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110852092.6A CN113610569A (zh) 2021-07-27 2021-07-27 广告点击农场检测方法、系统、终端及介质

Publications (1)

Publication Number Publication Date
CN113610569A true CN113610569A (zh) 2021-11-05

Family

ID=78305632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110852092.6A Pending CN113610569A (zh) 2021-07-27 2021-07-27 广告点击农场检测方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN113610569A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106651423A (zh) * 2016-09-28 2017-05-10 华南理工大学 一种移动应用广告投放的质量评分方法
CN108009690A (zh) * 2017-12-22 2018-05-08 北京工业大学 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN109034867A (zh) * 2018-06-21 2018-12-18 腾讯科技(深圳)有限公司 点击流量检测方法、装置及存储介质
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN112468433A (zh) * 2019-09-06 2021-03-09 詹春婷 一种诈骗监控程序

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
US20180253755A1 (en) * 2016-05-24 2018-09-06 Tencent Technology (Shenzhen) Company Limited Method and apparatus for identification of fraudulent click activity
CN106651423A (zh) * 2016-09-28 2017-05-10 华南理工大学 一种移动应用广告投放的质量评分方法
CN108009690A (zh) * 2017-12-22 2018-05-08 北京工业大学 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN109034867A (zh) * 2018-06-21 2018-12-18 腾讯科技(深圳)有限公司 点击流量检测方法、装置及存储介质
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN112468433A (zh) * 2019-09-06 2021-03-09 詹春婷 一种诈骗监控程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAIZHONG ZHENG ETC.: "Fake Reviews Tell No Tales? Dissecting Click Farming in Content-Generated Social Networks", 《IEEE》, pages 1 - 6 *

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN109345260B (zh) 一种异常操作行为的检测方法
US11416867B2 (en) Machine learning system for transaction reconciliation
WO2021081962A1 (zh) 推荐模型的训练方法、推荐方法、装置及计算机可读介质
WO2019144892A1 (zh) 数据处理方法、装置、存储介质和电子装置
Zaki et al. House price prediction using hedonic pricing model and machine learning techniques
KR102330423B1 (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN115147875A (zh) 防欺骗方法和设备
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN111144899B (zh) 识别虚假交易的方法及装置和电子设备
CN114663167A (zh) 基于拍品信息的估价方法、装置、电子设备及存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN110992194A (zh) 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法
CN113762579A (zh) 一种模型训练方法、装置、计算机存储介质及设备
CN112328881A (zh) 文章推荐方法、装置、终端设备及存储介质
CN113763057A (zh) 用户身份画像的数据处理方法和装置
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN113610569A (zh) 广告点击农场检测方法、系统、终端及介质
US20230401607A1 (en) Utilizing machine learning models to generate an optimized digital marketing simulation
CN114943608A (zh) 一种欺诈风险评估方法、装置、设备及存储介质
CN113487109A (zh) 群体识别方法、装置、电子设备及存储介质
CN113706258A (zh) 基于组合模型的产品推荐方法、装置、设备及存储介质
CN113469816A (zh) 基于多组学技术的数字货币识别方法、系统和存储介质
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
CN113393303A (zh) 物品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination