CN112183622A - 一种移动应用bots安装作弊检测方法、装置、设备及介质 - Google Patents

一种移动应用bots安装作弊检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN112183622A
CN112183622A CN202011034910.3A CN202011034910A CN112183622A CN 112183622 A CN112183622 A CN 112183622A CN 202011034910 A CN202011034910 A CN 202011034910A CN 112183622 A CN112183622 A CN 112183622A
Authority
CN
China
Prior art keywords
installation
features
mobile application
bots
cheating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011034910.3A
Other languages
English (en)
Other versions
CN112183622B (zh
Inventor
姚天峻
李青
朱亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huiluo Information Technology Co ltd
Original Assignee
Guangzhou Huiluo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huiluo Information Technology Co ltd filed Critical Guangzhou Huiluo Information Technology Co ltd
Priority to CN202011034910.3A priority Critical patent/CN112183622B/zh
Publication of CN112183622A publication Critical patent/CN112183622A/zh
Application granted granted Critical
Publication of CN112183622B publication Critical patent/CN112183622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Virology (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种移动应用bots安装作弊检测方法、装置、设备及介质。方法包括:获取移动应用的安装信息,从安装信息中提取用于表征全局信息的全局特征,并从二部图的图数据中提取用于表征局部信息的特征,二部图用于表示安装设备和广告渠道之间的关联关系,基于全局特征和局部特征确定移动应用是否存在bots安装作弊。通过提取二部图中各节点的局部上下文特征作为局部特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高检测结果的准确率。通过融合局部特征和全局特征,实现不同层次的特征融合,提升每个安装信息的特征表达能力,提高了检测结果的准确率,进而降低广告主的广告成本和损失。

Description

一种移动应用bots安装作弊检测方法、装置、设备及介质
技术领域
本发明实施例涉及移动广告反作弊技术领域,尤其涉及一种移动应用bots安装作弊检测方法、装置、设备及介质。
背景技术
深度学习是机器学习中近年来备受重视的一个分支,且近些年发展十分迅猛。深度学习根源于神经网络模型,但现在深度学习的技术和它的前身已截然不同,目前在许多不同的领域,深度学习均实现了最佳的表现,在计算机视觉、自然语言处理、强化学习等诸多领域,深度学习已经发挥了巨大的作用;同样,在异常检测和欺诈检测等领域,基于深度学习的算法也在大放异彩。深度神经网络跟早期的专家手动提取特征或制定规则不同,深度神经网络的优越性能来自于在大量数据上使用统计学习方法,从原始数据中提取高级特征的能力,从而对输入空间进行有效的表征。
近年来,随着移动互联网技术的快速发展以及智能移动设备的兴起和不断普及。移动广告行业迅速发展,根据eMarketer的行业分析报告,2019年全球移动广告总支出已高达2410亿美元,预计2020年将持续增长至2865亿美元。
随着移动广告预算的持续增长,移动应用安装作弊也在持续增长。作弊给广告主造成了广告预算浪费的同时,也对广告平台造成了不良影响。在所有的移动应用安装作弊的各种作弊类型当中,bots作弊是当前较难识别的,识别准确率极低,同时却是占比较大的一种作弊类型。如何准确地检测bots作弊,成为现今移动互联网领域的一大技术难题。
发明内容
本发明提供一种移动应用bots安装作弊检测方法、装置、设备及介质,能够提高检测结果的准确率,进而降低广告主的广告成本和损失。
第一方面,本发明实施例提供了一种移动应用bots安装作弊检测方法,包括:
获取移动应用的安装信息;
从所述安装信息中提取用于表征全局信息的全局特征;
从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
可选的,所述从所述安装信息中提取用于表征全局信息的全局特征,包括:
将所述安装信息输入预置的决策树模型,得到多个嵌入特征;
计算多个所述嵌入特征的均值,得到全局特征。
可选的,所述决策树模型为LightGBM模型。
可选的,所述图数据包括用于表示安装设备和广告渠道的嵌入向量,以及安装设备和广告渠道之间的邻接矩阵,所述从二部图的图数据中提取用于表征局部信息的局部特征,包括:
将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行特征提取,得到局部特征。
可选的,所述嵌入向量用于表征所述图数据的节点,两个所述节点间的连线用于表征两个节点间的关联关系,将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行处理,得到局部特征,包括:
基于GraphSage算法分别计算正常安装和bots作弊安装时所述节点的聚合特征;
通过线性组合的方式对两类安装的聚合特征进行汇聚,得到每个渠道的局部特征。
可选的,所述基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊,包括:
将所述全局特征和所述局部特征融合处理,得到融合特征;
将所述融合特征输入预置的全连接神经网络进行处理,得到全连接特征;
将所述全连接特征输入所述预置的分类器,得到所述移动应用存在bots安装作弊的概率值;
基于所述概率值确定所述移动应用是否存在bots安装作弊。
可选的,在从二部图的图数据中提取用于表征局部信息的局部特征之前,还包括:
对二部图的各节点进行词嵌入,得到各节点的嵌入向量;
基于历史数据确定各节点间的邻接矩阵,所述邻接矩阵中位置(i,j)的数值表示安装设备Vi和广告渠道Vj是否存在连接关系。
第二方面,本发明实施例还提供了一种移动应用bots安装作弊检测装置,包括:
安装信息获取模块,用于获取移动应用的安装信息;
全局特征提取模块,用于从所述安装信息中提取用于表征全局信息的全局特征;
局部特征提取模块,用于从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
作弊确定模块,用于基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
可选的,所述全局特征提取模块包括:
嵌入特征提取单元,用于将所述安装信息输入预置的决策树模型,得到多个嵌入特征;
全局特征提取单元,用于计算多个所述嵌入特征的均值,得到全局特征。
可选的,所述决策树模型为LightGBM模型。
可选的,所述图数据包括用于表示安装设备和广告渠道的嵌入向量,以及安装设备和广告渠道之间的邻接矩阵,所述局部特征提取模块包括:
局部特征提取单元,用于将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行特征提取,得到局部特征。
可选的,所述嵌入向量用于表征所述图数据的节点,两个所述节点间的连线用于表征两个节点间的关联关系,所述局部特征提取单元包括:
聚合特征提取子单元,用于基于GraphSage算法分别计算正常安装和bots作弊安装时所述节点的聚合特征;
局部特征提取子单元,用于通过线性组合的方式对两类安装的聚合特征进行汇聚,得到每个渠道的局部特征。
可选的,所述作弊确定模块包括:
融合单元,用于将所述全局特征和所述局部特征融合处理,得到融合特征;
全连接特征提取单元,用于将所述融合特征输入预置的全连接神经网络进行处理,得到全连接特征;
概率值确定单元,用于将所述全连接特征输入所述预置的分类器,得到所述移动应用存在bots安装作弊的概率值;
作弊确定单元,用于基于所述概率值确定所述移动应用是否存在bots安装作弊。
可选的,移动应用bots安装作弊检测装置还包括:
词嵌入模块,用于在从二部图的图数据中提取用于表征局部信息的局部特征之前,对二部图的各节点进行词嵌入,得到各节点的嵌入向量;
邻接矩阵确定模块,用于基于历史数据确定各节点间的邻接矩阵,所述邻接矩阵中位置(i,j)的数值表示安装设备Vi和广告渠道Vj是否存在连接关系。
第三方面,本发明实施例还提供了一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面提供的移动应用bots安装作弊检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面提供的移动应用bots安装作弊检测方法。
本发明实施例提供的移动应用bots安装作弊检测方法,包括:获取移动应用的安装信息,从安装信息中提取用于表征全局信息的全局特征,从二部图的图数据中提取用于表征局部信息的局部特征,二部图用于表示安装设备和广告渠道之间的关联关系,基于全局特征和局部特征确定移动应用是否存在bots安装作弊。通过提取二部图中各节点的局部上下文特征作为局部特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高检测结果的准确率。通过融合局部特征和全局特征,实现不同层次的特征融合,提升每个安装信息的特征表达能力,提高了检测结果的准确率,进而降低广告主的广告成本和损失。
附图说明
图1为本发明实施例一提供的一种移动应用bots安装作弊检测方法的流程图;
图2A为本发明实施例二提供的一种移动应用bots安装作弊检测方法的流程图;
图2B为本发明实施例二提供的一种移动应用bots安装作弊检测模型的结构示意图;
图3为本发明实施例三提供的一种移动应用bots安装作弊检测模型的训练方法的流程图;
图4为本发明实施例四提供的一种移动应用bots安装作弊检测装置的结构示意图;
图5为本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种移动应用bots安装作弊检测方法的流程图,本实施例可适用于通过bots设备实施作弊安装,导致广告主损失严重情况,该方法可以由本发明实施例提供的移动应用bots安装作弊检测装置来执行,该装置可以由软件和/或硬件的方式实现,通常配置于计算机设备中,如图1所示,该方法具体包括如下步骤:
S101、获取移动应用的安装信息。
具体的,移动应用是指为了完成某项或某几项特定任务而被开发运行于操作系统之上的计算机程序。它可以和用户进行交互,具有可视的用户界面。每一个移动应用运行于独立的进程、拥有自己独立的地址空间。在本发明的具体实施例中,移动应用特指移动终端上的应用程序,例如,安卓系统移动终端或IOS系统移动终端上的APP。
在本发明实施例中,从广告主或者第三方服务商回传的日志数据中提取预测当天的日志数据,从当天的日志数据中提取每个安装所关联的渠道相关信息、广告系列相关信息和安装设备的相关信息,以上三个方面的信息构成移动应用的安装信息。
需要说明的是,上述获取安装信息的渠道仅为对本发明实施例的示例性说明,在本发明的其他实施例中,也可以通过其他渠道获取移动应用的安装信息,本发明实施例在此不做限定。
S102、从安装信息中提取用于表征全局信息的全局特征。
具体的,对安装信息进行处理,例如,基于决策树算法对安装信息进行处理,并将处理得到的结果向量化,得到用于表征全局信息的全局特征。需要说明的是,在本发明其他实施例中也可以对安装信息进行其他形式的处理,得到全局特征,本发明实施例在此不做限定。
S103、从二部图的图数据中提取用于表征局部信息的局部特征,二部图用于表示安装设备和广告渠道之间的关联关系。
具体的,二部图又称作二分图,是图论中的一种特殊模型。二部图有两个节点集,且图中每条边连接的两个节点分别位于两个节点集中,每个节点集中没有边直接相连接。在本发明实施例中,二部图的一个节点集中的节点分别表示广告渠道(channel),另一个节点集中的节点表示安装设备,在本发明一具体实施例中,安装设备包括移动终端,例如智能手机或平板电脑。连接两个节点集之间的连线表示一个移动应用安装。二部图的图数据包括二部图中各节点的代表的安装设备和广告渠道的向量表达,以及安装设备和广告渠道之间的移动应用安装。
具体的,可以将二部图的图数据输入图卷积神经网络中进行处理,从中提取用于表征各节点的局部上下文特征作为局部特征。需要说明的是,在本发明的其他实施例中,也可以通过其他方法提取局部特征,例如卷积神经网络,本发明实施例在此不做限定。
局部特征用于表征各节点的局部上下文特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高检测结果的准确率。
S104、基于全局特征和局部特征确定移动应用是否存在bots安装作弊。
具体的,可以对全局特征和局部特征进行拼接融合,然后对拼接融合后的特征进行进一步的处理,例如卷积、池化等操作,将处理后得到结果输入一分类器中,得到该移动应用存在bots安装作弊的概率,并基于该概率确定该移动应用的安装是否存在bots安装作弊。
本发明实施例提供的移动应用bots安装作弊检测方法,包括:获取移动应用的安装信息,从安装信息中提取用于表征全局信息的全局特征,从二部图的图数据中提取用于表征局部信息的局部特征,二部图用于表示安装设备和广告渠道之间的关联关系,基于全局特征和局部特征确定移动应用是否存在bots安装作弊。通过提取二部图中各节点的局部上下文特征作为局部特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高检测结果的准确率。通过融合局部特征和全局特征,实现不同层次的特征融合,提升每个安装信息的特征表达能力,提高了检测结果的准确率,进而降低广告主的广告成本和损失。
实施例二
本发明实施例二提供了一种移动应用bots安装作弊检测方法,图2A为本发明实施例二提供的一种移动应用bots安装作弊检测方法的流程图,本实施例在上述实施例一的基础上进行细化,详细描述了局部特征和全局特征的提取过程,如图2A所示,该方法包括以下步骤:
S201、获取移动应用的安装信息。
具体的,在本发明实施例中,从广告主或者第三方服务商回传的日志数据中提取预测当天的日志数据,从当天的日志数据中提取每个安装所关联的渠道相关信息、广告系列相关信息和安装设备的相关信息,以上三个方面的信息构成移动应用的安装信息。
S202、将安装信息输入预置的决策树模型,得到多个嵌入特征。
具体的,在本发明实施例中,将安装信息分别输入预置的包括多个决策树的决策树模型中进行处理,每个决策树具有不同决策策略,从而得到多个嵌入特征。
图2B为本发明实施例二提供的一种移动应用bots安装作弊检测模型的结构示意图,如图2B所示,示例性的,决策树模型为LightGBM模型,LightGBM模型包括三层节点。由于LightGBM模型是通过全局数据训练优化所得,因此每个LightGBM模型的一个决策树上的每一个叶子节点对应一系列的决策分裂条件,如对于某个特定数据集的第一个决策树的第三个叶子节点对应某手机品牌、某设备安装预言(如英文)、CTIT时间在某个区间等条件,因此通过不同决策树的叶子节点索引表征的聚合作为表征一个移动应用安装的全局上下文特征作为嵌入向量。
LightGBM每次从当前所有叶子节点中,找到分裂增益最大的一个叶子,然后分裂,如此循环,直到模型收敛
S203、计算多个嵌入特征的均值,得到全局特征。
具体的,如图2B所示,在得到多个嵌入向量后,对多个嵌入向量求均值(Averrage),即将各嵌入向量对应元素相加并除以嵌入向量的总数量,得到全局向量(Leafembedding)。
S204、对二部图的各节点进行词嵌入,得到各节点的嵌入向量。
词嵌入(Word Embedding)是一种将文本中的词(word)转换成数字向量(vector)的方法。为了使用标准机器学习算法来对词进行分析,就需要把这些词转换成数字的向量以数字形式作为输入。词嵌入过程就是把一个维数为所有词数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
本发明实施例中,对二部图中各节点表示的安装设备和广告渠道分别进行词嵌入,嵌入维数为N,得到各节点的嵌入向量V={Vi,Vj}。
将嵌入向量作为二部图中各节点的节点表达,即将嵌入向量Vi作为二部图中广告渠道对应的节点的节点表达,将嵌入向量Vj作为二部图中安装设备对应的节点的节点表达。
S205、基于历史数据确定各节点间的邻接矩阵。
具体的,可以通过总结统计现有的历史数据,确定各节点间的邻接矩阵,邻接矩阵即为二部图中安装设备和广告渠道之间的关联关系的矩阵表达方式。示例性的,邻接矩阵中位置(i,j)的数值表示安装设备Vi和广告渠道Vj是否存在连接关系,即安装设备Vi和广告渠道Vj的移动应用安装。
S206、将嵌入向量和邻接矩阵输入图卷积神经网络中进行特征提取,得到局部特征。
具体的,将上述步骤中得到嵌入向量和邻接矩阵输入预置的图卷积神经网络中进行处理,通过图卷积神经网络从二部图的图数据中提取局部特征。其中,图数据包括用于表示安装设备和广告渠道的嵌入向量,以及安装设备和广告渠道之间的邻接矩阵。
示例性的,本发明实施例基于GraphSage算法,并对其进行改进,分别计算图数据中正常安装和bots作弊安装时节点的聚合特征。然后通过线性组合的方式对两类安装的聚合特征进行汇聚,得到局部特征(Node embedding)。
上述实施例中,图卷积神经网络可以包括两个或两个以上的图卷积层。图卷积层的卷积操作的数学表达如下式所示:
Figure BDA0002704783540000121
其中,Hl表示通过第l层图卷积层处理后得到的特征矩阵,Wl为第l层图卷积层的图卷积参数,
Figure BDA0002704783540000122
为相似度矩阵A的正则化矩阵,σ为激活函数,示例性的,在本发明实施例中,选用ReLU函数作为激活函数。ReLU函数的表达式为:
f(x)=max(0,x)
当输入为负数时,则完全不激活,ReLU函数死掉。ReLU函数输出要么是0,要么是正数。ReLU可以克服梯度消失的问题,加快训练速度。需要说明的是,在本发明的其他实施例中,图卷积层中的激活函数也可以是其他激活函数,例如,Sigmoid函数或Tanh函数,本发明实施例在此不做限定。
S207、将全局特征和局部特征融合处理,得到融合特征。
具体的,将上述步骤中得到的全局特征和局部特征通过拼接的方式进行融合,得到融合特征,实现局部上下文特征和全局上下文特征的交互。
S208、将融合特征输入预置的全连接神经网络进行处理,得到全连接特征。
示例性的,在本发明一具体实施例中,全连接神经网络包括两层全连接层分别为第一全连接层和第二全连接层。第一全连接层接收上述步骤中得到的融合特征并进行处理,得到中间特征。第二全连接层接收中间特征并进行处理,得到融合后全连接特征。
S209、将全连接特征输入预置的分类器,得到移动应用存在bots安装作弊的概率值。
具体的,将上述步骤中得到的全连接特征输入至预先训练好的分类器中,示例性的,分类器可以是sigmoid分类器,sigmoid分类器的分类函数是sigmoid函数。在机器学习尤其是深度学习中,sigmoid函数是个非常常用而且比较重要的函数,尤其在二分类的场景中使用广泛。在本发明实施例中,sigmoid函数把输入的全连接特征映射为概率值为0-1之间的实数并输出。
S210、基于概率值确定移动应用是否存在bots安装作弊。
具体的,通过设置适当的阈值t,当sigmoid函数输出的概率值大于或等于阈值t时,则认为该移动应用存在bots安装作弊。当sigmoid函数输出的概率值小于阈值t时,则认为该移动应用不存在bots安装作弊。
本发明实施例提供的移动应用bots安装作弊检测方法,包括:获取移动应用的安装信息,从安装信息中提取用于表征全局信息的全局特征,从二部图的图数据中提取用于表征局部信息的局部特征,二部图用于表示安装设备和广告渠道之间的关联关系,基于全局特征和局部特征确定移动应用是否存在bots安装作弊。通过提取二部图中各节点的局部上下文特征作为局部特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高检测结果的准确率。通过融合局部特征和全局特征,实现不同层次的特征融合,提升每个安装信息的特征表达能力,提高了检测结果的准确率,进而降低广告主的广告成本和损失。
实施例三
本发明实施例三提供了一种移动应用bots安装作弊检测模型训练方法,图3为本发明实施例三提供的一种移动应用bots安装作弊检测模型的训练方法的流程图,如图3所示,该方法包括以下步骤:
S301、采集训练数据。
具体的,在本发明实施例中,从广告主或者第三方服务商回传的日志数据中提取预测当天前7天的日志数据,从前7天的日志数据中提取每个安装所关联的渠道相关信息、广告系列相关信息和安装设备的相关信息,以上三个方面的信息构成移动应用的安装信息。
S302、标记训练数据。
具体的,利用广告主或者第三方反作弊服务提供商的反馈结果对每个移动应用的安装信息进行标记,将正常安装的移动应用的安装信息标记为“正常安装”,将bots作弊安装的移动应用的安装信息标记为“bots作弊安装”,将剩余其他原因的安装数据过滤掉。
S303、对标记的训练数据进行特征工程。
具体的,本发明实施例通过对两类不同的节点进行特征工程,从而进一步丰富每个安装的特征表达能力。
示例性的,对广告渠道+广告系列节点的特征工程如下:
广告渠道+广告系列节点通过前七天的历史数据构建如下统计特征:每个广告渠道+广告系列的天平均CTIT、天平均安装量、天平均安装拒绝率、天最大安装拒绝率、天安装拒绝率中位数、天平均新设备占比、七天内设备品牌分布、七天内设备安装语言分布、七天内设备运营商分布、安装的设备操作系统版本和设备平台的分布等特征用于作为该广告渠道+广告系列的画像信息,另外,每个广告渠道的ID特征通过dense embedding的方式进行特征工程。
对安装设备节点的特征工程如下:
安装设备节点针对具体对应移动应用安装提取以下特征:该设备安装CTIT、该设备的语言、该设备的系统版本和操作系统的组合、该设备安装对应的运营商、该设备安装对应的品牌等,上述特征除CTIT值外,其余离散特征均采用dense embedding的方式提取特征。
S304、确定移动应用bots安装作弊检测模型。
具体的,检测模型参考图2B,移动应用bots安装作弊检测模型包括图卷积神经网络、决策树模型、全连接神经网络和分类器。
S305、以训练数据为样本,训练移动应用bots安装作弊检测模型。
具体的,将训练数据输入移动应用bots安装作弊检测模型中,进行处理得到训练数据对应的移动应用的安装存在bots安装作弊的概率,并根据该概率值计算训练数据的损失值。将损失值与预设的阈值进行比较,在损失值大于阈值时,对移动应用bots安装作弊检测模型中的图卷积神经网络、决策树模型、全连接神经网络和分类器的参数进行更新,并返回执行步骤S301、采集训练数据的步骤;在损失值小于或等于阈值时,确定移动应用bots安装作弊检测模型训练完成。
具体的,在本发明实施例中,通过交叉熵损失计算训练数据的损失值,对模型参数进行更新优化,同时为了解决正负样本不平衡的问题引入Hard Negative Mining的方法,每次只选取一定比例损失最大的负样本进行模型参数的更新,本算法中正负样本比例为1:3。一般训练5-10个epoch以后,模型收敛。
具体的,移动应用bots安装作弊检测模型对训练数据的处理过程包括:通过决策树模型从训练数据中提取用于表征全局信息的全局特征,通过图卷积神经网络从二部图的图数据中提取用于表征局部信息的局部特征,在将全局特征和局部特征融合后,通过全连接神经网络从融合特征中提取全连接特征,并通过分类器将全连接特征映射为概率值为0-1之间的实数并输出。具体的处理过程可以参考前述实施例中对安装信息的处理过程,本发明实施例在此不再赘述。
本发明实施例提供的移动应用bots安装作弊检测模型的训练方法,通过提取二部图中各节点的局部上下文特征作为局部特征,为检测结果增加各节点之间的关联对检测结果的影响,能够提高移动应用bots安装作弊检测模型的检测结果的准确率。
实施例四
本发明实施例四提供了一种移动应用bots安装作弊检测装置,图4为本发明实施例四提供的一种移动应用bots安装作弊检测装置的结构示意图,如图4所示,该移动应用bots安装作弊检测装置包括:
安装信息获取模块401,用于获取移动应用的安装信息;
全局特征提取模块402,用于从所述安装信息中提取用于表征全局信息的全局特征;
局部特征提取模块403,用于从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
作弊确定模块404,用于基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
可选的,所述全局特征提取模块402包括:
嵌入特征提取单元,用于将所述安装信息输入预置的决策树模型,得到多个嵌入特征;
全局特征提取单元,用于计算多个所述嵌入特征的均值,得到全局特征。
可选的,所述决策树模型为LightGBM模型。
可选的,所述图数据包括用于表示安装设备和广告渠道的嵌入向量,以及安装设备和广告渠道之间的邻接矩阵,所述局部特征提取模块403包括:
局部特征提取单元,用于将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行特征提取,得到局部特征。
可选的,所述嵌入向量用于表征所述图数据的节点,两个所述节点间的连线用于表征两个节点间的关联关系,所述局部特征提取单元包括:
聚合特征提取子单元,用于基于GraphSage算法分别计算正常安装和bots作弊安装时所述节点的聚合特征;
局部特征提取子单元,用于通过线性组合的方式对两类安装的聚合特征进行汇聚,得到每个渠道局部特征。
可选的,所述作弊确定模块404包括:
融合单元,用于将所述全局特征和所述局部特征融合处理,得到融合特征;
全连接特征提取单元,用于将所述融合特征输入预置的全连接神经网络进行处理,得到全连接特征;
概率值确定单元,用于将所述全连接特征输入所述预置的分类器,得到所述移动应用存在bots安装作弊的概率值;
作弊确定单元,用于基于所述概率值确定所述移动应用是否存在bots安装作弊。
可选的,移动应用bots安装作弊检测装置还包括:
词嵌入模块,用于在从二部图的图数据中提取用于表征局部信息的局部特征之前,对二部图的各节点进行词嵌入,得到各节点的嵌入向量;
邻接矩阵确定模块,用于基于历史数据确定各节点间的邻接矩阵,所述邻接矩阵中位置(i,j)的数值表示安装设备Vi和广告渠道Vj是否存在连接关系。
上述移动应用bots安装作弊检测装置可执行本发明任意实施例所提供的移动应用bots安装作弊检测方法,具备执行方法相应的功能模块和有益效果。
实施例五
本发明实施例五提供了一种计算机设备,图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器501、存储器502、通信模块503、输入装置504和输出装置505;计算机设备中处理器501的数量可以是一个或多个,图5中以一个处理器501为例;计算机设备中的处理器501、存储器502、通信模块503、输入装置504和输出装置505可以通过总线或其他方式连接,图5中以通过总线连接为例。上述处理器501、存储器502、通信模块503、输入装置504和输出装置505可以集成在计算机设备的控制主板上。
存储器502作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的移动应用bots安装作弊检测方法对应的模块。处理器501通过运行存储在存储器502中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的移动应用bots安装作弊检测方法。
存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的移动应用;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器502可进一步包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块503,用于与外界设备(例如智能终端)建立连接,并实现与外界设备的数据交互。输入装置504可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。
本实施例提供的一种计算机设备,可执行本发明上述任意实施例提供的移动应用bots安装作弊检测方法,具体相应的功能和有益效果。
实施例六
本发明实施例六提供了一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述任意实施例提供的心电数据异常检测方法,该方法包括:
获取移动应用的安装信息;
从所述安装信息中提取用于表征全局信息的全局特征;
从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明实施例所提供的移动应用bots安装作弊检测方法中的相关操作。
需要说明的是,对于装置、设备和存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的移动应用bots安装作弊检测方法。
值得注意的是,上述装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种移动应用bots安装作弊检测方法,其特征在于,包括:
获取移动应用的安装信息;
从所述安装信息中提取用于表征全局信息的全局特征;
从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
2.根据权利要求1所述的移动应用bots安装作弊检测方法,其特征在于,所述从所述安装信息中提取用于表征全局信息的全局特征,包括:
将所述安装信息输入预置的决策树模型,得到多个嵌入特征;
计算多个所述嵌入特征的均值,得到全局特征。
3.根据权利要求2所述的移动应用bots安装作弊检测方法,其特征在于,所述决策树模型为LightGBM模型。
4.根据权利要求1-3任一所述的移动应用bots安装作弊检测方法,其特征在于,所述图数据包括用于表示安装设备和广告渠道的嵌入向量,以及安装设备和广告渠道之间的邻接矩阵,所述从二部图的图数据中提取用于表征局部信息的局部特征,包括:
将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行特征提取,得到局部特征。
5.根据权利要求4所述的移动应用bots安装作弊检测方法,其特征在于,所述嵌入向量用于表征所述图数据的节点,两个所述节点间的连线用于表征两个节点间的关联关系,将所述嵌入向量和所述邻接矩阵输入图卷积神经网络中进行处理,得到局部特征,包括:
基于GraphSage算法分别计算正常安装和bots作弊安装时所述节点的聚合特征;
通过线性组合的方式对两类安装的聚合特征进行汇聚,得到每个渠道的局部特征。
6.根据权利要求1-3任一所述的移动应用bots安装作弊检测方法,其特征在于,所述基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊,包括:
将所述全局特征和所述局部特征融合处理,得到融合特征;
将所述融合特征输入预置的全连接神经网络进行处理,得到全连接特征;
将所述全连接特征输入所述预置的分类器,得到所述移动应用存在bots安装作弊的概率值;
基于所述概率值确定所述移动应用是否存在bots安装作弊。
7.根据权利要求1-3任一所述的移动应用bots安装作弊检测方法,其特征在于,在从二部图的图数据中提取用于表征局部信息的局部特征之前,还包括:
对二部图的各节点进行词嵌入,得到各节点的嵌入向量;
基于历史数据确定各节点间的邻接矩阵,所述邻接矩阵中位置(i,j)的数值表示安装设备Vi和广告渠道Vj是否存在连接关系。
8.一种移动应用bots安装作弊检测装置,其特征在于,包括:
安装信息获取模块,用于获取移动应用的安装信息;
全局特征提取模块,用于从所述安装信息中提取用于表征全局信息的全局特征;
局部特征提取模块,用于从二部图的图数据中提取用于表征局部信息的局部特征,所述二部图用于表示安装设备和广告渠道之间的关联关系;
作弊确定模块,用于基于所述全局特征和所述局部特征确定所述移动应用是否存在bots安装作弊。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的移动应用bots安装作弊检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的移动应用bots安装作弊检测方法。
CN202011034910.3A 2020-09-27 2020-09-27 一种移动应用bots安装作弊检测方法、装置、设备及介质 Active CN112183622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034910.3A CN112183622B (zh) 2020-09-27 2020-09-27 一种移动应用bots安装作弊检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034910.3A CN112183622B (zh) 2020-09-27 2020-09-27 一种移动应用bots安装作弊检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112183622A true CN112183622A (zh) 2021-01-05
CN112183622B CN112183622B (zh) 2024-03-12

Family

ID=73943777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034910.3A Active CN112183622B (zh) 2020-09-27 2020-09-27 一种移动应用bots安装作弊检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112183622B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057929A (zh) * 2023-10-11 2023-11-14 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073366A1 (en) * 2011-09-15 2013-03-21 Stephan HEATH System and method for tracking, utilizing predicting, and implementing online consumer browsing behavior, buying patterns, social networking communications, advertisements and communications, for online coupons, products, goods & services, auctions, and service providers using geospatial mapping technology, and social networking
WO2015061788A1 (en) * 2013-10-25 2015-04-30 Kadenze, Inc. Self organizing maps (soms) for organizing, categorizing, browsing and/or grading large collections of assignments for massive online education systems
US9430646B1 (en) * 2013-03-14 2016-08-30 Fireeye, Inc. Distributed systems and methods for automatically detecting unknown bots and botnets
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置
CN109034906A (zh) * 2018-08-03 2018-12-18 北京木瓜移动科技股份有限公司 广告转化的反作弊方法、装置、电子设备及存储介质
KR101922956B1 (ko) * 2018-08-07 2019-02-27 (주)케이사인 저 차원 수의 엔트로피 카운트 맵 기반 악성코드 탐지 방법
CN111340112A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 分类方法、装置、服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073366A1 (en) * 2011-09-15 2013-03-21 Stephan HEATH System and method for tracking, utilizing predicting, and implementing online consumer browsing behavior, buying patterns, social networking communications, advertisements and communications, for online coupons, products, goods & services, auctions, and service providers using geospatial mapping technology, and social networking
US9430646B1 (en) * 2013-03-14 2016-08-30 Fireeye, Inc. Distributed systems and methods for automatically detecting unknown bots and botnets
WO2015061788A1 (en) * 2013-10-25 2015-04-30 Kadenze, Inc. Self organizing maps (soms) for organizing, categorizing, browsing and/or grading large collections of assignments for massive online education systems
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置
CN109034906A (zh) * 2018-08-03 2018-12-18 北京木瓜移动科技股份有限公司 广告转化的反作弊方法、装置、电子设备及存储介质
KR101922956B1 (ko) * 2018-08-07 2019-02-27 (주)케이사인 저 차원 수의 엔트로피 카운트 맵 기반 악성코드 탐지 방법
CN111340112A (zh) * 2020-02-26 2020-06-26 腾讯科技(深圳)有限公司 分类方法、装置、服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANJUN YAO等: "BotSpot: A Hybrid Learning Framework to Uncover Bot Install Fraud in Mobile Advertising", 《CIKM \'20: PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON INFORMATION & KNOWLEDGE MANAGEMENT》, pages 2901 - 2908 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117057929A (zh) * 2023-10-11 2023-11-14 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质
CN117057929B (zh) * 2023-10-11 2024-01-26 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112183622B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN108737406B (zh) 一种异常流量数据的检测方法及系统
CN107276805B (zh) 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN111368887B (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN110175851B (zh) 一种作弊行为检测方法及装置
CN109753987B (zh) 文件识别方法和特征提取方法
CN109918498B (zh) 一种问题入库方法和装置
CN110443350B (zh) 基于数据分析的模型质量检测方法、装置、终端及介质
CN111062036A (zh) 恶意软件识别模型构建、识别方法及介质和设备
WO2019223104A1 (zh) 确定事件影响因素的方法、装置、终端设备及可读存储介质
CN113438114A (zh) 互联网系统的运行状态监控方法、装置、设备及存储介质
CN115100739B (zh) 人机行为检测方法、系统、终端设备及存储介质
CN110765292A (zh) 图像检索方法、训练方法及相关装置
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN112183622B (zh) 一种移动应用bots安装作弊检测方法、装置、设备及介质
CN112560545A (zh) 一种识别表格方向的方法、装置及电子设备
CN113010785A (zh) 用户推荐方法及设备
CN117150294A (zh) 异常值检测方法、装置、电子设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110929506A (zh) 一种垃圾信息检测方法、装置、设备及可读存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN114978765A (zh) 服务于信息攻击防御的大数据处理方法及ai攻击防御系统
CN112905987B (zh) 账号识别方法、装置、服务器及存储介质
CN114549884A (zh) 一种异常图像检测方法、装置、设备及介质
CN113963011A (zh) 图像识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant