CN110223106B - 一种基于深度学习的欺诈应用检测方法 - Google Patents
一种基于深度学习的欺诈应用检测方法 Download PDFInfo
- Publication number
- CN110223106B CN110223106B CN201910417277.7A CN201910417277A CN110223106B CN 110223106 B CN110223106 B CN 110223106B CN 201910417277 A CN201910417277 A CN 201910417277A CN 110223106 B CN110223106 B CN 110223106B
- Authority
- CN
- China
- Prior art keywords
- data
- application
- layer
- neural network
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于深度学习的欺诈应用检测方法,包括步骤:1)获取移动广告数据,进行预处理;2)提取结构数据和样本数据;3)基于结构数据构建图并获取图嵌入特征,基于样本数据构建应用二维数据单元;4)所有应用的数据单元和图嵌入特征纵向拼接构建应用基本属性特征矩阵和图嵌入特征矩阵,构成输入特征;5)定义标签,构成被试数据;6)构建混合卷积神经网络,用于欺诈检测;7)被试数据输入至混合卷积神经网络中训练,得到混合卷积神经网络模型;8)采用混合卷积神经网络模型进行欺诈检测。本发明能够同时考虑应用的结构特征和基本属性特征,有效提高欺诈应用检测的准确率,同时减少移动广告历史数据特征工程的工作量。
Description
技术领域
本发明涉及移动互联网广告的技术领域,尤其是指一种基于深度学习的欺诈应用检测方法。
背景技术
移动广告作为一种依托于智能终端的新型营销方式,与传统媒体相比具有精确性、互动性、灵活性以及个性化等特点。然而不断增长的广告欺诈行为给移动广告市场带来严重的威胁,识别出移动应用的欺诈行为非常困难,广告欺诈检测已成为移动互联网广告生态系统中亟待解决的热点问题。
基于图的方法适用于欺诈检测原因在于其对结构化的数据有很好的表示能力,具有强大的鲁棒性,且由于问题域本身的特性,异常的用户之间可能存在联系:投机取巧的欺诈方式可能通过互相传播扩散;有组织的欺诈中成员与成员之间有紧密的联系。图嵌入方法为图中的节点学习一个低维空间中的有效向量表示,从而更好地支持后续图数据分析。
深度学习是一种新型的机器学习方法,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度神经网络(DNN)、卷积神经网络(CNN)和递归神经网络(RNN)等深度学习结构已成功应用于计算机视觉、语音识别、自然语言处理等领域。深度神经网络相比较于浅层神经网络,多出的层次为模型提供了更高的抽象层次,提高了模型的预测能力。
针对复杂多变的移动广告欺诈手段,如何利用深度学习等前沿技术对移动广告欺诈应用做出高效的检测,是亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的欺诈应用检测方法,能够提高欺诈应用的检测准确性。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的欺诈应用检测方法,包括以下步骤:
1)获取移动广告日志数据,对数据进行预处理;
2)从日志数据中提取出结构数据和样本数据;
3)基于结构数据构建图G,并使用图嵌入的方法获取一个应用的图嵌入特征其中P是应用总数,d为特征维度,确定口大小ω进而确定时间窗口数量T,将同一个应用T个时间窗口的一行特征,按时间顺序依次排列,组成一个T行特征构成的二维基本数据单元M为数据单元的列数;
5)对训练部分的应用进行人工标注,按照是否为欺诈应用的信息设置每个应用的标签取值;欺诈应用的标签设置为1,非欺诈应用的标签设置为0,得到Ptrain个训练标签数据Ptrain<P与步骤4)中的对应输入特征向量结合构成被试数据;
6)构建混合卷积神经网络,用于检测欺诈应用;
7)将被试数据输入至混合卷积神经网络中进行模型训练,获得混合卷积神经网络的参数,得到用于欺诈应用检测的混合卷积神经网络模型;
8)将待检测的应用输入特征输入至混合卷积神经网络模型中进行欺诈检测。
在步骤1)中,数据预处理包括数据清洗、缺失值填充和数据归一化处理;移动广告日志数据包括用户、应用、广告的唯一标识和用户特征信息、用户的行为以及对应行为的发生时间。
在步骤2)中,结构数据为日志数据中表示用户、应用和广告之间关联关系的数据,样本数据为每一个应用所对应的日志数据。
在步骤3)中,图嵌入方法为异构图G的网络表示学习方法;一行特征代表应用在给定的时间窗口内的所有日志数据的统计特征,若该时间窗口内没有记录,则该行特征为全0的向量。
在步骤4)中,输入特征的组成不是两种特征的拼接,而是作为检测模型的两部分特征输入。
在步骤5)中,标签与输入特征为一一对应关系,不存在拼接操作。
在步骤6)中,构建的混合卷积神经网络,从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层;所述输入层的输入由两部分组成,分别为应用基本属性特征矩阵Xs和应用图嵌入特征矩阵Xe。
进一步,所述第一卷积层提取应用基本属性特征矩阵Xs的抽象特征表示,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核为行列数均为h的矩阵滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为行列数均为m的矩阵步长为k,第一卷积层的输出是行数为P*h1列数w1为
所述第二卷积层的输入为第一卷积层的输出,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核的大小为滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为步长为k,第二卷积层的输出是行数为P*h2列数为w2的矩阵
所述第一全连接层为全连接神经网络,节点个数为n1,缺省地,n1取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述第二全连接层为全连接神经网络,节点个数为n2,缺省地,n2取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述输出层为单节点,激活函数为Sigmoid,dropout层的保留概率设置为pf,缺省地,pf取值为0.9。
进一步,所述混合卷积神经网络的模型损失函数采用包含L2正则化的交叉熵损失。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提高了移动广告欺诈检测的准确性。
2、本发明采用卷积神经网络对应用的行为作出的预测,减少了训练预测模型的特征工程工作量,能够较好地捕捉特征之间的关联关系;同时,考虑了移动广告生态系统中用户、应用和广告的关联关系,合理利用了应用的结构特征。
附图说明
图1为本发明方法的具体流程图。
图2为本发明方法的网络结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于深度学习的欺诈应用检测方法,具体步骤包括:
1)获取移动广告日志数据,对数据进行预处理。其中,数据预处理包括数据清洗和缺失值填充;移动广告日志数据包含四个属性:a、唯一标识属性:用户、应用、广告等的唯一标识符;b、时间属性:用户使用应用操作广告发生的具体时间,精确到秒;c、位置属性:标识用户所处的地理位置,如用户所在国家、城市以及用户使用的IP地址等;d、设备属性:用户所用的设备的型号、显示屏大小、操作系统等。
2)从日志数据中提取出结构数据和样本数据,前者表示移动广告生态系统中,用户、应用和广告之间的关联关系,后者为任一应用对应的日志记录数据;
3)基于结构数据构建图G并使用图嵌入的方法获取一个应用的图嵌入特征其中P是应用总数,d为特征维度,确定口大小ω进而确定时间窗口数量T,将同一个应用T个时间窗口的一行特征,按时间顺序依次排列,组成一个T行特征构成的二维基本数据单元M为数据单元的列数。
图G为表示应用结构关系的网络拓扑,图嵌入特征为低维空间中的节点稠密向量表示,获得该向量的方法为异构图图嵌入方法;“一行特征”表示确定时间窗口大小ω进而确定时间窗口数量T后,应用a在时间窗口t的特征向量,用表示,其中a=1,2,...,P;t=1,2,...,T,P为应用总数,M为一行特征的维度,也就是特征矩阵的列数。
在本实施例中,图嵌入得到的节点向量表示为时间窗口大小为ω为1小时,在包含24小时的日志数据中,时间窗口的个数T=24,应用a在时间窗口t的特征向量,用表示,其中a=1,2,...,P;t=1,2,...,T,P为应用总数,M为一行特征的维度。P、M的具体取值视实际情况而定。
5)对训练部分的应用进行人工标注,按照是否为欺诈应用的信息设置每个应用的标签取值;欺诈应用的标签设置为1,非欺诈应用的标签设置为0,得到Ptrain个训练标签数据Ptrain<P与步骤4)中的对应输入特征向量结合构成被试数据。
在本实施例中,取应用总数的80%作为训练部分的应用,即0.8*P。
6)构建混合卷积神经网络,用于检测欺诈应用。
构建的混合卷积神经网络,从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层。
如图2所示的模型网络架构,在本实施例中,所构建的神经网络模型从输入到输出的组成部分如下所示:
所述输入层由基本属性特征矩阵Xs和图嵌入特征矩阵Xe两部分组成,其中,Xs为第一卷积层的输入,Xe为第一全连接层的部分输入。
将基本属性特征矩阵输入第一卷积层,卷积核为滑动步长为1,激活函数为ReLU,dropout的保留概率取值为1.0,使用全0填充padding,并使用最大池化操作和批归一化处理,最大池化操作的采样核为步长为2,第一卷积层的输出特征矩阵为
将输入第二卷积层,卷积核为滑动步长为1,激活函数为ReLU,dropout的保留概率取值为1.0,使用全0填充padding,并使用最大池化操作和批归一化处理,最大池化操作采样核为步长为2,第二卷积层的输出特征矩阵为
7)将被试数据输入至混合卷积神经网络中进行模型训练,获得混合卷积神经网络的参数,得到用于欺诈应用检测的混合卷积神经网络模型。
8)将待检测的应用输入特征输入至混合卷积神经网络模型中进行欺诈检测。
在本实施例中,将目标应用的图嵌入特征和基本属性特征矩阵输入至模型当中,得到一个0~1的实数py,表示目标应用为欺诈应用的的概率。设置阈值τ=0.5,若是py>τ,则目标应用为欺诈应用,否则为正常应用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (3)
1.一种基于深度学习的欺诈应用检测方法,其特征在于,包括以下步骤:
1)获取移动广告日志数据,对数据进行预处理;
2)从日志数据中提取出结构数据和样本数据;结构数据为日志数据中表示用户、应用和广告之间关联关系的数据,样本数据为每一个应用所对应的日志数据;
3)基于结构数据构建图G,并使用图嵌入的方法获取一个应用的图嵌入特征其中P是应用总数,d为特征维度,确定窗口大小ω进而确定时间窗口数量T,将同一个应用T个时间窗口的一行特征,按时间顺序依次排列,组成一个T行特征构成的二维基本数据单元M为数据单元的列数;图嵌入方法为异构图G的网络表示学习方法;一行特征代表应用在给定的时间窗口内的所有日志数据的统计特征,若该时间窗口内没有记录,则该行特征为全0的向量;
4)将所有应用的T行二维基本数据,依次纵向拼接起来,构成特征矩阵即应用基本属性特征矩阵,将所有应用的一维图嵌入特征按行拼接得到列数为d的应用图嵌入特征矩阵Xs和Xe组成模型的输入特征;输入特征的组成不是两种特征的拼接,而是作为检测模型的两部分特征输入;
5)对训练部分的应用进行人工标注,按照是否为欺诈应用的信息设置每个应用的标签取值;欺诈应用的标签设置为1,非欺诈应用的标签设置为0,得到Ptrain个训练标签数据Ptrain<P与步骤4)中的对应输入特征向量结合构成被试数据;标签与输入特征为一一对应关系,不存在拼接操作;
6)构建混合卷积神经网络,用于检测欺诈应用;
构建的混合卷积神经网络,从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层;所述输入层的输入由两部分组成,分别为应用基本属性特征矩阵Xs和应用图嵌入特征矩阵Xe;
所述第一卷积层提取应用基本属性特征矩阵Xs的抽象特征表示,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核为行列数均为h的矩阵滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为行列数均为m的矩阵步长为k,第一卷积层的输出是行数为P*h1列数w1为
所述第二卷积层的输入为第一卷积层的输出,激活函数为ReLU,dropout的保留概率取值为pc,缺省地,pc的取值为1.0,卷积核的大小为滑动步长为s,使用全0填充padding,使用池化操作和批归一化,池化操作的采样核为步长为k,第二卷积层的输出是行数为P*h2列数为w2的矩阵
所述第一全连接层为全连接神经网络,节点个数为n1,缺省地,n1取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述第二全连接层为全连接神经网络,节点个数为n2,缺省地,n2取值为100,激活函数为ReLU,dropout的保留概率pf,缺省地,pf取值为0.9;
所述输出层为单节点,激活函数为Sigmoid,dropout层的保留概率设置为pf,缺省地,pf取值为0.9;
7)将被试数据输入至混合卷积神经网络中进行模型训练,获得混合卷积神经网络的参数,得到用于欺诈应用检测的混合卷积神经网络模型;
8)将待检测的应用输入特征输入至混合卷积神经网络模型中进行欺诈检测。
2.根据权利要求1所述的一种基于深度学习的欺诈应用检测方法,其特征在于:在步骤1)中,数据预处理包括数据清洗、缺失值填充和数据归一化处理;移动广告日志数据包含四个属性:a、唯一标识属性:用户、应用、广告的唯一标识符;b、时间属性:用户使用应用操作广告发生的具体时间,精确到秒;c、位置属性:标识用户所处的地理位置;d、设备属性:用户所用的设备的型号、显示屏大小、操作系统。
3.根据权利要求1所述的一种基于深度学习的欺诈应用检测方法,其特征在于:所述混合卷积神经网络的模型损失函数采用包含L2正则化的交叉熵损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910417277.7A CN110223106B (zh) | 2019-05-20 | 2019-05-20 | 一种基于深度学习的欺诈应用检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910417277.7A CN110223106B (zh) | 2019-05-20 | 2019-05-20 | 一种基于深度学习的欺诈应用检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223106A CN110223106A (zh) | 2019-09-10 |
CN110223106B true CN110223106B (zh) | 2021-09-21 |
Family
ID=67821368
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910417277.7A Active CN110223106B (zh) | 2019-05-20 | 2019-05-20 | 一种基于深度学习的欺诈应用检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110223106B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796269B (zh) * | 2019-09-30 | 2023-04-18 | 北京明略软件系统有限公司 | 一种生成模型的方法、装置、信息处理的方法及装置 |
CN110958220B (zh) * | 2019-10-24 | 2020-12-29 | 中国科学院信息工程研究所 | 一种基于异构图嵌入的网络空间安全威胁检测方法及系统 |
CN112988501B (zh) * | 2019-12-17 | 2023-02-03 | 深信服科技股份有限公司 | 一种告警信息生成方法、装置、电子设备及存储介质 |
CN111245820A (zh) * | 2020-01-08 | 2020-06-05 | 北京工业大学 | 基于深度学习的钓鱼网站检测方法 |
CN112153221B (zh) * | 2020-09-16 | 2021-06-29 | 北京邮电大学 | 一种基于社交网络图计算的通信行为识别方法 |
CN112396161B (zh) * | 2020-11-11 | 2022-09-06 | 中国科学技术大学 | 基于卷积神经网络的岩性剖面图构建方法、系统及设备 |
CN112395466B (zh) * | 2020-11-27 | 2023-05-12 | 上海交通大学 | 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法 |
CN112883378B (zh) * | 2021-03-30 | 2023-02-10 | 北京理工大学 | 图嵌入与深度神经网络相融合的安卓恶意软件检测方法 |
CN113553446B (zh) * | 2021-07-28 | 2022-05-24 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170087703A (ko) * | 2016-01-21 | 2017-07-31 | (주)오토팩토리 | 차량운행데이터의 제공시스템, 제공방법 및 제공프로그램 |
CN108960304A (zh) * | 2018-06-20 | 2018-12-07 | 东华大学 | 一种网络交易欺诈行为的深度学习检测方法 |
CN109272332A (zh) * | 2018-08-02 | 2019-01-25 | 华南理工大学 | 一种基于递归神经网络的客户流失预测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2893984A1 (en) * | 2014-06-05 | 2015-12-05 | Riavera Corp. | Social network messaging with integrated advertising |
CN107886344A (zh) * | 2016-09-30 | 2018-04-06 | 北京金山安全软件有限公司 | 基于卷积神经网络的欺诈广告页面识别方法和装置 |
US10931623B2 (en) * | 2017-01-30 | 2021-02-23 | Hubspot, Inc. | Introducing a new message source into an electronic message delivery environment |
CN107784322B (zh) * | 2017-09-30 | 2021-06-25 | 东软集团股份有限公司 | 异常数据检测方法、装置、存储介质以及程序产品 |
US10796316B2 (en) * | 2017-10-12 | 2020-10-06 | Oath Inc. | Method and system for identifying fraudulent publisher networks |
US20190122258A1 (en) * | 2017-10-23 | 2019-04-25 | Adbank Inc. | Detection system for identifying abuse and fraud using artificial intelligence across a peer-to-peer distributed content or payment networks |
-
2019
- 2019-05-20 CN CN201910417277.7A patent/CN110223106B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170087703A (ko) * | 2016-01-21 | 2017-07-31 | (주)오토팩토리 | 차량운행데이터의 제공시스템, 제공방법 및 제공프로그램 |
CN108960304A (zh) * | 2018-06-20 | 2018-12-07 | 东华大学 | 一种网络交易欺诈行为的深度学习检测方法 |
CN109272332A (zh) * | 2018-08-02 | 2019-01-25 | 华南理工大学 | 一种基于递归神经网络的客户流失预测方法 |
Non-Patent Citations (1)
Title |
---|
"如何用深度学习识别网络欺诈";吴文煜;《计算机与网络》;20161231(第13期);56-57 * |
Also Published As
Publication number | Publication date |
---|---|
CN110223106A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223106B (zh) | 一种基于深度学习的欺诈应用检测方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
Noroozi et al. | Representation learning by learning to count | |
CN110580500B (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
CN107330731B (zh) | 一种识别广告位点击异常的方法和装置 | |
CN111126674B (zh) | 基于深度模型的传播预测方法及其系统 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN111178120B (zh) | 一种基于作物识别级联技术的害虫图像检测方法 | |
CN109857871B (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN109919032A (zh) | 一种基于动作预测的视频异常行为检测方法 | |
CN112308087B (zh) | 基于动态视觉传感器的一体化成像识别方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN110263808B (zh) | 一种基于lstm网络和注意力机制的图像情感分类方法 | |
CN111079930A (zh) | 数据集质量参数的确定方法、装置及电子设备 | |
CN111310516B (zh) | 一种行为识别方法和装置 | |
CN114584406A (zh) | 一种联邦学习的工业大数据隐私保护系统及方法 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN114332075A (zh) | 基于轻量化深度学习模型的结构缺陷快速识别与分类方法 | |
CN112633100B (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN111539390A (zh) | 一种基于Yolov3的小目标图像识别方法、设备和系统 | |
Wu et al. | Channel‐wise attention model‐based fire and rating level detection in video | |
CN116958809A (zh) | 一种特征库迁移的遥感小样本目标检测方法 | |
CN111723742A (zh) | 一种人群密度分析方法、系统、装置及计算机可读存储介质 | |
CN116502700A (zh) | 皮肤检测模型训练方法、皮肤检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |