CN110223106B

CN110223106B - 一种基于深度学习的欺诈应用检测方法

Info

Publication number: CN110223106B
Application number: CN201910417277.7A
Authority: CN
Inventors: 胡金龙; 庄懿; 曹丽洁; 黄松; 董守斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2021-09-21
Anticipated expiration: 2039-05-20
Also published as: CN110223106A

Abstract

本发明公开了一种基于深度学习的欺诈应用检测方法，包括步骤：1)获取移动广告数据，进行预处理；2)提取结构数据和样本数据；3)基于结构数据构建图并获取图嵌入特征，基于样本数据构建应用二维数据单元；4)所有应用的数据单元和图嵌入特征纵向拼接构建应用基本属性特征矩阵和图嵌入特征矩阵，构成输入特征；5)定义标签，构成被试数据；6)构建混合卷积神经网络，用于欺诈检测；7)被试数据输入至混合卷积神经网络中训练，得到混合卷积神经网络模型；8)采用混合卷积神经网络模型进行欺诈检测。本发明能够同时考虑应用的结构特征和基本属性特征，有效提高欺诈应用检测的准确率，同时减少移动广告历史数据特征工程的工作量。

Description

一种基于深度学习的欺诈应用检测方法

技术领域

本发明涉及移动互联网广告的技术领域，尤其是指一种基于深度学习的欺诈应用检测方法。

背景技术

移动广告作为一种依托于智能终端的新型营销方式，与传统媒体相比具有精确性、互动性、灵活性以及个性化等特点。然而不断增长的广告欺诈行为给移动广告市场带来严重的威胁，识别出移动应用的欺诈行为非常困难，广告欺诈检测已成为移动互联网广告生态系统中亟待解决的热点问题。

基于图的方法适用于欺诈检测原因在于其对结构化的数据有很好的表示能力，具有强大的鲁棒性，且由于问题域本身的特性，异常的用户之间可能存在联系：投机取巧的欺诈方式可能通过互相传播扩散；有组织的欺诈中成员与成员之间有紧密的联系。图嵌入方法为图中的节点学习一个低维空间中的有效向量表示，从而更好地支持后续图数据分析。

深度学习是一种新型的机器学习方法，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度神经网络(DNN)、卷积神经网络(CNN)和递归神经网络(RNN)等深度学习结构已成功应用于计算机视觉、语音识别、自然语言处理等领域。深度神经网络相比较于浅层神经网络，多出的层次为模型提供了更高的抽象层次，提高了模型的预测能力。

针对复杂多变的移动广告欺诈手段，如何利用深度学习等前沿技术对移动广告欺诈应用做出高效的检测，是亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习的欺诈应用检测方法，能够提高欺诈应用的检测准确性。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的欺诈应用检测方法，包括以下步骤：

1)获取移动广告日志数据，对数据进行预处理；

2)从日志数据中提取出结构数据和样本数据；

3)基于结构数据构建图G，并使用图嵌入的方法获取一个应用的图嵌入特征

其中P是应用总数，d为特征维度，确定口大小ω进而确定时间窗口数量T，将同一个应用T个时间窗口的一行特征，按时间顺序依次排列，组成一个T行特征构成的二维基本数据单元

M为数据单元的列数；

4)将所有应用的T行二维基本数据，依次纵向拼接起来，构成特征矩阵

即应用基本属性特征矩阵，将所有应用的一维图嵌入特征按行拼接得到列数为d的应用图嵌入特征矩阵

X_s和X_e组成模型的输入特征；

5)对训练部分的应用进行人工标注，按照是否为欺诈应用的信息设置每个应用的标签取值；欺诈应用的标签设置为1，非欺诈应用的标签设置为0，得到P_train个训练标签数据

P_train＜P与步骤4)中的对应输入特征向量结合构成被试数据；

6)构建混合卷积神经网络，用于检测欺诈应用；

7)将被试数据输入至混合卷积神经网络中进行模型训练，获得混合卷积神经网络的参数，得到用于欺诈应用检测的混合卷积神经网络模型；

8)将待检测的应用输入特征输入至混合卷积神经网络模型中进行欺诈检测。

在步骤1)中，数据预处理包括数据清洗、缺失值填充和数据归一化处理；移动广告日志数据包括用户、应用、广告的唯一标识和用户特征信息、用户的行为以及对应行为的发生时间。

在步骤2)中，结构数据为日志数据中表示用户、应用和广告之间关联关系的数据，样本数据为每一个应用所对应的日志数据。

在步骤3)中，图嵌入方法为异构图G的网络表示学习方法；一行特征代表应用在给定的时间窗口内的所有日志数据的统计特征，若该时间窗口内没有记录，则该行特征为全0的向量。

在步骤4)中，输入特征的组成不是两种特征的拼接，而是作为检测模型的两部分特征输入。

在步骤5)中，标签与输入特征为一一对应关系，不存在拼接操作。

在步骤6)中，构建的混合卷积神经网络，从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层；所述输入层的输入由两部分组成，分别为应用基本属性特征矩阵X_s和应用图嵌入特征矩阵X_e。

进一步，所述第一卷积层提取应用基本属性特征矩阵X_s的抽象特征表示，激活函数为ReLU，dropout的保留概率取值为p_c，缺省地，p_c的取值为1.0，卷积核为行列数均为h的矩阵

滑动步长为s，使用全0填充padding，使用池化操作和批归一化，池化操作的采样核为行列数均为m的矩阵

步长为k，第一卷积层的输出是行数为P*h₁列数w₁为

所述第二卷积层的输入为第一卷积层的输出，激活函数为ReLU，dropout的保留概率取值为p_c，缺省地，p_c的取值为1.0，卷积核的大小为

滑动步长为s，使用全0填充padding，使用池化操作和批归一化，池化操作的采样核为

步长为k，第二卷积层的输出是行数为P*h₂列数为w₂的矩阵

进一步，所述第一全连接层的输入由两部分组成：将第二卷积层的输出以应用为单位进行压缩，即按行拼接成一行，得到特征矩阵

和应用图嵌入特征矩阵X_e；

所述第一全连接层的输入为两部分特征的拼接，得到特征矩阵

所述第一全连接层为全连接神经网络，节点个数为n₁，缺省地，n₁取值为100，激活函数为ReLU，dropout的保留概率p_f，缺省地，p_f取值为0.9；

所述第二全连接层为全连接神经网络，节点个数为n₂，缺省地，n₂取值为100，激活函数为ReLU，dropout的保留概率p_f，缺省地，p_f取值为0.9；

所述输出层为单节点，激活函数为Sigmoid，dropout层的保留概率设置为p_f，缺省地，p_f取值为0.9。

进一步，所述混合卷积神经网络的模型损失函数采用包含L2正则化的交叉熵损失。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明提高了移动广告欺诈检测的准确性。

2、本发明采用卷积神经网络对应用的行为作出的预测，减少了训练预测模型的特征工程工作量，能够较好地捕捉特征之间的关联关系；同时，考虑了移动广告生态系统中用户、应用和广告的关联关系，合理利用了应用的结构特征。

附图说明

图1为本发明方法的具体流程图。

图2为本发明方法的网络结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于深度学习的欺诈应用检测方法，具体步骤包括：

1)获取移动广告日志数据，对数据进行预处理。其中，数据预处理包括数据清洗和缺失值填充；移动广告日志数据包含四个属性：a、唯一标识属性：用户、应用、广告等的唯一标识符；b、时间属性：用户使用应用操作广告发生的具体时间，精确到秒；c、位置属性：标识用户所处的地理位置，如用户所在国家、城市以及用户使用的IP地址等；d、设备属性：用户所用的设备的型号、显示屏大小、操作系统等。

2)从日志数据中提取出结构数据和样本数据，前者表示移动广告生态系统中，用户、应用和广告之间的关联关系，后者为任一应用对应的日志记录数据；

3)基于结构数据构建图G并使用图嵌入的方法获取一个应用的图嵌入特征

其中P是应用总数,d为特征维度，确定口大小ω进而确定时间窗口数量T，将同一个应用T个时间窗口的一行特征，按时间顺序依次排列，组成一个T行特征构成的二维基本数据单元

M为数据单元的列数。

图G为表示应用结构关系的网络拓扑，图嵌入特征为低维空间中的节点稠密向量表示，获得该向量的方法为异构图图嵌入方法；“一行特征”表示确定时间窗口大小ω进而确定时间窗口数量T后，应用a在时间窗口t的特征向量，用

表示，其中a＝1,2,...,P；t＝1,2,...,T,P为应用总数,M为一行特征的维度，也就是特征矩阵的列数。

在本实施例中，图嵌入得到的节点向量表示为

时间窗口大小为ω为1小时，在包含24小时的日志数据中，时间窗口的个数T＝24，应用a在时间窗口t的特征向量，用

表示，其中a＝1,2,...,P；t＝1,2,...,T,P为应用总数,M为一行特征的维度。P、M的具体取值视实际情况而定。

即应用基本属性特征矩阵，将所有的应用的一维图嵌入特征按行拼接得到应用图嵌入特征矩阵

X_s和X_e组成模型的输入特征。

在本实施例中，将所有应用的24行基本属性矩阵按照纵向拼接，得到基本属性特征矩阵

P_train＜P与步骤4)中的对应输入特征向量结合构成被试数据。

在本实施例中，取应用总数的80％作为训练部分的应用，即0.8*P。

6)构建混合卷积神经网络，用于检测欺诈应用。

构建的混合卷积神经网络，从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层。

如图2所示的模型网络架构，在本实施例中，所构建的神经网络模型从输入到输出的组成部分如下所示：

所述输入层由基本属性特征矩阵X_s和图嵌入特征矩阵X_e两部分组成，其中，X_s为第一卷积层的输入，X_e为第一全连接层的部分输入。

将基本属性特征矩阵输入第一卷积层，卷积核为

滑动步长为1,激活函数为ReLU，dropout的保留概率取值为1.0，使用全0填充padding，并使用最大池化操作和批归一化处理，最大池化操作的采样核为

步长为2，第一卷积层的输出特征矩阵为

将

输入第二卷积层，卷积核为

滑动步长为1,激活函数为ReLU，dropout的保留概率取值为1.0，使用全0填充padding，并使用最大池化操作和批归一化处理，最大池化操作采样核为

步长为2，第二卷积层的输出特征矩阵为

将

压缩为P行的特征矩阵

和图嵌入特征矩阵X_e；将两部分特征的拼接，得到特征矩阵

将X输入到节点个数为100的第一全连接层得到

其中

为权重矩阵，

为偏置项，其中dropout层的保留概率设置为0.9。

将l₁输入到节点个数为100的第二个全连接层得到

其中

为权重矩阵，

为偏置项，其中dropout层的保留概率设置为0.9。

将l₂输入到输出层得到

其中

为权重矩阵，

为偏置项，其中dropout层的保留概率设置为0.9。

损失函数采用好办L2正则化的交叉熵损失，计算公式为：

其中等式右边第二项为正则化项及其系数，θ为模型参数。

7)将被试数据输入至混合卷积神经网络中进行模型训练，获得混合卷积神经网络的参数，得到用于欺诈应用检测的混合卷积神经网络模型。

在本实施例中，将目标应用的图嵌入特征和基本属性特征矩阵输入至模型当中，得到一个0～1的实数py，表示目标应用为欺诈应用的的概率。设置阈值τ＝0.5,若是py＞τ，则目标应用为欺诈应用，否则为正常应用。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的欺诈应用检测方法，其特征在于，包括以下步骤：

1)获取移动广告日志数据，对数据进行预处理；

2)从日志数据中提取出结构数据和样本数据；结构数据为日志数据中表示用户、应用和广告之间关联关系的数据，样本数据为每一个应用所对应的日志数据；

其中P是应用总数，d为特征维度，确定窗口大小ω进而确定时间窗口数量T，将同一个应用T个时间窗口的一行特征，按时间顺序依次排列，组成一个T行特征构成的二维基本数据单元

M为数据单元的列数；图嵌入方法为异构图G的网络表示学习方法；一行特征代表应用在给定的时间窗口内的所有日志数据的统计特征，若该时间窗口内没有记录，则该行特征为全0的向量；

X_s和X_e组成模型的输入特征；输入特征的组成不是两种特征的拼接，而是作为检测模型的两部分特征输入；

P_train＜P与步骤4)中的对应输入特征向量结合构成被试数据；标签与输入特征为一一对应关系，不存在拼接操作；

6)构建混合卷积神经网络，用于检测欺诈应用；

构建的混合卷积神经网络，从输入到输出依次为输入层、第一卷积层、第二卷积层、第一全连接层、第二全连接层以及输出层；所述输入层的输入由两部分组成，分别为应用基本属性特征矩阵X_s和应用图嵌入特征矩阵X_e；

所述第一卷积层提取应用基本属性特征矩阵X_s的抽象特征表示，激活函数为ReLU，dropout的保留概率取值为p_c，缺省地，p_c的取值为1.0，卷积核为行列数均为h的矩阵

步长为k，第一卷积层的输出是行数为P*h₁列数w₁为

步长为k，第二卷积层的输出是行数为P*h₂列数为w₂的矩阵

所述第一全连接层的输入由两部分组成：将第二卷积层的输出以应用为单位进行压缩，即按行拼接成一行，得到特征矩阵

和应用图嵌入特征矩阵X_e；

所述输出层为单节点，激活函数为Sigmoid，dropout层的保留概率设置为p_f，缺省地，p_f取值为0.9；

2.根据权利要求1所述的一种基于深度学习的欺诈应用检测方法，其特征在于：在步骤1)中，数据预处理包括数据清洗、缺失值填充和数据归一化处理；移动广告日志数据包含四个属性：a、唯一标识属性：用户、应用、广告的唯一标识符；b、时间属性：用户使用应用操作广告发生的具体时间，精确到秒；c、位置属性：标识用户所处的地理位置；d、设备属性：用户所用的设备的型号、显示屏大小、操作系统。

3.根据权利要求1所述的一种基于深度学习的欺诈应用检测方法，其特征在于：所述混合卷积神经网络的模型损失函数采用包含L2正则化的交叉熵损失。