CN114519605A

CN114519605A - 广告点击欺诈检测方法、系统、服务器和存储介质

Info

Publication number: CN114519605A
Application number: CN202210107367.8A
Authority: CN
Inventors: 刘洋; 刘洋麟; 王轩; 蒋琳; 廖清; 漆舒汉; 夏文
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-20

Abstract

本发明公开了一种广告点击欺诈检测方法、系统、服务器和存储介质，所述方法应用于服务器端，包括广告请求阶段和广告点击阶段，在广告请求阶段采用主动检测；在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。本发明通过采用基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法，在检测准确率小幅度降低的情况下，采样时间减少了56％；通过采用基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法，检测结果的准确率为96.82％。

Description

广告点击欺诈检测方法、系统、服务器和存储介质

技术领域

本发明涉及目标检测技术领域，具体涉及一种广告点击欺诈检测方法、系统、服务器和存储介质。

背景技术

规则检测是检测无效流量常用的方法之一。规则是大量if-else条件的集合，通过一个或多个判断条件从流量中筛选出无效流量。规则检测简单迅速，易于部署与扩展，在广告点击欺诈检测场景中，同样可以使用规则进行检测。通常来说，部分广告欺诈点击间存在着一些较为明显的模式，研究人员通过分析现有的攻击手段，从这些广告欺诈点击数据中提取出对应的攻击模式，从而根据这些攻击模式制定对应的检测方法。但是规则检测依赖于研究人员分析攻击手段与提取对应检测规则的能力，并且当攻击者使用更为复杂的攻击手段时，规则检测是容易被绕过的。此外，攻击者也可以通过不断尝试，从而推测规则的设置与对应阈值的设置，从而绕过规则检测。

广告点击欺诈检测是一个二分类问题，即区分欺诈点击与正常点击。因此可以考虑引入机器学习算法，利用模型学习攻击者的攻击模式，从而完成广告点击欺诈检测。在机器学习中，单一的分类模型通常存在数据偏好、学习不充分以及过拟合等问题，这种单一模型又被称为弱学习器。集成学习针对弱学习器的不足，将多个弱学习器组合在一起，让弱学习器间互相取长补短，从而获得一个鲁棒性更高、分类效果更好的强学习器。将集成学习直接运用于广告点击欺诈检测并没有考虑到点击欺诈场景的特点，没有考虑到用户点击序列、欺诈群体等信息与分类结果间的联系。此外，即使将这类信息用于集成学习模型训练中，集成学习因本身特点所限，并不能较好地利用这部分信息。

发明内容

为了解决上述现有技术的不足，本发明提供了一种广告点击欺诈检测方法、系统、服务器和存储介质，该方法将点击欺诈检测分为主动检测与被动检测，被动检测包括在线检测与离线检测，在线检测采用规则检测对广告点击数据进行快速过滤，得到样本数据；若样本数据充足，则采用离线检测中的基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对样本数据进行检测，提高了广告点击欺诈检测方法的准确率；否则采用离线检测中的基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对样本数据进行检测，解决了广告点击数据集不平衡以及常用过采样算法在大数据集上速度过慢的问题。

本发明的第一个目的在于提供一种广告点击欺诈检测方法。

本发明的第二个目的在于提供一种广告点击欺诈检测系统。

本发明的第三个目的在于提供一种服务器。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种广告点击欺诈检测方法，应用于服务器端，所述方法包括：

所述方法包括广告请求阶段和广告点击阶段，在广告请求阶段采用主动检测；在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

进一步的，所述被动检测还包括在线检测，对广告点击数据进行在线检测，得到数据集。

进一步的，所述对广告点击数据进行在线检测，得到数据集，具体包括：

采用规则检测对用户的广告点击数据进行在线的快速筛选，将与条件相符的广告点击数据标记为欺诈流量，未被标记的广告点击数据则为正常流量，作为样本数据；

所有的样本数据构成数据集。

进一步的，所述通过离线检测，完成对广告点击数据的分类，具体包括：

若所述数据集中样本数据的个数小于设定阈值，则选择基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类；

否则，选择基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类；

分类的结果为正常广告点击或欺诈广告点击。

进一步的，所述基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类，具体包括：

对所述数据集进行预处理，得到预处理后数据集；

利用局部敏感哈希合成过采样算法对预处理后数据集进行处理，得到样本平衡的数据集；

利用样本平衡的数据集训练集成学习中LightGBM模型，得到训练好的LightGBM模型；其中，所述LightGBM模型采用单边梯度采样算法对训练样本进行采样优化；同时采用互斥特征绑定进行特征抽取，从而优化模型的训练速度；

将待测的广告点击数据输入所述训练好的LightGBM模型，得到检测结果。

进一步的，所述利用局部敏感哈希合成过采样算法对预处理后数据集进行处理，得到样本平衡的数据集，具体包括：

根据所述预处理后数据集中样本数据，计算每个样本的哈希值；

根据所述预处理后数据集中每个样本的哈希值，查找样本的近似最近邻；

通过在每个样本与其近似最近邻之间进行插值，合成新样本；

将所述新样本加入所述预处理后数据集中，得到样本平衡的数据集；

其中，根据所述预处理后数据集中样本数据，计算每个样本的哈希值，具体包括：

通过高斯分布多次生成随机数与向量，得到对应的多个哈希函数；对每个样本进行多个哈希函数计算，将得到的哈希值进行随机加权后取模，得到每个样本最终的哈希值。

进一步的，所述基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类，具体包括：

对所述数据集进行预处理，得到预处理后数据集；

利用用户的媒体广告点击序列构建媒体关系图，通过随机游走与图嵌入算法得到图嵌入向量；

利用所述预处理后数据集和所述图嵌入向量训练Wide&Deep模型，得到训练好的Wide&Deep模型；其中，Wide&Deep模型中的Wide部分采用逻辑回归模型，将所述预处理后数据集中的样本数据输入Wide部分，通过拟合函数完成模型训练；Wide&Deep模型中的Deep部分采用全连接网络结构对图嵌入向量进行非线性变换；Wide部分与Deep部分通过Sigmoid函数结合，得到Wide&Deep模型的输出；

将待测的广告点击数据输入所述训练好的Wide&Deep模型，得到检测结果。

进一步的，所述利用用户的媒体广告点击序列构建媒体关系图，通过随机游走与图嵌入算法得到图嵌入向量，具体包括：

假定媒体关系图为G＝(V,E)，每个节点游走n次，每次游走长度为l，嵌入向量的维度为N，N＜＜|V|；其中，V为关系图G的节点集，E为关系图G的边集；

遍历节点集V，对每个节点进行随机游走，得到随机游走序列S；

将S输入Skip-gram模型，得到节点的嵌入向量

所有节点的嵌入向量构成图嵌入向量；其中，采用余弦相似度衡量图嵌入向量的相似度，并结合媒体相似度，得到新损失函数项，将所述新损失函数项加入Skip-gram模型的损失函数中。

进一步的，所述对所述数据集进行预处理，得到预处理后数据集，具体包括：

对所述数据集中的样本数据进行清洗，得到清洗后数据集；

对所述清洗后数据集进行特征工程，得到预处理后数据集，具体包括：

根据所述清洗后数据集中样本数据，将同一用户前后两次广告点击的时间差作为新特征，加入所述清洗后数据集；

统计所述清洗后数据集中特征的数量，将其作为新特征，加入所述清洗后数据集；

对所述清洗后数据集中特征的值，根据方差构建新特征，将其加入所述清洗后数据集；

根所述据清洗后数据集，将信息熵作为新特征，加入所述清洗后数据集。

本发明的第二个目的可以通过采取如下技术方案达到：

一种广告点击欺诈检测系统，应用于服务器端，所述系统包括检测模块，检测模块包括主动检测模块和被动检测获取模块，其中：

主动检测模块，用于在广告请求阶段采用主动检测；

被动检测获取模块，用于在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

本发明的第三个目的可以通过采取如下技术方案达到：

一种服务器，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的广告点击欺诈检测方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的广告点击欺诈检测方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过主动检测与被动检测相结合，以一种多阶段的形式完成点击欺诈检测。被动检测可以检测出已有的攻击形式，而主动检测可以检测新型攻击形式。

2、被动检测包括离线检测，若样本量不充足，则采用基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法，通过利用局部敏感哈希合成过采样算法对样本数据进行处理，解决了点击数据集不平衡以及常用过采样算法在大数据集上速度过慢的问题，实验结果显示，与传统的合成过采样算法相比，合成采样时间更短，并且可以有效缓解数据不平衡问题。LightGBM模型采用单边梯度采样算法和互斥特征绑定进行特征抽取，极大优化了LightGBM模型的训练速度。通过使用本方法，在检测准确率小幅度降低的情况下，采样时间减少了56％。

3、若样本量充足，则采用基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法，利用用户的媒体广告点击序列构建媒体图，并采用随机游走与嵌入算法获取图嵌入向量，从而更好地表示媒体之间的关系，辅助模型更好地检测欺诈点击；Wide&Deep模型中的Wide部分采用逻辑回归模型，将样本数据输入Wide部分，通过拟合函数完成模型训练；Wide&Deep模型中的Deep部分采用全连接网络结构对图嵌入向量进行非线性变换；Wide部分与Deep部分通过Sigmoid函数结合，得到Wide&Deep模型的输出。实验结果表明，通过采用本方法后，检测结果的准确率为96.82％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的广告点击欺诈检测方法的原理图。

图2为本发明实施例1的广告点击欺诈检测方法的流程图。

图3为本发明实施例1的被动检测的流程图。

图4为本发明实施例1的基于局部敏感哈希的合成过采样算法与集成学习的广告点击欺诈检测方法的流程图。

图5为本发明实施例1的基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法的流程图。

图6为本发明实施例1的Wide&Deep模型的示意图。

图7为本发明实施例2的广告点击欺诈检测系统的结构图。

图8为本发明实施例3的服务器的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。应当理解，描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例1：

本实施例提供的广告点击欺诈检测方法，应用于服务器端，该方法的核心思想是利用主动检测与被动检测对在线广告点击欺诈问题进行多阶段的检测，所述多阶段是指将一次广告点击行为分为两个阶段：广告请求与广告点击，然后针对这两阶段分别提供对应的检测策略。在广告请求阶段，用户被分为正常用户、欺诈用户与疑似欺诈用户，对于不同类型的用户有着不同的响应策略；广告点击阶段的欺诈检测包括在线检测与离线检测：在线检测通过规则检测对模式单一的欺诈行为进行快速筛选；离线检测使用机器学习模型对广告点击数据进行检测分类，即检测出广告点击为欺诈广告点击还是正常广告点击，主要采用集成学习与神经网络实现离线检测。

如图1和图2所示，本实施例提供的广告点击欺诈检测方法，包括以下步骤：

S2、判断广告点击为广告请求还是广告点击：

S21、若为广告请求，则在广告请求阶段，采用主动检测。

主动检测基于蜜罐思想，利用用户画像生成蜜罐广告，根据用户广告点击情况判断是否为欺诈广告点击。

根据已有用户信息，将用户分为正常用户、欺诈用户、疑似欺诈用户。对于正常用户，正常返回广告；对于欺诈用户，不返回广告；对于疑似欺诈用户，主动检测模块根据用户画像生成并返回蜜罐广告。

S22、若为广告点击，在广告点击阶段，采用被动检测。

被动检测包括在线检测与离线检测。首先通过在线检测，采用规则检测对用户的广告点击数据进行在线的快速筛选，过滤掉符合规则定义的无效广告点击流量，获得检测样本；根据检测样本，再通过离线检测，完成对广告点击数据的分类。

进一步的，如图3所示，步骤S22包括：

S221、对广告点击数据进行在线检测，得到数据集。

在线检测利用规则检测对广告点击数据进行检测，规则检测通常是一组条件判断语句的集合，例如短时间内的多次广告点击为无效广告点击、短时间内地理位置IP变化过大为无效广告点击等。通过利用规则检测，将与条件相符的广告点击数据标记为欺诈流量，未被标记的广告点击数据则为正常流量(即为监测样本)，作为样本数据，数据集包括所有的样本数据。

将广告点击数据与在线检测的结果存储至数据库中，完成广告点击欺诈的初步检测。

其中，广告点击数据通常包含广告点击的时间、点击设备的IP地址、媒体的ID以及设备型号等信息。

S222、对数据集中样本数据进行离线检测，得到检测结果。

离线检测采用基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法和基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测算法对数据集中的样本数据进行检测。

若样本数据的个数小于设定阈值，则选择基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测算法对样本数据进行分类；否则，选择基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对样本数据进行分类，分类的结果为正常广告点击或欺诈广告点击。

本实施例中设定阈值为500万。

进一步的，步骤S222包括：

S2221、基于局部敏感哈希的合成过采样算法与集成学习的广告点击欺诈检测方法。

进一步的，如图4所示，步骤S2221具体包括：

S22211、对数据集进行预处理，得到预处理后数据集。

预处理主要包括对数据集中的样本数据进行清洗，对清洗后的数据进行特征工程。

(1)对数据集中的样本数据进行清洗，得到清洗后数据集。

对数据进行清洗，从而改善数据质量，使研究人员更容易进行数据探索。首先，转换样本数据中部分字段的类型，例如将float64转为float32，减小数据大小从而节省内存。考虑到模型要求变量采用数值格式，将样本数据中的分类变量转换为数值变量。样本数据中存在少量的缺失值，由于所占比率较小因此可以直接删去，避免对模型训练产生影响。此外，样本数据中时间字段是采用字符串表示的，因此需要转换时间戳，将字符串转化为日期时间格式。

(2)对清洗后数据集进行特征工程，得到预处理后数据集。

数据清洗后进行特征工程，从已有特征中提取或组成新的特征。特征的选取与设计是点击欺诈检测中较为重要的环节，特征工程的质量最终会影响模型检测的准确率。样本数据中包括点击的时间、点击设备的IP地址、媒体的ID以及设备型号等，以此为基础进行特征工程。其中，同一用户，点击设备的IP地址相同。

点击欺诈场景中的特征工程过程实际上就是以原始数据集为基础，将每个媒体上的广告点击行为与模式进行数值上的量化，合适的特征构造可以表示和区分点击行为的模式与趋势。常用的方法是利用最大值、平均值等基本统计信息与数据的方差进行特征提取，但是随着攻击者不断改变攻击方式，这种方式无法全面的体现攻击者的攻击模式。此外，针对时间相关特征的提取中，选取的时间窗口比较单一，覆盖的点击量较少，而攻击者的相邻攻击间可能存在较长的、不一致的时间间隔。因此，本实施例首先对统计特征的提取进行优化与补充，在时间特征的提取时，利用多个不同跨度的时间窗口对特征进行划分。特征工程包括：

(2-1)根据清洗后数据集中的样本数据，将同一用户前后两次广告点击的时间差作为新特征，加入清洗后数据集。

点击频率与时间之间是存在某种模式的，在不同时间段的点击频率是不同的。基于点击频率与时间之间的关系，通过计算点击之间的时间差作为新特征。

(2-2)统计清洗后数据集中特征的数量，将其作为新特征，加入清洗后数据集。

针对某一特征值，统计该特征值在数据集中出现的次数。在点击欺诈场景中，如果一些特征的某些值出现的频率过高，则欺诈概率也更大，例如出现次数过多的IP地址。但是，如果某些字段的值出现频率过少，也可能存在着点击欺诈行为。例如，某些操作系统版本出现次数过少，则可能意味着攻击者通过刷机或者更改硬件信息等手段实施点击欺诈。考虑到同一攻击者发起的欺诈攻击之间可能存在着某种内在联系，本实施例先将数据分组，再进行数量统计。基于分组的数量统计特征分为两种，一种是进行分组后统计分组后的条目数，一种是分组后对获取某一特征的取值和不同取值出现的频率。

(2-3)对清洗后数据集中特征的值，根据方差构建新特征，将其加入清洗后数据集。

方差通常用于衡量数据集的离散程度，其值越大说明样本越分散。本实施例中通过选取一些有代表性的特征，计算其方差作为新特征。例如，通过计算日期的方差，可以得到用户点击的分散程度。本实施例对清洗后的数据都可以使用方差构建新特征。

(2-4)根据清洗后数据集，将信息熵作为新特征，加入清洗后数据集。

信息熵可以用于衡量一组数据的复杂度，如果数据的信息熵较大，那么就说明数据中涉及到的不同情况越多，信息较杂，特征的不确定性越大。例如，攻击者通过不断改变设备IP进行点击欺诈，而这会导致与媒体相关的不同IP地址数量增多，增加了IP的不确定性，从而增大了信息熵的取值。因此可以利用信息熵区分正常点击与欺诈点击。

在完成特征工程后，采用集成学习中的LightGBM模型对数据集进行分类，实验显示最终的准确率为0.9612。

S22212、利用局部敏感哈希合成过采样算法对预处理后数据集进行处理，得到样本平衡的数据集。

(1)针对预处理后数据集中每个样本点，计算该样本点的哈希值。

哈希函数定义如下所示：

式中r——直线上分段的段长；

b——(0，r)中的随机数；

a——d维的输入数据点；

v——从p-稳定分布中抽取d个随机变量组成的d维向量。

利用高斯分布生成随机数r与d维向量v，通过高斯分布多次生成随机数r与向量v，从而得到多个哈希函数。

选取多个哈希函数进行哈希值的计算，将这些哈希值进行随机加权结合后取模，得到最终的哈希值。哈希值相同的样本点互为近似最近邻。

(2)根据数据集中每个样本点的哈希值，查找样本点的近似最近邻；通过在样本点与其近似最近邻之间进行插值，合成新样本点；将新样本点加入数据集中得到样本平衡的数据集。

广告点击数据集通常存在着数据不平衡问题，欺诈样本通常只占1％-5％，数据不平衡时模型的预测结果会偏向多数类，从而降低模型效果。常用的解决方法为SMOTE(SyntheticMinorityOversamplingTechnique)，SMOTE查找少数类样本的k近邻，通过插值合成新样本。SMOTE的时间复杂度为O(dn²)，其中d是特征维度数，n是少数类样本数量，当数据样本量较大时，SMOTE所需的时间复杂度较大。

局部敏感哈希(Local-SensitiveHashing，LSH)利用哈希函数将原始数据中的数据点映射至新的空间中。如果在原始数据空间中两个点是相邻的，那么经过映射后这两个点相邻的可能性也会较大。局部敏感哈希利用哈希函数进行点的映射，因此可以理解为原始数据空间中的相邻点在经过哈希函数运算后，会有较大概率落入哈希表的同一个桶中。对数据集中所有数据进行哈希运算可以获得一个相关的哈希表，数据散落在哈希表的各个桶中。因此，查找数据点的近似最近邻只需要通过哈希函数计算该数据点在哈希表中会落入的桶号，然后遍历该桶内的所有数据，既可以得到所需要的k近似最近邻。

LSH通过将大数据集上的查找动作转换为分段的、小范围的查找动作，减少了计算所需的时间复杂度。在合成采样过程中，针对某一样本点选取多个哈希函数进行哈希值的计算，对这些哈希值进行随机加权结合后取模，从而得到最后的哈希值(即桶的编号)计算多个哈希值的原因是如果两个点在空间中是相邻的，采用多个不同的哈希函数计算后，新的数据点在空间中大概率也是相邻的，减小因为哈希函数选取不当而导致最终距离结果偏离较大的偶发性。选取随机加权组合后取模的做法也是为了尽量减小这种偶发性。每个样本点的近似最近邻与样本点在LSH得到的哈希表中的同一桶中，以欧几里得距离为标准，度量样本点间的相似度，遍历桶中样本得到样本点的近似最近邻，最终根据近似最近邻合成新样本。基于局部敏感哈希的合成过采样算法的时间复杂度为O(dn)。

实验结果显示，在集成学习中采用基于局部敏感哈希合成过采样算法的广告点击欺诈检测方法的准确率为0.9632。相较于仅使用集成学习的检测方法，这种方法的准确率提升了0.2％，并且与SMOTE相比，采样时间减少了56％。

S22213、利用样本平衡的数据集训练集成学习中的LightGBM模型，得到训练好的LightGBM模型。

点击欺诈检测可以看做是一个二分类问题，即区分欺诈点击与正常点击，因此可以考虑引入机器学习算法，利用模型学习攻击者的攻击模式，从而完成点击欺诈检测。在机器学习中，单一的分类模型通常存在数据偏好、学习不充分以及过拟合等问题，这种单一模型又被称为弱学习器。集成学习针对弱学习器的不足，将多个弱学习器组合在一起，让弱学习器间互相取长补短，从而获得一个鲁棒性更高、分类效果更好的强学习器。集成学习在训练集上训练一组弱学习器，然后将弱学习器组合起来共同决策。其中弱学习器可以选择同一种学习算法，也可以选择不同类型的学习模型。

目前常用的集成学习算法为梯度提升决策树算法(GradientBoostDecisionTree,GBDT)，GBDT在每一轮模型训练中，利用上一轮模型的残差来提高本轮模型的效果。目前常用的GBDT模型为LightGBM，LightGBM针对高维、海量数据场景进行了优化。LightGBM采用单边梯度采样算法(Gradient-basedOne-SideSampling，GOSS)进行训练样本采样的优化与每轮迭代中训练样本量的选取。GOSS保留了所有梯度较大的实例，在梯度小的实例上进行随机取样。为了抵消对数据分布的影响，LightGBM计算信息增益时，GOSS对小梯度数据引入常量乘数，从而使得模型训练时会更关注训练不足的实例，而不会过多改变原始数据集的分布。除了采用GOSS对训练样本进行采样优化，LightGBM进行特征抽取以进一步优化模型的训练速度，采用的算法思想是互斥特征绑定(ExclusiveFeatureBundling，EFB)。EFB中的特征抽取与传统的特征提取不同，它并不减少训练时数据特征向量的维度，而是将互斥特征绑定在一起，从而减少特征维度。通常被捆绑的特征是互斥的(一个特征值为零，另一个不为零)，这样两个特征捆绑起来才不会丢失信息。如果两个特征并不是完全互斥(部分情况下两个特征都是非零值)，可以用一个指标对特征不互斥程度进行衡量，这个指标被称为冲突比率。当冲突比率较小时，可以选择把不完全互斥的两个特征捆绑而不影响最后的精度。

模型训练时，将数据集中的数据输入LightGBM模型进行拟合，采样网格探索进行自动超参数优化，利用交叉验证确认超参数设置的合理性。此外，利用交叉验证找到最佳的梯度次数时停止训练模型，得到训练好的LightGBM模型，从而节约模型训练的时间。

S22214、将待测的广告点击数据输入训练好的LightGBM模型，得到检测结果。

模型训练好后即可用于广告点击欺诈检测。首先对待检测数据进行在线监测，若为正常流量，则对正常流量进行数据清洗与特征工程，然后将处理好的数据输入训练好的LightGBM模型，得到欺诈或者正常的检测结果。

本发明提出基于局部敏感哈希的合成过采样算法，解决了常用过采样算法在大数据集上速度过慢的问题。与使用SMOTE(SyntheticMinorityOversamplingTechnique)进行合成过采样的检测方法相比，在准确率小幅度降低的情况下，采样时间减少了56％。

S2222、基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

通常图数据结构采用邻接矩阵表示，使用邻接矩阵存在计算效率的问题，随着节点个数的增长，所需的空间成指数增长。此外，在邻接矩阵中存在着大量的零值，数据的稀疏性使得快速有效的学习方式很难被应用。图嵌入方法可以将图的高维信息转换为低维向量，同时保留图的拓扑结构和节点信息，并且与高维稠密的矩阵表示相比，低维向量可以直接用于模型中。因此本实施例采用图嵌入方法，将媒体图信息转换为图嵌入向量，从而输入至模型中提升广告点击欺诈检测效果。

进一步的，如图5所示，步骤S2222具体包括：

S22221、对数据集进行预处理，得到预处理后数据集。

和步骤S2221中(1)的操作相同。

S22222、利用用户的媒体广告点击序列构建媒体关系图，通过随机游走与图嵌入算法得到图嵌入向量。

在移动广告点击欺诈场景中，点击广告攻击者通常拥有大量物理设备或者虚拟IP地址以实施攻击行为。因此，虽然攻击者可以不断改变设备或者IP，但是异常用户之间是存在某种联系的，并且欺诈群体中成员与成员之间有着更为紧密的联系。欺诈用户虽然可以不断变换自身的标识符，但是攻击的目标是不会改变的，根据欺诈用户的广告点击序列可以找出实施广告点击欺诈的媒体。因此，本实施例将用户的媒体广告点击序列建模为图，在图上利用随机游走与嵌入算法获取媒体的嵌入向量。通过随机游走可以获取图节点的局部上下文信息，而通过图嵌入处理后得到的向量则可以反映顶点的局部网络结构，可以反映顶点之间的相关性。

图嵌入向量生成过程如下：

(1)假定媒体关系图为G＝(V,E)，每个节点游走n次，每次游走长度为l，嵌入向量的维度为N，N＜＜|V|；其中，V为关系图G的节点集，E为关系图G的边集；

(2)遍历节点集V，对每个节点进行随机游走，得到随机游走序列S；

(3)将S输入至Skip-gram模型中，得到节点的嵌入向量

所有节点的嵌入向量构成图嵌入向量。

本实施例中，随机游走序列的最大序列长度l为20，每个节点的重复游走次数n为30；Skip-gram中的上下文窗口长度为5。

在媒体关系图中，正常媒体之间的连接是较为紧密的，欺诈媒体之间的连接也较为紧密，而正常媒体与欺诈媒体之间的连接则较为分散。本实施例的媒体相似度即定义媒体间连接的紧密程度，计算方式如下：

其中，U_i与U_j分别代表广告点击过媒体i和j的用户集合。

欺诈媒体由于存在攻击者的分散点击行为，从而导致欺诈媒体与正常媒体在计算媒体相似度时部分交叉量变少，使得两者在向量空间中的距离变小。在嵌入过程中，需要让嵌入向量的相似度在学习后与媒体相似度接近。采用余弦相似度衡量媒体图嵌入向量的相似度，结合媒体相似度，得到新的损失函数项，加入Skip-gram模型的损失函数中。新的损失函数项如下：

其中，Φ(v_i)表示顶点v_i的嵌入向量。

通过引入新的损失函数可以使得嵌入过程更契合点击欺诈场景自身的特殊性。

此外，欺诈者还可能通过更换设备或者更改设备标识进行广告点击欺诈，在这种攻击模式下，欺诈媒体上存在大量的单次广告点击记录。因此，针对数据集中的单次广告点击记录，通过加入对称的媒体节点对，在媒体图中补充单次广告点击信息。这种对称的媒体节点会增大媒体节点自身的模值，并且减小与其他媒体节点的距离与相似度。在最终的向量空间中，具有大量单次广告记录的媒体节点将会远离其他节点，从而有着更强的区分作用。

S22223、利用预处理后数据集和图嵌入向量训练Wide&Deep模型，得到训练好的Wide&Deep模型。

如图6所示，Wide&Deep模型包括Wide模型和Deep模型，是一种神经网络模型，其既可以用于分类也可以用于回归问题。Wide模型(线性模型)有着良好的记忆能力，可以充分学习数据集中已有的特征组合。通过一系列特征变换来记忆特征的交叉组合是有效且可解释的，但是模型泛化则需要进行更多的特征工程。而Deep模型(深度神经网络)在高维非线性表达上有着优良的效果，利用较少的特征工程，可以生成更好的未知特征组合。然后，深度神经网络的泛化能力可能过于庞统，从而产生过拟合并且推荐不太相关的商品。Wide&Deep同时训练线性模型和深度神经网络，通过结合两种模型的记忆能力与泛化能力，获得更好的推荐效果。

Wide&Deep模型中，最关键的步骤就是将不同模型的记忆能力与泛化能力相结合，通过结合图嵌入向量，提出广告点击欺诈检测场景中的Wide&Deep模型。Wide部分采用逻辑回归模型，通过拟合函数完成模型训练。Deep部分采用两层全连接网络结构的DNN对图嵌入向量进行非线性变换，激活函数为ReLU。通过Sigmoid函数将Wide部分与Deep部分结合，则得到模型最后的预测输出。模型中的损失函数为二分类的交叉熵损失函数，使用Adam优化器对Wide&Deep模型进行优化。

Wide部分的输入特征为预处理后数据集中的样本数据，采用的模型为逻辑回归模型，迭代的中置误差阈值设为0.0001，L2正则项的强度系数为1.0。

Deep部分的输入特征为图嵌入向量，Deep模型使用DNN，隐藏层总共有2层，隐藏层的每层单元数均为32，Dropout比率为0.5，学习率为0.003，迭代次数epoch设为3，利用Adam算法迭代更新Deep模型的权重。

S22224、将待测的广告点击数据输入训练好的Wide&Deep模型，得到检测结果。

先对待检测数据进行在线监测，若为正常流量，则对正常流量进行数据清洗与特征工程，然后将处理好的数据输入训练好的Wide&Deep模型，得到欺诈或者正常的检测结果。

实验结果显示，采用此检测方法的准确率为96.82％。

本领域技术人员可以理解，实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图7所示，本实施例提供了一种广告点击欺诈检测系统，应用于服务器端，该系统包括检测模块，检测模块包括主动检测模块和被动检测获取模块，其中：

主动检测模块701，用于在广告请求阶段采用主动检测；

被动检测获取模块702，用于在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

本实施例中各个模块的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

本实施例提供了一种服务器，该服务器可以为计算机，如图8所示，其通过系统总线801连接的处理器802、存储器、输入系统803、显示器804和网络接口805，该处理器用于提供计算和控制能力，该存储器包括非易失性存储介质806和内存储器807，该非易失性存储介质806存储有操作系统、计算机程序和数据库，该内存储器807为非易失性存储介质中的操作系统和计算机程序的运行提供环境，处理器802执行存储器存储的计算机程序时，实现上述实施例1的广告点击欺诈检测方法，如下：

包括广告请求阶段和广告点击阶段，在广告请求阶段采用主动检测；在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例1的广告点击欺诈检测方法，如下：

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

综上所述，本发明的离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法，包括：对数据集进行预处理，得到预处理后数据集；利用局部敏感哈希合成过采样算法对预处理后数据集进行处理，得到样本平衡的数据集；从而解决了点击数据集不平衡以及常用过采样算法在大数据集上速度过慢的问题；LightGBM模型采用单边梯度采样算法对训练样本进行采样优化；同时采用互斥特征绑定进行特征抽取，从而优化模型的训练速度。基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法，包括：对数据集进行预处理，得到预处理后数据集；利用用户的媒体广告点击序列构建媒体关系图，通过随机游走与图嵌入算法得到图嵌入向量；本发明根据点击欺诈场景中欺诈媒体之间的内在相关性，以用户点击媒体序列为基础，构建媒体带权关系图，进而为每个媒体节点生成随机游走序列，采用Skip-gram处理随机游走序列，得到媒体的嵌入向量；在嵌入向量生成时，针对点击欺诈场景中欺诈用户的分散点击行为，引入了新的损失函数项，使得嵌入过程更契合点击欺诈场景自身的特殊性；并利用Wide&Deep模型完成点击欺诈检测，从而使检测结果的准确率明显提升了。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种广告点击欺诈检测方法，应用于服务器端，其特征在于，所述方法包括广告请求阶段和广告点击阶段，在广告请求阶段采用主动检测；在广告点击阶段采用被动检测，被动检测包括离线检测，通过离线检测，完成对广告点击数据的分类；其中，所述离线检测包括基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法和基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法。

2.根据权利要求1所述的广告点击欺诈检测方法，其特征在于，所述被动检测还包括在线检测，对广告点击数据进行在线检测，得到数据集。

3.根据权利要求2所述的广告点击欺诈检测方法，其特征在于，所述对广告点击数据进行在线检测，得到数据集，具体包括：

所有的样本数据构成数据集。

4.根据权利要求2所述的广告点击欺诈检测方法，其特征在于，所述通过离线检测，完成对广告点击数据的分类，具体包括：

分类的结果为正常广告点击或欺诈广告点击。

5.根据权利要求4所述的广告点击欺诈检测方法，其特征在于，所述基于局部敏感哈希合成过采样算法与集成学习的广告点击欺诈检测方法对所述数据集中样本数据进行分类，具体包括：

对所述数据集进行预处理，得到预处理后数据集；

6.根据权利要求5所述的广告点击欺诈检测方法，其特征在于，所述利用局部敏感哈希合成过采样算法对预处理后数据集进行处理，得到样本平衡的数据集，具体包括：

7.根据权利要求4所述的广告点击欺诈检测方法，其特征在于，所述基于媒体图嵌入向量与神经网络的广告点击欺诈检测方法对所述数据集中样本数据进行分类，具体包括：

对所述数据集进行预处理，得到预处理后数据集；

8.根据权利要求7所述的广告点击欺诈检测方法，其特征在于，所述利用用户的媒体广告点击序列构建媒体关系图，通过随机游走与图嵌入算法得到图嵌入向量，具体包括：

将S输入Skip-gram模型，得到节点的嵌入向量

9.根据权利要求5或7所述的广告点击欺诈检测方法，其特征在于，所述对所述数据集进行预处理，得到预处理后数据集，具体包括：

对所述数据集中的样本数据进行清洗，得到清洗后数据集；

10.一种广告点击欺诈检测系统，应用于服务器端，其特征在于，所述系统包括检测模块，检测模块包括主动检测模块和被动检测获取模块，其中：

主动检测模块，用于在广告请求阶段采用主动检测；