CN111612531A

CN111612531A - 一种点击欺诈的检测方法及系统

Info

Publication number: CN111612531A
Application number: CN202010403538.2A
Authority: CN
Inventors: 周春良; 郑哲
Original assignee: Ningbo Institute of Finance and Economics
Current assignee: Ningbo Institute of Finance and Economics
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-09-01

Abstract

本发明提供一种点击欺诈的检测方法及系统，涉及互联网安全技术领域，包括：获取广告点击用户产生的若干点击流，进行数据预处理得到有效点击流数据集，并根据属性特征识别模型识别得到属性特征集合；根据属性特征集合计算各有效点击流的评估分；对各有效点击流进行数据挖掘得到最大疑似点击欺诈群组并计算平均评估分，对评估分不小于平均评估分的广告点击用户进行合法等级预测，并将合法等级预测概率不小于合法等级概率阈值的广告点击用户进行孤立点挖掘得到候选点击欺诈群组；计算误判率并在误判率小于误判率阈值时输出候选点击欺诈群组。本发明能够实现高效检测，满足实时需求，且有效屏蔽用户偶然的无意识点击，显著降低用户点击欺诈的概率。

Description

一种点击欺诈的检测方法及系统

技术领域

本发明涉及互联网安全领域，尤其涉及一种点击欺诈的检测方法及系统。

背景技术

点击付费是互联网产业的一种盈利模式，该模式是以统计访问者的点击网络广告次数来对广告主收费。网络广告按点击付费的方式较之传统按投放时间付费有着不可比拟的优点，是一种获得新客户平均成本最低、投资回报高的一种方法。然而，点击付费模式下就不可避免要面临点击欺诈。点击欺诈是指所有利用欺诈性手段或带有欺诈意图并被搜索引擎承认的点击行为。通过人为或者特制的软件程序恶意点击广告链接，从而违法盗取广告客户的广告点击费用，谋取经济利益，并给广告主带来巨大经济损失。目前，点击欺诈已经成为阻碍网络搜索竞价市场健康发展的一大顽疾，亟需一种有效稳定的点击欺诈的检测和防范机制。

目前采用的点击欺诈的检测更多是从互联网海量数据出发，采用基于用户点击行为识别欺诈行为的检测方法，但点击欺诈具有复杂的模式，同时人为点击与正常点击比较相似，导致点击欺诈的特征具有一定的若随机性而难以检出。同时，国内研究学者需求各种方法进行点击欺诈的检测和预防，如基于IP和Referer检测手段的防欺诈点击方法；基于分析过滤、历史行为分析过滤和AI模式识别过滤等过滤技术；基于有限状态自动机的实时检测方法以及基于图形验证码防欺诈点击方法等。上述方法能够有效检测出点击欺诈用户，但对于使用者的硬件和网络要求均较高，资源开销比较大，且检测速率及检测精度都较难满足实时需求。

发明内容

针对现有技术中存在的问题，本发明提供一种点击欺诈的检测方法，具体包括以下步骤：

步骤S1，获取广告点击用户产生的若干点击流，并对各所述点击流进行数据预处理以得到有效点击流数据集；

所述有效点击流数据集中包括若干有效点击流；

步骤S2，根据预先生成的点击欺诈训练集训练得到属性特征识别模型，并根据所述属性特征识别模型对所述有效点击流数据集进行识别得到各所述有效点击流对应的属性特征集合；

所述属性特征集合中包括各所述有效点击流对应的若干属性特征；

步骤S3，针对每个所述有效点击流，根据预先设置的所述有效点击流对应的各所述属性特征的权值和属性分值，对每个所述有效点击流进行加权计算，得到各所述有效点击流的评估分；

步骤S4，对各所述有效点击流进行数据挖掘得到最大疑似点击欺诈群组，并计算得到所述最大疑似点击欺诈群组对应的各所述有效点击流的平均评估分；

若所述评估分小于所述平均评估分，则表示所述评估分对应的所述有效点击流为正常用户点击所产生，随后退出；

若所述评估分不小于所述平均评估分，则将所述评估分对应的所述有效点击流关联的各所述广告点击用户加入一第一疑似点击欺诈群组，随后转向步骤S5；

步骤S5，分别对所述第一疑似点击欺诈群组中的每个所述广告点击用户的点击行为进行合法等级预测，得到各所述广告点击用户的合法等级预测概率，并将所述合法等级预测概率与预先设置的合法等级概率阈值进行比较：

若所述合法等级预测概率小于所述合法等级概率阈值，则表示所述合法等级预测概率对应的所述广告点击用户为正常用户，随后退出；

若所述合法等级预测概率不小于所述合法等级概率阈值，则将所述合法等级预测概率对应的各所述广告点击用户加入一第二疑似点击欺诈群组，随后转向步骤S6；

步骤S6，对所述第二疑似点击欺诈群组进行基于属性相异度的孤立点挖掘得到候选点击欺诈群组；

步骤S7，计算所述候选点击欺诈群组的误判率，并将所述误判率与预先设置的误判率阈值进行比较：

若所述误判率小于所述误判率阈值，则确认所述候选点击欺诈群组为点击欺诈群组并输出，随后退出；

若所述误判率不小于所述误判率阈值，则返回所述步骤S2。

优选的，所述步骤S3中，按照如下公式计算各所述有效点击流的评估分：

其中，

S用于表示所述评估分；

w_i用于表示所述有效点击流对应的各所述属性特征的权值；

r_i用于表示所述有效点击流对应的各所述属性特征的属性分值。

优选的，所述步骤S4具体包括：

步骤S41，采用频繁项集算法对各所述有效点击流进行数据挖掘得到一包括若干所述广告点击用户的最大频繁项集，并将所述最大频繁项集作为所述最大疑似点击欺诈群组；

所述最大疑似点击欺诈群组包括若干所述广告点击用户；

步骤S42，获取所述最大疑似点击欺诈群组中的各所述广告点击用户点击产生的各所述有效点击流对应的所述评估分；

步骤S43，对各所述评估分取均值得到所述平均评估分。

优选的，所述步骤S5中，采用贝叶斯分类方法对所述第一疑似点击欺诈群组中的每个所述广告点击用户的点击行为进行所述合法等级预测。

优选的，所述步骤S6具体包括：

步骤S61，根据所述第二疑似欺诈群组中各所述广告点击用户两两之间的属性相异度；

步骤S62，根据各所述属性相异度生成相异度矩阵；

步骤S63，统计所述相异度矩阵中的每列中大于预先设置的相异度阈值的所述属性相异度的数量，并将统计结果按照由大到小的顺序依次排列形成一孤立点队列；

步骤S64，提取所述孤立点队列中靠前的预设数量的所述列对应的所述广告点击用户作为孤立点；

步骤S65，从所述第二疑似欺诈群组中剔除所述孤立点对应的所述广告点击用户以得到所述候选点击欺诈群组。

优选的，所述步骤S7中，所述误判率的计算方法具体包括：

步骤S71，将所述候选点击欺诈群组中的各所述广告点击用户通过预设数量的哈希函数映射至预先建立的混淆布鲁姆过滤器中；

步骤S72，根据所述混淆布鲁姆过滤器计算所述候选点击欺诈群组的所述误判率。

一种点击欺诈的检测系统，应用以上任意一项所述的点击欺诈的检测方法，具体包括：

数据预处理模块，用于获取广告点击用户产生的若干点击流，并对各所述点击流进行数据预处理以得到有效点击流数据集；

所述有效点击流数据集中包括若干有效点击流；

特征识别模块，连接所述数据预处理模块，用于根据预先生成的点击欺诈训练集训练得到属性特征识别模型，并根据所述属性特征识别模型对所述有效点击流数据集进行识别得到各所述有效点击流对应的属性特征集合；

第一数据处理模块，连接所述特征识别模块，用于针对每个所述有效点击流，根据预先设置的所述有效点击流对应的各所述属性特征的权值和属性分值，对每个所述有效点击流进行加权计算，得到各所述有效点击流的评估分；

第二数据处理模块，分别连接所述数据预处理模块和所述第一数据处理模块，所述第二数据处理模块具体包括：

第一数据处理单元，用于对各所述有效点击流进行数据挖掘得到最大疑似点击欺诈群组，并计算得到所述最大疑似点击欺诈群组对应的各所述有效点击流的平均评估分；

第一比较单元，连接所述第一数据处理单元，用于将各所述有效点击流的所述评估分与所述平均评估分进行比较，并输出相应的第一比较结果；

第二数据处理单元，连接所述第一比较单元，用于在所述第一比较结果表示所述评估分不小于所述平均评估分时，将所述评估分对应的所述有效点击流关联的各所述广告点击用户加入一第一疑似点击欺诈群组；

第三数据处理模块，连接所述第二数据处理模块，所述第三数据处理模块具体包括：

第三数据处理单元，用于分别对所述第一疑似点击欺诈群组中的每个所述广告点击用户的点击行为进行合法等级预测，得到各所述广告点击用户的合法等级预测概率；

第二比较单元，连接所述第三数据处理单元，用于将所述合法等级预测概率与预先设置的合法等级概率阈值进行比较，并输出相应的第二比较结果；

第四数据处理单元，连接所述第二比较单元，用于在所述合法等级预测概率不小于所述合法等级概率阈值时，将所述合法等级预测概率对应的各所述广告点击用户加入一第二疑似点击欺诈群组；

第四数据处理模块，连接所述第三数据处理模块，用于对所述第二疑似点击欺诈群组进行基于属性相异度的孤立点挖掘得到候选点击欺诈群组；

第五数据处理模块，连接所述第四数据处理模块，所述第五数据处理模块具体包括：

第五数据处理单元，用于计算所述候选点击欺诈群组的误判率；

第三比较单元，连接所述第五数据处理单元，用于将所述误判率与预先设置的误判率阈值进行比较，并输出相应的第三比较结果；

第六数据处理单元，连接所述第三比较单元，用于在所述第三比较结果表示所述误判率小于所述误判率阈值时，确认所述候选点击欺诈群组为点击欺诈群组并输出。

优选的，所述第一数据处理单元具体包括：

第一数据获取子单元，用于根据采用频繁项集算法对各所述有效点击流进行数据挖掘得到一包括若干所述广告点击用户的最大频繁项集，并将所述最大频繁项集作为所述最大疑似点击欺诈群组；

所述最大疑似点击欺诈群组包括若干所述广告点击用户；

第二数据获取子单元，连接所述第一数据获取子单元，用于获取所述最大疑似点击欺诈群组中的各所述广告点击用户点击产生的各所述有效点击流对应的所述评估分；

第一数据处理子单元，连接所述第二数据获取子单元，用于对各所述评估分取均值得到所述平均评估分。

优选的，所述第四数据处理模块具体包括：

第七数据处理单元，用于根据所述第二疑似欺诈群组中各所述广告点击用户两两之间的属性相异度；

矩阵生成单元，连接所述第七数据处理单元，用于根据各所述属性相异度生成相异度矩阵；

队列生成单元，连接所述矩阵生成单元，用于统计所述相异度矩阵中的每列中大于预先设置的相异度阈值的所述属性相异度的数量，并将统计结果按照由大到小的顺序依次排列形成一孤立点队列；

孤立点提取单元，连接所述队列生成单元，用于提取所述孤立点队列中靠前的预设数量的所述列对应的所述广告点击用户作为孤立点；

第八数据处理单元，连接所述孤立点提取单元，用于从所述第二疑似欺诈群组中剔除所述孤立点对应的所述广告点击用户以得到所述候选点击欺诈群组。

优选的，第五数据处理单元具体包括：

第二数据处理子单元，用于将所述候选点击欺诈群组中的各所述广告点击用户通过预设数量的哈希函数映射至预先建立的混淆布鲁姆过滤器中；

第三数据处理子单元，连接所述第二数据处理子单元，用于根据所述混淆布鲁姆过滤器计算所述候选点击欺诈群组的所述误判率。

上述技术方案具有如下优点或有益效果：能够实现高效检测，满足实时需求，且有效屏蔽用户偶然的无意识点击，显著降低用户点击欺诈的概率。

附图说明

图1为本发明的较佳的实施例中，一种点击欺诈的检测方法的流程示意图；

图2为本发明的较佳的实施例中，平均评估分的计算方法的流程示意图；

图3为本发明的较佳的实施例中，候选点击欺诈群组的生成方法的流程示意图；

图4为本发明的较佳的实施例中，误判率的计算方法的流程示意图

图5为本发明的较佳的实施例中，一种点击欺诈的检测系统的结构示意图；

图6为本发明的一个较佳的实施例中，仿真结果的示意图；

图7为本发明的一个较佳的实施例中，ROC曲线与参考线的比较示意图；

图8为本发明的一个较佳的实施例中，支持度与疑似欺诈组用户数量变化关系示意图；

图9为本发明的一个较佳的实施例中，支持度与检测准确率变化关系示意图；

图10为本发明的一个较佳的实施例中，哈希函数个数与误判率的变化关系示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本发明并不限定于该实施方式，只要符合本发明的主旨，则其他实施方式也可以属于本发明的范畴。

本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种点击欺诈的检测方法，如图1所示，具体包括以下步骤：

步骤S1，获取广告点击用户产生的若干点击流，并对各点击流进行数据预处理以得到有效点击流数据集；

有效点击流数据集中包括若干有效点击流；

步骤S2，根据预先生成的点击欺诈训练集训练得到属性特征识别模型，并根据属性特征识别模型对有效点击流数据集进行识别得到各有效点击流对应的属性特征集合；

属性特征集合中包括各有效点击流对应的若干属性特征；

步骤S3，针对每个有效点击流，根据预先设置的有效点击流对应的各属性特征的权值和属性分值，对每个有效点击流进行加权计算，得到各有效点击流的评估分；

步骤S4，对各有效点击流进行数据挖掘得到最大疑似点击欺诈群组，并计算得到最大疑似点击欺诈群组对应的各有效点击流的平均评估分；

若评估分小于平均评估分，则表示评估分对应的有效点击流为正常用户点击所产生，随后退出；

若评估分不小于平均评估分，则将评估分对应的有效点击流关联的各广告点击用户加入一第一疑似点击欺诈群组，随后转向步骤S5；

步骤S5，分别对第一疑似点击欺诈群组中的每个广告点击用户的点击行为进行合法等级预测，得到各广告点击用户的合法等级预测概率，并将合法等级预测概率与预先设置的合法等级概率阈值进行比较：

若合法等级预测概率小于合法等级概率阈值，则表示合法等级预测概率对应的广告点击用户为正常用户，随后退出；

若合法等级预测概率不小于合法等级概率阈值，则将合法等级预测概率对应的各广告点击用户加入一第二疑似点击欺诈群组，随后转向步骤S6；

步骤S6，对第二疑似点击欺诈群组进行基于属性相异度的孤立点挖掘得到候选点击欺诈群组；

步骤S7，计算候选点击欺诈群组的误判率，并将误判率与预先设置的误判率阈值进行比较：

若误判率小于误判率阈值，则确认候选点击欺诈群组为点击欺诈群组并输出，随后退出；

若误判率不小于误判率阈值，则返回步骤S2。

具体地，本实施例中，广告点击用户产生的若干点击流包含了各种海量数据，记录了广告点击用户的网页访问行为，大部分数据是很嘈杂的，因此需要进行数据预处理以删除和过滤重复和不相关的数据，填充丢失的数据，删除杂音，数据编码，以及解决任何数据不一致的问题，使得处理得到的有效点击流数据集中的各有效点击流为完整的、一致的、统一的形式。

进一步地，本发明通过逐步过滤的方法正常用户及其点击产生的有效点击流进行剔除，从而最终得到真正的点击欺诈群组，具体包括：

1)通过计算各有效点击流的评估分，初步过滤掉部分正常用户：

具体地，预先生成的点击欺诈训练集对预处理得到的有效点击流数据集进行训练，提取出各有效点击流的属性特征集合；同时通过挖掘有效点击流数据集中的最大疑似点击欺诈群组，该最大疑似点击欺诈群组中的各广告点击用户及对应的有效点击流最有可能是真正的欺诈用户，通过计算该最大疑似点击欺诈群组中的各广告点击用户对应的有效点击流的平均评估分，并作为初步过滤正常用户的阈值条件，有效提升检测精准度。进一步地，通过计算各有效点击流的评估分，首先过滤掉部分评估分小于平均评估分的有效点击流及其对应的广告点击用户，从而生成第一疑似点击欺诈群组。

2)通过对第一疑似点击欺诈群组中的各广告点击用户进行合法等级预测，进一步筛选并过滤掉部分正常用户：

具体地，分别对各广告点击用户的点击行为进行合法等级预测，上述点击行为包括广告点击用户对应的若干有效点击流中包含的用户点击行为产生的时间、点击频率、点击内容等。通过对合法等级预测得到的合法等级预测概率，进一步过滤掉部分合法等级预测概率小于预先设置的合法等级概率阈值的广告点击用户及其点击产生的有效点击流，从而生成第二疑似点击欺诈群组。

3)通过对第二疑似点击欺诈群组进行分析，进一步筛选出第二疑似点击欺诈群组中的孤立点，并将一定数量的孤立点作为正常用户进行过滤：

具体地，首先计算第二疑似点击欺诈群组中的各广告点击用户两两之间的属性相异度，并根据属性相异度生成对应的相异度矩阵，在相异度矩阵中的每行包含该行对应的广告点击用户与其他所有广告点击用户之间的属性相异度，同样在相异度矩阵中的每列包含该列对应的广告点击用户与其他所有广告点击用户之间的属性相异度。以每行或每列为单位，统计其中对应的各属性相异度大于预先设置的相异度阈值的数量，在每行或每列中属性相异度大于预先设置的相异度阈值的数量越多，表示该行或该列对应的广告点击用户与所有其他广告点击用户之间的关联性越差，换言之，该行或该列对应的广告点击用户为正常用户的可能性越大。

通过将属性相异度大于预先设置的相异度阈值的数量排序靠前的预设数量的多行或多列对应的广告点击用户定义为正常用户，进一步过滤掉该部分广告点击用户及其点击产生的有效点击流，从而生成候选点击欺诈群组。

4)通过对候选点击欺诈群组进行误判率计算，从而确定该候选点击欺诈群组是否为确定的点击欺诈群组：

具体地，通过建立混淆布鲁姆过滤器计算候选点击欺诈群组的误判率，若该误判率小于预先设置的误判率阈值，则表示该候选点击欺诈群组中不存在正常用户，或者仅存在少量的正常用户，而该少量的正常用户在允许的误差范围内，即该候选点击欺诈群组为确定的点击欺诈群组；若误判率不小于预先设置的误判率阈值，则表示该候选点击欺诈群组中仍然存在数量较多的正常用户，需要重新对有效点击流数据集进行训练，随后进行逐步过滤，直至误判率小于预先设置的误判率阈值。

本发明的较佳的实施例中，步骤S3中，按照如下公式计算各有效点击流的评估分：

其中，

S用于表示评估分；

w_i用于表示有效点击流对应的各属性特征的权值；

r_i用于表示有效点击流对应的各属性特征的属性分值。

具体地，本实施例中，每个有效点击流具有多个影响因子，即属性特征，而每个属性特征都具有各自的权值和属性分值，将每个有效点击流的所有影响因子对应的权值和属性分值进行加权，并将加权计算的结果作为每个有效点击流的评估分。其中权值的取值范围为[0,1]，属性分值的取值范围为[0,1]。

本发明的较佳的实施例中，如图2所示，步骤S4具体包括：

步骤S41，采用频繁项集算法对各有效点击流进行数据挖掘得到一包括若干广告点击用户的最大频繁项集，并将最大频繁项集作为最大疑似点击欺诈群组；

最大疑似点击欺诈群组包括若干广告点击用户；

步骤S42，获取最大疑似点击欺诈群组中的各广告点击用户点击产生的各有效点击流对应的评估分；

步骤S43，对各评估分取均值得到平均评估分。

具体地，本实施例中，频繁项集算法的原理如下：

有效点击流数据集中的任一有效点击流p的k距离时是p到它的最近邻的最大距离，记作k-distance(p)。有效点击流p的k距离领域记作N_{k-distance(p)}，其中包含了所有距离不大于p的k距离的有效点击流。有效点击流p关于有效点击流o(其中o在p的k最近邻中)的可达距离定义为：

read_disk_k(p,o)＝max{k-disktance(o),||p-o||}

p的局部可达密度(lrdk(p))定义为基于p的k最近邻点的平均可达密度的倒数：

令p的局部离群点因子LOF表征p为离群点的程度：

设I＝{i₁,i₂,...,i_n}是n个不同项目的集合。若对一个集合X，有：

且k＝|X|，则X称为k项集，或一个项集。记D为事务T的集合，

对于给定数据库D，定义X的支持度为D中包含X的事务个数，记为sup(X)。用户可自定义一个小于|D|的最小支持度，记为min_s。给定事务数据库D和支持度min_s，对于项集

若sup(X)≥min_s，称X为D中的频繁项集；若sup(X)≥min_s且对

均有sup(Y)<min_s，则称X为D中的最大频繁项集。本实施例中，通过预先设置的最小支持度，通过上述方法对各有效点击流进行数据挖掘可以得到各有效点击流的最大频繁项集，即最大疑似点击欺诈群组。

本发明的较佳的实施例中，步骤S5中，采用贝叶斯分类方法对第一疑似点击欺诈群组中的每个广告点击用户的点击行为进行合法等级预测。

具体地，本实施例中，通过贝叶斯分类方法对用户的点击行为合法程度进行预测，具体包括：设用户点击合法程度为T。用Ti表示点击行为信任范围，|T_i|(1≤i≤L)表示与所预测点击用户的点击历史中整体信任落在Ti范围内的次数。设X为一次点击事件，即：

X＝{x₁,x₂,...x_max}

其中，max为一次点击事件的最多属性个数。用户点击行为合法等级的先验概率为：

其中，n表示与所预测点击用户以往点击的总数。假设各属性取值相互独立，先验概率为p(X₁|T_i)，则p(X₂|T_i)...p(X_n|T_i)可从训练数据集求得。则可以得用户一次点击行为的合法等级的预测概率为p(X|T_i)p(T_i)。

本发明的较佳的实施例中，如图3所示，步骤S6具体包括：

步骤S61，根据第二疑似欺诈群组中各广告点击用户两两之间的属性相异度；

步骤S62，根据各属性相异度生成相异度矩阵；

步骤S63，统计相异度矩阵中的每列中大于预先设置的相异度阈值的属性相异度的数量，并将统计结果按照由大到小的顺序依次排列形成一孤立点队列；

步骤S64，提取孤立点队列中靠前的预设数量的列对应的广告点击用户作为孤立点；

步骤S65，从第二疑似欺诈群组中剔除孤立点对应的广告点击用户以得到候选点击欺诈群组。

具体地，本实施例中，定义用户属性相异度为：当属性为离散数据时，只有完全相等时，距离量度为0，否则为1。定义两个有效点击流x，y的相异度为：

其中，每个广告点击用户产生的有效点击流由点击属性的向量形式组成(用户IP，用户来源URL，区域，查询词)；Fields表示点击属性中的特征集；d_f(x,y)表示每个f(属性)的距离量度，为[0，1]；w_f表示d_f(x,y)的权重。对于用户来源URL属性，距离量度可定义为：

其中，LCP表示两个有效点击流的最长公共前缀。假设异构数据集X上两个数据集x和y的第i个连续属性分别为x_i和y_i，则x和y在第i个属性上的距离量度为：

其中，σ_i为数据集上第i个属性的方差。

同时x，y在第j个属性上的值差度量为：

其中，N_j,x表示数据集X上所有数据第j个属性取值为x_i的数据个数，N_j,x,c表示数据集X上所有数据第j个属性取值为x_j，并且输出类别为C的数据个数，C表示数据输出类别。

另外，这里定义异构值差度量(HVDM)距离函数H(x,y)为：

其中，当x_i或者y_i值为空，值取1；当x_i或者y_i为连续属性，则由上述x和y在第i个属性上的距离量度的计算公式计算该值；当x_i或者y_i为离散属性，则由上述x，y在第j个属性上的值差度量的计算公式计算该值。

本实施例中，由于点击了同一网站广告的用户有着高度的相似性，因此在第二疑似点击欺诈群组中必然存在某些并非是真正的欺诈用户，即正常用户。则该正常用户在第二疑似点击欺诈群组中可以看做是孤立点，通过计算各广告点击用户两两之间的属性相异度，并根据生成的相异度矩阵将这些孤立点挖掘出来进行剔除，从而进一步降低误判率。

本发明的较佳的实施例中，如图4所示，步骤S7中，误判率的计算方法具体包括：

步骤S71，将候选点击欺诈群组中的各广告点击用户通过预设数量的哈希函数映射至预先建立的混淆布鲁姆过滤器中；

步骤S72，根据混淆布鲁姆过滤器计算候选点击欺诈群组的误判率。

具体地，本实施例中，布鲁姆过滤器(BF)是一个表示位串的空间高效的概率数据结构，它支持元素的哈希查询，可以用来测试一个元素x是否包含在集合S中，能够满足资源的高效存储和查询需求。其算法结构的本质是将集合中所有元素通过k个哈希函数映射到位串向量之中，不同于传统的哈希存储表，在布鲁姆过滤器中，哈希表退化成一个位串向量V，每一个元素只占用位数不多的比特位。标准的布鲁姆过滤器在进行数据查询时存在误判率高、数据处理不精准等问题，因此不能直接将集合映射到布鲁姆过滤器中进行存储和查询。针对上述问题，本发明建立混淆布鲁姆过滤器对数据进行存储和比较，并根据混淆布鲁姆过滤器对候选点击欺诈群组的误判率进行计算。

进一步地，误判率的计算方法如下：

设上述预先建立的混淆布鲁姆过滤器是一个mbit的数组，可表示一个最多有ω个元素的候选点击欺诈群组S。使用k个相互独立且均匀选取的哈希函数H＝{h₁,h₂,...,h_k}，设候选点击欺诈群组S有n个元素，S＝{s₁,s₂,...,s_n}，通过k个哈希函数映射到k个相对应的值。假设哈希函数均匀分布，当集合中的所有元素映射完毕后，布鲁姆过滤器任意一位为0的概率为：

当不属于集合的元素误判为属于集合，即候选点击欺诈群组S中包含正常用户时，需要满足每一个对应位的值都为1，即元素的误判率为：

f^BF(m,k,n)≈(1-p)^k

即：

f^BF(m,k,n)≈(1-p)^k＝(1-e^-kn/m)^k＝exp(kln(1-e^-kn/m))

若规定误判率的上限f₀，在过滤器长度m和哈希函数k一定时，由上式可计算过滤器最多表示的元素个数：

令g(k)＝kln(1-e^-kn/m)，可知函数g和f可以同时达到最小值，对g取k的导数，得：

令

则：

当k满足式上述最小值公式时，取得最小误判率。

一种点击欺诈的检测系统，应用以上任意一项的点击欺诈的检测方法，如图5所示，具体包括：

数据预处理模块1，用于获取广告点击用户产生的若干点击流，并对各点击流进行数据预处理以得到有效点击流数据集；

有效点击流数据集中包括若干有效点击流；

特征识别模块2，连接数据预处理模块1，用于根据预先生成的点击欺诈训练集训练得到属性特征识别模型，并根据属性特征识别模型对有效点击流数据集进行识别得到各有效点击流对应的属性特征集合；

属性特征集合中包括各有效点击流对应的若干属性特征；

第一数据处理模块3，连接特征识别模块2，用于针对每个有效点击流，根据预先设置的有效点击流对应的各属性特征的权值和属性分值，对每个有效点击流进行加权计算，得到各有效点击流的评估分；

第二数据处理模块4，分别连接数据预处理模块1和第一数据处理模块3，第二数据处理模块4具体包括：

第一数据处理单元41，用于对各有效点击流进行数据挖掘得到最大疑似点击欺诈群组，并计算得到最大疑似点击欺诈群组对应的各有效点击流的平均评估分；

第一比较单元42，连接第一数据处理单元41，用于将各有效点击流的评估分与平均评估分进行比较，并输出相应的第一比较结果；

第二数据处理单元43，连接第一比较单元42，用于在第一比较结果表示评估分不小于平均评估分时，将评估分对应的有效点击流关联的各广告点击用户加入一第一疑似点击欺诈群组；

第三数据处理模块5，连接第二数据处理模块4，第三数据处理模块5具体包括：

第三数据处理单元51，用于分别对第一疑似点击欺诈群组中的每个广告点击用户的点击行为进行合法等级预测，得到各广告点击用户的合法等级预测概率；

第二比较单元52，连接第三数据处理单元51，用于将合法等级预测概率与预先设置的合法等级概率阈值进行比较，并输出相应的第二比较结果；

第四数据处理单元53，连接第二比较单元52，用于在合法等级预测概率不小于合法等级概率阈值时，将合法等级预测概率对应的各广告点击用户加入一第二疑似点击欺诈群组；

第四数据处理模块6，连接第三数据处理模块5，用于对第二疑似点击欺诈群组进行基于属性相异度的孤立点挖掘得到候选点击欺诈群组；

第五数据处理模块7，连接第四数据处理模块6，第五数据处理模块7具体包括：

第五数据处理单元71，用于计算候选点击欺诈群组的误判率；

第三比较单元72，连接第五数据处理单元71，用于将误判率与预先设置的误判率阈值进行比较，并输出相应的第三比较结果；

第六数据处理单元73，连接第三比较单元72，用于在第三比较结果表示误判率小于误判率阈值时，确认候选点击欺诈群组为点击欺诈群组并输出。

本发明的较佳的实施例中，第一数据处理单元41具体包括：

第一数据获取子单元411，用于根据采用频繁项集算法对各有效点击流进行数据挖掘得到一包括若干广告点击用户的最大频繁项集，并将最大频繁项集作为最大疑似点击欺诈群组；

最大疑似点击欺诈群组包括若干广告点击用户；

第二数据获取子单元412，连接第一数据获取子单元411，用于获取最大疑似点击欺诈群组中的各广告点击用户点击产生的各有效点击流对应的评估分；

第一数据处理子单元413，连接第二数据获取子单元412，用于对各评估分取均值得到平均评估分。

本发明的较佳的实施例中，第四数据处理模块6具体包括：

第七数据处理单元61，用于根据第二疑似欺诈群组中各广告点击用户两两之间的属性相异度；

矩阵生成单元62，连接第七数据处理单元61，用于根据各属性相异度生成相异度矩阵；

队列生成单元63，连接矩阵生成单元62，用于统计相异度矩阵中的每列中大于预先设置的相异度阈值的属性相异度的数量，并将统计结果按照由大到小的顺序依次排列形成一孤立点队列；

孤立点提取单元64，连接队列生成单元63，用于提取孤立点队列中靠前的预设数量的列对应的广告点击用户作为孤立点；

第八数据处理单元65，连接孤立点提取单元64，用于从第二疑似欺诈群组中剔除孤立点对应的广告点击用户以得到候选点击欺诈群组。

本发明的较佳的实施例中，第五数据处理单元71具体包括：

第二数据处理子单元711，用于将候选点击欺诈群组中的各广告点击用户通过预设数量的哈希函数映射至预先建立的混淆布鲁姆过滤器中；

第三数据处理子单元712，连接第二数据处理子单元711，用于根据混淆布鲁姆过滤器计算候选点击欺诈群组的误判率。

本发明的一个较佳的实施例中，将本发明的技术方案通过MATLAB进行仿真分析，以验证其有效性。具体地，随机抽取100名用户进行实验，并随机选取其中40名学生作为欺诈用户。试验周期为2周，共收集点击日志数据50000条。如图6所示，本实施例中，首先对单纯贝叶斯分类方法、Google检测方法与本发明所提出的检测方法进行了对比实验，图1中的表格表示三种检测结果的欺诈点击数量。

由图6可知，采用本发明的技术方案的检测结果与Google检测结果比较接近，由于Google所提供数据具有较高的准确性，所以也证明了本发明的技术方案的可靠性。同时，如图7所示，本实施例使用ROC曲线来评估本发明的技术方案的精确性。ROC曲线以真阳性率作为纵坐标，假阳性率作为横坐标绘制的曲线，其中真阳性率TPR＝TP/(TP+FP)，假阳性率FPR＝FP/TN+FP，TP表示正类判定为正类的数量，FP表示负类判定为正类的数量，图7给出了本发明的技术方案的ROC曲线，该曲线离参考对角线越远，表明检测效果越好。从图7可看出，曲线下面积AUC值接近0.9，说明了本发明的技术方案在检测用户欺诈上精确度较高。已知当AUC>0.5时，AUC越接近1，检测效果越好，若AUC＝0.5，则检测方法完全不起作用，说明检测方法没有使用价值。

在本发明的技术方案中，在进行最大疑似点击欺诈群组的挖掘时，支持度sup(支持度＝u*日志记录数量，u取值为0～100％)的选取必然会影响疑似欺诈用户数量，从而影响检测结果的准确性。图8和图9分别为通过改变u值时对疑似欺诈用户数量和准确率的影响结果。在图8中可以看出，随着u的增加，疑似欺诈用户的数量呈单调递减变化，当u＝0时，疑似欺诈用户数量最多，所有欺诈用户均被检测出；当u＝100时，疑似欺诈组内用户数量为0，这是因为不存在某一用户在一定时间内点击所有广告的情况。从图9可看出，当u取值在40％～50％时，支持度取值为最佳值，准确率会出现峰值，接近90％，随着u的增加，准确率降低速率逐渐变慢，呈现长尾分布，当u取最大值即支持度最大时，准确率接近0。

本实施例中，在建立混淆布鲁姆过滤器时，哈希函数的个数k对本发明的技术方案的误判率也存在影响，设定过滤长度为2560bit，哈希函数个数k的规定为(0～10)。图10给出了本发明的技术方案随哈希函数个数k的变化曲线。由图10可知，当哈希函数的个数k为10时，检测方法的误判率最低。当k超过规定范围(0～10)时，误检率与哈希函数个数k呈正相关。哈希函数个数k在0～10的范围内，数量越多，检测方法的误检率越小，这是因为在规定范围(0～10)内，哈希函数个数越多，元素在向量中映射的位就越多，表达元素信息越多，故误判率降低。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种点击欺诈的检测方法，其特征在于，具体包括以下步骤：

所述有效点击流数据集中包括若干有效点击流；

若所述误判率不小于所述误判率阈值，则返回所述步骤S2。

2.根据权利要求1所述的检测方法，其特征在于，所述步骤S3中，按照如下公式计算各所述有效点击流的评估分：

其中，

S用于表示所述评估分；

w_i用于表示所述有效点击流对应的各所述属性特征的权值；

3.根据权利要求1所述的检测方法，其特征在于，所述步骤S4具体包括：

所述最大疑似点击欺诈群组包括若干所述广告点击用户；

步骤S43，对各所述评估分取均值得到所述平均评估分。

4.根据权利要求1所述的检测方法，其特征在于，所述步骤S5中，采用贝叶斯分类方法对所述第一疑似点击欺诈群组中的每个所述广告点击用户的点击行为进行所述合法等级预测。

5.根据权利要求1所述的检测方法，其特征在于，所述步骤S6具体包括：

步骤S62，根据各所述属性相异度生成相异度矩阵；

6.根据权利要求1所述的检测方法，其特征在于，所述步骤S7中，所述误判率的计算方法具体包括：

7.一种点击欺诈的检测系统，其特征在于，应用如权利要求1-6中任意一项所述的点击欺诈的检测方法，具体包括：

所述有效点击流数据集中包括若干有效点击流；

8.根据权利要求7所述的检测系统，其特征在于，所述第一数据处理单元具体包括：

所述最大疑似点击欺诈群组包括若干所述广告点击用户；

9.根据权利要求7所述的检测系统，其特征在于，所述第四数据处理模块具体包括：

10.根据权利要求7所述的检测系统，其特征在于，第五数据处理单元具体包括：