CN110322165A

CN110322165A - 广告作弊风险评估的方法和装置

Info

Publication number: CN110322165A
Application number: CN201910622382.4A
Authority: CN
Inventors: 张永杰
Original assignee: Xi'an Notice Network Technology Co Ltd
Current assignee: Xi'an Notice Network Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-11

Abstract

本发明实施例提供一种广告作弊风险评估的方法及装置，涉及智能广告技术领域，用以解决现有技术在广告数据作弊分析时存在的工作量大、多个维度无法同时全面覆盖、无法精准判断流量中作弊风险的问题。本案为：建立第一数据库，从第一数据库中获取m个目标指标数据，根据m个目标指标数据确定每个指标的权重，根据每个指标的权重确定广告的作弊风险评分。

Description

广告作弊风险评估的方法和装置

技术领域

本发明涉及智能广告技术领域，具体涉及一种广告作弊风险评估的方法和装置。

背景技术

网盟在广告投放中，用户在点击广告的时就可以直接获得广告点击的全部数据，当用户下载安装后，网盟通过广告主(第三方)的回传获得用户的安装数据。网盟业务在运营中查询获取到点击数据和安装数据，并分别逐个提取维度进行分析，然后优化广告的流量(渠道)接入，由于网盟的广告每天产生数亿点击、近百万安装数据，流量端也有几百家渠道，流量作弊也随之出现，且流量端的作弊手段越来越多样，给网盟公司造成和广告主用户带来巨大的经济损失。

在现有技术下，行业内日益加强对作弊流量的监控，行业内检查流量作弊的核心指标多达十多个维度的数据指标，反作弊分析是通过运营人员一个一个的监控分析，由于网盟每天激活的广告多达上万条，其产生的点击安装数据也很庞大，这种情况下，人工分析数据的局限性也被无限放大，因此，在实际日常运营过程中每一个广告都需要花费运营人员巨大的工作量来分析数据，无法同时全面覆盖，无法精准判断流量中作弊风险，同时无法掌控虚假流量对公司造成的损失以及给广告主用户带来的经济损失。

发明内容

本发明的实施例提供一种广告作弊风险评估的方法和装置，解决了现有技术中在广告数据作弊分析时存在的工作量大、多个维度无法同时全面覆盖、无法精准判断流量中作弊风险的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

本发明实施例的第一方面，提供一种广告作弊风险评估的方法，包括：建立第一数据库，所述第一数据库包括K个指标数据，K为整数；从所述第一数据库中获取m个目标指标数据，所述目标指标数据为与作弊风险评估相关的数据，其中：2≦m≦K；根据所述m个目标指标数据确定每个指标的权重；根据所述每个指标的权重确定广告的作弊风险评分。

在一个实施例中，所述建立第一数据库包括：根据广告标识从第二数据库中筛选指标数据；预处理筛选出的指标数据，得到K个指标数据；将所述K个指标数据存储至第一数据库。

在一个实施例中，所述方法还包括：周期性的更新所述第一数据库中的K个指标数据。

在一个实施例中，所述方法还包括：根据风险等级映射关系和所述广告的作弊风险评分确定广告的作弊风险等级，所述风险等级映射关系为作弊风险评分区间与作弊风险等级之间的对应关系；输出所述广告的作弊风险等级。

在一个实施例中，所述方法还包括：根据风险状态映射关系和所述m个目标指标数据确定所述m个目标指标数据的数据状态，所述风险状态映射关系为风险状态区间与数据状态之间的对应关系，所述数据状态包括合理状态、可疑状态或作弊状态；输出所述m个目标指标数据的数据状态。

在一个实施例中，所述根据每个指标的权重确定广告的作弊风险评分，包括：将所述每个指标的权重代入加权算法公式中，得到广告的作弊风险评分。

其中，所述加权算法公式为：

所述w_j表示第j个目标指标数据的权重，L_j为第j个目标指标数据设定区间的下限值，U_j为第j个目标指标数据设定区间的上限值，a_j为第j个目标指标数据的实测值，FraudRisk为广告的风险评分，j＝1,2,…,m。

在一个实施例中，所述每个指标的权重是通过熵值法确定的。

本发明实施例的第二方面，提供一种广告作弊风险评估的装置，包括：建立模块，被配置为用于建立第一数据库，所述第一数据库包括K个指标数据；获取模块，被配置为用于从所述第一数据库中获取m个目标指标数据，所述目标指标数据为与作弊风险评估相关的数据，其中：2≦m≦K；权重确定模块，被配置为用于根据所述m个目标指标数据确定每个指标的权重；作弊风险评分确定模块，被配置为用于根据所述每个指标的权重确定广告的作弊风险评分。

在一个实施例中，所述建立模块，被配置为具体用于：根据广告标识从第二数据库中筛选指标数据；预处理筛选出的指标数据，得到K个指标数据；将所述K个指标数据存储至第一数据库。

在一个实施例中，所述装置还包括：更新模块，被配置为用于周期性的更新所述第一数据库中的K个指标数据。

在一个实施例中，所述装置还包括：评定模块，被配置为用于根据风险等级映射关系和所述广告的作弊风险评分确定广告的作弊风险等级，所述风险等级映射关系为作弊风险评分区间与作弊风险等级之间的对应关系。

在一个实施例中，所述装置还包括：作弊风险等级输出模块，被配置为用于输出所述广告的作弊风险等级。

在一个实施例中，所述装置还包括：数据状态确定模块，被配置为用于根据风险状态映射关系和所述m个目标指标数据确定所述m个目标指标数据的数据状态，所述风险状态映射关系为风险状态区间与数据状态之间的对应关系，所述数据状态包括合理状态、可疑状态或作弊状态。

在一个实施例中，所述装置还包括：数据状态输出模块，被配置为具体用于输出所述m个目标指标数据的数据状态。

在一个实施例中，所述作弊风险评分确定模块，被配置为具体用于将所述每个指标的权重代入加权算法公式中，得到广告的作弊风险评分。

其中，所述加权算法公式为：

在一个实施例中，所述权重确定模块，被配置为用于确定每个指标的权重是通过熵值法确定的。

本发明实施例的第三方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例的第一方面所述的方法。

本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行本发明实施例的第一方面所述的方法。

本发明实施例提供的广告作弊风险评估的方法和装置，首先，建立第一数据库，降低了在实际日常运营过程中每一个广告需要花费的巨大的工作量；然后，从所述第一数据库中获取m个目标指标数据，所述目标指标数据为与作弊风险评估相关的数据，实现了同时全面的覆盖对广告数据的多个数据指标进行分析；最后，根据所述m个目标指标数据确定每个指标的权重；根据所述每个指标的权重确定广告的作弊风险评分，实现了精准判断出流量中存在的作弊风险，便于网盟及时掌控虚假流量对公司造成的损失以及给广告主用户带来的经济损失。

附图说明

为了更加清楚地说明本发明实施例中涉及的技术方案，下面将针对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网盟优化流量示意图；

图2为本发明实施例提供的一种作弊风险评估的方法的流程示意图；

图3为本发明实施例提供的一种作弊风险评估的方法的流程示意图；

图4为本发明实施例提供的一种生成第一数据库的方法的流程示意图；

图5为本发明实施例提供的一种作弊风险评估的方法的流程示意图；

图6为本发明实施例提供的一种作弊风险评估的装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。显然，本发明所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下描述中，为了说明而不是为了限定，提出了诸如特定内部程序、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

如本发明中所使用，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如本发明中所使用，术语“装置”、“模块”等意在指代计算机相关实体，其为硬件、软件、执行中的软件、固件、中间件、微码，或其任何组合。举例来说，模块可以是(但不限于)在处理器上运行的进程、处理器、对象、可执行程序、执行线程、程序或计算机。一个或一个以上组件可储存在一进程或执行线程内，且模块可局限于一个计算机上或分布在两个或两个以上计算机之间。另外，这些模块可从上面存储有各种数据结构的各种计算机可读媒体执行。另外，本发明所描述的系统的模块可重新布置或由额外组件补充以便促进实现相对于其描述的各个目标、优点等，且不限于给定图式中陈述的精确配置，如所属领域的技术人员将了解。

如本发明所使用，术语“用户代理(英文全称：User Agent，简称：UA)，是一个字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

如本发明所使用，术语“Athena”，Athena是Amazon的一种交互式查询服务的数据库，使用标准结构化查询语言(英文全称：Structured Query Language，简称：SQL)，分析Amazon S3中的数据，Athena没有服务器，无需管理任何基础设施，只需为运行的查询付费；简单易用，只需指向存储在Amazon S3中的数据，定义架构并使用标准SQL开始查询。可在数秒内获取最多的结果，使用Athena，无需执行复杂的ETL作业来为数据分析做准备，具备SQL技能的任何人都可以轻松快速地分析大规模数据集。

如本发明所使用，术语“Amazon S3”是一个公开的服务，Web应用程序开发人员使用它存储数字资产，包括图片、视频、音乐和文档；S3是一个全球存储区域网络(SAN)，为一个超大的硬盘，可以在其中存储和检索数字资产。

如本发明所使用，术语“数据仓库技术(英文全称：Extract-Transform-Load，简称：ETL)”，是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

如本发明所使用，术语“parquet”，是一种面向分析型业务的列式存储格式。

如本发明所使用，术语“EMR”，是Amazon提供的托管分布式文件系统(英文全称：Hadoop Distributed File System)的框架，快速、轻松、经济高效地在多个动态可扩展的亚马逊弹性计算云(英文全称：Amazon Elastic Compute Cloud，简称：Amazon EC2)实例中处理大量数据，安全可靠地处理广泛的大数据使用案例，包括日志分析、Web索引、ETL、机器学习、财务分析、科学模拟和生物信息。

在本发明实施例中，该广告作弊风险评估的方法的执行主体为广告作弊风险评估的装置。示例性的，该广告作弊风险评估的装置可以是：计算机或服务器等，具体可通过软件的形式实现，本发明实施例对此不进行具体限制。

相比于现有技术，本发明实施例提供的广告作弊风险评估的方法和装置，首先，建立第一数据库，降低了在实际日常运营过程中每一个广告需要花费的巨大的工作量；然后，从第一数据库中获取m个目标指标数据，目标指标数据为与作弊风险评估相关的数据，实现了同时全面的覆盖对广告数据的多个数据指标进行分析；最后，根据m个目标指标数据确定每个指标的权重；根据每个指标的权重确定广告的作弊风险评分，实现了精准判断出流量中存在的作弊风险，便于网盟及时掌控虚假流量对公司造成的损失以及给广告主用户带来的经济损失。以下将结合附图来详细描述本发明的实施例及其优点。在以下描述中，出于阐释的目的，陈述大量特定细节以便提供对一个或一个以上方面的透彻理解。然而，可显而易见，可在无这些特定细节的情况下实践各种方面。在其它实施例子中，以框图形式来展示众所周知的结构和装置，以便促进描述这些方面。

如图1所示，为本发明实施例提供的一种网盟优化流量示意图，包括：网盟在广告投放中，当用户点击广告数据后，向网盟返回广告点击数据，当用户下载安装广告数据后，广告主向网盟回传用户的安装数据，网盟在运营中查询获取到的点击数据和安装数据，并分别逐个提取维度进行分析，然后优化广告的流量(渠道)接入。

如图2所示，为本发明实施例提供的一种作弊风险评估的方法的流程示意图，该方法包括：首先，对网盟Athena总数据库进行数据挖掘，生成作弊数据库Fraud Athena；其次，根据作弊数据库Fraud Athena，通过指标计算形成作弊报告Fraud Report；第三、对作弊报告Fraud Report通过算法拟合确定作弊风险评分；最后，根据作弊风险评分通过结果评定确定作弊风险等级。

如图3所示，为本发明实施例提供的一种作弊风险评估的方法的流程示意图，其通过以下的内容来对图2的内容进行详细的描述，该方法包括：

S301、建立第一数据库。

其中，上述的第一数据库包括K个指标数据，K为整数。

其中，上述的指标数据包括：点击时间、安装时间、点击ip、安装ip、点击地区、安装地区、点击设备UA、安装设备UA、用户打开会话(session)、安装应用版本、安装被拒数量、渠道id、广告id、广告主id、点击数量以及转化数量。

当然，在本发明实施例中，本发明的上述的K个指标数据包括但不限于此处所列举的指标数据数量，其包括所有针对实现该功能的广告数据进行获取的指标数据，其数量包含但不限于此处列举的17个，其可根据用户的需求自定义设置，本发明实施例对此不进行具体限制。

可选的，在实际的数据处理过程中，上述的步骤S301内容可以以图4所示的内容来实现，如图4所示，为本发明实施例提供的一种生成第一数据库方法的流程示意图，该方法包括：首先，从网盟Athena数据库选取指标数据；其次，启用EMR服务用spark作业将明细数据按照“渠道id、广告主id和广告id”进行分组求和处理为统计数据，生成列式的parquet文件；最后，将parquet文件映射到作弊Athena数据库。

示例性的，如图5所示，为本发明实施例提供的一种作弊风险评估的方法的流程示意图，上述的步骤S301具体可以通过以下内容来实现：

S301a、根据广告标识从第二数据库中筛选指标数据。

可选的，根据广告标识从第二数据库中筛选指标数据包括：以第二数据库作为数据源，根据目标客户广告标识筛选出目标范围数据；选择上述的K个指标数据作为点击安装作弊风险预估原始数据。

其中，上述的第二数据库包括但不限于网盟Athena数据库，其还可以是其他任何汇集广告数据的数据库，本发明实施例在此不做限制。

S301b、预处理筛选出的指标数据，得到K个指标数据。

可选的，上述的预处理筛选包括：启用EMR服务用spark作业将明细数据按照“渠道id、广告主id和广告id”进行分组求和处理为统计数据；在AWS S3上生成列式的parquet文件。

S301c、将K个指标数据存储至第一数据库。

可选的，上述的步骤S301c可以通过以下内容来实现：将上述的parquet文件映射到可以使用标准SQL查询的用于交互式作弊的第一数据库，该第一数据库可以为Athena数据库。

可选的，为了获取实时的、准确的、最新的第一数据库，在上述的S301之后，该方法还包括：

周期性的更新第一数据库中的K个指标数据。

可选的，上述的步骤S301d可以通过以下内容来实现：周期性的根据广告标识从第二数据库中筛选指标数据；预处理筛选出的指标数据，得到K个指标数据；将K个指标数据存储至第一数据库。

S302、从第一数据库中获取m个目标指标数据。

其中，上述的目标指标数据为与作弊风险评估相关的数据，2≦m≦K。

其中，上述的目标指标数据包括：Click Hijacking Rate(点击劫持率)、ClickFlood Rate(虚假点击率)，CR(转化率)、Abnormal IP Rate(异常IP率)、Conflict DeviceRegion Rate(设备地址不一致率)、Conflict Device Info Rate(设备信息不一致率)、Incentive User Rate(诱导用户率)、Out Of Store Rate(与商店版本不一致率)、以及Rejected Rate(被拒率)。

其中，上述的目标指标数据的具体内容及计算方法如表1所示：

表1

可选的，在本发明实施例中，本发明的上述的m个目标指标数据包括但不限于此处所列举的目标指标数据数量，其包括所有针对实现该功能获取的目标指标数据，其数量包含但不限于此处列举的9个，其可根据用户的需求自定义设置以及自定义选择，本发明实施例对此不进行具体限制。

S303、根据m个目标指标数据确定每个指标的权重。

可选的，上述的每个指标的权重是通过熵值法确定的。

其中，上述的熵值法计算权重具体为：

选取n个广告，m个目标指标数据，对m个目标指标数据执行归一化处理。

其中，上述的归一化处理是指将异质指标同质化，使各项目标指标数据的不同计量单位统一化。

可选的，上述的归一化处理是把每个指标数据的绝对值转化为相对值，并设置令x_ij＝|x_ij|，x_ij为第i个广告的第j个指标的数值(i＝1，2…，n；j＝1，2，…，m)。

正向指标和负向指标数值代表的含义不同，正向指标数值越高越好，负向指标数值越低越好。

对于正负指标使用不同的算法进行数据标准化处理，其具体方法如下:

正向指标:

负向指标:

则x′_ij为第i个广告的第j个指标的数值，

归一化后的数据仍记为x_ij；

计算第j项指标下第i个广告占该指标的比重：

计算第j项指标的熵值：

其中，k＝1/ln(n)，满足e_ij≥0；

计算信息熵冗余度：d_j＝1-e_j (公式五)

计算每个指标的权重：

示例性的，通过上述的熵值法确定每个指标的权重如表2所示：

表2

指标	指标的权重
		Click Hijacking Rate	0.187841
Click Flood Rate	0.07962
		CR	0.040418
Abnormal IP Rate	0.257939
		Conflict Device Region Rate	0.058177
Conflict Device Info Rate	0.018507
		Incentive Users Rate	0.174937
Out Of Store Rate	0.011653
		Rejected Rate	0.170907

S304、根据每个指标的权重确定广告的作弊风险评分。

可选的，上述的步骤S304具体可以通过以下内容实现：

将上述的每个指标的权重代入加权算法公式中，得到广告的作弊风险评分。

示例性的，上述的加权算法公式为：

上述的公式七中的w_j表示第j个目标指标数据的权重，L_j为第j个目标指标数据设定区间的下限值，U_j为第j个目标指标数据设定区间的上限值，a_j为第j个目标指标数据的实测值，Fraud Risk为广告的风险评分，j＝1,2,…,m。

可选的，为了便于工作人员监控并及时、直观的预判目标指标数据的状态，S304之后还包括：

根据风险状态映射关系和m个目标指标数据确定m个目标指标数据的数据状态。

其中，上述的风险状态映射关系为风险状态区间与数据状态之间的对应关系，上述的数据状态包括合理状态、可疑状态或作弊状态。

输出m个目标指标数据的数据状态。

可选的，在输出m个目标指标数据的数据状态时，对不同的风险状态可以设置不同的颜色加以区分，通过设置不同的颜色来反映不同的数据状态。

可选的，上述的风险状态映射关系如表3所示：

表3

由表3可知，根据风险状态映射关系表，可快速查询目标指标数据所处的数据状态，例如，当Click Flood Rate的风险状态值为25％时，根据表3查询可知，Click FloodRate的数据状态是处于作弊状态，装置界面显示作弊状态为红色。

可选的，在本发明实施例中，对于风险状态区间，其根据实际情况和历史统计数据，根据不同的情况进行自行设定，其包括但不限于一个固定的数值，其可根据使用环境和当前使用条件进行不同的设定调整，本发明实施例对此不进行具体限制。

可选的，在本发明实施例中，对于数据状态，仅列举了三个状态，合理状态、可疑状态和作弊状态，本领域技术人员应知，数据状态包括但不限于为三个状态，可通过用户根据实际情况自定义设置，其可以设置为至少可以为两个状态，本发明实施例对此不进行具体限制。

可选的，在本发明实施例中，对于颜色，其可通过自定义，颜色仅用于区分不同数据状态，其包括但不限于表2中列举的红色、绿色，其可通过用户自定义设置，本发明实施例对此不进行具体限制。

可选的，为了方便用户准确的、直观的、快速的获取广告的作弊风险，S304之后还包括：

根据风险等级映射关系和广告的作弊风险评分确定广告的作弊风险等级。

其中，风险等级映射关系为作弊风险评分区间与作弊风险等级之间的对应关系。

可选的，上述的风险等级映射关系如表4所示：

表4

由上表4可知，根据计算的广告的作弊风险评分，可快速查询其对应的作弊风险等级，例如，当广告的作弊风险评分为45％时，根据表4查询可知，该广告的作弊风险等级为3级。

输出上述的广告的作弊风险等级。

在本发明实施例中，对于广告的作弊风险评分，其根据实际情况或历史数据确定，可根据不同的情况进行自行设定，其包括但不限于区间数值，其可根据使用环境和当前条件进行不同的设定调整，其包括但不限于三个区间，此处列举了三个区间，本发明实施例对此不进行具体限制。

在本发明实施例中，对于作弊风险等级，其可通过用户根据不同的情况进行自定义设置，其包括但不限于三个等级，此处列举了三个等级，但该等级可设置为至少2个，其表达可以是数字、文字或用户定义的其他表现方式，例如，高中低等，本发明实施例对此不进行具体限制。

相比于现有技术，本发明实施例提供的广告作弊风险评估的方法，首先，通过根据风险状态映射关系和m个目标指标数据确定m个目标指标数据的数据状态，便于工作人员监控并及时、直观的预判目标指标数据的状态；其次，根据风险等级映射关系和广告的作弊风险评分确定广告的作弊风险等级，方便用户准确、及时、直观的获取广告的作弊风险，便于网盟及时掌控虚假流量对公司造成的损失以及给广告主用户带来的经济损失。

下面将基于图3对应的广告作弊风险评估的方法的实施例中的相关描述对本发明实施例提供的一种广告作弊风险评估的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例，这里不再赘述。

如图6所示，为本发明实施例提供的一种作弊风险评估的装置的结构示意图，该装置600包括：建立模块601、获取模块602、权重确定模块603以及作弊风险评分确定模块604，其中：建立模块601，被配置为用于建立第一数据库；上述的第一数据库包括K个指标数据；获取模块602，被配置为用于从上述的第一数据库中获取m个目标指标数据；其中，目标指标数据为与作弊风险评估相关的数据，2≦m≦K；权重确定模块603，被配置为用于根据m个目标指标数据确定每个指标的权重；作弊风险评分确定模块604，被配置为用于根据每个指标的权重确定广告的作弊风险评分。

优选的，建立模块601，被配置为用于根据广告标识从第二数据库中筛选指标数据，预处理筛选出的指标数据，得到K个指标数据，并将K个指标数据存储至第一数据库。

可选的，作弊风险评分确定模块604，被配置为用于将每个指标的权重代入加权算法公式中，得到广告的作弊风险评分。

其中，上述的加权算法公式为：

可选的，上述的权重确定模块603，被配置为还用于确定每个指标的权重是通过熵值法确定的。

可选的，上述的装置600还包括：更新模块605，被配置为用于周期性的更新第一数据库中的K个指标数据。

可选的，上述的装置600还包括：数据状态确定模块606，被配置为用于根据风险状态映射关系和m个目标指标数据确定m个目标指标数据的数据状态。

可选的，上述的装置600还包括：数据状态输出模块607，被配置为用于输出m个目标指标数据的数据状态。

可选的，上述的装置600还包括：评定模块608，被配置为用于根据风险等级映射关系和广告的作弊风险评分确定广告的作弊风险等级；其中，风险等级映射关系为作弊风险评分区间与作弊风险等级之间的对应关系。

可选的，上述的装置600还包括：作弊风险等级输出模块609，被配置为用于输出广告的作弊风险等级。

相比于现有技术，本发明实施例提供的广告作弊风险评估的装置，首先，建立第一数据库，降低了在实际日常运营过程中每一个广告需要花费的巨大的工作量；然后，从第一数据库中获取m个目标指标数据，目标指标数据为与作弊风险评估相关的数据，实现了同时全面的覆盖对广告数据的多个数据指标进行分析；最后，根据m个目标指标数据确定每个指标的权重；根据每个指标的权重确定广告的作弊风险评分，实现了精准判断出流量中存在的作弊风险，便于网盟及时掌控虚假流量对公司造成的损失以及给广告主用户带来的经济损失。

如图7所示，为本发明实施例提供的一种电子设备的结构示意图，电子设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线707。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

本发明实施例提供一种计算机存储介质，包括计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行如上所述的方法流程。示例性的，计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质，(例如，软盘，硬盘、磁带)、光介质(例如，DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种广告作弊风险评估的方法，其特征在于，所述方法包括：

建立第一数据库，所述第一数据库包括K个指标数据；

从所述第一数据库中获取m个目标指标数据，所述目标指标数据为与作弊风险评估相关的数据，其中：2≦m≦K；

根据所述m个目标指标数据确定每个指标的权重；以及

根据所述每个指标的权重确定广告的作弊风险评分。

2.根据权利要求1所述的方法，其特征在于，所述建立第一数据库，包括：

根据广告标识从第二数据库中筛选指标数据；

预处理筛选出的指标数据，得到K个指标数据；以及

将所述K个指标数据存储至第一数据库。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

周期性的更新所述第一数据库中的K个指标数据。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据风险等级映射关系和所述广告的作弊风险评分确定广告的作弊风险等级，所述风险等级映射关系为风险评分区间与作弊风险等级之间的对应关系；以及

输出所述广告的作弊风险等级。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据风险状态映射关系和所述m个目标指标数据确定所述m个目标指标数据的数据状态，所述风险状态映射关系为风险状态区间与数据状态之间的对应关系，所述数据状态包括合理状态、可疑状态或作弊状态；以及

输出所述m个目标指标数据的数据状态。

6.根据权利要求1所述的方法，其特征在于，所述根据每个指标的权重确定广告的风险评分，包括：将所述每个指标的权重代入加权算法公式中，得到广告的风险评分；

其中，所述加权算法公式为：

所述w_j表示第j个目标指标数据的权重，L_j为第j个目标指标数据设定区间的下限值，U_j为第j个目标指标数据设定区间的上限值，a_j为第j个目标指标数据的实测值，Fraud Risk为广告的风险评分，j＝1,2,…,m。

7.根据权利要求1所述的方法，其特征在于，所述每个指标的权重是通过熵值法确定的。

8.一种广告作弊风险评估的装置，其特征在于，所述装置包括：

建立模块，被配置为用于建立第一数据库，所述第一数据库包括K个指标数据；

获取模块，被配置为用于从所述第一数据库中获取m个目标指标数据，所述目标指标数据为与作弊风险评估相关的数据，其中：2≦m≦K；

权重确定模块，被配置为用于根据所述m个目标指标数据确定每个指标的权重；以及

作弊风险评分确定模块，被配置为用于根据所述每个指标的权重确定广告的作弊风险评分。

9.一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求1-7任一项所述的方法。