CN106815452A

CN106815452A - 一种作弊检测方法及装置

Info

Publication number: CN106815452A
Application number: CN201510846125.0A
Authority: CN
Inventors: 孙鹏飞; 李春生; 金阳春
Original assignee: Suning Commerce Group Co Ltd
Current assignee: Suning Commerce Group Co Ltd
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2017-06-09

Abstract

本发明实施例公开了一种作弊检测方法及装置，涉及电子商务技术领域，能够降低审核的成本，并进一步提高自动审查的深度。本发明的方法包括：对样本数据进行统计，得到各个样本的指标参数，一个样本的指标参数的维度包括：一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量；根据指标参数，生成各个样本的特征参数，一个样本的特征参数的维度包括：点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量；根据各个样本的特征参数建立检测模型，并根据检测模型判定待测试的商品数据是否异常，检测模型的维度包括各个样本的特征参数的维度。本发明适用于自动审核作弊商品和用户。

Description

一种作弊检测方法及装置

技术领域

本发明涉及电子商务技术领域，尤其涉及一种作弊检测方法及装置。

背景技术

随着电子商务技术的发展，在线购物平台已成为消费者在日常生活不可或缺的工具，在线购物平台也为商家提供了一种快捷方便并且成本低廉的销售渠道。而搜索引擎作为消费者检索商品的主要工具，如何在在线购物平台的搜索引擎上提高商品的曝光机会，是各大购物网站和商家最为关心的事情。

商家为了获得更高的访问量，进而获得更高的经济效益，总是希望将自己店铺的商品排在搜索结果靠前的位置。目前已经出现不少商家针对搜索引擎的特点，采取欺骗手段提高商品在搜索引擎中的排名，比如：雇佣水军进行商品评论，通过虚假订单提高店铺的交易量等等，即所谓的作弊行为。

为了防止商家的作弊行为，很多在线购物平台采用人工审核的方式确定店铺中的商品是否是作弊商品。但是由于工资水平的提高，以及商品的种类、数量的暴增，人工审核的成本很高。并且审查作弊商品已经需要占用很多人工成本，对于实行作弊的用户或是商品的审查，往往处于缺失状态，基本都是通过其他用户举报的方式进行被动处理。

发明内容

本发明的实施例提供一种作弊检测方法及装置，能够降低审核的成本，并进一步提高自动审查的深度。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供一种作弊检测方法，包括：对样本数据进行统计，得到各个样本的指标参数，其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量；

根据所述指标参数，生成各个样本的特征参数，其中，一个样本的特征参数的维度包括：点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量；

根据所述各个样本的特征参数建立检测模型，并根据所述检测模型判定待测试的商品数据是否异常，所述检测模型的维度包括所述各个样本的特征参数的维度。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据所述指标参数，生成各个样本的特征参数，包括：

对于一个样本：

根据C＝Stdev/Mean获取所述一个样本的总点击量离散系数，其中，Stdev表示所述一个样本的总点击量的标准差，Mean表示所述一个样本的总点击量的平均数，C表示所述一个样本的总点击量离散系数；

根据C’＝Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数，其中，Stdev’表示所述一个样本的在指定时段内的点击量的标准差，Mean’表示所述一个样本的在指定时段内的平均数，C’表示所述一个样本的在指定时段内的离散系数；

根据R＝max(ni)/N获取所述一个样本的地域集中度，其中，ni表示所述一个样本的样本点击地区中的单个城市的点击量，N表示所述一个样本的样本点击地区中的总点击量，R表示所述一个样本的地域集中度；

根据H＝-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数，其中，H表示多样性指数，Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例，当总点击量为N时，第i个查询词对应的点击量为ni，则Pi＝ni/N；

根据P＝N/U获取所述一个样本的人均点击量，其中，N表示所述一个样本的总点击量，U表示所述一个样本的点击人数，P表示人均点击量；

重复上述对于所述一个样本的过程，得到各个样本的特征参数。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据所述各个样本的特征参数建立检测模型，包括：

建立基础模型(X，Y)，其中，X＝(x1,x2,x3,x4,x5),Y＝(1,0)，x1表示点击量离散系数，x2表示指定时段内的点击量离散系数，x3表示地域集中度，x4表示查询词多样性指数，x5表示人均点击量，Y＝1表示数据异常，Y＝0表示数据正常

根据所述各个样本的特征参数训练所述基础模型，得到所述检测模型。

结合第一方面，在第一方面的第三种可能的实现方式中，还包括：

当待测试的商品数据异常时，提取目标用户的信息，所述目标用户包括点击了出现异常的商品数据的用户；

提取目标用户针对所述出现异常的商品数据的点击数；

根据所述目标用户针对所述出现异常的商品数据的点击数，检测作弊用户的点击数；

在所述出现异常的商品数据中，去除所述作弊用户的点击数。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，还包括：所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户；或者，点击数处于大于μ-2σ和小于μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。

第二方面，本发明的实施例提供一种作弊检测方法，包括：统计模块，用于对样本数据进行统计，得到各个样本的指标参数，其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量；

特征提取模块，用于根据所述指标参数，生成各个样本的特征参数，其中，一个样本的特征参数的维度包括：点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量；

分析模块，用于根据所述各个样本的特征参数建立检测模型，并根据所述检测模型判定待测试的商品数据是否异常，所述检测模型的维度包括所述各个样本的特征参数的维度。

结合第二方面，在第二方面的第一种可能的实现方式中，所述特征提取模块，具体用于，对于一个样本：根据C＝Stdev/Mean获取所述一个样本的总点击量离散系数，其中，Stdev表示所述一个样本的总点击量的标准差，Mean表示所述一个样本的总点击量的平均数，C表示所述一个样本的总点击量离散系数；根据C’＝Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数，其中，Stdev’表示所述一个样本的在指定时段内的点击量的标准差，Mean’表示所述一个样本的在指定时段内的平均数，C’表示所述一个样本的在指定时段内的离散系数；根据R＝max(ni)/N获取所述一个样本的地域集中度，其中，ni表示所述一个样本的样本点击地区中的单个城市的点击量，N表示所述一个样本的样本点击地区中的总点击量，R表示所述一个样本的地域集中度；根据H＝-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数，其中，H表示多样性指数，Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例，当总点击量为N时，第i个查询词对应的点击量为ni，则Pi＝ni/N；根据P＝N/U获取所述一个样本的人均点击量，其中，N表示所述一个样本的总点击量，U表示所述一个样本的点击人数，P表示人均点击量；

并重复上述对于所述一个样本的过程，得到各个样本的特征参数。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述分析模块，具体用于建立基础模型(X，Y)，其中，X＝(x1,x2,x3,x4,x5),Y＝(1,0)，x1表示点击量离散系数，x2表示指定时段内的点击量离散系数，x3表示地域集中度，x4表示查询词多样性指数，x5表示人均点击量，Y＝1表示数据异常，Y＝0表示数据正常

结合第二方面，在第二方面的第三种可能的实现方式中，还包括：降权模块，所述降权模块包括：

用户提取子模块，用于当待测试的商品数据异常时，提取目标用户的信息，所述目标用户包括点击了出现异常的商品数据的用户；

点击数分析子模块，用于提取目标用户针对所述出现异常的商品数据的点击数；并根据所述目标用户针对所述出现异常的商品数据的点击数，检测作弊用户的点击数；

筛选子模块，用于在所述出现异常的商品数据中，去除所述作弊用户的点击数。

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，还包括：所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户；或者，点击数处于大于μ-2σ和小于μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。

本发明实施例提供的作弊检测方法及装置，分析服务器通过对商品数据的各个统计指标进行统计计算，并依据统计指标进行特征提取，再利用所提取的特征建立并训练检测模型，根据训练的检测模型判定异常的商品数据。还对作弊用户进行筛选，将对于商品的点击数在异常范围的用户，从而在筛选作弊商品的同时，还实现了锁定作弊用户的。相对于现有技术中的人工审核作弊行为的方式，本发明能够自动检测并筛选出作弊商品，并且还能够锁定实行作弊行为的用户，从而在降低审核的成本同时，还能进一步提高自动审查的深度，以便于实现更将复杂的自动审查方案。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的执行设备的结构示意图；

图2为本发明实施例提供的作弊检测方法的流程示意图；

图3a、图3b为本发明实施例提供的作弊检测装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例中方法流程，可以由一种承担数据分析功能的服务器执行，在本实施例中可称为分析服务器，例如：如图1所示为根据本发明一个具体实施方式的分析服务器。所述分析服务器包括输入单元、处理器单元、输出单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解，图中示出的分析服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施方式中。

输入单元用于实现操作人员、技术人员与分析服务器的交互和/或信息输入到分析服务器中。例如，输入单元可以接收操作人员、技术人员输入的数字或字符信息，以产生与操作人员、技术人员设置或功能控制有关的信号输入。在本发明具体实施方式中，输入单元可以是触控面板，也可以是其他人机交互界面，还可是其他外部信息撷取装置。处理器单元为分析服务器的控制中心，利用各种接口和线路连接整个分析服务器的各个部分，通过运行或执行存储在存储单元内的软件程序和/或模块，以及调用存储在存储单元内的数据，以执行分析服务器的各种功能和/或处理数据。所述处理器单元可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器单元可以仅包括中央处理器(Central Processing Unit，简称CPU)，也可以是GPU、数字信号处理器(Digital SignalProcessor，简称DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。所述通信单元用于建立通信信道，使分析服务器通过所述通信信道以连接至其他的服务器设备，或是通过有线或无线网络与用户终端进行通信，比如：分析服务器通过接口接入移动无线网络，并通过移动无线网络将广告内容或广告想分析信息(URL)向用户终端发送。在本发明的不同实施方式中，所述通信单元中的各种通信模块一般以集成电路芯片(Integrated Circuit Chip)的形式出现，并可进行选择性组合，而不必包括所有通信模块及对应的天线组。例如，所述通信单元可以仅包括基带芯片、射频芯片以及相应的天线以在一个蜂窝通信系统中提供通信功能。经由所述通信单元建立的无线通信连接，例如无线局域网接入或WCDMA接入，所述分析服务器可以连接至蜂窝网(Cellular Network)或因特网(Internet)。在本发明的一些可选实施方式中，所述通信单元中的通信模块，例如基带模块可以集成到处理器单元中，典型的如高通(Qualcomm)公司提供的APQ+MDM系列平台。输出单元包括但不限于影像输出单元和声音输出单元。影像输出单元用于输出文字、图片和/或视频。所述影像输出单元可包括显示面板。存储单元可用于存储软件程序以及模块，处理单元通过运行存储在存储单元的软件程序以及模块，从而执行分析服务器的各种功能应用以及实现数据处理。存储单元主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序，比如用于执行本实施例方法流程的数据分析程序和降权模块等等。存储单元可以包括易性存储器，例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory，简称NVRAM)、相变化随机存取内存(Phase Change RAM，简称PRAM)、磁阻式随机存取内存(Magetoresistive RAM，简称MRAM)等，还可以包括非易失性存储器，例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)、闪存器件，例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)。电源用于给分析服务器的不同部件进行供电以维持其运行。作为一般性理解，所述电源可以是内置的电池，例如常见的锂离子电池、镍氢电池等，也包括直接向分析服务器供电的外接电源，例如AC适配器等。在本发明的一些实施方式中，所述电源还可以作更为广泛的定义，例如还可以包括电源管理系统、充电系统、电源故障检测电路、电源转换器或逆变器、电源状态指示器(如发光二极管)，以及与分析服务器的电能生成、管理及分布相关联的其他任何组件。

本发明实施例提供一种作弊检测方法，如图2所示，包括：

101，对样本数据进行统计，得到各个样本的指标参数。

其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量。需要说明的是，本实施例中的样本数据主要指作为样本的商品数据，例如：分析服务器在执行101之前，可以对商品数据进行统计计算，并对脏数据进行清洗过滤，其中，脏数据指的是数据错误、无法正常读取，或者不属于商品数据的数据碎片等，以便之后按照统计规则计算商品的各个指标参数。并从清洗过滤后的商品数据中按照预设的样本筛选规则，提取作为样本数据的商品数据。

102，根据所述指标参数，生成各个样本的特征参数。

其中，一个样本的特征参数的维度包括：点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量。

需要说明的是，本实施例中特征参数的维度并不仅限于点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量，还可以包括其他参数。例如：在101中，对样本数据进行统计，除了所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量以外的指标参数的维度，比如促销活动类型、市场信息等。在本实施例中101中所得到的一个样本的指标参数的维度与特征参数的维度数量相同，并且一一对应。

103，根据所述各个样本的特征参数建立检测模型，并根据所述检测模型判定待测试的商品数据是否异常。

其中，所述检测模型的维度包括所述各个样本的特征参数的维度。在本实施例中，当一个商品的商品数据出现异常时，也可将该商品称为作弊商品。

具体的，在本实施例中，所述根据所述指标参数生成各个样本的特征参数的具体方式，可以包括：

对于一个样本：

1、根据C＝Stdev/Mean获取所述一个样本的总点击量离散系数。

其中，Stdev表示所述一个样本的总点击量的标准差，Mean表示所述一个样本的总点击量的平均数，C表示所述一个样本的总点击量离散系数。

2、根据C’＝Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数。

其中，Stdev’表示所述一个样本的在指定时段内的点击量的标准差，Mean’表示所述一个样本的在指定时段内的平均数，C’表示所述一个样本的在指定时段内的离散系数。指定时段可以是24小时，也可以是1个小时或是6个小时，本实施例中以指定时段为24小时为例进行说明。

3、根据R＝max(ni)/N获取所述一个样本的地域集中度。

其中，ni表示所述一个样本的样本点击地区中的单个城市的点击量，N表示所述一个样本的样本点击地区中的总点击量，R表示所述一个样本的地域集中度。

4、根据H＝-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数。

其中，H表示多样性指数，Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例，当总点击量为N时，第i个查询词对应的点击量为ni，则Pi＝ni/N。

5、根据P＝N/U获取所述一个样本的人均点击量。

其中，N表示所述一个样本的总点击量，U表示所述一个样本的点击人数，P表示人均点击量。

在本实施例中，所述根据所述各个样本的特征参数建立检测模型，包括：

建立基础模型(X，Y)，其中，X＝(x1,x2,x3,x4,x5),Y＝(1,0)，x1表示点击量离散系数，x2表示指定时段内的点击量离散系数，x3表示地域集中度，x4表示查询词多样性指数，x5表示人均点击量，Y＝1表示数据异常，Y＝0表示数据正常。根据所述各个样本的特征参数训练所述基础模型，得到所述检测模型。

例如：

针对商品每天的点击量，计算每个商品的标准差Stdev和平均值Mean，并入到离散系数公式C＝Stdev/Mean，计算得到每个商品的维度X1。比如：一件商品七天点击量如表一所示：

第1天	第2天	第3天	第4天	第5天	第6天	第7天
							39	2546	1555	52	60	1059	2711

表一

其中，七天的均值Mean＝1146，标准差Stdev＝1168.02939，根据C＝Stdev/Mean，得到C＝1.019222857，故X1＝1.019222857。

计算得到每个商品的维度X2。比如：一件商品在每个小时的点击量如表二所示

0点	1点	2点	3点	4点	5点	6点	7点	8点	9点	10点	11点
												10	0	0	0	0	2	2	7	11	17	78	14
12点	13点	14点	15点	16点	17点	18点	19点	20点	21点	22点	23点
												235	419	16	33	23	147	2724	2884	789	457	147	19

表二

其中，每小时的平均值Mean＝334.75，标准差Stdev＝768.188，根据C＝Stdev/Mean得到C＝2.294811，即X2＝2.294811。

计算得到每个商品的维度X3。比如：一件商品的地域点击量如表三所示

0312

0750

025

010

0571

024

0561

…

2002

676

4

3

2

…

表三

其中，计算得到max(ni)＝2002，N＝2715，根据R＝max(ni)/N＝0.73738，得到X3＝0.73738。

计算得到每个商品的维度X4。比如：对于一件商品的查询词点击量如表四所示

表四

其中，对于一件商品先计算每个词的多样性指数Hi，Hi＝Pi/ln(Pi)，再在计算商品的查询词多样性H＝-∑Hi，得到H＝-∑Hi＝2.13254，即X4＝2.13254。

计算得到每个商品的维度X5。先计算每个商品的点击次数和点击人数，再根据P＝N/U得到人均点击次数。比如：一件商品的点击量N＝10465和点击人数U＝8141，计算得到P＝1.285468，即X5＝1.285468。

在检测模型中得到(X，Y)，其中X＝(x1,x2,x3,x4,x5),并对参与训练的样本数据进行标注，其中，可以采用[0,1]的值域，若训练数据被标注为1，则表示该训练数据为作弊数据，若训练数据被标注为0，则表示该训练数据为非作弊数据，从而训练数据集即表示成一个M*5维的特征向量和M*1维的特征向量，其中M表示数据集中的商品数据。

在本实施例中，依据检测模型判定商品数据是否异常，具体实现包括：检测商品数据的特征参数(x1,x2,x3,x4,x5)，当出现x1的值域范围大于1.5、x2的值域范围大于1.5、x3的值域范围大于50％、x4的值域范围为小于1、x5的值域范围为大于5时，则判定商品数据异常。需要说明的是，值域范围指的是一个数值范围，“值域范围大于”可以理解为数值范围的最小值大于某个值，例如：x1的值域范围大于1.5，则x1的数值的分布范围的最小值大于1.5，“值域范围小于”可以理解为数值范围的最大值小于某个值；值域范围也可以是一个特征参数的具体数值，“值域范围大于”可以理解为x1的值大于某个值，例如：x1的值域范围大于1.5，则x1大于1.5，“值域范围小于”可以理解为特征参数小于某个值。

在本实施例中可以采用逻辑回归的机器学习方法来训练检测模型。例如：通过K折交叉验证，将原始特征向量分成K份，其中，K-1份做训练，1份做测试，训练检测模型并记录每次的算法精度。再通过计算K次的均方误差(MSE)评估模型的精确度，并记录模型的相应参数，并在每一次训练过程中调整参数，得到均方误差(MSE)及保留参数，并选取均方误差(MSE)最小的模型作为训练得到的检测模型。

本发明实施例提供的作弊检测方法，分析服务器通过对商品数据的各个统计指标进行统计计算，并依据统计指标进行特征提取，再利用所提取的特征建立并训练检测模型，根据训练的检测模型判定异常的商品数据。还对作弊用户进行筛选，将对于商品的点击数在异常范围的用户，从而在筛选作弊商品的同时，还实现了锁定作弊用户的。相对于现有技术中的人工审核作弊行为的方式，本发明能够自动检测并筛选出作弊商品，并且还能够锁定实行作弊行为的用户，从而在降低审核的成本同时，还能进一步提高自动审查的深度，以便于实现更将复杂的自动审查方案。

在本实施例中，还提供一种利用拉依达准则法(3σ法则)在商品总体点击量计算时，对异常点进行剔除的降权模块的实现流程，包括：

当待测试的商品数据异常时，提取目标用户的信息，所述目标用户包括点击了出现异常的商品数据的用户。提取目标用户针对所述出现异常的商品数据的点击数。根据所述目标用户针对所述出现异常的商品数据的点击数，检测作弊用户的点击数。在所述出现异常的商品数据中，去除所述作弊用户的点击数。

其中，根据所述目标用户针对所述出现异常的商品数据的点击数检测作弊用户的具体方案，包括：

选取点击数处于异常范围的用户。其中，所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户。或者，点击数处于大于μ-2 σ和小于μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。

在本实施例的实际应用中，针对每个商品的用户点击量进行正态分布检验，发现商品用户点击量服从正态分布，其中异常数值的判定问题满足拉依达准则法(3σ法则)。即每个商品的用户点击总体分布服从正态分布，满足P(|x-μ|＞3σ)≤0.003，其中，μ和σ分别是正态分布的数学期望和标准差。依据3σ法则，数值分布在(μ-2σ，μ+2σ)中的概率为0.9544，数值分布在(μ-3σ，μ+3σ)中的概率为0.9974，此时，落在大于μ+3σ或小于μ-3σ区域的概率是很小的，故可以将大于μ+3σ或小于μ-3σ区域的数值作为异常值，或者将大于μ-2σ或小于 μ+2σ区域的数值作为异常值。

在本实施例中，通过训练好的检测模型解析作弊行为检测的，判断每个商品是否作弊，并记录作弊商品；再利用降权模块剔除出现在作弊商品的作弊用户的点击数，实现针对作弊用户的降权的效果，从而计算每个商品每个用户的真实点击量。

本发明实施例还提供一种作弊检测装置，如图3a所示，包括：

统计模块，用于对样本数据进行统计，得到各个样本的指标参数，其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量。

特征提取模块，用于根据所述指标参数，生成各个样本的特征参数，其中，一个样本的特征参数的维度包括：点击量离散系数、每小时点击量离散系数、地域集中度、查询词多样性指数和人均点击量。

在本实施例中，所述特征提取模块，具体用于，对于一个样本：根据C＝Stdev/Mean获取所述一个样本的总点击量离散系数，其中，Stdev表示所述一个样本的总点击量的标准差，Mean表示所述一个样本的总点击量的平均数，C表示所述一个样本的总点击量离散系数。根据C’＝Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数，其中，Stdev’表示所述一个样本的在指定时段内的点击量的标准差，Mean’表示所述一个样本的在指定时段内的平均数，C’表示所述一个样本的在指定时段内的离散系数。根据R＝max(ni)/N获取所述一个样本的地域集中度，其中，ni表示所述一个样本的样本点击地区中的单个城市的点击量，N表示所述一个样本的样本点击地区中的总点击量，R表示所述一个样本的地域集中度。根据H＝-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数，其中，H表示多样性指数，Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例，当总点击量为N时，第i个查询词对应的点击量为ni，则Pi＝ni/N。根据P＝N/U获取所述一个样本的人均点击量，其中，N表示所述一个样本的总点击量，U表示所述一个样本的点击人数，P表示人均点击量。

在本实施例中，所述分析模块，具体用于建立基础模型(X，Y)，其中，X＝(x1,x2,x3,x4,x5),Y＝(1,0)，x1表示点击量离散系数，x2表示指定时段内的点击量离散系数，x3表示地域集中度，x4表示查询词多样性指数，x5表示人均点击量，Y＝1表示数据异常，Y＝0表示数据正常

本实施例所提供的作弊检测装置，如图3b所示，还包括降权模块，所述降权模块包括：

用户提取子模块，用于当待测试的商品数据异常时，提取目标用户的信息，所述目标用户包括点击了出现异常的商品数据的用户。

点击数分析子模块，用于提取目标用户针对所述出现异常的商品数据的点击数。并根据所述目标用户针对所述出现异常的商品数据的点击数，检测作弊用户的点击数。

其中，所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户。或者，点击数处于大于μ-2σ和小于 μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。

本发明实施例提供的作弊检测装置，分析服务器通过对商品数据的各个统计指标进行统计计算，并依据统计指标进行特征提取，再利用所提取的特征建立并训练检测模型，根据训练的检测模型判定异常的商品数据。还对作弊用户进行筛选，将对于商品的点击数在异常范围的用户，从而在筛选作弊商品的同时，还实现了锁定作弊用户的。相对于现有技术中的人工审核作弊行为的方式，本发明能够自动检测并筛选出作弊商品，并且还能够锁定实行作弊行为的用户，从而在降低审核的成本同时，还能进一步提高自动审查的深度，以便于实现更将复杂的自动审查方案。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种作弊检测方法，其特征在于，包括：

对样本数据进行统计，得到各个样本的指标参数，其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述指标参数，生成各个样本的特征参数，包括：

对于一个样本：

3.根据权利要求2所述的方法，其特征在于，所述根据所述各个样本的特征参数建立检测模型，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

提取目标用户针对所述出现异常的商品数据的点击数；

5.根据权利要求4所述的方法，其特征在于，还包括：所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户；或者，点击数处于大于μ-2σ和小于μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。

6.一种作弊检测装置，其特征在于，包括：

统计模块，用于对样本数据进行统计，得到各个样本的指标参数，其中，一个样本的指标参数的维度包括：所述一个样本的总点击量、点击人数、每小时点击量、样本点击地区和样本对应搜索词的点击量；

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块，具体用于，对于一个样本：根据C＝Stdev/Mean获取所述一个样本的总点击量离散系数，其中，Stdev表示所述一个样本的总点击量的标准差，Mean表示所述一个样本的总点击量的平均数，C表示所述一个样本的总点击量离散系数；根据C’＝Stdev’/Mean’获取所述一个样本的指定时段内的点击量离散系数，其中，Stdev’表示所述一个样本的在指定时段内的点击量的标准差，Mean’表示所述一个样本的在指定时段内的平均数，C’表示所述一个样本的在指定时段内的离散系数；根据R＝max(ni)/N获取所述一个样本的地域集中度，其中，ni表示所述一个样本的样本点击地区中的单个城市的点击量，N表示所述一个样本的样本点击地区中的总点击量，R表示所述一个样本的地域集中度；根据H＝-∑(Pi)(lnPi)获取所述一个样本的查询词多样性指数，其中，H表示多样性指数，Pi表示在所述一个样本的样本对应搜索词的点击量中第i个查询词对应的点击量所占比例，当总点击量为N时，第i个查询词对应的点击量为ni，则Pi＝ni/N；根据P＝N/U获取所述一个样本的人均点击量，其中，N表示所述一个样本的总点击量，U表示所述一个样本的点击人数，P表示人均点击量；

8.根据权利要求7所述的装置，其特征在于，所述分析模块，具体用于建立基础模型(X，Y)，其中，X＝(x1,x2,x3,x4,x5),Y＝(1,0)，x1表示点击量离散系数，x2表示指定时段内的点击量离散系数，x3表示地域集中度，x4表示查询词多样性指数，x5表示人均点击量，Y＝1表示数据异常，Y＝0表示数据正常

9.根据权利要求6所述的装置，其特征在于，还包括：降权模块，所述降权模块包括：

10.根据权利要求9所述的装置，其特征在于，还包括：所述检测作弊用户的点击数处于异常范围，所述异常范围包括：点击数处于大于μ+3σ和小于μ-3σ的用户；或者，点击数处于大于μ-2σ和小于μ+2σ的用户，其中，μ表示正态分布的数学期望，σ表示正态分布的标准差。