CN111401447A

CN111401447A - 一种基于人工智能的流量作弊识别方法、装置、电子设备

Info

Publication number: CN111401447A
Application number: CN202010183209.1A
Authority: CN
Inventors: 余意
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-10
Anticipated expiration: 2040-03-16
Also published as: CN111401447B

Abstract

本发明提供了一种基于人工智能的流量作弊识别方法、装置、电子设备及存储介质；方法包括：通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型；根据训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应待识别流量样本的重构流量；当对应待识别流量样本的重构流量满足作弊流量条件时，将待识别流量样本确定为作弊流量样本；通过非作弊流量样本以及作弊流量样本，对有监督识别模型进行训练处理，得到训练后的有监督识别模型；通过训练后的有监督识别模型对待识别流量进行识别处理，得到待识别流量属于作弊流量的概率。通过本发明，能够提高作弊流量识别的准确率。

Description

一种基于人工智能的流量作弊识别方法、装置、电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种流量作弊识别方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

流量作弊识别系统是人工智能领域的重要研究方向，流量作弊识别系统是指从大量的数据流中识别出作弊流量的过程。

但是，传统的流量作弊识别系统依赖于人为设定的规则进行识别，使得识别过程的准确率低。

发明内容

本发明实施例提供一种基于人工智能的流量作弊识别方法、装置、电子设备及存储介质，能够结合无监督识别模型和有监督识别模型识别作弊流量，减小人为干预，提高作弊流量识别的准确率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的流量作弊识别方法，包括：

通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型；

根据所述训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应所述待识别流量样本的重构流量；

当所述对应所述待识别流量样本的重构流量满足作弊流量条件时，将所述待识别流量样本确定为作弊流量样本；

通过所述非作弊流量样本以及所述作弊流量样本，对有监督识别模型进行训练处理，得到训练后的有监督识别模型；

通过所述训练后的有监督识别模型对待识别流量进行识别处理，得到所述待识别流量属于作弊流量的概率。

本发明实施例提供一种基于人工智能的流量作弊识别装置，包括：

第一训练模块，用于通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型；

第一识别模块，用于根据所述训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应所述待识别流量样本的重构流量；当所述对应所述待识别流量样本的重构流量满足作弊流量条件时，将所述待识别流量样本确定为作弊流量样本；

第二训练模块，用于通过所述非作弊流量样本以及所述作弊流量样本，对有监督识别模型进行训练处理，得到训练后的有监督识别模型；

第二识别模块，用于通过所述训练后的有监督识别模型对待识别流量进行识别处理，得到所述待识别流量属于作弊流量的概率。

上述技术方案中，所述第一训练模块还用于通过所述无监督识别模型对所述非作弊流量样本进行编码处理，得到所述非作弊流量样本的隐向量；

通过所述无监督识别模型对所述非作弊流量样本的隐向量进行解码处理，得到对应所述非作弊流量样本的重构流量；

基于所述非作弊样本、以及所述对应所述非作弊样本的重构流量，构建所述无监督识别模型的损失函数；

更新所述无监督识别模型的参数直至所述损失函数收敛，将所述损失函数收敛时更新得到的参数，作为训练后的所述无监督识别模型的参数。

上述技术方案中，所述第一训练模块还用于对所述非作弊流量样本与噪声进行融合处理，得到融合特征；

通过所述无监督识别模型对所述融合特征进行编码处理，得到所述非作弊流量样本的隐向量；

确定基于所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量的差值，并

将所述差值的2-范数确定为所述无监督识别模型的损失函数。

上述技术方案中，所述第一识别模块还用于通过所述训练后的无监督识别模型对所述待识别流量样本进行编码处理，得到所述待识别流量样本的隐向量；

通过所述训练后的无监督识别模型对所述待识别流量样本的隐向量进行解码处理，得到对应所述待识别流量样本的重构流量。

上述技术方案中，所述第一识别模块还用于当所述待识别流量样本、与所述对应所述待识别流量样本的重构流量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

上述技术方案中，所述装置还包括：

第一编码模块，用于通过所述无监督识别模型对所述对应所述非作弊流量样本的重构流量进行编码处理，得到所述重构流量的隐向量；

所述第一训练模块还用于基于所述非作弊流量样本、所述非作弊流量样本的隐向量、所述对应所述非作弊流量样本的重构流量以及所述重构流量的隐向量，构建所述无监督识别模型的损失函数。

上述技术方案中，所述装置还包括：

判别模块，用于通过所述无监督识别模型中的判别器，对所述对应所述非作弊流量样本的重构流量进行判别处理，得到所述重构流量属于真实的非作弊流量样本的概率；

所述第一训练模块还用于根据所述非作弊流量样本、以及所述对应所述非作弊流量样本的重构流量，构建所述无监督识别模型的重构损失函数；

根据所述非作弊流量样本的隐向量、以及所述重构流量的隐向量，构建所述无监督识别模型的编码损失函数；

根据所述重构流量属于真实的非作弊流量样本的概率、以及所述非作弊流量样本属于真实的非作弊流量样本的概率，构建所述无监督识别模型的判别损失函数；

基于所述重构损失函数、所述编码损失函数、以及所述判别损失函数，构建所述无监督识别模型的整体损失函数。

上述技术方案中，所述第一训练模块还用于将所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量的差值的2-范数，确定为所述无监督识别模型的重构损失函数；

将所述非作弊流量样本的隐向量、与所述重构流量的隐向量的差值的2-范数，确定为所述无监督识别模型的编码损失函数；

将所述重构流量属于真实的非作弊流量样本的概率、与所述非作弊流量样本属于真实的非作弊流量样本的概率的差值的2-范数，确定为所述无监督识别模型的判别损失函数；

对所述重构损失函数、所述编码损失函数、以及所述判别损失函数进行加权求和，将加权求和的结果确定为所述无监督识别模型的整体损失函数。

上述技术方案中，所述装置还包括：

第二编码模块，用于通过所述训练后的无监督识别模型对所述对应所述待识别流量样本的重构流量进行编码处理，得到所述重构流量的隐向量。

上述技术方案中，所述第一识别模块还用于当所述待识别流量样本的隐向量、与所述重构流量的隐向量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

上述技术方案中，所述第二识别模块还用于通过所述训练后的有监督识别模型中的多个分类器对所述待识别流量进行识别处理，得到每个分类器对所述待识别流量的作弊识别结果；

将所述每个分类器对所述待识别流量的作弊识别结果进行累加，得到所述待识别流量属于作弊流量的概率。

上述技术方案中，所述装置还包括：

提取模块，用于对非作弊设备样本进行特征提取处理，将提取到的所述非作弊设备样本的特征以作为所述非作弊流量样本；

从分布式存储结构中获取待识别设备，并将提取到的所述待识别设备的特征以作为所述待识别流量样本；

其中，所述特征包括以下至少之一：设备的浏览行为；设备安装的应用；设备关联的统一资源定位符；设备关联的网际互连协议。

本发明实施例提供一种用于流量作弊识别的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的流量作弊识别方法。

本发明实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的流量作弊识别方法。

本发明实施例具有以下有益效果：

通过非作弊流量样本训练无监督识别模型，以使训练后的无监督识别模型在待识别流量样本中识别出作弊流量样本，从而能够从大量待识别流量样本中快速识别作弊流量样本，节约大量人力；通过无监督识别模型识别出作弊流量样本后，根据作弊流量样本和非作弊流量样本训练有监督识别模型，从而根据训练的有监督识别准确地识别出作弊流量，提高作弊流量识别的准确性，并根据无监督识别模型识别出的实时作弊流量样本训练有监督识别模型，提高作弊流量识别的泛化性以及实时性。

附图说明

图1是本发明实施例提供的流量作弊识别系统10的应用场景示意图；

图2是本发明实施例提供的用于流量作弊识别的电子设备500的结构示意图；

图3-6是本发明实施例提供的流量作弊识别方法的流程示意图；

图7是本发明实施例提供的多层级的反作弊识别模型的结构示意图；

图8是本发明实施例提供的基于对抗训练的自编码器无监督模型的结构示意图；

图9是本发明实施例提供的另一基于对抗训练的自编码器无监督模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)无监督学习：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。无监督学习算法主要有主成分分析方法、等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。本发明实施例中的无监督学习为根据白样本(非作弊流量样本)训练无监督识别模型过程。

2)有监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。有监督学习算法主要有神经网络传播算法、决策树学习算法等。本发明实施例中的有监督学习为根据白样本(非作弊流量样本)和黑样本(作弊流量样本)训练有监督识别模型的过程。

3)流量：在一定时间内打开网站地址的访问量，或者是终端的移动数据。流量是决定一个网站价值的重要因素。网站流量(traffic)是指网站的访问量，用来描述访问一个网站的用户数量以及用户所浏览的页面数量等指标，常用的统计指标包括网站的独立用户数量(例如IP)、总用户数量(含重复访问者)、页面浏览数量、每个用户的页面浏览数量、用户在网站的平均停留时间等。

4)流量主：流量主即能够提供流量的一方，通常指应用发布者、网站主等。以在微信社交平台为例，流量主可以为被关注的公众号的发布者。流量主可以参与广告投放费用的利润分成。以CPC为例，在相同广告曝光量下，广告主的访问流量上投放的广告的曝光量相同时，广告的点击率越高，流量主分到的广告投放费用的利润分成也越高，因而流量主有较强的作弊动机来提升广告的点击率。

5)作弊用户：受雇于网络公司通过点击广告、下载应用或发帖回帖等手段达到盈利或营造舆论等目的的网络人员。作弊用户可能是自然人，也可能是伪装用户的作弊程序。

6)作弊：在网络曝光、点击、效果等环节，用户出于某种恶意的目的，存在可以提升网络曝光次数、点击量、效果的行为，这种恶意行为称为作弊。

7)反作弊：对网络曝光、点击和效果等环节进行检查，判断网络曝光、点击、效果等是由于用户侧的正常访问触发，还是由于作弊用户通过作弊手段实现。

本发明实施例提供一种流量作弊识别方法、装置、电子设备和存储介质，能够通过结合无监督识别模型和有监督识别模型识别作弊流量，提高作弊流量识别的准确率。下面说明本发明实施例提供的用于流量作弊识别的电子设备的示例性应用，本发明实施例提供的用于流量作弊识别的电子设备可以是服务器，例如部署在云端的服务器，根据其他设备或者用户提供的非作弊流量样本、待识别流量样本和待识别流量，根据非作弊流量样本、待识别流量样本对无监督识别模型和有监督识别模型进行一系列处理，从而确定待识别流量属于作弊流量的概率，以便根据待识别流量属于作弊流量的概率确定待识别流量是否属于作弊流量。

作为示例，参见图1，图1是本发明实施例提供的流量作弊识别系统10的应用场景示意图，终端(示例性示出终端200-1、终端200-2、终端200-3)通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端可以被用来提供流量，例如，当作弊用户通过终端200-1多次访问某网页1后，终端200-1自动向服务器100发送作弊用户(该作弊用户可以是真实的人，也可以是计算机程序)多次访问网页1的流量；当非作弊用户通过终端200-2访问某网页2后，终端200-2自动向服务器100发送非作弊用户访问网页2的流量。

在一些实施例中，服务器100接收到终端提供的流量后，用户可以从众多流量中快速识别出非作弊流量样本，并确定出剩余待识别流量，调用服务器100提供的流量作弊识别功能，服务器100通过本发明实施例提供的流量作弊识别方法通过非作弊流量样本对无监督识别模型进行训练，根据训练后的无监督识别模型从待识别流量样本中确定出作弊流量样本，并通过非作弊流量样本以及作弊流量样本，对有监督识别模型进行训练处理，根据训练后的有监督识别模型对终端提供的待识别流量进行识别，从而得到待识别流量属于作弊流量的概率，并根据该概率确定待识别流量是否属于作弊流量。

在一些实施例中，服务器100用于收集终端所产生的流量，并将收集到的流量转发至其他服务器，其他服务器通过本发明实施例提供的流量作弊识别方法通过非作弊流量样本对无监督识别模型进行训练，根据训练后的无监督识别模型从待识别流量样本中确定出作弊流量样本，并通过非作弊流量样本以及作弊流量样本，对有监督识别模型进行训练处理，根据训练后的有监督识别模型对终端提供的待识别流量进行识别，从而得到待识别流量属于作弊流量的概率，并根据该概率确定待识别流量是否属于作弊流量。

继续说明本发明实施例提供的用于流量作弊识别的电子设备的结构，参见图2，图2是本发明实施例提供的用于流量作弊识别的电子设备500的结构示意图，图2所示的用于流量作弊识别的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。文章质量预测的电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的流量作弊识别装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的流量作弊识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的流量作弊识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的流量作弊识别装置可以采用软件方式实现，图2示出了存储在存储器550中的流量作弊识别装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括第一训练模块5551、第一识别模块5552、第二训练模块5553、第二识别模块5554、第一编码模块5555、判别模块5556、第二编码模块5557、以及提取模块5558；其中，第一训练模块5551、第一识别模块5552、第二训练模块5553、第二识别模块5554、第一编码模块5555、判别模块5556、第二编码模块5557、以及提取模块5558用于实现本发明实施例提供的流量作弊识别方法。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的流量作弊识别方法。参见图3，图3是本发明实施例提供的流量作弊识别方法的流程示意图，结合图3示出的步骤进行说明。

在步骤101中，通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型。

例如，在各用户通过终端访问某网页后，终端会将产生的流量发送至服务器，例如，当作弊用户通过终端200-1多次访问某网页1后，终端200-1自动向服务器100发送作弊用户多次访问网页1的流量；当非作弊用户通过终端200-2访问某网页2后，终端200-2自动向服务器100发送非作弊用户访问网页2的流量。服务器接收到所有终端发送的流量(流水)后，由于流水中非作弊流量的数量远远大于作弊流量的数量，因此，用户可以从众多流量中快速识别出非作弊流量，并将非作弊流量作为非作弊流量样本，并将剩余的待识别流量作为待识别流量样本，调用服务器100提供的流量作弊识别功能，通过确定出的非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型。

在一些实施例中，为了更好地训练无监督识别模型，以便训练后的无监督识别模型能够更好地识别出作弊流量样本，在通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型之前，可以对作弊设备样本进行特征提取处理：对非作弊设备样本进行特征提取处理，将提取到的非作弊设备样本的特征以作为非作弊流量样本；从分布式存储结构中获取待识别设备，并将提取到的待识别设备的特征以作为待识别流量样本；其中，特征包括以下至少之一：设备的浏览行为；设备安装的应用；设备关联的统一资源定位符；设备关联的网际互连协议。

例如，将提取到的非作弊设备样本的设备的浏览行为、设备安装的应用、设备关联的统一资源定位符、设备关联的网际互连协议作为非作弊流量样本。从分布式存储结构中获取待识别设备，并对待识别设备进行特征工程处理，提取待识别设备的特征、即待识别设备的浏览行为、设备安装的应用、设备关联的统一资源定位符、设备关联的网际互连协议。其中，本发明实施例中的流量并不局限于设备的浏览行为、设备安装的应用、设备关联的统一资源定位符、设备关联的网际互连协议，还适用于任何用于识别是否是作弊流量的特征。

参见图4，图4是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图4示出图3中的步骤101可以通过图4示出的步骤1011至步骤1014实现。在步骤1011中，通过无监督识别模型对非作弊流量样本进行编码处理，得到非作弊流量样本的隐向量，其中，非作弊流量样本的隐向量为无监督识别模型中的隐层将非作弊流量数据中的高维特征映射到低维隐含空间，以形成的低维特征，该隐向量包括非作弊流量样本的大部分特征信息；在步骤1012中，通过无监督识别模型对非作弊流量样本的隐向量进行解码处理，得到对应非作弊流量样本的重构流量；在步骤1013中，基于非作弊样本、以及对应非作弊样本的重构流量，构建无监督识别模型的损失函数；在步骤1014中，更新无监督识别模型的参数直至损失函数收敛，将损失函数收敛时更新得到的参数，作为训练后的无监督识别模型的参数。

作为示例，无监督识别模型可以是编码器-解码器结构，通过编码器对非作弊流量样本进行编码，得到非作弊流量样本的隐向量，并通过解码器对非作弊流量样本的隐向量进行还原，得到对应非作弊流量样本的重构流量，该重构流量是对非作弊流量样本的还原版本，使得对应非作弊流量样本的重构流量尽可能与非作弊流量样本相同。基于非作弊样本、以及对应非作弊样本的重构流量，构建无监督识别模型的损失函数

其中，x表示非作弊流量样本，

表示对应非作弊样本的重构流量，更新无监督识别模型的参数直至损失函数收敛，将损失函数收敛时更新得到的参数，作为训练后的无监督识别模型的参数。

其中，当服务器基于非作弊样本、以及对应非作弊样本的重构流量，确定无监督识别模型的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定无监督识别模型的误差信号，将误差信息在无监督识别模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值，即根据输出结果与实际值之间的误差构建损失函数，并逐层求出损失函数对模型参数的偏导数，生成损失函数对各层模型参数的梯度，由于梯度的方向表明误差扩大的方向，因此对模型参数的梯度取反，与以各层模型的原始参数求和，将得到的求和结果作为更新后的各层模型参数，从而减小模型参数引起的误差；不断迭代上述过程，直至收敛，其中，无监督识别模型属于神经网络模型。

在一些实施例中，通过无监督识别模型对非作弊流量样本进行编码处理，得到非作弊流量样本的隐向量，包括：对非作弊流量样本与噪声进行融合处理，得到融合特征；通过无监督识别模型对融合特征进行编码处理，得到非作弊流量样本的隐向量；则基于非作弊流量样本、以及对应非作弊流量样本的重构流量，构建无监督识别模型的损失函数，包括：确定基于非作弊流量样本、与对应非作弊流量样本的重构流量的差值，并将差值的2-范数确定为无监督识别模型的损失函数。

承接上述示例，为了提高无监督识别模型的鲁棒性，在编码器编码前，在非作弊流量样本融入高斯噪声，从而得到融合特征，并通过编码器对融合噪声进行编码，得到非作弊流量样本的隐向量，再通过解码器对非作弊流量样本的隐向量进行解码，得到对应非作弊流量样本的重构流量。其中，无监督识别模型的损失函数为

x表示非作弊流量样本，

表示对应非作弊样本的重构流量。

参见图5，图5是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图5示出图4中还包括步骤1015，在步骤1015中，通过无监督识别模型对对应非作弊流量样本的重构流量进行编码处理，得到重构流量的隐向量；在步骤1014中，基于非作弊流量样本、非作弊流量样本的隐向量、对应非作弊流量样本的重构流量以及重构流量的隐向量，构建无监督识别模型的损失函数。

作为示例，通过编码器-解码器的无监督识别模型来实现重构，但是由于输入编码器的特征维度较高，计算两个较高维度特征(编码器的输入和解码器的输入)的重构误差，容易受异常点(噪声)影响，因此无监督识别模型可以采用编码器1-解码器-编码器2的结构来重构误差，因此通过编码器2进行降维处理后，可以减小噪声的可能性。其中，编码器1和编码器2可以相同，也可以不同。通过编码器1对非作弊流量样本进行编码，得到非作弊流量样本的隐向量，并通过解码器对非作弊流量样本的隐向量进行还原，得到对应非作弊流量样本的重构流量，通过编码器2对对应非作弊流量样本的重构流量进行编码处理，得到重构流量的隐向量，并基于非作弊流量样本、非作弊流量样本的隐向量、对应非作弊流量样本的重构流量以及重构流量的隐向量，构建无监督识别模型的损失函数。

在一些实施例中，构建无监督识别模型的损失函数之前，还包括：通过无监督识别模型中的判别器，对对应非作弊流量样本的重构流量进行判别处理，得到重构流量属于真实的非作弊流量样本的概率；则基于非作弊流量样本、非作弊流量样本的隐向量、对应非作弊流量样本的重构流量以及重构流量的隐向量，构建无监督识别模型的损失函数，包括：根据非作弊流量样本、以及对应非作弊流量样本的重构流量，构建无监督识别模型的重构损失函数；根据非作弊流量样本的隐向量、以及重构流量的隐向量，构建无监督识别模型的编码损失函数；根据重构流量属于真实的非作弊流量样本的概率、以及非作弊流量样本属于真实的非作弊流量样本的概率，构建无监督识别模型的判别损失函数；基于重构损失函数、编码损失函数、以及判别损失函数，构建无监督识别模型的整体损失函数。

承接上述示例，无监督识别模型可以是对抗生成网络，其中，生成器的结构为编码器1-解码器-编码器2，在生成器得到对应非作弊流量样本的重构流量后，可以通过无监督识别模型中的判别器，对对应非作弊流量样本的重构流量进行判别处理，得到重构流量属于真实的非作弊流量样本(即输入编码器1中的非作弊流量样本)的概率。当无监督识别模型为对抗生成网络时，构建无监督识别模型的整体损失函数由三部分组成，分别为：1)根据非作弊流量样本、以及对应非作弊流量样本的重构流量，构建的重构损失函数；2)根据非作弊流量样本的隐向量、以及重构流量的隐向量，构建的编码损失函数；3)根据重构流量属于真实的非作弊流量样本的概率、以及非作弊流量样本属于真实的非作弊流量样本的概率，构建的判别损失函数。

在一些实施例中，基于非作弊流量样本、非作弊流量样本的隐向量、对应非作弊流量样本的重构流量以及重构流量的隐向量，构建无监督识别模型的损失函数，包括：将非作弊流量样本、与对应非作弊流量样本的重构流量的差值的2-范数，确定为无监督识别模型的重构损失函数；将非作弊流量样本的隐向量、与重构流量的隐向量的差值的2-范数，确定为无监督识别模型的编码损失函数；将重构流量属于真实的非作弊流量样本的概率、与非作弊流量样本属于真实的非作弊流量样本的概率的差值的2-范数，确定为无监督识别模型的判别损失函数；对重构损失函数、编码损失函数、以及判别损失函数进行加权求和，将加权求和的结果确定为无监督识别模型的整体损失函数。

承接上述示例，重构损失函数为

其中，x表示非作弊流量样本，

表示对应非作弊流量样本的重构流量；编码损失函数为

其中，z表示非作弊流量样本的隐向量，

表示重构流量的隐向量；判别损失函数为

f(.)表示属于真实的非作弊流量样本的概率，w_enc表示loss_enc的权重，w_bce表示loss_bce的权重。其中，重构损失函数、编码损失函数、判别损失函数并不局限于上式，还可以是其他的变型公式。

在步骤102中，根据训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应待识别流量样本的重构流量。

在通过非作弊流量样本训练无监督识别模型后，训练的无监督识别模型可能学习非作弊流量样本的特征，并重构非作弊流量样本，因此，将待识别流量样本输入至训练的无监督识别模型，训练的无监督识别模型可以重构待识别流量样本，得到对应待识别流量样本的重构流量，以便后续根据对应待识别流量样本的重构流量，确定待识别流量样本是否是作弊流量样本，从而从待识别流量样本中识别出作弊流量样本。

在一些实施例中，根据训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应待识别流量样本的重构流量，包括：通过训练后的无监督识别模型对待识别流量样本进行编码处理，得到待识别流量样本的隐向量；通过训练后的无监督识别模型对待识别流量样本的隐向量进行解码处理，得到对应待识别流量样本的重构流量。

作为示例，当无监督识别模型为编码器-解码器的结构时，通过训练后的编码器对待识别流量样本进行编码，得到待识别流量样本的隐向量，并通过训练后的解码器对待识别流量样本的隐向量进行还原，得到对应待识别流量样本的重构流量，该重构流量是对待识别流量样本的还原版本。

在一些实施例中，在得到对应待识别流量样本的重构流量后，通过训练后的无监督识别模型对对应待识别流量样本的重构流量进行编码处理，得到重构流量的隐向量。

作为示例，当无监督识别模型为编码器1-解码器-编码器2的结构时，通过训练后的编码器1对待识别流量样本进行编码，得到待识别流量样本的隐向量，并通过训练后的解码器对待识别流量样本的隐向量进行还原，得到对应待识别流量样本的重构流量，通过训练后的编码器2对对应待识别流量样本的重构流量进行编码，得到重构流量的隐向量，以便后续根据重构流量的隐向量判断待识别流量样本是否为作弊流量样本。

在步骤103中，当对应待识别流量样本的重构流量满足作弊流量条件时，将待识别流量样本确定为作弊流量样本。

在一些实施例中，当待识别流量样本、与对应待识别流量样本的重构流量的差异大于重构差异阈值时，将待识别流量样本确定为作弊流量样本。

作为示例，当无监督识别模型为编码器-解码器的结构时，训练后的无监督识别模型，根据待识别流量样本、与对应待识别流量样本的重构流量可以得到对应待识别流量样本的异常分(差异)，异常分为

其中，x表示非作弊流量样本，

表示对应非作弊流量样本的重构流量。由于，通过非作弊流量样本训练的无监督识别模型，因此，训练后的无监督识别模型识别出的非作弊流量样本的异常分比较小，而识别出的作弊流量样本的异常分比较大。因此，当训练后的无监督识别模型识别出的待识别流量样本的异常分大于重构差异阈值时，则待识别流量样本为作弊流量样本。

在一些实施例中，当对应待识别流量样本的重构流量满足作弊流量条件时，将待识别流量样本确定为作弊流量样本，包括：当待识别流量样本的隐向量、与重构流量的隐向量的差异大于重构差异阈值时，将待识别流量样本确定为作弊流量样本。

作为示例，当无监督识别模型为编码器1-解码器-编码器2的结构时，训练后的无监督识别模型，根据待识别流量样本的隐向量、与重构流量的隐向量可以得到对应待识别流量样本的异常分(差异)，异常分为

其中，z表示待识别流量样本的隐向量，

表示重构流量的隐向量。由于，通过非作弊流量样本训练的无监督识别模型，因此，训练后的无监督识别模型识别出的非作弊流量样本的异常分比较小，而识别出的作弊流量样本的异常分比较大。因此，当训练后的无监督识别模型识别出的待识别流量样本的异常分大于重构差异阈值时，则待识别流量样本为作弊流量样本。

在步骤104中，通过非作弊流量样本以及作弊流量样本，对有监督识别模型进行训练处理，得到训练后的有监督识别模型。

在服务器通过已知的非作弊流量样本，训练无监督识别模型，并通过训练后的无监督识别模型识别出待识别流量样本中的作弊流量样本后，将根据已知的非作弊流量样本以及识别出的作弊流量样本训练有监督识别模型，以使训练后的有监督识别模型识别待识别流量。从而解决直接采用有监督识别模型存在的黑白样本不均衡的问题，白样本(非作弊流量样本)特别多，黑样本(作弊流量样本)极其少，提高有监督识别模型泛化能力。

在步骤105中，通过训练后的有监督识别模型对待识别流量进行识别处理，得到待识别流量属于作弊流量的概率。

例如，在通过已知的非作弊流量样本以及识别出的作弊流量样本，训练有监督识别模型后，根据训练后的有监督识别模型可以实时地确定出待识别流量属于作弊流量的概率，当待识别流量属于作弊流量的概率大于作弊流量阈值时，将待识别流量确定为作弊流量，从而从待识别流量识别出作弊流量。

参见图6，图6是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图6示出图3中的步骤105可以通过步骤1051-1052实现。在步骤1051中，通过训练后的有监督识别模型中的多个分类器对待识别流量进行识别处理，得到每个分类器对待识别流量的作弊识别结果；在步骤1052中，将每个分类器对待识别流量的作弊识别结果进行累加，得到待识别流量属于作弊流量的概率。

作为示例，该有监督识别模型为极端梯度提升(XGBoost，eXtreme Gradi entBoosting)模型，通过训练后的XGBoost模型中的多个弱分类器对待识别流量进行识别，得到每个弱分类器对待识别流量的作弊识别结果、即作弊概率；将每个弱分类器对待识别流量的作弊概率进行累加，得到待识别流量属于作弊流量的概率，当待识别流量属于作弊流量的概率大于作弊流量阈值时，将待识别流量确定为作弊流量，从而从待识别流量识别出作弊流量。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的流量作弊识别方法，下面继续说明本发明实施例提供的流量作弊识别装置555中各个模块配合实现流量作弊识别的方案。

第一训练模块5551，用于通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型；第一识别模块5552，用于根据所述训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应所述待识别流量样本的重构流量；当所述对应所述待识别流量样本的重构流量满足作弊流量条件时，将所述待识别流量样本确定为作弊流量样本；第二训练模块5553，用于通过所述非作弊流量样本以及所述作弊流量样本，对有监督识别模型进行训练处理，得到训练后的有监督识别模型；第二识别模块5554，用于通过所述训练后的有监督识别模型对待识别流量进行识别处理，得到所述待识别流量属于作弊流量的概率。

在一些实施例中，所述第一训练模块5551还用于通过所述无监督识别模型对所述非作弊流量样本进行编码处理，得到所述非作弊流量样本的隐向量；通过所述无监督识别模型对所述非作弊流量样本的隐向量进行解码处理，得到对应所述非作弊流量样本的重构流量；基于所述非作弊样本、以及所述对应所述非作弊样本的重构流量，构建所述无监督识别模型的损失函数；更新所述无监督识别模型的参数直至所述损失函数收敛，将所述损失函数收敛时更新得到的参数，作为训练后的所述无监督识别模型的参数。

在一些实施例中，所述第一训练模块5551还用于对所述非作弊流量样本与噪声进行融合处理，得到融合特征；通过所述无监督识别模型对所述融合特征进行编码处理，得到所述非作弊流量样本的隐向量；确定基于所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量的差值，并将所述差值的2-范数确定为所述无监督识别模型的损失函数。

在一些实施例中，所述第一识别模块5552还用于通过所述训练后的无监督识别模型对所述待识别流量样本进行编码处理，得到所述待识别流量样本的隐向量；通过所述训练后的无监督识别模型对所述待识别流量样本的隐向量进行解码处理，得到对应所述待识别流量样本的重构流量。

在一些实施例中，所述第一识别模块5552还用于当所述待识别流量样本、与所述对应所述待识别流量样本的重构流量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

在一些实施例中，所述流量作弊识别装置555还包括：第一编码模块5555，用于通过所述无监督识别模型对所述对应所述非作弊流量样本的重构流量进行编码处理，得到所述重构流量的隐向量；所述第一训练模块5551还用于基于所述非作弊流量样本、所述非作弊流量样本的隐向量、所述对应所述非作弊流量样本的重构流量以及所述重构流量的隐向量，构建所述无监督识别模型的损失函数。

在一些实施例中，所述流量作弊识别装置555还包括：判别模块5556，用于通过所述无监督识别模型中的判别器，对所述对应所述非作弊流量样本的重构流量进行判别处理，得到所述重构流量属于真实的非作弊流量样本的概率；所述第一训练模块5551还用于根据所述非作弊流量样本、以及所述对应所述非作弊流量样本的重构流量，构建所述无监督识别模型的重构损失函数；根据所述非作弊流量样本的隐向量、以及所述重构流量的隐向量，构建所述无监督识别模型的编码损失函数；根据所述重构流量属于真实的非作弊流量样本的概率、以及所述非作弊流量样本属于真实的非作弊流量样本的概率，构建所述无监督识别模型的判别损失函数；基于所述重构损失函数、所述编码损失函数、以及所述判别损失函数，构建所述无监督识别模型的整体损失函数。

在一些实施例中，所述第一训练模块5551还用于将所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量的差值的2-范数，确定为所述无监督识别模型的重构损失函数；将所述非作弊流量样本的隐向量、与所述重构流量的隐向量的差值的2-范数，确定为所述无监督识别模型的编码损失函数；将所述重构流量属于真实的非作弊流量样本的概率、与所述非作弊流量样本属于真实的非作弊流量样本的概率的差值的2-范数，确定为所述无监督识别模型的判别损失函数；对所述重构损失函数、所述编码损失函数、以及所述判别损失函数进行加权求和，将加权求和的结果确定为所述无监督识别模型的整体损失函数。

在一些实施例中，所述流量作弊识别装置555还包括：第二编码模块5557，用于通过所述训练后的无监督识别模型对所述对应所述待识别流量样本的重构流量进行编码处理，得到所述重构流量的隐向量。

在一些实施例中，所述第一识别模块5551还用于当所述待识别流量样本的隐向量、与所述重构流量的隐向量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

在一些实施例中，所述第二识别模块5554还用于通过所述训练后的有监督识别模型中的多个分类器对所述待识别流量进行识别处理，得到每个分类器对所述待识别流量的作弊识别结果；将所述每个分类器对所述待识别流量的作弊识别结果进行累加，得到所述待识别流量属于作弊流量的概率。

在一些实施例中，所述流量作弊识别装置555还包括：提取模块5558，用于对非作弊设备样本进行特征提取处理，将提取到的所述非作弊设备样本的特征以作为所述非作弊流量样本；从分布式存储结构中获取待识别设备，并将提取到的所述待识别设备的特征以作为所述待识别流量样本；其中，所述特征包括以下至少之一：设备的浏览行为；设备安装的应用；设备关联的统一资源定位符；设备关联的网际互连协议。

本发明实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的流量作弊识别方法，例如，如图3-6示出的流量作弊识别方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例可以应用于广告流量作弊识别中，如图1所示，流量作弊识别系统中的服务器可以实施为一个内嵌广告流量作弊识别功能的广告系统，广告系统根据广告主设定的投放广告的定向条件(如广告受众的年龄、地域、群体、消费能力等信息)向相应的流量主(例如某博主)的广告位投放广告，以形成广告曝光，流量主可以根据广告曝光、即广告流量向广告系统收取相应的费用，或者广告受众可以通过流量主的广告位进行点击，从而流量主可以根据广告的点击率、即广告流量向广告系统收取相应的费用，某些流量主为了谋取更多的费用，会进行广告流量作弊。而广告系统在每个统计时段，将统计广告曝光，例如，该广告曝光包括广告受众所点击的广告所曝光的对象，或者在每个统计时段，广告系统还统计广告点击日志，例如，该广告点击日志包括广告受众针对广告的点击量、点击时间等。广告系统调用本发明实施例的流量作弊识别功能，根据统计的广告流量(广告曝光、广告点击日志等)中的非作弊广告流量训练无监督识别模型，并根据训练后的无监督识别模型从广告流量中的待识别广告流量中确定出作弊广告流量，非作弊广告流量以及作弊广告流量训练有监督识别模型，根据训练后的有监督识别模型流量主提供的广告流量进行识别，从而确定流量主提供的广告流量是否属于作弊广告流量，当确定流量主提供的广告流量属于作弊广告流量时，则无需向流量主提供费用；当确定流量主提供的广告流量不属于作弊广告流量时，则需向流量主提供相应广告流量的费用。另外，流量作弊识别系统中的服务器可以实施为具有广告流量作弊识别功能的电子设备，该服务器与广告系统连接，广告系统根据广告主设定的投放广告的定向条件向相应的流量主的广告位投放广告，并收集所有产生的广告流量，并将收集到的广告流量发送至服务器，服务器调用本发明实施例的流量作弊识别功能，识别各广告流量是否属于作弊广告流量，当确定广告流量属于作弊广告流量时，则无需向该作弊广告流量对应的流量主提供费用。

本发明实施例可以应用于各种流量作弊的识别，流量作弊包含人为产生和非人为产生的不正常流量，即都是带有一定目的性的流量，而作弊的目的大都是利益驱动，比如某博主(即流量主)要完成关键绩效指标(KPI，Key Perfor mance Indicator)(例如发布视频数、视频播放数等)，需要更多的视频播放数以赚取更多的流量分成，因此，该博主为了完成KPI，可能就会有流量作弊的需求；同时，视频平台方也可能有KPI的需求，需要流量作弊方、即作弊流量主，提高视频播放数以完成平台方的KPI。

流量黑产是指通过制造大量虚假流量而谋取报酬的组织，该组织拥有成熟的黑色产业链，该黑色产业链包括上游、中游以及下游，其中，上游提供黑产的基础服务，比如卡源卡商(拥有大量用户识别卡(SIM，Subscriber Identity Module)的商户)、猫池(一种扩充电话通信带宽和目标对象的装备，可以同步拨打大批量的用户号码，能够实现集群发布)、接码平台(利用虚拟SIM接收验证码的平台)、打码平台(自动识别验证码的平台)、注册机、代理网际互连协议(IP，Internet Protocol)等资源；中游负责账号的生产与分销，主要由洗号、盗号、养号的人员组成，可以提供账号交易平台；下游负责盈利变现，利用大量的账号、IP、设备在互联网上刷优惠券、点击量、点赞评论量、红包等，然后与账号交易平台进行任务结算，已获得盈利。黑产的作弊手段包括机刷、群控刷量和众包，随着作弊成本的增加，反作弊的难度也增加，市场上还是以成本低廉的机刷为主。

相关技术中，可以使用规则引擎或者提取特征后直接使用某种机器学习算法(随机森林等算法)进行作弊流量的识别。例如，在广告流量反作弊中，根据用户的IP、cookie和设备等信息，统计流量中对广告的浏览、点击频次和频率，并根据广告的浏览、点击频次和频率进行作弊流量识别，同时融合用户留存、停留时间、访问深度等多维度的信息，通过设定的阈值，识别流量是否属于作弊流量；在广告反作弊场景中，可以收集并保存用户信息，首先根据预定的规则判断用户是否是作弊用户，如果不是作弊用户，再提取该用户的用户行为日志中的反作弊特征向量，通过机器学习模型对反作弊特征向量进行识别，从而识别该用户是否为作弊用户。

虽然，使用规则引擎或者某种机器学习算法可以进行作弊流量的识别，但是存在一些问题。例如，基于规则引擎的方法严重依赖风控人员对业务的熟悉程度，需要业务策略专家来配置相关的规则，并针对不同的业务场景设置不同的规则，不能适配所有业务，其泛化性能差，规则引擎也不能自适应黑产的作弊手段的变化，即规则引擎不够实时，需要不断的手工调整规则。另外，规则引擎需要维护成百上千的规则，这些规则的阈值不好设置，维护成本极高，需要消耗大量的人力成本；基于随机森林的方法虽然不用过于依赖于规则，但是在特征维度较高时，作弊流量识别的效果不好，随机森林每次随机选取特征，不能够充分利用到所有的特征，而且直接采用有监督学习训练有监督识别模型会存在黑白样本不均衡的问题，白样本特别多，黑样本极其少，训练出来的有监督识别模型泛化能力低，不具备实际场景反作弊能力。

为了解决上述问题，本发明实施例提供一种流量作弊识别方法，可以使用多层级反作弊识别模型中的无监督识别模型(基于对抗训练的自编码器无监督模型)在仅有白样本(非作弊流量样本)的情况下训练无监督识别模型，在流量或者广告反作弊场景中，每天的量级可以达到百亿级别，其中黑样本(作弊流量样本)比例占比不高，如果人工去标注黑样本，将耗费大量的人力和时间，但是获取白样本则相对简单很多，该流量作弊识别方法可以在仅白样本的情况下训练无监督识别模型，并通过无监督识别模型识别出作弊流量样本；无监督识别模型后加入有监督学习来提高流量作弊识别的准确率，无监督识别模型的召回率较高，但是有一定的误杀率(误将非作弊流量判断为作弊流量的概率)，在后续流程使用有监督识别模型来减小误杀率，从而可以很好地权衡召回率和准确度；流量经过特征工程后，使用无监督识别模型，再使用有监督识别模型(例如极端梯度提升(XGBoost，eXtreme Gradient Boosting)模型)，无监督识别模型识别出来的黑样本根据阈值筛选可以作为有监督识别模型的输入，从而提高有监督识别模型的识别能力，多层级反作弊识别模型可以自适应黑样本的变化；采用基于对抗训练的自编码器无监督模型，使用降噪自编码器作为生成器，判别器直接输出结果，两者在训练的时候相互博弈，最终达到纳什均衡。

在进行流量作弊识别之前，需要构造训练数据集和测试数据集，流量反作弊场景每天有数百亿的流水，其中，流水中大部分都是正常流量(非作弊流量)，小部分是作弊流量，需要从中筛选出黑样本和白样本，以方便后续的多层级反作弊识别模型的建立。以视频播放业务流水为例，从业务流水中提取若干统计特征，比如单设备使用的IP数，单设备浏览的视频种类(对单设备浏览后的视频数量进行去重后的视频数量)，浏览视频的总次数(单设备浏览后的视频未经过去重的总数量)，统计每小时播放次数的最大值、最小值、均值、标准差等特征，使用无监督学习预测分类，结合第三方的设备黑库和人工打标进行校准，可以有50000个正常设备(非作弊流量对应的设备)和3000个作弊设备(作弊流量对应的设备)。

接下来构建多层级的反作弊识别模型，如图7所示，图7是本发明实施例提供的多层级的反作弊识别模型的结构示意图，从分布式存储系统中读取业务流水，对数亿的设备(流量)进行预处理、特征工程等操作，再基于对抗训练的自编码器无监督模型来流水中识别出黑样本，并为后续XGBoost模型提供黑样本，解决XGBoost模型中正负样本不均衡的问题，训练后的XGBoost模型最后输出某个设备是否是作弊设备。具体层级流程处理过程如下：

1)多层级的反作弊识别模型中的第一层(特征工程)：提取流水中设备的浏览行为序列特征、设备安装的应用(APP)列表，统一资源定位符(URL，U niform ResourceLocator)点击，关联的IP特征来识别黑设备(作弊设备)。行为序列特征包含行为的相关统计特征(偏度、峰度、均值方差、最大最小值、移动平均等)，设备安装的APP列表包括热门APP、刷量APP、众包APP等，URL点击包括URL域名以及设备安装列表的嵌入等特征，关联IP包括IP是否是互联网数据中心(IDC，Internet Data Center)、IP是否代理、IP的地理位置、IP绑定域名个数、IP是否开放25、80等端口特征。

2)构建多层级反作弊识别模型的第二层：正常设备的行为大同小异，作弊设备的行为各不相同，利用降噪自编码器重构误差来识别作弊设备。如图8所示，图8是本发明实施例提供的基于对抗训练的自编码器无监督模型的结构示意图，播放流水、APP安装、URL点击等数据中经过第一层的特征工程提取特征，为提高鲁棒性，在提取后的特征(原始特征)中加入高斯噪音，通过编码器生成隐向量，再经过解码器还原隐向量为原始特征。基于对抗训练的自编码器无监督模型的输入的都是白样本，利用重构误差(异常分)来交替训练生成器和判别器，训练完毕后，针对每个输入样本就能输出对应的异常分，白样本的异常分小，黑样本的异常分则会较大。由于训练该基于对抗训练的自编码器无监督模型只用到了白样本，因此，能够从数据流中自动挖掘出黑样本，尽管黑产手段变化，也依旧能够实时的识别出变化的作弊设备。其中，异常分的计算公式如公式(1)所示：

其中，x表示无监督模型的输入，

表示重构数据(重构流量)。

其中，基于对抗训练的自编码器无监督模型的损失函数如公式(2)所示：

本发明实施例采用的是编码器-解码器的自编码器来实现重构误差，但是由于输入编码器的特征维度较高，计算两个较高维度特征的重构误差，容易受异常点(噪声)影响，因此还可以采用如图9所示的编码器1-解码器-编码器2的结构来重构误差，图9是本发明实施例提供的另一基于对抗训练的自编码器无监督模型的结构示意图，因此通过编码器2进行降维处理后，可以减小噪声的可能性。其中，编码器1和编码器2可以相同，也可以不同。其中，基于对抗训练的自编码器无监督模型的整体损失函数如公式(3)所示：

loss_d＝w_recloss_rec+w_encloss_enc+w_bceloss_bce (3)

其中，重构损失函数

编码损失函数

判别损失函数

w_rec表示loss_rec的权重，w_enc表示loss_enc的权重，w_bce表示loss_bce的权重，z表示x的重构数据，

表示

的重构数据，

表示判别器识别

属于真实的x的概率。

3)构建多层级反作弊识别模型的第三层：利用第二层识别出的黑样本和已有的白样本训练XGBoost模型，训练后的XGBoost模型可以识别设备是否作弊。

综上，本发明实施例可以适用于大数据和高维度的特征场景，在黑白样本极度失衡，甚至黑样本缺失的情况下，使用无监督学习可以在仅依赖白样本的情况下训练出无监督识别模型，识别出大量、新的作弊行为的设备(作弊流量)，这些作弊设备可以根据无监督识别模型返回的异常分，提取异常分值高的作为作弊流量样本送入有监督识别模型训练有监督识别模型。通过结合无监督识别模型和有监督识别模型，不仅能够准确的识别出作弊设备，而且还可以实时的挖掘出黑产新的作弊手段，适用于各种业务场景，不需要太多的人力干预。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的流量作弊识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型，包括：

通过所述无监督识别模型对所述非作弊流量样本进行编码处理，得到所述非作弊流量样本的隐向量；

3.根据权利要求2所述的方法，其特征在于，所述通过所述无监督识别模型对所述非作弊流量样本进行编码处理，得到所述非作弊流量样本的隐向量，包括：

对所述非作弊流量样本与噪声进行融合处理，得到融合特征；

所述基于所述非作弊流量样本、以及所述对应所述非作弊流量样本的重构流量，构建所述无监督识别模型的损失函数，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应所述待识别流量样本的重构流量，包括：

通过所述训练后的无监督识别模型对所述待识别流量样本进行编码处理，得到所述待识别流量样本的隐向量；

5.根据权利要求4所述的方法，其特征在于，所述当所述对应所述待识别流量样本的重构流量满足作弊流量条件时，将所述待识别流量样本确定为作弊流量样本，包括：

当所述待识别流量样本、与所述对应所述待识别流量样本的重构流量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

6.根据权利要求2所述的方法，其特征在于，所述构建所述无监督识别模型的损失函数之前，还包括：

通过所述无监督识别模型对所述对应所述非作弊流量样本的重构流量进行编码处理，得到所述重构流量的隐向量；

所述基于所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量，构建所述无监督识别模型的损失函数，包括：

基于所述非作弊流量样本、所述非作弊流量样本的隐向量、所述对应所述非作弊流量样本的重构流量以及所述重构流量的隐向量，构建所述无监督识别模型的损失函数。

7.根据权利要求6所述的方法，其特征在于，所述构建所述无监督识别模型的损失函数之前，还包括：

通过所述无监督识别模型中的判别器，对所述对应所述非作弊流量样本的重构流量进行判别处理，得到所述重构流量属于真实的非作弊流量样本的概率；

所述基于所述非作弊流量样本、所述非作弊流量样本的隐向量、所述对应所述非作弊流量样本的重构流量以及所述重构流量的隐向量，构建所述无监督识别模型的损失函数，包括：

根据所述非作弊流量样本、以及所述对应所述非作弊流量样本的重构流量，构建所述无监督识别模型的重构损失函数；

8.根据权利要求7所述的方法，其特征在于，所述基于所述非作弊流量样本、所述非作弊流量样本的隐向量、所述对应所述非作弊流量样本的重构流量以及所述重构流量的隐向量，构建所述无监督识别模型的损失函数，包括：

将所述非作弊流量样本、与所述对应所述非作弊流量样本的重构流量的差值的2-范数，确定为所述无监督识别模型的重构损失函数；

9.根据权利要求6所述的方法，其特征在于，所述根据所述训练后的无监督识别模型对待识别流量样本的进行重构处理，得到对应所述待识别流量样本的重构数据之后，还包括：

通过所述训练后的无监督识别模型对所述对应所述待识别流量样本的重构流量进行编码处理，得到所述重构流量的隐向量。

10.根据权利要求9所述的方法，其特征在于，所述当所述对应所述待识别流量样本的重构流量满足作弊流量条件时，将所述待识别流量样本确定为作弊流量样本，包括：

当所述待识别流量样本的隐向量、与所述重构流量的隐向量的差异大于重构差异阈值时，将所述待识别流量样本确定为作弊流量样本。

11.根据权利要求1所述的方法，其特征在于，所述通过所述训练后的有监督识别模型对待识别流量进行识别处理，得到所述待识别流量属于作弊流量的概率，包括：

通过所述训练后的有监督识别模型中的多个分类器对所述待识别流量进行识别处理，得到每个分类器对所述待识别流量的作弊识别结果；

12.根据权利要求1-11任一所述的方法，其特征在于，所述通过非作弊流量样本对无监督识别模型进行训练处理，得到训练后的无监督识别模型之前，还包括：

对非作弊设备样本进行特征提取处理，将提取到的所述非作弊设备样本的特征以作为所述非作弊流量样本；

13.一种流量作弊识别装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的流量作弊识别方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的基于人工智能的流量作弊识别方法。