CN110781433A

CN110781433A - 数据类型的确定方法和装置、存储介质及电子装置

Info

Publication number: CN110781433A
Application number: CN201910964629.0A
Authority: CN
Inventors: 余意
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2020-02-11
Anticipated expiration: 2039-10-11
Also published as: CN110781433B

Abstract

本发明公开了一种数据类型的确定方法和装置、存储介质及电子装置。其中，该方法包括：获取待处理数据的第一目标序列数据，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，在目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；否则，确定该待处理数据属于异常类型。本发明实施例通过预先训练好的对抗网络模型确定待处理数据为正常数据的概率，从而判断待处理数据是正常或异常数据，解决了现有技术中基于随机森林的方法由于每次选择特征时都说随机选择，导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。

Description

数据类型的确定方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种数据类型的确定方法和装置、存储介质及电子装置。

背景技术

反作弊领域，现有大多使用传统的统计方法或者孤立森林来进行作弊行为检测或者异常检测。

相关技术中提出一种识别作弊流量的方法及装置，该方案从访问页面停留时长分布的角度分析，记录用户的访问页面流量的停留时长，然后对比该渠道的设定时长的访问额流量页面停留时长分布，将两者对比，如果不同，则表示该访问记录异常，属于作弊流量。

基于统计的方法只能针对一维的特征，根据维度的历史行为形成一个分布，通过分布来区分正常样本和异常样本。此方法缺点为特征只有一个维度过于单一，区分度不够，而且通常基于某个假设，即不服从某个分布则为异常样本，但是现实场景往往存在多个正常分布，无法预设所有的分布。

相关技术中还提出异常申请检测方法，该方案应用于信贷申请领域，将信贷申请数据提取特征，输入到孤立森林模型，直接输出申请数据是否属于异常申请，孤立森林模型是直接基于无标签数据进行训练。

基于随机森林的方法在维度过高的情况下效果会大幅度下降，每次选择特征的时候都是随机选择，会导致有些重要特征没有被使用，如直接输入时间序列特征，则效果很差，还需要增加一层时间序列特征提取流程。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据类型的确定方法和装置、存储介质及电子装置，以至少解决现有技术中基于随机森林的方法由于每次选择特征时都说随机选择，导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。

根据本发明实施例的一方面，还提供了一种数据类型的确定方法，包括：

获取待处理数据的第一目标序列数据，其中，该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据；

将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，其中，该对抗网络模型用于将该第一目标序列数据进行重构，得到第二目标序列数据，并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率，该目标概率与该重构误差负相关，该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型，该对抗网络模型用于在输入数据为该正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

在该目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；在该目标概率小于该预设阈值的情况下，确定该待处理数据不属于该正常类型。

根据本发明实施例的另一方面，还提供了一种数据类型的确定装置，包括：

第一获取模块，用于获取待处理数据的第一目标序列数据，其中，该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据；

输入模块，用于将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，其中，该对抗网络模型用于将该第一目标序列数据进行重构，得到第二目标序列数据，并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率，该目标概率与该重构误差负相关，该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型，该对抗网络模型用于在输入数据为该正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

确定模块，用于在该目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；在该目标概率小于该预设阈值的情况下，确定该待处理数据不属于该正常类型。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述数据类型的确定方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的数据类型的确定方法。

在本发明实施例中，获取待处理数据的第一目标序列数据，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，在目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；否则，确定该待处理数据属于异常类型，通过预先训练好的对抗网络模型确定待处理数据为正常数据的概率，从而判断待处理数据是正常或异常数据，进而解决了现有技术中基于随机森林的方法由于每次选择特征时都说随机选择，导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据类型的确定方法的流程图；

图2是根据本发明优选实施例的数据类型的确定方法的流程图一；

图3是根据本发明优选实施例的数据类型的确定方法的流程图二；

图4是根据本发明实施例的生成对抗网络的框图；

图5是根据本发明实施例的生成器的网络架构图；

图6是根据本发明实施例的反作弊模型预测的流程图；

图7是根据本发明实施例的数据类型的确定装置的框图；

图8是根据本发明优选实施例的数据类型的确定装置的框图一；

图9是根据本发明优选实施例的数据类型的确定装置的框图二；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着移动互联网的高速发展，各类应用程序、应用网站掌握了大量的流量，因为经济利益的原因，这些流量中充斥着大量的作弊流量，例如以服务器流量冒充终端设备流量，又例如以低质、无效流量冒充高质高价流量；再例如以恶意流量冒充高质流量等。各大广告联盟、第三方监测平台往往会通过嵌入终端检测代码(载体通常为js(JavaScript，java脚本)或SDK(Software Development Kit，软件开发工具包))，利用设备指纹、应用程序活跃度、广告点击热点图等技术手段，校验终端用户的有效性，检测终端流量的合法性，从而达到识别作弊流量、反作弊的目的。

但是，一方面，由于终端检测代码易于破解，使得作弊者容易通过破解SDK，达到欺骗后台服务器，从而产生作弊流量获取广告费，另一方面，作弊者容易通过破解广告协议(包括校验协议)，构造相关数据发送到服务器，产生以假乱真的作弊流量，从而骗取广告费。

流量/广告反作弊一天流水量动辄上百亿，记录IMEI、IDFA等设备ID在某些IP下的点击/访问行为，其中包含点击访问的时间戳，根据IP和设备ID画像可以获取一些环境和设备属性，比如访问IP是否是IDC或者代理IP，是否在近期有刷量行为，活跃度高不高等特征，这些特征往往是从其他数据源中分析得出，但是由于IP的公用性和易变性，单纯靠IP来拦截，容易造成大面积误杀。设备ID也会有黑名单、活跃度等属性，但是由于设备ID可以认为篡改，历史画像可能缺少相应数据，而且有些设备ID在其他场景下的行为属于正常，只是在当前广告场景进行刷量。比如某个黑产有一台手机，他喜欢用手机登录QQ，访问看点视频等，都是属于正常用户行为，同时他也接众包需求，用自己的手机进行广告刷量，此时利用原有的画像不能识别。要想识别上述场景的IP或者设备ID，则需要对当前的广告访问流水中进行反作弊分析，而流水数据中最重要的则是行为记录，也就是访问的时间序列信息，通过分析和提取时间序列特征，可以从中识别作弊流水及其账号。

本发明实施例提供了一种数据类型的确定方法，通过检测数据类型为正常类型还是非正常类型，即可检测流量数据是否为作弊数据，在数据为非正常类型，即为异常类型时，说明数据为作弊数据。图1是根据本发明实施例的数据类型的确定方法的流程图，如图1所示，包括以下步骤：

步骤S102，获取待处理数据的第一目标序列数据，其中，该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据；

步骤S104，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，其中，该对抗网络模型用于将该第一目标序列数据进行重构，得到第二目标序列数据，并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率，该目标概率与该重构误差负相关，该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型，该对抗网络模型用于在输入为该正常类型的数据时输出小于预设阈值的概率；

具体的，对抗网络模型，基于极小极大博弈而设计的对抗网络框架，包括生成器和判别器。生成器(如采用MLP网络表示生成函数)可以生成伪造的样本，与真实样本同时输入判别器(如采用MLP网络)，判别器根据伪造样本(g(z),0)和真实样本(x,1)最大化判别真假的概率。生成器最大化判别器无法判别的概率，即最小化伪造样本的概率分布与真实数据的概率分布之间的“距离”。

生成器G可以用深度神经网络来表示生成函数，而且限制仅限于可微。输入数据z可以从任意的分布中采样，G的输入也无需与深度网络的第一层输入一致(例如，可以将输入z分为两部分：z₁和z₂，分别作为第一层和最后一层的输入，如果z₂服从高斯分布，那么(x|z₁)服从条件高斯分布)。但z的维数要至少与x的维数一致，才能保证z撑满整个x样本空间。G的网络模型也不受任何限制，可以采用多层感知机、卷积网络、自编码器等。因此，GAN对生成器的限制很少。

判别器D的输入为G的输出(G(z),0)和真实样本(x,1)，其中，0表示fake，1表示real。判别器网络可以采用任意的二元分类器，训练过程为典型的监督式学习。输出为一个标量值，表示伪造的输入G(z)为真实样本的概率，当达到0.5时，说明判别器无法区分真实样本和伪造样本，即极小极大博弈达到了纳什均衡，或者训练过程已收敛。那么生成器就是需要的生成模型，给定先验分布，输出“真实”的样本。

步骤S106，在该目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；在该目标概率小于该预设阈值的情况下，确定该待处理数据不属于该正常类型，本发明实施例中的预设阈值可以预先进行设置。

通过上述步骤S102至S106，获取待处理数据的第一目标序列数据，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，在目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；否则，确定该待处理数据属于异常类型，通过预先训练好的对抗网络模型确定待处理数据为正常数据的概率，从而判断待处理数据是正常或异常数据，进而解决了现有技术中基于随机森林的方法由于每次选择特征时都说随机选择，导致在维度过高的情况下异常数据确定的效果会大幅度下降的技术问题。

本发明实施例中，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率的方式有多种，在一个可选的实施例中，上述的对抗网络模型包括第一目标生成器和第一目标判别器，上述步骤S104具体可以包括：将该第一目标序列数据输入上述的第一目标生成器中，在该第一目标生成器中对该第一目标序列数据进行重构，得到重构的目标序列数据，即上述的第二目标序列数据；将该第一目标序列数据与该第二目标序列数据输入到预先训练好的第一目标判别器中，得到该第一目标判别器输出的该目标概率，具体的，第一目标判别器是基于第一目标序列数据与第二目标序列数据之间的重构误差确定的上述目标概率。

在一可选的实施例中，图2是根据本发明优选实施例的数据类型的确定方法的流程图一，如图2所示，在上述步骤S102之前，完成上述第一生成器和第一目标判别器的训练，具体包括以下步骤：

步骤S202，获取属于该正常类型的训练数据的第一序列数据，具体的，从该训练数据中按照时间序列提取的多个维度的时间序列数据；

步骤S204，根据该第一序列数据对第一初始生成器进行训练，得到该第一目标生成器，其中，该第一序列数据为该第一初始生成器的输入，该第一初始生成器用于对该第一序列数据进行重构，得到该第二序列数据，该第二序列数据与该第一序列数据之间的第一损失函数满足第一预定收敛条件；随着训练的进行，第一损失函数的损失值不断减小，直到趋于稳定，此时，第一损失函数的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第一预定收敛条件为第一损失函数的损失值小于或等于第一预定值，第一预定值即为随着训练趋于稳定的值。

进一步的，上述步骤S204具体可以包括：对该第一序列数据进行编码处理，得到该训练数据的第一隐向量，其中，该第一隐向量为该第一序列数据编码处理后的向量；对该第一隐向量进行解码处理，得到该第二序列数据。

具体的，将该训练数据的时间序列数据经过长短期记忆LSTM和全连接层FC压缩成该第一隐向量。

本发明实施例中，在该时间序列数据进行编码，得到该训练数据的第一隐向量之前，对该时间序列数据上增加随机噪声，得到增加该随机噪声之后的时间序列数据；对应的，对增加该随机噪声之后的时间序列数据进行编码，得到该训练数据的第一隐向量。通过在待处理数据中输入时加入随机噪音，提高模型的鲁棒性，能够保证高覆盖低误杀，提高了性能效果。

步骤S206，根据该第一序列数据与该第二序列数据对第一初始判别器进行训练，得到第一目标判别器，其中，该第一序列数据与该第二序列数据为该第一初始判别器的输入，该第一初始判别器输出该训练数据属于该正常类型的概率，该第一目标生成器基于该第一序列数据、该第二序列数据所输出的预估的该训练数据属于正常类型的概率的第二损失函数满足第二预定收敛条件。随着训练的进行，第二损失函数的损失值不断减小，直到趋于稳定，此时，第二损失函数的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第二预定收敛条件为第二损失函数的损失值小于或等于第二预定值，第二预定值即为随着训练趋于稳定的值，第二预定值可能与上述第一预定值相同也可能不同。

进一步的，上述步骤S206具体可以包括：

将该第二序列数据与该第一序列数据进行对比，得到该训练数据的第一重构误差；

将该第一重构误差、该第一损失函数以及该第二损失函数之和确定为第一目标总误差，在该第一目标总误差满足第三预定收敛条件的情况下，完成对该第一初始生成器与该第一初始判别器的训练，分别得到该第一目标生成器与该第一目标判别器。随着训练的进行，第一目标总误差的损失值不断减小，直到趋于稳定，此时，第一目标总误差的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第三预定收敛条件为第一目标总误差的损失值小于或等于第三预定值，第三预定值即为随着训练趋于稳定的值，第三预定值可能与上述第一、第二预定值相同也可能不同。

在另一个可选的实施例中，上述的对抗网络模型包括第二目标生成器和第二目标判别器，对应的，上述步骤S104还可以包括：

将上述的第一目标序列数据输入上述的第二目标生成器中，在该第二目标生成器中，对该第一目标序列数据进行编码处理，得到该待处理数据的第一目标隐向量，对该第一目标隐向量进行解码处理，得到该第二目标序列数据；将该第二目标序列数据进行编码处理，得到该待处理数据的第二目标隐向量；第二目标生成器中采用的是编码器-解码器(encoder-decoder)结构来实现重构误差，但是由于时间序列特征空间维度高，容易造成重构误差变量太多，容易受异常点影响。可以采用encoder1->decoder->encoder2结构来重构误差，计算encoder1和encoder2两个编码器编码之后的低纬度特征之间的重构误差作为损失函数。

将该第一目标隐向量与该第二目标隐向量输入到上述的第二目标判别器中，得到该第二目标判别器输出的该待处理数据属于该正常类型的目标概率。

在另一个可选的实施例中，图3是根据本发明优选实施例的数据类型的确定方法的流程图二，如图3所示，在上述步骤S102之前，完成上第二目标生成器和第二目标判别器的训练，具体包括以下步骤：

步骤S202，获取属于该正常类型的训练数据的第一序列数据，具体的，从该训练数据中按照时间序列提取多个维度的序列数据，如，从训练数据中提取72*10维的序列数据。

步骤S302，根据该第一序列数据对第二初始生成器进行训练，得到该第二目标生成器，其中，该时间序列数据为该第二初始生成器的输入，该第二初始生成器用于对该第一序列数据进行编码处理，得到该训练数据的第一隐向量，对该第一隐向量进行解码处理，得到该第二序列数据；将该第二序列数据进行编码处理，得到该训练数据的第二隐向量，该第二目标生成器基于该第一序列据所输出的预估的第二隐向量与该第一序列数据实际对应的第二隐向量之间的第三损失函数满足第四预定收敛条件；随着训练的进行，第三损失函数的损失值不断减小，直到趋于稳定，此时，第三损失函数的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第四预定收敛条件为第三损失函数的损失值小于或等于第四预定值，第四预定值即为随着训练趋于稳定的值，第四预定值可能与上述第一、第二、第三预定值相同也可能不同。

步骤S304，根据该第一隐向量与该第二隐向量对第二初始判别器进行训练，得到该第二目标判别器，其中，该第一隐向量与该第二隐向量为该第二初始判别器的输入，该第二初始判别器用于输出该训练数据属于正常类型的概率，该第二目标生成器基于该第一隐向量与该第二隐向量所输出的预估的该训练数据属于正常类型的概率的第四损失函数满足第五预定收敛条件。随着训练的进行，第四损失函数的损失值不断减小，直到趋于稳定，此时，第四损失函数的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第五预定收敛条件为第四损失函数的损失值小于或等于第五预定值，第五预定值即为随着训练趋于稳定的值，第五预定值可能与上述第一、第二、第三、第四预定值相同也可能不同。

在一可选的实施例中，在训练过程中，可以将训练结束的条件与重构误差相关联，具体的，将该第二隐向量与该第一隐向量进行对比，确定该训练数据的第二重构误差；将该第二重构误差、该第三损失函数以及该第四损失函数之和确定为第二目标总误差，在该第二目标总误差满足第六预定收敛条件的情况下，完成对该第二初始生成器与该第二初始判别器的训练，分别得到该第二目标生成器与该第二目标判别器。随着训练的进行，第二目标总误差的损失值不断减小，直到趋于稳定，此时，第二目标总误差的损失值不再随着训练的继续而减小，则可以停止训练，即训练完成，此时，第六预定收敛条件为第二目标总误差的损失值小于或等于第六预定值，第六预定值即为随着训练趋于稳定的值，第六预定值可能与上述第一、第二、第三、第四、第五预定值相同也可能不同。

图4是根据本发明实施例的生成对抗网络的框图，如图4所示，基于对抗网络的来训练和预测某条流水是否作弊，对抗网络分为生成器42和判别器44，其中，生成器42为自编码器结构。在生成器42中，对数据序列数据X(对应上述的第一时间序列数据)增加噪声，得到添加随机噪声之后的时间序列数据X，对添加随机噪声之后的数据序列数据X进行编码，编码后得到的隐向量，对隐向量进行解码，得到重构后的时间序列数据R(X)；将时间序列数据R(X)(对应上述的第二时间序列数据)输入判别器44中，通过长短期记忆LSTM处理，之后输出目标置信度，即输出第二时间序列数据R(X)为正常类型数据的概率，在概率大于或等于预设阈值的情况下，确定为正常类型的数据，在小于预设阈值的情况下，确定为异常数据，即为作弊数据。

图5是根据本发明实施例的生成器的网络架构图，如图5所示，通过编码器encoder对第一时间序列数据进行编码，encoder将第一时间序列数据(批量大小batchsize72*10)经过长短期记忆(LSTM)和全连接层(FC)压缩成128位特征，然后再通过decoder进行还原，还原后的数据和原始数据会有一个重构误差，为了提供自编码器的鲁棒性，在原始数据上加入随机噪声。生成器训练后，对于正常(normal)样本，经过自编码器结构后，会起到降噪作用，但是对于异常(abnormal)样本，经过自编码器结构后，会完全失去原有的信息，对判别器而言更容易区分。判别器24中的网络结构和自编码器中的encoder类似，经过LSTM和全连接后输出一个浮点数，表示该数据为正常样本的概率，概率越大，为正常样本的概率越高，否则为异常样本的概率越高。

由于基础版的生成对抗网络有训练不稳定和容易出现模式崩塌的问题，比如训练过程中生成器太弱，会导致生成的样本单一，如果判别器很弱，会导致生成的样本不符合预期，因此本发明实施例使用的是改进版的生成对抗网络WGAN(Wasserstein GAN)。

损失函数除了使用WGAN的损失函数：L(D)＝E[D(x)]–E[D(G(z))]和L(G)＝E[D(G(z))]。还会加上L(R)＝|R(X)-X|2表示重构误差，总误差为L(D)+L(G)+λL(R)，其中λ是个超参数，表示重构误差所占的权重，在训练迭代之后，能够保证生成器能够把重构误差最小化，同时保证判别器能够准确的区分正常样本和异常样本，当重构误差小于某个超参数σ时，可以停止继续迭代。

在进行模型预测时，需要先对预测样本输入到生成器进行样本重构，再输入到判别器中，输出正常样本的概率值，通过设置阈值来判断样本是否作弊，图6是根据本发明实施例的反作弊模型预测的流程图，如图6所示，包括：

步骤S601，输入目标对象的样本数据；

步骤S602，提取样本数据的时间序列数据X；

步骤S603，将提取的时间序列数据X输入到生成器中，得到生成器输出的重构后的时间序列数据R(X)；

步骤S604，将重构后的时间序列数据R(X)输入到判别器中，得到判别器输出的样本为正常类型数据的概率D(R(X))；

步骤S605、获取目标对象的IP画像，通过IP画像确定目标对象的流量数据为正常类型数据的第一概率；

步骤S606，获取目标对象的设备画像，通过设备画像驱动目标对象的流量数据为正常类型数据的第二概率；

步骤S607，融合上述的样本为正常类型数据的概率D(R(X))、第一概率以及第二概率确定目标对象的流量数据是否为正常类型数据，具体的，可以分别为IP画像、设备画像、样本数据设置权重，从而根据D(R(X))、第一概率以及第二概率确定目标对象的流量数据为正常类型数据的总概率，在该总概率大于或等于预设阈值时，确定为正常类型数据，在该总概率小于预设阈值时，确定流量数据为作弊的异常类型数据。

本发明实施例在生成器中采用的是编码器-解码器encoder-decoder结构来实现重构误差，但是由于时间序列特征空间维度高，容易造成重构误差变量太多，容易受异常点影响。因此可以采用encoder1->decoder->encoder2结构来重构误差，计算encoder1和encoder2两个编码器编码之后的低纬度特征之间的重构误差来作为损失函数。可以适用于大数据和高维特征场景，而且是端对端模型，数据预处理、特征提取、训练都在一个流程完成，在预测过程中自动提取时间序列特征，可以用于表示学习，输出中间特征，同时输出作弊概率值。使用生成对抗网络框架来训练生成器和判别器，并且在样本输入时加入随机噪声，提高模型的鲁棒性，本发明实施例能够保证高覆盖低误杀，性能效果比现有方法要好，同时框架结构设计是端对端，无需太多人工参与。

本发明实施例还提供了一种数据类型的确定装置，图7是根据本发明实施例的数据类型的确定装置的框图，如图7所示，包括：

第一获取模块72，用于获取待处理数据的第一目标序列数据，其中，该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据；

输入模块74，用于将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，其中，该对抗网络模型用于将该第一目标序列数据进行重构，得到第二目标序列数据，并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率，该目标概率与该重构误差负相关，该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型，该对抗网络模型用于在输入数据为该正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

确定模块76，用于在该目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；在该目标概率小于该预设阈值的情况下，确定该待处理数据不属于该正常类型。

可选地，该输入模块74包括：

第一输入子模块，用于将该第一目标序列数据输入预先训练好的第一目标生成器中，该第一目标生成器用于将该第一目标序列数据进行重构，得到该第二目标序列数据；

第二输入子模块，用于将该第一目标序列数据与该第二目标序列数据输入到预先训练好的第一目标判别器中，得到该第一目标判别器根据该重构误差输出的该目标概率，其中，该对抗网络模型包括该第一目标生成器和该第一目标判别器。

图8是根据本发明优选实施例的数据类型的确定装置的框图一，如图8所示，该装置还包括：

第二获取模块82，用于获取属于该正常类型的训练数据的第一序列数据，其中，该第一序列数据是从该训练数据中按照时间序列提取的多个维度的时间序列数据；

第一训练模块84，用于根据该第一序列数据对第一初始生成器进行训练，得到该第一目标生成器，其中，该第一序列数据为该第一初始生成器的输入，该第一初始生成器用于对该第一序列数据进行重构，得到该第二序列数据，该第二序列数据与该第一序列数据之间的第一损失函数满足第一预定收敛条件；

第二训练模块86，用于根据该第一序列数据与该第二序列数据对第一初始判别器进行训练，得到第一目标判别器，其中，该第一序列数据与该第二序列数据为该第一初始判别器的输入，该第一初始判别器输出该训练数据属于该正常类型的概率，该第一目标生成器基于该第一序列数据、该第二序列数据所输出的预估的该训练数据属于正常类型的概率的第二损失函数满足第二预定收敛条件。

可选地，该第一训练模块84包括：

编码子模块，用于对该第一序列数据进行编码处理，得到该训练数据的第一隐向量，其中，该第一隐向量为该第一序列数据编码处理后的向量；

解码子模块，用于对该第一隐向量进行解码处理，得到该第二序列数据。

可选地，该第二训练模块86包括：

第一对比子模块，用于将该第二序列数据与该第一序列数据进行对比，得到该训练数据的第一重构误差；

第一确定子模块，用于将该第一重构误差、该第一损失函数以及该第二损失函数之和确定为第一目标总误差，在该第一目标总误差满足第三预定收敛条件的情况下，完成对该第一初始生成器与该第一初始判别器的训练，分别得到该第一目标生成器与该第一目标判别器。

可选地，该输入模块74包括：

第三输入子模块，用于将该第一目标序列数据输入预先训练好的第二目标生成器中，其中，该第二目标生成器用于对该第一目标序列数据进行编码处理，得到该待处理数据的第一目标隐向量，对该第一目标隐向量进行解码处理，得到该第二目标序列数据；将该第二目标序列数据进行编码处理，得到该待处理数据的第二目标隐向量；

第四输入子模块，用于将该第一目标隐向量与该第二目标隐向量输入到预先训练好的第二目标判别器中，得到该第二目标判别器输出的该待处理数据属于该正常类型的目标概率，其中，该对抗网络模型包括该第二目标生成器和该第二目标判别器。

图9是根据本发明优选实施例的数据类型的确定装置的框图二，如图9所示，该装置还包括：

第二获取模块82，用于获取属于该正常类型的训练数据的第一序列数据，其中，该第一序列数据是从该训练数据中按照时间序列提取的多个维度的序列数据；

第三训练模块92，用于根据该第一序列数据对第二初始生成器进行训练，得到该第二目标生成器，其中，该时间序列数据为该第二初始生成器的输入，该第二初始生成器用于对该第一序列数据进行编码处理，得到该训练数据的第一隐向量，对该第一隐向量进行解码处理，得到该第二序列数据；将该第二序列数据进行编码处理，得到该训练数据的第二隐向量，该第二目标生成器基于该第一序列数据所输出的预估的第二隐向量与该第一序列数据实际对应的第二隐向量之间的第三损失函数满足第四预定收敛条件；

第四训练模块94，用于根据该第一隐向量与该第二隐向量对第二初始判别器进行训练，得到该第二目标判别器，其中，该第一隐向量与该第二隐向量为该第二初始判别器的输入，该第二初始判别器用于输出该训练数据属于正常类型的概率，该第二目标生成器基于该第一隐向量与该第二隐向量所输出的预估的该训练数据属于正常类型的概率的第四损失函数满足第五预定收敛条件。

可选地，该第四训练模块94包括：

第二对比子模块，用于将该第二隐向量与该第一隐向量进行对比，确定该训练数据的第二重构误差；

第二确定子模块，用于将该第二重构误差、该第三损失函数以及该第四损失函数之和确定为第二目标总误差，在该第二目标总误差满足第六预定收敛条件的情况下，完成对该第二初始生成器与该第二初始判别器的训练，分别得到该第二目标生成器与该第二目标判别器。

可选地，该编码子模块，还用于

将该训练数据的时间序列数据经过长短期记忆LSTM和全连接层FC压缩成该第一隐向量。

可选地，该装置还包括：增加子模块，用于对该时间序列数据上增加随机噪声，得到增加该随机噪声之后的时间序列数据；

该编码子模块，还用于对增加该随机噪声之后的时间序列数据进行编码，得到该训练数据的第一隐向量。

根据本发明实施例的又一个方面，还提供了一种用于实施上述数据类型的确定方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，获取待处理数据的第一目标序列数据，其中，该第一目标序列数据是从该待处理数据中按照时间序列提取的多个维度的序列数据；

S12，将该第一目标序列数据输入预先训练好的对抗网络模型中，得到该对抗网络模型输出的该待处理数据属于正常类型的目标概率，其中，该对抗网络模型用于将该第一目标序列数据进行重构，得到第二目标序列数据，并根据该第一目标序列数据与该第二目标序列数据之间的重构误差确定该目标概率，该目标概率与该重构误差负相关，该对抗网络模型是基于该正常类型的训练数据进行训练得到的模型，该对抗网络模型用于在输入数据为该正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

S13，在该目标概率大于或等于预设阈值的情况下，确定该待处理数据该属于该正常类型；在该目标概率小于该预设阈值的情况下，确定该待处理数据不属于该正常类型。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Andro标识手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，M标识)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的数据类型的确定方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据类型的确定方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于加密密钥(包括第一加密密钥、第二加密密钥等)与解密密钥(包括第一解密密钥、第二解密密钥等)等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述数据类型的确定装置中的第一获取模块72、输入模块74以及确定模块76。此外，还可以包括但不限于上述数据类型的确定装置一中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述媒体资源；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据类型的确定方法，其特征在于，包括：

获取待处理数据的第一目标序列数据，其中，所述第一目标序列数据是从所述待处理数据中按照时间序列提取的多个维度的序列数据；

将所述第一目标序列数据输入预先训练好的对抗网络模型中，得到所述对抗网络模型输出的所述待处理数据属于正常类型的目标概率，其中，所述对抗网络模型用于将所述第一目标序列数据进行重构，得到第二目标序列数据，并根据所述第一目标序列数据与所述第二目标序列数据之间的重构误差确定所述目标概率，所述目标概率与所述重构误差负相关，所述对抗网络模型是基于所述正常类型的训练数据进行训练得到的模型，所述对抗网络模型用于在输入数据为所述正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

在所述目标概率大于或等于预设阈值的情况下，确定所述待处理数据所述属于所述正常类型；在所述目标概率小于所述预设阈值的情况下，确定所述待处理数据不属于所述正常类型。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一目标序列数据输入预先训练好的对抗网络模型中，得到所述对抗网络模型输出的所述待处理数据属于正常类型的目标概率，包括：

将所述第一目标序列数据输入预先训练好的第一目标生成器中，所述第一目标生成器用于将所述第一目标序列数据进行重构，得到所述第二目标序列数据；

将所述第一目标序列数据与所述第二目标序列数据输入到预先训练好的第一目标判别器中，得到所述第一目标判别器根据重构误差输出的所述目标概率，其中，所述对抗网络模型包括所述第一目标生成器和所述第一目标判别器。

3.根据权利要求2所述的方法，其特征在于，在获取所述待处理数据的第一目标序列数据之前，所述方法还包括：

获取属于所述正常类型的训练数据的第一序列数据，其中，所述第一序列数据是从所述训练数据中按照时间序列提取的多个维度的时间序列数据；

根据所述第一序列数据对第一初始生成器进行训练，得到所述第一目标生成器，其中，所述第一序列数据为所述第一初始生成器的输入，所述第一初始生成器用于对所述第一序列数据进行重构，得到所述第二序列数据，所述第二序列数据与所述第一序列数据之间的第一损失函数满足第一预定收敛条件；

根据所述第一序列数据与所述第二序列数据对第一初始判别器进行训练，得到第一目标判别器，其中，所述第一序列数据与所述第二序列数据为所述第一初始判别器的输入，所述第一初始判别器输出所述训练数据属于所述正常类型的概率，所述第一目标生成器基于所述第一序列数据、所述第二序列数据所输出的预估的所述训练数据属于正常类型的概率的第二损失函数满足第二预定收敛条件。

4.根据权利要求3所述的方法，其特征在于，根据所述第一序列数据对第一初始生成器进行训练，得到所述第一目标生成器包括：

对所述第一序列数据进行编码处理，得到所述训练数据的第一隐向量，其中，所述第一隐向量为所述第一序列数据编码处理后的向量；

对所述第一隐向量进行解码处理，得到所述第二序列数据。

5.根据权利要求3所述的方法，其特征在于，根据所述第一序列数据与所述第二序列数据对第一初始判别器进行训练，得到第一目标判别器包括：

将所述第二序列数据与所述第一序列数据进行对比，得到所述训练数据的第一重构误差；

将所述第一重构误差、所述第一损失函数以及所述第二损失函数之和确定为第一目标总误差，在所述第一目标总误差满足第三预定收敛条件的情况下，完成对所述第一初始生成器与所述第一初始判别器的训练，分别得到所述第一目标生成器与所述第一目标判别器。

6.根据权利要求1所述的方法，其特征在于，将所述第一目标序列数据输入预先训练好的对抗网络模型中，得到所述对抗网络模型输出的所述待处理数据属于正常类型的目标概率包括：

将所述第一目标序列数据输入预先训练好的第二目标生成器中，其中，所述第二目标生成器用于对所述第一目标序列数据进行编码处理，得到所述待处理数据的第一目标隐向量，对所述第一目标隐向量进行解码处理，得到所述第二目标序列数据；将所述第二目标序列数据进行编码处理，得到所述待处理数据的第二目标隐向量；

将所述第一目标隐向量与所述第二目标隐向量输入到预先训练好的第二目标判别器中，得到所述第二目标判别器输出的所述待处理数据属于所述正常类型的目标概率，其中，所述对抗网络模型包括所述第二目标生成器和所述第二目标判别器。

7.根据权利要求6所述的方法，其特征在于，在获取上述待处理数据的第一目标序列数据之前，所述方法还包括：

获取属于所述正常类型的训练数据的第一序列数据，其中，所述第一序列数据是从所述训练数据中按照时间序列提取的多个维度的序列数据；

根据所述第一序列数据对第二初始生成器进行训练，得到所述第二目标生成器，其中，所述时间序列数据为所述第二初始生成器的输入，所述第二初始生成器用于对所述第一序列数据进行编码处理，得到所述训练数据的第一隐向量，对所述第一隐向量进行解码处理，得到所述第二序列数据；将所述第二序列数据进行编码处理，得到所述训练数据的第二隐向量，所述第二目标生成器基于所述第一序列数据所输出的预估的第二隐向量与所述第一序列数据实际对应的第二隐向量之间的第三损失函数满足第四预定收敛条件；

根据所述第一隐向量与所述第二隐向量对第二初始判别器进行训练，得到所述第二目标判别器，其中，所述第一隐向量与所述第二隐向量为所述第二初始判别器的输入，所述第二初始判别器用于输出所述训练数据属于正常类型的概率，所述第二目标生成器基于所述第一隐向量与所述第二隐向量所输出的预估的所述训练数据属于正常类型的概率的第四损失函数满足第五预定收敛条件。

8.根据权利要求7所述的方法，其特征在于，根据所述第一隐向量与所述第二隐向量对第二初始判别器进行训练，得到所述第二目标判别器包括：

将所述第二隐向量与所述第一隐向量进行对比，确定所述训练数据的第二重构误差；

将所述第二重构误差、所述第三损失函数以及所述第四损失函数之和确定为第二目标总误差，在所述第二目标总误差满足第六预定收敛条件的情况下，完成对所述第二初始生成器与所述第二初始判别器的训练，分别得到所述第二目标生成器与所述第二目标判别器。

9.根据权利要求4或7所述的方法，其特征在于，对所述时间序列数据进行编码，得到所述训练数据的第一隐向量包括：

将所述训练数据的时间序列数据经过长短期记忆LSTM和全连接层FC压缩成所述第一隐向量。

10.根据权利要求9所述的方法，其特征在于，

在对所述时间序列数据进行编码，得到所述训练数据的第一隐向量之前，所述方法还包括：对所述时间序列数据上增加随机噪声，得到增加所述随机噪声之后的时间序列数据；

对所述时间序列数据进行编码，得到所述训练数据的第一隐向量包括：对增加所述随机噪声之后的时间序列数据进行编码，得到所述训练数据的第一隐向量。

11.一种数据类型的确定装置，其特征在于，包括：

第一获取模块，用于获取待处理数据的第一目标序列数据，其中，所述第一目标序列数据是从所述待处理数据中按照时间序列提取的多个维度的序列数据；

输入模块，用于将所述第一目标序列数据输入预先训练好的对抗网络模型中，得到所述对抗网络模型输出的所述待处理数据属于正常类型的目标概率，其中，所述对抗网络模型用于将所述第一目标序列数据进行重构，得到第二目标序列数据，并根据所述第一目标序列数据与所述第二目标序列数据之间的重构误差确定所述目标概率，所述目标概率与所述重构误差负相关，所述对抗网络模型是基于所述正常类型的训练数据进行训练得到的模型，所述对抗网络模型用于在输入数据为所述正常类型的数据时输出的所述输入数据为正常类型的概率小于预设阈值；

确定模块，用于在所述目标概率大于或等于预设阈值的情况下，确定所述待处理数据所述属于所述正常类型；在所述目标概率小于所述预设阈值的情况下，确定所述待处理数据不属于所述正常类型。

12.根据权利要求11所述的装置，其特征在于，所述输入模块包括：

第一输入子模块，用于将所述第一目标序列数据输入预先训练好的第一目标生成器中，所述第一目标生成器用于将所述第一目标序列数据进行重构，得到所述第二目标序列数据；

第二输入子模块，用于将所述第一目标序列数据与所述第二目标序列数据输入到预先训练好的第一目标判别器中，得到所述第一目标判别器根据所述重构误差输出的所述目标概率，其中，所述对抗网络模型包括所述第一目标生成器和所述第一目标判别器。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取属于所述正常类型的训练数据的第一序列数据，其中，所述第一序列数据是从所述训练数据中按照时间序列提取的多个维度的时间序列数据；

第一训练模块，用于根据所述第一序列数据对第一初始生成器进行训练，得到所述第一目标生成器，其中，所述第一序列数据为所述第一初始生成器的输入，所述第一初始生成器用于对所述第一序列数据进行重构，得到所述第二序列数据，所述第二序列数据与所述第一序列数据之间的第一损失函数满足第一预定收敛条件；

第二训练模块，用于根据所述第一序列数据与所述第二序列数据对第一初始判别器进行训练，得到第一目标判别器，其中，所述第一序列数据与所述第二序列数据为所述第一初始判别器的输入，所述第一初始判别器输出所述训练数据属于所述正常类型的概率，所述第一目标生成器基于所述第一序列数据、所述第二序列数据所输出的预估的所述训练数据属于正常类型的概率的第二损失函数满足第二预定收敛条件。

14.一种计算机可读的存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至10任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。