CN108256573B

CN108256573B - 一种Web Service用户端虚假申请识别方法

Info

Publication number: CN108256573B
Application number: CN201810041178.9A
Authority: CN
Inventors: 杨磊; 连德富; 李春; 孙俊
Original assignee: Chengdu Xundao Technology Co ltd
Current assignee: Chengdu Xundao Technology Co ltd
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2021-06-25
Anticipated expiration: 2038-01-16
Also published as: CN108256573A

Abstract

本发明公开了一种Web Service用户端虚假申请识别方法，其特征在于：包括以下步骤：S1：对Web Service用户端申请记录进行收集和预处理，收集若干用户端真实申请记录作为训练样本；S2：基于深度卷积神经网络来构造申请记录生成模型和虚假申请识别模型；S3：对申请记录生成模型和虚假申请识别模型进行训练；S4:将虚假申请识别模型的中间层作为特征，训练虚假申请分类器，进行虚假申请识别。本发明基于生成对抗网络，通过对申请记录生成模型和虚假申请识别模型的训练，优化虚假申请识别模型，基于虚假申请识别模型的中间层，训练虚假申请分类器，提高Web Service用户端虚假申请识别精度。

Description

一种Web Service用户端虚假申请识别方法

技术领域

本发明涉及大数据分析挖掘技术领域，尤其是一种Web Service用户端虚假申请识别方法。

背景技术

随着互联网的普及，各种网络服务日益成为人们日常生活的一部分，如电子商务、免费的电子邮箱服务、免费的资源下载等等。Web Service是为企业需求提供的在线应用服务,其他公司或应用软件能够通过Internet来访问并使用这项在线服务。

由于现有Web Service服务被大量的访问，Web Service用户端产生了大量的申请，其中大部分属于真实申请，但同样存在虚假申请；虚假申请会占用服务资源，产生大量的网络垃圾，影响合法用户的网络体验，对网络服务的安全性造成极大威胁；而现有的虚假申请识别需要标注很多的数据，识别效率低。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供一种Web Service用户端虚假申请识别方法，利用生成对抗网络训练申请记录生成模型和虚假申请识别模型，当模型收敛后，得到优化后的虚假申请识别模型，将训练好的虚假申请识别模型的中间层作为新训练的虚假申请分类器的特征，根据虚假申请分类器识别虚假申请。

本发明采用的技术方案如下：

本发明一种Web Service用户端虚假申请识别方法，包括以下步骤：

S1：对Web Service用户端申请记录进行收集和预处理，收集若干用户端真实申请记录作为训练样本；

S2：基于深度卷积神经网络来构造判别网络和生成网络；所述生成网络为申请记录生成模型，所述判别网络为虚假申请识别模型；

S3：对申请记录生成模型和虚假申请识别模型进行训练；具体包括：S31设定损失函数，其公式如下：

其中，D(x)为虚假申请识别模型在训练数据集上的输出，x～Pdata(x)为数据集的真实概率分布，D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出，z～Pz(x)为申请记录生成模型模拟的训练数据集概率分布，z为随机向量；S32虚假申请识别模型训练数据的生成，设训练的batch大小为100，则50个正样本由训练样本中随机选取，50个负样本通过申请记录生成模型生成；S33申请记录生成模型训练数据的生成，设训练的batch大小为100，则生成100个正样本；

S34分别进行虚假申请识别模型和申请记录生成模型的训练；

S4:将训练好的虚假申请识别模型的中间层作为特征提取器，提取特征，根据提取的特征，训练虚假申请分类器；

S5：通过虚假申请分类器对用户端发送的申请进行识别。

进一步，所述S32中则50个负样本生成过程如下：生成50个随机向量；将50个随机向量作为申请记录生成模型的输入，得到50个伪造数据，并标定为虚假申请识别模型的负样本。

进一步，所述S33中则100个正样本生成过程如下：生成100个随机向量；将100个随机向量作为申请记录生成模型的输入，得到100个伪造数据，并标定为申请记录生成模型的正样本。

进一步，所述S34中虚假申请识别模型和申请记录生成模型的训练，其具体步骤如下：

S341虚假申请识别模型进行训练，选取m个噪声样本，先验概率分布为pg(z)，标记为{z(1),...,z(m)}；选取m个训练样本，概率分布为p_data(x)，标记为{x(1),...,x(m)}；根据随机梯度下降法，更新虚假申请识别模型，其计算随机梯度公式如下：

表示梯度，θ表示网络参数，θd表示虚假申请识别模型的参数；

S342申请记录生成模型进行训练，选取m个噪声样本，先验概率分布为pg(z)，标记为{z(1),...,z(m)}，根据随机梯度下降法，更新申请记录生成模型，其计算随机梯度公式如下：

表示梯度，θ表示网络参数，θg表示申请记录生成模型的参数；

S343虚假申请识别模型进行申请真实概率判断，当虚假申请识别模型判定申请为训练申请的概率趋于0.5时，训练完成。

以上方法，通过生成对抗网络，构建虚假申请识别模型和申请记录生成模型，并进行对抗训练，得到优化的虚假申请识别模型，优化的虚假申请识别模型中集成了真实申请和虚假申请的大量特征，这些特征全面反映了真实申请和虚假申请的区别；基于这些特征能够检测出大多数的虚假申请。

进一步，所述S4中，训练虚假申请分类器的方法：提取虚假申请识别模型中间层的特征，得到训练样本，构建分类器，利用训练样本对分类器进行训练，得到虚假申请分类器。

以上方法，将虚假申请识别模型中间层提取出来，中间层中包含了真实申请和虚假申请的区别特征，基于区别特征构建的分类器，能够更加精准的对申请进行判别，检测出虚假申请。

进一步，所述S5具体包括：采集用户端的申请记录，输入虚假申请分类器，分类器经过判断后，若为虚假申请，进行标记。

综上所述，由于采用了上述技术方案，本发明的有益效果是：与现有技术相比，本发明在虚假申请识别中，基于生成式对抗网络进行训练，生成最优的虚假申请识别模型，并将虚假申请识别模型的中间层作为特征，训练虚假申请分类器，进行虚假申请分类识别；在训练中，对标注数据需求量少，但能够达到很高的虚假申请识别精度；并且优化的虚假申请识别模型能够识别历史记录中很少出现的情况。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明一种Web Service用户端虚假申请识别的方法的流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

如图1，本发明一种Web Service用户端虚假申请识别方法，包括以下步骤：

S3：对申请记录生成模型和虚假申请识别模型进行训练；

S5：通过虚假申请分类器对用户端发送的申请进行识别。

申请记录生成模型和虚假申请识别模型进行训练的方法包括：

S31设定损失函数，其公式如下：

S34分别进行虚假申请识别模型和申请记录生成模型的训练。

所述S32中则50个负样本生成过程如下：生成50个随机向量；将50个随机向量作为申请记录生成模型的输入，得到50个伪造数据，并标定为虚假申请识别模型的负样本。

所述S33中则100个正样本生成过程如下：生成100个随机向量；将100个随机向量作为申请记录生成模型的输入，得到100个伪造数据，并标定为申请记录生成模型的正样本。

所述S34中虚假申请识别模型和申请记录生成模型的训练，其具体步骤如下：S341虚假申请识别模型进行训练，

选取m个噪声样本，先验概率分布为pg(z)，标记为{z(1),...,z(m)}；

选取m个训练样本，概率分布为pdata(x)，标记为{x(1),...,x(m)}；

根据随机梯度下降法，更新虚假申请识别模型，其计算随机梯度公式如下：

S342申请记录生成模型进行训练，

选取m个噪声样本，先验概率分布为pg(z)，标记为{z(1),...,z(m)}，根据随机梯度下降法，更新申请记录生成模型，其计算随机梯度公式如下：

在训练虚假申请分类器中，提取虚假申请识别模型中间层的特征，得到训练样本，构建分类器，其中分类器为一般的线性分类器或其他通用的分类器；利用训练样本对分类器进行训练，得到虚假申请分类器。

根据训练好的虚假申请分类器对用户端发送的申请进行识别，若识别为虚假申请，禁止访问，若识别为真实申请，开启服务。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种Web Service用户端虚假申请识别方法，其特征在于：包括以下步骤：

其中，D(x)为虚假申请识别模型在训练数据集上的输出，x～Pdata(x)为数据集的真实概率分布，D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出，z～Pz(x)为申请记录生成模型模拟的训练数据集概率分布，z为随机向量；

S32虚假申请识别模型训练数据的生成，设训练的batch大小为100，则50个正样本由训练样本中随机选取，50个负样本通过申请记录生成模型生成；

S33申请记录生成模型训练数据的生成，设训练的batch大小为100，则生成100个负样本；

S34分别进行虚假申请识别模型和申请记录生成模型的训练；

S5：通过虚假申请分类器对用户端发送的申请进行识别。

2.如权利要求1所述的Web Service用户端虚假申请识别方法，其特征在于：所述S32中则50个负样本生成过程如下：生成50个随机向量；将50个随机向量作为申请记录生成模型的输入，得到50个伪造数据，并标定为虚假申请识别模型的负样本。

3.如权利要求1所述的Web Service用户端虚假申请识别方法，其特征在于：所述S33中则100个负样本生成过程如下：生成100个随机向量；将100个随机向量作为申请记录生成模型的输入，得到100个伪造数据，并标定为申请记录生成模型的负样本。

4.如权利要求1所述的Web Service用户端虚假申请识别方法，其特征在于：所述S34中虚假申请识别模型和申请记录生成模型的训练，其具体步骤如下：S341虚假申请识别模型进行训练，

选取m个噪声样本，先验概率分布为pg(z)，标记为{Z¹,...,Z^m}；

选取m个训练样本，概率分布为p_data(x)，标记为{x(1),...,x(m)}；

S342申请记录生成模型进行训练，

选取m个噪声样本，先验概率分布为pg(z)，标记为

根据随机梯度下降法，更新申请记录生成模型，其计算随机梯度公式如下：

5.如权利要求1所述的Web Service用户端虚假申请识别方法，其特征在于：所述S4中，训练虚假申请分类器的方法：提取虚假申请识别模型中间层的特征，得到训练样本，构建分类器，利用训练样本对分类器进行训练，得到虚假申请分类器。

6.如权利要求1所述的Web Service用户端虚假申请识别方法，其特征在于：所述S5具体包括：采集用户端的申请记录，输入虚假申请分类器，分类器经过判断后，若为虚假申请，进行标记。