CN108256573B - 一种Web Service用户端虚假申请识别方法 - Google Patents

一种Web Service用户端虚假申请识别方法 Download PDF

Info

Publication number
CN108256573B
CN108256573B CN201810041178.9A CN201810041178A CN108256573B CN 108256573 B CN108256573 B CN 108256573B CN 201810041178 A CN201810041178 A CN 201810041178A CN 108256573 B CN108256573 B CN 108256573B
Authority
CN
China
Prior art keywords
application
false
training
model
false application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810041178.9A
Other languages
English (en)
Other versions
CN108256573A (zh
Inventor
杨磊
连德富
李春
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xundao Technology Co ltd
Original Assignee
Chengdu Xundao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xundao Technology Co ltd filed Critical Chengdu Xundao Technology Co ltd
Priority to CN201810041178.9A priority Critical patent/CN108256573B/zh
Publication of CN108256573A publication Critical patent/CN108256573A/zh
Application granted granted Critical
Publication of CN108256573B publication Critical patent/CN108256573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种Web Service用户端虚假申请识别方法,其特征在于:包括以下步骤:S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请记录作为训练样本;S2:基于深度卷积神经网络来构造申请记录生成模型和虚假申请识别模型;S3:对申请记录生成模型和虚假申请识别模型进行训练;S4:将虚假申请识别模型的中间层作为特征,训练虚假申请分类器,进行虚假申请识别。本发明基于生成对抗网络,通过对申请记录生成模型和虚假申请识别模型的训练,优化虚假申请识别模型,基于虚假申请识别模型的中间层,训练虚假申请分类器,提高Web Service用户端虚假申请识别精度。

Description

一种Web Service用户端虚假申请识别方法
技术领域
本发明涉及大数据分析挖掘技术领域,尤其是一种Web Service用户端虚假申请识别方法。
背景技术
随着互联网的普及,各种网络服务日益成为人们日常生活的一部分,如电子商务、免费的电子邮箱服务、免费的资源下载等等。Web Service是为企业需求提供的在线应用服务,其他公司或应用软件能够通过Internet来访问并使用这项在线服务。
由于现有Web Service服务被大量的访问,Web Service用户端产生了大量的申请,其中大部分属于真实申请,但同样存在虚假申请;虚假申请会占用服务资源,产生大量的网络垃圾,影响合法用户的网络体验,对网络服务的安全性造成极大威胁;而现有的虚假申请识别需要标注很多的数据,识别效率低。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种Web Service用户端虚假申请识别方法,利用生成对抗网络训练申请记录生成模型和虚假申请识别模型,当模型收敛后,得到优化后的虚假申请识别模型,将训练好的虚假申请识别模型的中间层作为新训练的虚假申请分类器的特征,根据虚假申请分类器识别虚假申请。
本发明采用的技术方案如下:
本发明一种Web Service用户端虚假申请识别方法,包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请记录作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记录生成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;具体包括:S31设定损失函数,其公式如下:
Figure BDA0001549550100000021
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录生成模型模拟的训练数据集概率分布,z为随机向量;S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训练样本中随机选取,50个负样本通过申请记录生成模型生成;S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个正样本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取的特征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
进一步,所述S32中则50个负样本生成过程如下:生成50个随机向量;将50个随机向量作为申请记录生成模型的输入,得到50个伪造数据,并标定为虚假申请识别模型的负样本。
进一步,所述S33中则100个正样本生成过程如下:生成100个随机向量;将100个随机向量作为申请记录生成模型的输入,得到100个伪造数据,并标定为申请记录生成模型的正样本。
进一步,所述S34中虚假申请识别模型和申请记录生成模型的训练,其具体步骤如下:
S341虚假申请识别模型进行训练,选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)};选取m个训练样本,概率分布为pdata(x),标记为{x(1),...,x(m)};根据随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
Figure BDA0001549550100000031
Figure BDA0001549550100000032
表示梯度,θ表示网络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)},根据随机梯度下降法,更新申请记录生成模型,其计算随机梯度公式如下:
Figure BDA0001549550100000033
Figure BDA0001549550100000034
表示梯度,θ表示网络参数,θg表示申请记录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为训练申请的概率趋于0.5时,训练完成。
以上方法,通过生成对抗网络,构建虚假申请识别模型和申请记录生成模型,并进行对抗训练,得到优化的虚假申请识别模型,优化的虚假申请识别模型中集成了真实申请和虚假申请的大量特征,这些特征全面反映了真实申请和虚假申请的区别;基于这些特征能够检测出大多数的虚假申请。
进一步,所述S4中,训练虚假申请分类器的方法:提取虚假申请识别模型中间层的特征,得到训练样本,构建分类器,利用训练样本对分类器进行训练,得到虚假申请分类器。
以上方法,将虚假申请识别模型中间层提取出来,中间层中包含了真实申请和虚假申请的区别特征,基于区别特征构建的分类器,能够更加精准的对申请进行判别,检测出虚假申请。
进一步,所述S5具体包括:采集用户端的申请记录,输入虚假申请分类器,分类器经过判断后,若为虚假申请,进行标记。
综上所述,由于采用了上述技术方案,本发明的有益效果是:与现有技术相比,本发明在虚假申请识别中,基于生成式对抗网络进行训练,生成最优的虚假申请识别模型,并将虚假申请识别模型的中间层作为特征,训练虚假申请分类器,进行虚假申请分类识别;在训练中,对标注数据需求量少,但能够达到很高的虚假申请识别精度;并且优化的虚假申请识别模型能够识别历史记录中很少出现的情况。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明一种Web Service用户端虚假申请识别的方法的流程图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
如图1,本发明一种Web Service用户端虚假申请识别方法,包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请记录作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记录生成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取的特征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
申请记录生成模型和虚假申请识别模型进行训练的方法包括:
S31设定损失函数,其公式如下:
Figure BDA0001549550100000051
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录生成模型模拟的训练数据集概率分布,z为随机向量;S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训练样本中随机选取,50个负样本通过申请记录生成模型生成;S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个正样本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练。
所述S32中则50个负样本生成过程如下:生成50个随机向量;将50个随机向量作为申请记录生成模型的输入,得到50个伪造数据,并标定为虚假申请识别模型的负样本。
所述S33中则100个正样本生成过程如下:生成100个随机向量;将100个随机向量作为申请记录生成模型的输入,得到100个伪造数据,并标定为申请记录生成模型的正样本。
所述S34中虚假申请识别模型和申请记录生成模型的训练,其具体步骤如下:S341虚假申请识别模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)};
选取m个训练样本,概率分布为pdata(x),标记为{x(1),...,x(m)};
根据随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
Figure BDA0001549550100000061
Figure BDA0001549550100000062
表示梯度,θ表示网络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{z(1),...,z(m)},根据随机梯度下降法,更新申请记录生成模型,其计算随机梯度公式如下:
Figure BDA0001549550100000063
Figure BDA0001549550100000064
表示梯度,θ表示网络参数,θg表示申请记录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为训练申请的概率趋于0.5时,训练完成。
在训练虚假申请分类器中,提取虚假申请识别模型中间层的特征,得到训练样本,构建分类器,其中分类器为一般的线性分类器或其他通用的分类器;利用训练样本对分类器进行训练,得到虚假申请分类器。
根据训练好的虚假申请分类器对用户端发送的申请进行识别,若识别为虚假申请,禁止访问,若识别为真实申请,开启服务。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (6)

1.一种Web Service用户端虚假申请识别方法,其特征在于:包括以下步骤:
S1:对Web Service用户端申请记录进行收集和预处理,收集若干用户端真实申请记录作为训练样本;
S2:基于深度卷积神经网络来构造判别网络和生成网络;所述生成网络为申请记录生成模型,所述判别网络为虚假申请识别模型;
S3:对申请记录生成模型和虚假申请识别模型进行训练;具体包括:S31设定损失函数,其公式如下:
Figure FDA0003022106590000011
其中,D(x)为虚假申请识别模型在训练数据集上的输出,x~Pdata(x)为数据集的真实概率分布,D(G(z))为虚假申请识别模型在申请记录生成模型生成的输出,z~Pz(x)为申请记录生成模型模拟的训练数据集概率分布,z为随机向量;
S32虚假申请识别模型训练数据的生成,设训练的batch大小为100,则50个正样本由训练样本中随机选取,50个负样本通过申请记录生成模型生成;
S33申请记录生成模型训练数据的生成,设训练的batch大小为100,则生成100个负样本;
S34分别进行虚假申请识别模型和申请记录生成模型的训练;
S4:将训练好的虚假申请识别模型的中间层作为特征提取器,提取特征,根据提取的特征,训练虚假申请分类器;
S5:通过虚假申请分类器对用户端发送的申请进行识别。
2.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S32中则50个负样本生成过程如下:生成50个随机向量;将50个随机向量作为申请记录生成模型的输入,得到50个伪造数据,并标定为虚假申请识别模型的负样本。
3.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S33中则100个负 样本生成过程如下:生成100个随机向量;将100个随机向量作为申请记录生成模型的输入,得到100个伪造数据,并标定为申请记录生成模型的负样本。
4.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S34中虚假申请识别模型和申请记录生成模型的训练,其具体步骤如下:S341虚假申请识别模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为{Z1,...,Zm};
选取m个训练样本,概率分布为pdata(x),标记为{x(1),...,x(m)};
根据随机梯度下降法,更新虚假申请识别模型,其计算随机梯度公式如下:
Figure FDA0003022106590000021
Figure FDA0003022106590000022
表示梯度,θ表示网络参数,θd表示虚假申请识别模型的参数;
S342申请记录生成模型进行训练,
选取m个噪声样本,先验概率分布为pg(z),标记为
Figure FDA0003022106590000023
根据随机梯度下降法,更新申请记录生成模型,其计算随机梯度公式如下:
Figure FDA0003022106590000024
Figure FDA0003022106590000025
表示梯度,θ表示网络参数,θg表示申请记录生成模型的参数;
S343虚假申请识别模型进行申请真实概率判断,当虚假申请识别模型判定申请为训练申请的概率趋于0.5时,训练完成。
5.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S4中,训练虚假申请分类器的方法:提取虚假申请识别模型中间层的特征,得到训练样本,构建分类器,利用训练样本对分类器进行训练,得到虚假申请分类器。
6.如权利要求1所述的Web Service用户端虚假申请识别方法,其特征在于:所述S5具体包括:采集用户端的申请记录,输入虚假申请分类器,分类器经过判断后,若为虚假申请,进行标记。
CN201810041178.9A 2018-01-16 2018-01-16 一种Web Service用户端虚假申请识别方法 Active CN108256573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810041178.9A CN108256573B (zh) 2018-01-16 2018-01-16 一种Web Service用户端虚假申请识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810041178.9A CN108256573B (zh) 2018-01-16 2018-01-16 一种Web Service用户端虚假申请识别方法

Publications (2)

Publication Number Publication Date
CN108256573A CN108256573A (zh) 2018-07-06
CN108256573B true CN108256573B (zh) 2021-06-25

Family

ID=62740971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810041178.9A Active CN108256573B (zh) 2018-01-16 2018-01-16 一种Web Service用户端虚假申请识别方法

Country Status (1)

Country Link
CN (1) CN108256573B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN103078856A (zh) * 2012-12-29 2013-05-01 大连环宇移动科技有限公司 一种基于访问标记的应用层DDoS攻击的检测过滤方法
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9030316B2 (en) * 2013-03-12 2015-05-12 Honeywell International Inc. System and method of anomaly detection with categorical attributes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN103078856A (zh) * 2012-12-29 2013-05-01 大连环宇移动科技有限公司 一种基于访问标记的应用层DDoS攻击的检测过滤方法
CN106060043A (zh) * 2016-05-31 2016-10-26 北京邮电大学 一种异常流量的检测方法及装置
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN107291911A (zh) * 2017-06-26 2017-10-24 北京奇艺世纪科技有限公司 一种异常检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于WEB服务的虚假评论检测系统设计与实现;王义华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);I139-272 *

Also Published As

Publication number Publication date
CN108256573A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
CN108768986B (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
JP4391506B2 (ja) 評価装置、評価方法及び評価プログラム
CN110163242B (zh) 风险识别方法、装置及服务器
JP5502703B2 (ja) フロー分類方法、システム、およびプログラム
CN113489685B (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN109903053B (zh) 一种基于传感器数据进行行为识别的反欺诈方法
CN110245693B (zh) 结合混合随机森林的关键信息基础设施资产识别方法
Bo et al. Hardness sampling for self-training based transductive zero-shot learning
US8699796B1 (en) Identifying sensitive expressions in images for languages with large alphabets
CN116883157A (zh) 一种基于度量学习的小样本信用评估方法及系统
CN107480126B (zh) 一种工程材料类别智能识别方法
CN108256573B (zh) 一种Web Service用户端虚假申请识别方法
KR20110062274A (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
CN115329169A (zh) 一种基于深度神经模型的档案归档计算方法
CN110245708B (zh) 一种基于gan网络的技术文档术语解释生成方法及装置
CN114266643A (zh) 基于融合算法的企业挖掘方法、装置、设备及存储介质
CN111209397B (zh) 一种确定企业产业类别的方法
CN113010673A (zh) 一种基于熵优化支持向量机的漏洞自动分类方法
CN110263082A (zh) 数据库的数据分布分析方法、装置,电子设备及存储介质
CN117857224B (zh) 一种基于多pov的dns授权依赖安全评估方法
CN112633399B (zh) 一种稀疏协同联合表示模式识别方法
CN112580708B (zh) 从应用程序生成的加密流量中识别上网行为的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant