CN110414597A - 基于深度学习的非人工网络请求数据纹路的识别方法 - Google Patents
基于深度学习的非人工网络请求数据纹路的识别方法 Download PDFInfo
- Publication number
- CN110414597A CN110414597A CN201910680790.5A CN201910680790A CN110414597A CN 110414597 A CN110414597 A CN 110414597A CN 201910680790 A CN201910680790 A CN 201910680790A CN 110414597 A CN110414597 A CN 110414597A
- Authority
- CN
- China
- Prior art keywords
- data
- unartificial
- recognition methods
- deep learning
- network request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的非人工网络请求数据纹路的识别方法,包括:单次数据特征化,多组数据特征化,高阶特征抽象,以及基于卷积神经网络算法的拟合。利用多次处理,完成对网络请求纹路的识别,用于甄别请求方是计算机程序的概率,利用该识别方法,可以有效的在网络采集爬虫识别的过程,或者系统对接过程是否是人为调用的判别上提供了技术支持。
Description
技术领域
本发明涉及网络请求识别技术领域,尤其涉及一种基于深度学习的非人工网络请求数据纹路的识别方法。
背景技术
人工网络请求是人为操作的网络请求,非人工网络请求是一组程序发起的网络请求,在某些系统的外界请求过程中,网站的诉求希望访问者是人为操作,而系统接口希望的是程序的操作。这个过程中,外界系统或人,往往为了达到某个目的,以程序请求网站或者以人工请求系统,所采用的请求方式,违背了服务方的意愿。在请求的过程中,大量的模拟请求,使得网站或系统等服务方,很难发现与识别每次请求的终端是谁,因此,服务方无法对请求的情形进行准确统计,进而对服务方后续的运行造成较大的影响。
发明内容
为了更好地对发现与识别请求的终端身份,本发明提供了一种基于深度学习的非人工网络请求数据纹路的识别方法。
为实现本发明的目的,本发明提供了一种基于深度学习的非人工网络请求数据纹路的识别方法,所述方法包括如下步骤:
步骤S1:针对请求数据进单条数据特征化,利用已知特征、特征变形、指标化特征以及利用"特征数量次数"的随机组合产生随机值与"特征数量次数",进行处理;
步骤S2:针对经过S1步骤处理过的数据,采用双向维度切片,切片颗粒度以固定倍数递增,每多条S1的数据经过切片后形成一组数据,该组数据会汇总该组数据下每条数据的特征数据,并采用对应的特征指标进行新的指标计算;对于S1步骤处理过的数据的随机值,利用算法公式进行运算,能够得到一个新的指标随机值数据;
步骤S3:针对进过步骤S2处理过的数据,进行判断,如果数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1,则执行S4步骤,否则重新交给步骤S1,直至上述经过上述通过算法计算结果小于1;
步骤S4:对于数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1的步骤S2处理过的数据,利用卷积神经网络算法进行拟合公式处理。
其中,在步骤S4之后该识别纹路会极大的区分有规律纹路与无规律纹路,有规律纹路常常被标记为机器数据,无规律纹路则为人工数据。
其中,在步骤S4中,为了避免过拟合,利用随机向量数据算法数据进行观测,收敛加速度大于1停止。
其中,在步骤S2中,所述采用双向维度切片为利用时间与访问目的地两个维度。
其中,所述时间维度采用,1分钟,5分钟,10分钟,30分钟,1小时,8小时,24小时,48小时,72小时。
其中,所述访问目的地维度采用,第一级目录,第二季目录,第三级目录,第四级目录,第五级目录。
与现有技术相比,本发明的有益效果为,利用对多组多路数据的请求行为的综合分析,发现每个客户端发起请求的数据行为纹路特征,从而有效的识别非人工与人工的请求。利用本发明的识别方法,可以有效的提高识别精确程度,降低识别成本。
附图说明
图1所示为本申请的方法步骤示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用属于“包含”和/或“包括”时,其指明存在特征、步骤、操作、部件或者模块、组件和/或它们的组合。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明公开了一种基于深度学习的非人工网络请求数据纹路的识别方法,包括:单次数据特征化,多组数据特征化,高阶特征抽象,以及基于卷积神经网络算法的拟合。利用多次处理,完成对网络请求纹路的识别,用于甄别请求方是计算机程序的概率,利用该识别方法,可以有效的在网络采集爬虫识别的过程,或者系统对接过程是否是人为调用的判别上提供了技术支持。
如图1所示,本申请一种基于深度学习的非人工网络请求数据纹路的识别方法包括如下步骤:
步骤S1:针对请求数据进行单条数据特征化(指明属性项目),利用已知特征、特征变形(多组特征计算)、指标化特征(根据属性值进行分类)、以及利用"特征数量次数"的随机组合产生随机值与"特征数量次数",进行处理;
上述步骤中,采用如下模型算法,进行单条数据特征化处理,其中,n为人工标记特征,m为特征变形,X为数据项目,Y为变化后特征指标,∫∫是一种随机权重取值方法。
其中随机值是与请求数据正相关,为了收敛,需要对该值进行绝对值处理。
步骤S2:针对已经经过S1步骤处理过的数据(S1处理的数据),采用双向维度切片(时间与访问目的地两个维度),切片颗粒度以固定倍数递增(时间维度采用,1分钟,5分钟,10分钟,30分钟,1小时,8小时,24小时,48小时,72小时),(访问地址维度采用,第一级目录,第二季目录,第三级目录,第四级目录,第五级目录),每多条S1处理的数据会经过切片形成一组数据,该组数据会汇总该组数据下每条数据的特征数据,并采用对应的特征指标进行新的指标计算;对于S1处理的数据的随机值,利用公式(1)进行运算,可以得到一个新的指标随机值数据。
通过该步骤处理,为S1数据的每一条数据都增加一些新的指标性数据,这些数据来自于该步骤的切片数据段的运算数据。
在上述步骤中,进行是时间切片和访问目的地切片分别采用如下公式进行:
其中△T是时间维度切片,△U是访问目的切片。依然利用随机函数收敛。S是在时间维度上的数据特征集、K实在访问目的维度上的特征集,i是在时间维度切片后的数据段数量,j是在访问目的维度切片后的数据段数量,通过该方法生成的数据成为指标性数据,用于辅助步骤S1中数据做高阶特征抽象。
步骤S3:针对S2步骤处理过的数据,采用如下算法进行计算,然后进行判断,
公式(4)中,其中λ表示上一次数据的的所有随机值、μ表示每次生成随机值的指标数量;i指的是上一次特征数据随机值的下标值,j表示每次生成随机值的指标数量的下标值;M指的是新产生的随机数的数量,N表示通过S2计算后的特征数据随机值的数量。上述公式被减方为上一次数据的随机值,减数方为计算后的随机值,随着S1、S2的计算次数增高λ与μ的数量差异越小,从而相差绝对值越来越趋近于相等。从而做多次方差进行收敛。
如果数据中包含所有的新生成的随机值通过公式(4)进行计算得到的结果值小于1,则结束执行S4步骤,否则重新交给步骤S1,再做S1与S2步骤,直至步骤S3的算法结果小于1。
在步骤S3中,通过计算每次运算的随机值,针对多次方差结果判断是否结束新指标数据特征的生成。最终当多次运算产生的随机值,通过如下函数计算完成结果小于1,则开始步骤S4。
步骤S4:针对步骤S3筛选过的数据利用卷积神经网络算法进行拟合公式处理。为了避免过拟合,利用随机向量数据算法数据进行观测,收敛加速度大于1停止
在步骤S4的卷积神经网络对数据拟合处理后,该拟合算法可以用于对未知数据的拟合判断,从而对该未知数据可以进行有规律数据纹路与无规律数据纹路的区分,通常该神经网络算法会给出拟合程度的值,大于0.6则认为是有规律纹路且常常被标记为机器数据,小于等于0.6无规律纹路则为人工数据。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,所述方法包括如下步骤:
步骤S1:针对请求数据进单条数据特征化,利用已知特征、特征变形、指标化特征以及利用"特征数量次数"的随机组合产生随机值与"特征数量次数",进行处理;
步骤S2:针对经过S1步骤处理过的数据,采用双向维度切片,切片颗粒度以固定倍数递增,每多条S1的数据经过切片后形成一组数据,该组数据会汇总该组数据下每条数据的特征数据,并采用对应的特征指标进行新的指标计算;对于S1步骤处理过的数据的随机值,利用算法公式进行运算,能够得到一个新的指标随机值数据;
步骤S3:针对进过步骤S2处理过的数据,进行判断,如果数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1,则执行S4步骤,否则重新交给步骤S1,直至上述经过上述通过算法计算结果小于1;
步骤S4:对于数据中包含所有的新生成的随机值通过算法计算得到的结果值小于1的步骤S2处理过的数据,利用卷积神经网络算法进行拟合公式处理。
2.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,在步骤S4之后该识别纹路会极大的区分有规律纹路与无规律纹路,有规律纹路常常被标记为机器数据,无规律纹路则为人工数据。
3.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,在步骤S4中,为了避免过拟合,利用随机向量数据算法数据进行观测,收敛加速度大于1停止。
4.根据权利要求1所述的基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,在步骤S2中,所述采用双向维度切片为利用时间与访问目的地两个维度。
5.根据权利要求4所述的基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,所述时间维度采用,1分钟,5分钟,10分钟,30分钟,1小时,8小时,24小时,48小时,72小时。
6.根据权利要求4所述的基于深度学习的非人工网络请求数据纹路的识别方法,其特征在于,所述访问目的地维度采用,第一级目录,第二季目录,第三级目录,第四级目录,第五级目录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910680790.5A CN110414597B (zh) | 2019-07-26 | 2019-07-26 | 基于深度学习的非人工网络请求数据纹路的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910680790.5A CN110414597B (zh) | 2019-07-26 | 2019-07-26 | 基于深度学习的非人工网络请求数据纹路的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414597A true CN110414597A (zh) | 2019-11-05 |
CN110414597B CN110414597B (zh) | 2023-05-05 |
Family
ID=68363299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910680790.5A Active CN110414597B (zh) | 2019-07-26 | 2019-07-26 | 基于深度学习的非人工网络请求数据纹路的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414597B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169476A1 (en) * | 2008-12-31 | 2010-07-01 | Jaideep Chandrashekar | Method and system for detecting and reducing botnet activity |
US20150128263A1 (en) * | 2013-11-07 | 2015-05-07 | Cyberpoint International, LLC | Methods and systems for malware detection |
CN106790292A (zh) * | 2017-03-13 | 2017-05-31 | 摩贝(上海)生物科技有限公司 | 基于行为特征匹配和分析的web应用层攻击检测与防御方法 |
US20180077180A1 (en) * | 2016-09-09 | 2018-03-15 | Ca, Inc. | Bot detection system based on deep learning |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
CN109450842A (zh) * | 2018-09-06 | 2019-03-08 | 南京聚铭网络科技有限公司 | 一种基于神经网络的网络恶意行为识别方法 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN109710825A (zh) * | 2018-11-02 | 2019-05-03 | 成都三零凯天通信实业有限公司 | 一种基于机器学习的网页有害信息识别方法 |
CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
-
2019
- 2019-07-26 CN CN201910680790.5A patent/CN110414597B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169476A1 (en) * | 2008-12-31 | 2010-07-01 | Jaideep Chandrashekar | Method and system for detecting and reducing botnet activity |
US20150128263A1 (en) * | 2013-11-07 | 2015-05-07 | Cyberpoint International, LLC | Methods and systems for malware detection |
US20180077180A1 (en) * | 2016-09-09 | 2018-03-15 | Ca, Inc. | Bot detection system based on deep learning |
CN106790292A (zh) * | 2017-03-13 | 2017-05-31 | 摩贝(上海)生物科技有限公司 | 基于行为特征匹配和分析的web应用层攻击检测与防御方法 |
US20180288086A1 (en) * | 2017-04-03 | 2018-10-04 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
CN109450842A (zh) * | 2018-09-06 | 2019-03-08 | 南京聚铭网络科技有限公司 | 一种基于神经网络的网络恶意行为识别方法 |
CN109710825A (zh) * | 2018-11-02 | 2019-05-03 | 成都三零凯天通信实业有限公司 | 一种基于机器学习的网页有害信息识别方法 |
CN109582855A (zh) * | 2019-01-17 | 2019-04-05 | 北京三快在线科技有限公司 | 增强反爬系统识别性能的方法、装置和存储介质 |
CN109818949A (zh) * | 2019-01-17 | 2019-05-28 | 济南浪潮高新科技投资发展有限公司 | 一种基于神经网络的反爬虫方法 |
Non-Patent Citations (3)
Title |
---|
DUSAN STEVANOVIC 等: ""Detection of malicious and non-malicious website visitors using unsupervised neural network learning"", 《APPLIED SOFT COMPUTING》 * |
杨建: ""分布式网络爬虫技术及对其安全防御研究"", 《网络安全技术与应用》 * |
沙泓州: ""面向大规模网络流量的URL实时分类关键技术研究"", 《中国博士学位论文全文数据库(信息科技辑)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110414597B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103699440B (zh) | 一种云计算平台系统为任务分配资源的方法和装置 | |
CN106372977B (zh) | 一种虚拟账户的处理方法和设备 | |
CN110109543A (zh) | 基于被试迁移的c-VEP识别方法 | |
CN104462447B (zh) | 访问超时的数据处理方法和装置 | |
CN107423881A (zh) | 任务分发方法及装置 | |
CN108255788A (zh) | 一种评估数据的可信度的方法及装置 | |
CN105430052B (zh) | 一种用于集群系统的仲裁方法和装置 | |
CN111415261B (zh) | 银行系统的流控阈值动态更新的控制方法、系统和装置 | |
CN110414597A (zh) | 基于深度学习的非人工网络请求数据纹路的识别方法 | |
CN106790258B (zh) | 一种服务器筛选网络请求的方法及系统 | |
CN108597563A (zh) | 动态随机分组方法及系统 | |
CN106663186A (zh) | 用于脸部识别的方法和系统 | |
CN113839956B (zh) | 数据安全评估方法、装置、设备及存储介质 | |
CN114912627A (zh) | 推荐模型训练方法、系统、计算机设备及存储介质 | |
CN109587248A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN115169881A (zh) | 任务分配方法、装置和电子设备 | |
CN113127459B (zh) | 一种数据治理的实现方法、装置、可读介质及电子设备 | |
CN106611107B (zh) | 一种去除测序数据噪声的方法 | |
CN111651652A (zh) | 基于人工智能的情感倾向识别方法、装置、设备及介质 | |
CN109344369B (zh) | 基于原值校验的凭证制作方法及终端设备 | |
CN109327476A (zh) | 一种信息系统遭受Web攻击风险的评估方法及系统 | |
CN109842689A (zh) | 一种选择服务器接入的方法和装置 | |
CN114580580B (zh) | 一种智能运维异常检测方法及装置 | |
CN110381088B (zh) | 一种基于物联网的数据安全保障方法 | |
CN113349792B (zh) | 基于多导联心电信号的分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |