CN111404942A - 一种基于深度学习的垂直类恶意爬虫流量识别方法 - Google Patents

一种基于深度学习的垂直类恶意爬虫流量识别方法 Download PDF

Info

Publication number
CN111404942A
CN111404942A CN202010189748.6A CN202010189748A CN111404942A CN 111404942 A CN111404942 A CN 111404942A CN 202010189748 A CN202010189748 A CN 202010189748A CN 111404942 A CN111404942 A CN 111404942A
Authority
CN
China
Prior art keywords
data
flow
training
neural network
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010189748.6A
Other languages
English (en)
Inventor
刘兰
刘浪洲
王鹏铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202010189748.6A priority Critical patent/CN111404942A/zh
Publication of CN111404942A publication Critical patent/CN111404942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于深度学习的垂直类恶意爬虫流量识别方法,属于互联网技术领域。本发明将深度学习用于网站访问行为的流量识别,通过对访问行为特征的分类,对存在恶意爬虫行为的流量进行身份识别,包括三部分:一是将网站访问流量编码成三维向量,二是通过三维卷积神经网络进行识别训练,三是通过对网络参数的优化,最终建立对恶意爬虫流量的分类识别模型。本发明通过深度学习来对网站访问流量进行分类识别,提高网站对恶意爬虫流量识别的准确率,网站可以依据此识别结果,部署相应的安全策略,以提高网站性能,降低网站冗余负载。

Description

一种基于深度学习的垂直类恶意爬虫流量识别方法
技术领域
本发明属于计算机网络安全技术领域,具体涉及一种基于深度学习的恶意爬虫流量识别方法。
技术背景
爬虫是当今互联网使用非常广泛的技术之一,现已应用于金融、贸易与信息科技等诸多领域,很多工作展开的前期调研、资料收集就是依靠爬虫程序完成,将爬取的内容进行清洗和处理,得到的就是极具有价值的数据。
值得令人关注的是,部分爬虫程序为了在最短的时间内获取到最大量的数据,会采用多线程,高并发,甚至分布式等技术,这将极大的增加服务器压力。我们将这种爬虫产生的流量归为恶意爬虫流量,这类流量带给服务器的压力是非常巨大的,企业为了保证服务器的正常运转,不得不增加成本购置性能更强的服务器,或者设置各式各样的复杂验证码,拦截爬虫。前者会大幅增加企业的开销,后者则会极大的降低用户体验。
传统的流量检测技术有基于端口识别的流量检测,基于网络协议的深度包检测,还有基于机器学习的流量检测。其中基于端口的分类方法已经落后于时代,当前的网络应用开始大幅采用随机端口以减少拥堵;而深度包检测只针对协议特征明显的流量具有识别效果,随着流量加密与混淆技术的增长,这种检测方式也开始失效;最后是基于机器学习的检测,该种检测方式依靠人工提取流量的特征进行学习,检测模型的效果好坏完全取决于特征的好坏,在此种限制下,模型设计难度非常高,经常受到经验与运气的限制。
针对日益复杂的网络流量分类需求,我们考虑在传统的IDS入侵检测上,引入深度学习算法,对这种没有明显攻击行为特征的爬虫流量,建立识别模型。为此,本发明通过深度学习算法完成对网站访问流量中的恶意爬虫流量进行分类识别,网站可以依据此模型分类识别出恶意爬虫流量,部署相对应的安全策略,从而提高网站性能,降低冗余负载。
发明内容
本发明的目的是为了解决在网站访问流量中准确识别出恶意爬虫流量的问题,提出了一种基于深度学习的恶意爬虫流量识别方法,该方法结合深度学习在模型建立过程中拥有自动学习特征的优势,利用隐藏层自动的从样本数据集中提取体征,不需要人工选取的特点,相比于传统的基于机器学习的流量识别方法,该方法不但具有更高的准确率并且降低了原有的建模难度。
本发明解决技术问题所采用的技术方案如下:一种基于深度学习的恶意爬虫流量识别方法,该方法包括以下步骤:
(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;
(2)将预处理后的训练数据输入神经网络模型进行训练;
(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)
的训练完成后的模型中,识别出流量的类别。
进一步的,所描述的步骤(1)具体包括如下:
a.构建实验环境,部署相应的实验机器,用于获取原始流量数据,对目标网站进行为期一周的流量采集。
b.将网站访问流量按照一定的时间间隔进行提取保存,再在每阶段时间中的原始数据包中保留相同的长度,若长度不足则补0处理。将每条数据包的序列最为一个维度,编码转换成二维数据,组合时序维度并进行归一化,即预处理后的数据相当于视频处理中的多帧灰度图,构成三维卷积网络的输入。
进一步的,所描述的步骤(2)具体包括如下:
所采用的神经网络模型为三维卷积神经网络模型,将预处理后的数据输入模型中训练,并且通过网络反馈的结果不断优化参数,利用梯度下降法,逐步优化出最终的流量分类识别模型。
附图说明
图1为总体流程图;
图2为模型训练示意图;
图3为流量识别处理图。
具体的实施方式
下面结合附图详细说明本发明:
如图1示,总体流程主要为以下四步:
Step1:构建训练数据集;
Step2:使用三维卷积神经网络训练模型;
Step3:调整出最优的识别模型;
Step4:测试数据,完成流量识别。
Step1的具体实施如下:
(1)在实验网络内设立目标机器,在其设备上部署具有一定信息量的无任何防御措施的目标网站;
(2)为提高样本采集速度,将目标网站作完全静态化处理,为了保证足量的样本数据与采集效率,将爬虫程序部署在高性能采集节点与一般性能节点中;
(3)高性能采集节点对爬虫采集速度设定每秒x次,共采集24*7小时,每一小时封存一次数据,一般性能节点有人工产生访问数据并保存数据;
(4)数据预处理,由于对网站的访问是以Get方式发出,从实际应用来看,大部分以Get连接形式发出的数据量在1024字节以下,因此我们截取原始网络访问流的前1024字节,若不足则进行补零,因为一个字节由8位二进制比特实现,换算得出一条流量长度为8192比特(1=1024×8);
(5)二维转换,将每字节的数据分别进行m比特的one-hot编码,则每个数据包转换成l*m的二维数据,依次连接,二维输出编码为
Figure BDA0002415446530000041
(6)时序组合,将k小时内的n个数据包,按照顺序组合为1×m×n的三维数据,此步骤类似于多帧图像组合为视频文件,输出数据可作为三维卷积神经网络的输入。
Step2的具体实施如下:
(1)神经网络模型采用三维卷积神经网络模型,通过卷积核提取体征,卷积的结果作为激励函数的输入,激励函数的输出即为盖层的输出,卷积层的计算如下,x为卷积层输入,Xij代表输入数据中与卷积核进行运算的各部分,w为卷积核,相当于各位置输入数据对应的权值,b为偏置量,zij代表输出数据中第i行第j列的值。即zij=w×Xij+b,调整的参数主要为w和b值。
(2)激励函数,本发明要解决的问题是多分类识别问题,且对实时性有要求,因此选择Relu函数作为第一选择。
(3)为了大幅提高神经网络模型的训练时间,本发明对训练过程采用了精简策略,主要是权值共享、稀疏连接、随机丢弃以及最大池化。
(4)输出层通过回归算法对全连接层输出进行判别处理,输出是否为恶意爬虫流量的结果。由上可以看出,本发明要解决的问题属于二分类问题,故采用sigmoid函数作为输出层的激励函数。
Step3的具体实施如下:
神经网络反馈调优,根据模型训练情况对模型参数进行优化。为评估网络对样本的判别是否正确,需要用到损失函数L,调整的方法采用小批梯度下降法,在设定好每个小批次训练的样本数量后,每完成一个小批次的训练后计算损失函数,更新有关参数,直至最优。
Step4的具体实施如下:
将测试数据输入神经网络模型进行测试,测试过程很中,该测试数据不采取随机丢弃,而是计算所有数据以实现最大化的识别分类效果,测试模块只进行正向判断,保存训练模块的效果,测试数据中每组数据使用次数均为减一,以减少测试过程的耗时。

Claims (4)

1.一种基于深度学习的垂直类恶意爬虫流量识别方法,其特征是该方法包括以下步骤:
(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;
(2)将预处理后的训练数据输入神经网络模型进行训练;
(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)的训练完成后的模型中,识别出流量的类别。
2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(1)具体包括如下:
a.构建实验环境,部署相应的实验机器,用于获取原始流量数据,对目标网站进行为期一周的流量采集;
b.将网站访问流量按照一定的时间间隔进行提取保存,再在每阶段时间中的原始数据包中保留相同的长度,若长度不足则补0处理,将每条数据包的序列最为一个维度,编码转换成二维数据,组合时序维度并进行归一化,即预处理后的数据相当于视频处理中的多帧灰度图,构成三维卷积网络的输入。
3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(2)具体包括如下:
所采用的神经网络模型为三维卷积神经网络模型,将预处理后的数据输入模型中训练,并且通过网络反馈的结果不断优化参数,利用梯度下降法,逐步优化出最终的流量分类识别模型。
4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是总体流程主要为以下四步:
Step1:构建训练数据集;
Step2:使用三维卷积神经网络训练模型;
Step3:调整出最优的识别模型;
Step4:测试数据,完成流量识别;
Step1的具体实施如下:
(1)在实验网络内设立目标机器,在其设备上部署具有一定信息量的无任何防御措施的目标网站;
(2)为提高样本采集速度,将目标网站作完全静态化处理,为了保证足量的样本数据与采集效率,将爬虫程序部署在高性能采集节点与一般性能节点中;
(3)高性能采集节点对爬虫采集速度设定每秒x次,共采集24*7小时,每一小时封存一次数据,一般性能节点有人工产生访问数据并保存数据;
(4)数据预处理,由于对网站的访问是以Get方式发出,从实际应用来看,大部分以Get连接形式发出的数据量在1024字节以下,因此我们截取原始网络访问流的前1024字节,若不足则进行补零,因为一个字节由8位二进制比特实现,换算得出一条流量长度为8192比特(l=1024×8);
(5)二维转换,将每字节的数据分别进行m比特的one-hot编码,则每个数据包转换成l*m的二维数据,依次连接,二维输出编码为
Figure FDA0002415446520000031
(6)时序组合,将k小时内的n个数据包,按照顺序组合为l×m×n的三维数据,此步骤类似于多帧图像组合为视频文件,输出数据可作为三维卷积神经网络的输入;
Step2的具体实施如下:
(1)神经网络模型采用三维卷积神经网络模型,通过卷积核提取体征,卷积的结果作为激励函数的输入,激励函数的输出即为盖层的输出,卷积层的计算如下,x为卷积层输入,Xij代表输入数据中与卷积核进行运算的各部分,w为卷积核,相当于各位置输入数据对应的权值,b为偏置量,zij代表输出数据中第i行第j列的值,即zij=w×Xij+b,调整的参数主要为w和b值;
(2)激励函数,本发明要解决的问题是多分类识别问题,且对实时性有要求,因此选择Relu函数作为第一选择;
(3)为了大幅提高神经网络模型的训练时间,本发明对训练过程采用了精简策略,主要是权值共享、稀疏连接、随机丢弃以及最大池化;
(4)输出层通过回归算法对全连接层输出进行判别处理,输出是否为恶意爬虫流量的结果,由上可以看出,本发明要解决的问题属于二分类问题,故采用sigmoid函数作为输出层的激励函数;
Step3的具体实施如下:
神经网络反馈调优,根据模型训练情况对模型参数进行优化,为评估网络对样本的判别是否正确,需要用到损失函数L,调整的方法采用小批梯度下降法,在设定好每个小批次训练的样本数量后,每完成一个小批次的训练后计算损失函数,更新有关参数,直至最优;
Step4的具体实施如下:
将测试数据输入神经网络模型进行测试,测试过程很中,该测试数据不采取随机丢弃,而是计算所有数据以实现最大化的识别分类效果,测试模块只进行正向判断,保存训练模块的效果,测试数据中每组数据使用次数均为减一,以减少测试过程的耗时。
CN202010189748.6A 2020-03-18 2020-03-18 一种基于深度学习的垂直类恶意爬虫流量识别方法 Pending CN111404942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189748.6A CN111404942A (zh) 2020-03-18 2020-03-18 一种基于深度学习的垂直类恶意爬虫流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189748.6A CN111404942A (zh) 2020-03-18 2020-03-18 一种基于深度学习的垂直类恶意爬虫流量识别方法

Publications (1)

Publication Number Publication Date
CN111404942A true CN111404942A (zh) 2020-07-10

Family

ID=71413409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189748.6A Pending CN111404942A (zh) 2020-03-18 2020-03-18 一种基于深度学习的垂直类恶意爬虫流量识别方法

Country Status (1)

Country Link
CN (1) CN111404942A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866024A (zh) * 2020-08-05 2020-10-30 国家计算机网络与信息安全管理中心 一种网络加密流量识别方法及装置
CN112398864A (zh) * 2020-11-19 2021-02-23 广东技术师范大学 一种基于行为平衡度的垂直类网络爬虫检测识别方法
CN112468509A (zh) * 2020-12-09 2021-03-09 湖北松颢科技有限公司 一种基于深度学习技术的流量数据自动检测方法及装置
CN116915720A (zh) * 2023-09-12 2023-10-20 武汉烽火凯卓科技有限公司 物联网设备流量识别方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110177122A (zh) * 2019-06-18 2019-08-27 国网电子商务有限公司 一种识别网络安全风险的模型建立方法及装置
CN110267292A (zh) * 2019-05-16 2019-09-20 湖南大学 基于三维卷积神经网络的蜂窝网络流量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110267292A (zh) * 2019-05-16 2019-09-20 湖南大学 基于三维卷积神经网络的蜂窝网络流量预测方法
CN110177122A (zh) * 2019-06-18 2019-08-27 国网电子商务有限公司 一种识别网络安全风险的模型建立方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈晔欣: "基于深度学习的网络流量分类技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866024A (zh) * 2020-08-05 2020-10-30 国家计算机网络与信息安全管理中心 一种网络加密流量识别方法及装置
CN112398864A (zh) * 2020-11-19 2021-02-23 广东技术师范大学 一种基于行为平衡度的垂直类网络爬虫检测识别方法
CN112398864B (zh) * 2020-11-19 2022-08-30 广东技术师范大学 一种基于行为平衡度的垂直类网络爬虫检测识别方法
CN112468509A (zh) * 2020-12-09 2021-03-09 湖北松颢科技有限公司 一种基于深度学习技术的流量数据自动检测方法及装置
CN116915720A (zh) * 2023-09-12 2023-10-20 武汉烽火凯卓科技有限公司 物联网设备流量识别方法、系统、电子设备及存储介质
CN116915720B (zh) * 2023-09-12 2023-12-01 武汉烽火凯卓科技有限公司 物联网设备流量识别方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111404942A (zh) 一种基于深度学习的垂直类恶意爬虫流量识别方法
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN111783442A (zh) 入侵检测方法、设备和服务器、存储介质
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN113806746B (zh) 基于改进cnn网络的恶意代码检测方法
CN111259397B (zh) 一种基于马尔科夫图和深度学习的恶意软件分类方法
CN110390347B (zh) 针对深度神经网络的条件引导式对抗生成测试方法与系统
CN112995150B (zh) 一种基于cnn-lstm融合的僵尸网络检测方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN108520215B (zh) 基于多尺度联合特征编码器的单样本人脸识别方法
CN113922985A (zh) 一种基于集成学习的网络入侵检测方法及系统
CN109639734B (zh) 一种具有计算资源自适应性的异常流量检测方法
CN115037805B (zh) 一种基于深度聚类的未知网络协议识别方法、系统、装置及存储介质
CN112910853A (zh) 基于混合特征的加密流量分类方法
Yadav et al. Recent innovations and comparison of deep learning techniques in malware classification: a review
Luan et al. Sunflower seed sorting based on convolutional neural network
CN113591962B (zh) 一种网络攻击样本生成方法及装置
Zanddizari et al. Generating black-box adversarial examples in sparse domain
Van Dao et al. An Attention Mechanism for Combination of CNN and VAE for Image-Based Malware Classification
CN113239949A (zh) 一种基于1d分组卷积神经网络的数据重构方法
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
Singh et al. Performance analysis of ELA-CNN model for image forgery detection
CN112929380B (zh) 结合元学习与时空特征融合的木马通信检测方法及系统
CN110061869B (zh) 一种基于关键词的网络轨迹分类方法及装置
CN113256507A (zh) 一种针对二进制流量数据生成图像的注意力增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200710

RJ01 Rejection of invention patent application after publication