CN111404942A

CN111404942A - 一种基于深度学习的垂直类恶意爬虫流量识别方法

Info

Publication number: CN111404942A
Application number: CN202010189748.6A
Authority: CN
Inventors: 刘兰; 刘浪洲; 王鹏铖
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-10

Abstract

一种基于深度学习的垂直类恶意爬虫流量识别方法，属于互联网技术领域。本发明将深度学习用于网站访问行为的流量识别，通过对访问行为特征的分类，对存在恶意爬虫行为的流量进行身份识别，包括三部分：一是将网站访问流量编码成三维向量，二是通过三维卷积神经网络进行识别训练，三是通过对网络参数的优化，最终建立对恶意爬虫流量的分类识别模型。本发明通过深度学习来对网站访问流量进行分类识别，提高网站对恶意爬虫流量识别的准确率，网站可以依据此识别结果，部署相应的安全策略，以提高网站性能，降低网站冗余负载。

Description

一种基于深度学习的垂直类恶意爬虫流量识别方法

技术领域

本发明属于计算机网络安全技术领域，具体涉及一种基于深度学习的恶意爬虫流量识别方法。

技术背景

爬虫是当今互联网使用非常广泛的技术之一，现已应用于金融、贸易与信息科技等诸多领域，很多工作展开的前期调研、资料收集就是依靠爬虫程序完成，将爬取的内容进行清洗和处理，得到的就是极具有价值的数据。

值得令人关注的是，部分爬虫程序为了在最短的时间内获取到最大量的数据，会采用多线程，高并发，甚至分布式等技术，这将极大的增加服务器压力。我们将这种爬虫产生的流量归为恶意爬虫流量，这类流量带给服务器的压力是非常巨大的，企业为了保证服务器的正常运转，不得不增加成本购置性能更强的服务器，或者设置各式各样的复杂验证码，拦截爬虫。前者会大幅增加企业的开销，后者则会极大的降低用户体验。

传统的流量检测技术有基于端口识别的流量检测，基于网络协议的深度包检测，还有基于机器学习的流量检测。其中基于端口的分类方法已经落后于时代，当前的网络应用开始大幅采用随机端口以减少拥堵；而深度包检测只针对协议特征明显的流量具有识别效果，随着流量加密与混淆技术的增长，这种检测方式也开始失效；最后是基于机器学习的检测，该种检测方式依靠人工提取流量的特征进行学习，检测模型的效果好坏完全取决于特征的好坏，在此种限制下，模型设计难度非常高，经常受到经验与运气的限制。

针对日益复杂的网络流量分类需求，我们考虑在传统的IDS入侵检测上，引入深度学习算法，对这种没有明显攻击行为特征的爬虫流量，建立识别模型。为此，本发明通过深度学习算法完成对网站访问流量中的恶意爬虫流量进行分类识别，网站可以依据此模型分类识别出恶意爬虫流量，部署相对应的安全策略，从而提高网站性能，降低冗余负载。

发明内容

本发明的目的是为了解决在网站访问流量中准确识别出恶意爬虫流量的问题，提出了一种基于深度学习的恶意爬虫流量识别方法，该方法结合深度学习在模型建立过程中拥有自动学习特征的优势，利用隐藏层自动的从样本数据集中提取体征，不需要人工选取的特点，相比于传统的基于机器学习的流量识别方法，该方法不但具有更高的准确率并且降低了原有的建模难度。

本发明解决技术问题所采用的技术方案如下：一种基于深度学习的恶意爬虫流量识别方法，该方法包括以下步骤:

(1)将样本数据分为训练集和测试集，对训练数据集进行归一化预处理；

(2)将预处理后的训练数据输入神经网络模型进行训练；

(3)将测试集进行归一化和补0处理，处理后输入到步骤(2)

的训练完成后的模型中，识别出流量的类别。

进一步的，所描述的步骤(1)具体包括如下：

a.构建实验环境，部署相应的实验机器，用于获取原始流量数据，对目标网站进行为期一周的流量采集。

b.将网站访问流量按照一定的时间间隔进行提取保存，再在每阶段时间中的原始数据包中保留相同的长度，若长度不足则补0处理。将每条数据包的序列最为一个维度，编码转换成二维数据，组合时序维度并进行归一化，即预处理后的数据相当于视频处理中的多帧灰度图，构成三维卷积网络的输入。

进一步的，所描述的步骤(2)具体包括如下：

所采用的神经网络模型为三维卷积神经网络模型，将预处理后的数据输入模型中训练，并且通过网络反馈的结果不断优化参数，利用梯度下降法，逐步优化出最终的流量分类识别模型。

附图说明

图1为总体流程图；

图2为模型训练示意图；

图3为流量识别处理图。

具体的实施方式

下面结合附图详细说明本发明：

如图1示，总体流程主要为以下四步：

Step1：构建训练数据集；

Step2：使用三维卷积神经网络训练模型；

Step3：调整出最优的识别模型；

Step4:测试数据，完成流量识别。

Step1的具体实施如下：

(1)在实验网络内设立目标机器，在其设备上部署具有一定信息量的无任何防御措施的目标网站；

(2)为提高样本采集速度，将目标网站作完全静态化处理，为了保证足量的样本数据与采集效率，将爬虫程序部署在高性能采集节点与一般性能节点中；

(3)高性能采集节点对爬虫采集速度设定每秒x次，共采集24*7小时，每一小时封存一次数据，一般性能节点有人工产生访问数据并保存数据；

(4)数据预处理，由于对网站的访问是以Get方式发出，从实际应用来看，大部分以Get连接形式发出的数据量在1024字节以下，因此我们截取原始网络访问流的前1024字节，若不足则进行补零，因为一个字节由8位二进制比特实现，换算得出一条流量长度为8192比特(1=1024×8)；

(5)二维转换，将每字节的数据分别进行m比特的one-hot编码，则每个数据包转换成l*m的二维数据，依次连接，二维输出编码为

(6)时序组合，将k小时内的n个数据包,按照顺序组合为1×m×n的三维数据，此步骤类似于多帧图像组合为视频文件，输出数据可作为三维卷积神经网络的输入。

Step2的具体实施如下：

(1)神经网络模型采用三维卷积神经网络模型，通过卷积核提取体征，卷积的结果作为激励函数的输入，激励函数的输出即为盖层的输出，卷积层的计算如下，x为卷积层输入，X_ij代表输入数据中与卷积核进行运算的各部分，w为卷积核，相当于各位置输入数据对应的权值，b为偏置量，z_ij代表输出数据中第i行第j列的值。即z_ij＝w×X_ij+b，调整的参数主要为w和b值。

(2)激励函数，本发明要解决的问题是多分类识别问题，且对实时性有要求，因此选择Relu函数作为第一选择。

(3)为了大幅提高神经网络模型的训练时间，本发明对训练过程采用了精简策略，主要是权值共享、稀疏连接、随机丢弃以及最大池化。

(4)输出层通过回归算法对全连接层输出进行判别处理，输出是否为恶意爬虫流量的结果。由上可以看出，本发明要解决的问题属于二分类问题，故采用sigmoid函数作为输出层的激励函数。

Step3的具体实施如下：

神经网络反馈调优，根据模型训练情况对模型参数进行优化。为评估网络对样本的判别是否正确，需要用到损失函数L，调整的方法采用小批梯度下降法，在设定好每个小批次训练的样本数量后，每完成一个小批次的训练后计算损失函数，更新有关参数，直至最优。

Step4的具体实施如下：

将测试数据输入神经网络模型进行测试，测试过程很中，该测试数据不采取随机丢弃，而是计算所有数据以实现最大化的识别分类效果，测试模块只进行正向判断，保存训练模块的效果，测试数据中每组数据使用次数均为减一，以减少测试过程的耗时。

Claims

1.一种基于深度学习的垂直类恶意爬虫流量识别方法，其特征是该方法包括以下步骤:

(2)将预处理后的训练数据输入神经网络模型进行训练；

(3)将测试集进行归一化和补0处理，处理后输入到步骤(2)的训练完成后的模型中，识别出流量的类别。

2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是进一步的，所描述的步骤(1)具体包括如下：

a.构建实验环境，部署相应的实验机器，用于获取原始流量数据，对目标网站进行为期一周的流量采集；

b.将网站访问流量按照一定的时间间隔进行提取保存，再在每阶段时间中的原始数据包中保留相同的长度，若长度不足则补0处理，将每条数据包的序列最为一个维度，编码转换成二维数据，组合时序维度并进行归一化，即预处理后的数据相当于视频处理中的多帧灰度图，构成三维卷积网络的输入。

3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是进一步的，所描述的步骤(2)具体包括如下：

4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法，其特征是总体流程主要为以下四步：

Step1：构建训练数据集；

Step2：使用三维卷积神经网络训练模型；

Step3：调整出最优的识别模型；

Step4:测试数据，完成流量识别；

Step1的具体实施如下：

(4)数据预处理，由于对网站的访问是以Get方式发出，从实际应用来看，大部分以Get连接形式发出的数据量在1024字节以下，因此我们截取原始网络访问流的前1024字节，若不足则进行补零，因为一个字节由8位二进制比特实现，换算得出一条流量长度为8192比特(l＝1024×8)；

(6)时序组合，将k小时内的n个数据包,按照顺序组合为l×m×n的三维数据，此步骤类似于多帧图像组合为视频文件，输出数据可作为三维卷积神经网络的输入；

Step2的具体实施如下：

(1)神经网络模型采用三维卷积神经网络模型，通过卷积核提取体征，卷积的结果作为激励函数的输入，激励函数的输出即为盖层的输出，卷积层的计算如下，x为卷积层输入，X_ij代表输入数据中与卷积核进行运算的各部分，w为卷积核，相当于各位置输入数据对应的权值，b为偏置量，z_ij代表输出数据中第i行第j列的值，即z_ij＝w×X_ij+b，调整的参数主要为w和b值；

(2)激励函数，本发明要解决的问题是多分类识别问题，且对实时性有要求，因此选择Relu函数作为第一选择；

(3)为了大幅提高神经网络模型的训练时间，本发明对训练过程采用了精简策略，主要是权值共享、稀疏连接、随机丢弃以及最大池化；

(4)输出层通过回归算法对全连接层输出进行判别处理，输出是否为恶意爬虫流量的结果，由上可以看出，本发明要解决的问题属于二分类问题，故采用sigmoid函数作为输出层的激励函数；

Step3的具体实施如下：

神经网络反馈调优，根据模型训练情况对模型参数进行优化，为评估网络对样本的判别是否正确，需要用到损失函数L，调整的方法采用小批梯度下降法，在设定好每个小批次训练的样本数量后，每完成一个小批次的训练后计算损失函数，更新有关参数，直至最优；

Step4的具体实施如下：