CN110505180A

CN110505180A - 一种网络流量分类方法及系统

Info

Publication number: CN110505180A
Application number: CN201810471903.6A
Authority: CN
Inventors: 陈晓; 余树文; 郭志川; 唐政治
Original assignee: Institute of Acoustics CAS
Current assignee: Zhengzhou Xinrand Network Technology Co ltd
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2019-11-26

Abstract

本发明公开了一种网络流量分类方法及系统，所述方法包括：步骤1)获取网络数据流；步骤2)将所述数据流转化为二维矩阵，提取二维矩阵的方向梯度直方图特征A₁和局部二值模式直方图特征A₂，并将A₁和A₂进行拼接形成线性可分特征；步骤3)将所述线性可分特征输入支持向量机模型实现网络流量的分类。本发明的方法通过将矩阵数据视作灰度图的方式，提取方向梯度直方图和局部二值模式两种纹理特征，将流量数据转换到线性可分空间，提高分类性能并提升流量分类精度。

Description

一种网络流量分类方法及系统

技术领域

本发明涉及网络安全技术领域，特别涉及一种网络流量分类方法及系统。

背景技术

随着网络技术高速发展，互联网应用爆发式增长。快速增长的网络流量给网络服务质量(QoS)以及网络安全带来巨大压力。流量识别技术是提升网络管理水平、改善网络服务质量的重要技术之一，网络流量的有效识别和分类对网络安全保障具有重要的意义。

网络流量识别与分类技术有基于端口号的识别技术、深度包检测技术、基于行为的流量识别方法、基于流量特征的流量识别方法等。但在目前的网络环境中，某些软件使用使用动态端口或常用协议端口以隐蔽流量身份，基于端口号的识别技术已无法提供较高的分类精度。另外由于加密技术广泛应用，网络加密流量不断上升，加密流量的有效载荷经过加密后，深度包检测技术也无法进行匹配检测。基于行为的流量识别方法需要监控网络中的主机结点，消耗大量时间和空间资源，并且一般只能粗粒度识别流量类型，当网络中的主机同时运行多种应用时，行为特征就会变得不明显。

基于流量特征的检测技术主要使用机器学习技术建立分类模型，基于机器学习的检测方法需要人工刻画流量特征，主要是数据流层面和数据包层面的特征，对先验知识要求较高。特征大多在网络层或传输层就可完成特征提取，相比于深度包检测技术的复杂度大大下降。

发明内容

本发明的目的在于克服上述技术缺陷，提供了一种网络流量分类方法，该方法通过将矩阵数据视作灰度图的方式，提取方向梯度直方图和局部二值模式两种纹理特征，将流量数据转换到线性可分空间，提高分类性能。

为了实现上述目的，本发明提供了一种网络流量分类方法，所述方法包括：

步骤1)获取网络数据流；

步骤2)将所述网络数据流转化为二维矩阵，提取二维矩阵的方向梯度直方图特征A₁和局部二值模式直方图特征A₂，并将A₁和A₂进行拼接形成线性可分特征；

步骤3)将所述线性可分特征输入支持向量机模型实现网络流量的分类。

作为上述方法的一种改进，所述步骤1)具体为：从网络中截取数据流量包，将一系列具有相同源地址、目的地址、源端口、目的端口和协议的数据流量包汇聚为一个网络数据流。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)将所述网络数据流转化为m*k的二维矩阵；

步骤2-2)将所述二维矩阵视为m*k大小的8位灰度图，提取方向梯度直方图特征向量A₁；

步骤2-3)将所述二维矩阵视为m*k大小的8位灰度图，提取局部二值模式直方图特征向量A₂；

步骤2-4)将特征向量A₁和特征向量A₂进行拼接形成线性可分特征。

作为上述方法的一种改进，所述步骤2-1)具体包括：

步骤2-1-1)选取常数m，获取所述网络数据流的前m个连续的数据包，对每个数据包读取TCP或UDP协议的有效载荷原始数据；

步骤2-1-2)选取常数k，对上述每个有效载荷提取前k个字节，将所述k个字节的数据归一化落在[0,255]的范围内，作为矩阵的每一行；

步骤2-1-3)对有效载荷不足k个字节长度的数据包，在矩阵该行尾部采取补0操作；对不足m个包的数据流，在矩阵尾部采取补0操作，直至形成m*k大小的矩阵。

作为上述方法的一种改进，所述步骤2-2)具体包括：

步骤2-2-1)将所述灰度图划分成8*8像素的单元格；

步骤2-2-2)把梯度方向平均划分为9个区间，计算每个单元格中每个像素的梯度，包括梯度的方向和梯度的幅值；

步骤2-2-3)统计所述每个单元格的梯度方向直方图，得到一个9维的特征向量；

步骤2-2-4)每相邻的2*2个单元格构成一个块，把一个块内的特征向量连起来得到特征向量，并进行归一化处理；

步骤2-2-5)按步长8滑动16*16的块窗口，获得若干个块；

步骤2-2-6)将所述每个块的特征向量进行连接成为一个特征向量A₁。

作为上述方法的一种改进，所述步骤2-3)具体包括：

步骤2-3-1)将所述灰度图划分成16*16像素的块；

步骤2-3-2)对于每个块中的每个像素，将相邻的8个像素的灰度值与其比较，若周围像素值大于中心像素值，则所述周围像素点的位置被标记为1，否则标记为0，若像素点位于图像边缘，则图像外的像素点同样标记为0；这样，3*3邻域内的8个点经比较产生8位二进制数，即得到该窗口中心像素点的二进制模式；

步骤2-3-3)统计所述每个块的二进制模式直方图，即每个二进制数出现的频率，按等价模式对二进制模式种类进行降维，得到58维的特征向量，并进行归一化处理；

步骤2-3-4)按步长8滑动16*16的块窗口，获得若干个块；

步骤2-3-5)将所述每个块的特征向量进行连接成为一个特征向量A₂。

作为上述方法的一种改进，所述步骤3)之前还包括对支持向量机模型进行训练的步骤：

获取若干个训练网络数据流和对应的分类标签；

将每个训练网络数据流数据流转化为二维矩阵，提取二维矩阵的方向梯度直方图特征A₁和局部二值模式直方图特征A₂，并将A₁和A₂进行拼接形成线性可分特征；

基于线性可分特征和分类标签，通过监督学习训练支持向量机模型。

本发明还提供了一种网络流量分类系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优点在于：

1、本发明的方法通过将矩阵数据视作灰度图的方式，提取方向梯度直方图和局部二值模式两种纹理特征，将流量数据转换到线性可分空间，提高分类性能；

2、本发明的方法能够简化流特征提取步骤，提升流量分类精度。

附图说明

图1是本发明的网络流量分类方法的流程图；

图2是本发明的训练支持向量机模型的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明的一种网络流量分类方法，所述方法包括：

步骤1)获取原始流量数据，将具有相同五元组(源IP地址、源端口号、目的IP地址、目的端口号和传输层协议)的数据包汇聚为数据流，通常把数据包汇聚为双向流。

步骤2)选取常数m，获取所述数据流的前m个连续的数据包，对每个数据包读取TCP或UDP协议的有效载荷原始数据；选取常数k，对上述每个有效载荷提取前k个字节，将所述k个字节的数据归一化落在[0,255]的范围内，作为矩阵的每一行；将所述数据组成m*k的二维矩阵；对有效载荷不足k个字节长度的数据包，在矩阵该行尾部采取补0操作；对不足m个包的流，在矩阵尾部采取补0操作，直至形成m*k大小的矩阵；

选取常数m＝64，获取所述数据流的前64个连续的数据包，对每个数据包读取TCP或UDP协议的有效载荷原始数据；

选取常数k＝64，对上述每个有效载荷提取前64个字节，将所述64个字节的数据归一化落在[0,255]的范围内，作为矩阵的每一行；

将所述数据组成64*64的二维矩阵；

对有效载荷不足64个字节长度的数据包，在矩阵该行尾部采取补0操作；对不足64个包的流，在矩阵尾部采取补0操作，直至形成64*64大小的矩阵。

步骤3)对所述m*k大小的矩阵，提取方向梯度直方图(HOG)特征向量A₁；对所述m*k大小的矩阵，提取局部二值模式直方图(LBP)特征向量A₂；将所述特征向量A₁与特征向量A₂拼接为新特征向量。

步骤4)将所述矩阵视为m*k大小的8位灰度图，提取方向梯度直方图(HOG)特征向量A₁，步骤为：

步骤4-1)将所述灰度图划分成8*8像素的单元格；

步骤4-2)把梯度方向平均划分为9个区间，计算每个单元格中每个像素的梯度，包括梯度的方向和梯度的幅值；

步骤4-3)统计所述每个单元格的梯度方向直方图，得到一个9维的特征向量；

步骤4-4)每相邻的2*2个单元格构成一个块(16*16像素)，把一个块内的特征向量连起来得到36维的特征向量，并进行归一化处理；

步骤4-5)按步长为8滑动16*16的块窗口，获得7*7＝49个块；

步骤4-6)将所述每个块的特征向量进行连接成为一个特征向量，因此所述A₁特征为36*49＝1764维向量。

步骤5)将所述矩阵视为m*k大小的8位灰度图，提取局部二值模式直方图(LBP)特征向量A₂，包括：

步骤5-1)将所述灰度图划分成16*16像素的块；

步骤5-2)对于每个块中的每个像素，将相邻的8个像素的灰度值与其比较，若周围像素值大于中心像素值，则所述周围像素点的位置被标记为1，否则标记为0，若像素点位于图像边缘，则图像外的像素点同样标记为0。这样，3*3邻域内的8个点经比较可产生8位二进制数，即得到该窗口中心像素点的二进制模式；

步骤5-3)统计所述每个块的二进制模式直方图，即每个二进制数出现的频率，按等价模式对二进制模式种类进行降维，得到58维的特征向量，并进行归一化处理

步骤5-4)按步长为8滑动16*16的块窗口，获得7*7＝49个块；

步骤5-5)将所述每个单元格的特征向量进行连接成为一个特征向量，因此所述A₁特征为58*49＝2842维向量。

步骤6)将所述特征向量A₁与特征向量A₂拼接为线性可分特征，共1764+2842＝4606维。

步骤7)使用支持向量机模型对所述线性可分特征进行分类。

如图2所示，对支持向量机模型进行训练的步骤：

获取若干个训练网络数据流和对应的分类标签；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种网络流量分类方法，所述方法包括：

步骤1)获取网络数据流；

2.根据权利要求1所述的网络流量分类方法，其特征在于，所述步骤1)具体为：从网络中截取数据流量包，将一系列具有相同源地址、目的地址、源端口、目的端口和协议的数据流量包汇聚为一个网络数据流。

3.根据权利要求1所述的网络流量分类方法，其特征在于，所述步骤2)具体包括：

步骤2-1)将所述网络数据流转化为m*k的二维矩阵；

4.根据权利要求3所述的网络流量分类方法，其特征在于，所述步骤2-1)具体包括：

5.根据权利要求4所述的网络流量分类方法，其特征在于，所述步骤2-2)具体包括：

步骤2-2-1)将所述灰度图划分成8*8像素的单元格；

步骤2-2-5)按步长8滑动16*16的块窗口，获得若干个块；

6.根据权利要求5所述的网络流量分类方法，其特征在于，所述步骤2-3)具体包括：

步骤2-3-1)将所述灰度图划分成16*16像素的块；

步骤2-3-3)统计所述每个块的二进制模式直方图，即每个二进制数出现的频率，按等价模式对二进制模式种类进行降维，得到特征向量，并进行归一化处理；

步骤2-3-4)按步长8滑动16*16的块窗口，获得获得若干个块；

7.根据权利要求1-6之一所述的网络流量分类方法，其特征在于，所述步骤3)之前还包括对支持向量机模型进行训练的步骤：

获取若干个训练网络数据流和对应的分类标签；

8.一种网络流量分类系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7之一所述方法的步骤。