CN110505180A - 一种网络流量分类方法及系统 - Google Patents

一种网络流量分类方法及系统 Download PDF

Info

Publication number
CN110505180A
CN110505180A CN201810471903.6A CN201810471903A CN110505180A CN 110505180 A CN110505180 A CN 110505180A CN 201810471903 A CN201810471903 A CN 201810471903A CN 110505180 A CN110505180 A CN 110505180A
Authority
CN
China
Prior art keywords
feature
data
flow
pixel
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810471903.6A
Other languages
English (en)
Inventor
陈晓
余树文
郭志川
唐政治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xinrand Network Technology Co ltd
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201810471903.6A priority Critical patent/CN110505180A/zh
Publication of CN110505180A publication Critical patent/CN110505180A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种网络流量分类方法及系统,所述方法包括:步骤1)获取网络数据流;步骤2)将所述数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;步骤3)将所述线性可分特征输入支持向量机模型实现网络流量的分类。本发明的方法通过将矩阵数据视作灰度图的方式,提取方向梯度直方图和局部二值模式两种纹理特征,将流量数据转换到线性可分空间,提高分类性能并提升流量分类精度。

Description

一种网络流量分类方法及系统
技术领域
本发明涉及网络安全技术领域,特别涉及一种网络流量分类方法及系统。
背景技术
随着网络技术高速发展,互联网应用爆发式增长。快速增长的网络流量给网络服务质量(QoS)以及网络安全带来巨大压力。流量识别技术是提升网络管理水平、改善网络服务质量的重要技术之一,网络流量的有效识别和分类对网络安全保障具有重要的意义。
网络流量识别与分类技术有基于端口号的识别技术、深度包检测技术、基于行为的流量识别方法、基于流量特征的流量识别方法等。但在目前的网络环境中,某些软件使用使用动态端口或常用协议端口以隐蔽流量身份,基于端口号的识别技术已无法提供较高的分类精度。另外由于加密技术广泛应用,网络加密流量不断上升,加密流量的有效载荷经过加密后,深度包检测技术也无法进行匹配检测。基于行为的流量识别方法需要监控网络中的主机结点,消耗大量时间和空间资源,并且一般只能粗粒度识别流量类型,当网络中的主机同时运行多种应用时,行为特征就会变得不明显。
基于流量特征的检测技术主要使用机器学习技术建立分类模型,基于机器学习的检测方法需要人工刻画流量特征,主要是数据流层面和数据包层面的特征,对先验知识要求较高。特征大多在网络层或传输层就可完成特征提取,相比于深度包检测技术的复杂度大大下降。
发明内容
本发明的目的在于克服上述技术缺陷,提供了一种网络流量分类方法,该方法通过将矩阵数据视作灰度图的方式,提取方向梯度直方图和局部二值模式两种纹理特征,将流量数据转换到线性可分空间,提高分类性能。
为了实现上述目的,本发明提供了一种网络流量分类方法,所述方法包括:
步骤1)获取网络数据流;
步骤2)将所述网络数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;
步骤3)将所述线性可分特征输入支持向量机模型实现网络流量的分类。
作为上述方法的一种改进,所述步骤1)具体为:从网络中截取数据流量包,将一系列具有相同源地址、目的地址、源端口、目的端口和协议的数据流量包汇聚为一个网络数据流。
作为上述方法的一种改进,所述步骤2)具体包括:
步骤2-1)将所述网络数据流转化为m*k的二维矩阵;
步骤2-2)将所述二维矩阵视为m*k大小的8位灰度图,提取方向梯度直方图特征向量A1
步骤2-3)将所述二维矩阵视为m*k大小的8位灰度图,提取局部二值模式直方图特征向量A2
步骤2-4)将特征向量A1和特征向量A2进行拼接形成线性可分特征。
作为上述方法的一种改进,所述步骤2-1)具体包括:
步骤2-1-1)选取常数m,获取所述网络数据流的前m个连续的数据包,对每个数据包读取TCP或UDP协议的有效载荷原始数据;
步骤2-1-2)选取常数k,对上述每个有效载荷提取前k个字节,将所述k个字节的数据归一化落在[0,255]的范围内,作为矩阵的每一行;
步骤2-1-3)对有效载荷不足k个字节长度的数据包,在矩阵该行尾部采取补0操作;对不足m个包的数据流,在矩阵尾部采取补0操作,直至形成m*k大小的矩阵。
作为上述方法的一种改进,所述步骤2-2)具体包括:
步骤2-2-1)将所述灰度图划分成8*8像素的单元格;
步骤2-2-2)把梯度方向平均划分为9个区间,计算每个单元格中每个像素的梯度,包括梯度的方向和梯度的幅值;
步骤2-2-3)统计所述每个单元格的梯度方向直方图,得到一个9维的特征向量;
步骤2-2-4)每相邻的2*2个单元格构成一个块,把一个块内的特征向量连起来得到特征向量,并进行归一化处理;
步骤2-2-5)按步长8滑动16*16的块窗口,获得若干个块;
步骤2-2-6)将所述每个块的特征向量进行连接成为一个特征向量A1
作为上述方法的一种改进,所述步骤2-3)具体包括:
步骤2-3-1)将所述灰度图划分成16*16像素的块;
步骤2-3-2)对于每个块中的每个像素,将相邻的8个像素的灰度值与其比较,若周围像素值大于中心像素值,则所述周围像素点的位置被标记为1,否则标记为0,若像素点位于图像边缘,则图像外的像素点同样标记为0;这样,3*3邻域内的8个点经比较产生8位二进制数,即得到该窗口中心像素点的二进制模式;
步骤2-3-3)统计所述每个块的二进制模式直方图,即每个二进制数出现的频率,按等价模式对二进制模式种类进行降维,得到58维的特征向量,并进行归一化处理;
步骤2-3-4)按步长8滑动16*16的块窗口,获得若干个块;
步骤2-3-5)将所述每个块的特征向量进行连接成为一个特征向量A2
作为上述方法的一种改进,所述步骤3)之前还包括对支持向量机模型进行训练的步骤:
获取若干个训练网络数据流和对应的分类标签;
将每个训练网络数据流数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;
基于线性可分特征和分类标签,通过监督学习训练支持向量机模型。
本发明还提供了一种网络流量分类系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优点在于:
1、本发明的方法通过将矩阵数据视作灰度图的方式,提取方向梯度直方图和局部二值模式两种纹理特征,将流量数据转换到线性可分空间,提高分类性能;
2、本发明的方法能够简化流特征提取步骤,提升流量分类精度。
附图说明
图1是本发明的网络流量分类方法的流程图;
图2是本发明的训练支持向量机模型的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明的一种网络流量分类方法,所述方法包括:
步骤1)获取原始流量数据,将具有相同五元组(源IP地址、源端口号、目的IP地址、目的端口号和传输层协议)的数据包汇聚为数据流,通常把数据包汇聚为双向流。
步骤2)选取常数m,获取所述数据流的前m个连续的数据包,对每个数据包读取TCP或UDP协议的有效载荷原始数据;选取常数k,对上述每个有效载荷提取前k个字节,将所述k个字节的数据归一化落在[0,255]的范围内,作为矩阵的每一行;将所述数据组成m*k的二维矩阵;对有效载荷不足k个字节长度的数据包,在矩阵该行尾部采取补0操作;对不足m个包的流,在矩阵尾部采取补0操作,直至形成m*k大小的矩阵;
选取常数m=64,获取所述数据流的前64个连续的数据包,对每个数据包读取TCP或UDP协议的有效载荷原始数据;
选取常数k=64,对上述每个有效载荷提取前64个字节,将所述64个字节的数据归一化落在[0,255]的范围内,作为矩阵的每一行;
将所述数据组成64*64的二维矩阵;
对有效载荷不足64个字节长度的数据包,在矩阵该行尾部采取补0操作;对不足64个包的流,在矩阵尾部采取补0操作,直至形成64*64大小的矩阵。
步骤3)对所述m*k大小的矩阵,提取方向梯度直方图(HOG)特征向量A1;对所述m*k大小的矩阵,提取局部二值模式直方图(LBP)特征向量A2;将所述特征向量A1与特征向量A2拼接为新特征向量。
步骤4)将所述矩阵视为m*k大小的8位灰度图,提取方向梯度直方图(HOG)特征向量A1,步骤为:
步骤4-1)将所述灰度图划分成8*8像素的单元格;
步骤4-2)把梯度方向平均划分为9个区间,计算每个单元格中每个像素的梯度,包括梯度的方向和梯度的幅值;
步骤4-3)统计所述每个单元格的梯度方向直方图,得到一个9维的特征向量;
步骤4-4)每相邻的2*2个单元格构成一个块(16*16像素),把一个块内的特征向量连起来得到36维的特征向量,并进行归一化处理;
步骤4-5)按步长为8滑动16*16的块窗口,获得7*7=49个块;
步骤4-6)将所述每个块的特征向量进行连接成为一个特征向量,因此所述A1特征为36*49=1764维向量。
步骤5)将所述矩阵视为m*k大小的8位灰度图,提取局部二值模式直方图(LBP)特征向量A2,包括:
步骤5-1)将所述灰度图划分成16*16像素的块;
步骤5-2)对于每个块中的每个像素,将相邻的8个像素的灰度值与其比较,若周围像素值大于中心像素值,则所述周围像素点的位置被标记为1,否则标记为0,若像素点位于图像边缘,则图像外的像素点同样标记为0。这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的二进制模式;
步骤5-3)统计所述每个块的二进制模式直方图,即每个二进制数出现的频率,按等价模式对二进制模式种类进行降维,得到58维的特征向量,并进行归一化处理
步骤5-4)按步长为8滑动16*16的块窗口,获得7*7=49个块;
步骤5-5)将所述每个单元格的特征向量进行连接成为一个特征向量,因此所述A1特征为58*49=2842维向量。
步骤6)将所述特征向量A1与特征向量A2拼接为线性可分特征,共1764+2842=4606维。
步骤7)使用支持向量机模型对所述线性可分特征进行分类。
如图2所示,对支持向量机模型进行训练的步骤:
获取若干个训练网络数据流和对应的分类标签;
将每个训练网络数据流数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;
基于线性可分特征和分类标签,通过监督学习训练支持向量机模型。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种网络流量分类方法,所述方法包括:
步骤1)获取网络数据流;
步骤2)将所述网络数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;
步骤3)将所述线性可分特征输入支持向量机模型实现网络流量的分类。
2.根据权利要求1所述的网络流量分类方法,其特征在于,所述步骤1)具体为:从网络中截取数据流量包,将一系列具有相同源地址、目的地址、源端口、目的端口和协议的数据流量包汇聚为一个网络数据流。
3.根据权利要求1所述的网络流量分类方法,其特征在于,所述步骤2)具体包括:
步骤2-1)将所述网络数据流转化为m*k的二维矩阵;
步骤2-2)将所述二维矩阵视为m*k大小的8位灰度图,提取方向梯度直方图特征向量A1
步骤2-3)将所述二维矩阵视为m*k大小的8位灰度图,提取局部二值模式直方图特征向量A2
步骤2-4)将特征向量A1和特征向量A2进行拼接形成线性可分特征。
4.根据权利要求3所述的网络流量分类方法,其特征在于,所述步骤2-1)具体包括:
步骤2-1-1)选取常数m,获取所述网络数据流的前m个连续的数据包,对每个数据包读取TCP或UDP协议的有效载荷原始数据;
步骤2-1-2)选取常数k,对上述每个有效载荷提取前k个字节,将所述k个字节的数据归一化落在[0,255]的范围内,作为矩阵的每一行;
步骤2-1-3)对有效载荷不足k个字节长度的数据包,在矩阵该行尾部采取补0操作;对不足m个包的数据流,在矩阵尾部采取补0操作,直至形成m*k大小的矩阵。
5.根据权利要求4所述的网络流量分类方法,其特征在于,所述步骤2-2)具体包括:
步骤2-2-1)将所述灰度图划分成8*8像素的单元格;
步骤2-2-2)把梯度方向平均划分为9个区间,计算每个单元格中每个像素的梯度,包括梯度的方向和梯度的幅值;
步骤2-2-3)统计所述每个单元格的梯度方向直方图,得到一个9维的特征向量;
步骤2-2-4)每相邻的2*2个单元格构成一个块,把一个块内的特征向量连起来得到特征向量,并进行归一化处理;
步骤2-2-5)按步长8滑动16*16的块窗口,获得若干个块;
步骤2-2-6)将所述每个块的特征向量进行连接成为一个特征向量A1
6.根据权利要求5所述的网络流量分类方法,其特征在于,所述步骤2-3)具体包括:
步骤2-3-1)将所述灰度图划分成16*16像素的块;
步骤2-3-2)对于每个块中的每个像素,将相邻的8个像素的灰度值与其比较,若周围像素值大于中心像素值,则所述周围像素点的位置被标记为1,否则标记为0,若像素点位于图像边缘,则图像外的像素点同样标记为0;这样,3*3邻域内的8个点经比较产生8位二进制数,即得到该窗口中心像素点的二进制模式;
步骤2-3-3)统计所述每个块的二进制模式直方图,即每个二进制数出现的频率,按等价模式对二进制模式种类进行降维,得到特征向量,并进行归一化处理;
步骤2-3-4)按步长8滑动16*16的块窗口,获得获得若干个块;
步骤2-3-5)将所述每个块的特征向量进行连接成为一个特征向量A2
7.根据权利要求1-6之一所述的网络流量分类方法,其特征在于,所述步骤3)之前还包括对支持向量机模型进行训练的步骤:
获取若干个训练网络数据流和对应的分类标签;
将每个训练网络数据流数据流转化为二维矩阵,提取二维矩阵的方向梯度直方图特征A1和局部二值模式直方图特征A2,并将A1和A2进行拼接形成线性可分特征;
基于线性可分特征和分类标签,通过监督学习训练支持向量机模型。
8.一种网络流量分类系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7之一所述方法的步骤。
CN201810471903.6A 2018-05-17 2018-05-17 一种网络流量分类方法及系统 Pending CN110505180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810471903.6A CN110505180A (zh) 2018-05-17 2018-05-17 一种网络流量分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810471903.6A CN110505180A (zh) 2018-05-17 2018-05-17 一种网络流量分类方法及系统

Publications (1)

Publication Number Publication Date
CN110505180A true CN110505180A (zh) 2019-11-26

Family

ID=68584738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810471903.6A Pending CN110505180A (zh) 2018-05-17 2018-05-17 一种网络流量分类方法及系统

Country Status (1)

Country Link
CN (1) CN110505180A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567329A (zh) * 2022-12-06 2023-01-03 互丰科技(北京)有限公司 网络信息的数据安全加密方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080192980A1 (en) * 2007-02-14 2008-08-14 Samsung Electronics Co., Ltd. Liveness detection method and apparatus of video image
CN103839037A (zh) * 2012-11-23 2014-06-04 华中科技大学 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN104486116A (zh) * 2014-12-12 2015-04-01 北京百度网讯科技有限公司 多维度查询流量数据的方法及系统
CN104796300A (zh) * 2015-03-23 2015-07-22 亚信科技(南京)有限公司 一种数据包特征提取方法及装置
CN106650667A (zh) * 2016-12-26 2017-05-10 北京交通大学 一种基于支持向量机的行人检测方法及系统
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080192980A1 (en) * 2007-02-14 2008-08-14 Samsung Electronics Co., Ltd. Liveness detection method and apparatus of video image
CN103839037A (zh) * 2012-11-23 2014-06-04 华中科技大学 一种基于众核和gpu的网络视频流不良内容检测方法和系统
CN104486116A (zh) * 2014-12-12 2015-04-01 北京百度网讯科技有限公司 多维度查询流量数据的方法及系统
CN104796300A (zh) * 2015-03-23 2015-07-22 亚信科技(南京)有限公司 一种数据包特征提取方法及装置
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置
CN106650667A (zh) * 2016-12-26 2017-05-10 北京交通大学 一种基于支持向量机的行人检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567329A (zh) * 2022-12-06 2023-01-03 互丰科技(北京)有限公司 网络信息的数据安全加密方法
CN115567329B (zh) * 2022-12-06 2023-02-28 互丰科技(北京)有限公司 网络信息的数据安全加密方法

Similar Documents

Publication Publication Date Title
CN109361617B (zh) 一种基于网络包载荷的卷积神经网络流量分类方法及系统
Zhao et al. Cloud shape classification system based on multi-channel cnn and improved fdm
Liu et al. Small traffic sign detection from large image
CN111131069B (zh) 一种基于深度学习策略的异常加密流量检测与分类方法
US20070065003A1 (en) Real-time recognition of mixed source text
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN110163239A (zh) 一种基于超像素和条件随机场的弱监督图像语义分割方法
CN108881192A (zh) 一种基于深度学习的加密型僵尸网络检测系统及方法
CN111626342B (zh) 一种图像样本处理方法、装置及存储介质
Nercessian et al. Automatic detection of potential threat objects in X-ray luggage scan images
CN106203539A (zh) 识别集装箱箱号的方法和装置
US20230215125A1 (en) Data identification method and apparatus
CN109583493A (zh) 一种基于深度学习的信用卡检测和数字识别方法
CN108427971A (zh) 基于移动终端的烟叶评级的方法及系统
CN111291773A (zh) 特征识别的方法及装置
CN115565071A (zh) 高光谱图像Transformer网络训练及分类方法
CN104573701B (zh) 一种玉米雄穗性状的自动检测方法
CN112560880A (zh) 目标分类方法、目标分类装置及计算机可读存储介质
Zhou et al. Information distribution based defense against physical attacks on object detection
CN110505180A (zh) 一种网络流量分类方法及系统
Xu et al. Scene text detection based on robust stroke width transform and deep belief network
CN110210561B (zh) 神经网络的训练方法、目标检测方法及装置、存储介质
CN111325207A (zh) 基于预处理的票据识别方法及装置
KR20230150625A (ko) 수하물 분류 시스템
CN113536845B (zh) 人脸属性识别方法、装置、存储介质和智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210804

Address after: Room 1601, 16th floor, East Tower, Ximei building, No. 6, Changchun Road, high tech Industrial Development Zone, Zhengzhou, Henan 450001

Applicant after: Zhengzhou xinrand Network Technology Co.,Ltd.

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Applicant before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20191126

RJ01 Rejection of invention patent application after publication