CN107465643A

CN107465643A - 一种深度学习的网络流量分类方法

Info

Publication number: CN107465643A
Application number: CN201610388592.8A
Authority: CN
Inventors: 徐杰; 陈训逊; 王博; 崔佳; 王东安; 包秀国
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2017-12-12

Abstract

本发明为一种基于深度学习的网络流量分类方法，包括(1)网络流量样本数据的获取；(2)网络流量属性的确定，包括：a.网络流量中客户端端口号统计分析；b.网络流量中数据包平均到达时间统计分析；c.网络流量中包含数据包个数统计分析；(3)网络流量样本标记；(4)连续数据的离散化；(5)样本的训练；本发明能够对纷繁复杂的网络流量资源，能够满足高精度的分类要求。

Description

一种深度学习的网络流量分类方法

技术领域

本发明属于网络信息安全技术领域，特别涉及一种基于深度学习的网络流量分类方法。

背景技术

随着信息技术的蓬勃发展,种类繁多的互联网应用产生的大量流量占用了很多网络资源,在给服务质量带来巨大挑战的同时也给互联网安全产生负面影响。为了高效地利用网络资源并为网络管理者提供有效的管控手段,以辨别应用层协议为目的的网络流量分类技术成为近年来的研究热点问题。在网络流量分类的传统方法中,应用最广的是基于知名端口号(known ports)的流量分类算法、基于特征字匹配的流量分类算法、基于传输层行为模式的流量分类算法。但是随着端口伪造、明文加密等技术的使用以及网络类别环境差别的增大,上述三种分类方法在现阶段已经无法满足对分类的精度要求。机器学习方法不需要对端口进行匹配,也不需要解析流量的有效载荷内容,同时不受网络环境等影响就可以对网络流量进行高精度的分类,故基于机器学习算法的网络流量分类技术成为近年来的研究热点问题。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于深度学习的网络流量分类方法。

本发明的技术方案是，一种基于深度学习的网络流量分类方法，包括如下步骤：

(1)网络流量样本数据的获取；

采用Libpcap库对网络流量进行捕获；

(2)网络流量属性的确定，包括

a.网络流量中客户端端口号统计分析；

b.网络流量中数据包平均到达时间统计分析；

c.网络流量中包含数据包个数统计分析；

(3)网络流量样本标记；

采用一种基于端口号及特征字匹配的网络流量样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流量的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流量样本进行深度解析匹配,对未知流样本进行标记；

(4)连续数据的离散化；

利用基于粗糙集的方法对网络流量样本中连续的数据进行离散化；

(5)样本的训练；

采用深度学习中的受限玻尔兹曼机，在原始输入特征中抽取低维高度可区分的低维特征作为训练模型的输入，对样本进行训练，使用支持向量机作为回归模型。

本发明的有益效果在于：对纷繁复杂的网络流量资源，能够满足高精度的分类要求。

附图说明

图1为本发明的方法流程图

具体实施方式

下面，结合附图对于本发明进行如下详细说明：

流程图如图1所示，描述了利用深度学习算法对网络流进行分类的过程。首先从外部网络中获取数据,之后将数据进行处理得到用流的属性向量表示的流数据集合,再对流的属性特征进行选择得到待训练数据,利用深度学习算法进行训练得到分类模型,最后利用分类模型对未知样本进行分类。

本发明主要包括以下步骤：

一是网络流量样本数据的获取。常使用普通的PC机，利用Libpcap库对网络流量进行捕获。

二是流量属性的确定。样本数据对学习模型的稳定性、精确性有着至关重要的作用,而样本是由网络流的各项属性计算而来,所以流属性的确定也就决定了流分类的结果精度。本发明采用三种方法进行流量属性确定：1.网络流中客户端端口号统计分析；2.网络流中数据包平均到达时间统计分析；3.网络流中包含数据包个数统计分析。

三是网络流样本的标记。本发明的深度学习算法均是有监督的学习算法,所以机器学习的训练样本中需要包含样本的类别信息,即训练时算法需要事先知道该样本的类别,在对未知样本进行分类时可以增大分类模型的精度。本发明设计了一种基于端口号及特征字匹配的网络流样本标记算法,该算法先利用IANA的知名端口库判断训练样本中流的端口号是否为知名端口,再利用特征字匹配技术将非知名端口的流样本进行深度解析匹配,对未知流样本进行标记。

四是连续数据的离散化。利用基于粗糙集的方法对网络流样本中连续的数据进行离散化。

五是样本的训练。本发明采用了深度学习中的受限玻尔兹曼机进行样本的监督学习。在深度学习中，大多数的模型仅使用了少量特征作为输入,因此可能没有足够的信息来对网络流量进行准确分类。如果输入更多的特征,将可能发生所谓的维数灾难,导致模型的训练时间大幅度增加,其泛化能力也可能会恶化。因此,在原始高维的输入特征中抽取出高度可区分的低维特征,并将其作为相应模型的输入对改善模型的泛化性能会有很大的帮助。受限玻尔兹曼机(Restricted Boltzmann Machine)是一种新型的机器学习工具,因为其强大的学习能力,受限玻尔兹曼机已经被广泛应用于各种机器学习问题。在本发明中，使用受限玻尔兹曼机从原始输入特征中抽取低维高度可区分的低维特征,并且使用支持向量机(Support Vector Machine)作为回归模型。

所述仅是本发明的具体实例，任何基于本发明方法基础的等效变换，均属于本发明保护范围之内。

Claims

1.一种基于深度学习的网络流量分类方法，其特征在于，包括如下步骤：