CN113037730A

CN113037730A - 基于多特征学习的网络加密流量分类方法及系统

Info

Publication number: CN113037730A
Application number: CN202110221394.3A
Authority: CN
Inventors: 卜佑军; 张稣荣; 陈博; 张桥; 袁征; 伊鹏; 马海龙; 胡宇翔; 王方玉; 孙嘉; 路祥雨; 王继; 张进
Original assignee: Network Communication and Security Zijinshan Laboratory; PLA Information Engineering University
Current assignee: Zijinshan Laboratory; PLA Information Engineering University
Priority date: 2021-02-27
Filing date: 2021-02-27
Publication date: 2021-06-25
Anticipated expiration: 2041-02-27
Also published as: CN113037730B

Abstract

本发明属于网络安全技术领域，特别涉及一种基于多特征学习的网络加密流量分类方法及系统，包含：通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量；将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习，通过多通道CNN模型提取数据包空间特征，通过LSTM模型提取流量时序特征；将数据包空间特征和流量时序特征进行向量拼接，得到全方位流量特征向量；将全方位流量特征向量输入到神经网络全连接层，通过流量类型概率来获取加密流量分类类型。本发明能够从空间特征和时间特征的角度全方位自动提取和利用流量特征，提升加密流量的分类能力，具有较好的应用价值。

Description

基于多特征学习的网络加密流量分类方法及系统

技术领域

本发明属于网络安全技术领域，特别涉及一种基于多特征学习的网络加密流量分类方法及系统。

背景技术

近年来，由于加密技术的不断发展，流量加密技术在互联网上得到了广泛的应用。加密技术不仅保护了普通互联网用户的隐私和匿名性，同时也能使用户绕开防火墙和监控系统的检测，这就使得恶意用户有了可乘之机，例如，攻击者对恶意软件通信进行加密，以匿名入侵和攻击系统等。可以说，加密技术的滥用给网络安全和网络管理带来了新的威胁。因此，加密流量分类的识别和分类问题引起了学术界和工业界的广泛关注。流量分类是将网络流量准确识别为特定类别的任务，对许多应用程序都起着重要作用，如服务质量控制、恶意软件检测和入侵检测等。随着时间的推移和科技的进步，流量分类技术已经有了显著的发展。目前，流量分类技术主要有四种方法：基于端口号、基于内容、基于机器学习以及基于深度学习的分类方法。基于端口号对流量进行分类是最简单的一种分类方法。但是由于随机端口分配和端口伪装等技术的发展，这种方法的精度很低，一般不单独使用，而是和其他方法结合，一起进行流量分类。基于内容的流量分类方法依赖于深度数据包检测(DeepPacket Inspection,DPI)，通过提取数据包中的关键字与DPI指纹库数据进行特征匹配，从而确定每个应用程序类型。但由于技术性和隐私性等因素无法对加密流量解密，这种方法不适用于加密流量。基于机器学习的流量分类方法的一般工作流程为：首先专家手动进行特征设计，然后从原始流量数据集中进行特征提取，最后将提取的特征输入到机器学习分类器(如决策树或朴素贝叶斯等)中对流量进行分类。可以看出，基于机器学习的分类方法高度依赖人工进行特征选择和提取，极大限制了它们的性能和通用性；而且所有的步骤都是独立的，即使每个步骤都得到了最好的结果，全局的结果也不一定是最优解。

针对机器学习的这些弊端，深度学习模型应运而生。相对于机器学习模型，深度学习模型通过训练自动进行特征选择和提取，不需要人工干涉。在当今流量新类型不断出现、旧类模式不断演变的情况下，这种特性使得深度学习成为一种高效的流量分类方法。深度学习的另一个重要的特性是其强大的学习能力，可以从高度复杂的环境中学习更多特征，从而获得较高的精度和准确率。此外，深度学习作为一种端到端的方法，能够自动学习原始流量与对应类别之间的非线性关系，各步骤之间是统一而非独立的，可以通过训练得到一个全局最优解。在加密流量分类这一领域，已经有很多基于深度学习的研究，但是大多数研究中流量特征通常只用到了空间特征或者时序特征中的某一种，而非全部。这样做虽然能够节省计算和存储开销，但是必然会影响到模型的分类性能。

发明内容

为此，本发明提供一种基于多特征学习的网络加密流量分类方法及系统，能够从空间特征和时间特征的角度全方位自动提取和利用流量特征，提升加密流量的分类能力。

按照本发明所提供的设计方案，提供一种基于多特征学习的网络加密流量分类方法，包含：

通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量；

将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习，通过多通道CNN模型提取数据包空间特征，通过LSTM模型提取流量时序特征；

将数据包空间特征和流量时序特征进行向量拼接，得到全方位流量特征向量；

将全方位流量特征向量输入到神经网络全连接层，通过流量类型概率来获取加密流量分类类型。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，预处理中，依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，切分中，按照五元组{源IP，源端口，目的IP，目的端口，传输层协议}将原始流量数据进行切分，得到双向网络流数据。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，清理中，删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包，并利用0x00覆盖IP地址段进行流匿名化操作。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，长度统一中，通过丢弃或补入将流数据包数设定为统一的固定长度；归一化处理中，将每个数据包向量归一化到[0,1]范围内，使得每条数据流形成统一长度的一维流量数据包向量。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，多通道CNN模型中，利用卷积核从数据包向量中提取空间特征，通过池化层获取一组数据包特征向量矩阵，并利用flatten层将矩阵转换为一维向量，再通过全连接层来获取数据包空间特征向量。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，LSTM模型中，将数据包向量以时间序列作为模型输入，利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出，通过循环来获取流量时序特征向量。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，将多通道CNN模型与LSTM输出的特征向量进行拼接，得到全方位流量特征向量，长度表示为2*q，其中，q为多通道CNN模型与LSTM输出两者输出的特征向量长度。

作为本发明基于多特征学习的网络加密流量分类方法，进一步地，神经网络全连接层通过softmax函数获取流量类型概率，取概率最高的类作为最后的加密流量分类结果，其中，softmax函数概率计算公式表示为：

z_i为输出单元的输出值，i为加密流量类别索引，k为加密流量类别总数。

进一步地，本发明还提供一种基于多特征学习的网络加密流量分类系统，包含：预处理模块、并行学习模块、向量拼接模块和分类识别模块，其中，

预处理模块，用于通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量；

并行学习模块，用于将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习，通过多通道CNN模型提取数据包空间特征，通过LSTM模型提取流量时序特征；

向量拼接模块，用于将数据包空间特征和流量时序特征进行向量拼接，得到全方位流量特征向量；

分类识别模块，用于将全方位流量特征向量输入到神经网络全连接层，通过流量类型概率来获取加密流量分类类型。

本发明的有益效果：

本发明综合使用两种深度学习模型，以并行的方式提取流量的空间特征和时序特征，避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题，在加快了计算和分类速度的同时，从多维度充分利用流量特征以提高加密流量分类精度。在加密流量分类这一领域首次使用多通道CNN模型，能够对流中的数据包同时进行特征提取，有效利用了包级特征；基于深度学习模型进行加密流量分类，能够自动进行特征提取，避免了繁杂的人工特征选择和提取过程。两种深度学习模型相互独立，互不影响，其内部构造可以适当进行修改，比如增加或减少多通道CNN中卷积层和池化层的数量等，只需最后输出的向量维度一致即可，从空间特征和时间特征的角度全方位自动提取和利用流量特征，提升加密流量的分类识别能力。

附图说明：

图1为实施例中基于多特征学习的网络加密流量分类流程示意图；

图2为实施例中多通道CNN特征提取流程示意；

图3为实施例中单个LSTM细胞结构示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对加密流量分类，本发明实施例，参见图1所示，提供一种基于多特征学习的网络加密流量分类方法，包含：通过对原始流量数据集进行预处理来获取用于作为深度学习模型输入的流量数据包向量；将流量数据包向量分别输入到已训练的多通道CNN模型和LSTM模型中进行并行学习，通过多通道CNN模型提取数据包空间特征，通过LSTM模型提取流量时序特征；将数据包空间特征和流量时序特征进行向量拼接，得到全方位流量特征向量；将全方位流量特征向量输入到神经网络全连接层，通过流量类型概率来获取加密流量分类类型。

综合使用两种深度学习模型，以并行的方式提取流量的空间特征和时序特征，避免了传统方法分类准确率低以及两种模型串行工作计算时后面模型的输入依赖于前面模型的输出等这些问题，在加快了计算和分类速度的同时，从多维度充分利用流量特征以提高加密流量分类精度。

作为实施例中本发明基于多特征学习的网络加密流量分类方法，进一步地，预处理中，依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。

进一步地，切分中，按照五元组{源IP，源端口，目的IP，目的端口，传输层协议}将原始流量数据进行切分，得到双向网络流数据。

按照五元组{源IP，源端口，目的IP，目的端口，传输层协议}将原始流量进行切分，得到一组双向网络流。流集表示为：F＝{f₁,f₂,…}。其中，f_i为流集中的流，即

K为某条流的数据包数。

进一步地，清理中，删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包，并利用0x00覆盖IP地址段进行流匿名化操作。删除重复的流；删除不包含与流量分类所需特征无关的以太网头；删除空数据包；此外，因为神经网络可能通过学习IP地址对流量进行分类，为了防止过拟合，提高模型的泛化能力，将IP地址设为0，使流匿名化。

进一步地，长度统一中，通过丢弃或补入将流数据包数设定为统一的固定长度；归一化处理中，将每个数据包向量归一化到[0,1]范围内，使得每条数据流形成统一长度的一维流量数据包向量。

将每条流的数据包数固定为n，如果流中包含的数据包数大于n，则丢弃其他数据包，如果小于n，则通过重复最后一个数据包至总数为n，即：

为了使传输层段均匀，在UDP段的标头(8字节)末尾填充0，以使其与TCP标头的长度(20字节)相等；此外，将每个数据包字节数固定为M，在实现传输层段均匀后，如果数据包的字节数大于M，则截断，如果小于M，则补0至M字节。

将每个数据包向量除以255，归一化到[0,1]范围内，每条流形成n个长度为M的一维数据包向量，作为后续深度学习模型的输入，表示为：

其中，

为流集中第i条流的第K个数据包，是一个大小为[M，1]的一维列向量，K＝1,2,…,n；

为该数据包中的一个字节表示，是[0,1]范围内的一个整数。

作为本发明实施例中基于多特征学习的网络加密流量分类方法，进一步地，多通道CNN模型中，利用卷积核从数据包向量中提取空间特征，通过池化层获取一组数据包特征向量矩阵，并利用flatten层将矩阵转换为一维向量，再通过全连接层来获取数据包空间特征向量。

如图2所示，借鉴RGB图像特征提取思想，将步骤1中预处理后的数据包向量作为多通道CNN的输入，通道数为n，即每条流的固定数据包数量。通过多通道CNN的卷积核从数据包特征向量中自动提取空间特征，通过池化层获取维度较低的更具有代表性的特征。在该步骤中，共使用了两个卷积层、两个池化层。第一个卷积层的卷积核数量设置为32，滤波器大小为[25,1,n]，步长为1；第二个卷积层的卷积核数量设置为64，滤波器大小为[25,1,32]，步长为1；所有卷积层均使用ReLU作为激活函数，ReLu函数表达式为ReLU(x)＝max(0,x)；池化层采用最大池化处理技术(即maxpooling)，池化窗口大小为3，步长为3，即在每个步骤中，max pooling处理一个大小为[3，1]的向量输入，过程如下所示：maxpooling[x₁,x₂,x₃]＝max(x₁,x₂,x₃)。通过池化层后，得到一组一维数据包特征向量，数量取决于上一层卷积核的个数，将这组向量构成一个矩阵，通过flatten层转换为一维向量，再经过全连接层Fc，最终得到一个长度为q的一维流特征向量，其中，q的大小取决于全连接层神经元的个数；flatten层用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。表1给出了所用多通道CNN的结构和参数。

表1所用CNN的结构和参数

作为本发明实施例中基于多特征学习的网络加密流量分类方法，进一步地，LSTM模型中，将数据包向量以时间序列作为模型输入，利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出，通过循环来获取流量时序特征向量。

n个数据包向量作为LSTM的输入，以时间序列T＝n输入到LSTM中，自动提取流的时间特征，最后输出一个长度为q的一维流特征向量。其中，q可以通过控制LSTM中隐藏单元数来控制其大小。如图3所示，LSTM通过遗忘门、输入门、输出门三个门来记忆某一时刻之前的信息，并利用之前的信息影响当前时刻的输出。下面以单个LSTM细胞结构为例来解释其运算步骤：

遗忘门决定应丢弃或保留哪些信息。来自前一个隐藏状态的信息和当前输入的信息同时传递到sigmoid函数中去，输出值介于0和1之间，越接近0意味着越应该丢弃，越接近1意味着越应该保留。在t时刻(0≤t<n)遗忘门的运算公式为：

其中w_f为遗忘门权重矩阵，

为第i条流在时刻t时输入的数据包(即第t个数据包)，b_f为遗忘门偏置矩阵。

输入门用于更新细胞状态。在t时刻(0≤t<n)输入门的运算公式为：

其中w_c为输入门权重矩阵，b_c为输入门偏置矩阵。细胞状态更新公式为：

输出门用来确定下一个隐藏状态的值，隐藏状态包含了先前输入的信息。输出门的计算公式为：

o_t＝sigmoid(w_o·[h_t-1,P_t ⁱ]+b_o)，

h_t＝o_t*tanh(C_t)

上述过程不断循环，LSTM最终时刻的输出包含之前所有时刻的信息，从而学习到了整条流的时序特征。

将多通道CNN模型与LSTM输出的特征向量进行拼接，得到全方位流量特征向量，长度表示为2*q，其中，q为多通道CNN模型与LSTM输出两者输出的特征向量长度。

z_i为输出单元的输出值，i为加密流量类别索引，k为加密流量类别总数。得到的总的流量特征向量表示输入到神经网络全连接层，最后通过softmax函数计算该流属于各类应用的概率，取概率最高的那类作为最后的分类结果，以此实现加密流量分类。其中全连接层可以有多层。

进一步地，基于上述的方法，本发明实施例还提供一种基于多特征学习的网络加密流量分类系统，包含：预处理模块、并行学习模块、向量拼接模块和分类识别模块，其中，

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多特征学习的网络加密流量分类方法，其特征在于，包含：

2.根据权利要求1所述的基于多特征学习的网络加密流量分类方法，其特征在于，预处理中，依次对流量数据进行切分、清理、长度统一及归一化来获取流量数据包向量。

3.根据权利要求2所述的基于多特征学习的网络加密流量分类方法，其特征在于，切分中，按照五元组{源IP，源端口，目的IP，目的端口，传输层协议}将原始流量数据进行切分，得到双向网络流数据。

4.根据权利要求2所述的基于多特征学习的网络加密流量分类方法，其特征在于，清理中，删除重复数据流、与流量分类所需特征无关的数据以太网头及空数据包，并利用0x00覆盖IP地址段进行流匿名化操作。

5.根据权利要求2所述的基于多特征学习的网络加密流量分类方法，其特征在于，长度统一中，通过丢弃或补入将流数据包数设定为统一的固定长度；归一化处理中，将每个数据包向量归一化到[0,1]范围内，使得每条数据流形成统一长度的一维流量数据包向量。

6.根据权利要求1所述的基于多特征学习的网络加密流量分类方法，其特征在于，多通道CNN模型中，利用卷积核从数据包向量中提取空间特征，通过池化层获取一组数据包特征向量矩阵，并利用flatten层将矩阵转换为一维向量，再通过全连接层来获取数据包空间特征向量。

7.根据权利要求1所述的基于多特征学习的网络加密流量分类方法，其特征在于，LSTM模型中，将数据包向量以时间序列作为模型输入，利用模型之前所有时刻输入数据包信息来影响当前时刻模型输出，通过循环来获取流量时序特征向量。

8.根据权利要求1所述的基于多特征学习的网络加密流量分类方法，其特征在于，将多通道CNN模型与LSTM输出的特征向量进行拼接，得到全方位流量特征向量，长度表示为2*q，其中，q为多通道CNN模型与LSTM输出两者输出的特征向量长度。

9.根据权利要求1所述的基于多特征学习的网络加密流量分类方法，其特征在于，神经网络全连接层通过softmax函数获取流量类型概率，取概率最高的类作为最后的加密流量分类结果，其中，softmax函数概率计算公式表示为：

10.一种基于多特征学习的网络加密流量分类系统，其特征在于，包含：预处理模块、并行学习模块、向量拼接模块和分类识别模块，其中，