CN114650229B

CN114650229B - 基于三层模型sftf-l的网络加密流量分类方法与系统

Info

Publication number: CN114650229B
Application number: CN202210275051.XA
Authority: CN
Inventors: 吉顺慧; 曹祎涵; 张鹏程
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2023-04-07
Anticipated expiration: 2042-03-21
Also published as: CN114650229A

Abstract

本发明公开了一种基于三层模型SFTF‑L的网络加密流量分类方法与系统。方法包括：收集已标注类型的网络加密流量数据集；通过流量切割将加密流量文件切分，并将相同会话汇聚成一条数据流，然后进行流量清洗去除数据流中的无用信息，选取每条数据流的前三个数据包开展特征学习；针对每条数据流，将数据包的字节流信息转化为灰度图像，并计算三个数据包之间的到达时间间隔，根据到达时间间隔在数据包对应图像之间插入时序特征图；设计三层模型SFTF‑L的结构，并利用训练数据集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型。本发明提高了对重要空间特征的学习能力，并提高了对时序特征明显的加密流量的分类准确率。

Description

基于三层模型SFTF-L的网络加密流量分类方法与系统

技术领域

本发明涉及网络安全领域，尤其是一种基于三层模型SFTF-L(Spatial Featuresand Temporal Features Learning)的网络加密流量分类方法与系统。

背景技术

网络流量分类对网络流量进行采集并分析以准确获取网络流量信息类型的重要技术手段，其可以帮助网络管理者有效地进行网络规划、网络优化、网络监控、流量趋势分析等工作。

随着网络技术的发展和成熟，网络中承载的应用及业务由最初的网页、邮件以及即时通信等到日臻完善的各种社区、在线游戏、P2P文件共享等，网络中承载的业务越来越丰富。同时大众网络安全意识也在稳步提升，对于数据保护的意识也愈加强烈。根据最新统计报告，在2017年2月，半数的在线流量均被加密。对于特定类型的流量，加密甚至已成为法律的强制性要求，数据加密俨然已经成为保护隐私的重要手段之一。Gartner统计2019年超过80％的企业网络流量已被加密。Barac统计2020年83％的流量被加密。

虽然加密技术对于重视隐私的用户来说是一个福音，但IT团队将会面临大量不解密就无法检测的流量挑战。流量分类的前提是针对不同的应用或协议有明显的区分特征，加密流量分类和未加密流量分类的本质区别在于流量加密使得用于区分的特征发生了改变。流量加密后的变化可以概括如下：首先，IP报文的明文内容更改为密文。第二，流量加密后有效载荷的统计特征(如随机性或熵)发生改变。第三，流量加密后流统计特性发生改变，如报文长度，报文到达时间间隔和包数。

当前流量分类方法虽然取得了不少研究进展，但这些成果大多针对非加密流量进行分类，当前加密流量分类研究面临着新挑战。

发明内容

发明目的：本发明的目的在于提供一种基于三层模型SFTF-L的网络加密流量分类方法与系统，通过对网络加密流量的处理，并构建三层模型SFTF-L来学习加密流量的空间特征和时序特征，提高模型对时序特征明显的加密流量的分类准确率。

技术方案：为了实现上述发明目的，本发明采用如下技术方案：

一种基于三层模型SFTF-L的网络加密流量分类方法，包括如下步骤：

(1)收集已标注类型的网络加密流量数据集；

(2)通过流量切割将每个加密流量文件进行切分，并将相同会话汇聚成一条数据流，然后进行流量清洗去除数据流中的无用信息，选取每条数据流的前三个数据包开展特征学习；

(3)针对每条数据流，将数据包的字节流信息转化为灰度图像，并计算三个数据包之间的到达时间间隔，根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图；

(4)设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型；所述三层模型SFTF-L的结构包括用于学习加密流量的空间特征XResnet50网络，用于学习加密流量的时序特征的LSTM网络，以及softmax分类器。

进一步地，步骤(3)中自适应插入时序特征图的方法为：

根据数据包d1和d2之间的到达时间间隔t，在d1对应的图片p1以及d2对应的图片p2之间，插入f(t)个时序特征图片，每个时序特征图是元素值为1的28*28灰度图像，f(t)的计算方法如下：

进一步地，XResnet50网络模型分为7个Stage：

Stage1：包括两层，即卷积层和池化层，其中卷积层卷积核大小为7*7，步长为2，卷积核数量为64，池化层滑动窗口大小为3*3，步长为2；

Stage2：每个block由1*1、3*3、1*1的卷积核堆叠而成，block堆叠3次，卷积核数量均为64；

Stage3：每个block由1*1、3*3、1*1的卷积核堆叠而成，block堆叠4次，按顺序1*1卷积核数量为128，3*3卷积核数量为128，1*1卷积核数量为512；

Stage4：每个block由1*1、3*3、1*1的卷积核堆叠而成，block堆叠6次，按顺序卷积核数量依次为256、256、1024；

Stage5：每个block由1*1、3*3、1*1的卷积核堆叠而成，block堆叠3次，按顺序卷积核数量依次为512、512、2048；

Stage6：包括两层，用于放大加密流量的空间特征；一层为池化层，包含平均池化和最大池化两步，池化滑动窗口大小均为2*2，另一层为卷积层，卷积核大小为7*7，卷积核数量为2048；Stage6通过池化和卷积生成空间特征的公式为：

S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

其中S(F)是Stage6池化和卷积后生成的空间特征，f是7*7的卷积核，F是XResnet50中Stage5的输出，AvgPool()是平均池化，MaxPool()是最大池化，[；]表示拼接，σ表示sigmoid函数；

Stage7：包括池化层和全连接层，池化滑动窗口大小为7*7，全连接层输出尺寸为2048。

进一步地，LSTM网络的输入为XResnet50层学习到的空间特征，隐藏层包含128个神经元，通过全连接层(FC)产生输出向量，将时间步长设置为7；

softmax分类器的输入为LSTM层学习到的包含空间和时序的特征，进行预测的计算公式为：

其中y_i表示待分类流量属于第i种类型的预测概率，n表示加密流量类别总数，f_i表示LSTM网络输出层第i种类型的结果。

一种基于三层模型SFTF-L的网络加密流量分类系统，包括：

数据收集模块，用于收集已标注类型的网络加密流量数据集；

数据预处理模块，用于通过流量切割将每个加密流量文件进行切分，并将相同会话汇聚成一条数据流，然后进行流量清洗去除数据流中的无用信息，选取每条数据流的前三个数据包开展特征学习；

图像生成模块，用于针对每条数据流，将数据包的字节流信息转化为灰度图像，并计算三个数据包之间的到达时间间隔，根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图；

以及模型构建模块，用于设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型；所述三层模型SFTF-L的结构包括用于学习加密流量的空间特征XResnet50网络，用于学习加密流量的时序特征的LSTM网络，以及softmax分类器。

一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。

有益效果：本发明提出了一种基于三层模型SFTF-L的网络加密流量分类方法，通过第一层XResnet50网络模型解决了传统卷积网络随着层数加深的网络退化问题，提高了对重要空间特征的学习能力，并且通过在相邻数据包对应图片之间插入时序特征图，考虑了加密流量的时序特征，从而提高模型对时序特征明显的加密流量的分类准确率。

附图说明

图1是本发明实施例的总体流程示意图。

图2是本发明实施例中生成灰度图像的流程示意图。

图3是本发明实施例中SFTF-L模型的结构示意图。

图4是本发明实施例中XResnet50网络的结构示意图。

图5是本发明实施例中12类流量生成的灰度图像样本示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明。

如图1所示，本发明实施例提供的一种基于三层模型SFTF-L的网络加密流量分类方法，包括如下步骤：

(1)数据收集，收集已经标注过类型的网络加密流量数据集和待分类的网络加密流量。

(2)数据预处理，对收集的网络加密流量进行预处理，预处理工作包括：

首先通过流量切割将每个大型加密流量文件切分为多个小型文件，并将相同会话汇聚成一条数据流，然后进行流量清洗去除数据流中的无用信息，选取清洗后的每条数据流的前三个数据包开展特征学习。

(3)图像生成，针对每条数据流，将数据包的字节流信息转化为灰度图像，并计算三个数据包之间的到达时间间隔，根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图。

(4)模型构建，设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型。将经过数据预处理且标注过的灰度图片输入到XResnet50网络中学习空间特征，然后将XResnet50网络的输出作为LSTM网络的输入学习时序特征，最后通过softmax分类器层对流量数据所属类型进行预测，达到分类效果。

步骤(1)中，数据收集的具体内容为：

收集的加密流量类型包括聊天、电子邮件、视频、语音、文件传输、P2P、VPN聊天、VPN电子邮件、VPN视频、VPN语音、VPN文件传输、VPN-P2P共12类加密流量，加密方式为常规加密(Non-VPN加密)和VPN加密；数据集来源包括公开数据集ISCX VPN-NonVPN以及在真实网络环境捕获的部分网络加密流量。

步骤(2)中，将收集的待分类的网络加密流量进行预处理，具体步骤为：

(a)流量切割，将收集到的每个大型加密流量文件切分为多个独立的小型文件。利用SplitCap工具按照会话的形式进行流量切割，SplitCap根据TCP和UDP会话将一个大型流量文件pcap文件拆分为多个小型文件，每个会话一个pcap文件；

(b)汇聚数据流，将一个会话描述为五元组，包括源IP地址、源端口、目的IP地址、目的端口和传输层协议，相同五元组的会话视为同一数据流，将它们放入一个文件夹汇聚为一条数据流；

(c)流量清洗，去除数据包中对模型分类产生干扰的数据，主要有数据链路层信息、IP地址、时序特征图、重复数据流，具体是通过读取数据包的数据链路层、IP地址、数据内容对应的协议字段和数据包大小来进行清洗。

步骤(3)中，将数据流转化为灰度图像并插入时序特征图，如图2所示，具体包括：

(a)生成灰度图像，将数据包转化为灰度图片的具体步骤为：

①如果数据包长度大于784字节，截取前784字节的数据包字节流信息(784字节在本发明中保证了模型分类准确率的同时减少了计算量)；如果数据包长度不足784字节，用0x00补全；

②将字节数据转化为0到255之间的十进制数据(即两位16进制数据转化为一位十进制数据)，生成数据包对应的一维向量，并将其转为28*28的矩阵；

③根据矩阵生成png格式的灰度图像。

(b)计算数据包之间的到达时间间隔，根据pcap文件中的数据包达到时间字段，计算同一数据流中相邻数据包的时间间隔，例如t1是第一个数据包到达时间，t2是第二个数据包到达时间，则第一个数据包和第二个数据包的时间间隔Δt＝t2-t1(t2>t1)。

(c)根据数据包的到达时间间隔插入时序特征图，来增强时序特征，具体规则是：根据数据包d1和d2之间的到达时间间隔t(秒)，在d1对应的图片p1以及d2对应的图片p2之间，插入f(t)个时序特征图片，每个时序特征图是元素值为1的28*28灰度图像，f(t)的计算方法如下：

步骤(4)中模型构建的网络结构设计如图3所示，其中，XResnet50网络用于学习空间特征，LSTM网络用于学习时序特征，最后通过softmax层对流量数据所属类型进行预测。

(a)在Resnet50基础上改进的XResnet50网络的结构设计如下：

如图4，XResnet50网络模型分为7个Stage：

S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

(b)LSTM网络结构设计如下：

LSTM网络输入为XResnet50网络学习到的空间特征，隐藏层包含128个神经元，通过全连接层(FC)产生输出向量，经过初步实验将时间步长设置为7。

(c)softmax层的输入为LSTM层学习到的包含空间和时序的特征，使用的预测公式为：

其中y_i表示待分类流量属于第i种类型的预测概率，n表示加密流量类别总数，f_i表示LSTM模型输出层第i种类型的结果。

为了方便描述，我们利用基于深度学习的网络加密流量分类方法为所收集的12类加密流量进行分类。流程如下：

(1)数据收集，共收集到12类加密流量数据，每种类型样本数量如表1所示。

(2)数据预处理，进行流量切割、汇聚数据流、流量清洗。

(3)将加密流量转换为一组带时序特征的灰度图像，并根据到达时间间隔插入时序特征图，最终生成的灰度图像如图5所示。

(4)流量分类模型构建，根据收集到的44905个样本，将数据集随机划分成9份训练集和1份测试集，利用9份训练集中的样本开展模型训练。

通过上述步骤构造出加密流量的分类模型，将分类模型应用到测试集中的流量样本进行分类，针对测试集中的12类流量类型，最终的模型分类效果如表2所示，其中利用准确率、精确率、召回率和F1值对分类效果进行评估。TP(True Positive)是被判定为正样本事实上也是正样本的样本数量，TN(True Negative)是被判定为负样本事实上也是负样本的样本数量，FP(False Positive)是被判定为正样本但事实上是负样本的样本数量，FN(False Negative)是被判定为负样本但事实上是正样本的样本数量。

准确率ACC表示分类正确的样本数占总样本数的比例，计算公式为：

精确率Precision表示模型找准正样本的能力，计算公式为：

召回率Recall表示模型找全正样本的能力，计算公式为：

F1值是精确率和召回率的综合考虑指标，计算公式为：

表1 12类加密流量样本信息

流量类型	样本数量
		Chat	5000
Email	4767
		File	3000
P2P	2900
		Streaming	3180
VoIP	4051
		VPN-Chat	4471
VPN-email	830
		VPN-File	3106
VPN-P2P	4000
		VPN-Streaming	4600
VPN-VoIP	5000
		Total	44905

表2 12类加密流量的分类结果

流量类型	准确率(％)	精确率(％)	召回率(％)	F1值(％)
					Chat	95.5	94.9	95.7	95.4
email	96.1	96	95.5	95.4
					File	96.8	96.1	96.3	96.4
P2P	96.8	96.2	96	96.0
					Streaming	96.8	97.5	96.3	96.8
VoIP	97.9	97.9	96.5	96.6
					VPN-Chat	97.4	96.8	96.1	96.1
VPN-email	96.9	95.9	95.5	95.8
					VPN-File	96.8	96.5	95.3	95.7
VPN-P2P	97.9	97.9	95.6	95.3
					VPN-Streaming	96.1	96.6	98.5	96.5
VPN-VoIP	96.1	96.9	97.6	97.9
					平均值	96.8	96.6	96.2	96.2

基于相同的发明构思，本发明实施例提供一种基于三层模型SFTF-L的网络加密流量分类系统，包括：数据收集模块，用于收集已标注类型的网络加密流量数据集；数据预处理模块，用于通过流量切割将每个加密流量文件进行切分，并将相同会话汇聚成一条数据流，然后进行流量清洗去除数据流中的无用信息，选取每条数据流的前三个数据包开展特征学习；图像生成模块，用于针对每条数据流，将数据包的字节流信息转化为灰度图像，并计算三个数据包之间的到达时间间隔，根据到达时间间隔自适应地在数据包对应图像之间插入时序特征图；以及模型构建模块，用于设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型。

以上描述的各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所述模块的划分仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统。

基于相同的发明构思，本发明实施例提供一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。

基于相同的发明构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。

本领域技术人员可以理解的是，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机系统(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例所述方法的全部或部分步骤。存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储计算机程序的介质。

尽管本发明就优选实施方式进行了示意和描述，但本领域的技术人员应当理解，只要不超出本发明的权利要求所限定的范围，可以对本发明进行各种变化和修改。

Claims

1.一种基于三层模型SFTF-L的网络加密流量分类方法，其特征在于，所述方法包括如下步骤：

(1)收集已标注类型的网络加密流量数据集；

(4)设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型；所述三层模型SFTF-L的结构包括用于学习加密流量空间特征的XResnet50网络，用于学习加密流量时序特征的LSTM网络，以及softmax分类器；

步骤(3)中自适应插入时序特征图的方法为：

根据数据包d1和d2之间的到达时间间隔t秒，在d1对应的图片p1以及d2对应的图片p2之间，插入f(t)个时序特征图片，每个时序特征图是元素值为1的28*28灰度图像，f(t)的计算方法如下：

XResnet50网络模型分为7个Stage：

S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

Stage7：包括池化层和全连接层，池化滑动窗口大小为7*7，全连接层输出尺寸为2048；

LSTM网络的输入为XResnet50层学习到的空间特征，隐藏层包含128个神经元，通过全连接层(FC)产生输出向量，将时间步长设置为7；

2.一种基于三层模型SFTF-L的网络加密流量分类系统，其特征在于：包括：

以及模型构建模块，用于设计三层模型SFTF-L的结构，并利用训练集对应的图像进行模型训练，学习加密流量的空间特征和时序特征，构建出网络加密流量分类模型；所述三层模型SFTF-L的结构包括用于学习加密流量空间特征的XResnet50网络，用于学习加密流量时序特征的LSTM网络，以及softmax分类器；

图像生成模块中自适应插入时序特征图的方法为：

XResnet50网络模型分为7个Stage：

S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

3.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。

4.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1所述的基于三层模型SFTF-L的网络加密流量分类方法的步骤。