CN113162908A

CN113162908A - 一种基于深度学习的加密流量检测方法及系统

Info

Publication number: CN113162908A
Application number: CN202110239809.XA
Authority: CN
Inventors: 刘玉岭; 汤霁月; 韩冬旭; 李宁; 崔泽林; 刘俊荣; 卢志刚
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-07-23
Anticipated expiration: 2041-03-04
Also published as: CN113162908B

Abstract

本发明提供了一种基于深度学习的加密流量检测方法及系统。主要思想为：1)将流量转换为图像处理方式提取其几何特征，按照CapsNet提取下层空间特征以及LSTM提取上层时间序列特征的方式构建Caps‑LSTM分层训练模型，以自动提取流量的时空特征；2)对原始连续流量进行流切分成离散流，离散流根据会话粒度连续切分成许多小尺寸数据包；3)将流量匿名化处理减少不必要特征的同时避免训练过程中可能产生的过拟合现象，清洗掉重复的空数据包，提高加密流量的检测能力；4)端到端的方式实现加密流量的服务类别与具体应用类别的有效分类，解决人工特征依赖问题。本发明中的加密流量检测方法具有自动学习、高效性与普适性等特点。

Description

一种基于深度学习的加密流量检测方法及系统

技术领域

本发明属于计算机科学与网络空间安全的交叉技术领域，涉及一种原始网络流量分类模型，特别是涉及一种基于深度学习的加密流量检测方法及系统。

背景技术

网络流量为所有在网络上传输的数据内容，是网络中信息交互的主要载体之一。加密流量则借用加密协议的封装完成数据传输过程，已成为当今安全通信的基础。基于TCP/IP协议框架，主流的网络加密协议有IPsec、SSH、SSL/TLS。不同加密协议封装格式与位置各不相同，SSH协议位于顶部为应用层提供安全，可与其他协议(如FTP，HTTP等)协同工作，SSL/TLS适用于传输层，IPsec协议则保障IP数据包层的安全性。

随着近几十年互联网技术的迅猛发展和人们隐私意识的提高，加密流量爆炸式增长，增大了攻击者隐藏控制命令并实施恶意行为的机会，给程序漏洞、网络病毒等提供了大量传播的可能，容易滋长利用互联网技术的新型犯罪。为提高数据网络预警及溯源能力，网络安全研究人员希望借助态势感知技术从具有噪声的大量原始流量中检测出各种网络攻击行为，其中网络入侵检测系统(IDS)是构成网络安全防护体系的重要组成部分，其核心能力为检测并分析关键节点的网络流量，实现对加密协议封装下的服务与具体应用类型的精细化识别，从而提高网络行为分析、网络规划建设、网络异常检测的能力，辅助网络监管部门人员了解网络的具体状况，实现计费、服务质量、网络设备优化、安全性与趋势分析器等基本的网络管理功能。

按照分析对象的不同，当前加密流量检测技术大致分为四个方向：基于端口的检测技术，基于深度报文检测(Deep Packet Inspection,DPI)的技术，基于机器学习的检测技术与基于深度学习的检测技术。基于端口的技术方法实现简单并可以进行实时分类，然而随着网络地址转换协议和端口伪装技术的普遍应用，端口号已经无法成为检测流量的唯一标识，目前只可作为辅助手段使用。主流运营商使用基于深度包检测技术，拆分网络数据包，逐步分析网络通信过程中数据包载荷所携带的特征码，并将其与特定字符进行匹配，实现流量所属应用程序的归类，该类技术速度快，准确率高，但是计算复杂度高，只可识别出已有的特征类型。基于机器学习的检测技术，一般将捕获的跟踪流量根据五元组分为多个流，对于每个流手工设计并提取流特征，将特征送入分类算法或分类器进行训练完成分类任务，提取的特征可以为流特征，也可以为包特征，此类技术可以检测各类别加密协议，不会泄露个人隐私，但分类效果很大程度上依赖人工提取特征的好坏。为避免依赖人工设计特征的缺陷，产生了基于深度学习的检测技术，主要有自动编码机(SAE)模型、两层卷积神经网络模型以及CNN与RNN结合模型等，目前主流使用CNN模型，尽管CNN在图像分类任务上取得了成功，然而仍具有一定的局限性，CNN在每个后续层中积累特征集的方式某种程度上丢失了相关特征之间的空间关系，然而相关空间关系对于加密流量检测具有重要价值。

发明内容

为解决现有方法在加密流量识别技术研究中存在的欠缺空间特征关系的问题，由于数据包组成流并且双向流组成会话，考虑到数据流的层次组成关系以及数据包按照时序到达的特点，本发明提出了一种基于深度学习的加密流量检测方法及系统，基于胶囊神经网络(CapsNet)和长短时记忆网络(Long Short-Term Memory,LSTM)的加密流量检测模型——Caps-LSTM，将流量进行二次切分，可实现流量服务与具体应用的高效分类。

本发明的一种基于深度学习的加密流量的检测方法，步骤包括：

对原始流量进行预处理，所述预处理包括按照流与会话的方式将原始流量二次切分成降噪之后的离散流，以及对原始流量进行匿名化处理与清洗；

将预处理后的流量输入训练完成的基于CapsNet神经网络和LSTM神经网络的加密流量检测模型(Caps-LSTM)，以提取流量的时空特征；

根据时空特征使用分类器检测加密流量所属的服务与具体应用的类别。

进一步地，所述预处理包括：

1.流切分：将原始的连续流量按照相同五元组信息(源IP地址，源端口，目的IP地址，目的端口，传输层协议)整体转化为多个数据包，五元组信息相同的子集合为一个离散流，以进行流量的一次切分。

2.匿名化处理与清洗：匿名化处理流量，丢弃数据包中相应位置的字符串以删除Mac和IP地址，同时也避免了因Mac和IP地址在训练过程中产生过拟合的情况，并清洗掉重复的或空的数据包。

3.会话粒度切分：按照会话粒度设置数据包的最大数量，实现流量的第二次切分，将大尺寸包连续切分成许多小尺寸包，减小在通信过程中附带的起到干扰作用的少量小尺寸流量包的权重，减少噪音，稀释无关会话。

会话中包的最大数量设置方式为：获取一个样本的总字节长度与文件头固定字节长度的差值，接着获取该差值与删除MAC和IP地址之后的最小数据包的字节长度的比值，为了避免切分的混乱，将包的最大数量设置为不超过此整数比值的最大偶数值。

4.统一输入长度并生成图片：通过将流量统一处理成一定字节(如784字节)的方式将流量处理成图像，若大于784字节，切割掉多余部分；若小于784字节，则在末尾补充0x00字节，适宜尺寸既不过小从而忽略有价值的特征，也不过大从而消耗处理时间。

5.压缩成IDX格式：通过将流量图像进一步处理成特定尺寸(如尺寸为28*28)的矩阵形式，转换为常用深度神经网络的标准输入格式，提高了模型的普适性。

进一步地，所述Caps-LSTM的训练过程包括：CapsNet部分学习下层空间特征，主要包含ReLU Conv1(第一卷积层)、PrimaryCaps(第二卷积层)以及DigitCaps(全连接层)三层，第一层用传统卷积层捕获相关流量的空间关系，第二层将输出为单个标量的“神经元”转变成矢量形式的初级胶囊，第三层则提取隐含的初级胶囊局部特征之间的空间关系，并输出到高级胶囊。LSTM进一步提高模型学习上层时间序列特征的能力。

进一步地，所述根据时空特征使用分类器检测加密流量所属的服务与具体应用的类别，包括：通过Softmax分类器，完成高效检测加密流量所属服务与具体应用类别任务。

本发明的一种基于深度学习的加密流量检测系统，包含以下模块：原始流量转换模块、基于CapsNet和LSTM的分层模型训练模块以及加密流量最终检测模块。

原始流量转换模块，将原始连续的流量二次切分成具有相同五元组形式的多个小尺寸的离散数据包，匿名化处理流量防止过拟合，清洗掉没有实际价值的流量，进而统一输入长度并进行归一化处理，输入到第二个模块中；

基于CapsNet和LSTM的分层模型训练模块，CapsNet提取下层空间特征，LSTM提取上层时间序列特征，在研究空间特征时，需把流量转换为图像处理方式进而提取其几何特征，网络流量有明显层次结构，包含流量序列特征，基于网络协议特定格式，将多个流量字节结合成一个包，通信双方间若干个网络数据包结合成网络流，本发明利用时间序列分析方法提取流量的时间特征，设计训练模型；

加密流量最终检测模块，对上一模块传输过来的加密流量利用SoftMax分类器进行分类以完成服务与具体应用类型高效检测任务。

与当前其他技术相比，本发明的创新与贡献表现如下：

1.本发明提出了一种新颖的基于深度学习的加密流量检测模型——Caps-LSTM，这是流量监测领域里结合CapsNet和RNN两种神经网络的首次尝试。

2.本发明自动化提取流量的时空特征，采用流量二次切分机制对流量进行降噪，并进行匿名化处理，且为端到端的方式解决人工特征依赖问题。

3.本发明不聚焦于数据集问题而是为了提出更优的方法，采用公共数据集ISCXVPN-nonVPN进行实验使得Caps-LSTM模型与其他方法之间具有可比性。

附图说明

图1是本发明的整体架构图。

图2是本发明的Caps-LSTM主要模块网络结构设计图。

图3是本发明应用于加密流量服务分类的效果图。

图4是本发明应用于加密流量具体应用分类的效果图。

图5是本发明与现有其他方法对加密流量服务分类查全率的实验结果对比图。

具体实施方式

下面所描述的具体实施例仅用以解释本发明，并非限定本发明。

本发明设计了一种基于深度学习的加密流量检测方法，总体方案为基于真实环境下的加密流量，按照流与会话的方式将流量二次切分成降噪之后的离散流，并进一步清洗增大有效流量的权重以提高检测效率，送入基于CapsNet和LSTM结合的神经网络核心训练模块提取流量的时空特征，最终通过SoftMax分类器完成加密流量的服务与具体应用类别的高效检测任务。

本发明的整体架构图如图1所示，所述方法的具体步骤细节描述如下：

1.原始流量转换。为了规范流量输入形式提高模型普适性，降低原始流量的噪音减小干扰作用，将真实环境下的流量进行预处理，具体步骤为：流切分，匿名化处理和清洗，会话粒度切分，统一长度生成图片，压缩为IDX输入格式。

1)流切分：将原始流量按流方式切分成离散流。原始流量T代表一个集合，表示如下：

T＝{t₁,t₂,...,t_|T|}

t_n＝(g_n,l_n,x_n),n＝1,2,...,|T|,l_n∈(0,∞),x_n∈[0,∞) (1)

其中t_n为原始连续流量中第n个数据包，g_n表示t_n中的五元组信息(源IP地址、源端口、目的IP地址、目的端口以及传输层协议)，l_n表示t_n的字节长度以及x_n是第n个数据包的开始时间。按流切分成多个子集合P_n，流f表示如下：

P_n＝{t₁＝(g₁,l₁,x₁),...,t_m＝(g_m,l_m,x_m)}

f₀＝(g,l,x,x₀) (2)

其中，表示P_n中包含数据包的数量，g＝g₁＝…＝g_m为相同五元组，

为流的总字节长度，x₁<…<x_m表明子集合按照时间的顺序进行排列，x＝x_m-x₁表示所有包的持续长度，x₀表示第一个包开始的时间，因此原始连续流量可以切分成如下所示的离散流：

F＝{f₁,f₂,f₃,...,f_m} (3)

利用EditCap工具规范所有流量文件(Pcap和Pcapng)为Pcap格式之后，使用SplitCap工具切分成离散流，其中生成会话不仅具有相同五元组信息，还具有源IP地址与目的IP地址可互换的特点。在离散流中，源地址与目的地址可相互交换的双向流组成的所有包，形成一个会话。

2)匿名化处理和清洗：Mac地址位于序列0-11，长度为12个字节，IP地址位于序列的27-34，长度为8个字节，在数据包中丢弃对应位置的字符串删除Mac和IP地址，将流量匿名化处理减少不必要特征的同时也避免了其在训练过程中可能产生的过拟合现象，并且清洗掉重复的没有实际内容的数据包，即清洗掉空数据包保留不重复的数据包。

3)会话粒度切分：由于部分会话中包数量过大，受到MNIST数据集处理方式的启发，合理运用统一长度为784字节的文件，利用EditCap工具设置会话中包的最大数量为16进行拆分。

4)统一长度生成图片：尽量减小pcap文件内容的多样性对模型训练的影响，将流量统一处理成尺寸为784字节，多的部分切割掉，不够则在尾部空白处添加0x00字节补齐。并且按照比例4:1分割训练集与测试集，随机抽取训练集的五分之一作为模型的验证集。

5)压缩为IDX输入格式：通过将数据集和标签压缩为IDX格式文件，784字节的流量转换为28*28的流量矩阵输入到训练模型中。

本发明提供一套数据预处理模块工具集，由Bat脚本、Python脚本、Powershell脚本编写并结合EditCap与SplitCap工具，实现流量二次切分、匿名化处理与清洗、统一输入长度并最终生成IDX文件。

2.基于CapsNet和LSTM分层训练。本发明将压缩IDX文件作为输入数据，基于CapsNet和LSTM的核心训练模块，构建加密流量的服务与具体应用分类模型。

由于数据包组成流并且双向流组成会话，考虑到流的层次组成关系以及数据包按照时序到达的特点，在分层模型训练阶段使用CapsNet提取下层空间特征以及LSTM提取上层时序特征。

本发明的CapsNet部分由两个卷积层和一个完全连接层组成，分别用于捕获相关流量的空间关系、将输出为标量的神经元转换为矢量形式的初级胶囊、提取隐含的初级胶囊局部特征之间的空间关系并输出到高级胶囊。具体地，CapsNet使用三层网络，其中ReLUConv1层为传统卷积层，第二层为PrimaryCaps层，将单个标量输出的神经元转换为矢量形式的初级胶囊，第三层为DigitCaps层，用于捕获所有初级胶囊中隐含的局部特征间的空间关系，并将特征输出到高级胶囊中。没有使用池化操作，保留了编码特征间的相对空间关系，并将特征构造成矢量形式的“胶囊”，确保胶囊输出矢量的长度代表局部特征存在的概率，矢量的方向代表在学习空间特征的同时将特征的属性考虑在内。

第一卷积层选用ReLU作为激活函数，后两层对胶囊的矢量形式采用新颖的“挤压”非线性激活函数：

其中_j是胶囊j的输入向量，v_j为输出向量。PrimaryCaps层捕获网络级流量的局部特征与高级特征之间的空间关系，可以通过将初级胶囊i的局部特征u_i与权重矩阵_ij(即图2中的W₀、W₁、Wn)相乘来执行仿射变换，生成高级胶囊j的输入向量

对于DigitCaps层，胶囊j的输入s_j是为该层所有输入向量

的加权总和。路由逻辑回归b_ij表示胶囊i与j进行耦合的对数先验概率，按照以下规则迭代更新，并进而运用动态路由算法确定耦合系数c_ij，找到高概率与高级别特征相关联的局部特征。

本发明采用的LSTM神经元结构主要引入忘记门f_t＝sigm(W_xfx_t+W_hfh_t-1+b_f)、输入门i_t＝sigm(W_xix_t+W_hih_t-1+b_i)、输出门o_t＝sigm(W_xox_t+W_hoh_t-1+b_o)、更新状态c_in_t＝tanh(W_xcx_t+W_hch_t-1+b_c)以及单元状态门c_t＝f_tc_t-1+i_tc_in_t。时刻t的输入为_t和前一时刻隐藏状态h_t-1，最终输出为h_t＝o_ttanh(c_t)。其中W_*f,W_*i,W_*o,_*c,b_f,b_i,b_o,b_c为各自的权重和可变偏差。

本发明的Caps-LSTM主要模块网络设计如图2所示，将28*28的流量矩阵输入到ReLUConv1常用卷积层中，利用256个步长为1的9*9的卷积核进行卷积操作，生成256个特征矩阵。第二层为CapsNet网络中的主要部分PrimaryCaps层，使第一卷积层传输过来的标量转换为向量的形式，对256个特征矩阵进行8次不同权重的矩阵变换，其中每一次变换均采用步长为2的32个大小为9*9的卷积核进行相应处理，生成6*6*32个8维向量，其中向量的长度表示原始流量所属类别的概率，方向则代表流量特征的不同属性，之后将8维向量输入到LSTM模块中大小为192*1的矩阵里，最终输出12个分类。其中核心模块的参数设置如表1所示。PrimaryCaps层分三层：PrimaryCap_conv2d、PrimaryCap_reshape、PrimaryCap_squash。表1中，Convolution表示卷积操作、Reshape表示重构张量操作、Lambda表示正则化率、CapsuleLayer表示胶囊神经网络、Flatten表示扁平化操作、LSTM表示进行LSTM变换、Dense表示全连接操作。

表1.核心模块的参数设置

层级名称	相应操作	输入尺寸	卷积核	步长	输出尺寸
						ReLU Conv1	Convolution	28*28	9*9	1	2020256
PrimaryCap_conv2d	Convolution	2020256	9*9	2	66256
						PrimaryCap_reshape	Reshape	66256	9*9	2	115281
PrimaryCap_squash	Lambda	115281	9*9	2	115281
						DigitCaps	CapsuleLayer	115281	----	----	12161
Flatten	Flatten	12161	----	----	192*1
						LSTM_1	LSTM	192*1	----	----	256*1
LSTM_2	LSTM	256*1	----	----	256*1
						Dense	Dense	256*1	----	----	12*1

3.加密流量最终检测。将各项超参数调至最优，实现加密流量服务与具体应用类别的高效分类，本发明还可以根据不同分类任务的需求调整输出类别的数量与参数，使得模型应用更为广泛。

4.实验效果评估。本发明是为了提供更优的加密流量检测方法，检测数据集并不是目的。为提高可对比性增强说服力，以公开ISCX VPN-nonVPN数据集为处理对象，借助数据预处理模块的工具集对原始流量进行实验。流切分后，12种服务类别文件中约一半以上的大小不足0.5KB，接着按照会话粒度进行流量切分，将主要大尺寸流量切分成许多小尺寸文件来完成降噪处理。并且针对数据不平衡问题，本发明根据每一类别在分类任务中的占比进行随机抽取。例如，为保证实验样本的多样性减小实验误差，在规范输入长度之后，设置总样本数不大于60000个，在此基础上按照服务或应用类别比例进行随机抽取。

实验结果分为两大类，Caps-LSTM对非VPN与VPN流量服务类型检测的有效性以及VPN加密流量具体应用类别检测的有效性。

1)加密流量服务类型检测结果

采用上述预处理完成后的76327个文件进行实验，服务分类效果如表2所示，12种类别的查准率与查全率全达到97％以上，除了Chat,Email,VPN_Chat之外，其他几种服务类别的查准率与查全率全达到99％以上，其混淆矩阵如图3所示。

表2.加密流量服务类型检测效果

2)加密流量具体应用类型检测结果

对加密流量应用进行分类的实验效果如表3所示，查准率与查全率分别为0.9980和0.9978，F₁值为0.9978，精度是0.9978，数值越接近1表明分类效果越好，其混淆矩阵如图4所示。

表3.加密流量应用分类检测效果

与其他方法对服务分类的查全率对比结果如图5所示，其中横坐标表示加密流量的12种服务类别，纵坐标表示查全率，表明Caps-LSTM模型的有效性。

基于同一发明构思，本发明的另一个实施例提供一种采用本发明方法的基于深度学习的加密流量检测系统，其包括：

原始流量转换模块，负责将原始真实的连续流量二次切分成离散流并进行匿名化处理与清洗；

基于CapsNet和LSTM的分层训练模块，负责以原始流量转换模块输出的规范格式后的数据为输入，结合CapsNet与LSTM两种不同的神经网络，使用CapsNet学习下层空间特征以及LSTM学习上层时序特征，自动提取流量的时空特征；

加密流量最终检测模块，负责利用获取的时空特征使用分类器进行分类，得到相应流量最终的分类标签。

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上所述实施例仅用于表达本发明的实施方式，不能因此理解为对本发明范围的限制。对于本领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应当以所附权利要求为准。

Claims

1.一种基于深度学习的加密流量检测方法，其步骤包括：

将预处理后的流量输入训练完成的基于CapsNet神经网络和LSTM神经网络的加密流量检测模型，以提取流量的时空特征；

2.如权利要求1所述的方法，其特征在于，所述预处理包括：

将原始连续流量流切分成离散流；

对流量进行匿名化处理与清洗；

按照会话粒度对离散流进行第二次切分，将大尺寸数据包连续分割成小尺寸包，稀释通信过程附带的无关流量；

规范流量输入形式，统一将流量处理成图像形式并转换为矩阵，压缩成IDX文件。

3.如权利要求2所述的方法，其特征在于，所述将原始连续流量流切分成离散流，包括：

原始连续流量T表示为集合T＝{t₁,t₂,...,t_|T|}，数据包t_n中包含五元组信息g_n、字节长度l_n以及数据包的开始时间x_n；

以包的形式将原始真实流量第一次切分成多个子集合P_n＝{t₁＝(g₁,l₁,x₁),...,t_m＝(g_m,l_m,x_m)}，包含第一个包的开始时间x₀的流表示为f₀＝(g,l,x,x₀)，其中，m表示P_n中包含数据包的数量，g＝g₁＝…＝g_m为相同五元组，

为流的总字节长度，x₁<…<x_m表明子集合按照时间的顺序进行排列，x＝x_m-x₁表示所有包的持续长度；其中

五元组分别是源IP地址、源端口、目的IP地址、目的端口以及传输层协议；

将流量切分成离散流的形式F＝{f₁,f₂,f₃,...,f_m}。

4.如权利要求2所述的方法，其特征在于，所述对流量进行匿名化处理与清洗，包括：删除Mac地址以及IP地址，并清洗掉重复的没有实际内容的数据包。

5.如权利要求2所述的方法，其特征在于，所述按照会话粒度对离散流进行第二次切分，包括：

设置会话中包的最大数量来连续切分会话，将数据传输的大尺寸数据包切分成若干小尺寸数据包以降噪，稀释无关会话；

会话中包的最大数量设置方式为：获取一个样本的总字节长度与文件头固定字节长度的差值，接着获取该差值与删除MAC和IP地址之后的最小数据包的字节长度的整数比值，为了避免切分的混乱，将包的最大数量设置为不超过此整数比值的最大偶数值。

6.如权利要求2所述的方法，其特征在于，所述规范流量输入形式，统一将流量处理成图像形式并转换为矩阵，压缩成IDX文件，包括：

以784字节为规范，超过则将多余部分切割掉，不够则在末尾补充0x00，以将输入数据统一处理成784字节，并映射为28*28的图像矩阵，进而压缩成IDX的标准输入格式。

7.如权利要求1所述的方法，其特征在于，所述基于CapsNet神经网络和LSTM神经网络的加密流量检测模型的构造方法为：

在分层模型训练阶段使用CapsNet提取下层空间特征以及LSTM提取上层时序特征；

CapsNet使用三层网络，包括两个卷积层和一个完全连接层，，第一个卷积层用于捕获相关流量的空间关系，第二个卷积层用于将单个标量输出的神经元转换为矢量形式的初级胶囊，完全连接层用于捕获所有初级胶囊中隐含的局部特征间的空间关系，并将特征输出到高级胶囊中。

8.一种采用权利要求1～7中任一权利要求所述方法的基于深度学习的加密流量检测系统，其特征在于，包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。