CN111817982B

CN111817982B - 一种面向类别不平衡下的加密流量识别方法

Info

Publication number: CN111817982B
Application number: CN202010733979.9A
Authority: CN
Inventors: 翟江涛; 吉小鹏; 崔永富; 林鹏; 石怀峰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2023-04-07
Anticipated expiration: 2040-07-27
Also published as: CN111817982A

Abstract

本发明公开了一种面向类别不平衡下的加密流量识别方法，步骤如下：S1、获取数据集；S2、平衡数据集：采用基于密度估计的改进SMOTE算法，对原始实验数据集进行处理；S3、数据预处理：读取数据流，截断数据，并进行归一化处理；S4、最优化特征集：通过变分自动编码器模型自动提取特征，通过网络流量来识别领域常用的特征，并利用基于树模型的特征选择法得到最优化特征集；S5、识别流量：将最优化特征集输入到基于遗传算法改进的随机森林CGA‑RF分类器算法，识别目的加密流量；S6、对获得的指标结果分析，优化加密流量识别方法。本发明识别率高，误报率低，适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

Description

一种面向类别不平衡下的加密流量识别方法

技术领域

本发明涉及加密流量识别领域，具体涉及一种面向类别不平衡下的加密流量识别方法。

背景技术

随着网络技术的快速发展，越来越多的网络应用都用加密协议来保证信息在网络中安全的传输，加密流量在现实的网络流量中占有越来越大比重。但是，由于加密流量的隐蔽性的特点往往成为网络攻击的载体，近年来网络安全事件愈演愈烈，究其原因网络安全问题尚没有得到足够的重视，网络攻击往往以加密的网络流量为载体不断攻击系统网络。现有以僵尸网络、高级持续性威胁、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵系统。一些恶意软件通过加密技术绕过防火墙和入侵检测系统，识别加密流量是异常流量检测的首要任务，恶意流量的有效识别事关网络安全，如果不能有效地检测异常入侵，就会时刻威胁着网络空间的安全，对加密流量的识别已经成为防御网络攻击的重点。因此，加密流量的有效识别对保护网络安全有重要意义，同时也是提升网络管理与安全监测水平和改善服务质量的基础。

网络安全的威胁越来越受到人们的关注，针对其的识别受到研究者的青睐。加密流量的识别目前方法主要有6类：基于端口的识别方法、基于深层数据包的识别方法、基于负载随机性的识别方法、基于主机行为的识别方法、基于机器学习的识别方法以及多种策略混合的识别方法。困内学者熊刚等人设计了基于主机行为的识别模型具有计算代价小、性能高等优势，实验证明该方法能有效地实现流量的精细化识别。Okada等人通过计算未加密流量与加密流量的相关性，从相关性角度选取29种未加密流量与加密流量强相关的特征输入机器学习方法算法识别加密流量，并取得了不错的效果，但是该方法选取特征多、计算量大，不能实现在线流量实时识别。学者赵博等人提出了基于加权累积和检验的时延自适应加密流量盲识别算法，实验证明该方法识别速度快，满足加密流量在线实时准确识别的要求。然而上述方法往往没有考虑网络流量存在不平衡的现象，现实网络中加密数据流相比其他数据流稀少得多，当一个样本的个数远大于或小于其他样本个数，就存在样本类别不平衡的问题。无论是浅层机器学习，还是深度学习，分类识别研究基础都是基于一种假设：各种网络应用流都是均匀分布在网络中，即网络数据流的应用类别是平衡的。然而，现实网络中各种加密应用数据流分布很不均衡，比如通过加密协议承载的音、视频流远大于即时通信、纯网页加密流等，SSH、IPsec等加密协议的数据流远远少于HTTPS协议。网络应用流类别不平衡是指数据集中存在的类别样本数量不均衡，通过训练，这些分类算法可能会忽略少数类别的流样本导致欠拟合，或重视少数类的差别造成过拟合，降低算法识别效果。

发明内容

本发明针对现有技术中的不足，提供一种在类别不平衡条件下的有效识别加密流量的方法。

为实现上述目的，本发明采用以下技术方案：一种面向类别不平衡下的加密流量识别方法，包括以下步骤：

S1、获取数据集：捕获网络数据流量，生成会话，通过五元组【源ip、目的ip、源端口、目的端口、协议类型】对网络数据流量过滤分流并获取原始实验数据集；

S2、平衡数据集：采用基于密度估计的改进SMOTE算法，对原始实验数据集进行处理；

S3、数据预处理：读取平衡数据集后的数据流，截断数据，并进行归一化处理；

S4、最优化特征集：通过变分自动编码器模型自动提取特征，通过网络流量来识别领域常用的特征，并利用基于树模型的特征选择法得到最优化特征集；

S5、识别流量：将最优化特征集输入到基于遗传算法改进的随机森林CGA-RF分类器算法，识别目的加密流量；

S6、对获得的指标结果分析，并选取参数，优化加密流量识别方法。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1包括：定义TCP流为以握手协议中的SYN标志位开始，并且以FIN标志位或以RST标志位结尾的TCP双向流。

进一步地，步骤S1包括：

定义UDP流为以第一个数据包到达为开始，如果两个数据包到达的时间间隔超过一分钟，则认为数据流结束，新数据流的开始。

进一步地，步骤S2为，基于密度估计的改进SMOTE算法，采用SN-SMOTE算法的领域计算策略，为少数类样本分配不同的领域参数。

进一步地，步骤S2具体包括以下步骤：

S21、分离原始实验数据集中的多数类和少数类的样本，分别在多数类和少数类样本上训练GMM模型，得到类内样本概率密度的信息；

S22、对少数类中的样本按照概率密度从大到小的顺序进行排列，并按照排序选取排在前面的类内样本个数*β₁个样本，β₁为比例参数，这部分样本则记为安全样本；

S23、将少数类中除安全样本外剩余的样本放在多数类的GMM模型中，计算得到剩余的样本在异类分布中的概率密度，并将概率密度按照从大到小的顺序进行排序；

S24、按照排序选取排在前面的类内样本个数*β₂个样本，β₂为比例参数，记为边界样本，剩下部分的样本则标记为离群样本；

S25、随机选取少数类中的一个样本作为主样本，并选取与其样本类型相对应的邻域参数进行计算，合成新样本，重复此过程直到数据集平衡。

进一步地，步骤S3具体包括以下步骤：

S31、读取平衡数据集后的数据流，判断数据流长度是否大于n个字节；

S32、若数据流长度大于等于n个字节，进行去除数据链路层和对UDP头部填充0；

S33、若长度小于n个字节，则进行对数据包填充0；

S34、对提取的数据进行归一化处理。

进一步地，步骤S5中CGA-RF分类器算法步骤包括：

S51、用训练集构建决策树，组成原始的决策树集合；

S52、从原始的决策树集合中筛选出性能较优的决策树，构成新的决策树集合；

S53、利用遗传算法重复步骤S52，直到得到最优的随机森林模型。

本发明的有益效果是：本发明通过基于密度估计的改进SMOTE算法，采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数，有效避免传统SMOTE算法易受噪声干扰、泛化能力差的问题，解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题。本发明融合变分自动编码器算法自动提取特征和网络流量识别领域常用特征的思想，并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集，有效地避免了由于特征冗余导致识别效率底的问题。本发明识别率高，误报率低，适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

附图说明

图1为本发明的类别不平衡下的加密流量识别模型整体流程图。

图2为本发明的数据流字节长度与准确率的关系示意图。

图3为本发明VAE模型隐层变量Z维度与准确率的关系示意图。

图4为本发明的改进SMOTE平衡数据集和传统SMOTE平衡数据集和不平衡数据集的实验准确率的结果图。

图5为本发明与对比实验指标精确率的结果对比图。

图6为本发明与对比实验指标召回率的结果对比图。

图7为本发明与对比实验指标F1-Measure的结果对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明提供了一种面向类别不平衡下的加密流量识别方法，针对样本数据集的类别不平衡性和特征提取困难和特征冗余的问题，通过基于密度估计的改进SMOTE算法平衡原始数据集，接着提取网络流量识别领域常用的特征并使用变分自动编码器模型自动提取特征，之后利用基于树模型的特征选择法得到对识别贡献度最大的特征集，最后输入CGA-RF分类器进行识别评估。

如图1所示，面向类别不平衡下的加密流量识别方法过程至少包括：获取数据集、平衡数据集、数据预处理、最优化特征集、识别流量和指标结果分析几个步骤。

获取数据集是用Wireshark软件抓取网络流量，生成会话，通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流，本发明实验判定条件是以握手协议中的SYN标志位开始，并且以FIN标志位或者RST标志位结尾的TCP双向流。对于UDP流，由于UDP协议设计特点不同于TCP协议有着显式的FIN结束标志，本发明则以第一个数据包到达为开始，如果两个数据包到达的时间间隔超过一分钟，则可认为数据流结束，意味着新数据流的开始。

平衡数据集就是实验采用基于密度估计的改进SMOTE算法对不平衡数据集进行处理。合成少数类过采样技术(Synthetic Minority Oversampling Technique，SMOTE)是一种基于随机过采样的改进算法，其避免了通过简单的复制过采样策略导致的模型过拟合、不具有泛化效果的缺陷。传统SMOTE算法基本思想是计算每个少数样本的欧氏距离，并利用K近邻思想随机选择若干个样本，然后随机的线性插值生成新的样本，从而增加少数样本进而平衡数据集，避免了模型的过拟合。传统的SMOTE算法采取随机选择K近邻中N个样本进行线性插值，或者采用随机选择K近邻中的N个样本并以一定概率选用样本点周围的点，原则是欧式距离越近，选用概率值越大，欧式距离越远则概率值越小，呈指数下降趋势。传统的SMOTE算法具体过程实现如下：

(1)设训练集的少数类的样本数为T，目标合成少数类到NT个新样本(N必须是正整数)，少数类的一个样本Xi，其特征向量为Xi，i∈{1，...，T}；

(2)在少数类的全部T个样本中用欧氏距离找到样本Xi的k个近邻，记为xi(near)，near∈{1，...，k}；

(3)这xi(near)中选择概率值最大的一个样本xi(nn)，再生成一个0到1之间的随机数ζ₁，从而合成一个新样本Xi₁，其中Xi₁＝Xi+ζ₁*(Xi(nn)-Xi)；

(4)将步骤(3)重复进行N次，从而可以合成N个新样本：Xi_new，new∈1，...，N；

(5)对全部的T个少数类样本进行(2)～(4)操作，即完成为少数类合成NT个新样本。

但是，SMOTE算法在合成少数类的过程中易受噪声和离群样本的影响，未考虑到样本先验分布信息的作用，对所有样本分配相同的参数，并且其存在不能改变原有样本分布的外围轮廓特征的可能，泛化能力较差。针对此，本发明提出基于密度估计的改进SMOTE算法，采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数，有效地提升算法的泛化性，同时降低了采样风险。

改进的SMOTE算法不再采取传统的SMOTE算法随机选择K近邻中N个样本进行线性插值，或者随机选择K近邻中的N个样本并以一定概率选用样本点周围的点。改进的SMOTE算法具体的领域计算策略是：在少数类样本中找到主样本的最近邻样本，其作为一近邻；找到少数类中距主样本和其一近邻连线中心点最近的样本，其作为二近邻；找到距离主样本点与其一、二两近邻所构成的三角形质心点最近的少数类样本，其作为三近邻；同样的，以此类推找到其全部的K近邻即可。之后，在主样本与其某个随机近邻的连线上随机生成新样本：

Xi_new＝Xi+ζ1*(Xi′-Xi)

式中，Xi_new代表生成的新样本，Xi代表主样本，Xi′代表主样本的某个随机近邻样本，ζ1代表0到1之间的随机数。

改进的SMOTE算法针对每类样本的特点分配个性化的SMOTE参数，不再是传统的对所有样本分配相同的参数。本发明主要思想根据少数类样本的概率密度分布特点，设置阈值把样本分为安全样本、边界样本和离群样本，其各自比重为α₁、α₂、α₃，并且有：

α₁+α₂+α₃＝1

本发明引入高斯混合模型(Gaussian Mixture Model，GMM)进行样本划分，根据少数类GMM模型计算样本的概率密度，确定对应于α₁比例的高概率密度样本，则为安全样本。之后把剩余的样本放入多数类GMM模型，对应参数α₂，选取其中概率密度较大的样本，则为边界样本。最后，对于剩下样本，则为离群样本。针对3种不同类型样本，本发明设置不同的SMOTE参数，对于安全样本，本发明取K＝6；对于边界样本，本发明取K＝3；对于离群样本，本发明取K＝1。

基于密度估计的改进SMOTE算法具体过程实现如下：

(1)将分离流量数据集中的多数类和少数类样本，分别在每类样本上训练GMM模型，得到类内样本概率密度的信息；

(2)对少数类中的样本按照概率密度从大到小的顺序进行排列，并按照排序选取排在前类内样本个数*β₁个样本，这部分样本则记为安全样本；

(3)将少数类中剩余样本放在多数类的GMM模型计算得到这些样本在异类分布中的概率密度，并按照从大到小的顺序进行排序；

(4)按照排序选取排在前类内样本个数*β₂个样本，这部分样本则记为边界样本，剩下部分的样本则标记为离群样本；

(5)随机选取少数类中的一个样本作为主样本，并选取与其样本类型相对应的邻域参数进行计算，合成新样本，重复此过程直到平衡数据集，一般来说，设定比值不大于10倍为平衡数据集。

数据预处理就是提取数据包负载，截断数据流前n个字节，不够n个字节数填充0。为了防止物理硬件对分类的影响，需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节，为了消除实验误差影响需要在UDP头部填充0。为了得到最佳算法识别效果，需要对提取的数据包字节进行归一化处理。

最优化特征集就是融合变分自动编码器(Variational Auto-Encoder，VAE)算法自动提取特征和网络流量识别领域常用特征的思想，并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集。VAE是深度学习领域常用的一个深度学习模型，通过学习样本的分布规律，训练出来的自编码不仅能重构样本，还具有仿照样本的功能。VAE区别于传统的自编码器，VAE有两个Encoder，其中计算方差的Encoder用来动态调节噪声的强度，另一个计算均值的Encoder通过不断优化均值为零让Encoder的结果能够对噪声有鲁棒性。Encoder编码后的隐藏变量Z通过Decoder还原成样本

找到原始样本x与生成样本

的最小损失函数，而训练模型中的隐层变量Z可代表样本的特征，非常适合用来识别网络中的加密流量。本发明采用网络流量识别领域常用流级特征，流级特征使用最广泛，特征信息大多位于传输层或网络层。数据流级的特征是从一段时间间隔内具有相同五元组(源IP地址、源端口、目的IP地址、目的端口、应用类别)信息的数据包的集合中提取。比如时间相关的流特征，如网络流的持续时间，以文件传输为主要目的FTP流，其持续时间就远大于以网页浏览为目的的Web流。因此从网络流特征的角度度量，可以有效地流识别网络中的加密流量。从属性易获取的角度出发，本发明提取了23项常用于加密识别的网络流属性，如数据包大小、时间戳等等。从机器学习角度出发，特征太少不能表现样本的特点，但过多的特征也会带来特征冗余的问题，会造成特征偏置降低分类的性能和效率。因此，本发明使用树模型中GBDT作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，训练基模型，选择权值系数较高的特征，最终得到对识别贡献度最大的特征集。

识别流量就是把最优化特征集输入基于遗传算法改进的随机森林CGA-RF分类器算法识别目的加密流量，通过交叉验证方式调试分类器参数，得到最优的分类器模型并决策评估。其中CGA-RF(Combine Genetic Algorithm random forest)算法主要流程如下：

(1)用训练集构建一定数量的决策树，组成原始的决策树集合；

(2)根据选择性集成的思路，从原始的决策树集合中筛选出性能较优的决策树，构成新的决策树集合；

(3)利用遗传算法迭代多次，直至损失函数最低，直到收敛，得到最优的随机森林模型。

基于遗传算法改进的随机森林CGA-RF分类器算法避免了由于个体学习器之间的差异性减少，从而使得集成模型的效果下降，更有利于加密流量的识别效果。

指标结果分析就是对实验结果得到的指标结果进行分析，并选取合适的参数，优化算法，提高识别率。

如图2所示，数据流字节长度的观察窗口的大小对模型的识别率有很大的影响。在数据流字节长度小于1000时，本发明实验识别模型平均准确率与截取的数据流字节长度呈正比例关系，从统计学的角度上因为数据量不足不能充分反映样本的特点，局限性太大。当数据流字节长度为1000时平均准确率最高达到98.4％，之后两者的呈振荡关系上下浮动，考虑到模型时间效率和计算机的资源开销，本发明实验选择数据流字节长度为1000个能达到最理想状况。

如图3所示，隐层变量Z的维度同样影响着识别模型的准确率，隐层变量Z的维度为2时，模型的准确率95.5％，其特征维度较小不能充分反映待测样本的特点。随着隐层变量Z的维度增加到6时模型有最高的准确率98.6％，之后随着隐层变量Z的维度的增大准确率下降，可见本发明识别模型的隐层变量Z观察窗口大小设置为6时具有最好的实验效果。

如图4所示，可以看出类别不平衡数据集下的识别准确率仅有82.7％，使用传统SMOTE算法平衡数据集的准确率93.2％，本发明基于概率密度改进的SMOTE算法具有明显的提升识别效果，其识别准确率达98.3％以上，具有良好的识别效果。这是由于在训练模型时，类别不平衡的样本会导致算法重视少数类的差别造成过拟合或者因为少数类别样本太少学习能力不足造成欠拟合的现象，实验效果不佳，而本发明采用SN-SMOTE算法的领域计算策略并更合理的为少数类样本分配不同的领域参数，有效避免传统SMOTE算法易受噪声干扰、泛化能力差的问题，有着良好的实验效果。

如图5-7所示，为了测试并对比本发明方法加密流量识别性能，本发明选择最基本的深度学习模型MLP进行对比实验。其中设计的MLP模型采用1个输入层，784个神经元；2个隐藏层，分别为256和64个神经元，激活函数为ReLU，1个输出层，具有16个神经元，激活函数为Softmax。由实验结果图可以看出，由于MLP为基本的深度学习模型，其训练过程相对简单，实验平均的精确率、召回率和F1-Measure仅有95.2％、94.7％和94.9％。本发明模型融合变分自动编码器算法自动提取特征和网络流量识别领域常用特征的思想，并通过引入基于树模型的特征选择法得到对识别贡献度最大的特征集，模型平均的精确率、召回率和F1-Measure达到了98.3％、97.8％和98.0％以上，本发明模型取得了良好的识别效果。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种面向类别不平衡下的加密流量识别方法，其特征在于，包括以下步骤：

S1、获取数据集：捕获网络数据流量，生成会话，通过五元组对网络数据流量过滤分流并获取原始实验数据集；

S2、平衡数据集：采用基于密度估计的改进SMOTE算法，对原始实验数据集进行处理；具体为：采用SN-SMOTE算法的邻域计算策略，为少数类样本分配不同的邻域参数；包括以下步骤：

S25、随机选取少数类中的一个样本作为主样本，并选取与其样本类型相对应的邻域参数进行计算，合成新样本，重复此过程直到数据集平衡；

S4、最优化特征集：通过变分自动编码器模型自动提取特征，以及提取网络流量识别领域常用的流级特征，并利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集；所述利用基于树模型的特征选择法从上述两种特征中得到对识别贡献度最大的特征集作为最优化特征集具体包括以下步骤：

S41、使用树模型中的GBDT作为基模型进行特征选择；

S42、使用feature_selection库的SelectFromModel类结合GBDT模型，训练基模型；

S43、选择权值系数较高的特征得到最优化特征集；

S5、识别流量：将最优化特征集输入到结合遗传算法的随机森林CGA-RF分类器算法，识别目的加密流量；所述CGA-RF分类器算法具体为：

S51、用训练集构建决策树，组成原始的决策树集合；

S53、利用遗传算法重复步骤S52，直到得到最优的随机森林模型；

2.根据权利要求1所述的面向类别不平衡下的加密流量识别方法，其特征在于，步骤S1包括：定义TCP流为以握手协议中的SYN标志位开始，并且以FIN标志位或以RST标志位结尾的TCP双向流。

3.根据权利要求1所述的面向类别不平衡下的加密流量识别方法，其特征在于，步骤S1包括：

4.根据权利要求1所述的面向类别不平衡下的加密流量识别方法，其特征在于，步骤S3具体包括以下步骤：

S33、若长度小于n个字节，则进行对数据包填充0；

S34、对提取的数据进行归一化处理。