CN111385145B

CN111385145B - 一种基于集成学习的加密流量识别方法

Info

Publication number: CN111385145B
Application number: CN202010143787.2A
Authority: CN
Inventors: 翟江涛; 崔永富; 林鹏; 吉小鹏; 石怀峰; 张艳艳; 付章杰
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-04-25
Anticipated expiration: 2040-03-04
Also published as: CN111385145A

Abstract

本发明公开了一种一种基于集成学习的加密流量识别方法，其特征在于，包括以下步骤：(1)数据集采集；(2)数据预处理；(3)平衡数据集；(4)自动提取特征；(5)识别流量；(6)对获得的指标结果分析，并选取合适的参数，优化算法。本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题，识别率高，误报率低，适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

Description

一种基于集成学习的加密流量识别方法

技术领域

本发明涉及一种基于集成学习加密流量识别方法。

背景技术

流量分类与识别是提升网络管理与安全监测水平，改善服务质量的基础，也是网络设计与规划等网络行为的前提。随着网络技术的快速发展，越来越多的网络应用都用加密协议来保证信息在网络中安全的传输，加密流量在现实的网络流量中占有越来越大比重。但是由于加密流量的隐蔽性的特点往往成为网络攻击的载体，近年来网络安全事件愈演愈烈，究其原因网络安全问题尚没有得到足够的重视，网络攻击往往以加密的网络流量为载体不断攻击系统网络。现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵系统。由于加密流量的隐蔽性的特点往往成为网络攻击的载体，一些恶意软件通过加密技术绕过防火墙和入侵检测系统，识别加密流量是异常流量检测的首要任务，恶意流量的有效识别事关网络安全，如果不能有效地检测异常入侵，就会时刻威胁着网络空间的安全，对加密流量的识别已经成为防御网络攻击的重点。

网络安全的威胁越来越受到人们的关注，针对其的识别受到研究者的青睐。加密流量的识别目前方法主要有6类：基于有效负载特征字段匹配的识别方法、基于机器学习的方法、基于主机行为的识别方法、基于数据分组分布的方法、基于负载随机性的方法以及多种策略结合的方法(PAN Wubin,CHENG Guang,GUO Xiaojun,et al.Review andperspective on encrypted traffic identification research[J]. Journal ofSoftware,2016,37(9):154-167.)。剑桥大学Moore等人提出了一种基于特征字段匹配的识别模型，其方法通过对数据包网络协议特征的匹配，能有效地识别各类流量，但最大的缺陷无法识别协议交互阶段加密数据和私有协议(Moore AW,Papagiannaki K.Toward theaccurate identification of network applications[C]. International Conferenceon Passive and Active etwork Measurement,2005:41-54.)。赵博等人提出了一种基于加权累积和检验的时延自适应加密流量盲识别算法，利用加密数据的随机性特点，实现对加密流量的有效识别(ZHAO Bo,GUO Hong, LIU Qinrang,etal.Protocol independentidentification of encrypted traffic based on weighted cumulative sum test[J].Journal of Software,2013,24(6):1334-1345)。Meng Shen等人利用SSL/TLS协议会话证书包的长度和第一个应用程序数据的大小，提出一种基于二阶马尔科夫链的SOB模型，实验表明该方法能有效区别加密流量 (HEN Meng,WEI Mingwei,ZHU Liehuang,etal.Classification of Encrypted Traffic With Second-Order Markov Chains andApplication Attribute Bigrams[J].IEEE Tranlations on Information Forensicsand Security,2017,12(8):1830-1843.)。然而上述方法往往没有考虑网络流量存在不平衡的现象，现实网络中加密数据流相比其他数据流稀少得多，存在样本类别不平衡的问题。无论是浅层机器学习，还是深度学习，分类识别研究基础都是基于一种假设：各种网络应用流都是均匀分布在网络中，即网络数据流的应用类别是平衡的。然而，现实网络中各种加密应用数据流分布很不均衡，比如通过加密协议承载的音、视频流远大于即时通信、纯网页加密流等，SSH、IPsec等加密协议的数据流远远少于HTTPS协议。网络应用流类别不平衡是指数据集中存在的类别样本数量不均衡，通过训练，这些分类算法可能会忽略少数类别的流样本导致欠拟合，或重视少数类的差别造成过拟合。

发明内容

发明目的：本发明旨在提供一种在类别不平衡条件下的一种基于集成学习加密流量识别方法。

技术方案：本发明的基于集成学习的加密流量识别方法，包括以下步骤：

(1)数据集采集：抓取网络流量，生成会话，通过五元组对流量过滤分流获取原始实验数据集；

(2)数据预处理：读取数据流，截断数据，并进行归一化处理；

(3)平衡数据集：采用SMOTE算法，以一定概率选用样本点周围的点，对不平衡数据集进行处理；

(4)自动提取特征：利用堆栈式自动编码器模型自动提取特征；

(5)识别流量：将自动提取的特征输入集成学习算法识别目的加密流量。

有益效果：与现有技术相比，本发明具有如下显著优点：本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题，识别率高，误报率低，适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

附图说明

图1为本发明的加密流量识别模型整体流程图；

图2为本发明数据预处理流程图；

图3为本发明数据流字节长度与精确率的关系图；

图4为本发明隐层变量Z维度与精确率的关系图；

图5为本发明算法的损失率变化曲线图；

图6为本发明的不平衡数据集和不平衡数据集实验精确率的结果图；

图7为本发明实验指标精确率、召回率和F1-Measure的结果图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明提供了一种基于集成学习加密流量识别方法，针对样本数据集的类别不平衡性和特征提取困难和特征冗余的问题，通过SMOTE算法平衡原始数据集，提取数据包负载，并使用堆栈式自动编码器模型自动提取特征，最后输入基于集成学习的分类器进行分类评估。

如图1所示，基于集成学习加密流量识别方法过程至少包括：数据集采集、数据预处理、平衡数据集、自动提取特征、识别流量和指标结果分析几个步骤。

数据集采集是用Wireshark抓取网络流量，生成会话，通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流，本发明实验取从发起连接的三次握手的SYN包开始，到断开连接的FIN包或RST包为结束。对于UDP流，以第一个数据包的到达为开始，如果两个数据包到达的时间间隔超过60s，则认为数据流结束。

数据预处理就是提取数据包负载，截断数据流前n个字节，不够n个字节数填充0。为了防止物理硬件对分类的影响，需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节，为了消除实验误差影响需要在UDP头部填充0。为了得到最佳算法分类效果，需要对提取的数据包字节进行归一化处理。

如图3所示，数据流字节长度的观察窗口的大小对模型的识别率有很大的影响。本发明的识别模型刚开始的平均准确率与截取的数据流字节长度呈正比例关系，当截取的数据流字节长度较少时模型的准确率偏低，从统计学的角度上因为数据量不足不能充分反映样本的特点，局限性太大。当数据流字节长度为1000 时平均准确率最高达到95.63％，之后两者的呈振荡关系上下浮动，考虑到模型时间效率和计算机的资源开销，本发明选择数据流字节长度为1000个能达到最理想状况。

平衡数据集就是实验采用SMOTE算法对不平衡数据集进行处理。平衡数据采用SMOTE算法平衡数据集，SMOTE(Synthetic Minority Oversampling Technique)，合成少数类过采样技术,是一种基于随机过采样的改进算法，其避免了通过简单的复制过采样策略导致的模型过拟合、不具有泛化效果的缺陷。 SMOTE算法基本思想是计算每个少数样本的欧氏距离，并利用K近邻思想随机选择若干个样本，然后随机的线性插值生成新的样本，从而增加少数样本进而平衡数据集，避免了模型的过拟合，并具有良好的泛化作用。传统的SMOTE算法采取随机选择K近邻中N个样本进行线性插值，其存在不能改变原有样本分布的外围轮廓特征的可能。本发明实验不再采取SMOTE算法中的随机选择K近邻中的N个样本，而是以一定概率也选用样本点周围的点，原则是欧式距离越近，选用概率值越大，欧式距离越远则概率值越小，呈指数下降趋势。具体算法过程实现如下：

(1)设训练集的少数类的样本数为T，目标合成少数类到NT个新样本(N 必须是正整数)，少数类的一个样本的特征向量为X_i,i∈{1,...,T}；

(2)在少数类的全部T个样本中用欧氏距离找到样本X_i的k个近邻，记为x_i(near),near∈{1,...,k}；

(3)这xi(near)中选择概率值最大的一个样本x_i(nn)，再生成一个0到1之间的随机数ζ₁，从而合成一个新样本X_i1，其中X_i1＝X_i+ζ₁*(X_i(nn)-X_i)；

(4)将步骤(3)重复进行N次，从而可以合成N个新样本：X_inew,new∈ 1,...,N；

(5)对全部的T个少数类样本进行(2)～(4)操作，即完成为少数类合成NT个新样本。

自动提取特征就是利用堆栈式自动编码器模型自动提取特征。堆栈式自动编码器(Stacked AutoEncoder，SAE)是深度学习领域常用的一个深度学习模型，由多个自动编码器堆叠而成，其目的是为了逐层提取输入数据的高阶特征，常被称为逐层贪婪训练学习过程，在此过程中逐层降低输入数据的维度，将一个复杂的输入数据转化成了一个系列简单的高阶特征，然后再把这些高阶特征输入一个分类器进行分类。SAE的训练过程主要分为以下4步：

(1)给定初始输入X，采用无监督方式训练第一层自动编码器V，输出为Y，设定输入X和输出Y的损失函数，最小化损失函数以减少重构误差达到设定值；

(2)将第一个自动编码器隐含层的输出Y作为第二个自动编码器的输入，采用以上同样的方法训练自动编码器Z；

(3)重复步骤(2)直到初始化完成所有自动编码器；

(4)将最后一个SAE的隐含层输出作为分类器的输入，然后采用有监督的方法训练分类器的参数。

如图4所示，隐层变量Z的维度同样影响着识别模型的准确率，隐层变量Z 的维度为2时，模型的准确率93.50％，其特征维度较小不能充分反映待测样本的特点。随着隐层变量Z的维度增加到6时模型准确率最高，之后随着隐层变量Z 的维度的增大准确率下降，可见本发明识别模型的隐层变量Z观察窗口大小设置为6时具有最好的实验效果。

识别流量就是把自动提取的特征输入集成学习算法识别目的加密流量。识别流量步骤将自动提取的特征由集成学习算法训练，就是把特征输入二级分类器 Kmeans聚类从而缩小问题规模，并对聚类不纯净的簇其内部进一步使用基于遗传算法改进的随机森林CGA-RF分类器进行分类。通过交叉验证方式调试分类器参数，得到最优的分类器模型并决策评估。其中CGA-RF算法主要流程如下：

首先，用训练集构建一定数量的决策树，组成原始的决策树集合。然后，根据选择性集成的思路，从原始的决策树集合中筛选出性能较优的决策树，构成新的决策树集合。最后，利用遗传算法迭代多次得到最优的随机森林模型，其避免了由于个体学习器之间的差异性减少，从而使得集成模型的效果下降，更有利于加密流量的识别效果。

指标结果分析就是对实验结果得到的指标结果进行分析，并选取合适的参数，优化算法，提高识别率。

如图5所示，从图中可以看出在400个训练周期中，本发明模型在训练的前 10轮损失率迅速下降，之后则损失率持续下降最终趋于稳定，并且本发明的识别模型具有较快的收敛速度。

如图6所示，可以看出使用SMOTE算法平衡数据集具有明显的提升识别效果，类别不平衡数据集下的识别准确率仅有87.15％，已平衡数据集具有良好的识别效果，其识别准确率达95.55％以上。这是由于在训练模型时，类别不平衡的样本会导致算法重视少数类的差别造成过拟合或者因为少数类别样本太少学习能力不足造成欠拟合的现象，模型没有良好的泛化能力。

如图7所示，本发明模型平均的精确率、召回率和F1-Measure达到了95.84％、90.35％和91.12％以上，算法取得了良好的识别效果。

Claims

1.一种基于集成学习的加密流量识别方法，其特征在于，包括以下步骤：

(3)平衡数据集：采用SMOTE算法，以一定概率选用样本点周围的点，对不平衡数据集进行处理，其中，选点原则为欧式距离越近，选用概率值越大，欧式距离越远则概率值越小，呈指数下降趋势，具体包含以下步骤：

(31)设训练集的少数类的样本数为T，目标合成少数类到NT个新样本，N为正整数，少数类的一个样本的特征向量为X_i，i∈{1,...,T}；

(32)在少数类的全部T个样本中用欧氏距离找到样本X_i的k个近邻，记为x_i(near)，near∈{1,...,k}；

(33)这x_i(near)中选择概率值最大的一个样本x_i(nn)，再生成一个0到1之间的随机数ζ₁，从而合成一个新样本X_i1，其中X_i1＝X_i+ζ₁*(X_i(nn)-X_i)；

(34)将步骤(33)重复进行N次，从而可以合成N个新样本：X_i(new)，new∈1,...,N；

(35)对全部的T个少数类样本进行步骤(32)～(34)操作，完成为少数类合成NT个新样本；

(5)识别流量：将自动提取的特征输入集成学习算法识别目的加密流量；即将特征输入二级分类器Kmeans聚类，并对聚类不纯净的簇其内部使用基于遗传算法改进的随机森林CGA-RF分类器进行分类，通过交叉验证方式调试分类器参数，得到最优的分类器模型并决策评估，其中CGA-RF算法包含以下步骤：

(51)用训练集构建一定数量的决策树，组成原始的决策树集合；

(52)根据选择性集成的思路，从原始的决策树集合中筛选出性能较优的决策树，构成新的决策树集合；

(53)利用遗传算法迭代多次得到最优的随机森林模型。

2.根据权利要求1所述的基于集成学习的加密流量识别方法，其特征在于，所述步骤(1)具体为：其中对于TCP流，从发起连接的三次握手的SYN包开始，到断开连接的FIN包或RST包为结束；对于UDP流，以第一个数据包的到达为开始，如果两个数据包到达的时间间隔超过60s，则认为数据流结束。

3.根据权利要求1所述的基于集成学习的加密流量识别方法，其特征在于，所述步骤(2)具体为：

(21)读取数据流，判断数据流长度是否大于n个字节；

(22)若长度大于等于n个字节，进行去除数据链路层和UDP头部填充0的操作；

(23)若长度小于n个字节进行数据包填充0的操作；

(24)对提取的数据进行归一化处理。

4.根据权利要求1所述的基于集成学习的加密流量识别方法，其特征在于，所述步骤(4)具体包括以下步骤：

(41)给定初始输入X，采用无监督方式训练第一层自动编码器V，输出为Y，设定输入X和输出Y的损失函数，即重构误差，并获得最小化重构误差；

(42)将第一层自动编码器隐含层的输出Y作为第二个自动编码器的输入，采用以上同样的方法训练自动编码器Z；

(43)重复(42)直到初始化完成所有自动编码器；

(44)将最后一个堆栈式自动编码器的隐含层输出作为分类器的输入，然后采用有监督的方法训练分类器的参数。