CN115174170B

CN115174170B - 一种基于集成学习的vpn加密流量识别方法

Info

Publication number: CN115174170B
Application number: CN202210717842.3A
Authority: CN
Inventors: 曹杰; 袁星亮; 曲楠; 张加新; 王启明
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2023-05-09
Anticipated expiration: 2042-06-23
Also published as: CN115174170A

Abstract

本发明是一种基于集成学习的VPN加密流量识别方法，其特点是，包括：针对VPN加密流量数据特征冗余问题，采用基于最大相关最小冗余的VPN加密流量特征选择方法；针对VPN加密流量数据存在的类别不平衡问题，构建VPN加密流量FL‑XGB识别模型，采用Focal Loss函数对Xgboost集成学习模型进行改进，平衡难易样本的比例不均；为了进一步提高模型对VPN加密流量的识别性能，提出VPN加密流量识别模型优化方法，对VPN加密流量FL‑XGB识别模型进行改进。该方法科学合理，准确性较高，可适用于VPN加密流量的识别问题，对维护网络安全具有一定实用意义。

Description

一种基于集成学习的VPN加密流量识别方法

技术领域

本发明涉及网络安全领域，是一种基于集成学习的VPN加密流量识别方法。

背景技术

在网络安全领域，流量识别作为网络服务质量的重要优化技术手段之一，它把流量分成若干个优先级或若干个类别，代表了对恶意使用网络资源等异常活动进行检测的第一步。近年来，为了避免不法分子通过窥探公民上网数据窃取用户个人信息和财产，广泛采用加密技术对网络流量进行加密，己成为当今网络应用的标准实现。然而，这一做法致使当前的网络环境透明度降低和流量管控难度增加。很多黑客在实施网络恶意活动时，都会传递传输一定数量的异常流量，这种异常流量常被防火墙和异常流量识别系统发现并拦截，而虚拟专用网(Virtual Private Network，VPN)就是一种规避这些网络安全防护的技术。通过使用VPN的加密技术和通道的伪装能力，绕过网络安全设备的检查。加密流量的识别给当前的流量识别技术提出了极大挑战。VPN加密流量数据中包含大量信息，通过对VPN加密流量进行识别，即识别出使用不同加密协议的应用程序服务，然后根据当前的网络状况部署相应的策略，从而更好地管理网络环境并提供个性化服务。VPN加密流量识别是实现网络流量态势感知的重要条件之一，因此，VPN加密流量的高效识别对检测恶意网络行为，对维护网络安全和增强网络应急响应能力具有一定的积极意义。

目前，机器学习方法在诸多领域已经取得广泛应用，对于网络安全中的加密流量识别的应用也很多。机器学习可以通过使用分类器来解决对于加密流量识别的难点。但是传统的机器学习方法在处理不平衡或嘈杂的复杂数据时可能无法获得令人满意的性能。原因是很难捕获数据的多个特征和基础结构。而在机器学习方法中，集成学习可以将数据融合，数据建模和数据挖掘集成到一个统一的框架中。集成学习模型能处理具有高维特征的数据，解决特征冗余问题，集成学习还支持使用一些损失函数，对异常数据的鲁棒性非常强。因此，本发明拟采用集成学习框架对VPN加密流量进行识别，解决以往加密流量识别难的问题，对检测恶意网络行为和维护网络安全具有积极意义。

发明内容

本发明的目的是，克服现有技术的不足，首先针对VPN加密流量数据特征冗余问题，采用基于最大相关最小冗余的特征选择方法对VPN加密流量进行特征筛选，剔除不相关或冗余的特征；其次，针对VPN加密流量数据存在的类别不平衡问题，构建VPN加密流量FL-XGB识别模型，采用焦点损失函数(Focal Loss)对极度梯度提升树(XGBoost)集成学习模型进行改进，平衡难易样本的比例不均；最后，为了进一步提高模型对VPN加密流量的识别性能，提出VPN加密流量识别模型优化方法，通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性，对VPN加密流量FL-XGB识别模型进行改进。

实现本发明目的采用的技术方案是：一种基于集成学习的VPN加密流量识别方法，其特征是，它包括以下内容：

1)提出一种VPN加密流量特征选择方法；采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选，剔除不相关或冗余的特征，得到最优的Time-RelatedVPN加密流量特征集；mRMR算法对VPN加密流量进行特征选择的步骤为：

步骤1：初始化特征集合S为空，输入包含特征集合F和类别集合C的训练数据集；

步骤2：数据集包含N维特征，通过N次迭代循环得到排序后的特征列表；在每一次迭代中，挑选一个特征；将挑选一个特征与其他的特征相比，所述挑选一个特征和类别有最大相关性，同时和其他已挑选出的特征有最小的冗余性；设F是包含N维特征的集合，S是包含己选择特征的集合；

对于待选的特征集中的每一个特征F_i，计算所有特征组成的特征集合F与样本类别集合C的相关性，其中，待选的特征F_i与类别集合C的相关性为I(F_i,c)；D表示待选的特征与类别的相关性，D越大，则特征与类别的相关性越高；相关性D的计算方式为公式(1)；

其中，互信息是对信息进行度量的方法，表示随机变量与其他变量Y有关的信息量；设变量X的边缘概率密度函数为P(x)，Y的边缘概率密度函数为P(y)，则联合概率密度函数为P(x，y)，互信息值I(x,y)的计算为公式(2)；

步骤3：计算特征间的冗余性R，集合F中特征的冗余是特征F_i与F_j的平均互信息值，冗余性R的计算为公式(3)；

公式(3)中，I(F_i,F_j)表示第i个特征与第j个特征的互信息值；R越大表示两个特征之间的冗余度越高；

步骤4：计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4)，并将其存入特征集合S中；其中，D表示特征与类别的最大相关性，R表示特征间的最小冗余度；

f＝max{D-R} (4)

步骤5：判断算法是否满足停止条件，即特征集合F-S是否为空，即判断集合S与F中所包含的特征是否相同，如果是则跳出循环，否则重复步骤3；循环结束后，得到按照特征重要性降序排列的集合S＝[F₁,F₂,...,F_N]；

步骤6：使用逐次特征选取法选取集合S＝[F₁,F₂,...,F_N]中的特征，得到最优特征子集S_m；

2)提出一种基于集成学习的VPN加密流量识别模型；包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分：

①VPN加密流量识别模型构建

在XGBoost模型中，对样本i＝1,2，...n，t是第t棵树，y_i表示第i个样本x_i的预测值，f_t是第t棵树模型，

表示进行t次迭代之后模型的预测效果为公式(5)；

Ω(f_t)表示函数加入了正则化项，此时，XGBoost的目标函数λ^(t)为公式(6)；

公式中y_i，

都已知，模型要学习的只有第t棵树f_t，然后将损失函数在

处进行二阶泰勒展开如公式(7)；

其中，第i个样本在第t个弱学习器的一阶和二阶导数分别为

然后将公式中的常数项去除后，得到最终损失函数的表示结果如公式(8)；

基于XGBoost支持自定义损失函数的特点，在交叉熵损失函数的基础上进行改进，对VPN的加密流量的类别不平衡进行修正，同时不改变原始数据集合分布情况；

②基于Focal Loss的XGBoost模型改进方法

使用基础XGBoost集成学习模型，对不平衡的VPN加密流量数据进行识别时，存在类别不平衡问题；各类训练数据不是均匀分布的，采用Focal Loss函数改进XGBoost模型，基于交叉熵的损失函数，改进模型的损失函数，使难易样本自身的比例不均匀得到相对平衡，从而能够解决训练时数据不平衡问题；Focal Loss函数是在目标检测中提出的，解决难易样本类别的不平衡问题；在交叉熵损失函数前引入参数平衡系数γ，平衡难易样本的比例不平衡；γ可以调整简单样本的权重下降速度，在γ为0时，是交叉熵损耗函数，γ增大时，调整系数的作用增大；

Focal Loss函数为公式(9)；

FL(p_t)＝-(1-p_t)^γlog(p_t) (9)

其中，γ为聚焦参数，用于聚焦难识别样本，p_t为类别的识别概率；(1-p_t)^γ为公式(9)的权重；设置γ＝2，当p_t的值接近1时，(1-p_t)²接近0，此时的识别越准确；当p_t接近0时，(1-p_t)²接近1,此时识别结果越不准确；

3)提出一种VPN加密流量识别模型的优化方法；使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略，寻找组合参数的目标函数最优值；

贝叶斯优化算法是基于贝叶斯定理表示为公式(10)；

公式(10)中，f表示目标函数或参数模型中的参数，D_1:t＝{(x₁,y₁),(x₂,y₂),…,(x_t,y_t)}表示已评价点的集合，x_t表示决策向量，y_t＝f(x_t)+ε表示观测值，ε表示观测误差，p(D_1:t|f)表示y的似然分布，p(D_1:t)表示f的边际似然分布，p(f)表示f的先验概率，p(f|D_1:t)表示f的后验概率，后验概率分布是由已评估点集对先验变量进行校正后，未知的目标函数或参数模型参数的置信程度；贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合，并利用采集函数进行下一次评估；高斯过程是贝叶斯优化中广泛应用的概率代理模型；高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化，如公式(11)；

y～gp(μ_t(x),k(x,x’)) (11)

公式(11)中，μ_t(x)表示均值函数，k(x,x’)表示协方差函数；当对一组离散数据对(x_t,y_t)的函数进行高斯拟合时，将m(x)设定为0，k(x,x^’)使用Matern协方差函数，如公式(12)；

式(12)中，r表示x和x’的欧拉距离，σ_f表示特征偏差，σ_l表示特征长度，σ_f和σ_l在高斯拟合时会自动改变，σ_l的初始数值是x_i的标准差，σ_f初始数值是y_i的标准差除以

贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数，如公式(13)；

公式(13)中，α_t(x；D_1:t)表示采集函数，v^*表示当前最优函数值，

表示标准正态分布累积密度函数，μ_t(x)表示均值，σ_t(x)表示方差；采集函数选用基于置信区间策略即直接比较置信区间的最大值，根据置信区间的下一个极值点的位置如公式(14)；

μ_t(x)和σ_t(x)分别为高斯求解过程中的目标函数均值和标准差，

表示用来确定平衡探索和开发的常数。

本发明一种基于集成学习的VPN加密流量识别方法的有益效果体现在：

首先基于Time-Related VPN加密流量存在冗余特征的问题，采用mRMR特征选择方法对VPN加密流量进行特征筛选，得到最优的Time-Related VPN加密流量特征集；其次，基于VPN加密流量中仍然存在的类别不平衡问题，提出一种基于集成学习的VPN加密流量识别模型；该模型在不改变原始数据分布情况的基础上，实现了对数据类别之间的不平衡处理；最后，为了进一步提高模型对VPN加密流量的识别精度，提出一种VPN加密流量识别模型的优化方法；通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性，从而显著提高FL-XGB VPN加密流量识别模型的识别精度。该方法科学合理，实用性强。

附图说明

图1为本发明的一种基于集成学习的VPN加密流量识别方法的总体框架图；

图2为VPN加密流量特征选择方法图；

图3为基于集成学习的VPN加密流量识别模型图；

图4为交叉熵损失函数和Focal Loss函数性能对比图；

图5为VPN加密流量识别模型的优化方法流程图；

图6为VPN加密流量识别ROC曲线图。

具体实施方式

下面利用附图和实施案例对本发明的一种基于集成学习的VPN加密流量识别方法进行详细说明。

参照图1，本发明的一种基于集成学习的VPN加密流量识别方法，包括以下步骤：

1)参照图2所示，提出一种VPN加密流量特征选择方法；采用一阶增量搜索方法分析Time-Related VPN加密流量特征之间的相关性，计算特征之间相关系数及其重要性排序；再对VPN流量进行mRMR特征筛选，剔除不相关或冗余特征，得到最优的Time-RelatedVPN加密流量特征子集；

2)参照图3所示，提出一种基于集成学习的VPN加密流量识别模型；聚焦难分类的不平衡VPN流量样本.在交叉熵损失函数基础上设计Focal Loss函数对XGBoost模型进行改进，改变对VPN流量样本的计算权重；得到基于FL_XGB的VPN加密流量识别模型，实现数据类别之间数据不平衡处理；参照图4所示，比较FL-XGB模型中的Focal Loss损失函数和原始数据下的交叉熵损失函数性能；

3)参照图5所示，提出一种VPN加密流量识别模型的优化方法；给定优化的目标函数结合贝叶斯优化实现全局参数搜索策略；通过不断地添加样本点来更新目标函数的后验分布，寻找组合参数的目标函数的最优值；将优化后的全局最优参数组合输入FL-XGB模型进行训练，解决VPN加密流量识别模型识别精度低的问题，最后输出识别结果，参照图6所示；

本发明的一种基于集成学习的VPN加密流量识别方法，包括以下步骤：

f＝max{D-R} (4)

4)提出一种基于集成学习的VPN加密流量识别模型；包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分：