CN115174170B - 一种基于集成学习的vpn加密流量识别方法 - Google Patents

一种基于集成学习的vpn加密流量识别方法 Download PDF

Info

Publication number
CN115174170B
CN115174170B CN202210717842.3A CN202210717842A CN115174170B CN 115174170 B CN115174170 B CN 115174170B CN 202210717842 A CN202210717842 A CN 202210717842A CN 115174170 B CN115174170 B CN 115174170B
Authority
CN
China
Prior art keywords
feature
function
vpn
model
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210717842.3A
Other languages
English (en)
Other versions
CN115174170A (zh
Inventor
曹杰
袁星亮
曲楠
张加新
王启明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN202210717842.3A priority Critical patent/CN115174170B/zh
Publication of CN115174170A publication Critical patent/CN115174170A/zh
Application granted granted Critical
Publication of CN115174170B publication Critical patent/CN115174170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4641Virtual LANs, VLANs, e.g. virtual private networks [VPN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明是一种基于集成学习的VPN加密流量识别方法,其特点是,包括:针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的VPN加密流量特征选择方法;针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL‑XGB识别模型,采用Focal Loss函数对Xgboost集成学习模型进行改进,平衡难易样本的比例不均;为了进一步提高模型对VPN加密流量的识别性能,提出VPN加密流量识别模型优化方法,对VPN加密流量FL‑XGB识别模型进行改进。该方法科学合理,准确性较高,可适用于VPN加密流量的识别问题,对维护网络安全具有一定实用意义。

Description

一种基于集成学习的VPN加密流量识别方法
技术领域
本发明涉及网络安全领域,是一种基于集成学习的VPN加密流量识别方法。
背景技术
在网络安全领域,流量识别作为网络服务质量的重要优化技术手段之一,它把流量分成若干个优先级或若干个类别,代表了对恶意使用网络资源等异常活动进行检测的第一步。近年来,为了避免不法分子通过窥探公民上网数据窃取用户个人信息和财产,广泛采用加密技术对网络流量进行加密,己成为当今网络应用的标准实现。然而,这一做法致使当前的网络环境透明度降低和流量管控难度增加。很多黑客在实施网络恶意活动时,都会传递传输一定数量的异常流量,这种异常流量常被防火墙和异常流量识别系统发现并拦截,而虚拟专用网(Virtual Private Network,VPN)就是一种规避这些网络安全防护的技术。通过使用VPN的加密技术和通道的伪装能力,绕过网络安全设备的检查。加密流量的识别给当前的流量识别技术提出了极大挑战。VPN加密流量数据中包含大量信息,通过对VPN加密流量进行识别,即识别出使用不同加密协议的应用程序服务,然后根据当前的网络状况部署相应的策略,从而更好地管理网络环境并提供个性化服务。VPN加密流量识别是实现网络流量态势感知的重要条件之一,因此,VPN加密流量的高效识别对检测恶意网络行为,对维护网络安全和增强网络应急响应能力具有一定的积极意义。
目前,机器学习方法在诸多领域已经取得广泛应用,对于网络安全中的加密流量识别的应用也很多。机器学习可以通过使用分类器来解决对于加密流量识别的难点。但是传统的机器学习方法在处理不平衡或嘈杂的复杂数据时可能无法获得令人满意的性能。原因是很难捕获数据的多个特征和基础结构。而在机器学习方法中,集成学习可以将数据融合,数据建模和数据挖掘集成到一个统一的框架中。集成学习模型能处理具有高维特征的数据,解决特征冗余问题,集成学习还支持使用一些损失函数,对异常数据的鲁棒性非常强。因此,本发明拟采用集成学习框架对VPN加密流量进行识别,解决以往加密流量识别难的问题,对检测恶意网络行为和维护网络安全具有积极意义。
发明内容
本发明的目的是,克服现有技术的不足,首先针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征;其次,针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL-XGB识别模型,采用焦点损失函数(Focal Loss)对极度梯度提升树(XGBoost)集成学习模型进行改进,平衡难易样本的比例不均;最后,为了进一步提高模型对VPN加密流量的识别性能,提出VPN加密流量识别模型优化方法,通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性,对VPN加密流量FL-XGB识别模型进行改进。
实现本发明目的采用的技术方案是:一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-RelatedVPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
Figure BDA0003709377790000021
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
Figure BDA0003709377790000022
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
Figure BDA0003709377790000023
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R}                             (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm
2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
在XGBoost模型中,对样本i=1,2,...n,t是第t棵树,yi表示第i个样本xi的预测值,ft是第t棵树模型,
Figure BDA0003709377790000031
表示进行t次迭代之后模型的预测效果为公式(5);
Figure BDA0003709377790000032
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
Figure BDA0003709377790000033
公式中yi
Figure BDA0003709377790000034
都已知,模型要学习的只有第t棵树ft,然后将损失函数在
Figure BDA0003709377790000035
处进行二阶泰勒展开如公式(7);
Figure BDA0003709377790000036
其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为
Figure BDA0003709377790000037
Figure BDA0003709377790000038
然后将公式中的常数项去除后,得到最终损失函数的表示结果如公式(8);
Figure BDA0003709377790000039
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt)                           (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
3)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
Figure BDA0003709377790000041
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’))                            (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x)使用Matern协方差函数,如公式(12);
Figure BDA0003709377790000051
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以
Figure BDA0003709377790000052
贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
Figure BDA0003709377790000053
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,
Figure BDA0003709377790000054
表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
Figure BDA0003709377790000055
μt(x)和σt(x)分别为高斯求解过程中的目标函数均值和标准差,
Figure BDA0003709377790000056
表示用来确定平衡探索和开发的常数。
本发明一种基于集成学习的VPN加密流量识别方法的有益效果体现在:
首先基于Time-Related VPN加密流量存在冗余特征的问题,采用mRMR特征选择方法对VPN加密流量进行特征筛选,得到最优的Time-Related VPN加密流量特征集;其次,基于VPN加密流量中仍然存在的类别不平衡问题,提出一种基于集成学习的VPN加密流量识别模型;该模型在不改变原始数据分布情况的基础上,实现了对数据类别之间的不平衡处理;最后,为了进一步提高模型对VPN加密流量的识别精度,提出一种VPN加密流量识别模型的优化方法;通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性,从而显著提高FL-XGB VPN加密流量识别模型的识别精度。该方法科学合理,实用性强。
附图说明
图1为本发明的一种基于集成学习的VPN加密流量识别方法的总体框架图;
图2为VPN加密流量特征选择方法图;
图3为基于集成学习的VPN加密流量识别模型图;
图4为交叉熵损失函数和Focal Loss函数性能对比图;
图5为VPN加密流量识别模型的优化方法流程图;
图6为VPN加密流量识别ROC曲线图。
具体实施方式
下面利用附图和实施案例对本发明的一种基于集成学习的VPN加密流量识别方法进行详细说明。
参照图1,本发明的一种基于集成学习的VPN加密流量识别方法,包括以下步骤:
1)参照图2所示,提出一种VPN加密流量特征选择方法;采用一阶增量搜索方法分析Time-Related VPN加密流量特征之间的相关性,计算特征之间相关系数及其重要性排序;再对VPN流量进行mRMR特征筛选,剔除不相关或冗余特征,得到最优的Time-RelatedVPN加密流量特征子集;
2)参照图3所示,提出一种基于集成学习的VPN加密流量识别模型;聚焦难分类的不平衡VPN流量样本.在交叉熵损失函数基础上设计Focal Loss函数对XGBoost模型进行改进,改变对VPN流量样本的计算权重;得到基于FL_XGB的VPN加密流量识别模型,实现数据类别之间数据不平衡处理;参照图4所示,比较FL-XGB模型中的Focal Loss损失函数和原始数据下的交叉熵损失函数性能;
3)参照图5所示,提出一种VPN加密流量识别模型的优化方法;给定优化的目标函数结合贝叶斯优化实现全局参数搜索策略;通过不断地添加样本点来更新目标函数的后验分布,寻找组合参数的目标函数的最优值;将优化后的全局最优参数组合输入FL-XGB模型进行训练,解决VPN加密流量识别模型识别精度低的问题,最后输出识别结果,参照图6所示;
本发明的一种基于集成学习的VPN加密流量识别方法,包括以下步骤:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-RelatedVPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
Figure BDA0003709377790000071
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
Figure BDA0003709377790000072
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
Figure BDA0003709377790000073
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R}                             (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm
4)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
在XGBoost模型中,对样本i=1,2,...n,t是第t棵树,yi表示第i个样本xi的预测值,ft是第t棵树模型,
Figure BDA0003709377790000081
表示进行t次迭代之后模型的预测效果为公式(5);
Figure BDA0003709377790000082
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
Figure BDA0003709377790000083
公式中yi
Figure BDA0003709377790000084
都已知,模型要学习的只有第t棵树ft,然后将损失函数在
Figure BDA0003709377790000085
处进行二阶泰勒展开如公式(7);
Figure BDA0003709377790000086
其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为
Figure BDA0003709377790000087
Figure BDA0003709377790000088
然后将公式中的常数项去除后,得到最终损失函数的表示结果如公式(8);
Figure BDA0003709377790000089
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt)                           (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
5)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
Figure BDA0003709377790000091
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’))                   (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x’)使用Matern协方差函数,如公式(12);
Figure BDA0003709377790000092
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以
Figure BDA0003709377790000093
贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
Figure BDA0003709377790000101
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,
Figure BDA0003709377790000102
表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
Figure BDA0003709377790000103
μt(x)和σt(x)分别为高斯求解过程中的目标函数均值和标准差,
Figure BDA0003709377790000104
表示用来确定平衡探索和开发的常数。
本发明提出的一种基于集成学习的VPN加密流量识别方法,为VPN加密流量识别问题提供一种科学合理的解决方案。本实例验证了基于集成学习的VPN加密流量识别方法的有效性与可行性。
本发明所涉及的计算机程序依据计算机网络和人工智能领域技术编制,是本领域技术人员所熟悉的技术。
本发明的实施例仅用于对本发明作进一步的说明,并非穷举,并不构成对权利要求保护范围的限定,本领域技术人员根据本发明实施例获得的启示,不经过创造性劳动就能够想到其它实质上等同的替代,均在本发明保护范围内。

Claims (1)

1.一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-Related VPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
Figure FDA0003709377780000011
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
Figure FDA0003709377780000012
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
Figure FDA0003709377780000013
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R}    (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm
2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
在XGBoost模型中,对样本i=1,2,...n,t是第t棵树,yi表示第i个样本xi的预测值,ft是第t棵树模型,
Figure FDA0003709377780000021
表示进行t次迭代之后模型的预测效果为公式(5);
Figure FDA0003709377780000022
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
Figure FDA0003709377780000023
公式中yi
Figure FDA0003709377780000024
都已知,模型要学习的只有第t棵树ft,然后将损失函数在
Figure FDA0003709377780000025
处进行二阶泰勒展开如公式(7);
Figure FDA0003709377780000026
其中,第i个样本在第t个弱学习器的一阶和二阶导数分别为
Figure FDA0003709377780000027
Figure FDA0003709377780000028
然后将公式中的常数项去除后,得到最终损失函数的表示结果如公式(8);
Figure FDA0003709377780000029
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt)    (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
3)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
Figure FDA0003709377780000031
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’))    (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x’)使用Matern协方差函数,如公式(12);
Figure FDA0003709377780000041
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以
Figure FDA0003709377780000046
贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
Figure FDA0003709377780000042
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,
Figure FDA0003709377780000043
表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
Figure FDA0003709377780000044
μt(x)和σt(x)分别为高斯求解过程中的目标函数均值和标准差,
Figure FDA0003709377780000045
表示用来确定平衡探索和开发的常数。
CN202210717842.3A 2022-06-23 2022-06-23 一种基于集成学习的vpn加密流量识别方法 Active CN115174170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210717842.3A CN115174170B (zh) 2022-06-23 2022-06-23 一种基于集成学习的vpn加密流量识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210717842.3A CN115174170B (zh) 2022-06-23 2022-06-23 一种基于集成学习的vpn加密流量识别方法

Publications (2)

Publication Number Publication Date
CN115174170A CN115174170A (zh) 2022-10-11
CN115174170B true CN115174170B (zh) 2023-05-09

Family

ID=83487400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210717842.3A Active CN115174170B (zh) 2022-06-23 2022-06-23 一种基于集成学习的vpn加密流量识别方法

Country Status (1)

Country Link
CN (1) CN115174170B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116112646B (zh) * 2023-04-13 2023-06-20 河北远宏科技有限公司 一种污染源监测设备的智慧运维管理系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN111275074A (zh) * 2020-01-07 2020-06-12 东北电力大学 基于栈式自编码网络模型的电力cps信息攻击辨识方法
CN111385145A (zh) * 2020-03-04 2020-07-07 南京信息工程大学 一种基于集成学习的加密流量识别方法
CN111464485A (zh) * 2019-01-22 2020-07-28 北京金睛云华科技有限公司 一种加密代理流量检测方法和装置
CN111723846A (zh) * 2020-05-20 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于随机性特征的加密和压缩流量识别方法及装置
CN111817982A (zh) * 2020-07-27 2020-10-23 南京信息工程大学 一种面向类别不平衡下的加密流量识别方法
CN112118270A (zh) * 2020-10-29 2020-12-22 江苏科技大学 一种针对基于ssl加密的vpn流量识别方法
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN113162919A (zh) * 2021-03-22 2021-07-23 国网河北省电力有限公司信息通信分公司 一种基于网络异常流量识别的入侵检测方法
CN113283498A (zh) * 2021-05-21 2021-08-20 东南大学 一种面向高速网络的vpn流量快速识别方法
CN113344075A (zh) * 2021-06-02 2021-09-03 湖南湖大金科科技发展有限公司 基于特征学习与集成学习的高维不平衡数据分类方法
CN113642017A (zh) * 2021-08-10 2021-11-12 克拉玛依和中云网技术发展有限公司 一种基于自适应特征分类的加密流量识别方法、存储器和处理器
CN113850294A (zh) * 2021-08-23 2021-12-28 天翼数字生活科技有限公司 一种异常加密流量识别方法和系统
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法
CN114301850A (zh) * 2021-12-03 2022-04-08 成都中科微信息技术研究院有限公司 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法
CN114399029A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 一种基于gan样本增强的恶意流量检测方法
CN114510732A (zh) * 2022-01-28 2022-05-17 上海大学 一种基于增量学习的加密流量分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10630659B2 (en) * 2016-09-30 2020-04-21 Nicira, Inc. Scalable security key architecture for network encryption
CA3073263A1 (en) * 2019-02-22 2020-08-22 Sandvine Corporation System and method for classifying network traffic

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111464485A (zh) * 2019-01-22 2020-07-28 北京金睛云华科技有限公司 一种加密代理流量检测方法和装置
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN111275074A (zh) * 2020-01-07 2020-06-12 东北电力大学 基于栈式自编码网络模型的电力cps信息攻击辨识方法
CN111385145A (zh) * 2020-03-04 2020-07-07 南京信息工程大学 一种基于集成学习的加密流量识别方法
CN111723846A (zh) * 2020-05-20 2020-09-29 中国人民解放军战略支援部队信息工程大学 基于随机性特征的加密和压缩流量识别方法及装置
CN111817982A (zh) * 2020-07-27 2020-10-23 南京信息工程大学 一种面向类别不平衡下的加密流量识别方法
CN112118270A (zh) * 2020-10-29 2020-12-22 江苏科技大学 一种针对基于ssl加密的vpn流量识别方法
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN113162919A (zh) * 2021-03-22 2021-07-23 国网河北省电力有限公司信息通信分公司 一种基于网络异常流量识别的入侵检测方法
CN113283498A (zh) * 2021-05-21 2021-08-20 东南大学 一种面向高速网络的vpn流量快速识别方法
CN113344075A (zh) * 2021-06-02 2021-09-03 湖南湖大金科科技发展有限公司 基于特征学习与集成学习的高维不平衡数据分类方法
CN113642017A (zh) * 2021-08-10 2021-11-12 克拉玛依和中云网技术发展有限公司 一种基于自适应特征分类的加密流量识别方法、存储器和处理器
CN113850294A (zh) * 2021-08-23 2021-12-28 天翼数字生活科技有限公司 一种异常加密流量识别方法和系统
CN114301850A (zh) * 2021-12-03 2022-04-08 成都中科微信息技术研究院有限公司 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法
CN114399029A (zh) * 2022-01-14 2022-04-26 国网河北省电力有限公司电力科学研究院 一种基于gan样本增强的恶意流量检测方法
CN114510732A (zh) * 2022-01-28 2022-05-17 上海大学 一种基于增量学习的加密流量分类方法
CN114172748A (zh) * 2022-02-10 2022-03-11 中国矿业大学(北京) 一种加密恶意流量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"VPN Traffic Classification Based on Payload Length Sequence";P. Gao等;《2020 International Conference on Networking and Network Applications (NaNA)》;全文 *
王宇航等."面向SSL VPN加密流量的识别方法".《计算机工程与应用》.2021,全文. *

Also Published As

Publication number Publication date
CN115174170A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
Firpi et al. Swarmed feature selection
CN111310814A (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN108462711B (zh) 一种余弦时变pso-svm的入侵检测方法
CN111047173B (zh) 基于改进d-s证据理论的社团可信度评估方法
CN115174170B (zh) 一种基于集成学习的vpn加密流量识别方法
Seyghaly et al. Interference recognition for fog enabled IoT architecture using a novel tree-based method
CN115563610A (zh) 入侵检测模型的训练方法、识别方法和装置
CN116668083A (zh) 一种网络流量异常检测方法及系统
CN116996272A (zh) 一种基于改进的麻雀搜索算法的网络安全态势预测方法
Ravipati et al. A survey on different machine learning algorithms and weak classifiers based on KDD and NSL-KDD datasets
Cui et al. Determine the number of unknown targets in the open world from the perspective of bidirectional analysis using Gap statistic and Isolation forest
CN117692242A (zh) 一种基于图谱分析的网络攻击路径分析方法
Suhaimi et al. Network intrusion detection system using immune-genetic algorithm (IGA)
CN113591962B (zh) 一种网络攻击样本生成方法及装置
CN113010888B (zh) 一种基于关键神经元的神经网络后门攻击防御方法
CN114519187A (zh) 基于多维度混合特征的Android恶意应用检测方法及系统
Mounika et al. Idcsnet: Intrusion detection and classification system using unified gradient-boosted decision tree classifier
Kamil et al. Adapted CNN-SMOTE-BGMM Deep Learning Framework for Network Intrusion Detection using Unbalanced Dataset.
Jhansi et al. Swarm optimization and machine learning for android malware detection
Alkafagi Build Network Intrusion Detection System based on combination of Fractal Density Peak Clustering and Artificial Neural Network
Jose et al. Prediction of network attacks using supervised machine learning algorithm
Sheelavathy et al. Detection IoT attacks using Lasso regression algorithm with ensemble classifier
Gharaee et al. Intrusion Detection System Using SVM as Classifier and GA for Optimizing Feature Vectors
Avram et al. Tiny network intrusion detection system with high performance
CN117056951B (zh) 一种数字平台的数据安全管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant