CN115174170A - 一种基于集成学习的vpn加密流量识别方法 - Google Patents
一种基于集成学习的vpn加密流量识别方法 Download PDFInfo
- Publication number
- CN115174170A CN115174170A CN202210717842.3A CN202210717842A CN115174170A CN 115174170 A CN115174170 A CN 115174170A CN 202210717842 A CN202210717842 A CN 202210717842A CN 115174170 A CN115174170 A CN 115174170A
- Authority
- CN
- China
- Prior art keywords
- function
- formula
- vpn
- model
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4641—Virtual LANs, VLANs, e.g. virtual private networks [VPN]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明是一种基于集成学习的VPN加密流量识别方法,其特点是,包括:针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的VPN加密流量特征选择方法;针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL‑XGB识别模型,采用Focal Loss函数对Xgboost集成学习模型进行改进,平衡难易样本的比例不均;为了进一步提高模型对VPN加密流量的识别性能,提出VPN加密流量识别模型优化方法,对VPN加密流量FL‑XGB识别模型进行改进。该方法科学合理,准确性较高,可适用于VPN加密流量的识别问题,对维护网络安全具有一定实用意义。
Description
技术领域
本发明涉及网络安全领域,是一种基于集成学习的VPN加密流量识别方法。
背景技术
在网络安全领域,流量识别作为网络服务质量的重要优化技术手段之一,它把流量分成若干个优先级或若干个类别,代表了对恶意使用网络资源等异常活动进行检测的第一步。近年来,为了避免不法分子通过窥探公民上网数据窃取用户个人信息和财产,广泛采用加密技术对网络流量进行加密,己成为当今网络应用的标准实现。然而,这一做法致使当前的网络环境透明度降低和流量管控难度增加。很多黑客在实施网络恶意活动时,都会传递传输一定数量的异常流量,这种异常流量常被防火墙和异常流量识别系统发现并拦截,而虚拟专用网(Virtual Private Network,VPN)就是一种规避这些网络安全防护的技术。通过使用VPN的加密技术和通道的伪装能力,绕过网络安全设备的检查。加密流量的识别给当前的流量识别技术提出了极大挑战。VPN加密流量数据中包含大量信息,通过对VPN加密流量进行识别,即识别出使用不同加密协议的应用程序服务,然后根据当前的网络状况部署相应的策略,从而更好地管理网络环境并提供个性化服务。VPN加密流量识别是实现网络流量态势感知的重要条件之一,因此,VPN加密流量的高效识别对检测恶意网络行为,对维护网络安全和增强网络应急响应能力具有一定的积极意义。
目前,机器学习方法在诸多领域已经取得广泛应用,对于网络安全中的加密流量识别的应用也很多。机器学习可以通过使用分类器来解决对于加密流量识别的难点。但是传统的机器学习方法在处理不平衡或嘈杂的复杂数据时可能无法获得令人满意的性能。原因是很难捕获数据的多个特征和基础结构。而在机器学习方法中,集成学习可以将数据融合,数据建模和数据挖掘集成到一个统一的框架中。集成学习模型能处理具有高维特征的数据,解决特征冗余问题,集成学习还支持使用一些损失函数,对异常数据的鲁棒性非常强。因此,本发明拟采用集成学习框架对VPN加密流量进行识别,解决以往加密流量识别难的问题,对检测恶意网络行为和维护网络安全具有积极意义。
发明内容
本发明的目的是,克服现有技术的不足,首先针对VPN加密流量数据特征冗余问题,采用基于最大相关最小冗余的特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征;其次,针对VPN加密流量数据存在的类别不平衡问题,构建VPN加密流量FL-XGB识别模型,采用焦点损失函数(Focal Loss)对极度梯度提升树(XGBoost)集成学习模型进行改进,平衡难易样本的比例不均;最后,为了进一步提高模型对VPN加密流量的识别性能,提出VPN加密流量识别模型优化方法,通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性,对VPN加密流量FL-XGB识别模型进行改进。
实现本发明目的采用的技术方案是:一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-RelatedVPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R} (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm;
2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt) (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
3)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’)) (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x’)使用Matern协方差函数,如公式(12);
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
本发明一种基于集成学习的VPN加密流量识别方法的有益效果体现在:
首先基于Time-Related VPN加密流量存在冗余特征的问题,采用mRMR特征选择方法对VPN加密流量进行特征筛选,得到最优的Time-Related VPN加密流量特征集;其次,基于VPN加密流量中仍然存在的类别不平衡问题,提出一种基于集成学习的VPN加密流量识别模型;该模型在不改变原始数据分布情况的基础上,实现了对数据类别之间的不平衡处理;最后,为了进一步提高模型对VPN加密流量的识别精度,提出一种VPN加密流量识别模型的优化方法;通过优化相应参数合理控制模型复杂度和增加模型对噪声的鲁棒性,从而显著提高FL-XGB VPN加密流量识别模型的识别精度。该方法科学合理,实用性强。
附图说明
图1为本发明的一种基于集成学习的VPN加密流量识别方法的总体框架图;
图2为VPN加密流量特征选择方法图;
图3为基于集成学习的VPN加密流量识别模型图;
图4为交叉熵损失函数和Focal Loss函数性能对比图;
图5为VPN加密流量识别模型的优化方法流程图;
图6为VPN加密流量识别ROC曲线图。
具体实施方式
下面利用附图和实施案例对本发明的一种基于集成学习的VPN加密流量识别方法进行详细说明。
参照图1,本发明的一种基于集成学习的VPN加密流量识别方法,包括以下步骤:
1)参照图2所示,提出一种VPN加密流量特征选择方法;采用一阶增量搜索方法分析Time-Related VPN加密流量特征之间的相关性,计算特征之间相关系数及其重要性排序;再对VPN流量进行mRMR特征筛选,剔除不相关或冗余特征,得到最优的Time-RelatedVPN加密流量特征子集;
2)参照图3所示,提出一种基于集成学习的VPN加密流量识别模型;聚焦难分类的不平衡VPN流量样本.在交叉熵损失函数基础上设计Focal Loss函数对XGBoost模型进行改进,改变对VPN流量样本的计算权重;得到基于FL_XGB的VPN加密流量识别模型,实现数据类别之间数据不平衡处理;参照图4所示,比较FL-XGB模型中的Focal Loss损失函数和原始数据下的交叉熵损失函数性能;
3)参照图5所示,提出一种VPN加密流量识别模型的优化方法;给定优化的目标函数结合贝叶斯优化实现全局参数搜索策略;通过不断地添加样本点来更新目标函数的后验分布,寻找组合参数的目标函数的最优值;将优化后的全局最优参数组合输入FL-XGB模型进行训练,解决VPN加密流量识别模型识别精度低的问题,最后输出识别结果,参照图6所示;
本发明的一种基于集成学习的VPN加密流量识别方法,包括以下步骤:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-RelatedVPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R} (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm;
4)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt) (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
5)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’)) (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x’)使用Matern协方差函数,如公式(12);
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
本发明提出的一种基于集成学习的VPN加密流量识别方法,为VPN加密流量识别问题提供一种科学合理的解决方案。本实例验证了基于集成学习的VPN加密流量识别方法的有效性与可行性。
本发明所涉及的计算机程序依据计算机网络和人工智能领域技术编制,是本领域技术人员所熟悉的技术。
本发明的实施例仅用于对本发明作进一步的说明,并非穷举,并不构成对权利要求保护范围的限定,本领域技术人员根据本发明实施例获得的启示,不经过创造性劳动就能够想到其它实质上等同的替代,均在本发明保护范围内。
Claims (1)
1.一种基于集成学习的VPN加密流量识别方法,其特征是,它包括以下内容:
1)提出一种VPN加密流量特征选择方法;采用最大相关最小冗余(mRMR)特征选择方法对VPN加密流量进行特征筛选,剔除不相关或冗余的特征,得到最优的Time-Related VPN加密流量特征集;mRMR算法对VPN加密流量进行特征选择的步骤为:
步骤1:初始化特征集合S为空,输入包含特征集合F和类别集合C的训练数据集;
步骤2:数据集包含N维特征,通过N次迭代循环得到排序后的特征列表;在每一次迭代中,挑选一个特征;将挑选一个特征与其他的特征相比,所述挑选一个特征和类别有最大相关性,同时和其他已挑选出的特征有最小的冗余性;设F是包含N维特征的集合,S是包含己选择特征的集合;
对于待选的特征集中的每一个特征Fi,计算所有特征组成的特征集合F与样本类别集合C的相关性,其中,待选的特征Fi与类别集合C的相关性为I(Fi,c);D表示待选的特征与类别的相关性,D越大,则特征与类别的相关性越高;相关性D的计算方式为公式(1);
其中,互信息是对信息进行度量的方法,表示随机变量与其他变量Y有关的信息量;设变量X的边缘概率密度函数为P(x),Y的边缘概率密度函数为P(y),则联合概率密度函数为P(x,y),互信息值I(x,y)的计算为公式(2);
步骤3:计算特征间的冗余性R,集合F中特征的冗余是特征Fi与Fj的平均互信息值,冗余性R的计算为公式(3);
公式(3)中,I(Fi,Fj)表示第i个特征与第j个特征的互信息值;R越大表示两个特征之间的冗余度越高;
步骤4:计算特征集F中特征与类别的最大相关性和特征之间的最小冗余度f为公式(4),并将其存入特征集合S中;其中,D表示特征与类别的最大相关性,R表示特征间的最小冗余度;
f=max{D-R} (4)
步骤5:判断算法是否满足停止条件,即特征集合F-S是否为空,即判断集合S与F中所包含的特征是否相同,如果是则跳出循环,否则重复步骤3;循环结束后,得到按照特征重要性降序排列的集合S=[F1,F2,...,FN];
步骤6:使用逐次特征选取法选取集合S=[F1,F2,...,FN]中的特征,得到最优特征子集Sm;
2)提出一种基于集成学习的VPN加密流量识别模型;包括VPN加密流量识别模型构建和基于Focal Loss的XGBoost模型改进方法两个部分:
①VPN加密流量识别模型构建
Ω(ft)表示函数加入了正则化项,此时,XGBoost的目标函数λ(t)为公式(6);
基于XGBoost支持自定义损失函数的特点,在交叉熵损失函数的基础上进行改进,对VPN的加密流量的类别不平衡进行修正,同时不改变原始数据集合分布情况;
②基于Focal Loss的XGBoost模型改进方法
使用基础XGBoost集成学习模型,对不平衡的VPN加密流量数据进行识别时,存在类别不平衡问题;各类训练数据不是均匀分布的,采用Focal Loss函数改进XGBoost模型,基于交叉熵的损失函数,改进模型的损失函数,使难易样本自身的比例不均匀得到相对平衡,从而能够解决训练时数据不平衡问题;Focal Loss函数是在目标检测中提出的,解决难易样本类别的不平衡问题;在交叉熵损失函数前引入参数平衡系数γ,平衡难易样本的比例不平衡;γ可以调整简单样本的权重下降速度,在γ为0时,是交叉熵损耗函数,γ增大时,调整系数的作用增大;
Focal Loss函数为公式(9);
FL(pt)=-(1-pt)γlog(pt) (9)
其中,γ为聚焦参数,用于聚焦难识别样本,pt为类别的识别概率;(1-pt)γ为公式(9)的权重;设置γ=2,当pt的值接近1时,(1-pt)2接近0,此时的识别越准确;当pt接近0时,(1-pt)2接近1,此时识别结果越不准确;
3)提出一种VPN加密流量识别模型的优化方法;使所述VPN加密流量识别模型的优化方法结合贝叶斯全局参数搜索策略,寻找组合参数的目标函数最优值;
贝叶斯优化算法是基于贝叶斯定理表示为公式(10);
公式(10)中,f表示目标函数或参数模型中的参数,D1:t={(x1,y1),(x2,y2),…,(xt,yt)}表示已评价点的集合,xt表示决策向量,yt=f(xt)+ε表示观测值,ε表示观测误差,p(D1:t|f)表示y的似然分布,p(D1:t)表示f的边际似然分布,p(f)表示f的先验概率,p(f|D1:t)表示f的后验概率,后验概率分布是由已评估点集对先验变量进行校正后,未知的目标函数或参数模型参数的置信程度;贝叶斯优化方法采用了基于概率代理模型对实际目标函数进行拟合,并利用采集函数进行下一次评估;高斯过程是贝叶斯优化中广泛应用的概率代理模型;高斯过程是一个由均值函数和半正定的协方差函数组成的多元高斯概率分布的范化,如公式(11);
y~gp(μt(x),k(x,x’)) (11)
公式(11)中,μt(x)表示均值函数,k(x,x’)表示协方差函数;当对一组离散数据对(xt,yt)的函数进行高斯拟合时,将m(x)设定为0,k(x,x’)使用Matern协方差函数,如公式(12);
式(12)中,r表示x和x’的欧拉距离,σf表示特征偏差,σl表示特征长度,σf和σl在高斯拟合时会自动改变,σl的初始数值是xi的标准差,σf初始数值是yi的标准差除以贝叶斯优化方法是一种基于提升概率和提升量的策略构造的采集函数,如公式(13);
公式(13)中,αt(x;D1:t)表示采集函数,v*表示当前最优函数值,表示标准正态分布累积密度函数,μt(x)表示均值,σt(x)表示方差;采集函数选用基于置信区间策略即直接比较置信区间的最大值,根据置信区间的下一个极值点的位置如公式(14);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717842.3A CN115174170B (zh) | 2022-06-23 | 2022-06-23 | 一种基于集成学习的vpn加密流量识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210717842.3A CN115174170B (zh) | 2022-06-23 | 2022-06-23 | 一种基于集成学习的vpn加密流量识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115174170A true CN115174170A (zh) | 2022-10-11 |
CN115174170B CN115174170B (zh) | 2023-05-09 |
Family
ID=83487400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210717842.3A Active CN115174170B (zh) | 2022-06-23 | 2022-06-23 | 一种基于集成学习的vpn加密流量识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115174170B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116112646A (zh) * | 2023-04-13 | 2023-05-12 | 河北远宏科技有限公司 | 一种污染源监测设备的智慧运维管理系统 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180097785A1 (en) * | 2016-09-30 | 2018-04-05 | Nicira, Inc. | Scalable security key architecture for network encryption |
CN109951444A (zh) * | 2019-01-29 | 2019-06-28 | 中国科学院信息工程研究所 | 一种加密匿名网络流量识别方法 |
CN111275074A (zh) * | 2020-01-07 | 2020-06-12 | 东北电力大学 | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 |
CN111385145A (zh) * | 2020-03-04 | 2020-07-07 | 南京信息工程大学 | 一种基于集成学习的加密流量识别方法 |
CN111464485A (zh) * | 2019-01-22 | 2020-07-28 | 北京金睛云华科技有限公司 | 一种加密代理流量检测方法和装置 |
US20200274815A1 (en) * | 2019-02-22 | 2020-08-27 | Sandvine Corporation | System and method for classifying network traffic |
CN111723846A (zh) * | 2020-05-20 | 2020-09-29 | 中国人民解放军战略支援部队信息工程大学 | 基于随机性特征的加密和压缩流量识别方法及装置 |
CN111817982A (zh) * | 2020-07-27 | 2020-10-23 | 南京信息工程大学 | 一种面向类别不平衡下的加密流量识别方法 |
CN112118270A (zh) * | 2020-10-29 | 2020-12-22 | 江苏科技大学 | 一种针对基于ssl加密的vpn流量识别方法 |
CN112950231A (zh) * | 2021-03-19 | 2021-06-11 | 广州瀚信通信科技股份有限公司 | 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质 |
CN113162919A (zh) * | 2021-03-22 | 2021-07-23 | 国网河北省电力有限公司信息通信分公司 | 一种基于网络异常流量识别的入侵检测方法 |
CN113283498A (zh) * | 2021-05-21 | 2021-08-20 | 东南大学 | 一种面向高速网络的vpn流量快速识别方法 |
CN113344075A (zh) * | 2021-06-02 | 2021-09-03 | 湖南湖大金科科技发展有限公司 | 基于特征学习与集成学习的高维不平衡数据分类方法 |
CN113642017A (zh) * | 2021-08-10 | 2021-11-12 | 克拉玛依和中云网技术发展有限公司 | 一种基于自适应特征分类的加密流量识别方法、存储器和处理器 |
CN113850294A (zh) * | 2021-08-23 | 2021-12-28 | 天翼数字生活科技有限公司 | 一种异常加密流量识别方法和系统 |
CN114172748A (zh) * | 2022-02-10 | 2022-03-11 | 中国矿业大学(北京) | 一种加密恶意流量检测方法 |
CN114301850A (zh) * | 2021-12-03 | 2022-04-08 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114399029A (zh) * | 2022-01-14 | 2022-04-26 | 国网河北省电力有限公司电力科学研究院 | 一种基于gan样本增强的恶意流量检测方法 |
CN114510732A (zh) * | 2022-01-28 | 2022-05-17 | 上海大学 | 一种基于增量学习的加密流量分类方法 |
-
2022
- 2022-06-23 CN CN202210717842.3A patent/CN115174170B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180097785A1 (en) * | 2016-09-30 | 2018-04-05 | Nicira, Inc. | Scalable security key architecture for network encryption |
CN111464485A (zh) * | 2019-01-22 | 2020-07-28 | 北京金睛云华科技有限公司 | 一种加密代理流量检测方法和装置 |
CN109951444A (zh) * | 2019-01-29 | 2019-06-28 | 中国科学院信息工程研究所 | 一种加密匿名网络流量识别方法 |
US20200274815A1 (en) * | 2019-02-22 | 2020-08-27 | Sandvine Corporation | System and method for classifying network traffic |
CN111275074A (zh) * | 2020-01-07 | 2020-06-12 | 东北电力大学 | 基于栈式自编码网络模型的电力cps信息攻击辨识方法 |
CN111385145A (zh) * | 2020-03-04 | 2020-07-07 | 南京信息工程大学 | 一种基于集成学习的加密流量识别方法 |
CN111723846A (zh) * | 2020-05-20 | 2020-09-29 | 中国人民解放军战略支援部队信息工程大学 | 基于随机性特征的加密和压缩流量识别方法及装置 |
CN111817982A (zh) * | 2020-07-27 | 2020-10-23 | 南京信息工程大学 | 一种面向类别不平衡下的加密流量识别方法 |
CN112118270A (zh) * | 2020-10-29 | 2020-12-22 | 江苏科技大学 | 一种针对基于ssl加密的vpn流量识别方法 |
CN112950231A (zh) * | 2021-03-19 | 2021-06-11 | 广州瀚信通信科技股份有限公司 | 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质 |
CN113162919A (zh) * | 2021-03-22 | 2021-07-23 | 国网河北省电力有限公司信息通信分公司 | 一种基于网络异常流量识别的入侵检测方法 |
CN113283498A (zh) * | 2021-05-21 | 2021-08-20 | 东南大学 | 一种面向高速网络的vpn流量快速识别方法 |
CN113344075A (zh) * | 2021-06-02 | 2021-09-03 | 湖南湖大金科科技发展有限公司 | 基于特征学习与集成学习的高维不平衡数据分类方法 |
CN113642017A (zh) * | 2021-08-10 | 2021-11-12 | 克拉玛依和中云网技术发展有限公司 | 一种基于自适应特征分类的加密流量识别方法、存储器和处理器 |
CN113850294A (zh) * | 2021-08-23 | 2021-12-28 | 天翼数字生活科技有限公司 | 一种异常加密流量识别方法和系统 |
CN114301850A (zh) * | 2021-12-03 | 2022-04-08 | 成都中科微信息技术研究院有限公司 | 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法 |
CN114399029A (zh) * | 2022-01-14 | 2022-04-26 | 国网河北省电力有限公司电力科学研究院 | 一种基于gan样本增强的恶意流量检测方法 |
CN114510732A (zh) * | 2022-01-28 | 2022-05-17 | 上海大学 | 一种基于增量学习的加密流量分类方法 |
CN114172748A (zh) * | 2022-02-10 | 2022-03-11 | 中国矿业大学(北京) | 一种加密恶意流量检测方法 |
Non-Patent Citations (2)
Title |
---|
P. GAO等: ""VPN Traffic Classification Based on Payload Length Sequence"", 《2020 INTERNATIONAL CONFERENCE ON NETWORKING AND NETWORK APPLICATIONS (NANA)》 * |
王宇航等: "\"面向SSL VPN加密流量的识别方法\"", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116112646A (zh) * | 2023-04-13 | 2023-05-12 | 河北远宏科技有限公司 | 一种污染源监测设备的智慧运维管理系统 |
CN116112646B (zh) * | 2023-04-13 | 2023-06-20 | 河北远宏科技有限公司 | 一种污染源监测设备的智慧运维管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115174170B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022121289A1 (en) | Methods and systems for mining minority-class data samples for training neural network | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
CN101582813B (zh) | 基于分布式迁移网络学习的入侵检测系统及其方法 | |
CN107004162A (zh) | 量子深度学习 | |
Xue et al. | A self-adaptive fireworks algorithm for classification problems | |
CN111343171A (zh) | 一种基于支持向量机的混合特征选择的入侵检测方法 | |
Benisha et al. | Detection of data integrity attacks by constructing an effective intrusion detection system | |
Alawad et al. | Binary improved white shark algorithm for intrusion detection systems | |
Seyghaly et al. | Interference recognition for fog enabled IoT architecture using a novel tree-based method | |
CN116996272A (zh) | 一种基于改进的麻雀搜索算法的网络安全态势预测方法 | |
Ma et al. | Improving uncertainty calibration of deep neural networks via truth discovery and geometric optimization | |
CN115174170B (zh) | 一种基于集成学习的vpn加密流量识别方法 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及系统 | |
CN116886398A (zh) | 一种基于特征选择和集成学习的物联网入侵检测方法 | |
Sosnowski et al. | Fuzzy trees and forests | |
Hassan et al. | Model for phishing websites classification using artificial neural network | |
US20220284261A1 (en) | Training-support-based machine learning classification and regression augmentation | |
KR20190088174A (ko) | 가중치 선택 신경망을 이용한 Wi-Fi 망의 침입 탐지 방법 및 장치 | |
Kamil et al. | Adapted CNN-SMOTE-BGMM Deep Learning Framework for Network Intrusion Detection using Unbalanced Dataset. | |
US20230126695A1 (en) | Ml model drift detection using modified gan | |
Cuevas et al. | Comparison of recent metaheuristic algorithms for shape detection in images | |
CN115936773A (zh) | 一种互联网金融黑产识别方法与系统 | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
Gangula et al. | Intrusion Attack Detection Using Firefly Optimization Algorithm and Ensemble Classification Model | |
CN113836526A (zh) | 一种基于改进免疫网络算法的入侵检测方法及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |