CN109831392B - 半监督网络流量分类方法 - Google Patents

半监督网络流量分类方法 Download PDF

Info

Publication number
CN109831392B
CN109831392B CN201910161343.9A CN201910161343A CN109831392B CN 109831392 B CN109831392 B CN 109831392B CN 201910161343 A CN201910161343 A CN 201910161343A CN 109831392 B CN109831392 B CN 109831392B
Authority
CN
China
Prior art keywords
network traffic
traffic data
encoder
probability
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910161343.9A
Other languages
English (en)
Other versions
CN109831392A (zh
Inventor
陈双武
李檀
杨坚
姚振
陈翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Wangyi Technology Co ltd
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910161343.9A priority Critical patent/CN109831392B/zh
Publication of CN109831392A publication Critical patent/CN109831392A/zh
Application granted granted Critical
Publication of CN109831392B publication Critical patent/CN109831392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种半监督网络流量分类方法,包括:预先使用一定数量的网络流量数据无监督的训练特征提取模块,以及使用若干有标签网络流量数据和一定数量的无标签网络流量数据无监督的训练半监督流量分类模块;利用训练好的特征提取模块从原始网络流量数据中提取隐含表达特征,再利用训练好的半监督流量分类模块,基于提取到的隐含表达特征对相应原始网络流量数据进行分类。该方法通过自动提取网络流量的隐含表达特征,克服了过于依赖人为制定特征的问题;同时,半监督方法仅需要少量有标签网络流量数据和大量无标签网络流量数据即可构建流量分类器,克服了无法获取大量可靠数据集的困难。

Description

半监督网络流量分类方法
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种半监督网络流量分类方法。
背景技术
随着大数据时代的到来,新型互联网应用层出不行,网络的组成成分也日益复杂。为了能够更好地实施网络管理及网络安全措施,网络管理者需要对海量的网络流量类型及其安全等级进行感知。在过去的十几年中,网络流量分类方法对优化网络配置,减少网络安全风险以及提高用户服务质量起到了重要作用。
传统的网络流量分类方法可以分为以下三类:
基于端口号的方法:该方法的原理是根据IANA(Internet Assigned NumbersAuthority)发布的Service Name and Transport Protocol Port Number Registry中端口号与特定应用的映射表,通过读取网络数据包包头中16位的端口号信息来确定未知流量的类别。这种分类方法原理简单,只需要在网络流中确定某个数据包头的源、目的端口的数值与端口映射表相比较即可,具有较低的时间复杂度,易于实现。但该方法面临以下问题:有些应用使用动态端口,在数据传输中端口不断变化;端口伪造技术的发展使得一些应用程序使用其他知名端口进行数据传输,进而造成误判;一些P2P应用在端口号中随机进行选择无固定端口号。上述种种问题使得基于端口的分类方法的准确率较低。
基于深度包检测(DPI,Deep Packet Inspection)的方法通过匹配各种网络业务的应用层报文特征来进行对未知流量的识别。该方法可以有效克服动态端口、端口伪造等问题带来的干扰,具有较高的识别准确率,但仍存在以下几种问题:特征匹配算法复杂度高,面对庞大的数据量往往无法收敛;该方法只能分析明文传输的数据流量,对于现在很多应用实施的加密流量则无法进行解析;该方法将分析用户所传输的具体内容,可能会对用户的隐私造成侵犯。
基于机器学习(Machine Learning)的方法基于网络流量的统计特征进行对未知流量的识别。常见的流统计特征有:包大小、包到达时间间隔、网络空闲和活跃时间等等。以上述统计特征表示的网络流量作为机器学习模型的输入,通过一定的训练方法可以实现基于机器学习模型的网络流量识别。常见的机器学习算法,如支持向量机(SVM,SupportVector Machines)、朴素贝叶斯(
Figure GDA0002024372940000021
Bayes)和决策树(DT,Decision Tree)等已经被用于网络流量识别工作中。但是,基于流统计特征的机器学习识别方法需要大量带有标签的经验数据来训练构造分类器,获取大量带标签的数据需要耗费大量人力物力,且标签的准确性尚有待考证。
发明内容
本发明的目的是提供一种半监督网络流量分类方法,具有较高的分类识别准确度。
本发明的目的是通过以下技术方案实现的:
一种半监督网络流量分类方法,包括:
预先使用一定数量的网络流量数据无监督的训练特征提取模块,以及使用若干有标签网络流量数据和一定数量的无标签网络流量数据无监督的训练半监督流量分类模块;
利用训练好的特征提取模块从原始网络流量数据中提取隐含表达特征,再利用训练好的半监督流量分类模块,基于提取到的隐含表达特征对相应原始网络流量数据进行分类。
由上述本发明提供的技术方案可以看出,通过自动提取网络流量的隐含表达特征,克服了过于依赖人为制定特征的问题;同时,半监督方法仅需要少量有标签网络流量数据和大量无标签网络流量数据即可构建流量分类器,克服了无法获取大量可靠数据集的困难。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种半监督网络流量分类方法的框架示意图;
图2为本发明实施例提供的特征识别模块示意图;
图3为本发明实施例提供的针对有标签网络流量数据的识别模型示意图;
图4为本发明实施例提供的针对未标签网络流量数据的识别模型示意图;
图5为本发明实施例提供的流量分类示例的示意图;
图6为本发明实施例提供的特征提取结果示意图;
图7为本发明实施例提供的流量识别准确率示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
由于现有的基于规则的网络流量分类方法,面临动态端口、端口伪造技术及流量加密等方面的问题,可识别的流量种类有限且准确率不高;同时,基于流统计特征的机器学习识别方法需要大量带有标签的经验数据来训练构造分类器,获取大量带标签的数据需要耗费大量人力物力,且标签的准确性尚有待考证。因此,本发明提出一种基于深度生成模型的半监督网络流量分类方法,通过生成模型自动提取网络流量的隐含表达特征,克服了过于依赖人为制定特征的问题;同时,半监督方法仅需要少量有标签网络流量数据和大量无标签网络流量数据即可构建流量分类器,克服了无法获取大量可靠数据集的困难。
本发明实施例提供的一种基于深度生成模型的半监督网络流量分类方法主要包括:
1、预先使用一定数量的网络流量数据无监督的训练特征提取模块,以及使用若干有标签网络流量数据和一定数量的无标签网络流量数据无监督地训练半监督流量分类模块;
2、利用训练好的特征提取模块从原始网络流量数据中提取隐含表达特征(即网络流量表达特征),再利用训练好的半监督流量分类模块,基于提取到的隐含表达特征对相应原始网络流量数据进行分类。
该方法的整体框架如图1所示。为了便于理解,下面针对特征提取模块与半监督流量分类模块分别进行详细的介绍。
一、特征提取模块。
本发明实施例中,采用变分自动编码器(Variational Auto Encoder)作为特征提取模块,用于从网络流量数据(n字节网络数据包构成的向量)中提取表达特征。
原理如下:变分自动编码器的目标是实现样本重构,对特征提取模块进行训练的目的是最小化重构误差;所述特征提取模块包括:第一编码器与第一解码器;所述第一编码器将原始网络流量数据从高维空间映射至低维的特征空间;所述第一解码器将数据从低维的特征空间重构至高维空间。
此处主要体现的是第一编码器对数据进行降维操作,即由高维将至低维;高维空间与低维的特征空间的具体维度数可以由用户按照经验或者需求来设定,本发明并不对具体的维度数做限制。示例性的,高维空间可以是784维,低维的特征空间可以低于20维。
下面针对第一编码器与第一解码器的原理、第一编码器与第一解码器的优化方式、以及特征提取过程进行介绍。
1、第一编码器。
本发明实施例中,将网络流量数据建模为如下集合形式:(X,Y)={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure GDA0002024372940000041
表示第i条网络流量数据,N网络流量数据总数,yi∈{1,...,L}表示第i条网络流量数据的类型,第i条网络流量数据隐含表达特征记为zi;后文介绍时所涉及的各项数据形式均采用上述定义。本领域技术人员可以理解,根据网络流量数据的类型的不同可以分别约定不同的数值,因而通过yi∈{1,...,L}的具体数值可以获知相应的类型。
所述第一编码器(也称为第一识别模型)为概率编码器,如图2所示,其输入为原始网络流量,其中
Figure GDA0002024372940000042
为xi的6个分量,h1~h4为组成神经网络隐含层的神经元,输出为关于隐含表达特征的后验概率分布,其中
Figure GDA0002024372940000043
为zi的两个分量。将其定义为表达特征分布。
选择高斯分布N(.)作为隐含表达特征的后验概率分布的约束形式:
qφ(zi|xi)=N(ziφ(xi),diag(σφ 2(xi)))
概率编码器使用深度神经网络建立,输入为网络流量数据xi,输出为高斯分布的参数(与隐含表达特征记zi相关),高斯分布的均值μφ(xi)与方差diag(σφ 2(xi)均为关于网络流量数据xi和概率编码器参数φ(即构成概率编码器的神经网络的所有参数)的函数,可选取多层感知机(MLP,Multi-Layer Perceptron)作为概率编码器的具体构成形式。
2、第一解码器。
所述第一解码器(也称为第一生成模型)为概率解码器,其输入为网络流量数据隐含表达特征zi,如图2所示,输出为重构后的网络流量数据
Figure GDA0002024372940000044
其中
Figure GDA0002024372940000045
Figure GDA0002024372940000046
的6个分量,概率解码器的表达形式为:
Figure GDA0002024372940000051
其中,
Figure GDA0002024372940000052
是一个似然函数,使用深度神经网络建立,所述似然函数为网络流量数据隐含表达特征zi与概率解码器参数θ(即构成概率解码器的神经网络的所有参数)的函数。
3、优化第一编码器与第一解码器。
本发明实施例中,训练特征提取模块也即优化概率编码器参数φ以及概率解码器参数θ。采用随机梯度变分贝叶斯方法(SGVB,Stochastic Gradient Variational Bayes)来优化参数φ以及参数θ,利用对数最大似然法,最大化如下对数似然函数:
Figure GDA0002024372940000053
其中,pθ(xi)是似然函数,表示在概率解码器参数θ下网络流量数据xi的出现概率;
最优的参数θ为使得模型产生出观测数据概率最大的一组参数,此处直接优化logpθ(xi)是不可行的,因此转而优化它的下界。由于:
logpθ(xi)=KL(qφ(zi|xi)||pθ(zi|xi))+L(θ,φ;xi)
其中,
Figure GDA0002024372940000054
pθ(zi|xi)为给定输入xi时,在概率解码器参数θ下得到的关于zi的概率分布,但直接计算复杂分布pθ(zi|xi)不可行,因此采用变分推断的方法,构造上文中的第一编码器qφ(zi|xi)来近似pθ(zi|xi)。上式中KL散度KL(qφ(zi|xi)||pθ(zi|xi))的作用是衡量qφ(zi|xi)与pθ(zi|xi)的相似程度;由于KL散度非负,当qφ(zi|xi)与pθ(zi|xi)一致时(允许在一个零测集上不一致),KL散度为0,则始终有logpθ(xi)≥L(θ,φ;xi),于是L(θ,φ;xi)称为对数似然函数的变分下界。
将L(θ,φ;xi)看作由KL散度约束项KL(qφ(zi|xi)||pθ(zi))和重构误差项
Figure GDA0002024372940000055
组成,分别进行计算。
对于第一项KL散度约束项,用于约束第一编码器的隐含表达特征zi尽量地逼近已知先验分布形式,即标准高斯分布pθ(zi)=N(0,I),由于qφ(zi|xi)和pθ(zi)均为高斯分布,则KL散度约束项通过下式计算:
Figure GDA0002024372940000056
其中,KL为KL散度符号;N(0,I)表示标准高斯分布;
第二项可以看成是重构误差项,其中qφ(zi|xi)相当于第一编码器给定网络数据数据xi输出隐含表达特征zi
Figure GDA0002024372940000061
相当于第一解码器输出重构样本
Figure GDA0002024372940000062
为计算该式,需要从表达特征分布中对zi进行采样计算,这项操作会导致整个优化过程不可导,因此,计算重构误差项时,对网络流量数据隐含表达特征zi重参数化处理。
方法为构造函数zi=gφ(ε,xi)=μφ(xi)+σφ(xi)⊙ε,其中ε~N(0,1),为从标准高斯分布中采样得到的一个值,gφ(.)为构造的与概率编码器参数φ相关的函数;这样一来,在求解梯度的时候,在ε~N(0,1)的过程中不会涉及参数φ,使得求导过程变得可微。通过重参数化能够对参数进行求导优化,同时保留从表达特征分布中随机采样的能力;确保目标函数可导后,求取梯度:
Figure GDA0002024372940000063
其中,M表示估算梯度所需的采样次数,
Figure GDA0002024372940000064
表示梯度,求取的梯度
Figure GDA0002024372940000065
包含了梯度
Figure GDA0002024372940000066
Figure GDA0002024372940000067
根据求得的梯度更新概率编码器参数φ以及概率解码器参数θ:
Figure GDA0002024372940000068
Figure GDA0002024372940000069
其中,β为参数更新步长;φold、φnew分别为更新前、后的概率编码器参数φ;θold、θnew分别为更新前、后的概率解码器参数θ。
4、特征提取。
当第一编码器与第一解码器通过上述方式优化完毕后,可以利用第一编码器对原始网络流量数据进行隐含表达特征的提取,该过程是完全无监督的。
二、半监督流量分类模块。
在半监督分类问题的场景下,用于训练的数据集中只有少量有标签网络流量数据和大量无标签网络流量数据,而仅仅依据少量有标签网络流量数据训练的模型泛化能力较差。为了解决这个问题,本发明提出基于深度生成模型的半监督流量分类模块。该模块是变分自动编码器的一种变形形式,如图3和图4所示。
原理如下:所述半监督流量分类模块认为所有网络流量都是由两部分变量共同生成:流量数据类型变量和其他隐含变量;所述半监督流量分类模块包括:第二编码器与第二解码器;所述第二编码器的输入为隐含表达特征,输出为流量数据类型变量和其他隐含变量;所述第二解码器输入为流量数据类型变量和其他隐含变量,输出为重构的隐含表达特征。
1、第二编码器
第二编码器也称为第二识别模型,其输入的隐含表达特征记为zi,也即第i条网络流量数据隐含表达特征,输出的流量数据类型变量和其他隐含变量分别记为yi与zi';
同样的,可以选取高斯分布N(.)作为其他隐含变量zi'的约束形式:
qω(zi'|zi)=N(ziω(zi),diag(σω 2(zi)))
选取多项式分布作为流量数据类型变量yi的约束形式:
qω(yi|zi)=Cat(yiω(zi))
Cat(yiω(zi))是一个多项式分布,对于有标签网络流量数据,该项为固定值不需要进行更新学习;对于无标签网络流量数据,该项被视为隐含变量,需要由深度神经网络推断得出;高斯分布的均值μω(zi)与方差diag(σω 2(zi)和多项式分布参数πω(zi)均为关于zi和第二编码器参数ω的函数,可选取多层感知机作为第二编码器的具体构成形式。
2、第二解码器。
第二解码器,也称为第二生成模型,输入为其他隐含表达特征zi'与流量数据类型变量yi,输出为重构的隐含表达变量
Figure GDA0002024372940000071
表达形式为:
Figure GDA0002024372940000072
其中,
Figure GDA0002024372940000073
是一个似然函数,使用深度神经网络建立,所述似然函数为流量数据类型变量yi、其他隐含变量zi'与第二解码器参数γ的函数。
3、优化第二编码器与第二解码器。
优化第二编码器与第二解码器同样需要构造模型的变分下界,进而采用SGVB方法进行梯度下降优化求取参数的最优值。训练半监督流量分类模块时,分别针对有标签网络流量数据和无标签网络流量数据构造其优化目标函数:
1)对于有标签网络流量数据,流量数据类型变量yi为已知值,其变分下界为L(θ,φ;xi)的一种扩展形式,表示为:
Figure GDA0002024372940000074
其中,
Figure GDA00020243729400000813
为关于后验概率分布qω(zi'|zi)的期望,KL(qω(zi'|zi)||pγ(zi'))表示qω(zi'|zi)与pγ(zi')的KL散度;pγ(zi')和pγ(yi)用于约束第二编码器的其他隐含变量zi'与网络流量类型变量yi尽量地逼近已知先验分布形式,具体地,pγ(zi')=N(zi'|0,I),pγ(yi)为一随机初始化的多项式分布。
2)对于未标签网络流量数据,流量数据类型变量yi也被视作关于隐含表达特征zi的后验概率分布,则此时输入隐含特征zi,得到关于yi,zi'的联合后验概率分布qω(yi,zi'|zi)(即qω(zi'|zi)与qω(yi|zi)的乘积),具有不确定性,其变分下界为:
Figure GDA0002024372940000081
其中pγ(zi',yi)用于约束第二编码器其他隐含变量zi'与网络流量类型变量yi尽量地逼近已知先验分布形式,其为pγ(zi')与pγ(yi)的联合分布形式。H(qω(yi|zi))表示整个数据集的熵。
定义整个数据集中有标签网络流量数据和无标签网络流量数据的分布分别为
Figure GDA0002024372940000082
Figure GDA0002024372940000083
则整个数据集的变分下界为:
Figure GDA0002024372940000084
为了提高模型的分类准确性,添加有标签网络流量数据的监督分类误差后,则半监督流量分类模块的整体优化目标函数为:
Figure GDA0002024372940000085
其中,
Figure GDA0002024372940000086
为有标签网络流量数据进行有监督分类时的损失函数,α为惩罚因子,用于调整有监督损失函数与半监督损失函数的比例。后验概率分布qω(yi,zi'|zi),qω(zi'|zi)为高斯分布形式,需要使其分别趋近于分布形式pγ(zi',yi)和pγ(zi'),可以通过KL散度公式计算得出;重构误差项
Figure GDA0002024372940000087
为已知的yi与zi',重构输出
Figure GDA0002024372940000088
时的损失;通过重参数化方法进行求取梯度
Figure GDA0002024372940000089
Figure GDA00020243729400000810
这一过程的原理与前文类似,故不再赘述。
根据求得的梯度更新第二编码器参数ω与第二解码器参数γ:
Figure GDA00020243729400000811
Figure GDA00020243729400000812
其中,β为参数更新步长;ωold、ωnew分别为更新前、后的第二编码器参数ω;γold、γnew分别为更新前、后的第二解码器参数γ。
4、流量分类预测。
当第二编码器与第二解码器通过上述方式优化完毕后,可以通过第二编码器对输入的隐含表达特征进行分类预测,从而得到相应网络流量数据对应的类别。
本发明实施例上述方案,解决了传统基于规则的方法面临的动态端口、加密流量等问题;不依赖于人为制定的流统计特征,而是采用基于深度学习的方法从原始网络流量中自动提取表达特征,新的特征空间不仅具有较低的维度且在该空间上不同种类的网络流量更易区分开来;克服了实际场景下,有标签网络流量数据难以获取而导致模型泛化能力差的问题,仅采用少量有标签网络流量数据和大量无标签网络流量数据即可对整个模型完成训练。综上所述,本发明提供了一种更为智能且符合实际场景的流量识别方法。
为了说明本发明上述方案的效果,下面结合具体示例进行说明。
如图5所示,为流量分类示例的示意图。首先采用交换机镜像技术旁路出部分网络流量,形成pacp文件存在本地。采用Tcpdump技术将pacp文件按五元组(源ip,目的ip,源端口,目的端口,协议号)分为网络数据流的形式。预先采用DPI技术对少量网络流量进行类型标注,如每类100条流量带有标签,将有标签流量和大量无标签流量混合形成数据集,有标签网络流量数据的数量大致占数据集总数的1%。首先用特征提取模块对数据集进行处理,我们选取每条流量中的前784个字节经归一化处理后作为原始高维输入,设置表达特征维数为20维,在进行智能提取特征的同时实现特征降维。采用SGVB算法不断更新模型参数,直至模型收敛,训练完成后,该模块中的第一编码器即可完成特征提取工作。
随后将提取的20维特征作为半监督流量分类模块的输入,对于已知标签,采用one-hot编码(独热编码)进行处理,对于未知标签,随机设置为相同维度的隐含变量,随学习过程不断更新。采用SGVB算法不断更新模型参数,直至模型收敛,训练完成后,该模块中的第二编码器即可完成流量分类工作,对输入的未知类型网络流量,判断其类型。
本发明在网络流量数据集ISCX-VPN、USTC-TFC2016上进行了验证,其验证效果主要分为以下几部分:
①网络流量特征提取.
如图6所示,原始网络流量经特征提取模块映射到二维空间后,在二维空间上有较好的聚类效果,即具有相同内在特征的流量聚合在一起,不同类型的流量具有较大区分度。因此,经该模块处理过的流量比原始数据更具有区分度,为后续的分类工作打下了基础。
②流量识别准确度验。
如图7所示,本发明共在4个数据集上进行了验证。其中,ISCX-vpn为协议级别数据集,包含6种不同协议类型的网络流量;USTC-Normal Traffic和USTC-Malware Traffic为应用级别数据集,分别包含10种不同的正常应用和10种异常攻击;USTC AnomalyDetection为异常检测级别数据集,包含正常和异常两种流量。
验证结果显示,当所选标注流量为每种类型20条(不足整个数据集的1%)时,四个数据集的准确率都可达85以上,当标签流量增加到每种类型50条(约占整个数据集1%)时,四个数据集的准确率都升至90%以上,当标签流量增加到每种类型200条(约占整个数据集的3%)时,四个数据集的准确率都升至95%以上,接近监督学习方法的识别结果。其中,分类器在USTC Anomaly Detection数据集上表现最好,可100%区分正常和异常流量,说明该发明在网络异常检测方面有较好的表现和应用前景。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种半监督网络流量分类方法,其特征在于,包括:
预先使用一定数量的网络流量数据无监督的训练特征提取模块,以及使用若干有标签网络流量数据和一定数量的无标签网络流量数据无监督的训练半监督流量分类模块;
利用训练好的特征提取模块从原始网络流量数据中提取隐含表达特征,再利用训练好的半监督流量分类模块,基于提取到的隐含表达特征对相应原始网络流量数据进行分类;
其中,采用变分自动编码器作为特征提取模块,变分自动编码器的目标是实现样本重构;对特征提取模块进行训练的目的是最小化重构误差;所述特征提取模块包括:第一编码器与第一解码器;所述第一编码器将原始网络流量数据从高维空间映射至低维的特征空间;所述第一解码器将数据从低维的特征空间重构至高维空间;
所述半监督流量分类模块认为所有网络流量都是由两部分变量共同生成:流量数据类型变量和其他隐含变量;所述半监督流量分类模块包括:第二编码器与第二解码器;所述第二编码器的输入为隐含表达特征,输出为流量数据类型变量和其他隐含变量;所述第二解码器输入为流量数据类型变量和其他隐含变量,输出为重构的隐含表达特征;优化第二编码器与第二解码器需要构造模型的变分下界,进而采用SGVB方法进行梯度下降优化求取参数的最优值;训练半监督流量分类模块时,分别针对有标签网络流量数据和无标签网络流量数据构造其优化目标函数。
2.根据权利要求1所述的一种半监督网络流量分类方法,其特征在于,所述第一编码器为概率编码器,其输入为原始网络流量,输出为关于隐含表达特征的后验概率分布,定义为表达特征分布;
将网络流量数据建模为如下集合形式:(X,Y)={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure FDA0002557456710000011
表示第i条网络流量数据,N网络流量数据总数,yi∈{1,...,L}表示第i条网络流量数据的类型,第i条网络流量数据隐含表达特征记为zi
选择高斯分布N(.)作为隐含表达特征的后验概率分布的约束形式:
qφ(zi|xi)=N(ziφ(xi),diag(σ2(xi)))
概率编码器使用深度神经网络建立,输入为网络流量数据xi,输出为高斯分布的参数,高斯分布的均值μφ(xi)与方差diag(σφ 2(xi)均为关于网络流量数据xi和概率编码器参数φ的函数。
3.根据权利要求2所述的一种半监督网络流量分类方法,其特征在于,所述第一解码器为概率解码器,其输入为网络流量数据隐含表达特征zi,输出为重构后的网络流量数据
Figure FDA0002557456710000021
概率解码器的表达形式为:
Figure FDA0002557456710000022
其中,
Figure FDA0002557456710000023
是一个似然函数,使用深度神经网络建立,所述似然函数为网络流量数据隐含表达特征zi与概率解码器参数θ的函数。
4.根据权利要求3所述的一种半监督网络流量分类方法,其特征在于,训练特征提取模块也即优化概率编码器参数φ以及概率解码器参数θ;
采用随机梯度变分贝叶斯方法来优化概率编码器参数φ以及概率解码器参数θ,利用对数最大似然法,最大化如下对数似然函数:
Figure FDA0002557456710000024
其中,pθ(xi)是似然函数,表示在参数θ下网络流量数据xi的出现概率;
定义给定输入xi时,在概率解码器参数θ下得到的关于zi的概率分布为pθ(zi|xi),概率编码器的qφ(zi|xi)用来近似pθ(zi|xi);采用KL散度衡量qφ(zi|xi)与pθ(zi|xi)的相似程度,即KL(qφ(zi|xi)||pθ(zi|xi)),则有:
logpθ(xi)=KL(qφ(zi|xi)||pθ(zi|xi))+L(θ,φ;xi)
其中,
Figure FDA0002557456710000025
当qφ(zi|xi)与pθ(zi|xi)一致时,KL散度为0,则logpθ(xi)≥L(θ,φ;xi),L(θ,φ;xi)称为对数似然函数的变分下界;
将L(θ,φ;xi)看作由KL散度约束项KL(qφ(zi|xi)||pθ(zi))和重构误差项
Figure FDA0002557456710000026
组成;
KL散度约束项通过下式计算:
Figure FDA0002557456710000027
其中,KL为KL散度符号,N(0,I)表示标准正态分布;
计算重构误差项时,对网络流量数据隐含表达特征zi重参数化处理,构造zi=gφ(ε,xi)=μφ(xi)+σφ(xi)⊙ε,其中ε~N(0,1),为从标准高斯分布中采样得到的一个值,gφ(.)为构造的与概率编码器参数φ相关的函数;通过重参数化能够对参数进行求导优化,同时保留从表达特征分布中随机采样的能力;确保目标函数可导后,求取梯度:
Figure FDA0002557456710000031
其中,M表示估算梯度所需的采样次数,▽{θ,φ}表示梯度,求取的梯度▽{θ,φ}L(θ,φ;xi)包含了梯度▽θL(θ,φ;xi)与▽φL(θ,φ;xi);
根据求得的梯度更新概率编码器参数φ以及概率解码器参数θ:
θnew=θold+β·▽θL(θ,φ;xi)
φnew=φold+β·▽φL(θ,φ;xi)
其中,β为参数更新步长;φold、φnew分别为更新前、后的概率编码器参数φ;θold、θnew分别为更新前、后的概率解码器参数θ。
5.根据权利要求1所述的一种半监督网络流量分类方法,其特征在于,所述第二编码器输入的隐含表达特征记为zi,也即第i条网络流量数据隐含表达特征,输出的流量数据类型变量和其他隐含变量分别记为yi与zi';
选取高斯分布N(.)作为其他隐含变量zi'的约束形式:
qω(zi'|zi)=N(ziω(zi),diag(σω 2(zi)))
选取多项式分布作为流量数据类型变量yi的约束形式:
qω(yi|zi)=Cat(yiω(zi))
其中,Cat(yiφ(zi))是一个多项式分布,对于有标签网络流量数据,该项为固定值不需要进行更新学习;对于无标签网络流量数据,该项被视为隐含变量,需要由深度神经网络推断得出;高斯分布的均值μω(zi)与diag(σω 2(zi)以及多项式分布参数πφ(zi)均为关于zi和第二编码器参数φ的函数。
6.根据权利要求5所述的一种半监督网络流量分类方法,其特征在于,所述第二解码器的表达形式为:
pθ(zi'|yi,zi)=f(zi;y,zi',θ)
其中,pθ(zi'|yi,zi)是一个似然函数,使用深度神经网络建立,所述似然函数为流量数据类型变量yi、其他隐含变量zi'与第二解码器参数θ的函数。
7.根据权利要求6所述的一种半监督网络流量分类方法,其特征在于,训练半监督流量分类模块时,分别针对有标签网络流量数据和无标签网络流量数据构造其优化目标函数:
对于有标签网络流量数据,流量数据类型变量yi为已知值,其变分下界为:
Figure FDA0002557456710000041
其中,KL(qω(zi'|zi)||pγ(zi'))表示qω(zi'|zi)与pγ(zi')的KL散度;pγ(z')和pγ(yi)用于约束第二编码器的其他隐含变量zi'与网络流量类型向量yi尽量地逼近与已知先验分布形式;
对于未标签网络流量数据,流量数据类型变量yi也被视作关于隐含表达特征zi的后验概率分布,则此时输入隐含特征zi,得到关于yi与zi'的联合后验概率分布qω(yi,zi'|zi),也即qω(zi'|zi)与qω(yi|zi)的乘积,其变分下界为:
Figure FDA0002557456710000042
其中,pγ(zi',yi)为pγ(zi')与pγ(yi)的联合分布形式;H(qω(yi|zi))表示整个数据集的熵;
定义整个数据集中有标签网络流量数据和无标签网络流量数据的分布分别为
Figure FDA0002557456710000043
Figure FDA0002557456710000044
则整个数据集的变分下界为:
Figure FDA0002557456710000045
添加有标签网络流量数据的监督分类误差后,则半监督流量分类模块的整体优化目标函数为:
Figure FDA0002557456710000046
其中,
Figure FDA0002557456710000047
为有标签网络流量数据进行有监督分类时的损失函数,α为惩罚因子;qω(yi,zi'|zi),qω(zi'|zi)为高斯分布形式,通过KL散度公式计算得出;
重构误差项
Figure FDA0002557456710000048
为已知的yi与zi',重构输出
Figure FDA0002557456710000049
时的损失;最终通过重参数化方法能够求取出梯度▽ωL与▽γL
再根据求得的梯度更新第二编码器参数ω与第二解码器参数γ:
ωnew=ωold+β·▽ωL
γnew=γold+β·▽γL
其中,β为参数更新步长;ωold、ωnew分别为更新前、后的第二编码器参数ω;
γold、γnew分别为更新前、后的第二解码器参数γ。
CN201910161343.9A 2019-03-04 2019-03-04 半监督网络流量分类方法 Active CN109831392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910161343.9A CN109831392B (zh) 2019-03-04 2019-03-04 半监督网络流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910161343.9A CN109831392B (zh) 2019-03-04 2019-03-04 半监督网络流量分类方法

Publications (2)

Publication Number Publication Date
CN109831392A CN109831392A (zh) 2019-05-31
CN109831392B true CN109831392B (zh) 2020-10-27

Family

ID=66865123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910161343.9A Active CN109831392B (zh) 2019-03-04 2019-03-04 半监督网络流量分类方法

Country Status (1)

Country Link
CN (1) CN109831392B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691100B (zh) * 2019-10-28 2021-07-06 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN111343147B (zh) * 2020-02-05 2020-12-11 北京中科研究院 一种基于深度学习的网络攻击检测装置及方法
CN111401447B (zh) * 2020-03-16 2023-04-07 腾讯云计算(北京)有限责任公司 一种基于人工智能的流量作弊识别方法、装置、电子设备
CN111585997B (zh) * 2020-04-27 2022-01-14 国家计算机网络与信息安全管理中心 一种基于少量标注数据的网络流量异常检测方法
CN111711633B (zh) * 2020-06-22 2021-08-13 中国科学技术大学 多阶段融合的加密流量分类方法
CN111797935B (zh) * 2020-07-13 2023-10-31 扬州大学 基于群体智能的半监督深度网络图片分类方法
CN111988237A (zh) * 2020-07-31 2020-11-24 中移(杭州)信息技术有限公司 流量识别方法、装置、电子设备及存储介质
CN111988306B (zh) * 2020-08-17 2021-08-24 北京邮电大学 基于变分贝叶斯的网内DDoS攻击流量检测方法和系统
CN113032778B (zh) * 2021-03-02 2021-09-21 四川大学 一种基于行为特征编码的半监督网络异常行为检测方法
CN113222983A (zh) * 2021-06-03 2021-08-06 北京有竹居网络技术有限公司 图像处理方法、装置、可读介质和电子设备
CN116383771B (zh) * 2023-06-06 2023-10-27 云南电网有限责任公司信息中心 基于变分自编码模型的网络异常入侵检测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611706A (zh) * 2012-03-21 2012-07-25 清华大学 一种基于半监督学习的网络协议识别方法及系统
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN104657743A (zh) * 2015-01-23 2015-05-27 南京邮电大学 一种半监督的最小最大模块化模式分类方法
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11580375B2 (en) * 2015-12-31 2023-02-14 Kla-Tencor Corp. Accelerated training of a machine learning based model for semiconductor applications
US20180007578A1 (en) * 2016-06-30 2018-01-04 Alcatel-Lucent Usa Inc. Machine-to-Machine Anomaly Detection
US10805338B2 (en) * 2016-10-06 2020-10-13 Cisco Technology, Inc. Analyzing encrypted traffic behavior using contextual traffic data
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611706A (zh) * 2012-03-21 2012-07-25 清华大学 一种基于半监督学习的网络协议识别方法及系统
CN102685016A (zh) * 2012-06-06 2012-09-19 济南大学 互联网流量区分方法
CN104657743A (zh) * 2015-01-23 2015-05-27 南京邮电大学 一种半监督的最小最大模块化模式分类方法
CN107819698A (zh) * 2017-11-10 2018-03-20 北京邮电大学 一种基于半监督学习的网络流量分类方法、计算机设备
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法

Also Published As

Publication number Publication date
CN109831392A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109831392B (zh) 半监督网络流量分类方法
Cao et al. An accurate traffic classification model based on support vector machines
Mahdavifar et al. Application of deep learning to cybersecurity: A survey
Salman et al. A review on machine learning–based approaches for Internet traffic classification
Wang et al. Improving fairness in graph neural networks via mitigating sensitive attribute leakage
Wang et al. Real network traffic collection and deep learning for mobile app identification
Yang et al. Skeletonnet: A hybrid network with a skeleton-embedding process for multi-view image representation learning
Hu et al. CLD-Net: a network combining CNN and LSTM for internet encrypted traffic classification
CN111565156B (zh) 一种对网络流量识别分类的方法
Wang et al. Automatic mobile app identification from encrypted traffic with hybrid neural networks
CN109525508A (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
CN110351303B (zh) 一种DDoS特征提取方法及装置
CN116662817A (zh) 物联网设备的资产识别方法及系统
Wang et al. Symmetric pruning in quantum neural networks
CN115277189A (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
Ba et al. Transferring audio deepfake detection capability across languages
Zheng et al. Steganographer detection based on multiclass dilated residual networks
CN114301850A (zh) 一种基于生成对抗网络与模型压缩的军用通信加密流量识别方法
Obasi et al. CARD-B: A stacked ensemble learning technique for classification of encrypted network traffic
Atashin et al. Variational leakage: The role of information complexity in privacy leakage
Li et al. FlowGANAnomaly: Flow-Based Anomaly Network Intrusion Detection with Adversarial Learning
Li et al. Self-supervised nodes-hyperedges embedding for heterogeneous information network learning
CN114358177B (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
Li et al. A study on customer churn of commercial banks based on learning from label proportions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231116

Address after: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee after: University of Science and Technology of China

Patentee after: Zhang Yongdong

Patentee after: Yang Jian

Patentee after: Chen Shuangwu

Patentee after: Zheng Quan

Patentee after: Tan Xiaobin

Patentee after: Jiang Xiaofeng

Patentee after: Yang Feng

Patentee after: He Huasen

Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee before: University of Science and Technology of China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240411

Address after: 230000 96 Jinzhai Road, Hefei City, Anhui Province

Patentee after: Zhang Yongdong

Country or region after: China

Patentee after: Yang Jian

Patentee after: Chen Shuangwu

Patentee after: Zheng Quan

Patentee after: Tan Xiaobin

Patentee after: Jiang Xiaofeng

Patentee after: Yang Feng

Patentee after: He Huasen

Address before: 230026 Jinzhai Road, Baohe District, Hefei, Anhui Province, No. 96

Patentee before: University of Science and Technology of China

Country or region before: China

Patentee before: Zhang Yongdong

Patentee before: Yang Jian

Patentee before: Chen Shuangwu

Patentee before: Zheng Quan

Patentee before: Tan Xiaobin

Patentee before: Jiang Xiaofeng

Patentee before: Yang Feng

Patentee before: He Huasen

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240428

Address after: 230088, Building F5, Building 202, Kunpeng Building, Zhong'an Chuanggu Phase II, High tech Zone, Hefei City, Anhui Province

Patentee after: Hefei Wangyi Technology Co.,Ltd.

Country or region after: China

Address before: 230000 96 Jinzhai Road, Hefei City, Anhui Province

Patentee before: Zhang Yongdong

Country or region before: China

Patentee before: Yang Jian

Patentee before: Chen Shuangwu

Patentee before: Zheng Quan

Patentee before: Tan Xiaobin

Patentee before: Jiang Xiaofeng

Patentee before: Yang Feng

Patentee before: He Huasen