CN109981335B - 组合型类不均衡流量分类的特征选择方法 - Google Patents

组合型类不均衡流量分类的特征选择方法 Download PDF

Info

Publication number
CN109981335B
CN109981335B CN201910077766.2A CN201910077766A CN109981335B CN 109981335 B CN109981335 B CN 109981335B CN 201910077766 A CN201910077766 A CN 201910077766A CN 109981335 B CN109981335 B CN 109981335B
Authority
CN
China
Prior art keywords
feature
attribute
network traffic
class
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910077766.2A
Other languages
English (en)
Other versions
CN109981335A (zh
Inventor
唐宏
刘丹
姚立霜
王云锋
裴作飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910077766.2A priority Critical patent/CN109981335B/zh
Publication of CN109981335A publication Critical patent/CN109981335A/zh
Application granted granted Critical
Publication of CN109981335B publication Critical patent/CN109981335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种组合型类不均衡流量分类的特征选择方法,采用非搜索型算法利用加权对称不确定性WSU来计算类别与特征之间的相关度,根据特征之间的WSU滤除冗余特征,从而得到第一目标特征集合,可以显著降低后续特征子集筛选的计算复杂度,然后采用SFS算法进一步降低特征的维数,直到特征数增加到指定的维数为止,这样就可以减小样本分布不平衡问题给网络流量分类带来的不良影响,选择出具有强区分能力的特征集合,从而可以显著提高网络流量的分类精度。

Description

组合型类不均衡流量分类的特征选择方法
技术领域
本发明涉及网络流量分类技术领域,更具体地说,涉及一种组合型类不均衡流量分类的特征选择方法。
背景技术
随着互联网的飞速发展,网络覆盖范围不断扩大,网络应用种类不断增多。这些变化在给人们的生活带来便利的同时,也给网络的运营管理带来了巨大的挑战。网络研究人员提出了一系列的措施来保证网络的健康运行,但无论是基于用户需求实现业务的高效承载,还是根据网络应用的发展趋势对现有的网络进行扩容改造,都必须对网络流量中的各种应用进行准确的分类与识别。此外,在入侵检测等领域,网络流量分类具有极其重要的意义。
网络流量分类是指基于TCP/IP协议的Internet中,按照网络的应用类型(HTTP、DNS、FTP、P2P等),将网络通信产生的双向TCP流或UDP流进行分类。在对网络流量进行分类前,通常需要对数据进行预处理。在数据预处理时,一般会对流量特征进行降维,因为网络流量的特征一般都是高维的,其中包含大量的无关特征和冗余特征,这些特征可能会降低分类器的性能。特征选择是实现特征降维的一种方式,其目的就是从一组给定的特征集合中挑选出部分特征作为最优特征子集。
目前对特征选择方法的研究主要集中于搜索策略和评价准则。1)按照搜索策略,可以将特征选择算法分为全局最优搜索策略、随机搜索策略以及启发式搜索策略3类。全局最优搜索策略是对原始特征集的全部特征进行搜索,从而发现相关性强的特征,构建最佳分类效果的特征子集,但是此算法处理高维多类问题时运算效率低,且难以事先确定最优子集的特征数目,难以设计满足要求的评价准则;随机搜索策略通过设定阀值和迭代次数,对原始特征集进行特征选择,选择特征分类相关性紧密的特征子集,此类算法需要设定一些参数,参数的选择对最后结果的影响较大;启发式搜索策略相对来说较好实现,在整个搜索过程中搜索空间相对较小,能够对原始特征子集进行快速的搜索,选择出最佳的特征子集,但是此类算法以牺牲全局最优为代价获得较高的运算速率,在计算复杂度与最优解之间折中。2)根据评价策略可以将特征选择算法分为三大类:滤波式(Filter)、封装式(Wrapper)和嵌入式(Embedded)。三者的区别在于是否使用后续学习算法来评价特征子集的性能。Filter方法与后续的学习算法无关,Wrapper方法则需要利用后续的学习算法进行特征评估,Embedded方法则将特征选择融入到后续学习算法中。
现有的大部分传统特征选择方法是以提高分类精度为优化目标,没有充分考虑数据样本的分布状况,且普遍追求大类的学习效果,容易忽略小类的学习性能。
发明内容
为解决上述技术问题,本发明提供一种组合型类不均衡流量分类的特征选择方法。
本发明采用的技术方案是:
一种组合型类不均衡流量分类的特征选择方法,包括:
S1:对网络流量样本数据进行统计得到统计结果,每一条网络流量对应的样本数据包括该网络流量所属的类别信息以及多个属性特征的取值;
S2:根据所述统计结果计算网络流量类别与各属性特征之间的相关度,并基于所述相关度从多个属性特征中进行筛选得到第一目标特征集合;
S3:将第二目标特征集合初始化为空集;
S4:计算所述第一目标特征集合中每一属性特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的属性特征加入所述第二目标特征集合;
S5:针对所述第一目标特征集合中当前未选入所述第二目标特征集合中的每一未入选属性特征,分别将其与当前所述第二目标特征集合中的属性特征进行匹配,得到与每一未入选属性特征对应的组合特征;
S6:计算各组合特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的未入选属性特征加入所述第二目标特征集合;
S7:判断所述第二目标特征集合中的属性特征的数量是否达到预设数量阈值,如是,转至S8,否则,转至S5;
S8:将当前所述第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。
可选的,所述网络流量样本数据为Moore公开数据集中的数据。
可选的,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值。
可选的,所述步骤S2中通过公式
Figure BDA0001959426970000031
计算网络流量类别与每一属性特征之间的相关度,其中,X表示网络流量类别,Y为一种属性特征,
IGw(X|Y)=Hw(X)-Hw(X|Y),
Figure BDA0001959426970000032
Figure BDA0001959426970000033
Figure BDA0001959426970000034
p(xi,yj)表示网络流量类别X为xi与属性特征Y取值为yj的联合概率,p(xi)表示网络流量类别X取xi的概率,p(yj)表示属性特征Y取值为yj的概率,p(xi|yj)表示属性特征Y取值为yj的条件下网络流量类别X为xi的概率,
Figure BDA0001959426970000035
N为网络流量样本数,ni为网络流量样本中类别xi对应的样本数。
可选的,所述步骤S2包括:
S21:将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较;
S22:筛选出相关度大于相关度门限阈值δ的属性特征。
可选的,在步骤S22之后,还包括:
S23:将网络流量类别X与步骤S22中筛选出来的各属性特征fm之间的相关度按照从小到大的顺序排列,并依次计算每个属性特征fm与排序中小于WSU(X,fm)的其他所有属性特征fn之间的相关度;
S24:针对步骤S22中得到的属性特征,如果WSU(fm,fn)>WSU(X,fn),则删除对应的fn,从而得到所述第一目标特征集合。
可选的,所述步骤S23中通过公式
Figure BDA0001959426970000041
计算属性特征fm与属性特征fn之间的相关度,其中,
IGw(fm|fn)=Hw(fm)-Hw(fm|fn),
Figure BDA0001959426970000042
Figure BDA0001959426970000043
Hw(fm|fn)=Hw(fm,fn)-Hw(fn),
Figure BDA0001959426970000044
p(f’im,f’in)表示属性特征fm的取值为f’im,属性特征fn的取值为f’in的联合概率,p(xi,f’im,f’in)表示在类别xi中属性特征fm的取值为f’im,属性特征fn的取值为f’in的联合概率,p(xi,f’in)表示网络流量类别X取xi与属性特征fn的取值为f’in的联合概率,p(xi,f’im)表示网络流量类别X取xi与属性特征fm的取值为f’im的联合概率,p(f’in)表示属性特征fn的取值为f’in的概率,p(f’im)表示属性特征fm的取值为f’im的概率,f’in表示类别xi下属性特征fn的取值,f’im表示类别xi下属性特征fm的取值。
可选的,所述步骤S4中通过公式
Figure BDA0001959426970000051
计算所述第一目标特征集合中每一属性特征的特征评估函数值,其中,X表示网络流量样本所含的类别,μi和μj分别表示第i类和第j类的类内特征向量均值,σi 2和σj 2分别表示第i类和第j类的类内方差。
本发明提供的组合型类不均衡流量分类的特征选择方法,采用非搜索型算法计算网络流量类别与各属性特征之间的相关度,并基于相关度从多个属性特征中进行筛选得到第一目标特征集合,然后针对第一目标特征集合采用SFS算法进一步降低特征的维数,直到特征数增加到指定的维数为止,这样就可以减小样本分布不平衡问题给网络流量分类带来的不良影响,选择出具有强区分能力的特征集合,从而可以显著提高网络流量的分类精度;
进一步地,在得到第一目标特征集合的过程中利用加权对称不确定性WSU来计算类别与特征之间的相关性,根据特征之间的WSU滤除冗余特征,可以显著降低后续特征子集筛选的计算复杂度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例提供的组合型类不均衡流量分类的特征选择方法的第一流程示意图;
图2为本发明实施例提供的组合型类不均衡流量分类的特征选择方法的第二流程示意图;
图3为得到第一目标特征集合以及第二目标特征集合的细化流程示意图。
具体实施方式
本实施例提供一种组合型类不均衡流量分类的特征选择方法,请参见图1所示,包括:
S1:对网络流量样本数据进行统计得到统计结果,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值。
可选的,流量样本数据为Moore公开数据集中的数据。具体的,可以从网络中下载Moore公开数据集,在所有数据流中随机选取其中2/3为训练集,剩余1/3为测试集。数据集中各个应用类别及其数据流数量如下面的表1所示:
表1
Figure BDA0001959426970000061
每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值,比如包括流持续的时间、源/目的端口、分组到达时间的间隔(最大/最小值、平均值)、分组长度(最大/最小值、平均值)等。
S2:根据统计结果计算网络流量类别与各属性特征之间的相关度,并基于相关度从多个属性特征中进行筛选得到第一目标特征集合。
可选的,所述步骤S2中可以采用FCBF算法,利用以下公式:
Figure BDA0001959426970000062
计算网络流量类别与每一属性特征之间的相关度,其中,X表示网络流量类别,Y为一种属性特征。
给定网络流量类别xi,网络流量样本数为N,权值定义为:
Figure BDA0001959426970000063
其中,ni为网络流量样本中类别xi对应的样本数,识别小类别的特征度量的权值较高,这有益于特征度量偏向于小类别,使得识别小类别的特征易于被选择出来。
属性特征Y的加权熵定义为:
Figure BDA0001959426970000071
网络流量类别X的加权熵定义为:
Figure BDA0001959426970000072
在属性特征Y发生的前提下,网络流量类别X的加权条件熵定义为:
Figure BDA0001959426970000073
加权互信息量为:
IGw(X|Y)=Hw(X)-Hw(X|Y) (5)
因此网络流量类别X与属性特征Y之间的相关度(即加权对称不确定性)为:
Figure BDA0001959426970000074
p(xi,yj)表示网络流量类别X为xi与属性特征Y取值为yj的联合概率,p(xi)表示网络流量类别X取xi的概率,p(yj)表示属性特征Y取值为yj的概率,p(xi|yj)表示属性特征Y取值为yj的条件下网络流量类别X为xi的概率,这些概率值都可以根据统计结果计算得到。
请参见图2所示,步骤S2中可以包括以下步骤:
S21:将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较。
S22:筛选出相关度大于相关度门限阈值δ的属性特征。
在一种实施例中可以直接将步骤S22中筛选出来的属性特征组成的集合作为第一目标特征集合,在另外一种实施例中,在步骤S22以后,还可以包括以下步骤:
S23:将网络流量类别X与步骤S22中筛选出来的各属性特征fm之间的相关度按照从小到大的顺序排列,并依次计算每个属性特征fm与排序中小于WSU(X,fm)的其他所有属性特征fn之间的相关度。
S24:针对步骤S22中得到的属性特征,如果WSU(fm,fn)>WSU(X,fn),则删除对应的fn,从而得到第一目标特征集合。
本实施例中的步骤S23中可以通过以下公式计算属性特征fm与属性特征fn之间的相关度:
Figure BDA0001959426970000081
其中,IGw(fm|fn)=Hw(fm)-Hw(fm|fn),
Figure BDA0001959426970000082
Figure BDA0001959426970000083
Hw(fm|fn)=Hw(fm,fn)-Hw(fn),
Figure BDA0001959426970000084
p(f’im,f’in)表示属性特征fm的取值为f’im,属性特征fn的取值为f’in的联合概率,p(xi,f’im,f’in)表示在类别xi中属性特征fm的取值为f’im,属性特征fn的取值为f’in的联合概率,p(xi,f’in)表示网络流量类别X取xi与属性特征fn的取值为f’in的联合概率,p(xi,f’im)表示网络流量类别X取xi与属性特征fm的取值为f’im的联合概率,p(f’in)表示属性特征fn的取值为f’in的概率,p(f’im)表示属性特征fm的取值为f’im的概率,f’in表示类别xi下属性特征fn的取值,f’im表示类别xi下属性特征fm的取值。
S3:将第二目标特征集合初始化为空集。
S4:计算第一目标特征集合中每一属性特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的属性特征加入第二目标特征集合。
可选的,步骤S4中可以通过公式
Figure BDA0001959426970000091
计算第一目标特征集合中每一属性特征的特征评估函数值,其中,X表示网络流量样本所含的类别,μi和μj分别表示第i类和第j类的类内特征向量均值,σi 2和σj 2分别表示第i类和第j类的类内方差,(μij)2代表各类别之间的差异性,σi 2j 2代表的是各自类内的分布一致性。
S5:针对第一目标特征集合中当前未选入第二目标特征集合中的每一未入选属性特征,分别将其与当前第二目标特征集合中的属性特征进行匹配,得到与每一未入选属性特征对应的组合特征。
网络流量样本中的每一个属性特征都有其对应的值,本实施例步骤S5中得到组合特征的过程实质上就是将第一目标特征集合中的每一未入选属性特征的对应值分别与第二目标特征集合中的属性特征的对应值相加,这样就可以得到与每一未入选属性特征对应的组合特征的值,然后再按照上述FDR的求解公式进行计算,就可以得到每一组合特征对应的特征评估函数值。
S6:计算各组合特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的未入选属性特征加入第二目标特征集合。
S7:判断第二目标特征集合中的属性特征的数量是否达到预设数量阈值,如是,转至S8,否则,转至S5。
S8:将当前第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。
本实施例在FCBF算法中引入了易于识别小类别的特征度量值WSU,使得该方法能够适用于样本分布不平衡状态下的网络流量分类,同时,采用FCBF作为预过滤器,计算类别与特征之间的WSU,将小于设定阈值δ的不相关特征删除,根据特征之间的WSU滤除冗余特征,显著降低了后续特征子集筛选的计算复杂度,在生成的新特征子集(第二目标特征集合)上,选用时间复杂度比较低的SFS算法,进一步降低特征的维数,直到特征数增加到指定的维数为止。这样就可以选出具有强区分能力的特征子集,从而显著提高网络流量分类精度,为了更好的理解发明提供的方案,下面对得到第一目标特征集合以及第二目标特征集合的过程进行更加具体的介绍,请参见图3所示,包括:
步骤1:初始化,F←(f1,...,fD),S←空集。
步骤1中将第一目标特征集合设置为空集,网络流量样本中的特征由集合F中的特征以及类别进行描述。
步骤2:根据公式(6)计算类别X与每个特征fi之间的加权对称不确定性WSU(X,fi),其中fi∈F。
步骤3:判断WSU(X,fi)是否大于相关度门限阈值δ,如是,转至步骤4,否则,转至步骤5。
步骤4:删除特征fi
步骤5:将选出的特征按照WSU(X,fi)降序排列后组成特征子集S*。
步骤6:判断S*是否为空集,如是,转至S42,如否,转至S37。
步骤7:选择S*中的第一个特征fj为显著特征。
步骤8:S←S∪{fj},S*←S*\{fj}。
步骤8中表示将fj加入集合S,并从集合S*中删除。
步骤9:对每一个fj计算fj与候选特征fi的加权对称不确定性WSU(fj,fi)。
步骤10:判断WSU(fj,fi)是否大于WSU(X,fi),如是,转至S41,否则,转至步骤6。
步骤11:S*←S*\{fi}。
步骤12:输出第一目标特征集合S。
步骤13:初始化:Fo←空集。
步骤13中将第二目标特征集合F0设置为空集。
步骤14:计算第一目标特征集合S(f1,f2,...,fn)中每一个特征fd的特征评估函数值FDR(fd)。
步骤15:若FDR(fa)=max{FDR(fd)},则把fa加入Fo,并将其从集合S中删除。
步骤16:将集合S中未入选的特征分别与集合Fo中的特征进行匹配,得到匹配后组合特征的评估函数值。
步骤17:将最大组合特征评估函数值对应的特征加入集合Fo,并将该特征从集合S中删除。
比如,对于第一次组合特征的评估函数值计算,应当将其余未入选的n-1个特征依次与已入选特征fa匹配,得到匹配后的组合特征的准则函数值FDR的大小按照升序排序,如果:
FDR(Fo∪{S1})>FDR(Fo∪{S2})>…>FDR(Fo∪{Sn-1});
则将能使FDR值最大的特征加入到目标特征子集Fo中,即Fo←Fo∪S1
步骤18:判断Fo中的特征的数量是否达到预设数量阈值L,如是,转至步骤19,否则,转至步骤16。
步骤19:输出集合Fo
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (7)

1.一种组合型类不均衡流量分类的特征选择方法,其特征在于,包括:
S1:对网络流量样本数据进行统计得到统计结果,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值;
S2:根据所述统计结果计算网络流量类别与各属性特征之间的相关度,并基于所述相关度从多个属性特征中进行筛选得到第一目标特征集合;
S3:将第二目标特征集合初始化为空集;
S4:计算所述第一目标特征集合中每一属性特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的属性特征加入所述第二目标特征集合;
所述步骤S4中通过公式
Figure FDA0003379584450000011
计算所述第一目标特征集合中每一属性特征的特征评估函数值FDR,其中,X表示网络流量样本所含的类别,μi和μj分别表示第i类和第j类的类内特征向量均值,σi 2和σj 2分别表示第i类和第j类的类内方差;
S5:针对所述第一目标特征集合中当前未选入所述第二目标特征集合中的每一未入选属性特征,分别将其与当前所述第二目标特征集合中的属性特征进行匹配,得到与每一未入选属性特征对应的组合特征;
S6:计算各组合特征的特征评估函数值,将当前计算得到的最大特征评估函数值对应的未入选属性特征加入所述第二目标特征集合;
S7:判断所述第二目标特征集合中的属性特征的数量是否达到预设数量阈值,如是,转至S8,否则,转至S5;
S8:将当前所述第二目标特征集合中的属性特征作为用于进行网络流量分类的特征。
2.如权利要求1所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述网络流量样本数据为Moore公开数据集中的数据。
3.如权利要求2所述的组合型类不均衡流量分类的特征选择方法,其特征在于,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及248个属性特征的取值。
4.如权利要求1所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S2中通过公式
Figure FDA0003379584450000021
计算网络流量类别与每一属性特征之间的相关度,其中,X表示网络流量类别,Y为一种属性特征,
Figure FDA0003379584450000022
Figure FDA0003379584450000023
Figure FDA0003379584450000024
p(xi,yj)表示网络流量类别X为xi与属性特征Y取值为yj的联合概率,p(xi)表示网络流量类别X取xi的概率,p(yj)表示属性特征Y取值为yj的概率,p(xi|yj)表示属性特征Y取值为yj的条件下网络流量类别X为xi的概率,
Figure FDA0003379584450000025
N为网络流量样本数,ni为网络流量样本中类别xi对应的样本数。
5.如权利要求4所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S2包括:
S21:将网络流量类别与每一属性特征之间的相关度与相关度门限阈值δ进行比较;
S22:筛选出相关度大于相关度门限阈值δ的属性特征。
6.如权利要求5所述的组合型类不均衡流量分类的特征选择方法,其特征在于,在步骤S22之后,还包括:
S23:将网络流量类别X与步骤S22中筛选出来的各属性特征fm之间的相关度按照从小到大的顺序排列,并依次计算每个属性特征fm与排序中小于WSU(X,fm)的其他所有属性特征fn之间的相关度;
S24:针对步骤S22中得到的属性特征,如果WSU(fm,fn)>WSU(X,fn),则删除对应的fn,从而得到所述第一目标特征集合。
7.如权利要求6所述的组合型类不均衡流量分类的特征选择方法,其特征在于,所述步骤S23中通过公式
Figure FDA0003379584450000031
计算属性特征fm与属性特征fn之间的相关度,其中,
IGw(fm|fn)=Hw(fm)-Hw(fm|fn),
Figure FDA0003379584450000032
Figure FDA0003379584450000033
Hw(fm|fn)=Hw(fm,fn)-Hw(fn),
Figure FDA0003379584450000034
p(f′im,f′in)表示属性特征fm的取值为f′im,属性特征fn的取值为f′in的联合概率,p(xi,f′im,f′in)表示在类别xi中属性特征fm的取值为f′im,属性特征fn的取值为f′in的联合概率,p(xi,f′in)表示网络流量类别X取xi与属性特征fn的取值为f′in的联合概率,p(xi,f′im)表示网络流量类别X取xi与属性特征fm的取值为f′im的联合概率,p(f′in)表示属性特征fn的取值为f′in的概率,p(f′im)表示属性特征fm的取值为f′im的概率,f′in表示类别xi下属性特征fn的取值,f′im表示类别xi下属性特征fm的取值。
CN201910077766.2A 2019-01-28 2019-01-28 组合型类不均衡流量分类的特征选择方法 Active CN109981335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910077766.2A CN109981335B (zh) 2019-01-28 2019-01-28 组合型类不均衡流量分类的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910077766.2A CN109981335B (zh) 2019-01-28 2019-01-28 组合型类不均衡流量分类的特征选择方法

Publications (2)

Publication Number Publication Date
CN109981335A CN109981335A (zh) 2019-07-05
CN109981335B true CN109981335B (zh) 2022-02-22

Family

ID=67076767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910077766.2A Active CN109981335B (zh) 2019-01-28 2019-01-28 组合型类不均衡流量分类的特征选择方法

Country Status (1)

Country Link
CN (1) CN109981335B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476100B (zh) * 2020-03-09 2023-11-14 咪咕文化科技有限公司 基于主成分分析的数据处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109194622A (zh) * 2018-08-08 2019-01-11 西安交通大学 一种基于特征效率的加密流量分析特征选择方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311956B2 (en) * 2009-08-11 2012-11-13 At&T Intellectual Property I, L.P. Scalable traffic classifier and classifier training system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN109194622A (zh) * 2018-08-08 2019-01-11 西安交通大学 一种基于特征效率的加密流量分析特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的流量分类算法研究;鲁刚;《博士学位论文》;20171231;全文 *

Also Published As

Publication number Publication date
CN109981335A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN107391713B (zh) 一种解决协同过滤推荐技术中冷启动问题的方法及系统
CN107835113B (zh) 一种基于网络映射的社交网络中异常用户检测方法
CN111144459B (zh) 一种类不平衡的网络流量分类方法、装置及计算机设备
CN103559504B (zh) 图像目标类别识别方法及装置
CN112269882B (zh) 一种面向知识图谱的旅游景点推荐方法
CN105022761B (zh) 群组查找方法和装置
CN103117903B (zh) 上网流量异常检测方法及装置
TW201909112A (zh) 圖像特徵獲取
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN105069424A (zh) 面部快速识别系统和方法
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
CN111343171A (zh) 一种基于支持向量机的混合特征选择的入侵检测方法
Yang et al. Semi-supervised feature selection for audio classification based on constraint compensated Laplacian score
Omran et al. Particle swarm optimization for pattern recognition and image processing
CN109981335B (zh) 组合型类不均衡流量分类的特征选择方法
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
Kishore et al. A Multi-class SVM Based Content Based Image Retrieval System Using Hybrid Optimization Techniques.
Ramalingam Bendlet transform based object detection system using proximity learning approach
CN114554491A (zh) 基于改进ssae和dnn模型的无线局域网入侵检测方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN111027609B (zh) 一种图像数据加权分类方法和系统
CN117236699A (zh) 一种基于大数据分析的网络风险识别方法及系统
Omran et al. Barebones particle swarm methods for unsupervised image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant