CN111144459A - 一种类不平衡的网络流量分类方法、装置及计算机设备 - Google Patents

一种类不平衡的网络流量分类方法、装置及计算机设备 Download PDF

Info

Publication number
CN111144459A
CN111144459A CN201911291144.6A CN201911291144A CN111144459A CN 111144459 A CN111144459 A CN 111144459A CN 201911291144 A CN201911291144 A CN 201911291144A CN 111144459 A CN111144459 A CN 111144459A
Authority
CN
China
Prior art keywords
feature
network traffic
attribute
features
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911291144.6A
Other languages
English (en)
Other versions
CN111144459B (zh
Inventor
唐宏
刘丹
姚立霜
王云锋
裴作飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911291144.6A priority Critical patent/CN111144459B/zh
Publication of CN111144459A publication Critical patent/CN111144459A/zh
Application granted granted Critical
Publication of CN111144459B publication Critical patent/CN111144459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络流量分类技术领域,涉及一种类不平衡的网络流量分类方法、装置及计算机设备;所述方法包括获取待分类的网络流量数据,并提取出网络流量的特征;采用特征选择算法删除不相关特征以及冗余特征,并对剩余的特征降维,从而选择出最优特征子集;将所述最优特征子集输入至基于权重的多分类器中,采用增量学习的方式,进行网络流量分类训练,优化分类器性能后,对网络流量进行分类。本发明针对网络流量样本分布不平衡问题,删除了不相关特征以及冗余特征,在保证整体分类准确度的前提下,有效提高小类别的识别率;引入增量学习思想,提高模型更新训练的灵活性,降低模型更新的周期;利用基于权重的多分类器,减小了概念漂移带来的影响。

Description

一种类不平衡的网络流量分类方法、装置及计算机设备
技术领域
本发明涉及网络流量分类技术领域,更具体地说,涉及一种类不平衡的网络流量分类方法、装置及计算机设备。
背景技术
根据产生网络流量的应用对流量进行分类对于保证网络QoS(Quality ofService)值、维护网络安全具有重要意义。借助网络流量分类,网络管理者可以实时将网络中所有流量按不同应用类型进行划分与分析,为部署服务质量控制(QoS)机制提供依据,并针对不同类型的应用提供不同的服务质量等级,从而减轻网络拥塞,确保关键业务服务质量,维持网络高效通畅运行。同时,依靠流量分类,网络服务提供商可以预测网络业务的发展趋势,合理的规划网络基础体系结构,使用户得到更好的上网体验。另外,在网络安全方面,流量分类是入侵检测系统(intrusion detection system,IDS)的核心部分。
传统基于端口号的流量分类技术通过检查分组的传输层端口号,然后根据IANA定制的知名端口号与注册端口号列表将分组与应用对应起来,而流行的P2P与被动FTP等新型网络应用普遍利用随机端口进行数据传输,进而导致基于端口的流量分类方法已不再适用。基于特征字段的流量分类技术根据网络应用在传输过程中所具有的特征来区分不同的应用,它需要解析数据包并获得特征字段,准确性较高,但随着应用负载加密和新型应用的不断涌现,该方法的有效性逐步下降。基于传输层主机行为的流量分类技术,不依赖于端口号和报文载荷,但传输层主机行为对网络环境异常敏感,分类效果不够稳定。而基于机器学习的网络流量分类技术是近年来的一个研究热点。
例如中国专利CN104767692A提出了一种网络流量分类方法,该方法通过对聚类算法加以改进,在聚类过程中加入了标注过的样本点,可以检测聚类中心是否选取得当,修正误差和错误;降低不符合实际情况的样本中心点,使得复杂度降低,提高了分类准确率。
还比如中国专利CN109063777A提出了一种网络流量分类方法、装置及实现装置,该申请对待分类的数据流进行标准化处理后,根据预先建立的流量分类模型,对该标准数据流进行分类,该方式提升了网络流量识别分类的效果,提高了效率。
但上述技术中的分类模型大多数都难以实现频繁、及时的更新,并且忽略了概念漂移现象,且没有充分考虑网络流量数据样本的分布状况,普遍追求大类的学习效果,容易忽略小类的学习性能;由于忽略了小类特征的重要性,容易将小类别错分大类别,导致网络流量分类效果参差不齐,效率较低;甚至造成网络系统的崩溃。
发明内容
基于上述技术存在的问题,本发明为了更好的获取网络流量数据特征,采用了特征选择算法对特征进行降维,从一组给定的特征集合中挑选出部分特征作为最优特征子集。为了解决数据样本类不平衡的情况,采用增量学习的方式,利用多分类器的集成,对网络流量数据进行分类;基于此,本发明提供一种类不平衡的网络流量分类方法、装置及计算机设备。
本发明采用的技术方案包括:
一种类不平衡的网络流量分类方法,所述方法包括:
获取待分类的网络流量数据,并提取出网络流量的特征;
采用特征选择算法删除不相关特征以及冗余特征,并对剩余的特征降维,从而选择出最优特征子集;
将所述最优特征子集输入至基于权重的多分类器中,采用增量学习的方式,进行网络流量分类训练,优化分类器性能后,对网络流量进行分类。
基于与本发明相同的构思,本发明提出了一种类不平衡的网络流量分类装置,包括:
数据流采集模块,用于采集待分类的网络数据流量;
特征选择模块,用于删除网络数据流量中不相关特征和冗余特征,并对选择出的剩余特征降维;
基于权重的多分类器,用于根据输入的最优特征子集,对网络流量分类训练,优化分类器性能后,对网络流量进行分类。
另外,本发明还提供了一种计算机设备,包括存储器,处理器以及存储在处理器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明提供的网络流量分类方法。
本发明的有益效果:
本发明提供的基于增量学习的类不平衡网络流量集成分类模型,针对网络流量样本分布不平衡问题,本发明引入了基于加权对称不确定性(Weighted SymmetricUncertainty,简称WSU)和近似马尔科夫毯(Approximate Markov Blanket,简称AMB)的特征选择算法删除了不相关特征以及冗余特征;为了克服传统网络流量分类模型难以实现频繁、及时更新的问题,引入增量学习思想,即每次只需要利用少量的新样本进行训练,提高模型更新训练的灵活性,降低模型更新的周期;为了尽量减少概念漂移现象带来的影响,利用基于权重的多分类器集成方法,在保证整体分类准确度的前提下,有效提高小类别的识别率。
附图说明
图1为本发明实施例提供的一种类不平衡的网络流量分类方法的总体框架图;
图2为本发明实施例提供的一种类不平衡的网络流量分类方法中特征选择的框架示意图;
图3为本发明实施例提供的采用特征选择阶段的流程示意图;
图4为本发明实施例提供的采用特征降维阶段的流程示意图;
图5为本发明实施例提供的多分类器的框架示意图;
图6为本发明实施例提供的一种类不平衡的网络流量分类装置结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本发明主要采用如图1所示的框架实现,包括进行网络流量数据采集,统计出网络流量特征,对特征进行选择,训练分类器模型,并获得实时的网络流量数据分类。
在一个实施例中,获取待分类的网络流量数据包括:
对网络流量样本数据进行统计得到统计结果,每一条网络流量对应的样本数据包括该网络流量所属类别的类别信息以及多个属性特征的取值。
在一个实施例中,流量样本数据为Moore公开数据集中的数据。具体的,可以从网络中下载Moore公开数据集,在所有数据流中随机选取其中70%为训练集,剩余30%为测试集。数据集中各个应用类别及其数据流数量如下面的表1所示:
表1
Figure BDA0002319158420000041
在一个实施例中,提取出网络流量的特征。Moore数据集的每一条样本包含249个特征,最后一个特征为样本所属的应用类别,其他的248个特征包括:流持续的时间、源/目的端口、分组到达时间的间隔(最大/最小值、平均值)、分组长度(最大/最小值、平均值)等属性特征。
可选的,所述提取出网络流量的统计特征包括从TCP协议头提取,采集该网络流量所属类别信息和属性特征信息。
在一个实施例中,如图2所示,采用的特征选择算法选择出最优特征子集主要包括两个阶段,第一阶段是为了删除不相关特征和冗余特征,第二阶段是为了进一步降低特征维度。
在第一阶段中,主要包括两个过程,一是计算加权对称不确定性,二是采用近似马尔科夫毯方法确定出候选特征集合。
在第二阶段中,主要包括两个过程,一是计算相关度函数,二是采用序列搜索算法选择最优特征子集。
在第一阶段中,所述候选特征集合的获取方式包括将网络流量中的各个特征初始化;利用加权对称不确定性公式计算出网络流量类别与每一属性特征之间的相关度,判断相关度值是否小于相关度门限阈值,若小于,则删除该属性特征;否则利用马尔科夫毯条件的判定公式,删除具有近似马尔科夫毯的冗余特征;直至输出候选特征集合;
加权对称不确定性公式的形成过程包括,首先计算属于各类别的权重值:
Figure BDA0002319158420000051
其中,wi表示属于类别ci的权重值;ni表示属于类别ci的样本数,N表示样本总量。从式中可以看出,识别小类别的特征度量的权值较高,这有益于特征度量偏向于小类别,使得与小类别具有强相关性的特征更容易被选择出来。
属性特征F的加权熵表示为:
Figure BDA0002319158420000061
其中,p(ci,fj)表示网络流量类别C与属性特征F的联合概率,p(fj)表示特征F的先验概率。
类别C的加权熵表示为:
Figure BDA0002319158420000062
其中,p(ci)表示类别C的先验概率。
在特征F发生的前提下,类别X的加权条件熵表示为:
Figure BDA0002319158420000063
其中,p(ci|yj)表示特征F发生的条件下X的后验概率。
加权互信息如下:
IGw(C|F)=Hw(C)-Hw(C|F) 5)
因此,加权对称不确定性WSU的定义如下所示:
Figure BDA0002319158420000064
利用以下公式进行近似马尔科夫毯条件的判定,删除冗余特征。特征fi是特征fj的近似马尔科夫毯(i≠j),需要满足以下条件:
Figure BDA0002319158420000065
当满足该判定公式,则将属性特征fj作为冗余特征删除;其中,WSU(fi,C)表示网络流量类别C与属性特征fi的相关度;WSU(fj,C)表示网络流量类别C与属性特征fj的相关度;WSU(fi,fj)表示属性特征fi与属性特征fj的相关度。
通过上述计算公式,如图3所示,第一阶段所运行的过程主要包括:
步骤101:对网络流量样本中的特征和类别初始化S←(f1,…,fD)。
步骤201:根据公式(6)计算每个特征fi与类别C之间的加权对称不确定WSU(fi,C),其中fi∈F。
步骤301:判断WSU(fi,C)是否大于相关度门限阈值δ,如是,转至步骤501,否则,转至步骤401。
步骤401:删除特征fi
步骤501:计算选出特征间的WSU(fi,fj),根据公式(7)删除具有近似马尔科夫毯的特征。
步骤601:输出候选特征集合BS。
在第二阶段中,特征评估函数值的计算公式的推导过程包括:
两个变量之间的Pearson相关系数定义为两个变量之间的协方差和标准差的商:
Figure BDA0002319158420000071
则特征评估函数值可以定义为:
Figure BDA0002319158420000072
利用特征评估函数值计算相关性函数值;其中,n表示特征子集s中的特征个数,
Figure BDA0002319158420000073
表示特征子集s中各个特征与类别相关度的平均值,
Figure BDA0002319158420000074
表示特征子集s中各特征之间相关度的平均值,r为Pearson相关系数。
具体的,如图4所示,第二阶段所运行的过程主要包括:
步骤111:计算候选特征集合BS(f1,f2,…,fn)中每一个属性特征fd的特征评估函数值J(fd);
步骤211:若J(fa)=max{J(fd)},则把fa加入Fo,并将其从候选特征集合中删除;
步骤311:将候选特征集合中未入选的属性特征分别与集合Fo中的属性特征进行匹配,得到匹配后组合特征集的评估函数值;
步骤411:将最大组合特征评估函数值对应的属性特征加入集合Fo,并将该属性特征从集合候选特征集合中删除;
步骤511:判断集合Fo中属性特征的数量是否达到预设数量阈值L,如达到,转至步骤611,否则,转至步骤411;
步骤611:输出最终的最优特征子集Fo
对于步骤411,比如,对于第一次组合特征的评估函数值计算,应当将其余未入选的n-1个特征依次与已入选特征fa匹配,得到匹配后的组合特征的准则函数值J的大小按照升序排序,如果:
J(Fo∪{S1})>J(Fo∪{S2})>…>J(Fo∪{Sn-1});
则将能使J值最大的特征加入到目标特征子集Fo中,即Fo←Fo∪S1
在一个实施例中,如图5所示,本发明采用基于权重的多分类器中,增量学习思想,通过增量学习的方式,每次只需要利用少量的新样本进行训练,提高模型更新训练的灵活性,降低模型更新的周期,使得模型能更好的适应多变的网络环境。初始时只有一个基分类器,该基分类器从事先准备的数据集上训练所得;随着未知网络流的到达以及系统不断给出的预测,这些网络流及其预测将构成新的数据集;当新的数据集与前一阶段数据集相比,发生了概念漂移并达到一定程度时,就基于新的数据集训练新的分类器,将其加入多分类器系统,参与预测分类。
可选的,漂移检测方法可以利用以下公式实现:
假设某类别被错误划分的比率为pi,那么它的标准方差为:
Figure BDA0002319158420000081
当数据分布最终稳定在一个恒定值的情况下,pi的减小是由于样本数的增长。如果测量误差率(即Si和pi的距离)出现明显的增加时,这表明此时数据的分布己经不稳定,那么之前构建的模型就不再可以用于匹配此时的数据分布情况。
当pi+2Si达到最大值,pi记为Pmax,Si记为Smax
Figure BDA0002319158420000091
其中,α表示漂移告警阈值。只要大于α,就会发出警告。
Figure BDA0002319158420000092
其中,β表示漂移检测阈值。只要大于β,就表示出现了概念漂移现象。
具体地,可选的,一旦检测到分类错误达到30次时,即认定存在概念漂移,此处设定为30个分类错误的原因是因为该方法通过估算两个连续误差距离的分布,并将该分布与未来的网络流量分布进行比较,从而得以找到网络流量分布的差异。这里Pmax+2Smax表示分布的95%,所以根据一般地,α=0.95,β=0.90。在该方法中当达到了漂移告警阈值时,则从当前开始存储数据。一旦检测出漂移,则存储的数据将用来建立新的分类器。
可选的,多个基分类器的集成可以将每个基分类器通过其对应的权值采用加权求和的方式;即可以利用以下公式:
Figure BDA0002319158420000093
其中,分类器Zi权值的计算方法如下:
Figure BDA0002319158420000094
假定某数据块Tn由(x,c)形式组成,x为实例,实例所属标签为c。分类器Zi的均方误差为:
Figure BDA0002319158420000101
其中|Tn|表示数据块中所包含的样例数的数目,
Figure BDA0002319158420000102
为分类器Zi将实例x划分为类c的概率,则Zi对样例(x,c)的分类错误率是
Figure BDA0002319158420000103
假设一个随机猜想,x被分类为c类的概率等同于c在整个空间所有类上的概率分布p(x),则该分类器的随机预测均方误差为:
MSEr=∑cp(c)(1-p(c))2 16)
另外,本发明还提供了一种类不平衡的网络流量分类装置,如图6所示,包括:
数据流采集模块,用于采集待分类的网络数据流量;
特征选择模块,用于删除网络数据流量中不相关特征和冗余特征,并对选择出的剩余特征降维;
基于权重的多分类器,用于根据输入的最优特征子集,对网络流量分类训练,优化分类器性能后,对网络流量进行分类。
在一个优选实施例中,所述特征选择模块包括加权不确定性计算单元、近似马尔科夫毯判定单元、移除单元、特征评估函数计算单元以及序列搜索单元;所述加权不确定性计算利用计算出的加权不确定性相关度值确定出网络流量中相关性较小的属性特征;所述近似马尔科夫毯判定单元用于根据加权不确定性单元计算出的相关度值,确定出具有马尔科夫毯关系的属性特征;所述移除单元用于移除加权不确定性计算单元和近似马尔科夫毯判定单元所确定的属性特征;所述特征评估函数计算单元用于计算每个属性特征的特征评估函数值以及匹配后组合特征集的评估函数值;所述序列搜索单元用于根据组合特征的准则函数值进行排序,输出降维后的特征。
在一个优选实施例中,所述基于权重的多分类器包括多个基分类器,每个基分类器被赋予一个权重值,且对应一个特征子集。
本发明还提供了一种计算机设备,包括存储器,处理器以及存储在处理器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明所提供的网络流量分类方法。
可以理解的是,本发明中的类不平衡的网络流量分类方法、装置以及计算机设备属于同一发明构思,其部分特征可以相互引用,本发明为了不再赘述,则不再一一说明。
需要说明的是,在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种类不平衡的网络流量分类方法,其特征在于,所述方法包括:
获取待分类的网络流量数据,并提取出网络流量的特征;
采用特征选择算法删除不相关特征以及冗余特征,并对剩余的特征降维,从而选择出最优特征子集;
将所述最优特征子集输入至基于权重的多分类器中,采用增量学习的方式,进行网络流量分类训练,优化分类器性能后,对网络流量进行分类。
2.根据权利要求1所述的一种类不平衡的网络流量分类方法,其特征在于,所述提取出网络流量的统计特征包括从TCP协议头提取,采集该网络流量所属类别信息和属性特征信息。
3.根据权利要求1所述的一种类不平衡的网络流量分类方法,其特征在于,最优特征子集的获取方式包括依次利用加权不确定性删除网络流量中的不相关特征;利用近似马尔科夫毯删除冗余特征;获得候选特征集合;基于相关性度量的特征评估函数以及序列搜索算法降低候选特征集合的维数;从而确定出最优特征子集。
4.根据权利要求3所述的一种类不平衡的网络流量分类方法,其特征在于,所述候选特征集合的获取方式包括将网络流量中的各个特征初始化;利用加权对称不确定性公式计算出网络流量类别与每一属性特征之间的相关度,将相关度值与相关度门限阈值进行比较,若小于相关度门限阈值,则删除该属性特征;否则利用马尔科夫毯条件的判定公式,删除具有近似马尔科夫毯的冗余特征;直至输出候选特征集合;
加权对称不确定性公式包括:
Figure FDA0002319158410000011
WSU(F,C)表示网络流量类别C与属性特征F的相关度;Hw(C)表示网络流量类别C的加权熵;Hw(F)表示属性特征F的加权熵;IGw(C|F)表示网络流量类别C与属性特征F加权互信息;
马尔科夫毯条件的判定公式包括:
Figure FDA0002319158410000021
当满足该判定公式,则将属性特征fj作为冗余特征删除;
其中,WSU(fi,C)表示网络流量类别C与属性特征fi的相关度;WSU(fj,C)表示网络流量类别C与属性特征fj的相关度;WSU(fi,fj)表示属性特征fi与属性特征fj的相关度。
5.根据权利要求3所述的一种类不平衡的网络流量分类方法,其特征在于,所述降低候选特征集合的维度的方式包括:
步骤1:计算候选特征集合BS(f1,f2,…,fn)中每一个属性特征fd的特征评估函数值J(fd);
步骤2:若J(fa)=max{J(fd)},则把属性特征fa加入集合Fo,并将属性特征fa从候选特征集合中删除;
步骤3:将候选特征集合中未入选的属性特征分别与集合Fo中的属性特征进行匹配,得到匹配后组合特征集的评估函数值;
步骤4:将最大组合特征评估函数值对应的属性特征加入集合Fo,并将该属性特征从集合候选特征集合中删除;
步骤5:判断集合Fo中属性特征的数量是否达到预设数量阈值L,如达到,转至步骤6,否则,转至步骤4;
步骤6:输出最终的集合Fo作为最优特征子集。
6.根据权利要求1所述的一种类不平衡的网络流量分类方法,其特征在于,所述基于权重的多分类器中包括从预先获取的特征子集上训练所得一个基分类器;通过增量学习的方式,将新增的网络流量及其通过基分类器所得的分类结果作为新的特征子集;若新的特征子集与前一阶段特征子集相比,发生了概念漂移并达到一定程度时,则新增基分类器,采用新的特征子集训练新增的基分类器,参与预测下一阶段的网络流量的分类结果。
7.一种类不平衡的网络流量分类装置,其特征在于,包括:
数据流采集模块,用于采集待分类的网络数据流量;
特征选择模块,用于删除网络数据流量中不相关特征和冗余特征,并对选择出的剩余特征降维;
基于权重的多分类器,用于根据输入的最优特征子集,对网络流量分类训练,优化分类器性能后,对网络流量进行分类。
8.根据权利要求7所述的一种类不平衡的网络流量分类装置,其特征在于,所述特征选择模块包括加权不确定性计算单元、近似马尔科夫毯判定单元、移除单元、特征评估函数计算单元以及序列搜索单元;所述加权不确定性计算利用计算出的加权不确定性相关度值确定出网络流量中相关性较大的属性特征;所述近似马尔科夫毯判定单元用于根据加权不确定性单元计算出的相关度值,确定出具有马尔科夫毯关系的属性特征;所述移除单元用于移除加权不确定性计算单元和近似马尔科夫毯判定单元所确定的属性特征;所述特征评估函数计算单元用于计算每个属性特征的特征评估函数值以及匹配后组合特征集的评估函数值;所述序列搜索单元用于根据组合特征的准则函数值进行排序,输出降维后的特征。
9.根据权利要求7所述的一种类不平衡的网络流量分类装置,其特征在于,所述基于权重的多分类器包括多个基分类器,每个基分类器被赋予一个权重值,通过加权求和的方式,获取待测的网络流量的分类结果。
10.一种计算机设备,其特征在于,包括存储器,处理器以及存储在处理器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~6任一所述的方法。
CN201911291144.6A 2019-12-16 2019-12-16 一种类不平衡的网络流量分类方法、装置及计算机设备 Active CN111144459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291144.6A CN111144459B (zh) 2019-12-16 2019-12-16 一种类不平衡的网络流量分类方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291144.6A CN111144459B (zh) 2019-12-16 2019-12-16 一种类不平衡的网络流量分类方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN111144459A true CN111144459A (zh) 2020-05-12
CN111144459B CN111144459B (zh) 2022-12-16

Family

ID=70518376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291144.6A Active CN111144459B (zh) 2019-12-16 2019-12-16 一种类不平衡的网络流量分类方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN111144459B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814836A (zh) * 2020-06-12 2020-10-23 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
CN112070127A (zh) * 2020-08-21 2020-12-11 南方电网科学研究院有限责任公司 一种基于智能分析的海量数据样本增量分析方法
CN112434732A (zh) * 2020-11-17 2021-03-02 西安交通大学 一种基于特征筛选的深度学习分类方法
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN112995063A (zh) * 2021-04-19 2021-06-18 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN113141357A (zh) * 2021-04-19 2021-07-20 湖南大学 一种用于优化网络入侵检测性能的特征选择方法和系统
CN113965524A (zh) * 2021-09-29 2022-01-21 河海大学 一种网络流量分类方法以及基于该方法的流量控制系统
WO2022037677A1 (zh) * 2020-08-21 2022-02-24 北京紫光展锐通信技术有限公司 确定日志特征序列的方法、漏洞分析方法及系统、设备
CN114422450A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置
CN115051955A (zh) * 2022-06-22 2022-09-13 东北大学 一种基于三重特征选择和增量学习的在线流分类方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271338A1 (en) * 2008-04-23 2009-10-29 Xerox Corporation Scalable feature selection for multi-class problems
CN107169514A (zh) * 2017-05-05 2017-09-15 清华大学 电力变压器故障诊断模型的建立方法
US20180176153A1 (en) * 2016-12-15 2018-06-21 NoFutzNetworks Inc. Method of Load-Balanced Traffic Assignment Using a Centrally-Controlled Switch
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN109871872A (zh) * 2019-01-17 2019-06-11 西安交通大学 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN110223196A (zh) * 2019-06-04 2019-09-10 国网浙江省电力有限公司电力科学研究院 基于典型行业特征库和反窃电样本库的反窃电分析方法
US20190297105A1 (en) * 2017-07-13 2019-09-26 Cisco Technology, Inc. Bayesian tree aggregation in decision forests to increase detection of rare malware

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271338A1 (en) * 2008-04-23 2009-10-29 Xerox Corporation Scalable feature selection for multi-class problems
US20180176153A1 (en) * 2016-12-15 2018-06-21 NoFutzNetworks Inc. Method of Load-Balanced Traffic Assignment Using a Centrally-Controlled Switch
CN107169514A (zh) * 2017-05-05 2017-09-15 清华大学 电力变压器故障诊断模型的建立方法
US20190297105A1 (en) * 2017-07-13 2019-09-26 Cisco Technology, Inc. Bayesian tree aggregation in decision forests to increase detection of rare malware
CN109359439A (zh) * 2018-10-26 2019-02-19 北京天融信网络安全技术有限公司 软件检测方法、装置、设备及存储介质
CN109871872A (zh) * 2019-01-17 2019-06-11 西安交通大学 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN110223196A (zh) * 2019-06-04 2019-09-10 国网浙江省电力有限公司电力科学研究院 基于典型行业特征库和反窃电样本库的反窃电分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONGLI ZHANG,ET. AL.: "《Feature selection for optimizing traffic classification》", 《COMPUTER COMMUNICATIONS》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814836A (zh) * 2020-06-12 2020-10-23 武汉理工大学 基于类不平衡算法的车辆行驶行为检测方法及装置
WO2022037677A1 (zh) * 2020-08-21 2022-02-24 北京紫光展锐通信技术有限公司 确定日志特征序列的方法、漏洞分析方法及系统、设备
CN112070127A (zh) * 2020-08-21 2020-12-11 南方电网科学研究院有限责任公司 一种基于智能分析的海量数据样本增量分析方法
CN112434732A (zh) * 2020-11-17 2021-03-02 西安交通大学 一种基于特征筛选的深度学习分类方法
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN113141357A (zh) * 2021-04-19 2021-07-20 湖南大学 一种用于优化网络入侵检测性能的特征选择方法和系统
CN112995063B (zh) * 2021-04-19 2021-10-08 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN113141357B (zh) * 2021-04-19 2022-02-18 湖南大学 一种用于优化网络入侵检测性能的特征选择方法和系统
CN112995063A (zh) * 2021-04-19 2021-06-18 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN113965524A (zh) * 2021-09-29 2022-01-21 河海大学 一种网络流量分类方法以及基于该方法的流量控制系统
CN114422450A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置
CN114422450B (zh) * 2022-01-21 2024-01-19 中国人民解放军国防科技大学 基于多源网络流量数据的网络流量分析方法和装置
CN115051955A (zh) * 2022-06-22 2022-09-13 东北大学 一种基于三重特征选择和增量学习的在线流分类方法
CN115051955B (zh) * 2022-06-22 2023-12-19 东北大学 一种基于三重特征选择和增量学习的在线流分类方法

Also Published As

Publication number Publication date
CN111144459B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN111144459B (zh) 一种类不平衡的网络流量分类方法、装置及计算机设备
JP7183385B2 (ja) ノード分類方法、モデル訓練方法並びに、その装置、機器及びコンピュータプログラム
Meidan et al. ProfilIoT: A machine learning approach for IoT device identification based on network traffic analysis
CN108629183B (zh) 基于可信度概率区间的多模型恶意代码检测方法
CN109067586B (zh) DDoS攻击检测方法及装置
WO2019128529A1 (zh) Url攻击检测方法、装置以及电子设备
CN108595655B (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
WO2018160136A1 (en) Method and apparatus for determining an identity of an unknown internet-of-things (iot) device in a communication network
Zhang et al. Proword: An unsupervised approach to protocol feature word extraction
KR100628329B1 (ko) 네트워크 세션 특성 정보에 대한 공격 행위 탐지규칙 생성장치 및 그 방법
CN111523588B (zh) 基于改进的lstm对apt攻击恶意软件流量进行分类的方法
CN111008337A (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
Latif et al. EVFDT: An Enhanced Very Fast Decision Tree Algorithm for Detecting Distributed Denial of Service Attack in Cloud‐Assisted Wireless Body Area Network
CN113821793A (zh) 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统
CN111708942A (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN115987552A (zh) 一种基于深度学习的网络入侵检测方法
Yujie et al. End-to-end android malware classification based on pure traffic images
Zheng et al. Preprocessing method for encrypted traffic based on semisupervised clustering
Tang et al. HSLF: HTTP header sequence based lsh fingerprints for application traffic classification
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN113468538A (zh) 一种基于相似性度量的漏洞攻击数据库构建方法
CN109376531B (zh) 基于语义重编码与特征空间分离的Web入侵检测方法
CN114978593B (zh) 基于图匹配的不同网络环境的加密流量分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant