CN107819698A - 一种基于半监督学习的网络流量分类方法、计算机设备 - Google Patents

一种基于半监督学习的网络流量分类方法、计算机设备 Download PDF

Info

Publication number
CN107819698A
CN107819698A CN201711103392.4A CN201711103392A CN107819698A CN 107819698 A CN107819698 A CN 107819698A CN 201711103392 A CN201711103392 A CN 201711103392A CN 107819698 A CN107819698 A CN 107819698A
Authority
CN
China
Prior art keywords
cluster
marked
network flow
flow
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711103392.4A
Other languages
English (en)
Inventor
冉静
孔晓晨
刘元安
胡鹤飞
袁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201711103392.4A priority Critical patent/CN107819698A/zh
Publication of CN107819698A publication Critical patent/CN107819698A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/18Protocol analysers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于半监督学习的网络流量分类方法及系统,该方法包括:获取已标记和未标记类型的网络流,提取每条网络流中的流特征,得到网络流特征向量;利用已标记数据计算出每个流特征的信息增益,并进行特征加权;将已标记和未标记类型的网络流进行混合聚类;获取每个聚簇中已标记网络流的数目,并确定每个聚簇中每个类型的占比值;当聚簇中已标记网络流总数目相加小于预设网络流阈值时,则判定为未知协议簇,否则判定为已标记网络流中比例最大的类型;直到都判定出流量类型的流量簇,并利用其训练出一个线上的实时分类器。还涉及一种计算机设备,该设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序。

Description

一种基于半监督学习的网络流量分类方法、计算机设备
技术领域
本发明属于网络流量管理领域,尤其涉及一种基于半监督学习的网络流量分类方法、计算机设备。
背景技术
传统的基于网络流的方法大多结合监督的或无监督的机器学习算法来实现网络流量分类。在有监督的流量分类中,学习引擎接受一组已标记的流样本,根据预定义的协议类别进行训练,然后返回一个训练好的分类模型,该分类模型可以预测未来网络流的协议类型。然而,随着网络的迅速扩展,互联网上部署了许多新的应用程序,这些应用对应的未知流是基于监督学习的分类方法无法处理的。在这种情况下,未知流将被错误地划分到某个预定义的流量类别中去,并影响分类器的整体精度。基于无监督学习的分类方法可以自动聚类未标记的训练样本,应用聚类结果构建流量分类器。但是聚类簇的数目必须被设置得足够大,以得到高纯度的流量簇,而且很难在没有监督信息的情况下将大量的流量簇映射到少量的流量类别中。
因此,传统的流量分类方法在标记信息不足,且网络中存在未知流量的现实情况下表现不佳。为了解决这个问题,Erman等人首先提出了将半监督学习方法应用到流量分类中,利用有标记流和未标记流的混合输入,训练出一个可以将已知协议分类的同时提取出未知协议的分类器。张等人扩展了Erman的工作,提出了一种改进的半监督流量分类方法,该方法在复杂的网络环境下表现良好。然而,这些方法仍然存在以下问题:
第一,没有充分的利用已标记数据,即标记流。在经典的半监督分类方法和后来改进的方法中,标记流均只用于聚类的识别,没有对其进行充分的利用。
第二,在实际场景中,利用标记流识别聚簇结果时,往往没有考虑未知协议簇中,如果存在少量被误分到该簇的已标记数据,则该簇就会被错误的划分到某已知协议类别中去,利用这样的聚簇结果训练出的线上分类器,会严重影响该类协议的分类准确率,以及对未知协议提取的准确率,导致线上分类器的准确率下降。
针对现有技术中的上述问题,目前尚未有有效的解决方案。
发明内容
本发明所要解决的技术问题是:没有充分的利用已标记数据,即标记流。在经典的半监督分类方法和后来改进的方法中,标记流均只用于聚类的识别,没有对其进行充分的利用。
为解决上面的技术问题,本发明提供了一种基于半监督学习的网络流量分类方法,该网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;
S2,根据已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;
S3,将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;
S4,获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;
S5,当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;
S6,重复步骤S4-S5,直到k个聚簇都判定出流量类型的流量簇;
S7,将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。
本发明的有益效果:通过本发明的方法,提取固定数量的流特征,再利用已标记的网络流计算出每个流特征的信息增益,再根据信息增益对每个流特征进行特征加权,这样是网络流的特征选取系统也不需要进行重置,而且区分度更高,另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法,从而使得有些被错误划分到某已知协议类别中的簇也可以识别出来,利用这样的聚簇结果训练出的线上分类器,可以大大提高线上分类器的准确率,同时实现线上未知协议的提取。
进一步地,所述步骤S1中已标记网络流占总的网络流数量的比例为预设值rl,且每种类型的已标记网络流的数量相同。
进一步地,所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值rl的一半。
进一步地,所述步骤S2中包括:根据所述已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,其具体公式为:
IG(Fi)=H(C)-E(Fi);
其中,C表示已标记的网络流集合,H(C)为这些已标记网络流总体的熵,Fi表示网络流的第i个特征,E(Fi)为当网络流根据特征Fi的值划分为子集时的熵。
进一步地,,所述步骤S2中根据所述信息增益对每个流特征进行特征加权,计算网络流特征Fi的权值wi的具体公式为:
其中,IG(Fi)为网络流特征Fi的信息增益,为所有网络流特征的信息增益的总和。
进一步地,所述S4中包括:
获取每个聚簇Ci中已标记网络流特征向量的数目ni
当ni的取值大于0时,计算最大后验概率,其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例,其中后验概率P(L=lj|Ci)=nij/ni
进一步地,所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时,其具体计算公式为:
其中,nij表示簇i中类别为j的网络流数目,为簇i中已标记网络流特征向量的总数目,rl表示已标记网络流占总的网络流数量的比例,表示被聚类到簇i中所有网络流的数目。
本发明还涉及一种计算机设备,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
本发明的有益效果:通过本发明的计算机设备,提取固定数量的流特征,再根据已标记流计算出每个流特征的信息增益,再根据信息增益对每个流特征进行特征加权,这样是网络流的特征选取系统也不需要进行重置,而且区分度更高,另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法,从而使得有些被错误划分到某已知协议类别中去的簇也可以识别出来,利用这样的聚簇结果训练出的线上分类器,可以大大提高了分类识别的精度线上分类器的准确率,同时实现线上未知协议的提取。
附图说明
图1为本发明实施例1的一种基于半监督学习的网络流量分类方法的流程图;
图2为基于半监督学习的网络流量分类系统的框架示意图;
图3为本发明实施例10的一种计算机设备的结构示意图;
图4是分类器的整体准确率对比的示意图;
图5是针对每种协议的分类的准确率对比的示意图;
图6是更进一步分析已标记网络流的比例对分类器准确率的影响的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明实施例1提供的是本发明提供了一种基于半监督学习的网络流量分类方法,该网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;
S2,根据已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;
S3,将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;
S4,获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;
S5,当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;
S6,重复步骤S4-S5,直到k个聚簇都判定出流量类型的流量簇;
S7,将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。
需要说明的是,如图2所示,在本实施例1中采用的是基于半监督学习的网络流量分类系统的框架,该系统能够实现实时的流量分类,在提高常见类型流量的分类准确度的同时,还具有检测和提取出未知应用程序产生的未知流的能力。该系统由两阶段组成:离线学习和在线识别。少量的标记流量和大量未标记的网络流作为系统的线下训练数据输入。在利用已标记流计算出网络流特征的信息增益和初始聚类中心后,将标记流与未标记流混合后进行k-means聚类。然后,在标记流的帮助下,将k-means输出的聚簇映射到某一应用类型流量。聚簇结果作为训练数据,可用于训练线上的实时网络流量分类器,如NCC分类器。在线上分类时,该分类器可将网络流量划分为若干已知流量类型的同时,检测并提取出未知流量。为了实现更细粒度分类,我们还加入了系统更新模块,进一步分析了未知流量的类型,可用于构建新的流量类别,更新系统的知识量。
通过本实施例1方法,提取固定数量的流特征,再利用已标记的网络流计算出每个流特征的信息增益,并根据信息增益对每个流特征进行特征加权,这样是网络流的特征选取系统也不需要进行重置,而且区分度更高,另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法,从而使得有些被错误划分到某已知协议类别中去的簇也可以识别出来,利用这样的聚簇结果训练出的线上分类器,可以大大提高了分类识别的精度线上分类器的准确率,同时实现线上未知协议的提取。
进一步地,在另一实施例2中所述网络流特征向量的权值是用于在k-means算法中计算加权欧式距离的。
需要说明的是,本实施例2是在上述实施例1的基础上进行的进一步说明。
可选地,在另一实施例3中所述步骤S1中已标记网络流占总的网络流数量的比例为预设值rl,且每种类型的已标记网络流的数量相同。
需要说明的是,本实施例3是在上述实施例2的基础上进行的进一步说明。
可选地,在另一实施例4中所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值rl的一半。
需要说明的是,本实施例4是在上述实施例1、实施例2或者实施例3的基础上进行的进一步说明。
可选地,在另一实施例5中所述步骤S2中包括:根据所述已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,其具体公式为:
IG(Fi)=H(C)-E(Fi):
其中,C表示已标记的网络流集合,H(C)为这些已标记网络流总体的熵,Fi表示网络流的第i个特征,E(Fi)为当网络流根据特征Fi的值划分为子集时的熵。
需要说明的是,本实施例5实在上述实施例1、实施例2或者实施例3的基础上进行的进一步说明,在本实施例5中假设已标记流集用A={a1,a2,a3,...aN}表示,每个流用一个M维的特征向量表示。这样我们可以得到一个特征集F={F1,F2,F3,...,FM}。根据不同的协议类别,可以将网络流划分为k组C={C1,C2,C3,...,Ck},每种特征的信息增益值可以计算如下:
IG(Fi)=H(C)-E(Fi)
其中H(C)表示这些网络流总体的熵
E(Fi)表示当网络流被某一特征Fi划分为子集时的熵,假设Fi有v个值,则网络流特征集A可以被划分为v个子集,每个子集中有xj个网络流特征向量。则
其中aij是子集Aj中属于Ci的向量个数,Pij=aij/xj表示类别属于Ci的网络流在Aj中出现的概率。
可选地,在另一实施例6中所述步骤S2中根据所述信息增益对每个流特征进行特征加权,计算网络流特征Fi的权值wi的具体公式为:
其中,IG(Fi)为网络流特征Fi的信息增益,为所有网络流特征的信息增益的总和。
需要说明的是,在本实施例6中这个过程借助于标记流得到了各特征的权重值,因此该系统可以用固定数量的特征的来适应不同的输入协议。
可选地,在另一实施例7中所述S4中包括:
获取每个聚簇Ci中已标记网络流特征向量的数目ni
当ni的取值大于0时,计算最大后验概率,其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例,其中后验概率P(L=lj|Ci)=nij/ni
可选地,在另一实施例8中所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时,其具体计算公式为:
其中,nij表示簇i中类别为j的网络流数目,为簇i中已标记网络流特征向量的总数目,rl表示已标记网络流占总的网络流数量的比例,表示被聚类到簇i中所有网络流的数目
可选地,所述步骤S7中,根据聚簇结果,训练出一个NCC分类器,假设流量类别用Ω={ω1,...,ωl}表示,对于每一类别ωi,它可以由一组有代表性的中心点来描述,其具体计算公式为:Mi={mj:Cj∈ωi}。
可选地,对于线上的每一条测试流来说,分类规则为将其判别为聚其最近的点的类别,其具体计算公式为:
如图3所示,本发明实施例10中还提供一种计算机设备,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述实施例1-实施例9中任一实施例所述方法的步骤。
需要说明的是,在本实施例10中通过本发明的计算机设备,提取固定数量的流特征,再计算出每个流特征的信息增益,再根据信息增益对每个流特征进行特征加权,这样是网络流的特征选取系统也不需要进行重置,而且区分度更高,另外也充分利用了标记数据,从而大大使得有些被错误划分到某已知协议类别中去簇也可以识别出来,提高了分类识别的精度。
另外需要说明的是,对于上述实施例1-10本发明采用的改进的聚簇识别算法,该算法的具体步骤如下:
输入:半监督k-means得到的k个聚簇结果C={C1,…,Ck},所有网络流中已标记的数据的比例rl
i初始取值为1
输出:k个类别已知的簇
Step1:对聚簇Ci,取得簇中标记网络流特征向量的数目ni
Step2:当ni的取值为0时,将聚簇Ci标记为未知协议簇
Step3:当ni的取值大于0时,计算最大后验概率P(L=lj|Ci)=nij/ni,即计算簇中每个类型的标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例。
Step4:当时,即簇中所有类型的标记网络流特征向量的总数目相加,仍然小于该簇中所有网络流的数目乘以rl的1/2时,(认为该簇在这种情况下,根据簇中已标记的网络流的类型进行簇的类型判定时的数据不充足,)仍将该簇暂时判定为未知协议簇。
Step5:当时,根据最大后验概率值,将该簇判定为簇中已标记数据最多的网络流量类型。
Step6:将i值重置为i+1,当i值小于等于k时,重复进行step1~step6。
Step7:得到k个已判定流量类型的流量簇,并输出。
考虑到已标记数据是随机选取的,对于非未知协议类来说,他们对应的聚类簇中应该存在数目大于的网络流。因此,考虑到聚类结果的偶然性,我们认为簇中的已标记流的数目小于时,认为其不具有代表性,将这些簇暂时的划分为未知协议簇,在系统更新模块中在对其进行进一步的研究,这样,可以保证未知类型的流量可以更好地被提取出来。
如图4、图5、图6所示,是对于本发明实施例1-实施例10中的一些实验数据的说明,为了展现本发明的优越性,将本发明得到的分类器与其他两种半监督分类器,以及本发明去掉已标记数据充分利用部分得到的分类器进行对比。
图4中的表格中的数据分别对应着柱状图从左到右的四个图形,依次为本发明得到的分类器,本发明去掉已标记数据充分利用部分得到的分类器,以及其他两种半监督分类器,分类器整体的准确率分别为95.80%,92.67%,91.13%,86.67%。
图5列举了几种不同协议通过上述分类器进行分类后的f值对比,f值一般用于评价多协议分类器对每种协议的不同分类性能,它是正确率和召回率的加权调和平均。针对HTTP,SMTP,FTP,DNS和一类未知协议,通过本发明的方法训练出的分类器均得到了很好的效果。
图6更进一步分析已标记网络流的比例对各种分类器准确率的影响,随着已标记网络流比例的增加,本发明训练出的分类器的准确率不断提高,但是其他方法得到的分类器不仅没有明显提高,甚至有所下降,说明了本发明在簇的类别映射方面的改进方法的先进性。
在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于半监督学习的网络流量分类方法,其特征在于,该网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;
S2,根据已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;
S3,将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;
S4,获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;
S5,当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;
S6,重复步骤S4-S5,直到k个聚簇都判定出流量类型的流量簇;
S7,将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。
2.根据权利要求1所述的网络流量分类方法,其特征在于,所述网络流特征向量的权值是用于在k-means算法中计算加权欧式距离的。
3.根据权利要求2所述的网络流量分类方法,其特征在于,所述步骤S1中已标记网络流占总的网络流数量的比例为预设值rl,且每种类型的已标记网络流的数量相同。
4.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值rl的一半。
5.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述步骤S2中包括:根据所述已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,其具体公式为:
IG(Fi)=H(C)-E(Fi);
其中,C表示已标记的网络流集合,H(C)为这些已标记网络流总体的熵,Fi表示网络流的第i个特征,E(Fi)为当网络流根据特征Fi的值划分为子集时的熵。
6.根据权利要求5所述的网络流量分类方法,其特征在于,所述步骤S2中根据所述信息增益对每个流特征进行特征加权,计算网络流特征Fi的权值wi的具体公式为:
其中,IG(Fi)为网络流特征Fi的信息增益,为所有网络流特征的信息增益的总和。
7.根据权利要求1-3任一所述的网络流量分类方法,其特征在于,所述S4中包括:
获取每个聚簇Ci中已标记网络流特征向量的数目ni
当ni的取值大于0时,计算最大后验概率,其中所述后验概率P为每个聚簇中每个类型的已标记网络流特征向量的数目占簇中总的网络流特征向量的数目的比例,其中后验概率P(L=lj|Ci)=nij/ni
8.根据权利要求4所述的网络流量分类方法,其特征在于,所述步骤S5中当每个聚簇中已标记网络流特征向量的总数目相加小于所述预设网络流阈值时,其具体计算公式为:
其中,nij表示簇i中类别为j的网络流数目,为簇i中已标记网络流特征向量的总数目,rl表示已标记网络流占总的网络流数量的比例,表示被聚类到簇i中所有网络流的数目。
9.一种计算机设备,其特征在于,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述方法的步骤。
CN201711103392.4A 2017-11-10 2017-11-10 一种基于半监督学习的网络流量分类方法、计算机设备 Pending CN107819698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711103392.4A CN107819698A (zh) 2017-11-10 2017-11-10 一种基于半监督学习的网络流量分类方法、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711103392.4A CN107819698A (zh) 2017-11-10 2017-11-10 一种基于半监督学习的网络流量分类方法、计算机设备

Publications (1)

Publication Number Publication Date
CN107819698A true CN107819698A (zh) 2018-03-20

Family

ID=61608894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711103392.4A Pending CN107819698A (zh) 2017-11-10 2017-11-10 一种基于半监督学习的网络流量分类方法、计算机设备

Country Status (1)

Country Link
CN (1) CN107819698A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667685A (zh) * 2018-04-08 2018-10-16 南京邮电大学 移动应用网络流量聚类装置
CN108846429A (zh) * 2018-05-31 2018-11-20 清华大学 基于无监督学习的网络空间资源自动分类方法及装置
CN109831392A (zh) * 2019-03-04 2019-05-31 中国科学技术大学 半监督网络流量分类方法
CN110061869A (zh) * 2019-04-09 2019-07-26 中南民族大学 一种基于关键词的网络轨迹分类方法及装置
CN110138681A (zh) * 2019-04-19 2019-08-16 上海交通大学 一种基于tcp报文特征的网络流量识别方法及装置
CN110336789A (zh) * 2019-05-28 2019-10-15 北京邮电大学 基于混合学习的Domain-flux僵尸网络检测方法
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN113037749A (zh) * 2021-03-08 2021-06-25 中国科学院信息工程研究所 一种c&c信道判别方法及系统
CN114666273A (zh) * 2022-04-30 2022-06-24 东南大学 一种面向应用层未知网络协议的流量分类方法
CN114866485A (zh) * 2022-03-11 2022-08-05 南京华飞数据技术有限公司 一种基于聚合熵的网络流量分类方法及分类系统
CN116244612A (zh) * 2023-05-12 2023-06-09 国网江苏省电力有限公司信息通信分公司 一种基于自学习参数度量的http流量聚类方法及装置
WO2023215017A1 (en) * 2022-04-15 2023-11-09 Raytheon Bbn Technologies Corp. Distributed sensor apparatus and method using tensor decomposition for application and entity profile identification

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674033A (zh) * 2004-04-16 2005-09-28 广州市瀚迪科技开发有限公司 一种一维条码解码方法
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
US20120011119A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Object recognition system with database pruning and querying
CN103117903A (zh) * 2013-02-07 2013-05-22 中国联合网络通信集团有限公司 上网流量异常检测方法及装置
WO2015167421A1 (en) * 2014-04-28 2015-11-05 Hewlett-Packard Development Company, L.P. Network flow classification
CN105721416A (zh) * 2015-11-16 2016-06-29 哈尔滨安天科技股份有限公司 一种apt事件攻击组织同源性分析方法及装置
CN107181724A (zh) * 2016-03-11 2017-09-19 华为技术有限公司 一种协同流的识别方法、系统以及使用该方法的服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674033A (zh) * 2004-04-16 2005-09-28 广州市瀚迪科技开发有限公司 一种一维条码解码方法
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
US20120011119A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Object recognition system with database pruning and querying
CN103117903A (zh) * 2013-02-07 2013-05-22 中国联合网络通信集团有限公司 上网流量异常检测方法及装置
WO2015167421A1 (en) * 2014-04-28 2015-11-05 Hewlett-Packard Development Company, L.P. Network flow classification
CN105721416A (zh) * 2015-11-16 2016-06-29 哈尔滨安天科技股份有限公司 一种apt事件攻击组织同源性分析方法及装置
CN107181724A (zh) * 2016-03-11 2017-09-19 华为技术有限公司 一种协同流的识别方法、系统以及使用该方法的服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
赵英等: "《基于流相关性的网络流量分类》", 《计算机工程与应用》 *
陈勇等: "《基于支持向量机的网络流量识别模型》", 《软件导刊》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667685A (zh) * 2018-04-08 2018-10-16 南京邮电大学 移动应用网络流量聚类装置
CN108846429A (zh) * 2018-05-31 2018-11-20 清华大学 基于无监督学习的网络空间资源自动分类方法及装置
CN109831392B (zh) * 2019-03-04 2020-10-27 中国科学技术大学 半监督网络流量分类方法
CN109831392A (zh) * 2019-03-04 2019-05-31 中国科学技术大学 半监督网络流量分类方法
CN110061869A (zh) * 2019-04-09 2019-07-26 中南民族大学 一种基于关键词的网络轨迹分类方法及装置
CN110138681B (zh) * 2019-04-19 2021-01-22 上海交通大学 一种基于tcp报文特征的网络流量识别方法及装置
CN110138681A (zh) * 2019-04-19 2019-08-16 上海交通大学 一种基于tcp报文特征的网络流量识别方法及装置
CN110336789A (zh) * 2019-05-28 2019-10-15 北京邮电大学 基于混合学习的Domain-flux僵尸网络检测方法
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN113037749A (zh) * 2021-03-08 2021-06-25 中国科学院信息工程研究所 一种c&c信道判别方法及系统
CN114866485A (zh) * 2022-03-11 2022-08-05 南京华飞数据技术有限公司 一种基于聚合熵的网络流量分类方法及分类系统
CN114866485B (zh) * 2022-03-11 2023-09-29 南京华飞数据技术有限公司 一种基于聚合熵的网络流量分类方法及分类系统
WO2023215017A1 (en) * 2022-04-15 2023-11-09 Raytheon Bbn Technologies Corp. Distributed sensor apparatus and method using tensor decomposition for application and entity profile identification
CN114666273A (zh) * 2022-04-30 2022-06-24 东南大学 一种面向应用层未知网络协议的流量分类方法
CN114666273B (zh) * 2022-04-30 2024-02-09 东南大学 一种面向应用层未知网络协议的流量分类方法
CN116244612A (zh) * 2023-05-12 2023-06-09 国网江苏省电力有限公司信息通信分公司 一种基于自学习参数度量的http流量聚类方法及装置
CN116244612B (zh) * 2023-05-12 2023-08-29 国网江苏省电力有限公司信息通信分公司 一种基于自学习参数度量的http流量聚类方法及装置

Similar Documents

Publication Publication Date Title
CN107819698A (zh) 一种基于半监督学习的网络流量分类方法、计算机设备
CN107846326A (zh) 一种自适应的半监督网络流量分类方法、系统及设备
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN103716204B (zh) 一种基于维纳过程的异常入侵检测集成学习方法及装置
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN107846392A (zh) 一种基于改进协同训练‑adbn的入侵检测算法
CN107483473B (zh) 一种云环境的低速拒绝服务攻击数据流检测方法
Liu et al. Effective algorithm for detecting community structure in complex networks based on GA and clustering
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN102571486A (zh) 一种基于BoW模型和统计特征的流量识别方法
CN111786951B (zh) 流量数据特征提取方法、恶意流量识别方法及网络系统
CN108199863A (zh) 一种基于两阶段序列特征学习的网络流量分类方法及系统
CN107786388A (zh) 一种基于大规模网络流数据的异常检测系统
CN114553475A (zh) 一种基于网络流量属性有向拓扑的网络攻击检测方法
CN105512675B (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
CN105141455A (zh) 一种基于统计特征的有噪网络流量分类建模方法
CN110365603A (zh) 一种基于5g网络能力开放的自适应网络流量分类方法
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111404942A (zh) 一种基于深度学习的垂直类恶意爬虫流量识别方法
CN109583519A (zh) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN103902706B (zh) 一种基于svm的大数据分类预测方法
CN110991510A (zh) 不平衡分类学习的泛化低压异常箱表关系识别方法及系统
Zhou et al. GraphSR: a data augmentation algorithm for imbalanced node classification
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180320

WD01 Invention patent application deemed withdrawn after publication