CN106911591A - 网络流量的分类方法和系统 - Google Patents
网络流量的分类方法和系统 Download PDFInfo
- Publication number
- CN106911591A CN106911591A CN201710138904.4A CN201710138904A CN106911591A CN 106911591 A CN106911591 A CN 106911591A CN 201710138904 A CN201710138904 A CN 201710138904A CN 106911591 A CN106911591 A CN 106911591A
- Authority
- CN
- China
- Prior art keywords
- sample
- flow
- applicating category
- cluster
- flow sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000010219 correlation analysis Methods 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000007621 cluster analysis Methods 0.000 claims description 10
- 239000012141 concentrate Substances 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013107 unsupervised machine learning method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种网络流量的分类方法和系统,包括以下步骤:获取待测试的流量样本集和流量分类器;根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;其中,还包括流量分类器的获取过程上述网络流量的分类方法和系统,该方法可以对大量未知流样本在训练样本较少的情况下进行分类并且准确度高。
Description
技术领域
本发明涉及网络流量的分类技术领域,特别是涉及一种网络流量的分类方法和系统。
背景技术
随着互联网规模不断扩大,网络流量分类在增强互联网可控性、保障网络完全等方面起着日益重要的作用。通过对网络流量类型进行分析,网络管理人员可以在细粒度层次上规划网络流量、平衡网络资源、去除异常流量,从而保证网络安全运行。
目前,常用基于机器学习来解决流量分类问题,机器学习方法大致分为监督机器学习方法和无监督机器学习方法。机器学习方法具有分类比较准确、快速的特点,但是分类性能好坏依赖于训练集的选择,并且监督机器学习方法往往需要大量的标签数据,不能处理未知流样本。无监督机器学习方法虽然可应用聚类方法构造一个流量分类器,但是准确率不高,并且类簇的数量需要提前设置。
发明内容
基于此,有必要针对现有机器学习方法中无法对大量未知流样本进行分类以及准确度不高的问题,提供一种网络流量的分类方法和系统。
一种网络流量的分类方法,包括以下步骤:
获取待测试的流量样本集和流量分类器;
根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;
其中,所述流量分类器为通过以下方法而获取的流量分类;
获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;
根据所述第一样本集和所述第二样本集聚类成各个簇;
对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;
将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;
根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
一种网络流量的分类系统,包括:
信息获取模块,用于获取待测试的流量样本集和流量分类器;
流量类别确定模块,用于根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;
流量分类器获取模块,用于获取流量分类器;
所述流量分类器获取模块,还包括:
样本集获取模块,用于获取第一样本集和第二样本集;
簇分析模块,用于根据所述第一样本集和所述第二样本集聚类成各个簇;
样本标记模块,用于对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;
样本存储模块,用于将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;
流量分类器确定模块,用于根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
上述网络流量的分类方法和系统,利用流相关性方法重新构建一种基于半监督的网络流量分类模型,该方法可以对大量未知流样本在训练样本较少的情况下进行分类并且准确度高。
附图说明
图1为本发明的网络流量的分类方法在一个实施例中的流程示意图;
图2为本发明实施例中根据第一样本集和第二样本集聚类成各个簇的流程示意图;
图3为本发明实施例中流相关性分析以及创建应用类别标签数据库的流程示意图;
图4为本发明实施例中根据各个簇和应用类别标签数据库中应用类别进行映射分析,获得流量分类器的流程示意图;
图5为本发明实施例中根据待测试的流量样本集和流量分类器确定流量类别的流程示意图;
图6为本发明的网络流量的分类方法在另一个实施例中的流程示意图;
图7为本发明的网络流量的分类系统在一个实施例中的结构示意图;
图8为本发明的网络流量的分类系统在另一个实施例中的结构示意图。
具体实施方式
下面将结合较佳实施例及附图对本发明的内容作进一步详细描述。显然,下文所描述的实施例仅用于解释本发明,而非对本发明的限定。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1是网络流量的分类方法在一个实施例中的流程示意图如图1所示,本实施例中的网络流量的分类方法包括以下步骤:
步骤S110,获取待测试的流量样本集和流量分类器。
在本实施例中,待测的流量样本集中存储着大量的流量样本。流量分类器,又叫流量分类模型,是一种流量样本与应用类别的对应关系。
步骤S120,根据待测试的流量样本集和流量分类器确定流量类别。
在本实施例中,根据流量分类器,可以分析得出流量样本与流量类别对应的关系,因此将待测试的流量样本集输入直射流量分类器,就可以计算得到待测试的流量样本的流量类别。
步骤S130,通过以下方法获取流量分类器。其中,流量分类器的获取过程包括以下步骤:
步骤S131,获取第一样本集和第二样本集,第一样本集中包括有应用类别标签的流量样本,第二样本集中包括无应用类别标签的流量样本。
在本实施例中,流量样本集中存储着大量的流量样本。流量样本集分为两种,分别是第一样本集和第二样本集。其中,在第一样本集中的流量样本都具有应用类别标签,即流量样本与应用类别一一对应。而第二样本集中的流量样本没有应用类别。另外,第一样本集往往小于第二样本集,即有应用类别标签的流量样本数量往往远小于无应用类别标签的流量样本数量。
步骤S132,根据第一样本集和第二样本集聚类成各个簇。
聚类分析(Cluster Analysis),又称群分析,就是将物理或抽象的集合分组称为由类似的对象组成的多个类的过程,即将未知数据按相似程度分类到不同的类或簇的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,与其他簇中的对象相异。聚类分类主要是按照样本点之间的亲疏远近程度进行分类,聚类分类的方法有多种,可以分为基于层次的方法、基于划分的方法、基于网格的方法、基于密度的方法和基于模型的方法。聚类分析通常被用来进行数据预处理,对杂乱繁多的大数据进行分析找到这些数据之间的关系,方便进一步数据解析和处理。
步骤S133,对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对第二样本集中与第一样本集中的流量样本有流相关性的流量样本进行标记。
流相关性,即流量之间的关系。流作为网络流量分类的实体并不是彼此孤立存在的,它们之间具有相互的联系。目前研究认为在某一时间段内如果多个流具有相同{dstIP,dstProt,protoType}属性,说明这些流是指向统一服务端统一服务,即这些流极大可能属于同一类型,因此把可以具有相同{dstIP,dstProt,protoType}属性归属于同一类型。因此在本实施例中,分析第一样本集和第二样本集的流相关性,找出同一类型的流量样本。当第一样本集中的流量样本Ai(i可以为任意整数)与第二样本集中的流量样本Bj(j也可以为任意整数)属性相同时,用Ai的应用类别标签来标记Bj。当完成所有的流相关性分析后,将Ai和标记后的Bj保存至应用类别标签数据库中。经过流相关性分析,完成对第二样本集中的流量样本标注后,可以减少无应用类别标签的流量样本的数量,在后期数据分析时增强数据的准确性。
步骤S134,将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;
步骤S135,根据各个簇和应用类别标签数据库中的应用类别进行映射分析,获得流量分类器。
映射,建立两个非空数集或者两个元素之间的相互对应关系。在本实施例中,主要是建立流量样本与应用类别的对应关系,将各个簇中的流量样本一一映射到应用类别数据库中应用类别,然后根据流量样本与应用类别对应关系分析获得流量分类器。流量分类器为对流量样本进行分析,确定流量类别的一种算法模型。
本发明中的一种网络流量的分类方法,利用少量有应用类别标签的流量样本和大量无应用类别标签的流量样本,引入流相关性分析并采用半监督机器学习方法,获得流量分类器,然后利用待测试的流量样本集通过流量分类器确定待测试的流量样本集中的流量样本的类别。上述网络流量的分类方法在获得流量分类器过程需要有应用类别标签的流量样本少,数据处理迅速,得到的流量类别的结果准确度高。
作为一种可选的实施方式,参照图2所示,根据第一样本集和第二样本集聚类成各个簇的步骤包括以下步骤:
步骤S1321,将第一样本集和第二样本集合并成训练集。
步骤S1322,对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。
在本实施例中,在聚类分析前,首先将第一样本集和第二样本集合并成训练集。然后对训练集中所有的流量样本进行聚类分析,在聚类过程中采用K-means算法。K-means(K均值)算法,是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。其算法过程为:(1)从n个数据对象任意选择k个对象作为初始聚类中心(即质心);(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)到(3)直到每个聚类不再发生变化为止。K-means算法思想简单易行,时间复杂度低,对大规模数据的挖掘具有高效性。
作为一种优选的实施方式,如图3所示,对第一样本集的流量样本和所述第二样本集中的流量样本进行流相关性分析的步骤包括以下步骤:
步骤S1331,获取第一样本集中的流量样本的三元属性和第二样本集中的流量样本的三元属性,三元属性为目的IP、目的端口和传输协议。
在对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析之前,要选定流量的属性,在本实施例中,选定流量三元属性,分别为目的IP、目的端口和传输协议,当一个流量与另一个流量的三元属性相同时,就认定这两个流量为同一类型流量。
步骤S1332,将第一样本集中的流量样本的三元属性与第二样本集中的流量样本的三元属性进行对比,确定第一样本集中的流量样本和第二样本集中的流量样本的流相关性。
将第一样本集中流量样本的三元属性与第二样本集中的流量样本的三元属性进行对比,当在第一样本集中流量样本的三元属性与第二样本集中的流量样本的三元属性相同时,就确定第一样本集中流量样本与第二样本集中的流量样本具有流相关性,并利用第一样本集中流量样本的应用类型标签对第二样本集中的流量样本进行标记。
在本实施例中,对第二样本集中的流量样本进行标记的过程中主要采用了流标签传播方法,具体过程如下:
假设第一样本集为A={xa1,xa2,...,xan},其对应的应用类别标签为La={ya1,ya2,...,yan},第二样本集为B={xb1,xb2,...,xbn}。流标签传播方法是对于A中的每个流量样本xa,自动使用相同的三元属性(目的IP,目的端口,传输协议)搜索其在B中的相关流量,以此来扩充第一样本集。假设扩充后的第一样本集为E,则E=A∪{xbj:xbj∈B;相关于xbj},确定流xem∈E的规则是:
本实施例中,引入流相关性特征,应用流标签传播方法,对第二样本集中的流量样本进行标记,可以有效增加有应用类别标签的流量样本,从而减少未知簇的数量,获得更加完整的映射,使得训练得到的流量分类器更加精度。
作为一种可选的实施方式,参照图4,根据各个簇和应用类别标签数据库中的应用类别进行映射分析,获得流量分类器的步骤包括以下步骤:
步骤S1351,根据各个簇中的流量样本和应用类别标签数据库中的应用类别标签利用应用类别函数确定各个簇的应用类别,所述应用类别函数表达式为:
LabelCi=arg maxjP(Y=yj|Ci)=arg maxj(nij/ni);
其中,对第一样本集和第二样本集聚类成K个簇,其中每个簇中包括多个流量样本。Y为应用类别集合,Y={y1、y2….yq},yj(j=1,2,….,q)表示应用类别j。Ci表示第i簇,i={1、2、3…..K};nij簇i中应用类别为j的流量样本数目,ni为第i簇中总的流量样本数目。
步骤S1352,根据各个簇应用类别,按照应用类别对簇进行分类存储,并获得流量分类器,所述流量分类器的表达式为:
其中,x表示待测试的样本集,mij表示应用类别j中第i簇的质心。
在本实施例中,利用应用类别函数,分别确定每一个簇的应用类别,并按照应用类别对簇进行分类存储集合Mj(j=1,2,…,n)中,其中Mj表示应用类别为j的所有簇的集合。mij为应用类别为j中第i簇的质心。
为了便于理解流量分类器的获得过程,给出一个更为详细的实施例,首先有一个流量样本集T,T中包含有A和B两个流量样本集(即T=A∪B),其中A为第一样本集,B为第二样本集。集合T经k-means聚类算法之后可以得到K个簇,分别记为C={C1,C2,….Ck},Ci表示第i簇,i={1、2、3…..K}。计算各个簇对应的质心记为m={m1,m2,….,mn},mi表示第i簇的质心,i={1,2,…..,n}。Y为应用类别集合,Y={y1、y2….yq},yj(j=1,2,….,q)表示应用类别j。
接着对每个簇Ci与应用类别进行一一映射,并计算每个簇Ci被映射到应用类别j的概率,记为P(Y=yj|Ci)=nij/nj,其中nij簇i中应用类别为j的流量样本数目,ni为第i簇中总的流量样本数目。然后根据公式:LabelCi=arg maxjP(Y=yj|Ci),计算出最大的概率值Pj,当Pj为最大值时所对应的j值就是簇Ci映射后的应用类别为j。完成所有簇Ci与应用类别j的映射后,确定每个簇Ci的应用类别j,并按照应用类别j对簇Ci进行分类存储集合Mj(j=1,2,…,n)中,其中Mj表示应用类别为j的所有簇的集合。mij为应用类别为j中第i簇的质心。
最后根据mij的值来确定流量分类器的表达式 利用上述该表达式,输入一个流量样本值x,计算x与应用类别j的欧式距离,欧式距离最小时的应用类别j即为流量样本值x的应用类别j。
作为一种可选的实施方式,参照图5,根据待测试的流量样本集和流量分类器确定流量类别步骤包括以下步骤:
所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本;
步骤S121,将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与所述待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造所述待测样本集中有应用类别标签的流量样本的相关流样本集;
步骤S122,根据相关流样本集和流量分类器获得相关流样本集中流量样本的预测应用类别,根据相关流样本集中的流量样本的预测应用类别采用多数投票分类方法确定所述相关流样本集中流量样本的应用类别。
在本实施例中,在对待测试流量样本集进行流量分类之前,先对待测试测试流量样本集进行流相关性分析,利用有应用类别标签的流量样本的应用类别标记与有应用类别标签的流量样本流相关性对应的无应用类别标签的流量样本,构造有应用类别标签的流量样本的相关流样本集,利用流量分类器预测相关流样本集中的流量样本的应用类别。预测完成后,利用多数投票分类法确定相关流样本集中的流量样本的应用类别。
为了便于理解,给出一个构造有应用类别标签的流量样本的相关流样本集的实施例,待测的流量样本集T,其中T包括有应用类别标签的流量样本和无应用类别标签的流量样本,将有应用类别标签的流量样本记为集合A,A={a1,a2,...,ai},i=1,2,…n,无应用类别标签的流量样本记为集合B,B={b1,b2,…,bj},j=1,2,…m,分别对A和B中的流量样本进行流相关性分析,当A中的流量样本与B具有流相关性时,构造A中流量样本的流相关性样本集BOF A={X11,X12,…,Xij},i=1,2,…,n,b=1,2,…,m,Xij表示流量样本ai与bj具有流相关性,即bj是ai的流相关性样本。
多数投票规则是指,在民主活动中,一项活动方案实施必须有所有参与中超过半数或者半数以上的认可才可实施的一种表决方式。而在本实施例中,是指一种流量样本ai(其中,i=1,2,…,n),其中一个相关流样本集BOF ai中有N(N为整数,且大于1)个流量样本,在利用流量分类器确定BOF ai中的流量样本可以产生多个预测应用类别f(N),为了确认BOF ai中的流量样本到底属于哪一个应用类别,主要根据多数投票方法计算投票结果。
为了方便理解本发明,给出一个详细的实施例,一个有应用类别标签的流量样本a和一个无应用类别标签的流量样本集B,根据流相关性,构造出a的相关流样本集BOF a={X1,X2,…,Xn}。将BOF a中的每一个相关流样本Xj,j=1,2,…,n,输入到流量分类器,按照计算公式YXj=f(Xj)得到预测应用类别为Wi(其中,i=1,2,…,q),为了确定X属于那一应用类别,根据Vij规则进行投票,Vij为投票函数,其中,
然后利用公式统计每个预测类别的投票数,哪个投票最多,就将集合BOF a中的全部流分到哪个类。当Vij的值最大时,将BOF a中的全部流量样本分为类别Wi。
针对多数投票方法的计算过程,给出一个更为详细的实施例,假设有一个a的相关流样本集BOF a={X1,X2,X3},经过流量分类器YXj=f(Xj)之后,得到对应的预测应用类别为W={W1,W2,W1},为了确定将BoF a中的流量样本到底属于为那个类别,现在就需要统计W1,W2的投票数。
对于W1,由于Yx1=f(X1)=W1,那么有V11=1,同样的V13=1;由于YX2=f(X2)=W2,那么V13=0,那么W1的投票数为2。
对于W2,由于YX2=f(X2)=W2,那么有V22=1;同样的YX1=f(X1)=W1和YX3=f(X3)=W1,那么V21=0和V23=0,所以W2的投票数为1。那么就有W1的投票数>W2的投票数,所以BoF a中的全部流都被标记为应用类别W1。
图6为本发明的网络流量分类方法整个过程的流程示意,由图6可知,本发明网络流量分类方法具体步骤为:将第一样本集和第二样本集合并成无监督的训练集,然后对无监督的训练集中的流量样本进行聚类分析得到各个簇;将第一样本集和第二样本集合并成无监督的训练集进行利用流标签传播方法进行流相关性分析,并标注第二样本集中的流量样本,扩展监督集;将各个簇映射到非监督训练集中的应用类别中,获得流量分类器;将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造待测样本集中有应用类别标签的流量样本的相关流样本集,将相关流样本集输入所述流量分类器,利用复合算法(即结合流量分类器和多数投票分类方法),确定有应用类别标签的流量样本的相关流样本的应用类别。
根据上述本发明的网络流量分类方法,本发明还提供网络流量分类系统,下面结合附图及较佳实施例对本发明的网络流量分类系统进行详细说明。
图7为网络流量预测系统在一个实施例中的结构示意图。如图7所示,该实施例中的网络流量预测系统,包括:
信息获取模块10,用于获取待测试的流量样本集和流量分类器;
流量类别确定模块20,用于根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;
流量分类器获取模块30,用于获取流量分类器;
所述流量分类器获取模块30,还包括:
样本集获取模块31,用于获取第一样本集和第二样本集。
簇分析模块32,用于根据第一样本集和第二样本集聚类成各个簇。
样本标记模块33,用于对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与第一样本集中的流量样本有流相关性的流量样本进行标记。
样本存储模块34,用于将第一样本集中的流量样本与第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库。
流量分类器确定模块35,用于根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
进一步地,参照图8,簇分析模块32包括:
样本集合模块321,用于将第一样本集和第二样本集合并成训练集;
簇确定模块322,对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。
进一步地,参照图8,样本集标记模块33包括:
属性获取模块331,用于获取所述第一样本集中的流量样本的三元属性和所述第二样本集中的流量样本的三元属性,所述三元属性为目的IP、目的端口和传输协议。
样本流相关性确定模块332,用于将所述第一样本集中的流量样本的三元属性与所述第二样本集中的流量样本的三元属性进行对比,确定所述第一样本集中的流量样本和所述第二样本集中的流量样本的流相关性。
作为一种可选的实施方式,参照图8,流量分类器获取模块35包括:
簇应用类别确定模块351,用于根据各个簇中的流量样本和应用类别标签数据库中的应用类别标签利用应用类别函数确定各个簇的应用类别。
分类器计算模块352,用于根据各个簇应用类别,按照应用类别对簇进行分类存储,并获得流量分类器。
进一步地,参照图7,所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本,所述流量类别确定模块20还包括:
相关流样本集构建模块21,用于将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与待测样本集中有应用类别标签的流量样本具有流相关性的待测样本集中无应用类别标签的流量样本,并构造待测样本集中有应用类别标签的流量样本的相关流样本集。
相关流样本类别确定模块22,用于根据相关流样本集和流量分类器获得所述相关流样本集中流量样本的预测应用类别,根据相关流样本集中的流量样本的预测应用类别采用多数投票分类方法确定相关流样本集中流量样本的应用类别。
上述网络信息分类系统可执行本发明实施例所提供的网络流量分类方法,具备执行方法相应的功能模块和有益效果。至于其中各个功能模块所执行的处理方法,例如相关流样本集构建模块21、相关流样本类别确定模块22等的处理方法,可参照上述方法实施例中的描述,此处不再进行赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种网络流量的分类方法,其特征在于,包括以下步骤:
获取待测试的流量样本集和流量分类器;
根据待测试的流量样本集和流量分类器确定待测试的流量样本集中的流量样本的应用类别;
其中,所述流量分类器为通过以下方法而获取的流量分类;
获取第一样本集和第二样本集,所述第一样本集中包括有应用类别标签的流量样本,所述第二样本集中包括无应用类别标签的流量样本;
根据所述第一样本集和所述第二样本集聚类成各个簇;
对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;
将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;
根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
2.根据权利要求1所述的网络流量的分类方法,其特征在于,根据所述第一样本集和所述第二样本集聚类成各个簇的步骤包括以下步骤:
将所述有第一样本集和所述第二样本集合并成训练集;
对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。
3.根据权利要求1所述的网络流量的分类方法,其特征在于,对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析的步骤包括以下步骤:
获取所述第一样本集中的流量样本的三元属性和所述第二样本集中的流量样本的三元属性,所述三元属性为目的IP、目的端口和传输协议;
将所述第一样本集中的流量样本的三元属性与所述第二样本集中的流量样本的三元属性进行对比,确定所述第一样本集中的流量样本和所述第二样本集中的流量样本的流相关性。
4.根据权利要求1所述的网络流量的分类方法,其特征在于,根据各个簇和应用类别标签数据库中的应用类别进行映射分析,获得流量分类器的步骤包括以下步骤:
根据各个簇中的流量样本和所述应用类别标签数据库中的应用类别利用应用类别函数确定各个簇的应用类别,所述应用类别函数表达式为:
LabelCi=arg maxj P(Y=yj|Ci)=arg maxj(nij/ni);
其中,Y为应用类别集合,yj为应用类别j,Ci表示第i簇;nij簇i中应用类别为j的流量样本数目,ni为第i簇中总的流量样本数目;
根据各个簇应用的类别,按照应用类别对簇进行分类存储,并获得流量分类器,所述流量分类器的表达式为:
其中,x表示待测试的样本集,mij表示应用类别j中第i簇的质心。
5.根据权利要求1所述的网络流量的分类方法,其特征在于,根据待测试的流量样本集和流量分类器确定流量类别步骤包括以下步骤:
所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本;
将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与所述待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造所述待测样本集中有应用类别标签的流量样本的相关流样本集;
根据所述相关流样本集和所述流量分类器获得所述相关流样本集中的流量样本的预测应用类别,根据相关流样本集中的流量样本的预测应用类别采用多数投票分类方法确定所述相关流样本集中流量样本的应用类别。
6.一种网络流量的分类系统,其特征在于,包括:
信息获取模块,用于获取待测试的流量样本集和流量分类器;
流量类别确定模块,用于根据待测试的流量样本集和流量分类器确定待测试的流量样本集中流量样本的应用类别;
流量分类器获取模块,用于获取流量分类器;
所述流量分类器获取模块,还包括:
样本集获取模块,用于获取第一样本集和第二样本集;
簇分析模块,用于根据所述第一样本集和所述第二样本集聚类成各个簇;
样本标记模块,用于对第一样本集中的流量样本和第二样本集中的流量样本进行流相关性分析,利用第一样本集中流量样本的应用类别标签,对所述第二样本集中与所述第一样本集中的流量样本有流相关性的流量样本进行标记;
样本存储模块,用于将所述第一样本集中的流量样本与所述第二样本集中所有具有应用类别标签的流量样本存储至应用类别标签数据库;
流量分类器确定模块,用于根据各个簇和应用类别标签数据库中的应用类别进行映射分析,确定流量分类器。
7.根据权利6所述的网络流量的分类系统,其特征在于,所述簇分析模块包括:
样本集合并模块,用于将所述第一样本集和所述第二样本集合并成训练集;
簇确定模块,对训练集中所有的流量样本利用K-means聚类函数进行聚类分析,得到各个簇。
8.根据权利6所述的网络流量的分类系统,其特征在于,所述样本标记模块包括:
属性获取模块,用于获取所述第一样本集中的流量样本的三元属性和所述第二样本集中的流量样本的三元属性,所述三元属性为目的IP、目的端口和传输协议;
样本流相关性确定模块,用于将所述第一样本集中的流量样本的三元属性与所述第二样本集中的流量样本的三元属性进行对比,确定所述第一样本集中的流量样本和所述第二样本集中的流量样本的流相关性。
9.根据权利6所述的网络流量的分类系统,其特征在于,所述流量分类器获取模块包括:
簇应用类别确定模块,用于根据各个簇中的流量样本和所述应用类别标签数据库中的应用类别利用应用类别函数确定各个簇的应用类别;
分类器计算模块,用于根据各个簇应用类别,按照应用类别对簇进行分类存储,并获得流量分类器。
10.根据权利6所述的网络流量的分类系统,其特征在于,所述待测的流量样本集包括有应用类别标签的流量样本和无应用类别标签的流量样本;所述流量类别确定模块还包括:
相关流样本集构建模块,用于将待测样本集中有应用类别标签的流量样本和待测样本集中无应用类别标签的流量样本进行流相关性分析,利用待测样本集中有应用类别标签的流量样本的应用类别标签标记与所述待测样本集中有应用类别标签的流量样本具有流相关性的所述待测样本集中无应用类别标签的流量样本,并构造所述待测样本集中有应用类别标签的流量样本的相关流样本集;
相关流样本类别确定模块,用于根据所述相关流样本集和所述流量分类器获得所述相关流样本集中流量样本的预测应用类别,根据相关流样本集中的流量样本的预测应用类别采用多数投票分类方法确定所述相关流样本集中流量样本的应用类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710138904.4A CN106911591A (zh) | 2017-03-09 | 2017-03-09 | 网络流量的分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710138904.4A CN106911591A (zh) | 2017-03-09 | 2017-03-09 | 网络流量的分类方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106911591A true CN106911591A (zh) | 2017-06-30 |
Family
ID=59186321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710138904.4A Pending CN106911591A (zh) | 2017-03-09 | 2017-03-09 | 网络流量的分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106911591A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109547222A (zh) * | 2018-11-07 | 2019-03-29 | 斑马网络技术有限公司 | 网络请求的流量统计方法及装置 |
CN109726744A (zh) * | 2018-12-14 | 2019-05-07 | 深圳先进技术研究院 | 一种网络流量分类方法 |
CN109993188A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 数据标签识别方法、行为识别方法及装置 |
CN109993191A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 信息处理方法及装置、电子设备及存储介质 |
CN110149280A (zh) * | 2019-05-27 | 2019-08-20 | 中国科学技术大学 | 网络流量分类方法和装置 |
CN113890902A (zh) * | 2021-09-15 | 2022-01-04 | 奇安信科技集团股份有限公司 | 特征识别库的构建方法及装置、流量识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033965A (zh) * | 2011-01-17 | 2011-04-27 | 安徽海汇金融投资集团有限公司 | 一种基于分类模型的数据分类方法及系统 |
CN102291279A (zh) * | 2011-08-18 | 2011-12-21 | 西北工业大学 | P2p网络流量检测方法 |
CN104317751A (zh) * | 2014-11-18 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种gpu上数据流处理系统及其数据流处理方法 |
CN104468276A (zh) * | 2014-12-18 | 2015-03-25 | 东南大学 | 基于随机抽样多分类器的网络流量识别方法 |
-
2017
- 2017-03-09 CN CN201710138904.4A patent/CN106911591A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033965A (zh) * | 2011-01-17 | 2011-04-27 | 安徽海汇金融投资集团有限公司 | 一种基于分类模型的数据分类方法及系统 |
CN102291279A (zh) * | 2011-08-18 | 2011-12-21 | 西北工业大学 | P2p网络流量检测方法 |
CN104317751A (zh) * | 2014-11-18 | 2015-01-28 | 浪潮电子信息产业股份有限公司 | 一种gpu上数据流处理系统及其数据流处理方法 |
CN104468276A (zh) * | 2014-12-18 | 2015-03-25 | 东南大学 | 基于随机抽样多分类器的网络流量识别方法 |
Non-Patent Citations (2)
Title |
---|
YU WANG ET AL: ""A Novel Semi-Supervised Approach for Network Traffic Clustering"", 《2011 5TH INTERNATIONAL CONFERENCE ON NETWORK AND SYSTEM SECURITY》 * |
赵英 等: ""基于流相关性的网络流量分类"", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993188A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 数据标签识别方法、行为识别方法及装置 |
CN109993191A (zh) * | 2018-01-02 | 2019-07-09 | 中国移动通信有限公司研究院 | 信息处理方法及装置、电子设备及存储介质 |
CN109993191B (zh) * | 2018-01-02 | 2021-07-06 | 中国移动通信有限公司研究院 | 信息处理方法及装置、电子设备及存储介质 |
CN109547222A (zh) * | 2018-11-07 | 2019-03-29 | 斑马网络技术有限公司 | 网络请求的流量统计方法及装置 |
CN109726744A (zh) * | 2018-12-14 | 2019-05-07 | 深圳先进技术研究院 | 一种网络流量分类方法 |
WO2020119662A1 (zh) * | 2018-12-14 | 2020-06-18 | 深圳先进技术研究院 | 一种网络流量分类方法 |
CN110149280A (zh) * | 2019-05-27 | 2019-08-20 | 中国科学技术大学 | 网络流量分类方法和装置 |
CN110149280B (zh) * | 2019-05-27 | 2020-08-28 | 中国科学技术大学 | 网络流量分类方法和装置 |
CN113890902A (zh) * | 2021-09-15 | 2022-01-04 | 奇安信科技集团股份有限公司 | 特征识别库的构建方法及装置、流量识别方法 |
CN113890902B (zh) * | 2021-09-15 | 2023-12-29 | 奇安信科技集团股份有限公司 | 特征识别库的构建方法及装置、流量识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106911591A (zh) | 网络流量的分类方法和系统 | |
CN109284606B (zh) | 基于经验特征与卷积神经网络的数据流异常检测系统 | |
CN110519128B (zh) | 一种基于随机森林的操作系统识别方法 | |
CN109726744A (zh) | 一种网络流量分类方法 | |
CN104702465B (zh) | 一种并行网络流量分类方法 | |
CN103838744B (zh) | 一种查询词需求分析的方法及装置 | |
CN109936582A (zh) | 构建基于pu学习的恶意流量检测模型的方法及装置 | |
CN106228389A (zh) | 基于随机森林算法的网络潜力用户挖掘方法及系统 | |
CN110225001A (zh) | 一种基于主题模型的动态自更新网络流量分类方法 | |
CN110247910A (zh) | 一种异常流量的检测方法、系统及相关组件 | |
CN106096661A (zh) | 基于相对属性随机森林的零样本图像分类方法 | |
CN111105628A (zh) | 一种停车场画像构建方法和装置 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN113037410A (zh) | 信道识别方法、装置、传输方法、传输设备、基站、介质 | |
CN106056164A (zh) | 一种基于贝叶斯网络的分类预测方法 | |
CN115118653A (zh) | 一种基于多任务学习的实时业务流量分类方法及系统 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
Palmer et al. | Spectral clustering for directed networks | |
Munther et al. | Network traffic classification—a comparative study of two common decision tree methods: C4. 5 and random forest | |
CN104468276B (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
Xu et al. | Applying finite mixture models to New York City travel times | |
CN109740750B (zh) | 数据收集方法及装置 | |
Erdelić et al. | Classification of travel modes using streaming GNSS data | |
CN116401586A (zh) | 一种全场景业务智能感知与精准分类的方法 | |
CN114666273B (zh) | 一种面向应用层未知网络协议的流量分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170630 |
|
RJ01 | Rejection of invention patent application after publication |