CN107846326A - 一种自适应的半监督网络流量分类方法、系统及设备 - Google Patents

一种自适应的半监督网络流量分类方法、系统及设备 Download PDF

Info

Publication number
CN107846326A
CN107846326A CN201711103942.2A CN201711103942A CN107846326A CN 107846326 A CN107846326 A CN 107846326A CN 201711103942 A CN201711103942 A CN 201711103942A CN 107846326 A CN107846326 A CN 107846326A
Authority
CN
China
Prior art keywords
cluster
vector
type
point
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711103942.2A
Other languages
English (en)
Other versions
CN107846326B (zh
Inventor
冉静
孔晓晨
刘元安
胡鹤飞
袁东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201711103942.2A priority Critical patent/CN107846326B/zh
Publication of CN107846326A publication Critical patent/CN107846326A/zh
Application granted granted Critical
Publication of CN107846326B publication Critical patent/CN107846326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种自适应的半监督网络流量分类方法、系统及设备,该方法包括:获取网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;以向量集M为初始中心点,进行自适应的半监督k‑means聚类;根据最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型;将已知类型的流量簇作为训练数据,训练出线上的流量分类器。还涉及一种系统,该系统包括:获取模块、向量集处理模块、聚类模块、分类模块、输出模块。还涉及一种设备,该设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序。

Description

一种自适应的半监督网络流量分类方法、系统及设备
技术领域
本发明属于网络流量管理领域,尤其涉及一种自适应的半监督网络流量分类方法、系统及设备。
背景技术
传统的基于网络流的方法大多采用监督的或无监督的机器学习算法来实现网络流量分类。在有监督的流量分类中,学习引擎接受一组已标记的流样本,根据预定义的协议类别进行训练,然后返回一个训练好的分类模型,该分类模型可以预测未来网络流的协议类型。然而,随着网络的迅速扩展,互联网上部署了许多新的应用程序,这些应用对应的未知流是基于监督学习的分类方法无法处理的。在这种情况下,未知流将被错误地划分到某个预定义的流量类别中去,并影响分类器的整体精度。基于无监督学习的分类方法可以自动聚类未标记的训练样本,应用聚类结果构建流量分类器。但是聚类簇的数目必须被设置得足够大,以得到高纯度的流量簇,而且很难在没有监督信息的情况下将大量的流量簇映射到少量的流量类别中。
因此,传统的流量分类方法在标记信息不足,且网络中存在未知流量的现实情况下表现不佳。为了解决这个问题,Erman等人首先提出了将半监督学习方法应用到流量分类中,利用有标记流和未标记流的混合输入,训练出一个可以将已知协议分类的同时提取出未知协议的分类器。张等人扩展了Erman的工作,提出了一种改进的半监督流量分类方法,该方法在复杂的网络环境下表现良好。但是这样依然存在一些问题,比如:在训练阶段不能自动确定最佳参数,需要人工手动调参,不能实现系统的参数自适应。
发明内容
本发明所要解决的技术问题是:现有的在训练阶段不能自动确定最佳参数,需要人工手动调参,不能实现系统的参数自适应。
为解决上面的技术问题,本发明提供了一种基于半监督学习的自适应网络流量分类方法,其特征在于,该自适应网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
S2,根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
S3,以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
S4,根据输出的聚簇中每个簇的已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
S5,将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
本发明的有益效果:通过上述的方法,利用参数自适应的半监督k-means,将网络流进行了合理的聚类,保证了每一簇类中网络流类别的统一性,同时实现了对未知类别网络流的提取,利用得到的聚类结果训练出的分类器,可以在提高多协议分类准确率的同时,实现对未知协议的提取,保证了系统的可靠性和准确性。
进一步地,所述步骤S1中获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
进一步地,所述步骤S3中具体包括:
S31,利用输入的初始中心点M对混合的网络流进行k-means聚类,得到k个簇和k个簇中心点;
S32,根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,同时更新所述向量集M,得到新的向量集M;
S33,计算出所述网络流特征向量集X中离所述新的向量集M的中心点最远的k个向量点;
S34,根据密度计算公式,确定在所述最远的k个向量点中密度最大的向量点,并将所述密度最大的向量点添加到所述新的向量集M中;
S35,设置新的k值,根据所述新的中心点集M和所述新的K值,重复执行步骤S31-S34,直到k值大于预设最大阈值;
S36,统计所有所述评价函数的值,从所有所述评价函数的值中选取最小评价函数的值,以及与所述最小评价函数的值对应的k值,并输出在所述对应的k值时k-means的聚簇。
上述进一步地有益效果:通过上述的方法,实现对半监督k-means的改进,利用迭代半监督k-means,并动态添加中心点的方法,实现了k值的自适应选取,即聚类数目的自适应选取,同时保证了聚簇内部的高纯净性。
进一步地,所述S32中更新所述向量集M,得到新的向量集M,其具体包括:将向量集M替换为所述k个簇中心点组成的集合。
进一步地,所述S32中根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,其公式具体为:
其中,d(mi,xj)表示簇i的中心点mi与簇i中的向量点xj之间的欧式距离,表示每一簇内所有向量点与簇中心点的距离之和。
进一步地,所述S34中根据点的密度计算公式,计算出所述最远的k个点中密度最大的点,其具体计算公式为:
其中d(xi,xj)表示向量点xi和向量点xj之间的欧式距离,表示所有向量点两两组合时的计算次数,其中N为所有向量点的数目。
进一步地,所述S35中包括:
设置新的K值,当所述新的K值小于所述预设最大阈值时,根据所述新的中心点集M和所述新的K值,重复执行步骤S31-S34,其中所述新的K值为原k值加1,所述预设最大阈值为其中N为k-means的输入所述网络流特征向量集X的中的元素数量。
本发明还涉及一种自适应的半监督网络流量分类系统,该自适应网络流量分类系统包括:
获取模块、向量集处理模块、聚类模块、分类模块、输出模块;
所述获取模块,用于获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
所述向量集处理模块,用于根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
所述聚类模块,用于以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
所述分类模块,用于根据输出的聚簇中每个簇中已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
所述输出模块,用于将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
本发明的有益效果:通过上述的系统,利用参数自适应的半监督k-means,将网络流进行了合理的聚类,保证了每一簇类中网络流类别的统一性,同时实现了对未知类别网络流的提取的改进,利用得到的聚类结果训练出的分类器,可以在提高多协议分类准确率的同时,实现对未知协议的提取,保证了系统的可靠性和准确性。。
进一步地,所述获取模块,用于获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
本发明还涉及一种计算机设备,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述方法的步骤。
本发明的有益效果:通过上述的计算机设备,改进了半监督k-means聚类算法,利用迭代半监督k-means,并动态添加中心点的方法,实现k值的自适应,利用得到的聚类结果训练出的分类器,可以在提高多协议分类准确率的同时,实现对未知协议的提取,保证了系统的可靠性和准确性。。
附图说明
图1为本发明实施例1的一种自适应的半监督网络流量分类方法的流程图;
图2为本发明的自适应的半监督网络流量分类系统的框架的结构示意图;
图3为本发明实施例8一种自适应的半监督网络流量分类系统的结构示意图;
图4为本发明实施例10的一种计算机设备的结构示意图;
图5是分类器的整体准确率对比的示意图;
图6是针对每种协议的分类的准确率对比的示意图;
图7是更进一步分析已标记网络流的比例对分类器准确率的影响的示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本发明实施例1提供的是一种自适应的半监督网络流量分类方法,该自适应网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
S2,根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
S3,以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
S4,根据输出的聚簇中每个簇中已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
S5,将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
需要说明的是,如图2所示,在本实施例1中是采用的是自适应的半监督网络流量分类系统的框架,该系统训练出的分类器能够实现实时的流量分类,在提高常见类型流量的分类准确度的同时,还具有检测和提取出未知应用程序产生的未知流的能力。该系统由两阶段组成:离线学习和在线识别。少量的标记流量和大量未标记的网络流作为系统的线下训练数据输入。在本实施例1中主要是利用参数自适应的半监督k-means,将网络流进行了合理的聚类,保证了每一簇类中网络流类别的统一性,同时实现了对未知类别网络流的提取,根据每簇中已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器聚簇结果作为训练数据,可用于训练线上的实时网络流量分类器,如NCC分类器。在线上分类时,该分类器可将网络流量划分为若干已知流量类型的同时,检测并提取出未知流量。为了实现更细粒度分类,我们还加入了系统更新模块,进一步分析了未知流量的类型,可用于构建新的流量类别,更新系统的知识量。
通过本实施例1的方法,改进了半监督k-means算法,利用迭代半监督k-means,并动态添加中心点的方法,实现k值的自适应,这样大大提高了后续分类的精度。
可选地,在另一实施例2中所述步骤S1中获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
需要说明的是,本实施例2是在上述实施例1的基础上进行的进一步说明。
可选地,在另一实施例3中所述步骤S3中具体包括:
S31,利用输入的初始中心点M对混合的网络流进行k-means聚类,得到k个簇和k个簇中心点;
S32,根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,同时更新所述向量集M,得到新的向量集M;
S33,计算出所述网络流特征向量集X中离所述新的向量集M的中心点最远的k个向量点;
S34,根据密度计算公式,确定在所述最远的k个向量点中密度最大的向量点,并将所述密度最大的向量点添加到所述新的向量集M中;
S35,设置新的k值,根据所述新的中心点集M和所述新的K值,重复执行步骤S31-S34,直到k值大于预设最大阈值;
S36,统计所有所述评价函数的值,从所有所述评价函数的值中选取最小评价函数的值,以及与所述最小评价函数的值对应的k值,并输出在所述对应的k值时k-means的聚簇。
需要说明的是,本实施例3是在上述实施例1或者实施例2的基础上进行的进一步说明。
可选地,在另一实施例4中所述S32中更新所述向量集M,得到新的向量集M,其具体包括:将向量集M替换为所述k个簇中心点组成的集合。
需要说明的是,本实施例4是在上述实施例3的基础上进行的进一步说明。
可选地,在另一实施例5中所述S32中根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,其公式具体为:其中,d(mi,xj)表示簇i的中心点mi与簇i中的向量点xj之间的欧式距离,表示每一簇内所有向量点与簇中心点的距离之和。
需要说明的是,本实施例5是在上述实施例3或者实施例4的基础上进行的进一步说明。
可选地,在另一实施例6中所述S6中包括:
所述S34中根据点的密度计算公式,计算出所述最远的k个点中密度最大的点,其具体计算公式为:
其中d(xi,xj)表示向量点xi和向量点xj之间的欧式距离,表示所有向量点两两组合时的计算次数,其中N为所有向量点的数目。
需要说明的是,本实施例6是在上述实施例3或者实施例4的基础上进行的进一步说明。
可选地,在另一实施例7中所述S35中包括:
设置新的k值,当所述新的k值小于所述预设最大阈值时,根据所述新的中心点集M和所述新的k值,重复执行步骤S31-S34,其中所述新的k值为原k值加1,所述预设最大阈值为其中N为k-means的输入所述网络流特征向量集X的中的元素数量。
需要说明的是,本实施例7是在上述实施例3或者实施例4的基础上进行的进一步说明。
实施例8
如图3所示,本发明还提供一种自适应的半监督网络流量分类系统,该自适应网络流量分类系统包括:
获取模块、向量集处理模块、聚类模块、分类模块、输出模块;
所述获取模块,用于获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
所述向量集处理模块,用于根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
所述聚类模块,用于以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
所述分类模块,用于根据输出的聚簇中每个簇中已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
所述输出模块,用于将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
需要说明的是,如图2所示,本实施例8是对应于上述实施例1-实施例7的方法的系统,本实施例8的系统与实施例1-实施例7的技术特征是一一对应的,在本实施例8中是采用的是自适应的半监督网络流量分类系统的框架,该系统能够实现实时的流量分类,在提高常见类型流量的分类准确度的同时,还具有检测和提取出未知应用程序产生的未知流的能力。该系统由两阶段组成:离线学习和在线识别。少量的标记流量和大量未标记的网络流作为系统的线下训练数据输入。在本实施例8中主要是对半监督k-means的改进,利用迭代半监督k-means,并动态添加中心点的方法,实现k值的自适应,根据每簇中已标记网络流的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到新的已知类型的流量簇;将所述新的已知类型的流量簇作为训练数据,训练出线上的实时网络流量分类器,如NCC分类器。在线上分类时,该分类器可将网络流量划分为若干已知流量类型的同时,检测并提取出未知流量。为了实现更细粒度分类,我们还加入了系统更新模块,进一步分析了未知流量的类型,可用于构建新的流量类别,更新系统的知识量。
通过本实施例8的系统,改进了半监督k-means算法,利用迭代半监督k-means,并动态添加中心点的方法,实现k值的自适应,这样大大提高了后续分类提炼的精度。
可选地,在另一实施例9中所述获取模块,用于获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
需要说明的是,本实施例9是在上述实施例8的基础上进行的进一步说明。
实施例10
如图4所示,本发明实施例还提供一种计算机设备,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述实施例1-实施例7任一实施例所述方法的步骤。
需要说明的是,在本实施例10中通过本发明的计算机设备,获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量,根据已标记的所述网络流特征向量,计算出已标记的每个类型网络流的中心点,并以所述中心点作为k-means算法的初始聚类中心M,对混合的已标记类型和未标记类型的网络流点集X进行半监督k-means聚类,得到k个簇和k个中心点,更新M为k个新的中心点;再计算Jk值,并根据更新后的M点集,计算出点集X中离所述M中新的中心点最远的k个点;接着根据点的密度计算公式,确定在所述最远的k个点中密度最大的点,并将所述密度最大的点添加到更新后的中心点集M中;当k值小于时,重复上述聚类,然后统计得到最小的Jk的值,以及与所述最小的Jk的值对应的k值和所述对应的k值时k-means的聚簇输出;再然后根据每簇中已标记网络流的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到新的已知类型的流量簇;最后将所述新的已知类型的流量簇作为训练数据,训练出线上的流量分类器。
对于上述实施例1到实施例10,使用到的改进的k值自适应的半监督k-means算法,其计算方法如下步骤:
输入:未标记的网络流特征向量X={x1,...,xn}
p个初始中心点M={m1,...,mp},k的初始取值为p
输出:k个网络流特征向量簇
Step1:利用M作为k-means的初始聚类中心,对向量点集X进行k-means聚类,得到k个簇Ck={c1,...,ck}和k个中心点;
Step2:计算对应评价函数的值;
Step3:将M重置为k-means聚类得到的k个簇的中心点;
Step4:计算点集X中距离step3中得到的中心点距离最远的k个点;
Step5:根据点的密度计算公式计算出step4得到的k个中心点中密度最大的点,加入到更新后的中心点集M中,其中计算密度的公式为:
Step6:k值重置为k+1,当k值小于时,根据重置的k值和更新的M中心点集,重复进行step1~step6;
Step7:统计得到最小的Jk的值,以及其对应的k值和k取该值时对应的聚簇结果,并输出。
下面是具体的一些解析,首先输入是一个由已标记和未标记流组成的训练集,其中每个网络流可以认为是统计特征空间中的一个向量点。向量之间的欧氏距离是
在改进的算法中k值从kmin=p变化到其中kmin的值是由输入的已标记流的类别数量决定的,kmax是根据之前的经典文献中总结出的k-means算法中k的经验最大值所决定的。
此外,我们需要在迭代过程中在每次动态地添加一个中心点。我们考虑从距当前的中心点距离最远的k个中心点中选择密度最大的一个进行添加,距离最大可以有效地避免陷入局部最优,而密度最大可以保证该点的代表性。其中密度的计算公式为
接下来是聚类识别算法。我们采用概率分配机制将k-means得到的k个聚簇映射到属于不同应用程序的流量类型中。我们可以利用后验概率来决定映射的类别,P(L=lj|Ci)=nij/ni,其中nij表示类型j的已标记数据被聚类到簇i中的数目,ni表示簇i中已标记流的总数量。
如图5、图6和图7所示,下面的对上述实施例1-实施例10进行的一些实验数据说明;
图5中的表格中的数据分别对应着柱状图从左到右的四个图形,依次为本发明得到的分类器,本发明去掉已标记数据充分利用部分得到的分类器,以及其他两种半监督分类器,分类器整体的准确率分别为95.80%,92.67%,91.13%,86.67%。
图6列举了几种不同协议通过上述分类器进行分类后的f值对比,f值一般用于评价多协议分类器对每种协议的不同分类性能,它是正确率和召回率的加权调和平均。针对HTTP,SMTP,FTP,DNS和一类未知协议,通过本发明的方法训练出的分类器均得到了很好的效果。
图7更进一步分析已标记网络流的比例对各种分类器准确率的影响,随着已标记网络流比例的增加,本发明训练出的分类器的准确率不断提高,但是其他方法得到的分类器不仅没有明显提高,甚至有所下降,说明了本发明在簇的类别映射方面的改进方法的先进性。
在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种自适应的半监督网络流量分类方法,其特征在于,该自适应网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
S2,根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
S3,以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
S4,根据输出的聚簇中每个簇的已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
S5,将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
2.根据权利要求1所述的自适应网络流量分类方法,其特征在于,所述步骤S1中获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
3.根据权利要求1或2所述的自适应网络流量分类方法,其特征在于,所述步骤S3中具体包括:
S31,利用输入的初始中心点M对混合的网络流进行k-means聚类,得到k个簇和k个簇中心点;
S32,根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,同时更新所述向量集M,得到新的向量集M;
S33,计算出所述网络流特征向量集X中离所述新的向量集M的中心点最远的k个向量点;
S34,根据密度计算公式,确定在所述最远的k个向量点中密度最大的向量点,并将所述密度最大的向量点添加到所述新的向量集M中;
S35,设置新的k值,根据所述新的中心点集M和所述新的K值,重复执行步骤S31-S34,直到k值大于预设最大阈值;
S36,统计所有所述评价函数的值,从所有所述评价函数的值中选取最小评价函数的值,以及与所述最小评价函数的值对应的k值,并输出在所述对应的k值时k-means的聚簇。
4.根据权利要求3所述的自适应网络流量分类方法,其特征在于,所述S32中更新所述向量集M,得到新的向量集M,其具体包括:将向量集M替换为所述k个簇中心点组成的集合。
5.根据权利要求3或4所述的自适应网络流量分类方法,其特征在于,所述S32中根据所述k个簇和所述k个簇中心点计算评价函数,得到评价函数的值,其公式具体为:
<mrow> <msub> <mi>J</mi> <mi>k</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </munderover> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中,d(mi,xj)表示簇i的中心点mi与簇i中的向量点xj之间的欧式距离,表示每一簇内所有向量点与簇中心点的距离之和。
6.根据权利要求3或4所述的自适应网络流量分类方法,其特征在于,所述S34中根据点的密度计算公式,计算出所述最远的k个点中密度最大的点,其具体计算公式为:
<mrow> <mi>A</mi> <mi>v</mi> <mi>g</mi> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mo>=</mo> <mfrac> <mn>1</mn> <msubsup> <mi>C</mi> <mi>N</mi> <mn>2</mn> </msubsup> </mfrac> <mo>&amp;times;</mo> <mi>&amp;Sigma;</mi> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中d(xi,xj)表示向量点xi和向量点xj之间的欧式距离,表示所有向量点两两组合时的计算次数,其中N为所有向量点的数目。
7.根据权利要求3或4所述的自适应网络流量分类方法,其特征在于,所述S35中包括:
设置新的k值,当所述新的k值小于所述预设最大阈值时,根据所述新的中心点集M和所述新的k值,重复执行步骤S31-S34,其中所述新的k值为原k值加1,所述预设最大阈值为其中N为k-means的输入所述网络流特征向量集X的中的元素数量。
8.一种基于半监督学习的自适应网络流量分类系统,其特征在于,该自适应网络流量分类系统包括:
获取模块、向量集处理模块、聚类模块、分类模块、输出模块;
所述获取模块,用于获取已标记类型和未标记类型的网络流,提取每条网络流中预设固定量的流特征,得到网络流特征向量;
所述向量集处理模块,用于根据已标记的网络流特征向量,计算出每个类型中的网络流特征向量集合的质心,得到向量集M;
所述聚类模块,用于以所述向量集M为k-means聚类的初始中心点,对混合的已标记类型和未标记类型的网络流特征向量集X进行自适应的半监督k-means聚类,并输出k-means的聚簇;
所述分类模块,用于根据输出的聚簇中每个簇的已标记网络流特征向量的最大后验概率,将得到的每类簇中的网络流映射到所属的流量类型中,得到已知类型的流量簇;
所述输出模块,用于将所述已知类型的流量簇作为训练数据,训练出线上的流量分类器。
9.根据权利要求8所述的自适应网络流量分类系统,其特征在于,所述获取模块,用于获取已标记类型和未标记类型的网络流,其中每种类型中的已标记网络流的数量相同。
10.一种计算机设备,其特征在于,该计算机设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述方法的步骤。
CN201711103942.2A 2017-11-10 2017-11-10 一种自适应的半监督网络流量分类方法、系统及设备 Active CN107846326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711103942.2A CN107846326B (zh) 2017-11-10 2017-11-10 一种自适应的半监督网络流量分类方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711103942.2A CN107846326B (zh) 2017-11-10 2017-11-10 一种自适应的半监督网络流量分类方法、系统及设备

Publications (2)

Publication Number Publication Date
CN107846326A true CN107846326A (zh) 2018-03-27
CN107846326B CN107846326B (zh) 2020-11-10

Family

ID=61681786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711103942.2A Active CN107846326B (zh) 2017-11-10 2017-11-10 一种自适应的半监督网络流量分类方法、系统及设备

Country Status (1)

Country Link
CN (1) CN107846326B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923962A (zh) * 2018-06-25 2018-11-30 哈尔滨工业大学 一种基于半监督聚类的局部网络拓扑测量任务选择方法
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109873774A (zh) * 2019-01-15 2019-06-11 北京邮电大学 一种网络流量识别方法及装置
CN109922013A (zh) * 2019-01-28 2019-06-21 世纪龙信息网络有限责任公司 服务访问流量控制方法、装置、服务器和存储介质
CN109995611A (zh) * 2019-03-18 2019-07-09 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110061869A (zh) * 2019-04-09 2019-07-26 中南民族大学 一种基于关键词的网络轨迹分类方法及装置
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法
CN110336789A (zh) * 2019-05-28 2019-10-15 北京邮电大学 基于混合学习的Domain-flux僵尸网络检测方法
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN111431820A (zh) * 2020-03-09 2020-07-17 上海交通大学 基于业务类型的在线数据流QoS识别方法及系统
CN111740921A (zh) * 2020-06-22 2020-10-02 南京邮电大学 基于改进K-means算法的网络流量分类方法及系统
US20200410398A1 (en) * 2018-03-23 2020-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Methods and Devices for Chunk Based IoT Service Inspection
CN112508363A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 基于深度学习的电力信息系统状态分析方法及装置
CN113541834A (zh) * 2021-06-24 2021-10-22 西安电子科技大学 一种异常信号半监督分类方法、系统、数据处理终端
CN113591950A (zh) * 2021-07-19 2021-11-02 中国海洋大学 一种随机森林网络流量分类方法、系统、存储介质
CN113810333A (zh) * 2020-06-11 2021-12-17 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及系统
CN114584377A (zh) * 2022-03-04 2022-06-03 奇安信科技集团股份有限公司 流量异常检测方法、模型的训练方法、装置、设备及介质
WO2023215017A1 (en) * 2022-04-15 2023-11-09 Raytheon Bbn Technologies Corp. Distributed sensor apparatus and method using tensor decomposition for application and entity profile identification

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060039A (zh) * 2016-05-27 2016-10-26 广东工业大学 一种面向网络异常数据流的分类检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106060039A (zh) * 2016-05-27 2016-10-26 广东工业大学 一种面向网络异常数据流的分类检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LIU BIN等: "P2P traffic classification using semi-supervised learning", 《IEEE 2010 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND CONPUTATIONAL INTELLIGENCE》 *
PU WANG等: "A Framework for QoS-aware Traffic Classification Using Semi-supervised Machine Learning in SDNs", 《2016 IEEE INTERNATIONAL CONFERENCE ON SERVICES COMPUTING(SCC)》 *
YU WANG等: "A novel semi-supervised approach for network traffic clustering", 《IEEE 20115TH INTERNATIONAL CONFERENCE ON NETWORK AND SYSTEM SECURITY》 *
周文刚等: "基于半监督的网络流量分类识别算法", 《电子测量与仪器学报》 *
王涛等: "基于机器学习的网络流量分类研究进展", 《小型微型计算机系统》 *
钱燕燕: "基于多标记学习与半监督聚类的入侵防御技术研究", 《中国优秀硕士论文全文数据库》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN110071845B (zh) * 2018-01-24 2021-09-10 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
US20200410398A1 (en) * 2018-03-23 2020-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Methods and Devices for Chunk Based IoT Service Inspection
CN108923962B (zh) * 2018-06-25 2021-05-28 哈尔滨工业大学 一种基于半监督聚类的局部网络拓扑测量任务选择方法
CN108923962A (zh) * 2018-06-25 2018-11-30 哈尔滨工业大学 一种基于半监督聚类的局部网络拓扑测量任务选择方法
CN109657697B (zh) * 2018-11-16 2023-01-06 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109587144B (zh) * 2018-12-10 2021-02-12 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109587144A (zh) * 2018-12-10 2019-04-05 广东电网有限责任公司 网络安全检测方法、装置及电子设备
CN109873774B (zh) * 2019-01-15 2021-01-01 北京邮电大学 一种网络流量识别方法及装置
CN109873774A (zh) * 2019-01-15 2019-06-11 北京邮电大学 一种网络流量识别方法及装置
CN109922013B (zh) * 2019-01-28 2022-08-19 天翼数字生活科技有限公司 服务访问流量控制方法、装置、服务器和存储介质
CN109922013A (zh) * 2019-01-28 2019-06-21 世纪龙信息网络有限责任公司 服务访问流量控制方法、装置、服务器和存储介质
CN109995611A (zh) * 2019-03-18 2019-07-09 新华三信息安全技术有限公司 流量分类模型建立及流量分类方法、装置、设备和服务器
CN110061869A (zh) * 2019-04-09 2019-07-26 中南民族大学 一种基于关键词的网络轨迹分类方法及装置
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法
CN110336789A (zh) * 2019-05-28 2019-10-15 北京邮电大学 基于混合学习的Domain-flux僵尸网络检测方法
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN110717551B (zh) * 2019-10-18 2023-01-20 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN111431820A (zh) * 2020-03-09 2020-07-17 上海交通大学 基于业务类型的在线数据流QoS识别方法及系统
CN113810333A (zh) * 2020-06-11 2021-12-17 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及系统
CN111740921A (zh) * 2020-06-22 2020-10-02 南京邮电大学 基于改进K-means算法的网络流量分类方法及系统
CN112508363A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 基于深度学习的电力信息系统状态分析方法及装置
CN113541834A (zh) * 2021-06-24 2021-10-22 西安电子科技大学 一种异常信号半监督分类方法、系统、数据处理终端
CN113591950A (zh) * 2021-07-19 2021-11-02 中国海洋大学 一种随机森林网络流量分类方法、系统、存储介质
CN114584377A (zh) * 2022-03-04 2022-06-03 奇安信科技集团股份有限公司 流量异常检测方法、模型的训练方法、装置、设备及介质
WO2023215017A1 (en) * 2022-04-15 2023-11-09 Raytheon Bbn Technologies Corp. Distributed sensor apparatus and method using tensor decomposition for application and entity profile identification

Also Published As

Publication number Publication date
CN107846326B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN107846326A (zh) 一种自适应的半监督网络流量分类方法、系统及设备
CN110991786B (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN107819698A (zh) 一种基于半监督学习的网络流量分类方法、计算机设备
CN105589806B (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN107766929B (zh) 模型分析方法及装置
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN108375808A (zh) Nriet基于机器学习的大雾预报方法
CN109461025A (zh) 一种基于机器学习的电能替代潜在客户预测方法
CN108388927A (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN108363810A (zh) 一种文本分类方法及装置
CN103617435B (zh) 一种主动学习图像分类方法和系统
CN109087277B (zh) 一种空气细颗粒物pm2.5测量方法
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN114553475A (zh) 一种基于网络流量属性有向拓扑的网络攻击检测方法
CN103166830A (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN110827169B (zh) 一种基于分级指标的分布式电网业务监控方法
CN110365603A (zh) 一种基于5g网络能力开放的自适应网络流量分类方法
CN108052968A (zh) 一种qsfla-svm的感知入侵检测方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN104809230A (zh) 一种基于多分类器集成的卷烟感官质量评估方法
CN108197837A (zh) 基于KMeans聚类的光伏发电预测方法
CN113344130B (zh) 差异化巡河策略的生成方法及装置
CN105141455A (zh) 一种基于统计特征的有噪网络流量分类建模方法
CN112183459B (zh) 一种基于进化多目标优化的遥感水质图像分类方法
CN115619271A (zh) 一种基于cnn和随机森林的充电桩状态评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant