CN111211994B - 一种基于SOM与K-means融合算法的网络流量分类方法 - Google Patents

一种基于SOM与K-means融合算法的网络流量分类方法 Download PDF

Info

Publication number
CN111211994B
CN111211994B CN201911194495.5A CN201911194495A CN111211994B CN 111211994 B CN111211994 B CN 111211994B CN 201911194495 A CN201911194495 A CN 201911194495A CN 111211994 B CN111211994 B CN 111211994B
Authority
CN
China
Prior art keywords
cluster
algorithm
neuron
clustering
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911194495.5A
Other languages
English (en)
Other versions
CN111211994A (zh
Inventor
赵莎莎
肖毅
张登银
宁越强
王飞
李速
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201911194495.5A priority Critical patent/CN111211994B/zh
Publication of CN111211994A publication Critical patent/CN111211994A/zh
Application granted granted Critical
Publication of CN111211994B publication Critical patent/CN111211994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SOM与K‑means融合算法的网络流量分类方法,首先采用SOM算法对流量数据进行一次聚类,求出聚类结果中各个簇的簇中心及簇的数目,将簇中心作为K‑means的初始聚类中心,再将簇的数目作为K值,执行K‑means算法进行二次聚类得到输出结果。采用S_Dbw指数作为聚类结果评价指标,对于包含各种噪声和不同密度的数据集,该指数具有较强的鲁棒性。本发明与基于监督学习的流量分类算法相比,减少了标注类别的成本,与其他基于无监督学习的的算法相比性能更优。

Description

一种基于SOM与K-means融合算法的网络流量分类方法
技术领域
本发明涉及网络流量分析及网络安全等领域,具体涉及一种基于SOM与K-means融合算法的网络流量分类方法。
背景技术
随着互联网的迅猛发展,大数据时代的到来,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,网络组成愈发复杂,对于网络的管理和分析需求增加。网络流量分类技术作为网络可控性的基础技术之一,可以帮助网络运营商提供更好的服务质量,对网络进行有效地监管。对网络流量进行分析,可以识别并过滤掉网络病毒,检测出垃圾邮件和非法入侵,提高了网络的安全性能。因此网络流量分类技术对于提高网络的管理效率,保障网络环境的绿色和安全有着至关重要的作用。
常用的流量分类技术主要有以下三类:①基于端口号的流量分类方法:端口号与所需应用程序之间的对应关系由IANA(互联网数字分配机构)定义,这种方法存在着严重的局限性,例如服务器端口可以动态分配,具有不同QoS级别服务可以使用相同的端口号等,这些原因导致基于端口号的流量分类方法不再适用当前网络;②基于有效载荷的流量分类方法:这种方法需要精确了解应用层数据以及其数据包的格式,只能用于非加密流量,而当前网络的应用程序有效负载的加密性好,这种方法的局限性较大;③基于流量统计特征的分类方法:通过流量的特征来建立机器学习的模型,然后再用数据集训练并完善模型,通过模型来预测未知流量的种类,由于其适用范围广泛,该方法被广泛地研究和使用。
目前针对流量分类的机器学习模型主要是基于监督学习算法,如基于K近邻、支持向量机、NaiveBayes,而基于无监督学习的机器学习模型研究较少,无监督学习的优点在于不需要将训练数据贴上标签,从而大大减少了人工标注类别的成本,因此本发明提出基于以无监督学习中的K-means算法为核心的流量分类方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于SOM与K-means融合算法的网络流量分类方法,与其他方法不同之处,本发明以无监督学习的K-means算法为核心将SOM算法与其结合从而进行优化。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于SOM与K-means融合算法的网络流量分类方法,包括以下步骤:
步骤1,采集网络流量数据集,确定训练集,并统计流量特征;
步骤2,采用基于相关性的特征选择算法对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
步骤3,融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
步骤4,使用S_Dbw指数评估算法的聚类效果。
优选的:步骤2中所述的基于相关性的特征选择算法包括以下步骤:
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
Figure GDA0003737509380000021
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
优选的:步骤3中SOM算法包括三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小。
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。
优选的:步骤4中S_Dbw指数的评估原理如下所示:
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;
Figure GDA0003737509380000031
Figure GDA0003737509380000032
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
本发明相比现有技术,具有以下有益效果:
1.本发明为基于无监督学习的流量分类算法,大大减少了人工标注数据类别的成本,算法简单,能够快速处理大量数据。
2.解决了K-means算法随机的初始聚类中心导致聚类效果不佳,以及K值的不确定性问题。
3.本发明所采用的聚类效果评估指标S_Dbw指数,对于包含各种干扰因素的数据集,该指数的鲁棒性较强。
附图说明
图1为基于SOM与K-means融合算法的网络流量分类方法设计流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于SOM与K-means融合算法的网络流量分类方法,如图1所示,包括以下步骤:
步骤1,采集数据:采集网络流量数据集,确定训练集,并统计流量特征;引用文献“Internet traffic classification using Bayesian analysis techniques.”中的实验数据集中作为研究对象,数据集中每个样本都是从一条完整的TCP双向流抽取而来,一共包含249项属性,最后一项表示样本的流量类型。
步骤2,对数据集进行特征选择:采用基于相关性的特征选择算法(CFS)对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法(best first search)搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
Figure GDA0003737509380000041
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
不断重复上述过程直至产生最优特征子集,为了避免不同特征之间的量纲相差较大带来的影响,将特征向量进行归一化。
步骤3,执行SOM与K-means融合算法:
融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;
SOM网络不同于其他的神经网络,它不包含隐层,只有输入层和竞争层。SOM算法可以看做三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小。
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。因此,经过SOM算法训练后,数据集已经通过相似度进行了初步分类,求出聚类结果中的簇中心和簇的数目,作为K-means算法的初始值,有效地避免了随机的初始聚类中心导致算法聚类效果不佳,以及人为设定K值带来的不确定性。
分析SOM算法的具体步骤如下所示:
1)设置初始学习率η0,竞争层的神经元个数为m,将迭代次数设为T;
输入向量为X(n)=(x1(n),x2(n),…,xn(n))T
权值向量为Wi(t)=(wi1(t),wi2(t),…,win(t))T,i=1,2,…,m
2)取区间[0,1]内的随机值对竞争层各个神经元的权值向量Wi进行初始化,并对当前输入向量X和初始权值向量Wi(0)全部进行归一化处理,如公式(2)和公式(3)所示:
Figure GDA0003737509380000051
Figure GDA0003737509380000052
3)将
Figure GDA0003737509380000053
与竞争层所有神经元对应的权值向量
Figure GDA0003737509380000054
进行相似性对比,即将两者做点积,选出点积值最大的作为获胜神经元i*
4)定义优胜邻域Ni*(t),一般初始优胜邻域N(t0)较大,训练过程中会随着迭代次数的增加而不断收缩。对优胜邻域Ni*(t)内的所有神经元调整权值向量,权值更新过程如公式(4)所示:
Figure GDA0003737509380000055
式中Wi(t)为第i个神经元在t时刻的权值,η(t)表示t时刻的学习率,学习率会随着迭代次数增加而衰减,d表示拓扑距离,e-d表明离获胜神经元越远,权值更新比例越小。
5)更新学习率η(t)和优胜邻域N(t),如公式(5)与公式(6)所示,并将更新后的权值向量重新归一化处理。
Figure GDA0003737509380000056
Figure GDA0003737509380000057
6)当学习率η<ηmin或达到指定迭代次数时,结束训练;否则转至步骤2)不断重复此流程,直至满足结束判定条件。
满足判定条件后,输出训练结果,并求出每个簇的簇中心的簇的数目,第一阶段至此结束。
第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
K-means的优点在于:原理比较简单,可以处理大量无标签数据,收敛速度快;聚类效果较优;需要调试的参数仅仅是簇数K。
K-means的主要缺点有:K值的选取不好把握;对于非凸数据集比较难收敛;随机的初始聚类中心可能导致聚类结果局部最优。
针对K-means算法的缺点,本方法选取数据集经过SOM网络训练后的聚类中心和簇数作为K-means算法的初始聚类中心和K值,结合图1,分析算法具体步骤如下:
1)选取阶段一训练后的聚类中心作为初始聚类中心,选取簇数作为初始K值;
2)为了避免不同量纲带来的影响,使用阶段一归一化处理后的数据集作为输入样本。
3)遍历所有数据,计算数据点到聚类中心的距离,并将其划分到最近的中心点中,形成K个簇;
4)使用误差平方和(SSE)作为聚类的目标函数,如公式(7)所示,其中k表示簇类数目,cj表示第j个聚类中心,dist表示的是欧几里得距离,簇的最小化SSE的簇中心即簇中所有点的均值。因此,计算每个簇的平均值,将其作为新的簇中心;
Figure GDA0003737509380000061
5)重复步骤3)4),直至簇中心不再发生改变,则视为算法已经收敛,输出聚类结果。
步骤4,使用S_Dbw指数评估算法的聚类效果;
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;簇间密度用来评估含有两个簇的簇群的密度,和单个簇的密度的关系。若两个簇结合之后的密度,显著小于每个单独的簇的密度,表示聚类效果较优。簇间密度计算如公式(8)所示,簇内方差计算如公式(9)所示:
Figure GDA0003737509380000062
Figure GDA0003737509380000071
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
density(u)的定义如公式(10)所示,其中nab表示簇a与簇b的交集包含的所有点的数目。
Figure GDA0003737509380000072
数据点u的邻域定义为具有中心u和半径为簇的平均标准差的超球面,具体如函数f(x,u)的定义所示:
Figure GDA0003737509380000073
如果数据点与u之间的距离小于簇的平均标准差,它就属于u的邻域。
将数据集所有簇的平均标准差定义为stdev,如公式(12)所示:
Figure GDA0003737509380000074
S_Dbw(c)=Scat(c)+Dens_bw(c),S_Dbw指数越小表示聚类效果越好。
基于监督学习算法的流量分类方法以及将准确率作为评估指标都需要对数据集贴上标签,会耗费大量人力成本,本方法基于典型的无监督算法:K-means聚类算法,算法将相似的数据集自动聚类,可以通过分析聚类结果将同一个簇类的数据统一贴上标签,大大减少了成本,且本方法采用S_Dbw指数评估聚类效果,该指数在聚类算法中表现的鲁棒性较强,这也是本发明相对于现有方法的创新之处。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于SOM与K-means融合算法的网络流量分类方法,其特征在于,包括以下步骤:
步骤1,采集网络流量数据集,确定训练集,并统计流量特征;
步骤2,采用基于相关性的特征选择算法对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
步骤3,融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
步骤311,设置初始学习率η0,竞争层的神经元个数为m,迭代次数设为T;
输入向量为X(n)=(x1(n),x2(n),…,xn(n))
权值向量为Wi(t)=(wi1(t),wi2(t),…,win(t)),i=1,2,…,m
步骤312,取区间[0,1]内的随机值对竞争层各个神经元的权值向量Wi进行初始化,并对当前输入向量X和初始权值向量Wi(0)全部进行归一化处理:
Figure FDA0003737509370000011
Figure FDA0003737509370000012
其中,
Figure FDA0003737509370000013
表示归一化的当前输入向量,
Figure FDA0003737509370000014
表示归一化的第i个神经元初始权值向量;
步骤313,将
Figure FDA0003737509370000015
与竞争层所有神经元对应的权值向量
Figure FDA0003737509370000016
进行相似性对比,即将两者做点积,选出点积值最大的作为获胜神经元i*
步骤314,定义优胜邻域
Figure FDA0003737509370000017
初始优胜邻域N(t0)较大,训练过程中会随着迭代次数的增加而不断收缩,对优胜邻域
Figure FDA0003737509370000018
内的所有神经元调整权值向量,权值更新过程如下所示:
Figure FDA0003737509370000019
式中,Wi(t)为第i个神经元在t时刻的权值,η(t)表示t时刻的学习率,学习率会随着迭代次数增加而衰减,d表示拓扑距离,e-d表明离获胜神经元越远,权值更新比例越小;
步骤315,更新学习率η(t)和优胜邻域N(t),如下所示,并将更新后的权值向量重新归一化处理;
Figure FDA0003737509370000021
Figure FDA0003737509370000022
步骤316,当学习率η<ηmin或达到指定迭代次数时,结束训练;否则转至步骤312不断重复此流程,直至满足结束判定条件;
步骤321,选取阶段一训练后的聚类中心作为初始聚类中心,选取簇数作为初始K值;
步骤322,使用阶段一归一化处理后的数据集作为输入样本;
步骤323,遍历所有数据,计算数据点到聚类中心的距离,并将其划分到最近的中心点中,形成K个簇;
步骤324,使用误差平方和SSE作为聚类的目标函数:
Figure FDA0003737509370000023
其中,k表示簇类数目,cj表示第j个聚类中心,dist表示的是欧几里得距离,簇的最小化SSE的簇中心即簇中所有点的均值,因此,计算每个簇的平均值,将其作为新的簇中心;
步骤325,重复步骤323、步骤324,直至簇中心不再发生改变,则视为算法已经收敛,输出聚类结果;
步骤4,使用S_Dbw指数评估算法的聚类效果。
2.根据权利要求1所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤2中所述的基于相关性的特征选择算法包括以下步骤:
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
Figure FDA0003737509370000031
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
3.根据权利要求2所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤3中SOM算法包括三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小;
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。
4.根据权利要求3所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤4中使用S_Dbw指数评估算法的聚类效果的方法:
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;
Figure FDA0003737509370000032
Figure FDA0003737509370000033
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
CN201911194495.5A 2019-11-28 2019-11-28 一种基于SOM与K-means融合算法的网络流量分类方法 Active CN111211994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911194495.5A CN111211994B (zh) 2019-11-28 2019-11-28 一种基于SOM与K-means融合算法的网络流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911194495.5A CN111211994B (zh) 2019-11-28 2019-11-28 一种基于SOM与K-means融合算法的网络流量分类方法

Publications (2)

Publication Number Publication Date
CN111211994A CN111211994A (zh) 2020-05-29
CN111211994B true CN111211994B (zh) 2022-08-19

Family

ID=70788008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911194495.5A Active CN111211994B (zh) 2019-11-28 2019-11-28 一种基于SOM与K-means融合算法的网络流量分类方法

Country Status (1)

Country Link
CN (1) CN111211994B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111740921A (zh) * 2020-06-22 2020-10-02 南京邮电大学 基于改进K-means算法的网络流量分类方法及系统
CN111814853B (zh) * 2020-06-24 2023-03-21 北京邮电大学 一种数据选择偏差下的去相关聚类方法及装置
CN112101142A (zh) * 2020-08-27 2020-12-18 深圳市行健自动化股份有限公司 泥浆泵运行状态评估方法、监控终端和计算机可读存储介质
CN112163848B (zh) * 2020-09-21 2023-05-12 哈尔滨工业大学(威海) 一种面向流网络的角色划分系统及其工作方法、介质
CN112270374B (zh) * 2020-11-10 2022-04-12 河北大学 基于som聚类模型的数学表达式的聚类方法
CN113242207B (zh) * 2021-04-02 2022-06-17 河海大学 一种迭代聚类的网络流量异常检测方法
CN113515593A (zh) * 2021-04-23 2021-10-19 平安科技(深圳)有限公司 基于聚类模型的话题检测方法、装置和计算机设备
CN113128623B (zh) * 2021-05-13 2022-04-15 重庆理工大学 一种用于地震相分析的鲁棒K-means算法
CN113469566B (zh) * 2021-07-21 2022-11-11 燕山大学 一种发电机起始分配方案的确定方法及系统
CN113496262B (zh) 2021-09-08 2022-02-08 山东大学 数据驱动的有源配电网异常状态感知方法及系统
CN114978593B (zh) * 2022-04-15 2023-03-10 中国科学院信息工程研究所 基于图匹配的不同网络环境的加密流量分类方法及系统
CN116933106B (zh) * 2023-07-20 2024-01-26 中国海洋大学 基于无监督聚类的代码分块方法、存储介质和装置
CN117294643B (zh) * 2023-11-24 2024-03-12 南京邮电大学 一种基于SDN架构的网络QoS保障路由方法
CN117499325B (zh) * 2023-12-29 2024-03-15 湖南恒茂信息技术有限公司 一种基于人工智能的交换机业务报文分流方法及系统
CN117574212B (zh) * 2024-01-15 2024-04-05 山东再起数据科技有限公司 一种基于数据中台的数据分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154190A (zh) * 2018-01-12 2018-06-12 上海海事大学 一种基于som神经网络的岸桥电机状态聚类分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154190A (zh) * 2018-01-12 2018-06-12 上海海事大学 一种基于som神经网络的岸桥电机状态聚类分析方法

Also Published As

Publication number Publication date
CN111211994A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111211994B (zh) 一种基于SOM与K-means融合算法的网络流量分类方法
CN112165464B (zh) 一种基于深度学习的工控混合入侵检测方法
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Isa et al. Using the self organizing map for clustering of text documents
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN109871872A (zh) 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN114615093A (zh) 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN110830124A (zh) 基于量子粒子群优化极限学习机的频谱感知方法
CN109272058B (zh) 一种集成电力负荷曲线聚类方法
CN113850281A (zh) 一种基于meanshift优化的数据处理方法和装置
CN115641177B (zh) 一种基于机器学习的防秒杀预判系统
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN114091661B (zh) 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN113364751A (zh) 网络攻击预测方法、计算机可读存储介质及电子设备
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
Soleymanzadeh et al. A Stable generative adversarial network architecture for network intrusion detection
CN113378900B (zh) 一种基于聚类的大规模不规则kpi时间序列的异常检测方法
CN117155701A (zh) 一种网络流量入侵检测方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法
Gorokhovatskiy et al. Vector Quantization, Learning and Recognition in the Space of Descriptors of Structural Features of Images
CN110797080A (zh) 基于跨物种迁移学习预测合成致死基因
Tamilarasi et al. Enhancing the performance of social spider optimization with neighbourhood attraction algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant