CN111211994B - 一种基于SOM与K-means融合算法的网络流量分类方法 - Google Patents
一种基于SOM与K-means融合算法的网络流量分类方法 Download PDFInfo
- Publication number
- CN111211994B CN111211994B CN201911194495.5A CN201911194495A CN111211994B CN 111211994 B CN111211994 B CN 111211994B CN 201911194495 A CN201911194495 A CN 201911194495A CN 111211994 B CN111211994 B CN 111211994B
- Authority
- CN
- China
- Prior art keywords
- cluster
- algorithm
- neuron
- clustering
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 64
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 210000002569 neuron Anatomy 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 44
- 238000012549 training Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 13
- 241001274197 Scatophagus argus Species 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 claims description 5
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 230000002860 competitive effect Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 230000002964 excitative effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 210000000225 synapse Anatomy 0.000 claims description 3
- 230000000946 synaptic effect Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000010207 Bayesian analysis Methods 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于SOM与K‑means融合算法的网络流量分类方法,首先采用SOM算法对流量数据进行一次聚类,求出聚类结果中各个簇的簇中心及簇的数目,将簇中心作为K‑means的初始聚类中心,再将簇的数目作为K值,执行K‑means算法进行二次聚类得到输出结果。采用S_Dbw指数作为聚类结果评价指标,对于包含各种噪声和不同密度的数据集,该指数具有较强的鲁棒性。本发明与基于监督学习的流量分类算法相比,减少了标注类别的成本,与其他基于无监督学习的的算法相比性能更优。
Description
技术领域
本发明涉及网络流量分析及网络安全等领域,具体涉及一种基于SOM与K-means融合算法的网络流量分类方法。
背景技术
随着互联网的迅猛发展,大数据时代的到来,越来越多的新型网络应用逐渐兴起,网络规模不断扩大,网络组成愈发复杂,对于网络的管理和分析需求增加。网络流量分类技术作为网络可控性的基础技术之一,可以帮助网络运营商提供更好的服务质量,对网络进行有效地监管。对网络流量进行分析,可以识别并过滤掉网络病毒,检测出垃圾邮件和非法入侵,提高了网络的安全性能。因此网络流量分类技术对于提高网络的管理效率,保障网络环境的绿色和安全有着至关重要的作用。
常用的流量分类技术主要有以下三类:①基于端口号的流量分类方法:端口号与所需应用程序之间的对应关系由IANA(互联网数字分配机构)定义,这种方法存在着严重的局限性,例如服务器端口可以动态分配,具有不同QoS级别服务可以使用相同的端口号等,这些原因导致基于端口号的流量分类方法不再适用当前网络;②基于有效载荷的流量分类方法:这种方法需要精确了解应用层数据以及其数据包的格式,只能用于非加密流量,而当前网络的应用程序有效负载的加密性好,这种方法的局限性较大;③基于流量统计特征的分类方法:通过流量的特征来建立机器学习的模型,然后再用数据集训练并完善模型,通过模型来预测未知流量的种类,由于其适用范围广泛,该方法被广泛地研究和使用。
目前针对流量分类的机器学习模型主要是基于监督学习算法,如基于K近邻、支持向量机、NaiveBayes,而基于无监督学习的机器学习模型研究较少,无监督学习的优点在于不需要将训练数据贴上标签,从而大大减少了人工标注类别的成本,因此本发明提出基于以无监督学习中的K-means算法为核心的流量分类方法。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于SOM与K-means融合算法的网络流量分类方法,与其他方法不同之处,本发明以无监督学习的K-means算法为核心将SOM算法与其结合从而进行优化。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于SOM与K-means融合算法的网络流量分类方法,包括以下步骤:
步骤1,采集网络流量数据集,确定训练集,并统计流量特征;
步骤2,采用基于相关性的特征选择算法对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
步骤3,融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
步骤4,使用S_Dbw指数评估算法的聚类效果。
优选的:步骤2中所述的基于相关性的特征选择算法包括以下步骤:
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
优选的:步骤3中SOM算法包括三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小。
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。
优选的:步骤4中S_Dbw指数的评估原理如下所示:
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
本发明相比现有技术,具有以下有益效果:
1.本发明为基于无监督学习的流量分类算法,大大减少了人工标注数据类别的成本,算法简单,能够快速处理大量数据。
2.解决了K-means算法随机的初始聚类中心导致聚类效果不佳,以及K值的不确定性问题。
3.本发明所采用的聚类效果评估指标S_Dbw指数,对于包含各种干扰因素的数据集,该指数的鲁棒性较强。
附图说明
图1为基于SOM与K-means融合算法的网络流量分类方法设计流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于SOM与K-means融合算法的网络流量分类方法,如图1所示,包括以下步骤:
步骤1,采集数据:采集网络流量数据集,确定训练集,并统计流量特征;引用文献“Internet traffic classification using Bayesian analysis techniques.”中的实验数据集中作为研究对象,数据集中每个样本都是从一条完整的TCP双向流抽取而来,一共包含249项属性,最后一项表示样本的流量类型。
步骤2,对数据集进行特征选择:采用基于相关性的特征选择算法(CFS)对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法(best first search)搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
不断重复上述过程直至产生最优特征子集,为了避免不同特征之间的量纲相差较大带来的影响,将特征向量进行归一化。
步骤3,执行SOM与K-means融合算法:
融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;
SOM网络不同于其他的神经网络,它不包含隐层,只有输入层和竞争层。SOM算法可以看做三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小。
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。因此,经过SOM算法训练后,数据集已经通过相似度进行了初步分类,求出聚类结果中的簇中心和簇的数目,作为K-means算法的初始值,有效地避免了随机的初始聚类中心导致算法聚类效果不佳,以及人为设定K值带来的不确定性。
分析SOM算法的具体步骤如下所示:
1)设置初始学习率η0,竞争层的神经元个数为m,将迭代次数设为T;
输入向量为X(n)=(x1(n),x2(n),…,xn(n))T
权值向量为Wi(t)=(wi1(t),wi2(t),…,win(t))T,i=1,2,…,m
2)取区间[0,1]内的随机值对竞争层各个神经元的权值向量Wi进行初始化,并对当前输入向量X和初始权值向量Wi(0)全部进行归一化处理,如公式(2)和公式(3)所示:
4)定义优胜邻域Ni*(t),一般初始优胜邻域N(t0)较大,训练过程中会随着迭代次数的增加而不断收缩。对优胜邻域Ni*(t)内的所有神经元调整权值向量,权值更新过程如公式(4)所示:
式中Wi(t)为第i个神经元在t时刻的权值,η(t)表示t时刻的学习率,学习率会随着迭代次数增加而衰减,d表示拓扑距离,e-d表明离获胜神经元越远,权值更新比例越小。
5)更新学习率η(t)和优胜邻域N(t),如公式(5)与公式(6)所示,并将更新后的权值向量重新归一化处理。
6)当学习率η<ηmin或达到指定迭代次数时,结束训练;否则转至步骤2)不断重复此流程,直至满足结束判定条件。
满足判定条件后,输出训练结果,并求出每个簇的簇中心的簇的数目,第一阶段至此结束。
第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
K-means的优点在于:原理比较简单,可以处理大量无标签数据,收敛速度快;聚类效果较优;需要调试的参数仅仅是簇数K。
K-means的主要缺点有:K值的选取不好把握;对于非凸数据集比较难收敛;随机的初始聚类中心可能导致聚类结果局部最优。
针对K-means算法的缺点,本方法选取数据集经过SOM网络训练后的聚类中心和簇数作为K-means算法的初始聚类中心和K值,结合图1,分析算法具体步骤如下:
1)选取阶段一训练后的聚类中心作为初始聚类中心,选取簇数作为初始K值;
2)为了避免不同量纲带来的影响,使用阶段一归一化处理后的数据集作为输入样本。
3)遍历所有数据,计算数据点到聚类中心的距离,并将其划分到最近的中心点中,形成K个簇;
4)使用误差平方和(SSE)作为聚类的目标函数,如公式(7)所示,其中k表示簇类数目,cj表示第j个聚类中心,dist表示的是欧几里得距离,簇的最小化SSE的簇中心即簇中所有点的均值。因此,计算每个簇的平均值,将其作为新的簇中心;
5)重复步骤3)4),直至簇中心不再发生改变,则视为算法已经收敛,输出聚类结果。
步骤4,使用S_Dbw指数评估算法的聚类效果;
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;簇间密度用来评估含有两个簇的簇群的密度,和单个簇的密度的关系。若两个簇结合之后的密度,显著小于每个单独的簇的密度,表示聚类效果较优。簇间密度计算如公式(8)所示,簇内方差计算如公式(9)所示:
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
density(u)的定义如公式(10)所示,其中nab表示簇a与簇b的交集包含的所有点的数目。
数据点u的邻域定义为具有中心u和半径为簇的平均标准差的超球面,具体如函数f(x,u)的定义所示:
如果数据点与u之间的距离小于簇的平均标准差,它就属于u的邻域。
将数据集所有簇的平均标准差定义为stdev,如公式(12)所示:
S_Dbw(c)=Scat(c)+Dens_bw(c),S_Dbw指数越小表示聚类效果越好。
基于监督学习算法的流量分类方法以及将准确率作为评估指标都需要对数据集贴上标签,会耗费大量人力成本,本方法基于典型的无监督算法:K-means聚类算法,算法将相似的数据集自动聚类,可以通过分析聚类结果将同一个簇类的数据统一贴上标签,大大减少了成本,且本方法采用S_Dbw指数评估聚类效果,该指数在聚类算法中表现的鲁棒性较强,这也是本发明相对于现有方法的创新之处。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于SOM与K-means融合算法的网络流量分类方法,其特征在于,包括以下步骤:
步骤1,采集网络流量数据集,确定训练集,并统计流量特征;
步骤2,采用基于相关性的特征选择算法对统计后的流量特征进行筛选,然后从筛选后的训练集中计算特征-类相关矩阵和特征-特征相关矩阵,其次用最佳优先搜索方法搜索特征子集空间,计算特征子集的估计值,找出估计值最大的特征子集,作为最优特征子集;
步骤3,融合算法将聚类分为两阶段进行,第一阶段:将最优特征子集对应的特征向量作为输入样本输入SOM网络,执行SOM算法不断更新各个神经元的权值,直至达到设定的迭代次数,结束算法运行,输出聚类结果,计算出聚类后的簇中心和簇的数目;第二阶段:将第一阶段聚类后的簇中心和簇的数目分别作为K-means算法的初始聚类中心和初始K值,执行K-means算法直至算法收敛,输出最终的聚类结果;
步骤311,设置初始学习率η0,竞争层的神经元个数为m,迭代次数设为T;
输入向量为X(n)=(x1(n),x2(n),…,xn(n))
权值向量为Wi(t)=(wi1(t),wi2(t),…,win(t)),i=1,2,…,m
步骤312,取区间[0,1]内的随机值对竞争层各个神经元的权值向量Wi进行初始化,并对当前输入向量X和初始权值向量Wi(0)全部进行归一化处理:
式中,Wi(t)为第i个神经元在t时刻的权值,η(t)表示t时刻的学习率,学习率会随着迭代次数增加而衰减,d表示拓扑距离,e-d表明离获胜神经元越远,权值更新比例越小;
步骤315,更新学习率η(t)和优胜邻域N(t),如下所示,并将更新后的权值向量重新归一化处理;
步骤316,当学习率η<ηmin或达到指定迭代次数时,结束训练;否则转至步骤312不断重复此流程,直至满足结束判定条件;
步骤321,选取阶段一训练后的聚类中心作为初始聚类中心,选取簇数作为初始K值;
步骤322,使用阶段一归一化处理后的数据集作为输入样本;
步骤323,遍历所有数据,计算数据点到聚类中心的距离,并将其划分到最近的中心点中,形成K个簇;
步骤324,使用误差平方和SSE作为聚类的目标函数:
其中,k表示簇类数目,cj表示第j个聚类中心,dist表示的是欧几里得距离,簇的最小化SSE的簇中心即簇中所有点的均值,因此,计算每个簇的平均值,将其作为新的簇中心;
步骤325,重复步骤323、步骤324,直至簇中心不再发生改变,则视为算法已经收敛,输出聚类结果;
步骤4,使用S_Dbw指数评估算法的聚类效果。
2.根据权利要求1所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤2中所述的基于相关性的特征选择算法包括以下步骤:
预设一个集合D,集合D开始于空集,第一步先计算所有可能的单个特征的估计值,由merit值表示,并选择merit值最大的一个特征加入D,使D成为了一维的特征向量,然后选择剩余特征中拥有最大的merit值的特征加入D,如果这个二维的特征向量D的merit值小于原来的merit值,则去除这个特征,寻找下一个merit值最大的特征加入D,维度依次增加,不断重复上述过程,直至集合D的merit值无法再增大,得到估计值最大的特征子集;
merit值的公式如下:
其中,merit为特征子集的估计值,n为特征的个数,rcf为特征-类平均相关系数,rff为特征-特征平均相关系数。
3.根据权利要求2所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤3中SOM算法包括三个过程:竞争过程、合作过程、突触自适应过程,
竞争过程:当网络得到一个输入向量X时,竞争层的所有神经元对应的权重向量Wi(t)均与其进行相似性比较,并将最相似的权重向量所对应的神经元判为竞争获胜神经元,相似度最大即向量的内积最大;
合作过程:获胜神经元决定兴奋神经元的拓扑邻域的空间位置,从而提供相邻神经元合作的基础;
突触自适应过程:在确定获胜神经元的拓扑邻域之后,调整邻域内各个神经元对应的权值向量,距离获胜神经元越远,被抑制的程度越大,即权重所占比例越小;
三个过程依次循环进行,直至学习率衰减为0,算法收敛,随着竞争过程的进行,神经元逐渐趋近于聚类中心。
4.根据权利要求3所述基于SOM与K-means融合算法的网络流量分类方法,其特征在于:步骤4中使用S_Dbw指数评估算法的聚类效果的方法:
S_Dbw指数由两项组成,分别是簇间密度和簇内方差,使用它评价不同参数下的聚类算法结果时,取S_Dbw值最小的一组参数即可;
S_Dbw(k)=Scat(k)+Dens_bw(k)
其中,Dens_bw(k)表示簇间密度,用来评估含有两个簇的簇群密度和单个簇的密度的关系,k表示簇的数目,density(u)用来表示u周围点的数目,ca,cb分别表示簇a和簇b的簇中心,uab表示ca,cb连线的中点;Scat(k)表示簇内方差,用来表示簇之间的平均分散度;σ(va)表示簇a的方差,σ(S)表示数据集S的方差;S_Dbw(k)表示聚类效果评估指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911194495.5A CN111211994B (zh) | 2019-11-28 | 2019-11-28 | 一种基于SOM与K-means融合算法的网络流量分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911194495.5A CN111211994B (zh) | 2019-11-28 | 2019-11-28 | 一种基于SOM与K-means融合算法的网络流量分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111211994A CN111211994A (zh) | 2020-05-29 |
CN111211994B true CN111211994B (zh) | 2022-08-19 |
Family
ID=70788008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911194495.5A Active CN111211994B (zh) | 2019-11-28 | 2019-11-28 | 一种基于SOM与K-means融合算法的网络流量分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111211994B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111740921A (zh) * | 2020-06-22 | 2020-10-02 | 南京邮电大学 | 基于改进K-means算法的网络流量分类方法及系统 |
CN111814853B (zh) * | 2020-06-24 | 2023-03-21 | 北京邮电大学 | 一种数据选择偏差下的去相关聚类方法及装置 |
CN112101142A (zh) * | 2020-08-27 | 2020-12-18 | 深圳市行健自动化股份有限公司 | 泥浆泵运行状态评估方法、监控终端和计算机可读存储介质 |
CN112163848B (zh) * | 2020-09-21 | 2023-05-12 | 哈尔滨工业大学(威海) | 一种面向流网络的角色划分系统及其工作方法、介质 |
CN112270374B (zh) * | 2020-11-10 | 2022-04-12 | 河北大学 | 基于som聚类模型的数学表达式的聚类方法 |
CN113242207B (zh) * | 2021-04-02 | 2022-06-17 | 河海大学 | 一种迭代聚类的网络流量异常检测方法 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
CN113128623B (zh) * | 2021-05-13 | 2022-04-15 | 重庆理工大学 | 一种用于地震相分析的鲁棒K-means算法 |
CN113469566B (zh) * | 2021-07-21 | 2022-11-11 | 燕山大学 | 一种发电机起始分配方案的确定方法及系统 |
CN113496262B (zh) | 2021-09-08 | 2022-02-08 | 山东大学 | 数据驱动的有源配电网异常状态感知方法及系统 |
CN114978593B (zh) * | 2022-04-15 | 2023-03-10 | 中国科学院信息工程研究所 | 基于图匹配的不同网络环境的加密流量分类方法及系统 |
CN116933106B (zh) * | 2023-07-20 | 2024-01-26 | 中国海洋大学 | 基于无监督聚类的代码分块方法、存储介质和装置 |
CN117294643B (zh) * | 2023-11-24 | 2024-03-12 | 南京邮电大学 | 一种基于SDN架构的网络QoS保障路由方法 |
CN117499325B (zh) * | 2023-12-29 | 2024-03-15 | 湖南恒茂信息技术有限公司 | 一种基于人工智能的交换机业务报文分流方法及系统 |
CN117574212B (zh) * | 2024-01-15 | 2024-04-05 | 山东再起数据科技有限公司 | 一种基于数据中台的数据分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154190A (zh) * | 2018-01-12 | 2018-06-12 | 上海海事大学 | 一种基于som神经网络的岸桥电机状态聚类分析方法 |
-
2019
- 2019-11-28 CN CN201911194495.5A patent/CN111211994B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154190A (zh) * | 2018-01-12 | 2018-06-12 | 上海海事大学 | 一种基于som神经网络的岸桥电机状态聚类分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111211994A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111211994B (zh) | 一种基于SOM与K-means融合算法的网络流量分类方法 | |
CN112165464B (zh) | 一种基于深度学习的工控混合入侵检测方法 | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
Isa et al. | Using the self organizing map for clustering of text documents | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN109871872A (zh) | 一种基于壳向量式svm增量学习模型的流量实时分类方法 | |
CN114615093A (zh) | 基于流量重构与继承学习的匿名网络流量识别方法及装置 | |
CN110830124A (zh) | 基于量子粒子群优化极限学习机的频谱感知方法 | |
CN109272058B (zh) | 一种集成电力负荷曲线聚类方法 | |
CN113850281A (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
CN115641177B (zh) | 一种基于机器学习的防秒杀预判系统 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN114091661B (zh) | 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 | |
CN113364751A (zh) | 网络攻击预测方法、计算机可读存储介质及电子设备 | |
CN117478390A (zh) | 一种基于改进密度峰值聚类算法的网络入侵检测方法 | |
CN113609480B (zh) | 基于大规模网络流的多路学习入侵检测方法 | |
Soleymanzadeh et al. | A Stable generative adversarial network architecture for network intrusion detection | |
CN113378900B (zh) | 一种基于聚类的大规模不规则kpi时间序列的异常检测方法 | |
CN117155701A (zh) | 一种网络流量入侵检测方法 | |
CN112422546A (zh) | 一种基于变邻域算法和模糊聚类的网络异常检测方法 | |
CN114124437B (zh) | 基于原型卷积网络的加密流量识别方法 | |
Gorokhovatskiy et al. | Vector Quantization, Learning and Recognition in the Space of Descriptors of Structural Features of Images | |
CN110797080A (zh) | 基于跨物种迁移学习预测合成致死基因 | |
Tamilarasi et al. | Enhancing the performance of social spider optimization with neighbourhood attraction algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |