CN107528823A - 一种基于改进的K‑Means聚类算法的网络异常检测方法 - Google Patents
一种基于改进的K‑Means聚类算法的网络异常检测方法 Download PDFInfo
- Publication number
- CN107528823A CN107528823A CN201710534586.3A CN201710534586A CN107528823A CN 107528823 A CN107528823 A CN 107528823A CN 201710534586 A CN201710534586 A CN 201710534586A CN 107528823 A CN107528823 A CN 107528823A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- poly
- heart
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000003064 k means clustering Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 abstract description 8
- 241001269238 Data Species 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000005192 partition Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0254—Stateful filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0263—Rule management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提出一种基于改进的K‑Means聚类算法的网络异常检测方法,包括:输入训练数据,读取到训练数据之后首先对数据进行预处理;再应用K‑Means聚类算法训练数据,建立模型;应用少数服从多数原则,判定聚类出来的K个簇Wj是否属于正常类;将测试数据输入模型中,进行异常检测分析。异常检测由三步构成,第一步:使用聚类算法,将测试样本进行异常与正常分类,若属于异常则判定为异常,若属于正常则进行下一步操作;第二步,设定正常类型簇W1的范围边界,阈值为dmax,计算划分为簇W1的样本到聚心C1的距离d(X,C1),比较两者的大小来判定样本是否异常;第三步,应用阈值规则,检测出属于簇W1异常样本。
Description
技术领域
本发明涉及入侵检测网络安全领域,特别涉及一种基于改进的K-Means聚类算法的网络异常检测方法。
背景技术
入侵检测指的是从计算机网络中的关键点收集信息,并且分析这些信息,查看网络中是否存在违反安全策略的行为。入侵检测可以说是防火墙的合理补充和延伸;如果说防火墙是第一道安全闸门,入侵检测可以说是第二道安全闸门。入侵检测在不影响网络性能的前提下,实时、动态地保护来自内部和外部的各种攻击,同时有效地弥补了防火墙所能达到的防护极限。
传统的入侵检测技术是应用规则集方法的技术,用于检测计算机网络中违反安全策略的行为,这说明只有匹配了预先定义的规则,才能检测出流量是否异常。这种做法最大的局限性在于无法检测出规则集之外的异常类型,若网络中出现了新型攻击类型,传统的规则匹配方法将不可行。此外,规则集的制定也将耗费网络监控人员大量的时间与精力,并且需要不时地更新规则集。
针对传统入侵检测技术的局限性,人们将机器学习应用到入侵检测上,可以有效地解决人工繁琐的操作过程,降低误检率,并且具有实时性的特点。由于实时抓取的流量没有标记为正常或是异常类型,在缺乏足够的先验知识情况下,一般选择采用无监督学习的K-Means聚类算法。K-Means聚类算法将正常类型聚为一类,其他异常类型各自形成簇,与匹配异常规则集不同的是,这样只需要找出不属于正常类的样本即是异常的,这样可以有效地检测出新的异常类型。此外针对误入正常类的异常样本,还使用概率阈值规则来检测出来,降低了漏检率,提高准确性。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提出了一种基于K-Means聚类算法的网络异常检测方法,此方法应用三个异常检测判决条件,比K-Means聚类之后仅以最近邻规则来判别异常样本的方法来说,具有更高的准确率,有效地降低了误检率。
为达到上述目的,本发明的技术方案具体为:
一种基于改进的K-Means聚类算法的网络异常检测方法,包括:
步骤1,读取数据及预处理:读取训练数据,对训练数据进行归一化预处理,随机选取K个聚心C1,C2,…,CK;
步骤2,计算欧氏距离:分别计算第i个训练样本与K个聚心之间的距离di1(Xi,C1),di2(Xi,C2),…,diK(Xi,CK);从中找出距离最小值所对应的聚心,并将该训练样本划分到该聚心所对应的簇中;
步骤3,收敛聚心:重新计算聚心,并且与之前的聚心进行比较,若聚心改变,则重复步骤2,直到聚心保持不变;
步骤4,异常簇的判定:应用少数服从多数原则,判定K个簇Wj各自属于正常类型还是异常类型,至此模型建立完毕;
步骤5,检测测试样本:输入一个测试样本到步骤4所建立的模型中,并按顺序应用最近邻规则、边界规则和阈值规则三个决策条件来判断测试样本属于异常样本还是正常样本。
优选的,所述步骤1的过程具体为:
将训练数据读取进来,进行归一化操作,首先计算每个特征的均值为:
上式中,znf表示第n个训练样本的f特征的值,n表示训练样本个数,接着计算平均绝对偏差为:
最后进行标准化计算为:
上式中,xif表示第i个训练样本的f特征的归一化之后的值,将n个训练样本的每个特征都进行归一化之后,得到新的样本点,接着从中随机选取K个样本点作为初始聚心Cj,j=1,2,…,K。
优选的,所述步骤2的计算欧氏距离的过程为:分别计算n个样本与每个聚心之间的欧氏距离为:
上式中,Xi=(xi1,xi2,…xim)表示第i个样本点的m个特征值,Cj=(cj1,cj2,…cjm)表示K个初始聚心中第j个聚心的m个特征值;接着找出最小dij(Xi,Cj),并将样本划分到该聚心所属的簇Wj中。
优选的,所述步骤3的收敛聚心的过程为:采用式(5)重新计算聚心:
上式中,Wj表示第j个簇,nj表示簇Wj中样本的个数,X表示簇Wj中的所有样本,将更新之后的聚心与之前的聚心相比较,若聚心改变,则重复步骤2,直到聚心维持不变,即聚心收敛。
优选的,所述步骤4的异常簇的判定的过程为:应用少数服从多数原则,“1”表示正常,“0”表示异常,q1j表示簇Wj中的正常样本,q0j表示簇Wj中的异常样本,判定一个簇Wj属于正常类的条件为:
优选的,所述步骤5的检测测试样本的过程为:应用三个条件来判定测试样本是否正常,首先是最近邻规则条件:
d(X,C1)<d(X,Cj) (7)
上式中,C1表示的是正常簇W1所对应聚心,Cj表示的是异常簇Wj所对应聚心,j=2,3,…,k-1;
接着应用边界规则条件:
d(X,C1)<dmax (8)
其中,dmax表示的是预先设定的正常簇W1所允许的范围边界,此条件能有效的避免孤立点被视为正常样本情况;
最后应用阈值规则:
P(qij|X∈C1)>τ (9)
应用概率阈值规则,设置阈值τ为0.5,这样可以精确的检测出属于簇W1异常样本。
一种基于改进的K-Means聚类算法的异常检测方法。本发明将在K-Means聚类算法的基础上进行改进,引入范围边界判决机制,在最近邻规则的基础上,进一步应用范围边界规则进行判决,在存在孤立的异常样本点的情况下,能够有效地检测出异常样本,排除划分为正常的可能,降低误检率。
相对于现有技术,本发明具有如下优点和有益效果:
针对网络中出现了新的异常类型,表现为远离异常聚心的孤立样本点,错误地将这些样本点划入正常类型中的情况,本发明提出了一种正常范围边界判决机制。该判决条件主要是对样本点聚类之后进行异常检测的补充,新的异常类型很有可能会远离以前的异常类型,成为孤立的样本点,但是如果此孤立样本点离正常聚心更近的话,会被错误的划入正常类型,导致误检现象。加入了范围判决条件之后,凡是在最大范围之外都将被认定为异常样本,这样能够有效地降低了误检率,提高准确性。
附图说明
图1为K-Means聚类算法训练数据的流程图。
图2为检测异常样本判决机制流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于改进的K-Means聚类算法的网络异常检测方法,包括以下步骤:
第一:从数据集中将训练数据读取进来,防止有些特征数值较大,不利于计算,先进行归一化操作。根据归一化计算公式为:
上式中,xif表示第i个样本的f特征的归一化之后的值,将n个样本的每个特征都进行归一化之后,得到新的样本点;znf表示第n个样本的f特征的值,mf表示每个特征的均值,Sf表示平均绝对偏差;每个特征的均值计算为:
上式中,n表示样本个数,接着计算平均绝对偏差为:
最后将公式(2)、(3)计算的结果代入公式(1)中得到归一化结果。
第二:从训练数据集中随机选取K个样本点作为初始聚心Cj,j=1,2,…,K。然后分别计算n个样本与每个聚心之间的欧氏距离为:
上式中,Xi=(xi1,xi2,…xim)表示第i个样本点的m个特征值,Cj=(cj1,cj2,…cjm)表示K个初始聚心中第j个聚心的m个特征值;接着找出最小dij(Xi,Cj),表示该样本与该聚心具有相似的特征属性,应用最近邻原则并将样本划分到该聚心所属的簇Wj中。
第三:簇加入新样本之后需要重新计算簇内所有样本的均值来更聚心,更新的聚心为:
上式中,Wj表示第j个簇,nj表示簇Wj中样本的个数,X表示簇Wj中的所有样本,将更新之后的聚心与之前的聚心相比较,若聚心改变,则回到计算n个样本与K个聚心的欧氏距离的步骤,接着选取最小的距离,划分样本到该簇中,再更新聚心并且与之前的聚心比较是否改变,直到聚心不变,即聚心收敛。
第四:聚类之后需要判定每一个簇属于正常还是异常,此时应用少数服从多数原则,“1”表示正常,“0”表示异常,q1j表示簇Wj中的正常样本,q0j表示簇Wj中的异常样本,判定一个簇Wj属于正常类的条件为:
第五:模型训练完毕之后需要输入测试样本来测试数据,输入测试样本之后应用三个条件来判定测试样本是否正常,首先是最近邻规则条件:
上式中,C1表示的是正常簇W1所对应聚心,Cj表示的是异常簇Wj所对应聚心,j=2,3,…,k-1,只需要判定样本是否离正常簇的聚心最近,而不需要考虑样本与异常聚心的距离,只要不是离正常聚心最近,则判定为异常;接着应用边界规则条件:
d(X,C1)<dmax (8)
上式中,dmax表示的是预先设定的正常簇W1所允许的范围边界,若异常样本远离异常簇,但是在正常簇的范围边界,此时只依靠最近邻原则会被判定为正常,应用边界规则条件可以有效的避免孤立点被视为正常样本情况;正常簇里面会有个别的异常样本,倘若异常的测试样本被错误的划分到正常簇中,则可以应用阈值规则:
P(qij|X∈C1)>τ (9)
应用概率阈值规则,设置阈值τ为0.5,这样可以精确的检测出属于正常簇W1异常样本。
一种基于改进的K-Means聚类算法的网络异常检测方法,包括:输入训练数据,读取到训练数据之后首先对数据进行预处理;再应用K-Means聚类算法训练数据,建立模型;应用少数服从多数原则,判定聚类出来的K个簇Wj是否属于正常类;将测试数据输入模型中,进行异常检测分析。异常检测由三步构成,第一步:使用聚类算法,将测试样本进行异常与正常分类,若属于异常则判定为异常,若属于正常则进行下一步操作;第二步,设定正常类型簇W1的范围边界,阈值为dmax,计算划分为簇W1的样本到聚心C1的距离d(X,C1),比较两者的大小来判定样本是否异常;第三步,应用阈值规则,检测出属于簇W1异常样本。本发明将在K-Means聚类算法的基础上进行改进,引入概率阈值判决机制,在最近邻规则与范围边界规则的基础上,进一步应用概率阈值判决规则进行判决。本方法的异常检测机制能够更加精确的检测出远离异常簇的孤立异常样本,在异常样本错误划入正常簇的情况下,有效地降低误检率并且更加精确的检测出落入正常簇中的异常样本,有效地降低漏检率,提高准确性。
相对于现有技术,本发明具有如下优点和有益效果:
针对网络中出现了新的异常类型,表现为与正常类型及其相似,错误地将这些样本点划入正常类型中的情况,本发明提出了一种概率阈值判决机制。该判决条件主要是针对异常样本点划分进了正常簇中的情况,新的异常类型很有可能与正常类型相似,混入了正常类型中,此时容易导致漏检。加入了概率阈值判决条件之后,混入正常类型异常样本将会被检测出来,降低漏检率,提高准确性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于改进的K-Means聚类算法的网络异常检测方法,其特征在于,包括:
步骤1,读取数据及预处理:读取训练数据,对训练数据进行归一化预处理,随机选取K个聚心C1,C2,…,CK;
步骤2,计算欧氏距离:分别计算第i个训练样本与K个聚心之间的距离di1(Xi,C1),di2(Xi,C2),…,diK(Xi,CK);从中找出距离最小值所对应的聚心,并将该训练样本划分到该聚心所对应的簇中;
步骤3,收敛聚心:重新计算簇的聚心,并且与之前的聚心进行比较,若聚心改变,则重复步骤2,直到聚心保持不变;
步骤4,异常簇的判定:应用少数服从多数原则,判定K个簇各自属于正常类型还是异常类型,至此模型建立完毕;
步骤5,检测测试样本:输入一个测试样本到步骤4所建立的模型中,并按顺序应用最近邻规则、边界规则和阈值规则三个决策条件来判断测试样本属于异常样本还是正常样本。
2.根据权利要求1所述的方法,其特征在于,所述步骤1的过程具体为:
将训练数据读取进来,进行归一化操作,首先计算每个特征的均值为:
<mrow>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<msub>
<mi>z</mi>
<mrow>
<mn>1</mn>
<mi>f</mi>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>z</mi>
<mrow>
<mn>2</mn>
<mi>f</mi>
</mrow>
</msub>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<msub>
<mi>z</mi>
<mrow>
<mi>n</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mi>n</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,znf表示第n个训练样本的f特征的值,n表示训练样本个数,接着计算平均绝对偏差为:
<mrow>
<msub>
<mi>S</mi>
<mi>f</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<mrow>
<mo>(</mo>
<mo>|</mo>
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mn>1</mn>
<mi>f</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</mrow>
<mo>|</mo>
<mo>+</mo>
<mo>|</mo>
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mn>2</mn>
<mi>f</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</mrow>
<mo>|</mo>
<mo>+</mo>
<mo>...</mo>
<mo>+</mo>
<mo>|</mo>
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mi>n</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</mrow>
<mo>|</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
最后进行标准化计算为:
<mrow>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>m</mi>
<mi>f</mi>
</msub>
</mrow>
<msub>
<mi>S</mi>
<mi>f</mi>
</msub>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,xif表示第i个训练样本的f特征的归一化之后的值,将n个训练样本的每个特征都进行归一化之后,得到新的样本点,接着从中随机选取K个样本点作为初始聚心Cj,j=1,2,…,K。
3.根据权利要求2所述的方法,其特征在于,所述步骤2的计算欧氏距离的过程为:计算第i个训练样本与每个聚心之间的欧氏距离为:
<mrow>
<msub>
<mi>d</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>X</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>f</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mrow>
<mi>i</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>-</mo>
<msub>
<mi>c</mi>
<mrow>
<mi>j</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,Xi=(xi1,xi2,…xim)表示第i个样本点的m个特征值,Cj=(cj1,cj2,…,cjm)表示K个初始聚心中第j个聚心的m个特征值;接着从中找出距离最小值所对应的聚心,并将该训练样本划分到该聚心所对应的簇中。
4.根据权利要求3所述的方法,其特征在于,所述步骤3的收敛聚心的过程为:采用式(5)重新计算聚心:
<mrow>
<msub>
<mi>C</mi>
<mi>j</mi>
</msub>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>X</mi>
<mo>&Element;</mo>
<msub>
<mi>W</mi>
<mi>j</mi>
</msub>
</mrow>
</munder>
<mi>X</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
上式中,Wj表示第j个簇,nj表示簇Wj中样本的个数,X表示簇Wj中的所有样本,将更新之后的聚心与之前的聚心相比较,若聚心改变,则重复步骤2,直到聚心维持不变,即聚心收敛。
5.根据权利要求4所述的方法,其特征在于,所述步骤4的异常簇的判定的过程为:应用少数服从多数原则,“1”表示正常,“0”表示异常,q1j表示簇Wj中的正常样本,q0j表示簇Wj中的异常样本,判定一个簇Wj属于正常类的条件为:
<mrow>
<mfrac>
<msub>
<mi>q</mi>
<mrow>
<mn>1</mn>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</mfrac>
<mo>></mo>
<mn>0.5</mn>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
6.根据权利要求5所述的方法,其特征在于,所述步骤5的检测测试样本的过程为:应用三个条件来判定测试样本是否正常,
首先是最近邻规则条件:
d(X,C1)<d(X,Cj) (7)
上式中,C1表示的是正常簇W1所对应聚心,Cj表示的是异常簇Wj所对应聚心,j=2,3,…,K-1;
接着应用边界规则条件:
d(X,C1)<dmax (8)
其中,dmax表示的是预先设定的正常簇W1所允许的范围边界,此条件能有效的避免孤立点被视为正常样本情况;
最后应用阈值规则:
P(qij|X∈C1)>τ (9)
应用概率阈值规则,设置阈值τ,能精确的检测出属于簇W1异常样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710534586.3A CN107528823A (zh) | 2017-07-03 | 2017-07-03 | 一种基于改进的K‑Means聚类算法的网络异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710534586.3A CN107528823A (zh) | 2017-07-03 | 2017-07-03 | 一种基于改进的K‑Means聚类算法的网络异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107528823A true CN107528823A (zh) | 2017-12-29 |
Family
ID=60748772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710534586.3A Pending CN107528823A (zh) | 2017-07-03 | 2017-07-03 | 一种基于改进的K‑Means聚类算法的网络异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107528823A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510615A (zh) * | 2018-04-02 | 2018-09-07 | 深圳智达机械技术有限公司 | 一种半导体制造设备和工艺的控制系统 |
CN109634789A (zh) * | 2018-11-20 | 2019-04-16 | 锐捷网络股份有限公司 | 基于数据中心的Full Mesh性能测试方法及装置 |
CN109669935A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 检查数据筛选方法、装置、设备及存储介质 |
CN109784253A (zh) * | 2019-01-04 | 2019-05-21 | 上海钧正网络科技有限公司 | 一种单车用户异常行为的检测方法 |
CN109886290A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
CN109978070A (zh) * | 2019-04-03 | 2019-07-05 | 北京市天元网络技术股份有限公司 | 一种改进的K-means异常值检测方法以及装置 |
CN110162419A (zh) * | 2019-05-31 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 一种消息消费状态检测方法及装置 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110505630A (zh) * | 2019-03-12 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 无线网络入侵检测方法、装置及电子设备 |
CN110650137A (zh) * | 2019-09-23 | 2020-01-03 | 煤炭科学技术研究院有限公司 | 煤矿网络异常行为预警方法、系统、设备及可读存储介质 |
CN110809009A (zh) * | 2019-12-12 | 2020-02-18 | 江苏亨通工控安全研究院有限公司 | 一种应用于工控网络的两级入侵检测系统 |
WO2020108159A1 (zh) * | 2018-11-26 | 2020-06-04 | 中兴通讯股份有限公司 | 一种网络故障根因检测方法、系统及存储介质 |
CN111252166A (zh) * | 2020-01-20 | 2020-06-09 | 山东大学 | 一种基于K-means聚类算法的推土机操纵总成装配工艺控制方法及装置 |
WO2020155754A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点比例优化方法、装置、计算机设备及存储介质 |
CN111556440A (zh) * | 2020-05-07 | 2020-08-18 | 之江实验室 | 一种基于流量模式的网络异常检测方法 |
CN111814908A (zh) * | 2020-07-30 | 2020-10-23 | 浪潮通用软件有限公司 | 一种基于数据流的异常数据检测模型更新方法和装置 |
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN111985823A (zh) * | 2020-08-25 | 2020-11-24 | 东北大学 | 一种用于滚磨机定向仪的晶棒质量评估方法 |
CN112132212A (zh) * | 2020-09-22 | 2020-12-25 | 福州大学 | 一种容忍异常原料的木材原料选色方法 |
CN112183621A (zh) * | 2020-09-27 | 2021-01-05 | 国网宁夏电力有限公司电力科学研究院 | 电能质量监测数据驱动的变压器状态异常检测方法 |
CN113141509A (zh) * | 2021-03-30 | 2021-07-20 | 中山大学 | 一种颜色列表生成方法 |
CN113807373A (zh) * | 2020-06-11 | 2021-12-17 | 中移(苏州)软件技术有限公司 | 一种流量识别方法及装置、设备、存储介质 |
CN114118306A (zh) * | 2022-01-26 | 2022-03-01 | 北京普利莱基因技术有限公司 | Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 |
CN114880384A (zh) * | 2022-07-11 | 2022-08-09 | 杭州宇谷科技有限公司 | 一种无监督二轮电动车充电时序异常检测方法及系统 |
CN116304776A (zh) * | 2023-03-21 | 2023-06-23 | 宁波送变电建设有限公司运维分公司 | 基于k-Means算法的电网数据值异常检测方法及系统 |
CN116825169A (zh) * | 2023-08-31 | 2023-09-29 | 悦芯科技股份有限公司 | 一种基于测试设备的异常存储芯片检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150007173A1 (en) * | 2013-06-28 | 2015-01-01 | Vmware, Inc. | Methods and systems for mining datacenter telemetry data |
US20160088502A1 (en) * | 2013-05-14 | 2016-03-24 | Nokia Solutions And Networks Oy | Method and network device for cell anomaly detection |
CN106228399A (zh) * | 2016-07-20 | 2016-12-14 | 福建工程学院 | 一种基于大数据的券商客户风险偏好分类方法 |
CN106330906A (zh) * | 2016-08-23 | 2017-01-11 | 上海海事大学 | 一种大数据环境下的DDoS攻击检测方法 |
CN106469276A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据样本的类型识别方法及装置 |
-
2017
- 2017-07-03 CN CN201710534586.3A patent/CN107528823A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160088502A1 (en) * | 2013-05-14 | 2016-03-24 | Nokia Solutions And Networks Oy | Method and network device for cell anomaly detection |
US20150007173A1 (en) * | 2013-06-28 | 2015-01-01 | Vmware, Inc. | Methods and systems for mining datacenter telemetry data |
CN106469276A (zh) * | 2015-08-19 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 数据样本的类型识别方法及装置 |
CN106228399A (zh) * | 2016-07-20 | 2016-12-14 | 福建工程学院 | 一种基于大数据的券商客户风险偏好分类方法 |
CN106330906A (zh) * | 2016-08-23 | 2017-01-11 | 上海海事大学 | 一种大数据环境下的DDoS攻击检测方法 |
Non-Patent Citations (6)
Title |
---|
GERHARD MUNZ等: ""Traffic Anomaly Detection Using K-Means Clustering"", 《GI/ITG WORKSHOP MMBNET》 * |
SANJAY KUMAR SHARMA等: ""An Improved Network Intrusion Detection Technique"", 《IEEE-INTERNATIONAL CONFERENCE ON ADVANCES IN ENGINEERING, SCIENCE AND MANAGEMENT (ICAESM -2012)》 * |
于丽: ""改进的K-means算法在入侵检测系统中的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
尹珧人: ""改进的K_means算法在入侵检测系统中的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
牛新征等: ""面向大规模数据的快速并行聚类划分算法研究"", 《计 算 机 科 学》 * |
黄有余: ""数据分析中的异常点诊断"", 《长沙铁道学院学报》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108510615A (zh) * | 2018-04-02 | 2018-09-07 | 深圳智达机械技术有限公司 | 一种半导体制造设备和工艺的控制系统 |
CN109634789A (zh) * | 2018-11-20 | 2019-04-16 | 锐捷网络股份有限公司 | 基于数据中心的Full Mesh性能测试方法及装置 |
CN109634789B (zh) * | 2018-11-20 | 2022-06-21 | 锐捷网络股份有限公司 | 基于数据中心的Full Mesh性能测试方法及装置 |
WO2020108159A1 (zh) * | 2018-11-26 | 2020-06-04 | 中兴通讯股份有限公司 | 一种网络故障根因检测方法、系统及存储介质 |
CN109669935A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 检查数据筛选方法、装置、设备及存储介质 |
CN109784253A (zh) * | 2019-01-04 | 2019-05-21 | 上海钧正网络科技有限公司 | 一种单车用户异常行为的检测方法 |
CN109886290A (zh) * | 2019-01-08 | 2019-06-14 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
CN109886290B (zh) * | 2019-01-08 | 2024-05-28 | 平安科技(深圳)有限公司 | 用户请求的检测方法、装置、计算机设备及存储介质 |
WO2020155754A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 异常点比例优化方法、装置、计算机设备及存储介质 |
CN110505630A (zh) * | 2019-03-12 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 无线网络入侵检测方法、装置及电子设备 |
CN109978070A (zh) * | 2019-04-03 | 2019-07-05 | 北京市天元网络技术股份有限公司 | 一种改进的K-means异常值检测方法以及装置 |
CN110162419A (zh) * | 2019-05-31 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 一种消息消费状态检测方法及装置 |
CN110493221B (zh) * | 2019-08-19 | 2020-04-28 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110493221A (zh) * | 2019-08-19 | 2019-11-22 | 四川大学 | 一种基于聚簇轮廓的网络异常检测方法 |
CN110650137A (zh) * | 2019-09-23 | 2020-01-03 | 煤炭科学技术研究院有限公司 | 煤矿网络异常行为预警方法、系统、设备及可读存储介质 |
CN110809009A (zh) * | 2019-12-12 | 2020-02-18 | 江苏亨通工控安全研究院有限公司 | 一种应用于工控网络的两级入侵检测系统 |
CN111252166A (zh) * | 2020-01-20 | 2020-06-09 | 山东大学 | 一种基于K-means聚类算法的推土机操纵总成装配工艺控制方法及装置 |
CN111556440A (zh) * | 2020-05-07 | 2020-08-18 | 之江实验室 | 一种基于流量模式的网络异常检测方法 |
CN111915418A (zh) * | 2020-05-25 | 2020-11-10 | 百维金科(上海)信息科技有限公司 | 一种互联网金融欺诈行为在线检测方法及其装置 |
CN113807373B (zh) * | 2020-06-11 | 2024-02-02 | 中移(苏州)软件技术有限公司 | 一种流量识别方法及装置、设备、存储介质 |
CN113807373A (zh) * | 2020-06-11 | 2021-12-17 | 中移(苏州)软件技术有限公司 | 一种流量识别方法及装置、设备、存储介质 |
CN111814908A (zh) * | 2020-07-30 | 2020-10-23 | 浪潮通用软件有限公司 | 一种基于数据流的异常数据检测模型更新方法和装置 |
CN111814908B (zh) * | 2020-07-30 | 2023-06-27 | 浪潮通用软件有限公司 | 一种基于数据流的异常数据检测模型更新方法和装置 |
CN111985823A (zh) * | 2020-08-25 | 2020-11-24 | 东北大学 | 一种用于滚磨机定向仪的晶棒质量评估方法 |
CN111985823B (zh) * | 2020-08-25 | 2023-10-27 | 东北大学 | 一种用于滚磨机定向仪的晶棒质量评估方法 |
CN112132212B (zh) * | 2020-09-22 | 2022-08-09 | 福州大学 | 一种容忍异常原料的木材原料选色方法 |
CN112132212A (zh) * | 2020-09-22 | 2020-12-25 | 福州大学 | 一种容忍异常原料的木材原料选色方法 |
CN112183621A (zh) * | 2020-09-27 | 2021-01-05 | 国网宁夏电力有限公司电力科学研究院 | 电能质量监测数据驱动的变压器状态异常检测方法 |
CN113141509A (zh) * | 2021-03-30 | 2021-07-20 | 中山大学 | 一种颜色列表生成方法 |
CN114118306A (zh) * | 2022-01-26 | 2022-03-01 | 北京普利莱基因技术有限公司 | Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 |
CN114118306B (zh) * | 2022-01-26 | 2022-04-01 | 北京普利莱基因技术有限公司 | Sds凝胶电泳实验数据的分析方法、装置及sds凝胶试剂 |
CN114880384A (zh) * | 2022-07-11 | 2022-08-09 | 杭州宇谷科技有限公司 | 一种无监督二轮电动车充电时序异常检测方法及系统 |
CN114880384B (zh) * | 2022-07-11 | 2022-09-23 | 杭州宇谷科技有限公司 | 一种无监督二轮电动车充电时序异常检测方法及系统 |
CN116304776B (zh) * | 2023-03-21 | 2023-11-21 | 宁波送变电建设有限公司运维分公司 | 基于k-Means算法的电网数据值异常检测方法及系统 |
CN116304776A (zh) * | 2023-03-21 | 2023-06-23 | 宁波送变电建设有限公司运维分公司 | 基于k-Means算法的电网数据值异常检测方法及系统 |
CN116825169A (zh) * | 2023-08-31 | 2023-09-29 | 悦芯科技股份有限公司 | 一种基于测试设备的异常存储芯片检测方法 |
CN116825169B (zh) * | 2023-08-31 | 2023-11-24 | 悦芯科技股份有限公司 | 一种基于测试设备的异常存储芯片检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107528823A (zh) | 一种基于改进的K‑Means聚类算法的网络异常检测方法 | |
CN103824055B (zh) | 一种基于级联神经网络的人脸识别方法 | |
CN103581186B (zh) | 一种网络安全态势感知方法及系统 | |
CN106714220A (zh) | 一种基于mea‑bp神经网络wsn异常检测方法 | |
CN113378990B (zh) | 基于深度学习的流量数据异常检测方法 | |
CN108718310A (zh) | 基于深度学习的多层次攻击特征提取及恶意行为识别方法 | |
CN108601026B (zh) | 基于随机抽样一致性的感知数据错误化攻击检测方法 | |
CN112529341B (zh) | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 | |
CN108768946A (zh) | 一种基于随机森林算法的网络入侵检测模型 | |
CN105372087A (zh) | 基于多传感器信号分析的故障诊断方法 | |
CN109086793A (zh) | 一种风力发电机的异常识别方法 | |
CN108595655A (zh) | 一种基于会话特征相似性模糊聚类的异常用户检测方法 | |
CN105607631B (zh) | 间歇过程弱故障模型控制限建立方法及弱故障监测方法 | |
CN102045358A (zh) | 一种基于整合相关性分析与分级聚类的入侵检测方法 | |
CN110851422A (zh) | 一种基于机器学习的数据异常监测模型构建方法 | |
CN106429689A (zh) | 基于物联网大数据支撑的电梯维保系统 | |
CN106950945A (zh) | 一种基于量纲可变型独立元分析模型的故障检测方法 | |
CN111080074A (zh) | 基于网络多特征关联的系统服役安全态势要素获取方法 | |
CN102045357A (zh) | 一种基于仿射聚类分析的入侵检测方法 | |
CN117057150A (zh) | 一种基于无监督叠加集成的供水管网爆管检测与识别方法 | |
CN110427019B (zh) | 一种基于多变量判别分析的工业过程故障分类方法及控制装置 | |
CN107992902A (zh) | 一种基于监督学习的地面公交扒窃个体自动检测方法 | |
CN113551904B (zh) | 基于层次机器学习的齿轮箱多类型并发故障诊断方法 | |
CN110826587A (zh) | 基于改进的加权一类支持向量机的涡轴发动机故障检测方法 | |
CN118074948A (zh) | 基于轻量级神经网络的工控系统攻击检测方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171229 |
|
WD01 | Invention patent application deemed withdrawn after publication |