CN107528823A

CN107528823A - 一种基于改进的K‑Means聚类算法的网络异常检测方法

Info

Publication number: CN107528823A
Application number: CN201710534586.3A
Authority: CN
Inventors: 周杰英; 邱荣发; 杨诗珺; 刘映淋
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2017-12-29

Abstract

本发明提出一种基于改进的K‑Means聚类算法的网络异常检测方法，包括：输入训练数据，读取到训练数据之后首先对数据进行预处理；再应用K‑Means聚类算法训练数据，建立模型；应用少数服从多数原则，判定聚类出来的K个簇W_j是否属于正常类；将测试数据输入模型中，进行异常检测分析。异常检测由三步构成，第一步：使用聚类算法，将测试样本进行异常与正常分类，若属于异常则判定为异常，若属于正常则进行下一步操作；第二步，设定正常类型簇W₁的范围边界，阈值为d_max，计算划分为簇W₁的样本到聚心C₁的距离d(X,C₁)，比较两者的大小来判定样本是否异常；第三步，应用阈值规则，检测出属于簇W₁异常样本。

Description

一种基于改进的K-Means聚类算法的网络异常检测方法

技术领域

本发明涉及入侵检测网络安全领域，特别涉及一种基于改进的K-Means聚类算法的网络异常检测方法。

背景技术

入侵检测指的是从计算机网络中的关键点收集信息，并且分析这些信息，查看网络中是否存在违反安全策略的行为。入侵检测可以说是防火墙的合理补充和延伸；如果说防火墙是第一道安全闸门，入侵检测可以说是第二道安全闸门。入侵检测在不影响网络性能的前提下，实时、动态地保护来自内部和外部的各种攻击，同时有效地弥补了防火墙所能达到的防护极限。

传统的入侵检测技术是应用规则集方法的技术，用于检测计算机网络中违反安全策略的行为，这说明只有匹配了预先定义的规则，才能检测出流量是否异常。这种做法最大的局限性在于无法检测出规则集之外的异常类型，若网络中出现了新型攻击类型，传统的规则匹配方法将不可行。此外，规则集的制定也将耗费网络监控人员大量的时间与精力，并且需要不时地更新规则集。

针对传统入侵检测技术的局限性，人们将机器学习应用到入侵检测上，可以有效地解决人工繁琐的操作过程，降低误检率，并且具有实时性的特点。由于实时抓取的流量没有标记为正常或是异常类型，在缺乏足够的先验知识情况下，一般选择采用无监督学习的K-Means聚类算法。K-Means聚类算法将正常类型聚为一类，其他异常类型各自形成簇，与匹配异常规则集不同的是，这样只需要找出不属于正常类的样本即是异常的，这样可以有效地检测出新的异常类型。此外针对误入正常类的异常样本，还使用概率阈值规则来检测出来，降低了漏检率，提高准确性。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提出了一种基于K-Means聚类算法的网络异常检测方法，此方法应用三个异常检测判决条件，比K-Means聚类之后仅以最近邻规则来判别异常样本的方法来说，具有更高的准确率，有效地降低了误检率。

为达到上述目的，本发明的技术方案具体为：

一种基于改进的K-Means聚类算法的网络异常检测方法，包括：

步骤1，读取数据及预处理：读取训练数据，对训练数据进行归一化预处理，随机选取K个聚心C₁,C₂,…,C_K；

步骤2，计算欧氏距离：分别计算第i个训练样本与K个聚心之间的距离d_i1(X_i,C₁)，d_i2(X_i,C₂)，…，d_iK(X_i,C_K)；从中找出距离最小值所对应的聚心，并将该训练样本划分到该聚心所对应的簇中；

步骤3，收敛聚心：重新计算聚心，并且与之前的聚心进行比较，若聚心改变，则重复步骤2，直到聚心保持不变；

步骤4，异常簇的判定：应用少数服从多数原则，判定K个簇W_j各自属于正常类型还是异常类型，至此模型建立完毕；

步骤5，检测测试样本：输入一个测试样本到步骤4所建立的模型中，并按顺序应用最近邻规则、边界规则和阈值规则三个决策条件来判断测试样本属于异常样本还是正常样本。

优选的，所述步骤1的过程具体为：

将训练数据读取进来，进行归一化操作，首先计算每个特征的均值为：

上式中，z_nf表示第n个训练样本的f特征的值，n表示训练样本个数，接着计算平均绝对偏差为：

最后进行标准化计算为：

上式中，x_if表示第i个训练样本的f特征的归一化之后的值，将n个训练样本的每个特征都进行归一化之后，得到新的样本点，接着从中随机选取K个样本点作为初始聚心C_j，j＝1,2,…,K。

优选的，所述步骤2的计算欧氏距离的过程为：分别计算n个样本与每个聚心之间的欧氏距离为：

上式中，X_i＝(x_i1,x_i2,…x_im)表示第i个样本点的m个特征值，C_j＝(c_j1,c_j2,…c_jm)表示K个初始聚心中第j个聚心的m个特征值；接着找出最小d_ij(X_i，C_j)，并将样本划分到该聚心所属的簇W_j中。

优选的，所述步骤3的收敛聚心的过程为：采用式(5)重新计算聚心：

上式中，W_j表示第j个簇，n_j表示簇W_j中样本的个数，X表示簇W_j中的所有样本，将更新之后的聚心与之前的聚心相比较，若聚心改变，则重复步骤2，直到聚心维持不变，即聚心收敛。

优选的，所述步骤4的异常簇的判定的过程为：应用少数服从多数原则，“1”表示正常，“0”表示异常，q_1j表示簇W_j中的正常样本，q_0j表示簇W_j中的异常样本，判定一个簇W_j属于正常类的条件为：

优选的，所述步骤5的检测测试样本的过程为：应用三个条件来判定测试样本是否正常，首先是最近邻规则条件：

d(X，C₁)＜d(X，C_j) (7)

上式中，C₁表示的是正常簇W₁所对应聚心，C_j表示的是异常簇W_j所对应聚心，j＝2,3,…,k-1；

接着应用边界规则条件：

d(X,C₁)＜d_max (8)

其中，d_max表示的是预先设定的正常簇W₁所允许的范围边界，此条件能有效的避免孤立点被视为正常样本情况；

最后应用阈值规则：

P(q_ij|X∈C₁)＞τ (9)

应用概率阈值规则，设置阈值τ为0.5，这样可以精确的检测出属于簇W₁异常样本。

一种基于改进的K-Means聚类算法的异常检测方法。本发明将在K-Means聚类算法的基础上进行改进，引入范围边界判决机制，在最近邻规则的基础上，进一步应用范围边界规则进行判决，在存在孤立的异常样本点的情况下，能够有效地检测出异常样本，排除划分为正常的可能，降低误检率。

相对于现有技术，本发明具有如下优点和有益效果：

针对网络中出现了新的异常类型，表现为远离异常聚心的孤立样本点，错误地将这些样本点划入正常类型中的情况，本发明提出了一种正常范围边界判决机制。该判决条件主要是对样本点聚类之后进行异常检测的补充，新的异常类型很有可能会远离以前的异常类型，成为孤立的样本点，但是如果此孤立样本点离正常聚心更近的话，会被错误的划入正常类型，导致误检现象。加入了范围判决条件之后，凡是在最大范围之外都将被认定为异常样本，这样能够有效地降低了误检率，提高准确性。

附图说明

图1为K-Means聚类算法训练数据的流程图。

图2为检测异常样本判决机制流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种基于改进的K-Means聚类算法的网络异常检测方法，包括以下步骤：

第一：从数据集中将训练数据读取进来，防止有些特征数值较大，不利于计算，先进行归一化操作。根据归一化计算公式为：

上式中，x_if表示第i个样本的f特征的归一化之后的值，将n个样本的每个特征都进行归一化之后，得到新的样本点；z_nf表示第n个样本的f特征的值，m_f表示每个特征的均值，S_f表示平均绝对偏差；每个特征的均值计算为：

上式中，n表示样本个数，接着计算平均绝对偏差为：

最后将公式(2)、(3)计算的结果代入公式(1)中得到归一化结果。

第二：从训练数据集中随机选取K个样本点作为初始聚心C_j，j＝1,2,…,K。然后分别计算n个样本与每个聚心之间的欧氏距离为：

上式中，X_i＝(x_i1,x_i2,…x_im)表示第i个样本点的m个特征值，C_j＝(c_j1,c_j2,…c_jm)表示K个初始聚心中第j个聚心的m个特征值；接着找出最小d_ij(X_i，C_j)，表示该样本与该聚心具有相似的特征属性，应用最近邻原则并将样本划分到该聚心所属的簇W_j中。

第三：簇加入新样本之后需要重新计算簇内所有样本的均值来更聚心，更新的聚心为：

上式中，W_j表示第j个簇，n_j表示簇W_j中样本的个数，X表示簇W_j中的所有样本，将更新之后的聚心与之前的聚心相比较，若聚心改变，则回到计算n个样本与K个聚心的欧氏距离的步骤，接着选取最小的距离，划分样本到该簇中，再更新聚心并且与之前的聚心比较是否改变，直到聚心不变，即聚心收敛。

第四：聚类之后需要判定每一个簇属于正常还是异常，此时应用少数服从多数原则，“1”表示正常，“0”表示异常，q_1j表示簇W_j中的正常样本，q_0j表示簇W_j中的异常样本，判定一个簇W_j属于正常类的条件为：

第五：模型训练完毕之后需要输入测试样本来测试数据，输入测试样本之后应用三个条件来判定测试样本是否正常，首先是最近邻规则条件：

上式中，C₁表示的是正常簇W₁所对应聚心，C_j表示的是异常簇W_j所对应聚心，j＝2,3,…,k-1，只需要判定样本是否离正常簇的聚心最近，而不需要考虑样本与异常聚心的距离，只要不是离正常聚心最近，则判定为异常；接着应用边界规则条件：

d(X,C₁)＜d_max (8)

上式中，d_max表示的是预先设定的正常簇W₁所允许的范围边界，若异常样本远离异常簇，但是在正常簇的范围边界，此时只依靠最近邻原则会被判定为正常，应用边界规则条件可以有效的避免孤立点被视为正常样本情况；正常簇里面会有个别的异常样本，倘若异常的测试样本被错误的划分到正常簇中，则可以应用阈值规则：

P(q_ij|X∈C₁)＞τ (9)

应用概率阈值规则，设置阈值τ为0.5，这样可以精确的检测出属于正常簇W₁异常样本。

一种基于改进的K-Means聚类算法的网络异常检测方法，包括：输入训练数据，读取到训练数据之后首先对数据进行预处理；再应用K-Means聚类算法训练数据，建立模型；应用少数服从多数原则，判定聚类出来的K个簇W_j是否属于正常类；将测试数据输入模型中，进行异常检测分析。异常检测由三步构成，第一步：使用聚类算法，将测试样本进行异常与正常分类，若属于异常则判定为异常，若属于正常则进行下一步操作；第二步，设定正常类型簇W₁的范围边界，阈值为d_max，计算划分为簇W₁的样本到聚心C₁的距离d(X,C₁)，比较两者的大小来判定样本是否异常；第三步，应用阈值规则，检测出属于簇W₁异常样本。本发明将在K-Means聚类算法的基础上进行改进，引入概率阈值判决机制，在最近邻规则与范围边界规则的基础上，进一步应用概率阈值判决规则进行判决。本方法的异常检测机制能够更加精确的检测出远离异常簇的孤立异常样本，在异常样本错误划入正常簇的情况下，有效地降低误检率并且更加精确的检测出落入正常簇中的异常样本，有效地降低漏检率，提高准确性。

相对于现有技术，本发明具有如下优点和有益效果：

针对网络中出现了新的异常类型，表现为与正常类型及其相似，错误地将这些样本点划入正常类型中的情况，本发明提出了一种概率阈值判决机制。该判决条件主要是针对异常样本点划分进了正常簇中的情况，新的异常类型很有可能与正常类型相似，混入了正常类型中，此时容易导致漏检。加入了概率阈值判决条件之后，混入正常类型异常样本将会被检测出来，降低漏检率，提高准确性。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于改进的K-Means聚类算法的网络异常检测方法，其特征在于，包括：

步骤3，收敛聚心：重新计算簇的聚心，并且与之前的聚心进行比较，若聚心改变，则重复步骤2，直到聚心保持不变；

步骤4，异常簇的判定：应用少数服从多数原则，判定K个簇各自属于正常类型还是异常类型，至此模型建立完毕；

2.根据权利要求1所述的方法，其特征在于，所述步骤1的过程具体为：

最后进行标准化计算为：

3.根据权利要求2所述的方法，其特征在于，所述步骤2的计算欧氏距离的过程为：计算第i个训练样本与每个聚心之间的欧氏距离为：

<mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>f</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>c</mi> <mrow> <mi>j</mi> <mi>f</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

上式中，X_i＝(x_i1,x_i2,…x_im)表示第i个样本点的m个特征值，C_j＝(c_j1,c_j2,…,c_jm)表示K个初始聚心中第j个聚心的m个特征值；接着从中找出距离最小值所对应的聚心，并将该训练样本划分到该聚心所对应的簇中。

4.根据权利要求3所述的方法，其特征在于，所述步骤3的收敛聚心的过程为：采用式(5)重新计算聚心：

<mrow> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>n</mi> <mi>j</mi> </msub> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>X</mi> <mo>&Element;</mo> <msub> <mi>W</mi> <mi>j</mi> </msub> </mrow> </munder> <mi>X</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

5.根据权利要求4所述的方法，其特征在于，所述步骤4的异常簇的判定的过程为：应用少数服从多数原则，“1”表示正常，“0”表示异常，q_1j表示簇W_j中的正常样本，q_0j表示簇W_j中的异常样本，判定一个簇W_j属于正常类的条件为：

6.根据权利要求5所述的方法，其特征在于，所述步骤5的检测测试样本的过程为：应用三个条件来判定测试样本是否正常，

首先是最近邻规则条件：

d(X，C₁)＜d(X，C_j) (7)

接着应用边界规则条件：

d(X,C₁)＜d_max (8)

最后应用阈值规则：

P(q_ij|X∈C₁)＞τ (9)

应用概率阈值规则，设置阈值τ，能精确的检测出属于簇W₁异常样本。