CN114362973A

CN114362973A - 结合K-means和FCM聚类的流量检测方法及电子装置

Info

Publication number: CN114362973A
Application number: CN202011031765.3A
Authority: CN
Inventors: 顾炎杰; 刘尚奇; 杨牧; 连一峰; 陈立全; 张海霞; 黄克振; 彭媛媛
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2022-04-15
Anticipated expiration: 2040-09-27
Also published as: CN114362973B

Abstract

本发明提供一种结合K‑means和FCM聚类的流量检测方法及电子装置，包括通过已标注流量数据集T_q及标注种类确定的k_q个聚类c_q，i及各聚类c_q，i的簇心，对包含已标注流量数据集T_q与未标注流量数据集W_q的数据集D进行聚类，得到聚类c′_q，i；若聚类c′_q，i的离群点数据满足一设定规则，得到k′_q个聚类C_q，j；依据聚类c_q，j，计算数据集D中各数据的标注结果，获取已标注流量数据集T_q+1与未标注流量数据集W_q+1；依据未标注流量数据集W₁在聚类c_Q，j中各数据的标注种类K_Q，对未标注流量数据集W₁进行分类。本发明实现了K‑means算法中k值的自我调节，更容易达到全局最优；利用自训练模式，避免错误数据在后续的迭代中累积；实现了标记数据集和未标记数据集的动态变化，具有实时性和灵活性。

Description

结合K-means和FCM聚类的流量检测方法及电子装置

技术领域

本发明涉及计算机领域，尤其涉及一种结合K-means和FCM聚类的流量检测方法及电子装置。

背景技术

互联网的飞速发展推动了全球化的生产和生活方式的深刻变革，但同时也带来巨大的挑战。为了满足互联网用户的多样化需求，互联网中各种新型应用层出不穷，这些新型应用在扩大了互联网的应用规模，提供了更丰富的服务之余，其采用的应用协议特征也有别于传统的应用类型，变得更加复杂和多样化，给网络流量的管理和规划带来了极大的挑战。此外，互联网中流量种类的不断增加以及流量特征的迅速更新，使得网络安全问题也面临着日益严峻的挑战。目前，各种网络攻击泛滥、手段丰富，且规避检测方式较为灵活，如何有效的识别和控制这些异常流量，也是网络流量管理控制的重难点之一。提取网络流量的特征，实施有效的差异化管理，自适应匹配不同的应用协议，是有效解决网络监管中存在的种种问题的一个方向。

传统的网络入侵流量检测方法是基于误用的流量检测，该方法是采用设置阈值、特征检测和统计等途径实现的。基于固定阈值的检测方法是网络管理员依据所在的网络环境的管理经验，设置一个固定的阈值，当检测指标超过这个阈值时，则判断为异常流量。在不同的网络环境中设置的阈值有所不同，这种方法简单、成本低，但是难以适配当下动态和复杂的网络环境。基于特征的方法虽然能通过实时更新特征库来动态检测网络的入侵流量，但无法检测出网络中未知的和最新出现的异常行为。基于统计的方法是在已有的历史数据上通过分析处理得到一个正常流量的标准，再依据标准对新的数据进行判断，但是一旦历史数据过期，对实时网络的判断就会出现巨大误差。

相对于基于误用的流量检测方法是基于异常流量的检测方法，该方法假设网络入侵和滥用行为有别于一般正常用户或者系统的行为，在检测过程中先在用户、系统或者网络正常操作的一段时间内收集事件和行为的信息，再根据这些信息建立正常或者有效行为的模式，然后利用某种度量计算事件行为偏离正常行为的程度，如果偏离程度超过一定的范围，则报警异常。基于异常流量检测的本质就是查找一些被认为是异常的行为，它可发现新的攻击模式，甚至可用于产生误用检测的攻击特征库，而这种技术存在的最明显缺点是:①误警率远高于基于误用的检测方法；②需要大量良好的训练数据，这在当前的互联网环境下是很难实现的。实际环境中，可用的训练数据的数量非常少，如将较少的训练数据直接作为训练集使用会产生较大的误差。

为了解决网络入侵流量检测中训练数据比例过低的问题，基于自训练的网络流量分类方法被提出。自训练作为半监督机器学习的分支，其特点是将每一次分类结果中置信度较高的未标记数据标记上分类标签，在未来的分类中作为训练集使用，以达到逐步扩大训练集容量的效果。自训练算法由于其对训练数据的需求较低，不需要特定的假设条件且简单有效，对变化的网络环境有着较好的适应性而被广泛关注，然而自训练算法也存在其固有的缺陷：①高置信度的数据通常提供的信息有限，对分类器的训练效果不佳，导致迭代的轮数增加，低置信度数据能为分类器提供更多的信息，训练效果更好，但是分类的准确性难以得到保证；②一旦被标记的数据与实际分类不符，在后续的迭代运算中，这一错误的数据在将分类过程中会吸引更多与之相似的数据，并打上同样与实际分类不符的标记，逐步扩大错误的影响范围。

K-means聚类算法是较为著名的划分聚类算法，简洁、高效使得其成为最广泛使用的聚类算法之一。随着对K-means研究的深入，其局限性也凸显出来：①聚类中的k值需要手动指定；②对孤立点敏感；③选取不同的初始聚类中心会影响最终聚类结果，易陷入局部优化；④不能发现非球形团聚类或相互间差异较大的聚类。相比于K-means算法的刚性划分，FCM算法是一种柔性的模糊划分，它是在K-means基础上引入了隶属度概念，利用每个样本在每个聚类中的隶属度构建隶属度矩阵，直观表现样本属于特定聚类的置信度。和K-means算法一样，FCM算法同样存在易受初始聚类中心影响陷入局部优化以及聚类总数k需要手动指定的缺点。

中国专利申请CN108898166A公开了一种图像标注方法，其通过图像到各个类的聚类中心的欧式距离，找到图像到类中聚类中心距离最近的一个类，但欧式距离将空间中各维度的贡献视为均等的，它未能考虑到不同维度的衡量指标有所不同，以及维度之间可能存在的潜在关联。相比之下，马氏距离建立在总体样本之上，再比较样本之间的差异程度的，它能够消除原始样本测量单位对样本距离计算的影响，考虑了各维度中的相互联系。

发明内容

在网络入侵检测方面，为解决基于异常流量检测方法中训练数据量少、K-means算法及FCM算法对k值和初始簇中心设定敏感的问题，本发明提供了一种结合K-means和FCM聚类的流量检测方法及电子装置，利用已标注流量样本及标注种类确定聚类的k值和初始簇心，通过基于马氏距离的K-means算法对已标注和未标注流量样本进行聚类，利用FCM算法和KNN算法对样本聚类结果进行对比确认，对于冲突样本则作为新的未标注数据，利用K-means算法和更新的标注样本集重新迭代，并利用未标注流量样本的标记，对流量样本是否异常进行判别，从而实现网络流量是否异常的检测，并在检测过程中利用自训练模式补充训练数据，动态提升聚类方法的性能。

为实现上述目的，本发明的技术方案包括：

一种结合K-means和FCM聚类的流量检测方法，其步骤包括：

1)通过已标注流量数据集T_q及标注种类K_q确定的k_q个聚类c_q，i及各聚类c_q，i的簇心v_q，i，对包含已标注流量数据集T_q与未标注流量数据集W_q的数据集D进行聚类，得到聚类c′_q，i，其中1≤i≤k_q；

2)若聚类c′_q，i的离群点数据满足一设定规则，则将离群点数据设为新的聚类，并在聚类c′_q，i中保留分离离群点后的剩余数据，得到k′_q个聚类c_q，j，其中1≤j≤k′_q；

3)依据聚类c_q，j，计算数据集D中各数据的标注结果，获取已标注流量数据集T_q+1与未标注流量数据集W_q+1；

4)依据未标注流量数据集W₁在聚类c_Q，j中各数据的标注种类K_Q，对未标注流量数据集W₁进行分类，获取流量的检测结果，其中1≤q＜Q，Q为将数据集D中所有数据进行正确标注的迭代次数或设定迭代次数。

进一步地，通过以下步骤得到聚类c′_q，i：

1)通过计算数据集D中数据x_t与簇心v_q，i的马氏距离d(x_t，v_q，i)，对数据集D进行聚类，并计算簇心v′_q，i，其中1≤t≤n，n为数据集D的数据数量；

2)若簇心v′_q，i与簇心v_q，i的差值不大于一阈值，则得到聚类c′_q，i。

进一步地，通过以下步骤得到离群点数据：

1)计算聚类c′_q，i中已标注流量数据距离簇心v′_q，i的最大距离d_Tmax；

2)将聚类c′_q，i中距离簇心大于最大距离d_Tmax的未标注流量数据，设为离群点数据。

进一步地，所述设定规则包括：离群点数据集合S的平均距离

其中w为离群点数据集合S中的数据，v′_q，i为聚类c′_q，i的簇心，maxradius(c′_q，i)为聚类c′_q，i的最大半径。

进一步地，通过以下步骤获取已标注流量数据集T_q+1与未标注流量数据集W_q+1：

1)计算数据集D的各数据在聚类c_q，j中标注置信度；

2)对高置信度的未标注流量数据、高置信度且分类结果与标记不同的已标注流量数据进行标注分类，得到标注集合与未标注集合；

3)将低置信度的未标注流量数据、未标注集合加入未标注流量数据集W_q+1，将高置信度且分类结果与标记不同以外的已标注流量数据、标注集合加入已标注流量数据集T_q+1。

进一步地，获取标注置信度的方法包括：FCM算法。

进一步地，FCM算法的代价函数

其中n为数据集D的数据数量，x_t为数据集D中的数据，u_jt为加权指数，v_q，j为c_q，j的簇心，d²(.，.)为马氏距离。

进一步地，进行标注分类的方法包括：KNN算法或WKNN算法。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

本发明的实施方案与现有技术相比，其主要优势在于：实现了K-means算法中k值的自我调节，随着样本数量的变化自适应增加k值；将K-means算法的结果传递到FCM算法作为其初始值，使得K-means算法和FCM算法的初始值更加精确，更容易达到全局最优，也能发现新的类别，在一定程度上发现原有流量样本集所没有的新型攻击；利用自训练模式，每一轮分类都对已标记的数据和未标记的数据进行“考核”，不仅能在分类初期快速累积有标记的训练样本，而且能实时排除训练样本中分类错误的数据，避免错误数据在后续的迭代中累积；实现了标记数据集和未标记数据集的动态变化，在分类过程中可向未标记数据集添加新的样本，使该方法更加具有实时性和灵活性。

附图说明

图1为本发明聚类方法的流程图

图2为半监督K-means方法的流程图

图3为由K-means算法初始化的FCM方法流程图

图4为改进的KNN方法和数据更新流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的实施方式作进一步的详细描述。

本发明涉及一种结合K-means和FCM的自学习网络流量检测方法，主要分为K-means算法部分，k值自更新部分，FCM算法部分以及改进的KNN算法投票部分。

1)K-means算法部分。

如图2所示，本发明的半监督K-means方法包括：

首先，选取已标记的流量样本集T和待检测的流量数据集W组合为流量数据集D，令k等于已标记流量样本集T中的类别总数。

其次，以已标记样本集数据为基础，分别计算k个类别中初始簇心

其中c_i为第i(1≤i≤k)类已标记样本集合，|c_i|为该集合的数量，x_j为集合中的样本，且1≤j≤|c_i|。

然后，依据设定k和k个初始簇心，输入流量数据集D执行基于半监督的K-means算法，重新计算各聚类簇心。

在K-means算法中，数据样本x(x∈D)与第i类聚类中心v_i的距离d(x，v_i)用马氏距离进行计算，计算方法为

其中C为流量数据集D中样本分布的协方差矩阵，满足

其中n为流量数据集D的样本总数，x_j∈D；

最后，判断各聚类簇心与相应初始簇心的变化不大于一阈值，则得到聚类c′_i。

2)k值的自适应。

分别遍历K-means输出的k个聚类，判断第i(1≤i≤k)个聚类c′_i中是否存在耦合程度较高的离群点，如果存在，将该聚类的离群点集合视为为一个新的聚类，且聚类总数加1，遍历完k个聚类后，返回一个新的聚类总数k′。

进一步地，聚类c′_i中耦合程度较高离群点及新聚类的判断条件为：

①在聚类c′_i的数据集合中，从未标记数据中筛选出离聚类中心v_i距离大于有标记样本离聚类中心的最大距离的数据集合，记为S。

②计算S内样本的平均距离

判断是否满足：

其中，w为S中的样本，v′_i为聚类c′_i的中心，maxradius(c′_i)为聚类c′_i的最大半径，如果满足条件①的离心点组成的集合S满足条件②，则将S作为新的聚类。

3)FCM算法部分

如图3所示，本发明的FCM算法流程包括：

3.1)建立初始化的隶属度矩阵U，U的维度为k′×n，n为流量数据集D的总数，k′为更新后的聚类总数，矩阵每一列表示当前样本属于各个聚类的程度，故满足

其中隶属度矩阵的初始化规则为：

①

其中1≤t≤n，1≤i，l≤k′，c″_i和c″_l为经过k值自适应后的聚类结果，该规则含义为当第t个样本属于已标记数据集T，且属于聚类c″_i时，u_it为1，在其他聚类c″_l下，u_lt为0。

②

其中1≤t≤n，1≤i，l≤k′，d(x_t，v″_i)为样本x_t到聚类c″_i簇心v″_i的马氏距离，maxradius(c″_i)为聚类c″_i在马氏距离下的最大半径。该规则含义为当第t个样本属于待检测数据集W中，且属于聚类c″_i时，u_it为

在其他聚类c″_l下，u_lt为0。

FCM算法中，代价函数J(U，C)为：

其中，u_it∈[0，1]，是一个加权指数，v″_i为聚类c″_i的中心，d²(x_t，v″_i)为样本与聚类中心的马氏距离。

3.2)确定初始隶属矩阵后，按照如下规则更新隶属度矩阵U和聚类中心v″_i：

3.3)判断循环结束的条件是代价函数是J(U，C)的收敛情况，当两次迭代的代价函数差|ΔJ(U，C)|＜thres时，结束循环，返回隶属度矩阵。其中thres代表阈值，为用户手动指定的常量。

3.4)从FCM算法分类结果中，提取高置信度的未标记数据和高置信度且分类结果与标记不同的标记数据，形成一个候选集M，即：

其中ε为高置信度阈值，FCM(x_t)为在FCM算法下的分类结果，L(x_t)为已标记数据的原有标签分类。

然后对候选集M内的样本分别按照改进的KNN算法，即WKNN算法(康静怡，韩中豪，何玉美，等.一种基于WKNN定位的改进算法[J].成都信息工程大学学报，2018(1)：8-12.)进行类别划分。流程如图4所示。

对每一个样本m∈M选取符合条件聚类的规则为：

①目标样本m在FCM算法中得到的最高置信度的聚类记为第一个聚类c″₁；

②对于聚类c″_q，1＜q≤k′，满足d(m，v″_q)＜maxradius(c″_q)或d(m，v″_q)≤d(v″₁，v″_q)/2或0≤d(m，v″_q)-maxradius(c″_q)≤d(m，v″₁)-maxradius(c″₁)。

其中，d(m，v″_q)为样本m与聚类c″_q中心v″_q的马氏距离。

依据上述条件，假设共选取z(1≤z≤k′)个聚类，从z个聚类的样本并集中选取f个m的邻近点，并为它们赋予相应的权重

其中1≤g≤f，c″_g为第g个邻近点所在聚类的集合，|c″_g|为当前聚类中样本的数量，通过赋予权重的方式以解决KNN算法中聚类样本数量不均匀导致投票结果偏差的问题。

统计M内每个样本m的投票结果，对于KNN(m)＝FCM(m)的样本，根据m为标记样本还是待检测流量数据进行分类，得到标记样本集合M_T和待检测流量数据集合M_W。对于M_T，删除该集合内样本的标签；对于M_W，将集合中的数据变为已标记数据，且设置为标签为KNN(m)。

更新待检测流量数据集W′和标记样本集T′，W′＝W-M_W+M_T，T′＝T-M_T+M_W。

判断W′是否为空集，如果为空，输出所有聚类结果；否则返回K-means算法部分继续迭代，直到U集为空，或者迭代次数达到上限。

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种结合K-means和FCM聚类的流量检测方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，通过以下步骤得到聚类c′_q，i：

3.如权利要求1所述的方法，其特征在于，通过以下步骤得到离群点数据：

4.如权利要求1所述的方法，其特征在于，所述设定规则包括：离群点数据集合S的平均距离

5.如权利要求1所述的方法，其特征在于，通过以下步骤获取已标注流量数据集T_q+1与未标注流量数据集W_q+1：

1)计算数据集D的各数据在聚类c_q，j中标注置信度；

6.如权利要求5所述的方法，其特征在于，获取标注置信度的方法包括：FCM算法。

7.如权利要求6所述的方法，其特征在于，FCM算法的代价函数

8.如权利要求5所述的方法，其特征在于，进行标注分类的方法包括：KNN算法或WKNN算法。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。