CN109522926A

CN109522926A - 基于信息熵聚类的异常检测方法

Info

Publication number: CN109522926A
Application number: CN201811170299.XA
Authority: CN
Inventors: 方锡; 谭文安; 赵璐
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-26

Abstract

本发明公开的一种基于信息熵聚类的异常检测方法，属于机器学习和数据挖掘领域。本发明的异常检测算法基于聚类算法的思想，克服了传统K‑means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题，提出基于信息熵选取初始聚类中心的方法。本发明提出的方法是将数据集平均分成比K值多的数据块，进而使用熵值法得到每个数据块的目标价值函数，选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心，利用熵值法保证了初始聚类中心选取的高效性，并在算法的迭代过程中实现了异常检测的功能。同传统的基于K‑means的聚类算法相比，本发明提出的算法无论是在聚类效果和异常检测能力上均高于传统K‑means聚类算法。有一定的实际意义。

Description

基于信息熵聚类的异常检测方法

技术领域

本发明涉及机器学习和数据挖掘技术领域，具体是基于信息熵聚类的异常检测算法。

背景技术

随着近代以来信息技术的迅猛发展，在诸多领域中一些和大多数数据不同的特殊数据受到人们的广泛关注，这些特殊数据称为异常数据。异常是在数据集中与众不同的数据，使人怀疑这些数据并非偏差，而是产生于完全不同的机制。异常检测常用方法包括：基于统计的异常检测方法、基于数据流算法的异常检测方法和基于无监督学习的机器学习方法。数据挖掘、机器学习在异常检测中的应用得到了广泛关注。数据挖掘是指从海量数据中搜索出隐藏信息的过程，它通常与机器学习、模式识别等方法结合来实现上述目标数据挖掘技术的异常检测分为分类、聚类和关联规则三种。

聚类分析作为数据挖掘的重要分支，是对事先未知的数据对象进行类的划分，目标是将数据集分成若干的簇，并保证同一簇内的数据点相似度尽可能大，簇于簇之间的数据点相似度尽可能小。K-means方法就是一种基于无监督的划分聚类算法，因其高效性和简单性被广泛用于异常检测领域。但由于该算法的初、始聚类中心选择过程是随机的，因此容易导致最终聚类结果陷入局部最优而非全局最优。

另一种比较常用的检测方法是基于信息熵的异常检测。信息熵是香农在1948年，将热力学中熵的概念引入到信息论中，用来解决信息量化度量的问题而提出来的。信息熵可以被用来测量一个系统的“无序”程度，熵值越大，说明系统中的数据越无序；熵值越小，则说明系统中的数据越有序，越“纯净。那么，如果将信息熵应用到聚类中，由于它是依赖于记录中每个属性的概率，因此属性的取值可以是离散的和无序的，即信息熵适合处理具有分类属性的记录的聚类问题。根据聚类的判断准则，同一聚类中的数据越相似越好。

在本发明中，我们针对传统聚类算法的聚类效果易受到初始聚类中心的影响的问题，提出一种基于信息熵和k-means聚类算法的动态聚类方法，该方法首先通过熵值法对聚类对象赋权的方式来修正对象间的距离函数，利用初始聚类的赋权函数值选出质量较高的初始聚类中心，优化了算法的初始化过程，并基于此提出了异常检测算法。实验证明，我们改进后的 k-means算法具有更准确更高效的聚类效果和更好异常检测能力。

参考文献：

[1]Jia G，Cheng G，Gangahar D M，et al.Traffic anomaly detection usingk-means clustering[J]，40(6)：403-410(2017).

[2]Agrawal S，Agrawal J.Survey on Anomaly Detection using Data MiningTechniques☆[J]. Procedia Compmer Science，60(1)：708-713(2015).

[3]Joseph S R，Hlomani H，Letsholo K.Data Mining Algorithms：An Overview[J].Neuroscience， 12(3)：719-43(2016).

[4]Lee W.Applying data mining to intrusion detection[J].Acm SigkddExplorations Newsletter， 4(2)：35-42(2002).

[5]Preeti Arora，Deepali，Dr，Shipra Varshney.Analysis of K-Means and K-Medoids Algorithm For Big Data☆[J].Procedia Computer Science，78：507-512(2016).

[6]Celebi M E，Kingravi H A，Vela P A.A comparative study of efficientinitialization methods for the k-means clustering algorithm[M].PergamonPress，Inc(2013).

[7]Han Zui-jiao.An Adaptive K-means initialization method based ondata density[J].Computer Applications and Software，3t(2)：182-187(in Chinese)(2014).

[8]Zuojin，Chen Ze-mao.Anomaly Detection Algorithm Based on ImprovedK-means Clustering[J].Compmer Science，43(8)：258-261(in Chinese)(2016).

[9]Liang J，Shi Z，D.L I，et a1.Information entropy，rough entropy andknowledge granulation in incomplete information systems[J].InternationalJournal of General Systems，35(6)：641-654(2016).

[10]Qian P，Jiang Y，Deng Z，et al.Cluster Prototypes and FuzzyMemberships Jointly Leveraged Cross-Domain Maximum Entropy Clustering[J].IEEETransactions on Cybemetics， 46(1)：181(2016).

发明内容

本发明提供一种基信息熵聚类的异常检测算法，该方法将数据集平均分成比K值多的数据块，进而使用熵值法得到每个数据块的目标价值函数，选取前k个目标价值函数值最小的数据块对应的质心作为初始聚类中心，利用熵值法保证了初始聚类中心选取的高效性，并在此基础上提出了异常检测的方法。如图1所示，本发明公开的基于信息熵聚类的异常检测算法，包括以下步骤：

步骤1)确定初始聚类中心个数K，聚类函数精度ε

步骤2)设置初始聚类准则函数值J_o＝0，数据集中每个数据点x的初始异常度Abn_x＝0；

步骤3)将数据对象平均分成k₁(k₁＞k)个子集，从各个子集中随机选出一个数据对象，并将其作为聚类种子中心，扫描数据集合，根据其与各聚类中心的相似度(赋权后的欧氏距离)，将其归于其最相似的簇中，形成k₁个初始类簇；

步骤4)计算k₁个聚类的σ_i，并按照σ_i值递增顺序排序，选取前k个σ_i值对应的质心作为初始聚类中心c_j；

步骤5)计算所有数据集中所有数据点和各个聚类中心的欧式距离其中，i＝1，2，...，n且j＝1，2，...，K，m代表数据集的维度。对于数据点x，若c_j使得D(x_i，c_j)＝minD(x_i，c_j)，j＝1，2，...，K，则将点x划分到c_j所代表的簇；

步骤6)在形成的K个类簇中，若属于该簇的数据点x与该聚类簇中心距离大于平均距离，即其中N_j是c_j代表簇拥有数据点的总数，则Abn_x++；

步骤7)若Abn_x≥3，则判断x为异常点，将其从数据集中剔除，并入异常集U中；

步骤8)判断聚类准则函数

是否满足收敛条件[J′-J|≤ε(J是上次迭代聚类准则函数，J′是本次聚类准则函数值)，若不满足，转步骤9)继续迭代。若满足收敛条件，则算法结束，输出各个类簇和异常点集合U；

步骤9)重新计算各类簇的聚类中心：

然后转步骤5)，N_j是c_j代表的簇中拥有的数据点总数。

本发明的有益效果是：针对传统K-means聚类算法随机选择初始聚类中心易导致聚类结果陷入局部最优的问题，本发明的异常检测算法基于熵值法，利用信息熵选取质量较高的初始聚类中心，能够有效避免陷入局部最优的问题，并在算法迭代的过程中实现了异常检测的功能。实验证明该方法在聚类效果和异常检测能力上均高于传统K-means算法。

附图说明

图1为本发明基于信息熵聚类的异常检测流程图。

具体实施方式

下面结合附图，对本发明提出的一种基信息熵聚类的异常检测算法进行详细说明。

如图1所示，本发明中提出的基于信息熵聚类的异常检测算法，包括以下步骤：

步骤1)确定初始聚类中心个数K，聚类函数精度ε

步骤2)设置初始聚类准则函数值J₀＝0，数据集中每个数据点x的初始异常度Abn_x＝0；

步骤8)判断聚类准则函数

步骤9)重新计算各类簇的聚类中心：

然后转步骤5)，N_j是c_j代表的簇中拥有的数据点总数。

下面讲述本发明所进行的实验过程及结果。

实验主要分为两部分，第一部分检验改进后K-means算法的聚类性能，主要评价指标有：对初始聚类中心选取的合理性、迭代次数和聚类准确率；第二部分分析基于改进聚类的异常检测算法在异常检测方面的性能，主要性能评价指标有：对异常数据的检测率、误报率和算法的平均运行时间。

数据样本数据集合均来自UCI机器学习数据库，主要包含Iris数据集、Ecoli数据集、Yest 数据集，这三个数据集的维数和规模依次增大。本实验采用聚类函数收敛精度ε为0.25，Iris、 Ecoli、Yest三个数据集对应的K值分别为3，8，10。

针对传统K均值算法改进的算法有很多，如基于模糊聚类的FCM算法、K-mean++算法、 MinMax K均值算法等。本发明的实验选择以下三种算法作为对比：原K-means算法、MinMax K均值算法以及本文提出的改进算法。

为了验证算法选取的初始聚类中心的合理性，实验采用选取初始聚类中心之后的第一次聚类准则函数J₁来判定。在算法迭代前，若J₁越小，说明初始聚类中心越靠近真实聚类中心，选取越合理。同理，迭代次数越少，聚类准确率越高，算法越高效。

表1传统K-mean算法与本发明算法的聚类性能对比表

表2 MinMax K均值算法与本发明算法的聚类性能对比表

实验证明，在聚类性能方面，与原K-mean算法相比，本发明的改进算法是通过熵值法选取的初始聚类中心，能够更加接近真实的类簇中心，因为改进算法的初始聚类准则函数值远小于原算法。而且初始聚类中心的合理选择也使算法的迭代次数减少，加速了算法的收敛。最终，改进算法的聚类准确率也远高于原算法。与MinMax K均值算法相比，由于MinMax K 均值算法侧重于初始聚类中心的均匀分布，因此该算法能够迅速达到局部最优解，第一次聚类准则函数J₁和迭代次数方面都优于本文改进算法，但聚类准确率不如本文算法，且在处理高维和大规模数据集时，本文改进算法的性能明显优于MinMax K均值算法。

本实验中异常检测的性能分析主要侧重于算法对数据集异常检测的检测率、误报率和平均运行时间。通过在3种不同维数和规模的数据集中人工加入一定比例的异常数据后再对算法进行测试。实验结果如表3、表4。

表3原算法与本发明算法的异常检测性能对比表

表4 MinMax K均值算法与本发明算法的异常检测性能对比表

在异常检测方面，与原K-mean算法相比，无论是在检测率还是误报率方面，改进算法都优于原算法；但是在算法的平均运行时间方面，由于改进算法花费较多时间在初始中心的选择上，故算法平均用时不如原算法。由于原算法选择聚类中心的随机性，导致算法可能选择异常点或其附近的点作为初始聚类中心，从而使聚类结果产生较大误差，因此改进算法在误检率方面明显优于原算法。与MinMax K均值算法相比，改进算法用时偏多。但MinMax K 均值算法运行得到的结果并非最优结果，所以在检测率和误检率方面，该算法性能低于改进算法。

综上所述，以上实施例仅用以说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基信息熵聚类的异常检测算法，其特征在于，包括以下步骤：

步骤1)确定初始聚类中心个数K，聚类函数精度ε

步骤8)判断聚类准则函数

是否满足收敛条件|J′-J|≤ε(J是上次迭代聚类准则函数，J′是本次聚类准则函数值)，若不满足，转步骤9)继续迭代。若满足收敛条件，则算法结束，输出各个类簇和异常点集合U；

步骤9)重新计算各类簇的聚类中心：

然后转步骤5)，N_j是c_j代表的簇中拥有的数据点总数。

2.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤1)中，跟传统K-means聚类算法一样，本发明提出的算法仍需要根据实际经验提前确定聚类的个数K，以及判断聚类结果是否收敛的精度ε。

3.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤2)中，设置每个数据点x的初始异常度Abn_x＝0，其作为后面判断该数据点是否为异常点的重要依据。

4.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤3)中，将数据集随机平分，能够有效避免初始聚类中心的选择陷入局部最优的可能；

根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤4)中，同属于T_j组的n_i个数据对象x_i(i＝1，2，...，n_i)的标准差σ定义为由此可以得到赋权类别目标价值函数

σ_i表示第i类的赋权标准差；|T_j|是T_j所含数据对象的个数。上式可知σ_i的值越小，类内数据对象相似度越大，数据对象越密集，其所在类的质心越能体现分类决策面。

5.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤5)中，在已经选出K个初始聚类中心的前提下，进一步将数据集中的点根据欧氏距离分配到离得最近的初始聚类中心所代表的类中，此过程跟传统K-means聚类算法的过程基本一致。

6.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤6)中，定义某个数据对象x与其所在的类簇的中心的距离大于平均距离，则将初始异常度Abn_x++，作为判断是否为异常点的依据；

7.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤7)中，经过多次迭代之后判断数据对象x的初始异常度Abn_x是否大于等于3，若是，代表该数据对象是异常点，否则直接执行后续步骤。

8.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤8)中，根据本次迭代结果的聚类准则函数和上次的差值是否小于等于给定的聚类精度判断聚类结果是否已收敛，若未收敛则需要执行步骤9)重新确定聚类中心进而重新迭代。

9.根据权利要求1所述的基于信息熵聚类的异常检测算法，其特征在于：所述步骤9)中，在当前类簇中取均值点作为新的聚类中心以便进行下一轮聚类迭代。