CN115208651A

CN115208651A - 基于逆习惯化机制的流聚类异常检测方法及系统

Info

Publication number: CN115208651A
Application number: CN202210793836.6A
Authority: CN
Inventors: 肖如良; 朱维富; 邹利琼; 张仕
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-18
Anticipated expiration: 2042-07-07
Also published as: CN115208651B

Abstract

本发明涉及一种基于逆习惯化机制的流聚类异常检测方法及系统，该方法包括以下步骤：（1）对数据进行逆习惯化处理；（2）初始化学习模型；（3）寻找最佳微簇；（4）更新微集群；（5）移除异常微簇；（6）构建宏簇集群。该方法有利于提高流聚类异常检测的速度和有效性。

Description

基于逆习惯化机制的流聚类异常检测方法及系统

技术领域

本发明属于数据流异常检测技术领域，具体涉及一种基于逆习惯化机制的流聚类异常检测方法及系统。

背景技术

对具有海量、高维、高速传输特性的数据进行异常检测主要面临着两个挑战。第一个就是在有限的内存空间无法存储无限数据问题，这是因为数据流的传输是无限传输，在有限内存中无法存储全部数据。第二个就是正常数据与异常数据本身之间不形成显著的区分问题。面对上述问题，目前已有的数据流异常检测方法总体可以分为三类，分别为基于密度的异常检测方法、基于距离的异常检测方法、基于流聚类的异常检测方法。

基于密度的方法主要原理就是通过假设正常数据是分布在密集区域当中，而异常数据是分布在低密度区域当中。慕尼黑大学的MarkusM.

等人提出了局部异常值因子(简称LOF)算法，它是第一个基于密度的异常值检测算法之一。该方法的主要重点是观察数据点的离群程度，也就是计算LOF分数。但是这种方法需要谨慎地应用有效的索引，如果没有有效的索引，应用程序的搜索时间复杂度将会达到O(n²)。因为这些缺点，ErichSchubert等人提出了一个简化版本的LOF算法(简称SimplifiedLOF)。该算法利用KNN距离代替LOF的可达距离，虽然该算法显示出改进的性能，但是它的计算复杂度与LOF是相似的。中国香港大学的Tang等人在前两者的基础上，提出了基于连接的离群因子(简称COF)，该方法使用链接距离作为最短路径来估计近邻点的局部密度，而LOF使用欧氏距离来选择K-最近邻。但是这种方法的缺点是对数据分布的间接性假设会导致不正确的密度估计。

基于距离的异常检测方法通过计算点与点之间的距离来检测异常值。韩国科学技术先进学院贝尔科技公司的SridharRamaswamy等人提出了一种基于单元的异常检测算法，该算法是最早提出在大数据集中检测异常值的技术之一。该方法采用第K个最近邻的方法找到每个候选空间索引结构的最近邻，使用了KD树、X树和R树，通过查询每个示例中最近K个点的索引结构来完成；但是该方法面临的问题是索引结构随着维数的增加而分解。北达科他州立大学的DongmeiRen等人提出了的改进版本，该算法应用修剪方法和“近邻”标记技术来检测大数据集中的异常值。卡拉布里亚大学的FabrizioAngiulli等人提出一种新颖性想法，数据流中基于距离的离群值查询，它用于对数据流中的异常值进行一次性查询。该方法与其它方法不同的是Fabrizio等人提出了三种流数据异常挖掘(简称STORM)算法来使用基于距离的方法检测数据流中的异常值。第一个基于计算精确的异常查询，另外两个专注于检索查询的近似结果。精确查询算法使用流管理器和合适的数据结构。但是该算法的一个缺点是存储所有窗口样本的成本十分昂贵，因此不适合大规模数据，因为它无法放入内存当中。

基于流聚类的异常检测算法使用特殊的数据结构来保持输入数据的概要，可以解决无限存储问题。并且使用时间窗口模型来解决流数据中以前数据实例的过时处理问题。威斯康星大学麦迪逊分校的TianZhang所提出的平衡式简化聚类层次结构(简称BIRCH)算法是最早应用于流聚类的算法之一。它将维护的有关集群的信息减少为仅存储在所谓的集群特征(简称CF)中的几个汇总统计信息。IBM公司的CharuC.Aggarwal从BIRCH中扩展了CF，提出了一种集群进化数据流的框架(简称CluStream)算法，它允许在不同的时间范围进行聚类，而不是在整个数据流上进行。美国华盛顿大学的YixinChen等人提出了基于密度的实时流数据聚类分析(简称D-Stream)算法，该算法使用了固定的网格结构区分了三种类型的单元：密度单元、稀疏单元和权重介于其它两种类型之间的过度单元。该算法采用密度衰减技术来捕获数据流的动态变化。利用衰减因子、数据密度和聚类结构之间复杂的关系，该算法能够高效、有效地实时生成和调整聚类。

流聚类技术被证明是一种十分有效的流数据异常检测算法，并且已经成功应用。它通过特殊的数据结构解决了在有限内存中存储无限数据问题，并且通过滑动窗口以及微聚类形式解决了高速传输数据流的实时响应问题。

近年已有很多学者提出了许多很好流聚类异常检测技术。这些算法并不需要任何先验知识，对于不同的数据类型具有鲁棒性，并且采用微聚类形式使得它具有增量特性以及在有限空间中存储无限数据，这对于异常检测来说是一种非常有用的技术。例如CluStream、DenStream、HDenStream、DBSTREAM等等。这些算法很好的解决了数据流异常检测以下几个问题：(1)在有限的内存空间存储无限数据问题；(2)利用微集群结构的聚类进一步的放大了异常与正常数据之间的区别，解决了正常数据与异常数据本身之间不形成显著的聚类问题。但是流聚类异常检测模型仍然面临着以下三个挑战：

(1)聚类的目标就是同一集群的高聚合性，不同集群之间的低耦合性，但是有些异常数据在不显著情况下会被强制分为一个大的正常集群中，因此当前流聚类检测模型没有对这部分异常检测进行优化。

(2)目前大多数的流聚类算法中，新的数据点找到所属微簇的过程都是与当前所有微集群的已有微簇进行逐个搜索，并且大量的数据进行了这样的冗余计算，这种O(N^2)的计算复杂度无法实时有效的表示出当前流中观察到的模式，因此计算效率是一个很大的挑战。

(3)由于数据流的高维特性，“维度诅咒”的问题在影响聚类质量的同时，有些与正常行为毫不相关的特征却影响着正常数据的正常归类。

发明内容

本发明的目的在于提供一种基于逆习惯化机制的流聚类异常检测方法，该方法有利于提高流聚类异常检测的速度和有效性。

为实现上述目的，本发明采用的技术方案是：一种基于逆习惯化机制的流聚类异常检测方法，包括以下步骤：

(1)对数据进行逆习惯化处理；

(2)初始化学习模型；

(3)寻找最佳微簇；

(4)更新微集群；

(5)移除异常微簇；

(6)构建宏簇集群。

进一步地，步骤(1)的具体实现方法为：

当数据流传入数据时，采用滑动窗口对数据进行分块处理，每一块数据用D_block表示；

将数据块D_block进行均值归一化处理；

为了让相似性数据得到增强，采用相似性数据增强函数对数据进行处理；

在数据得到增强之后，通过赢者通吃策略稀疏化数据值，以提升计算效率；

输出增强数据块D_enblock。

进一步地，步骤(2)的具体实现方法为：

输入增强数据块；

判断潜在微集群是否为空，是则使用K-means++算法创建初始微集群，并转下一步，否则直接转下一步；

遍历初始微集群，初始化每个微簇结构，将每个初始化完成的微簇移入微集群当中；

返回构建好的新的微集群。

进一步地，步骤(3)的具体实现方法为：

初始化一个临时微簇结构；

在潜在微集群为新数据寻找所属最佳微簇；

如果潜在微集群不为空，则将新数据点映射到最佳所属潜在微簇中，并返回临时微簇；否则在缓冲微集群为新数据寻找所属最佳微簇，并转下一步；

如果缓冲微集群不为空，则将新数据点映射到最佳所属缓冲微簇中，并返回临时微簇；否则在核心微集群为新数据寻找所属最佳微簇，并转下一步；

如果核心微集群不为空，则将新数据点映射到最佳所属核心微簇中，并返回临时微簇。

进一步地，步骤(4)的具体实现方法为：

如果临时微簇属于潜在微集群，判断数据点映射到潜在微簇的核心区还是壳区，如果映射到核心区，则更新核心区数据点数；如果映射到壳区，则更新壳区数据点数；

当潜在微簇所包含的数据点数大于阈值时，将临时微簇移入核心微集群当中；如果临时微簇属于缓存微集群，说明该微簇是之前已经与集群存在关系，现在又重新关联起来的微簇，则将该微簇进行激活，即将其权重重新置为1，移入核心微集群当中；

在临时微簇已经成为核心微集群的情况下，如果数据点映射的区域是壳区，则采用遗忘机制递归更新微簇半径；并且在数据点映射到微簇壳区的情况下，更新微簇的中心位置。

进一步地，步骤(5)的具体实现方法为：

循环遍历核心微集群，减少当前核心微簇的权重；如果当前核心微簇的权重小于0，则断开当前核心微簇与其它微簇的联系，将该微簇移入缓存微集群中，并将其权重置为初始值的一半；否则转下一步；

循环遍历缓存微集群，减少当前缓存微簇的权重；如果当前缓存微簇的权重小于0，则断开当前缓存微簇与其它微簇的联系，永久移除当前缓存微簇；否则转下一步；

循环遍历潜在微集群，减少当前潜在微簇的权重；如果当前潜在微簇的权重小于0，则断开当前潜在微簇与其它微簇的联系，永久移除当前潜在微簇。

进一步地，步骤(6)的具体实现方法为：

循环遍历核心微集群，计算更新的微簇与其它核心微簇的距离，找到与更新的微簇有关系的其它可达微簇；

将其它可达微簇添加到当前更新微簇的索引中；将当前更新微簇添加到其它可达微簇的索引中，即实现微簇之间的关联；

更新得到改变的微集群，进行重新关联，得到宏簇集群。

本发明还提供了一种基于逆习惯化机制的流聚类异常检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：提供了一种基于逆习惯化机制的新型流聚类异常检测方法及系统，该方法及系统利用逆习惯化增强函数加强了同一簇内数据的高聚合性，以及不同簇间的低耦合性；通过“赢者通吃”策略在保证数据空间相对位置不变的情况下进一步缓解了“维度灾难”问题；通过新颖的宏簇优先映射方案降低了数据映射的计算复杂度；并且采用了缓冲机制更好的区分了数据是发生了概念漂移还是变为了异常数据，进一步的增强了异常检测能力。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例中数据逆习惯化处理流程图。

图3是本发明实施例中初始化学习模型流程图。

图4是本发明实施例中寻找最佳微簇流程图。

图5是本发明实施例中更新微集群流程图。

图6是本发明实施例中移除异常微簇流程图。

图7是本发明实施例中构建宏簇集群流程图。

图8是本发明实施例中本方法与其它算法在不同数据集上的处理时间。

图9是本发明实施例中不同算法对于噪声的敏感度。

图10是本发明实施例中随着时间推移，不同算法所产生的微簇数量。

图11是本发明实施例中相似度增强测试结果。

图12是本发明实施例中不同半径对于聚类精度以及纯度的影响。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

下面先对本发明涉及到的相关概念进行说明，在此基础上，再详细阐述本发明的实现方案。

1、流聚类

本发明采用的数据结构沿用了目前较为流行的数据流聚类算法所使用的结构，采用了微簇和宏簇两种概要结构的形式总结了聚类信息。微簇不需要存储数据样本信息，只需要记录总体数据样本的概要信息；相互连接的微簇组成单个宏簇，所有的宏簇集群构成了整个聚类族图。

定义1(微簇)：设mc表示一个微簇，它的结构由mc＝(KN,SN,C,R,W,L,G,GC)元组构成，其中KN为核心区样本点数；SN为壳区样本点数；C为单个微簇中心，它由所有样本点数均值构成；R是微簇半径，该值选取与大多数传统流聚类方式不同，它采用了一个动态更新机制(见公式1)，时刻更新微簇半径；L为一个列表，它记录着与当前微簇有交叉连接关系的其它微簇；G为当前微簇所属的宏簇编号，形成交叉连接的微集群构成宏簇，单个局部密度N(见公式2)大于阈值的微簇构成一个宏簇；GC为宏簇中心，即相互交叉连接形成的微簇集群中心，它由所有微簇中心均值构成。

其中R_t表示t时刻微簇的半径大小，θ是衰减参数，它是单位时间内到达的数据点数，R_max表示微簇半径最大的上界值。

N＝KN+SN (2)

定义2(阈值)：构建一个正常微簇的最小样本点数，用δ表示。

定义3(核心微簇)：核心簇为当前局部密度大于阈值并且权重W大于0的微簇集群，它用mc_core表示。它存储在主内存当中，是唯一参与聚类族图构建的微集群。

定义4(潜在微簇)：潜在簇为当前局部密度小于阈值但是权重W大于0的微簇集群，它用mc_potential表示它用它存储在缓冲区当中，代表着当前微簇数据样本点不足以成为核心微簇，但在未来一段时间内由于新数据的映射有可能成为核心微簇。

定义5(离线缓冲微簇)：离线缓冲微簇是由核心微簇演化而来，它用mc_buffer表示。随着时间的推移，当某些核心微簇长时间没有新的数据进行映射时，其权重W会不断进行衰减(权重衰减函数见公式3)，当某个微簇权重W<0时，则该微簇会从核心微簇中进行移除，并且进入离线缓冲微簇当中。但是在未来某一个时刻离线缓冲簇当中的某一微簇得到了新的数据点更新，则该微簇会从离线缓冲簇中重新回归核心簇集群当中。

其中dis(X_t,C_t-1)是在t时刻新数据到所属最佳微簇中心的距离值，所有权重W≤0的核心微簇都无法参与聚类。

在公式4中，

是t时刻单个微簇的中心位置。其中D为数据的维度，

为t时刻映射到该微簇的最新数据，微簇中心会随着时间的推移不断的进行改变。

在上述定义当中，微簇中心是通过计算壳区域SN样本点数的平均值，而不是通过计算整个微簇样本点N的平均值，这是因为他们通过限制微簇的移动来阻止微簇无休止地跟随数据流的漂移。在聚类过程中，只有核心簇参与到整个宏簇图形结构构建当中，对于离群簇则会进行移除操作；只有这样才能够不断的更新聚类簇图，并且达到实时异常数据的检测作用。

2、果蝇习惯化

果蝇习惯化算法来源于果蝇嗅觉回路算法，其中果蝇嗅觉回路算法以果蝇的嗅觉神经回路为背景，利用稀疏二值矩阵模拟果蝇的气味神经元投射过程，并且利用“赢者通吃”策略模拟了果蝇的气味识别。该算法以一种新颖性思路实现了LSH的相似性搜索问题。整个工作过程主要分为三步：第一步是均值归一化的数据预处理，并且生成了一个D维稀疏二值矩阵M(如公式5)，该矩阵包含m行d列，其中d是单个数据的维度，m的值是d的40倍左右，并且该矩阵取值遵循伯努利分布概率X～B(n,p)取值。

第二步将生成的矩阵M与给定的向量X＝{x₀,x₁,……x_d}进行矩阵乘法运算，这样得到了数据集在新的空间维度的投影值Y＝{y₀,y₁,…,y_m},y_i∈R^m(见公式6)。

Y＝M×X (6)

第三步采用“赢者通吃”策略。在经过矩阵投影之后，为了防止训练过拟合，对于每一个1≤i≤m的矩阵数据y_i使用阈值激活函数(见公式7)来过滤数据投影之后的噪声。

其中，s_i是投影矩阵经过阈值激活函数之后选取的哈希值。

一直以来，人类在刚接触一种新鲜事物或者来到一处陌生地方时，大脑都会处于一种活跃状态；然而随着接触该类事物的时间不断延长，这种刺激会慢慢的递减，直到忽略，也就是我们俗称的习惯。正是利用这个特点，果蝇习惯化算法向我们讲述了习惯化是如何通过减去相似性背景，突出不同特征的方式来增强相似性气味的区分，。该算法沿用了果蝇神经回路机制，并在这一机制之上增加了习惯化机制。主要分为三步：第一步是受体神经元(ORNs)到投射神经元(PNs)的归一化处理，与果蝇不同的是习惯化算法在这一步上利用侧向抑制神经元(LN)对PNs的抑制增加了一个习惯化抑制函数，第二步是投射神经元(PNs)到凯尼恩细胞(KCs)的稀疏矩阵投影，第三步是利用前对侧抑制神经元(APL)进行“赢者通吃”处理。

3、流聚类与习惯化的结合

流聚类的目标是将同一簇中的数据达到高内聚，不同簇之间达到低耦合。对于同一类数据来说，相似性特征占据着主导地位；在很多聚类算法的预处理部分，都有一个特征选择步骤，这一过程的最终目的就是为了选择数据的相似性特征，提高聚类质量。因此本发明在沿用习惯化算法中的抑制函数基础上推导出新的相似性数据增强函数(见公式9)。我们假设抑制性神经元的总激活量是一个常数l，并且假设l＝1；在新的数据到来之前，我们通过训练得到一个相似性背景数据PN(Si)。我们针对每一个从ORN输入的新数据都进行归一化处理，令x_i为PN的活性，那么x_i的定义如下：

如果数据s_i是某一集群中的相似性背景数据，那么让权重w_i随着时间的推移不断偏离s_i，形成一个“正向图”,接着从后面输入的数据中减去这个“正向图”,这样，相似性背景数据就得到了增强。为了实现这个效果，权重w_i更新规则为：

其中α∈[0,1]是习惯率，而β∈[0,1]是恢复率。

4、基于逆习惯化机制的流聚类异常检测

本发明采用了果蝇嗅觉回路机制缓解了维度灾难问题，并且进一步增强了同一族间的数据达到高内聚，不同族之间数据达到低耦合。在数据预处理部分，由于数据流的无限传输特性，对于该类数据的处理只能是按其输入的顺序单次扫描，并且无法进行随机访问。其中，滑动窗口一直基于一个事实：“用户总是对最近的数据感兴趣”，我们可以对少量的最近数据做细节分析，对于大量的历史数据，仅仅给出一个概要视图。这样我们可以使用很小的内存窗口，来处理大量的连续数据，在节约了内存的同时，也达到了数据缓冲的作用。在微簇集群构建阶段，在新的数据到来之时，需要找出该数据所属的最佳微簇；本发明采用了一种宏集群优先寻找的策略，在寻找到所属宏簇之后再从该宏簇所属微簇集群中找到所属最佳微簇。为了进行实时检测，随着数据流的不断传输，还需要对微簇进行更新以及对过时或者异常微簇进行移除操作；并且为了防止当前失效微簇在未来一段时间内又与聚类相关，所以增加了一个重新学习的过程。

如图1所示，本实施例提供了一种基于逆习惯化机制的流聚类异常检测方法，包括以下步骤：

(1)对数据进行逆习惯化处理；

(2)初始化学习模型；

(3)寻找最佳微簇；

(4)更新微集群；

(5)移除异常微簇；

(6)构建宏簇集群。

当数据流传入数据时，本发明采用了滑动窗口模型对数据进行分块处理，每一块数据我们用D_block表示。然后，将数据块D_block进行均值归一化处理，并且为了让相似性数据得到增强，采用相似性数据增强函数(见公式(9))进行处理。在数据得到增强之后，通过“赢者通吃”策略稀疏化数据值，有助于提升算法的计算效率。

数据逆习惯化处理的实现算法如算法1所示，其实现流程如图2所示。

在聚类集群还在初始阶段时候，最频繁发生的操作就是新的微簇初始化过程。但是在流聚类最开始阶段，也就是在第一个数据块D_init传输进来之前，内存中是没有任何微簇的；所以为了快速的构建一个学习模型，本方法利用了K-means++聚类算法产生了K个簇来初始化学习模型，即V＝{V₁,V₂.....V_k}。这些K个初始簇并不存储原生数据，而是记录每个集群V_i中所有数据的概要信息，即应用定义1中的微簇结构mc来表示。该微簇结构维持了整个集群的特征，每一个微簇V_i都具有增量性，它可以在不增加内存的情况下添加新的数据样本，并且通过微簇结构的更新与其它微簇进行合并以及移除操作。

初始化学习模型的实现算法如算法2所示，其实现流程如图3所示。

在微集群构建阶段，t时刻的数据点Xi经过反习惯化增强模型处理之后需要寻找其所属最佳微簇。其中数据点X_i在映射过程中可能会映射到以下三种类型微集群当中：

(1)核心微集群

(2)潜在微集群

(3)离线缓存微集群

寻找的顺序依次是在潜在微集群中寻找，如果找不到，则在离线缓存微集群中寻找，如果离线缓存微集群中寻找失败，则在核心微集群中寻找；并且数据点Xi在寻找最佳微簇时，数据点X_i首先尝试计算与每个宏集群中心的欧式距离，找出其中最小距离所对应的一个宏簇，使用公式(10)以及公式(11)计算。

d_ij＝||X_i-mc_j.GC||₂ (10)

GC_i＝argmin_{i∈(1,2....n)}d_ij (11)

采用这样的树形搜索策略避免了数据点Xi与所有微集群进行冗余计算，在微簇搜索过程中计算复杂度从O(N²)降到了O(N log N)。在找到所属最佳微簇GC_i之后，再计算该数据点与属于宏簇GC_i中的微簇集群的欧氏距离，如果距离d小于微簇半径R，那么将这一数据映射到现有的微簇当中，使用公式(12)进行计算。

d(X_i,C)<R (12)

寻找最佳微簇的实现算法如算法3所示，其实现流程如图4所示。

在t+1时刻，如果新的数据点X_i映射到的微簇是在t时刻已经存在的微簇，那么该微簇的概要信息需要得到更新；如果是不存在的微簇，则需要创建一个新的微簇。在算法3中我们已经获得了一个包含X_i的微簇mc_temp，首先会判断这一微簇是属于哪个类型的微集群。

如果mc_temp属于潜在微集群mc_potential，那么数据点有可能映射到潜在微簇的核心区域或者壳区域；如果映射到核心区域，那么需要更新核心区数据点数。如果映射到壳区，那么就需要更新mc_potential的壳区数据点数。当潜在微簇mc_potential所包含的数据点数大于阈值时，需要将微簇mc_temp移入核心微集群当中。如果mc_temp属于离线缓存微集群，说明该微簇mc_temp是之前已经与集群存在关系，现在又重新关联起来的微簇，那么需要将该微簇进行激活，即将其权重重新置为1，移入核心微集群当中。在mc_temp已经成为了核心微集群情况下，如果数据点X_i映射的区域是壳区，那么它的微簇半径R_t+1需要使用遗忘机制进行递归更新，采用这种机制的原因是因为内核区域中的数据点对增加半径的影响很小，并且如果当前数据点半径足够大，数据点扩展的则越远，而微簇半径越近的话，数据点越密集；此外定义数据点与微簇边缘的接近度为[{2d(X_t+1,C_t}/R-1，其中半径每增加一个遗忘因子即1/θ数据与微簇增加一个接近度。并且在数据点X_i映射到微簇壳区的情况下，微簇的中心位置需要得到更新；因为核区域的数据点越多，说明数据之间的关系越紧密，通过壳区域的数据点来更新微簇中心，可以限制微簇随着数据流的移动而无限制的进行漂移操作。由于微簇得到了新的数据点的映射并且该数据点是映射到核心区，那么该微簇的权重需要得到更新；这里只有数据点映射到微簇核心区才需要更新权重的原因是微簇的能量是跟数据点的距离成反比的，数据点越靠近，能量越大，数据点相距越远，能量越小。

更新微集群的实现算法如算法4所示，其实现流程如图5所示。

在含有新数据点的微簇得到更新之后，需要对内存中其它没有得到数据映射的微簇进行权重更新操作，这样才能使得整个流聚类异常检测满足实时更新特性。对于核心微集群来说，核心微簇权重小于0，表示该微簇与当前集群暂时无关，需要将该微簇移入离线缓存微集群当中，并且将其权重置为初始值的一半。对于离线缓存微集群来说，离线缓存微簇权重小于0，表示该微簇已经长时间得不到新的数据点更新，与聚类已经毫无关系，已经属于会对当前集群造成影响的异常微簇，需要进行永久移除，因为离线缓存微簇是来自核心微集群。对于潜在微集群来说，权重小于0，表示这些微簇本质上就是含有较少信息的稀疏异常微簇，对于集群来说毫无作用；并且会对聚类产生负面影响，增加内存消耗，所以这部分异常的微簇也一样要永久移除。

移除异常微簇的实现算法如算法5所示，其实现流程如图6所示。

在微聚类过程中，宏集群聚类经常是穿插进行。宏聚类的过程和其它基于密度流聚类的原理类似。由上述算法可知，当新的数据点映射进来之后，会影响到整个微集群结构；它会发生以下几种情况：

(1)潜在微簇移入了核心微集群当中；

(2)核心微簇的中心需要进行更新；

(3)核心微簇长时间没有得到更新，移除到了离线缓存微集群当中；

(4)离线缓存微簇得到了激活，移入了核心微集群当中参与聚类。

在微簇得到更新的同时，有可能会导致微簇之间相邻关系的改变；例如在t+1时刻当某一微簇得到更新后，在t时刻与其毫无关系的微簇此刻变得有关系，那么我们需要将这个更新的微簇并入某一个宏簇集群当中。

构建宏簇集群的实现算法如算法6所示，其实现流程如图7所示。

5、实验与结果分析

下面对本发明所提方法(ASC)的验证实验进行实验设计。

本实验的硬件环境为操作系统Window1064位,处理器Inter(R)Xeon(R)Sliver4114CPU@2.20GHz2.19GHz(2处理器)，内存128GB；实验所使用的所有代码使用Python3.8实现。将本发明提出的流聚类异常检测算法应用到3个真实数据集以及仿生合成数据集ForestCover(FC)、EM、FDISFANCE上，评估算法的整体性能。

5.1数据集

本实验采用了滑动窗口的形式在三个数据集上进行了动态模拟化实验，这三个数据集来自于真实世界以及仿生合成得到。

(1)ForestCover(FC)：数据集包含581012个实例，每个实例包含着54维向量，它是美国地质调查局预测森林覆盖类型数据集。

(2)EM：数据集包含着1000000条实例，每个实例包含着16维向量，它是气体传感器阵列数据集。

(3)KNADDS：数据流包含着27170754条数据集，每个数据集115维向量，它是网络安全数据集，包含针对基于IP的商业监视系统和物联网网络的九种不同网络攻击。

5.2对比算法

本实验采用的对比算法如下：

(1)CluStream:2003年CharuC.Aggarwal等人提出了CluStream算法。该算法采用了倾斜式时间窗口对不同时间粒度上的数据进行聚类，采用联机和脱机两个阶段来进行聚类，被后续许多流聚类算法所采用；并且有效的删除异常微集群结构。

(2)DenStream:2006年Cao等人提出了DenStream算法。该算法采用了传统的两阶段聚类方法，解决了在线聚类和离线异常值检测问题；通过判断微簇的权重以及密度阈值来判定一个微簇是否是真正的微簇。

(3)MCOD:2011年MariaKontaki等人提出MCOD算法。该算法利用了微聚类的方式有效的减少数据样本之间的距离计算以及解决了属于同一簇内的数据存储问题，并且在每个滑动窗口中都进行了异常值检测。

(4)M-MCOD:2019年LuanTran等人在MCOD的基础上提出了M-MCOD算法。该算法克服了MCOD中一个数据点只属于一个微集群以及微集群数据分散过多的缺点，并且相比于MCOD减少了内存消耗。

(5)CEDAS:2016年RichardHyde提出了CEDAS算法。该算法是一种基于完全在线的算法，该算法采用了微簇结构进化的方法将演化数据流聚成任意形状的簇，并且及时剔除异常微簇。

5.3实验结果分析

试验1：测试不同算法之间的时间消耗状况

对于数据处理的及时响应问题一直是各类算法都不得不考虑的问题。为了探究本方法在持续高速传输的数据流中的响应速度，以及在不同衰减因子情况下的及时响应时间；本节实验通过跟踪算法处理每个滑动窗口中数据的平均处理时间这个指标来衡量每个算法的处理速度。在整个实验的过程中，本发明分别与当前具有代表性的基于微簇结构的异常检测算法如：CluStream方法、DenStream方法、MCOD算法、M-MCOD算法、CEDAS算法在两个不同维度的数据集上进行了对比。本发明在两个数据集FC以及KNADDS上对不同数据段的算法平均处理时间进行了测试，图8显示了本方法以及其它算法在不同数据集上平均处理时间。

如图8所示，本方法在数据流不断传输的情况下，整体平均处理时间是要低于其他基于微簇结构的异常检测算法。如图8a所示，在数据流传输的前期，由于样本数量的体量非常少，所形成的微簇数量也十分稀少；并且本方法在前期需要有一个果蝇回路机制的逆习惯化学习过程，所以在前期所消耗的时间会比其它算法要更高。但是随着数据量的增多，微簇数量的不断增多，MCOD以及M-MCOD这一类算法由于难以维护领域数据信息，数据处理速度在下降；CluStream算法、DenStream算法以及CEDAS算法在微簇数量足够多的情况下，新来的数据点需要在寻找整个聚类集群中的每个微簇结构，直到找到新数据点所属的最佳微簇。而本方法学习过程区域平稳状态，并且在新的数据寻找最佳微簇的时候本方法采用了宏簇优先映射策略，将寻找微簇所消耗的时间从O(n)降到O(logn)。从图8b可知，随着衰减因子的增大，单个样本点的处理速度也在下降。由权重衰减函数可以知道，衰减因子的跟微簇数量呈正相关关系；衰减因子的增大会导致微簇权重衰减的越慢，那么微簇数量自然会增多，从而增加了新数据点寻找所属最佳微簇的计算量。因此，衰减因子越大，数据点的平均处理时间会增强。

试验2：异常数据检测

聚类方法本身就是常用的异常检测方法。但是与其它异常检测方法不同的是，聚类通常是用来描述数据的分布以及行为，它将一些数据点稀疏且较小规模的集群定义为异常值。采用基于聚类的异常检测方法，它的性能取决于在聚类过程中该算法捕获正常数据的聚类结构方面的有效性。为此本节实验利用噪声敏感度这一指标来测试算法在不稳定数据流中的行为。为了能将静态数据集模拟出不稳定的数据流条件，本节实验通过将少量的噪声数据添加到整个数据集当中。测试算法的噪声敏感度需要两步计算，第一步是分别计算未添加噪点的数据集以及添加了噪点数据集分配到集群中的数据点数与在这一阶段算法处理的所有数据点数的百分比即数据的一个覆盖率。也就是说在一个时间段T之内，生成了K个核心微簇，且这一段时间传输了K_t个数据点，那么覆盖率计算方式如公式(13)所示。

其中mc_i表示第i个微集群的数据点数。

第二步是计算未添加噪点数据集的覆盖率与添加了噪点数据集覆盖率的差值，如公式(14)所示。

Noi＝(DC_pure-DC_noisy)×100％ (14)

我们在EM数据集上添加了15％的噪声点，分别测试了DenStream算法、CEDAS算法以及本发明提出的方法噪声敏感度。实验结果如图9所示。

从图9中可以看到，在数据流刚开始阶段，所有的算法识别出的噪声要比添加的噪声数量多出很多。这是因为对于刚开始阶段，数据量还十分的少，所形成的微簇都是稀疏的微簇，这些基于微聚类形式的异常检测算法都会将这部分数据定义为异常数据；从而在初始阶段，噪声敏感度会超出实际值。随着后面数据量的不断流入，微簇数量不断的增多，稀疏微簇会慢慢减少；本方法中的逆习惯化学习过程会趋于稳定状态，会将属于同一微簇内的数据分配的更加紧密；并且微簇半径会逐渐的递归到最佳半径，本方法所识别出的噪声数据会慢慢的回归到原始添加的噪声数量，相反其它算法对于有些噪声无法正确识别，导致整体噪声敏感度会比实际敏感度偏高；因此本实验证明本方法在噪声敏感度上有着优越的性能。

试验3：内存消耗实验

在面向大规模数据流的处理上，使用滑动窗口的方法是大部分算法最佳的选择。因为面对有限内存的计算机来说，它无法通过加载一次就将所有数据进行全部加载到内存当中；因此滑动窗口的大小决定着单位时间内有多少的数据加载到内存当中，并且算法的性能也决定着计算机为这部分数据需要分配多少内存。为了测试算法的内存空间消耗，本节实验在不同的数据集上设置了不同的滑动窗口大小对算法的内存消耗性能进行了评估。测试效果如图10所示。

如图10所示，随着滑动窗口大小的不断增加，所有算法的内存消耗在不断的增加；这是因为滑动窗口大小的增加，代表着每个滑动窗口中所传输的数据量在增大，从而算法所需的内存也在增加。在数据量较小的情况下，微簇集群中数据点数较少，算法之间的内存消耗是相差不大的；并且MCOD算法所需的内存消耗会更低。随着滑动窗口的增加，微集群中的数据量在不断增大，微集群数量也在不断增加；但是由于本方法中的微簇半径是会进行迭代更新的。在每个微簇不断得到新的数据点映射的情况下，微簇半径会达到一个最优值，并且一些过时的异常微簇会进行移除，内存中的微簇数量会得到一定的减少，从而内存消耗会减少。

试验4：相似性增强实验

为了验证在逆习惯化过程中，算法能够增强同一微簇内数据的相似性，不同簇间数据的低耦合问题，我们采用了Jaccard系数来进行验证。这里使用Jaccard系数来验证两组数据的相似性是因为余弦相似度方法虽然能够证明两组数据的相似性，但是在面对高维且稀疏度过高的数据来说，余弦相似度方法具有误导性。Jaccard系数弥补了这一缺点并且广泛用于衡量两组数据的相似度，它的所有结果值都限制在0到1之间。Jaccard系数的计算方法如公式(15)所示。

为了验证逆习惯化的增强性，我们抽取了20％的FC数据集进行测试，测试结果如图11所示。对于图11(a)来说，我们选取了属于同一标签中的数据来进行测试，数据之间的平均相似度维持在40％左右；但经过逆习惯化过程之后，整体数据的平均相似度维持在80％左右。这也证明了逆习惯化过程对于属于同一簇内的数据具有增强作用，保证了数据的高内聚效果。对于图11(b)来说，我们选择了属于不同标签的数据进行测试，数据之间的Jaccard系数在10％左右；在经过逆习惯化过程之后，Jaccard系数的变化几乎没有改变，但会有些许降低。这是因为在逆习惯化过程当中，逆习惯化函数对于某种模式学习完成之后，对于其它不相同的模式是保持一个相对稳定的状态，所以对于越不相似的数据其状态越稳定。我们往属于同一标签的数据添加了一些属于不同标签的混合数据，如图11(c)所示，在进行了逆习惯化之后，Jaccard系数会有所提升，即代表着数据的相似度进行了提升。这是因为逆习惯化过程在学习到某种模式之后，一些混合数据会被沉默，从而Jaccard系数会得到增强。

试验5：微簇半径对纯度和精度的影响

对于一个基于微簇结构的算法来说，由于庞大的数据量，会产生大量的微簇数量；那么微簇的半径就决定着该算法的一个性能，所以这一组实验的目的是为了研究本方法中微簇半径的大小对于整个聚类的一个影响。我们首先采用了纯度这一指标对算法进行评估。纯度是测量聚类质量的一个著名指标，这个指标的度量标准是占据一个簇的主导地位数据点的数量。纯度的计算方式如公式(16)所示。

其中K是所有的类别数，m是所有参与聚类的数据点数，m_i是类别i中占据主导地位的数据点数，m_ij是类别i中属于类别j的数据点数。并且这里采取平均纯度是为了降低误差性。

虽然纯度能很直观的反应出聚类的质量，但是随着时间的推移，数据量的不断传输会导致微簇数量的不断增加，会存在大量稀疏数据点的微簇参与聚类；这样可能会提高整个聚类的纯度。为了更好的解决这个问题，我们使用了精度这个指标来弥补这个缺陷。

精度的计算方式如公式(17)所示。

其中C_i表示第i个集群中的数据点数，

表示在C_i集群中占据主导地位的数据样本点数。

在这组实验中我们采用的数据集是KNADDS，并且抽取了其中的10％的数据，以便模拟出本发明算法的一个网络入侵攻击。我们分别选取了不同的微簇半径来测试所选取的微簇半径对于纯度的影响。实验效果如图12所示。从实验结果上可以知道，不同的微簇半径对于聚类的纯度产生了较大的影响。这是因为随着数据流的不断传输，微簇在持续的构建。当微簇半径设置较小时，会使原本属于同一个微簇的数据点被分割成两个微簇当中，在增加微簇数量的同时增加了正常数据被误判成异常数据；并且增加了内存的消耗。当微簇半径设置较大时，微簇数量的减少所带来的好处就是内存消耗的降低以及数据映射时间会明显加快；但是微簇半径过大也会使得两个属于不同微簇的数据被分配到同一个微簇当中，也可能出现处于边缘地带的异常数据被分配到核心微簇当中，进而导致聚类质量的降低。因此为了解决这个问题，本发明采用了两种策略来解决这个问题，第一个就是采用了递归更新微簇局部半径，第二个就是不仅仅依靠微簇数据点数来判断正常和异常微簇，还需要依靠权重来判断该微簇是否已经过时；这样更有效的降低了微簇半径对整个算法的影响。

本实施例还提供了一种基于逆习惯化机制的流聚类异常检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本发明针对大规模、高维度数据流异常检测问题，提出了一种基于逆习惯化机制的流聚类异常检测方法及系统，本实施例中通过使用三个数据集在处理时间、内存消耗、相似性验证、纯度、精度以及不同的参数测试分别验证了本发明的有效性。实验表明了本发明利用聚类算法在异常检测方面的高效性，并且引入了果蝇回路机制有效缓解了在聚类过程中“维度诅咒”的问题，表明了本发明可以向高维空间扩展的能力。在与其它算法进行对比的过程中，我们得出了高速聚类的重要性，也验证了所提出方法的有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于逆习惯化机制的流聚类异常检测方法，其特征在于，包括以下步骤：

(1)对数据进行逆习惯化处理；

(2)初始化学习模型；

(3)寻找最佳微簇；

(4)更新微集群；

(5)移除异常微簇；

(6)构建宏簇集群。

2.根据权利要求1所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(1)的具体实现方法为：

将数据块D_block进行均值归一化处理；

输出增强数据块D_enblock。

3.根据权利要求2所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(2)的具体实现方法为：

输入增强数据块；

返回构建好的新的微集群。

4.根据权利要求3所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(3)的具体实现方法为：

初始化一个临时微簇结构；

在潜在微集群为新数据寻找所属最佳微簇；

5.根据权利要求4所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(4)的具体实现方法为：

6.根据权利要求5所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(5)的具体实现方法为：

7.根据权利要求6所述的基于逆习惯化机制的流聚类异常检测方法，其特征在于，步骤(6)的具体实现方法为：

更新得到改变的微集群，进行重新关联，得到宏簇集群。

8.一种基于逆习惯化机制的流聚类异常检测系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-7任一项所述的方法步骤。