CN110633734A

CN110633734A - 一种基于图论相关理论进行异常检测的方法

Info

Publication number: CN110633734A
Application number: CN201910776915.4A
Authority: CN
Inventors: 李孝杰; 李俊良; 李芮; 史沧红; 王录涛
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-12-31
Anticipated expiration: 2039-08-22
Also published as: CN110633734B

Abstract

本发明公开了一种基于图论相关理论进行异常检测的方法，包括该方法具体包括以下步骤：第一步，将原始数据集进行聚类操作，将数据集分割成不同的簇；第二步，计算出原始数据集的均值密度，将原数据集均值密度作为阈值与簇密度比较对数据集进行精简；第三步，对数据集进行特征提取和空间距离计算并对结果进行数据化操作第四步，将有效检测的数据簇的所有数据点按计算出来的权重值分配构建无向连通图；第五步，采用弗洛伊德算法查找相应簇的最短路径。在对于数据集的预处理上，本发明采取了二次精简数据集的办法，以不同的基准信息来对数据集进行降维操作，可以有效地减少大量无用数据集，极大程度的减少了异常检测过程的时间复杂度和空间复杂度。

Description

一种基于图论相关理论进行异常检测的方法

技术领域

本发明涉及一种异常检测的方法，具体为一种基于图论相关理论进行异常检测的方法，属于异常检测的方法应用技术领域。

背景技术

目前，最接近的现有技术：在常用的异常点检测方法中，有很多经典的方法，它们从不同的角度切入进行异常检测，一种采用随机森林进行异常检测方法是从训练数据中随机选择Ψ个点样本点作为subsample，放入树的根节点，再随机指定一个维度，在当前节点数据中随机产生一个切割点p，切割点产生于当前节点数据中指定维度的最大值和最小值之间，以此切割点生成了一个超平面，然后将当前节点数据空间划分为2个子空间：把指定维度里小于p的数据放在当前节点的左孩子，把大于等于p的数据放在当前节点的右孩子，在孩子节点中递归之前的两个步骤，不断构造新的孩子节点，直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度。在对于异常点的认识上一般以出现概率较低，出现区域为数据点稀疏区域，出现位置信息为数据集边缘为特征，所以基于此的稀疏表达处理，区域密度值的计算，数据或图像的边缘信息检测都是一些具体的相关技术。对于如何进行异常检测的过程，有许多不同的方法，有将重构误差作为主要的区分标准的方法，有将密度信息作为主要区分标准的方法，还有将空间距离数值作为区分标准的方法。

现有技术为了提高异常点检测方法效率，对传统的机器学习方法进行了改进，并且从深度学习框架下进行了探索。下面介绍异常点检测方法的研究与应用：

现有技术一基于正态分布的一元离群点检测，假定数据集由一个正态分布产生，然后，可以由输入数据学习正态分布的参数，并把低概率的点识别为离群点。在正态分布的假定下，区域包含99.7％的数据，包含95.4％的数据，包含68.3％的数据。视具体情况而定，将其区域外的数据视为离群点。这种直截了当的统计学离群点检测方法也可以用于可视化。例如盒图方法使用五数概况绘制一元输入数据：最小的非离群点值(Min)、第一个四分位数(Q1)、中位数(Q2)、第三个四分位数(Q3)和最大的非离群点值(Max)。

现有技术二RNN方法又叫自编码器，是一个多层前馈的神经网络。在ReplicatorNeural Networks中，输入的变量也是输出的变量，模型中间层节点的个数少于输入层和输出层节点的个数。这样的话，模型就起到了压缩数据和恢复数据的作用。训练的目标就是使得整体的输出误差足够小，整体的误差是由所有的样本误差之和除以样本的个数得到的。如果使用已经训练好的RNN模型，异常值的分数就可以定义为重构误差。BP方法的目的是最小化训练集上的累计误差

其中M是训练集合中样本的个数。不过，标准的BP方法每次仅针对一个训练样例更新连接权重和阈值，也就是说，标准BP方法的更新规则是基于单个的E_K推导而得到的。通过类似的计算方法可以推导出累计误差的最小化更新规则，那就得到了累计误差逆传播方法。标准BP方法需要进行更多次的迭代，并且参数的更新速度快，累积BP方法必须扫描一次训练集合才会进行一次参数的更新，而且累计误差下降到一定的程度以后，进一步下降就会明显变慢，此时标准BP方法往往会更快的得到较好的解，尤其是训练集合大的时候。

现有技术三基于索引的方法(Index-based)：给定一个数据集合，基于索引的方法采用多维索引结构R-tree，k-d tree等，来查找每个对象在半径d范围内的邻居。假设M为异常点数据的d邻域内的最大对象数目。如果对象O的M+1个邻居被发现，则对象O就不是异常点。这个方法在最坏情况下的复杂度为O(k*n²)，k为维数，n为数据集合中对象的数目。当k增加时，基于索引的方法具有良好的扩展性。

现有技术四基于深度的离群点检测方法的主要思想是先把每个记录标记为k维空间里的一个点，然后根据深度的定义给每个点赋予一个深度值；再根据深度值按层组织数据集，深度值较小的记录是离群点的可能性比深度值较大的记录大得多，因此方法只需要在深度值较小的层上进行离群检测，不需要在深度值大的记录层进行离群检测。基于深度的方法比较有代表性的有Struyf和Rousseeuw提出的DEEPLOC方法。虽然，理论上基于深度的识别方法可以处理高维数据，然而实际计算时，k维数据的多层操作中，若数据集记录数为N，则操作的时间复杂度为Ω(N[k/2])。因此，当维数k≤3时处理大数据集时还有可能是高效的，而当k≥4时，方法的效率就非常低。也就是说，已有的基于深度的离群点检测方法无法挖掘高维数据，只有当k≤3时计算效率才是可接受的。

现有技术五基于偏移的异常点检测不采用统计检验或者基于距离的度量值来确定异常对象，它是模仿人类的思维方式，通过观察一个连续序列后，迅速地发现其中某些数据与其它数据明显的不同来确定异常点对象，即使不清楚数据的规则。基于偏移的异常点检测常用两种技术：序列异常技术和OLAP数据立方体技术。我们简单介绍序列异常的异常点检测技术。序列异常技术模仿了人类从一系列推测类似的对象中识别异常对象的方式。它利用隐含的数据冗余。给定n个对象的集合S，它建立一个子集合的序列，{S1，S2，…，Sm}，这里2＜＝m＜＝n，由此，求出子集间的偏离程度，即“相异度”。该方法从集合中选择一个子集合的序列来分析。对于每个子集合，它确定其与序列中前一个子集合的相异度差异。光滑因子最大的子集就是异常数据集。

现有技术六基于单元的方法：在该方法中，数据空间被划为边长等于d/(2*k 1/2)的单元。每个单元有两个层围绕着它。第一层的厚度是一个单元，而第二层的厚度是[2*k1/2-1]。该方法逐个单元地对异常点计数，而不是逐个对象地进行计数。对于一个给定的单元，它累计三个计数：单元中对象的数目(cell_count)、单元和第一层中对象的数目(cell_+_1_layer_count)单元和两个层次中的对象的数目(cell_+_2_layers_count)。该方法将对数据集的每一个元素进行异常点数据的检测改为对每一个单元进行异常点数据的检测，它提高了方法的效率。它的方法复杂度是O(c*k+n)，这里的c是依赖于单元数目的常数，k是维数。它是这样进行异常检测的：若cell_+_1_layer_count＞M，单元中的所有对象都不是异常；若cell_+_2_layers_count＜＝M，单元中的所有对象都是异常；否则，单元中的某一些数据可能是异常。为了检测这些异常点，需要逐个对象加入处理。基于距离的异常点检测方法要求用户设置参数P和d，而寻找这些参数的合适设置可能涉及多次试探和错误。

现有技术七分类回归树(CART)同样可以应用于异常检测问题。首先，你可以使用监督学习教树分类异常数据点和非异常数据点。这需要你有标记好的数据点。第二种方法是使用无监督学习教CART预测时序中的下一个数据点，得到和STL分解方法类似的置信区间或预测误差。你可以使用广义ESD检验或Grubbs检验检查数据点是否位于置信区间之内。

现有技术八ARIMA(整合移动平均自回归模型)是一个设计得非常简单的方法，但仍然足够强大，可以预测信号并指出其中的异常值。它的思路是过去的若干数据点加上某个随机变量(通常是白噪声)可以预测下一个数据点。预测数据点可以进一步用来生成新预测，以此类推。显然，它的效果是让信号变得更平滑。应用这一方法的难点在于你需要通过Box-Jenkins方法选择差异数、自回归数、预测误差系数。处理新信号时应该创建新ARIMA模型。另一个麻烦是对信号取差值后得到的信号应该是停滞的。也就是说，信号不应取决于时间，这是一个显著的限制。创建一个适应离群点的模型，基于t统计量看它是否比原模型更好地拟合数据，这就可以实现异常检测。

传统的异常点检测方法如基于一类神经网络的二分类异常检测方法等并没有对于原始数据集进行具体的一些预处理操作，基本是采用矩阵化或向量化整个数据集，并且对于数据检测时也是采用完全遍历整个数据集，这样会造成在异常检测过程中对于正常数据点的检测冗余。在异常检测之前应该以一定的方法来减少所要面对的数据检测的数据量，由于主要针对大型数据集进行异常点检测，非异常数据的数据量大幅锐减可以提高检测效率，并且还会增强鲁棒性。

在对处于边缘点和两个子空间相交的面上的异常点没有更好的处理，现有的方法在进行对于数据二分类问题时，例如传统的SVM方法，它采用以超平面最大化支持向量间隔的方式来进行数据的二分类，它有可能会造成将正常数据加入到异常数据集中，很多数据会产生模糊化操作，缺乏更为具体和严谨的异常检测标准，因此对于一些传统的异常检测方法在基于数据处理跟异常过程检测并没有很好地鲁棒性。

传统异常检测方法未对数据进行标签化处理，再对于医学图像的异常点问题分析上，可以将所有人分为正常人和病人，将病人的数据作为异常点数据。在病人数据和正常人数据的比较之中不仅仅只依赖数据的稀疏性和边缘性，还可以通过一些病理特征作为标签再结合上述信息进行异常结果分析，这样可以能够提高异常检测的准确率。

综上所述，现有技术存在的问题是：

(1)现有技术并没有对原始数据集进行有效的数据预处理

(2)现有异常检测方法进行异常判断的基准还是较为单一化，比较容易造成误判情况产生。

(3)现有异常检测方法在进行异常检测时未对特征信息进行标签化处理。

解决上述技术问题的难度：

在面对维度较高总数据量较大的数据集时，如果我们采取完全遍历以进行异常检测的方式，不对原始数据集进行有效的数据预处理，会极大地造成在正常数据点部分的异常检测过程冗余，这样不仅仅会增大异常检测方法的时间复杂度还是减小异常检测方法的准确率。传统的降维方法，只是依据单一的信息特征如PCA利用特征值的大小来进行降维过程，在此过程之中没有出现异常判断的操作进行数据相关信息对比，极易造成异常点的损失。

解决上述技术问题的意义：

大大的降低异常检测方法的时间复杂度和空间复杂度，提升了异常检测方法的鲁棒性。

发明内容

本发明的目的就在于为了解决上述的问题，而提出一种基于图论相关理论进行异常检测的方法。

本发明的目的可以通过以下技术方案实现：一种基于图论相关理论进行异常检测的方法，该方法具体包括以下步骤：

第一步，将原始数据集进行聚类操作，将数据集分割成不同的簇；

第二步，计算出原始数据集的均值密度及每个簇的相应密度，将原数据集均值密度作为阈值与簇密度比较对数据集进行精简；

第三步，对数据集进行特征提取和空间距离计算并对结果进行数据化操作，具体步骤为：

S1：在原始数据集中选取相应的一至两个特征进行提取；

S2：计算非聚类中心数据点与聚类中心点的空间距离；

S3：对相应的数据矩阵采用稀疏矩阵解法再次精简数据；

S4：将最后结果按照前20％的数据所对应的数值数据化为权重值，利用负相关理论调节相应数据值；

第四步，将有效检测的数据簇的所有数据点按计算出来的权重值分配构建无向连通图；

第五步，采用弗洛伊德算法查找相应簇的最短路径；

所述第一步将原始数据集进行聚类操作，具体步骤包括：

步骤一：给定原始数据集Φ＝{x₁，x₂，…，x_m}；

步骤二：“K均值”算法针对聚类所得簇划分C＝{C₁，C₂，…，C_K}；

步骤三：最小化误差

其中

是C_i的均值向量。

本发明的进一步技术改进在于：所述第二步的计算出原始数据集的均值密度及每个簇的相应密度，将原数据集均值密度作为阈值与簇密度比较对数据集进行精简的具体步骤包括；

步骤(1)：将这K个簇按照

分别计算其簇密度，其中密度计算函数为

d_c为自定义的距离称为截断距离；通过高斯核函数进行计算

再计算出原始数据集Φ的均值密度

将计算出来的簇密度与原始数据集均值密度结果进行比较

步骤(2)：当

则设置对应的簇C_i的标签为1，反之亦反。

步骤(3)：将标记为0的簇剔除，减少执行异常检测的数据量。

本发明的进一步技术改进在于：所述第三步对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离的具体步骤包括；

A：对原始数据集进行相应特征的提取，图像的纹理、强度、小波，离散数据的流量、通量、降维；

B：将提取的特征信息数据化，并利用稀疏矩阵再次精简数据集，

C：计算聚类中心点与其他数据点的空间位置距离，

D：将计算出来的距离呈现为二维坐标化数据点，采用负相关理论，将远离坐标原点的点给出一个大概为所有权重分数的20％的权重分数。

本发明的进一步技术改进在于：所述第四步将有效检测的数据簇的所有数据点按计算出来的权重值分配构建无向连通图，具体步骤包括；

(1)将各个簇的聚类中心点作为起始点以空间距离值为依据构成相应数据点距离信息矩阵；

(2)以距离信息矩阵为基础构建无向连通图；

(3)将第三步所得权重分数分配到相应路径作为无向连通图的权重信息。

本发明的进一步技术改进在于：所述第五步采用弗洛伊德算法查找相应簇的最短路径，具体步骤包括：

(1)用D[v][w]记录每一对顶点的最短距离；

(2)依次扫描每一个点，并以其为基点再遍历所有每一对顶点D[v][w]的值，看是否可用该基点让这对顶点间的距离更小。

与现有技术相比，本发明的有益效果是：

1、在对于数据集的预处理上，本发明采取了二次精简数据集的办法，以不同的基准信息来对数据集进行降维操作，可以有效地减少大量无用数据集，极大程度的减少了异常检测过程的时间复杂度和空间复杂度。

2、本发明在异常检测方法上采用构建图的方式，直接将精简后的数据集构建为无向连通图，将精简数据集时得到的空间距离信息、特征信息、密度信息多项数据标签化为图相应节点之间对应的权重，达到异常检测过程多项基准的要求，提高异常检测结果的准确率。提升异常检测方法的鲁棒性。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1是本发明实施例提供的基于图论的异常点检测方法流程图。

图2是本发明实施例提供的子图数据集精简流程图。

图3是本发明实施例提供的子图异常检测过程示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明为解决在数据量较大维度较高的情况下进行异常点检测的问题；在面对大型数据集进行异常检测时，对整体数据集进行异常检测过程会产生大量的异常检测过程冗余，极大地消耗了计算资源，在异常点判断过程中，只采用某一异常依据作为判断基准会导致出现部分正常数据点如线性数据边缘信息点、非线性数据超平面上的数据点、容错空间中的数据点等被归类为异常数据点。所有本发明在做异常检测前对原始数据集进行有效的精简，在异常检测时采用多向基准判断提高异常检测的准确率。

本发明实施例提供的基于图论的异常点检测方法具体包括以下步骤：

S1：在原始数据集中选取相应的一至两个特征进行提取；

S2：计算非聚类中心数据点与聚类中心点的空间距离；

S3：对相应的数据矩阵采用稀疏矩阵解法再次精简数据；

第五步，采用弗洛伊德算法查找相应簇的最短路径；

所述第一步将原始数据集进行聚类操作，具体步骤包括：

步骤一：给定原始数据集Φ＝{x₁，x₂，…，x_m}；

步骤三：最小化误差

其中

是C_i的均值向量。

步骤(1)：将这K个簇按照

分别计算其簇密度，其中密度计算函数为

d_c为自定义的距离称为截断距离；通过高斯核函数进行计算

再计算出原始数据集Φ的均值密度

将计算出来的簇密度与原始数据集均值密度结果进行比较

步骤(2)：当

则设置对应的簇C_i的标签为1，反之亦反。

步骤(3)：将标记为0的簇剔除，减少执行异常检测的数据量。

A：对原始数据集进行相应特征的提取，如图像的纹理、强度、小波，离散数据的流量、通量、降维等特征；

C：计算聚类中心点与其他数据点的空间位置距离，

(2)以距离信息矩阵为基础构建无向连通图；

(3)将第三步所得权重分数分配到相应路径作为本图权重信息。

(1)用D[v][w]记录每一对顶点的最短距离；

对于数据量较大维度较高的数据集，现有异常检测算法没有系统的对原始数据集进行数据精简的预处理阶段，这将导致异常检测过程面对的是原始数据集所有数据信息，由于数据量较大，大大增加了数据异常检测过程的冗余性，同时大量浪费了计算机的计算资源，极大地提高了算法对应的时间复杂度和空间复杂度。并且现有异常检测算法大部分只是单一信息(距离、密度、强度等)作为异常检测的基准，这样的异常判断会导致许多误判而造成异常检测的准确率下降。本发明在进行异常点检测过程中会对原始数据集进行两次精简过程，最大化程度的减少异常检测过程所面对的数据量，在异常点判定依据上采用多向基准，进一步保证数据点异常检测过程的准确率，进而提高异常检测算法的鲁棒性。

异常检测在日常生活中应用领域十分广泛，对于医学图像中病灶区域检测、网络异常流量检测、数据信息比对等领域都有着十分重要的应用价值。现有的异常检测算法评价标准有很多，本发明将以异常检测准确率和异常检测效率作为主要性能评价信息。本发明在精简数据集的处理上采用了两种方式，第一，在对原始数据集进行聚类操作的过程后对每个子簇进行簇密度的计算，再计算原始数据集的均值密度，以均值密度为阈值进行稀疏表达精简部分数据集。第二，在第一次精简了的数据集基础上，利用特征信息和空间距离信息数据化对数据矩阵进行稀疏矩阵表达，再次对数据集进行精简。这样在进行正式异常检测过程之前就大量的减少了需要异常检测的数据量，会极大程度的提高异常检测过程的效率，减少了对大量正常数据集进行冗余的异常检测过程。在对于异常点的判定上，本发明采用图论的相关理论，将精简完成之后的数据矩阵配合计算得出的相应权重信息构建无向连通图，利用弗洛伊德算法寻找最优路径，以此确定异常点。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。