CN110046665A

CN110046665A - 基于孤立森林二分类异常点检测方法、信息数据处理终端

Info

Publication number: CN110046665A
Application number: CN201910309830.5A
Authority: CN
Inventors: 李孝杰; 李俊良; 史沧红; 吕建成; 吴锡; 周激流; 刘书樵; 张宪
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-23

Abstract

本发明属于通信控制及通信处理技术领域，公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端；将原始数据集进行初始的静态平均分块，计算块内密度和均值密度；计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简；利用节点的递归方法构建孤立森林；对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离；将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。本发明有效提高异常点检测算法的准确率，能大幅度减少异常检测过程中的实际数据量，节省计算资源，并且提高了异常检测效率；增强了异常检测算法的鲁棒性。

Description

基于孤立森林二分类异常点检测方法、信息数据处理终端

技术领域

本发明属于通信控制及通信处理技术领域，尤其涉及一种基于孤立森林二分类异常点检测方法、信息数据处理终端。

背景技术

目前，最接近的现有技术：在常用的异常点检测算法中，有很多经典的算法，它们从不同的角度切入进行异常检测，基于神经网络的一类支持向量机的异常检测利用点与点之间空间欧氏距离的计算得到最小化的间隔，以此确定出相应的支持向量，然后在约束条件下通过目标函数最大化两支持向量之间的距离，由此可确定出分离超平面达到异常检测的目的。当然上述方法是以线性可分数据集为模型进行处理，由此衍生出对于非线性可分数据集进行处理的核方法。在对于异常点的认识上一般以出现概率较低，出现区域为数据点稀疏区域，出现位置信息为数据集边缘为特征，所以基于此的稀疏表达处理，区域密度值的计算，数据或图像的边缘信息检测都是一些具体的相关技术。对于如何进行异常检测的过程，有许多不同的方法，有将标签作为主要的区分标准的算法，有将位置和密度信息作为主要区分标准的算法，还有将数据具体参数数值作为区分标准的算法。

现有技术为了提高异常点检测算法效率，对传统的机器学习方法进行了改进，并且从深度学习框架下进行了探索。下面介绍异常点检测算法的研究与应用：

现有技术一在进行异常检测的过程是基于传统的SVM方法，自定义了一个异常分数和阈值，当数据异常分数值超过阈值时就标记为0，也即是认为其为异常数据点。此算法有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果，严格来讲一分类的SVM并不是一个异常点监测算法，而是一个奇异点检测算法：它的训练集不能包含异常样本，否则的话，可能在训练时影响边界的选取。

在面对多分类问题时无法直接进行有效处理。在处理线性不可分情况时会采用核方法，在选择核方法不当的情况下会造成数据失真的情况产生。

现有技术二基于高斯分布的异常检测算法，在很多场景中被广泛使用。其算法的核心思想是：给定一个m*n维训练集，将训练集转换为n维的高斯分布，通过对m个训练样例的分布分析，得出训练集的概率密度函数，即得出训练集在各个维度上的数学期望μ和方差σ²，并且利用少量的Cross Validation集来确定一个阈值ε。当给定一个新的点，根据其在高斯分布上算出的概率，及阈值ε，判断当p<ε判定为异常，当p>ε判定为非异常。

在对于将非高斯分布的数据集进行异常检测时，会进行数据的转换，此过程会大幅提升算法的时间复杂度，并且会将原有的异常数据一起转换，之后在进行异常检测过程形成对异常数据的二次操作，容易产生过拟合的状况。

现有技术三鉴于时间序列数据具有周期性(seasonal)、趋势性(trend)，异常检测时不能作为孤立的样本点处理；故而Twitter的工程师提出了S-ESD(Seasonal ESD)与S-H-ESD(Seasonal Hybrid ESD)算法，将ESD扩展到时间序列数据。S-ESD算法用中位数(median)替换掉趋势分量；余项计算公式X为原时间序列数据，Sx为STL分解后的周期分量，为X的中位数。由于个别异常值会极大地拉伸均值和方差，从而导致S-ESD未能很好地捕获到部分异常点，召回率偏低。为了解决这个问题，S-H-ESD采用了更具鲁棒性的中位数与绝对中位差进行替换。

此算法面对数据集过于单一化和规律化，再对于非时间序列数据时产生的效果并不理想。

现有技术四IForest是目前异常点检测最常用的算法之一，它的优点非常突出，它具有线性时间复杂度。因为是随机森林的方法，所以可以用在含有海量数据的数据集上面。通常树的数量越多，算法越稳定。由于每棵树都是互相独立生成的，因此可以部署在大规模分布式系统上来加速运算。

但是IForest也有一些缺点，比如不适用于特别高维的数据。由于每次切数据空间都是随机选取一个维度和该维度的随机一个特征，建完树后仍然有大量的维度没有被使用，导致算法可靠性降低。IForest仅对即全局稀疏点敏感，不擅长处理局部的相对稀疏点，这样在某些局部的异常点较多的时候检测可能不是很准。

现有技术五基于统计的方法检测出来的离群点很可能被不同的分布模型检测出来，但产生这些离群点的机制可能不唯一，解释离群点的意义时经常发生多义性。基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型，模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义，而确定这些参数通常都比较困难。

基于统计的异常检测方法产生离群点的机制不统一，并且所对应的概率分布模型也不统一，造成对于参数的确定十分困难，也就会导致算法的鲁棒性很低。

现有技术六基于距离的离群点，他们把记录看作高维空间中的点，离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点，通常被描述为DB，数据集T中一个记录0称为离群点，当且仅当数据集T中至少有pct部分的数据与0的距离大于dmin。记M＝N*(1-pct)，离群检测即判断与点0距离小于dmin的点是否多于M。若是则0不是离群点，否则0是离群点。

在对于异常点的确定过程中判断依据或者说标签化信息过少，对比信息不够明确，异常判定依据不足，会造成边缘数据点、信息模糊化的数据点形成较大规模的误判，算法整体鲁棒性较低。

现有技术七提出的基于局部离群因子的异常检测算法LOF是基于密度方法的一个典型例子。它首先产生所有点的MinPts邻域及MinPts距离，并计算到其中每个点的距离；对低维数据，利用网格进行K-NN查询，计算时间为O(n)；对中维或中高维数据，采用如X2树等索引结构，使得进行K2NN查询的时间为O(logn)，整个计算时间为O(nlogn)；对特高维数据，索引结构不再有效，时间复杂度提高到O(n²)。然后计算每个点的局部异常因子，最后根据局部异常因子来挖掘离群。

该算法缺少对于原始数据集的预处理，特别是对于高维数据集未进行预处理会大大提高异常检测过程的时间，增加了算法的时间复杂度。

现有技术八提出了TRAOD算法.该算法迹划分成线段，以线段表示轨迹局部特征(本为基本比较单元)，然后使用线段Hausdorf算每两个线段之间的距离以表示其间的从而确定异常轨迹.此外，为了提高算法效RAOD中还给出了一种二阶段划分方法来提效率，即先将轨迹划分成粗粒度的轨迹片段的起始点和终点的连线表示其局寻找异常的粗粒度轨迹片段；然后再将异常度轨迹片段进行线段划分，寻找其中的异常RAOD很好地解决了长轨迹之间不匹配性。在面对非线性可分数据或者说数据集中度较高的数据时不易进行数据分析和异常检测过程。

传统的异常点检测算法如一类神经网络算法等并没有对于原始数据集进行具体的一些预处理操作，基本是采用矩阵化或向量化整个数据集，并且对于数据检测时也是采用完全遍历整个数据集，这样会造成在异常检测过程中对于正常数据点的检测冗余。在异常检测之前应该以一定的方法来减少所要面对的数据检测的数据量，由于主要针对大型数据集进行异常点检测，非异常数据的数据量大幅锐减可以提高检测效率，并且还会增强鲁棒性。

在对处于边缘点和两个子空间相交的面上的异常点没有更好的处理，现有的算法在进行对于数据二分类问题时，例如传统的SVM算法，它采用以超平面最大化支持向量间隔的方式来进行数据的二分类，它有可能会造成将正常数据加入到异常数据集中，很多数据会产生模糊化操作，缺乏更为具体和严谨的异常检测标准，因此对于一些传统的异常检测算法在基于数据处理跟异常过程检测并没有很好地鲁棒性。

传统异常检测算法未对数据进行标签化处理，再对于医学图像的异常点问题分析上，可以将所有人分为正常人和病人，将病人的数据作为异常点数据。在病人数据和正常人数据的比较之中不仅仅只依赖数据的稀疏性和边缘性，还可以通过一些病理特征作为标签再结合上述信息进行异常结果分析，这样可以能够提高异常检测的准确率。

综上所述，现有技术存在的问题是：

(1)现有技术未对原始数据集进行稀疏表达，造成在异常检测过程中对于正常数据点的检测冗余。

(2)现有技术在对处于边缘点和两个子空间相交的面上的异常点没有更好的处理，造成将正常数据加入到异常数据集中，很多数据会产生模糊化操作，缺乏更为具体和严谨的异常检测标准；没有很好地鲁棒性。

(3)传统异常检测算法未对数据进行标签化处理。

解决上述技术问题的难度：

在对于原始数据集数据量较大维度较高的情况下，直接对于原始数据集进行异常检测工作，会造成原始数据集中非异常数据较为集中的部分多次进行异常检测过程，由此造成大量浪费计算资源和花费检测时间，会大大提升算法的时间复杂度和空间复杂度。传统降维算法PCA，特征值分解等也会有大量的数据计算部分，在处理维度很高的数据集时也会捉襟见肘，不易实现。在进行标签化处理过程中，重点在于标签所对应特征的选择，如何选择合适的特征信息作为分类依据，需要进行对比筛选，找到正负样本之间差距最大的特征信息作为分类标签依据。在面对非线性可分数据信息时，直接进行分类会造成部分处于边界的数据丢失，损失掉数据集的完备性。

解决上述技术问题的意义：

大大的降低异常检测算法的时间复杂度和空间复杂度，提升了异常检测算法的鲁棒性。

发明内容

针对现有技术存在的问题，本发明提供了一种基于孤立森林二分类异常点检测方法、信息数据处理终端。

本发明是这样实现的，一种基于孤立森林二分类异常点检测方法，所述基于孤立森林二分类异常点检测方法包括以下步骤：

第一步，将原始数据集进行初始的静态平均分块，然后计算块内密度和均值密度；

第二步，计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简；

第三步，利用节点的递归方法构建孤立森林；

(1)从训练数据中随机选择Ψ个点样本点作为subsample，放入树的根节点；

(2)随机指定一个维度，在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间；

(3)以此切割点生成了一个超平面，将当前节点数据空间划分为2个子空间：把指定维度里小于p的数据放在当前节点的左孩子，把大于等于p的数据放在当前节点的右孩子；

(4)在孩子节点中递归，不断构造新的孩子节点，直到孩子节点中只有一个数据或孩子节点已到达限定高度；

第四步，对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离；

第五步，将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加，与相对应的阈值进行比较。

进一步，所述第一步将原始数据集进行初始的静态平均分块，然后计算块内密度和均值密度具体包括：

步骤一，将原始数据集进行初始的静态分块；

(1)根据原始数据集Φ＝{x₁,x₂,……,x_n}，将数据集Φ以一定规模划分成k个子数据集，将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集，；

(2)将这k个基础子数据集按照分别计算其块内密度，其中密度计算函数为d_c为自定义的距离称为截断距离；再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较

(3)如果则设置对应的子数据集的标签为1，反之亦反。

进一步，所述第二步的计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简具体包括；

(1)对计算出来的所有块内密度数据进行排序，从小到大进行整理；

(2)将原始数据均值密度作为阈值，将均值密度插入到块内密度序列，查询出比均值密度数值更大的子数据集，以分块的具体数量作为步长，以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点，记标签为0；

(3)将标记为0的子数据集去除，以减少异常检测数据量。

进一步，所述第四步对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离具体包括；

(1)对于原始数据集进行相应特征的提取；

(2)将提取的特征信息数据化，并进行聚类操作；

(3)计算聚类中心点与其他点的空间位置距离；

(4)将计算出来的距离呈现为二维数据，将远离坐标原点的点给出一个相应较大权重分数。

进一步，所述第五步将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加，与相对应的阈值进行比较具体包括；

(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起，得出最后的异常分数；

(2)将最终的异常分数与相对应的阈值进行比较，若比阈值分数大则记为最后确定的异常数据，反之亦反。

本发明的另一目的在于提供一种应用所述基于孤立森林二分类异常点检测方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：本发明可以有效的提高异常点检测算法的准确率，能大幅度减少异常检测过程中的实际数据量，从而节省了很多计算资源，并且提高了异常检测效率。在特征提取数据化分析的步骤下能够解决异常检测中的一些过拟合问题。增强了异常检测算法的鲁棒性。本发明在给定数据分类信息时采用软间隔的支持向量机算法，给定一定的容错空间，以此来提高算法的鲁棒性。

附图说明

图1是本发明实施例提供的基于孤立森林二分类异常点检测方法流程图。

图2是本发明实施例提供的数据集分块模型图。

图3是本发明实施例提供的子图动态分配流程图。

图4是本发明实施例提供的子图层叠拼接示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明为解决在数据量较大维度较高的情况下进行异常点检测的问题；孤立森林异常检测算法是一种相对比较复杂、对计算资源要求相对较高的算法，无论是对计算时间还是对内存空间都有较高的要求。随着现代计算机技术的发展，带来数据量的迅猛增长，且异常点检测过程中常常涉及巨大的数据阵列和大规模的数据运算，对异常点检测算法的效率提出了更高要求。在对于高维数据量较大的情况下，首先使用较好的降维方法减轻计算量对于提高异常点检测效率有很大程度的提高，所以对于高维大数据量数据集进行异常检测的算法是很有必要的。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于孤立森林二分类异常点检测方法包括以下步骤：

S101：将原始数据集进行初始的静态平均分块，然后计算块内密度和均值密度；

S102：计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简；

S103：利用节点的递归方法构建孤立森林；

S104：对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离；

S105：将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加，与相对应的阈值进行比较。

下面结合附图对本发明的应用原理作进一步的描述。

本发明实施例提供的基于孤立森林二分类异常点检测方法具体包括以下步骤：

步骤一：数据集分块

将原始数据集进行初始的静态分块。

(1)根据原始数据集Φ＝{x₁,x₂,……,x_n}，将数据集Φ以一定规模划分成k个子数据集，将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集，如图2所示。

(2)将这k个基础子数据集按照分别计算其块内密度，其中密度计算函数为d_c为自定义的距离称为截断距离。再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较

(3)如果则设置对应的子数据集的标签为1，反之亦反。

步骤二：精简数据集

由于本发明主要针对于数据量较大的数据集，在使用传统异常点检测算法时会有许多不必要的计算占用了计算机CPU计算资源，造成计算效率的降低，并且还提高了错误率。基于传统算法所存在的不足，本发明对于原始数据集进行的精简过程相当于正式做异常检测步骤前的数据预处理阶段。

基本思路是：在计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简。

(1)对于步骤一所计算出来的所有块内密度数据进行排序，从小到大进行整理。

(2)将原始数据均值密度作为阈值，将均值密度插入到块内密度序列，查询出比均值密度数值更大的子数据集，以分块的具体数量作为步长，以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点，记标签为0。

(3)将标记为0的子数据集去除，以减少异常检测数据量。

步骤三：构建孤立森林

孤立森林是一种基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的state-of-the-art算法(其可以用于网络安全中的攻击检测，金融交易欺诈检测，疾病侦测，和噪声数据过滤等)。

(1)从训练数据中随机选择Ψ个点样本点作为subsample，放入树的根节点。

(2)随机指定一个维度(attribute)，在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间。

(3)以此切割点生成了一个超平面，然后将当前节点数据空间划分为2个子空间：把指定维度里小于p的数据放在当前节点的左孩子，把大于等于p的数据放在当前节点的右孩子。

(3)在孩子节点中递归步骤二和三，不断构造新的孩子节点，直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度。

步骤四：子数据集特征处理。

子数据集特征处理实质指的是在面对异常数据判断时，不仅仅只考虑数据集密度与距离的问题，还要将一些数据集本身作为异常检测的基准做一个特别详尽的描述信息，将其数据化后作为一个衡量标准。

(1)对于原始数据集进行相应特征的提取。

(2)将提取的特征信息数据化，并对其进行聚类操作。

(3)计算聚类中心点与其他点的空间位置距离。

步骤五：双向基准进行异常检测

由于现有算法大部分只是对密度和距离作为异常检测的基准，而没有将数据集本身所具有的一些特征信息作为相同的判断依据，因此将这两方面结合起来作为异常检测过程的双向基准，可以减少数据分类的错误率，提高算法本身所具有的鲁棒性。

(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起，得出最后的异常分数。

对于数据量较大的数据集，在使用传统异常点检测算法时会有许多不必要的计算占用计算机CPU计算资源，造成计算效率的降低，并且提高了错误率。基于传统算法所存在的不足，本发明对于原始数据集进行的精简过程相当于正式做异常检测步骤前的数据预处理阶段。孤立森林是一个基于Ensemble的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的state-of-the-art算法(其可以用于网络安全中的攻击检测，金融交易欺诈检测，疾病侦测，和噪声数据过滤等。子数据集特征处理实质指的是在面对异常数据判断时，不仅仅只考虑数据集密度与距离的问题，还要将一些数据集本身作为异常检测的基准做一个特别详尽的描述信息，将其数据化后作为一个衡量标准。现有算法大部分只是对密度和距离作为异常检测的基准，而没有将数据集本身所具有的一些特征信息作为相同的判断依据，因此将这两方面结合起来作为异常检测过程的双向基准，可以减少数据分类的错误率，提高算法本身所具有的鲁棒性。

异常检测运用到的领域十分广泛，对于网络安全、信息筛查、有效信息比对等有着十分重要的应用地位。异常检测算法的评价标准有很多，本发明将以异常检测速率和异常度作为主要性能评价信息。本发明的异常检测过程中主要的计算在于距离的计算，主要分为两个部分，第一部分是对于密度大于原数据集均值密度的每个子数据集边缘点的查找计算，选取密集度最高的点为中心点计算其他点距离中心点的距离，找出每个自数据集的边缘点。第二部分是对于特征距离的计算，对于选取的特征信息，以二维数据坐标化，找到数值大于设定阈值的点。基于前期的数据预处理大量的减少了需要异常检测过程的数据量，极大地提高了计算速率。在对于异常度的问题上，因为本发明在考虑是否为异常点时不仅仅以其所在局部区域及整体的密度情况和其所在位置是否为边缘情况，还以该点的特征所占的权重信息作为重要判断依据。以此可以增加算法的鲁棒性及异常检测的准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于孤立森林二分类异常点检测方法，其特征在于，所述基于孤立森林二分类异常点检测方法包括以下步骤：

第三步，利用节点的递归方法构建孤立森林；

2.如权利要求1所述的基于孤立森林二分类异常点检测方法，其特征在于，所述第一步将原始数据集进行初始的静态平均分块，然后计算块内密度和均值密度具体包括：

步骤一，将原始数据集进行初始的静态分块；

(3)如果则设置对应的子数据集的标签为1，反之亦反。

3.如权利要求1所述的基于孤立森林二分类异常点检测方法，其特征在于，所述第二步的计算出静态分块的各块内密度后，以原数据集的均值密度作为阈值将数据集进行精简具体包括；

(3)将标记为0的子数据集去除，以减少异常检测数据量。

4.如权利要求1所述的基于孤立森林二分类异常点检测方法，其特征在于，所述第四步对原始数据集进行相应特征的提取并数据化，计算聚类中心点与其他点的空间位置距离具体包括；

(1)对于原始数据集进行相应特征的提取；

(2)将提取的特征信息数据化，并进行聚类操作；

(3)计算聚类中心点与其他点的空间位置距离；

5.如权利要求1所述的基于孤立森林二分类异常点检测方法，其特征在于，所述第五步将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加，与相对应的阈值进行比较具体包括；

6.一种应用权利要求1～5任意一项所述基于孤立森林二分类异常点检测方法的信息数据处理终端。