CN110046665A - 基于孤立森林二分类异常点检测方法、信息数据处理终端 - Google Patents
基于孤立森林二分类异常点检测方法、信息数据处理终端 Download PDFInfo
- Publication number
- CN110046665A CN110046665A CN201910309830.5A CN201910309830A CN110046665A CN 110046665 A CN110046665 A CN 110046665A CN 201910309830 A CN201910309830 A CN 201910309830A CN 110046665 A CN110046665 A CN 110046665A
- Authority
- CN
- China
- Prior art keywords
- density
- data set
- data
- point
- forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于通信控制及通信处理技术领域,公开了一种基于孤立森林二分类异常点检测方法、信息数据处理终端;将原始数据集进行初始的静态平均分块,计算块内密度和均值密度;计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;利用节点的递归方法构建孤立森林;对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加与相对应的阈值进行比较。本发明有效提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,节省计算资源,并且提高了异常检测效率;增强了异常检测算法的鲁棒性。
Description
技术领域
本发明属于通信控制及通信处理技术领域,尤其涉及一种基于孤立森林二分类异常点检测方法、信息数据处理终端。
背景技术
目前,最接近的现有技术:在常用的异常点检测算法中,有很多经典的算法,它们从不同的角度切入进行异常检测,基于神经网络的一类支持向量机的异常检测利用点与点之间空间欧氏距离的计算得到最小化的间隔,以此确定出相应的支持向量,然后在约束条件下通过目标函数最大化两支持向量之间的距离,由此可确定出分离超平面达到异常检测的目的。当然上述方法是以线性可分数据集为模型进行处理,由此衍生出对于非线性可分数据集进行处理的核方法。在对于异常点的认识上一般以出现概率较低,出现区域为数据点稀疏区域,出现位置信息为数据集边缘为特征,所以基于此的稀疏表达处理,区域密度值的计算,数据或图像的边缘信息检测都是一些具体的相关技术。对于如何进行异常检测的过程,有许多不同的方法,有将标签作为主要的区分标准的算法,有将位置和密度信息作为主要区分标准的算法,还有将数据具体参数数值作为区分标准的算法。
现有技术为了提高异常点检测算法效率,对传统的机器学习方法进行了改进,并且从深度学习框架下进行了探索。下面介绍异常点检测算法的研究与应用:
现有技术一在进行异常检测的过程是基于传统的SVM方法,自定义了一个异常分数和阈值,当数据异常分数值超过阈值时就标记为0,也即是认为其为异常数据点。此算法有能力捕获数据集的形状,因此对于强非高斯数据有更加优秀的效果,严格来讲一分类的SVM并不是一个异常点监测算法,而是一个奇异点检测算法:它的训练集不能包含异常样本,否则的话,可能在训练时影响边界的选取。
在面对多分类问题时无法直接进行有效处理。在处理线性不可分情况时会采用核方法,在选择核方法不当的情况下会造成数据失真的情况产生。
现有技术二基于高斯分布的异常检测算法,在很多场景中被广泛使用。其算法的核心思想是:给定一个m*n维训练集,将训练集转换为n维的高斯分布,通过对m个训练样例的分布分析,得出训练集的概率密度函数,即得出训练集在各个维度上的数学期望μ和方差σ2,并且利用少量的Cross Validation集来确定一个阈值ε。当给定一个新的点,根据其在高斯分布上算出的概率,及阈值ε,判断当p<ε判定为异常,当p>ε判定为非异常。
在对于将非高斯分布的数据集进行异常检测时,会进行数据的转换,此过程会大幅提升算法的时间复杂度,并且会将原有的异常数据一起转换,之后在进行异常检测过程形成对异常数据的二次操作,容易产生过拟合的状况。
现有技术三鉴于时间序列数据具有周期性(seasonal)、趋势性(trend),异常检测时不能作为孤立的样本点处理;故而Twitter的工程师提出了S-ESD(Seasonal ESD)与S-H-ESD(Seasonal Hybrid ESD)算法,将ESD扩展到时间序列数据。S-ESD算法用中位数(median)替换掉趋势分量;余项计算公式X为原时间序列数据,Sx为STL分解后的周期分量,为X的中位数。由于个别异常值会极大地拉伸均值和方差,从而导致S-ESD未能很好地捕获到部分异常点,召回率偏低。为了解决这个问题,S-H-ESD采用了更具鲁棒性的中位数与绝对中位差进行替换。
此算法面对数据集过于单一化和规律化,再对于非时间序列数据时产生的效果并不理想。
现有技术四IForest是目前异常点检测最常用的算法之一,它的优点非常突出,它具有线性时间复杂度。因为是随机森林的方法,所以可以用在含有海量数据的数据集上面。通常树的数量越多,算法越稳定。由于每棵树都是互相独立生成的,因此可以部署在大规模分布式系统上来加速运算。
但是IForest也有一些缺点,比如不适用于特别高维的数据。由于每次切数据空间都是随机选取一个维度和该维度的随机一个特征,建完树后仍然有大量的维度没有被使用,导致算法可靠性降低。IForest仅对即全局稀疏点敏感,不擅长处理局部的相对稀疏点,这样在某些局部的异常点较多的时候检测可能不是很准。
现有技术五基于统计的方法检测出来的离群点很可能被不同的分布模型检测出来,但产生这些离群点的机制可能不唯一,解释离群点的意义时经常发生多义性。基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型,模型的参数、离群点的数目等对基于统计的方法都有非常重要的意义,而确定这些参数通常都比较困难。
基于统计的异常检测方法产生离群点的机制不统一,并且所对应的概率分布模型也不统一,造成对于参数的确定十分困难,也就会导致算法的鲁棒性很低。
现有技术六基于距离的离群点,他们把记录看作高维空间中的点,离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点,通常被描述为DB,数据集T中一个记录0称为离群点,当且仅当数据集T中至少有pct部分的数据与0的距离大于dmin。记M=N*(1-pct),离群检测即判断与点0距离小于dmin的点是否多于M。若是则0不是离群点,否则0是离群点。
在对于异常点的确定过程中判断依据或者说标签化信息过少,对比信息不够明确,异常判定依据不足,会造成边缘数据点、信息模糊化的数据点形成较大规模的误判,算法整体鲁棒性较低。
现有技术七提出的基于局部离群因子的异常检测算法LOF是基于密度方法的一个典型例子。它首先产生所有点的MinPts邻域及MinPts距离,并计算到其中每个点的距离;对低维数据,利用网格进行K-NN查询,计算时间为O(n);对中维或中高维数据,采用如X2树等索引结构,使得进行K2NN查询的时间为O(logn),整个计算时间为O(nlogn);对特高维数据,索引结构不再有效,时间复杂度提高到O(n2)。然后计算每个点的局部异常因子,最后根据局部异常因子来挖掘离群。
该算法缺少对于原始数据集的预处理,特别是对于高维数据集未进行预处理会大大提高异常检测过程的时间,增加了算法的时间复杂度。
现有技术八提出了TRAOD算法.该算法迹划分成线段,以线段表示轨迹局部特征(本为基本比较单元),然后使用线段Hausdorf算每两个线段之间的距离以表示其间的从而确定异常轨迹.此外,为了提高算法效RAOD中还给出了一种二阶段划分方法来提效率,即先将轨迹划分成粗粒度的轨迹片段的起始点和终点的连线表示其局寻找异常的粗粒度轨迹片段;然后再将异常度轨迹片段进行线段划分,寻找其中的异常RAOD很好地解决了长轨迹之间不匹配性。在面对非线性可分数据或者说数据集中度较高的数据时不易进行数据分析和异常检测过程。
传统的异常点检测算法如一类神经网络算法等并没有对于原始数据集进行具体的一些预处理操作,基本是采用矩阵化或向量化整个数据集,并且对于数据检测时也是采用完全遍历整个数据集,这样会造成在异常检测过程中对于正常数据点的检测冗余。在异常检测之前应该以一定的方法来减少所要面对的数据检测的数据量,由于主要针对大型数据集进行异常点检测,非异常数据的数据量大幅锐减可以提高检测效率,并且还会增强鲁棒性。
在对处于边缘点和两个子空间相交的面上的异常点没有更好的处理,现有的算法在进行对于数据二分类问题时,例如传统的SVM算法,它采用以超平面最大化支持向量间隔的方式来进行数据的二分类,它有可能会造成将正常数据加入到异常数据集中,很多数据会产生模糊化操作,缺乏更为具体和严谨的异常检测标准,因此对于一些传统的异常检测算法在基于数据处理跟异常过程检测并没有很好地鲁棒性。
传统异常检测算法未对数据进行标签化处理,再对于医学图像的异常点问题分析上,可以将所有人分为正常人和病人,将病人的数据作为异常点数据。在病人数据和正常人数据的比较之中不仅仅只依赖数据的稀疏性和边缘性,还可以通过一些病理特征作为标签再结合上述信息进行异常结果分析,这样可以能够提高异常检测的准确率。
综上所述,现有技术存在的问题是:
(1)现有技术未对原始数据集进行稀疏表达,造成在异常检测过程中对于正常数据点的检测冗余。
(2)现有技术在对处于边缘点和两个子空间相交的面上的异常点没有更好的处理,造成将正常数据加入到异常数据集中,很多数据会产生模糊化操作,缺乏更为具体和严谨的异常检测标准;没有很好地鲁棒性。
(3)传统异常检测算法未对数据进行标签化处理。
解决上述技术问题的难度:
在对于原始数据集数据量较大维度较高的情况下,直接对于原始数据集进行异常检测工作,会造成原始数据集中非异常数据较为集中的部分多次进行异常检测过程,由此造成大量浪费计算资源和花费检测时间,会大大提升算法的时间复杂度和空间复杂度。传统降维算法PCA,特征值分解等也会有大量的数据计算部分,在处理维度很高的数据集时也会捉襟见肘,不易实现。在进行标签化处理过程中,重点在于标签所对应特征的选择,如何选择合适的特征信息作为分类依据,需要进行对比筛选,找到正负样本之间差距最大的特征信息作为分类标签依据。在面对非线性可分数据信息时,直接进行分类会造成部分处于边界的数据丢失,损失掉数据集的完备性。
解决上述技术问题的意义:
大大的降低异常检测算法的时间复杂度和空间复杂度,提升了异常检测算法的鲁棒性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于孤立森林二分类异常点检测方法、信息数据处理终端。
本发明是这样实现的,一种基于孤立森林二分类异常点检测方法,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。
进一步,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:
步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,xn},将数据集Φ以一定规模划分成k个子数据集,将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函数为dc为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。
进一步,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
(2)将原始数据均值密度作为阈值,将均值密度插入到块内密度序列,查询出比均值密度数值更大的子数据集,以分块的具体数量作为步长,以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点,记标签为0;
(3)将标记为0的子数据集去除,以减少异常检测数据量。
进一步,所述第四步对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离具体包括;
(1)对于原始数据集进行相应特征的提取;
(2)将提取的特征信息数据化,并进行聚类操作;
(3)计算聚类中心点与其他点的空间位置距离;
(4)将计算出来的距离呈现为二维数据,将远离坐标原点的点给出一个相应较大权重分数。
进一步,所述第五步将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较具体包括;
(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起,得出最后的异常分数;
(2)将最终的异常分数与相对应的阈值进行比较,若比阈值分数大则记为最后确定的异常数据,反之亦反。
本发明的另一目的在于提供一种应用所述基于孤立森林二分类异常点检测方法的信息数据处理终端。
综上所述,本发明的优点及积极效果为:本发明可以有效的提高异常点检测算法的准确率,能大幅度减少异常检测过程中的实际数据量,从而节省了很多计算资源,并且提高了异常检测效率。在特征提取数据化分析的步骤下能够解决异常检测中的一些过拟合问题。增强了异常检测算法的鲁棒性。本发明在给定数据分类信息时采用软间隔的支持向量机算法,给定一定的容错空间,以此来提高算法的鲁棒性。
附图说明
图1是本发明实施例提供的基于孤立森林二分类异常点检测方法流程图。
图2是本发明实施例提供的数据集分块模型图。
图3是本发明实施例提供的子图动态分配流程图。
图4是本发明实施例提供的子图层叠拼接示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明为解决在数据量较大维度较高的情况下进行异常点检测的问题;孤立森林异常检测算法是一种相对比较复杂、对计算资源要求相对较高的算法,无论是对计算时间还是对内存空间都有较高的要求。随着现代计算机技术的发展,带来数据量的迅猛增长,且异常点检测过程中常常涉及巨大的数据阵列和大规模的数据运算,对异常点检测算法的效率提出了更高要求。在对于高维数据量较大的情况下,首先使用较好的降维方法减轻计算量对于提高异常点检测效率有很大程度的提高,所以对于高维大数据量数据集进行异常检测的算法是很有必要的。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于孤立森林二分类异常点检测方法包括以下步骤:
S101:将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
S102:计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
S103:利用节点的递归方法构建孤立森林;
S104:对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
S105:将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。
下面结合附图对本发明的应用原理作进一步的描述。
本发明实施例提供的基于孤立森林二分类异常点检测方法具体包括以下步骤:
步骤一:数据集分块
将原始数据集进行初始的静态分块。
(1)根据原始数据集Φ={x1,x2,……,xn},将数据集Φ以一定规模划分成k个子数据集,将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集,如图2所示。
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函数为dc为自定义的距离称为截断距离。再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。
步骤二:精简数据集
由于本发明主要针对于数据量较大的数据集,在使用传统异常点检测算法时会有许多不必要的计算占用了计算机CPU计算资源,造成计算效率的降低,并且还提高了错误率。基于传统算法所存在的不足,本发明对于原始数据集进行的精简过程相当于正式做异常检测步骤前的数据预处理阶段。
基本思路是:在计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简。
(1)对于步骤一所计算出来的所有块内密度数据进行排序,从小到大进行整理。
(2)将原始数据均值密度作为阈值,将均值密度插入到块内密度序列,查询出比均值密度数值更大的子数据集,以分块的具体数量作为步长,以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点,记标签为0。
(3)将标记为0的子数据集去除,以减少异常检测数据量。
步骤三:构建孤立森林
孤立森林是一种基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等)。
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点。
(2)随机指定一个维度(attribute),在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间。
(3)以此切割点生成了一个超平面,然后将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子。
(3)在孩子节点中递归步骤二和三,不断构造新的孩子节点,直到孩子节点中只有一个数据(无法再继续切割)或孩子节点已到达限定高度。
步骤四:子数据集特征处理。
子数据集特征处理实质指的是在面对异常数据判断时,不仅仅只考虑数据集密度与距离的问题,还要将一些数据集本身作为异常检测的基准做一个特别详尽的描述信息,将其数据化后作为一个衡量标准。
(1)对于原始数据集进行相应特征的提取。
(2)将提取的特征信息数据化,并对其进行聚类操作。
(3)计算聚类中心点与其他点的空间位置距离。
(4)将计算出来的距离呈现为二维数据,将远离坐标原点的点给出一个相应较大权重分数。
步骤五:双向基准进行异常检测
由于现有算法大部分只是对密度和距离作为异常检测的基准,而没有将数据集本身所具有的一些特征信息作为相同的判断依据,因此将这两方面结合起来作为异常检测过程的双向基准,可以减少数据分类的错误率,提高算法本身所具有的鲁棒性。
(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起,得出最后的异常分数。
(2)将最终的异常分数与相对应的阈值进行比较,若比阈值分数大则记为最后确定的异常数据,反之亦反。
对于数据量较大的数据集,在使用传统异常点检测算法时会有许多不必要的计算占用计算机CPU计算资源,造成计算效率的降低,并且提高了错误率。基于传统算法所存在的不足,本发明对于原始数据集进行的精简过程相当于正式做异常检测步骤前的数据预处理阶段。孤立森林是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。子数据集特征处理实质指的是在面对异常数据判断时,不仅仅只考虑数据集密度与距离的问题,还要将一些数据集本身作为异常检测的基准做一个特别详尽的描述信息,将其数据化后作为一个衡量标准。现有算法大部分只是对密度和距离作为异常检测的基准,而没有将数据集本身所具有的一些特征信息作为相同的判断依据,因此将这两方面结合起来作为异常检测过程的双向基准,可以减少数据分类的错误率,提高算法本身所具有的鲁棒性。
异常检测运用到的领域十分广泛,对于网络安全、信息筛查、有效信息比对等有着十分重要的应用地位。异常检测算法的评价标准有很多,本发明将以异常检测速率和异常度作为主要性能评价信息。本发明的异常检测过程中主要的计算在于距离的计算,主要分为两个部分,第一部分是对于密度大于原数据集均值密度的每个子数据集边缘点的查找计算,选取密集度最高的点为中心点计算其他点距离中心点的距离,找出每个自数据集的边缘点。第二部分是对于特征距离的计算,对于选取的特征信息,以二维数据坐标化,找到数值大于设定阈值的点。基于前期的数据预处理大量的减少了需要异常检测过程的数据量,极大地提高了计算速率。在对于异常度的问题上,因为本发明在考虑是否为异常点时不仅仅以其所在局部区域及整体的密度情况和其所在位置是否为边缘情况,还以该点的特征所占的权重信息作为重要判断依据。以此可以增加算法的鲁棒性及异常检测的准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于孤立森林二分类异常点检测方法,其特征在于,所述基于孤立森林二分类异常点检测方法包括以下步骤:
第一步,将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度;
第二步,计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简;
第三步,利用节点的递归方法构建孤立森林;
(1)从训练数据中随机选择Ψ个点样本点作为subsample,放入树的根节点;
(2)随机指定一个维度,在当前节点数据中随机产生一个切割点p——切割点产生于当前节点数据中指定维度的最大值和最小值之间;
(3)以此切割点生成了一个超平面,将当前节点数据空间划分为2个子空间:把指定维度里小于p的数据放在当前节点的左孩子,把大于等于p的数据放在当前节点的右孩子;
(4)在孩子节点中递归,不断构造新的孩子节点,直到孩子节点中只有一个数据或孩子节点已到达限定高度;
第四步,对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离;
第五步,将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较。
2.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第一步将原始数据集进行初始的静态平均分块,然后计算块内密度和均值密度具体包括:
步骤一,将原始数据集进行初始的静态分块;
(1)根据原始数据集Φ={x1,x2,……,xn},将数据集Φ以一定规模划分成k个子数据集,将子数据集的下标按顺序标记为构成子数据集集合称为基础子数据集,;
(2)将这k个基础子数据集按照分别计算其块内密度,其中密度计算函数为dc为自定义的距离称为截断距离;再计算出原始数据集Φ的均值密度将计算出来的块内密度和均值密度结果进行比较
(3)如果则设置对应的子数据集的标签为1,反之亦反。
3.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第二步的计算出静态分块的各块内密度后,以原数据集的均值密度作为阈值将数据集进行精简具体包括;
(1)对计算出来的所有块内密度数据进行排序,从小到大进行整理;
(2)将原始数据均值密度作为阈值,将均值密度插入到块内密度序列,查询出比均值密度数值更大的子数据集,以分块的具体数量作为步长,以均值密度为起始点加上一定步长为标签数据起始点至块内密度序列结尾点,记标签为0;
(3)将标记为0的子数据集去除,以减少异常检测数据量。
4.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第四步对原始数据集进行相应特征的提取并数据化,计算聚类中心点与其他点的空间位置距离具体包括;
(1)对于原始数据集进行相应特征的提取;
(2)将提取的特征信息数据化,并进行聚类操作;
(3)计算聚类中心点与其他点的空间位置距离;
(4)将计算出来的距离呈现为二维数据,将远离坐标原点的点给出一个相应较大权重分数。
5.如权利要求1所述的基于孤立森林二分类异常点检测方法,其特征在于,所述第五步将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数相加,与相对应的阈值进行比较具体包括;
(1)将由基于密度和距离算出的异常分数及由基于特证信息计算出来的异常分数加在一起,得出最后的异常分数;
(2)将最终的异常分数与相对应的阈值进行比较,若比阈值分数大则记为最后确定的异常数据,反之亦反。
6.一种应用权利要求1~5任意一项所述基于孤立森林二分类异常点检测方法的信息数据处理终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910309830.5A CN110046665A (zh) | 2019-04-17 | 2019-04-17 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910309830.5A CN110046665A (zh) | 2019-04-17 | 2019-04-17 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046665A true CN110046665A (zh) | 2019-07-23 |
Family
ID=67277550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910309830.5A Pending CN110046665A (zh) | 2019-04-17 | 2019-04-17 | 基于孤立森林二分类异常点检测方法、信息数据处理终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046665A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472188A (zh) * | 2019-08-01 | 2019-11-19 | 北方工业大学 | 一种面向传感数据的异常模式检测方法 |
CN110633734A (zh) * | 2019-08-22 | 2019-12-31 | 成都信息工程大学 | 一种基于图论相关理论进行异常检测的方法 |
CN110751196A (zh) * | 2019-10-12 | 2020-02-04 | 东北石油大学 | 一种油水两相流透明管壁内类油滴附着物识别方法 |
CN110807488A (zh) * | 2019-11-01 | 2020-02-18 | 北京芯盾时代科技有限公司 | 一种基于用户对等组的异常检测方法及装置 |
CN111079089A (zh) * | 2019-12-20 | 2020-04-28 | 南京烽火天地通信科技有限公司 | 一种基于区间划分的基站数据异常检测方法 |
CN111090692A (zh) * | 2020-03-23 | 2020-05-01 | 杭州有数金融信息服务有限公司 | 基于地图数据可视化展示热力和散点集成分配方法 |
CN111275547A (zh) * | 2020-03-19 | 2020-06-12 | 重庆富民银行股份有限公司 | 基于孤立森林的风控系统及方法 |
CN111338897A (zh) * | 2020-02-24 | 2020-06-26 | 京东数字科技控股有限公司 | 应用主机中异常节点的识别方法、监测设备和电子设备 |
CN111666169A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN111740856A (zh) * | 2020-05-07 | 2020-10-02 | 北京直真科技股份有限公司 | 基于异常检测算法的网络通信设备告警采集异常预警方法 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN112134862A (zh) * | 2020-09-11 | 2020-12-25 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112581191A (zh) * | 2020-08-14 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
CN112766373A (zh) * | 2021-01-19 | 2021-05-07 | 汉纳森(厦门)数据股份有限公司 | 一种基于车联网下驾驶行为分析方法 |
CN112765236A (zh) * | 2021-01-22 | 2021-05-07 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN112884480A (zh) * | 2021-03-31 | 2021-06-01 | 中国工商银行股份有限公司 | 异常交易识别模型的构造方法、装置、计算机设备和介质 |
CN112905583A (zh) * | 2021-04-01 | 2021-06-04 | 辽宁工程技术大学 | 一种高维大数据离群点检测方法 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113323818A (zh) * | 2021-06-10 | 2021-08-31 | 北京国电思达科技有限公司 | 多类型风机的偏航误差测量方法及装置 |
CN113515450A (zh) * | 2021-05-20 | 2021-10-19 | 广东工业大学 | 一种环境异常检测方法和系统 |
CN113626607A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN113672675A (zh) * | 2021-08-09 | 2021-11-19 | 北京字跳网络技术有限公司 | 数据检测方法、装置和电子设备 |
CN115809404A (zh) * | 2023-02-01 | 2023-03-17 | 北京万里红科技有限公司 | 一种检测阈值计算方法、装置、存储介质及电子设备 |
CN116659826A (zh) * | 2022-08-23 | 2023-08-29 | 国家电投集团科学技术研究院有限公司 | 风电螺栓状态的检测方法及装置 |
CN117747094A (zh) * | 2024-02-21 | 2024-03-22 | 天津市第五中心医院 | 一种妇科疾病临床体征数据的异常检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341514A (zh) * | 2017-07-07 | 2017-11-10 | 成都信息工程大学 | 一种基于联合密度与角度的异常点和边缘点检测方法 |
CN108764307A (zh) * | 2018-05-15 | 2018-11-06 | 江南大学 | 自然最近邻优化的密度峰值聚类方法 |
CN109145957A (zh) * | 2018-07-26 | 2019-01-04 | 国网浙江省电力有限公司温州供电公司 | 基于大数据的配电网异常指标的识别与处理方法及装置 |
-
2019
- 2019-04-17 CN CN201910309830.5A patent/CN110046665A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341514A (zh) * | 2017-07-07 | 2017-11-10 | 成都信息工程大学 | 一种基于联合密度与角度的异常点和边缘点检测方法 |
CN108764307A (zh) * | 2018-05-15 | 2018-11-06 | 江南大学 | 自然最近邻优化的密度峰值聚类方法 |
CN109145957A (zh) * | 2018-07-26 | 2019-01-04 | 国网浙江省电力有限公司温州供电公司 | 基于大数据的配电网异常指标的识别与处理方法及装置 |
Non-Patent Citations (3)
Title |
---|
周云锋: ""基于密度的局部离群点检测算法的研究与应用"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
居永胜: ""基于流形的密度峰值聚类算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
张为金: ""基于机器学习的电力异常数据检测"", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472188A (zh) * | 2019-08-01 | 2019-11-19 | 北方工业大学 | 一种面向传感数据的异常模式检测方法 |
CN111798312B (zh) * | 2019-08-02 | 2024-03-01 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN111798312A (zh) * | 2019-08-02 | 2020-10-20 | 深圳索信达数据技术有限公司 | 一种基于孤立森林算法的金融交易系统异常识别方法 |
CN110633734A (zh) * | 2019-08-22 | 2019-12-31 | 成都信息工程大学 | 一种基于图论相关理论进行异常检测的方法 |
CN110633734B (zh) * | 2019-08-22 | 2022-08-19 | 成都信息工程大学 | 一种基于图论相关理论进行异常检测的方法 |
CN110751196A (zh) * | 2019-10-12 | 2020-02-04 | 东北石油大学 | 一种油水两相流透明管壁内类油滴附着物识别方法 |
CN110751196B (zh) * | 2019-10-12 | 2020-09-18 | 东北石油大学 | 一种油水两相流透明管壁内类油滴附着物识别方法 |
CN110807488A (zh) * | 2019-11-01 | 2020-02-18 | 北京芯盾时代科技有限公司 | 一种基于用户对等组的异常检测方法及装置 |
CN111079089A (zh) * | 2019-12-20 | 2020-04-28 | 南京烽火天地通信科技有限公司 | 一种基于区间划分的基站数据异常检测方法 |
CN111079089B (zh) * | 2019-12-20 | 2023-08-11 | 南京烽火星空通信发展有限公司 | 一种基于区间划分的基站数据异常检测方法 |
CN111338897A (zh) * | 2020-02-24 | 2020-06-26 | 京东数字科技控股有限公司 | 应用主机中异常节点的识别方法、监测设备和电子设备 |
CN111275547A (zh) * | 2020-03-19 | 2020-06-12 | 重庆富民银行股份有限公司 | 基于孤立森林的风控系统及方法 |
CN111090692A (zh) * | 2020-03-23 | 2020-05-01 | 杭州有数金融信息服务有限公司 | 基于地图数据可视化展示热力和散点集成分配方法 |
CN111740856A (zh) * | 2020-05-07 | 2020-10-02 | 北京直真科技股份有限公司 | 基于异常检测算法的网络通信设备告警采集异常预警方法 |
CN111740856B (zh) * | 2020-05-07 | 2023-04-28 | 北京直真科技股份有限公司 | 基于异常检测算法的网络通信设备告警采集异常预警方法 |
CN111666169B (zh) * | 2020-05-13 | 2023-03-28 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN111666169A (zh) * | 2020-05-13 | 2020-09-15 | 云南电网有限责任公司信息中心 | 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN112581191A (zh) * | 2020-08-14 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
CN112134862B (zh) * | 2020-09-11 | 2023-09-08 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112134862A (zh) * | 2020-09-11 | 2020-12-25 | 国网电力科学研究院有限公司 | 基于机器学习的粗细粒度混合网络异常检测方法及装置 |
CN112766373A (zh) * | 2021-01-19 | 2021-05-07 | 汉纳森(厦门)数据股份有限公司 | 一种基于车联网下驾驶行为分析方法 |
CN112765236B (zh) * | 2021-01-22 | 2022-07-05 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN112765236A (zh) * | 2021-01-22 | 2021-05-07 | 武汉斗鱼鱼乐网络科技有限公司 | 自适应异常设备挖掘方法、存储介质、设备及系统 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN112884480B (zh) * | 2021-03-31 | 2024-02-02 | 中国工商银行股份有限公司 | 异常交易识别模型的构造方法、装置、计算机设备和介质 |
CN112884480A (zh) * | 2021-03-31 | 2021-06-01 | 中国工商银行股份有限公司 | 异常交易识别模型的构造方法、装置、计算机设备和介质 |
CN112905583A (zh) * | 2021-04-01 | 2021-06-04 | 辽宁工程技术大学 | 一种高维大数据离群点检测方法 |
CN113515450A (zh) * | 2021-05-20 | 2021-10-19 | 广东工业大学 | 一种环境异常检测方法和系统 |
CN113323818A (zh) * | 2021-06-10 | 2021-08-31 | 北京国电思达科技有限公司 | 多类型风机的偏航误差测量方法及装置 |
CN113323818B (zh) * | 2021-06-10 | 2024-01-19 | 北京国电思达科技有限公司 | 多类型风机的偏航误差测量方法及装置 |
CN113672675A (zh) * | 2021-08-09 | 2021-11-19 | 北京字跳网络技术有限公司 | 数据检测方法、装置和电子设备 |
CN113672675B (zh) * | 2021-08-09 | 2023-12-15 | 北京字跳网络技术有限公司 | 数据检测方法、装置和电子设备 |
CN113626607A (zh) * | 2021-09-17 | 2021-11-09 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN113626607B (zh) * | 2021-09-17 | 2023-08-25 | 平安银行股份有限公司 | 异常工单识别方法、装置、电子设备及可读存储介质 |
CN116659826A (zh) * | 2022-08-23 | 2023-08-29 | 国家电投集团科学技术研究院有限公司 | 风电螺栓状态的检测方法及装置 |
CN116659826B (zh) * | 2022-08-23 | 2024-02-06 | 国家电投集团科学技术研究院有限公司 | 风电螺栓状态的检测方法及装置 |
CN115809404B (zh) * | 2023-02-01 | 2023-05-12 | 北京万里红科技有限公司 | 一种检测阈值计算方法、装置、存储介质及电子设备 |
CN115809404A (zh) * | 2023-02-01 | 2023-03-17 | 北京万里红科技有限公司 | 一种检测阈值计算方法、装置、存储介质及电子设备 |
CN117747094A (zh) * | 2024-02-21 | 2024-03-22 | 天津市第五中心医院 | 一种妇科疾病临床体征数据的异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046665A (zh) | 基于孤立森林二分类异常点检测方法、信息数据处理终端 | |
US11093519B2 (en) | Artificial intelligence (AI) based automatic data remediation | |
CN104021255B (zh) | Cad模型的多分辨率层次表示及层次匹配加权比较方法 | |
CN106708647B (zh) | 大数据环境下的分布式跨维度异常数据检测方法 | |
CN104217213B (zh) | 一种基于对称性理论的医学图像多阶段分类方法 | |
CN112084716B (zh) | 一种基于富营养化综合评价的赤潮预测预警方法 | |
Sun et al. | Patient cluster divergence based healthcare insurance fraudster detection | |
CN112087316B (zh) | 基于异常数据分析的网络异常根源定位方法 | |
Kaur et al. | Survey on clustering techniques in data mining for software engineering | |
Sevastyanov et al. | On methods for improving the accuracy of multi-class classification on imbalanced data. | |
Li et al. | Fast density peaks clustering algorithm based on improved mutual K-nearest-neighbor and sub-cluster merging | |
CN117575635B (zh) | 一种碳指标溯源方法和系统 | |
Hao et al. | VP-Detector: A 3D multi-scale dense convolutional neural network for macromolecule localization and classification in cryo-electron tomograms | |
CN109670015A (zh) | 数据分析方法、计算机可读存储介质及终端设备 | |
Zhang et al. | Multicontext 3D residual CNN for false positive reduction of pulmonary nodule detection | |
CN117272204A (zh) | 异常数据检测方法、装置、存储介质和电子设备 | |
CN110196911B (zh) | 一种民生数据自动分类管理系统 | |
CN110674882A (zh) | 一种基于傅立叶函数变换的异常点检测方法 | |
CN107038593A (zh) | 一种基于防伪溯源系统的异常数据处理方法及系统 | |
Garcia-Lapresta et al. | Consensus-based hierarchical agglomerative clustering in the context of weak orders | |
Pham-Hoang-Nam et al. | Densely Populated Regions Face Masks Localization and Classification Using Deep Learning Models. | |
Dong et al. | Classifiability based pruning of decision trees | |
CN111832475A (zh) | 一种基于语义特征的人脸误检筛除方法 | |
To et al. | Analysis of cardiac imaging data using decision tree based parallel genetic programming | |
Zhang et al. | Improving SVM through a Risk Decision Rule Running on MATLAB. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |
|
RJ01 | Rejection of invention patent application after publication |