CN104462379A - 一种基于距离的高准确率全局离群点检测算法 - Google Patents
一种基于距离的高准确率全局离群点检测算法 Download PDFInfo
- Publication number
- CN104462379A CN104462379A CN201410752163.5A CN201410752163A CN104462379A CN 104462379 A CN104462379 A CN 104462379A CN 201410752163 A CN201410752163 A CN 201410752163A CN 104462379 A CN104462379 A CN 104462379A
- Authority
- CN
- China
- Prior art keywords
- outlier
- distance
- implicit expression
- degree
- peeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于距离的高准确率全局离群点检测算法,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;可以在保留基于距离的通用性的前提下,降低离群点的影响,提高检测准确度。
Description
技术领域
本发明属于数据挖掘领域,尤其涉及一种基于距离的高准确率全局离群点检测算法。
背景技术
离群点也称异常点、异常对象,现在学术界最有影响的定义是Hawkins提出的定义“离群点是数据集中与众不同的数据点,其表现与其它点如此不同,以至于使人怀疑这些数据并非随机的偏差,而是由另外一种完全不同的机制所产生的”。除此之外,每一类离群检测算法都给出相应的离群点定义。离群点检测也称为异常检测、偏差检测或离群点挖掘,它就是按照一定的算法把数据集中的离群点检测出来,例如检测出TOP-n离群点,或者所有符合要求的离群点。换言之,离群点检测就是挖掘海量数据中极少数与主流数据显著不同的点。
基于距离的离群检测算法具有通用性。它不需要用户具有相关领域知识,也不需要假定数据集满足任何特定概率分布模型。一般来说,基于距离的检测算法通常只需要给出对象间的距离度量,而不需要额外信息。在当今大数据Variety(类型)挑战之下,这些先天优势极大地提高了其研究和应用价值,成为学术界一大热门研究领域。如无特别说明,以下仅讨论基于距离的离群点定义及检测算法。
自1998年Knorr和Ng首先提出基于距离的离群点定义之后,学者们纷纷提出各种各样的离群点定义及相应的检测算法。其中最为常用的定义共有三个:及
来源于Knorr和Ng提出的定义DB(p,D)——数据集T中的对象O是一个离群点,当数据集T中至少有P部分对象与O的距离大于D。该定义等价为意为与对象O的距离小于R的对象不多于k个,显然这样的定义更加形象直观。及DB(p,D)都是二元化定义,一个对象要么是离群点,要么是正常点。
是Ramaswamy等人于2000年提出的定义。该定义以对象O与其第k近邻的距离值作为离群度,因此能够排序得出TOP-n离群点,在一定程度上避免了二元化定义精度较差的问题。
是Angiulli等人于2002年提出的定义。该定义与较为相似,它以对象O与其前k近邻的距离之平均值作为离群度,在的基础上进一步提高了精确度,因而成为离群检测算法研究上应用最广泛的定义。
基于定义的检测算法时间复杂度往往较小,且适于分布式环境,因为多数对象只需要本地数据即能判断是否离群点。然而该定义精度较差且无法按离群度排序。克服了无法排序的缺点,且在一定程度上提高了检测准确度,但其准确度仍然较不够理想。相关论文并未作准确度方面的实验。及其等价定义较进一步提高了准确度,当然时间复杂度也相应增加。然而学者们在基于此定义的检测算法研究上侧重于降低时间复杂度或空间复杂度,同样未研究其准确度,事实上,该定义及相应的检测算法准确度都不够理想。
发明内容
本发明提供一种基于距离的高准确率全局离群点检测算法,可以在保留基于距离的通用性的前提下,降低离群点的影响,提高检测准确度。
本发明通过以下技术手段实现:
一种基于距离的高准确率全局离群点检测算法,包含以下步骤:
S1,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;
S2,计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;
S3,根据S2计算的数据块情况维护TOP n离群点队列,更新阀值;
S4,根据S2计算的数据块情况和S3更新的阀值维护隐式离群点候选集;
S5,当所有数据块都按照S2-S4步骤计算完后,从候选集剔除最大离群点并加入TOP n隐式离群点;如果候选集中对象的近邻含有当前最后一个隐式离群点,则删除该近邻;
S6,以离群度从候选集中计算新的最大离群点,并将其加入TOP n隐式离群点,同时从候选集中剔除;如果隐式离群点数量小于n,则重复S5、S6,否则输出TOP n隐式离群点。
其中,所述的隐式离群点为按照定义,每检测出一个离群点,执行(TOP-1),剔除后再继续检测下一个离群点,直到检测出所有离群点。
本发明的优点主要体现在离群点检测准确率方面,具体包括以
下三方面:
(1)若离群点是有序的,则检测出的离群点顺序较好。
(2)给定n值,即检测相同数量的TOP n离群点,其中检测出的真实离群点数量较多。
(3)给定拟检测出的真实离群点数量s,所需检测的TOP n离群点数量较传统的基于距离的离群点检测算法小。
附图说明
图1为简单的二维对象数据集示意图。
具体实施方式
以下将结合附图对本发明具体的实施过程进行详细描述。
一种基于距离的高准确率全局离群点检测算法,按以下步骤实现:
S1,将全局数据集以分块方式进行检测,每检测的一块数据称为一个数据块;
S2,计算所读取数据块中每个对象p与全局数据集每个对象的距离,同时计算对象p的离群度和隐式离群度,一旦发现该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;
S3,根据S2计算的数据块情况维护TOP n离群点队列,更新阀值;
S4,根据S2计算的数据块情况和S3更新的阀值维护隐式离群点候选集;
S5,当所有数据块都按照S2-S4步骤计算完后,从候选集剔除最大离群点并加入TOP n隐式离群点;如果候选集中对象的近邻含有当前最后一个隐式离群点,则删除该近邻;
S6,以离群度从候选集中计算新的最大离群点,并将其加入TOP n隐式离群点,同时从候选集中剔除;如果隐式离群点数量小于n,则重复S5、S6,否则输出TOP n隐式离群点。
其中,所述的隐式离群点为按照定义,每检测出一个离群点,执行(TOP-1),剔除后再继续检测下一个离群点,直到检测出所有离群点。
具体来说,如图1所示的一个简单的二维对象数据集,拟检测近邻数量为2的2个离群点(即k=2,n=2)。若按传统最准确的定义及算法,即以对象与其2个最近邻的距离之和为离群度,那么TOP 2离群点(离群度最大的2个离群点)就是对象d、g,其离群度分别为5.242和5.064,对象c的离群度为4.606而排到第三,从而未能进入TOP2。
然而,对象c的离群度显然也较大,因为其比对象g更加远离对象a、b、e、f组成的簇,但因其受离群点d的影响(将其作为最近邻计算离群度)而未能被检测出。本发明的离群点定义及检测算法则能够在检测出对象d之后,剔除它,再检测下一个离群点,从而尽量减少离群点对后续检测的影响。
具体实施过程如下:
(1)读取数据,分块处理,逐个检测3个最近邻(k+n-1=3),假设数据存储的顺序为a、b、c、d、e、f、g,同时假设每次处理的数据块大小为3个对象,离群度阀值wk(Dn,k,D)初始化为0。则第一次处理的数据块包括对象a、b、c,以全局数据集的对象(a、b、c、d、e、f、g)逐个与数据块的每个对象计算距离,从而获得数据块的每个对象的3个最近邻,以其离群度wk(p,D)更新阀值,再按照此阀值来更新隐式离群点候选集(最大可能离群度大于或等于此阀值的对象就加入候选集,小于此阀值则剔除)。具体来说,对象a、b、c的离群度分别为2、2、4.606,最大可能离群度分别为2.414、2.414、7.848,因而TOP 2离群点为c、b,阀值D2-outlier为2(即为第2大离群点的离群度)。因此时对象a、b、c的最大可能离群度都大于阀值,故都加入隐式离群点候选集(以下简称候选集)。
(2)处理第二个数据块,即对象d、e、f,同样以全局数据集的对象(a、b、c、d、e、f、g)逐个与数据块的每个对象计算距离,得到d、e、f的离群度分别为5.242、2、2,最大可能离群度分别为9.242、2.414、2.414,这时TOP 2离群点更新为d、c,阀值更新为4.606,故d加入候选集,而a、b从候选集剔除。
(3)处理第三个数据块,即对象g,同样以全局数据集的对象逐个与其计算距离,得对象g的离群度为5.064,最大可能离群度5.99,故TOP 2离群点更新为d、g,阀值更新为5.064。g加入候选集。
(4)此时候选集中共有c、d、g三个对象。离群度最大的对象,同时也是离群度最大的隐式离群点,是d。剔除d之后,候选集中剩下c、g,因前面的计算,分别存储有3个最近邻信息,分别检查它们的3个最近邻是否含有d,若有则剔除。显然c的最近邻就有d,而g则没有。于是c的最近邻剔除d之后,其离群度(剔除了已检出的离群点的离群度也称为隐式离群度)更新为7.848,而g仍为5.064,因而c的离群度较g高,成为第二大的离群点。
(5)综上,TOP 2隐式离群点为d、c。另外,在以全局数据集的对象逐个与数据块的对象计算距离时,是实时计算最大可能离群度的,若全局数据集还没扫描完就已发现最大可能离群度小于阀值,则提前从数据块中剔除,不再继续计算距离。
由上可知,以上对隐式离群点定义及对全局离群点检测算法,可以在保留基于距离的通用性的前提下,降低离群点的影响,提高检测准确度。
Claims (2)
1.一种基于距离的高准确率全局离群点检测算法,包含以下步骤:
S1,将全局数据集以分块方式进行检测,被检测的每一块数据称为一个数据块;
S2,计算所读取数据块中每个对象p与全局数据集内每个对象的距离,同时计算对象p的离群度和隐式离群度,如果该对象的隐式离群度小于阀值,则从数据块中剔除而不再继续计算其与全局数据集剩余对象的距离;
S3,根据S2计算的数据块情况维护TOP n离群点队列,更新阀值;
S4,根据S2计算的数据块情况和S3更新的阀值维护隐式离群点候选集;
S5,当所有数据块都按照S2-S4步骤计算完后,从候选集剔除最大离群点并加入TOP n隐式离群点;如果候选集中对象的近邻含有当前最后一个隐式离群点,则删除该近邻;
S6,以离群度从候选集中计算新的最大离群点,并将其加入TOP n隐式离群点,同时从候选集中剔除;如果隐式离群点数量小于n,则重复S5、S6,否则输出TOP n隐式离群点。
2.根据权利要求1所述的基于距离的高准确率全局离群点检测算法,其特征在于:所述的隐式离群点为按照定义,每检测出一个离群点,执行(TOP-1),剔除后再继续检测下一个离群点,直到检测出所有离群点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410752163.5A CN104462379A (zh) | 2014-12-10 | 2014-12-10 | 一种基于距离的高准确率全局离群点检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410752163.5A CN104462379A (zh) | 2014-12-10 | 2014-12-10 | 一种基于距离的高准确率全局离群点检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462379A true CN104462379A (zh) | 2015-03-25 |
Family
ID=52908414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410752163.5A Pending CN104462379A (zh) | 2014-12-10 | 2014-12-10 | 一种基于距离的高准确率全局离群点检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462379A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017185296A1 (zh) * | 2016-04-28 | 2017-11-02 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
CN107402547A (zh) * | 2017-08-29 | 2017-11-28 | 北京易沃特科技有限公司 | 基于离群点分析的设备异常检测方法及系统 |
CN107798338A (zh) * | 2017-09-28 | 2018-03-13 | 佛山科学技术学院 | 一种大数据密集支撑点快速选取方法 |
CN105117485B (zh) * | 2015-09-17 | 2018-07-20 | 深圳大学 | 一种基于k甚近邻的高准确率全局离群点检测算法 |
CN109033236A (zh) * | 2018-07-04 | 2018-12-18 | 中国农业银行股份有限公司 | 一种数据抽样方法及装置 |
CN110032954A (zh) * | 2019-03-27 | 2019-07-19 | 成都数之联科技有限公司 | 一种钢筋智能识别与计数方法及系统 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
CN117650995A (zh) * | 2023-11-28 | 2024-03-05 | 佛山科学技术学院 | 一种基于离群检测的数据传输异常识别方法 |
US11985153B2 (en) | 2021-09-22 | 2024-05-14 | The Toronto-Dominion Bank | System and method for detecting anomalous activity based on a data distribution |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179759A1 (en) * | 2009-01-14 | 2010-07-15 | Microsoft Corporation | Detecting Spatial Outliers in a Location Entity Dataset |
US20100225532A1 (en) * | 2009-03-06 | 2010-09-09 | France Peter G | Outlier detection by cross-comparison of different position solution types |
WO2012135014A2 (en) * | 2011-03-25 | 2012-10-04 | Tk Holdings Inc. | Image sensor calibration system and method |
CN103268431A (zh) * | 2013-05-21 | 2013-08-28 | 中山大学 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
CN103559420A (zh) * | 2013-11-20 | 2014-02-05 | 苏州大学 | 一种异常检测训练集的构建方法及装置 |
-
2014
- 2014-12-10 CN CN201410752163.5A patent/CN104462379A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100179759A1 (en) * | 2009-01-14 | 2010-07-15 | Microsoft Corporation | Detecting Spatial Outliers in a Location Entity Dataset |
US20100225532A1 (en) * | 2009-03-06 | 2010-09-09 | France Peter G | Outlier detection by cross-comparison of different position solution types |
WO2012135014A2 (en) * | 2011-03-25 | 2012-10-04 | Tk Holdings Inc. | Image sensor calibration system and method |
CN103268431A (zh) * | 2013-05-21 | 2013-08-28 | 中山大学 | 一种基于学生t分布的癌症亚型生物标志物检测系统 |
CN103559420A (zh) * | 2013-11-20 | 2014-02-05 | 苏州大学 | 一种异常检测训练集的构建方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117485B (zh) * | 2015-09-17 | 2018-07-20 | 深圳大学 | 一种基于k甚近邻的高准确率全局离群点检测算法 |
WO2017185296A1 (zh) * | 2016-04-28 | 2017-11-02 | 深圳大学 | 一种基于多支撑点索引的离群检测方法及其系统 |
CN107402547A (zh) * | 2017-08-29 | 2017-11-28 | 北京易沃特科技有限公司 | 基于离群点分析的设备异常检测方法及系统 |
CN107798338A (zh) * | 2017-09-28 | 2018-03-13 | 佛山科学技术学院 | 一种大数据密集支撑点快速选取方法 |
CN107798338B (zh) * | 2017-09-28 | 2021-03-26 | 佛山科学技术学院 | 一种大数据密集支撑点快速选取方法 |
CN109033236A (zh) * | 2018-07-04 | 2018-12-18 | 中国农业银行股份有限公司 | 一种数据抽样方法及装置 |
CN110032954A (zh) * | 2019-03-27 | 2019-07-19 | 成都数之联科技有限公司 | 一种钢筋智能识别与计数方法及系统 |
CN110287238A (zh) * | 2019-06-26 | 2019-09-27 | 广东奥博信息产业股份有限公司 | 一种基于先验知识的异常水质检测方法及系统 |
US11985153B2 (en) | 2021-09-22 | 2024-05-14 | The Toronto-Dominion Bank | System and method for detecting anomalous activity based on a data distribution |
CN117650995A (zh) * | 2023-11-28 | 2024-03-05 | 佛山科学技术学院 | 一种基于离群检测的数据传输异常识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462379A (zh) | 一种基于距离的高准确率全局离群点检测算法 | |
KR102424803B1 (ko) | 터치 분류 | |
CN104142984B (zh) | 一种基于粗细粒度的视频指纹检索方法 | |
CN105117485B (zh) | 一种基于k甚近邻的高准确率全局离群点检测算法 | |
CN107766791A (zh) | 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置 | |
CN110222673B (zh) | 一种基于头部检测的客流统计方法 | |
CN105469397B (zh) | 一种基于系数矩阵分析的目标遮挡检测方法 | |
CN102509109B (zh) | 一种唐卡图像与非唐卡图像的区分方法 | |
CN108154158B (zh) | 一种面向增强现实应用的建筑物图像分割方法 | |
CN103020321B (zh) | 近邻搜索方法与系统 | |
CN101697229A (zh) | 一种医学图像的感兴趣区域提取方法 | |
CN110070560A (zh) | 基于目标检测的物体运动方向识别方法 | |
US9881045B2 (en) | System and method for processing data | |
CN111368867A (zh) | 档案归类方法及系统、计算机可读存储介质 | |
CN104598566B (zh) | 运动目标的关联规则分析方法及系统 | |
CN110363730A (zh) | 一种基于颜色直方图峰值的自适应超像素分割方法 | |
CN107679029B (zh) | 一种英文域名相似度检测方法 | |
CN109284409A (zh) | 基于大规模街景数据的图片组地理定位方法 | |
Prasad et al. | An ellipse detection method for real images | |
CN106950527A (zh) | 一种多基线干涉仪测向体制下的脉冲信号分选方法 | |
Emami et al. | Online failure detection and correction for CAMShift tracking algorithm | |
CN104504714B (zh) | 图像共显著物体的检测方法 | |
JP6076113B2 (ja) | 航跡相関装置 | |
CN104008146B (zh) | 一种基于共同视觉模式的图像查询扩展方法及系统 | |
CN114581013A (zh) | 基于非结构化区块链特征的物理可信溯源仓储管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |