CN107256237A - 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 - Google Patents
基于动态网格优化的lof聚类数据异常点检测方法和检测系统 Download PDFInfo
- Publication number
- CN107256237A CN107256237A CN201710368273.5A CN201710368273A CN107256237A CN 107256237 A CN107256237 A CN 107256237A CN 201710368273 A CN201710368273 A CN 201710368273A CN 107256237 A CN107256237 A CN 107256237A
- Authority
- CN
- China
- Prior art keywords
- grid
- region
- data
- vector
- lof
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统,其中检测方法包括如下步骤:1、根据初始单元网格向量M0和增长向量△p,得到最优单元网格向量Mopt;2、根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;3、对步骤2中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格G′d和稀疏区域网格G′s;将稀疏区域网格G′s加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;4、对数据空间的稀疏区域Regions应用LOF算法检测异常点。该方法通过动态网格缩小了LOF算法的运算数据量,极大地降低了LOF算法的计算时间。
Description
技术领域
本发明属于数据挖掘领域,主要涉及数据异常点检测方法和检测系统。
背景技术
随着大数据时代的到来,如何有效和高效地分析并挖掘包含在这些大规模数据集中的信息具有重要意义。在大规模的数据库数据集包含的信息中,数据异常点往往包含着潜在的有价值的信息。异常点检测作为数据挖掘的一个重要的研究分支,其主要功能是从庞大而复杂的数据中提取与主流数据有着极大区别同时数量极少的数据。目前研究人员已提出了大量异常点检测算法,主要包括基于统计分布的方法、基于距离的方法以及基于聚类的检测方法等。然而现有的大多数异常点算法都具有时间复杂度高,在处理大规模数据时往往会花费很大的时间和空间。此外,目前大多数数据挖掘软件对待检测的数据库环境具有较高的依赖性,通用性差。暂不存在能对任意基础数据库进行数据异常点自动挖掘的软件,极大限制了异常点检测的应用。
发明内容
发明目的:针对现有技术中存在的问题,本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统,所述检测方法通过动态网格缩小了LOF算法的运算数据量,极大地降低了LOF算法的计算时间。
技术方案:本发明采用如下技术方案:
首先,本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法,包括如下步骤:
(1)根据初始单元网格向量M0和增长向量△p,得到最优单元网格向量Mopt;
(2)根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;
(3)对步骤(2)中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格Gd′和稀疏区域网格Gs′;将稀疏区域网格Gs′加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;
(4)对数据空间的稀疏区域Regions应用LOF算法检测异常点。
优选地,步骤(1)中计算最优单元网格向量Mopt步骤如下:
(1.1)n维数据空间的边界表示为S(s1,s2,…,sn),根据初始单元网格向量M0(m1,m2,…,mn)和增长向量△p(△p1,△p2,…,△pn)生成单元网格向量集合Φ:
Φ{M0,M1,1,…,M1,l1,M2,1,…,M2,l2,…,Mn,1,Mn,ln};
其中Mi,j为Mi,j(m1,...,mi+△pi*j,...,mn),且1≤i≤n,1≤j≤max(l1,...,ln),mi+△pi*j≤si;
(1.2)根据集合Φ中的单元网格向量将n维数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt,计算如下比值:
过渡区域内网格与稠密区域内网格的数据量比p1=G1:C1;
过渡区域内网格与稀疏区域内网格的数据量比p2=G1:X1;
遍历单元网格向量集合Φ中的单元网格向量,得到p1取最小值时的单元网格向量M1和p2取最小值时的单元网格向量M2;
(1.3)如果M1=M2,则最优单元网格向量Mopt为M1;
如果M1≠M2,则最优单元网格向量Mopt=(M1+M2)/2。
优选地,根据选定的单元网格向量将数据空格划分为N个网格,统计每个网格内的数据量,并按数据量从大到小对网格进行排序;
所述稠密区域为数据量最大的前个网格组成的区域;
所述稀疏区域为数据量最小的前个网格组成的区域;
所述过渡区域为除稠密区域和稀疏区域外剩余的网格组成的区域。
具体地,n维空间中的网格点Pd1,d2,...,dn的网格周边密度比向量F为一个3n-1维的向量,向量元素为n维空间中与网格点Pd1,d2,...,dn相邻的3n-1个网格内的数据量与网格点Pd1,d2,...,dn内的数据量之比。
具体地,步骤(4)应用LOF算法检测异常点包括如下步骤:
(4.1)计算数据空间的稀疏区域Regions中每个数据点的k距离k-distance(p),其中p为属于Regions中的数据点;
(4.2)计算数据空间的稀疏区域Regions中每个数据点p的k距离邻域Nk(p);
(4.3)计算Nk(p)到数据点p的局部可达密度Irdk(p);
(4.4)计算数据点p的局部异常因子LOFk(p);根据LOFk(p)的值判断数据点p是否为异常点。
优选地,如果数据空间的维数n大于3,先将数据空间进行降维,使维数小于等于3,然后再进行异常点检测。
其次,本发明还公开了一种应用上述基于动态网格优化的LOF聚类数据异常点检测系统,包括数据源配置模块、属性配置模块、算法检测模块;
所述数据源配置模块用于用户配置需要检测的数据信息;
所述属性配置模块用于判断属性间的相互独立性,;
所述算法检测模块用于对属性间为非函数关系且相关性高的数据应用上述基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点。
优选地,所述数据异常点检测系统还包括异常点显示模块,用于显示检测出的异常点。
优选地,所述数据异常点检测系统还包括规则检测模块,在算法检测模块进行异常点检测之前对数据进行简单的规则检测。
有益效果:与现有技术相比,本发明公开的数据异常点检测方法具有以下优点:1、适用范围广,不拘泥于某种特定环境下的数据库环境。对任意大规模的数据,都可以采用本发明对其进行检测;2、对于具有非函数的强属性关系,采用基于动态网格的LOF聚类检测算法,计算出信息含量高的数据点的异常程度,极大的降低了LOF算法的计算时间;3、动态网格优选部分运算简单,计算量小,但大大缩小了LOF算法的运算量。
附图说明
图1是二维空间数据点分布图;
图2是取单元网格向量M0(m1,m2)对二维数据空间划分的示意图;
图3是取单元网格向量M′(m1+△m,m2)对二维数据空间划分的示意图;
图4是基于二维正态分布函数生成1000个数据点分布图;
图5是基于固定单元网格算法划分图;
图6是基于动态单元网格算法划分图;
图7是自动检测软件流程图。
具体实施方式
本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和应用该方法的检测系统,下面以二维空间数据集的异常点检测为例,结合附图进一步阐明本发明。
首先本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法,包括如下步骤:
(1)根据初始单元网格向量M0(m1,m2)和增长向量△p(△p1,△p2),得到最优单元网格向量Mopt;
根据一个选定的单元网格向量可以将数据空间划分为多个网格,如图1所示,为二维空间中一个数据集的分布图。数据空间内各个维度的单位长度划分是独立的,取一个较小的单元网格向量M0(m1,m2)作为初始的单元网格向量对数据空间进行划分,如图2所示;对M0(m1,m2)中表示水平方向的维度给定一个增量,得到新的单位网格向量M′(m1+△m,m2),按照M′对数据空间重新进行划分,如图3所示。不同的单元网格向量代表了数据空间不同的划分方式,导致每个网格中数据量不同,根据每个网格中的数据量将数据空间划分为稠密区域、稀疏区域和过渡区域。
设根据选定的单元网格向量将数据空格划分为N个网格,统计每个网格内的数据量,并按数据量从大到小对网格进行排序;定义数据量最大的前个网格组成的区域为稠密区域;数据量最小的前个网格组成的区域为稀疏区域;除稠密区域和稀疏区域外剩余的网格组成的区域为过渡区域。
步骤(1)通过遍历来寻找一个较优的单位网格向量,使得过渡区域内网格与稀疏区域内网格的数据量比和过渡区域内网格与稀疏区域内网格的数据量比都尽量小。具体步骤如下:
(1.1)2维数据空间的边界表示为S(s1,s2),根据初始单元网格向量M0(m1,m2)和增长向量△p(△p1,△p2)生成单元网格向量集合Φ;
首先对M0第一个维度以△p1为单位做增量,生成一系列单位网格向量:M1,1(m1+△p1,m2)、M1,2(m1+△p1*2,m2)、……、M1,l1(m1+△p1*l1,m2);m1+△p1*l1满足小于等于2维数据空间第一维度的边界s1;同样对M0第二个维度以△p2为单位做增量,生成一系列单位网格向量:M2,1(m1,m2+△p2)、M2,2(m1,m2+△p2*2)、……、M2,l2(m1,m2+△p2*l2);m2+△p2*l2满足小于等于2维数据空间第二维度的边界s2;
由此得到集合Φ{M0,M1,1,…,M1,l1,M2,1,…,M2,l2};
(1.2)根据集合Φ中的单元网格向量将2维数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt,计算如下比值:
过渡区域内网格与稠密区域内网格的数据量比p1=G1:C1;
过渡区域内网格与稀疏区域内网格的数据量比p2=G1:X1;
其中G1为过渡区域内所有网格中的数据量总和;C1为稠密区域内所有网格中的数据量总和;X1为稀疏区域内所有网格中的数据量总和。
遍历单元网格向量集合Φ中的单元网格向量,得到p1取最小值时的单元网格向量M1和p2取最小值时的单元网格向量M2;
(1.3)设
如果M1=M2,则最优单元网格向量Mopt为M1;
如果M1≠M2,则最优单元网格向量Mopt=(M1+M2)/2,此时
(2)根据步骤(1)得到的最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;
(3)对步骤(2)中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格Gd′和稀疏区域网格Gs′;将稀疏区域网格Gs′加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;
n维空间中的网格点Pd1,d2,...,dn的网格周边密度比向量F为一个3n-1维的向量,向量元素为n维空间中与网格点Pd1,d2,...,dn相邻的3n-1个网格内的数据量与网格点Pd1,d2,...,dn内的数据量之比。
本实施例以二维数据空间为例,如表1所示,网格A为中心网格,包含的数据量为a,周边相邻网格有8个:B1,B2,B3,B4,B5,B6,B7,B8,每个网格区域内的数据量分别为b1,b2,b3,b4,b5,b6,b7,b8。网格周边密度比向量
表1
B1 | B2 | B3 |
B8 | A | B4 |
B7 | B6 | B5 |
网格A中的数据量与其周边相邻网格的数据量越接近,则表示网格A中的数据为异常数据的可能性越小;反之,如果网格A中的数据量与其周边相邻网格的数据量差异越大,则网格A中的数据越有可能为异常数据。
本实施例以两个网格数据量之比在[0.9,1.1]范围内为数据量接近,在此范围之外为数据量差异较大;网格A与周边8个相邻网格的数据量进行比较,如有5个或以上数据量接近,则认为网格A与周边网格数据量接近。
由此,如果网格周边密度比向量中有5个或以上元素的值在[0.9,1.1]范围内,则将网格A标记为稠密区域网格;否则,将网格A标记为稀疏区域网格。
对过渡区域的网格都进行了标记后,将其中的稀疏区域网格加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions。
(4)对数据空间的稀疏区域Regions应用LOF算法检测异常点;
LOF(Local Outlier Factor,局部异常因子算法)是一种基于距离的异常检测算法。本发明应用LOF算法对数据空间的稀疏区域Regions中的数据点进行检测,具体包括如下步骤:
(4.1)计算数据空间的稀疏区域Regions中每个数据点的k距离k-distance(p),其中p为属于Regions中的数据点;
对任意给定的自然数k,数据点p的k距离k-distance(p)定义如下:
在数据的样本空间D内,存在对象o,它与对象p之间的距离记作d(p,o);如果满足以下两条件:
(A)在样本空间内,至少存在k个对象qi,i∈[1,..,k],且qi≠p,使得d(p,qi)≤d(p,o);
(B)在样本空间内,最多存在k-1个对象rj,j∈[1,..,k-1],且rj≠p,使得d(p,rj)≤d(p,o);
则认为k距离k-distance(p)=d(p,o)。本发明中,数据的样本空间D即为数据空间的稀疏区域Regions。
显而易见,若采用k距离k-distance(p)来量化对象p的局部空间范围,对于对象密度越大的区域,k距离k-distance(p)的值就越大。对于密度越小的区域,k距离k-distance(p)的值就越小。
(4.2)计算数据空间的稀疏区域Regions中每个数据点p的k距离邻域Nk(p);
数据点p的k距离邻域定义如下:
对已知的数据点p的k距离k-distance(p),数据对象p的第k距离邻域是指数据样本空间D内所有与对象p的距离小于或者等于k-distance(p)的数据对象的集合,即:
Nk-distance(p)={qi|d(p,qi)≤k-distance(p),qi∈D}(1)
其中Nk-distance(p)记作Nk(p);
(4.3)计算集合Nk(p)到数据点p的局部可达密度Irdk(p);
局部可达密度Irdk(p)的计算如下:
其中reach_distk(p,o)为数据点p相对于数据点o的可达距离,计算如下:
reach_distk(p,o)=max(k-distance(o),d(p,o))(3)
由定义可知,当对象p与对象o的距离超过p的k距离k-distance(p),则两者的可达距离就是两个对象之间的距离;当对象p与对象o的距离小于p的k距离k-distance(p),则两者的可达距离就是对象o的k距离。
(4.4)计算数据点p的局部异常因子LOFk(p);根据LOFk(p)的值判断数据点p是否为异常点;
局部异常因子LOFk(p)可以表示数据对象的局部离群程度,计算如下:
若p的局部异常程度越小,那么LOFk(p)越接近于1;相反,若p的局部异常程度越大,那么LOFk(p)越远离于1。通过LOF算法能在数据分布不均匀的情况下准确的发现异常点。
当数据空间的维数过大时,算法的准确度会下降,为解决这个问题,如果数据空间的维数n大于3,先将数据空间进行降维,使维数小于等于3,然后再进行异常点检测。
下面选取LOF算法和固定单元格LOF作为对比方法,对本发明所公开的异常点检测方法的网格划分后效果、运行时间、精确度进行分析。试验平台配置:Intel Core i5,2.7GHz,内存4GB,Windows XP操作系统,编程环境为MyEclipse。
(1)网格划分效果
本实施例基于二维正态分布函数生成1000个数据点。以原点(0,0)为二维正态分布的中心,x和y的取值范围都在[0,90]内。如图4所示。
采用的网格的基础宽度W=7,增量为1,即初始单元网格向量M0(7,7),增长向量△p(1,1)。固定网格划分采用单元网格宽度为9,即单元格为9×9。
采用本发明所公开的异常点检测方法,其中动态单元网格算法划分计算出过渡区域网格与稠密网格区域数值比p1,过渡区域网格与稀疏网格区域数值比p2如表1所示。
表1不同单元网格宽度下p1、p2
单元网格宽度 | 过渡区域与稠密区域比p1 | 过渡区域与稀疏区域比p2 |
N=8 | 0.242656 | 7.03703 |
N=9 | 0.22459 | 7.4583 |
N=10 | 0.22264 | 4.48717 |
N=11 | 0.19419 | 2.9056 |
N=12 | 0.17618 | 4.53125 |
N=13 | 0.18898 | 4.57236 |
根据表1中p1和p2的数值信息,当p1和p2的值越小,过渡区域就越薄。因此基于动态单元网格算法选取单元网格宽度为11时,效果最好。采用动态单元网格划分和固定单元网格划分效果如图5所示。
图5和图6中,圆形数据集点代表的是稠密网格区域中所包含的点,星形数据集点代表在稀疏网格区域所包含的点。根据两图对比,明显可以看出基于动态单元网格算法所分离出的稀疏区域点的数量明显少于基于固定单元网格算法分离出的稀疏区域点,这样可以极大的降低LOF算法的时间。
(2)运行时间
采用基于二维正态分布函数生成数据,记录在不同的数据量的情况下,分别执行固定网格单元和动态单元网格算法。每种算法分别执行5次,记录其执行平均执行时间,如表2所示。
表2不同数量集两种算法执行时间
数量级 | 基于固定单元网格 | 基于动态单元网格 |
500 | 875ms | 824ms |
1000 | 1743ms | 1522ms |
3000 | 5143ms | 4133ms |
5000 | 9148ms | 6143ms |
基于固定单元网格算法采用的单元网格宽度为9,阈值是网格数据点数的平均值。基于动态的单元网格算法采用的单元网格宽度为13,11,8,6。根据表中算法执行的时间可以看出,固定单元网格不能良好的适用不同密度情况下网格的划分。相比于固定单元网格划分,基于动态单元网格算法适用性要强,执行的时间明显要低于基于固定单元网格算法的时间。
(3)检测精确度
为了测试两种算法的精确度,还是采用采用基于二维正态分布函数生成数据,记录在不同数据量的情况下,分别执行固定单元网格、动态单元网格算法和LOF算法,并记录其检测出异常点的个数分别为M1、M2、MLOF,如表3所示。算法精度η采用以下公式计算:
表3不同数量级两种算法的精度
数量集 | 500 | 1000 | 3000 | 5000 |
固定网格检测的异常点 | 43 | 78 | 192 | 326 |
动态网格检测的异常点 | 42 | 82 | 263 | 452 |
LOF检测的异常点 | 51 | 84 | 271 | 491 |
固定网格精度 | 0.843 | 0.928 | 0.708 | 0.721 |
动态网格精度 | 0.823 | 0.976 | 0.9704 | 0.920 |
根据表3的结果,采用固定网格划分时,数据集密度不一样,划分效果差距很大。网格宽度过宽,会将异常点划分到稠密区域。动态单元网格划分降低了这样的错误。所以其精度基本保持在90%以上。
综上所述,从网格划分上来看,采用动态单元网格方法,可以动态的选取单元网格宽度。根据不同的数据集和不同数据集的量级来改变单元网格宽度。从而大幅度的减少稀疏区域网格中数据集点的数量。从时间复杂度上来看,由于采用了动态网格划分,极大减少了使用LOF算法处理的数量级,从而减少了整个异常点检测算法的时间。从精度上来看,采用动态的单元网格划分,选取一个合适的单元网格宽度,尽最大可能的减少了过渡区域的数据级。采用网格周边密度比向量,对过渡区域网格处理,将过渡区域中密度较高的区分出来。这样尽可能将存在异常点的网格和存在正常点的网格区分出来,从而提高算法的精确度。
本发明还公开了一种应用上述基于动态网格优化的LOF聚类数据异常点检测方法的数据异常点检测系统,包括数据源配置模块、属性配置模块、规则检测模块、算法检测模块;异常点显示模块。
其中数据源配置模块用于用户配置需要检测的数据信息;如果是对数据库中的数据进行检测,需要配置数据库类型、地址、端口、用户名、密码等信息,并且连接到要检测的数据库。
属性配置模块用于判断属性间的相互独立性;
用户选择数据的多种属性,之后对所选的属性判断属性间的相互独立性。例如对于人体健康方面的参数,用户手动选择身高、体重、血压等属性,之后根据概率统计学中判断相互独立事件公式P(X1,X2,...,Xn)=P(X1)P(X2)…P(Xn)判断不同属性间是否具有相互独立性。如果等式两端的差值小于某一阈值,认为被检测属性间相互独立;反之,认为被检测属性具有相关性。依次计算出所有的属性的相关性,将具有相关性的属性匹配对选取出来,作为后续规则检测和算法检测的检测对象。
规则检测模块在算法检测模块进行异常点检测之前对数据进行简单的规则检测;依据程序给定的规则如空值检测,重复检测等对数据库中所有的数据进行简单的规则检测,挑出不符合规则检测的所有数据点,这些数据点属于异常点。如空值检测就是检测数据库内所有表或者视图的某个属性是否存在空值的数据。
算法检测模块用于对属性间为非函数关系且相关性高的数据应用上述基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点;
算法检测模块主要分为两部分,首先判断数据的属性间是否具有函数关系,对给定的属性匹配对进行回归和拟合分析,计算数据和函数关系匹配程度,如果匹配程度高于某一个阈值,则认为数据具有函数关系,否则认为数据不具有函数关系。其次对属性间不具有函数关系的数据进行异常点检测,根据概率统计学相互独立公式,计算相互独立程度。相互独立程度越高,说明数据间相关性弱,反之越高。对相关性高的数据,采用基于动态网格的LOF算法来进行聚类,检测出离群程度大的异常点。对相关性弱的数据集,采用高斯检测来检测出偏离大的异常点。
为了更加直观地显示检测结果,还包括异常点显示模块,用于显示检测出的异常点。
Claims (9)
1.一种基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,包括如下步骤:
(1)根据初始单元网格向量M0和增长向量Δp,得到最优单元网格向量Mopt;
(2)根据最优单元网格向量Mopt将数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt;
(3)对步骤(2)中得到的过渡区域Rt中的每一个网格,根据网格周边密度比向量F划分为稠密区域网格G′d和稀疏区域网格Gs′;将稀疏区域网格Gs′加入到稀疏区域Rs中,组成数据空间的稀疏区域Regions;
(4)对数据空间的稀疏区域Regions应用LOF算法检测异常点。
2.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,步骤(1)中计算最优单元网格向量Mopt步骤如下:
(1.1)n维数据空间的边界表示为S(s1,s2,…,sn),根据初始单元网格向量M0(m1,m2,…,mn)和增长向量Δp(Δp1,Δp2,…,Δpn)生成单元网格向量集合Φ:
Φ{M0,M1,1,…,M1,l1,M2,1,…,M2,l2,…,Mn,1,Mn,ln};
其中Mi,j为Mi,j(m1,...,mi+Δpi*j,...,mn),且1≤i≤n,1≤j≤max(l1,...,ln),mi+Δpi*j≤si;
(1.2)根据集合Φ中的单元网格向量将n维数据空间划分为稠密区域Rd、稀疏区域Rs和过渡区域Rt,计算如下比值:
过渡区域内网格与稠密区域内网格的数据量比p1=G1:C1;
过渡区域内网格与稀疏区域内网格的数据量比p2=G1:X1;
遍历单元网格向量集合Φ中的单元网格向量,得到p1取最小值时的单元网格向量M1和p2取最小值时的单元网格向量M2;
(1.3)如果M1=M2,则最优单元网格向量Mopt为M1;
如果M1≠M2,则最优单元网格向量Mopt=(M1+M2)/2。
3.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,根据选定的单元网格向量将数据空格划分为N个网格,统计每个网格内的数据量,并按数据量从大到小对网格进行排序;
所述稠密区域为数据量最大的前个网格组成的区域;
所述稀疏区域为数据量最小的前个网格组成的区域;
所述过渡区域为除稠密区域和稀疏区域外剩余的网格组成的区域。
4.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,n维空间中的网格点Pd1,d2,...,dn的网格周边密度比向量F为一个3n-1维的向量,向量元素为n维空间中与网格点Pd1,d2,...,dn相邻的3n-1个网格内的数据量与网格点Pd1,d2,...,dn内的数据量之比。
5.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,步骤(4)应用LOF算法检测异常点包括如下步骤:
(4.1)计算数据空间的稀疏区域Regions中每个数据点的k距离k-distance(p),其中p为属于Regions中的数据点;
(4.2)计算数据空间的稀疏区域Regions中每个数据点p的k距离邻域Nk(p);
(4.3)计算Nk(p)到数据点p的局部可达密度Irdk(p);
(4.4)计算数据点p的局部异常因子LOFk(p);根据LOFk(p)的值判断数据点p是否为异常点。
6.根据权利要求1-5中任一项所述的基于动态网格优化的LOF聚类数据异常点检测方法,其特征在于,如果数据空间的维数n大于3,先将数据空间进行降维,使维数小于等于3,然后再进行异常点检测。
7.一种基于动态网格优化的LOF聚类数据异常点检测系统,其特征在于,包括数据源配置模块、属性配置模块、算法检测模块;
所述数据源配置模块用于用户配置需要检测的数据信息;
所述属性配置模块用于判断属性间的相互独立性,;
所述算法检测模块用于对属性间为非函数关系且相关性高的数据应用权利要求1-5中任一项所述的基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点。
8.根据权利要求7所述的基于动态网格优化的LOF聚类数据异常点检测系统,其特征在于,还包括异常点显示模块;所述异常点显示模块用于显示检测出的异常点。
9.根据权利要求7所述的基于动态网格优化的LOF聚类数据异常点检测系统,其特征在于,还包括规则检测模块;所述规则检测模块在算法检测模块进行异常点检测之前对数据进行简单的规则检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710368273.5A CN107256237A (zh) | 2017-05-23 | 2017-05-23 | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710368273.5A CN107256237A (zh) | 2017-05-23 | 2017-05-23 | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107256237A true CN107256237A (zh) | 2017-10-17 |
Family
ID=60027930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710368273.5A Pending CN107256237A (zh) | 2017-05-23 | 2017-05-23 | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107256237A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108122129A (zh) * | 2017-12-01 | 2018-06-05 | 上海富利通信息系统有限公司 | 一种数据处理方法、装置及电子设备 |
CN108628721A (zh) * | 2018-05-02 | 2018-10-09 | 腾讯科技(上海)有限公司 | 用户数据值的异常检测方法、装置、存储介质及电子装置 |
CN108668303A (zh) * | 2018-05-15 | 2018-10-16 | 上海兆祥邮轮科技集团股份有限公司 | 一种无线传感器网络数据流的增量式离群点检测方法 |
CN109799494A (zh) * | 2017-11-17 | 2019-05-24 | 中国林业科学研究院资源信息研究所 | 一种星载光子计数激光雷达数据快速去噪滤波方法 |
CN110362558A (zh) * | 2019-06-12 | 2019-10-22 | 广东工业大学 | 一种基于邻域传播聚类的能耗数据清洗方法 |
CN111767938A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 一种异常数据检测方法、装置及电子设备 |
CN113066184A (zh) * | 2021-06-03 | 2021-07-02 | 北京慧拓无限科技有限公司 | 矿山仿真系统的路面模型创建方法、装置、介质及设备 |
CN113221302A (zh) * | 2021-05-26 | 2021-08-06 | 上海天麦能源科技有限公司 | 一种智慧城市检测数据动态网格化处理方法和系统 |
CN113361869A (zh) * | 2021-05-19 | 2021-09-07 | 上海天麦能源科技有限公司 | 一种用于燃气管网的人工智能异常检测方法及系统 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113409814A (zh) * | 2021-06-02 | 2021-09-17 | 国家石油天然气管网集团有限公司西气东输分公司 | 一种天然气站场设备运行智能监测方法及系统 |
CN113572739A (zh) * | 2021-06-30 | 2021-10-29 | 中国人民解放军战略支援部队信息工程大学 | 一种网络有组织攻击入侵检测方法及装置 |
CN114003944A (zh) * | 2022-01-04 | 2022-02-01 | 百融至信(北京)征信有限公司 | 一种基于三方纵向联邦的lof异常检测方法及系统 |
US11347718B2 (en) | 2019-09-04 | 2022-05-31 | Optum Services (Ireland) Limited | Manifold-anomaly detection with axis parallel explanations |
CN116644373A (zh) * | 2023-07-27 | 2023-08-25 | 深圳恒邦新创科技有限公司 | 基于人工智能的汽车流量数据分析管理系统 |
US11941502B2 (en) | 2019-09-04 | 2024-03-26 | Optum Services (Ireland) Limited | Manifold-anomaly detection with axis parallel |
-
2017
- 2017-05-23 CN CN201710368273.5A patent/CN107256237A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109799494A (zh) * | 2017-11-17 | 2019-05-24 | 中国林业科学研究院资源信息研究所 | 一种星载光子计数激光雷达数据快速去噪滤波方法 |
CN108122129A (zh) * | 2017-12-01 | 2018-06-05 | 上海富利通信息系统有限公司 | 一种数据处理方法、装置及电子设备 |
CN108628721A (zh) * | 2018-05-02 | 2018-10-09 | 腾讯科技(上海)有限公司 | 用户数据值的异常检测方法、装置、存储介质及电子装置 |
CN108668303B (zh) * | 2018-05-15 | 2021-08-10 | 上海兆祥邮轮科技集团股份有限公司 | 一种无线传感器网络数据流的增量式离群点检测方法 |
CN108668303A (zh) * | 2018-05-15 | 2018-10-16 | 上海兆祥邮轮科技集团股份有限公司 | 一种无线传感器网络数据流的增量式离群点检测方法 |
CN110362558A (zh) * | 2019-06-12 | 2019-10-22 | 广东工业大学 | 一种基于邻域传播聚类的能耗数据清洗方法 |
CN110362558B (zh) * | 2019-06-12 | 2022-12-16 | 广东工业大学 | 一种基于邻域传播聚类的能耗数据清洗方法 |
US11347718B2 (en) | 2019-09-04 | 2022-05-31 | Optum Services (Ireland) Limited | Manifold-anomaly detection with axis parallel explanations |
US11941502B2 (en) | 2019-09-04 | 2024-03-26 | Optum Services (Ireland) Limited | Manifold-anomaly detection with axis parallel |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113379176B (zh) * | 2020-03-09 | 2023-12-19 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN111767938A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 一种异常数据检测方法、装置及电子设备 |
CN111767938B (zh) * | 2020-05-09 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种异常数据检测方法、装置及电子设备 |
CN113361869A (zh) * | 2021-05-19 | 2021-09-07 | 上海天麦能源科技有限公司 | 一种用于燃气管网的人工智能异常检测方法及系统 |
CN113361869B (zh) * | 2021-05-19 | 2023-11-24 | 上海天麦能源科技有限公司 | 一种用于燃气管网的人工智能异常检测方法及系统 |
CN113221302A (zh) * | 2021-05-26 | 2021-08-06 | 上海天麦能源科技有限公司 | 一种智慧城市检测数据动态网格化处理方法和系统 |
CN113409814A (zh) * | 2021-06-02 | 2021-09-17 | 国家石油天然气管网集团有限公司西气东输分公司 | 一种天然气站场设备运行智能监测方法及系统 |
CN113409814B (zh) * | 2021-06-02 | 2022-09-20 | 国家石油天然气管网集团有限公司西气东输分公司 | 一种天然气站场设备运行智能监测方法及系统 |
CN113066184A (zh) * | 2021-06-03 | 2021-07-02 | 北京慧拓无限科技有限公司 | 矿山仿真系统的路面模型创建方法、装置、介质及设备 |
CN113572739A (zh) * | 2021-06-30 | 2021-10-29 | 中国人民解放军战略支援部队信息工程大学 | 一种网络有组织攻击入侵检测方法及装置 |
CN113572739B (zh) * | 2021-06-30 | 2023-02-24 | 中国人民解放军战略支援部队信息工程大学 | 一种网络有组织攻击入侵检测方法及装置 |
CN114003944A (zh) * | 2022-01-04 | 2022-02-01 | 百融至信(北京)征信有限公司 | 一种基于三方纵向联邦的lof异常检测方法及系统 |
CN116644373B (zh) * | 2023-07-27 | 2023-10-31 | 广东小途汽车科技有限公司 | 基于人工智能的汽车流量数据分析管理系统 |
CN116644373A (zh) * | 2023-07-27 | 2023-08-25 | 深圳恒邦新创科技有限公司 | 基于人工智能的汽车流量数据分析管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107256237A (zh) | 基于动态网格优化的lof聚类数据异常点检测方法和检测系统 | |
Supriyadi et al. | Classification of natural disaster prone areas in Indonesia using K-means | |
Nikolentzos et al. | A Degeneracy Framework for Graph Similarity. | |
Lei et al. | Identification of dynamic protein complexes based on fruit fly optimization algorithm | |
Xu et al. | Minimum spanning trees for gene expression data clustering | |
Zandkarimi et al. | A generic framework for trace clustering in process mining | |
Wen et al. | Efficient structural graph clustering: an index-based approach | |
CN109190653A (zh) | 基于半监督密度聚类的恶意代码家族同源性分析技术 | |
CN112800231B (zh) | 电力数据校验方法、装置、计算机设备和存储介质 | |
CN105183796A (zh) | 一种基于聚类的分布式链路预测方法 | |
CN112087316B (zh) | 基于异常数据分析的网络异常根源定位方法 | |
Kim et al. | Statistical inference for cluster trees | |
Neto et al. | Efficient computation of multiple density-based clustering hierarchies | |
CN116012364A (zh) | Sar图像变化检测方法和装置 | |
Cai et al. | MiFI-Outlier: Minimal infrequent itemset-based outlier detection approach on uncertain data stream | |
Silva et al. | An instance selection method for large datasets based on markov geometric diffusion | |
Zhang et al. | A new method for detecting protein complexes based on the three node cliques | |
CN110176309A (zh) | 一种用于预测心血管疾病的医疗数据处理方法 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
Rital | Hypergraph cuts & unsupervised representation for image segmentation | |
Yang et al. | An efficient accelerator for point-based and voxel-based point cloud neural networks | |
Jiang et al. | Towards interactive exploration of gene expression patterns | |
WO2016132318A1 (en) | Method and apparatus for modeling, visualization and analysis of materials | |
CN112053741A (zh) | 荧光酶抑制剂筛选模型构建方法及荧光酶抑制剂筛选方法 | |
Akdag et al. | An optimized interestingness hotspot discovery framework for large gridded spatio-temporal datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171017 |
|
RJ01 | Rejection of invention patent application after publication |