CN107256237A

CN107256237A - 基于动态网格优化的lof聚类数据异常点检测方法和检测系统

Info

Publication number: CN107256237A
Application number: CN201710368273.5A
Authority: CN
Inventors: 金鑫; 刘晓晖; 卢明许; 田丹; 叶健聪; 张硕; 戴楠
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2017-05-23
Filing date: 2017-05-23
Publication date: 2017-10-17

Abstract

本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统，其中检测方法包括如下步骤：1、根据初始单元网格向量M₀和增长向量△p，得到最优单元网格向量M_opt；2、根据最优单元网格向量M_opt将数据空间划分为稠密区域R_d、稀疏区域R_s和过渡区域R_t；3、对步骤2中得到的过渡区域R_t中的每一个网格，根据网格周边密度比向量F划分为稠密区域网格G′_d和稀疏区域网格G′_s；将稀疏区域网格G′_s加入到稀疏区域R_s中，组成数据空间的稀疏区域Region_s；4、对数据空间的稀疏区域Region_s应用LOF算法检测异常点。该方法通过动态网格缩小了LOF算法的运算数据量，极大地降低了LOF算法的计算时间。

Description

基于动态网格优化的LOF聚类数据异常点检测方法和检测系统

技术领域

本发明属于数据挖掘领域，主要涉及数据异常点检测方法和检测系统。

背景技术

随着大数据时代的到来，如何有效和高效地分析并挖掘包含在这些大规模数据集中的信息具有重要意义。在大规模的数据库数据集包含的信息中，数据异常点往往包含着潜在的有价值的信息。异常点检测作为数据挖掘的一个重要的研究分支，其主要功能是从庞大而复杂的数据中提取与主流数据有着极大区别同时数量极少的数据。目前研究人员已提出了大量异常点检测算法，主要包括基于统计分布的方法、基于距离的方法以及基于聚类的检测方法等。然而现有的大多数异常点算法都具有时间复杂度高，在处理大规模数据时往往会花费很大的时间和空间。此外，目前大多数数据挖掘软件对待检测的数据库环境具有较高的依赖性，通用性差。暂不存在能对任意基础数据库进行数据异常点自动挖掘的软件，极大限制了异常点检测的应用。

发明内容

发明目的：针对现有技术中存在的问题，本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和检测系统，所述检测方法通过动态网格缩小了LOF算法的运算数据量，极大地降低了LOF算法的计算时间。

技术方案：本发明采用如下技术方案：

首先，本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法，包括如下步骤：

(1)根据初始单元网格向量M₀和增长向量△p，得到最优单元网格向量M_opt；

(2)根据最优单元网格向量M_opt将数据空间划分为稠密区域R_d、稀疏区域R_s和过渡区域R_t；

(3)对步骤(2)中得到的过渡区域R_t中的每一个网格，根据网格周边密度比向量F划分为稠密区域网格G_d′和稀疏区域网格G_s′；将稀疏区域网格G_s′加入到稀疏区域R_s中，组成数据空间的稀疏区域Region_s；

(4)对数据空间的稀疏区域Region_s应用LOF算法检测异常点。

优选地，步骤(1)中计算最优单元网格向量M_opt步骤如下：

(1.1)n维数据空间的边界表示为S(s₁,s₂,…,s_n)，根据初始单元网格向量M₀(m₁,m₂,…,m_n)和增长向量△p(△p₁,△p₂,…,△p_n)生成单元网格向量集合Φ：

Φ{M₀,M_1,1,…,M_1,l1,M_2,1,…,M_2,l2,…,M_n,1,M_n,ln}；

其中M_i,j为M_i,j(m₁,...,m_i+△p_i*j,...,m_n)，且1≤i≤n，1≤j≤max(l1,...,ln)，m_i+△p_i*j≤s_i；

(1.2)根据集合Φ中的单元网格向量将n维数据空间划分为稠密区域R_d、稀疏区域R_s和过渡区域R_t，计算如下比值：

过渡区域内网格与稠密区域内网格的数据量比p₁＝G₁:C₁；

过渡区域内网格与稀疏区域内网格的数据量比p₂＝G₁:X₁；

遍历单元网格向量集合Φ中的单元网格向量，得到p₁取最小值时的单元网格向量M₁和p₂取最小值时的单元网格向量M₂；

(1.3)如果M₁＝M₂，则最优单元网格向量M_opt为M₁；

如果M₁≠M₂，则最优单元网格向量M_opt＝(M₁+M₂)/2。

优选地，根据选定的单元网格向量将数据空格划分为N个网格，统计每个网格内的数据量，并按数据量从大到小对网格进行排序；

所述稠密区域为数据量最大的前个网格组成的区域；

所述稀疏区域为数据量最小的前个网格组成的区域；

所述过渡区域为除稠密区域和稀疏区域外剩余的网格组成的区域。

具体地，n维空间中的网格点P_d1,d2,...,dn的网格周边密度比向量F为一个3ⁿ-1维的向量，向量元素为n维空间中与网格点P_d1,d2,...,dn相邻的3ⁿ-1个网格内的数据量与网格点P_d1,d2,...,dn内的数据量之比。

具体地，步骤(4)应用LOF算法检测异常点包括如下步骤：

(4.1)计算数据空间的稀疏区域Region_s中每个数据点的k距离k-distance(p)，其中p为属于Region_s中的数据点；

(4.2)计算数据空间的稀疏区域Region_s中每个数据点p的k距离邻域N_k(p)；

(4.3)计算N_k(p)到数据点p的局部可达密度Ird_k(p)；

(4.4)计算数据点p的局部异常因子LOF_k(p)；根据LOF_k(p)的值判断数据点p是否为异常点。

优选地，如果数据空间的维数n大于3，先将数据空间进行降维，使维数小于等于3，然后再进行异常点检测。

其次，本发明还公开了一种应用上述基于动态网格优化的LOF聚类数据异常点检测系统，包括数据源配置模块、属性配置模块、算法检测模块；

所述数据源配置模块用于用户配置需要检测的数据信息；

所述属性配置模块用于判断属性间的相互独立性，；

所述算法检测模块用于对属性间为非函数关系且相关性高的数据应用上述基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点。

优选地，所述数据异常点检测系统还包括异常点显示模块，用于显示检测出的异常点。

优选地，所述数据异常点检测系统还包括规则检测模块，在算法检测模块进行异常点检测之前对数据进行简单的规则检测。

有益效果：与现有技术相比，本发明公开的数据异常点检测方法具有以下优点：1、适用范围广，不拘泥于某种特定环境下的数据库环境。对任意大规模的数据，都可以采用本发明对其进行检测；2、对于具有非函数的强属性关系，采用基于动态网格的LOF聚类检测算法，计算出信息含量高的数据点的异常程度，极大的降低了LOF算法的计算时间；3、动态网格优选部分运算简单，计算量小，但大大缩小了LOF算法的运算量。

附图说明

图1是二维空间数据点分布图；

图2是取单元网格向量M₀(m₁,m₂)对二维数据空间划分的示意图；

图3是取单元网格向量M′(m₁+△m,m₂)对二维数据空间划分的示意图；

图4是基于二维正态分布函数生成1000个数据点分布图；

图5是基于固定单元网格算法划分图；

图6是基于动态单元网格算法划分图；

图7是自动检测软件流程图。

具体实施方式

本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法和应用该方法的检测系统，下面以二维空间数据集的异常点检测为例，结合附图进一步阐明本发明。

首先本发明公开了一种基于动态网格优化的LOF聚类数据异常点检测方法，包括如下步骤：

(1)根据初始单元网格向量M₀(m₁,m₂)和增长向量△p(△p₁,△p₂)，得到最优单元网格向量M_opt；

根据一个选定的单元网格向量可以将数据空间划分为多个网格，如图1所示，为二维空间中一个数据集的分布图。数据空间内各个维度的单位长度划分是独立的，取一个较小的单元网格向量M₀(m₁,m₂)作为初始的单元网格向量对数据空间进行划分，如图2所示；对M₀(m₁,m₂)中表示水平方向的维度给定一个增量，得到新的单位网格向量M′(m₁+△m,m₂)，按照M′对数据空间重新进行划分，如图3所示。不同的单元网格向量代表了数据空间不同的划分方式，导致每个网格中数据量不同，根据每个网格中的数据量将数据空间划分为稠密区域、稀疏区域和过渡区域。

设根据选定的单元网格向量将数据空格划分为N个网格，统计每个网格内的数据量，并按数据量从大到小对网格进行排序；定义数据量最大的前个网格组成的区域为稠密区域；数据量最小的前个网格组成的区域为稀疏区域；除稠密区域和稀疏区域外剩余的网格组成的区域为过渡区域。

步骤(1)通过遍历来寻找一个较优的单位网格向量，使得过渡区域内网格与稀疏区域内网格的数据量比和过渡区域内网格与稀疏区域内网格的数据量比都尽量小。具体步骤如下：

(1.1)2维数据空间的边界表示为S(s₁,s₂)，根据初始单元网格向量M₀(m₁,m₂)和增长向量△p(△p₁,△p₂)生成单元网格向量集合Φ；

首先对M₀第一个维度以△p₁为单位做增量，生成一系列单位网格向量：M_1,1(m₁+△p₁,m₂)、M_1,2(m₁+△p₁*2,m₂)、……、M_1,l1(m₁+△p₁*l1,m₂)；m₁+△p₁*l1满足小于等于2维数据空间第一维度的边界s₁；同样对M₀第二个维度以△p₂为单位做增量，生成一系列单位网格向量：M_2,1(m₁,m₂+△p₂)、M_2,2(m₁,m₂+△p₂*2)、……、M_2,l2(m₁,m₂+△p₂*l2)；m₂+△p₂*l2满足小于等于2维数据空间第二维度的边界s₂；

由此得到集合Φ{M₀,M_1,1,…,M_1,l1,M_2,1,…,M_2,l2}；

(1.2)根据集合Φ中的单元网格向量将2维数据空间划分为稠密区域R_d、稀疏区域R_s和过渡区域R_t，计算如下比值：

过渡区域内网格与稠密区域内网格的数据量比p₁＝G₁:C₁；

过渡区域内网格与稀疏区域内网格的数据量比p₂＝G₁:X₁；

其中G₁为过渡区域内所有网格中的数据量总和；C₁为稠密区域内所有网格中的数据量总和；X₁为稀疏区域内所有网格中的数据量总和。

(1.3)设

如果M₁＝M₂，则最优单元网格向量M_opt为M₁；

如果M₁≠M₂，则最优单元网格向量M_opt＝(M₁+M₂)/2，此时

(2)根据步骤(1)得到的最优单元网格向量M_opt将数据空间划分为稠密区域R_d、稀疏区域R_s和过渡区域R_t；

n维空间中的网格点P_d1,d2,...,dn的网格周边密度比向量F为一个3ⁿ-1维的向量，向量元素为n维空间中与网格点P_d1,d2,...,dn相邻的3ⁿ-1个网格内的数据量与网格点P_d1,d2,...,dn内的数据量之比。

本实施例以二维数据空间为例，如表1所示，网格A为中心网格，包含的数据量为a，周边相邻网格有8个：B1，B2，B3，B4，B5，B6，B7，B8，每个网格区域内的数据量分别为b1,b2,b3,b4,b5,b6,b7,b8。网格周边密度比向量

表1

B1	B2	B3
			B8	A	B4
B7	B6	B5

网格A中的数据量与其周边相邻网格的数据量越接近，则表示网格A中的数据为异常数据的可能性越小；反之，如果网格A中的数据量与其周边相邻网格的数据量差异越大，则网格A中的数据越有可能为异常数据。

本实施例以两个网格数据量之比在[0.9，1.1]范围内为数据量接近，在此范围之外为数据量差异较大；网格A与周边8个相邻网格的数据量进行比较，如有5个或以上数据量接近，则认为网格A与周边网格数据量接近。

由此，如果网格周边密度比向量中有5个或以上元素的值在[0.9，1.1]范围内，则将网格A标记为稠密区域网格；否则，将网格A标记为稀疏区域网格。

对过渡区域的网格都进行了标记后，将其中的稀疏区域网格加入到稀疏区域R_s中，组成数据空间的稀疏区域Region_s。

(4)对数据空间的稀疏区域Region_s应用LOF算法检测异常点；

LOF(Local Outlier Factor，局部异常因子算法)是一种基于距离的异常检测算法。本发明应用LOF算法对数据空间的稀疏区域Region_s中的数据点进行检测，具体包括如下步骤：

对任意给定的自然数k，数据点p的k距离k-distance(p)定义如下：

在数据的样本空间D内，存在对象o，它与对象p之间的距离记作d(p,o)；如果满足以下两条件：

(A)在样本空间内，至少存在k个对象q_i，i∈[1,..,k]，且q_i≠p，使得d(p,q_i)≤d(p,o)；

(B)在样本空间内，最多存在k-1个对象r_j，j∈[1,..,k-1]，且r_j≠p，使得d(p,r_j)≤d(p,o)；

则认为k距离k-distance(p)＝d(p,o)。本发明中，数据的样本空间D即为数据空间的稀疏区域Region_s。

显而易见，若采用k距离k-distance(p)来量化对象p的局部空间范围，对于对象密度越大的区域，k距离k-distance(p)的值就越大。对于密度越小的区域，k距离k-distance(p)的值就越小。

数据点p的k距离邻域定义如下：

对已知的数据点p的k距离k-distance(p)，数据对象p的第k距离邻域是指数据样本空间D内所有与对象p的距离小于或者等于k-distance(p)的数据对象的集合，即：

N_k-distance(p)＝{q_i|d(p,q_i)≤k-distance(p),q_i∈D}(1)

其中N_k-distance(p)记作N_k(p)；

(4.3)计算集合N_k(p)到数据点p的局部可达密度Ird_k(p)；

局部可达密度Ird_k(p)的计算如下：

其中reach_dist_k(p,o)为数据点p相对于数据点o的可达距离，计算如下：

reach_dist_k(p,o)＝max(k-distance(o),d(p,o))(3)

由定义可知，当对象p与对象o的距离超过p的k距离k-distance(p)，则两者的可达距离就是两个对象之间的距离；当对象p与对象o的距离小于p的k距离k-distance(p)，则两者的可达距离就是对象o的k距离。

(4.4)计算数据点p的局部异常因子LOF_k(p)；根据LOF_k(p)的值判断数据点p是否为异常点；

局部异常因子LOF_k(p)可以表示数据对象的局部离群程度，计算如下：

若p的局部异常程度越小，那么LOF_k(p)越接近于1；相反，若p的局部异常程度越大，那么LOF_k(p)越远离于1。通过LOF算法能在数据分布不均匀的情况下准确的发现异常点。

当数据空间的维数过大时，算法的准确度会下降，为解决这个问题，如果数据空间的维数n大于3，先将数据空间进行降维，使维数小于等于3，然后再进行异常点检测。

下面选取LOF算法和固定单元格LOF作为对比方法，对本发明所公开的异常点检测方法的网格划分后效果、运行时间、精确度进行分析。试验平台配置：Intel Core i5，2.7GHz，内存4GB，Windows XP操作系统，编程环境为MyEclipse。

(1)网格划分效果

本实施例基于二维正态分布函数生成1000个数据点。以原点(0，0)为二维正态分布的中心，x和y的取值范围都在[0,90]内。如图4所示。

采用的网格的基础宽度W＝7，增量为1，即初始单元网格向量M₀(7,7)，增长向量△p(1,1)。固定网格划分采用单元网格宽度为9，即单元格为9×9。

采用本发明所公开的异常点检测方法，其中动态单元网格算法划分计算出过渡区域网格与稠密网格区域数值比p₁，过渡区域网格与稀疏网格区域数值比p₂如表1所示。

表1不同单元网格宽度下p₁、p₂

单元网格宽度	过渡区域与稠密区域比p₁	过渡区域与稀疏区域比p₂
			N＝8	0.242656	7.03703
N＝9	0.22459	7.4583
			N＝10	0.22264	4.48717
N＝11	0.19419	2.9056
			N＝12	0.17618	4.53125
N＝13	0.18898	4.57236

根据表1中p₁和p₂的数值信息，当p₁和p₂的值越小，过渡区域就越薄。因此基于动态单元网格算法选取单元网格宽度为11时，效果最好。采用动态单元网格划分和固定单元网格划分效果如图5所示。

图5和图6中，圆形数据集点代表的是稠密网格区域中所包含的点，星形数据集点代表在稀疏网格区域所包含的点。根据两图对比，明显可以看出基于动态单元网格算法所分离出的稀疏区域点的数量明显少于基于固定单元网格算法分离出的稀疏区域点，这样可以极大的降低LOF算法的时间。

(2)运行时间

采用基于二维正态分布函数生成数据，记录在不同的数据量的情况下，分别执行固定网格单元和动态单元网格算法。每种算法分别执行5次，记录其执行平均执行时间，如表2所示。

表2不同数量集两种算法执行时间

数量级	基于固定单元网格	基于动态单元网格
			500	875ms	824ms
1000	1743ms	1522ms
			3000	5143ms	4133ms
5000	9148ms	6143ms

基于固定单元网格算法采用的单元网格宽度为9，阈值是网格数据点数的平均值。基于动态的单元网格算法采用的单元网格宽度为13，11，8，6。根据表中算法执行的时间可以看出，固定单元网格不能良好的适用不同密度情况下网格的划分。相比于固定单元网格划分，基于动态单元网格算法适用性要强，执行的时间明显要低于基于固定单元网格算法的时间。

(3)检测精确度

为了测试两种算法的精确度，还是采用采用基于二维正态分布函数生成数据，记录在不同数据量的情况下，分别执行固定单元网格、动态单元网格算法和LOF算法，并记录其检测出异常点的个数分别为M₁、M₂、M_LOF，如表3所示。算法精度η采用以下公式计算：

表3不同数量级两种算法的精度

数量集	500	1000	3000	5000
					固定网格检测的异常点	43	78	192	326
动态网格检测的异常点	42	82	263	452
					LOF检测的异常点	51	84	271	491
固定网格精度	0.843	0.928	0.708	0.721
					动态网格精度	0.823	0.976	0.9704	0.920

根据表3的结果，采用固定网格划分时，数据集密度不一样，划分效果差距很大。网格宽度过宽，会将异常点划分到稠密区域。动态单元网格划分降低了这样的错误。所以其精度基本保持在90％以上。

综上所述，从网格划分上来看，采用动态单元网格方法，可以动态的选取单元网格宽度。根据不同的数据集和不同数据集的量级来改变单元网格宽度。从而大幅度的减少稀疏区域网格中数据集点的数量。从时间复杂度上来看，由于采用了动态网格划分，极大减少了使用LOF算法处理的数量级，从而减少了整个异常点检测算法的时间。从精度上来看，采用动态的单元网格划分，选取一个合适的单元网格宽度，尽最大可能的减少了过渡区域的数据级。采用网格周边密度比向量，对过渡区域网格处理，将过渡区域中密度较高的区分出来。这样尽可能将存在异常点的网格和存在正常点的网格区分出来，从而提高算法的精确度。

本发明还公开了一种应用上述基于动态网格优化的LOF聚类数据异常点检测方法的数据异常点检测系统，包括数据源配置模块、属性配置模块、规则检测模块、算法检测模块；异常点显示模块。

其中数据源配置模块用于用户配置需要检测的数据信息；如果是对数据库中的数据进行检测，需要配置数据库类型、地址、端口、用户名、密码等信息，并且连接到要检测的数据库。

属性配置模块用于判断属性间的相互独立性；

用户选择数据的多种属性，之后对所选的属性判断属性间的相互独立性。例如对于人体健康方面的参数，用户手动选择身高、体重、血压等属性，之后根据概率统计学中判断相互独立事件公式P(X₁,X₂,...,X_n)＝P(X₁)P(X₂)…P(X_n)判断不同属性间是否具有相互独立性。如果等式两端的差值小于某一阈值，认为被检测属性间相互独立；反之，认为被检测属性具有相关性。依次计算出所有的属性的相关性，将具有相关性的属性匹配对选取出来，作为后续规则检测和算法检测的检测对象。

规则检测模块在算法检测模块进行异常点检测之前对数据进行简单的规则检测；依据程序给定的规则如空值检测，重复检测等对数据库中所有的数据进行简单的规则检测，挑出不符合规则检测的所有数据点，这些数据点属于异常点。如空值检测就是检测数据库内所有表或者视图的某个属性是否存在空值的数据。

算法检测模块用于对属性间为非函数关系且相关性高的数据应用上述基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点；

算法检测模块主要分为两部分，首先判断数据的属性间是否具有函数关系，对给定的属性匹配对进行回归和拟合分析，计算数据和函数关系匹配程度，如果匹配程度高于某一个阈值，则认为数据具有函数关系，否则认为数据不具有函数关系。其次对属性间不具有函数关系的数据进行异常点检测，根据概率统计学相互独立公式，计算相互独立程度。相互独立程度越高，说明数据间相关性弱，反之越高。对相关性高的数据，采用基于动态网格的LOF算法来进行聚类，检测出离群程度大的异常点。对相关性弱的数据集，采用高斯检测来检测出偏离大的异常点。

为了更加直观地显示检测结果，还包括异常点显示模块，用于显示检测出的异常点。

Claims

1.一种基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，包括如下步骤：

(1)根据初始单元网格向量M₀和增长向量Δp，得到最优单元网格向量M_opt；

(3)对步骤(2)中得到的过渡区域R_t中的每一个网格，根据网格周边密度比向量F划分为稠密区域网格G′_d和稀疏区域网格G_s′；将稀疏区域网格G_s′加入到稀疏区域R_s中，组成数据空间的稀疏区域Region_s；

(4)对数据空间的稀疏区域Region_s应用LOF算法检测异常点。

2.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，步骤(1)中计算最优单元网格向量M_opt步骤如下：

(1.1)n维数据空间的边界表示为S(s₁,s₂,…,s_n)，根据初始单元网格向量M₀(m₁,m₂,…,m_n)和增长向量Δp(Δp₁,Δp₂,…,Δp_n)生成单元网格向量集合Φ：

Φ{M₀,M_1,1,…,M_1,l1,M_2,1,…,M_2,l2,…,M_n,1,M_n,ln}；

其中M_i,j为M_i,j(m₁,...,m_i+Δp_i*j,...,m_n)，且1≤i≤n，1≤j≤max(l1,...,ln)，m_i+Δp_i*j≤s_i；

过渡区域内网格与稠密区域内网格的数据量比p₁＝G₁:C₁；

过渡区域内网格与稀疏区域内网格的数据量比p₂＝G₁:X₁；

(1.3)如果M₁＝M₂，则最优单元网格向量M_opt为M₁；

如果M₁≠M₂，则最优单元网格向量M_opt＝(M₁+M₂)/2。

3.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，根据选定的单元网格向量将数据空格划分为N个网格，统计每个网格内的数据量，并按数据量从大到小对网格进行排序；

所述稠密区域为数据量最大的前个网格组成的区域；

所述稀疏区域为数据量最小的前个网格组成的区域；

4.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，n维空间中的网格点P_d1,d2,...,dn的网格周边密度比向量F为一个3ⁿ-1维的向量，向量元素为n维空间中与网格点P_d1,d2,...,dn相邻的3ⁿ-1个网格内的数据量与网格点P_d1,d2,...,dn内的数据量之比。

5.根据权利要求1所述的基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，步骤(4)应用LOF算法检测异常点包括如下步骤：

(4.3)计算N_k(p)到数据点p的局部可达密度Ird_k(p)；

6.根据权利要求1-5中任一项所述的基于动态网格优化的LOF聚类数据异常点检测方法，其特征在于，如果数据空间的维数n大于3，先将数据空间进行降维，使维数小于等于3，然后再进行异常点检测。

7.一种基于动态网格优化的LOF聚类数据异常点检测系统，其特征在于，包括数据源配置模块、属性配置模块、算法检测模块；

所述数据源配置模块用于用户配置需要检测的数据信息；

所述属性配置模块用于判断属性间的相互独立性，；

所述算法检测模块用于对属性间为非函数关系且相关性高的数据应用权利要求1-5中任一项所述的基于动态网格优化的LOF聚类数据异常点检测方法来检测异常点。

8.根据权利要求7所述的基于动态网格优化的LOF聚类数据异常点检测系统，其特征在于，还包括异常点显示模块；所述异常点显示模块用于显示检测出的异常点。

9.根据权利要求7所述的基于动态网格优化的LOF聚类数据异常点检测系统，其特征在于，还包括规则检测模块；所述规则检测模块在算法检测模块进行异常点检测之前对数据进行简单的规则检测。