CN103853817B - 基于gis的海量统计数据的空间奇异点发掘方法 - Google Patents

基于gis的海量统计数据的空间奇异点发掘方法 Download PDF

Info

Publication number
CN103853817B
CN103853817B CN201410020649.XA CN201410020649A CN103853817B CN 103853817 B CN103853817 B CN 103853817B CN 201410020649 A CN201410020649 A CN 201410020649A CN 103853817 B CN103853817 B CN 103853817B
Authority
CN
China
Prior art keywords
spatial data
singular point
distribution
space
distribution situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410020649.XA
Other languages
English (en)
Other versions
CN103853817A (zh
Inventor
孙永华
李小娟
王彦兵
杨灿坤
连健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN201410020649.XA priority Critical patent/CN103853817B/zh
Publication of CN103853817A publication Critical patent/CN103853817A/zh
Application granted granted Critical
Publication of CN103853817B publication Critical patent/CN103853817B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:读取GIS数据库中已存储的空间数据集;对空间数据集中各个空间数据的分布情况进行分析,判断各个空间数据的分布情况是否符合正态分布要求,如果判断结果为是,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。

Description

基于GIS的海量统计数据的空间奇异点发掘方法
技术领域
本发明属于计算机技术领域,具体涉及一种基于GIS的海量统计数据的空间奇异点发掘方法。
背景技术
近年来,随着计算机技术的迅速发展以及广泛应用,人们积累的数据越来越多,海量统计数据是管理层越来越多面临的问题,奇异点检测更成为一大难题。
海量统计数据具有覆盖面广、信息量大的特点,传统上,人们处理海量统计信息数据并从中挖掘有用的知识的技术和手段相对却非常贫乏和软弱。
奇异点是指样本中的一个或几个距离其他观测值较远的观测值,暗示这些奇异点可能来自不同的总体。奇异点不同于邻近域属性值的目标对象是由某种特有的机制产生的,因此,奇异点的识别能够导致很多有意义知识的发掘。从空间意义上来说,发现局部异常对象是极其重要的,空间奇异点就是在空间上非空间属性显著不同于空间邻近域的目标对象。有些情况下,空间奇异点在整个数据集合上并不是那么显著地,但是对于局部而言就是一个非常不稳定点,所以,及时准确的查找空间奇异点具有重要意义。
传统的空间奇异点查找方法主要有大量观察法、统计分组法、综合分析法、统计模型法和归纳推断法等。但是,上述几类查找方法普遍具有查找效率慢的不足,难以从海量空间数据中快速准确的查找到空间奇异点数据。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
本发明采用的技术方案如下:
本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
S1,读取GIS数据库中已存储的空间数据集;
S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
优选的,S1之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中。
优选的,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为:
通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
优选的,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求;
通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。
优选的,S4中,对各个所述空间数据进行全局奇异点查找具体为:
通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。
优选的,S4中,对各个所述空间数据进行局部奇异点查找具体为:
通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
优选的,所述变异理论分析工具为协方差点云图或半变异点云图。
本发明的有益效果如下:
本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
附图说明
图1为本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法的流程示意图;
图2为频度直方图展现的整个数据集值分布状况的一个图示意图;
图3为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
具体实施方式
以下结合附图对本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法进行详细介绍:
如图1所示,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
S1,读取GIS数据库中已存储的空间数据集;
S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
其中,判断各个空间数据的分布情况是否符合正态分布要求具体为:通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
具体的,频度直方图用于展现整个空间数据集中各个空间数据的分布状况,在与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述数据中的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的离散值,从而得到整个空间数据集的分布特征,也可以从中得到空间数据集的特征数值。频度直方图的频率分布可以从形状、分布、峰度等方面来考虑,呈正态分布的空间数据的均值和中值近似相等,偏度接近0,峰度接近3。
将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。其中,QQPlot图用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中是一种常用的检验数据是否来自于正态分布。如图3所示,为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
对每一个空间数据进行对数变换,即:将每一个采集到的空间数据根据对数函数进行一一映射,用得到的结果代替原有的空间数据进行判断是否符合正态分布,理由为:因为采集到的空间数据尤其是不符合正态分布的空间数据可能会有指数的失真,对其进行对数变换能够抵消这一指数失真,再进行正态分布的分析。
S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
其中,对各个所述空间数据进行全局奇异点查找具体为:通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。
对各个所述空间数据进行局部奇异点查找具体为:通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
具体的,奇异点类型包括两大类:全局奇异点和局部奇异点。下面对全局奇异点和局部奇异点分别介绍:
(一)全局奇异点
全局奇异点是指,对于整个空间数据集而言,具有很高或很低值的观测样点。从本质上来看,全局奇异点是偏离于整个空间数据集分布的极大值或者极小值,所以需要从整个空间数据集的分布来寻找。
全局奇异点可以通过以下方式查找:
(1)频度直方图
全局奇异点在频度直方图上表现为孤立存在的点或是被一群显著不同的值所包围的点。需要注意的是,在频度直方图中孤立存在或被一群显著不同的值所包围的样点不一定是全局奇异点,也可能就是真实值。
本发明应用频度直方图查找全局奇异点,频度直方图与普通应用的直方图的区别在于:普通的直方图关注于空间数据集中的个体,而频度直方图更注重于展现整个空间数据集中各个空间数据的分布状况,如图2所示,为频度直方图展现的整个数据集值分布状况的一个图示,本发明与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述空间数据的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的奇异点,同时也可以计算一些概括性的统计指标。从频度直方图可以看到整个空间数据集的分布特征,也可以得到空间数据集的奇异点。
(2)熵值方法或聚类方法生成的Voronoi图
熵值是量度相邻单元相异性的指标,一般来说,相互距离近的样本点比相互距离远的样本点具有更大的相似性。因此,全局奇异点可以通过高熵值的区域识别出来。同样的原理,聚类方法也可以识别出区别于周围单元的奇异点。Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。Voronoi图的生成方法是每个多边形内有一个样点,多边形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后,某个样点的相邻样点便会与该样点的多边形有相邻边。
(二)局部奇异点
局部奇异点是指,对于整个空间数据集而言,观测样点值属于正常,但与其相邻的样点值比较,观测样点值又偏高或偏低。
局部奇异点可以通过以下方式查找:
(1)变异理论分析工具
变异理论分析工具包括协方差点云图和半变异点云图,通过这两种分析工具可以检测一定范围内的局部奇异点。对于半变异点云图,半变异函数值越小,空间相似性越大;而半变异函数值越大,空间相似性越小。ArcMap是一个可用于数据输入、编辑、查询、分析等等功能的应用程序,具有基于地图的所有功能,实现如地图制图、地图编辑、地图分析等功能。在ArcMap视图中,用x轴表示样点对间的距离,y轴表示样点对间的半变异值/协方差值,得到半变异/协方差函数云图。在半变异/协方差函数云图中,局部奇异点主要表现在函数的分布形式上,如果存在一个局部奇异点,则可以看到一组靠得很近的样本点,在x轴左端,y轴有较高值。对这些样点对,如果是一个样点与其他样点间产生,则要对这个样点的数据源仔细考虑,如果确认调查数据准确,则可以确认是真实异常,不需剔除,反之,则需要对样点对进行剔除或重新调查。此外,半变异/协方差函数云图也可以反应空间数据的空间相关程度,根据距离越近越相似的原理,x值越小,y值应该越小。
空间协方差点云图可以用于表示区域化随机变量之间的差异。在概率论中,随机向量X与Y的协方差被定义为
cov(x,y)=E[(x-Ex)(y-Ey)]
Z ‾ ( x i ) = 1 N Σ i = 1 N Z ( x i )
Z ( x i - + h ) = 1 N Σ i = 1 N Z ( x i + h )
式中:h为两样本点空间分隔距离或距离滞后;
Z(Xi)为Z(X)在空间位置Xi处的实测值;
Z(Xi+h)是Z(X)在Xi处距离偏离h的实测值[i=1,2,…,],N(h)是分隔距离为h时的样本点对(pairs)总数,Z(Xi)和Z(X)分别为Z(Xi)和Z(X)的样本平均数;
在一维条件下变异函数定义为,当空间点x在一维x轴上变化时,区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半为区域化变量Z(x)在x轴方向上的变异函数,记为γ(h),
γ ( x , h ) = 1 2 E [ Z ( x ) - Z ( x + h ) ] 2
(2)正态QQPlot图
正态QQPlot图是探索空间分析中常用的检测工具,用以检测一个空间数据集的分布是否服从正态分布。正态QQPlot图的x轴表示空间数据集n级分位数所对应的标准正态分布值,y轴表示空间数据集的n级分位数,图中的斜线表示正态分布线。普通QQPlot分布图将两个数据集的分布在二维图像上表示出来,用以检验两个数据集之间的相关性。如果在图中点分布曲线呈直线,说明数据集呈一种线性关系,可以用一个一元一次方程式来拟合。如果图中曲线呈抛物线,说明数据集的关系可以用一个二元多项式来拟合。
综上所述,本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (1)

1.一种基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,包括以下步骤:
S1,读取GIS数据库中已存储的空间数据集;
S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程;
其中,S1之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中;
其中,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为:
通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求;
其中,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求;
通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求;
其中,S4中,对各个所述空间数据进行全局奇异点查找具体为:
通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找;
其中,S4中,对各个所述空间数据进行局部奇异点查找具体为:
通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找;
其中,所述变异理论分析工具为协方差点云图或半变异点云图。
CN201410020649.XA 2014-01-16 2014-01-16 基于gis的海量统计数据的空间奇异点发掘方法 Expired - Fee Related CN103853817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410020649.XA CN103853817B (zh) 2014-01-16 2014-01-16 基于gis的海量统计数据的空间奇异点发掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410020649.XA CN103853817B (zh) 2014-01-16 2014-01-16 基于gis的海量统计数据的空间奇异点发掘方法

Publications (2)

Publication Number Publication Date
CN103853817A CN103853817A (zh) 2014-06-11
CN103853817B true CN103853817B (zh) 2016-03-23

Family

ID=50861472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410020649.XA Expired - Fee Related CN103853817B (zh) 2014-01-16 2014-01-16 基于gis的海量统计数据的空间奇异点发掘方法

Country Status (1)

Country Link
CN (1) CN103853817B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104931989B (zh) * 2015-07-14 2017-05-10 成都乐动信息技术有限公司 运动轨迹中异常点的检测方法与装置
CN106127753B (zh) * 2016-06-20 2019-07-30 中国科学院深圳先进技术研究院 一种外科手术中ct影像体表人工标记自动提取方法
CN115880284B (zh) * 2023-02-06 2023-05-09 卡松科技股份有限公司 一种用于润滑油磨粒均匀度的检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054753B1 (en) * 2003-11-14 2006-05-30 Williams Ralph A Method of locating oil and gas exploration prospects by data visualization and organization
CN102360378A (zh) * 2011-10-10 2012-02-22 南京大学 一种时序数据离群点检测方法
CN103338516A (zh) * 2013-07-19 2013-10-02 大连理工大学 一种基于总体最小二乘的无线传感器网络两步定位方法
CN103402220A (zh) * 2013-07-03 2013-11-20 北京航空航天大学 一种获取与优化dtmb单频网覆盖率的装置及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9916653B2 (en) * 2012-06-27 2018-03-13 Kla-Tenor Corporation Detection of defects embedded in noise for inspection in semiconductor manufacturing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054753B1 (en) * 2003-11-14 2006-05-30 Williams Ralph A Method of locating oil and gas exploration prospects by data visualization and organization
CN102360378A (zh) * 2011-10-10 2012-02-22 南京大学 一种时序数据离群点检测方法
CN103402220A (zh) * 2013-07-03 2013-11-20 北京航空航天大学 一种获取与优化dtmb单频网覆盖率的装置及方法
CN103338516A (zh) * 2013-07-19 2013-10-02 大连理工大学 一种基于总体最小二乘的无线传感器网络两步定位方法

Also Published As

Publication number Publication date
CN103853817A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN109345007B (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
Tsai et al. Multiscale crack fundamental element model for real-world pavement crack classification
CN108595414A (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
CN110956207B (zh) 一种光学遥感影像全要素变化检测方法
CN104408705A (zh) 一种高光谱图像的异常检测方法
CN113297272A (zh) 一种桥梁监测数据关联规则挖掘及健康预警方法及系统
CN105424641A (zh) 一种原油种类的近红外光谱识别方法
CN104833333A (zh) 结构面粗糙度系数尺寸效应试样表征单元确定方法
CN103853817B (zh) 基于gis的海量统计数据的空间奇异点发掘方法
CN105574265B (zh) 面向模型检索的装配体模型定量描述方法
CN102360503A (zh) 基于空间贴近度和像素相似性的sar图像变化检测方法
CN111504191A (zh) 一种基于三维激光扫描的航空零件自动快速测量方法
CN106935038B (zh) 一种停车检测系统及检测方法
Draelos et al. A new method for producing automated seismic bulletins: Probabilistic event detection, association, and location
Demir Automated detection of 3D roof planes from Lidar data
You et al. Building feature extraction from airborne lidar data based on tensor voting algorithm
CN104574345B (zh) 一种基于对称理论的土地利用/覆被变化矢量图中假变化检测方法
CN106959960A (zh) 数据获取方法及装置
Ge et al. Rock joint detection from 3D point clouds based on colour space
Du et al. Similarity measurements on multi‐scale qualitative locations
CN112801028A (zh) 基于归纳表示学习网络的光谱和空间图高光谱图像分类方法
de Almeida Cardoso et al. An enhanced approach for automatic modal identification of structures
Wu et al. Cell-based automatic deformation computation by analyzing terrestrial LIDAR point clouds
CN104198575B (zh) 具有溯源功能的电感耦合等离子质谱信号分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160323

Termination date: 20200116