CN104035985B - 一种面向基础地理信息异常数据的挖掘方法 - Google Patents

一种面向基础地理信息异常数据的挖掘方法 Download PDF

Info

Publication number
CN104035985B
CN104035985B CN201410236076.4A CN201410236076A CN104035985B CN 104035985 B CN104035985 B CN 104035985B CN 201410236076 A CN201410236076 A CN 201410236076A CN 104035985 B CN104035985 B CN 104035985B
Authority
CN
China
Prior art keywords
data
abnormal data
point
road
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410236076.4A
Other languages
English (en)
Other versions
CN104035985A (zh
Inventor
乔刚
米环
毛炜青
吴张峰
叶文凯
陆赛赛
邓讯
王伟
王聪
李海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI INSTITUTE OF SURVEYING AND MAPPING
Tongji University
Original Assignee
SHANGHAI INSTITUTE OF SURVEYING AND MAPPING
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI INSTITUTE OF SURVEYING AND MAPPING, Tongji University filed Critical SHANGHAI INSTITUTE OF SURVEYING AND MAPPING
Priority to CN201410236076.4A priority Critical patent/CN104035985B/zh
Publication of CN104035985A publication Critical patent/CN104035985A/zh
Application granted granted Critical
Publication of CN104035985B publication Critical patent/CN104035985B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种面向基础地理信息异常数据的挖掘方法,本发明根据基础地理信息门牌号属性,按照道路数据和非道路数据分别挖掘异常数据,其中道路数据包括距离异常数据和密度异常数据,非道路异常数据主要为距离异常数据。道路距离异常数据以道路点到拟合曲线的距离来判断,密度异常数据的特点是在其一定范围内没有相同属性的数据;非道路异常数据是以重心点为参考,计算每点到重心的距离判断其是否是异常数据。本发明的方法实现了在海量数据中高效、自动挖掘异常数据的功能。

Description

一种面向基础地理信息异常数据的挖掘方法
技术领域
本发明属于地理信息系统统计分析应用领域,涉及一种面向基础地理信息异常数据的挖掘方法,特别是针对具有门牌号属性的海量基础地理数据的挖掘方法。
背景技术
随着经济社会和地理信息技术的高速发展,大量基础数据急剧增长,从海量数据中挖掘有用信息和异常数据成为当务之急。数据挖掘可以当作是一个在海量数据中探索数据间的关系、利用各种分析工具构建数据分析模型,并发现隐藏于数据之中的知识的过程。对海量基础地理数据进行分析,研究异常数据的挖掘方法,使异常对象从其他对象中自动分离出来,并可将异常数据提供给相关部门,检查该地理数据是否符合实际情况。
异常数据的挖掘方法主要包括基于统计的、基于距离的、基于偏离的和基于聚类的方法等。基础地理数据库中存在大量异常数据,由于数据来源不同或是数据测量和收集的失误,会存在异常数据,导致该数据与实际不符。依靠人工在海量数据中分离异常数据是不科学和不易实现的。客观上有必要根据基础地理信息数据的属性和分布特点,发明一种面向该类数据异常数据的挖掘方法。
发明内容
本发明的目的在于结合数据挖掘理论等相关知识,提供一种面向基础地理信息异常数据的挖掘方法,可以稳健和自动地挖据出其中隐含的异常数据。
为实现上述目的,本发明的解决方案是:一种面向基础地理信息异常数据的挖掘方法,主要是针对具有门牌号属性的地理数据,综合考虑其属性和地理分布特点。方案设计主要分为两部分,即挖掘道路异常数据和非道路异常数据,包括以下步骤:
首先由门牌号属性字段值提取道路数据,根据道路特点,将数据采用多项式方式拟合为最佳曲线,按照道路点到曲线的距离以及道路点与道路点的距离,判断该道路点是否异常;然后由门牌号属性字段提取非道路数据,按照非道路数据一般具有集聚性的特点,计算出其重心位置,根据非道路数据与重心点的距离,判断该非道路点是否异常;
经过第1步和第2步之后,得到异常数据的初步结果,由于得到的初步结果中包含与实际相符的数据,故利用相同属性数据具有集聚性的特点,进一步滤除该结果中的正常地理数据;得到最终异常数据结果。
换言之,一种面向基础地理信息异常数据的挖掘方法,针对基础地理信息数据按照其门牌号属性分为道路数据和非道路数据,分别挖掘异常数据;其中道路异常数据包括距离异常数据和密度异常数据,非道路异常数据则主要为距离异常数据。
进一步,包含以下步骤:
首先由门牌号属性字段值提取道路数据,判断该道路点是否异常;
然后由门牌号属性字段提取非道路数据,判断该非道路点是否异常;
经过前述步骤之后,得到异常数据的初步结果,进一步滤除该结果中的正常地理数据;得到最终异常数据结果。
所述的挖掘道路数据中的距离异常数据为:首先根据道路数据拟合出该道路曲线,然后计算所有点到该拟合曲线的平均距离的二倍,将其作为阈值,判断道路上的每一点到拟合曲线的距离与阈值的关系,若该距离大于阈值,则定义该点为异常点,否则,为正常点;循环所有道路数据之后,得到道路距离异常值。
所述的挖掘道路数据中的密度异常数据为:首先统计道路上任意相邻两点的距离,然后选定某一值作为阈值;对于道路上的每个点,判断在以此点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点,如果存在,定义该点为正常数据;若不存在,定义该点为异常点;以此为依据,挖掘道路密度异常数据。
所述的挖掘非道路数据中的距离异常数据为:首先将地理数据按照门牌号属性分组,使具有相同属性的数据分为一组,然后计算非道路数据各分组的重心坐标,之后计算组中所有点到该组重心的平均距离,并以平均距离的二倍作为阈值,判断点到重心的距离与阈值的关系;若所得距离小于阈值,定义该点为正常数据;若所得距离大于阈值,定义该点为异常数据;所有分组循环本操作之后,得到非道路数据的距离异常数据。
所述的过滤初步异常数据结果中的聚集点为:经过步骤1)和步骤2)之后,得到异常数据的初步结果,对于结果中的每一点,选定某一阈值,判断在以此点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点;如果存在,则在初步异常数据结果中去除该点;如果不存在,则在异常数据结果中保留该点,循环初步异常数据结果中所有点之后,最终得到异常数据的结果。
由于人为失误或是实际地理数据更新变化,数据库中存储的海量数据存在较多异常数据集,现有技术中仅依靠人工逐一检测异常值,不但浪费人力物力,而且降低工作效率。本发明的方法实现自动挖掘异常数据,在实际生产中具有重要的应用价值。
附图说明
图1为本发明方法的流程图。
图2为道路拟合曲线图。
图3为道路密度异常点图。
图4为非道路数据的重心位置和距离异常值的阈值图。
图5为某道路挖掘异常数据的结果图。
图6为依据本发明的方法挖掘上海市普陀区基础地理数据异常数据结果图。
具体实施方式
以下结合附图所示实施例对本发明作进一步的说明。
请参阅图1,本发明的方法包括以下步骤:
(a)读取基础地理信息;
(b)根据地理数据门牌号属性进行判断是否为道路,若是,转入步骤(c);不然,转入步骤(d);
(c)道路异常数据包括距离异常数据和密度异常数据,首先,将本道路上的所有点拟合一条曲线,计算道路上的点到该拟合曲线的距离,并确定阈值;判断所得距离是否大于阈值,若是,则得到距离异常点初步结果,转入步骤(e);不然,判断为正常点;
然后继续对该道路数据统计,统计相邻两点间的距离,确定阈值;判断在道路点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点;若是,判断为正常点;不然,则得到密度异常点初步结果,转入步骤(e);
(d)根据门牌号码属性进行分组,并计算每一分组的重心坐标;计算该区域内所有点到其所在分组的重心的距离,并确定阈值;判断该点到重心的距离是否大于阈值;若是,则得到异常点初步结果,转入步骤(e);不然,判断为正常点;
(e)判断在初步异常点为圆心、阈值为半径的圆的范围内,是否还存在与其属性相同的点;若是,则确定为正常点,在异常点初步结果中删除;不然,判断为异常数据结果。
进一步,具体来说:
(1)首先由门牌号属性字段值提取道路数据,判断该道路点是否异常;
对属于道路的地理数据,异常数据包括距离异常数据和密度异常数据。首先挖掘距离异常数据,该类异常数据判别的标准为道路上的点到该道路的距离是否异常,因此需按照多项式方法拟合出与道路走向最接近的曲线,并以确定系数(R-square)作为依据。实验中以最小二乘法的原则拟合出道路函数曲线,由道路地理数据X、Y坐标拟合直线的误差方程式可列为:
按照以上误差方程式可以求解拟合直线的系数a1,a2
为拟合出与道路最接近的曲线,比较道路的二次曲线和三次曲线,如图2,按照公式(4)计算确定系数,“确定系数”的正常取值范围为[01],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好,在图2中拟合直线、二次曲线、三次曲线的确定系数分别为:0.6154,0.8063和0.8094,得出三次曲线与实际道路曲线走向最符合,故采用三次多项式拟合曲线y=a1*x3+a2*x2+a3作为道路拟合曲线。
以道路上所有点到道路拟合曲线的平均距离的二倍作为阈值,判断每一点到拟合曲线的最小距离是否大于阈值,进而判断该道路上的数据是否是距离异常点。
道路数据中的某一点(POIX,POIY)到拟合曲线任意一点(X,Y)的距离为:
对X求导:
则(POIX,POIY)到拟合曲线的最短距离即为满足式:
解算得到的(X,Y)两点之间的距离,该距离与阈值比较,判断其是否是异常距离数据。
挖掘密度异常数据时,统计道路上任意相邻两点的距离,并以此为根据选定范围阈值,然后以道路上某点为圆心,阈值为半径的圆的范围内是否具有相同门牌号属性的其它数据作为依据,挖据出密度异常点,如图3所示。
(2)由门牌号属性字段提取非道路数据,判断该非道路点是否异常;
非道路数据主要包括村落或是市场,主要挖掘距离异常数据。在挖掘非道路异常地理数据之前,以门牌号属性作为分类依据,构造出K(门牌号种类数)个分组,循环所有的地理数据,将其划分到相同属性的分组中,且满足下列条件:(a)每一个分组至少包含一个地理数据纪录;(b)每一个地理数据纪录属于且仅属于一个分组。按属性分类之后,计算非道路地理数据各组数据的重心坐标为:
POIcenX=ΣPOIX/Count (8)
POIcenY=ΣPOIY/Count
(9)
其中POIcenX、POIcenY表示该组地理数据的重心坐标,POIX、POIY表示该组中地理数据的X、Y坐标,Count表示该组中地理数据的个数,如图4所示的重心点。据此,以该组中所有地理数据到其重心的距离平均值的二倍作为阈值,按照点(POIX,POIY)与聚类中心(POIcenX,POIcenY)的距离判断该点的性质,即:
若该距离大于阈值,则认为该点为距离异常数据,否则为正常地理数据,如图4所示,显示了一倍距离阈值和二倍距离阈值,且按照二倍距离阈值为参考下,得到的异常值。
(3)经过第1步和第2步之后,得到异常数据的初步结果,进一步滤除该结果中的正常地理数据;
针对初步得出的异常数据结果,如图5所示,其包含大量的聚集点,在实际中我们认为它们是正确点,按照挖掘密度异常值算法一致,判断在初步异常结果中,以某点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点,如果存在,则为正常点,在异常点结果中去掉该范围包含的同属性点,如果不存在,则该点为异常点,最后分离出的异常数据结果。
(4)得到异常数据结果
按照本文提到的发明方法,采用上海市普陀区门牌号数据进行验证其可行性。该数据对象采用上海城市坐标系下的一系列x、y坐标的点状实体,这些点状实体与其属性结合描述该区域的地理数据信息。针对该测试数据,利用异常数据的挖掘方法,实现自动挖掘异常数据的功能,如图6。在实验结果的基础上,应用Win7操作系统,通过Visual Studio平台,在.NET环境下,并结合ArcGIS Engine、Web Service、IIS、ArcGIS API for JavaScrit等技术平台实现在上海市地图服务上显示异常数据结果,以检验测试结果。
测试基础地理数据共有8458个,经过该方法共挖掘出65个异常数据,约为7%的比例,在上海市地图上通过查询异常数据,证明实验结果的正确性和可行性。
数据库中存储的基础地理数据中存在的较多异常数据,通过本发明的方法,实现自动挖掘异常数据,在实际生产中具有重要的应用价值。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于这里的实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (5)

1.一种面向基础地理信息异常数据的挖掘方法,其特征在于:针对基础地理信息数据按照其门牌号属性分为道路数据和非道路数据,分别挖掘异常数据;其中道路异常数据包括距离异常数据和密度异常数据,非道路异常数据则主要为距离异常数据;所述的挖掘非道路数据中的距离异常数据为:首先将地理数据按照门牌号属性分组,使具有相同属性的数据分为一组,然后计算非道路数据各分组的重心坐标,之后计算组中所有点到该组重心的平均距离,并以平均距离的二倍作为阈值,判断点到重心的距离与阈值的关系;若所得距离小于阈值,定义该点为正常数据;若所得距离大于阈值,定义该点为异常数据;所有分组循环本操作之后,得到非道路数据的距离异常数据。
2.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法,其特征在于:
包含以下步骤:
1)首先由门牌号属性字段值提取道路数据,判断该道路点是否异常;
2)然后由门牌号属性字段提取非道路数据,判断该非道路点是否异常;
3)经过步骤1)和步骤2)之后,得到异常数据的初步结果,进一步滤除该结果中的正常地理数据;
4)得到最终异常数据结果。
3.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法,其特征在于:所述的挖掘道路数据中的距离异常数据为:首先根据道路数据拟合出该道路曲线,然后计算所有点到该拟合曲线的平均距离的二倍,将其作为阈值,判断道路上的每一点到拟合曲线的距离与阈值的关系,若该距离大于阈值,则定义该点为异常点,否则,为正常点;循环所有道路数据之后,得到道路距离异常值。
4.根据权利要求1所述的面向基础地理信息异常数据的挖掘方法,其特征在于:所述的挖掘道路数据中的密度异常数据为:首先统计道路上任意相邻两点的距离,然后选定某一值作为阈值;对于道路上的每个点,判断在以此点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点,如果存在,定义该点为正常数据;若不存在,定义该点为异常点;以此为依据,挖掘道路密度异常数据。
5.根据权利要求2所述的面向基础地理信息异常数据的挖掘方法,其特征在于:过滤所述异常数据的初步结果中的聚集点为:经过步骤1)和步骤2)之后,得到异常数据的初步结果,对于结果中的每一点,选定某一阈值,判断在以此点为圆心,阈值为半径的圆的范围内,是否还存在与其属性相同的点;如果存在,则在初步异常数据结果中去除该点;如果不存在,则在异常数据结果中保留该点,循环初步异常数据结果中所有点之后,最终得到异常数据的结果。
CN201410236076.4A 2014-05-30 2014-05-30 一种面向基础地理信息异常数据的挖掘方法 Expired - Fee Related CN104035985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410236076.4A CN104035985B (zh) 2014-05-30 2014-05-30 一种面向基础地理信息异常数据的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410236076.4A CN104035985B (zh) 2014-05-30 2014-05-30 一种面向基础地理信息异常数据的挖掘方法

Publications (2)

Publication Number Publication Date
CN104035985A CN104035985A (zh) 2014-09-10
CN104035985B true CN104035985B (zh) 2017-07-07

Family

ID=51466755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410236076.4A Expired - Fee Related CN104035985B (zh) 2014-05-30 2014-05-30 一种面向基础地理信息异常数据的挖掘方法

Country Status (1)

Country Link
CN (1) CN104035985B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325390B (zh) * 2017-08-01 2021-11-05 郑州宇通客车股份有限公司 一种基于地图与多传感器检测相结合的定位方法及系统
CN109323701A (zh) * 2017-08-01 2019-02-12 郑州宇通客车股份有限公司 基于地图与多传感器检测相结合的定位方法及系统
CN113343056A (zh) * 2021-05-21 2021-09-03 北京市燃气集团有限责任公司 一种用户用气量异常检测方法及装置
CN114722891A (zh) * 2022-02-11 2022-07-08 杭州致成电子科技有限公司 一种台区状态分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298869B1 (en) * 2003-07-21 2007-11-20 Abernathy Donald A Multispectral data acquisition system and method
CN102073846A (zh) * 2010-12-15 2011-05-25 同济大学 基于航拍图像的交通信息获取方法
CN102163224A (zh) * 2011-04-06 2011-08-24 中南大学 自适应空间聚类方法
CN102509470A (zh) * 2011-10-14 2012-06-20 北京掌城科技有限公司 基于动态路径规划实现车辆节能减排的系统和方法
CN102622880A (zh) * 2012-01-09 2012-08-01 北京捷易联科技有限公司 一种交通信息数据修复方法及装置
CN102800191A (zh) * 2012-07-31 2012-11-28 北京世纪高通科技有限公司 交通评价方法及装置
CN103035123A (zh) * 2012-12-25 2013-04-10 中国科学院深圳先进技术研究院 一种交通轨迹数据中异常数据获取方法及系统
WO2013141226A1 (ja) * 2012-03-19 2013-09-26 株式会社日本自動車部品総合研究所 走行区画線を認識する装置および方法
CN103438897A (zh) * 2013-09-04 2013-12-11 杭州东信捷峻科技有限公司 基于栅格地图的路径轨迹校正方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7298869B1 (en) * 2003-07-21 2007-11-20 Abernathy Donald A Multispectral data acquisition system and method
CN102073846A (zh) * 2010-12-15 2011-05-25 同济大学 基于航拍图像的交通信息获取方法
CN102163224A (zh) * 2011-04-06 2011-08-24 中南大学 自适应空间聚类方法
CN102509470A (zh) * 2011-10-14 2012-06-20 北京掌城科技有限公司 基于动态路径规划实现车辆节能减排的系统和方法
CN102622880A (zh) * 2012-01-09 2012-08-01 北京捷易联科技有限公司 一种交通信息数据修复方法及装置
WO2013141226A1 (ja) * 2012-03-19 2013-09-26 株式会社日本自動車部品総合研究所 走行区画線を認識する装置および方法
CN102800191A (zh) * 2012-07-31 2012-11-28 北京世纪高通科技有限公司 交通评价方法及装置
CN103035123A (zh) * 2012-12-25 2013-04-10 中国科学院深圳先进技术研究院 一种交通轨迹数据中异常数据获取方法及系统
CN103438897A (zh) * 2013-09-04 2013-12-11 杭州东信捷峻科技有限公司 基于栅格地图的路径轨迹校正方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种航标定位的GPS异常点快速判别及剔除方法;林艺芳等;《现代电子技术》;20081231;全文 *
异常数据的检测方法;王元明等;《重庆工学院学报》;20091231;全文 *

Also Published As

Publication number Publication date
CN104035985A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN109448370B (zh) 一种基于车辆轨迹数据的交通控制子区划分方法
CN103150900B (zh) 一种基于视频的交通拥堵事件自动检测方法
CN104035985B (zh) 一种面向基础地理信息异常数据的挖掘方法
CN110111574B (zh) 一种基于流量树分析的城市交通不平衡评价方法
US20170091350A1 (en) Near real-time modeling of pollution dispersion
CN110362557B (zh) 一种基于机器学习和车牌识别数据的缺失路径修复方法
CN110609824B (zh) 城市路网环境下基于动态空间网络模型的热点区域检测方法
CN112215427B (zh) 一种卡口数据缺失下的车辆行车轨迹重建方法及系统
CN109598930B (zh) 一种自动检测高架封闭系统
CN103954277B (zh) 检测兴趣点位置的方法及装置
CN104331502A (zh) 针对快递员周边人群营销中快递员数据的识别方法
CN109951306A (zh) 告警的处理方法、装置、设备及介质
CN112365595A (zh) 基于报警数据点要素的鉴别交通事故多发点的分析方法
CN109614450A (zh) 基于多维数据的人员去向分析的方法及系统
US20190088116A1 (en) Predicting vehicle travel times by modeling heterogeneous influences between arterial roads
CN117113038A (zh) 城市水土流失黄泥水事件溯源方法及系统
CN117094473B (zh) 一种基于工业物联网的环保数据采集与监视控制方法及系统
CN106776902A (zh) 路径轨迹的分析方法及装置
CN108665723A (zh) 一种信息获取方法及装置
CN117993707A (zh) 一种基于人工智能的城市道路塌陷灾害风险评估方法及系统
Wang et al. Discovering the impact of urban traffic interventions using contrast mining on vehicle trajectory data
Ramachandra et al. Understanding urban sprawl dynamics of Gulbarga-Tier II city in Karnataka through spatio-temporal data and spatial metrics
CN117275215A (zh) 一种基于图过程神经网络的城市道路拥堵时空预测方法
CN114419465B (zh) 遥感图像变化检测方法、装置、设备及存储介质
CN106326264B (zh) 聚类设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170707

Termination date: 20200530

CF01 Termination of patent right due to non-payment of annual fee