CN114218337B - 一种自然资源调查监测数据识别与融合更新方法 - Google Patents

一种自然资源调查监测数据识别与融合更新方法 Download PDF

Info

Publication number
CN114218337B
CN114218337B CN202210159662.8A CN202210159662A CN114218337B CN 114218337 B CN114218337 B CN 114218337B CN 202210159662 A CN202210159662 A CN 202210159662A CN 114218337 B CN114218337 B CN 114218337B
Authority
CN
China
Prior art keywords
entity
similarity
attribute
source
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210159662.8A
Other languages
English (en)
Other versions
CN114218337A (zh
Inventor
刘善磊
陶旸
王圣尧
张大骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Original Assignee
PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PROVINCIAL GEOMATICS CENTRE OF JIANGSU filed Critical PROVINCIAL GEOMATICS CENTRE OF JIANGSU
Priority to CN202210159662.8A priority Critical patent/CN114218337B/zh
Publication of CN114218337A publication Critical patent/CN114218337A/zh
Application granted granted Critical
Publication of CN114218337B publication Critical patent/CN114218337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2393Updating materialised views
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自然资源调查监测数据识别与融合更新方法,包括:获取自然资源调查监测数据和多源矢量参考数据,以自然资源调查监测数据中的实体为源实体构建Voronoi图/广义Voronoi图,基于构建的Voronoi图和广义Voronoi图从多源矢量参考数据中搜索相应的目标实体;对自然资源调查监测数据与候选识别集依次进行几何识别和属性识别,计算图形相似度、属性相似度,与和预设的阈值对比以判断图形、属性的状态变化,从候选识别集中提取增量数据以更新变化的图形和/或属性。实施本发明的方法,能高效地从多源矢量参考数据中提取增量数据,保证自然资源调查监测数据的现势性,缩短数据更新周期。

Description

一种自然资源调查监测数据识别与融合更新方法
技术领域
本发明属于地理信息及数据识别技术领域,具体而言涉及一种自然资源调查监测数据识别与融合更新方法。
背景技术
自然资源,是指天然存在、有使用价值、可提高人类当前和未来福利的自然环境因素的总和。世界上多数资源大国,如美国、俄罗斯、加拿大等对自然资源实行统筹管理,由于中国幅员辽阔,自然资源不得不实行分头管理,因而,各类自然资源分类体系及数据标准不统一,调查监测在对象、范围、内容等方面存在重复和交叉,甚至相互矛盾,导致数据成果难以综合分析利用。
自然资源信息化需要把握的重点之一就是突出数据的整合与融合。随着自然资源的统筹管理逐步落实,各种来源的地理信息数据开始汇集,问题也随之而来——数据在尺度、版本、几何位置和形状等方面存在不一致性,这给自然资源调查监测历史数据建库带来诸多不便。基于此问题,有大批学者进行了积极的探索,其中通过数据自动识别技术实现自然资源调查监测数据的融合更新是一种高效的解决方案。
实际生产中自然资源调查监测数据融合更新的主要的方法包括:基于日志的方法、基于变化检测表(影子表)的方法、基于时间戳字段的方法,基于自动识别的方法。但现有的融合更新方法在精确度上仍有欠缺。将数据的当前状态与以前的状态进行自动识别是整合与融合的最彻底,最精确的方法,并且在没有现有变化跟踪的情况下时是很有用的,特别是对于那些无权访问更改日志,无权添加影子表或时间戳字段但仍需要在可重复的自动化工作流程中跟踪数据集中的变更的用户。但现有技术尚无技术方案来实现所述数据识别和融合更新方法。
发明内容
本发明的目的在于提供一种自然资源调查监测数据识别与融合更新方法。
为实现上述技术目的,本发明采用如下技术方案:
一种自然资源调查监测数据识别与融合更新方法,包括:
S1获取自然资源调查监测数据和多源矢量参考数据,并进行预处理使多源矢量参考数据和自然资源调查监测数据的坐标系和格式一致;之后根据空间数据类型对多源矢量参考数据和自然资源调查监测数据进行图层关联;
S2以自然资源调查监测数据中的点实体为源实体构建Voronoi图、以自然资源调查监测数据中的线实体和面实体作为源实体分别构建广义Voronoi图,基于构建的Voronoi图和广义Voronoi图从多源矢量参考数据中搜索相应的目标实体,放入对应的候选识别集;
其中,所述广义Voronoi图构建时,在面实体边界或线实体上内插离散点,根据离散点生成Voronoi图,之后对多边形进行合并处理生成广义Voronoi图,内插离散点的原则为:
预设距离阈值,依次判断面实体边界或线实体上两节点之间的距离,如果节点距离大于距离阈值,则在两节点之间等距离内插离散点,否则保留原节点;
S3对自然资源调查监测数据与候选识别集依次进行几何识别和属性识别,计算源实体和候选识别集中目标实体的图形相似度、属性相似度;
S4将图形相似度和属性相似度计算结果和预设的阈值对比以判断图形、属性的状态变化,从候选识别集中提取增量数据,根据增量数据更新自然资源调查监测数据中变化的图形和/或属性。
作为一种优选的实施方式,所述多源矢量参考数据指比例尺与自然资源调查监测数据相近且现势性优于自然资源调查监测数据的数据,包括国土调查数据、地理国情监测数据和基础测绘数据;
分别根据自然资源调查监测数据的坐标系和格式对多源矢量参考数据进行投影转换和格式转换,使多源矢量参考数据和自然资源调查监测数据的坐标系和格式一致。
作为一种优选的实施方式,所述S2中,距离阈值基于下式计算:
Figure 930060DEST_PATH_IMAGE002
Figure 212137DEST_PATH_IMAGE004
式中,
Figure DEST_PATH_IMAGE005
为距离阈值,m 1、 m 2分别为源实体和候选识别集中对应目标实体的点位精度,m为两个同名点的距离精度。
作为一种优选的实施方式,所述S3中,所述几何识别的方式为:
当源实体和目标实体为点实体时,分别计算源实体和目标实体的距离相似度、环境相似度,之后对得到的距离相似度、环境相似度值分别赋予权重,通过加权法计算源实体和目标实体的综合图形相似度;
当源实体和目标实体为线实体时,基于Fréchet距离计算源实体a和目标实体b之间的相似度;
当源实体和目标实体为面实体时,分别计算源实体和目标实体的重心距离、形状相似度和面积相似度,对计算得到的重心距离、形状相似度和面积相似度值分别赋予权重,通过加权法计算源实体和目标实体的综合图形相似度。
作为一种优选的实施方式,所述环境相似度的计算方式如下:
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE011
其中,
Figure 260514DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
分别为源实体、目标实体在Voronoi图中所属多边形的面积,
Figure 501002DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
分别为与源实体、目标实体所属多边形相邻的其它多边形的面积之和,
Figure 638591DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
分别为源实体、目标实体的环境特征,
Figure 881616DEST_PATH_IMAGE018
为源实体和目标实体的环境相似度。
作为一种优选的实施方式,当源实体和目标实体为点实体时,距离相似度基于下式计算:
Figure 765258DEST_PATH_IMAGE020
其中,
Figure DEST_PATH_IMAGE021
为源实体a和目标实体b之间的距离相似度;d为源实体a和目标实体b之间的欧式距离;r为距离阈值;
当源实体和目标实体为线实体时,基于Fréchet距离计算源实体a和目标实体b之间的相似度如下:
Figure DEST_PATH_IMAGE023
其中,
Figure 35703DEST_PATH_IMAGE024
为源实体a和目标实体b之间的相似度;
Figure DEST_PATH_IMAGE025
为源实体a和目标实体b之间的Fréchet距离;r为距离阈值。
作为一种优选的实施方式,当源实体和目标实体为面实体时,分别计算源实体和目标实体的重心距离、形状相似度和面积相似度,其中:
计算重心距离时,如果需要获取多个面实体的重心,则计算每个面实体的重心距离平均值,作为多个面实体整体的重心距离;
计算形状相似度时,如果实体间是一对多或多对多的识别关系,则先分别构建所有源实体和目标实体的外接多边形,再计算源实体外接多边形和目标实体外接多边形的形状相似度;
计算面积相似度时,如果实体间是一对多或多对多的识别关系,则先分别计算所有源实体和目标实体的面积和,再计算源实体面积和和目标实体面积和的面积相似度。
作为一种优选的实施方式,所述属性识别的方式为:
当源实体和目标实体的属性项为数值类型,基于下式计算数值相似度
Figure 208058DEST_PATH_IMAGE026
Figure 517423DEST_PATH_IMAGE028
其中,V a V b 分别表示源实体a和目标实体b的一个属性项值;
当源实体和目标实体的属性项为实体的分类代码时,基于下述方式计算编码相似度:
设sNum()表示分类代码的个数;sCode()表示某实体的分类代码,若m=sNum(sCode(a)),n=sNum(sCode(b)),且mn,则将sCode(a)与sCode(b)中前m个数字对应相减,若前述前m个数字对应相减得到的字符串中从第一位开始存在km(k=0,1,2,…,m)个连续的0数字,则编码相似度
Figure DEST_PATH_IMAGE029
计算如下:
Figure DEST_PATH_IMAGE031
当源实体和目标实体的属性项为描述实体状态信息的文本时,计算文本相似度
Figure 114627DEST_PATH_IMAGE032
Figure 493656DEST_PATH_IMAGE034
其中,iCount为两个文本字符串中相同字符的数目;iCommon为两个字符串最长公共子串的字符数目,j为两个字符串中个数最少的个数;
Figure DEST_PATH_IMAGE035
为可调参数,
Figure 779406DEST_PATH_IMAGE036
利用上述各属性项的相似度指标计算源实体和目标实体的综合属性相似度
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE039
其中,
Figure 128347DEST_PATH_IMAGE040
是源实体,是目标实体;
Figure DEST_PATH_IMAGE041
Figure 393107DEST_PATH_IMAGE042
中第k个属性项,0≤kN
Figure DEST_PATH_IMAGE043
Figure 91505DEST_PATH_IMAGE042
属性项
Figure 707294DEST_PATH_IMAGE041
的相似度,根据属性项的类型取对应的相似度计算方法;N是实体总的属性项数目;
Figure 872DEST_PATH_IMAGE044
Figure 572668DEST_PATH_IMAGE041
对应的权重。
作为一种优选的实施方式,所述S4中,将图形相似度和属性相似度计算结果和预设的阈值对比以判断图形、属性的状态变化包括:
通过几何识别和属性识别过程分别得到源实体和目标实体的图形相似度和属性相似度;
对图形相似度数值和属性相似度数值分别预设阈值;
当图形相似度数值≤图形相似度阈值,属性相似度数值>属性相似度阈值,判断图形改变;
当图形相似度数值>图形相似度阈值,属性相似度数值≤属性相似度阈值,判断属性改变;
当图形相似度数值≤图形相似度阈值,属性相似度数值≤属性相似度阈值,判断图形和属性均改变。
作为一种优选的实施方式,所述S4中,根据图形、属性的状态变化判断结果,从多源矢量参考数据中提取图形改变、属性改变或图形和属性改变的数据,同时获取对应自然资源调查监测数据的唯一实体编码;
对于图形改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的图形;
对于属性改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的属性;
对于图形和属性改变,根据增量数据记录的唯一实体编码更新自然资源调查监测数据的图形和属性。
开展自然资源调查监测数据的识别与融合更新方法研究不仅对自然资源调查监测数据的更新模式的探索与实践有着重要意义,还对自然资源的统筹管理具有重要的意义。实施本发明的自然资源调查监测数据识别与融合更新方法,能够高效地从多源矢量参考数据中提取增量数据,保证自然资源调查监测数据的现势性,缩短数据更新周期。
附图说明
图1是本发明方法的总体流程图。
图2是在面实体边界上内插离散点示意图。
图3是图2中A处局部放大图。
图4是根据图2所示内插离散点生成的Voronoi图。
图5是将图3所示Voronoi图面合并后最终获取的广义Voronoi图。
图6是根据面实体多边形节点构建的广义Voronoi图。
图7是实体a环境相似度计算示意;图中·为源实体,☆为目标实体。
图8是实体a’环境相似度计算示意;图中·为源实体,☆为目标实体。
图9是实体b’环境相似度计算示意;图中·为源实体,☆为目标实体。
具体实施方式
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
一种自然资源调查监测数据识别与融合更新方法,包括以下步骤:
(1)获取自然资源调查监测数据和多源矢量参考数据并识别数据的数据格式,获取符合目标数据格式的数据,然后将获取的数据输入到数据处理器;
待处理的数据包括自然资源调查监测数据和多源矢量参考数据;所述自然资源调查监测数据为耕地资源、人工建(构)筑物、城市要素、林草资源、水资源、湿地资源等领域的矢量数据;所述多源矢量参考数据为比例尺与自然资源调查监测数据相近且现势性优于自然资源调查监测数据的国土调查数据、地理国情监测数据和基础测绘数据等;所述自然资源调查监测数据和多源矢量参考数据为标准分幅数据和任意分幅数据;自然资源调查监测数据和多源矢量参考数据的目标数据格式为后缀名*.shp的Shapefile、后缀名*.mdb的Personal Geodatabase或后缀名*.gdb的File Geodatabase中的一种或数种。
(2)对数据处理器中的数据进行数据预处理,使多源矢量参考数据和自然资源调查监测数据的坐标系和格式一致,包括:
根据自然资源调查监测数据的坐标系对多源矢量参考数据进行投影转换,使多源矢量参考数据的坐标系调整与自然资源调查监测数据的坐标系一致;
根据自然资源调查监测数据的格式对多源矢量参考数据进行格式转换,使多源矢量参考数据的格式与自然资源调查监测数据的格式一致。
(3)对预处理之后的数据进行质量检查;
本实施例的质量检查为数据一致性检查;对预处理之后的数据的数据集、图层和字段的一致性进行检查,保持一致则判断为合格,否则判断为不合格。
(4)根据空间数据类型对质量检查合格的数据进行图层关联;
步骤(4)中所述空间数据类型包括点、线、面三种几何类型;所述图层关联是数据类型和图层名称相同的图层之间在逻辑上建立关联关系。例如自然资源调查监测数据的线状道路必须和国情监测数据的线状道路在逻辑上建立关系,不能是点与线,或面与线,也不能是线状的道路和线状的水系在逻辑上建立关系。
(5)基于以自然资源调查监测数据为源实体构建的广义Voronoi图从多源矢量参考数据中获取待候选识别集,包括以下步骤:
(1')将自然资源调查监测数据中的点实体、线实体和面实体(均为地理信息数据中的基本空间实体)作为源实体,多源矢量参考数据作为目标实体;
(2')对源实体构建Voronoi图/广义Voronoi图;对于以点实体构建Voronoi图,可直接采用现有技术。
对线实体或面实体,则将其分解为点实体来构建Voronoi图,以面实体作为源实体构建广义Voronoi图为例说明如下:
先在面实体边界上内插离散点(图2、图3),然后根据离散点生成Voronoi图(图4),最后进行合并处理生成广义Voronoi图(图5),合并处理为现有技术。
其中,内插离散点的原则如下:
依次判断面实体边界上两节点之间的距离,如果大于距离阈值r,则在两点之间等距离内插离散点,否则保留原节点。距离阈值r基于下式计算:
Figure 559078DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE045
m 1、 m 2为源实体和候选识别集中对应目标实体的点位精度,m为两个同名点的距离精度。
以线实体作为源实体构建广义Voronoi图也是基于同样的原理。
对于线实体、面实体构建的广义Voronoi图,通常是根据多边形的节点直接计算,在合并相同ID后,发现其位置精度不高(图6)。本申请的方法保持了原有的关键节点,并极大地照顾到面实体要素的形状特征,不仅可以避免内插离散点过多影响广义Voronoi图的创建效率(耗时对比如表1所示),还可以避免离散点数量过少,造成Voronoi图边界粗糙。
表1 不同内插离散点方式耗时对比
数据量 内插方法 耗时
1718 不内插(直接根据多边形节点计算广义Voronoi图) 18.3s
1718 距离阈值限定的内插离散点(本申请方法) 36.3s
1718 直接等距离(<i>r</i>)内插 81.9s
1718 一半距离阈值等距离(<i>r</i>/2)内插 190.8s
(3')遍历每个Voronoi多边形,搜索相应的目标实体,分别放入对应的候选识别集。
(6)对自然资源调查监测数据与候选识别集进行几何识别,包括:
(1')当源实体和候选识别集中目标实体为点实体时进行几何识别,包含如下步骤:
1-
Figure 553841DEST_PATH_IMAGE046
基于源实体和目标实体的点位精度计算距离阈值r
1-
Figure DEST_PATH_IMAGE047
计算源实体a和目标实体b之间的距离相似度
Figure 854373DEST_PATH_IMAGE021
Figure 546254DEST_PATH_IMAGE048
d为源实体a和目标实体b之间的欧式距离;
1-
Figure DEST_PATH_IMAGE049
计算源实体a和目标实体b之间的环境相似度,如下:
如图7~9,以源实体a在Voronoi图中所属多边形的面积
Figure 844511DEST_PATH_IMAGE012
作为其实体面积,获取源实体a的实体面积及与源实体a所属多边形相邻的其它多边形的面积之和
Figure 182695DEST_PATH_IMAGE014
,将源实体a的环境特征定义为:
Figure 552497DEST_PATH_IMAGE050
根据以上环境特征定义,计算出目标实体b的环境特征:
Figure DEST_PATH_IMAGE051
源实体a和目标实体b的环境相似度
Figure 567726DEST_PATH_IMAGE018
基于下式计算:
Figure 895939DEST_PATH_IMAGE007
根据图7~9所示的源实体a、目标实体a'、目标实体b '的Voronoi图其相邻的其它Voronoi图,可分别获取aa'b '的环境特征(如表2所示),从而分别计算源实体a和目标实体a'、目标实体b'环境相似度
Figure 645721DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
图7~9中,实际情况是ab分别与a'b'匹配,源实体a通过Voronoi图获得目标数据集中两个邻近的候选匹配实体a'b',按照距离最近的方法,a会误选b'为同名实体,而根据本申请提供的公式可计算得到
Figure 304366DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
,通过以上两个环境相似度比较,很容易得出aa'最相似。
表2 实体aa'b '的环境特征
实体名称 实体面积 相邻Voronoi图的面积和 环境特征
<i>a'</i> 8.8441 48.5986 0.1540
<i>b '</i> 6.1324 47.9909 0.1133
<i>a</i> 8.2859 46.1894 0.1521
1-
Figure 987151DEST_PATH_IMAGE056
利用各个特征的相似度计算源实体a和目标实体b的综合图形相似度
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE059
Figure 345320DEST_PATH_IMAGE060
分别为距离相似度、环境相似度的权重,可根据具体情况设定,但必须满足
Figure DEST_PATH_IMAGE061
(2')当源实体和候选识别集中的目标实体为线实体时进行几何识别,包含如下步骤:
2-
Figure 867218DEST_PATH_IMAGE046
将源实体和目标实体分别在结点(线实体与线实体的交叉点)处打断;
2-
Figure 516505DEST_PATH_IMAGE047
依据唯一的实体编码将源实体和目标实体分别进行合并连接;
2-
Figure 303065DEST_PATH_IMAGE049
再次将源实体和目标实体分别在结点(交叉点)处打断;
2-
Figure 707501DEST_PATH_IMAGE056
基于源实体和目标实体的点位精度计算距离阈值r
2-
Figure 697454DEST_PATH_IMAGE062
基于Fréchet距离计算源实体a和目标实体b之间相似度
Figure 901165DEST_PATH_IMAGE024
Figure 152017DEST_PATH_IMAGE023
Figure 868301DEST_PATH_IMAGE025
为源实体a和目标实体b之间的Fréchet距离。
(3')当源实体和候选识别集中的目标实体为面实体时进行几何识别,包含如下步骤:
3-
Figure 391555DEST_PATH_IMAGE046
计算源实体a和目标实体b之间的重心距离
Figure DEST_PATH_IMAGE063
,当出现需要获取多个面实体的重心时,可以通过计算每个面实体的重心距离平均值得出;
Figure DEST_PATH_IMAGE065
3-
Figure 648224DEST_PATH_IMAGE047
计算源实体a和目标实体b之间的形状相似度
Figure 439069DEST_PATH_IMAGE066
,如果实体间是一对一的关系,则直接根据相似度计算公式计算;如果是一对多或者是多对多的识别关系,则先分别构建所有源实体和目标实体的外接多边形,然后再根据相似度计算公式计算;
Figure 60674DEST_PATH_IMAGE068
Figure 805645DEST_PATH_IMAGE070
Figure 193901DEST_PATH_IMAGE072
S(a),L(a)分别为源实体a的面积和长度,S(b),L(b)分别为目标实体b的面积和长度,comp(a),comp(b)为源实体a和目标实体b的紧密度;
3-
Figure 29133DEST_PATH_IMAGE049
计算源实体a和目标实体b之间的面积相似度
Figure DEST_PATH_IMAGE073
,如果实体间是一对一的关系,则直接根据相似度计算公式计算;如果是一对多或者是多对多的识别关系,则先分别计算所有源实体和目标实体的面积和,然后再根据相似度计算公式计算;
Figure DEST_PATH_IMAGE075
Figure 572372DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE077
分别为源实体a和目标b的面积;
3-
Figure 539060DEST_PATH_IMAGE056
利用各个特征的相似度计算源实体a和目标实体b的综合图形相似度
Figure 137532DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE079
Figure 123809DEST_PATH_IMAGE080
分别为距离相似度、形状相似度和面积相似度的权重,可根据具体情况设定,但必须满足
Figure DEST_PATH_IMAGE081
根据
Figure 946272DEST_PATH_IMAGE018
的数值匹配源实体和目标实体b
(7)在几何识别的基础上进行语义识别,包括如下步骤:
(1')当源实体a和目标实体b的属性项为数值类型,如integer型、float型、double型时,计算数值识别的相似度
Figure 869097DEST_PATH_IMAGE026
Figure 333577DEST_PATH_IMAGE082
其中,V a V b 分别表示源实体a和目标实体b的一个属性项值,为V a V b 分之间的相似度。
例如,一条道路的宽度在两套不同的数据中分别为V a =24.5,V b =20.5,则
Figure DEST_PATH_IMAGE083
=0.8367。
(2')当源实体a和目标实体b的属性项为实体的分类代码时,计算编码识别的相似度
Figure 674559DEST_PATH_IMAGE029
设sNum()表示分类代码的个数;sCode()表示某实体的分类代码,若m=sNum(sCode(a)),n=sNum(sCode(b)),且mn,则将sCode(a)与sCode(b)中前m个数字对应相减,若前述前m个数字对应相减得到的字符串中从第一位开始存在km(k=0,1,2,…,m)个连续的0数字,则编码相似度计算如下:
Figure 887497DEST_PATH_IMAGE031
例如,湖泊(230101)和池塘(230102)的编码相似度
Figure 517193DEST_PATH_IMAGE084
(3')当源实体a和目标实体b的属性项以文本的方式来描述要素的名称、位置、隶属关系等状态信息时,计算文本识别的相似度
Figure 50942DEST_PATH_IMAGE032
Figure 230120DEST_PATH_IMAGE034
iCount为两个文本字符串中相同字符的数目;iCommon为两个字符串最长公共子串的字符数目,j为两个字符串中个数最少的个数;
Figure 597647DEST_PATH_IMAGE035
为可调参数,但必须满足
Figure 370431DEST_PATH_IMAGE061
例如:“南京大学东门”分别与“南大东门”和“南京大学西门”相比较。“南京大学东门”与 “南大东门”的计算过程是:
Figure DEST_PATH_IMAGE085
。“南京大学东门”与“南京大学西门”的计算过程是:
Figure 331040DEST_PATH_IMAGE086
。可以看出:“南京大学东门”与“南大东门”更相似,符合人的直觉。
(4')利用各种属性项的相似度指标计算实体ab的综合属性相似度:
Figure 115457DEST_PATH_IMAGE088
其中,
Figure 168732DEST_PATH_IMAGE040
是源实体,
Figure DEST_PATH_IMAGE089
是目标实体;
Figure 304179DEST_PATH_IMAGE041
Figure 602567DEST_PATH_IMAGE042
中第k个属性项,0≤kN
Figure 631703DEST_PATH_IMAGE043
Figure 278716DEST_PATH_IMAGE042
属性项
Figure 947464DEST_PATH_IMAGE041
的相似度,根据属性项的类型(数值、代码、文本)取对应的相似度计算方法;N是实体总的属性项数目;
Figure 361127DEST_PATH_IMAGE044
Figure 854557DEST_PATH_IMAGE041
对应的权重。
(8)基于识别结果从多源矢量参考数据中自动提取增量数据,包括如下步骤:
(1')当源实体和候选识别集为点实体时,从多源矢量参考数据中自动提取增量数据包含如下步骤:
1-
Figure 62684DEST_PATH_IMAGE046
满足以下条件数据识别为图形改变:
Figure DEST_PATH_IMAGE091
1-
Figure 598489DEST_PATH_IMAGE047
满足以下条件数据识别为属性改变:
Figure DEST_PATH_IMAGE093
1-
Figure 268373DEST_PATH_IMAGE049
满足以下条件数据识别为图形和属性改变:
Figure DEST_PATH_IMAGE095
Figure 147468DEST_PATH_IMAGE096
为点实体几何识别阈值;
Figure DEST_PATH_IMAGE097
为点实体语义识别阈值。
1-
Figure 621436DEST_PATH_IMAGE056
从多源矢量参考数据中提取图形改变,属性改变,图形和属性改变的三种数据,同时获取对应自然资源调查监测数据的唯一实体编码。
(2')当源实体和候选识别集为线实体时,从多源矢量参考数据中自动提取增量数据包含如下步骤:
2-
Figure 77826DEST_PATH_IMAGE046
满足以下条件数据识别为图形改变:
Figure DEST_PATH_IMAGE099
2-
Figure 223505DEST_PATH_IMAGE047
满足以下条件数据识别为属性改变:
Figure DEST_PATH_IMAGE101
2-
Figure 908171DEST_PATH_IMAGE049
满足以下条件数据识别为图形和属性改变:
Figure DEST_PATH_IMAGE103
Figure 864626DEST_PATH_IMAGE104
为线实体几何识别阈值;
Figure DEST_PATH_IMAGE105
为线实体语义识别阈值。
2-
Figure 824622DEST_PATH_IMAGE056
从多源矢量参考数据中提取图形改变,属性改变,图形和属性改变的三种数据,同时获取对应自然资源调查监测数据的唯一实体编码。
(3')当源实体和候选识别集为面实体时,从多源矢量参考数据中自动提取增量数据包含如下步骤:
3-
Figure 55884DEST_PATH_IMAGE046
满足以下条件数据识别为图形改变:
Figure DEST_PATH_IMAGE107
3-
Figure 158838DEST_PATH_IMAGE047
满足以下条件数据识别为属性改变:
Figure DEST_PATH_IMAGE109
3-
Figure 348511DEST_PATH_IMAGE049
满足以下条件数据识别为图形和属性改变:
Figure DEST_PATH_IMAGE111
Figure 662381DEST_PATH_IMAGE112
为面实体几何识别阈值;
Figure DEST_PATH_IMAGE113
为面实体语义识别阈值。
3-
Figure 87546DEST_PATH_IMAGE056
从多源矢量参考数据中提取图形改变,属性改变,图形和属性改变的三种数据,同时获取对应自然资源调查监测数据的唯一实体编码。
(9)根据增量数据完成自然资源调查监测数据的融合更新,其中图形改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的图形;属性改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的属性;图形和属性改变,根据增量数据记录的唯一实体编码更新自然资源调查监测数据的图形和属性。

Claims (8)

1.一种自然资源调查监测数据识别与融合更新方法,其特征在于,包括:
S1获取自然资源调查监测数据和多源矢量参考数据,并进行预处理使多源矢量参考数据和自然资源调查监测数据的坐标系和格式一致;之后根据空间数据类型对多源矢量参考数据和自然资源调查监测数据进行图层关联;
S2以自然资源调查监测数据中的点实体为源实体构建Voronoi图、以自然资源调查监测数据中的线实体和面实体作为源实体分别构建广义Voronoi图,基于构建的Voronoi图和广义Voronoi图从多源矢量参考数据中搜索相应的目标实体,放入对应的候选识别集;
其中,所述广义Voronoi图构建时,在面实体边界或线实体上内插离散点,根据离散点生成Voronoi图,之后对多边形进行合并处理生成广义Voronoi图,内插离散点的原则为:
预设距离阈值,依次判断面实体边界或线实体上两节点之间的距离,如果节点距离大于距离阈值,则在两节点之间等距离内插离散点,否则保留原节点;
S3对自然资源调查监测数据与候选识别集依次进行几何识别和属性识别,计算源实体和候选识别集中目标实体的图形相似度、属性相似度;
所述几何识别的方式为:
当源实体和目标实体为点实体时,分别计算源实体和目标实体的距离相似度、环境相似度,之后对得到的距离相似度、环境相似度值分别赋予权重,通过加权法计算源实体和目标实体的综合图形相似度;
当源实体和目标实体为线实体时,基于Fréchet距离计算源实体a和目标实体b之间的相似度;
当源实体和目标实体为面实体时,分别计算源实体和目标实体的重心距离、形状相似度和面积相似度,对计算得到的重心距离、形状相似度和面积相似度值分别赋予权重,通过加权法计算源实体和目标实体的综合图形相似度;
S4将图形相似度和属性相似度计算结果和预设的阈值对比以判断图形、属性的状态变化,从候选识别集中提取增量数据,根据增量数据更新自然资源调查监测数据中变化的图形和/或属性。
2.根据权利要求1所述的方法,其特征在于,所述S2中,距离阈值基于下式计算:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
式中,
Figure DEST_PATH_IMAGE006
为距离阈值,m 1、 m 2分别为源实体和候选识别集中对应目标实体的点位精度,m为两个同名点的距离精度。
3.根据权利要求1所述的方法,其特征在于,所述环境相似度的计算方式如下:
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
分别为源实体、目标实体在Voronoi图中所属多边形的面积,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
分别为与源实体、目标实体所属多边形相邻的其它多边形的面积之和,
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
分别为源实体、目标实体的环境特征,
Figure DEST_PATH_IMAGE026
为源实体和目标实体的环境相似度。
4.根据权利要求2所述的方法,其特征在于,当源实体和目标实体为点实体时,距离相似度基于下式计算:
Figure DEST_PATH_IMAGE028
其中,
Figure DEST_PATH_IMAGE030
为源实体a和目标实体b之间的距离相似度;d为源实体a和目标实体b之间的欧式距离;r为距离阈值,采用权利要求2所述方式计算;
当源实体和目标实体为线实体时,基于Fréchet距离计算源实体a和目标实体b之间的相似度如下:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
为源实体a和目标实体b之间的相似度;
Figure DEST_PATH_IMAGE036
为源实体a和目标实体b之间的Fréchet距离;r为距离阈值,采用权利要求2所述方式计算。
5.根据权利要求1所述的方法,其特征在于,当源实体和目标实体为面实体时,分别计算源实体和目标实体的重心距离、形状相似度和面积相似度,其中:
计算重心距离时,如果需要获取多个面实体的重心,则计算每个面实体的重心距离平均值,作为多个面实体整体的重心距离;
计算形状相似度时,如果实体间是一对多或多对多的识别关系,则先分别构建所有源实体和目标实体的外接多边形,再计算源实体外接多边形和目标实体外接多边形的形状相似度;
计算面积相似度时,如果实体间是一对多或多对多的识别关系,则先分别计算所有源实体和目标实体的面积和,再计算源实体面积和和目标实体面积和的面积相似度。
6.根据权利要求1所述的方法,其特征在于,所述属性识别的方式为:
当源实体和目标实体的属性项为数值类型,基于下式计算数值相似度
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
其中,V a V b 分别表示源实体a和目标实体b的一个属性项值;
当源实体和目标实体的属性项为实体的分类代码时,基于下述方式计算编码相似度:
设sNum()表示分类代码的个数;sCode()表示某实体的分类代码,若m=sNum(sCode(a)),n=sNum(sCode(b)),且mn,则将sCode(a)与sCode(b)中前m个数字对应相减,若前述前m个数字对应相减得到的字符串中从第一位开始存在kmk=0,1,2,…,m个连续的0数字,则编码相似度
Figure DEST_PATH_IMAGE042
计算如下:
Figure DEST_PATH_IMAGE044
当源实体和目标实体的属性项为描述实体状态信息的文本时,计算文本相似度
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE048
其中,iCount为两个文本字符串中相同字符的数目;iCommon为两个字符串最长公共子串的字符数目,j为两个字符串中个数最少的个数;
Figure DEST_PATH_IMAGE050
为可调参数,
Figure DEST_PATH_IMAGE052
利用上述各属性项的相似度指标计算源实体和目标实体的综合属性相似度
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE056
其中,
Figure DEST_PATH_IMAGE058
是源实体,
Figure DEST_PATH_IMAGE060
是目标实体;
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
中第k个属性项,0≤kN
Figure DEST_PATH_IMAGE066
Figure 953915DEST_PATH_IMAGE064
属性项
Figure 402214DEST_PATH_IMAGE062
的相似度,根据属性项的类型取对应的相似度计算方法;N是实体总的属性项数目;
Figure DEST_PATH_IMAGE068
Figure 775426DEST_PATH_IMAGE062
对应的权重。
7.根据权利要求1所述的方法,其特征在于,所述S4中,将图形相似度和属性相似度计算结果和预设的阈值对比以判断图形、属性的状态变化包括:
通过几何识别和属性识别过程分别得到源实体和目标实体的图形相似度和属性相似度;
对图形相似度数值和属性相似度数值分别预设阈值;
当图形相似度数值≤图形相似度阈值,属性相似度数值>属性相似度阈值,判断图形改变;
当图形相似度数值>图形相似度阈值,属性相似度数值≤属性相似度阈值,判断属性改变;
当图形相似度数值≤图形相似度阈值,属性相似度数值≤属性相似度阈值,判断图形和属性均改变。
8.根据权利要求1所述的方法,其特征在于,所述S4中,根据图形、属性的状态变化判断结果,从多源矢量参考数据中提取图形改变、属性改变或图形和属性改变的数据,同时获取对应自然资源调查监测数据的唯一实体编码;
对于图形改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的图形;
对于属性改变,根据增量数据记录的唯一实体编码只更新自然资源调查监测数据的属性;
对于图形和属性改变,根据增量数据记录的唯一实体编码更新自然资源调查监测数据的图形和属性。
CN202210159662.8A 2022-02-22 2022-02-22 一种自然资源调查监测数据识别与融合更新方法 Active CN114218337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159662.8A CN114218337B (zh) 2022-02-22 2022-02-22 一种自然资源调查监测数据识别与融合更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159662.8A CN114218337B (zh) 2022-02-22 2022-02-22 一种自然资源调查监测数据识别与融合更新方法

Publications (2)

Publication Number Publication Date
CN114218337A CN114218337A (zh) 2022-03-22
CN114218337B true CN114218337B (zh) 2022-05-10

Family

ID=80709193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159662.8A Active CN114218337B (zh) 2022-02-22 2022-02-22 一种自然资源调查监测数据识别与融合更新方法

Country Status (1)

Country Link
CN (1) CN114218337B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951152A (zh) * 2024-03-26 2024-04-30 山东光庭信息技术有限公司 一种基于人工智能的自然资源数据的管理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090196361A1 (en) * 2008-01-31 2009-08-06 The Hong Kong University Of Science And Technology Non-binary source-to-channel symbol mappings with minimized distortion
CN113822832A (zh) * 2021-09-03 2021-12-21 国家林业和草原局中南调查规划设计院 自然资源多源矢量数据融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《省级基础地理信息快速更新方法研究》;刘善磊 等;《测绘与空间地理信息》;20190430;第42卷(第4期);第45-54页 *

Also Published As

Publication number Publication date
CN114218337A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
Amini et al. On density-based data streams clustering algorithms: A survey
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN112347222A (zh) 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统
CN104881689A (zh) 一种多标签主动学习分类方法及系统
Yu et al. The analysis and measurement of building patterns using texton co-occurrence matrices
Chen et al. Research on location fusion of spatial geological disaster based on fuzzy SVM
CN109408578A (zh) 一种针对异构环境监测数据融合方法
WO2022198752A1 (zh) 推送模型训练方法、数据推送方法、装置及存储介质
CN114218337B (zh) 一种自然资源调查监测数据识别与融合更新方法
Ruiz-Lendínez et al. A polygon and point-based approach to matching geospatial features
Zhang et al. An improved probabilistic relaxation method for matching multi-scale road networks
Yu et al. A heuristic approach to the generalization of complex building groups in urban villages
CN116662468A (zh) 基于地理对象空间模式特征的城市功能区识别方法及系统
Vilaysouk et al. Semisupervised machine learning classification framework for material intensity parameters of residential buildings
CN115687429A (zh) 一种社交媒体用户行为模式挖掘方法
Sumangali et al. Determination of interesting rules in FCA using information gain
Du et al. Similarity measurements on multi‐scale qualitative locations
Song et al. Hyperspectral data spectrum and texture band selection based on the subspace-rough set method
CN106816871B (zh) 一种电力系统状态相似性分析方法
CN116029542A (zh) 基于计算机视觉和事理图谱的施工工人安全风险识别方法
CN110097126B (zh) 基于dbscan聚类算法的核查重点人员、房屋漏登记的方法
Renjith et al. An empirical research and comparative analysis of clustering performance for processing categorical and numerical data extracts from social media
Ali et al. Data clustering method based on mixed similarity measures
Wu et al. Interval type-2 fuzzy clustering based association rule mining method
Jian et al. An improved memory networks based product model classification method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant