CN115099315A - 基于CityGML的多源异构地理信息数据语义融合转换方法 - Google Patents

基于CityGML的多源异构地理信息数据语义融合转换方法 Download PDF

Info

Publication number
CN115099315A
CN115099315A CN202210655202.4A CN202210655202A CN115099315A CN 115099315 A CN115099315 A CN 115099315A CN 202210655202 A CN202210655202 A CN 202210655202A CN 115099315 A CN115099315 A CN 115099315A
Authority
CN
China
Prior art keywords
data
geographic
semantic
attribute
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210655202.4A
Other languages
English (en)
Inventor
王佳婧
杨辉
朱旭东
张帆
丰硕
吴景萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202210655202.4A priority Critical patent/CN115099315A/zh
Publication of CN115099315A publication Critical patent/CN115099315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/149Adaptation of the text data for streaming purposes, e.g. Efficient XML Interchange [EXI] format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

基于CityGML的多源异构地理信息数据语义融合转换方法,包括;步骤1:数据集成部分包含准备数据,预处理数据两部分;步骤2:利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理;步骤3:根据上述语义一致性融合模型,将经集成处理的待融合的多源异构地理数据集进行融合处理,形成高质量的融合地理数据;步骤4:数据后处理,对于根据上述语义一致性融合模型融合后的地理数据;步骤5:根据转换模型将已经融合后的地理数据进行GML格式转换,将原本的地理格式数据转换为XML为载体的文本格式。步骤6:将GML格式地理数据运用到实际开发中。本发明能够深入语义层次融合多源异构地理信息数据,提高数据的质量和使用效率。

Description

基于CityGML的多源异构地理信息数据语义融合转换方法
技术领域
本发明涉及地理信息数据融合技术领域,特别涉及基于CityGML的多源异构地理信息数据语义融合转换方法。
背景技术
因地理信息数据应用需求以及工作人员专业能力存在差异,同一地区的地理信息数据会采用不同的作业标准、数据模型以及地物分类分级体系进行重复采集,使得采集到的数据在表达方式、几何精度、属性语义等方面存在差异问题。当需要使用这些多源异构地理信息数据时,原始数据量大且兼容性差,导致数据集中重复冗余信息过多,利用率不高,为提高数据质量,提供给行业内相关部门对类该数据的分析再利用便利,迫切需要对这些数据进行相关集成融合处理,提升多源异构地理信息数据的使用效果。为解决上述问题,业内大多数情况下使用的方法是地理数据的集成,即将同一区域的各项地理数据收集起来进行综合分析,这种方法需要耗费大量人力物力,而且现在主流的异构地理信息数据集成融合处理上多注重几何信息的一致性处理,未深入语义层次保障对应的地理数据的一致性融合。并且目前业内在地理信息数据互操作处理过程中,对技术人员的专业能力要求极高,且工作时间冗长,效率较低。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供基于CityGML的多源异构地理信息数据语义融合转换方法,能够批量化进行工程作业,提高工作效率,降低工作难度。
为了实现上述目的,本发明采用的技术方案是:
基于CityGML的多源异构地理信息数据语义融合转换方法,包括以下步骤;
步骤1:数据集成部分包含准备数据,预处理数据两部分,准备数据是收集需要进行数据融合的数据以及对应数据的地理信息要素分类标准规范,预处理部分是对准备好的数据集进行空间基准和数据格式的统一;
步骤2:利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理,构建语义融合转换模型包括两个子模型的建立:语义一致性融合模型和基于CityGML(城市地理标记语言)的矢量数据转换模型;
步骤3:根据上述语义一致性融合模型,将经集成处理的待融合的多源异构地理数据集进行融合处理,将经过语义一致性判别的地理要素分类标准和地理实体一一对应后,建立两种对应关系的规则性文件,利用这两种规则性文件,采用任一地理要素分类标准,将对应地理实体下使用一致性处理后的属性特征项作为新数据的属性内容,从而形成高质量的融合地理数据;
步骤4:数据后处理,对于根据上述语义一致性融合模型融合后的地理数据,进行再次编辑、加工、拓扑检查的操作,即将新地理数据重新加载在平台中使用拓扑检查工具判别地理数据几何形状上的合规性(包括自相交、面不闭合、缝隙检查等),以及对属性表做检查判别(确定属性项和属性值的对应);
步骤5:根据上述基于CityGML映射转换模型将已经融合后的地理数据进行GML格式转换,将原本的地理格式数据转换为XML为载体的文本格式;
步骤6:将上述融合转换后的GML格式地理数据运用到实际Web GIS开发中,实现地理信息可视化。
所述步骤1中:
准备数据是收集需要进行数据融合的数据以及对应数据的地理信息要素分类标准规范,地理要素分类标准规范为准备数据对应所属的国家、省级或地方性的标准数据库,此数据为同一地区的地理信息数据,地理信息数据包含有对水资源、土地资源、矿产资源、地质资源、城镇、人口分布、产业布局等多个主题的采集整合性数据,数据来源通常为各地理信息应用部门(国土部门、水利部门等)的数据库,或其他组织采集的数据;数据形式通常为GIS数据、CAD空间数据格式、遥感图像以及统计数据,如DWG、DXF、Shape File、Excel文件、TXT文件等;
预处理部分是对准备好的数据集进行空间基准和数据格式的统一,使用FME工具中的格式转换器将该多源异构地理数据集转换为统一的数据格式(并不限定于GIS类型的某一格式),以及统一空间基准(即统一坐标系和投影)。
所述步骤2中语义一致性融合模型为多源异构地理信息数据融合的核心,其利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理,数据的融合需经过语义一致性模型的标准检验,只有对应地理数据部分存在语义一致性,才可令两部分数据进行融合,生成独立于待融合数据集的新数据,该语义一致性融合模型有三个一致性标准需要建立:地理要素分类标准一致、同名地理实体一致和地理要素属性一致。
所述地理要素分类标准一致具体为:地理要素的分类是将不同属性或特征的地理事物分开的过程,将地理要素按属性特征差异划分为若干组,不同的分类框架下,地理信息中水系、土质、交通、植被要素、建筑和居民地及设施分组情况不同,根据其类别名称及描述的字面相似匹配度来衡量地理要素分类标准的相似度,从文本语义相似性上,建立不同地理要素分类标准下的地理数据集的要素分组对应关系;
所述同名地理实体一致具体为:地理实体是地理数据库中的实体,指在现实世界中再也不能划分为同类现象的现象,同名地理实体一致指在地理要素分类标准一致的前提下,依据地理实体的对应属性特征项的语义相似程度作为实体一致性判别,属性特征项包含数据有数值型度量数据以及文本描述性数据;
所述地理要素属性一致具体为:地理要素的属性特征信息是一个地理数据的综合性描述,同类型的地理实体下,会根据抽象为不同的具体的地理实体,属性特征的描述或数值会有所不同,属性特征的一致性处理实为对应地理实体属性特征项内容的更新和补充,具体操作为属性值精确度的更新(高精度替代低精度),属性项数据类型的转换(字符型数据和数值型数据转换),属性内容的整合(属性内容信息的补充或替代)。
所述步骤2中:
(1)上述建模过程中,地理要素分类标准中要素分组对应关系适应以下标准:待融合地理数据之间的要素匹配关系分为“一对一”、“一对多”、“一对零”三大种,其中左边数据到右边数据匹配和右到左匹配可进行交换为如“多对一”;
(2)上述建模过程中使用的语义相似性判别标准是基于文本的语义相似性,在抽取文本中特征词的基础上,构建数学模型来量化、描述和表达文本的语义信息,即通过对地理文本概念和其描述性知识库中的句法和词法分析,抽取其中特定的词语进行概念语义向量空间的搭建,再采用语义相似度量方法评估地理概念中的语义相似性,语义相似性度量阈值大小为0.8,以相似性结果与阈值大小比对得到是否一致的判断,这种语义相似度量方法的表示如下:
数值型数据:采用数值运算,差值越大,相似度越低;
字符型数据:通过VSM(向量空间模型)来评价字符型数据的相似性,将分词处理后的表达文本内容简化为空间中的向量运算,以空间上的相似度表达语义上的相似度;有如下简要说明:
任意两个文本信息D1和D2之间的相似系数Sim(D1,D2)指两个文本内容的相关程度,其中w为文本中词组权重,设文本D1和D1表示VSM中两个向量:
D1=D1(w11,w12,…,w1n)
D2=D2(w21,w22,…,w2n)
则可以用向量内积计算,即n维空间中两向量之间的某种距离表示文本之间的相似度:
Figure BDA0003689192540000061
并可用两个向量的余弦值表示相似系数:
Figure BDA0003689192540000062
地理实体一致性中存在各属性特征项影响整体相似性权重大小不一,使用归一化的香农信息熵公式为属性各特征项x赋权重W:
香农信息熵:且其中P(x)为属性特征项x,某一属性值与所有取值集合中取值个数的比例
Figure BDA0003689192540000063
归一化处理:
Figure BDA0003689192540000064
并且复合条件下的相似性度量定义如下:
SimD=W1Sim(D1,D2)+W2Sim(D3,D4)…
(3)上述建模过程中地理要素属性一致的处理上,属性特征项的映射转换规则同样遵循“一对一”、“一对多”、“一对零”,即待融合数据属性项直接与另一待融合数据的属性项之间的属性内容更新完善;有如下定义:
PaPb为两待融合地理数据的属性列表,t为其中属性项,其映射规则可表示为
Pa({t1},{t2,t3},{},…)→Pb({t1},{t2},{t3},…)。
基于CityGML的矢量数据转换模型是在多源地理数据融合的基础上,采用开放地理空间信息联盟(OGC)定义的标准对数据结构进行重新定义,只因传统的地理信息标准及格式使得地理GIS建设存在信息资源分散,资源复用率低,地区发展不均等特征,同时也为满足地理数据能在网络信息发展中保证与时俱进,而OGC标准为目前网络地理信息服务的通用标准,特采用OGC的标准作为本发明模型的转换标准,该映射转换模型的使用是为了将GML这种数据格式的优势在地理数据的使用上最大化,使用到的CityGML是一种用来表示城市三维模型的通用信息模型,它定义了城市中大部分地理对象的分类及其之间的关系,采用面向对象的方法来组织分类模型,且充分考虑了模型的几何、拓扑、语义、外观等属性,其中包括了主题分类中间的层次、聚合、对象之间的关系、空间属性,使用CityGML扩展模块的11个分类作为映射基准:Appearance(外观)、Building(建筑)、CityFurniture(城市设施)、CityObjectGroup(城市对象集合)、Generics(通用对象)、Land Use(土地利用)、Vegetation(植被)、Transportation(交通)、Relief(地形)、WaterBody(水系)和TexturedSurface(纹理表面)等。该模型使用FME DeskTop做为以CityGML为转换规则的数据转换工具,其内部含有现成方法转换器可进行数据的转换;
融合后的数据到CityGML模型转换的要点有两条:
·使用FME工具进行数据映射转换
·生成GML文档:
使用CityGML定义的统一的XML应用模式和GML语法规则,将经过解析存入自定义GML的对象存入GML文档中并保存,其各扩展模块编码模式类似,如下给出线状要素道路的编码模式:
<ogr:featureMember xmlns:ogr="http://ogr.maptools.org/"xmlns:gml="http://www.opengis.net/gml">
<ogr:roads gml:id="roads.1">
<ogr:geometryProperty>
<gml:LineString srsName="urn:ogc:def:crs:EPSG::4326"srsDimension="2"><gml:posList>54.9906466 -2.5773558 54.9908714 -2.5767192 54.9909405 -2.5764712 54.9909618 -2.5764044 54.9909743 -2.5761903 54.9909482 -2.576036154.990899 -2.575843 54.9908284 -2.5757244 54.9905421 -2.5754333</gml:posList></gml:LineString>
</ogr:geometryProperty>
<ogr:osm_id>146830031</ogr:osm_id>
<ogr:highway>residential</ogr:highway>
<ogr:name>Hadrian's Crescent</ogr:name>
</ogr:roads>
</ogr:featureMember>
其中ogr:featureMember中的链接为一个声明,声明元素及其嵌套元素中的名称空间,<ogr:geometryProperty>定义空间特性,且上述示例该特性由gml:LineString几何图形组成,并且其中的gml:posList为其三维点坐标描述,上面的示例具有三个非几何图形属性,即ogr:osm_id、ogr:Highway和ogr:name。gml:posList元素将线条顶点的坐标表示为空格分隔的数字数组。
将经上述模型融合转换后的GML格式地理数据应用到实际工程项目中的Web GIS中的地理信息可视化,包括信息查询、检索和统计分析,使用基于WebGL(Web GraphicsLibrary)的Cesium地图引擎解析上述GML数据,该技术路径基于浏览器实现,将GML存储的地理数据展示在网页界面,并且其提供相应的开发接口,进行对地理数据进行高级处理如点线面编辑绘制、标注标绘和空间分析,以上可视化和地理数据处理部分为GML格式地理数据的工程实际使用。
本发明的有益效果:
本发明提供的多源地理数据融合转换方法利用FME和Arcgis平台结合使用,可以批量化进行工程作业,提高工作效率,降低工作难度,并且本发明提供的方法在提高数据质量上有一定优势。并且将本发明处理的数据用作工程使用后,GML格式的数据相比传统地理信息格式,有更好的共享性。
附图说明
图1为发明总体流程图。
图2为语义融合转换模型结构图。
图3为基于文本分析的语义相似度理解示意图。
图4为CityGML模块图。
图5为实验数据集水域地理信息展示图
图6为实验数据集之间语义相似性计算结果图。
图7为实验数据集之间属性特征项的信息熵和对应权重计算结果图。
图8为实验数据集之间对应实体的语义相似度计算结果图。
图9为同名地理实体对应后叠加对比图。
图10为融合数据集属性项信息说明图
图11为CityGML映射组件
图12为TestFilter转换器示意图。
图13为生成GML格式文档步骤示意图。
图14为示例GML文档示意图。
图15为Web GIS可视化展示图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1-图15所示:基于CityGML的多源异构地理信息数据语义融合转换方法,包括以下步骤;
步骤1:数据集成部分包含准备数据,预处理数据两部分,其中准备数据是收集需要进行数据融合的数据以及对应数据的地理信息要素分类标准规范,地理要素分类标准规范为准备数据对应所属的国家、省级或地方性的标准数据库,此数据为同一地区的地理信息数据,地理信息数据包含有对水资源、土地资源、矿产资源、地质资源、城镇、人口分布、产业布局等多个主题的采集整合性数据,数据来源通常为各地理信息应用部门(国土部门、水利部门等)的数据库,或其他组织采集的数据;数据形式通常为GIS数据、CAD空间数据格式、遥感图像以及统计数据,如DWG、DXF、Shape File、Excel文件、TXT文件等;
预处理部分是对准备好的数据集进行空间基准和数据格式的统一,使用FME工具中的格式转换器将该多源异构地理数据集转换为统一的数据格式(并不限定于GIS类型的某一格式),以及统一空间基准(即统一坐标系和投影),如WGS84大地坐标系统,北京54坐标系统,2000国家大地坐标系统之间的坐标系转换,UTM投影与高斯-克吕格投影之间的变换;
步骤2:构建语义融合转换模型包括两个子模型的建立:语义一致性融合模型和基于CityGML(城市地理标记语言)的矢量数据转换模型;
所述语义一致性融合模型为多源异构地理信息数据融合的核心,其利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理,数据的融合需经过语义一致性模型的标准检验,只有对应地理数据部分存在语义一致性,才可令两部分数据进行融合,生成独立于待融合数据集的新数据,该语义一致性融合模型有三个一致性标准需要建立:地理要素分类标准一致、同名地理实体一致和地理要素属性一致。
所述地理要素分类标准一致具体为:地理要素的分类是将不同属性或特征的地理事物分开的过程,将地理要素按属性特征差异划分为若干组,不同的分类框架下,地理信息中水系、土质、交通、植被要素、建筑和居民地及设施分组情况不同,根据其类别名称及描述的字面相似匹配度来衡量地理要素分类标准的相似度,从文本语义相似性上,建立不同地理要素分类标准下的地理数据集的要素分组对应关系;
所述同名地理实体一致具体为:地理实体是地理数据库中的实体,指在现实世界中再也不能划分为同类现象的现象,同名地理实体一致指在地理要素分类标准一致的前提下,依据地理实体的对应属性特征项的语义相似程度作为实体一致性判别,属性特征项包含数据有数值型度量数据以及文本描述性数据,如实体名称、长度、描述类型、属性内容等。各属性特征项综合的语义相似程度作为地理实体一致性匹配标准;
所述地理要素属性一致具体为:地理要素的属性特征信息是一个地理数据的综合性描述,同类型的地理实体下,会根据抽象为不同的具体的地理实体,属性特征的描述或数值会有所不同,属性特征的一致性处理实为对应地理实体属性特征项内容的更新和补充,具体操作为属性值精确度的更新(高精度替代低精度),属性项数据类型的转换(字符型数据和数值型数据转换),属性内容的整合(属性内容信息的补充或替代)。
所述步骤2中:
(1)上述建模过程中,地理要素分类标准中要素分组对应关系适应以下标准:待融合地理数据之间的要素匹配关系分为“一对一”、“一对多”、“一对零”三大种,其中左边数据到右边数据匹配和右到左匹配可进行交换为如“多对一”;如:地理国情普查中的标准下“河流”要素模块对应了国家基础地理信息标准下的多个要素模块“常年河(单线\多线)”,“时令河(单线\多线)”,“消失河”;
(2)上述建模过程中使用的语义相似性判别标准是基于文本的语义相似性,在抽取文本中特征词的基础上,构建数学模型来量化、描述和表达文本的语义信息。即通过对地理文本概念和其描述性知识库中的句法和词法分析,抽取其中特定的词语进行概念语义向量空间的搭建,再采用语义相似度量方法评估地理概念中的语义相似性,本发明语义相似性度量阈值大小为0.8,以相似性结果与阈值大小比对得到是否一致的判断,这种语义相似度量方法的表示如下:(文本相似性处理理解图如图3所示)
数值型数据:采用数值运算,差值越大,相似度越低;
字符型数据:通过VSM(向量空间模型)来评价字符型数据的相似性,将分词处理后的表达文本内容简化为空间中的向量运算,以空间上的相似度表达语义上的相似度;有如下简要说明:
任意两个文本信息D1和D2之间的相似系数Sim(D1,D2)指两个文本内容的相关程度,其中w为文本中词组权重,设文本D1和D1表示VSM中两个向量:
D1=D1(w11,w12,…,w1n)
D2=D2(w21,w22,…,w2n)
则可以用向量内积计算,即n维空间中两向量之间的某种距离表示文本之间的相似度:
Figure BDA0003689192540000141
并可用两个向量的余弦值表示相似系数:
Figure BDA0003689192540000142
地理实体一致性中存在各属性特征项影响整体相似性权重大小不一,使用归一化的香农信息熵公式为属性各特征项x赋权重W:
香农信息熵:且其中P(x)为属性特征项x,某一属性值与所有取值集合中取值个数的比例
Figure BDA0003689192540000143
归一化处理:
Figure BDA0003689192540000144
并且复合条件下的相似性度量定义如下:
SimD=W1Sim(D1,D2)+W2Sim(D3,D4)…
(3)上述建模过程中地理要素属性一致的处理上,属性特征项的映射转换规则同样遵循“一对一”、“一对多”、“一对零”,即待融合数据属性项直接与另一待融合数据的属性项之间的属性内容更新完善;有如下定义:
PaPb为两待融合地理数据的属性列表,t为其中属性项,其映射规则可表示为
Pa({t1},{t2,t3},{},…)→Pb({t1},{t2},{t3},…)
基于CityGML的矢量数据转换模型是在多源地理数据融合的基础上采用OGC定义的标准对数据结构进行重新定义,以便处理后的地理数据有更好的通用性、可交互性,该映射转换模型的使用是为了将GML这种数据格式的优势在地理数据的使用上最大化。CityGML是一种用来表示城市三维模型的通用信息模型,它定义了城市中大部分地理对象的分类及其之间的关系,采用面向对象的方法来组织分类模型,且充分考虑了模型的几何、拓扑、语义、外观等属性,其中包括了主题分类中间的层次、聚合、对象之间的关系、空间属性,使用CityGML扩展模块的11个分类作为映射基准:Appearance(外观)、Building(建筑)、CityFurniture(城市设施)、CityObjectGroup(城市对象集合)、Generics(通用对象)、LandUse(土地利用)、Vegetation(植被)、Transportation(交通)、Relief(地形)、WaterBody(水系)和TexturedSurface(纹理表面)等。该模型使用FME DeskTop做为以CityGML为转换规则的数据转换工具,其内部含有现成方法转换器可进行数据的转换;
融合后的数据到CityGML模型转换的要点有两条:
·使用FME工具进行数据映射转换
·生成GML文档:
使用CityGML定义的统一的XML应用模式和GML语法规则,将经过解析存入自定义GML的对象存入GML文档中并保存,其各扩展模块编码模式类似,如下给出线状要素道路的编码模式:
<ogr:featureMember xmlns:ogr="http://ogr.maptools.org/"xmlns:gml="http://www.opengis.net/gml">
<ogr:roads gml:id="roads.1">
<ogr:geometryProperty>
<gml:LineString srsName="urn:ogc:def:crs:EPSG::4326"srsDimension="2"><gml:posList>54.9906466 -2.5773558 54.9908714 -2.5767192 54.9909405 -2.5764712 54.9909618 -2.5764044 54.9909743 -2.5761903 54.9909482 -2.576036154.990899 -2.575843 54.9908284 -2.5757244 54.9905421 -2.5754333</gml:posList></gml:LineString>
</ogr:geometryProperty>
<ogr:osm_id>146830031</ogr:osm_id>
<ogr:highway>residential</ogr:highway>
<ogr:name>Hadrian's Crescent</ogr:name>
</ogr:roads>
</ogr:featureMember>
其中ogr:featureMember中的链接为一个声明,声明元素及其嵌套元素中的名称空间,<ogr:geometryProperty>定义空间特性,且上述示例该特性由gml:LineString几何图形组成,并且其中的gml:posList为其三维点坐标描述,上面的示例具有三个非几何图形属性,即ogr:osm_id、ogr:Highway和ogr:name。gml:posList元素将线条顶点的坐标表示为空格分隔的数字数组。
步骤3:根据上述语义一致性融合模型,将经集成处理的待融合的多源异构地理数据集进行融合处理,将经过语义一致性判别的地理要素分类标准和地理实体一一对应后,建立两种对应关系的规则性文件,利用这两种规则性文件,采用任一地理要素分类标准,将对应地理实体下使用一致性处理后的属性特征项作为新数据的属性内容,从而形成高质量的融合地理数据;
步骤4:数据后处理,对于根据上述语义一致性融合模型融合后的地理数据,进行再次编辑、加工、拓扑检查等操作,即将新地理数据重新加载在平台中使用拓扑检查工具判别地理数据几何形状上的合规性(包括自相交、面不闭合、缝隙检查等),以及对属性表做检查判别(确定属性项和属性值的对应),是为再次确定地理数据的完整性和正确性,具体包括数学基础正确,属性表的字段名、长度正确与内容填写规范,属性精度是否符合要求;
步骤5:根据上述基于CityGML映射转换模型将已经融合后的地理数据进行GML格式转换,将原本的地理格式数据转换为XML为载体的文本格式;
步骤6:将上述融合转换后的GML格式地理数据运用到实际Web GIS开发中,实现新数据的工程使用。将经上述模型融合转换后的GML格式地理数据应用到实际工程项目中,最直接的使用就是Web GIS中的地理信息可视化。
工程使用还包括一些信息查询、检索和统计分析功能。使用基于WebGL(WebGraphics Library)的Cesium地图引擎解析上述GML数据,该技术路径基于浏览器实现,可以将GML存储的地理数据展示在网页界面,并且其提供相应的开发接口,可以进行对地理数据进行高级处理如点线面编辑绘制、标注标绘和空间分析等。以上可视化和地理数据处理部分为GML格式地理数据的工程实际使用。
以某水体地理数据集的各信息做具体操作,针对该数据集进行本发明的实践验证。
本实验过程使用到ArcGIS平台,FME工具,以及两者相关的二次开发技术。
选取国内某一地区、不同来源的地理矢量数据集A、B作为实验数据,FME工具进行数据集成处理,将两者数据做如下处理:比例尺为1:100万,坐标系为GCS_WGS_1984,数据格式为shp类型。两种数据来自于不同作业部门,因数据采集年代不同、采集要求不同以及作业标准不同,两种数据会有地理要素分类详细度差异,部分地理实体变动,地理信息属性描述详细程度不同等方面的问题,存在语义不一致的情况,特用此数据集作为实验。下文展示的数据处理部分以水域数据的具体操作为主,图5为该地区水域数据展示。
首先读取A与B数据集对应的某一地理要素图层,用Python的结巴分词处理其要素分类信息,使用发明中的文本语义相似性度量公式和阈值0.8比较,来建立要素分类一致性标准的映射关系,图6所示为两数据集地理要素分类标准对应情况以及语义相似性计算结果;
接着对同一要素图层中地理实体进行对应,取A数据的全部地理实体的属性特征项,经专家判别建立与B数据的属性特征项的对应关系,如水域信息中的FID-编号,Shape-形状,Name-名称,Fclass-类型,MJ-面积,BJ-备注等,将语义信息丰富可作为语义相似性判别的属性特征对应项挑出来,再采用发明中提到的香农信息熵归一化确定各特征项权重值,最后用综合文本语义相似度公式计算,确定两数据A、B中实体的对应关系。图7为两数据集实体属性特征项对应的属性熵和权重计算,图8为两数据集不同实体语义相似度计算结果,图9为两对应实体的几何形状对比;
最后的地理要素属性信息的补充更新,依托于地理要素分类标准对应和地理实体对应的规则性文件,在这两个前提下,逐一抽取A与B数据要素图层中所有地理实体,在匹配同名地理实体的基础上,建立目标融合数据的属性结构,最后对实体属性的具体信息进行上述模型中描述的信息更新和补充,并将处理后的属性信息作为目标融合数据的属性信息保存。图10为融合数据的属性项信息的说明。
融合数据还需要进行数据后处理,使用拓扑检查工具,判别新数据的几何特征的规整性,并对数据属性表内容做检查处理,验证新数据的正确性。
再使用发明中的基于CityGML的矢量数据转换模型,依托专家建议将融合数据的地理要素分类标准与CityGML标准中的12个扩展模块对应,从大类细化到小类的对应即可,将对应规则作为FME中转换器TestFiliter甄别选取对应到CityGML下的数据分类的规则,最后进行GML格式的导出,利用CityGMLGeonetrySetter,GermetryPropertySetter转换器进行导出。图11、图12、图13为FME中融合数据对应CityGML标准转换的转换器与具体搭配展示,利用FME提供的读写模块即可对海量数据批处理,批量导入融合以及批量导出。导出的GML格式示例如图14所示。
将经过融合转换处理生成的GML数据依托Cesium地图引擎解析,展示在web端的网页上,实现工程上地理数据的可视化使用,并提供空间分析等数据处理操作。可视化与数据处理部分都将在web端集合展示,如图15所示。
本发明有如下优点:
1.地理数据融合:
相比于原未处理的多源异构的地理数据,融合后的数据兼容性更强,包含的信息量充足,实用性和便捷性显著提高,易于在此基础上进行分析和再处理;且本发明提供的融合模型是在语义一致性基础上进行的,其中的方法理念较分三层一致性判别,较现有的融合模型更细化精准,使得生成的融合数据的对应关系更恰当。
2.基于CityGML映射后的数据形式的改变:
融合后的数据是基于GML映射转换,利用XML文件作地理数据的载体生成的一种数据文件,相比原GIS数据和CAD空间类数据,具有更简单、更开放、跨平台、易检查、易转换等特性;
多源异构地理数据转换为统一的XML数据格式,将空间和属性数据融为一体,将矢量和栅格数据融为一体,尤其在后期Web GIS的应用中,易于实现数据的动态集成和传输,扩大了地理数据使用的范围,不再局限于本地GIS软件中;结构性更强,在XML格式下将地理信息的几何信息和属性信息重新编排,构造为文本格式,这种纯文档的数据形式,在地理信息的展示上更加清晰,且该形式将地理数据和地图表现分离,就有了可由文本编辑器打开和编辑的特性。
3.同源异构数据转换:
采用FME工具作为转换插件,利用封装性良好的转换器,使用对外提供的统一的调用方式,用户只需要提出数据访问要求,而无需关心数据格式、数据存储位置等技术问题,相比原有的ArcGIS平台上的处理,降低了操作人员的使用难度,从而提高了工作效率。

Claims (6)

1.基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,包括以下步骤;
步骤1:数据集成部分包含准备数据,预处理数据两部分,准备数据是收集需要进行数据融合的数据以及对应数据的地理信息要素分类标准规范,预处理部分是对准备好的数据集进行空间基准和数据格式的统一;
步骤2:利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理,构建语义融合转换模型包括两个子模型的建立:语义一致性融合模型和基于CityGML(城市地理标记语言)的矢量数据转换模型;
步骤3:根据上述语义一致性融合模型,将经集成处理的待融合的多源异构地理数据集进行融合处理,将经过语义一致性判别的地理要素分类标准和地理实体一一对应后,建立两种对应关系的规则性文件,利用这两种规则性文件,采用任一地理要素分类标准,将对应地理实体下使用一致性处理后的属性特征项作为新数据的属性内容,从而形成高质量的融合地理数据;
步骤4:数据后处理,对于根据上述语义一致性融合模型融合后的地理数据,进行再次编辑、加工、拓扑检查的操作,即将新地理数据重新加载在平台中使用拓扑检查工具判别地理数据几何形状上的合规性(包括自相交、面不闭合、缝隙检查等),以及对属性表做检查判别(确定属性项和属性值的对应);
步骤5:根据上述基于CityGML映射转换模型将已经融合后的地理数据进行GML格式转换,将原本的地理格式数据转换为XML为载体的文本格式;
步骤6:将上述融合转换后的GML格式地理数据运用到实际Web GIS开发中,实现地理信息可视化。
2.根据权利要求1所述的基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,所述步骤1中:
准备数据是收集需要进行数据融合的数据以及对应数据的地理信息要素分类标准规范,地理要素分类标准规范为准备数据对应所属的国家、省级或地方性的标准数据库,此数据为同一地区的地理信息数据,地理信息数据包含有对水资源、土地资源、矿产资源、地质资源、城镇、人口分布、产业布局等多个主题的采集整合性数据,数据来源通常为各地理信息应用部门(国土部门、水利部门等)的数据库,或其他组织采集的数据;数据形式通常为GIS数据、CAD空间数据格式、遥感图像以及统计数据,如DWG、DXF、Shape File、Excel文件、TXT文件等;
预处理部分是对准备好的数据集进行空间基准和数据格式的统一,使用FME工具中的格式转换器将该多源异构地理数据集转换为统一的数据格式(并不限定于GIS类型的某一格式),以及统一空间基准(即统一坐标系和投影)。
3.根据权利要求1所述的基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,所述步骤2中语义一致性融合模型为多源异构地理信息数据融合的核心,其利用语义相似性作为评判标准将经步骤1集成后的多源地理信息数据集进行融合处理,数据的融合需经过语义一致性模型的标准检验,只有对应地理数据部分存在语义一致性,才可令两部分数据进行融合,生成独立于待融合数据集的新数据,该语义一致性融合模型有三个一致性标准需要建立:地理要素分类标准一致、同名地理实体一致和地理要素属性一致。
4.根据权利要求3所述的基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,所述地理要素分类标准一致具体为:地理要素的分类是将不同属性或特征的地理事物分开的过程,将地理要素按属性特征差异划分为若干组,不同的分类框架下,地理信息中水系、土质、交通、植被要素、建筑和居民地及设施分组情况不同,根据其类别名称及描述的字面相似匹配度来衡量地理要素分类标准的相似度,从文本语义相似性上,建立不同地理要素分类标准下的地理数据集的要素分组对应关系;
所述同名地理实体一致具体为:地理实体是地理数据库中的实体,指在现实世界中再也不能划分为同类现象的现象,同名地理实体一致指在地理要素分类标准一致的前提下,依据地理实体的对应属性特征项的语义相似程度作为实体一致性判别,属性特征项包含数据有数值型度量数据以及文本描述性数据;
所述地理要素属性一致具体为:地理要素的属性特征信息是一个地理数据的综合性描述,同类型的地理实体下,会根据抽象为不同的具体的地理实体,属性特征的描述或数值会有所不同,属性特征的一致性处理实为对应地理实体属性特征项内容的更新和补充,具体操作为属性值精确度的更新(高精度替代低精度),属性项数据类型的转换(字符型数据和数值型数据转换),属性内容的整合(属性内容信息的补充或替代)。
5.根据权利要求4所述的基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,所述步骤2中:
(1)上述建模过程中,地理要素分类标准中要素分组对应关系适应以下标准:待融合地理数据之间的要素匹配关系分为“一对一”、“一对多”、“一对零”三大种,其中左边数据到右边数据匹配和右到左匹配可进行交换为如“多对一”;
(2)上述建模过程中使用的语义相似性判别标准是基于文本的语义相似性,在抽取文本中特征词的基础上,构建数学模型来量化、描述和表达文本的语义信息,即通过对地理文本概念和其描述性知识库中的句法和词法分析,抽取其中特定的词语进行概念语义向量空间的搭建,再采用语义相似度量方法评估地理概念中的语义相似性,语义相似性度量阈值大小为0.8,以相似性结果与阈值大小比对得到是否一致的判断,这种语义相似度量方法的表示如下:
数值型数据:采用数值运算,差值越大,相似度越低;
字符型数据:通过VSM(向量空间模型)来评价字符型数据的相似性,将分词处理后的表达文本内容简化为空间中的向量运算,以空间上的相似度表达语义上的相似度;有如下简要说明:
任意两个文本信息D1和D2之间的相似系数Sim(D1,D2)指两个文本内容的相关程度,其中w为文本中词组权重,设文本D1和D1表示VSM中两个向量:
D1=D1(w11,w12,…,w1n)
D2=D2(w21,w22,…,w2n)
则可以用向量内积计算,即n维空间中两向量之间的某种距离表示文本之间的相似度:
Figure FDA0003689192530000051
并可用两个向量的余弦值表示相似系数:
Figure FDA0003689192530000052
地理实体一致性中存在各属性特征项影响整体相似性权重大小不一,使用归一化的香农信息熵公式为属性各特征项x赋权重W:
香农信息熵:且其中P(x)为属性特征项x,某一属性值与所有取值集合中取值个数的比例
Figure FDA0003689192530000053
归一化处理:
Figure FDA0003689192530000054
并且复合条件下的相似性度量定义如下:
SimD=W1Sim(D1,D2)+W2Sim(D3,D4)…
(3)上述建模过程中地理要素属性一致的处理上,属性特征项的映射转换规则同样遵循“一对一”、“一对多”、“一对零”,即待融合数据属性项直接与另一待融合数据的属性项之间的属性内容更新完善;有如下定义:
PaPb为两待融合地理数据的属性列表,t为其中属性项,其映射规则可表示为Pa({t1},{t2,t3},{},…)→Pb({t1},{t2},{t3},…)。
6.根据权利要求3所述的基于CityGML的多源异构地理信息数据语义融合转换方法,其特征在于,基于CityGML的矢量数据转换模型是在多源地理数据融合的基础上,采用开放地理空间信息联盟(OGC)定义的标准对数据结构进行重新定义,该映射转换模型的使用是为了将GML这种数据格式的优势在地理数据的使用上最大化,CityGML是一种用来表示城市三维模型的通用信息模型,它定义了城市中大部分地理对象的分类及其之间的关系,采用面向对象的方法来组织分类模型,且充分考虑了模型的几何、拓扑、语义、外观等属性,其中包括了主题分类中间的层次、聚合、对象之间的关系、空间属性,使用CityGML扩展模块的11个分类作为映射基准:Appearance(外观)、Building(建筑)、CityFurniture(城市设施)、CityObjectGroup(城市对象集合)、Generics(通用对象)、Land Use(土地利用)、Vegetation(植被)、Transportation(交通)、Relief(地形)、WaterBody(水系)和TexturedSurface(纹理表面)等。该模型使用FME DeskTop做为以CityGML为转换规则的数据转换工具,其内部含有现成方法转换器可进行数据的转换;
融合后的数据到CityGML模型转换的要点有两条:
·使用FME工具进行数据映射转换
·生成GML文档。
CN202210655202.4A 2022-06-10 2022-06-10 基于CityGML的多源异构地理信息数据语义融合转换方法 Pending CN115099315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210655202.4A CN115099315A (zh) 2022-06-10 2022-06-10 基于CityGML的多源异构地理信息数据语义融合转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210655202.4A CN115099315A (zh) 2022-06-10 2022-06-10 基于CityGML的多源异构地理信息数据语义融合转换方法

Publications (1)

Publication Number Publication Date
CN115099315A true CN115099315A (zh) 2022-09-23

Family

ID=83291911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210655202.4A Pending CN115099315A (zh) 2022-06-10 2022-06-10 基于CityGML的多源异构地理信息数据语义融合转换方法

Country Status (1)

Country Link
CN (1) CN115099315A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304991A (zh) * 2023-05-16 2023-06-23 广东省科学院广州地理研究所 多源异构物种分布数据融合方法和装置
CN116719898A (zh) * 2023-08-10 2023-09-08 山东省国土测绘院 基于多源异构数据的地理实体生成方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304991A (zh) * 2023-05-16 2023-06-23 广东省科学院广州地理研究所 多源异构物种分布数据融合方法和装置
CN116304991B (zh) * 2023-05-16 2023-08-08 广东省科学院广州地理研究所 多源异构物种分布数据融合方法和装置
CN116719898A (zh) * 2023-08-10 2023-09-08 山东省国土测绘院 基于多源异构数据的地理实体生成方法及系统

Similar Documents

Publication Publication Date Title
CN111680025B (zh) 面向自然资源多源异构数据时空信息智能同化的方法及系统
CN107092680B (zh) 一种基于地理网格的政务信息资源整合方法
CN112270027B (zh) 基于实体模型的城市设计无纸化智能交互审查方法
Wu et al. Mapping the knowledge domain of smart city development to urban sustainability: a scientometric study
CN107679221B (zh) 面向减灾任务的时空数据获取与服务组合方案生成方法
CN110134724A (zh) 一种建筑信息模型的数据智能提取与显示系统及方法
CN115099315A (zh) 基于CityGML的多源异构地理信息数据语义融合转换方法
CN108446293A (zh) 一种基于城市多源异构数据构建城市画像的方法
CN106919689A (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN115713161B (zh) 一种基于bim技术的建筑信息管理系统
CN113342842A (zh) 基于计量知识的语义查询方法、装置和计算机设备
WO2021147786A1 (zh) 知识图谱的构建方法及装置、存储介质、电子设备
Usery et al. Design and development of linked data from the national map
CN114379608A (zh) 一种城市轨道交通工程的多源异构数据集成处理方法
CN113570275A (zh) 基于bim和数字高程模型的水资源实时监测系统
CN114661744B (zh) 一种基于深度学习的地形数据库更新方法及系统
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
Chen Characteristic scales, scaling, and geospatial analysis
Zhaoguo et al. Traditional village protection based on big data under the impact of COVID-19
Manso-Callejo et al. Automatic metadata creation for supporting interoperability levels of spatial data infrastructures
Falquet et al. Integrating urban knowledge into 3D city models
Zhaodong Application of GIS Technology in Urban Planning Informatization
CN116911688B (zh) 一种绿色建筑信息的自动化处理方法及系统
Huang et al. A load balancing method to support spatial analysis in XML/GML/SVG-based WebGIS
CN114254426B (zh) 地下空间深基坑开挖风险监测的轻量可视化系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination