CN110019634A

CN110019634A - 定量精准的地理空间数据关联方法和装置

Info

Publication number: CN110019634A
Application number: CN201810833141.XA
Authority: CN
Inventors: 诸云强; 宋佳; 孙凯
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2019-07-16

Abstract

本发明提供了一种定量精准的地理空间数据关联方法和装置，涉及数据资源关联技术领域，该方法包括获取待关联的地理空间数据的元数据；生成每条元数据的RDF文档；计算该元数据两两之间的相似度；根据该相似度生成元数据两两之间的关联关系；根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络。本发明实施例提供的一种定量精准的地理空间数据关联方法和装置，可以定量描述空间数据间的关联度和精准关联关系，实现数据的精确发现和智能推荐。

Description

定量精准的地理空间数据关联方法和装置

技术领域

本发明涉及数据资源关联的技术领域，尤其是涉及一种定量精准的地理空间数据关联方法和装置。

背景技术

地理空间数据的集成共享通常以元数据为核心，但元数据项无法准确、一致、规范化地描述地理空间数据的语义特征，因而无法构建数据间的相互关联，造成数据的孤立化、碎片化。另一方面，地理空间数据的查询检索普遍采用基于关键字匹配或全文检索技术的传统信息检索方式，主要借助于目录、索引等方式实现，忽略了数据本身丰富的语义信息和数据间隐含的语义关联关系，无法解决由知识背景差异、自然语言的多义性等引起的语义异质性问题，也就无法实现数据的语义推理与智能发现。

解决上述问题的关键是构建数据间的关联。关联数据(Linked Data)技术采用RDF(Resource Description Framework，资源描述框架)数据模型，利用URI(UniformResource Identifier，统一资源标识符)命名数据实体，建立不同数据间的链接，形成数据网络。通过定量的数据间相关性度量，利用机器可读的方式描述数据及其相互关系，建立多源异构数据间的相互链接，可形成一个语义丰富的、相互连通的数据网络，从而促进数据的精确发现。

目前，已有的地理空间数据关联方法仅通过内容语义或空间范围建立数据间的简单关联，无法精准反映空间数据定量的关联程度和丰富的关联关系。

发明内容

有鉴于此，本发明的目的在于提供一种定量精准的地理空间数据关联方法和装置，可以定量描述空间数据间的关联度和精准关联关系，实现数据的精确发现和智能推荐。

第一方面，本发明实施例提供了一种定量精准的地理空间数据关联方法，包括：获取待关联的地理空间数据的元数据；生成每条元数据的RDF文档；计算该元数据两两之间的相似度；根据该相似度生成元数据两两之间的关联关系；根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述计算元数据两两之间的相似度的步骤，包括：获取该元数据的特征因子；该特征因子包括总体特征因子、复合特征因子和基本特征因子；每个总体特征因子由若干个复合特征因子构成，每个复合特征因子由若干个基本特征因子构成；计算该元数据两两之间同类型的基本特征因子的基本特征因子相似度，以及该基本特征因子的权重；根据该基本特征因子相似度和该权重计算复合特征因子的复合相似度和总体特征因子的总相似度。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述计算该基本特征因子的权重的步骤，包括：采用层次分析法计算该基本特征因子的权重。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述根据该相似度生成元数据两两之间的关联关系的步骤，包括：根据该基本特征因子相似度、该复合相似度和该总相似度构建相似度矩阵；根据该相似度矩阵生成元数据两两之间的关联关系，该关联关系包括关联关系类型和关联谓词。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，在上述根据该相似度矩阵生成该元数据两两之间的关联关系的步骤之前，还包括：剔除该相似度矩阵中的无效关联项。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，上述根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络的步骤，包括：用RDF模型表达所诉关联关系得到RDF形式关联关系；将该RDF形式关联关系添加到该RDF文档得到待关联的地理空间数据的数据关联网络。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述生成每条元数据的RDF文档的步骤，包括：为每条元数据设计唯一的URI标识，并设计描述该元数据的多维特征因子；根据该多维特征因子，抽取元数据的相应特征；对该元数据特征进行标准化处理得到标准化元数据特征；根据该URI标识、该标准化元数据特征生成每条元数据的RDF文档。

结合第一方面的第六种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，上述为每条元数据设计唯一的URI标识的步骤，包括：导出该元数据的记录文件；根据该记录文件确定该元数据的唯一的标识字段；获取该元数据所在的组织机构的站点标识；根据该标识字段和该站点标识设计每条元数据的URI标识。

结合第一方面的第七种可能的实施方式，本发明实施例提供了第一方面的第八种可能的实施方式，其中，上述根据该标识字段和该站点标识设计每条元数据的URI标识的步骤，包括：将该标识字段与该站点标识进行字符拼接，得到每条元数据的URI标识。

第二方面，本发明实施例还提供了一种定量精准的地理空间数据关联装置，包括：元数据获取模块，用于获取待关联的地理空间数据的元数据；RDF文档生成模块，用于生成每条元数据的RDF文档；相似度计算模块，用于计算该元数据两两之间的相似度；关联关系生成模块，用于根据该相似度生成该元数据两两之间的关联关系；数据关联网络构建模块，用于根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种定量精准的地理空间数据关联方法和装置，该方法包括获取待关联的地理空间数据的元数据；生成每条元数据的RDF文档；计算该元数据两两之间的相似度；根据该相似度生成元数据两两之间的关联关系；根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络；可以定量描述空间数据间的关联度和精准关联关系，实现数据的精确发现和智能推荐。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种定量精准的地理空间数据关联方法的流程图；

图2为本发明实施例提供的另一种定量精准的地理空间数据关联方法的流程图；

图3为本发明实施例提供的另一种定量精准的地理空间数据关联方法的流程图；

图4为本发明实施例提供的一种定量精准的地理空间数据关联装置的结构示意图。

图标：

41-元数据获取模块；42-RDF文档生成模块；43-相似度计算模块；44-关联关系生成模块；45-数据关联网络构建模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

地理空间数据具有多源、分散等特点，它的生成又伴随着复杂的地理科学过程，使得地理空间数据具有时空特征复杂、类型繁多、来源多样、格式不一、多尺度等突出的异构问题。在这种情况下，如何高效、准确的从海量、多源、异构的地理空间数据资源中获取目标数据的难题越来越凸显出来。同时，该问题也阻碍了地理空间数据的共享利用和挖掘分析，制约了地理空间数据科学价值、社会价值和经济价值的发挥。

目前，已有的地理空间数据关联方法仅通过内容语义或空间范围建立数据间的简单关联，无法精准反映空间数据定量的关联程度和丰富的关联关系。基于此，本发明实施例提供的一种定量精准的地理空间数据关联方法和装置，可以定量描述空间数据间的关联度和精准关联关系，实现数据的精确发现和智能推荐。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种定量精准的地理空间数据关联方法进行详细介绍。

实施例一

如图1所示，为本发明实施例提供的一种定量精准的地理空间数据关联方法的流程图，由图1可见，该方法包括以下步骤：

步骤S102：获取待关联的地理空间数据的元数据。

地理空间数据是表达特定地理位置上，现实世界中地理现象或实体的状态、属性以及分布特征等信息的数据。地学研究、应用或相关领域的行业部门政府决策都需要地理空间数据的支撑。地学研究工作的快速发展，对地观测手段的极大丰富，自发地理信息、公共参与地理信息等新的地理信息生产和传播共享理念的出现，使得地理空间数据呈爆炸性增长。海量的数据资源，给科学研究和应用带来了便利，但对数据的精确发现也提出了很高的要求。

元数据又称中介数据、中继数据，为描述数据的数据，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须描述并收藏数据的内容或特色，进而达到协助数据检索的目的。

步骤S104：生成每条元数据的RDF文档。

RDF(Resource Description Framework，资源描述框架)是一种用于描述Web资源的标记语言，它是一个处理元数据的XML(标准通用标记语言的子集)应用。通过RDF，人们可以使用自己的词汇表描述任何资源，但通常更多将它用于描述Web站点和页面，由于使用的是结构化的XML数据，搜索引擎可以理解元数据的精确含义，使得搜索变得更为智能和准确，完全可以避免当前搜索引擎经常返回无关数据的情况。

地理空间元数据RDF生成过程，是用RDF数据模型实现元数据特征因子的形式化表达。RDF数据模型是以“资源(主体)、属性(谓词)、属性值(客体)”的三元组形式对数据进行编码。在本实施例中，资源指元数据的URI，属性是指元数据特征，属性值是元数据在某属性上的值。

在至少一种可能的实施方式中，参见图2，展示了其中一种生成元数据RDF文档的方式，由图2可见，其包括如下步骤：

(S202)为每条元数据设计唯一的URI标识，并设计描述该元数据的多维特征因子；

(S204)根据该多维特征因子，抽取元数据的相应特征；

(S206)对该元数据特征进行标准化处理得到标准化元数据特征；

(S208)根据该URI标识、该标准化元数据特征生成每条元数据的RDF文档。

在上述步骤S202中，为每条元数据设计唯一的URI标识的方法至少包括以下一种实施方式：首先，导出该元数据的记录文件；其次，根据该记录文件确定该元数据的唯一的标识字段；然后，获取该元数据所在的组织机构的站点标识；接着，再根据该标识字段和该站点标识设计每条元数据的URI标识。这里，在其中一种可能的实施方式中，可以将该标识字段与该站点标识进行字符拼接，得到每条元数据的URI标识。

步骤S106：计算该元数据两两之间的相似度。

参见图3，为其中一种计算元数据两两之间的相似度的方法的流程图，由图3可见，其步骤包括：

(S302)获取元数据的特征因子；该特征因子包括总体特征因子、复合特征因子和基本特征因子；每个总体特征因子由若干个复合特征因子构成，每个复合特征因子由若干个基本特征因子构成。

(S304)计算该元数据两两之间同类型的基本特征因子的基本特征因子相似度，以及该基本特征因子的权重。

这里，可以基于该技术领域的专家对各个特征因子的打分形成的打分矩阵，再采用层次分析法计算基本特征因子的权重。

(S306)根据该基本特征因子相似度和该权重计算复合特征因子的复合相似度和总体特征因子的总相似度。

步骤S108：根据该相似度生成元数据两两之间的关联关系。

这里，可以先剔除该相似度矩阵中的无效关联项，以对相似度矩阵进行筛选，然后再根据筛选后的相似度矩阵生成元数据两两之间的关联关系。

在至少一种可能的实施方式中，根据相似度生成元数据两两之间的关联关系的步骤包括：

首先，根据该基本特征因子相似度、该复合相似度和该总相似度构建相似度矩阵；

其次，根据该相似度矩阵生成元数据两两之间的关联关系，该关联关系包括关联关系类型和关联谓词。

步骤S110：根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络。

在其中一种或多种可能的实施方式中，首先，可以用RDF模型表达所诉关联关系得到RDF形式关联关系；然后，再将该RDF形式关联关系添加到该RDF文档得到待关联的地理空间数据的数据关联网络。

这样，本发明实施例中提供的定量精准的地理空间数据关联方法，通过数据间的相似度计算，可以定量地描述地理空间数据间的关联度和精准关联关系；通过在生成RDF文档时，设计描述元数据的多维特征因子，更加全面地描述地理空间数据间的关联关系；通过构建地理空间数据的语义丰富、互联互通的关联网络，有助于提高数据的精确发现和智能推荐。

本发明实施例提供的一种定量精准的地理空间数据关联方法，该方法包括获取待关联的地理空间数据的元数据；生成每条元数据的RDF文档；计算该元数据两两之间的相似度；根据该相似度生成元数据两两之间的关联关系；根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络；可以定量描述空间数据间的关联度和精准关联关系，实现数据的精确发现和智能推荐。

实施例二

本发明实施例提供了一种定量精准的地理空间数据关联方法，基于上述图1所示的流程，本发明实施例对其RDF文档的生成过程、相似度计算过程和数据关联网络构建的过程进行了更详细地描述。

第一，关于元数据的RDF文档的生成过程如下。

(A1)根据关联数据对资源实体URI的全球唯一性的要求，将URI分为元数据所在组织机构的站点标识和元数据标识两部分。其中，元数据所在组织机构站点标识在全球是唯一的，元数据标识为数据库生成的在该组织机构中唯一的标识。具体实施方法如下：

(a_1-1)从元数据库中导出元数据记录文件，并确定元数据的唯一标识字段。读取该文件，获取所有元数据在唯一标识字段上的内容。

(a_1-2)将每个元数据的唯一标识与所在的组织机构站点标识进行字符拼接，得到URI，并将每条元数据的URI添加在元数据记录文件中。

(A2)根据地理空间数据从生产到应用的生命周期和元数据特征在数据关联发现的作用，分析地理空间数据具有哪些特征。同时，为了便于元数据的RDF生成，设计元数据特征的RDF描述模式。具体包括以下步骤：

(a_2-1)地理空间数据特征因子共包含总体特征、复合特征和基本特征三个层次(表1)。其中，总体特征可以分为本质特征和形态特征两类。本质特征是元数据的唯一标识，包含数据的时间范围、空间范围和内容三个复合特征。形态特征是对数据内在结构和外在形状的描述，包含时空精度和数据结构两个复合特征。基本特征因子共八个，包括主题、类别、空间关系、时间关系、空间精度、时间粒度、数据类型和数据格式。

(a_2-2)将地理空间数据的特征用RDF建模原语进行表达，是形式化的前提。为此，预先定义地理空间数据特征因子的统一描述模式(Unified description factors,UDF)(表1)，用于将特征因子的内容添加在RDF文档中。该描述模式的命名空间为：“组织机构站点标识”+“UDF#”，则元数据的特征可以用“UDF”+“:”+UDFs表达。例如，元数据的主题特征表示为：“UDF:Theme”，类别特征表示为：“UDF:Category”。

表1地理空间数据特征因子及RDF描述模式

(A3)根据元数据的字段名与多维特征因子间的对应关系，从元数据中抽取相关内容，具体包括以下步骤：

(a_3-1)以步骤A1中得到的元数据记录文件为基础，找到与多维特征因子相匹配的元数据字段，从而建立元数据字段与多维特征因子的映射关系；

(a_3-2)读取元数据记录文件，基于上述映射关系，提取元数据的特征。

(A4)抽取得到的原始地理空间元数据特征因子可能存在形式多样、不完整、不准确等情况，造成对后续相似度计算的障碍。因而，要对元数据的原始特征因子进行标准化处理。具体包括以下步骤：

(a_4-1)将元数据的类别特征转换至本发明要求的GCMD(Global Change MasterDirectory)分类体系；

(a_4-2)若元数据的空间范围为空间坐标，则将其转换至WGS84坐标系；若元数据的空间范围为位置描述，则利用GeoNames地名库进行地理匹配，获取其WGS84坐标位置；

(a_4-3)若元数据的时间范围为数值型时间，则将其用标准的时间格式表示；若元数据的时间范围为文字描述，则首先将其转换为数值型时间，然后再标准化；

(a_4-4)元数据的比例尺统一用分数表示；

(a_4-5)地理空间元数据通常不包含对数据格式的说明，因而要进行补充。在元数据记录文件中，为每条元数据添加数据格式。

(A5)用RDF模型将地理空间元数据的多维特征进行形式化表达，为每条元数据生成一个RDF文档，具体实施方法如下：

(a_5-1)读取元数据记录文件的一条记录，以其URI为文件名新建RDF文件，并开始RDF文件的写入。写入过程需满足三条要求：首先，添加UDF的命名空间；其次，rdf:about是RDF中标识资源的元素，为了保证数据的URI可以链接到资源实体，所以该元素的值应为元数据URI；然后，采用步骤A2中的统一描述模式，添加元数据的特征。

(a_5-2)读取元数据记录文件的下一条记录，重复步骤a_5-1，直到为所有的元数据生成RDF文档为止。

第二，元数据相似度计算过程是数据关联的核心步骤，指利用元数据的多维特征因子定量计算数据间关联程度的方法。首先计算元数据基本特征因子的相似度，然后为各特征因子分配权重，再采用加权求和的方法将相似度聚合起来。其具体步骤如下。

(B1)以RDF文档中记录的元数据的主题、类别、空间关系、时间关系、空间精度、时间粒度、数据类型和数据格式八个特征因子为基础计算相似度。具体包括以下步骤：

首先，按顺序从所有RDF文档中取出两条，记为A和B。

其次，从RDF文档中，按照上述步骤A2中规定的UDF描述模式，提取元数据的特征。

基于此，采用相似度计算模型计算相似度，具体计算方法如下(以A和B的相似度计算为例)：

(b_1-1)主题相似度

主题相似度指地理空间数据间内容主题的相关程度。数据主题通常出现在数据的标题、关键词或摘要(称为“主题要素”)中。主题相似度的计算公式如下：

其中，S_thm为主题相似度，n_i为B的第i个主题要素中主题词的个数，m_i为A与B相匹配的主题词个数，W_i为相应的主题要素权重。采用层次分析法求得，标题、关键词和摘要的权重依次为0.529、0.309和0.162。计算结果记录为{URIA,URIB,“Theme”,S_thm}，其中URIA和URIB分别为A和B的URI，S_thm为相似度值。

(b_1-2)类别相似度

不同的地理空间元数据标准通常具有不同的分类体系，类别相似度的计算需要考虑数据集的类别是否在同一分类体系中。

如果A和B的类别C_A和C_B在同一分类体系中，并具有最近共同父类C_p，则类别相似度可用下列公式计算：

其中，N(C_A)为分类体系中C_A到C_p的边的数目，N(C_B)为C_B到C_p的边的数目，N(C_p)为C_p到分类体系根节点的边数目。

如果A和B属于不同的分类体系，则它们必须首先转换到同一指定的分类体系中(本发明采用的统一分类体系是全球变化数据主目录，Global Change MasterDirectory)。若A和B有多个类别，则类别相似度S_cat可以用下列公式计算：

其中，S_catij是A的第i个类别与B的第j个类别的相似度。m和n是A和B各自的类别总数。计算结果为{URIA,URIB,“Category”,S_cat}。

(b_1-3)空间关系相似度

数据的空间范围可以用最小包围矩形表示，因此数据集的空间拓扑关系可以用多边形与多边形的关系表示，包括：相同、包含、被包含、重叠、相接和相离六种。其中相离关系表示数据集的空间范围不相关，相似度为零，因而可以剔除。对于同一种空间拓扑关系，数据的相关度随数据的空间距离和重叠面积的大小而变化。空间拓扑相似度的计算公式如下：

S_stp＝W_sbs*S_sbs+W_sds*S_sds (式4)

其中，S_stp为空间拓扑相似度，S_sbs和S_sds分别为空间拓扑的基础相似度和距离相似度。W_sbs和W_sds为S_sbs和S_sds的权重，分别为0.875和0.125(利用层次分析法可求得)。根据专家知识，相同、包含、被包含、重叠和相接的基础相似度S_sbs分别为1.00、0.85、0.65、0.60和0.25。而S_sds的计算公式如下：

其中，Area(A)和Area(B)分别为A和B的空间范围多边形的面积，Area(A∩B)是A和B的重叠面积。Pre(B)为B的周长。Len(A∩B)是A和B相交部分的长度。计算记录结果为{URIA,URIB,“Spatopo”,S_stp}。

(b_1-4)时间关系相似度

与空间拓扑关系类似，时间关系可以用时间段与时间段间的相同、包含、被包含、重叠和相接五种关系来表示。对于同一种时间拓扑关系，数据的相关度随时间距离的大小而变化。特别地，越新的数据更被关注，因而，计算时间拓扑相似度时，除了要考虑时间拓扑关系的基本相似度和时间距离相似度外，还需考虑时间序列的影响。时间拓扑相似度的计算公式如下：

S_ttp＝W_tbs*S_tbs+W_tds*W_tsq*S_tds (式6)

其中，S_tbs和S_tds分为时间拓扑的基础相似度和距离相似度，W_tbs和W_tds分别为S_tbs和S_tds的权重。W_tsq为时间序列的权重，它确定了时间拓扑相似度计算中时间顺序的重要性。S_tbs、W_tbs和W_tds的值与S_sbs、W_sbs和W_sds相同。根据专家知识，对于重叠和相接关系，当时间顺序是之前和之后时，W_tsq分别为1.00和0.875，而对于相同、包含和被包含，W_tsq均为1。S_tds的计算公式如下：

其中，Len(A)和Len(B)为A和B在相同时间尺度上的时间距离，Len(A∩B)是二者的重叠时间距离，TA₀和TB₀分别为A和B的中间时间。计算结果记录为{URIA,URIB,“Timetopo”,S_ttp}。

(b_1-5)空间精度相似度

空间精度指空间比例尺(矢量数据)或分辨率(栅格数据)和粒度因子。比例尺或分辨率反映了空间要素的位置精度和详细程度，而空间粒度表示区域分割的精细程度。空间精度相似度的计算公式如下：

S_spr＝W_ssc*S_ssc+W_sgr*S_sgr (式8)

其中，S_spr是空间精度相似度；S_ssc和S_sgr分别为空间比例尺(分辨率)和空间粒度相似度。W_ssc和W_sgr分别是S_ssc和S_sgr相应的权重，均为0.5(层次分析法可求得)。

S_ssc主要是根据数据的比例尺(分辨率)转换的难易程度而计算的。地理空间数据比例尺和分辨率的转换通常是由升尺度和降尺度方法实现，而升尺度转换明显易于降尺度转换。因而，当两个数据集的比例尺或分辨率相同时，二者的相似度S_ssc为1；当它们的比例尺或分辨率需要升尺度和降尺度转换时，二者的相似度S_ssc分别为0.875和0.125(层次分析法求得)。

S_sgr则是根据数据的空间粒度转换的难易程度进行度量。从细粒度到粗粒度的转换易于其逆变换，且后者通常需要领域模型的支撑。因而，当A和B的空间粒度一致时，S_sgr为1；当需要从细粒度到粗粒度和从粗粒度到细粒度的转换时，S_sgr分别为0.875和0.125。计算结果记录为{URIA,URIB,“Spapre”,S_spr}。

(b_1-6)时间粒度相似度

时间粒度指地理空间数据的时间精度。数据的时间粒度同样可以通过升尺度和降尺度来转换。时间升尺度转换通常由加法或平均来实现，而时间降尺度转换比时间升尺度转换更为复杂，通常需要专业模型来实现。

时间粒度相似度S_tgr就是根据粒度转换的难易程度而计算的。当A和B的时间粒度一致时，时间粒度相似度为1；当需要从细粒度到粗粒度和从粗粒度到细粒度的转换时，S_tgr分别为0.875和0.125。计算结果记录为{URIA,URIB,“Timegran”,S_tgr}。

(b_1-7)数据类型相似度

数据类型相似度S_dty是根据数据类型转换的难易程度计算的。地理空间数据有显式和隐式两大类数据类型。前者指图层数据，包含矢量和栅格两种子类型；后者指包含空间坐标、行政编码和地名等地理位置信息的非地图数据。隐式空间数据通常包含表格(例如分县人口统计数据)和纯文本(例如空气污染监测数据)两种子类型。上述四种数据类型的转换可以根据难易程度分为三类：相同子类型转换，相同主类型转换和不同类型转换。

根据专家经验，如果两个数据集的数据类型转换为相同子类型转换，则S_dty为1。若数据类型转换为相同主类型转换，则相似度为0.8-0.9，而完全不同数据类型间的转换，相似度为0.45-0.75，如表2所示。计算结果记录为{URIA,URIB,“Datatype”,S_dty}。

表2数据类型转换实例以及相似度

(b_1-8)数据格式相似度

数据格式相似度的计算依赖于格式转换的难易程度，格式转换越容易，相似度就越高。地理空间数据集的格式间关系可分为三类：相同格式、同一家族格式和不同家族格式。相同格式不需要转换，因而相似度为1。同一家族格式可以用软件工具转换。例如，ArcGIS家族包含ArcInfo coverage、交换格式和Shapefile格式，利用ArcGIS转换工具很容易实现格式转换。根据专家知识，相似度设为0.85。

不同家族格式转换的难易程度需要根据格式的开放度来计算。数据格式的开放度是由格式的可持续因子来评估的，可持续因子包含格式的披露度、使用度、文档完整度和外部依赖度。每个可持续因子的开放度可分为高、中、低三个级别，如表3所示。

表3数据格式可持续因子的开放度

根据专家知识，三个级别的开放度值分别为0.85、0.65和0.35。数据格式的最低开放度因子决定了格式转换的难易程度。因而，不同家族格式的数据格式相似度计算公式如下：

其中，S_frt为数据格式的相似度，VA_i和VB_i分别是A和B的数据格式的第i个可持续因子的开放度。计算结果记录为{URIA,URIB,“Dataformat”，S_frt}。

(B2)采用专家打分和层次分析法相结合的方法为特征因子分配权重，具体步骤如下：

(b_2-1)建立所有特征因子的两两比较判断矩阵(步骤A2中将地理空间数据特征分为三层，按照层次分析法，应有三个比较矩阵)，矩阵单元值为专家对特征因子进行成对比较时所赋予的相对重要性得分。该得分采用1-9标度法。

(b_2-2)计算判断矩阵的归一化特征向量，向量中的元素即为对应特征因子的局部权重。

(b_2-3)采用层次分析法计算全局权重，如表4为权重计算结果。

表4相似度计算的权重值

(B3)采用加权平均的方法计算元数据的复合相似度和总相似度，具体步骤如下：

(b_3-1)根据步骤B1和B2的基本特征因子相似度计算结果和权重分配结果，计算复合相似度与总相似度，公式如下：

其中，S是复合相似度或总相似度；S_subi和W_subi分别是第i个指标的相似度和权重；n是指标的数量。内容相似度S_con、空间范围相似度S_spa、时间范围相似度S_tim、时空精度相似度S_stpre、数据结构相似度S_dst等的复合特征相似度和总相似度的计算结果分别记录为{URIA,URIB,“Content”,S_con}、{URIA,URIB,“Spacov”,S_spa}、{URIA,URIB,“Timecov”,S_tim}、{URIA,URIB,“STpre”,S_stpre}、{URIA,URIB,“Datastru”,S_dst}和{URIA,URIB,“S”,S}。

(b_3-2)重复步骤B1和B3，直到完成所有元数据的两两相似度计算为止。

第三，数据关联网络构建过程是根据数据间的多维特征相关度，识别数据间的关联关系，并根据这种关系建立数据间关联网络的方法。因而，首先根据上述第二步骤的相似度计算结果生成相似度矩阵。基于该矩阵，进行数据间关联关系的判断，同时去除数据间的无效关联。最后，将数据间的关联关系用RDF数据模型表达，并写入元数据的RDF文档。其具体步骤如下所示。

(C1)将上述第二步骤的相似度计算结果表达为相似度矩阵，具体实施步骤如下：

(c_1-1)根据上述第二步骤，两条元数据共有八个基本特征相似度，五个复合特征相似度和一个总相似度，则相似度矩阵共十四个。因而，需声明十四个行列数均为元数据条数的二维数组。

(c_1-2)遍历上述第二步骤中得到的相似度结果，将相似度值填入到对应的相似度矩阵中。

(C2)根据地理空间数据发现的实际应用场景，若两条数据的空间范围或内容相似度为0，则可以判定两条数据是不相关的，即两条数据之间的关联是无效的，需要去除。具体实施步骤如下：

(c_2-1)遍历步骤C1的空间范围相似度矩阵，若某矩阵单元值为0，则将该单元值置为Null。同时，将其余十三个相似度矩阵的同一矩阵单元值置为Null。

(c_2-2)遍历步骤C1的内容相似度矩阵，若某矩阵单元值为0，则将该单元值置为Null。同时，将其余十三个相似度矩阵的同一矩阵单元值置为Null。

(C3)根据经过筛选后的相似度矩阵以及数据间关联关系类型，确定数据间的关联谓词，并将其添加到相似度矩阵中。具体步骤如下：

(c_3-1)根据步骤A2中提出的八个地理空间数据特征和在该特征上相似度是否为1以及总相似度，可划分共18种关联关系(表5)。其中，谓词特性表示关联关系具有的特性，S代表对称性(Symmetry)，T代表传递性(Transitivity)。

表5数据关联关系及谓词

(c_3-2)遍历步骤C2中的基本特征相似度矩阵和总相似度矩阵，根据相似度值，判断数据间关联关系和谓词，并将谓词添加在当前的矩阵单元中，表示为：谓词(Similarity)，Similarity为当前单元的相似度。例如UDF:isRelatedTheme(0.8)表示两条数据间关联谓词为UDF:isRelatedTheme，且相似度为0.8。

(C4)将数据间的关联关系用RDF模型进行表达，并分别写入相应的元数据RDF文档中。具体步骤如下：

(c_4-1)读取步骤C3中的基本特征相似度矩阵和总相似度矩阵。

(c_4-2)判断当前矩阵单位的值，若为Null，则跳过。若不为Null，则获取该值，记为Predicate(Similarity)，以及其对应的两条元数据，设为P和Q，即P和Q存在关联关系Predicate(Similarity)。

(c_4-3)将上述关系用如下RDF语句表达：

其中，URI(P)和URI(Q)表示P和Q的URI，Predicate为P和Q间的关联关系谓词，Similarity为P和Q在该关系上的相似度。

(c_4-4)将上述RDF语句写入URI(P)对应的RDF文档中。

(c_4-5)重复步骤c_4-1至c_4-4，直到所有数据间关联关系都以RDF的形式添加在相应的元数据RDF文档中为止。

实施例三

本发明实施例还提供了一种定量精准的地理空间数据关联装置，参见图4，为该装置的结构示意图，由图4可见，该装置包括依次相连的元数据获取模块41、RDF文档生成模块42、相似度计算模块43、关联关系生成模块44和数据关联网络构建模块45，其中，各个模块的功能如下：

元数据获取模块41，用于获取待关联的地理空间数据的元数据；

RDF文档生成模块42，用于生成每条元数据的RDF文档；

相似度计算模块43，用于计算该元数据两两之间的相似度；

关联关系生成模块44，用于根据该相似度生成该元数据两两之间的关联关系；

数据关联网络构建模块45，用于根据该关联关系和该RDF文档构建待关联的地理空间数据的数据关联网络。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种定量精准的地理空间数据关联方法，其特征在于，包括：

获取待关联的地理空间数据的元数据；

生成每条所述元数据的RDF文档；

计算所述元数据两两之间的相似度；

根据所述相似度生成所述元数据两两之间的关联关系；

根据所述关联关系和所述RDF文档构建所述待关联的地理空间数据的数据关联网络。

2.根据权利要求1所述的定量精准的地理空间数据关联方法，其特征在于，所述计算所述元数据两两之间的相似度的步骤，包括：

获取所述元数据的特征因子；所述特征因子包括总体特征因子、复合特征因子和基本特征因子；每个所述总体特征因子由若干个所述复合特征因子构成，每个所述复合特征因子由若干个所述基本特征因子构成；

计算所述元数据两两之间同类型的所述基本特征因子的基本特征因子相似度，以及所述基本特征因子的权重；

根据所述基本特征因子相似度和所述权重计算所述复合特征因子的复合相似度和所述总体特征因子的总相似度。

3.根据权利要求2所述的定量精准的地理空间数据关联方法，其特征在于，所述计算所述基本特征因子的权重的步骤，包括：

采用层次分析法计算所述基本特征因子的权重。

4.根据权利要求2所述的定量精准的地理空间数据关联方法，其特征在于，所述根据所述相似度生成所述元数据两两之间的关联关系的步骤，包括：

根据所述基本特征因子相似度、所述复合相似度和所述总相似度构建相似度矩阵；

根据所述相似度矩阵生成所述元数据两两之间的关联关系，所述关联关系包括关联关系类型和关联谓词。

5.根据权利要求4所述的定量精准的地理空间数据关联方法，其特征在于，在所述根据所述相似度矩阵生成所述元数据两两之间的关联关系的步骤之前，还包括：

剔除所述相似度矩阵中的无效关联项。

6.根据权利要求5所述的定量精准的地理空间数据关联方法，其特征在于，所述根据所述关联关系和所述RDF文档构建所述待关联的地理空间数据的数据关联网络的步骤，包括：

用RDF模型表达所诉关联关系得到RDF形式关联关系；

将所述RDF形式关联关系添加到所述RDF文档得到所述待关联的地理空间数据的数据关联网络。

7.根据权利要求1所述的定量精准的地理空间数据关联方法，其特征在于，所述生成每条所述元数据的RDF文档的步骤，包括：

为每条所述元数据设计唯一的URI标识，并设计描述所述元数据的多维特征因子；

根据所述多维特征因子，抽取元数据的相应特征；

对所述元数据特征进行标准化处理得到标准化元数据特征；

根据所述URI标识、所述标准化元数据特征生成每条所述元数据的RDF文档。

8.根据权利要求7所述的定量精准的地理空间数据关联方法，其特征在于，所述为每条所述元数据设计唯一的URI标识的步骤，包括：

导出所述元数据的记录文件；

根据所述记录文件确定所述元数据的唯一的标识字段；

获取所述元数据所在的组织机构的站点标识；

根据所述标识字段和所述站点标识设计每条所述元数据的URI标识。

9.根据权利要求8所述的定量精准的地理空间数据关联方法，其特征在于，所述根据所述标识字段和所述站点标识设计每条所述元数据的URI标识的步骤，包括：

将所述标识字段与所述站点标识进行字符拼接，得到每条所述元数据的URI标识。

10.一种定量精准的地理空间数据关联装置，其特征在于，包括：

元数据获取模块，用于获取待关联的地理空间数据的元数据；

RDF文档生成模块，用于生成每条所述元数据的RDF文档；

相似度计算模块，用于计算所述元数据两两之间的相似度；

关联关系生成模块，用于根据所述相似度生成所述元数据两两之间的关联关系；

数据关联网络构建模块，用于根据所述关联关系和所述RDF文档构建所述待关联的地理空间数据的数据关联网络。