CN116775661A

CN116775661A - 基于北斗网格技术的空间大数据存储与管理方法

Info

Publication number: CN116775661A
Application number: CN202310765061.6A
Authority: CN
Inventors: 成洁; 刘鹏飞; 范建华; 戴乐; 赵框; 邢金铭; 郭辉
Original assignee: Zhongke Star Map Co ltd; National University of Defense Technology
Current assignee: Zhongke Star Map Co ltd; National University of Defense Technology
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-19

Abstract

本发明公开了一种基于北斗网格技术的空间大数据存储与管理方法，包括如下步骤：构建数据剖分存储模型；基于北斗网格技术的空间大数据多维度深度关联；构建基于北斗网格技术的空间大数据搜索引擎；基于北斗网格技术的空间大数据代数计算；基于数字地球的空间大数据可视化处理。本申请所述方法采用数据剖分存储模型和搜索引擎技术，可以实现更快速、更准确的数据存储和查询。采用多维度深度关联技术和代数计算技术，可以进行更复杂的数据分析和运算。采用可视化技术，可以将数据结果转化为图形化或图像化的展示方式，使数据更加直观、易懂、易于表达和交流。

Description

基于北斗网格技术的空间大数据存储与管理方法

技术领域

本发明涉及数据存储方法技术领域，尤其涉及一种基于北斗网格技术的空间大数据存储与管理方法。

背景技术

随着卫星遥感技术、空间探测技术、导航定位技术等技术的发展，在地球科学、气象、农业等领域产生了越来越多的空间大数据。然而，传统的数据存储技术和查询技术已经不能满足空间大数据的存储和管理需求。具体而言，空间大数据的存储量大、格式复杂、存储方式多样，导致数据存储效率低下且费时费力；传统的查询技术不能满足对空间大数据的深度关联和智能查询需求，数据查询效率也较低。因此，开发一种高效的空间大数据存储和查询技术成为了一个紧迫的需求。

发明内容

本发明所要解决的技术问题是如何提供一种具有较高的存储能力、查询效率和分析能力的基于北斗网格技术的空间大数据存储与管理方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于北斗网格技术的空间大数据存储与管理方法，包括如下步骤：

构建数据剖分存储模型；

基于北斗网格技术的空间大数据多维度深度关联；

构建基于北斗网格技术的空间大数据搜索引擎；

基于北斗网格技术的空间大数据代数计算；

基于数字地球的空间大数据可视化处理。

进一步的技术方案在于，构建数据剖分存储模型的方法包括如下步骤：

数据剖分存储模型数学描述；

数据剖分存储对象网格划分；

数据剖分存储对象聚类；

剖分存储设备聚类分布。

进一步的技术方案在于，数据剖分存储模型的数学描述如下所示：

其中：M:Go(Code,nL,h,nT)→Vp(x_i),i∈n表示地理空间向物理存储空间的映射；采用GeoSOT剖分框架对地理空间进行剖分，G₀代表GeoSOT剖分地理空间，Code是剖分网格的编码，nL代表剖分的层级，h代表对应地理空间范围上数据范围的热度，nT代表该剖分面片上数据量的大小；V_p代表物理存储空间，x_i代表剖分存储对象，是剖分面片范围内所有数据以及数据存储属性和操作的集合；M代表映射建立映射关系，根据剖分网格、层级、访问热度和数量，以及剖分存储对象负载平衡原则，将数据按照网格进行划分，将划分后的数据聚集成剖分存储系统中的对象；

代表剖分存储对象的聚类方法，依据是剖分存储对象在空间上的度量关系，以最大最小距离将相近的剖分存储对象聚集成簇；从而将空间上有较强的邻近关系的数据聚集起来，是剖分存储对象在存储设备的分布算法的基础，μ_i表示目标元素编码；x_j表示邻近元素编码；s_i表示邻近元素集合；

代表剖分存储对象在存储设备的分布方法，w_i表示每个编码对应的数据所占空间大小，i表示编码数，j表示层级数，w_k表示各层级数据所占空间总大小。

进一步的技术方案在于，所述数据剖分储存对象网格划分包括如下步骤：

首先要获得数据在空间上的分布情况，主要是在剖分地理空间上数据量、数据种类以及其他属性信息的分布；其次，综合以上数据在地理空间分布情况，以剖分网格为基准，按照负载均衡的要求，设定剖分网格的层级；然后，以数据集合的最小外包剖分网格编码作为该数据集的标识；最后，将各个数据集以及其属性信息按照对象存储方法，整合成剖分存储对象。

进一步的技术方案在于，数据剖分存储对象聚类的方法中：

首先将对象访问相关性映射到剖分存储对象距离度量空间上，将对象之间访问的相关性量化，将两个对象在数据访问的相关度转换成空间上的距离大小，相关度较大的两个对象，距离相对较近，而反之则远；将剖分存储对象的平均距离和对象将访问的平均相关度进行映射，对象间的平均距离为L_avr，对象访问平均相关度为V_avr，设λ为两者的映射系数，因此λ＝L_avr/V_avr；设置访问相关度影响权值k，λ*k*V_avr为对象访问相关度在剖分地理空间上的距离。

进一步的技术方案在于，部分存储设备聚类分布的处理过程中：

按照设备的容量、带宽以及性能在系统中的相关性，将存储相关度高的存储设备放在一个集群内；将海量数据存储系统分成层次形成多个局部的集群，每个集群映射到一族剖分存储对象，使用不同的分布算法在集群内部存储，按照剖分存储对象的变化，批量的增加和删除剖分存储设备，简化存储设备的管理。

采用上述技术方案所产生的有益效果在于：本申请所述方法采用数据剖分存储模型和搜索引擎技术，可以实现更快速、更准确的数据存储和查询，节省了数据处理和分析时间。采用多维度深度关联技术和代数计算技术，可以进行更复杂的数据分析和运算，结果更全面、更准确。采用可视化技术，可以将数据结果转化为图形化或图像化的展示方式，使数据更加直观、易懂、易于表达和交流。因此，本申请所述方法具有数据处理和查询速度快、结果准确全面、可视化展示直观清晰等优点。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的流程图；

图2是本发明实施例所述方法中对象在剖分地理空间上的度量图；

图3是本发明实施例所述方法中基于时空编码的数据搜索引擎技术原理示意图；

图4是本发明实施例中六个网格关系图；

图5是本发明实施例中GIN网格索引示例图；

图6是本发明实施例中GIN的叶子结点的数据结构图；

图7是本发明实施例中gridcell数据以及与gridcell相关的网格数据作为GIN索引的key值存储在索引结构图；

图8是本发明实施例中数据插入流程图；

图9是本发明实施例中数据检索流程图；

图10是本发明实施例中北斗时间编码结构图；

图11是本发明实施例中北斗时间编码结构图；

图12是本发明实施例中北斗时间编码结构图；

图13是本发明实施例中制定的大尺度时间剖分方案图；

图14是本发明实施例中北斗三维网格位置码图；

图15是本发明实施例中北斗网格位置与GeoSOT网格的对应关系图；

图16是本发明实施例中Geometry与Grids的关系图；

图17是本发明实施例中对北京市大兴区Polygon的打码结果图；

图18是本发明实施例中基于GeoSOT全球等经纬度网格方案所构建出的四叉树结构图；

图19是本发明实施例中四叉树标记构建流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

总体的，如图1所述，本发明实施例公开了一种基于北斗网格技术的空间大数据存储与管理方法，包括如下步骤：

构建数据剖分存储模型；

基于北斗网格技术的空间大数据多维度深度关联；

构建基于北斗网格技术的空间大数据搜索引擎；

基于北斗网格技术的空间大数据代数计算；

基于数字地球的空间大数据可视化处理。

本申请中北斗网格技术通过数据网格打码，装箱、网格化分析，以及网格化交互，能够实现各类数据资源的汇聚、统计及关联分析，能够以网格为单元，实现数据按需提取、分发、交互，打造一个网格化空间大数据平台，有效提升数据整合与应用水平，变数据资源为数据价值。

(1)数据剖分存储模型：

1-1)数据剖分存储模型数学描述

数据剖分存储模型的数学描述如下所示：

其中：M:Go(Code,nL,h,nT)→Vp(x_i),i∈n表示地理空间向物理存储空间的映射。采用GeoSOT剖分框架对地理空间进行剖分，G₀代表GeoSOT剖分地理空间，Code是剖分网格的编码，nL代表剖分的层级，h代表对应地理空间范围上数据范围的热度，nT代表该剖分面片上数据量的大小。V_p代表物理存储空间，x_i代表剖分存储对象，是剖分面片范围内所有数据以及数据存储属性和操作的集合。M代表映射建立映射关系，根据剖分网格、层级、访问热度和数量，以及剖分存储对象负载平衡原则，将数据按照网格进行划分，将划分后的数据聚集成剖分存储系统中的对象。

代表剖分存储对象的聚类方法，依据是剖分存储对象在空间上的度量关系，以最大最小距离将相近的剖分存储对象聚集成簇。从而将空间上有较强的邻近关系的数据聚集起来，是剖分存储对象在存储设备的分布算法的基础。μ_i表示目标元素编码；x_j表示邻近元素编码；s_i表示邻近元素集合。

代表剖分存储对象在存储设备的分布方法。与剖分存储对象的聚类出发点相似，存储设备在访问上也有一定的相关性，不同的存储设备之间，根据彼此带宽以及存储单元所在位置，产生的并发速度不尽相同。而且从并发访问的角度，需要将并发相关度较高的数据尽可能的分散到多个不同的存储设备中，需要对设备进行整体上的描述。w_i表示每个编码对应的数据所占空间大小，i表示编码数，j表示层级数，w_k表示各层级数据所占空间总大小。

1-2)数据剖分存储对象网格划分

剖分存储对象划分指的是根据数据在空间上分布、负载等情况，赋予对象相应剖分面片编码，并根据系统负载平衡的要求，动态调节对象的大小(对象在空间上的分裂和聚合)。剖分存储对象的网格划分，首先要获得数据在空间上的分布情况，主要是在剖分地理空间(以剖分网格表示的真实地理空间，以网格指代实际的地理范围)上数据量、数据种类以及其他属性信息的分布。其次，综合以上数据在地理空间分布情况，以剖分网格为基准，按照负载均衡的要求，设定剖分网格的层级。然后，以数据集合的最小外包剖分网格编码作为该数据集的标识。最后，将各个数据集以及其属性信息按照对象存储方法，整合成剖分存储对象。

1-3)数据剖分存储对象聚类

常规的数据聚类是按照数据之间某种相似性分为多个集合，使得数据集合之间相似度差异最大，数据集合内部数据之间相似度差异最小，最终目的是对数据进行分类或者找到数据之间的相关关系。剖分存储对象的聚类是在空间上相近、数据访问相关的对象分成若干簇，具体是以剖分存储对象网格间距离和访问频率的相关性作为聚类的条件，为的是把这些访问相关度较高的存储对象分布到多个存储设备上，因此，聚类的目的是分散负载相似度较高的对象集合，从而获得系统层面上更好的负载均衡性能。

由于聚类算法都是针对点数据进行的，而剖分存储对象本质上空间上的面数据，因此在介绍剖分存储对象聚类方法之前，首先根据剖分存储对象的剖分面片中心点位置将对象映射到剖分地理空间上(如图2所示)，将剖分存储对象聚焦到其中心点上。剖分存储对象间的距离量算可以直接通过其中心点线段长度来度量，同时考虑到在存储系统运行中，还有与对象负载均衡相关的其他非空间上的统计信息，还要加入对象间的访问相关度，保证在负载均衡系统层面上顾及到所有可能的影响因素。考虑到在双重限制条件下，剖分存储对象聚类会异常负载，因此，将数据访问相关度映射到对象间度量关系上，从而将算法的约束条件聚合到地理空间的量算上。

聚类算法已经广泛应用于各个领域，并且针对各种背景发展出完备的理论体系。由于本文处理对象聚类的目的并不是进行数据挖掘等数据分析层面，而是针对后续对象分布方法的一种依据，并且剖分存储对象由于层级的差别，可能会出现聚类的簇之间相差较大，密度分布不均和易出现异常数据点等极端情况。因此在选择距离算法时，采用一种算法适应性较好，能够容忍极端数据分布情况的算法-基于聚会能量的KM算法。该算法对经典的K-Means方法进行了改进，能够容忍原始数据中的极端孤立点，并且算法稳定，适合于剖分存储对象的聚类。

首先将对象访问相关性映射到剖分存储对象距离度量空间上，即把对象之间访问的相关性量化，把两个对象在数据访问的相关度转换成空间上的距离大小。相关度较大的两个对象，距离相对较近，而反之则远。为了能够和距离量算在同一个数量级上，将剖分存储对象的平均距离和对象将访问的平均相关度进行映射，如对象间的平均距离为L_avr，对象访问平均相关度为V_avr，设λ为两者的映射系数，因此λ＝L_avr/V_avr。考虑到访问相关度在对象聚类算法的影响并不能简单的与与距离对等，要根据实际的运行情况调整其作用的大小，因此，设置访问相关度影响权值k，λ*k*V_avr为对象访问相关度在剖分地理空间上的距离。

1-4)剖分存储设备聚类分布

剖分存储模型面向大规模的海量数据存储，系统由大量的剖分存储设备组成，为了充分发掘数据关联关系带来的存储潜能，对海量的存储设备进行聚类，按照设备的容量、带宽以及性能在系统中的相关性，将存储相关度高的存储设备放在一个集群内。将海量数据存储系统分成层次形成多个局部的集群，采取分而治之的方法，每个集群映射到一族剖分存储对象，使用不同的分布算法在集群内部存储，增加存储管理的灵活性。能够按照剖分存储对象的变化，批量的增加和删除剖分存储设备，减少不必要的数据迁移，简化存储设备的管理。

(2)基于北斗网格技术的空间大数据多维度深度关联技术

当前空间大数据主要采用的是“各自建库、分别编码”的数据组织方案，导致各类数据之间关联关系弱，描述同一目标、不同数据库之间的不同类型数据往往难以互相直接映射或关联。依托空间剖分索引大表，建立面向应用的数据多维度深度关联模式，利用数据多维关联模型的目标关联、网格编码关联、时间关联、事件关联等，实现数据之间的多维度、多层级深度关联，为面向应用的数据高效服务保障奠定基础。

目标关联：利用知识图谱，首先根据目指情报信息中的目标隶属特性和唯一标识，以目标唯一标识为主键字段，进行信息筛选、提取、分析；再利用关联分析函数工具进行关联分析，生成关联关系拓扑图。

网格编码关联：所有的空间大数据在存储时，都在数据库表中添加若干个字段，用于存放北斗网格编码码元，利用网格编码不同的位数组合，代表不同的实际含义，筛选、提取、分析数据关联性。

时间关联：所有的空间大数据在存储时，都在数据库表中添加若干个字段，用于存放北斗时间剖分编码码元，利用北斗时间剖分编码不同的位数组合，代表不同的实际含义，筛选、提取、分析数据关联性。

事件关联：基于输入北斗网格编码的上下文，可在事件抽取的基础上进一步识别事件间的关系，包括共指、因果、顺承、时序和从属事件等关系。因果关系用来描述两个事件之间是一种前因后果联系，即前一个事件导致后一个事件的发生；顺承关系用来描述两个事件之间是一种时间上的偏序关系，具备先后动作逻辑；共指关系用来描述两个事件的相同性，以便后续完成融合关联，进一步的执行事件信息补全或验证；在事件关系识别的基础上，进一步扩充完善事件关系图谱，进而形成事理关系图谱，为事件认知计算提供支持。事件的认知计算包括：因果推理和事件关系推理。

(3)基于北斗网格技术的空间大数据搜索引擎技术

充分利用数据空间网格编码二进制、一维、整型的特点，设计基于网格编码的空间大数据搜索引擎。空间大数据赋予网格编码入库后，依托编码索引大表，可实现数据的编码化查询，将多维时空查询简化为一维数值匹配查询，检索效率提升1倍以上；同时，以时空编码为纽带，解决目前“入口不统一、多库分别查询、耗时长”的问题，提升空间大数据关联检索的自动化程度，其原理图如图3所示。

技术实现：首先将空间大数据的数据库表中追加若干字段，每一个字段存储一个北斗网格编码的二进制码元。北斗时空搜索引擎提供两种类型的网格索引，Btree网格索引和GIN网格索引。

GeoSOT编码的本质是将多维数据一维化，在GridCell类型中扩展Btree索引能力，形成Btree网格索引。GridCell+Btree适用于点数据的空间查询和基于网格的空间聚合。

GIN网格索引：GeomGrids对象由多个网格单元组成，与网格单元是一对多关系，GIN是通用倒排索引，可实现一对多关系检索。在GIN框架下实现网格集合空间索引，该索引支持跨层级检索。

B-Tree网格索引

B-tree索引是关系型数据库中最常见使用最广泛的索引。在关系型数据库中大多数类型均支持btree索引。Btree索引支持排序，支持<、

<＝、＝、>＝和>的搜索，支持contains和in等范围查询。

通过祖先网格查询后代网格原理，如图4所示；

先通过一个例子介绍。上图为中的六个网格关系如下：

A、B为两个8级网格。B网格是A网格的后续兄弟网格(B网格编码前16位的数值只比A网格前16位大1)

Aa、Ab、Ac、Ad都是9级网格，且均为A的后代网格。6个网格的整型编码(2进制)如下：

CodeA:101110001101010100000000000000000000000000000000000000000000

CodeB:101110001101011000000000000000000000000000000000000000000000

CodeAa:101110001101010100000000000000000000000000000000000000000000

CodeAb:101110001101010101000000000000000000000000000000000000000000

CodeAc:101110001101010110000000000000000000000000000000000000000000

CodeAd:101110001101010111000000000000000000000000000000000000000000

从网格编码可以看出，Aa、Ab、Ac、Ad的网格编码范围处于[codeA,codeB)区间内。

总结：一个单元网格层级越大，其代表的空间区域范围越小。一个单元网格的所有后代网格的空间范围，均被该网格范围所包含。一个网格cellA后代网格整型编码的取值范围为：[codeA,codeB)，其中codeA为cellA的整型编码，codeB为cellA后续兄弟网格的整型编码。基于以上理论，用祖先网格查询后代网格，就转换成了[codeA,codeB)的区间查询。

GIN网格索引

GIN(Generalized Inverted Index,通用倒排索引)是一个存储对(key,postinglist)集合的索引结构，其中key是一个键值，而posting list是一组出现过key的TID。对于表中的每一个属性，在建立索引时，每个item都可能会被解析成多个key，同一个TID可能会出现在多个posting list中，而每个key值只被存储一次，所以在相同的key在item中出现多次的情况下，GIN索引是非常简洁的。

如图5所示，其中word作为索引的key值，是从文档中分析得到的，一篇文档将对应多个word，同时一个word后面对应的文档列表即为GIN索引的posting list。

GIN索引内部数据结构整体上类似于B-Tree。不同的是，叶子结点上存储的不是一个TID，而是很多TID的集合，这是GIN为了存储重复数据做的优化，如图6所示。

GIN的叶子结点的数据有三种可能：

1、当只有一个TID的时候，和B-Tree一样。

2、当有很多TID的时候，那么存储的是一个列表(posting list)。

3、当有非常多的TID的时候，叶子结点存储的是一个指针，这个指针指向另一棵树(Posting Tree)的根结点。而Posting Tree里面存储了所有符合这一个entry的TIDs(以page为存储单元)。

gridcell数据以及与gridcell相关的网格数据作为GIN索引的key值存储在索引结构中，如图7所示。

其中，C*代表GIN索引中的key，即为gridcell；G*代表空间数据的北斗网格码集合，即为geomgrids。

下面将针对数据插入和关系查询来进一步介绍北斗网格码在GIN索引中的具体实现。

数据插入，如图8所示，具体包括如下步骤：

1、将空间数据转换成geomgrids，geomgrids中包含多个gridcell。

2、遍历gridcell，并求出gridcell在层级6到当前层级的祖先网格(包括自己)，并插入到键值集合中。

3、调用compare函数，将键值进行排序，之后插入到GIN索引中，作为索引的key。

数据检索，如图9所示，具体包括如下步骤：

1、将待检索的数据转换成gridcell集合，并标记返回结构中部分匹配参数为TRUE，表明数据需要进行部分匹配。

2、进行部分匹配，遍历gridcell集合中的每一个单元网格，并与索引数据中的key值进行比较，如果满足关系要求则返回0，否则返回-1表示当前key与gridcell关系不匹配，需要与下一个key进行关系判断，返回1表示当前gridcell不满足关系判断，需要与下一个gridcell进行比较。

3、进行精确匹配，根据网格码设计逻辑，部分匹配返回的posting list已经满足关系判断需求，因此，精确匹配过程中直接返回true。

(4)基于北斗网格技术的空间大数据代数计算技术

基于空间网格编码的空间大数据代数运算技术，充分利用地球网格编码一维、整型、二进制的特点，根据二进制位运算效率最高的机理，将传统基于经纬度浮点数运算的空间大数据分析计算，转变为基于二进制整型编码位运算的实时计算分析，实现空间大数据组织、存储、传输、分发、服务等应用的高效“编码化操作”。对于空间大数据运算，采用编码代数运算方法直接运算的计算复杂度要远低于传统的经纬度坐标算法，计算更高效、更快捷，计算性能提升10倍左右。

二进制代数计算：空间大数据在原有数据库的属性表中增设32个字段来存储编码。空间大数据的编码由时间编码和位置编码组成。

北斗时间编码采用时间离散编码方式，把时间离散化为不同长短的时间区间(片段)，并赋予唯一的二进制编码，使得时间离散化为有长度的“时间段”。该编码具有多粒度、可定时、可索引、可计算、自动关联等优点。时间离散编码＝时刻编码+时段编码，如图10所示。

通过对月、日、时、分、秒、毫秒、微秒进行七次扩展(16、32、32、64、1024、1024、1024)，将公元前65536年至公元65535年逐次二元剖分成不同长短的时间区间(片段)，并赋予唯一的二进制编码，使得连续时间离散化为有长度的“时间段”。该编码具有多粒度、可定时、可索引、可计算、自动关联等优点，构成了大数据管理与应用的时间离散框架，如图11-图12所示。

为了地球诞生以来不同地质年代时间的表达，制定大尺度时间剖分方案，该时间剖分跨度为-1374～1374亿年，最小粒度为秒，可用64位长整型存储，可与普通时间编码互相转换，如图13所示。

北斗三维网格位置码由二维编码+高度维编码交叉组成，共32位码元组成。其中第三维度编码由12位码元组成，其结构与码元取值如图14所示。

北斗网格位置编码在部分层级兼容了GeoSOT网格：在4-10级，北斗网格位置编码的空间范围与相应层级的GeoSOT网格一一对应。同时也在部分层级兼容了地形图分幅标准。北斗网格位置与GeoSOT网格的对应关系如图15所示。

(5)基于数字地球的空间大数据可视化

中科星图的GEOVIS iExplorer产品具备海量数据的快速加载和强大的数据展示与交互能力，支持基础影像、时序影像、矢量地图、DEM、DSM、倾斜摄影、三维模型、多级地名、街景等各类空间大数据可视化,通过二维地图或三维地图等数据可视化方法，可以给用户带来更直观高效的地图交互与结果呈现。

基于北斗网格技术存储与管理的空间大数据支持在数字地球上进行二维地图或三维地图显示。二维地图显示对应2D网格编码，2D网格编码以“G”开头，每一个层级用一个四进制字符表达，四进制字符个数即为层级，例如：G0013103220310311。三维地图显示对应3D网格编码，3D网格编码以“GZ”开头，每一个层级用一个八进制字符表达，八进制字符个数即为层级，例如：GZ002242242026624。

在北斗时空引擎中定义了GridCell和GeomGrids两类数据模型，分别表示网格单元和网格集合。

对于一个二三维点对象，每个层级下有且只有一个网格单元与之对应，是一对一的关系。一个Point可用Gridcell表达。

对于二维MultiPoint、LineString、Polygon等非单点几何对象，每个层级下往往会有多个网格单元与之对应，需要用网格集合GeomGrids表达。

对于三维的LingString Z、MultiPoint Z、MultiLingString Z、POLYHEDRALSURFACE Z等对象，同样有多个三维网格单元与之对应，需要用GeomGrids 3D来表达。

在北斗时空引擎中，一切数据组织、空间计算、空间索引的基础均为网格对象，所以将传统点线面体等几何对象映射成网格集合对象，是使用北斗网格引擎的第一步。通过二三维几何对象构建与之对应的GeomGrids对象的过程称为几何对象网格编码，Geometry与Grids的关系图如图16所示。

提供Aggregate和Plain两种网格模式。plain模式：Geometry转换输出的GeomGrids中所有的gridCell对象均为detailLevel。这种模式下所有单元网格层级相同，但数据量较大。agg(Aggregate)模式：为了降低GeomGrids存储空间，对GeomGrids进行了网格聚合。在一个Grids对象中，从detailLevel到第6级，如果四个网格为兄弟网格(拥有相同的父网格)，从Grids中删除这四个网格，添加其父网格。

图17为不同detailLevel和isAgg下对北京市大兴区Polygon的打码结果。从图中可以得出以下结论：横向对比，网格模式相同时，detailLevel越大，Cell数量越多，但网格的几何形状与Geometry更加贴近。detailLevel每增加1，Cell数量是原来的3～4倍。纵向对比，detailLevel相同时，agg模式与plain模式外轮廓一致(与Geometry贴合程度一致)，但agg模式的cell数量为plain模式的1/3。tailLeve越大时，agg较plain模式的数据压缩率越高。

结论：agg模式可以占用更少存储，且不损耗外轮廓精度，推荐使用agg模式。

GeoSOT全球等经纬度网格的四分循环嵌套特性，十分符合数据结构中的四叉树结构，利用四叉树中的节点代替网格能够方便做网格的遍历以及运算。假设预定义的打码level为n级，相交区域为全球范围，基于GeoSOT全球等经纬度网格方案所构建出的四叉树结构如图18所示；

四叉树标记构建，如图19所示：

实际的业务场景中，空间几何对象可能是任意的不规则几何对象。需要判断全球范围内网格和指定空间几何对象的相交情况，构建出一棵从0级到最精细层级与输入空间几何对象相交的层次网格四叉树。四叉树标记构建的具体流程如下：

(1)根据业务精度需求指定打码的最高层级(detailLevel)；

(2)用唯一的一个0级网格作为根节点，构建四叉树。

(3)设第0级网格为当前网格

(4)对于当前网格，判断其层级是否为detailLevel，如果是，将设置当前网格为标记节点，结束本次递归。

(5)如果上一步否，继续；

(6)如果当前网格的第1个子网格空间与Geometry相交，将第1个子网格加入至四叉树中，作为当前网格的子节点。设第一个子网格为当前网格，转到步骤(4)；

(7)如果当前网格的第2个子网格空间与Geometry相交，将第2个子网格加入至四叉树中，作为当前网格的子节点。设第2个子网格为当前网格，转到步骤(4)；

(8)如果当前网格的第3个子网格空间与Geometry相交，将第3个子网格加入至四叉树中，作为当前网格的子节点。设第3个子网格为当前网格，转到步骤(4)；

(9)如果当前网格的第4个子网格空间与Geometry相交，将第4个子网格加入至四叉树中，作为当前网格的子节点。设第4个子网格为当前网格，转到步骤(4)；

(10)四叉树构建完毕。

网格集合二次筛选

上一步已完成四叉树构建。该四叉树中保存了与输入几何对象相交的[0，detailLevel]层级区间中所有网格集合。四叉树中的父子网格在空间上有交叉，为了避免网格集合冗余，只需在网格集合中保留四叉树中已标记的节点。

一旦一个节点的四个子节点全部是标记节点，则该节点也是标记节点。由于四叉树标记构建过程是一个深度遍历，每个子树分支都会构建到detailLevel。可能会出现父子节点同时被标记的情况，我们只需要保留深度最低的标记节点即可。具体做法是在二次筛选时先序遍历四叉树，如果一个节点被标记，不再遍历其子节点。

本申请所述方法采用数据剖分存储模型和搜索引擎技术，可以实现更快速、更准确的数据存储和查询，节省了数据处理和分析时间。采用多维度深度关联技术和代数计算技术，可以进行更复杂的数据分析和运算，结果更全面、更准确。采用可视化技术，可以将数据结果转化为图形化或图像化的展示方式，使数据更加直观、易懂、易于表达和交流。因此，本申请所述方法具有数据处理和查询速度快、结果准确全面、可视化展示直观清晰等优点。

Claims

1.一种基于北斗网格技术的空间大数据存储与管理方法，其特征在于包括如下步骤：

构建数据剖分存储模型；

基于北斗网格技术的空间大数据多维度深度关联；

构建基于北斗网格技术的空间大数据搜索引擎；

基于北斗网格技术的空间大数据代数计算；

基于数字地球的空间大数据可视化处理。

2.如权利要求1所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于构建数据剖分存储模型的方法包括如下步骤：

数据剖分存储模型数学描述；

数据剖分存储对象网格划分；

数据剖分存储对象聚类；

剖分存储设备聚类分布。

3.如权利要求2所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于数据剖分存储模型的数学描述如下所示：

代表剖分存储对象的聚类方法，依据是剖分存储对象在空间上的度量关系，以最大最小距离将相近的剖分存储对象聚集成簇；从而将空间上有较强的邻近关系的数据聚集起来，是剖分存储对象在存储设备的分布算法的基础；μ_i表示目标元素编码；x_j表示邻近元素编码；s_i表示邻近元素集合；

4.如权利要求2所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于所述数据剖分储存对象网格划分包括如下步骤：

5.如权利要求2所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于数据剖分存储对象聚类的方法中：

6.如权利要求2所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于部分存储设备聚类分布的处理过程中：

7.如权利要求1所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于所述基于北斗网格技术的空间大数据多维度深度关联的方法包括如下步骤：

依托空间剖分索引大表，建立面向应用的数据多维度深度关联模式，利用数据多维关联模型的目标关联、网格编码关联、时间关联、事件关联，实现数据之间的多维度、多层级深度关联；

目标关联：利用知识图谱，首先根据目指情报信息中的目标隶属特性和唯一标识，以目标唯一标识为主键字段，进行信息筛选、提取、分析；再利用关联分析函数工具进行关联分析，生成关联关系拓扑图；

网格编码关联：所有的空间大数据在存储时，都在数据库表中添加若干个字段，用于存放北斗网格编码码元，利用网格编码不同的位数组合，代表不同的实际含义，筛选、提取、分析数据关联性；

时间关联：所有的空间大数据在存储时，都在数据库表中添加若干个字段，用于存放北斗时间剖分编码码元，利用北斗时间剖分编码不同的位数组合，代表不同的实际含义，筛选、提取、分析数据关联性；

事件关联：基于输入北斗网格编码的上下文，可在事件抽取的基础上进一步识别事件间的关系，包括共指、因果、顺承、时序和从属事件关系；因果关系用来描述两个事件之间是一种前因后果联系，即前一个事件导致后一个事件的发生；顺承关系用来描述两个事件之间是一种时间上的偏序关系，具备先后动作逻辑；共指关系用来描述两个事件的相同性，以便后续完成融合关联，进一步的执行事件信息补全或验证；在事件关系识别的基础上，进一步扩充完善事件关系图谱，进而形成事理关系图谱，为事件认知计算提供支持；事件的认知计算包括：因果推理和事件关系推理。

8.如权利要求1所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于：设计基于网格编码的空间大数据搜索引擎，空间大数据赋予网格编码入库后，依托编码索引大表，实现数据的编码化查询，将多维时空查询简化为一维数值匹配查询，其具体方法包括如下步骤：

首先将空间大数据的数据库表中追加若干字段，每一个字段存储一个北斗网格编码的二进制码元；北斗时空搜索引擎提供两种类型的网格索引，Btree网格索引和GIN网格索引；

GIN网格索引：GeomGrids对象由多个网格单元组成，与网格单元是一对多关系，GIN是通用倒排索引，可实现一对多关系检索，在GIN框架下实现网格集合空间索引，该索引支持跨层级检索；

GIN是一个存储对(key，posting list)集合的索引结构，其中key是一个键值，而posting list是一组出现过key的TID；对于表中的每一个属性，在建立索引时，每个item都可能会被解析成多个key，同一个TID可能会出现在多个posting list中，而每个key值只被存储一次；

GIN的叶子结点的数据有三种可能：

1)当只有一个TID的时候，和B-Tree一样；

2)当有很多TID的时候，那么存储的是一个列表(posting list)；

3)当有非常多的TID的时候，叶子结点存储的是一个指针，这个指针指向另一棵树(Posting Tree)的根结点。而Posting Tree里面存储了所有符合这一个entry的TIDs(以page为存储单元)；

gridcell数据以及与gridcell相关的网格数据作为GIN索引的key值存储在索引结构中；

北斗网格码在GIN索引中的针对数据插入和关系查询来的具体实现方法包括如下步骤：

数据插入：

1)将空间数据转换成geomgrids数据，geomgrids数据中包含多个gridcell数据；

2)遍历gridcell，并求出gridcell在层级6到当前层级的祖先网格(包括自己)，并插入到键值集合中；

3)调用compare函数，将键值进行排序，之后插入到GIN索引中，作为索引的key；

数据检索：

1)将待检索的数据转换成gridcell集合，并标记返回结构中部分匹配参数为TRUE，表明数据需要进行部分匹配；

2)进行部分匹配，遍历gridcell集合中的每一个单元网格，并与索引数据中的key值进行比较，如果满足关系要求则返回0，否则返回-1表示当前key与gridcell关系不匹配，需要与下一个key进行关系判断，返回1表示当前gridcell不满足关系判断，需要与下一个gridcell进行比较；

3)进行精确匹配，根据网格码设计逻辑，部分匹配返回的posting list已经满足关系判断需求，因此，精确匹配过程中直接返回true。

9.如权利要求1所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于：所述基于北斗网格技术的空间大数据代数计算方法包括如下步骤：

利用地球网格编码一维、整型、二进制的特点，根据二进制位运算效率最高的机理，将传统基于经纬度浮点数运算的空间大数据分析计算，转变为基于二进制整型编码位运算的实时计算分析，实现空间大数据组织、存储、传输、分发、服务应用的编码化操作，其中：

二进制代数计算：空间大数据在原有数据库的属性表中增设32个字段来存储编码，空间大数据的编码包括时间编码和位置编码；

北斗时间编码采用时间离散编码方式，把时间离散化为不同长短的时间区间，并赋予唯一的二进制编码，使得时间离散化为有长度的时间段；

通过对月、日、时、分、秒、毫秒、微秒进行七次扩展，将公元前65536年至公元65535年逐次二元剖分成不同长短的时间区间，并赋予唯一的二进制编码，使得连续时间离散化为有长度的时间段；

制定大尺度时间剖分方案，该时间剖分跨度为-1374～1374亿年，最小粒度为秒，可用64位长整型存储，可与普通时间编码互相转换；

北斗网格位置编码在部分层级兼容了GeoSOT网格：在4-10级，北斗网格位置编码的空间范围与相应层级的GeoSOT网格一一对应；同时也在部分层级兼容了地形图分幅标准。

10.如权利要求1所述的基于北斗网格技术的空间大数据存储与管理方法，其特征在于，基于数字地球的空间大数据可视化的方法包括如下步骤：

基于北斗网格技术存储与管理的空间大数据支持在数字地球上进行二维地图或三维地图显示；二维地图显示对应2D网格编码，2D网格编码以G开头，每一个层级用一个四进制字符表达；三维地图显示对应3D网格编码，3D网格编码以GZ开头，每一个层级用一个八进制字符表达，八进制字符个数即为层级；

在北斗时空引擎中定义GridCell和GeomGrids两类数据模型，分别表示网格单元和网格集合；

对于一个二三维点对象，每个层级下有且只有一个网格单元与之对应，是一对一的关系，一个Point可用Gridcell表达；

对于二维非单点几何对象，每个层级下往往会有多个网格单元与之对应，需要用网格集合GeomGrids表达；

对于三维对象，同样有多个三维网格单元与之对应，使用GeomGrids 3D来表达；

在北斗时空引擎中，一切数据组织、空间计算、空间索引的基础均为网格对象，将几何对象映射成网格集合对象，是使用北斗网格引擎的第一步；通过二三维几何对象构建与之对应的GeomGrids对象的过程称为几何对象网格编码；

提供Aggregate和Plain两种网格模式，plain模式：Geometry转换输出的GeomGrids中所有的gridCell对象均为detailLevel，这种模式下所有单元网格层级相同，但数据量较大；

agg(Aggregate)模式：对GeomGrids进行了网格聚合，在一个Grids对象中，从detailLevel到第6级，如果四个网格为兄弟网格，从Grids中删除这四个网格，添加其父网格；

GeoSOT全球等经纬度网格的四分循环嵌套特性，利用四叉树中的节点代替网格能够方便做网格的遍历以及运算；

四叉树标记构建：

实际的业务场景中，空间几何对象可能是任意的不规则几何对象，需要判断全球范围内网格和指定空间几何对象的相交情况，构建出一棵从0级到最精细层级与输入空间几何对象相交的层次网格四叉树；四叉树标记构建的具体流程如下：

1)根据业务精度需求指定打码的最高层级(detailLevel)；

2)用唯一的一个0级网格作为根节点，构建四叉树；

3)设第0级网格为当前网格；

4)对于当前网格，判断其层级是否为detailLevel，如果是，将设置当前网格为标记节点，结束本次递归；

5)如果上一步否，继续；

6)如果当前网格的第1个子网格空间与Geometry相交，将第1个子网格加入至四叉树中，作为当前网格的子节点。设第一个子网格为当前网格，转到步骤4)；

7)如果当前网格的第2个子网格空间与Geometry相交，将第2个子网格加入至四叉树中，作为当前网格的子节点；设第2个子网格为当前网格，转到步骤4)；

8)如果当前网格的第3个子网格空间与Geometry相交，将第3个子网格加入至四叉树中，作为当前网格的子节点。设第3个子网格为当前网格，转到步骤4)；

9)如果当前网格的第4个子网格空间与Geometry相交，将第4个子网格加入至四叉树中，作为当前网格的子节点；设第4个子网格为当前网格，转到步骤4)；

10)四叉树构建完毕；

网格集合二次筛选：

四叉树中保存了与输入几何对象相交的[0，detailLevel]层级区间中所有网格集合；四叉树中的父子网格在空间上有交叉，在网格集合中保留四叉树中已标记的节点；二次筛选时先序遍历四叉树，如果一个节点被标记，不再遍历其子节点。