CN109635069B

CN109635069B - 一种基于信息熵的地理空间数据自组织方法

Info

Publication number: CN109635069B
Application number: CN201811572719.7A
Authority: CN
Inventors: 钱晓明; 许青云
Original assignee: Beijing Aerospace Titan Technology Co ltd
Current assignee: Aerospace Science and Technology (Beijing) Space Information Application Co.,Ltd.
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2021-08-10
Anticipated expiration: 2038-12-21
Also published as: CN109635069A

Abstract

本发明的一种基于信息熵的地理空间数据自组织方法，用于实现时空信息云服务平台的地理空间数据的自组织存储；所述方法包括：步骤1)接收搜索条件，根据搜索条件读取地理空间数据；步骤2)根据所述搜索条件构建基于信息熵的最优决策树；步骤3)将地理空间数据按照最优决策树模型进行分类，实现自组织存储和管理。提高了用户搜索地理空间数据的效率；提升了导航和定位的精度；能够满足行业应用广泛，客户群体复杂化、个性化和多元化的搜索需求；有效利用了多机集群分布式处理能力，采用高速存储系统网络与相关服务，实现TB级的海量地理空间数据存储、管理和访问。

Description

一种基于信息熵的地理空间数据自组织方法

技术领域

本发明涉及大数据挖掘技术领域，具体而言，涉及一种基于信息熵的地理空间数据自组织方法。

背景技术

信息熵是1948年美国数据家Shannon基于信息论提出的，被用来反映人们对系统内部组态信息的缺乏程度或一个随机事件的不确定性的度量。所述信息熵的计算公式如下：

n个可能的信息X₁,X₂,…,X_n,其发生的概率分别为P₁,P₂,…,P_n，且

函数

其中k为比例系数，所述信息熵用来表示信息源输出后每个信息提供的平均信息量，或信源输出前的平均不确定程度。即不确定性越大，则信息量越大，熵越大；若不确定性越小，则信息量越小，熵越小。信息熵不仅可以处理单个事件信息的度量问题，也可处理多维的联合信息、条件信息等复杂信息。

信息增益是以某特征划分数据集前后熵的差值，可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合划分效果的好坏，因此应优先使用信息增益最大的属性，这样降低了复杂度，也简化了后续逻辑。

地理空间数据具有数据量大、内容多样化、结构复杂和多维化等特征。影响地理空间数据快速检索、导航和定位的因素有很多，从外部看包括数据规模，处理器的运算能力、硬件架构等，从系统内部看，包括数据组织方式，数据IO类库的IO模式，数据检索方法选择等。随着计算机技术和3S技术的迅猛发展，多源异构海量数据和高效的硬件设备处理能力已经是必然结果，因此使用户能够快速的搜索、导航和定位目的数据，成为亟待解决的问题。

地理空间数据的组织是一套关于数据集中空间信息如何表达的机制，常用的空间数据的组织方式包括：

(1)空间数据分层存储，不同层次表达不同类别的信息；

(2)空间对象的描述分为属性要素和空间要素两种形式。其中，空间要素描述空间对象的空间位置及其关系；属性要素描述空间对象的意义及应用要求。

(3)空间要素(几何数据)使用特定的矢量图形格式存储于图形文件中，而属性要素可以存放于数据库中，也可以存放在文件中，二者通过索引文件相互对应。

由于地理空间数据的行业应用广泛，客户群体复杂，需求个性化、多元化，因此，不变的数据组织方式面对多变的搜索目的，会损失搜索的效率。

发明内容

本发明的目的在于解决现有技术中由于地理空间数据的行业应用广泛，客户群体复杂，以不变的数据组织方式面对多变的搜索目的，会损失搜索的效率和精度的问题。为实现上述目的，本发明提出一种基于信息熵的地理空间数据自组织方法，

用于实现时空信息云服务平台的地理空间数据的自组织存储；所述方法包括：

步骤1)接收搜索条件，根据搜索条件读取地理空间数据；

步骤2)根据所述搜索条件构建基于信息熵的最优决策树；

步骤3)将地理空间数据按照最优决策树模型进行分类，实现自组织存储和管理。

作为所述方法的一种改进，所述搜索条件的类型个数为n个：第1类搜索条件A₁、…、第i类搜索条件A_i…第n类搜索条件A_n。

作为所述方法的一种改进，所述步骤2)具体包括：

步骤2-1)以每一类搜索条件为父节点；以当前搜索条件下的分支为子节点；

步骤2-2)判断所述父节点的子节点数目是否大于1个；如果子节点个数大于1，执行步骤2-3)；否则，执行步骤2-8)；

步骤2-3)计算当前父节点的信息熵；

步骤2-4)计算当前父节点下每个子节点的信息熵；

步骤2-5)计算父节点的信息熵与其每个子节点的信息熵的差值，作为搜索条件的信息增益；

步骤2-6)将得到的所有的信息增益进行排序；

步骤2-7)选择最大的信息增益作为搜索条件的分支属性；将对应的节点作为父节点，执行步骤2-2)；

步骤2-8)得到最优决策树。

作为所述方法的一种改进，所述步骤2-3)具体包括：计算父节点的信息熵H_a：

其中：P_i为父节点的各类搜索条件百分比，a_i为父节点的第i类搜索条件；a表示父节点的综合搜索条件。

作为所述方法的一种改进，所述步骤2-4)具体包括：以所述父节点的每一个分支作为子节点，计算每一个子节点的搜索条件标签的分布，加权平均，求得到子节点的信息熵H_b：

式中：P_i'为子节点的各类搜索条件的百分比；b_i表示子节点的第i类搜索条件，b表示子节点的综合搜索条件。

作为所述方法的一种改进，所述搜索条件信息增益H_g：

H_g＝H_a-H_b(7)。

作为所述方法的一种改进，所述步骤3)具体包括：

步骤3-1)根据地理空间数据的元数据信息，确定该地理空间数据的分类；

步骤3-2)查找与所述分类相匹配的搜索条件对应的最优决策树，找到该地理空间数据对应的节点进行存储，实现自组织存储和管理。

本发明的优势在于：

1、本发明的基于信息熵的地理空间数据自组织方法提高了用户搜索地理空间数据的效率；

2、本发明的基于信息熵的地理空间数据自组织方法提升了导航和定位的精度；

3、本发明的基于信息熵的地理空间数据自组织方法能够满足行业应用广泛，客户群体复杂化、个性化和多元化的搜索需求；

4、本发明的基于信息熵的地理空间数据自组织方法有效利用了多机集群分布式处理能力，采用高速存储系统网络与相关服务，实现TB级的海量地理空间数据存储、管理和访问。

附图说明

图1为本发明基于信息熵的地理空间数据自组织方法的示意图；

图2为本发明基于信息熵的地理空间数据自组织方法的流程图。

具体实施方式

本发明提出一种基于信息熵的地理空间数据自组织方法，采用信息论中信息熵的思想，构造基于信息熵的最优决策树模型，能够提高地理空间数据搜索的速度和准确度。

本发明应用于时空信息云服务平台的数据集市中，实现对所管理的海量异构地理空间数据进行自动化多层次聚合分类的功能，是用户手动定义数据分类的一个有力补充。

在实际应用中，本发明也体现了随着数据的不断更新，数据的组织也不断朝着最优的方向演进，使得用户在多源异构海量数据中导航、定位和识别特定数据时所需的操作大为减少，并且自动化组织的特性也免除了数据目录手动维护的工作，用户可以选择保存个性的搜索条件，便于用户在下次应用时能够基于上次自组织的结果，快速定位到目标数据，进行数据的浏览，导航和下载等。

如图1所示，本发明采用计算机集群系统作为硬件处理平台，采用高速存储系统网络与相关服务，实现TB级的海量地理空间数据存储、管理和访问，有效利用多机集群分布式处理能力。

所述计算机集群系统是一种刀片式服务器系统，它的硬件系统主要包括四大部分：刀片服务器，磁盘阵列，工作站和万兆以太网交换机。

所述客户端(工作站)负责管理和分发任务；

所述刀片服务器根据接收到的任务，从磁盘阵列取出影像进行处理，然后将结果存入磁盘阵列。

信息熵是一个值，利用信息熵这个值对搜索条件的标签进行有效的安排；每个数据在入库的时候都会有元数据信息；通过元数据信息判断具体一个数据属于哪个搜索条件。后台数据通过前端的搜索条件，利用信息熵的方法进行自组织后存储。

本发明首先在客户端(工作站)根据客户的搜索条件向刀片服务器发出指令，刀片服务器根据接收到的指令，从磁盘阵列中取出数据，根据每一类搜索条件分别计算父节点搜索条件的信息熵，这个信息熵只是简单的求取搜索条件标签的分布，并按照公式求解信息熵。

然后再选用所述父节点搜索条件的某一个属性作为分支属性后，需要计算每一个子分支中的搜索条件标签的分布，计算每个子条件的信息熵，加权平均(期望)，求得总的信息熵。

最后计算前后两个信息熵的差值，即计算信息增益，选择最大的增益属性作为分支属性。一直递归下去，对每一个子条件套用上述方法。直到所有的条件都被归类于某个叶节点，即不可再分为止，从而确定最优决策树模型。

地理空间数据根据最优决策树实现自组织，并把结果快速呈现给客户端，供客户浏览、导航和定位。

与现有技术相比，本发明旨在解决用户在检索大量的地理空间数据的效率问题。根据地理空间数据的多种特性，计算不同搜索条件的信息熵，求解前后两个信息熵的差值，即求得信息增益，选择最大的信息增益属性作为分支属性，通过不断迭代，最后达到最优决策树模型和地理空间数据自组织方案。

具体实施方式如下：

实施例

S1、用户在客户端输入搜索条件，由于地理空间数据的复杂性，设置多个可供用户选择的条件，包括数据格式、研究区域、时间范围、云量和比例尺/空间分辨率等；

S2、客户端把搜索条件以指令的形式发送给刀片服务器，所述刀片服务器从磁盘阵列中取出地理空间数据进行模型计算；

S3、首先根据Shannon熵公式构建搜索条件信息熵H，所述搜索条件的类型个数为n个：第1类搜索条件A₁、…、第i类搜索条件A_i…第n类搜索条件A_n；

如图2所示，以每一类搜索条件为父节点；计算父节点的信息熵H_a：

从公式3)中可以看出搜索条件类型越多，类型间百分比差越小，熵值越大。父节点信息熵H_a计算完毕，再计算下一层子节点信息熵H_b；

以所述父节点的每一个分支作为子节点，计算每一个子节点的搜索条件标签的分布，加权平均，求得到子节点的信息熵H_b：

S4、根据父节点与子节点信息熵的差值计算得出信息增益H_g：

H_g＝H_a-H_b (7)

式中：H_g是信息增益，H_a是父节点的信息熵，H_b是子节点的信息熵，选取上述信息增益最大的方案作为本次分类的方案。

S5、层层递归计算，直到所有的搜索条件都被归类于某个叶节点，即不可再分为止，对于组织好的数据返回客户端供用户搜索、导航和定位。

通过信息论中信息熵可以区分不同信息源包含不同信息量的思想，构造基于信息熵的最优决策树模型，实现地理空间数据自组织方法，解决地理空间数据快速检索的问题。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于信息熵的地理空间数据自组织方法，用于实现时空信息云服务平台的地理空间数据的自组织存储；所述方法包括：

步骤1)接收搜索条件，根据搜索条件读取地理空间数据；

步骤2)根据所述搜索条件构建基于信息熵的最优决策树；

步骤3)将地理空间数据按照最优决策树模型进行分类，实现自组织存储和管理；

所述步骤2)具体包括：

步骤2-3)计算当前父节点的信息熵；

步骤2-4)计算当前父节点下每个子节点的信息熵；

步骤2-6)将得到的所有的信息增益进行排序；

步骤2-8)得到最优决策树；

所述步骤2-3)具体包括：计算父节点的信息熵H_a：

其中：P_i为父节点的各类搜索条件百分比，a_i为父节点的第i类搜索条件；a表示父节点的综合搜索条件；

所述步骤2-4)具体包括：以所述父节点的每一个分支作为子节点，计算每一个子节点的搜索条件标签的分布，加权平均，求得到子节点的信息熵H_b：

式中：P_i'为子节点的各类搜索条件的百分比；b_i表示子节点的第i类搜索条件，b表示子节点的综合搜索条件；

所述搜索条件信息增益H_g：

H_g＝H_a-H_b (7)。

2.根据权利要求1所述的基于信息熵的地理空间数据自组织方法，其特征在于，所述搜索条件的类型个数为n个：第1类搜索条件A₁、…、第i类搜索条件A_i…第n类搜索条件A_n。

3.根据权利要求1所述的基于信息熵的地理空间数据自组织方法，其特征在于，所述步骤3)具体包括：