CN109635069B - 一种基于信息熵的地理空间数据自组织方法 - Google Patents
一种基于信息熵的地理空间数据自组织方法 Download PDFInfo
- Publication number
- CN109635069B CN109635069B CN201811572719.7A CN201811572719A CN109635069B CN 109635069 B CN109635069 B CN 109635069B CN 201811572719 A CN201811572719 A CN 201811572719A CN 109635069 B CN109635069 B CN 109635069B
- Authority
- CN
- China
- Prior art keywords
- search condition
- information
- information entropy
- node
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:步骤1)接收搜索条件,根据搜索条件读取地理空间数据;步骤2)根据所述搜索条件构建基于信息熵的最优决策树;步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。提高了用户搜索地理空间数据的效率;提升了导航和定位的精度;能够满足行业应用广泛,客户群体复杂化、个性化和多元化的搜索需求;有效利用了多机集群分布式处理能力,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问。
Description
技术领域
本发明涉及大数据挖掘技术领域,具体而言,涉及一种基于信息熵的地理空间数据自组织方法。
背景技术
信息熵是1948年美国数据家Shannon基于信息论提出的,被用来反映人们对系统内部组态信息的缺乏程度或一个随机事件的不确定性的度量。所述信息熵的计算公式如下:
其中k为比例系数,所述信息熵用来表示信息源输出后每个信息提供的平均信息量,或信源输出前的平均不确定程度。即不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。信息熵不仅可以处理单个事件信息的度量问题,也可处理多维的联合信息、条件信息等复杂信息。
信息增益是以某特征划分数据集前后熵的差值,可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合划分效果的好坏,因此应优先使用信息增益最大的属性,这样降低了复杂度,也简化了后续逻辑。
地理空间数据具有数据量大、内容多样化、结构复杂和多维化等特征。影响地理空间数据快速检索、导航和定位的因素有很多,从外部看包括数据规模,处理器的运算能力、硬件架构等,从系统内部看,包括数据组织方式,数据IO类库的IO模式,数据检索方法选择等。随着计算机技术和3S技术的迅猛发展,多源异构海量数据和高效的硬件设备处理能力已经是必然结果,因此使用户能够快速的搜索、导航和定位目的数据,成为亟待解决的问题。
地理空间数据的组织是一套关于数据集中空间信息如何表达的机制,常用的空间数据的组织方式包括:
(1)空间数据分层存储,不同层次表达不同类别的信息;
(2)空间对象的描述分为属性要素和空间要素两种形式。其中,空间要素描述空间对象的空间位置及其关系;属性要素描述空间对象的意义及应用要求。
(3)空间要素(几何数据)使用特定的矢量图形格式存储于图形文件中,而属性要素可以存放于数据库中,也可以存放在文件中,二者通过索引文件相互对应。
由于地理空间数据的行业应用广泛,客户群体复杂,需求个性化、多元化,因此,不变的数据组织方式面对多变的搜索目的,会损失搜索的效率。
发明内容
本发明的目的在于解决现有技术中由于地理空间数据的行业应用广泛,客户群体复杂,以不变的数据组织方式面对多变的搜索目的,会损失搜索的效率和精度的问题。为实现上述目的,本发明提出一种基于信息熵的地理空间数据自组织方法,
用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:
步骤1)接收搜索条件,根据搜索条件读取地理空间数据;
步骤2)根据所述搜索条件构建基于信息熵的最优决策树;
步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理。
作为所述方法的一种改进,所述搜索条件的类型个数为n个:第1类搜索条件A1、…、第i类搜索条件Ai…第n类搜索条件An。
作为所述方法的一种改进,所述步骤2)具体包括:
步骤2-1)以每一类搜索条件为父节点;以当前搜索条件下的分支为子节点;
步骤2-2)判断所述父节点的子节点数目是否大于1个;如果子节点个数大于1,执行步骤2-3);否则,执行步骤2-8);
步骤2-3)计算当前父节点的信息熵;
步骤2-4)计算当前父节点下每个子节点的信息熵;
步骤2-5)计算父节点的信息熵与其每个子节点的信息熵的差值,作为搜索条件的信息增益;
步骤2-6)将得到的所有的信息增益进行排序;
步骤2-7)选择最大的信息增益作为搜索条件的分支属性;将对应的节点作为父节点,执行步骤2-2);
步骤2-8)得到最优决策树。
作为所述方法的一种改进,所述步骤2-3)具体包括:计算父节点的信息熵Ha:
其中:Pi为父节点的各类搜索条件百分比,ai为父节点的第i类搜索条件;a表示父节点的综合搜索条件。
作为所述方法的一种改进,所述步骤2-4)具体包括:以所述父节点的每一个分支作为子节点,计算每一个子节点的搜索条件标签的分布,加权平均,求得到子节点的信息熵Hb:
式中:Pi'为子节点的各类搜索条件的百分比;bi表示子节点的第i类搜索条件,b表示子节点的综合搜索条件。
作为所述方法的一种改进,所述搜索条件信息增益Hg:
Hg=Ha-Hb(7)。
作为所述方法的一种改进,所述步骤3)具体包括:
步骤3-1)根据地理空间数据的元数据信息,确定该地理空间数据的分类;
步骤3-2)查找与所述分类相匹配的搜索条件对应的最优决策树,找到该地理空间数据对应的节点进行存储,实现自组织存储和管理。
本发明的优势在于:
1、本发明的基于信息熵的地理空间数据自组织方法提高了用户搜索地理空间数据的效率;
2、本发明的基于信息熵的地理空间数据自组织方法提升了导航和定位的精度;
3、本发明的基于信息熵的地理空间数据自组织方法能够满足行业应用广泛,客户群体复杂化、个性化和多元化的搜索需求;
4、本发明的基于信息熵的地理空间数据自组织方法有效利用了多机集群分布式处理能力,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问。
附图说明
图1为本发明基于信息熵的地理空间数据自组织方法的示意图;
图2为本发明基于信息熵的地理空间数据自组织方法的流程图。
具体实施方式
本发明提出一种基于信息熵的地理空间数据自组织方法,采用信息论中信息熵的思想,构造基于信息熵的最优决策树模型,能够提高地理空间数据搜索的速度和准确度。
本发明应用于时空信息云服务平台的数据集市中,实现对所管理的海量异构地理空间数据进行自动化多层次聚合分类的功能,是用户手动定义数据分类的一个有力补充。
在实际应用中,本发明也体现了随着数据的不断更新,数据的组织也不断朝着最优的方向演进,使得用户在多源异构海量数据中导航、定位和识别特定数据时所需的操作大为减少,并且自动化组织的特性也免除了数据目录手动维护的工作,用户可以选择保存个性的搜索条件,便于用户在下次应用时能够基于上次自组织的结果,快速定位到目标数据,进行数据的浏览,导航和下载等。
如图1所示,本发明采用计算机集群系统作为硬件处理平台,采用高速存储系统网络与相关服务,实现TB级的海量地理空间数据存储、管理和访问,有效利用多机集群分布式处理能力。
所述计算机集群系统是一种刀片式服务器系统,它的硬件系统主要包括四大部分:刀片服务器,磁盘阵列,工作站和万兆以太网交换机。
所述客户端(工作站)负责管理和分发任务;
所述刀片服务器根据接收到的任务,从磁盘阵列取出影像进行处理,然后将结果存入磁盘阵列。
信息熵是一个值,利用信息熵这个值对搜索条件的标签进行有效的安排;每个数据在入库的时候都会有元数据信息;通过元数据信息判断具体一个数据属于哪个搜索条件。后台数据通过前端的搜索条件,利用信息熵的方法进行自组织后存储。
本发明首先在客户端(工作站)根据客户的搜索条件向刀片服务器发出指令,刀片服务器根据接收到的指令,从磁盘阵列中取出数据,根据每一类搜索条件分别计算父节点搜索条件的信息熵,这个信息熵只是简单的求取搜索条件标签的分布,并按照公式求解信息熵。
然后再选用所述父节点搜索条件的某一个属性作为分支属性后,需要计算每一个子分支中的搜索条件标签的分布,计算每个子条件的信息熵,加权平均(期望),求得总的信息熵。
最后计算前后两个信息熵的差值,即计算信息增益,选择最大的增益属性作为分支属性。一直递归下去,对每一个子条件套用上述方法。直到所有的条件都被归类于某个叶节点,即不可再分为止,从而确定最优决策树模型。
地理空间数据根据最优决策树实现自组织,并把结果快速呈现给客户端,供客户浏览、导航和定位。
与现有技术相比,本发明旨在解决用户在检索大量的地理空间数据的效率问题。根据地理空间数据的多种特性,计算不同搜索条件的信息熵,求解前后两个信息熵的差值,即求得信息增益,选择最大的信息增益属性作为分支属性,通过不断迭代,最后达到最优决策树模型和地理空间数据自组织方案。
具体实施方式如下:
实施例
S1、用户在客户端输入搜索条件,由于地理空间数据的复杂性,设置多个可供用户选择的条件,包括数据格式、研究区域、时间范围、云量和比例尺/空间分辨率等;
S2、客户端把搜索条件以指令的形式发送给刀片服务器,所述刀片服务器从磁盘阵列中取出地理空间数据进行模型计算;
S3、首先根据Shannon熵公式构建搜索条件信息熵H,所述搜索条件的类型个数为n个:第1类搜索条件A1、…、第i类搜索条件Ai…第n类搜索条件An;
如图2所示,以每一类搜索条件为父节点;计算父节点的信息熵Ha:
其中:Pi为父节点的各类搜索条件百分比,ai为父节点的第i类搜索条件;a表示父节点的综合搜索条件。
从公式3)中可以看出搜索条件类型越多,类型间百分比差越小,熵值越大。父节点信息熵Ha计算完毕,再计算下一层子节点信息熵Hb;
以所述父节点的每一个分支作为子节点,计算每一个子节点的搜索条件标签的分布,加权平均,求得到子节点的信息熵Hb:
式中:Pi'为子节点的各类搜索条件的百分比;bi表示子节点的第i类搜索条件,b表示子节点的综合搜索条件。
S4、根据父节点与子节点信息熵的差值计算得出信息增益Hg:
Hg=Ha-Hb (7)
式中:Hg是信息增益,Ha是父节点的信息熵,Hb是子节点的信息熵,选取上述信息增益最大的方案作为本次分类的方案。
S5、层层递归计算,直到所有的搜索条件都被归类于某个叶节点,即不可再分为止,对于组织好的数据返回客户端供用户搜索、导航和定位。
通过信息论中信息熵可以区分不同信息源包含不同信息量的思想,构造基于信息熵的最优决策树模型,实现地理空间数据自组织方法,解决地理空间数据快速检索的问题。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于信息熵的地理空间数据自组织方法,用于实现时空信息云服务平台的地理空间数据的自组织存储;所述方法包括:
步骤1)接收搜索条件,根据搜索条件读取地理空间数据;
步骤2)根据所述搜索条件构建基于信息熵的最优决策树;
步骤3)将地理空间数据按照最优决策树模型进行分类,实现自组织存储和管理;
所述步骤2)具体包括:
步骤2-1)以每一类搜索条件为父节点;以当前搜索条件下的分支为子节点;
步骤2-2)判断所述父节点的子节点数目是否大于1个;如果子节点个数大于1,执行步骤2-3);否则,执行步骤2-8);
步骤2-3)计算当前父节点的信息熵;
步骤2-4)计算当前父节点下每个子节点的信息熵;
步骤2-5)计算父节点的信息熵与其每个子节点的信息熵的差值,作为搜索条件的信息增益;
步骤2-6)将得到的所有的信息增益进行排序;
步骤2-7)选择最大的信息增益作为搜索条件的分支属性;将对应的节点作为父节点,执行步骤2-2);
步骤2-8)得到最优决策树;
所述步骤2-3)具体包括:计算父节点的信息熵Ha:
其中:Pi为父节点的各类搜索条件百分比,ai为父节点的第i类搜索条件;a表示父节点的综合搜索条件;
所述步骤2-4)具体包括:以所述父节点的每一个分支作为子节点,计算每一个子节点的搜索条件标签的分布,加权平均,求得到子节点的信息熵Hb:
式中:Pi'为子节点的各类搜索条件的百分比;bi表示子节点的第i类搜索条件,b表示子节点的综合搜索条件;
所述搜索条件信息增益Hg:
Hg=Ha-Hb (7)。
2.根据权利要求1所述的基于信息熵的地理空间数据自组织方法,其特征在于,所述搜索条件的类型个数为n个:第1类搜索条件A1、…、第i类搜索条件Ai…第n类搜索条件An。
3.根据权利要求1所述的基于信息熵的地理空间数据自组织方法,其特征在于,所述步骤3)具体包括:
步骤3-1)根据地理空间数据的元数据信息,确定该地理空间数据的分类;
步骤3-2)查找与所述分类相匹配的搜索条件对应的最优决策树,找到该地理空间数据对应的节点进行存储,实现自组织存储和管理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811572719.7A CN109635069B (zh) | 2018-12-21 | 2018-12-21 | 一种基于信息熵的地理空间数据自组织方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811572719.7A CN109635069B (zh) | 2018-12-21 | 2018-12-21 | 一种基于信息熵的地理空间数据自组织方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635069A CN109635069A (zh) | 2019-04-16 |
CN109635069B true CN109635069B (zh) | 2021-08-10 |
Family
ID=66076406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811572719.7A Active CN109635069B (zh) | 2018-12-21 | 2018-12-21 | 一种基于信息熵的地理空间数据自组织方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635069B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241056B (zh) * | 2019-12-31 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111428022B (zh) * | 2020-03-25 | 2023-06-02 | 北京明略软件系统有限公司 | 一种信息检索方法、装置、及存储介质 |
CN111898779B (zh) * | 2020-06-09 | 2024-04-30 | 东南大学 | 一种用于个性化服务需求的组织管理方法及系统 |
CN113313470B (zh) * | 2021-06-10 | 2023-06-09 | 郑州科技学院 | 一种基于大数据的就业类型评估方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789966B1 (ko) * | 2006-11-22 | 2008-01-02 | 인하대학교 산학협력단 | 공간데이터 분포를 고려한 공간 엔트로피 기반의 의사결정트리 구축방법 |
CN105528437A (zh) * | 2015-12-17 | 2016-04-27 | 浙江大学 | 一种基于结构化文本知识提取的问答系统构建方法 |
CN106845559A (zh) * | 2017-02-28 | 2017-06-13 | 山东师范大学 | 顾及poi数据空间异质性的地表覆盖验证方法及系统 |
CN108108455A (zh) * | 2017-12-28 | 2018-06-01 | 广东欧珀移动通信有限公司 | 目的地的推送方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096647A (zh) * | 2016-06-08 | 2016-11-09 | 哈尔滨工程大学 | 一种基于决策树优化率的rlid3数据分类方法 |
CN106611284A (zh) * | 2016-06-20 | 2017-05-03 | 四川用联信息技术有限公司 | 一种哈夫曼物料采购决策算法 |
-
2018
- 2018-12-21 CN CN201811572719.7A patent/CN109635069B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100789966B1 (ko) * | 2006-11-22 | 2008-01-02 | 인하대학교 산학협력단 | 공간데이터 분포를 고려한 공간 엔트로피 기반의 의사결정트리 구축방법 |
CN105528437A (zh) * | 2015-12-17 | 2016-04-27 | 浙江大学 | 一种基于结构化文本知识提取的问答系统构建方法 |
CN106845559A (zh) * | 2017-02-28 | 2017-06-13 | 山东师范大学 | 顾及poi数据空间异质性的地表覆盖验证方法及系统 |
CN108108455A (zh) * | 2017-12-28 | 2018-06-01 | 广东欧珀移动通信有限公司 | 目的地的推送方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109635069A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635069B (zh) | 一种基于信息熵的地理空间数据自组织方法 | |
US20200073876A1 (en) | Scalable indexing architecture | |
CN103116639B (zh) | 基于用户-物品二分图模型的物品推荐方法及系统 | |
US11520760B2 (en) | System and method for providing bottom-up aggregation in a multidimensional database environment | |
CN102915347B (zh) | 一种分布式数据流聚类方法及系统 | |
US20190102446A1 (en) | System and method for load, aggregate and batch calculation in one scan in a multidimensional database environment | |
US20070226209A1 (en) | Methods and Apparatus for Clustering Evolving Data Streams Through Online and Offline Components | |
CN107292186A (zh) | 一种基于随机森林的模型训练方法和装置 | |
US11755284B2 (en) | Methods and systems for improved data retrieval and sorting | |
CZ20001552A3 (cs) | Počítačový způsob reprezentace vícerozměrných dat, zařízení pro uložení programu a počítačový program | |
US11442915B2 (en) | Methods and systems for extracting and visualizing patterns in large-scale data sets | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
CN112364093B (zh) | 一种学习型大数据可视化方法及系统 | |
US11599576B2 (en) | Index machine | |
KR20220070482A (ko) | 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품 | |
CN110956213A (zh) | 遥感影像特征库生成、遥感影像检索方法及装置 | |
US11768857B2 (en) | Methods and systems for indexlet based aggregation | |
Shakhovska et al. | Big Data Model" Entity and Features" | |
Lawal et al. | An indexed non-probability skyline query processing framework for uncertain data | |
CN109255004A (zh) | 面向地理空间数据的精度保证的在线交互式可视化方法 | |
WO2009006028A2 (en) | Explaining changes in measures thru data mining | |
Soussi | Big-Parallel-ETL: New ETL for Multidimensional NoSQL Graph Oriented Data | |
CN113779370B (zh) | 一种地址检索方法和装置 | |
CN104111947A (zh) | 一种遥感图像的检索方法 | |
US20030018623A1 (en) | System and method of query processing of time variant objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100070 Building 5, area 17, 188 South 4th Ring Road West, Fengtai District, Beijing Patentee after: Aerospace Science and Technology (Beijing) Space Information Application Co.,Ltd. Address before: 100070 Building 5, area 17, 188 South 4th Ring Road West, Fengtai District, Beijing Patentee before: BEIJING AEROSPACE TITAN TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |