CN111625519B - 一种基于数据复杂度的空间矢量数据的建模方法 - Google Patents

一种基于数据复杂度的空间矢量数据的建模方法 Download PDF

Info

Publication number
CN111625519B
CN111625519B CN202010467727.6A CN202010467727A CN111625519B CN 111625519 B CN111625519 B CN 111625519B CN 202010467727 A CN202010467727 A CN 202010467727A CN 111625519 B CN111625519 B CN 111625519B
Authority
CN
China
Prior art keywords
data
spatial
value
phi
uniformity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010467727.6A
Other languages
English (en)
Other versions
CN111625519A (zh
Inventor
杨军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010467727.6A priority Critical patent/CN111625519B/zh
Publication of CN111625519A publication Critical patent/CN111625519A/zh
Application granted granted Critical
Publication of CN111625519B publication Critical patent/CN111625519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据复杂度的空间矢量数据的建模方法,包括以下步骤:建立空间矢量数据集;计算空间矢量数据均匀度,根据公式PH=ΣNi/J和PHi=Ni/PH得到空间对象偏离值,发现原始数据的不均匀性,数据量总数与分布式计算节点数量匹配性矛盾;分割处理,遍历矢量数据集,若PHi>M,M为初始值(M=1.00),则使用Ni=F(PHi),(F(PHi):空间对象分割算法)和预处理软件对该空间对象进行水平分布,分割处理,提升数据均匀度;建立分布式空间数据库;常用指标效率对比测试。本发明通过我们提出的空间矢量数据均匀度模型,对原始数据颗粒度进行重新划分,达到分布式计算所需的合理均匀度,避免木桶效应,降低数据传输(广播)时间,大大提高计算效率。

Description

一种基于数据复杂度的空间矢量数据的建模方法
技术领域
本发明涉及空间矢量数据计算技术领域,具体涉及一种基于数据复杂度的空间矢量数据的建模方法。
背景技术
分布式数据库将集中存储的数据分布到若干节点上存储,并通过并行计算,同时完成若干节点上数据的处理,解决集中式架构I/O吞吐瓶颈和单点计算带来的效率低下问题。在非空间信息数据库中,每条记录的各个字段由一些数字和文本构成,数据量比较均匀,计算效率非常高,而且计算效率与节点基本成线性比例提升,因此分布式架构成为目前大数据计算的主流技术。
由于所有信息都具有时空属性,因此地理空间信息作为连接所有信息的天然载体,在大数据时代具有重要作用,目前地理空间大数据也广泛应用分布式架构进行巨量地理空间矢量数据的高性能计算。为了便于管理和应用,地理空间矢量数据也采用面向对象的数据建库模式,即一个空间对象在库中作为一条记录的某个字段来存储。但空间对象本身具有信息颗粒度极不均匀的问题,例如POI、控制点等点对象,数据量一般只有几个字节;河流、等高线等线对象,行政界线、地类图斑等面对象,数据量从0.1K到上百兆不等,但他们在数据库里都是一条记录。对于这些数据量差异巨大的对象,在分布式架构下的数据传输/广播和分布式并行计算都面临严重的木桶效应问题(整体计算效率由最慢的那个计算节点决定)。即由于少数对象数据量特别巨大,导致与其相关的计算节点上数据传输和计算耗时特别大,根据分布式并行计算的原理,其他已完成传输和计算的节点,必须等待这些节点完成计算才能统一汇总,完成整个计算任务,空间大数据计算属于全新技术领域,上述问题都是我们在理论推导和试验中发现的,未见类似报道。
发明内容
本发明的目的在于提供一种基于数据复杂度的空间矢量数据的建模方法,用以解决空间矢量数据易产生木桶效应,降低数据传输时间,数据计算分析效率较低的问题。
为解决上述技术问题,本发明采用了以下方案:
一种基于数据复杂度的空间矢量数据的建模方法,包括以下步骤:
S1:建立空间矢量数据集;
S2:计算空间矢量数据均匀度,首先根据公式PH=ΣNi/J(PH:平均均匀度,Ni:第i个空间对象复杂度,Ni为空间矢量数据本身属性,本领域技术人员可直接得到Ni值,J:空间对象数量,本领域技术人员可直接得到)计算得到原始数据平均均匀度值,然后将PH值代入公式PHi=Ni/PH(Ni:第i个空间对象复杂度,PHi:第i个空间对象偏离值)计算得到原始数据空间对象偏离值,通过上述原始数据复杂度计算,发现原始数据的不均匀性;
S3:预设一个M初始值(M=1.00);
S4:分割处理,遍历矢量数据集,若PHi>M,则使用Ni=F(PHi),(F(PHi):空间对象分割算法)和预处理软件对该对空间对象进行分割处理,提升数据均匀度;
S5:建立分布式数据库;
S6:常用指标效率对比测试,若对比测试效率提升值不显著,则返回步骤S4,调整M值大小,重新对原始数据进行分割处理,若对比测试效率提升值显著,对比测试结束,原始数据重新分割处理,是为找到一个合理的M值,使得原始数据达到分布式计算所需的合理均匀度,避免木桶效应,降低数据传输时间,大大提高计算效率。
优选的,所述步骤S6中,用三个以上区域或三种以上不同类型空间数据,对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空间数据库进行应用对比测试,验证本发明是否提高空间数据查询效率、空间数据统计分析效率、空间数据处理效率。
优选的,所述对比测试效率提升值小于10%为效率提高不显著,就需要重新对原始数据进行分割处理,若对比测试效率提升值大于10%为效率提高显著,此时的M值为一个合理值,对比测试结束,原始数据的均匀度也符合要求。
本发明具有的有益效果:
1、通过提出的空间矢量数据均匀度模型,对原始数据颗粒度进行重新划分,达到分布式计算所需的合理均匀度,避免木桶效应,降低数据传输(广播)时间,大大提高计算效率,结合物理架构调整,可以将全国范围上的复杂空间计算时间控制在几秒秒内完成,改变大范围、长距离空间计算需要几十分钟才能完成的现状。
附图说明
图1为本发明的流程原理示意图;
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖向”、“纵向”、“侧向”、“水平”、“内”、“外”、“前”、“后”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“开有”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例
如图1所示,一种基于数据复杂度的空间矢量数据的建模方法,包括以下步骤:
S1:建立空间矢量数据集;
S2:计算空间矢量数据均匀度,首先根据公式PH=ΣNi/J(PH:平均均匀度,Ni:第i个空间对象复杂度,为空间矢量数据本身属性,本领域技术人员可直接得到,J:空间对象数量,本领域技术人员可直接得到)计算得到原始数据平均均匀度值,然后将PH值代入公式PHi=Ni/PH(Ni:第i个空间对象复杂度,PHi:第i个空间对象偏离值)计算得到原始数据空间对象偏离值,通过上述原始数据复杂度计算,发现原始数据的不均匀性。
S3:预设一个M初始值,(M=1.00);
S4:分割处理,遍历矢量数据集,若PHi>M,则使用Ni=F(PHi),(F(PHi):空间对象分割算法)和预处理软件对该空间对象进行水平分布,分割处理,提升数据均匀度。
S5:建立分布式空间数据库;
S6:常用指标效率对比测试,用三个以上区域或三种以上不同类型空间数据,对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空间数据库进行应用对比测试,验证本发明是否提高空间数据查询效率、空间数据统计分析效率、空间数据处理效率;常用指标效率对比测试效率提升值若小于10%为效率提高不显著,则返回对原始数据进行重新分割处理,并对M值大小做调整,如此重复的分割、对比计算,找到一个合理的M值,使得原始数据到达分布式计算所需的合理均匀度,能大幅度提升分布式架构下空间计算效率,有效避免木桶效应,降低数据传输时间,大大提高计算效率,对比测试效率提升值若大于10%为效率提高显著,对比结束,确定M值为合理值,此时原始数据的均匀度符合要求。
以实际测试数据为例,将某区地类图斑矢量数据入库,约有345991条数据,数据总节点数为44395347,然后根据公式PH=ΣNi/J,计算出矢量数据平均均匀度约为128,并根据公式PHi=Ni/PH计算每条空间矢量数据的偏离值,第一条空间数据的Ni为5,则其Phi=5/128,明显其值小于初始值M=1,该条数据不用分割,第二数据的Ni为328,则其Phi=2.56>M,该条数据需要分割,依次计算,所有空间数据分割完后得到48450544条数据,然后建立分布式空间数据库;最后进行空间分析效率测试,结果发现与原始数据的对比提升效率值小于10%,则不显著,调整M值。将空间数据的偏离值倒序排序,取得前5%数据的最小偏离值作为M值(即会分割5%的数据),重新分割处理,发现空间分析效率对比大于10%,显著提升(提升4倍多),建模完成。
在实际应用中,再结合物理架构调整,本发明可以将全国范围上的复杂空间计算时间控制在较短时间内完成,改变大范围、长距离空间计算需要几十分钟才能完成的现状,这将大大扩展地理信息应用范围和价值,例如智慧城市、数字城市的重要基础平台就是地理信息公共服务平台,但一直没有体现出“重要基础平台”的作用,其重要原因就是空间分析耗时太长,无法提供在线服务,而空间分析服务正是地理信息公共服务平台的核心价值;再如应急处置中,如果空间分析能快速完成,将避免巨大的生命财产损失。
本发明的原理:首先通过上述实施例中的相应公式,计算出空间矢量数据复杂度,包括原始数据平均均匀度和空间对象偏离值,发现原始数据的不均匀性,其次通过本发明提出的算法模型,利用在此基础上开发的预处理软件,对原始数据分割处理,原始数据颗粒度重新划分,提升数据均匀度,使之达到分布式计算所需的合理均匀度,避免木桶效应;然后建立分布式数据库,最后进行常用指标效率对比测试,用三个以上区域或三种以上不同类型空间数据,对按常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空间数据库进行对比测试,用于验证本发明是否提高空间数据查询效率、空间数据统计分析效率、空间数据处理效率,常用指标效率对比测试效率提升值若小于10%为效率提高不显著,则返回对数据重新分割处理,并对M值大小做调整,如此往复的分割、对比,找到一个合理的M值,若对比测试效率提升值若大于10%为效率提高显著,则对比结束,M值为合理值。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (2)

1.一种基于数据复杂度的空间矢量数据的建模方法,其特征在于,包括以下步骤:
步骤S1:建立空间矢量数据集;
步骤S2:计算空间矢量数据均匀度,根据公式PH=ΣNi/J得到平均均匀度值,PH:平均均匀度,Ni:第i个空间对象复杂度,J:空间对象数量;根据公式PHi=Ni/PH得到第i个空间对象偏离值,Ni:第i个空间对象复杂度,PHi:第i个空间对象偏离值,发现原始数据的不均匀性;
步骤S3:预设一个M值,M=1.00;
步骤S4:分割处理:遍历矢量数据集,若PHi>M,使用Ni=F(PHi),F(PHi):空间对象分割算法和预处理软件对该空间对象进行分割处理,提升数据均匀度;
步骤S5:建立分布式空间数据库;
步骤S6:常用指标效率对比测试,若对比测试效率提升值不显著,则返回步骤S4,调整M值大小,重新对原始数据进行分割处理,对比测试效率提升值小于10%为效率提高不显著,对比测试效率提升值大于10%为效率提高显著,若对比测试效率提升值显著,对比测试结束,数据模型建立成功。
2.根据权利要求1所述的一种基于数据复杂度的空间矢量数据的建模方法,其特征在于,所述步骤S6中,用三个以上区域或三种以上不同类型空间数据,对常规空间数据建立的分布式空间数据库和按分布式空间矢量数据库模型处理后建立的分布式空间数据库进行应用对比测试,用于验证本发明是否提高空间数据查询效率、空间数据统计分析效率、空间数据处理效率。
CN202010467727.6A 2020-05-28 2020-05-28 一种基于数据复杂度的空间矢量数据的建模方法 Active CN111625519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467727.6A CN111625519B (zh) 2020-05-28 2020-05-28 一种基于数据复杂度的空间矢量数据的建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467727.6A CN111625519B (zh) 2020-05-28 2020-05-28 一种基于数据复杂度的空间矢量数据的建模方法

Publications (2)

Publication Number Publication Date
CN111625519A CN111625519A (zh) 2020-09-04
CN111625519B true CN111625519B (zh) 2021-03-23

Family

ID=72272889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467727.6A Active CN111625519B (zh) 2020-05-28 2020-05-28 一种基于数据复杂度的空间矢量数据的建模方法

Country Status (1)

Country Link
CN (1) CN111625519B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324896A (zh) * 2008-07-24 2008-12-17 中国科学院计算技术研究所 一种矢量数据的存储方法、查询方法和管理系统
CN101609465A (zh) * 2009-07-16 2009-12-23 浙江大学 一种空间矢量数据的快速转换方法
CN101944132A (zh) * 2010-09-30 2011-01-12 武汉大学 一种瓦片地图数据组织方法
CN102609535A (zh) * 2012-02-16 2012-07-25 上海同岩土木工程科技有限公司 一种gis图层点数据叠加方法
CN104182472A (zh) * 2014-07-29 2014-12-03 浙江大学 一种基于内存数据库Redis的土地利用矢量数据存储方法
CN107766471A (zh) * 2017-09-27 2018-03-06 中国农业大学 一种多源数据的组织管理方法与装置
CN108133044A (zh) * 2018-01-12 2018-06-08 适普远景遥感信息技术(北京)有限公司 基于属性分离的空间大数据三维可视化方法及平台
CN108830554A (zh) * 2018-05-29 2018-11-16 农业部规划设计研究院 基于任务模型的数据成果信息质量智能检测方法和系统
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
DE102019120880A1 (de) * 2018-08-03 2020-02-06 Ford Global Technologies, Llc End-to-end-deep-generative-modell für simultane lokalisierung und abbildung
CN110853042A (zh) * 2019-11-14 2020-02-28 空间信息产业发展股份有限公司 一种基于图像识别的涉密矢量图形自动分割系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268590B2 (en) * 2015-02-23 2019-04-23 Netflix, Inc. Efficient computer-implemented techniques for managing graphics memory
US10664757B2 (en) * 2015-09-16 2020-05-26 International Business Machines Corporation Cognitive operations based on empirically constructed knowledge graphs
WO2018011631A2 (en) * 2016-07-14 2018-01-18 Insightec, Ltd. Precedent-based ultrasound focusing
US10965517B2 (en) * 2017-08-11 2021-03-30 Microsoft Technology Licensing, Llc Correlation across non-logging components
CN110650104B (zh) * 2019-03-26 2021-12-24 长春通视光电技术有限公司 改进的基于fft域稀疏信道估计方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101324896A (zh) * 2008-07-24 2008-12-17 中国科学院计算技术研究所 一种矢量数据的存储方法、查询方法和管理系统
CN101609465A (zh) * 2009-07-16 2009-12-23 浙江大学 一种空间矢量数据的快速转换方法
CN101944132A (zh) * 2010-09-30 2011-01-12 武汉大学 一种瓦片地图数据组织方法
CN102609535A (zh) * 2012-02-16 2012-07-25 上海同岩土木工程科技有限公司 一种gis图层点数据叠加方法
CN104182472A (zh) * 2014-07-29 2014-12-03 浙江大学 一种基于内存数据库Redis的土地利用矢量数据存储方法
CN107766471A (zh) * 2017-09-27 2018-03-06 中国农业大学 一种多源数据的组织管理方法与装置
CN108133044A (zh) * 2018-01-12 2018-06-08 适普远景遥感信息技术(北京)有限公司 基于属性分离的空间大数据三维可视化方法及平台
CN108830554A (zh) * 2018-05-29 2018-11-16 农业部规划设计研究院 基于任务模型的数据成果信息质量智能检测方法和系统
DE102019120880A1 (de) * 2018-08-03 2020-02-06 Ford Global Technologies, Llc End-to-end-deep-generative-modell für simultane lokalisierung und abbildung
CN110059067A (zh) * 2019-04-04 2019-07-26 南京南瑞水利水电科技有限公司 一种水利空间矢量大数据存储管理方法
CN110853042A (zh) * 2019-11-14 2020-02-28 空间信息产业发展股份有限公司 一种基于图像识别的涉密矢量图形自动分割系统及方法

Also Published As

Publication number Publication date
CN111625519A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111325837B (zh) 一种基于地面三维激光点云的边坡dem生成方法
CN106708989A (zh) 基于空间时序数据流应用的Skyline查询方法
CN106815842A (zh) 一种改进的基于超像素的图像显著性检测方法
CN107633522A (zh) 基于局部相似性活动轮廓模型的脑部图像分割方法和系统
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN111552813A (zh) 一种基于电网全业务数据的电力知识图谱构建方法
CN113781667A (zh) 三维结构简化重建方法、装置、计算机设备和存储介质
CN110956223A (zh) 一种复杂网络图的概要方法及其在蛋白质关系网中的应用
CN108898244A (zh) 一种耦合多源要素的数字标牌位置推荐方法
CN103544712A (zh) 一种利用先验知识的人类外侧膝状体自动分割方法
CN113326343B (zh) 基于多级网格和文件索引的路网数据存储方法及系统
CN111625519B (zh) 一种基于数据复杂度的空间矢量数据的建模方法
CN108510010A (zh) 一种基于预筛选的密度峰值聚类方法及系统
CN117078312B (zh) 一种基于人工智能的广告投放管理方法及系统
CN116720632B (zh) 基于gis和bim的工程建设智能管理方法及系统
CN101021868A (zh) 一种基于对象存储的地形数据存储方法
CN104866687A (zh) 支持stl数据源的动态空间索引构建方法
CN116993555A (zh) 国土空间规划重点区域识别的分区方法、系统及存储介质
CN116467540A (zh) 一种基于HBase的海量空间数据快速可视化方法
CN115051363B (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN116433872A (zh) 顾及球面等积格网等距变形特征的顶点定位方法和系统
CN116522381A (zh) 一种基于差分隐私的非平衡位置数据的发布方法
CN107194994A (zh) 一种无标定曲面点云数据重建圆柱面的方法及装置
CN116010831A (zh) 一种基于潜在决策结果的组合聚类场景缩减方法及系统
WO2022116326A1 (zh) 交通信息处理方法、装置、终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant