CN116414935A - 一种基于Elastic Search的分布式搜索空间矢量数据的方法 - Google Patents

一种基于Elastic Search的分布式搜索空间矢量数据的方法 Download PDF

Info

Publication number
CN116414935A
CN116414935A CN202310296227.4A CN202310296227A CN116414935A CN 116414935 A CN116414935 A CN 116414935A CN 202310296227 A CN202310296227 A CN 202310296227A CN 116414935 A CN116414935 A CN 116414935A
Authority
CN
China
Prior art keywords
data
space
service
search
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310296227.4A
Other languages
English (en)
Inventor
郭振
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Langchao New Infrastructure Technology Co ltd
Original Assignee
Shandong Langchao New Infrastructure Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Langchao New Infrastructure Technology Co ltd filed Critical Shandong Langchao New Infrastructure Technology Co ltd
Priority to CN202310296227.4A priority Critical patent/CN116414935A/zh
Publication of CN116414935A publication Critical patent/CN116414935A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于Elastic Search的分布式搜索空间矢量数据的方法,属于大数据和空间矢量技术领域,本发明结合Elastic Search的快速搜索和HBas的存储方式,将空间数据和服务重新组合存储,不仅能对空间数据属性进行快速检索,而且能使用空间数据展示技术对数据服务进行图上展现定位。

Description

一种基于Elastic Search的分布式搜索空间矢量数据的方法
技术领域
本发明涉及大数据和空间矢量技术领域,尤其涉及一种基于Elastic Search的分布式搜索空间矢量数据的方法。
背景技术
目前,大数据和云计算技术日渐成为发展的趋势,传统的空间数据的存储使用发展已经远远不能满足某些领域的需求,当前主流的空间数据的存储使用文件存储或者对象存储的方式,而当对海量空间数据的分析使用原有的技术无法满足要求,数据量越大,搜索结果执行效率越低。
通过将大数据技术和空间矢量技术两者技术的结合,优势互补。
发明内容
为了克服现有的单纯使用矢量空间数据服务搜索数据效率低下的问题,本发明提供了一种基于Elastic Search的分布式搜索空间矢量数据的方法。结合Elastic Search的快速搜索和HBas的存储方式,将空间数据和服务重新组合存储,不仅能对空间数据属性进行快速检索,而且能使用空间数据展示技术对数据服务进行图上展现定位。
本发明的技术方案是:
一种基于Elastic Search的分布式搜索空间矢量数据的方法,基于空间矢量数据服务和Elastic Search数据建模,快速检索空间数据属性信息,找出大量空间矢量数据图层中与关键词相关的数据,并可基于结果分析出矢量数据之间的关联关系。
进一步的
所述的空间数据包括:高程线数据、SHP数据、MDB数据以及GDB数据。规定了高程线的字段与高程字段之间的对应关系。
所述的数据建模方法:将空间矢量数据入库到大数据库中,在入库时将数据服务地址与属性关联挂接,在检索到相关数据时能够同时获取到服务地址,达到空间数据可视化效果。
进一步的
所述的Elasticsearch分词库设置的方法是:“extra_address.dic”为添加的分词内容,同一级别目录下放置extra_address.dic,这里添加的是路名等词语。重启ES,测试分词,是否成功。新建索引Index,Index后不可有多个type,所以Index在这里对应数据表,默认type为_doc。查看Index当前总数,以判断Index是否构建完成。
再进一步的,
将空间矢量数据抽取到HBas中,在抽取过程中对每一条数据额外添加属性和Key值,说明该条矢量数据的名称、服务地址,并将点、线、面的空间属性转换为WKT字符串,存储到属性中,同时在存储是依据矢量数据的人工分类,划分为片,在搜索时,采用ElasticSearch自身的属性检索功能,将需要的相关的关键字结果搜索出来,调用空间分析的服务接口,对搜索结果的服务加载并在地图上展现和定位。
进行全文检索,查询需要搜索的空间数据,并将返回的空间数据在地图中进行可视化渲染展示,实现海量数据快速检索的目的。
本发明的有益效果是
传统的对空间数据搜索只能对单一图层的数据进行搜索,且对于大数据量的图层检索效率极低,无法满足大数据快速检索的需求,本方法基于Elastic Search但在其之上,将数据通过建模组织,可以快速搜索出与关键词相关的空间数据,并能对空间数据之间的关联进行分析,对国土领域的空间数据的全生命周期进行分析管理,挖掘有用信息提供给决策者。
附图说明
图1是本发明的工作架构示意图;
图2是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于Elastic Search的分布式搜索空间矢量数据的方法,基于Hadoop、KUDU、HBase和Zookeeper实现的,能够对空间数据进行快速的查询获取,并能够对空间数据进行地图展现和空间定位,以满足空间数据快速获取的需求。
将空间矢量数据抽取到HBas中,在抽取过程中对每一条数据额外添加属性和Key值,说明该条矢量数据的名称、服务地址,并将点、线、面的空间属性转换为WKT字符串,存储到属性中,同时在存储是依据矢量数据的人工分类,划分为片,在搜索时,采用ElasticSearch自身的属性检索功能,将需要的相关的关键字结果搜索出来,调用空间分析的服务接口,对搜索结果的服务加载并在地图上展现和定位。下面会对具体的步骤进行详细说明:
1)搭建Hadoop环境
准备奇数台Linux系统服务器,网络设置在同一局域网内,修改其修改Hostname,关闭所有服务器的防火墙,关闭所有机器的selinux,安装Java JDK并设置环境变量。Hadoop本地模式部署,运行验证MapReduce程序,配置、格式化、启动HDFS,配置、启动YARN,运行MapReduce Job。
2)搭建Elasticsearch环境
下载Elasticsearch安装包和IK分词器安装包版本要是匹配的,安装Java JDK环境,解压安装Elasticsearch和IK分词器,配置Elasticsearch,安装node.js,下载并配置elasticsearch-head,安装grunt环境。
3)数据格式
在系统中的“数据格式”选择包括空间数据通用数据格式SHP格式,有一定数据量限制的MDB数据格式,还有没有数据量限制的GDB数据格式。
SHP数据格式:SHP全称“ESRI ShapeFile”,是美国环境系统研究所公司开发的一种空间数据开放格式,是一种矢量图形格式,该格式文件主要用于描述几何体对象(点,折线与多边形),能够保存几何图形的位置及相关属性。
ShapeFile文件指的是一种文件存储的方法,实际上该种文件格式是由多个文件组成的。其中,要组成一个ShapeFile,有三个文件是必不可少的,它们分别是".shp",".shx"与".dbf"文件。表示同一数据的一组文件其文件名前缀应该相同。例如,存储一个关于湖的几何与属性数据,就必须有lake.shp,lake.shx与lake.dbf三个文件。而其中“真正”的ShapeFile的后缀为shp,然而仅有这个文件数据是不完整的,必须要把其他两个附带上才能构成一组完整的地理数据。除了这三个必须的文件以外,还有八个可选的文件,使用它们可以增强空间数据的表达能力。所有的文件名都必须遵循MS DOS的8.3文件名标准(文件前缀名8个字符,后缀名3个字符,如shapefile.shp),以方便与一些老的应用程序保持兼容性,尽管现在许多新的程序都能够支持长文件名。此外,所有的文件都必须位于同一个目录之中。
ShapeFile文件中必须的文件:
·.shp—图形格式,用于保存元素的几何实体;
·.shx—图形索引格式。几何体位置索引,记录每一个几何体在shp文件之中的位置,能够加快向前或向后搜索一个几何体的效率;
·.dbf—属性数据格式,以dBase III+的数据表格式存储每个几何形状的属性数据。
其他可选的文件:
·.prj—投帧式,用于保存地理坐标系统与投影信息,是一个存储well-knowntext投影描述符的文本文件;
·.sbn and.sbx—几何体的空间索引;
·.fbn and.fbx—只读的Shapefiles的几何体的空间索引;
·.ain and.aih—列表中活动字段的属性索引;
·.ixs—可读写Shapefile文件的地理编码索引;
·.mxs—可读写Shapefile文件的地理编码索引(ODB格式);
·.atx—.dbf文件的属性索引,其文件名格式为shapefile.columnname.atx(ArcGIS 8及之后的版本);
·.shp.xml—以XML格式保存元数据;
·.cpg—用于描述.dbf文件的代码页,指明其使用的字符编码。
在每个.shp,.shx与.dbf文件之中,图形在每个文件的排序是一致的。也就是说,.shp的第一条记录与.shx及.dbf之中的第一条记录相对应,如此类推。此外,在.shp与.shx之中,有许多字段的字节序是不一样的。因此用户在编写读取这些文件格式的程序时,必须十分小心地处理不同文件的不同字节序。ShapeFile通常以X与Y的方式来处理地理坐标,一般X对应经度,Y对应纬度,用户必须注意X,Y的顺序。
MDB数据格式:MDB(message driven bean)MDB也是EJB中消息驱动Bean的简称,MessageDrivenBean(MDB)。MDB(Microsoft Database)格式是Microsoft Access软件使用的一种存储格式,因其对数据操作的方便性,常用在一些中小型程序中。
GDB数据格式:文件地理数据库(File Geodatabase)数据后缀表达为.gdb,整体组织为文件夹,可以存储、查询和管理空间数据和非空间数据。在不使用DBMS的情况下能够扩展并存储大量数据。文件地理数据库可同时有多个用户使用,但一个数据只能有一个用户编辑。因此,一个文件地理数据库可以由多个编辑者访问,但必须编辑不同的数据。
4)空间数据存储到HBase
创建数据库TestTiff,需要HBase正在使用的zookeeper服务器,添加索引TiffIndex到数据库TestTiff,坐标参考系统为EPSG:3857,将空间数据数据从本地注入键/值数据库,格式为geotools-raster,将一个空间数据库TestTiff作为数据源添加进HBase,命名为TiffData。
5)Elasticsearch分词库设置
安装IK分词后,修改文件“IKAnalyzer.cfg.xml”,“extra_address.dic”为添加的分词内容,同一级别目录下放置extra_address.dic,这里添加的是路名等词语。
重启ES,测试分词,是否成功。新建索引Index,Index后不可有多个type,所以Index在这里对应数据表,默认type为_doc。
查看Index当前总数,以判断Index是否构建完成。
Figure BDA0004143194830000071
6)全文检索
进行全文检索,查询需要搜索的空间数据,并将返回的空间数据在地图中进行可视化渲染展示,实现海量数据快速检索的目的。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于Elastic Search的分布式搜索空间矢量数据的方法,其特征在于,
结合Elastic Search的搜索和HBas的存储方式,将空间数据和服务重新组合存储,对空间数据属性进行检索,使用空间数据展示技术对数据服务进行图上展现定位。
2.根据权利要求1所述的方法,其特征在于,
基于空间矢量数据服务和Elastic Search数据建模,检索空间数据属性信息,找出空间矢量数据图层中与关键词相关的数据,并基于结果分析出矢量数据之间的关联关系。
3.根据权利要求2所述的方法,其特征在于,
空间数据包括:高程线数据、SHP数据、MDB数据以及GDB数据;规定了高程线的字段与高程字段之间的对应关系。
4.根据权利要求3所述的方法,其特征在于,
所述数据建模:将空间矢量数据入库到大数据库中,在入库时将数据服务地址与属性关联挂接,在检索到相关数据时能够同时获取到服务地址,达到空间数据可视化效果。
5.根据权利要求3所述的方法,其特征在于,
创建数据库TestTiff,HBase正在使用的zookeeper服务器,添加索引TiffIndex到数据库TestTiff,将空间数据数据从本地注入键/值数据库,格式为geotools-raster,将一个空间数据库TestTiff作为数据源添加进HBase,命名为TiffData。
6.根据权利要求4或5所述的方法,其特征在于,
所述的Elasticsearch分词库设置的方法是:
“extra_address.dic”为添加的分词内容,同一级别目录下放置extra_address.dic,这里添加的是路名词语。
重启ES,测试分词,是否成功;
新建索引Index,Index在这里对应数据表,默认type为_doc;
查看Index当前总数,以判断Index是否构建完成。
7.根据权利要求6所述的方法,其特征在于,
将空间矢量数据抽取到HBas中,在抽取过程中对每一条数据额外添加属性和Key值,说明该条矢量数据的名称、服务地址,并将点、线、面的空间属性转换为WKT字符串,存储到属性中,同时在存储是依据矢量数据的人工分类,划分为片,在搜索时,采用Elastic Search自身的属性检索功能,将需要的相关的关键字结果搜索出来,调用空间分析的服务接口,对搜索结果的服务加载并在地图上展现和定位。
8.根据权利要求7所述的方法,其特征在于,
进行全文检索,查询需要搜索的空间数据,并将返回的空间数据在地图中进行可视化渲染展示,实现海量数据快速检索的目的。
CN202310296227.4A 2023-03-24 2023-03-24 一种基于Elastic Search的分布式搜索空间矢量数据的方法 Pending CN116414935A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310296227.4A CN116414935A (zh) 2023-03-24 2023-03-24 一种基于Elastic Search的分布式搜索空间矢量数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310296227.4A CN116414935A (zh) 2023-03-24 2023-03-24 一种基于Elastic Search的分布式搜索空间矢量数据的方法

Publications (1)

Publication Number Publication Date
CN116414935A true CN116414935A (zh) 2023-07-11

Family

ID=87057575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310296227.4A Pending CN116414935A (zh) 2023-03-24 2023-03-24 一种基于Elastic Search的分布式搜索空间矢量数据的方法

Country Status (1)

Country Link
CN (1) CN116414935A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117436054A (zh) * 2023-12-21 2024-01-23 四川正基岩土工程有限公司 一种岩土工程大数据共享平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117436054A (zh) * 2023-12-21 2024-01-23 四川正基岩土工程有限公司 一种岩土工程大数据共享平台
CN117436054B (zh) * 2023-12-21 2024-03-12 四川正基岩土工程有限公司 一种岩土工程大数据共享平台

Similar Documents

Publication Publication Date Title
US11468103B2 (en) Relational modeler and renderer for non-relational data
US7533136B2 (en) Efficient implementation of multiple work areas in a file system like repository that supports file versioning
US8364723B1 (en) Apparatus and method for realizing big data into a big object and non-transitory tangible machine-readable medium thereof
JPH0765035A (ja) 構造化文書検索装置
JP5075653B2 (ja) データベース管理方法、データベース管理装置、データベース管理プログラム、及び、データベースシステム
CN111221813B (zh) 数据库索引以及数据库查询的处理方法、装置及设备
US10175958B2 (en) Acquiring identification of an application lifecycle management entity associated with similar code
CN116414935A (zh) 一种基于Elastic Search的分布式搜索空间矢量数据的方法
CN112416710A (zh) 用户操作的记录方法、装置、电子设备及存储介质
CN104572805A (zh) 通过实时索引生成处理地图数据的装置和方法及其系统
US11734241B2 (en) Efficient spatial indexing
CN112835638A (zh) 一种基于嵌入式应用程序的配置信息管理方法及装置
CN116778124A (zh) 三维场景编辑方法、系统、设备及存储介质
JP2006031608A (ja) 計算機、ストレージシステム、計算機が行うファイル管理方法、およびプログラム
CN111008198A (zh) 业务数据获取方法、装置、存储介质、电子设备
CN115576947A (zh) 一种数据管理方法、装置、组合库、电子设备及存储介质
EP2819028A2 (en) Content management system
EP3995972A1 (en) Metadata processing method and apparatus, and computer-readable storage medium
CN115203488B (zh) 一种图数据库管理方法、装置及电子设备
CN113515504B (zh) 数据管理方法、装置、电子设备以及存储介质
CN115328878B (zh) 日志数据存储系统、方法、设备及介质
Zhang et al. Distributed processing practice of the 3D city model based on HBase
CN112487332A (zh) 图片处理方法、装置、电子设备及可读介质
CN116820648A (zh) 帮助文档展示方法、装置、电子设备及可读存储介质
CN116701545A (zh) 审计数据分析方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination