CN116595113A - 一种基于高德poi数据的海量坐标数据转换方法 - Google Patents
一种基于高德poi数据的海量坐标数据转换方法 Download PDFInfo
- Publication number
- CN116595113A CN116595113A CN202310322299.1A CN202310322299A CN116595113A CN 116595113 A CN116595113 A CN 116595113A CN 202310322299 A CN202310322299 A CN 202310322299A CN 116595113 A CN116595113 A CN 116595113A
- Authority
- CN
- China
- Prior art keywords
- coordinates
- address
- poi
- data
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 32
- 238000011160 research Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000010845 search algorithm Methods 0.000 claims abstract description 3
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于高德POI数据的海量坐标数据转换方法包括:基于四叉树索引原理优化矩形搜索算法,并获取研究区域POI数据;网格化研究区域,构建研究区域网格点坐标数据库,将POI坐标点与数据库进行匹配确定POI坐标点的WCS‑84坐标,并利用双线性插值法获取无法匹配的POI坐标点的WCS‑84坐标;定义中文地址要素编注集,利用隐马尔可夫模型对POI数据中的源地址信息进行切词处理;利用Trie树模型解析经切词处理后的前四层地址信息,利用状态自动机解析剩余六层地址信息,最终获取完整的地址信息。本发明拓展了POI数据的阈值,使得获取的台区信息更为全面且精确;有效解决了高德API接口获取值与真实值之间的偏差问题实现了经纬度值和真实地理位置的精准对应。
Description
技术领域
本发明涉及台区地址信息解析技术领域,具体为一种基于高德POI数据的海量坐标数据转换方法。
背景技术
智能电网建设的大力推行和信息通信规模的不断增长,对配电网侧的精细化管理提出了更高的要求。但目前低压台区仍然面临着用户规模大、网络结构复杂、用户台区归属更新不及时等问题。
兴趣点(Point of Interest,POI)是城市信息管理系统中地理信息交互的主要数据源之一,随着互联网地图的蓬勃发展,越来越多科学研究领域将开始将互联网地图引用到各类的信息管理系统中,目前国内包括高德地图在内的所有互联网地图服务商所提供的数据信息,都是采用了由国家测绘局定义的GCJ-02坐标系系统进行加密处理;同时使用高德应用程序(ApplicationProgrammingInterface,API)接口采用矩形搜索的方法获取的POI数据量有一个限定值;如果不进行坐标数据转换和突破该搜索方法获取数据量的限定值,所获取到的POI数据将不完全、且与真实情况存在偏差;在关于用户的地址解析过程中,现阶段所使用的中文分词工具jieba在对路名的解析时不尽人意,在进行计算和统计时,容易造成关键信息的部分缺失。为解决上述问题,本发明提出了一种基于高德POI数据的海量坐标数据转换方法。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有的开源用户数据的经纬度与真实值存在偏差,用户地址识别不准确的问题。
为解决上述技术问题,本发明提供如下技术方案:一种基于高德POI数据的海量坐标数据转换方法,包括:
基于四叉树索引原理优化高德API接口的矩形搜索算法,利用优化后的高德API接口获取研究区域POI数据;
将所述研究区域网格化,构建研究区域网格点坐标数据库,将POI坐标点与所述数据库进行匹配确定所述POI坐标点的WCS-84坐标,并利用双线性插值法获取无法匹配的POI坐标点的WCS-84坐标;
定义中文地址要素编注集,利用隐马尔可夫模型对所述POI数据中的源地址信息进行切词处理;
利用Trie树模型解析经切词处理后的前四层地址信息,利用状态自动机解析剩余六层地址信息,最终获取完整的地址信息。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述四叉树索引原理,包括:当划分后的区域中满足条件的POI数量小于该阈值时,该区域将不会被继续划分;当该区域中满足条件的POI数量高于该阈值时,该区域继续被四分,直到所有子区域中满足条件的POI数量小于该阈值时,停止四分。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述四叉树索引原理优化高德API接口,包括:将研究区域的范围不断进行四分,递归直至所有的正方形区域内POI数量低于可获取上限,并将此时获得的多边形POI数量作为POI数量获取的阈值。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述POI数据,包括:坐标数据和地理位置信息数据。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述将研究区域网格化,包括:在GCJ-02经纬度坐标系下,建立经纬度间隔为0.001°的规格网络将矩形研究区域网格化,并使经纬度满足以下条件:
其中,(Lmin,Bmin)是矩形区域右下角的坐标;(Lmax,Bmax)是矩形区域左上角的坐标。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述构建研究区域网格点坐标数据库,包括:
首先,在GCJ-02坐标系下将网格点表示为:(L0,B0),(L0,B1),...,(Li,Bj),...,(Ln,Bn);其中,i和j分别表示行和列的号数;
其次,利用高德API接口将划分好的经纬度网格点转化为WCS-84坐标下的坐标点(WLi,WBj),此时将网格点表示为:(Li,Bj,WLi,WBj);
再次,在网格点坐标中加入用行号和列号的三位16进制编码构成的ID编号,此时的网格点表示为:(ID,Li,Bj,WLi,WBj);其中,ID编号表示为:ID=str(code16(i))+str(code16(j));
最后,将每个网格点坐标数据记录存入数据库中,构建网格点坐标数据库。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述利用双线性插值法获取无法匹配的POI坐标点的WCS-84坐标,包括:若POI坐标数据在网格点数据库中匹配失败,则获取距离该点最近的网格点行列号(i,j),获取方式可表示为:
再获取最近的网格点对角线上的网格点的行列号表示为(i+1,j+1);
利用双线性插值法将POI坐标(L,B)转换为WCS-84坐标(WL,WB),计算公式表示为:
其中,(Li,Bj)表示距离最近的网格点坐标的GCJ-02坐标,(Li+1,Bj+1)表示对角线上的网格点坐标的GCJ-02坐标,(WLi,WBj)表示距离最近的网格点坐标的WCS-84坐标,(WLi+1,WBj+1)表示对角线上的网格点坐标的WCS-84坐标。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述进行切词处理,包括:利用隐马尔可夫模型中有B、E、M、S四种状态对源地址进行切词处理,将切词结果存储于列表中,提取各层级的地址要素进行地址信息匹配与解析。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述利用Trie树模型解析,包括:建立标准地址Trie树,并在每一分支最后节点存储该地址的行政区编码;写入待匹配地址的字符串类型的数据,根据该字符串首字符确定Trie树的匹配入口;从索引起根据状态转移函数进行匹配,状态结束时,获取该区域的行政编码,地址匹配成功;当无法进行状态转移时,地址匹配失败;完成地址匹配操作;将前四层地址信息匹配字段从切词结果列表中删除。
作为本发明所述的一种基于高德POI数据的海量坐标数据转换方法的一种优选方案,其中:所述利用状态自动机解析,包括:将经Trie树模型解析后的切词结果列表中的剩余词段进行合并,输入有限状态自动机M=(Σ,Q,δ,q0,F)进行后六层地址信息匹配,并获得地址解析结果;并将Trie树模型的匹配结果按序存入前四层地址层级,有限状态自动机匹配结果按序存入后六层地址层级,最终获取十层地址层级的解析结果并输出地址信息;
其中,Σ为有穷的集合;Q为地址层级所对应的状态;δ表示Σ和Q的直积Q的映射,表示在不同状态之间转换的规则,也称为状态转移函数;q0是状态机的初始状态;F表示M终止状态集合。
本发明的有益效果:本发明提出一种基于高德POI数据的海量坐标数据转换方法通过引入四叉树索引原理优化高德POI接口中多边形搜索部分的矩形搜索方法来拓展了POI数据的阈值,使得获取的台区信息更为全面且精确;利用双线性插值法实现了将POI数据的WCS-84坐标转换,有效解决了高德API接口获取值与真实值之间的偏差问题,实现了经纬度值和真实地理位置的精准对应;利用隐马尔可夫模型对POI数据中源地址信息进行切词处理,并基于Tire树和自动机实现了对POI源地址信息的解析,最终获取与真实地理位置相匹配的地址信息,并形成可供进行地址匹配的数据库,提高了地址匹配的精确率与效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的整体流程图;
图2为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的四叉树索引示意图;
图3为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的Trie树结构的行政区域地址示例图;
图4为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的有限状态自动机状态转移结构示例图;
图5为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的采样示例图;
图6为本发明一个实施例提供的一种基于高德POI数据的海量坐标数据转换方法的坐标信息示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~4,为本发明的一个实施例,提供了一种基于高德POI数据的海量坐标数据转换方法,包括:
S1:基于四叉树索引原理优化高德API接口的矩形搜索方法,利用优化后的高德API接口获取研究区域POI数据;
具体的,如图2所示,引入四叉树索引原理,将研究区域的范围不断进行四分,递归直至所有的正方形区域内POI数量低于可获取上限,并将此时获得的多边形POI数量作为POI数量获取的阈值。
应说明的是,当划分后的区域中满足条件的POI数量小于该阈值时,该区域将不会被继续划分;当该区域中满足条件的POI数量高于该阈值时,该区域继续被四分,直到所有子区域中满足条件的POI数量小于该阈值时,停止四分。
还应说明的是,现有的高德地图API接口中提供了关键字搜索、周边搜索、多边形搜索和ID查询四种方式,但是在多边形搜索中矩形搜索的方法所获取的POI数量有限,无法全面且准确的获取研究区域的POI数据,因此,本实施例中提出了采用四叉树索引的方式来优化矩形搜索方法,以获取研究区域更为全面且精确的地理信息数据。
更进一步的,利用优化后的高德地图API接口获取研究区域的POI数据,包括:坐标数据、地址信息数据。
S2:将研究区域网格化,构建研究区域网格点坐标数据库,将POI坐标点与坐标数据库进行匹配确定POI坐标点的WCS-84坐标,利用双线性插值法获取无法匹配的POI坐标点的WCS-84坐标;
更进一步的,在GCJ-02经纬度坐标系下,建立经纬度间隔为0.001°的规格网络将矩形研究区域网格化,使经纬度满足以下条件:
其中,(Lmin,Bmin)是矩形区域右下角的坐标;(Lmax,Bmax)是矩形区域左上角的坐标。
更进一步的,在GCJ-02坐标系下的网格点表示为:(L0,B0),(L0,B1),...,(Li,Bj),...,(Ln,Bn);其中,i和j分别表示行和列的号数。
更进一步的,利用高德地图API接口将划分好的经纬度网格点转化为WCS-84坐标下的坐标点(WLi,WBj),将网格点坐标表示为:(Li,Bj,WLi,WBj)。
更进一步的,在网格点坐标中加入ID编号,表示为:(ID,Li,Bj,WLi,WBj),其中,ID编号用行号和列号的三位16进制编码构成,表示为:ID=str(code16(i))+str(code16(j))。
更进一步的,将每个网格点坐标数据记录存入数据库中,构建网格点坐标数据库。
更进一步的,将采集到的POI坐标数据输入网格点数据库中进行匹配,若该坐标数据点为网格点数据库中的坐标数据则由网格点数据库直接输出其转换的WCS-84坐标;若该坐标数据在网格点数据库中匹配失败,则获取距离该点最近的网格点行列号(i,j),获取方式可表示为:
更进一步的,获取最近的网格点对角线上的网格点的行列号表示为(i+1,j+1);利用双线性插值法将POI坐标(L,B)转换为WCS-84坐标(WL,WB),计算公式表示为:
应说明的是,利用高德API接口获取的POI数据中的源地址信息表示为GCJ-02坐标形式,而GCJ-02坐标系是经加密处理后的地理坐标,其值与真实地理位置之间存在明显偏差,因此需要将GCJ-02坐标转换为WCS-84坐标以解决高德API获取值与真实值之间的偏差,实现经纬度值与真实地理位置的精确对应。
S3:定义中文地址要素编注集,利用隐马尔可夫模型对POI数据中的源地址信息进行切词处理;
更进一步的,基于地址表达的原理及日常描述地址的方式定义地址层级要素编注集如表1所示;
表1地址层级要素标注
更进一步的,利用隐马尔可夫模型将POI源地址信息进行切词处理,将切词结果存储于列表中,用于十层地址要素的匹配。
需要知道的是,隐马尔可夫模型中有B、E、M、S四种状态,分别表示源地址的开始位置、结束位置、中间位置、单独成词的位置,按照标记对后六级的地址要素进行提取,将提取出的地址要素同Trie树模型结果一同输入自动机匹配模型。
应说明的是,由于常规的用于分词处理的jieba分词模块在针对地址的解析过程中,对路名的解析准确率并不尽如人意,因此,在本实施例中选用隐马尔可夫模型对POI源地址信息进行分词处理,进而有效提高了地址解析的准确率。
S4:利用Trie树模型解析经切词处理后的前四层地址信息,利用状态自动机解析剩余六层地址信息,最终获取完整的地址信息。
更进一步的,参考图3建立标准地址Trie树,并在每一分支最后节点存储该地址的行政区编码;写入待匹配地址的字符串类型的数据,根据该字符串首字符确定Trie树的匹配入口;从索引起根据状态转移函数进行匹配,状态结束时,获取该区域的行政编码,地址匹配成功;当无法进行状态转移时,地址匹配失败;完成地址匹配操作;将前四层地址信息匹配字段从切词结果列表中删除。
应说明的是,Trie树结构主要包括根节点、子节点和节点值等,自动机的状态被对应的节点值所表达,在自然语言处理方面,Trie树可以建立层级式的数据检索结构,用于对POI源地址信息的前四层行政区域地址信息的解析与匹配。
更进一步的,将切词结果列表中的剩余词段进行合并,输入有限状态自动机进行后六层地址信息匹配,并获得地址解析结果。
需要知道的是,确定性有限状态自动机(DFA)基本构成如下:
M=(Σ,Q,δ,q0,F)
其中,Σ为有穷的集合;Q为地址层级所对应的状态;δ表示Σ和Q的直积Q的映射,表示在不同状态之间转换的规则,也称为状态转移函数;q0是状态机的初始状态;F表示M终止状态集合。
更进一步的,将Trie树模型的匹配结果按序存入前四层地址层级,有限状态自动机匹配结果按序存入后六层地址层级,最终获取十层地址层级的解析结果并输出地址信息。
应说明的是,如图4所示,按照隐马尔可夫模型将地址信息切割成词后,将切割后的词语输入自动机,自动机按照划分好的地址层级进行匹配,按照状态转移规则,当满足时该规则时,进行状态转移,直到遍历完所有的状态,自动机完成地址信息的逐层匹配,再按照层级顺序组合,便以较高的精度完成了对地址信息的解析。
更进一步的,将经纬度转换结果和输出的地址信息作为最终的POI数据转换结果作为输出结果。
应说明的是,利用Trie树模型和自动机(FA)相结合的方法对POI数据中的源地址信息进行解析能够较为精确的对路名信息进行解析,进而提高定位精度,并最终实现对台区用户地址信息库的建立,用于匹配台区用户地址信息。
实施例2
参照图5~6,为本发明的一个实施例,提供了一种基于高德POI数据的海量坐标数据转换方法,为了验证本发明的有益效果,通过仿真实验进行科学论证。
本实施例中研究区位于武汉市三环内城区,将东经114.148085°—114.456820°、北纬30.457560°—30.699075°的矩形区域内汽车服务标签作为采样对象,采样区域及样本点如图5所示,以东经114.148085°,北纬30.457560°为矩形左下角坐标建立控制点库。
参照图6,采用Python作为实现工具,调用高德API接口获取满足条件的坐标点信息,对样本点进行坐标转换得到数据表,如表1所示:
表1地址数据
完成对经纬坐标的离线转换后,需进一步对坐标所表示的地理位置描述进行处理,利用T-FA模型,将上述地址源数据进行解析,并分类在相应的10级地址标注集中,通过表1可以看出,利用本发明的POI数据转换方法,能够实现经纬度值和真实地理位置的精准对应;进一步对POI源地址信息的解析,最终获取与真实地理位置相匹配的地址信息,形成可供进行地址匹配的数据库,提高了地址匹配的精确率与效率具有较高的处理能力和处理精度。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于高德POI数据的海量坐标数据转换方法,其特征在于,包括:
基于四叉树索引原理优化高德应用程序API接口的矩形搜索算法,利用优化后的高德API接口获取研究区域兴趣点POI数据;
将所述研究区域网格化,构建研究区域网格点坐标数据库,将兴趣点POI坐标点与所述数据库进行匹配确定所述兴趣点POI坐标点的WCS-84坐标,并利用双线性插值法获取无法匹配的兴趣点POI坐标点的WCS-84坐标;
定义中文地址要素编注集,利用隐马尔可夫模型对所述兴趣点POI数据中的源地址信息进行切词处理;
利用Trie树模型解析经切词处理后的前四层地址信息,利用状态自动机解析剩余六层地址信息,最终获取完整的地址信息。
2.如权利要求1所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述四叉树索引原理,包括:当划分后的区域中满足条件的兴趣点POI数量小于该阈值时,该区域将不会被继续划分;当该区域中满足条件的兴趣点POI数量高于该阈值时,该区域继续被四分,直到所有子区域中满足条件的兴趣点POI数量小于该阈值时,停止四分。
3.如权利要求1或2所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述四叉树索引原理优化高德应用程序API接口,包括:将研究区域的范围不断进行四分,递归直至所有的正方形区域内兴趣点POI数量低于可获取上限,并将此时获得的多边形兴趣点POI数量作为兴趣点POI数量获取的阈值。
4.如权利要求3所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述兴趣点POI数据,包括:坐标数据和地理位置信息数据。
5.如权利要求4所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述将研究区域网格化,包括:在GCJ-02经纬度坐标系下,建立经纬度间隔为0.001°的规格网络将矩形研究区域网格化,并使经纬度满足以下条件:
其中,(Lmin,Bmin)是矩形区域右下角的坐标;(Lmax,Bmax)是矩形区域左上角的坐标。
6.如权利要求5所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述构建研究区域网格点坐标数据库,包括:
首先,在GCJ-02坐标系下将网格点表示为:(L0,B0),(L0,B1),...,(Li,Bj),...,(Ln,Bn);其中,i和j分别表示行和列的号数;
其次,利用高德API接口将划分好的经纬度网格点转化为WCS-84坐标下的坐标点(WLi,WBj),此时将网格点表示为:(Li,Bj,WLi,WBj);
再次,在网格点坐标中加入用行号和列号的三位16进制编码构成的ID编号,此时的网格点表示为:(ID,Li,Bj,WLi,WBj);其中,ID编号表示为:ID=str(code16(i))+str(code16(j));
最后,将每个网格点坐标数据记录存入数据库中,构建网格点坐标数据库。
7.如权利要求6所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述利用双线性插值法获取无法匹配的兴趣点POI坐标点的WCS-84坐标,包括:若兴趣点POI坐标数据在网格点数据库中匹配失败,则获取距离该点最近的网格点行列号(i,j),获取方式可表示为:
再获取最近的网格点对角线上的网格点的行列号表示为(i+1,j+1);
利用双线性插值法将兴趣点POI坐标(L,B)转换为WCS-84坐标(WL,WB),计算公式表示为:
其中,(Li,Bj)表示距离最近的网格点坐标的GCJ-02坐标,(Li+1,Bj+1)表示对角线上的网格点坐标的GCJ-02坐标,(WLi,WBj)表示距离最近的网格点坐标的WCS-84坐标,(WLi+1,WBj+1)表示对角线上的网格点坐标的WCS-84坐标。
8.如权利要求7所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述进行切词处理,包括:利用隐马尔可夫模型中有B、E、M、S四种状态对源地址进行切词处理,将切词结果存储于列表中,提取各层级的地址要素进行地址信息匹配与解析。
9.如权利要求8所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述利用Trie树模型解析,包括:建立标准地址Trie树,并在每一分支最后节点存储该地址的行政区编码;写入待匹配地址的字符串类型的数据,根据该字符串首字符确定Trie树的匹配入口;从索引起根据状态转移函数进行匹配,状态结束时,获取该区域的行政编码,地址匹配成功;当无法进行状态转移时,地址匹配失败;完成地址匹配操作;将前四层地址信息匹配字段从切词结果列表中删除。
10.如权利要求8或9所述的基于高德POI数据的海量坐标数据转换方法,其特征在于:所述利用状态自动机解析,包括:将经Trie树模型解析后的切词结果列表中的剩余词段进行合并,输入有限状态自动机M=(Σ,Q,δ,q0,F)进行后六层地址信息匹配,并获得地址解析结果;并将Trie树模型的匹配结果按序存入前四层地址层级,有限状态自动机匹配结果按序存入后六层地址层级,最终获取十层地址层级的解析结果并输出地址信息;
其中,Σ为有穷的集合;Q为地址层级所对应的状态;δ表示Σ和Q的直积Q的映射,表示在不同状态之间转换的规则,也称为状态转移函数;q0是状态机的初始状态;F表示M终止状态集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310322299.1A CN116595113A (zh) | 2023-03-29 | 2023-03-29 | 一种基于高德poi数据的海量坐标数据转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310322299.1A CN116595113A (zh) | 2023-03-29 | 2023-03-29 | 一种基于高德poi数据的海量坐标数据转换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116595113A true CN116595113A (zh) | 2023-08-15 |
Family
ID=87588765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310322299.1A Pending CN116595113A (zh) | 2023-03-29 | 2023-03-29 | 一种基于高德poi数据的海量坐标数据转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116595113A (zh) |
-
2023
- 2023-03-29 CN CN202310322299.1A patent/CN116595113A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330125B (zh) | 基于知识图谱技术的海量非结构化配网数据集成方法 | |
US6816779B2 (en) | Programmatically computing street intersections using street geometry | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
CN113434623B (zh) | 一种基于多源异构空间规划数据的融合方法 | |
CN112612863B (zh) | 一种基于中文分词器的地址匹配方法及系统 | |
CN109165273B (zh) | 一种面向大数据环境的通用中文地址匹配方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN111522892B (zh) | 地理要素的检索方法及装置 | |
US6658356B2 (en) | Programmatically deriving street geometry from address data | |
CN110427471B (zh) | 一种基于知识图谱的自然语言问答方法及系统 | |
JP2023530795A (ja) | 地理的位置区域の符号化方法、符号化モデルを確立する方法、及び装置 | |
CN113918512A (zh) | 电网运行规则知识图谱构建系统及方法 | |
CN113642313A (zh) | 地址文本的处理方法、装置、设备、存储介质及程序产品 | |
CN116610672A (zh) | 一种基于时空编码的空管数据分布式存储与快速查询方法 | |
CN110060472B (zh) | 道路交通事件定位方法、系统、可读存储介质和设备 | |
Nguyen et al. | A multi-perspective approach to interpreting spatio-semantic changes of large 3D city models in CityGML using a graph database | |
CN111414445A (zh) | 一种应用地理信息的地址反解析方法 | |
Abdelmoty et al. | Towards maintaining consistency of spatial databases | |
CN102999548B (zh) | 电子地图中地名数据扩展方法及装置 | |
CN111191084B (zh) | 一种基于图结构的地名地址的解析方法 | |
CN112148735B (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN115952339B (zh) | 基于NGBoost的地理时空知识抽取和图谱表示方法 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN116595113A (zh) | 一种基于高德poi数据的海量坐标数据转换方法 | |
Zhang et al. | A graph-based approach for representing addresses in geocoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |