CN112925862B - 基于地理网格化技术的兴趣点库更新方法及装置、设备 - Google Patents
基于地理网格化技术的兴趣点库更新方法及装置、设备 Download PDFInfo
- Publication number
- CN112925862B CN112925862B CN202011585294.0A CN202011585294A CN112925862B CN 112925862 B CN112925862 B CN 112925862B CN 202011585294 A CN202011585294 A CN 202011585294A CN 112925862 B CN112925862 B CN 112925862B
- Authority
- CN
- China
- Prior art keywords
- library
- address
- interest
- interest point
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005516 engineering process Methods 0.000 title claims abstract description 18
- 230000009193 crawling Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007726 management method Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于地理网格化技术的兴趣点库更新方法及装置、设备,该方案包括以下步骤:爬取商业化房产公司网站的楼房信息和业务地址信息构建兴趣点分层库;对业务地址数据标准化,查看现有的兴趣点分层库,判断是否已经存在,若存在就查看更新时间是否在一年内,若超过一年,则通过地理信息中心得出相应数据和网格,更新兴趣点库,若不存在则同时进行商业地图模糊匹配和与现有的兴趣点分层库进行相似度匹配,得出的经纬度通过地理信息中心得出相应数据和网格,两者数据比较合并,更新兴趣点库,装置为运行该方法的装置,本方案具有地址信息匹配程度高、数据准确率高、可完全避免错误行政区划,免去人工二次处理,显著减少了人员的工作负担。
Description
技术领域
本发明涉及一种兴趣点库建设方法,具体涉及一种基于地理网格化技术的兴趣点库更新方法及装置、设备。
背景技术
目前对地名地址的需求日显突出,对地名地址的要求都越来越高,所以基础地理信息数据的更新非常重要。
地址是具有地名的某一特定空间位置上自然或人文地理试题位置的结构化描述。地名是地图上的行政区划,居民地,水系,交通等各类要素地名信息的集合。而POI(pointsof interest)即兴趣点,指一切可以被抽象为点的地理实体,尤其是与人们生活密切相关的设施,如商场、车站和综合体等。
目前常见的地址数据治理方式为:将相应的地址数据治理到相应的行政区划,然后进行业务治理。常规方法为:将地址数据进行数据预处理,先通过行政区划码表(如图7)的行政区划简称通过商业软件进行模糊匹配,然后对于无法通过行政区划简称匹配的数据使用固定的兴趣点进行匹配,最后兴趣点无法匹配的通过商业地图软件进行匹配通过经纬度得到相应的行政区划。
然而,这种方式和方法存在以下缺陷:
1)现有的商业软件API模糊匹配的准确率不佳,经常匹配错误;
2)对于有行政区划进行变动(比如行政区合并)的情况下,通过固定兴趣点库和商业API接口匹配,容易得出错误的行政区划,因此需要工作人员对错误的行政区划进行二次处理,显著增加了人工成本和多余工作量。
发明内容
本发明的目的是针对现有技术中存在的上述问题,提供了一种可显著提高匹配准确率的基于地理网格化技术的兴趣点库更新方法及装置、设备。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于地理网格化技术的兴趣点库更新方法包括以下步骤:
S100:爬取商业化房产公司网站的楼房信息,对所述楼房信息进行标准拆分形成第一标准地址分层库;
S110:将固定的兴趣点地址进行标准拆分形成第二标准地址分层库;
S120:将所述第一标准地址分层库和第二标准地址分层库合并形成兴趣点分层库;
S200:将业务地址标准化;
S300:根据所述标准化后的业务地址判断所述兴趣点分层库是否需要更新;
S400:若是,则根据所述标准化后的业务地址更新所述兴趣点分层库;
有益效果:
1、利用爬虫软件对商业化房产公司网站的楼房信息进行获取,不仅操作方便,可快速获得相关信息,且商业化房产公司网站的楼房信息是按照行政区划来分类,且给出的地址相对标准,可以相对准确的得到小区名称和县区的关系,因此可显著提升信息获取的准确度,并且可结合多个网站进行数据提取,进一步提升信息的准确度和提升信息量;
2、通过将现有固定的兴趣点地址和准确的经纬度拆分组成的标准地址库和通过爬虫软件获取组成的标准地址库合并,得到新的兴趣点分层库,相比现有只通过固定的兴趣点地址和准确的经纬度组成的标准地址库方式,本方法的准确度更高,且可得到更多的数据和更加新的数据。
进一步地,判断所述兴趣点分层库是否需要更新包括以下步骤:
S310:若所述业务地址位于所述兴趣点分层库中,则判断所述兴趣点分层库是否为最新数据,若所述兴趣点分层库不是最新数据,则通过地理信息中心的网格化管理接口得出相应的区县,镇街,村社及网格并将得出的数据更新到所述兴趣点分层库中;
S320:若所述业务地址不位于所述兴趣点分层库中,则对所述业务地址和兴趣点分层库进行相似度匹配并获取相似度高的地址的第一经纬度,通过商业地图软件对所述业务地址进行模糊匹配获取第二经纬度,根据所述第一经纬度和第二经纬度分别通过地理信息中心的网格化管理接口得出相应的区县,镇街,村社及网格;
S330:对比第一经纬度获取的网格和第二经纬度获取的网格,若一致,则采用第二经纬度并将得出的数据更新到所述兴趣点分层库中,若不一致,则采用第一经纬度及第一经纬度获取的网格数据并将得出的数据更新到所述兴趣点分层库中。
上述步骤利用现有的商业地图丰富的兴趣点结构获取相对准确的经纬度信息,并将其记录在兴趣点中,可无需再次调用,节省了操作步骤和操作时间;通过判断兴趣点库是否为最新数据,可有效地保证一段时间内,如一年内的数据为最新的数据,以保障地理数据能够得到及时更新;通过相似度计算,结合商业地图的模糊匹配,同时计算并比较,并取两者之间准确的数据,去除不正确数据,从而显著提升数据的准确性。
进一步地,所述爬取步骤具体为:
S101:初始化URL,收集采集网站;
S102:分析所述采集网站的网页中HTML代码的各个元素特征;
S103:通过XPATH获取所述网页中的地址数据;
S104:存储所述地址数据到数据库中;
S105:判断是否位于所述网站的最后一个网页;若是,则结束爬取步骤;
若否,则跳转到S103步骤。采用上述步骤,利用现有的爬虫软件,可方便快速地对目标网站的信息进行爬取,无需手工一个个采集,工作效率显著提升。
进一步地,所述第一标准地址分层库和第二标准地址分层库合并中,若兴趣点冲突则以第二标准地址分层库的为准。此设置,通过第一标准地址分层库对第二标准地址分层库进行补充,从而形成更为准确和全面的兴趣点分层库,有利于后续兴趣点库的更新。
进一步地,所述固定的兴趣点地址为包含网格边界的地址信息。例如一条路经过3个网格,必须要有这条路上3个兴趣点分别对应3个网格,给与兴趣点地址定义,从而方便获取该地址的经纬度坐标。
进一步地,所述相似度匹配至少有两层,第一层为单个级别内部的内容比较并计算单个级别的相似度数值,第二层为整体分级相似度比较,通过加权计算得出最终相似度,当相似度高于设定值时,从所述获取兴趣点分层库中获取对应地址的第一经纬度。通过两层计算,分别计算地址等级的相似度和每个级别内部有内容文字的相似度,然后加权计算综合得出两个兴趣点地址之间的相似度值,相似度高于预先设定的设定值就获取该兴趣点的经纬度,从而实现重复数据的筛选,相比只通过商业地图软件进行模糊匹配的方式,本方案匹配准确率更高。
进一步地,所述加权计算中省、市、县及街道的权重大于门牌号或公司名称的权重。因为省/直辖市、地级市、县/区/县级市、镇/街道的内容必须相等,如果不等就肯定不同,门牌号、公司名称等对地址相似的影响较小,此设置可提升相似度计算的准确性。
进一步地,所述标准拆分具体为将所述楼房信息和固定的兴趣点地址根据地址等级进行拆分,获取地址信息形成第一标准地址分层库和第二标准地址分层库。其中地址等级为省/直辖市、地级市、县/区/县级市、镇/街道等标准行政规划等级,将上述的两个信息通过此标准划分,从而形成规范的标准地址分层库,有利于数据的检索和调取。
进一步地,所述楼房信息根据地址等级拆分后,剩余信息根据关键字拆分。由于楼房信息中还常常有其他的信息,如一号街、人民路等,因此再对这类信息进行标注划分,进一步的规范楼房信息的地址数据,相当于初始化操作。
进一步地,判断所述兴趣点分层库是否为最新数据中,所述兴趣点分层库的判断依据以一年为标准,一年以内为最新数据,超过一年为旧数据。
一种基于地理网格化技术的兴趣点库更新装置包括爬取模块、标准拆分模块、第一判断模块、第二判断模块、对比模块、计算模块、通信模块及存储模块;
所述爬取模块用于爬取商业化房产公司网站的楼房信息并存储到存储模块中;
所述标准拆分模块用于分别对所述楼房信息进行标准拆分形成第一标准地址分层库、将所述第一标准地址分层库和第二标准地址分层库合并形成兴趣点分层库及将业务地址标准化;
所述第一判断模块用于判断所述业务地址是否位于所述兴趣点分层库中;
所述第二判断模块用于判断所述兴趣点分层库是否为最新数据;
所述对比模块用于对比第一经纬度获取的网格和第二经纬度获取的网格数据;
所述计算模块用于运行上述的一种基于地理网格化技术的兴趣点库更新方法并协调各模块执行命令;
所述通信模块用于存储模块和商业地图软件通信交换数据;
所述存储模块至少包括云端,用于存储数据。
一种电子设备包括处理器和存储器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现上述的基于地理网格化技术的兴趣点库更新方法。
附图说明
图1是本发明实施例1的流程图;
图2是本发明实施例2的爬虫流程示意图;
图3是本发明实施例2的房产网站信息示意图;
图4是本发明实施例2的获取信息示意图;
图5是本发明实施例2的操作示意图;
图6是本发明实施例3的地址分级图表;
图7是行政区划码图表;
图8是本发明的兴趣点分层库图表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术人员应理解的是,在本发明的披露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
实施例1:
请参阅图1,本基于地理网格化技术的兴趣点库更新方法包括以下步骤:
S10:创建兴趣点分层库
兴趣点分层库创建主要有两个步骤:
步骤一:通过爬虫软件对中介,房地产网站等的楼房信息(因为这类型的网站上的楼房信息按照行政区划来分类,且给出的地址相对标准,可以相对准确的得到小区名称和县区的关系)进行抓取,将抓取的结果根据省/直辖市、地级市、县/区/县级市、镇/街道等标准信息,对地址进行标准拆分,从地址中拆分出标准信息后,剩下的信息再根据指定关键字的拆分,如街、路等,最终将地址拆分成标准的组成部分,形成第一标准地址分级库;
步骤二:通过固定的兴趣点的地址和准确的经纬度(包含网格边界的地址信息,比如一条路经过3个网格,必须要有这条路上3个兴趣点分别对应3个网格),将兴趣点地址进行标准化拆分,将兴趣点拆分成标准的组成部分,形成第二标准地址分级库,包含经纬度;其中固定的兴趣点的地址和准确的经纬度是现有掌握的数据。
将这两个方面的标准地址分级库进行融合,合并形成新的兴趣点分层库,其中对于有冲突的兴趣点分层库,以步骤二中固定的兴趣点地址为准,因为步骤二中的数据为职能部门掌握相对正确的数据,通过第一标准地址分级库对第二标准地址分级库进行补充。
S20:对业务地址标准化
来源各自业务系统的地址数据通过根据省/直辖市、地级市、县/区/县级市、镇/街道等标准信息,对地址进行标准拆分,从地址中拆分出标准信息;
S30:查看现有的兴趣点分层库
如图8所示,查看现有的兴趣点库分层库清单,将业务地址数据通过地址信息与兴趣点分层库的地址信息进行模糊匹配,以判断该地址信息是否已经清单中;
S40:是否已经存在
查看地址数据是够已经存在兴趣点分层库,如果已经存在,则跳到S50步骤,判断该兴趣点的更新时间;如果没有存在,则跳到S60步骤。
S50:更新时间是否一年内
查看兴趣点的更新时间是否一年内,如果一年内,则结束该流程,默认数据已经是最新的;如果更新时间超过一年,则跳到S90步骤。
S60:现有的兴趣点分层库进行相似度匹配算法
通过业务数据和兴趣点分层库中的地址按照相同级别进行相似度匹配,相似度匹配有2层,一层是单个级别内部的内容比较,完全相同为1,完全不同为0,其他情况根据相似度算法得出0到1之间的小数。
优选地,对于经过多个网格的道路而言,兴趣点中已经包含边界的兴趣点,则需要判断该门牌与哪个兴趣点更加接近,更接近的门牌为1,其他为0;二层是整体分级的相似度,每个分级相似的权重参数,如因为省、市、县,街道的内容必须相等,如果不等就肯定不同,因此将权重参数设置为10;门牌号、公司名称等对地址相似的影响较小,权重参数设置为3、2、1等,最终将权重和每个分级的相似度进行相乘累加,得到最终的相似度,当相似度大于20的时候,认为是相似的,获取对应地址标准分级库中的经纬度。
S70:通过商业地图进行模糊匹配
将地址信息通过地图服务软件(比如:高德)进行查询获取相应的经纬度。
S80:通过地理信息中心得出相应的区县,镇街,村社和网格
由于地理信息中心承担全市基础地理信息、地理空间框架、政务地理信息的建设和应用工作,通过地理信息中心提供网格化管理接口,得出相应的区县,镇街,村社和网格。
S90:通过地理信息中心得出相应的区县,镇街,村社和网格
由于地理信息中心承担全市基础地理信息、地理空间框架、政务地理信息的建设和应用工作,通过地理信息中心提供网格化管理接口,得出相应的区县,镇街,村社和网格。
S100:得到网格数据和经纬度
对比S60和S70的方法得到的网格,若网格一致,则采用S70的经纬度,若不一致,则采用兴趣点的经纬度和网格数据
S110:更新兴趣点库
将最新的行政区划信息,经纬度信息,地理地址信息更新到兴趣点库中。
实施例2:
请参阅图2,爬虫方法为以下步骤:
S11:初始化URL
对预备采集中介、房产的网站进行收集,设定部分网站为本次采集的网站,比如选择“搜房网”,“我爱我家”等网站为采集的网站;
S12:分析URL
请参阅图3和图4,对需要采集的房产网站进行进一步分析,网页的HTML的代码的各个元素特征,方便编写XPATH代码,比如:天赐良缘公寓,对应的HTML的代码;
S13:使用XPATH获取地址数据
请参阅图5,根据搜房网的楼房html的情况,使用XPATH技术对相应的地址数据进行抽取,如上面的数据需要提取,使用//div[@class='list_info clearfix']/div[@class='list_l']/div[@class='list list_free']/dl方式,得到所有的元素。
S14:地址数据入库
将通过XPATH得到相应得到页面信息存储到相应的数据库表中;
S15:是否获取全部数据
判断是否到最后一个页面,如果不是,则跳转到S13步骤,如果是,则跳转到爬取结束。
实施例3:
请参阅图6为各分级的权重参数,其中相似度的计算公式如下:
其中代表ak为对应分层的权限,bk代表为对应分层内部是否一致;
比如:
兴趣点分层库有一条记录:杭州市上城区武林街道邮电新村社区君汇上品苑1幢1单元1001室的坐标为经度:120.112,纬度:30.456;
业务地址数据的记录:杭州市上城区武林街道邮电新村社区君汇上品苑1幢2单元1003室;
该地址与业务地址的相似度=10+6*1+5*0+4*0+4*0+3*0+5*1+5*0+4*1+3*0+2*0+1*0=25;
由于该地址的相似度大于预设的20,故“杭州市上城区武林街道邮电新村社区君汇上品苑1幢2单元1003室”与“杭州市上城区武林街道邮电新村社区君汇上品苑1幢1单元1001室”相似,坐标为经度:120.112,纬度:30.456。
例如,兴趣点分层库有一条道路记录:
记录A:杭州市上城区武林街道邮电新村社区延安路200号的坐标为经度:120.134,纬度:30.423;
记录B:杭州市上城区武林街道邮电新村社区延安路50号的坐标为经度:120.134,纬度:30.444;
记录C:杭州市上城区武林街道邮电新村社区延安路250号的坐标为经度:120.134,纬度:30.887;
业务地址数据的记录:杭州市上城区武林街道邮电新村社区延安路230号;
该地址与兴趣点的三条记录的相似度分别为:
与记录A的相似度=10+6*1+5*0+4*0+4*1+3*0+5*0+5*0+4*0+3*0+2*0+1*0=20;
与记录B的相似度=10+6*1+5*0+4*0+4*1+3*0+5*0+5*0+4*0+3*0+2*0+1*0=20;
与记录C的相似度=10+6*1+5*0+4*0+4*1+3*1+5*0+5*0+4*0+3*0+2*0+1*0=23;
由于该地址与记录C的相似度大于预设的20,故“杭州市上城区武林街道邮电新村社区延安路230号”与“杭州市上城区武林街道邮电新村社区延安路250号”相似,坐标为经度:120.134,纬度:30.887,取此兴趣点的经纬度坐标,通过通过地理信息中心提供网格化管理接口,得出相应的区县,镇街,村社和网格,再和通过高德等地图软件获取的经纬度得到的相应的区县,镇街,村社和网格进行对比,若一致,则采用高德等地图软件获取的经纬度,若不一致,则采用兴趣点的经纬度和网格数据。
本基于地理网格化技术的兴趣点库更新装置包括爬取模块、标准拆分模块、第一判断模块、第二判断模块、对比模块、计算模块、通信模块及存储模块;
所述爬取模块用于爬取商业化房产公司网站的楼房信息并存储到存储模块中,爬取模块为安装有爬虫软件的终端设备,如手机、笔记本电脑等。
所述标准拆分模块用于分别对所述楼房信息进行标准拆分形成第一标准地址分层库、将所述第一标准地址分层库和第二标准地址分层库合并形成兴趣点分层库及将业务地址标准化,标准拆分模块为安装有标准拆分模块的终端设备,如手机、电脑等。
所述第一判断模块用于判断所述业务地址是否位于所述兴趣点分层库中;
所述第二判断模块用于判断所述兴趣点分层库是否为最新数据;
所述对比模块用于对比第一经纬度获取的网格和第二经纬度获取的网格数据;
所述计算模块用于运行基于地理网格化技术的兴趣点库更新方法并协调各模块执行命令;上述各模块可均安装于一个终端设备上,也可以是多个终端设备上。
所述存储模块至少包括云端,用于存储数据。云端可以是自行组件的服务端,也可以是购买的网盘。
本电子设备包括处理器和存储器,所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现上述的基于地理网格化技术的兴趣点库更新方法。其中处理器为常见的为常见的ARM架构或X86架构处理器,集成或安装在对应的主板上,存储器集成或安装在主板上,又或者是为常见的云盘。
在另一种实施例中,本电子设备包括处理器、无线通信模块、存储器及人机交互界面;
所述处理器用于运行基于地理网格化技术的兴趣点库更新方法并协调各模块执行命令,为常见的ARM架构或X86架构处理器,载体为常见的手机或者笔记本电脑。
所述无线通信模块用于和互联网或外接设备传输数据,无线通信模块为常见的蓝牙、WIFI网卡及其他的无线通信端口。
所述存储器至少包括云端,用于存储数据,云端可以是自行组件的服务端,也可以是购买的网盘。
所述人机交互界面,用于输入和显示数据。此为常见的触控显示屏。
本发明未详述部分为现有技术,故本发明未对其进行详述。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
尽管本文较多地使用了术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。
Claims (9)
1.基于地理网格化技术的兴趣点库更新方法,其特征在于,包括以下步骤:
爬取商业化房产公司网站的楼房信息,拆分形成第一标准地址分层库;
将固定的兴趣点地址拆分形成第二标准地址分层库;
将所述第一标准地址分层库和第二标准地址分层库合并成兴趣点分层库;
将业务地址标准化;
若所述业务地址位于所述兴趣点分层库中,则判断所述兴趣点分层库是否为最新数据,若所述兴趣点分层库不是最新数据,则通过地理信息中心的网格化管理接口得出相应的区县,镇街,村社及网格并将得出的数据更新到所述兴趣点分层库中;
若所述业务地址不位于所述兴趣点分层库中,则对所述业务地址和兴趣点分层库进行相似度匹配并获取相似度高的地址的第一经纬度,通过商业地图软件对所述业务地址进行模糊匹配获取第二经纬度,根据所述第一经纬度和第二经纬度分别通过地理信息中心的网格化管理接口得出相应的区县,镇街,村社及网格;
对比第一经纬度获取的网格和第二经纬度获取的网格,若一致,则采用第二经纬度并将得出的数据更新到所述兴趣点分层库中,若不一致,则采用第一经纬度及第一经纬度获取的网格数据并将得出的数据更新到所述兴趣点分层库中。
2.根据权利要求1所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述爬取步骤具体包括:
初始化URL,收集采集网站;
分析所述采集网站的网页中HTML代码的各个元素特征;
通过XPATH获取所述网页中的地址数据;
存储所述地址数据到数据库中;
判断是否位于所述网站的最后一个网页;
若是,则结束爬取步骤;
若否,则跳转到通过XPATH获取所述网页中的地址数据步骤。
3.根据权利要求1所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述第一标准地址分层库和第二标准地址分层库合并中,若兴趣点冲突则以第二标准地址分层库的为准。
4.根据权利要求1所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述固定的兴趣点地址为包含网格边界的地址信息。
5.根据权利要求1所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述相似度匹配至少有两层,第一层为单个级别内部的内容比较并计算单个级别的相似度数值,第二层为整体分级相似度比较,通过加权计算得出最终相似度,当相似度高于设定值时,从所述获取兴趣点分层库中获取对应地址的第一经纬度。
6.根据权利要求5所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述拆分具体为将所述楼房信息和固定的兴趣点地址根据地址等级进行拆分,获取地址信息形成第一标准地址分层库和第二标准地址分层库。
7.根据权利要求6所述的一种基于地理网格化技术的兴趣点库更新方法,其特征在于,所述楼房信息根据地址等级拆分后,剩余信息根据关键字拆分。
8.一种基于地理网格化技术的兴趣点库更新装置,其特征在于,包括爬取模块、标准拆分模块、第一判断模块、第二判断模块、对比模块、计算模块、通信模块及存储模块;
所述爬取模块用于爬取商业化房产公司网站的楼房信息并存储到存储模块中;
所述标准拆分模块用于分别对所述楼房信息进行标准拆分形成第一标准地址分层库、将所述第一标准地址分层库和第二标准地址分层库合并形成兴趣点分层库及将业务地址标准化;
所述第一判断模块用于判断所述业务地址是否位于所述兴趣点分层库中;
所述第二判断模块用于判断所述兴趣点分层库是否为最新数据;
所述对比模块用于对比第一经纬度获取的网格和第二经纬度获取的网格数据;
所述计算模块用于运行权利要求1-7任意一项所述的一种基于地理网格化技术的兴趣点库更新方法并协调各模块执行命令;
所述存储模块至少包括云端,用于存储数据。
9.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现如权利要求1-7任意一项所述的基于地理网格化技术的兴趣点库更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585294.0A CN112925862B (zh) | 2020-12-28 | 2020-12-28 | 基于地理网格化技术的兴趣点库更新方法及装置、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585294.0A CN112925862B (zh) | 2020-12-28 | 2020-12-28 | 基于地理网格化技术的兴趣点库更新方法及装置、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112925862A CN112925862A (zh) | 2021-06-08 |
CN112925862B true CN112925862B (zh) | 2024-03-29 |
Family
ID=76163647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011585294.0A Active CN112925862B (zh) | 2020-12-28 | 2020-12-28 | 基于地理网格化技术的兴趣点库更新方法及装置、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925862B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164512A (zh) * | 2013-02-25 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 兴趣点的地址信息的处理方法及设备 |
WO2013180812A1 (en) * | 2012-05-31 | 2013-12-05 | Google Inc. | Geographic data update based on user input |
KR101447122B1 (ko) * | 2013-04-30 | 2014-10-06 | 키위플 주식회사 | 피오아이 데이터베이스 구축 방법 및 이를 수행하기 위한 장치 |
CN109376205A (zh) * | 2018-09-07 | 2019-02-22 | 顺丰科技有限公司 | 挖掘地址兴趣点关系的方法、装置、设备及存储介质 |
-
2020
- 2020-12-28 CN CN202011585294.0A patent/CN112925862B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013180812A1 (en) * | 2012-05-31 | 2013-12-05 | Google Inc. | Geographic data update based on user input |
CN103164512A (zh) * | 2013-02-25 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 兴趣点的地址信息的处理方法及设备 |
KR101447122B1 (ko) * | 2013-04-30 | 2014-10-06 | 키위플 주식회사 | 피오아이 데이터베이스 구축 방법 및 이를 수행하기 위한 장치 |
CN109376205A (zh) * | 2018-09-07 | 2019-02-22 | 顺丰科技有限公司 | 挖掘地址兴趣点关系的方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
地名地址数据中兴趣点的建设研究;王席席;李云岭;;地理信息世界(05);全文 * |
城市地名地址及兴趣点数据建库与应用研究――以三亚市为列;程立君;冀卫东;许婷;解丽;;中国地名(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112925862A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104750799B (zh) | 一种基于地址解析数据的建设用地类型快速识别方法 | |
CN107092680B (zh) | 一种基于地理网格的政务信息资源整合方法 | |
US10281284B2 (en) | Hybrid road network and grid based spatial-temporal indexing under missing road links | |
US8996523B1 (en) | Forming quality street addresses from multiple providers | |
CN101346000B (zh) | 基于gps和移动终端的提供本地移动地理信息服务的系统 | |
CN111324679B (zh) | 地址信息的处理方法、装置和系统 | |
CN103514235B (zh) | 一种增量码库的建立方法和装置 | |
CN104006805A (zh) | 基于移动版gis的电力工程野外勘测方法 | |
Chow et al. | Geographic disparity of positional errors and matching rate of residential addresses among geocoding solutions | |
CN105913347A (zh) | 一种面向住房信息采集的房屋编码方法 | |
Cetl et al. | A comparison of address geocoding techniques–case study of the city of Zagreb, Croatia | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
Leyk et al. | Establishing relationships between parcel data and land cover for demographic small area estimation | |
Chen et al. | A spatial-temporal framework for historical and cultural research on China | |
CN103324749A (zh) | 一种基于标准文本地址的空间化解析及纠偏方法 | |
CN112925862B (zh) | 基于地理网格化技术的兴趣点库更新方法及装置、设备 | |
CN111475595A (zh) | 地理信息共享系统 | |
CN107832445A (zh) | 数据索引方法、装置及电子设备 | |
de Armas García et al. | Deployment of a National Geocoding Service: Cuban Experience. | |
CN113032693A (zh) | 一种考虑医疗设施服务能力的15分钟生活圈划分方法 | |
Miranda et al. | Volunteered geographic information in the context of local spatial data infrastructures | |
Ponjavic et al. | Spatial data integration in heterogeneous information systems’ environment | |
Florczyk et al. | Semantic selection of georeferencing services for urban management | |
Manoruang et al. | Quality analysis of online geocoding services for Thai text addresses. | |
Das et al. | Recent trends in GIS applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |