CN109670000A - 地图数据获取方法、计算机可读存储介质及终端设备 - Google Patents
地图数据获取方法、计算机可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN109670000A CN109670000A CN201811340202.5A CN201811340202A CN109670000A CN 109670000 A CN109670000 A CN 109670000A CN 201811340202 A CN201811340202 A CN 201811340202A CN 109670000 A CN109670000 A CN 109670000A
- Authority
- CN
- China
- Prior art keywords
- map
- crawls
- region
- party
- web crawlers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012886 linear function Methods 0.000 claims abstract description 22
- 230000009193 crawling Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种地图数据获取方法、计算机可读存储介质及终端设备,包括:获取目标区域的边界;根据目标区域的边界,确定网络爬虫的爬取区域,爬取区域为多条线段构成的闭合区域,爬取区域包含目标区域;针对多条线段中的任一线段所对应的直线,确定直线在第三方地图所对应的地图坐标系中的线性函数;根据多条线段所对应的线性函数,建立网络爬虫爬取第三方地图的地图数据的边界约束条件;调用第三方地图的接口,并根据边界约束条件,通过网络爬虫爬取第三方地图的地图数据。通过网络爬虫爬取最新的地图数据,提高了获取地图数据的实时性,且通过确定网络爬虫爬取区域的边界,避免了爬虫爬取大量的无效数据,降低了服务器的计算量。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种地图数据获取方法、计算机可 读存储介质及终端设备。
背景技术
随着计算机网络技术和地理信息技术的迅猛发展,地理信息数据作为一种 重要的基础信息数据资源,使其不仅在城市规划、交通导航、灾害监测、国防 军事等国家建设领域得到广泛的应用,而且,与人们的日常生活联系的也越来 越紧密,例如,从人们日常出行中用到的手机地图和车载导航地图,到基础建 设中的高速铁路、机场、城市规划与建设等,都离不开地理信息的支持。
在很多场景下,需要获取实时性较高的地图数据,然而,在现有技术中, 通过地理信息服务商获取地理信息,只能通过服务商提供的官方下载途径获取 离线地图,离线地图的延时性较高,与当下获取信息时的真实环境出入较大, 因此,如何获取实时性较高的地图数据,是一个亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种地图数据获取方法、计算机可读存储 介质及终端设备,以解决现有技术中获取的地图数据实时性差的问题。
本发明实施例的第一方面提供了一种地图数据获取方法,包括:
获取目标区域的边界;
根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区域为多 条线段构成的闭合区域,所述爬取区域包含所述目标区域;
针对所述多条线段中的任一线段所对应的直线,确定所述直线在第三方地 图所对应的地图坐标系中的线性函数;
根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三方地图 的地图数据的边界约束条件;
调用所述第三方地图的接口,并根据所述边界约束条件,通过网络爬虫爬 取所述第三方地图的地图数据。
本发明实施例的第二方面提供了一种分布式网络爬虫系统,该系统包含一 台控制服务器和多台数据采集服务器,所述控制服务器分别与每台数据采集服 务器相连,该系统用于:
所述控制服务器获取目标区域的边界;
所述控制服务器根据所述目标区域的边界,确定网络爬虫的爬取区域,所 述爬取区域为多条线段构成的闭合区域,所述爬取区域包含所述目标区域;
所述控制服务器针对所述多条线段中的任一线段所对应的直线,确定所述 直线在第三方地图所对应的地图坐标系中的线性函数;
所述控制服务器根据所述多条线段所对应的线性函数,建立网络爬虫爬取 所述第三方地图的地图数据的边界约束条件;
所述数据采集服务器调用所述第三方地图的接口,并根据所述边界约束条 件,通过网络爬虫爬取所述第三方地图的地图数据。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可 读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现 如下步骤:
获取目标区域的边界;
根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区域为多 条线段构成的闭合区域,所述爬取区域包含所述目标区域;
针对所述多条线段中的任一线段所对应的直线,确定所述直线在第三方地 图所对应的地图坐标系中的线性函数;
根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三方地图 的地图数据的边界约束条件;
调用所述第三方地图的接口,并根据所述边界约束条件,通过网络爬虫爬 取所述第三方地图的地图数据。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及 存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器 执行所述计算机可读指令时实现如下步骤:
获取目标区域的边界;
根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区域为多 条线段构成的闭合区域,所述爬取区域包含所述目标区域;
针对所述多条线段中的任一线段所对应的直线,确定所述直线在第三方地 图所对应的地图坐标系中的线性函数;
根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三方地图 的地图数据的边界约束条件;
调用所述第三方地图的接口,并根据所述边界约束条件,通过网络爬虫爬 取所述第三方地图的地图数据。
本发明提供了一种地图数据获取方法、计算机可读存储介质及终端设备, 通过网络爬虫爬取最新的地图数据,提高了获取地图数据的实时性,且通过确 定网络爬虫爬取区域的边界,避免了爬虫大量的无效数据,降低了服务器的计 算量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地图数据获取方法的流程示意图;
图2为本发明实施例提供的一种目标区域的示意图;
图3为本发明实施例提供的一种网络爬虫爬取区域的示意图;
图4a为本发明实施例提供的一种地图网格示意图;
图4b为本发明实施例提供的另一种网络爬虫爬取区域的示意图;
图5为本发明实施例提供的一种通过网络爬虫爬取第三方地图的地图数据 的方法流程示意图;
图6为本发明实施例提供的又一种通过网络爬虫爬取第三方地图的地图数 据的方法流程示意图;
图7为本发明实施例提供的一种分布式网络爬虫系统的结构框图;
图8为本发明实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术 之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当 清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中, 省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节 妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
本发明实施例提供了一种地图数据获取方法。结合图1,该方法包括:
S101,获取目标区域的边界。
通过第三方地理信息数据服务网站,输入目标区域的名称,即可获取该目 标区域的边界。如图2所示,即为一个目标区域的边界。该目标区域的边界上 每一个点的经纬度都可以点击获得。
S102,根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区 域为多条线段构成的闭合区域,所述爬取区域包含所述目标区域。
如图1所示,目标区域的边界是不规则的,无法通过函数进行边界的限定。 而通过网络爬虫进行基于空间位置的地理信息遍历,首先要确定网络爬虫的爬 取区域,该爬取区域的边界可由通过计算求取的函数表示。
具体的,本发明实施例提供两种根据目标区域的边界,确定网络爬虫的爬 取区域的方法:
第一种方法:在目标区域的边界上选取多个点,对所述多个点中任意相邻 的两个点进行连接,获得一个闭合区域,所述闭合区域为所述网络爬虫的爬取 区域。
如图3所示,在目标区域的边界上选取A至G七个点,依次链接A→B→ C→D→E→F→G→A,得到的闭合区域即为网络爬虫的爬取区域。
第二种方法,在第三方地图上建立网格,所述网格由多个连续但不重叠的 矩形区域构成;根据所述网格和所述目标区域的边界,在所述网格中确定多个 矩形区域,其中,针对任一矩形区域,所述矩形区域与所述目标区域具有重叠 部分;根据所述多个矩形区域,确定网络爬虫的爬取区域。
具体的,如图4a所示,在第三地图上建立网格,网格尺寸可以自定义,如 网格中每个小矩形区域代表1km×1km的区域,网格中的每个小矩形区域的面 积相同,根据网格的建立规则,每个小矩形区域四条边界的经纬度可以确定。
在网格中进行爬取区域边界的确定,可选的,确定网格中所有与目标区域 有重叠的小矩形区域,如图4b所示,图4b中所有与目标区域有重叠的小矩形 区域所构成的区域,即为网络爬虫的爬取区域。
S103,针对所述多条线段中的任一线段所对应的直线,确定所述直线在第 三方地图所对应的地图坐标系中的线性函数。
可选的,若采用如步骤S102中的第一种确定爬取区域的方法,由于在目 标区域上选取的多个点的经纬度可通过第三方地图直接获得,如点A至点G的 经纬度是已知的,由此,在地图坐标系确定的情况下,可获得两点相连所对应 的直线的线性函数。如用于表示直线AB的线性函数,用于表示直线BC的线 性函数等。
另一种可选的,若采用如步骤S102中的第二种确定爬取区域的方法,在 地图坐标系确定的情况下,由于网格中每个小矩形区域对应的经纬度是确定的, 此时,爬取区域的边界中每个先对所对应直线的线性函数也是确定的。
S104,根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三 方地图的地图数据的边界约束条件。
可选的,若采用如步骤S102中的第一种确定爬取区域的方法,此时,网 络爬虫爬取第三方地图数据的边界约束条件为步骤S103中确定的爬取区域的 边界所对应的多条直线所对应的闭合区域;
若采用如步骤S102中的第二种确定爬取区域的方法,此时,网络爬虫所 爬取第三方地图的地图数据的边界约束条件是爬取区域的边界所对应的多条直 线及直线的交点。
S105,调用所述第三方地图的接口,并根据所述边界约束条件,通过网络 爬虫爬取所述第三方地图的地图数据。
在本发明实施例中,提供两种网络爬虫爬取第三方地图的地图数据的方法:
结合图5,第一种爬取第三方地图的地图数据的方法包括:
S1051,建立建筑物列表、道路列表和交叉路口列表。
S1052,在所述目标区域中选取起始点,通过网络爬虫爬取以所述起始点 为中心,以预设长度为半径的圆的范围内的所有建筑物、道路和交叉路口。
S1053,将爬取到的建筑物存储至所述建筑物列表,将所述道路存储至所 述道路列表,将所述交叉路口存储至所述交叉路口列表。
S1054,遍历所述建筑物列表,针对建筑物列表中的任一建筑物,通过网 络爬虫爬取以所述建筑物为中心,以所述预设长度为半径的圆的范围内的所有 建筑物、道路和交叉路口。
S1055,将新爬取到的不属于建筑物列表中的建筑物存储至所述建筑物列 表,将新爬取到的不属于所述道路列表中的道路存储至所述道路列表,将新爬 取到的不属于所述交叉路口列表中的交叉路口存储至所述交叉路口列表,直至 所述建筑物列表中不再出现新的建筑物,且所述建筑物列表中的每个建筑物都 得到一次遍历。
具体的,本方法主要用于爬取建筑物信息、道路信息和交叉路口信息。这 一类信息主要为离散数据,包含数据类型信息和数据信息。网络爬虫根据数据 类型进行数据的爬取。在本发明实施例中,预设置三个信息列表,分别为建筑 为列表、道路列表和交叉路口列表,这三个列表的初始状态为空。在目标区域 中选取一个网络爬虫爬取地图信息的起始点,可选的,该起始点为目标区域中 心附近的点。
网络爬虫爬取以所述起始点为中心,以预设长度为半径的圆的范围内的所 有建筑物、道路和交叉路口。例如,该起始点为点A,通过网络爬虫爬取以起 始点A为圆心,以预设长度,如1Km为半径的圆的范围内的所有建筑物、道 路和交叉路口,将爬取到的建筑物存储至所述建筑物列表,将所述道路存储至 所述道路列表,将所述交叉路口存储至所述交叉路口列表。
之后,遍历所述建筑物列表,针对建筑物列表中的任一建筑物,通过网络 爬虫爬取以所述建筑物为中心,以所述预设长度为半径的圆的范围内的所有建 筑物、道路和交叉路口。例如,通过网络爬虫爬取以A为圆心,以1Km为半 径的圆的范围内的所有建筑物,得到5个建筑物,将这5个建筑物的信息放入 建筑物列表,之后,分别以这5个建筑物为圆心,以1km为半径,通过网络爬 虫爬取5个圆的范围内的所有建筑物、道路和交叉路口。将获取到的新的建筑 物放入建筑物列表、新的道路放入道路列表、新的交叉路口放入交叉路口列表。
之后,再次以新添加的建筑物为圆心,以预设距离为半径,继续爬取建筑 物。道路和交叉路口,将新爬取到的不属于建筑物列表中的建筑物存储至所述 建筑物列表,将新爬取到的不属于所述道路列表中的道路存储至所述道路列表, 将新爬取到的不属于所述交叉路口列表中的交叉路口存储至所述交叉路口列表, 直至所述建筑物列表中不再出现新的建筑物,且所述建筑物列表中的每个建筑 物都得到一次遍历。
结合图6,第二种爬取第三方地图的地图数据的方法包括:
S1056,创建检索词词库,所述检索词词库中包含多个检索词,所述检索 词用于表示网络爬虫的爬取目标。
具体的,针对中文词库,可根据常用检索词进行分类和细化,举例来说, 可将检索内容分为多个大类,如餐饮、购物、住宿、出行、文体娱乐、生活服 务、教育、医疗、企事业单位、公共服务设施、房产等多个大类。每个大类细 分关键词,房产的细分关键词为大厦、写字楼、小区、公寓等。
S1057,针对任一检索词,调用第三方地图接口,输入所述检索词,获得 统一资源定位符URL列表。
具体的,针对检索词词库中的任一检索词,调用第三方地图接口,输入该 检索词,第三方地图展示根据该检索词获取的所有相关的地理信息,获得一个 列表,通过该列表,获得每个地里信息所对应的URL(Uniform Resource Locator, 统一资源定位符),得到统一资源定位符列表。
S1058,根据所述边界约束条件,通过网络爬虫爬取所述URL列表中的地 图数据。
根据URL列表中的URL,通过网络爬虫依次爬取每个URL所对应的地图 数据。
本发明实施例提供了一种地图数据获取方法,该方法通过网络爬虫爬取最 新的地图数据,提高了获取地图数据的实时性,且通过确定网络爬虫爬取区域 的边界,避免了爬虫爬取大量的无效数据,降低了服务器的计算量。
结合图7,本发明实施例提供了一种分布式网络爬虫系统,该系统包括: 一台控制服务器71和多台数据采集服务器72,所述控制服务器71分别与每台 数据采集服务器72相连,该系统用于:
所述控制服务器71获取目标区域的边界;
所述控制服务器71根据所述目标区域的边界,确定网络爬虫的爬取区域, 所述爬取区域为多条线段构成的闭合区域,所述爬取区域包含所述目标区域;
所述控制服务器71针对所述多条线段中的任一线段所对应的直线,确定所 述直线在第三方地图所对应的地图坐标系中的线性函数;
所述控制服务器71根据所述多条线段所对应的线性函数,建立网络爬虫爬 取所述第三方地图的地图数据的边界约束条件;
所述数据采集服务器72调用所述第三方地图的接口,并根据所述边界约束 条件,通过网络爬虫爬取所述第三方地图的地图数据。
进一步的,所述控制服务器71还用于:将所述爬取区域划分为N个子区 域,并依次确定每个子区域的边界约束条件,选取N台数据采集服务器72,并 依次向每台数据采集服务器72发送一个子任务请求消息,所述子任务请求消息 中包含一个子区域的边界约束条件,任意两台数据采集服务器72所接收到的子 任务请求消息中所携带的子区域的边界约束条件不同,N为大于等于2的正整 数;
针对所述N台数据采集服务器72中的任一数据采集服务器72,所述数据 采集服务器72用于:调用所述第三方地图的接口,根据所述子任务请求消息中 的子区域的边界约束条件,通过网络爬虫爬取所述第三方地图中所述子区域所 对应的地图数据。
进一步的,所述控制服务器71还用于:将所述检索词词库中的检索词分为 N组,每一组包含至少一个检索词,任意两组之间不包含重复的检索词,选取 N台数据采集服务器72,并依次向每台数据采集服务器72发送一个子任务请 求消息,所述子任务请求消息中包含一组检索词和所述爬取区域所对应的边界 约束条件,任意两台数据采集服务器72所接收到的子任务请求消息中所携带的 检索词不同,N为大于等于2的正整数;
针对所述N台数据采集服务器72中的任一数据采集服务器,所述数据采 集服务器72用于:调用所述第三方地图的接口,根据所述子任务请求消息中的 检索词和所述爬取区域所对应的边界约束条件,通过网络爬虫爬取所述第三方 地图中所述检索词所对应的地图数据。
本发明实施例提供了一种分布式网络爬虫系统,用于实现如图1、图6和 图7所对应的实施例的方法,该系统通过网络爬虫爬取最新的地图数据,提高 了获取地图数据的实时性,且通过确定网络爬虫爬取区域的边界,避免了爬虫 爬取大量的无效数据,降低了服务器的计算量。并且,该系统通过控制服务器 进行任务的分配,使得多台数据采集服务器同时进行地图数据的爬取,提高了 网络爬虫爬取地图数据的效率。
图8为本发明实施例四提供的地图数据获取终端设备的示意图。如图8所 示,该实施例的地图数据获取终端设备8包括:处理器80、存储器81以及存 储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如地图 数据获取程序。所述处理器80执行所述计算机程序82时实现上述各个地图数 据获取方法实施例中的步骤,例如图1所示的步骤101至105,或图5所示的 步骤1051至1055,或图6所示的1056至1058。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述 一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行, 以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计 算机程序指令段,该指令段用于描述所述计算机程序82在所述地图数据获取终 端设备8中的执行过程。
所述地图数据获取终端设备8可以是桌上型计算机、笔记本、掌上电脑及 云端服务器等计算设备。所述地图数据获取终端设备可包括,但不仅限于,处 理器80、存储器81。本领域技术人员可以理解,图8仅仅是地图数据获取终端 设备8的示例,并不构成对地图数据获取终端设备8的限定,可以包括比图示 更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述地图数据 获取终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器80可以是中央处理单元(Central Processing Unit,CPU),还可 以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用 集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理 器也可以是任何常规的处理器等。
所述存储器81可以是所述地图数据获取终端设备8的内部存储单元,例如 地图数据获取终端设备8的硬盘或内存。所述存储器81也可以是所述地图数据 获取终端设备8的外部存储设备,例如所述地图数据获取终端设备8上配备的 插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所 述地图数据获取终端设备8的内部存储单元也包括外部存储设备。所述存储器 81用于存储所述计算机程序以及所述地图数据获取终端设备所需的其他程序 和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质 存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述 地图数据获取方法的步骤。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的 形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质 中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或 者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的 存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、 随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以 存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照 前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发 明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种地图数据获取方法,其特征在于,该方法包括:
获取目标区域的边界;
根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区域为多条线段构成的闭合区域,所述爬取区域包含所述目标区域;
针对所述多条线段中的任一线段所对应的直线,确定所述直线在第三方地图所对应的地图坐标系中的线性函数;
根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三方地图的地图数据的边界约束条件;
调用所述第三方地图的接口,并根据所述边界约束条件,通过网络爬虫爬取所述第三方地图的地图数据。
2.根据权利要求1所述的地图数据获取方法,其特征在于,所述根据所述目标区域的边界,确定网络爬虫的爬取区域包括:
在所述目标区域的边界上选取多个点;
对所述多个点中任意相邻的两个点进行连接,获得一个闭合区域,所述闭合区域为所述网络爬虫的爬取区域。
3.根据权利要求1所述的地图数据获取方法,其特征在于,所述根据所述目标区域的边界,确定网络爬虫的爬取区域包括:
在所述第三方地图上建立网格,所述网格由多个连续但不重叠的矩形区域构成;
根据所述网格和所述目标区域的边界,在所述网格中确定多个矩形区域,其中,针对任一矩形区域,所述矩形区域与所述目标区域具有重叠部分;
根据所述多个矩形区域,确定网络爬虫的爬取区域。
4.根据权利要求1-3任一项所述的地图数据获取方法,其特征在于,所述通过网络爬虫爬取所述第三方地图的地图数据包括:
建立建筑物列表、道路列表和交叉路口列表;
在所述目标区域中选取起始点,通过网络爬虫爬取以所述起始点为中心,以预设长度为半径的圆的范围内的所有建筑物、道路和交叉路口;
将爬取到的建筑物存储至所述建筑物列表,将所述道路存储至所述道路列表,将所述交叉路口存储至所述交叉路口列表;
遍历所述建筑物列表,针对建筑物列表中的任一建筑物,通过网络爬虫爬取以所述建筑物为中心,以所述预设长度为半径的圆的范围内的所有建筑物、道路和交叉路口;
将新爬取到的不属于建筑物列表中的建筑物存储至所述建筑物列表,将新爬取到的不属于所述道路列表中的道路存储至所述道路列表,将新爬取到的不属于所述交叉路口列表中的交叉路口存储至所述交叉路口列表,直至所述建筑物列表中不再出现新的建筑物,且所述建筑物列表中的每个建筑物都得到一次遍历。
5.根据权利要求1至3任一项所述的地图数据获取方法,其特征在于,所述通过网络爬虫爬取所述第三方地图的地图数据包括:
创建检索词词库,所述检索词词库中包含多个检索词,所述检索词用于表示网络爬虫的爬取目标;
针对任一检索词,调用第三方地图接口,输入所述检索词,获得统一资源定位符URL列表;
根据所述边界约束条件,通过网络爬虫爬取所述URL列表中的地图数据。
6.一种分布式网络爬虫系统,其特征在于,所述分布式网络爬虫系统包含一台控制服务器和多台数据采集服务器,所述控制服务器分别与每台数据采集服务器相连,该系统用于:
所述控制服务器获取目标区域的边界;
所述控制服务器根据所述目标区域的边界,确定网络爬虫的爬取区域,所述爬取区域为多条线段构成的闭合区域,所述爬取区域包含所述目标区域;
所述控制服务器针对所述多条线段中的任一线段所对应的直线,确定所述直线在第三方地图所对应的地图坐标系中的线性函数;
所述控制服务器根据所述多条线段所对应的线性函数,建立网络爬虫爬取所述第三方地图的地图数据的边界约束条件;
所述数据采集服务器调用所述第三方地图的接口,并根据所述边界约束条件,通过网络爬虫爬取所述第三方地图的地图数据。
7.根据权利要求6所述的分布式网络爬虫系统,其特征在于,所述控制服务器还用于:
将所述爬取区域划分为N个子区域,并依次确定每个子区域的边界约束条件,选取N台数据采集服务器,并依次向每台数据采集服务器发送一个子任务请求消息,所述子任务请求消息中包含一个子区域的边界约束条件,任意两台数据采集服务器所接收到的子任务请求消息中所携带的子区域的边界约束条件不同,N为大于等于2的正整数;
针对所述N台数据采集服务器中的任一数据采集服务器,所述数据采集服务器用于:调用所述第三方地图的接口,根据所述子任务请求消息中的子区域的边界约束条件,通过网络爬虫爬取所述第三方地图中所述子区域所对应的地图数据。
8.根据权利要求6所述的分布式网络爬虫系统,其特征在于,所述控制服务器还用于:
将所述检索词词库中的检索词分为N组,每一组包含至少一个检索词,任意两组之间不包含重复的检索词,选取N台数据采集服务器,并依次向每台数据采集服务器发送一个子任务请求消息,所述子任务请求消息中包含一组检索词和所述爬取区域所对应的边界约束条件,任意两台数据采集服务器所接收到的子任务请求消息中所携带的检索词不同,N为大于等于2的正整数;
针对所述N台数据采集服务器中的任一数据采集服务器,所述数据采集服务器用于:调用所述第三方地图的接口,根据所述子任务请求消息中的检索词和所述爬取区域所对应的边界约束条件,通过网络爬虫爬取所述第三方地图中所述检索词所对应的地图数据。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
10.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340202.5A CN109670000A (zh) | 2018-11-12 | 2018-11-12 | 地图数据获取方法、计算机可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340202.5A CN109670000A (zh) | 2018-11-12 | 2018-11-12 | 地图数据获取方法、计算机可读存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670000A true CN109670000A (zh) | 2019-04-23 |
Family
ID=66141756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811340202.5A Pending CN109670000A (zh) | 2018-11-12 | 2018-11-12 | 地图数据获取方法、计算机可读存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670000A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472797A (zh) * | 2019-08-22 | 2019-11-19 | 江苏省城市规划设计研究院 | 一种基于web的城市公交复杂网络自动化生成方法 |
CN110992681A (zh) * | 2019-07-10 | 2020-04-10 | 当家移动绿色互联网技术集团有限公司 | 交通路网属性信息生成方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090094199A1 (en) * | 2007-10-05 | 2009-04-09 | Microsoft Corporation | Dynamic sitemap creation |
US7599920B1 (en) * | 2006-10-12 | 2009-10-06 | Google Inc. | System and method for enabling website owners to manage crawl rate in a website indexing system |
US20110173066A1 (en) * | 2010-01-14 | 2011-07-14 | Sean Simmons | Methods and apparatus for performing enhanced queries for items such as maps and geospatial data |
CN106897432A (zh) * | 2017-02-27 | 2017-06-27 | 广州视源电子科技股份有限公司 | 一种在电子地图中爬取地标信息的系统和方法 |
US20170337205A1 (en) * | 2016-05-18 | 2017-11-23 | National Central University | Geospatial Web Crawler Architecture |
-
2018
- 2018-11-12 CN CN201811340202.5A patent/CN109670000A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7599920B1 (en) * | 2006-10-12 | 2009-10-06 | Google Inc. | System and method for enabling website owners to manage crawl rate in a website indexing system |
US20090094199A1 (en) * | 2007-10-05 | 2009-04-09 | Microsoft Corporation | Dynamic sitemap creation |
US20110173066A1 (en) * | 2010-01-14 | 2011-07-14 | Sean Simmons | Methods and apparatus for performing enhanced queries for items such as maps and geospatial data |
US20170337205A1 (en) * | 2016-05-18 | 2017-11-23 | National Central University | Geospatial Web Crawler Architecture |
CN106897432A (zh) * | 2017-02-27 | 2017-06-27 | 广州视源电子科技股份有限公司 | 一种在电子地图中爬取地标信息的系统和方法 |
Non-Patent Citations (5)
Title |
---|
HAHA_POINT: "百度地图POI数据爬取,突破百度地图API爬取数目‘400条’的限制", pages 1 - 8, Retrieved from the Internet <URL:https://blog.csdn.net /haha_point/article/details/78079614> * |
WEIXIN_34128237: "python实现地理位置数据类爬取与geohash应用初探", pages 1 - 11, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_34128237/article/details/89938956> * |
前端荣耀: "地图小区景点边界轮廓实现", pages 1 - 9, Retrieved from the Internet <URL:https://segmentfault.com/a/1190000016539235?utm_source=sf-related> * |
审计署审计科研所课题组: "《审计技术创新发展报告及案例选编(2013)上册》", vol. 2014, 30 September 2014, 中国时代经济出版社, pages: 389 - 395 * |
钱建国;马占武;: "经验爬虫应用于网络地图服务获取", 测绘与空间地理信息, no. 03, pages 14 - 21 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992681A (zh) * | 2019-07-10 | 2020-04-10 | 当家移动绿色互联网技术集团有限公司 | 交通路网属性信息生成方法、装置、存储介质及电子设备 |
CN110992681B (zh) * | 2019-07-10 | 2021-06-11 | 北京五一视界数字孪生科技股份有限公司 | 交通路网属性信息生成方法、装置、存储介质及电子设备 |
CN110472797A (zh) * | 2019-08-22 | 2019-11-19 | 江苏省城市规划设计研究院 | 一种基于web的城市公交复杂网络自动化生成方法 |
CN110472797B (zh) * | 2019-08-22 | 2021-04-23 | 江苏省城市规划设计研究院 | 一种基于web的城市公交复杂网络自动化生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiao et al. | A novel next new point-of-interest recommendation system based on simulated user travel decision-making process | |
Antikainen | Comparison of different strategies for determining raster‐based least‐cost paths with a minimum amount of distortion | |
CN110399445B (zh) | 一种兴趣点的处理方法、装置及设备 | |
US20140358603A1 (en) | Iterative public transit scoring | |
Wang et al. | A context-based geoprocessing framework for optimizing meetup location of multiple moving objects along road networks | |
Bae et al. | Simulation-based analyses of an evacuation from a metropolis during a bombardment | |
US20150205838A1 (en) | Geospatial queries using associated distribution data | |
Jia et al. | Measuring the vibrancy of urban neighborhoods using mobile phone data with an improved PageRank algorithm | |
CN109670000A (zh) | 地图数据获取方法、计算机可读存储介质及终端设备 | |
Shekhar et al. | From GPS and virtual globes to spatial computing-2020 | |
Basmi et al. | Distributed and scalable platform architecture for smart cities complex events data collection: Covid19 pandemic use case | |
US20190034468A1 (en) | Foundation Theory And Method of Internet Map/Platform Iconology/Markerology | |
Anastasiou et al. | ASTRO: reducing COVID-19 exposure through contact prediction and avoidance | |
Foschini et al. | Edge-enabled mobile crowdsensing to support effective rewarding for data collection in pandemic events | |
Ibragimov et al. | Introduction to GIS Application in the Land Cadastre | |
Montagna et al. | Gradient-based self-organisation patterns of anticipative adaptation | |
Bakkal et al. | Modeling and querying trajectories using Neo4j spatial and TimeTree for carpool matching | |
Mitchell et al. | Geographies of locative apps | |
National Research Council et al. | IT roadmap to a geospatial future | |
Kannan et al. | Geographical information system and crime mapping | |
CN104713547A (zh) | 一种生成位置信息的方法和终端 | |
Andris et al. | Spatial network analysis | |
de Almeida | Urban tourism crowding dynamics: Carrying capacity and digital twinning | |
CN115063175A (zh) | 店铺服务范围划定方法、系统、计算机设备及存储介质 | |
Kaur et al. | A study on location based services and TTP based privacy preserving techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |