CN113254747A

CN113254747A - 基于分布式网络爬虫的地理空间数据获取系统及方法

Info

Publication number: CN113254747A
Application number: CN202110640002.7A
Authority: CN
Inventors: 杜志强; 呙维
Original assignee: Nanjing Beidou Innovation And Application Technology Research Institute Co ltd
Current assignee: Nanjing Beidou Innovation And Application Technology Research Institute Co ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-13
Anticipated expiration: 2041-06-09
Also published as: CN113254747B

Abstract

本发明公开了一种基于分布式网络爬虫的地理空间数据获取系统及方法，系统包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块，通过网络爬虫的方式进行互联网空间信息采集，抽取出目标数据及时存入数据库中，可以为对泛在地理空间数据进行进一步的管理使用提供了数据基础。清楚各种来源数据的特点和共同之处。通过归类总结不同类型数据、不同来源数据的获取方法，针对重要的泛在地理空间数据源设计定制化的数据获取应用，并将其融合到分布式爬虫框架中进行综合调度管理，可以实现良好的泛在数据获取效果。

Description

基于分布式网络爬虫的地理空间数据获取系统及方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于分布式网络爬虫的地理空间数据获取系统及方法。

背景技术

空间信息在过去是依赖专业人员通过专业工具测量的方式获取，而随着互联网、物联网等技术的发展，任何人都可以通过手机等个人设备快捷获取、并共享空间位置信息。这种智能、实时、高效的地理情境感知式的“全民测绘”体现了泛在地理信息服务的特征，让我们进入了泛在测绘的时代。泛在地理空间信息由空间信息和泛在测绘的概念拓展而来，指无处不在的地理空间信息，既包括专业测绘数据，也包括互联网上各类垂直网站、社交媒体中带有地理位置信息的视频流、文章等主题信息，以及人们使用智能手机共享的地理位置相关信息。

公开互联网环境下的信息搜集，是获取泛在地理空间信息的重要途径之一。由于互联网环境下数据种类多样、来源广泛，如何高效快速地从公开互联网获取各类泛在地理空间信息成为一个重要问题。

当前，网络爬虫是一种可以自动在网络上遍历网页查找信息的技术，它可以辅助相关人员从目标数据源站点定向爬取数据。网络爬虫的基础工作逻辑是从一个链接请求开始，在固定的目标网站上进行精准的数据搜集，之后通过网络协议获取网页加载结果，解析页面内容并抽取出有效数据链接，再以循环迭代的方式完成对整个数据网络的遍历访问。

因此，如何通过网络爬虫的方式进行互联网空间信息采集，抽取出目标数据及时存入数据库中，为对泛在地理空间数据进行进一步的管理使用提供了数据基础，是当前需要解决的问题。

发明内容

本发明的目的是克服如何通过网络爬虫的方式获取地理空间数据的问题。本发明的基于分布式网络爬虫的地理空间数据获取系统及方法，能够支持对多源异构web互联网站点的地理空间数据进行分布式获取，支持纳管多类型的单机地理空间爬虫应用；通过独有的调度引擎机制，充分利用分布式集群环境下的多机计算资源，调用单体爬虫应用来进行并行的数据获取，从而能够提高数据获取效率，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于分布式网络爬虫的地理空间数据获取系统，包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块，

所述用户需求发布模块，用于支持用户在选择获取数据的类型、设置获取数据的时空范围，配置数据抓取的周期参数，并编辑完成后提交调度引擎服务模块，并由调度引擎服务模块将用户需求保存分布式爬虫数据库模块；

所述调度引擎服务模块，用于接收用户需求，并将用户需求拆解为可执行的爬虫子任务，同时支持向HTCondor集群模块提交爬虫任务，并监控爬虫任务的执行状态，对不同的任务状态做出针对性的响应操作；

所述可执行爬虫程序集模块，用于执行各类数据的任务拆分、数据源解析、数据抓取、数据下载入数据库的过程，并由各个定制化的爬虫小程序来完成，将定制化爬虫程序集合在一起，构成可执行程序集，便于可执行爬虫程序集模块分发任务提交HTCondor集群模块执行；

所述HTCondor集群模块，用于将当前提交的所有爬虫子任务，有序分配到符合爬虫程序资源要求的计算机节点下执行，执行结果通过分布式爬虫数据库模块输出到指定路径下，具体是通过一个任务提交节点、一个中央管理节点匹配若干个任务执行节点的配置，该任务提交节点可同时为中央管理节点；

所述分布式爬虫数据库模块，包括任务数据库、去重数据库，所述任务数据库，用于负责存储用户需求配置信息和爬虫任务的状态记录信息；所述去重数据库，用于存储各类定制化爬虫程序，且保存爬虫获取抓取数据的唯一标识键值对信息，辅助爬虫进行数据抓取时的元数据比对，去重数据库已有的数据爬虫将不再重复爬取。

前述的基于分布式网络爬虫的地理空间数据获取系统，所述用户需求发布模块，用于支持用户在选择获取数据的类型、设置获取数据的时空范围，配置数据抓取的周期参数，具体为：

数据的类型为GE影像，其的支持用户配置包括空间范围：经纬度矩形范围；层级范围：瓦片切割层级；时间范围：影像发布年限范围；下载周期：可设置一次性抓取或按指定频率循环抓取，

数据的类型为鸽群卫星影像，其的支持用户配置包括空间范围：经纬度矩形范围；层级范围：瓦片切割层级；数据来源：可多选，将近10个影像源；下载周期：可设置一次性抓取或按指定频率循环抓取，

数据的类型为AIS船舶动态数据，其的支持用户配置包括空间范围：经纬度矩形范围；时间范围：船舶行驶轨迹的时间范围；精准监测：可输入船舶id、或船舶名称；下载周期：可设置一次性抓取或按指定频率循环抓取，

数据的类型为水深测量重磁力数据其的支持用户配置包括空间范围：经纬度矩形范围；层级范围：瓦片切割层级；下载周期：可设置一次性抓取或按指定频率循环抓取。

前述的基于分布式网络爬虫的地理空间数据获取系统，所述调度引擎服务模块，包括用户需求管理单元、任务分割单元、HTCondor作业提交单元和HTCondor任务监控单元，

所述用户需求管理单元，用于任务调度引擎响应用户在前端提交的数据获取需求，将需求保存入分布式爬虫数据库模块，并在对应需求在整个爬虫任务调度执行过程中的状态进行同步更新和维护；

所述任务分割单元，用于任务调度引擎根据用户提交需求中的配置信息，驱动对应的爬虫程序完成子任务分割，并将分割生成的子任务保存入分布式爬虫数据库模块；

所述HTCondor作业提交单元，用于任务调度引擎从分布式爬虫数据库模块中读取未提交任务，并驱动HTCondor集群模块内的节点来完成任务的提交，该过程已HTCondor集群模块分配该作业执行节点为终点；

所述HTCondor任务监控单元，用于在爬虫任务创建后，任务调度引擎轮询HTCondor集群模块作业状态，并根据HTCondor集群模块下对应每个任务的状态、进度更新对应数据库记录，并对异常状态进行对应处理。

前述的基于分布式网络爬虫的地理空间数据获取系统，所述可执行爬虫程序集模块的爬虫程序包括GE倾斜摄影模型数据爬虫程序、GE遥感影像瓦片爬虫程序、OSM矢量\栅格爬虫程序、运动轨迹数据爬虫程序、AIS船舶轨迹爬虫程序、人文类数据爬虫程序，

所述可执行爬虫程序集模块还包括任务分割接口、进度反馈接口、数据去重接口和数据输出接口，各接口均符合爬虫架构的调度接口规范，所述任务分割接口，用于响应任务调度引擎的任务分割请求，并将任务分割结果反馈给任务调度引擎；所述进度反馈接口，用于将任务完成进度及时反馈入分布式爬虫数据库模块；所述数据去重接口，用于连接分布式爬虫数据库模块内的去重数据库，实现数据的更新获取；所述数据输出接口，用于识别数据储存目标地址，实现规范化的数据输出。

前述的基于分布式网络爬虫的地理空间数据获取系统，所述HTCondor集群模块，一组HTCondor集群资源池默认只允许一台中央管理主机，该中央管理主机节点是集群的计算资源信息库，资源池中所有作业的调度都与该机关联。

前述的基于分布式网络爬虫的地理空间数据获取系统，所述任务数据库选型为PostgreSQL，并包括三张数据表，分别为存储用户原始数据需求信息记录表、爬虫任务单次执行记录表和HTCondor任务记录表；所述去重数据库选型为key-velue类型数据库RocksDB，每个需要获取的数据类型会对应创建一张表，相同数据类型的多个任务实例通过连接、维护相同的去重数据表来保证数据更新获取。

一种基于分布式网络爬虫的地理空间数据获取系统的获取方法，

步骤（A），用户需求发布，用户在前端选择自己想要获取数据的类型、设置获取数据的时空范围，配置数据抓取的周期参数，编辑完成后可提交后台调度引擎服务；

步骤（B），用户需求管理启动，任务调度引擎响应用户在前端提交的数据获取需求，将需求保存入库，并在对应需求在整个爬虫任务调度执行过程中的状态进行同步更新和维护；

步骤（C），任务分割，任务调度引擎根据用户提交需求中的配置信息，驱动对应的爬虫程序完成子任务分割，并将分割生成的子任务保存入数据库；

步骤（D），HTCondor作业提交，任务调度引擎从数据库中读取未提交任务，并驱动HTCondor作业提交节点来完成任务的提交，该过程已HTCondor集群分配了作业执行节点为终点，且任务调度引擎会轮询HTCondor集群作业状态，并根据集群下对应每个任务的状态、进度更新对应数据库记录，并对异常状态进行对应处理；

步骤（E），通过HTConodor集群资源池下提交的所有爬虫子任务会被有序分配到符合爬虫程序资源要求的计算机节点下执行，执行结果输出到分布式爬虫数据库模块指定路径下，完成用户需求发布的内容；

步骤（F），根据用户需求发布，重复步骤（A）-步骤（E），完成基于分布式网络爬虫的地理空间数据获取。

本发明的有益效果是：本发明的基于分布式网络爬虫的地理空间数据获取系统及方法，能够支持对多源异构web互联网站点的地理空间数据进行分布式获取，支持纳管多类型的单机地理空间爬虫应用；通过独有的调度引擎机制，充分利用分布式集群环境下的多机计算资源，调用单体爬虫应用来进行并行的数据获取，从而能够提高数据获取效率，通过网络爬虫的方式进行互联网空间信息采集，抽取出目标数据及时存入数据库中，可以为对泛在地理空间数据进行进一步的管理使用提供了数据基础，并针对互联网环境下地理空间数据的特征进行分布式网络爬虫设计，增量数据的特点在数据源数量多、数据结构各异、数据获取方式各有差别，想要获取对应数据，必须研究数据源的数据加载机制，清楚各种来源数据的特点和共同之处，通过归类总结不同类型数据、不同来源数据的获取方法，针对重要的泛在地理空间数据源设计定制化的数据获取应用，并将其融合到分布式爬虫框架中进行综合调度管理，可以实现良好的泛在数据获取效果，具有良好的应用前景。

附图说明

图1是本发明的基于分布式网络爬虫的地理空间数据获取系统的系统框图；

图2是本发明的调度引擎服务模块的结构图；

图3是本发明的可执行爬虫程序集模块的接口示意图；

图4是本发明的分布式爬虫数据库模块的结构图；

图5是本发明的任务数据库的结构图；

图6是本发明的去重数据库的的结构图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

本发明的基于分布式网络爬虫的地理空间数据获取系统，基于地理空间信息数据源特点，研究了针对性的数据获取方法，并设计了一套可以纳管、调度多源可执行爬虫程序的分布式网络爬虫框架，该框架基于HTCondor资源池实现爬虫任务的并行作业，通过高效的任务调度引擎来管理用户提交的各类数据获取需求，监控各类数据获取任务的执行状态，并通过使用分布式文件系统支持多源异构数据爬取结果的输出，如图1所示，包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块，

上述各模块通过分布式网络爬虫支持用户在web界面配置数据获取需求，提交爬虫任务，可视化预览各类任务进度；后台使用爬虫任务调度引擎服务管理用户提交的任务，通过进程交互方式监控HTCondor集群作业信息，同步任务状态；HTCondor集群则通过调度执行爬虫程序集来实现各类数据获取任务的任务切割、数据解析、数据去重以及数据下载的过程，具体功能如下：

所述用户需求发布模块，用于支持用户在选择获取数据的类型、设置获取数据的时空范围，配置数据抓取的周期参数，具体为：

该用户需求发布模块不局限于上述数据的类型，可扩展增加，如表1所示，

如图2所示，所述调度引擎服务模块，包括用户需求管理单元、任务分割单元、HTCondor作业提交单元和HTCondor任务监控单元，

如图3所示，所述可执行爬虫程序集模块的爬虫程序包括GE倾斜摄影模型数据爬虫程序、GE遥感影像瓦片爬虫程序、OSM矢量\栅格爬虫程序、运动轨迹数据爬虫程序、AIS船舶轨迹爬虫程序、人文类数据爬虫程序，

所述HTCondor集群模块，一组HTCondor集群资源池默认只允许一台中央管理主机，该中央管理主机节点是集群的计算资源信息库，资源池中所有作业的调度都与该机关联，在要作为中央管理主机的主机上安装HTCondor环境时，需要创建HTCondor Pool，并为其命名（如“HTC_Host”）。对于想要连接到资源池的机器，则相应的节点配置应选择加入已有资源池，并将中央管理主机的IP地址设置为节点的管理中心地址，如实验环境下4台主机搭建完毕后的HTCondor集群配置如表2所示，

如图4-6所示，所述任务数据库选型为PostgreSQL，并包括三张数据表，分别为存储用户原始数据需求信息记录表（Jobinfo）、爬虫任务单次执行记录表（rJobinfo）和HTCondor任务记录表（rTaskinfo）；所述去重数据库选型为key-velue类型数据库RocksDB，每个需要获取的数据类型会对应创建一张表，相同数据类型的多个任务实例通过连接、维护相同的去重数据表来保证数据更新获取。

本发明的基于分布式网络爬虫的地理空间数据获取系统的获取方法，

下面根据本发明的基于分布式网络爬虫的地理空间数据获取系统及方法，介绍一具体实施例：

（1）数据需求提交

数据获取需求，在分布式爬虫系统下由用户在web交互界面中提交框选需要获取数据的空间范围（最大经度114.37，最小经度114.22，最大纬度30.61，最小纬度30.52），设置好要获取的影像瓦片显示层级范围（最大层级15、最小层级0）、更新探测周期（一天一次），点击“确认下载”。提交成功以后，界面下方出现对应爬虫任务的完成进度条；

（2）爬虫任务分割

分布式爬虫系统下，用户提交的数据获取需求会被自动分割为若干个爬虫子任务提交给HTCondor集群资源池。不同数据类型的任务分割依据不同。本文应用案例的任务分割介绍如表3所示：

（3）爬虫任务调度执行

HTConodor集群资源池下提交的所有爬虫子任务会被有序分配到符合爬虫程序资源要求的计算机节点下执行，执行结果输出到分布式文件系统指定路径下。此外，本发明还将每个应用案例对应的任务需求，使用了相同爬虫程序在单机环境下执行，记录了对应的爬取结果和爬取耗时信息。单机爬虫执行结果与分布式爬虫系统执行结果进行比对分析，可以辅助验证分布式爬虫系统作业结果的正确性，分析其作业效率。

（4）结果分析

7个爬虫子任务从在在前端提交数据获取需求开始，到全部执行一次完毕，时差5分钟。累计下载瓦片数量1260张，下载结果的经纬度范围与前端框选经纬度范围一致，瓦片的显示层级范围为0-15层，瓦片的发布时间范围为2010.01.01至今。下载结果与单机爬虫获取结果一致。在分布式集群环境下耗时则为单机状态下的1/15，分布式爬虫系统应用案例说明，如表4所示：

综上所述，本发明的基于分布式网络爬虫的地理空间数据获取系统及方法，能够支持对多源异构web互联网站点的地理空间数据进行分布式获取，支持纳管多类型的单机地理空间爬虫应用；通过独有的调度引擎机制，充分利用分布式集群环境下的多机计算资源，调用单体爬虫应用来进行并行的数据获取，从而能够提高数据获取效率，通过网络爬虫的方式进行互联网空间信息采集，抽取出目标数据及时存入数据库中，可以为对泛在地理空间数据进行进一步的管理使用提供了数据基础，并针对互联网环境下地理空间数据的特征进行分布式网络爬虫设计，增量数据的特点在数据源数量多、数据结构各异、数据获取方式各有差别，想要获取对应数据，必须研究数据源的数据加载机制，清楚各种来源数据的特点和共同之处，通过归类总结不同类型数据、不同来源数据的获取方法，针对重要的泛在地理空间数据源设计定制化的数据获取应用，并将其融合到分布式爬虫框架中进行综合调度管理，可以实现良好的泛在数据获取效果，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于分布式网络爬虫的地理空间数据获取系统，其特征在于：包括用户需求发布模块、调度引擎服务模块、可执行爬虫程序集模块、HTCondor集群模块和分布式爬虫数据库模块，

2.根据权利要求1所述的基于分布式网络爬虫的地理空间数据获取系统，其特征在于：所述用户需求发布模块，用于支持用户在选择获取数据的类型、设置获取数据的时空范围，配置数据抓取的周期参数，具体为：

3.根据权利要求2所述的基于分布式网络爬虫的地理空间数据获取系统，其特征在于：所述调度引擎服务模块，包括用户需求管理单元、任务分割单元、HTCondor作业提交单元和HTCondor任务监控单元，

4.根据权利要求3所述的基于分布式网络爬虫的地理空间数据获取系统，其特征在于：所述可执行爬虫程序集模块的爬虫程序包括GE倾斜摄影模型数据爬虫程序、GE遥感影像瓦片爬虫程序、OSM矢量\栅格爬虫程序、运动轨迹数据爬虫程序、AIS船舶轨迹爬虫程序、人文类数据爬虫程序，

5.根据权利要求4所述的基于分布式网络爬虫的地理空间数据获取系统，其特征在于：所述HTCondor集群模块，一组HTCondor集群资源池默认只允许一台中央管理主机，该中央管理主机节点是集群的计算资源信息库，资源池中所有作业的调度都与该机关联。

6.根据权利要求5所述的基于分布式网络爬虫的地理空间数据获取系统，其特征在于：所述任务数据库选型为PostgreSQL，并包括三张数据表，分别为存储用户原始数据需求信息记录表、爬虫任务单次执行记录表和HTCondor任务记录表；所述去重数据库选型为key-velue类型数据库RocksDB，每个需要获取的数据类型会对应创建一张表，相同数据类型的多个任务实例通过连接、维护相同的去重数据表来保证数据更新获取。

7.基于权利要求6所述的基于分布式网络爬虫的地理空间数据获取系统的获取方法，其特征在于：