CN111209463A

CN111209463A - 互联网数据采集方法及装置

Info

Publication number: CN111209463A
Application number: CN202010003299.1A
Authority: CN
Inventors: 刘睿; 黄践焜
Original assignee: Beijing Tianyuan Innovation Technology Co ltd
Current assignee: Beijing Tianyuan Innovation Technology Co ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-29
Anticipated expiration: 2040-01-02
Also published as: CN111209463B

Abstract

本发明实施例提供一种互联网数据采集方法及装置。其中，方法包括：接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码；将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。本发明实施例提供的互联网数据采集方法及装置，通过有向无环图描述互联网数据采集逻辑，通过流程引擎生成网络爬虫的代码，通过客户端执行网络爬虫的代码实现互联网数据采集，不需要进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围，更简单、方便。

Description

互联网数据采集方法及装置

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种互联网数据采集方法及装置。

背景技术

互联网数据采集，是基于HTTP技术，模拟浏览器请求等操作，采集网络上公开发布的网页、图片等资源，解决人工采集工作量大的问题的技术。常用的互联网数据采集技术包括网络爬虫。

Scrapy网络爬虫框架是一种开源Python网络爬虫框架，封装了一系列用于网络请求、文档解析过程，简化爬虫开发，用于采集网络中非结构化数据。开发过程使用流水线方式，适合进行逻辑编排。

目前，基于Scrapy网络爬虫框架进行互联网数据采集时，需要根据采集任务编写Python脚本，实现Scrapy采集逻辑。现有方法步骤比较复杂，需要专业人员编写Python脚本，门槛较高。

发明内容

本发明实施例提供一种互联网数据采集方法及装置，用以解决或者至少部分地解决现有技术存在的复杂、不方便的缺陷。

第一方面，本发明实施例提供一种互联网数据采集方法，包括：

接收功能组件的拖拽指令和配置指令，根据所述拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；

根据所述有向无环图和各所述功能组件对应的脚本模板，生成网络爬虫的代码；

将所述网络爬虫的代码发送至客户端，以使得所述客户端执行所述网络爬虫的代码，进行互联网数据采集。

优选地，所述接收功能组件的拖拽指令和配置指令，根据所述拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图的具体步骤包括：

接收所述拖拽指令，根据所述拖拽指令，将功能组件拖拽到画布上，作为节点；

接收连接指令，根据所述连接指令连接相应的节点，获得待配置的有向无环图；

接收所述配置指令，根据所述配置指令，对各所述节点进行配置，获得所述有向无环图。

优选地，所述获得所述有向无环图之后，还包括：

将所述有向无环图保存为XML文件。

优选地，所述根据所述有向无环图和各所述功能组件对应的脚本模板，生成网络爬虫的代码的具体步骤包括：

根据所述有向无环图，获取所述数据采集过程对应的执行计划和各配置参数；

根据所述执行计划、所述各配置参数和各所述功能组件对应的脚本模板，生成网络爬虫的代码。

优选地，所述根据所述有向无环图，获取所述数据采集过程对应的执行计划和各配置参数的具体步骤包括：

对所述XML文件进行解析，获取所述数据采集过程对应的执行计划和各配置参数。

优选地，所述对所述XML文件进行解析的具体步骤包括：

提取所述XML文件中的mxCell元素，将每个所述mxCell元素分别构造为ExecuteNode或Edge对象，得到ExecuteNode集合与Edge集合；

根据所述ExecuteNode集合与Edge集合，获取所述数据采集过程对应的执行计划和各配置参数。

优选地，所述接收功能组件的拖拽指令和配置指令之前，还包括：

定义各所述功能组件。

第二方面，本发明实施例提供一种互联网数据采集装置，包括：

采集编辑模块，用于接收功能组件的拖拽指令和配置指令，根据所述拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；

流程处理模块，用于根据所述有向无环图和各所述功能组件对应的脚本模板，生成网络爬虫的代码；

作业执行模块，用于将所述网络爬虫的代码发送至客户端，以使得所述客户端执行所述网络爬虫的代码，进行互联网数据采集。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，执行所述程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的互联网数据采集方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的互联网数据采集方法的步骤。

本发明实施例提供的互联网数据采集方法及装置，通过有向无环图描述互联网数据采集逻辑，流程定义后通过流程引擎生成网络爬虫的代码，通过客户端执行网络爬虫的代码实现互联网数据采集，不需要用户进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围，更简单、方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的互联网数据采集方法的流程示意图；

图2为根据本发明实施例提供的互联网数据采集方法中解析XML文件的流程示意图；

图3为根据本发明实施例提供的互联网数据采集装置的结构示意图；

图4为根据本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供一种互联网数据采集方法及装置，其发明构思是，以一种无代码、界面友好的方式实现爬虫定义，降低互联网数据采集门槛，更简单、方便。

图1为根据本发明实施例提供的互联网数据采集方法的流程示意图。如图1所示，该方法包括：步骤S101、接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图。

具体地，将互联网数据采集过程拆解为可解耦的通用逻辑模块(即功能组件)，在画布上以块元素展示，使用GUI(图形用户界面，Graphical User Interface)块元素拖拽，在画布上对功能组件进行编排连接，构建一个描述采集过程的有向无环图(DAG，Directedacyclic graph)。

拖拽指令和配置指令，可以基于浏览器进行输入。

功能组件，用于实现某一功能，例如赋值、存储、Html解析和采集等。

用户根据当前数据采集任务，输入相应的拖拽指令。

拖拽指令，用于将某一功能组件拖拽到画布中的某个位置。

可以理解的是，由于互联网数据采集的过程比较复杂，需要多个功能组件，因而步骤S101中接收多条拖拽指令。

需要说明的是，由于互联网数据采集的过程比较复杂，同一个功能组件可能被拖拽多次。

对于被拖拽到画布中的每一功能组件，用户根据当前数据采集任务，输入相应的配置指令。

配置指令，用于对功能组件的动态参数进行配置。

完成拖拽和配置之后，可以得到有向无环图。

有向无环图指的是一个无回路的有向图。

有向无环图中的节点，为功能组件。

有向无环图，将节点按照依赖关系组织，描述每个节点的执行顺序。

因此，根据各功能组件的执行顺序，本发明实施例中的有向无环图，可以描述数据采集过程。

步骤S102、根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码。

具体地，可以将有向无环图翻译为执行计划，以内存对象存储。

执行计划，指各功能组件的执行顺序。

根据执行计划，按照scrapyproject目录结构，使用Freemarker模板引擎动态生成完整的scrapyproject。

Scrapyproject为scrapy爬虫工程，定义了scrapy爬虫逻辑。

Freemarker模板引擎中存储有各功能组件对应的脚本模板。

Freemarker是一种Java模板引擎，使用传入参数将模板渲染为最终数据。本发明实施例中，Freemarker用于生成scrapypython脚本。

可以理解的是，有向无环图中包括各功能组件的动态参数，将每一功能组件的动态参数填入该功能组件对应的脚本模板，可以得到网络爬虫的代码。

Scrapyproject可以包括scrapy.cfg、scrapy_project_template、items.py、pipelines.py、settings.py和spiders等文件。

scrapy.cfg为项目的配置文件，保存项目名称、配置参数。

scrapy_project_template为项目的Python模块，保存python代码。

items.py为项目的items文件，用来加载采集内容的容器。

pipelines.py为项目的pipelines文件，对items进行处理。

settings.py为项目的设置文件，配置参数。

spiders为存储爬虫的目录，定义了爬虫具体采集过程。

按照以上目录要求及文件功能，制作Freemarker动态模板，生成items.py、pipelines.py、settings.py、spiders.py等主要文件。

通过Freemarker方法，将模板中变量、循环、函数调用等逻辑，替换为最终执行的Python代码，作为网络爬虫的代码。

步骤S103、将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。

具体地，通过本地命令调用scrapydclient，向客户端提交scrapyproject。

Scrapydclient，为scrapy爬虫框架客户端，用于打包并创建爬虫作业。

Scrapydclient，与scrapyd进行交互、作业配置。

客户端根据scrapyproject中的网络爬虫的代码，以及预先配置的执行时间，执行网络爬虫的代码，实现互联网数据采集。

可以理解的是，还可以监控客户端的作业执行。

执行网络爬虫的代码，依赖Scrapy框架中scrapyd、scrapyd-client、spiderkeeper组件功能。

Spiderkeeper，用于管理scrapyd服务。

Scrapyd服务，用于接收采集作业，采集网络资源。

通过JavaRuntime调用scrapyd-client系统命令提交步骤S102生成的工程文件，完成scrapyd爬虫部署过程。

已部署的scrapyd爬虫会被spiderkeeper自动监控，可在spiderkeeper上管理执行时间，监控作业执行状态及查看日志，完成整个数据采集过程的闭环。

本发明实施例通过有向无环图描述互联网数据采集逻辑，流程定义后通过流程引擎生成网络爬虫的代码，通过客户端执行网络爬虫的代码实现互联网数据采集，不需要用户进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围，更简单、方便。

基于上述各实施例的内容，接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图的具体步骤包括：接收拖拽指令，根据拖拽指令，将功能组件拖拽到画布上，作为节点。

具体地，根据拖拽指令，将每一功能组件拖拽到画布上的指定位置，将该功能组件作为图中的一个节点。

需要说明的是，同一个功能组件可能被拖拽多次，但每次被拖拽的位置不同，因而形成不同的节点。

接收连接指令，根据连接指令连接相应的节点，获得待配置的有向无环图。

具体地，用户根据当前数据采集任务，输入连接指令。

连接指令，用于连接指定的两个节点。

可以理解的是，互联网数据采集的过程比较复杂，需要多个功能组件，因而接收多条连接指令。

根据每条连接指令，将指定的两个节点用线条连接，完成流程编辑，获得待配置的有向无环图。

接收配置指令，根据配置指令，对各节点进行配置，获得有向无环图。

具体地，对于被拖拽到画布中的每一节点，用户根据当前数据采集任务，输入相应的配置指令。

根据配置指令，对该节点进行配置。

完成各节点的配置之后，可以完成对待配置的有向无环图的配置，获得有向无环图。

本发明实施例通过拖拽功能组件得到用于描述互联网数据采集逻辑的有向无环图，从而能根据有向无环图生成网络爬虫的代码，不需要用户进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围。

基于上述各实施例的内容，获得有向无环图之后，还包括：将有向无环图保存为XML文件。

具体地，可以利用mxGraph实现功能模块的拖拽和配置。

mxGraph是一种JavaScript类库，提供了基础的图元和绘制方法，封装了绘制过程中的基础操作API。

通过mxGraph等前端技术实现逻辑UI编排，拖拽构建有向无环图描述采集过程，生成XML配置。

通过mxGraphmxEditor接口初始化画布，用于流程编排。

依靠mxGraph画布，通过拖拽组件到指定位置，并使用线条连接，完成流程编辑。

点击画布中的功能组件，在弹框中显示需要补充的动态参数，动态参数保存在mxGraph对象属性中。

使用mxGraphgraph接口获取DAG模型对象，使用mxGraph默认XML编码器得到模型对象XML形式数据(即XML文件)。

mxGraphModel由mxCell子元素组成，使用parent标识依赖节点，组成DAG。edge属性为1表示当前mxCell节点为边。

生成XML文件之后，可以通过Ajax调用RESTFul形式将XML文件传入下一步骤进行处理。

本发明实施例通过将有向无环图保存为XML文件，能更方便地实现根据有向无环图生成网络爬虫的代码，从而能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围。

基于上述各实施例的内容，根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码的具体步骤包括：根据有向无环图，获取数据采集过程对应的执行计划和各配置参数。

具体地，可以将有向无环图翻译为执行计划，并获取有向无环图中的各功能组件的动态参数。

根据执行计划、各配置参数和各功能组件对应的脚本模板，生成网络爬虫的代码。

具体地，可以通过Kahn算法对各功能组件进行拓扑排序，得到各功能组件的执行顺序。

将每一功能组件的动态参数填入该功能组件对应的脚本模板，并根据各功能组件的执行顺序，可以得到网络爬虫的代码。

本发明实施例通过根据有向无环图生成网络爬虫的代码，不需要用户进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围。

基于上述各实施例的内容，根据有向无环图，获取数据采集过程对应的执行计划和各配置参数的具体步骤包括：对XML文件进行解析，获取数据采集过程对应的执行计划和各配置参数。

具体地，数据采集过程对应的执行计划和各配置参数，可以通过解析XML文件获取。

本发明实施例通过解析XML文件获取数据采集过程对应的执行计划和各配置参数，能更方便地实现根据有向无环图生成网络爬虫的代码，从而能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围。

基于上述各实施例的内容，对XML文件进行解析的具体步骤包括：提取XML文件中的mxCell元素，将每个mxCell元素分别构造为ExecuteNode或Edge对象，得到ExecuteNode集合与Edge集合。

具体地，图2为根据本发明实施例提供的互联网数据采集方法中解析XML文件的流程示意图。如图2所示，解析XML文件的具体步骤包括：

步骤S201、通过解析XML文件，提取XML文件中的mxCell元素，得到所有的mxCell元素。

步骤S202、遍历mxCell元素。

若遍历完成，则结束解析。

若遍历未完成，则执行步骤S203。

步骤S203、判断遍历过程中的当前mxCell元素是否为边。

若是，则将当前mxCell元素转出为Edge对象；若否，则将当前mxCell元素转出为ExecuteNode对象。

可以将各Edge对象组成为Edge集合，将各ExecuteNode对象组成为ExecuteNode集合。

对ExecuteNode进行拓扑排序，处理ExecuteNode依赖关系，形成业务逻辑执行的先后顺序，得到一个按照依赖关系排序后的ExecuteNode集合。

根据ExecuteNode集合与Edge集合，获取数据采集过程对应的执行计划和各配置参数。

具体地，根据按照依赖关系排序后的ExecuteNode集合和Edge集合，可以获取数据采集过程对应的执行计划。

根据各ExecuteNode对象对应的mxCell元素的属性，可以获得各配置参数。

基于上述各实施例的内容，接收功能组件的拖拽指令和配置指令之前，还包括：定义各功能组件。

具体地，对各功能组件使用JSON进行定义，放入mxGraph中，name指定UI组件展示名称。

定义功能组件，包括定义描述节点图形、名称的元数据。功能组件，可以包括采集节点、变量赋值节点、分支判断节点、循环节点和存储节点。

定义了组件元数据之后，通过mxGraphcell及graph接口将图形添加到mxGraph上下文中。

本发明实施例通过定义功能组件，能实现可视化的网络爬虫定义，不需要用户进行Python编程，爬虫定义过程无代码、界面更友好，能降低互联网数据采集门槛，能扩大互联网数据采集方法适用范围。

图3为根据本发明实施例提供的互联网数据采集装置的结构示意图。基于上述各实施例的内容，如图3所示，该装置包括采集编辑模块301、流程处理模块302和作业执行模块303，其中：

采集编辑模块301，用于接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；

流程处理模块302，用于根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码；

作业执行模块303，用于将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。

具体地，采集编辑模块301、流程处理模块302和作业执行模块303依次电连接。

采集编辑模块301接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，在画布上对功能组件进行编排连接，构建一个描述采集过程的有向无环图。

流程处理模块302将有向无环图翻译为执行计划，将每一功能组件的动态参数填入该功能组件对应的脚本模板，并根据各功能组件的执行顺序，组合填入动态参数之后的脚本模板，得到网络爬虫的代码。

作业执行模块303将网络爬虫的代码发送至客户端。

本发明实施例提供的互联网数据采集装置，用于执行本发明上述各实施例提供的互联网数据采集方法，该互联网数据采集装置包括的各模块实现相应功能的具体方法和流程详见上述互联网数据采集方法的实施例，此处不再赘述。

该互联网数据采集装置用于前述各实施例的互联网数据采集方法。因此，在前述各实施例中的互联网数据采集方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图4为根据本发明实施例提供的电子设备的实体结构示意图。基于上述实施例的内容，如图4所示，该电子设备可以包括：处理器(processor)401、存储器(memory)402和总线403；其中，处理器401和存储器402通过总线403完成相互间的通信；处理器401用于调用存储在存储器402中并可在处理器401上运行的计算机程序指令，以执行上述各方法实施例所提供的互联网数据采集方法，例如包括：接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码；将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。

本发明另一实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的互联网数据采集方法，例如包括：接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码；将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。

此外，上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明另一实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的互联网数据采集方法，例如包括：接收功能组件的拖拽指令和配置指令，根据拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图；根据有向无环图和各功能组件对应的脚本模板，生成网络爬虫的代码；将网络爬虫的代码发送至客户端，以使得客户端执行网络爬虫的代码，进行互联网数据采集。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种互联网数据采集方法，其特征在于，包括：

2.根据权利要求1所述的互联网数据采集方法，其特征在于，所述接收功能组件的拖拽指令和配置指令，根据所述拖拽指令和配置指令，生成用于描述数据采集过程的有向无环图的具体步骤包括：

3.根据权利要求2所述的互联网数据采集方法，其特征在于，所述获得所述有向无环图之后，还包括：

将所述有向无环图保存为XML文件。

4.根据权利要求3所述的互联网数据采集方法，其特征在于，所述根据所述有向无环图和各所述功能组件对应的脚本模板，生成网络爬虫的代码的具体步骤包括：

5.根据权利要求4所述的互联网数据采集方法，其特征在于，所述根据所述有向无环图，获取所述数据采集过程对应的执行计划和各配置参数的具体步骤包括：

6.根据权利要求5所述的互联网数据采集方法，其特征在于，所述对所述XML文件进行解析的具体步骤包括：

7.根据权利要求2至6任一所述的互联网数据采集方法，其特征在于，所述接收功能组件的拖拽指令和配置指令之前，还包括：

定义各所述功能组件。

8.一种互联网数据采集装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的互联网数据采集方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的互联网数据采集方法的步骤。