CN110134853A

CN110134853A - 数据爬取方法及系统

Info

Publication number: CN110134853A
Application number: CN201910395359.6A
Authority: CN
Inventors: 郭奇杰
Original assignee: Chongqing Bajie Media Co Ltd
Current assignee: Chongqing Bajie Media Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-16

Abstract

本申请提供一种数据爬取方法及系统，所述方法包括：获取待爬取网站的网页分级信息和相应的网页信息；基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

Description

数据爬取方法及系统

技术领域

本申请涉及数据分析领域，具体涉及一种数据爬取方法及系统。

背景技术

随着互联网的快速发展，各类自媒体的兴起，每天都会产生海量的信息，而人们要想在这些海量的信息中筛选出自己所需要的也变得越来越困难。各类搜索引擎也成为了人们快速查找信息的主要工具。然而随着各类个性化、专业化的数据需求的不断增加，对数据的要求也越来越高，普通的搜索引擎已经无法满足大家的需要了。

用户越来越感觉到很难在短时间内按照用户所需的工作流程准确筛选出需要的内容，很难迅速地找到所需要的信息。因此，爬虫服务需要细化，需要更加通用的工作流程、更加有效的定制化服务。

发明内容

为了解决上述问题，本申请提供一种数据爬取方法及系统，首先获取待爬取网站的网页分级信息和每页的网页信息；然后对应每一级网页，设定至少一级页面解析规则节点以生成爬虫树；最后利用所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

第一方面，本申请实施例提供一种数据爬取方法，其特征在于，包括：

获取待爬取网站的网页分级信息和相应的网页信息；

基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；

基于所述爬虫树对所述待爬取网站进行数据爬取。

在某些实施例中，所述获取待爬取网站的网页分级信息，包括：

设置第一级页面解析规则节点，获取所述待爬取网站的当前网页的网页信息；

执行迭代操作，确定是否可由当前网页跳转至下一级网页，。

在某些实施例中，若可跳转至下一级网页，设置对应下一级的页面解析规则节点，并获取下一级网页的网页信息，直至确定不可由当前网页跳转至下一级网页。

在某些实施例中，上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点。

在某些实施例中，所述方法还包括：每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息。

第二方面，本申请提供一种数据爬取系统，其特征在于，包括：

获取模块，其用于获取待爬取网站的网页分级信息和相应的网页信息；

爬虫树生成模块，其用于基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；

爬取模块，其用于基于所述爬虫树对所述待爬取网站进行数据爬取。

在某些实施例中，所述获取模块，包括：

当前网页信息获取单元，设置第一级页面解析规则节点，获取所述待爬取网站的当前网页的网页信息；

迭代获取单元，执行迭代操作，确定是否可由当前网页跳转至下一级网页。

在某些实施例中，每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息。

在某些实施例中，所述系统还包括：

输出方式设定模块，设定爬取数据的输出方式。

本申请的有益效果如下：

本申请提供一种数据爬取方法及系统，首先获取待爬取网站的网页分级信息和每页的网页信息；然后对应每一级网页，设定至少一级页面解析规则节点以生成爬虫树；最后利用所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的数据爬取方法流程示意图。

图2为本发明实施例中一具体场景的流程示意图。

图3为本发明实施例中数据爬取系统的结构示意图。

图4为适用于本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种数据爬取方法及系统，首先获取待爬取网站的网页分级信息和相应的网页信息；然后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；最后基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

下面结合附图对本申请进行详细说明。

本申请第一方面提供一种数据爬取方法，如图1所示，具体包括：

S100：获取待爬取网站的网页分级信息和相应的网页信息；

S200：基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；其中上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点，第一级解析规则节点是根节点；每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息；

S300：基于所述爬虫树对所述待爬取网站进行数据爬取。

本方面提供的数据爬取方法，首先获取待爬取网站的网页分级信息和相应的网页信息；然后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；最后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

在一优选实施例中，步骤S100具体包括：

S101:设置第一级页面解析规则节点，获取所述待爬取网站的当前网页的网页信息；

S102:执行迭代操作，确定是否可由当前网页跳转至下一级网页，若可跳转至下一级网页，设置对应下一级的页面解析规则节点，并获取下一级网页的网页信息，直至确定不可由当前网页跳转至下一级网页。

在一实施例中，设定类型包括：Hmtl节点和Html属性。设定格式包括：字符串格式和正则表达式格式。

进一步的，在一实施例中，所述方法还包括：

S400:设定爬取数据的输出方式。

下面请结合具体场景对本发明进行详细说明。

在一具体场景中，如图2所示，首先，设置需要采集的一级网页信息及参数，设定具体的网址的url，如果涉及到分页或者跨页的，可以指定网页分级参数名和对应的参数范围的值与跨度值。然后，确定是否有下一级网页，如果有，则在当前网页之后，配置需要采集的下一级网页信息及参数，配置规则同当前网页信息的配置规则。之后，配置当前网页对应的解析规则。首先配置解析规则的一级节点，需要设定数据对应的别名，指定要获取网页数的方式，数据方式类型包括Hmtl节点、Html属性、字符串、正则表达式等，确定数据是否需要保存，指定数据的输出方式。设定完一级解析规则节点之后，如果需要在一级解析节点的数据的基础之上继续细化提取数据，则在一级解析节点之下，配置子节点为二级解析节点，配置方式与一级节点相同，按照如此规则，一直深入细化，直到所有需要的数据配置完成，最终组成爬虫树文件。所有配置节点完成之后，执行运行程序，即可开始本次数据的采集与解析工作，最终获取对应的数据在指定的输出方式里。

基于与上述方法相同的技术构思，本申请第二方面实施例提供一种数据爬取系统，如图3所示，包括：

获取模块100，获取待爬取网站的网页分级信息和相应的网页信息；

爬虫树生成模块200，基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；其中上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点，第一级解析规则节点是根节点；每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息；

爬取模块300，基于所述爬虫树对所述待爬取网站进行数据爬取。

本方面提供一种数据爬取系统，首先获取待爬取网站的网页分级信息和相应的网页信息；然后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；最后基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

基于与上述方法相同的技术构思，在一实施例中，所述获取模块，包括：

迭代获取单元，执行迭代操作，确定是否可由当前网页跳转至下一级网页，若可跳转至下一级网页，设置对应下一级的页面解析规则节点，并获取下一级网页的网页信息，直至确定不可由当前网页跳转至下一级网页。

进一步的，在一实施例中，所述系统还包括：输出方式设定模块，设定爬取数据的输出方式。

本申请的实施例还提供能够实现上述实施例中的数据爬取方法中全部步骤的一种电子设备的具体实施方式，参见图4，所述电子设备具体包括如下内容：

处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604；

其中，所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信；

所述处理器601用于调用所述存储器602中的计算机程序，所述处理器执行所述计算机程序时实现上述实施例中的数据爬取方法中的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S100：获取待爬取网站的网页分级信息和相应的网页信息；

S300：基于所述爬虫树对所述待爬取网站进行数据爬取

从上述描述可知，本申请提供的电子设备，首先获取待爬取网站的网页分级信息和相应的网页信息；然后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；最后基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

本申请的实施例还提供能够实现上述实施例中的数据爬取方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的数据爬取方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

S100：获取待爬取网站的网页分级信息和相应的网页信息；

S300：基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树。

从上述描述可知，本申请提供的计算机可读存储介质，能够应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

Claims

1.一种数据爬取方法，其特征在于，包括：

获取待爬取网站的网页分级信息和相应的网页信息；

基于所述爬虫树对所述待爬取网站进行数据爬取。

2.根据权利要求1所述的数据爬取方法，其特征在于，所述获取待爬取网站的网页分级信息，包括：

3.根据权利要求2所述的数据爬取方法，其特征在于，若可跳转至下一级网页，设置对应下一级的页面解析规则节点，并获取下一级网页的网页信息，直至确定不可由当前网页跳转至下一级网页。

4.根据权利要求1所述的数据爬取方法，其特征在于，上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点。

5.根据权利要求1所述的数据爬取方法，其特征在于，所述方法还包括：每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息。

6.一种数据爬取系统，其特征在于，包括：

7.根据权利要求6所述的数据爬取系统，其特征在于，所述获取模块，包括：

8.根据权利要求6所述的数据爬取系统，其特征在于，上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点。

9.根据权利要求6所述的数据爬取系统，其特征在于，每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息。

10.根据权利要求6所述的数据爬取系统，其特征在于，所述系统还包括：

输出方式设定模块，设定爬取数据的输出方式。