CN110472125B

CN110472125B - 一种基于网络爬虫的多级页面的级联爬取方法和设备

Info

Publication number: CN110472125B
Application number: CN201910784160.2A
Authority: CN
Inventors: 邱涛; 丘水文; 陈昊; 陈耀才
Original assignee: Xiamen Shangji Network Technology Co ltd
Current assignee: Xiamen Shangji Network Technology Co ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2022-04-01
Anticipated expiration: 2039-08-23
Also published as: CN110472125A

Abstract

本发明涉及一种基于网络爬虫的多级页面的级联爬取方法，包括如下步骤：抓取上级页面并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，各所述对象对应的主键值均不相同；抓取下级页面并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置外键值，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，从而实现抓取数据落地后上级网页和下级网页的关联查询。本发明是一种能够还原网页前后逻辑的数据采集模式，确保网页抓取的完整性且按原网页层级顺序存储数据，能够便捷地获取相关联的多层级页面数据。

Description

一种基于网络爬虫的多级页面的级联爬取方法和设备

技术领域

本发明涉及一种基于网络爬虫的多级页面的级联爬取方法和设备，属于数据爬取领域。

背景技术

现有的上下级页面爬取方法是：先抓取上级页面，然后存储上级页面中的URL地址，并根据这些URL地址重复多次抓取下级页面，最后通过爬虫任务标识和匹配落地的数据。爬虫任务标识是和抓取爬虫，以及爬虫所抓取的数据落地文件一一对应的；当爬虫任务结束需要匹配数据时，利用爬虫任务标识将爬取的数据文件按照原网页逻辑解析成结构化数据。因爬虫任务标识只能起到和爬虫任务一一对应的作用，任务标识间并不体现层级关系，因此，通过爬虫任务标识是无法还原原始数据层级的。如果存在多级页面之间存在关联，现有爬虫技术在抓取多级层次化数据时，由于各级之间关联逻辑较复杂，验证数据完整性和准确性存在较大困难。同时，由于数据存取难度更大，多级网页数据使用规则更为繁琐。

发明内容

为了解决上述技术问题，本发明提供一种基于网络爬虫的多级页面的级联爬取方法，提供一种能够还原网页前后逻辑的数据采集模式，确保网页抓取的完整性且按原网页层级顺序，以结构化的方式存储数据，从而能够便捷地获取相关联的多层级页面数据。

本发明技术方案如下：

一种基于网络爬虫的多级页面的级联爬取方法，包括如下步骤：抓取上级页面并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，各所述对象对应的主键值均不相同；抓取下级页面并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置外键值，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，从而实现抓取数据落地后上级网页和下级网页的关联查询。

更优地，爬取多级页面时，抓取到的每一级页面对应的数据解析表中，对需要继续抓取下级页面的对象设置主键值，并从各级页面对应的上一级页面的数据解析表中获取主键值，将该主键值作为本级页面的外键值；具体地：除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开，根据页面与所述对象之间的一一对应关系，确定各层级页面对应的对象，根据确定的对象获取该对象对应的主键值。

更优地，所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。

更优地，所述跳转URL包括如下形式：完整的下级页面的URL链接；片段下级页面的URL链接后缀；部分参数值；上述任意形式的跳转URL都具有唯一性，均可作为主键值。

更优地，爬虫在爬取下级页面前，先分析下级页面是否存在分页，若是，则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。

本发明提供一种基于网络爬虫的多级页面的级联爬取设备。

一种基于网络爬虫的多级页面的级联爬取设备，所述设备包括微处理器和存储器，所述存储器上存储有程序，所述微处理器运行该程序并执行如下步骤：抓取上级页面并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，各所述对象对应的主键值均不相同；抓取下级页面并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置外键值，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，从而实现抓取数据落地后上级网页和下级网页的关联查询。

更优地，所述跳转URL包括如下形式：完整的下级页面的URL链接；片段下级页面的URL链接后缀；部分参数值；上述任意形式的跳转URL都具有唯一性，均能作为主键值。

本发明具有如下有益效果：

1、一种基于网络爬虫的多级页面的级联爬取方法和设备，按照页面访问的顺序，在上级页面指定下级爬取对象的主键值，并指定下级页面外键值等于该主键值，将网站的页面数据分层级落地到本地存储，实现上下级页面的关联，可快速还原原网页数据的结构和顺序。同时，本发明还可以根据每个上级页面所包含的主键值是否在数据库中存在跟它对应地外键值来判断上下级页面是否抓全以及数据全部落地，保证爬虫爬取的数据完整性和准确性。

2、一种基于网络爬虫的多级页面的级联爬取方法和设备，适用于多层级页面数据的分层级落地存储，除第一级和最后一级页面外，其余各级页面的数据解析表均包含主键值和外键值，可快速还原原网页数据的结构和顺序。

3、一种基于网络爬虫的多级页面的级联爬取方法和设备，所述主键值可利用跳转URL或者跳转的页面ID，不仅具备唯一性特征且读取设置方便。

附图说明

图1为本发明一种基于网络爬虫的多级页面的级联爬取方法的流程图；

图2为本发明的上级页面主键值示意图；

图3为本发明的下级页面主键值示意图；

图4为本发明的上级页面数据中包含下级页面的完整URL的示意图；

图5为本发明的上级页面数据中包含下级页面的片段URL链接后缀示意图；

图6为本发明的上级页面数据中包含下级页面的部分参数值的示意图；

图7为图6所示网页的网页源码逻辑的示意图；

图8为本发明的下级页面为分页的爬取流程图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

如图1所示，一种基于网络爬虫的多级页面的级联爬取方法，包括如下步骤：抓取上级页面数据，并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，所述主键值具有唯一性，各所述对象对应的主键值均不相同；通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面；点击上级页面的URL链接，通过爬虫模拟访问下级页面，抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置用于关联上级页面的外键值，具体地，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，由于主键值和外键值保持一致，根据主键值和外键值确定层级关系，从而明确抓取数据落地后上级网页和下级网页的层级关联。所述主键值可以是所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。在上级页面中，若需要继续抓取的下级页面的对象有多个，则该上级页面包含的主键值有多个。如图2和图3所示，图2中的pkey字段写入上级页面中某某有限公司对应的主键值，图3中为点击某某有限公司获得的下级页面数据解析表，其中fkey字段写入外键值，且主键值等于外键值。

爬取多级页面时，抓取到的每一级页面对应的数据解析表中，对需要继续抓取下级页面的对象设置主键值，并从各级页面对应的上一级页面的数据解析表中获取主键值，将该主键值作为该级页面的外键值；所述获取主键值的方法是：除第一级页面外的各层级页面均由上一级页面中的对象被点击后产生，根据页面与所述对象之间的一一对应关系，确定各层级页面对应的对象，根据确定的对象获取主键值。

更优地，所述主键值均通过加密生成，例如，将跳转URL加密后生成主键值。

请参阅图8，下级页面中存在分页，抓取到的各分页的数据解析表的外键值相同，均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。分页参数不作为主键值。

本发明按照页面访问的顺序，将网站的页面数据分层级落地到本地存储，通过在上级页面指定下级爬取对象的主键值，并在下级页面指定外键值等于该主键值，实现页面的上下级关联，能够快速有效地还原原网页数据结构和顺序，在使用数据时，可以根据需求便捷地查询出与某一级页面关联所有下级页面。同时，本发明还可以根据每个上级页面所包含的主键值是否在数据库中存在跟它对应地外键值来判断上下级页面是否抓全以及数据都有落地，保证爬虫爬取的数据完整性和准确性。

本发明应用实例如下：

步骤1、爬虫进入网站第一级页面(即上级页面)，并按照需求对页面数据进行解析落地，将抓取到的数据存储在第一级页面数据解析表中，在第一级页面数据解析表中对需要抓取第二级页面(即下级页面)的对象设置主键值，将点击该对象跳转到第二级页面的跳转URL进行MD5加密后生成主键值，作为跟第二级页面关联的主键值。所述跳转URL大致有三种形式：完整的第二级页面的URL链接，如图4所示，Script标签中src属性中的内容，即如图4中所示利用黑框框选的内容，就是需要抓取的下级页面链接；片段第二级页面的URL链接后缀，如图5所示，在a标签href属性内部存储的内容就是下级跳转链接的网页后缀；部分参数值，如图6所示的网页包含的json文件，可以获取地区的编号id＝65，按照图7中截取出的网页源码的逻辑拼接成完整的第二级URL链接；无论是哪一种形式都具备唯一性，都可以直接将其进行MD5加密后生成主键值。此主键值与下级页面的数据解析表的外键值完全相等。

步骤2、实现第二级页面的访问URL组装，准备抓取第二级页面数据：

若抓取到完整的第二级页面的URL链接，则无需拼装URL；若抓取到的是片段第二级页面的URL链接后缀，根据页面前缀拼接完整URL；若为部分参数值，根据URL组合规律使用上述参数组装下级完整URL。然后分析二级页面分页情况，通过寻找并组装分页参数访问到同级的不同分页页面。

步骤3、访问URL地址，抓取第二级页面数据，在保存第二级页面数据解析表时，将该URL地址对应的主键值保存为所述第二级页面数据解析表的外键值；

步骤4、重复步骤1至步骤3，依次继续抓取对应下级页面，直至抓取完毕。

实施例二

一种基于网络爬虫的多级页面的级联爬取设备，所述设备包括微处理器和存储器，所述存储器上存储有程序，所述微处理器运行该程序并执行如下步骤：抓取上级页面数据，并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，所述主键值具有唯一性，通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面；点击上级页面的URL链接，通过爬虫模拟访问下级页面，抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置用于关联上级页面的外键值，具体地，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，由于主键值和外键值保持一致，根据主键值和外键值确定层级关系，从而明确抓取数据落地后上级网页和下级网页的层级关联。

更优地，所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。所述跳转URL包括如下形式：完整的下级页面的URL链接；片段下级页面的URL链接后缀；部分参数值；上述任意形式的跳转URL都具有唯一性，均能作为主键值。

本实施例中的具体实施方式、应用实例及产生的有益效果可参见实施例一中的描述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于网络爬虫的多级页面的级联爬取方法，其特征在于，包括如下步骤：

抓取上级页面数据，并将抓取到的数据存储在上级页面数据解析表中，在上级页面数据解析表中对需要继续抓取下级页面的对象设置主键值，所述主键值具有唯一性，通过该主键值标识对象所在的上级页面并通过该主键值关联下级页面；

点击上级页面的URL链接，通过爬虫模拟访问下级页面，抓取下级页面数据并将抓取到的数据存储在下级页面数据解析表中，并对该下级页面数据解析表设置用于关联上级页面的外键值，具体地，从上级页面数据解析表中获取该下级页面对应的对象的主键值，然后将其作为所述下级页面数据解析表的外键值，由于主键值和外键值保持一致，根据主键值和外键值确定层级关系，从而明确抓取数据落地后上级网页和下级网页的层级关联。

2.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法，其特征在于：爬取多级页面时，抓取到的每一级页面对应的数据解析表中，对需要继续抓取下级页面的对象设置主键值，并从各级页面对应的上一级页面的数据解析表中获取主键值，将该主键值作为本级页面的外键值；具体地：除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开，根据页面与所述对象之间的一一对应关系，确定各层级页面对应的对象，根据确定的对象获取该对象对应的主键值。

3.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法，其特征在于：所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。

4.根据权利要求3所述的一种基于网络爬虫的多级页面的级联爬取方法，其特征在于：所述跳转URL包括如下形式：完整的下级页面的URL链接；片段下级页面的URL链接后缀；部分参数值；上述任意形式的跳转URL都具有唯一性，均可作为主键值。

5.根据权利要求1所述的一种基于网络爬虫的多级页面的级联爬取方法，其特征在于：爬虫在爬取下级页面前，先分析下级页面是否存在分页，若是，则抓取到的各分页的数据解析表的外键值相同且该外键值为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。

6.一种基于网络爬虫的多级页面的级联爬取设备，其特征在于：所述设备包括微处理器和存储器，所述存储器上存储有程序，所述微处理器运行该程序并执行如下步骤：

7.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备，其特征在于：爬取多级页面时，抓取到的每一级页面对应的数据解析表中，对需要继续抓取下级页面的对象设置主键值，并从各级页面对应的上一级页面的数据解析表中获取主键值，将该主键值作为本级页面的外键值；具体地：除第一级页面外的各层级页面均由上一级页面中的对象被点击后打开，根据页面与所述对象之间的一一对应关系，确定各层级页面对应的对象，根据确定的对象获取该对象对应的主键值。

8.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备，其特征在于：所述主键值为所述对象的跳转URL和所述对象的跳转页面ID中的至少一种。

9.根据权利要求8所述的一种基于网络爬虫的多级页面的级联爬取设备，其特征在于：所述跳转URL包括如下形式：完整的下级页面的URL链接；片段下级页面的URL链接后缀；部分参数值；上述任意形式的跳转URL都具有唯一性，均能作为主键值。

10.根据权利要求6所述的一种基于网络爬虫的多级页面的级联爬取设备，其特征在于：爬虫在爬取下级页面前，先分析下级页面是否存在分页，若是，则抓取到的各分页的数据解析表的外键值相同且均为从上级页面数据解析表中获取到的该下级页面对应的对象的主键值。