CN112685619A

CN112685619A - 一种网页表格数据通用抓取方法

Info

Publication number: CN112685619A
Application number: CN202011599380.7A
Authority: CN
Inventors: 曹肖林; 许琳逸
Original assignee: Jiangsu Ledaohuba Investment Management Co ltd
Current assignee: Jiangsu Ledaohuba Investment Management Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20

Abstract

本发明适用于计算机技术领域，提供了一种网页表格数据通用抓取方法；其应用于网页表格数据通用抓取系统，包括以下处理步骤：获取用户输入的自定义抓取内容特征；获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；对页面信息进行解析，获取表格数据，将表格数据和含有表格数据的该页面网络链接储存至数据库中；对数据库中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列、展示。

Description

一种网页表格数据通用抓取方法

技术领域

本发明涉及计算机技术领域，具体是一种网页表格数据通用抓取方法。

背景技术

随着时代的进步，万维网成为当今传输数量最大、传输效率最高的信息数据载体。因此，如何有效的从万维网中获取需要的信息数据以及对海量信息的利用，成为网络通信技术领域研究的热点课题。

现有的网页表格数据抓取系统，只能够对数据进行简单的抓取，不能够根据用户需要对抓取完成后的数据进行再处理，需要用户二次处理，因此现提供一种网页表格数据通用抓取方法来解决该技术问题。

发明内容

本发明的目的在于提供一种网页表格数据通用抓取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种网页表格数据通用抓取方法，其应用于网页表格数据通用抓取系统，包括以下处理步骤：

获取用户输入的自定义抓取内容特征；

获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；

对页面信息进行解析，获取表格数据，将表格数据和含有表格数据的该页面网络链接储存至数据库中；

对数据库中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列、展示。

作为本发明进一步的方案：所述自定义抓取内容特征为目标网站的数据抓取地址入口。

作为本发明再进一步的方案：获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。

作为本发明再进一步的方案：从页面的URL路径阵列两端同时获取页面的URL路径，同时两路进行页面数据抓取，进而实现快速的对数据进行抓取。

作为本发明再进一步的方案：所述网页表格数据通用抓取系统包括操作端和处理端，操作端与处理端通信连接；

操作端，用于接收用户录入的自定义抓取内容特征；用用于接收处理端发送的表格数据，并将数据分类展示。

处理端，用于获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；用于对页面信息进行解析，获取表格数据，将表格数据和含有表格数据的该页面网络链接储存至数据库中；用于对数据库中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列，将处理完成后的表格数据发送给操作端。

作为本发明再进一步的方案：所述操作端包括显示单元与录入单元，显示单元与录入单元通信连接。

显示单元，用于接收处理端发送的表格数据，并将数据分类展示；

录入单元，用于接收用户录入的自定义抓取内容特征。

作为本发明再进一步的方案：所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元；路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接。

路径获取单元，用于获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；

解析单元，用于接收路径获取单元获取的页面的数据，并对页面信息进行解析，获取表格数据和该表格数据的页面网络链接，将表格数据和含有表格数据的该页面网络链接储存至数据库中；

数据库，用于储存数据；

比对单元，对数据库中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列，重新发送给数据库进行储存，并将之前的数据进行覆盖，将处理完成后的表格数据发送给操作端。

作为本发明再进一步的方案：路径获取单元，用于获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。

作为本发明再进一步的方案：路径获取单元包括阵列处理模块和多个数据获取模块，阵列处理模块和多个数据获取模块之间通信连接。

阵列处理模块，用于从页面的URL路径阵列两端获取页面的URL路径，并将两端页面的URL路径逐一分配给数据获取模块；

多个数据获取模块，用于接收阵列处理模块分配的页面的URL路径，根据页面的URL路径进行数据获取。

与现有技术相比，本发明的有益效果是：通过直接获取页面的URL路径，避免了在抓取数据时，每次都要逐级访问网站层级，增加抓取数据的时间和难度；通过对表格数据进行比对处理，将重复的处理掉；同时能够对数据进行分类展示；同时存储表格数据的页面网络链接，当使用者对表格数据存在异议的时候可以通过链接找到网页，根据网页数据理解表格。

附图说明

图1为网页表格数据通用抓取方法的结构示意图。

图2为网页表格数据通用抓取系统的网络结构示意图。

图3为网页表格数据通用抓取方法的结构示意图。

图4为网页表格数据通用抓取方法中路径获取单元的结构示意图。

图中：操作端-1、处理端-2、显示单元-11、录入单元-12、路径获取单元-21、解析单元-22、数据库-23、比对单元-24、后处理单元-25、阵列处理模块-211、数据获取模块-212。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明实施例1中，为本发明实施例提供的一种网页表格数据通用抓取方法的流程示意图，其应用于网页表格数据通用抓取系统，包括：

S101：获取用户输入的自定义抓取内容特征；

S102：获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；

S103：对页面信息进行解析，获取表格数据，将表格数据和含有表格数据的该页面网络链接储存至数据库23中；

S104：对数据库23中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列、展示。可以根据表格数据的属性，对其进行分类。

具体的，通过直接获取页面的URL路径，避免了在抓取数据时，每次都要逐级访问网站层级，增加抓取数据的时间和难度；通过对表格数据进行比对处理，将重复的处理掉；同时能够对数据进行分类展示；同时存储表格数据的页面网络链接，当使用者对表格数据存在异议的时候可以通过链接找到网页，根据网页数据理解表格。

所述自定义抓取内容特征为目标网站的数据抓取地址入口，其可以为目标网址的网络链接入口。

所述数据抓取地址可以根据需要进行修改，便于用户根据需要进行调整。用户可根据抓取需求，自行定义抓取内容特征。当网站升级使得抓取地址发生变化时，无需重新开发新的抓取方法，只需更新配置即可。

具体的，获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。进而对页面逐一获取数据，避免丢失获取部分数据。

作为本发明的一种优选实施例，从页面的URL路径阵列两端同时获取页面的URL路径，同时两路进行页面数据抓取，进而实现快速的对数据进行抓取，同时由阵列的两端向中间靠近抓取数据，进而使得不管那一路数据慢了一点，两者均向中间靠拢，进而使得两者均能够同时进行数据抓取，数据抓取完成后，能够同时的停止抓取，避免将URL路径阵列等分成两个队列，同时对两个队列进行数据获取，导致当一个队列获取数据快于另一个队列，进而导致不能够同时完成，影响工作效率。

所述存储表格数据与页面网络链接之间存在链接关系，当用户点击表格数据能够直接通过链接找到网页数据。

实施例2

请参阅图2～4，本发明还提供了一种网页表格数据通用抓取系统；

所述网页表格数据通用抓取系统包括操作端1和处理端2，操作端1与处理端2通信连接；

操作端1，用于接收用户录入的自定义抓取内容特征；用于接收处理端2发送的表格数据，并将数据分类展示。

处理端2，用于获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；用于对页面信息进行解析，获取表格数据，将表格数据和含有表格数据的该页面网络链接储存至数据库23中；用于对数据库23中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列，将处理完成后的表格数据发送给操作端1。

通过直接获取页面的URL路径，避免了在抓取数据时，每次都要逐级访问网站层级，增加抓取数据的时间和难度；通过对表格数据进行比对处理，将重复的处理掉；同时能够对数据进行分类展示；同时存储表格数据的页面网络链接，当使用者对表格数据存在异议的时候可以通过链接找到网页，根据网页数据理解表格。

所述操作端1包括显示单元11与录入单元12，显示单元11与录入单元12通信连接。

显示单元11，于接收处理端2发送的表格数据，并将数据分类展示；

录入单元12，用于接收用户录入的自定义抓取内容特征。

所述处理端2包括路径获取单元21、解析单元22、数据库23、比对单元24和后处理单元25；路径获取单元21、解析单元22、数据库23、比对单元24和后处理单元25之间均通信连接。

路径获取单元21，用于获取网站的配置文件信息，通过网站的配置文件信息获取个页面的URL路径信息，进一步的获取各页面的数据；

解析单元22，用于接收路径获取单元21获取的页面的数据，并对页面信息进行解析，获取表格数据和该表格数据的页面网络链接，将表格数据和含有表格数据的该页面网络链接储存至数据库23中；

数据库23，用于储存数据；

比对单元24，对数据库23中的表格数据进行比对，将相同数据进行剔除；然后对剔除后的表格数据进行分类排列，重新发送给数据库进行储存，并将之前的数据进行覆盖，将处理完成后的表格数据发送给操作端1。

路径获取单元21，用于获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。进而对页面逐一获取数据，避免丢失获取部分数据。

路径获取单元21包括阵列处理模块211和多个数据获取模块212，阵列处理模块211和多个数据获取模块212之间通信连接。

阵列处理模块211，用于从页面的URL路径阵列两端获取页面的URL路径，并将两端页面的URL路径逐一分配给数据获取模块212；

多个数据获取模块212，用于接收阵列处理模块211分配的页面的URL路径，根据页面的URL路径进行数据获取。所述数据获取模块212不少于两个。

从页面的URL路径阵列两端同时获取页面的URL路径，同时两路进行页面数据抓取，进而实现快速的对数据进行抓取，同时由阵列的两端向中间靠近抓取数据，进而使得不管那一路数据慢了一点，两者均向中间靠拢，进而使得两者均能够同时进行数据抓取，数据抓取完成后，能够同时的停止抓取，避免将URL路径阵列等分成两个队列，同时对两个队列进行数据获取，导致当一个队列获取数据快于另一个队列，进而导致不能够同时完成，影响工作效率。

本应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页表格数据通用抓取方法，其特征在于，其应用于网页表格数据通用抓取系统，包括以下处理步骤：

获取用户输入的自定义抓取内容特征；

2.根据权利要求1所述的网页表格数据通用抓取方法，其特征在于，所述自定义抓取内容特征为目标网站的数据抓取地址入口。

3.根据权利要求2所述的网页表格数据通用抓取方法，其特征在于，获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。

4.根据权利要求3所述的网页表格数据通用抓取方法，其特征在于，从页面的URL路径阵列两端同时获取页面的URL路径，同时两路进行页面数据抓取。

5.根据权利要求1-4任一所述的网页表格数据通用抓取方法，其特征在于，所述网页表格数据通用抓取系统包括操作端和处理端，操作端与处理端通信连接；

操作端，用于接收用户录入的自定义抓取内容特征；用用于接收处理端发送的表格数据，并将数据分类展示；

6.根据权利要求5所述的网页表格数据通用抓取方法，其特征在于，所述操作端包括显示单元与录入单元，显示单元与录入单元通信连接；

录入单元，用于接收用户录入的自定义抓取内容特征。

7.根据权利要求5所述的网页表格数据通用抓取方法，其特征在于，所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元；路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接；

数据库，用于储存数据；

8.根据权利要求7所述的网页表格数据通用抓取方法，其特征在于，路径获取单元，用于获取网站的配置文件信息，通过网站的配置文件信息解析出页面的URL路径阵列，根据页面的URL路径阵列逐一对页面进行数据获取。

9.根据权利要求8所述的网页表格数据通用抓取方法，其特征在于，路径获取单元包括阵列处理模块和多个数据获取模块，阵列处理模块和多个数据获取模块之间通信连接；