CN112685619A - 一种网页表格数据通用抓取方法 - Google Patents
一种网页表格数据通用抓取方法 Download PDFInfo
- Publication number
- CN112685619A CN112685619A CN202011599380.7A CN202011599380A CN112685619A CN 112685619 A CN112685619 A CN 112685619A CN 202011599380 A CN202011599380 A CN 202011599380A CN 112685619 A CN112685619 A CN 112685619A
- Authority
- CN
- China
- Prior art keywords
- data
- page
- table data
- acquiring
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于计算机技术领域,提供了一种网页表格数据通用抓取方法;其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。
Description
技术领域
本发明涉及计算机技术领域,具体是一种网页表格数据通用抓取方法。
背景技术
随着时代的进步,万维网成为当今传输数量最大、传输效率最高的信息数据载体。因此,如何有效的从万维网中获取需要的信息数据以及对海量信息的利用,成为网络通信技术领域研究的热点课题。
现有的网页表格数据抓取系统,只能够对数据进行简单的抓取,不能够根据用户需要对抓取完成后的数据进行再处理,需要用户二次处理,因此 现提供一种网页表格数据通用抓取方法来解决该技术问题。
发明内容
本发明的目的在于提供一种网页表格数据通用抓取方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种网页表格数据通用抓取方法,其应用于网页表格数据通用抓取系统,包括以下处理步骤:
获取用户输入的自定义抓取内容特征;
获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;
对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。
作为本发明进一步的方案:所述自定义抓取内容特征为目标网站的数据抓取地址入口。
作为本发明再进一步的方案:获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
作为本发明再进一步的方案:从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取,进而实现快速的对数据进行抓取。
作为本发明再进一步的方案:所述网页表格数据通用抓取系统包括操作端和处理端,操作端与处理端通信连接;
操作端,用于接收用户录入的自定义抓取内容特征;用用于接收处理端发送的表格数据,并将数据分类展示。
处理端,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;用于对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端。
作为本发明再进一步的方案:所述操作端包括显示单元与录入单元,显示单元与录入单元通信连接。
显示单元,用于接收处理端发送的表格数据,并将数据分类展示;
录入单元,用于接收用户录入的自定义抓取内容特征。
作为本发明再进一步的方案:所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元;路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接。
路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
解析单元,用于接收路径获取单元获取的页面的数据,并对页面信息进行解析,获取表格数据和该表格数据的页面网络链接,将表格数据和含有表格数据的该页面网络链接储存至数据库中;
数据库,用于储存数据;
比对单元,对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,重新发送给数据库进行储存,并将之前的数据进行覆盖,将处理完成后的表格数据发送给操作端。
作为本发明再进一步的方案:路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
作为本发明再进一步的方案:路径获取单元包括阵列处理模块和多个数据获取模块,阵列处理模块和多个数据获取模块之间通信连接。
阵列处理模块,用于从页面的URL路径阵列两端获取页面的URL路径,并将两端页面的URL路径逐一分配给数据获取模块;
多个数据获取模块,用于接收阵列处理模块分配的页面的URL路径,根据页面的URL路径进行数据获取。
与现有技术相比,本发明的有益效果是:通过直接获取页面的URL路径,避免了在抓取数据时,每次都要逐级访问网站层级,增加抓取数据的时间和难度;通过对表格数据进行比对处理,将重复的处理掉;同时能够对数据进行分类展示;同时存储表格数据的页面网络链接,当使用者对表格数据存在异议的时候可以通过链接找到网页,根据网页数据理解表格。
附图说明
图1为网页表格数据通用抓取方法的结构示意图。
图2为网页表格数据通用抓取系统的网络结构示意图。
图3为网页表格数据通用抓取方法的结构示意图。
图4为网页表格数据通用抓取方法中路径获取单元的结构示意图。
图中:操作端-1、处理端-2、显示单元-11、录入单元-12、路径获取单元-21、解析单元-22、数据库-23、比对单元-24、后处理单元-25、阵列处理模块-211、数据获取模块-212。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明实施例1中,为本发明实施例提供的一种网页表格数据通用抓取方法的流程示意图,其应用于网页表格数据通用抓取系统,包括:
S101:获取用户输入的自定义抓取内容特征;
S102:获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
S103:对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库23中;
S104:对数据库23中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。可以根据表格数据的属性,对其进行分类。
具体的,通过直接获取页面的URL路径,避免了在抓取数据时,每次都要逐级访问网站层级,增加抓取数据的时间和难度;通过对表格数据进行比对处理,将重复的处理掉;同时能够对数据进行分类展示;同时存储表格数据的页面网络链接,当使用者对表格数据存在异议的时候可以通过链接找到网页,根据网页数据理解表格。
所述自定义抓取内容特征为目标网站的数据抓取地址入口,其可以为目标网址的网络链接入口。
所述数据抓取地址可以根据需要进行修改,便于用户根据需要进行调整。用户可根据抓取需求,自行定义抓取内容特征。当网站升级使得抓取地址发生变化时,无需重新开发新的抓取方法,只需更新配置即可。
具体的,获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。进而对页面逐一获取数据,避免丢失获取部分数据。
作为本发明的一种优选实施例,从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取,进而实现快速的对数据进行抓取,同时由阵列的两端向中间靠近抓取数据,进而使得不管那一路数据慢了一点,两者均向中间靠拢,进而使得两者均能够同时进行数据抓取,数据抓取完成后,能够同时的停止抓取,避免将URL路径阵列等分成两个队列,同时对两个队列进行数据获取,导致当一个队列获取数据快于另一个队列,进而导致不能够同时完成,影响工作效率。
所述存储表格数据与页面网络链接之间存在链接关系,当用户点击表格数据能够直接通过链接找到网页数据。
实施例2
请参阅图2~4,本发明还提供了一种网页表格数据通用抓取系统;
所述网页表格数据通用抓取系统包括操作端1和处理端2,操作端1与处理端2通信连接;
操作端1,用于接收用户录入的自定义抓取内容特征;用于接收处理端2发送的表格数据,并将数据分类展示。
处理端2,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库23中;用于对数据库23中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端1。
通过直接获取页面的URL路径,避免了在抓取数据时,每次都要逐级访问网站层级,增加抓取数据的时间和难度;通过对表格数据进行比对处理,将重复的处理掉;同时能够对数据进行分类展示;同时存储表格数据的页面网络链接,当使用者对表格数据存在异议的时候可以通过链接找到网页,根据网页数据理解表格。
所述操作端1包括显示单元11与录入单元12,显示单元11与录入单元12通信连接。
显示单元11,于接收处理端2发送的表格数据,并将数据分类展示;
录入单元12,用于接收用户录入的自定义抓取内容特征。
所述处理端2包括路径获取单元21、解析单元22、数据库23、比对单元24和后处理单元25;路径获取单元21、解析单元22、数据库23、比对单元24和后处理单元25之间均通信连接。
路径获取单元21,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
解析单元22,用于接收路径获取单元21获取的页面的数据,并对页面信息进行解析,获取表格数据和该表格数据的页面网络链接,将表格数据和含有表格数据的该页面网络链接储存至数据库23中;
数据库23,用于储存数据;
比对单元24,对数据库23中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,重新发送给数据库进行储存,并将之前的数据进行覆盖,将处理完成后的表格数据发送给操作端1。
所述自定义抓取内容特征为目标网站的数据抓取地址入口,其可以为目标网址的网络链接入口。
所述数据抓取地址可以根据需要进行修改,便于用户根据需要进行调整。用户可根据抓取需求,自行定义抓取内容特征。当网站升级使得抓取地址发生变化时,无需重新开发新的抓取方法,只需更新配置即可。
路径获取单元21,用于获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。进而对页面逐一获取数据,避免丢失获取部分数据。
路径获取单元21包括阵列处理模块211和多个数据获取模块212,阵列处理模块211和多个数据获取模块212之间通信连接。
阵列处理模块211,用于从页面的URL路径阵列两端获取页面的URL路径,并将两端页面的URL路径逐一分配给数据获取模块212;
多个数据获取模块212,用于接收阵列处理模块211分配的页面的URL路径,根据页面的URL路径进行数据获取。所述数据获取模块212不少于两个。
从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取,进而实现快速的对数据进行抓取,同时由阵列的两端向中间靠近抓取数据,进而使得不管那一路数据慢了一点,两者均向中间靠拢,进而使得两者均能够同时进行数据抓取,数据抓取完成后,能够同时的停止抓取,避免将URL路径阵列等分成两个队列,同时对两个队列进行数据获取,导致当一个队列获取数据快于另一个队列,进而导致不能够同时完成,影响工作效率。
所述存储表格数据与页面网络链接之间存在链接关系,当用户点击表格数据能够直接通过链接找到网页数据。
本应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种网页表格数据通用抓取方法,其特征在于,其应用于网页表格数据通用抓取系统,包括以下处理步骤:
获取用户输入的自定义抓取内容特征;
获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;
对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。
2.根据权利要求1所述的网页表格数据通用抓取方法,其特征在于,所述自定义抓取内容特征为目标网站的数据抓取地址入口。
3.根据权利要求2所述的网页表格数据通用抓取方法,其特征在于,获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
4.根据权利要求3所述的网页表格数据通用抓取方法,其特征在于,从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取。
5.根据权利要求1-4任一所述的网页表格数据通用抓取方法,其特征在于,所述网页表格数据通用抓取系统包括操作端和处理端,操作端与处理端通信连接;
操作端,用于接收用户录入的自定义抓取内容特征;用用于接收处理端发送的表格数据,并将数据分类展示;
处理端,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;用于对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端。
6.根据权利要求5所述的网页表格数据通用抓取方法,其特征在于,所述操作端包括显示单元与录入单元,显示单元与录入单元通信连接;
显示单元,用于接收处理端发送的表格数据,并将数据分类展示;
录入单元,用于接收用户录入的自定义抓取内容特征。
7.根据权利要求5所述的网页表格数据通用抓取方法,其特征在于,所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元;路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接;
路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;
解析单元,用于接收路径获取单元获取的页面的数据,并对页面信息进行解析,获取表格数据和该表格数据的页面网络链接,将表格数据和含有表格数据的该页面网络链接储存至数据库中;
数据库,用于储存数据;
比对单元,对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,重新发送给数据库进行储存,并将之前的数据进行覆盖,将处理完成后的表格数据发送给操作端。
8.根据权利要求7所述的网页表格数据通用抓取方法,其特征在于,路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
9.根据权利要求8所述的网页表格数据通用抓取方法,其特征在于,路径获取单元包括阵列处理模块和多个数据获取模块,阵列处理模块和多个数据获取模块之间通信连接;
阵列处理模块,用于从页面的URL路径阵列两端获取页面的URL路径,并将两端页面的URL路径逐一分配给数据获取模块;
多个数据获取模块,用于接收阵列处理模块分配的页面的URL路径,根据页面的URL路径进行数据获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599380.7A CN112685619A (zh) | 2020-12-29 | 2020-12-29 | 一种网页表格数据通用抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599380.7A CN112685619A (zh) | 2020-12-29 | 2020-12-29 | 一种网页表格数据通用抓取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685619A true CN112685619A (zh) | 2021-04-20 |
Family
ID=75454152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011599380.7A Pending CN112685619A (zh) | 2020-12-29 | 2020-12-29 | 一种网页表格数据通用抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685619A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806669A (zh) * | 2021-09-27 | 2021-12-17 | 深圳本地宝新媒体技术有限公司 | 一种网站管理后台的生成方法、装置及服务器 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462566A (zh) * | 2014-12-26 | 2015-03-25 | 中科宇图天下科技有限公司 | 一种环保信息网格抓取方法 |
CN104750804A (zh) * | 2015-03-24 | 2015-07-01 | 南京途牛科技有限公司 | 一种插件式可配置的垂直领域网络爬虫实现方法 |
CN105763543A (zh) * | 2016-02-03 | 2016-07-13 | 百度在线网络技术(北京)有限公司 | 一种识别钓鱼网站的方法及装置 |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN107885777A (zh) * | 2017-10-11 | 2018-04-06 | 北京智慧星光信息技术有限公司 | 一种基于协作式爬虫的抓取网页数据的控制方法及系统 |
CN108932327A (zh) * | 2018-07-03 | 2018-12-04 | 芜湖瑞芬莱网络科技有限公司 | 一种页面信息提取系统及提取方法 |
CN109697198A (zh) * | 2018-11-26 | 2019-04-30 | 河南大瑞物联网科技有限公司 | 自动剔除无用信息和重复信息的网络数据采集方法 |
-
2020
- 2020-12-29 CN CN202011599380.7A patent/CN112685619A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462566A (zh) * | 2014-12-26 | 2015-03-25 | 中科宇图天下科技有限公司 | 一种环保信息网格抓取方法 |
CN104750804A (zh) * | 2015-03-24 | 2015-07-01 | 南京途牛科技有限公司 | 一种插件式可配置的垂直领域网络爬虫实现方法 |
CN105763543A (zh) * | 2016-02-03 | 2016-07-13 | 百度在线网络技术(北京)有限公司 | 一种识别钓鱼网站的方法及装置 |
CN107025296A (zh) * | 2017-04-17 | 2017-08-08 | 山东辰华科技信息有限公司 | 基于科技服务信息智能抓取系统数据收集方法 |
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN107885777A (zh) * | 2017-10-11 | 2018-04-06 | 北京智慧星光信息技术有限公司 | 一种基于协作式爬虫的抓取网页数据的控制方法及系统 |
CN108932327A (zh) * | 2018-07-03 | 2018-12-04 | 芜湖瑞芬莱网络科技有限公司 | 一种页面信息提取系统及提取方法 |
CN109697198A (zh) * | 2018-11-26 | 2019-04-30 | 河南大瑞物联网科技有限公司 | 自动剔除无用信息和重复信息的网络数据采集方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806669A (zh) * | 2021-09-27 | 2021-12-17 | 深圳本地宝新媒体技术有限公司 | 一种网站管理后台的生成方法、装置及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101192227B (zh) | 一种基于分布式计算网络的日志文件分析方法和系统 | |
CN108847977A (zh) | 一种业务数据的监控方法、存储介质和服务器 | |
CN102799610A (zh) | 网络信息收藏方法及系统 | |
CN106909554B (zh) | 一种数据库文本表数据的加载方法及装置 | |
CN111813573B (zh) | 管理平台与机器人软件的通信方法及其相关设备 | |
CN104462420B (zh) | 数据库的查询任务的执行方法和装置 | |
CN112613271A (zh) | 数据分页方法、装置、计算机设备及存储介质 | |
CN112685619A (zh) | 一种网页表格数据通用抓取方法 | |
CN106648722A (zh) | 基于大数据的Flume接收端数据处理方法和装置 | |
EP3564833B1 (en) | Method and device for identifying main picture in web page | |
CN109033188A (zh) | 一种元数据采集方法、装置、服务器和计算机可读介质 | |
CN110442439B (zh) | 任务进程处理方法、装置和计算机设备 | |
CN102387025B (zh) | 一种采集业务数据包日志信息的方法及业务逻辑处理系统 | |
CN111159213A (zh) | 一种数据查询方法、装置、系统和存储介质 | |
CN111125161B (zh) | 数据的实时处理方法、装置、设备及存储介质 | |
CN114070901A (zh) | 基于多数据对齐的数据发送和接收方法、装置和设备 | |
CN111078975B (zh) | 一种多节点增量式数据采集系统及采集方法 | |
CN103970605A (zh) | 一种基于低性能终端的数据分析方法及装置 | |
CN113761443A (zh) | 一种网站页面数据采集与统计方法、存储介质及设备 | |
CN106095984A (zh) | 一种获取结构化数据的方法及装置 | |
CN108073607B (zh) | Url处理方法及装置 | |
CN110569673A (zh) | 一种数据文件处理方法、装置、设备及储存介质 | |
CN106815235B (zh) | 超级网页模板生成方法、装置及页面数据传输方法 | |
CN115187153B (zh) | 应用于业务风险溯源的数据处理方法及系统 | |
CN114697305B (zh) | 一种基于微服务架构的业务处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |