CN112434204A

CN112434204A - 一种多来源网站的数据自动采集系统及其方法

Info

Publication number: CN112434204A
Application number: CN202011319945.1A
Authority: CN
Inventors: 马笑轩; 康艳
Original assignee: Luoyang Jianqi Big Data Service Co ltd
Current assignee: Luoyang Jianqi Big Data Service Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-02

Abstract

本申请公开了一种多来源网站的数据自动采集系统及其方法，涉及计算机网络领域，目的是解决现有网页采集技术开发工作量大，适应范围小，增加修改新功能困难，可迁移性差等缺点，包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模块用于从特征数据库获取目标数据；最终数据库用于存储目标数据；可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。本发明能够实现高智能化、访问网页数量、方式多和解析方式灵活、代码量小、爬取迅速，且便于修改增加新功能，维护便捷高效。

Description

一种多来源网站的数据自动采集系统及其方法

技术领域

本发明涉及计算机网络领域，具体涉及一种多来源网站的数据自动采集系统及其方法。

背景技术

随着大数据时代的到来，大数据服务对数据的获取、解析和展示提出了新的需求和挑战。目前，通用的技术方案多针对单一的网站进行爬取，对固定的数据匹配统一的规则。具有开发工作量大，适应范围小，增加修改新功能困难，可迁移性差的特点，采用一个一个的进行设计的方法，对业务员的专业能力和开发经验要求高，工过量大，开发周期长，增加了公司的运营成本和人力成本，尤其是，在开发过程中增加新功、修改错误和后期运行维护方面更是带来繁重的工作量，花费宝贵的时间。

对于相似程度高的网站需要人工，编程和匹配规则，缺乏智能化的分析手段和对已有工作成校、经验的沿用。对于统计结果的统计需要人工检查结果，缺乏科学的统计、分析和预测方式，对于结果的展示，和采集过程的干预，多采用代码级别的干预，更改困难，容易引入扰乱。

发明内容

本申请公开了一种多来源网站的数据自动采集系统及其方法，实现了智能化采集，访问网页访问方式多和解析方式灵活、代码量小且爬取迅速。

为了达到上述目的，本申请采用的技术方案如下：

一种多来源网站的数据自动采集系统，包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模块用于从特征数据库获取目标数据；最终数据库用于存储目标数据；可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。

优选地，原始数据库内存放的数据包括原始特征信息，样板信息，网页翻页信息，url信息和url示例信息。

优选地，特征数据库存放的数据的数据类型包括post-html,post-json,get-html和get-json。

本申请还公开了一种多来源网站的数据自动采集方法，应用于上述的一种多来源网站的数据自动采集系统，步骤包括：

(a)将网页信息录入原始数据库；

(b)由特征提取模块自动清洗分析原始数据库的数据，并且将提取的网页的信息和关键特征存入特征数据库；

(c)请求网页：模块自动生成网页请求的url和参数，获取网页内容；

(d)网页解析：解析请求网页步骤以后返回的网页内容，网页解析模块解析项目的名称、发布时间和该项目的超级链接，并且智能处理超级链接且自动补充残缺部分生成完整的链接；

(e)由数据获取模块筛选目标存入最终数据库；

(f)通过可视化界面展示运行情况、统计分析和数据录入情况。

优选地，步骤(c)中，请求网页的类型包括get型和post型；网页请求为get型时，通过对比网页连续3页的的链接进行分段处理，对比分析变化信息确定网页的翻页码和规则，动态生成各页的链接；网页请求为post型时，通过对比网页的变化，确定网页的变化规则以及响应得post型参数的变化规则，生成数据每一页的访问规则。

优选地，步骤(d)中，返回的网页种类包括html和json。

优选地，步骤(f)中，可视化界面还用于对中间的参数进行编辑和修改。本申请通过构建原始数据库、特征数据库、最终数据库和可视化界面，实现了网站数据采集的智能化，访问网页访问方式多和解析方式灵活，代码量小，爬取迅速，修改增加新功能方便简单，后期维护便捷高效的特点；设置的可视化界面为采集过程的人为干预，为修改配置和引导学习提供便捷，可直观展示统计和分析结果，效果直观，为数据的管理和研究提供方便。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的方法流程图。

具体实施方式

如图1所示的一种多来源网站的数据自动采集系统，包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；特征提取模块从原始数据库提取的特征数据储存到特征数据库；数据获取模块从特征数据库获取数据存放至最终数据库；可视化界面用于展示数据采集和分析结果，还用于修改和编辑数据采集的中间参数。

其中，原始数据库内存放的数据包括原始特征信息，样板信息，网页翻页信息，url信息和url示例信息；特征数据库存放的数据的数据类型包括post-html,post-json,get-html和get-json。

下面结合图2说明一种多来源网站的数据自动采集方法的工作流程：

(a)录入原始数据库：原始数据库尽可能多的包含各个方面的信息为后期处理需求提供便利，例如包括原始特征信息，样板信息，网页翻页信息，url信息和url示例等信息；按固定的标准和格式统一快速录入，适应于短时间，大批量，快速录入。

(b)由特征提取模块自动清洗分析原始数据库的数据，并且将提取的网页的信息和关键特征存入特征数据库：特征数据库存储的类型包括post-html,post-json,get-html和get-json。

(c)请求网页，模块自动生成网页请求的url和参数，获取网页内容：请求网页的类型分为get型和post型，当网页请求为get型时，通过对比网页连续3页的的链接进行分段处理，对比分析确定网页的翻页码和规则，动态生成各页的链接；当网页请求为post型时，通过对比网页的变化，意见发送的post参数的变化，确定网页的变化规则以及响应得post型参数的变化规则，生成数据每一页的访问规则。

(d)网页解析，网页解析模块需要解析项目的名称，发布时间和该项目的超级链接，由特征提取模块处理超级链接补充残缺部分生成完整的链接：对请求网页以后返回的网页进行解析，返回的网页分为html和json两种类型，当返回的网页为html型时，依据表中录入的项目信息的标题、时间、xpath路径、提取称网页中一条项目标题和发布时间的xpath路径的特征信息，提取该项目的超级链接；当返回的网页为json型时，可以根据特征数据库的存储的特征，直接提取目标信息。

(e)数据获取模块筛选目标存入最终数据库：对于录入信息中的超级链接，自动提取链接的规则，对链接进行拼写和补全，生成正常且完整的连接，通过该链接拿取网页内容或网页截屏快照，结果发送到最终数据库储存。

(f)通过可视化界面展示运行情况、统计分析和数据录入情况：整个进程都可以在可视化界面展示，此外，可视化界面还可以用于用户在过程中对参数进行修改或编辑。

实施例1

下面以中标信息为例：

原始数据库存储的项目包括表头、分类、行业、总内容、标题1、时间1、标题2、时间2和省。表头存储城市名称，网站名处存储网址名称，分类一栏存储招标、中标，评标、资格候选人和流标等信息，行业一栏存储房屋、市政、工程水利，土地交易，产权，国有等信息，对于数据项少小于3页的全部录入，对于3页和3页以上的录入前3页的链接或者录入其中任意连续三页的链接。总内容一栏存储中标项目详情的网页的正文文本的xpath路径。标题1是项目列表中第一项的标题文本的xpath路径，时间1一栏为项目列表中第一项的标题文本的发布时间；标题2一栏是项目列表中第二项的标题文本的xpath路径，时间2为项目列表中第二项的标题文本的发布时间，省一栏记录城市的省份。其中，对于标题和时间的存储，在本实施例中，以存储第一项和第二项为例，但是也可以选取其他不同的两项，如第二和第三，或者第一和第四。

首先由特征提取模块自动清洗分析原始数据库的数据，并且将提取的网页的信息和关键特征存入特征数据库。

请求网页，模块自动生成网页请求的url和参数，获取网页内容。

接着进行网页解析，解析项目的名称，发布时间和该项目的超级链接，由特征提取模块处理超级链接补充残缺部分生成完整的链接，例如网页为json型时，可以根据特征数据库的存储的特征，直接提取目标信息。

下一步是由数据获取模块筛选目标存入最终数据库，即对于录入信息中的超级链接，自动提取链接的规则，对链接进行拼写和补全，生成正常且完整的连接，通过该链接拿取网页内容或网页截屏快照，结果发送到最终数据库储存。

最后通过可视化界面展示运行情况、统计分析和数据录入情况，其中，整个进程都可以在可视化界面展示，此外，可视化界面还可以用于用户在过程中对参数进行修改或编辑。

Claims

1.一种多来源网站的数据自动采集系统，其特征在于：包括原始数据库、特征提取模块、特征数据库、数据获取模块、最终数据库和可视化界面；

原始数据库用于存储原始数据；特征提取模块用于从原始数据库提取特征数据；特征数据库用于存储特征数据；数据获取模块用于从特征数据库获取目标数据；最终数据库用于存储目标数据；可视化界面用于展示数据采集和分析结果以及修改和编辑数据采集的中间参数。

2.根据权利要求1所述的一种多来源网站的数据自动采集系统，其特征在于：所述原始数据库内存放的数据包括原始特征信息、样板信息、网页翻页信息、url信息和url示例信息。

3.根据权利要求1所述的一种多来源网站的数据自动采集系统，其特征在于：所述特征数据库存放的数据的数据类型包括post-html、post-json、get-html和get-json。

4.一种多来源网站的数据自动采集方法，应用于权利要求1-3所述的任意一种多来源网站的数据自动采集系统，其特征在于，包括以下步骤：

(a)将网页信息录入原始数据库；

(d)网页解析：解析请求网页步骤以后返回的网页的内容，网页解析模块解析项目的名称、发布时间和该项目的超级链接，并且智能处理超级链接且自动补充残缺部分生成完整的链接；

(e)筛选目标存入最终数据库；

5.根据权利要求4所述的一种多来源网站的数据自动采集方法，其特征在于：步骤(c)中，所述请求网页的类型包括get型和post型；

网页请求为get型时，通过对比网页连续3页的链接进行分段处理，对比分析变化信息确定网页的翻页码和规则，动态生成各页的链接；网页请求为post型时，通过对比网页的变化，确定网页的变化规则以及响应得post型参数的变化规则，生成数据每一页的访问规则。

6.根据权利要求4所述的一种多来源网站的数据自动采集方法，其特征在于：步骤(d)中，所述返回的网页的种类包括html和json。

7.根据权利要求4所述的一种多来源网站的数据自动采集方法，其特征在于：步骤(f)中，所述可视化界面还用于对中间的参数进行编辑和修改。