CN106933973A

CN106933973A - 一种可视化网络爬虫方法

Info

Publication number: CN106933973A
Application number: CN201710078160.1A
Authority: CN
Inventors: 肖晓军
Original assignee: Excellent Hundred Million Information Technology Co Ltds In Guangzhou
Current assignee: Excellent Hundred Million Information Technology Co Ltds In Guangzhou
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2017-07-07

Abstract

本发明涉及信息采集的技术领域，具体公开了一种可视化网络爬虫方法，首先用户输入多个初始URL和规则文件；服务器解析规则文件，采用最大匹配算法对初始URL分析生成URL匹配过滤规则，调用采集模块访问互联网获得初始URL的网页；用户在浏览器上打开网页浏览器插件标记所需内容与外链，服务器生成处理模块所需的数据解析规则和外链解析规则；处理模块处理初始URL的网页，并将提取的数据保存到数据库，以及获得的URL即外链传递到调度模块；不断循环处理；将获得的数据提供给用户下载。本发明使普通用户方便和直观的操控和设计抓取程序，降低对用户技术水平的要求，有效增加大数据的研究人群，减轻相关研究人员的学习成本。

Description

一种可视化网络爬虫方法

技术领域

本发明涉及信息采集的技术领域，具体是一种可视化网络爬虫方法。

背景技术

随着互联网用户的迅速增长，用户所产生数据的数量产生了跨越式增加，数据的格式也越来越繁杂多样，而在这些繁杂的数据中蕴含着巨大的价值。但用户想访问这些数据一般是通过访问搜索引擎来寻找相关信息并访问相关网页。但使用通用的搜索引擎如百度搜索、360搜索和谷歌搜索等返回的网页量巨大，而且网页中大多包含着一些无效的或用户不需要的信息。这样从这些返回的数据中提取到精准的信息很消耗用户的时间与精力，难以满足用户直接获得大量经过提取的信息需求。

而且现在随着大数据技术的发展，普通用户对于获取经过清洗、完整的和格式统一的数据以用于后续的大数据处理的需求不断增加。用户为了满足这样的需求，通常采用网络爬虫技术。但现在通用的网络爬虫软件或框架都要求用户具备一定的编程基础，一般采用编程语言编辑。缺乏一种可视化的网络爬虫软件来协助编程技术相对薄弱的用户大规模精准获取特定的网络信息。

发明内容

本发明的目的在于提供一种基于页面相似度匹配和css/xpath规则构建抓取规则的可视化网络爬虫技术，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种可视化网络爬虫方法，包括如下步骤：

（1）用户输入不少于1个初始URL和规则文件；

（2）服务器解析规则文件，采用最大匹配算法对初始URL分析生成URL匹配过滤规则，调用采集模块访问互联网获得初始URL的网页；

（3）用户在浏览器上打开网页浏览器插件标记所需内容与外链，服务器生成处理模块所需的数据解析规则和外链解析规则；

（4）处理模块处理初始URL的网页，并将经数据解析规则提取的数据保存到数据库，以及经外链解析规则获得的URL即外链传递到调度模块；

（5）调度模块分配URL队列到采集模块；

（6）URL队列再经下载中间件模块处理后访问互联网获得目标URL的网页；

（7）获得的目标URL的网页经URL匹配过滤规则的URL匹配过滤后进入处理模块；

（8）处理模块处理网页，将提取的数据保存到数据库和获得的URL即外链传递到调度模块，不断循环处理；

（9）将获得的数据提供给用户下载。

作为本发明进一步的方案：步骤（1）中，规则文件包括采集周期、是否启动JS模拟与Cookies。

作为本发明进一步的方案：步骤（3）中，所述的用户使用可视化的操控页面并标定采集信息与外链。

作为本发明进一步的方案：步骤（3）中，服务器通过DOM树相似度算法完成数据解析规则和外链解析规则的生成。

作为本发明进一步的方案：步骤（9）中，数据采用csv、json或excel格式。

与现有技术相比，本发明的有益效果是：

本发明提出的用户可视化的操控页面并标定采集信息与外链，程序通过DOM树相似度算法完成数据解析规则和外链解析规则的生成的方法，使普通用户方便和直观的操控和设计抓取程序，降低对用户技术水平的要求，有效增加大数据的研究人群，减轻相关研究人员的学习成本。

附图说明

图1是一种可视化网络爬虫方法示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，本发明实施例中，一种可视化网络爬虫方法，包括如下步骤：

（1）用户输入多个初始URL、采集周期、是否启动JS模拟、Cookies等规则文件；

（3）用户在浏览器上打开网页浏览器插件标记所需内容与外链，服务器使用DOM树相似度算法生成处理模块所需的数据解析规则和外链解析规则；

（4）处理模块处理网页，将提取的数据保存到数据库和获得的URL外链传递到调度模块；

（5）调度模块分配URL队列到采集模块；

（6）URL队列经下载中间件模块处理后访问互联网获得目标URL的网页；

（7）获得的目标URL的网页经过URL匹配过滤后进入处理模块；

（8）处理模块处理网页，将提取的数据保存到数据库和获得的URL外链传递到调度模块，不断循环处理；

（9）将获得的数据以csv、json、excel等格式提供给用户下载。

本发明对输入多个相似的初始URL进行最大匹配算法即从所有的初始URL的根目录开始匹配，遇到不同的目录时即终止匹配，生成URL匹配过滤规则。而数据解析和外链解析规则通过让用户使用可视化的浏览器插件简单标定初始URL上网页的所需信息，采取DOM树相似度算法对网页进行相似度匹配生成规则，其中DOM树相似度算法是比较DOM中的浅层节点的父节点是否一致而实现的。这样实现用户精准抓取互联网网页信息的目的，节省用户人工提取网页信息时间，降低对操作人员的技术要求，同时具备抓取内容的高精准度，满足普通用户对网页信息大规模精准提取的需求。

综上所述，本发明从实用性、可靠性、低成本的角度出发，迎合与满足当前普通用户对大规模信息精准抓取的需求。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种可视化网络爬虫方法，其特征在于，包括如下步骤：

（1）用户输入不少于1个初始URL和规则文件；

（5）调度模块分配URL队列到采集模块；

（9）将获得的数据提供给用户下载。

2.根据权利要求1所述的可视化网络爬虫方法，其特征在于，步骤（1）中，规则文件包括采集周期、是否启动JS模拟与Cookies。

3.根据权利要求1所述的可视化网络爬虫方法，其特征在于，步骤（3）中，所述的用户使用可视化的操控页面并标定采集信息与外链。

4.根据权利要求1所述的可视化网络爬虫方法，其特征在于，步骤（3）中，服务器通过DOM树相似度算法完成数据解析规则和外链解析规则的生成。

5.根据权利要求1所述的可视化网络爬虫方法，其特征在于，步骤（9）中，数据采用csv、json或excel格式。