CN107885777A

CN107885777A - 一种基于协作式爬虫的抓取网页数据的控制方法及系统

Info

Publication number: CN107885777A
Application number: CN201710943646.7A
Authority: CN
Inventors: 庞威
Original assignee: Beijing Wisdom Star Information Technology Co Ltd
Current assignee: Beijing Wisdom Star Information Technology Co Ltd
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2018-04-06

Abstract

一种基于协作式爬虫的抓取网页数据的控制方法及系统，包括：将抓取网页数据的过程分解为第一阶段和第二阶段；网络爬虫在第一阶段通过列表页配置文件只获取页面的URL路径信息；之后网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，以完成第二阶段的流程；其中，在第二阶段中多个网络爬虫通过详情页配置文件获取各页面的详情数据的策略包括从详情待解析URL队列信息中得到首个URL路径信息后，便从详情待解析URL队列信息中去除该URL路径信息。本发明解决了从网页层次结构较深或详情页面较多的网站抓取数据花费时间过多，抓取效率低的问题。

Description

一种基于协作式爬虫的抓取网页数据的控制方法及系统

技术领域

本发明涉及计算机和通信技术领域，尤其涉及一种基于协作式爬虫的抓取网页数据的控制方法及系统。

背景技术

随着互联网的广泛应用，海量的信息呈指数式爆炸增长，如果要想从网络中得到所需要的数据，就需要通过网络爬虫来访问这些网页信息并采集想要的数据。网络爬虫在遍历一个网站时，通常有深度优先和广度优先两种方法。不管是深度优先，还是广度优先，它们都是层级顺序执行的，当面对层次结构较深，详情页面比较多的网站，比如百度贴吧(有很多的分类，每一个分类又有很多的子分类，子分类又有很多个贴吧，每个贴吧又有很多的帖子)时，普通的爬虫要想遍历全部信息需要非常多的时间，而对于舆情监测来说，花费过多的时间肯定是不能满足需求的。

通常的网络爬虫抓取一个网站的基本工作流程如下：

步骤110、网络爬虫获得一个网站的采集入口，通常是首页；

步骤120、网络爬虫获取到这个页面详细信息，通过解析这个页面得到该页面包含的URL(统一资源定位器，其是WWW页的地址),把通过此页面获得的所有URL保存起来，放到待解析任务队列中；

步骤130、网络爬虫逐一获取保存在待解析任务队列中的页面，如果该页面是列表页，则获取该列表页中URL放到待解析任务队列中；如果是详情页，获取详情页信息并终止访问。

重复步骤130的操作，直到遍历完所有的页面。

由此可见，传统爬虫采集信息时都是先登录网站首页，然后一级一级遍历整个网站，而且是顺序进行的。对于网站结构比较简单，详情页数量比较少时，上述方法还是可行的。但是对于百度贴吧这种层级非常深，内容非常多的网站，全部遍历一遍可能需要一天时间，舆情信息采集具有实时性强的特点，这么长的时间间隔是进行舆情信息采集所无法接受的。

因此，如何提供一种新的抓取网页数据的控制的技术方案，就成为了当前需要解决的问题。

发明内容

本发明所要解决的技术问题在于提供一种基于协作式爬虫的抓取网页数据的控制方法及系统，以解决从网页层次结构较深或详情页面较多的网站抓取数据花费时间过多，抓取效率低的问题。

为了解决上述问题，本发明提供了一种基于协作式爬虫的抓取网页数据的控制方法，包括：

将抓取网页数据的过程分解为第一阶段和第二阶段；

网络爬虫通过列表页配置文件只获取页面的URL路径信息，完成第一阶段的流程；

在完成第一阶段流程后，网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，以完成第二阶段的流程；其中，在第二阶段中多个网络爬虫通过详情页配置文件获取各页面的详情数据的策略包括从详情待解析URL队列信息中得到首个URL路径信息后，便从详情待解析URL队列信息中去除该URL路径信息。

进一步地，上述方法还可包括：所述网络爬虫通过列表页配置文件只获取页面的URL路径信息的步骤，包括：

模拟用户对网页的访问操作发送网页访问请求后，通过一网络爬虫根据网页访问请求来获取列表页配置文件；

所述一网络爬虫根据获取的列表页配置文件获取网站的入口，通常是首页URL路径信息；

所述一网络爬虫下载并解析该页面，获取该页面内所有URL路径信息，并在待解析任务队列信息中保存，所述一网络爬虫逐一获取保存在待解析任务队列信息中的页面，直至所述一网络爬虫已遍历到所有最后一级列表页，并将所有URL路径信息存储到详情待解析URL队列信息中停止。

进一步地，上述方法还可包括：所述网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中的步骤，包括：

多个网络爬虫依次请求获取详情页配置文件后，各网络爬虫根据获取的详情页配置文件获取网页的入口，即详情待解析URL队列信息中的首个URL路径信息，获取该URL路径信息后，则从详情待解析URL队列信息中去除该URL路径信息，始终保持详情待解析URL队列信息中首个URL路径信息是未被处理过的新URL路径信息；

各网络爬虫下载并解析该页面，对该页面的所有详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中。

进一步地，上述方法还可包括：所述模拟用户对网页的访问操作发送网页访问请求为通过浏览器模式发送网页访问请求。

进一步地，上述方法还可包括：所述将抓取网页数据的过程分解为第一阶段和第二阶段中，在第一阶段中是通过一个网络爬虫抓取网页的URL路径信息，在第二阶段中是通过多个网络爬虫协作抓取网页数据。

本发明还提供了一种基于协作式爬虫的抓取网页数据的控制系统，包括：

网络爬虫和爬虫任务调度服务器，其中，

网络爬虫，用于通过列表页配置文件只获取页面的URL路径信息，完成第一阶段的流程；在完成第一阶段流程后，通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，以完成第二阶段的流程；

爬虫任务调度服务器，用于向网络爬虫分配配置文件，在第一阶段分配列表页配置文件；在第二阶段中向多个网络爬虫分配详情页配置文件，每分配一个任务后，便将首个URL路径信息从详情待解析URL队列信息中去除。

进一步地，上述控制系统还可包括：所述网络爬虫用于通过列表页配置文件只获取页面的URL路径信息，是指：

一个网络爬虫根据网页访问请求来获取列表页配置文件；

所述一个网络爬虫根据获取的列表页配置文件获取网站的入口，通常是首页URL路径信息；

所述一个网络爬虫下载并解析该页面，获取该页面内所有URL路径信息，并在待解析任务队列信息中保存，所述一个网络爬虫逐一获取保存在待解析任务队列信息中的页面，直至所述一个网络爬虫已遍历到所有最后一级列表页，并将所有URL路径信息存储到详情待解析URL队列信息中停止。

进一步地，上述控制系统还可包括：所述网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，是指：

与现有技术相比，应用本发明通过对协作式爬虫的采集流程进行了改进和优化，对爬虫进行网页下载的工作进行了阶段分工，从而避免了每次都从网站首页开始遍历网页获取详情页面。在初始化遍历网站后，将网站每个页面的URL存储下来，采集信息时只需直接访问对应内容页面的URL即可，从而节省了信息采集的时间，符合舆情信息采集具有实时性强的特点，提高了抓取效率。。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于协作式爬虫的抓取网页数据的控制方法的流程图；

图2为本发明的基于协作式爬虫的抓取网页数据的控制系统的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的主要构思是:对协作式爬虫的采集流程进行了改进和优化，对爬虫进行网页下载的工作进行了阶段分工，从而避免了每次都从网站首页开始遍历网页获取详情页面。在初始化遍历网站后，将网站每个页面的URL存储下来，采集信息时只需直接访问对应内容页面的URL即可，从而节省了信息采集的时间，符合舆情信息采集具有实时性强的特点，提高了抓取效率。

如图1所示，本发明的基于协作式爬虫的抓取网页数据的控制方法，包括以下步骤：

步骤210、模拟用户对网页的访问操作发送网页访问请求后，通过一网络爬虫根据网页访问请求向爬虫任务调度服务器请求获取列表页配置文件；

其中，可以通过客户端如浏览器发送网页访问请求。(浏览器可以是PC端或移动端的浏览器，本发明对此不作任何限制)。

其中，网络爬虫请求配置文件后，获取列表页配置文件。

步骤220、所述一网络爬虫根据获取的列表页配置文件获取网站的入口，通常是首页URL路径信息；

其中，URL是用于完整描述因特网Internet上网页和其他资源的地址的一种标识方法，对应地，Internet上的每一个网页都具有一个唯一的URL。当客户需要访问网页服务器中的网页时，就要先获取到该网页的URL。本实施例需要获取到访问该网页的首页URL路径信息。

步骤230、所述一网络爬虫下载并解析该页面，获取该页面内所有URL路径信息，并在待解析任务队列信息中保存，所述一网络爬虫逐一获取保存在待解析任务队列信息中的页面；

步骤240、判断若所述一网络爬虫已遍历到所有最后一级列表页，并将所有URL路径信息存储到详情待解析URL队列信息中，则执行步骤250，否则返回步骤230；

步骤250、多个网络爬虫依次向爬虫任务调度服务器请求获取详情页配置文件后，各网络爬虫根据获取的详情页配置文件获取网页的入口，即详情待解析URL队列信息中的首个URL路径信息，获取该URL路径信息后，则从详情待解析URL队列信息中去除该URL路径信息，始终保持详情待解析URL队列信息中首个URL路径信息是未被处理过的新URL路径信息；

步骤260、各网络爬虫下载并解析该页面，对该页面的所有详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中。

在本发明中，阶段分工协作式爬虫技术对网页下载任务进行阶段划分：第一阶段只负责获取页面URL，第二阶段抓取页面详情。阶段的划分是通过编写不同的配置文件来实现的。第一阶段的配置文件为列表页配置文件，第二阶段的配置文件为详情页配置文件。第一阶段的配置文件中指定的入口通常为页面首页URL。第二阶段的配置文件的入口则是最后一级列表页(即页面中链接的URL为详情页的页面)的URL队列的首个URL。

一只爬虫专门负责第一阶段抓取URL的工作；其余爬虫则负责第二阶段抓取页面详情的工作。

第一阶段的URL抓取操作通过一级一级的顺序抓取的方式，直到获取到的所有最后一级列表页的URL，并将这些URL存储到数据库的队列中。

第二阶段的操作在首次第一阶段操作后执行，就是访问该URL队列，分别取出每个列表页提取每个详情页面的关键内容。第二阶段任务可以多个同时执行，每个爬虫抓取一个URL。

多个爬虫之所以能够同时正确执行后续阶段任务的关键原因：在于各爬虫之间遵循一定的URL策略进行分工合作。这个策略的关键就在于通过一个统一的爬虫任务调度服务器去分配配置文件。爬虫任务调度服务器分配一个任务后就会将URL队列中的首个URL从队列中去除，从而避免多个爬虫重复下载同一个页面，保证了详情页解析工作正常进行。

如图2所示，本发明的一种基于协作式爬虫的抓取网页数据的控制系统，包括：

网络爬虫和爬虫任务调度服务器，其中，

网络爬虫，用于通过列表页配置文件只获取页面的URL路径信息，完成第一阶段的流程；在完成第一阶段流程后，网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，以完成第二阶段的流程；

所述网络爬虫用于通过列表页配置文件只获取页面的URL路径信息，是指：

一网络爬虫根据网页访问请求来获取列表页配置文件；

所述网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中，是指：

在本发明中，由于采用了对爬虫下载解析页面的过程进行阶段划分的技术方案，只要初始化执行一次获取所有列表页URL的操作，后续进行页面抓取则可以直接进入详情页的上层URL，从而节省了新帖的响应时间。

在实际测试中，为使用本发明的方法，发现并推送百度贴吧的新帖子需要几个小时，采用本发明的阶段分工的协作式爬虫的方法只要1分钟，最快时甚至1秒就可以响应，从而节省了信息采集的时间，符合舆情信息采集具有实时性强的特点，提高了抓取效率。

本说明书中的各个实施例一般采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块或单元。一般地，程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说，程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页中视频的播放装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于协作式爬虫的抓取网页数据的控制方法，包括：

将抓取网页数据的过程分解为第一阶段和第二阶段；

2.如权利要求1所述的方法，其特征在于，

所述网络爬虫通过列表页配置文件只获取页面的URL路径信息的步骤，包括：

3.如权利要求2所述的方法，其特征在于，

所述网络爬虫通过详情页配置文件，根据获取的各页面的URL路径信息，进一步获取各页面的详情数据，并对详情页进行关键内容的抓取，同时将获取的需要数据存储到数据库中的步骤，包括：

4.如权利要求2所述的方法，其特征在于，

所述模拟用户对网页的访问操作发送网页访问请求为通过浏览器模式发送网页访问请求。

5.如权利要求1所述的方法，其特征在于，

进一步包括：所述将抓取网页数据的过程分解为第一阶段和第二阶段中，在第一阶段中是通过一个网络爬虫抓取网页的URL路径信息，在第二阶段中是通过多个网络爬虫协作抓取网页数据。

6.一种基于协作式爬虫的抓取网页数据的控制系统，其特征在于，包括：

网络爬虫和爬虫任务调度服务器，其中，

7.如权利要求6所述的控制系统，其特征在于，

一个网络爬虫根据网页访问请求来获取列表页配置文件；

8.如权利要求7所述的控制系统，其特征在于，