CN105354337A

CN105354337A - 一种网络爬虫实现方法和网络爬虫系统

Info

Publication number: CN105354337A
Application number: CN201510901579.3A
Authority: CN
Inventors: 葛山
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-02-24

Abstract

本发明公开了一种网络爬虫实现方法和网络爬虫系统。其中所述方法包括：模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容；分析获得的网页内容，获得目标信息。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

Description

一种网络爬虫实现方法和网络爬虫系统

技术领域

本发明涉及计算机技术领域，具体涉及一种网络爬虫实现方法和网络爬虫系统。

背景技术

网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫一般驻留在服务器上，通过给定的一些URL(UniformResourceLocator，统一资源定位符)，利用HTTP(HyperTextTransferProtocol，超文本传输协议)等标准协议读取相应文档，然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止。

然而，由于网络爬虫排除标准协议(RobotsExclusionProtocol)的限制，网站可以通过建立robots.txt文件限制网络爬虫爬取网站的全部或部分数据，行为良好的网络爬虫不应当访问robots.txt中禁止查看的信息。而这样就造成许多可以通过正常访问网页获得的资源无法通过网络爬虫来获得。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络爬虫实现方法和网络爬虫系统。

依据本发明的一个方面，提供了一种网络爬虫实现方法，包括：

模拟用户对网页的访问操作发送网页访问请求；

根据网页访问请求对应的反馈内容获得相应的网页内容；

分析获得的网页内容，获得目标信息。

可选地，所述模拟用户对网页的访问操作发送网页访问请求包括：

调用浏览器内核进行访问网页的操作，获得相应的网页内容。

可选地，该方法进一步包括：预先配置网址列表；

所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：调用浏览器内核依次访问所述网址列表中的各网址对应的网页，获得相应的网页内容。

可选地，该方法进一步包括：预先配置IP地址列表；

所述调用浏览器内核进行访问网页的操作包括：从所述预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

可选地，该方法进一步包括：

当接收到拒绝访问网页的反馈消息时，从所述预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：

调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

依据本发明的另一方面，提供了一种网络爬虫系统，包括：

网页访问处理单元，适于模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容；

分析单元，适于分析获得的网页内容，获得目标信息。

可选地，所述网页访问处理单元包括：

调用单元，适于调用浏览器内核进行访问网页的操作，获得相应的网页内容；

浏览器内核，适于根据调用单元的指令进行访问网页的操作。

可选地，该系统进一步包括：网址配置单元，适于预先配置网址列表；

所述调用单元，适于调用浏览器内核依次访问所述网址列表中的各网址对应的网页，获得相应的网页内容。

可选地，该系统进一步包括：IP地址配置单元，适于预先配置IP地址列表；

所述调用单元，适于从所述预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用单元，适于当接收到拒绝访问网页的反馈消息时，从所述预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

可选地，所述调用单元，适于调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

由上述可知，本发明的技术方案，通过模拟用户对网页的访问操作，向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容；分析获得的网页内容，获得目标信息。。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种网络爬虫实现方法的流程图；

图2示出了根据本发明一个实施例的一种网络爬虫系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种网络爬虫实现方法的流程图，如图1所示，该方法包括：

步骤S110，模拟用户对网页的访问操作发送网页访问请求。其中，可以通过客户端如浏览器发送网页访问请求。

步骤S120，根据网页访问请求对应的反馈内容获得相应的网页内容。

与现有技术中的网络爬虫不同，本实施例中的网络爬虫由于并不直接从网站服务器获取资源，而是通过网页访问请求对应的反馈内容获得相应的网页内容，如一个或多个静态HTML(HyperTextMarkupLanguage，超文本标记语言)文件，而这些网页内容有些是需要在客户端如浏览器对反馈内容中的某些数据，如CSS(CascadingStyleSheets，层叠样式表)文件进行计算才能得到的，因此，本实施例中的网络爬虫与现有技术中的网络爬虫实际获取的数据也是不同的。

步骤S130，分析获得的网页内容，获得目标信息。

可见，图1所示的方法，通过模拟用户对网页的访问操作，向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

在本发明的一个实施例中，图1所示的方法中，模拟用户对网页的访问操作发送网页访问请求包括：调用浏览器内核进行访问网页的操作，获得相应的网页内容。

在现有技术中，虽然许多普遍被使用的浏览器如IE、Chrome都是单核浏览器(浏览器仅包含一个浏览器内核)，但也出现了如360安全浏览器、猎豹浏览器等多核浏览器(浏览器中包含多个浏览器内核)。而不同的网页针对Trident、WebKit内核的浏览器呈现的网页页面可能是不同的，因此可以根据需求选取需要调用的内核进行问网页的操作，获得相应的网页内容。特别地，也可以将特定的浏览器内核封装在网络爬虫程序中。

在本发明的一个实施例中，上述方法进一步包括：预先配置网址列表；调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：调用浏览器内核依次访问网址列表中的各网址对应的网页，获得相应的网页内容。

在本实施例中，网络爬虫根据预先配置网址列表，调用浏览器内核依次访问网址列表中各网址对应的网页。而对于每个网页中，可能还包含多个包含网址的超链接，该网络爬虫还可以继续访问这些网址，对这些网址对应的网页进行访问。即通过访问一个网页，可以进一步访问以该网页为根节点的树形网状结构的多个网页。

在本发明的一个实施例中，上述方法进一步包括：预先配置IP地址列表；调用浏览器内核进行访问网页的操作包括：从预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

某些网站为了避免网站访问压力过大等原因，可能会限制某一字段的IP地址对其进行访问。因此，在预先配置IP地址列表的情况下，可以选用特定的IP地址作为访问者地址进行访问网页的操作，在选用的IP地址并非本地IP地址时实际采用了IP地址代理。

在本发明的一个实施例中，上述方法进一步包括：当接收到拒绝访问网页的反馈消息时，从预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

例如，用户使用网络爬虫的IP地址字段恰好在某网站的禁止访问IP地址字段范围内(很可能之前遭受过来自这一IP地址字段的攻击)，此时，可以从预设IP地址列表中重新选择一个IP地址，这样就能有效避免接收到拒绝访问网页的反馈信息的情况。

在本发明的一个实施例中，上述方法中，调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

许多时候，网页内容与用户是否登录有关，面向登录用户与普通游客进行呈现的网页内容可能不同。因此，对于一个待爬取内容的网页，可以调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。同样地，由于本实施例中网络爬虫获取到的是网页内容，而不是从服务器端直接获取数据，因此对于根据本地cookie进行的访问网页的操作，实际获得的是经过服务器计算、前端(浏览器)计算和cookie计算得到的最终向用户呈现的网页内容，所见即所得，当然，这并不是说需要将获取的网页内容也需要利用网络爬虫向用户进行展示，其目的是网页内容中分析获得所需的目标信息。

图2示出了根据本发明一个实施例的一种网络爬虫实现系统的结构示意图，如图2所示，网络爬虫实现系统200包括：

网页访问处理单元210，适于模拟用户对网页的访问操作发送网页访问请求；根据网页访问请求对应的反馈内容获得相应的网页内容。其中，可以通过客户端如浏览器发送网页访问请求。与现有技术中的网络爬虫不同，本实施例中的网络爬虫由于并不直接从网站服务器获取资源，而是通过网页访问请求对应的反馈内容获得相应的网页内容，如一个或多个静态HTML文件，而这些网页内容有些是需要在客户端如浏览器对反馈内容中的某些数据，如CSS文件进行计算才能得到的，因此，本实施例中的网络爬虫与现有技术中的网络爬虫实际获取的数据也是不同的。

分析单元220，适于分析获得的网页内容，获得目标信息。

可见，图2所示的系统，通过模拟用户对网页的访问操作，向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

在本发明的一个实施例中，图2所示的系统中，网页访问处理单元210包括：调用单元211，适于调用浏览器内核进行访问网页的操作，获得相应的网页内容。

浏览器内核212，适于根据调用单元的指令进行访问网页的操作。

在本发明的一个实施例中，上述系统进一步包括：网址配置单元，适于预先配置网址列表；调用单元，适于调用浏览器内核依次访问网址列表中的各网址对应的网页，获得相应的网页内容。

在本发明的一个实施例中，上述系统进一步包括：IP地址配置单元，适于预先配置IP地址列表；调用单元，适于从预设IP地址列表中选择一个IP地址，调用浏览器内核以所选择的IP地址作为访问者地址进行访问网页操作。

在本发明的一个实施例中，上述系统中，调用单元，适于当接收到拒绝访问网页的反馈消息时，从预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

在本发明的一个实施例中，上述系统中，调用单元，适于调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

综上所述，本发明的技术方案，通过模拟用户对网页的访问操作，向网站服务器发送网页访问请求，并获取网站服务器根据该网页访问请求返回的反馈内容，进一步获得相应的网页内容，并从中分析获得相应的网页内容。通过该技术方案实现的网络爬虫并不直接访问网站服务器获取资源，而是通过模拟正常用户的网页访问请求，在客户端如浏览器获取到网页内容，避免了受到网站设置的robots.txt中对网络爬虫获取数据内容的限制，并且获取到的内容也是通过正当途径访问网页获取的，既可以满足用户爬取数据的需求，也不违反网站服务提供方的约束。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网络爬虫系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种网络爬虫实现方法，其中，该方法包括：

模拟用户对网页的访问操作发送网页访问请求；

根据网页访问请求对应的反馈内容获得相应的网页内容；

分析获得的网页内容，获得目标信息。

A2、如A1所述的方法，其中，所述模拟用户对网页的访问操作发送网页访问请求包括：

A3、如A2所述的方法，其中，

该方法进一步包括：预先配置网址列表；

A4、如A2所述的方法，其中，

该方法进一步包括：预先配置IP地址列表；

A5、如A4所述的方法，其中，该方法进一步包括：

A6、如A2所述的方法，其中，所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：

本发明还公开了B7、一种网络爬虫系统，其中，该系统包括：

分析单元，适于分析获得的网页内容，获得目标信息。

B8、如B7所述的系统，其中，所述网页访问处理单元包括：

B9、如B8所述的系统，其中，

该系统进一步包括：网址配置单元，适于预先配置网址列表；

B10、如B8所述的系统，其中，

该系统进一步包括：IP地址配置单元，适于预先配置IP地址列表；

B11、如B10所述的系统，其中，

所述调用单元，适于当接收到拒绝访问网页的反馈消息时，从所述预设IP地址列表中重新选择一个IP地址，调用浏览器内核以重新选择的IP地址作为访问者地址进行访问网页操作。

B12、如B8所述的系统，其中，

所述调用单元，适于调用浏览器内核根据本地的cookie进行访问网页的操作，获得相应的网页内容。

Claims

1.一种网络爬虫实现方法，其中，该方法包括：

模拟用户对网页的访问操作发送网页访问请求；

根据网页访问请求对应的反馈内容获得相应的网页内容；

分析获得的网页内容，获得目标信息。

2.如权利要求1所述的方法，其中，所述模拟用户对网页的访问操作发送网页访问请求包括：

3.如权利要求2所述的方法，其中，

该方法进一步包括：预先配置网址列表；

4.如权利要求2所述的方法，其中，

该方法进一步包括：预先配置IP地址列表；

5.如权利要求4所述的方法，其中，该方法进一步包括：

6.如权利要求2所述的方法，其中，所述调用浏览器内核进行访问网页的操作，获得相应的网页内容包括：

7.一种网络爬虫系统，其中，该系统包括：

分析单元，适于分析获得的网页内容，获得目标信息。

8.如权利要求7所述的系统，其中，所述网页访问处理单元包括：

9.如权利要求8所述的系统，其中，

10.如权利要求8所述的系统，其中，