CN111026947A

CN111026947A - 一种爬虫方法以及基于浏览器的嵌入式爬虫实现方法

Info

Publication number: CN111026947A
Application number: CN201911312829.4A
Authority: CN
Inventors: 彭万宗
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-17
Anticipated expiration: 2039-12-18
Also published as: CN111026947B

Abstract

本发明公开了一种爬虫方法以及基于浏览器的嵌入式爬虫实现方法，将数据爬取过程划分为若干子进程，监控并统计处于不同子进程的爬虫元素的数量；所述子进程包括缓冲进程、工作进程和完成进程；根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节；本发明支持自主控制并行爬取数量，控制性能消耗，易用性好；嵌入式爬虫运行在爬取页面的作用域，爬虫可以利用浏览器的各种库，包括DOM操作等，实现了模拟用户浏览的爬虫，具有很强的隐蔽性。整体运行逻辑清晰，方便调试查错。

Description

一种爬虫方法以及基于浏览器的嵌入式爬虫实现方法

技术领域

本发明属于网络爬虫技术领域，更具体地，涉及一种爬虫方法以及基于浏览器的嵌入式爬虫实现方法。

背景技术

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

为了提高爬行速度和效率，网络通常会采取并行爬行的工作方式来获取页面数据，随之引入了新的问题：重复性(并行运行的爬虫或爬行线程同时运行时增加了重复页面)、质量问题(并行运行时，每个爬虫或爬行线程只能获取部分页面，导致页面质量下降)、通信带宽代价(并行运行时，各个爬虫或爬行线程之间不可避免要进行一些通信)。如果一个单独的爬虫一秒钟要执行多条请求，下载大的文件；那么单个服务器也会很难持续响应多线程爬虫的请求，导致服务器超负荷运载或造成服务器崩溃。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种爬虫方法以及基于浏览器的嵌入式爬虫实现方法，将数据爬取过程划分为若干子进程，监控并统计处于不同子进程的爬虫元素的数量；所述子进程包括工作进程；根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节；即控制并行工作的爬虫数量，从而防止因为过多并行数导致服务器出现性能问题，影响爬取效率。

为实现上述目的，按照本发明的一个方面，提供了一种爬虫方法，包括：

将数据爬取过程划分为若干子进程，监控并统计处于不同子进程的爬虫元素的数量；所述子进程包括工作进程；

根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节。

优选的，上述爬虫方法，所述子进程还包括缓冲进程和完成进程。

优选的，上述爬虫方法，所述工作进程和完成进程之间还设置有成功进程和失败进程；

根据数据爬取结果将执行工作进程后的爬虫元素拉取到所述成功进程或失败进程中，所述爬虫元素从成功进程或失败进程进入完成进程。

优选的，上述爬虫方法还包括以下步骤：

预先为各爬虫元素创建唯一标识符ID，根据所述唯一标识符ID监控并统计处于各子进程的爬虫元素及数量。

优选的，上述爬虫方法，每个所述爬虫元素包括数据获取函数和停止函数；

所述数据获取函数用于爬取网络信息并返回给爬虫元素；

所述停止函数用于根据外部输入的唯一标识符ID获取对应爬虫元素爬取的网络信息并输出。

优选的，上述爬虫方法，根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节具体包括：

当工作进程中的爬虫元素的数量大于所述并行爬虫数量时，根据两者差额随机选取工作进程中的若干爬虫元素并将其回退到缓冲进程中。

优选的，上述爬虫方法，根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节还包括：

当工作进程中的爬虫元素的数量小于所述并行爬虫数量时，根据两者差额随机拉取缓冲进程中的若干爬虫元素到工作进程中。

优选的，上述爬虫方法，所述并行爬虫数量根据服务器的最大带宽、当前占用带宽或CPU占有率进行动态调整。

按照本发明的另一个方面，还提供了一种基于浏览器的嵌入式爬虫实现方法，包括以下步骤：

S1：对浏览器端的项目文件进行初始化并引用爬虫程序，所述爬虫程序运行时实现上述任一项所述爬虫方法的步骤；

S2：访问浏览器中待爬取的网站，根据网页源代码和数据请求过程确定爬取过程；

S3：在项目中模拟所述数据请求过程以完成爬虫程序并进行编译；

S4：将编译后的爬虫程序以脚本形式嵌入浏览器运行脚本中，该爬虫程序在网页上运行以爬取数据。

优选的，上述嵌入式爬虫实现方法，编译爬虫程序的过程还包括：将所述爬虫程序编译为支持浏览器内置脚本运行器进行调试和报错的格式。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的爬虫方法以及基于浏览器的嵌入式爬虫实现方法，将数据爬取过程划分为若干子进程，监控并统计处于不同子进程的爬虫元素的数量；所述子进程包括工作进程；根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节；即控制并行工作的爬虫数量，从而防止因为过多并行数导致服务器出现性能问题，影响爬取效率。

(2)本发明提供的爬虫方法以及基于浏览器的嵌入式爬虫实现方法，根据爬取结果对爬虫元素进行分类，成功爬取数据的爬虫元素首先进入成功进程中，然后从该成功进程进入完成进程；未成功爬取到数据的爬虫元素进入失败进程中，并通过该失败进程进入完成进程；通过划分成功进程和失败进程并分别对这两个进程中的爬虫数量进行统计，可便捷且快速地获知爬取结果，便于用户对出错的爬取进度做进一步处理，决定是否再次爬取出错的数据。

(3)本发明提供的爬虫方法以及基于浏览器的嵌入式爬虫实现方法，配置简单明了，将爬取结果直接展示出来，不需要写登录等操作，只需要将想爬取等页面直接在浏览器中打开并登录好就可以直接爬取数据，并且支持自主控制并行爬取数量，控制性能消耗，易用性好。爬虫运行在爬取页面的作用域，嵌入式爬虫可以利用浏览器的各种库，包括DOM操作等，实现了模拟用户浏览的爬虫，具有很强的隐蔽性。整体运行逻辑清晰，方便调试查错。

附图说明

图1是本发明实施例提供的爬虫方法的流程图；

图2是本发明实施例提供的爬虫框架的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本实施例提供的一种爬虫方法的流程图，参见图1所示，该爬虫方法包括以下步骤：

S100：将数据爬取过程划分为若干子进程，监控并统计处于不同子进程的爬虫元素的数量；所述子进程包括工作进程；

本实施例中所述的工作进程是指从开始爬取数据直至生成爬取结果之前的过程，爬虫元素在该过程中一直处于数据爬取状态；

S110：根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节；

本实施例中，通过预先设置并行爬虫数量来控制工作进程中的爬虫元素数量，即控制并行工作的爬虫数量，从而防止因为过多并行数导致服务器出现性能问题，影响爬取效率。

可选的，本实施例中所述的子进程还包括缓冲进程和完成进程，缓冲进程中的爬虫元素还未进入爬取过程，处于等待状态；完成进程中的爬虫元素已完成数据爬取。

根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节具体包括：

当工作进程中的爬虫元素的数量大于所述并行爬虫数量时，根据两者差额随机选取工作进程中的若干爬虫元素并将其回退到缓冲进程中；

进一步优选的，上述工作进程和完成进程之间还设置有成功进程和失败进程；根据数据爬取结果将执行工作进程后的爬虫元素拉取到所述成功进程或失败进程中，爬虫元素从成功进程或失败进程进入完成进程。

本实施例根据爬取结果对爬虫元素进行分类，成功爬取数据的爬虫元素首先进入成功进程中，然后从该成功进程进入完成进程；未成功爬取到数据的爬虫元素进入失败进程中，并通过该失败进程进入完成进程；通过划分成功进程和失败进程并分别对这两个进程中的爬虫数量进行统计，可便捷且快速地获知爬取结果，便于用户对出错的爬取进度做进一步处理，决定是否再次爬取出错的数据。

可选的，上述爬虫方法还包括以下步骤：根据预先为各爬虫元素创建唯一标识符ID监控并统计处于各子进程的爬虫元素及数量。

本实施例中，预先为各爬虫元素创建唯一标识符ID，通过该唯一标识符ID可以直观地统计处于各子进程的爬虫元素及数量。

可选的，每个所述爬虫元素包括数据获取函数和停止函数；数据获取函数用于发出网络请求，爬取网络信息并将爬取结果返回给爬虫元素；停止函数在爬取成功后外部调用，外部调用停止函数使传入的参数为爬虫元素的唯一标识符ID而非爬虫元素本身停止函数根据该唯一标识符ID获取对应爬虫元素爬取的网络信息并输出。

可选的，上述爬虫方法，并行爬虫数量根据服务器的最大带宽、当前占用带宽或者CPU占有率进行动态调整。本实施例根据服务器的运行状态动态调整并行爬虫数量，使该并行爬虫数量与服务器的运行性能适配，以最大限度的利用和发挥服务器的运行性能。

图2是本实施例提供的爬虫框架的结构示意图，参见图2所示，本框架的核心由一个爬虫池构成，爬虫池中的基本元素称为mata，每个mata包括promiseCreator和finishFunction两个函数；其中，promiseCreator是爬虫元素mata的网络信息获取部分，其返回值是一个Promise对象，发送网络请求并获取数据，获取到的数据会存在爬虫元素mata中，而finishFunction将在信息获取成功后被调用，其被调用时传入的参数是爬虫元素mata的唯一标识符ID而不是mata本身，获取结果需要先通过爬虫池获取爬虫元素mata，再从爬虫元素mata中获取结果，这样能够有效的减轻爬取数据过程中的计算量，用户先将唯一标识符ID按照一定顺序存储起来，方便在所有mata异步爬取完数据之后再统一处理，更加高效，方便使用者整合数据。

爬虫元素mata由爬虫池统一管理，通过爬虫元素mata的状态将其分类。爬虫池中包括waitingPool、doingPool、usedPool等多个子池；

爬虫元素mata被放入爬虫池后首先进入在waitingPool中，在mata开始爬取数据后进入doingPool中；爬取完成后根据爬取结果对爬虫元素mata进行分类处理，决定从doingPool出来的爬虫元素mata进入finishPool或failPool中，最后放入usedPool中；在整个流程过程中，一旦爬虫元素mata开始爬取，爬虫池会自动管理各个子池，监控并显示各子池中爬虫元素mata的数量和总体状态；爬虫池根据用户配置来控制总体并行mata数量，防止因为过多并行数导致性能问题，影响爬取效率；并且可以实现出错自动重试。

本实施例还提供了一种基于浏览器的嵌入式爬虫实现方法，包括以下步骤：

S200：对浏览器端的项目文件进行初始化并引用爬虫程序，所述爬虫程序运行时实现上述任一项所述爬虫方法的步骤；

在项目文件夹中通过npm来初始化项目，由于爬虫可能会用到很多不同的库，故需要配置好引用文件、引用爬虫框架；并且由于在爬虫编写过程中需要进行测试，故编译相关配置项需要写明为调试模式，使打包成的代码具有编译前后代码的映射关系，方便出错时找到相关代码进行修改。在终端中进入项目文件夹后运行初始化命令从网络下载相关库文件来准备好项目文件。

S210：访问浏览器中待爬取的网站，根据网页源代码和数据请求过程确定爬取过程；

打开浏览器，访问需要爬取的网站，在网页上完成网站所需验证，包括密码和验证码等，然后正常获取所需数据，根据网页源代码和数据请求过程确定爬取过程。

本爬虫框架最大的特点就是可以让用户根据已有的浏览过程明了的实现爬虫；打开浏览器，访问需要爬取的网站，在网页上完成网站所需验证，包括密码和验证码等，然后继续访问相关网页，浏览器会正常获取所需数据，这时用户可以通过浏览器自带的开发工具或者其它网络监视工具来查看网络连接具体信息，然后利用本框架中的请求库来模拟请求过程，实现和浏览器一致的请求过程，设置爬取间隔、网络连接超时时间和重试次数，并根据网页源代码确定需要哪些数据，一般需要动态的批量生成爬虫放入爬虫池。

S220：在项目中模拟所述数据请求过程以完成爬虫程序并进行编译；

在项目中模拟数据请求过程，完成爬虫程序；编译代码，本实施例使用webpack生成runtime文件，在浏览器端输入；另外，本实施例优选将爬虫代码打包为方便浏览器内置脚本运行器进行调试和报错的格式或者加密并压缩的格式来加快运行加载。

S230：将编译后的爬虫程序以脚本形式嵌入浏览器运行脚本中，该爬虫程序在网页上运行以爬取数据；

运行Chrome，在相关爬取页面打开开发者工具将生成的runtime文件代码复制到console中运行。脚本需要在浏览器上运行，可以通过爬虫框架内置的浏览器内核来开始爬取数据，在项目中设置好爬取页面并运行开始命令后，框架会打开爬取页面，然后用户完成页面验证，比如登录用户等，获取到网络请求需要的cookie信息和其它认证信息后，开始运行爬虫程序爬取数据；或者也可以直接将上一步打包好的代码放入编写爬虫过程中打开的浏览器网页的脚本运行器中运行，这样可以利用现有的浏览器而不用额外下载框架中的浏览器内核，但是运行性能会有所下降。

S240：爬取过程中框架自动完成重试，完成数据爬取后，由于网络或者数据接口本身问题难免会产生错误，用户可以在failPool中统一处理失败的爬虫，决定是否再次爬取出错的数据。用户对获取到的数据进行处理，可以利用框架中提供的函数生成excel文件。

本实施例提供的基于浏览器的嵌入式爬虫实现方法，配置简单明了，将爬取结果直接展示出来，不需要写登录等操作，只需要将想爬取等页面直接在浏览器中打开并登录好就可以直接爬取数据，并且支持自主控制并行爬取数量，控制性能消耗，易用性好。爬虫运行在爬取页面的作用域，嵌入式爬虫可以利用浏览器的各种库，包括DOM操作等，实现了模拟用户浏览的爬虫，具有很强的隐蔽性。整体运行逻辑清晰，方便调试查错。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种爬虫方法，其特征在于，包括：

2.如权利要求1所述的爬虫方法，其特征在于，所述子进程还包括缓冲进程和完成进程。

3.如权利要求2所述的爬虫方法，其特征在于，所述工作进程和完成进程之间还设置有成功进程和失败进程；

4.如权利要求1或3所述的爬虫方法，其特征在于，还包括以下步骤：

根据预先为各爬虫元素创建唯一标识符ID监控并统计处于各子进程的爬虫元素及数量。

5.如权利要求4所述的爬虫方法，其特征在于，每个所述爬虫元素包括数据获取函数和停止函数；

所述数据获取函数用于爬取网络信息并返回给爬虫元素；

6.如权利要求2所述的爬虫方法，其特征在于，根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节具体包括：

7.如权利要求6所述的爬虫方法，其特征在于，根据预先配置的并行爬虫数量对处于所述工作进程中的爬虫元素的数量进行调节还包括：

8.如权利要求1或7所述的爬虫方法，其特征在于，所述并行爬虫数量根据服务器的最大带宽、当前占用带宽或CPU占有率进行动态调整。

9.一种基于浏览器的嵌入式爬虫实现方法，其特征在于，包括以下步骤：

S1：对浏览器端的项目文件进行初始化并引用爬虫程序，所述爬虫程序运行时实现权利要求1～8任一项所述爬虫方法的步骤；

10.如权利要求9所述的嵌入式爬虫实现方法，其特征在于，编译爬虫程序的过程还包括：将所述爬虫程序编译为支持浏览器内置脚本运行器进行调试和报错的格式。