CN109298987A

CN109298987A - 一种检测网络爬虫运行状态的方法及装置

Info

Publication number: CN109298987A
Application number: CN201710612520.1A
Authority: CN
Inventors: 孙德彬
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2019-02-01
Anticipated expiration: 2037-07-25
Also published as: CN109298987B

Abstract

本发明公开了一种检测网络爬虫运行状态的方法及装置，涉及互联网技术领域，能够实时检测网络爬虫的运行状态，保证了爬取网络数据的完整性、准确性，本发明的主要技术方案为：判断网络爬虫爬取的当前网页是否存在访问异常；若存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。本发明主要用于网络爬虫爬取网络数据。

Description

一种检测网络爬虫运行状态的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种检测网络爬虫运行状态的方法及装置。

背景技术

随着大数据时代的到来，信息数据的重要性已经不言而喻，人们可以通过网络爬虫程序抓取不同网站的资源内容，从而整合成网络信息库，用于各个技术领域的科学研究。其中，网络爬虫又被称为网络蜘蛛、网络机器人或者网页追逐者，一般采取广度优先策略和深度优先策略自动地对万维网信息的程序或者脚本进行抓取，比如：应用在搜索引擎爬取网络数据的过程中。

目前，在网络爬虫爬取网络数据的过程中，由于爬取的速度过快，比如，在一分钟内过度的访问网站，如此过多的访问请求次数，导致服务器响应速度慢，同时也影响其他用户的访问体验，那么相应的，该网站采取的措施是禁止该网络爬虫的爬取操作。又或者，在一些网站页面内容中，存在版权保护的数据信息或者网站不愿意公开的数据信息，该网站也会禁止该网络爬虫的爬取操作。在现有的检测网站禁止网络爬虫爬取操作的技术中，主要是采用在后期对爬取的所有数据进行人工校验的方法，判断在整个爬取工作过程中是否存在上述网络爬虫无法爬取网站数据的情况。然而，通过现有的方法，无法解决爬虫被禁止后对该网站内容的继续有效爬取工作,使得最终爬取的数据结果是不完整的，从而导致网络爬虫爬取的网站数据存在缺失,不够准确。

发明内容

有鉴于此，本发明提供一种检测网络爬虫运行状态的方法及装置，主要目的在于可以实时检测网站是否禁用网络爬虫，并可以及时更换爬取策略，保证了爬取网络数据的完整性、准确性，同时也提高了爬取工作效率。

为了解决上述问题，本发明主要提供如下技术方案：

一方面，本发明提供了一种检测网络爬虫运行状态的方法，该方法包括：

判断网络爬虫爬取的当前网页是否存在访问异常；

若存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；

根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。

优选的，所述根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息包括：

根据所述当前网页的地址信息获取对应的网站；

查询所述网站在预置对比库中存储的对比页的网页地址信息；

根据所述对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

优选的，所述判断网络爬虫爬取的当前网页是否存在访问异常包括：

爬取当前网页的页面内容信息,当所述页面内容信息的数据量小于阈值时，确定所述当前网页存在访问异常；

或者，获取所述当前网页中包含的状态码,当所述状态码存在于预置黑名单中时，确定所述当前网页存在访问异常，其中，所述黑名单中包含有用于判断网页访问异常的状态码。

优选的，所述根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫包括：

爬取对比页的第一页面内容信息；

将所述第一页面内容信息与所述预置对比库中对比页的第二页面内容信息进行比较；

若相同，则确定所述当前网页对应的网站未禁用所述网络爬虫；

若不同，则确定所述当前网页对应的网站禁用所述网络爬虫。

优选的，在所述判断网络爬虫爬取的当前网页是否存在访问异常之前，所述方法还包括：

接收含有优先级标识的检索关键字，所述检索关键字用于确定网站的对比页；

根据优先级标识的顺序确定含有所述检索关键字的页面为对比页；

获取所述对比页的网址信息以及所述对比页的第二页面内容信息，将所述对比页的网址信息、所述对比页的第二页面内容信息以及对应的网站添加至所述预置对比库。

优选的，所述方法还包括：

若确定所述当前网页对应的网站未禁用所述网络爬虫，则将所述当前网页添加入预置白名单；

若确定所述当前网页对应的网站禁用所述网络爬虫，则更换爬取策略，继续爬取所述当前网页。

优选的，在所述网络爬虫爬取的当前网页存在访问异常之后，所述方法还包括：

查询所述当前网页是否存在于预置白名单中；

若不存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

为了实现上述目的，根据本发明的另一方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的检测网络爬虫运行状态的方法。

为了实现上述目的，根据本发明的另一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的检测网络爬虫运行状态的方法。

另一方面，本发明还提供了一种检测网络爬虫运行状态的装置，该装置包括：

判断单元，用于判断网络爬虫爬取的当前网页是否存在访问异常；

爬取单元，用于若所述判断单元判断存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；

确定单元，用于根据所述爬取单元爬取的对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。

优选的，所述爬取单元包括：

获取模块，用于根据所述当前网页的地址信息获取对应的网站；

查询模块，用于查询所述获取模块获取的网站在预置对比库中存储的对比页的网页地址信息；

爬取模块，用于根据所述对比页的网页地址信息，爬取所述查询模块查询的对比页的第一页面内容信息。

优选的，所述判断单元包括：

爬取模块，用于爬取当前网页的页面内容信息；

确定模块，用于当所述爬取模块爬取的页面内容信息的数据量小于阈值时，确定所述当前网页存在访问异常；

获取模块，用于获取所述当前网页中包含的状态码；

所述确定模块，还用于当所述获取模块获取的状态码存在于预置黑名单中时，确定所述当前网页存在访问异常，其中，所述黑名单中包含有用于判断网页访问异常的状态码。

优选的，所述确定单元包括：

爬取模块,用于爬取对比页的第一页面内容信息；

比较模块，用于将所述爬取模块爬取的第一页面内容信息与所述预置对比库中对比页的第二页面内容信息进行比较；

确定模块，用于若所述比较模块比较的所述第三爬取模块爬取的页面内容信息与所述预置对比库中对比页包含的页面内容信息相同，则确定所述当前网页对应的网站未禁用所述网络爬虫；

所述确定模块，还用于若所述比较模块比较的所述第三爬取模块爬取的页面内容信息与所述预置对比库中对比页包含的页面内容信息不同，则确定所述当前网页对应的网站禁用所述网络爬虫。

优选的，所述装置还包括：

接收单元，用于接收含有优先级标识的检索关键字，所述检索关键字用于确定网站的对比页；

所述确定单元，还用于根据优先级标识的顺序确定含有所述接收单元接收的检索关键字的页面为对比页；

获取单元，用于获取所述确定单元确定的对比页的网址信息以及对比页的第二页面内容信息；

添加单元，用于将所述获取单元获取的对比页的网页地址信息、对比页的第二页面内容信息以及对应的网站域名添加至所述预置对比库。

优选的，所述装置还包括：

所述添加单元，还用于若所述确定单元确定所述当前网页对应的网站未禁用所述网络爬虫，则将所述当前网页添加入预置白名单；

更换单元，用于若所述确定单元确定所述当前网页对应的网站禁用所述网络爬虫，则更换爬取策略；

所述爬取单元，还用于继续爬取所述当前网页。

优选的，所述装置还包括：

查询单元，用于查询所述当前网页是否存在于预置白名单中；

所述爬取单元，还用于若所述查询单元查询所述当前网页不存在于预置白名单中，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

借由上述技术方案，本发明提供的技术方案至少具有下列优点：

本发明提供的一种检测网络爬虫运行状态的方法及装置，在网络爬虫爬取当前网页数据时，可以实时地判断出该当前网页是否存在访问异常的情况，并且对该网页存在访问异常的情况作进一步的分析，通过爬取该网页对应的网站在预置对比库中存储的对比页的网页地址信息，将爬取的对比页的页面内容信息与该网站在预置对比库中存储的对比页的页面内容信息进行比较，分析比较的结果，若存在不同,即爬虫爬取对比页与预存对比页的页面内容不同，则可以判断该网络爬虫在爬取当前网页数据时所出现的访问异常情况是由于网站禁止该爬虫进行爬取操作的结果，从而可以实时的检测出该网站是否禁用了该网络爬虫。本发明采用的上述方法可以实时检测网络爬虫的运行状态，当发现存在网站禁用网络爬虫进行数据爬取操作时，可以及时地更换爬取策略，继续爬取当前网页，从而保证了爬取网络数据的完整性、准确性，同时也提高了爬虫爬取的工作效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种检测网络爬虫运行状态的方法流程图；

图2为本发明实施例提供的另一种检测网络爬虫运行状态的方法流程图；

图3为本发明实施例提供的一种检测网络爬虫运行状态的装置的组成框图；

图4为本发明实施例提供的另一种检测网络爬虫运行状态的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种检测网络爬虫运行状态的方法，如图1所示，该方法是通过实时检测网络爬虫的运行是否被网站禁用，并可以及时地更换爬取策略，保证爬取网络数据的完整性、准确性，对此本发明实施例提供以下具体步骤：

101、判断网络爬虫爬取的当前网页是否存在访问异常。

当网络爬虫爬取网络数据时，由于爬取的速度很快，比如在一分钟内访问网站的次数很多，如此过多的访问请求次数，将导致服务器响应速度变慢，同时也影响其他用户的访问体验；再比如，在一些网站页面内容中，存在版权保护的数据信息或者网站不愿意公开的数据信息，当存在上述情况时，网站会采取措施禁止网络爬虫爬取网络数据，那么当网络爬虫继续爬取该网站时，将无法获取对应网页的正常内容，即所爬取的网页数据为异常数据。

但是，在网络爬虫爬取网络数据的过程中，并不是只有当网站禁止网络爬虫爬取网络数据时，才会出现网页访问异常的情况，比如网络暂时中断、服务器暂时崩溃、网络后台维护暂停访问等等，都会导致网页访问异常的问题，所以，本发明实施例采用步骤101，目的是在网络爬虫爬取当前网页时可以实时判断该页面是否存在访问异常的情况，用于后续步骤对该访问异常的网页进行详细分析，以确定该网页访问异常是否为由于网站禁用网络爬虫而引起的，从而可以实时检测出在网络爬虫爬取当前网页时，是否存在网站禁用网络爬虫的情况。

102、若网络爬虫爬取的当前网页存在访问异常，则根据当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

通过上述步骤101判断，若网络爬虫爬取的当前网页不存在访问异常，则当前网站未禁用网络爬虫，网络爬虫可以继续爬取网络数据；若网络爬虫爬取的当前网页存在访问异常，则需要进一步判断该访问异常是否是由于网站禁用网络爬虫而导致的。具体的，采用的方法是根据当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取对比页的页面内容信息，并采用下述步骤103，作出进一步地判断。

其中，预置对比库用于存储各个网站设置的对比页，并且对比页中包含对比页的网页地址信息和对比页的第二页面内容信息。对比页是用于判断当前网页对应的网站是否禁用网络爬虫的参考对比项。对于本发明实施例，在网络爬虫开始爬取网站之前，将各个网站的对比页的网页地址信息和对比页的内容信息存储在预置对比库中，并且预置对比库中可以存储一个网站的多个对比页的网址信息及页面内容信息。

其中，对比页的第一页面内容信息是指在网络爬虫对网站进行爬取工作过程中，为检测网络爬虫的运行状态，由网络爬虫爬取的对比页的页面内容信息。对比页的第二页面内容信息是指网站预先存储在预置对比库中的对比页的页面内容信息。

对于本发明实施例，为了能够更加准确地判断网站是否禁用网络爬虫，在选择网站中的对比页时，应该选择网站中不需要时常更新的网页，即页面内容相对固定的网页，比如网站声明页、网站简介页、联系方式页等等，并且在预置对比库中存储对比页的网页地址信息和页面内容信息。

103、根据对比页的页面内容信息的爬取结果，确定当前网页对应的网站是否禁用网络爬虫。

通过爬取当前网页对应的网站的对比页的页面内容信息，并将该页面内容信息与网站在预置对比库中存储的对比页的页面内容信息进行比较，若比较的结果相同，则表明该网络爬虫可以正常爬取该网站的数据，也就确定该网站未禁用该网络爬虫；若比较的结果不同，则表明该网络爬虫无法爬取当前网页的数据信息，也就是，可以检测出在爬取当前网页时，该网站禁用该网络爬虫。

本发明提供的一种检测网络爬虫运行状态的方法及装置，在网络爬虫爬取当前网页数据时，可以实时地判断出该当前网页是否存在访问异常的情况，并且对该网页存在访问异常的情况作进一步的分析，通过爬取该网页对应的网站在预置对比库中存储的对比页的网页地址信息，将爬取的对比页的页面内容信息与该网站在预置对比库中存储的对比页的页面内容信息进行比较，分析比较的结果，若存在不同,即爬虫爬取而获得的对比页的页面内容信息与预存对比页的页面内容不同，则可以判断该网络爬虫在爬取当前网页数据时所出现的访问异常情况是由于网站禁止该爬虫进行爬取操作的结果，从而可以实时的检测出该网站是否禁用了该网络爬虫。本发明采用的上述方法可以实时检测网络爬虫的运行状态，当发现存在网站禁用网络爬虫进行数据爬取操作时，可以及时地更换爬取策略，继续爬取当前网页，从而保证了爬取网络数据的完整性、准确性，同时也提高了爬虫爬取的工作效率。

基于对上述实施例中各步骤的具体实现方式，本发明实施例提供了另一种检测网络爬虫运行状态的方法，如图2所示，该方法是通过爬取的当前网页对应的网站的对比页的页面内容信息与该网站之前在预置对比库中存储的对比页的页面内容信息进行比较，再根据比较结果，实时检测网站是否禁用当前的网络爬虫。同时，对于本发明实施例，首先需要确定网站在预置对比库中的对比页的网页地址信息以及对比页的页面内容信息，进而为了保证该对比页在后续步骤中作为参照对比项而进行比较的结果的准确性，需要在先设定适当的检索关键字及其优先级标识，并根据该含有优先级标识的检索关键字确定网站的对比页。对此本发明实施例提供以下具体步骤：

201、接收含有优先级标识的检索关键字。

其中，含有优先级标识的多个检索关键字是根据人工经验设定的，该检索关键字用于确定网站的对比页。依据设定的检索关键字和检索关键字对应的优先级标识，接收查询网页指令，检索出对应的网页。

例如，通过人工经验设定检索关键字“wzsm”对应网站声明网页，检索关键字“wzjj”对应网站简介网页，检索关键字“lxfs”对应联系方式网页，其中，上述检索关键字是包含在各个不同网页的网址中的关键字符，用于当根据包含该关键字符的网址查询网页时，可以获得上述检索关键字对应的网页。在设定检索关键字后，对每一个检索关键字标识检索优先级，用于确定各个关键字的检索先后顺序，比如，将检索关键字“wzsm”标识为优先级一级，将检索关键字“wzjj”标识为优先级二级，将检索关键字“lxfs”标识为优先级三级。依据上述人工设定的检索关键字和检索关键字对应的优先级标识，在进行检索时依次按照优先级标识一级、二级、三级的顺序，查询包含检索关键字的网址，比如网络爬虫在爬取网络数据时，可以优先爬取包含检索关键字“wzsm”的网址，再爬取包含检索关键字“wzjj”的网址，最后爬取包含检索关键字“lxfs”的网址。

对于本发明实施例，含有优先级标识的检索关键字是人工设定的，并且依据人工的浏览经验，设定的检索关键字可以有很多个，且设定优先级标识的方式也有很多，此处不做具体描述。

202、根据优先级标识的顺序确定含有检索关键字的页面为对比页。

根据上述步骤201设定的含有优先级标识的检索关键字，获取网站中的对比页，该对比页可以是1个或者多个，根据人工设定的检索关键字按照其中设定的优先级标识的排序逐一在网站中提取对应的对比页，比如按照检索关键字对应的优先级标识顺序，使用网络爬虫爬取网站中包含有优先级标识的检索关键字的网址，并将依据该网址爬取到的网页确定为该网站的对比页。

例如，依据上述步骤201中例举设定的含有优先级标识的检索关键字，作进一步的说明。根据包含有优先级标识的检索关键字，按照优先级标识的顺序，确定检索关键字是否存在于网站中网页的网址信息中，若存在，则爬取包含该检索关键字的网址，比如优先查找优先级标识为一级的检索关键字“wzsm”是否存在于网站包含网页的网址信息中，若存在，则爬取该网站中包含检索关键字“wzsm”的网址，将该网址对应的网页确定为该网站的对比页；若不存在，则继续查找优先级标识为二级的检索关键字“wzjj”是否存在于网站包含的网页的网址信息中，依照如此操作，直至确定检索关键字存在于网站包含的网页的网址信息中，可以停止查找操作，并爬取该包含检索关键字的网址，将该网址对应的网页确定为该网站的对比页。此外，还可以考虑需要获得网站的对比页为多个的情况，如上述举例在确定包含检索关键字“wzsm”的网址对应的网页为该网站的对比页后，不停止查找操作，而是继续查找优先级标识为二级的检索关键字“wzjj”是否存在于网站包含的网页的网址信息中，若存在，则可以确定该包含检索关键字“wzjj”的网址对应的网页为该网站的第二个对比页，并且可以依照检索关键字的优先级标识，查找优先级标识为三级的检索关键字是否存在于网站中网页的网址信息中，依照如此操作，可以获得该网站的多个对比页。

需要说明的是，对于本发明实施例，网站的对比页可以是1个或者多个，即对于在下述步骤中所描述的判断网站是否禁用网络爬虫的方法中，可以使用网站的多个对比页作为参照的对比项，用于多次对比，以提高判断网站是否禁用网络爬虫的准确性。

203、获取对比页的网址信息以及对比页的第二页面内容信息，将对比页的网页地址信息、对比页的第二页面内容信息以及对应的网站域名添加至预置对比库。

其中，第二页面内容信息是指网站预先存储在预置对比库中的对比页的页面内容信息。

在确定每个网站中的对比页过程中，可以在确定一个网站的对比页时，就将该对比页的网址信息、对比页的页面内容信息以及对应的网站添加至数据库中，依次累计的操作，最终该数据库中将会包含多个网站的对比页，将该数据库作为预置对比库，在该预置对比库中可以包括对比页的网址信息、对比页的页面内容信息、对比页对应的网站域名。

通过上述步骤201-203，设定预置对比库，用于为后续步骤205-206提供比较的参照对比项，进一步地确定当前网页对应的网站是否禁用网络爬虫，具体的确定方法可参考后续步骤205-206中的描述。

204、判断网络爬虫爬取的当前网页是否存在访问异常。

对于本发明实施例，在网络爬虫爬取完当前网页时，本步骤采用两种方式实现访问异常判断，包括：一种方式是爬取当前网页的页面内容信息,当该页面内容信息的数据量小于阈值时，确定该当前网页存在访问异常；另一种方式是获取当前网页中包含的状态码,当该状态码存在于预置黑名单中时，确定该当前网页存在访问异常。

具体的，对于所爬取的当前网页的页面内容信息,当该页面内容信息的数据量小于阈值时，确定该当前网页存在访问异常。

其中，阈值是预先设定的，用于确定页面内容信息的数据量小于阈值时，确定该网页存在访问异常，比如网络爬虫爬取当前网页的数据过快时，返回的页面内容是页面提示输入验证码，则表明网站在辨识此访问操作是机器还是人；再比如返回的页面内容是提示跳转画面，画面内容提示访问速度过快等相关信息。上述情况返回的页面内容信息包含的数据量都比较小，通过跟阈值比较，确定为当前网页访问异常。

具体的，对于获取当前网页中包含的状态码,当该状态码存在于预置黑名单中时，确定该当前网页存在访问异常，该黑名单中包含有用于判断网页访问异常的状态码。

其中，当访问网页时，该项请求会发送到对应的服务器要求显示该网站中网页的数据信息，相应的，服务器会返回超文本传输协议(HyperText Transfer Protocol，HTTP)状态码响应访问请求。具体的，HTTP状态码包括：1XX状态码，表示临时响应并需要请求者继续执行操作的状态码，比如100、101；2XX状态码，表示成功处理了请求的状态码，比如200-206；3XX状态码，表示要完成请求，需要进一步操作，通常，这些状态码用来重定向，比如300-305、307；4XX状态码，表示请求可能出错，这妨碍了服务器的处理，比如400、401、403-417；5XX状态码，表示服务器在处理请求时发生内部错误，同时这些错误可能是服务器本身的错误，而不是请求出错，比如500-505，上述状态码对应的具体表示含义，此处不再赘述。相应的将上述代表访问异常的状态码存储在预置黑名单中，比如包含有状态码403、404等等。当访问当前网页且获取的对应网页状态码存在于预置黑名单中时，确定当前网页存在访问异常。

205、若网络爬虫爬取的当前网页存在访问异常，则根据当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取对比页的第一页面内容信息。

其中，对比页的第一页面内容信息是指在网络爬虫对网站进行爬取工作过程中，为检测网络爬虫的运行状态，由网络爬虫爬取的对比页的页面内容信息。

对于本发明实施例，在通过上述步骤204判断出网络爬虫爬取的当前网页存在访问异常之后，进一步的，还可以查询当前网页是否存在于预置白名单中，该预置白名单用于确定通过上述步骤204获得的存在访问异常的网页不是由于网站禁用网络爬虫而引起的，具体的，预置白名单中存储的内容参考步骤207a，当该当前网页存在于预置白名单中时，则无需根据当前网页对应的网站在预置对比库中的对比页的网址信息，爬取对比页的页面内容信息，若不存在，则爬取该对比页而获得对比页的页面内容信息。

206、根据对比页的爬取结果，确定当前网页对应的网站是否禁用网络爬虫。

将上述通过步骤205获取的对比页的页面内容信息，与该对比页对应的网站在预置对比库中存储的对比页的页面内容信息作比较，如果两者的页面内容信息是相同的，那么可以确定网络爬虫是可以爬取当前网页数据，进而确定当前网页对应的网站未禁用该网络爬虫；如果两者的页面内容信息是不相同的，那么可以确定网络爬虫是无法正常爬取当前网页数据，进而确定该网络爬虫在爬取当前网页的运行状态时，可以确定当前网页对应的网站禁用该网络爬虫。

基于上述实施例的具体实现方式，本发明实施例还可以通过预置白名单的方式，对访问异常的情况进行进一步的分析，从而过滤非爬虫被禁用的访问异常事件，降低对爬虫工作状态检测的频率，其具体内容如下：

207a、若确定当前网页对应的网站未禁用网络爬虫，则将该当前网页添加入预置白名单。

对于上述步骤206，若确定当前网页对应的网站未禁用网络爬虫，那么可以确定在上述步骤204中确定的当前网页存在访问异常不是由于网站禁用网络爬虫而引起的，而可能是其他原因引起的，比如网络暂时中断、服务器暂时崩溃、网络后台维护暂时访问等等问题，但当上述问题被恢复后，网络爬虫可以继续正常爬取网站数据，再比如，在步骤204的一种方式中爬取当前网页的页面内容信息且该页面内容信息的数据量小于阈值时，确定该当前网页存在访问异常，对于此操作，若由于网站自身设置原因，当一个网页的页面内容信息确实包含的数据量很小，并且小于阈值时，爬虫在爬取该网页数据时，不应将该页面访问定义为访问异常。

针对于上述两种情况，本发明实施例将上述对应的确定为访问异常的网页加入预置的白名单，用于当网络爬虫再次判断上述网页存在访问异常时，先访问预置白名单，当上述网页存在于预置白名单中，可以忽略该判断网页访问异常行为，继续爬取数据，提高了网络爬虫的工作效率。

207b、若确定当前网页对应的网站禁用网络爬虫，则更换爬取策略，继续爬取该当前网页。

对于上述步骤206，若确定当前网页对应的网站禁用网络爬虫，那么可以确定在上述步骤204中确定的当前网页存在访问异常是由于网站禁用网络爬虫而引起的，也就是能够实时判断出在访问当前网页时，网站禁用了网络爬虫，所以，为了保证网络爬虫爬取网络数据的完整性，需要及时的更换爬取策略，比如更换机房、更换用户名、更换爬取时间等等，再继续爬取该当前网页。

需要说明的是，对于上述步骤204及步骤205-206获取的实时检测网络爬虫的运行状态的结果，应该有详细的记录，用于后续排查网络爬虫无法爬取网络数据的参考依据，对此可以通过提取访问异常的网页日志的方法，并实时记录网络爬虫被网站禁用的记录，具体的记录信息可以包括：访问异常网页、访问时间、访问网站、是否禁用爬虫以及禁用时间等等。

进一步的，作为对上述图1、图2所示方法的实现，本发明另一实施例还提供了一种检测网络爬虫运行状态的装置。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于可以实时检测网站是否禁用网络爬虫，便于网络爬虫及时更换爬取策略，从而保证了爬取网络数据的完整性、准确性，具体如图3所示，该装置包括：

判断单元31，用于判断网络爬虫爬取的当前网页是否存在访问异常；

爬取单元32，用于若所述判断单元31判断存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；

确定单元33，用于根据所述爬取单元32爬取的对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。

进一步的，如图4所示，所述爬取单元32包括：

获取模块321，用于根据所述当前网页的地址信息获取对应的网站；

查询模块322，用于查询所述获取模块321获取的网站在预置对比库中存储的对比页的网页地址信息；

爬取模块323，用于根据所述对比页的网页地址信息，爬取所述查询模块322查询的对比页的第一页面内容信息。

进一步的，如图4所示，所述判断单元31还包括：

爬取模块311，用于爬取当前网页的页面内容信息；

确定模块312，用于当所述爬取模块311爬取的页面内容信息的数据量小于阈值时，确定所述当前网页存在访问异常；

获取模块313，用于获取所述当前网页中包含的状态码；

所述确定模块312，还用于当所述获取模块313获取的状态码存在于预置黑名单中时，确定所述当前网页存在访问异常，其中，所述黑名单中包含有用于判断网页访问异常的状态码。

进一步的，如图4所示，所述确定单元33包括：

爬取模块331,用于爬取对比页的第一页面内容信息；

比较模块332，用于将所述爬取模块331爬取的第一页面内容信息与所述预置对比库中对比页的第二页面内容信息进行比较；

确定模块333，用于若所述比较模块332比较的所述爬取模块331爬取的页面内容信息与所述预置对比库中对比页包含的页面内容信息相同，则确定所述当前网页对应的网站未禁用所述网络爬虫；

所述确定模块333，还用于若所述比较模块332比较的所述爬取模块331爬取的页面内容信息与所述预置对比库中对比页包含的页面内容信息不同，则确定所述当前网页对应的网站禁用所述网络爬虫。

进一步的，如图4所示，所述装置还包括：

接收单元34，用于接收含有优先级标识的检索关键字，所述检索关键字用于确定网站的对比页；

所述确定单元33，还用于根据优先级标识的顺序确定含有所述接收单元34接收的检索关键字的页面为对比页；

获取单元35，用于获取所述确定单元33确定的对比页的网址信息以及对比页的第二页面内容信息；

添加单元36，用于将所述获取单元35获取的对比页的网页地址信息、对比页的第二页面内容信息以及对应的网站域名添加至所述预置对比库。

进一步的，如图4所示，所述装置还包括：

所述添加单元36，还用于若所述确定单元33确定所述当前网页对应的网站未禁用所述网络爬虫，则将所述当前网页添加入预置白名单；

更换单元37，用于若所述确定单元33确定所述当前网页对应的网站禁用所述网络爬虫，则更换爬取策略；

所述爬取单元32，还用于继续爬取所述当前网页。

进一步的，如图4所示，所述装置还包括：

查询单元38，用于查询所述当前网页是否存在于预置白名单中；

所述爬取单元32，还用于若所述查询单元38查询所述当前网页不存在于预置白名单中，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

综上所述，本发明实施例提供的一种检测网络爬虫运行状态的方法及装置，采用将当前网页包含的页面内容的数据量与阈值进行比较，以及查询当前网页对应的网页状态码的方法，更加准确地实时判断出访问异常的网页，并且对该网页存在访问异常的情况作进一步的分析，通过爬取该网页对应的网站在预置对比库中存储的对比页，将爬取的对比页的页面内容信息与该网站在预置对比库中存储的对比页的页面内容信息进行比较，分析比较的结果，若存在不同，则可以判断该网络爬虫无法爬取当前网页数据，从而可以实时的检测出该网站禁用该网络爬虫，当发现网站禁用网络爬虫时，可以及时地提示数据获取方对当前的爬取策略进行调整，继续爬取当前网页，从而保证了爬取网络数据的完整性、准确性。并且通过设置预置白名单存储错误判定为访问异常的网页，当该网页再次被判定为访问异常时，可以先查询该网页是否存在于预置白名单中，进而可以忽略该网页访问异常的判定，继续爬取网络数据，从而提高了爬取网络数据的工作效率。

所述检测网络爬虫运行状态的装置包括处理器和存储器，上述判断单元、爬取单元和确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来能够实时检测网站是否禁用网络爬虫，并可以及时更换爬取策略，保证了爬取网络数据的完整性、准确性，同时提高了爬取网络数据的工作效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述的检测网络爬虫运行状态的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的检测网络爬虫运行状态的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

一种检测网络爬虫运行状态的方法，所述方法包括：判断网络爬虫爬取的当前网页是否存在访问异常；若存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。

进一步的，所述根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息包括：根据所述当前网页的地址信息获取对应的网站；查询所述网站在预置对比库中存储的对比页的网页地址信息；根据所述对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

进一步的，所述判断网络爬虫爬取的当前网页是否存在访问异常包括：爬取当前网页的页面内容信息,当所述页面内容信息的数据量小于阈值时，确定所述当前网页存在访问异常；或者，获取所述当前网页中包含的状态码,当所述状态码存在于预置黑名单中时，确定所述当前网页存在访问异常，其中，所述黑名单中包含有用于判断网页访问异常的状态码。

进一步的，所述根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫包括：爬取对比页的第一页面内容信息；将所述第一页面内容信息与所述预置对比库中对比页的第二页面内容信息进行比较；若相同，则确定所述当前网页对应的网站未禁用所述网络爬虫；若不同，则确定所述当前网页对应的网站禁用所述网络爬虫。

进一步的，在所述判断网络爬虫爬取的当前网页是否存在访问异常之前，所述方法还包括：接收含有优先级标识的检索关键字，所述检索关键字用于确定网站的对比页；根据优先级标识的顺序确定含有所述检索关键字的页面为对比页；获取所述对比页的网址信息以及所述对比页的第二页面内容信息，将所述对比页的网址信息、所述对比页的第二页面内容信息以及对应的网站域名添加至所述预置对比库。

进一步的，所述方法还包括：若确定所述当前网页对应的网站未禁用所述网络爬虫，则将所述当前网页添加入预置白名单；若确定所述当前网页对应的网站禁用所述网络爬虫，则更换爬取策略，继续爬取所述当前网页。

进一步的，在所述网络爬虫爬取的当前网页存在访问异常之后，所述方法还包括：查询所述当前网页是否存在于预置白名单中；若不存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：判断网络爬虫爬取的当前网页是否存在访问异常；若存在，则根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息，所述预置对比库用于存储各个网站设置的对比页，所述对比页中包含对比页的网页地址信息和对比页的第二页面内容信息；根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种检测网络爬虫运行状态的方法，其特征在于，所述方法包括：

判断网络爬虫爬取的当前网页是否存在访问异常；

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前网页对应的网站在预置对比库中的对比页的网页地址信息，爬取所述对比页的第一页面内容信息包括：

根据所述当前网页的地址信息获取对应的网站；

3.根据权利要求1所述的方法，其特征在于，所述判断网络爬虫爬取的当前网页是否存在访问异常包括：

爬取当前网页的页面内容信息，当所述页面内容信息的数据量小于阈值时，确定所述当前网页存在访问异常；

或者，获取所述当前网页中包含的状态码，当所述状态码存在于预置黑名单中时，确定所述当前网页存在访问异常，其中，所述黑名单中包含有用于判断网页访问异常的状态码。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述对比页的页面内容信息的爬取结果，确定所述当前网页对应的网站是否禁用所述网络爬虫包括：

爬取对比页的第一页面内容信息；

5.根据权利要求4所述的方法，其特征在于，在所述判断网络爬虫爬取的当前网页是否存在访问异常之前，所述方法还包括：

获取所述对比页的网址信息以及所述对比页的第二页面内容信息，将所述对比页的网址信息、所述对比页的第二页面内容信息以及对应的网站域名添加至所述预置对比库。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，在所述网络爬虫爬取的当前网页存在访问异常之后，所述方法还包括：

查询所述当前网页是否存在于预置白名单中；

8.一种检测网络爬虫运行状态的装置，其特征在于，所述装置包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的检测网络爬虫运行状态的方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行如权利要求1-7中任一项所述的检测网络爬虫运行状态的方法。