CN104601601B

CN104601601B - 网络爬虫的检测方法及装置

Info

Publication number: CN104601601B
Application number: CN201510087889.6A
Authority: CN
Inventors: 沈建荣; 谭国斌; 马哲
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-02-25
Filing date: 2015-02-25
Publication date: 2018-09-04
Anticipated expiration: 2035-02-25
Also published as: CN104601601A

Abstract

本公开是关于一种网络爬虫的检测方法及装置，用以节约服务器的运维成本。所述方法包括：在接收到来自客户端的访问请求时，确定是否接收到需要执行预设的标识文件的请求；如果确定未接收到需要执行所述标识文件的请求，向所述客户端返回验证页面；如果所述客户端在所述验证页面未通过验证，确定所述访问请求被监控的爬虫请求，将所述客户端的ip地址添加到第一黑名单中。本公开技术方案可以通过被监控的爬虫请求准实时地发现爬虫行为，避免通过手动方式将被监控的网络爬虫添加到第一黑名单中，降低了服务器的运维成本，并且还能减少恶意访问对服务器资源的占用，进而可以给用户带来更好的服务。

Description

网络爬虫的检测方法及装置

技术领域

本公开涉及互联网技术领域，尤其涉及一种网络爬虫的检测方法及装置。

背景技术

现在对于网站的恶意访问越来越严重，在极端的环境下，恶意爬虫已经对web站点的正常访问构成了威胁，甚至能够达到恶意攻击的程度。相关技术通过设置黑名单方法来限制恶意IP地址对网页进行访问，在该种方式中，通常服务器的运维人员收到监控报警后或者是手动分析日志后，发现一些恶意IP地址的访问量特别高，通过手动方式在将这些恶意的IP地址添加到黑名单中，致使服务器的运维成本较高。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种网络爬虫的检测方法及装置，用以节约服务器的运维成本。

根据本公开实施例的第一方面，提供一种网络爬虫的检测方法，应用在服务器上，包括：

在接收到来自客户端的访问请求时，确定是否接收到需要执行预设的标识文件的请求；

如果确定未接收到需要执行所述标识文件的请求，向所述客户端返回验证页面；

如果所述客户端在所述验证页面未通过验证，确定所述访问请求被监控的爬虫请求，将所述客户端的ip地址添加到第一黑名单中。

在一实施例中，所述预设的标识文件嵌入在所述网页请求需要执行的脚本文件中。

在一实施例中，所述方法还可包括：

如果确定未接收到需要执行所述标识文件的请求，将所述客户端对应的ip地址添加到第二黑名单中；

每隔第一预设周期对所述第二黑名单中的ip地址进行清理。

在一实施例中，所述方法还可包括：

如果所述客户端在所述验证页面通过验证，将所述客户端的ip地址从所述第二黑名单中删除。

在一实施例中，所述方法还可包括：

每隔第二预设周期统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长；

从所述第一黑名单中删除存储时长超过预设时长的ip地址。

在一实施例中，所述统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长，可包括：

为所述第一黑名单中的每一个ip地址分配一个计时器；

在所述每一个ip地址被添加到所述第一黑名单时开始通过各自对应的计时器统计所述每一个ip地址的存储时长。

根据本公开实施例的第二方面，提供一种网络爬虫的检测装置，应用在服务器上，包括：

第一确定模块，被配置为在接收到来自客户端的访问请求时，确定是否接收到需要执行预设的标识文件的请求；

发送模块，被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求，向所述客户端返回验证页面；

第二确定模块，被配置为如果所述客户端在所述发送模块发送的所述验证页面未通过验证，确定所述访问请求被监控的爬虫请求，将所述客户端的ip地址添加到第一黑名单中。

在一实施例中，所述预设的标识文件可嵌入在所述网页请求需要执行的脚本文件中。

在一实施例中，所述装置还可包括：

添加模块，被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求，将所述客户端对应的ip地址添加到第二黑名单中；

清理模块，被配置为每隔第一预设周期对所述第二黑名单中的ip地址进行清理。

在一实施例中，所述装置还可包括：

第一删除模块，被配置为如果所述客户端在所述发送模块发送的所述验证页面通过验证，将所述客户端的ip地址从所述第二黑名单中删除。

在一实施例中，所述装置还可包括：

统计模块，被配置为每隔第二预设周期统计所述第一黑名单中由所述第二确定模块确定的每一个ip地址在所述第一黑名单中的存储时长；

第二删除模块，被配置为从所述第一黑名单中删除所述统计模块统计的所述存储时长超过预设时长的ip地址。

在一实施例中，所述统计模块可包括：

分配子模块，被配置为为所述第一黑名单中的每一个ip地址分配一个计时器；

统计子模块，被配置为在所述每一个ip地址被添加到所述第一黑名单时开始通过所述分配子模块为所述每一个ip地址分配的各自对应的计时器统计所述每一个ip地址的存储时长。

根据本公开实施例的第三方面，提供一种网络爬虫的检测装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本公开的实施例提供的技术方案可以包括以下有益效果：在接收到来自客户端的访问请求时通过标识文件对访问请求进行区分，向未请求标识文件的访问请求对应的客户端返回验证页面，如果在验证页面仍未通过验证，确定访问请求为被监控的爬虫请求，从而可以通过被监控的爬虫请求准实时地发现爬虫行为，避免通过手动方式将被监控的网络爬虫添加到第一黑名单中，降低了服务器的运维成本，并且还能减少恶意访问对服务器资源的占用，进而可以给用户带来更好的服务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的网络爬虫的检测方法的流程图。

图2是根据一示例性实施例一示出的网络爬虫的检测方法的流程图。

图3A是根据一示例性实施例二示出的对第一黑名单进行更新的流程图。

图3B是根据一示例性实施例二示出的步骤S301的流程图。

图4是根据一示例性实施例示出的一种网络爬虫的检测装置的框图。

图5是根据一示例性实施例示出的另一种网络爬虫的检测装置的框图。

图6是根据一示例性实施例示出的一种适用于网络爬虫的检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的网络爬虫的检测方法的流程图，该网络爬虫的检测方法可以应用在服务器，如图1所示，该网络爬虫的检测方法包括以下步骤S101-S103：

在步骤S101中，在接收到来自客户端的访问请求时，确定是否接收到需要执行预设的标识文件的请求。

在一实施例中，客户端可以为正常用户所使用的浏览器，也可以为正常爬虫；在一实施例中，爬虫请求为类似httpClient的机制或curl、wget的命令，而普通的访问请求通过客户端的浏览器发送，因此爬虫请求主要关注网页上的页面内容，一般不会执行网页页面里的异步JavaScript(js)操作，也不会去关心css脚本，在一实施例中，本公开可以通过在css脚本或者js中嵌入预设的标识文件，该标识文件例如为一张图片，该张图片可以是无意义的并且体积非常小(例如，1*1像素大小)的图片，并且html中不显示该标识图片；在另一实施例中，还可以在css脚本或者js脚本中嵌入预设的标识代码。

在一实施例中，正常的访问请求会同时请求css脚本，并执行css脚本进而会加载嵌入的“标识图片”，而爬虫请求则不会向服务器请求加载该“标识图片”。在另一实施例中，正常的访问请求会同时请求js脚本，并执行js脚本进而会执行嵌入的“标识代码”，而爬虫请求则不会向服务器请求加载该“标识代码”。

在步骤S102中，如果确定未接收到需要执行标识文件的请求，向客户端返回验证页面。

在步骤S103中，如果客户端在验证页面未通过验证，确定访问请求为被监控的爬虫请求，将客户端的ip地址添加到第一黑名单中。

在一实施例中，在步骤S102和步骤S103中，当服务器向客户端返回验证页面时，如果访问请求为通过浏览器发送的正常用户的访问请求，则用户会在验证页面输入相应的验证码，进而可以在验证页面通过验证，而爬虫请求由于不会在验证页面输入相应的验证码，因此在验证页面是不会通过验证的，由此，本公开实施例通过将在验证页面未通过验证的访问请求确定为被监控的爬虫请求，并将该客户端的ip地址添加到第一黑名单中，并对该访问请求拒绝响应。在一实施例中，第一黑名单中的ip地址也是有可能是被黑客或者恶意爬虫攻击当做跳板代理的正常用户的ip地址，因此本公开实施例还可以对第一黑名单中的ip地址进行检测，确保正常用户对服务器的正常访问行为，避免对正常用户的误杀。

在本实施例中，在接收到来自客户端的访问请求时通过标识文件对访问请求进行区分，向未请求标识文件的访问请求对应的客户端返回验证页面，如果在验证页面仍未通过验证，确定访问请求为被监控的爬虫请求，从而可以通过被监控的爬虫请求准实时地发现爬虫行为，避免通过手动方式将被监控的网络爬虫添加到第一黑名单中，降低了服务器的运维成本，并且还能减少恶意访问对服务器资源的占用，进而可以给用户带来更好的服务。

在一实施例中，预设的标识文件可嵌入在网页请求需要执行的脚本文件中。

在一实施例中，方法还可包括：

如果确定未接收到需要执行标识文件的请求，将客户端对应的ip地址添加到第二黑名单中；

每隔第一预设周期对第二黑名单中的ip地址进行清理。

在一实施例中，方法还可包括：

如果客户端在验证页面通过验证，将客户端的ip地址从第二黑名单中删除。

在一实施例中，方法还可包括：

每隔第二预设周期统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长；

从第一黑名单中删除存储时长超过预设时长的ip地址。

在一实施例中，统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长，可包括：

为第一黑名单中的每一个ip地址分配一个计时器；

在每一个ip地址被添加到第一黑名单时开始通过各自对应的计时器统计每一个ip地址的存储时长。

具体如何对网络爬虫进行检测的，请参考后续实施例。

至此，本公开实施例提供的上述方法，可以通过被监控的爬虫请求准实时地发现爬虫行为，避免通过手动方式将被监控的网络爬虫添加到第一黑名单中，降低了服务器的运维成本，并且还能减少恶意访问对服务器资源的占用，进而可以给用户带来更好的服务。

下面以具体实施例来说明本公开实施例提供的技术方案。

图2是根据一示例性实施例一示出的网络爬虫的检测方法的流程图；本实施例利用本公开实施例提供的上述方法，以需要执行的脚本文件为css脚本，预设的标识文件嵌入在css脚本中的图片标识为例进行示例性说明，如图2所示，包括以下步骤S201-S206：

在步骤S201中，在接收到来自客户端的访问请求时，确定是否接收到需要加载标识图片的请求，如果确定接收到需要加载标识图片的请求，流程结束，如果确定未接收到需要加载标识图片的请求，执行步骤S202。

步骤S201的描述请参见上述步骤S101的描述，在此不再详述。

在步骤S202中，如果确定未接收到需要执行标识文件的请求，将所述客户端对应的ip地址添加到第二黑名单中，执行步骤S203。

在一实施例中，服务器有可能在接收到正常的访问请求时，由于网络不稳定出现致使丢失了“需要执行标识文件的请求”的数据包，为了避免对该种情形的访问请求的误判，通过将未接收到需要执行标识文件的请求的客户端对应的ip地址添加到第二黑名单中，将第二黑名单的ip地址作为潜在的网页爬虫进行监控，从而尽量减少对正常用户的误杀。

步骤S203，向客户端返回验证页面，确定客户端是否在验证页面通过验证，如果客户端在验证页面通过验证，执行步骤205；如果客户端在验证页面未通过验证，执行步骤S204。

在步骤S204中，如果客户端在验证页面未通过验证，确定访问请求为被监控的爬虫请求，将客户端的ip地址添加到第一黑名单中，流程结束。

步骤S204的描述请参见上述步骤S103的描述，在此不再详述。

在步骤S205中，如果客户端在验证页面通过验证，将客户端的ip地址从第二黑名单中删除。

在一实施例中，当服务器向客户端返回验证页面时，正常用户通常会在验证页面输入相应的验证码，进而可以在验证页面通过验证，由此，可以认定该客户端对应的ip地址为正常用户，从而可以将该客户端的ip地址从第二黑名单中删除，以此减小第二黑名单的体积，达到优化第二黑名单的长度的目的。

步骤S206，每隔第一预设周期对第二黑名单中的ip地址进行清理。

在一实施例中，第二黑名单作为“潜在黑名单”，如果第二黑名单中的ip地址在后续的验证页面未通过验证，则该ip地址会从第二黑名单转移到第一黑名单中，如果在后续的验证页面通过验证，则将从第二黑名单中删除该ip地址，因此第二黑名单中的ip地址一般不会在第二黑名单中驻留太长时间，通过每隔第一预设周期对第二黑名单中的ip地址进行清理，可以减小第二黑名单的体积，达到优化第二黑名单的长度的目的。在一实施例中，第一预设周期可以为第二预设周期的5倍，本领域技术人员可以理解的是，第一预设周期可以根据具体服务器的监控需求而定，本公开对第一预设周期的具体时间不做限定。

本实施例中，除了具有上述实施例的有益技术效果之外，本公开实施例通过将第二黑名单作为“潜在黑名单”，如果在后续的验证页面通过验证，则将从第二黑名单中删除该ip地址，因此第二黑名单中的ip地址一般不会在第二黑名单中驻留太长时间，通过每隔第一预设周期对第二黑名单中的ip地址进行清理，可以减小第二黑名单的体积，达到优化第二黑名单的长度的目的。

图3A是根据一示例性实施例二示出的对第一黑名单进行更新的流程图，图3B是根据一示例性实施例二示出的步骤S301的流程图；本实施例利用本公开实施例提供的上述方法，以如何实现对第一黑名单进行更新为例进行示例性说明，如图3A所示，包括如下步骤：

在步骤S301中，每隔第二预设周期统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长。

在步骤S302中，从第一黑名单中删除存储时长超过预设时长的ip地址。

在一实施例中，如图3B所示，上述步骤S301可包括：

在步骤S311中，为第一黑名单中的每一个ip地址分配一个计时器。

在步骤S312中，在每一个ip地址被添加到第一黑名单时开始通过各自对应的计时器统计每一个ip地址的存储时长。

在一实施例中，第一黑名单中的ip地址有可能是被黑客或者恶意爬虫攻击当做跳板代理的正常用户的ip地址，因此本公开实施例还可以对第一黑名单中的ip地址在第一黑名单中的存储时长进行统计，将存储时长达到预设时长的ip地址删除，从而可以确保黑客或者恶意爬虫通过正常用户的ip地址达到其窃取服务器上的网络信息并且放弃该的ip地址之后，确保该的ip地址对应的正常用户能够继续对服务器进行正常访问，确保正常用户的访问行为。

本实施例中，通过对第一黑名单中的ip地址的存储时长进行统计，将存储时长达到预设时长的ip地址从第一黑名单中删除，从而可以将正常用户但是该ip地址被黑客或者恶意爬虫攻击当做跳板代理来使用的ip地址进行大赦，以确保正常用户的访问行为。

本领域技术人员可以理解的是，本公开实施例还可以设置白名单列表，通过将白名单中的ip地址的访问请求直接放行实现立体化的防御，从而减少恶意访问对宝贵的服务器资源的占用，进而可以给用户带来更好的服务。

图4是根据一示例性实施例示出的一种网络爬虫的检测装置的框图，如图4所示，网络爬虫的检测装置包括：

第一确定模块41，被配置为在接收到来自客户端的访问请求时，确定是否接收到需要执行预设的标识文件的请求；

发送模块42，被配置为如果第一确定模块41确定未接收到需要执行标识文件的请求，向客户端返回验证页面；

第二确定模块43，被配置为如果客户端在发送模块42发送的验证页面未通过验证，确定访问请求被监控的爬虫请求，将客户端的ip地址添加到第一黑名单中。

图5是根据一示例性实施例示出的另一种网络爬虫的检测装置的框图，在上述图4所示实施例的基础上，预设的标识文件可嵌入在网页请求需要执行的脚本文件中。

在一实施例中，网络爬虫的检测装置还可包括：

添加模块44，被配置为如果第一确定模块41确定未接收到需要执行标识文件的请求，将客户端对应的ip地址添加到第二黑名单中；

清理模块45，被配置为每隔第一预设周期对第二黑名单中的ip地址进行清理。

在一实施例中，网络爬虫的检测装置还可包括：

第一删除模块46，被配置为如果客户端在发送模块42发送的验证页面通过验证，将客户端的ip地址从第二黑名单中删除。

在一实施例中，网络爬虫的检测装置还可包括：

统计模块47，被配置为每隔第二预设周期统计第一黑名单中的由第二确定模块43确定的每一个ip地址在第一黑名单中的存储时长；

第二删除模块48，被配置为从第一黑名单中删除统计模块47统计的存储时长超过预设时长的ip地址。

在一实施例中，统计模块47可包括：

分配子模块471，被配置为为第二确定模块43所确定的第一黑名单中的每一个ip地址分配一个计时器；

统计子模块472，被配置为在每一个ip地址被添加到第一黑名单时开始通过分配子模块为每一个ip地址分配的各自对应的计时器统计每一个ip地址的存储时长。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种适用于网络爬虫的检测装置的框图。例如，装置600可以被提供为一服务器。参照图6，装置600包括处理组件622，其进一步包括一个或多个处理器，以及由存储器632所代表的存储器资源，用于存储可由处理部件622的执行的指令，例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件622被配置为执行指令，以执行上述网络爬虫的检测方法。

装置600还可以包括一个电源组件626被配置为执行装置600的电源管理，一个有线或无线网络接口650被配置为将装置600连接到网络，和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种网络爬虫的检测方法，应用在服务器上，其特征在于，所述方法包括：

如果确定未接收到需要执行所述标识文件的请求，将所述客户端对应的ip地址添加到第二黑名单中，并向所述客户端返回验证页面；

如果所述客户端在所述验证页面未通过验证，确定所述访问请求被监控的爬虫请求，将所述客户端的ip地址添加到第一黑名单中；如果所述客户端在所述验证页面通过验证，将所述客户端的ip地址从所述第二黑名单中删除；

每隔第一预设周期对所述第二黑名单中的ip地址进行清理；其中，

所述对所述第二黑名单中的ip地址进行清理，包括：

将未通过对应的验证页面验证的ip地址从所述第二黑名单转移到所述第一黑名单中，将通过对应的验证页面验证的ip地址从第二黑名单中删除；

从所述第一黑名单中删除存储时长超过预设时长的ip地址。

2.根据权利要求1所述的方法，其特征在于，所述预设的标识文件嵌入在所述访问请求需要执行的脚本文件中。

3.根据权利要求1所述的方法，其特征在于，所述统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长，包括：

为所述第一黑名单中的每一个ip地址分配一个计时器；

4.一种网络爬虫的检测装置，应用在服务器上，其特征在于，所述装置包括：

第二确定模块，被配置为如果所述客户端在所述发送模块发送的所述验证页面未通过验证，确定所述访问请求被监控的爬虫请求，将所述客户端的ip地址添加到第一黑名单中；

第一删除模块，被配置为如果所述客户端在所述发送模块发送的所述验证页面通过验证，将所述客户端的ip地址从所述第二黑名单中删除；

统计模块，被配置为每隔第二预设周期统计所述第一黑名单由所述第二确定模块确定的的每一个ip地址在所述第一黑名单中的存储时长；

第二删除模块，被配置为从所述第一黑名单中删除所述统计模块统计的所述存储时长超过预设时长的ip地址；

清理模块，被配置为每隔第一预设周期对所述第二黑名单中的ip地址进行清理；其中，将未通过对应的验证页面验证的ip地址从所述第二黑名单转移到所述第一黑名单中，将通过对应的验证页面验证的ip地址从第二黑名单中删除。

5.根据权利要求4所述的装置，其特征在于，所述预设的标识文件嵌入在所述访问请求需要执行的脚本文件中。

6.根据权利要求4所述的装置，其特征在于，所述统计模块包括：

7.一种网络爬虫的检测装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

所述对所述第二黑名单中的ip地址进行清理，包括：

从所述第一黑名单中删除存储时长超过预设时长的ip地址。