CN105187396A

CN105187396A - 识别网络爬虫的方法及装置

Info

Publication number: CN105187396A
Application number: CN201510490259.3A
Authority: CN
Inventors: 张旭华; 谭国斌; 沈建荣
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-12-23

Abstract

本公开实施例公开了一种识别网络爬虫的方法及装置，该方法接收IP地址发送的访问请求，并根据该访问请求实时统计该IP地址对应的网站访问量，根据网站访问量获得该IP地址对应的访问频率；如果该IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。由上述内容可知，利用该方法识别网络爬虫时，不需要分析网站服务器的日志，而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量，从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

Description

识别网络爬虫的方法及装置

技术领域

本公开涉及计算机技术领域，特别是涉及一种识别网络爬虫的方法及装置。

背景技术

网络爬虫(Webcrawler)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以便做下一步的处理。

一些智能的搜索引擎爬虫的爬取频率比较合理，对网站资源消耗比较少；但是很多糟糕的网络爬虫，对网页爬取能力很差，经常并发上百个请求循环重复抓取，相当多的爬虫会对网站造成非常高的负载，造成网站访问压力非常大，导致网站访问速度缓慢甚至无法访问。因此，反爬虫(即，拒绝不合理的网络爬虫)成为网站安全的一项重要任务。

相关技术中，网站服务器的日志会记录全部访问该网站的IP，即记录真实用户的IP和爬虫的IP，因此，通过分析统计服务器的记录和网站服务器的日志，就能找到爬虫。例如，如果网站服务器的日志中记录了某个IP发起了大量的访问请求，但是，在统计服务器中根本找不到该IP，或者即使能找到该IP，但该IP的访问量却寥寥无几，此时，可以确定该IP是网络爬虫。

发明内容

为克服相关技术中存在的问题，本公开提供一种识别网络爬虫的方法及装置。

为了解决上述技术问题，本公开实施例公开了如下技术方案：

根据本公开实施例的第一方面，提供一种识别网络爬虫的方法，应用于网站服务器中，所述方法包括：

接收IP地址发送的访问请求；

根据所述访问请求实时统计所述IP地址对应的网站访问量；

根据所述网站访问量获取所述IP地址对应的访问频率；

当所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫。

在第一方面第一种可能的实现方式中，不需要分析网站服务器的日志，而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量，从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

结合第一方面，在第一方面的第一种可能的实现方式中，所述访问请求仅包括网站访问请求；

所述根据所述访问请求实时统计所述IP地址对应的网站访问量，包括：

每当接收到IP地址发送的一个网站访问请求时，将所述IP地址对应的网站访问计数值增加预设值，得到所述IP地址对应的网站访问量。

结合第一方面，在第一方面的第二种可能的实现方式中，所述访问请求包括网站访问请求和流量统计系统访问请求，其中，所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量；

每当接收到所述IP地址发送的一个网站访问请求时，将所述IP地址对应的网站访问计数值增加预设值；

每当接收到所述IP地址发送的一个流量统计系统访问请求时，查询所述IP地址对应的当前网站访问计数值，将所述当前网站访问计数值减少所述预设值，得到所述IP地址对应的网站访问量。

在第一方面的第二种可能的实现方式中，真实用户总是先发送网站访问请求，然后发送流量统计系统访问请求，因此，真实用户对应的网站访问计数值不会很高。这样，能够大大降低判断网络爬虫的预设阈值，从而在网络爬虫爬取过程中快速识别出网络爬虫，即提高了识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

结合第一方面、第一方面的第一种可能的实现方式和第一方面的第二种可能的实现方式中的至少一种，在第一方面的第三种可能的实现方式中，所述当所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫，包括：

在确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内，如果接收到所述IP地址发送的网站访问请求，则向所述IP地址对应的客户端发送验证码页面；

如果在发送验证码页面后的第二预设时间段内未检测到所述IP地址发送的验证码，则确定所述IP地址对应的用户是网络爬虫，并将所述IP地址添加到黑名单中。

在第一方面的第三种可能的实现方式中，在确定IP地址对应的访问频率大于预设阈值后，认为该IP地址很可能是网络爬虫，在第一预设时间段内如果接收到该IP地址发送的网站访问请求，则向该IP地址对应的客户端返回验证码页面，网络爬虫不会填写验证码，因此，通过该方法能够提高识别网络爬虫的准确率。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述当所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫，还包括：

在确定出所述IP地址的访问频率大于所述预设阈值的第一预设时间段之后，如果再次检测到所述IP地址的访问频率大于所述预设阈值，则确定所述IP地址对应的用户是网络爬虫，并将所述IP地址添加到黑名单中。

在第一方面的第四种可能的实现方式中，对于爬取频率过高的分布式网络爬虫，即使超过了第一预设时间段，依然会对服务器造成很大压力，因此，超过第一预设时间段后，如果仍接收到该IP地址发送的大量网站访问请求，则确定该IP地址对应的用户是网络爬虫，进一步提高识别网络爬虫的准确率。

结合第一方面、第一方面的第一种可能的实现方式和第一方面的第二种可能的实现方式中的至少一种，在第一方面的第五种可能的实现方式中，所述方法还包括：

在统计所述IP地址对应的网站访问量之后，查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面；

当查找到缓存区中存在与所述网站访问请求相匹配的页面时，从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。

在第一方面的第五种可能的实现方式中，在需要响应网站访问请求时，优先从缓存区中查找与网站访问请求对应的页面，这样，能够进一步降低网站服务器的负载。

第二方面，提供一种识别网络爬虫的装置，应用于网站服务器中，包括：

接收模块，用于接收IP地址发送的访问请求；

统计模块，用于根据所述接收模块接收的访问请求实时统计所述IP地址对应的网站访问量；

获取模块，用于根据所述统计模块获得的网站访问量获取所述IP地址对应的访问频率；

检测模块，用于检测所述获取模块获得的所述IP地址对应的访问频率是否大于预设阈值；

确定模块，用于当所述检测模块确定所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫。

结合第二方面，在第二方面的第一种可能的实现方式中，所述访问请求仅包括网站访问请求；

所述统计模块用于：每当所述接收模块接收到IP地址发送的一个网站访问请求时，将所述IP地址对应的网站访问计数值增加预设值，得到所述IP地址对应的网站访问量。

结合第二方面，在第二方面的第二种可能的实现方式中，所述访问请求包括网站访问请求和流量统计系统访问请求，其中，所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量；

所述统计模块包括：

增加子模块，用于每当所述接收模块接收到所述IP地址发送的一个网站访问请求时，将所述IP地址对应的网站访问计数值增加预设值；

减少子模块，用于每当所述接收模块接收到所述IP地址发送的一个流量统计系统访问请求时，查询所述IP地址对应的当前网站访问计数值，将所述当前网站访问计数值减少所述预设值，得到所述IP地址对应的网站访问量。

结合第二方面、第二方面的第一种可能的实现方式和第二方面的第二种可能的实现方式中的至少一种，在第二方面的第三种可能的实现方式中，所述确定模块包括：

检测子模块，用于在所述检测模块确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内，是否接收到所述IP地址发送的网站访问请求；

发送子模块，用于在所述检测子模块确定在所述第一预设时间段内接收到所述IP地址发送的网站访问请求，则向所述IP地址对应的客户端发送验证码页面；

第一确定子模块，用于在所述发送子模块发送验证码页面后的第二预设时间段内，如果未检测到所述IP地址发送的验证码，则确定所述IP地址对应的用户是网络爬虫，并将所述IP地址添加到黑名单中。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述确定模块还包括：

第二确定子模块，用于在超过所述第一预设时间段之后，如果所述检测模块再次检测到所述IP地址的访问频率大于所述预设阈值，则确定所述IP地址对应的用户是网络爬虫，并将所述IP地址添加到黑名单中。

结合第二方面、第二方面的第一种可能的实现方式和第二方面的第二种可能的实现方式中的至少一种，在第二方面的第五种可能的实现方式中，所述装置还包括：

查找模块，用于统计完所述IP地址对应的网站访问量之后，查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面；

返回模块，用于当所述查找模块查找到缓存区中存在与所述网站访问请求相匹配的页面时，从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。

根据本公开实施例的第三方面，提供一种终端设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收IP地址发送的访问请求；

根据所述访问请求实时统计所述IP地址对应的网站访问量；

根据所述网站访问量获取所述IP地址对应的访问频率；

本公开的实施例提供的技术方案可以包括以下有益效果：接收IP地址发送的访问请求，并根据该访问请求实时统计该IP地址对应的网站访问量，根据网站访问量获得该IP地址对应的访问频率；如果该IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。由上述内容可知，该识别网络爬虫的方法不需要分析网站服务器的日志来识别网络爬虫，只需在接收到IP地址发送的访问请求时就能够实时统计IP地址的网站访问量，就能够快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，从而能够快速屏蔽掉恶意的网络爬虫。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种识别网络爬虫的方法的流程图；

图2是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图；

图3是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图；

图4是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图；

图5是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图；

图6是根据一示例性实施例示出的一种识别网络爬虫的装置的框图；

图7是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图；

图8是根据一示例性实施例示出的一种确定模块的框图；

图9是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图；

图10是根据一示例性实施例示出的一种用于识别网络爬虫的装置的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种识别网络爬虫的方法流程图，如图1所示，该方法用于网站服务器中，该方法可以包括以下步骤：

在S110中，接收IP地址发送的访问请求。

本实施例中，该访问请求是IP地址发送的网站访问请求，或者，访问请求是IP地址发送的网站访问请求和流量统计系统访问请求。

网站访问请求用于请求对网站服务器进行访问；流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量。

在S120中，根据访问请求实时统计IP地址对应的网站访问量。

每当接收到IP地址发送的网站访问请求，则增加该IP对应的网站访问量。

在S130中，根据网站访问量获取IP地址对应的访问频率。

根据一段时间内统计的该IP地址的网站访问量，计算单位时间(例如，1秒)内该IP地址的访问频率。

在S140中，当IP地址对应的访问频率大于预设阈值时，确定IP地址对应的用户是网络爬虫。

如果计算得到该IP地址对应的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。

预设阈值可以根据实际需要设定，预设阈值越大，识别出的网络爬虫越少；预设阈值越小，识别出的网络爬虫越多，但是，可能会拦截希望放行的搜索引擎，增大了网络爬虫的误判率。

本实施例提供的识别网络爬虫的方法，接收IP地址发送的访问请求，并根据该访问请求实时统计该IP地址对应的网站访问量，根据网站访问量获得该IP地址对应的访问频率；如果该IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。由上述内容可知，利用该方法识别网络爬虫时，不需要分析网站服务器的日志，而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量，从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

图2是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图，本实施例中，访问请求是网站访问请求。如图2所示，该方法可以包括以下步骤：

在S210中，接收IP地址发送的网站访问请求。

在S220中，将该IP地址对应的网站访问计数值增加预设值，得到该IP地址对应的网站访问量。

可以在网站服务器中增加Nginx的Lua插件，IP地址发送的全部访问请求都会经过该Lua插件，当该Lua插件接收到网站访问请求时，将该IP地址对应的网站访问计数值增加预设值，并将该网站访问计数值作为该IP地址对应的网站访问量。

例如，预设值可以是1，每当接收到IP地址发送的网站访问请求时，该IP地址对应的网站访问计数值加1。

在S230中，根据该IP对应的网站访问量获取该IP地址对应的访问频率。

在相同时间内，网络爬虫发送的网站访问量远远大于真实用户的网站访问量，例如，网页爬取能力差的网络爬虫，通常并发几十上百个网站访问请求循环重复抓取；而正常用户通常只发几个网站访问请求。

相应地，网络爬虫的访问频率远远大于真实用户的访问频率。

在S240中，当IP地址对应的访问频率大于预设阈值时，确定该IP地址对应的用户是网络爬虫。

可以根据实际需要设定预设阈值，比较IP地址对应的访问频率与预设阈值之间的大小，如果IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。

本实施例提供的识别网络爬虫的方法，接收到IP地址发送的网站访问请求后，实时统计该IP地址对应的网站访问量；然后，根据IP地址的网站访问量获得该IP地址对应的网站访问频率。如果IP地址对应的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。该方法能够在接收IP地址发送的网站访问请求后，实时记录该IP地址的网站访问量，并快速实时地获取IP地址的访问频率，根据访问频率识别出网络爬虫。即实现在网络爬虫爬取过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，能够快速屏蔽掉恶意的网络爬虫。

图3是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图，本实施例中，访问请求包括网站访问请求和流量统计系统访问请求。如图3所示，该方法可以包括以下步骤：

在S310中，接收IP地址发送的网站访问请求。

在S320中，将该IP地址对应的网站访问计数值增加预设值。

本公开在网站服务器中增加Nginx的Lua插件，IP地址对应的用户发送的全部访问请求都会经过该Lua插件，当该Lua插件接收到网站访问请求时，对IP地址对应的网站访问计数值增加预设值。该预设值可以设定为1。

在S330中，当接收到该IP地址发送的流量统计系统访问请求时，将该IP地址对应的当前网站访问计数值减少预设值，得到该IP对应的网站访问量。

构建一个流量统计系统，用来记录通过浏览器访问网站的真实用户的访问量，在网站页面内嵌入一端JS代码，真实用户都是通过浏览器发送网站访问请求，此时，会使网页执行内嵌的JS代码，执行该JS代码后会向流量统计系统发送流量统计系统访问请求以记录该IP地址的访问量，例如，记录发送流量统计系统访问请求的IP地址，以及该IP地址对应的网站访问量。

当Lua插件接收IP地址发送流量统计系统访问请求时，查询该IP地址对应的网站访问计数值，如果该IP地址对应的当前网站访问计数值大于0，则将该IP地址对应的当前网站访问计数值减少预设值。

对于真实用户而言，总是先发送网站访问请求，然后发送流量统计系统访问请求，相应的，真实用户对应的网站访问计数值总是先增加预设值，然后又减少预设值，基本保持不变。

对于网络爬虫而言，网络爬虫都是通过接口访问网站服务器，不会执行网页内的JS代码，即，网络爬虫不会发起流量统计系统访问请求，因此，网络爬虫对应的网站访问计数值总是增加预设值，随着网络爬虫发送的网站访问请求数量的增多，相应的网站访问计数值也增多，网络访问量不断增加。

在S340中，根据网站访问量获取该IP地址对应的访问频率。

根据一端时间内统计的该IP地址的网站访问量，计算该IP地址在单位时间内的访问频率。

在S350中，当IP地址对应的访问频率大于预设阈值时，确定该IP地址对应的用户是网络爬虫。

对于真实用户而言，由于其对应的网站访问量比较小，相应的真实用户的访问频率也比较小。这样，大大降低了判断网络爬虫的预设阈值，能够快速判断出网络爬虫，进而采取合适的策略拦截网络爬虫。

对于网络爬虫而言，由于其对应的网站访问量比较大，相应的网络爬虫的访问频率也比较大。

本实施例提供的识别网络爬虫的方法，接收到IP地址发送的网站访问请求，将该IP地址对应的网站访问计数值增加预设值；接收到该IP地址发送的流量统计访问请求时，将该IP地址对应的网站访问计数值减少预设值。对于真实用户而言，总是先发送网站访问请求，然后发送流量统计系统访问请求，因此，真实用户对应的网站访问计数值不会很高。这样，能够大大降低判断网络爬虫的预设阈值，从而在网络爬虫爬取过程中快速识别出网络爬虫，即提高了识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

图4是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图，该方法能够提高识别网络爬虫的准确，如图4所示，该方法可以包括以下步骤：

在S410中，接收IP地址发送的访问请求。

在S420中，根据访问请求实时统计IP地址对应的网站访问量。

在S430中，根据网站访问量获取IP地址对应的访问频率。

在S440中，当确定该IP地址对应的访问频率大于预设阈值后，检测在第一预设时间段内是否接收到该IP地址发送的网站访问请求，如果接收到，则执行S450；如果未接收到，则执行S490。

在S450中，向该IP地址对应的客户端发送验证码页面。

如果IP地址的访问频率大于预设阈值，则认为该IP地址很可能是网络爬虫，然后，可以设置第一预设时间段(即，过期时间)内，接收到该IP地址发送的网站访问请求时，向该IP地址对应的客户端返回一个验证码页面，要求该IP地址对应的用户填写验证码。

在S460中，判断在发送验证码页面后的第二预设时间段内是否检测到IP地址发送的验证码；如果未检测到该IP地址发送的验证码，则执行S470；如果检测到该IP地址发送的验证码，则执行S480。

向IP地址返回验证码页面后，如果是网络爬虫，则不会填写验证码；如果是真实用户，则会填写验证码。判断在第二预设时间内是否接收到该IP地址返回的验证码，如果接收到验证码，则确定该IP地址对应的用户是真实用户；如果未接收到验证码，则确定该IP地址对应的用户是网络爬虫。

在S470中，确定该IP地址对应的用户是网络爬虫，并将该IP地址添加到黑名单中。

确定IP地址对应的用户是网络爬虫后，将该IP地址添加到黑名单中，后续来自该IP地址的网站访问请求全部屏蔽掉。

在S480中，确定该IP地址对应的用户是真实用户。

在S490中，在第一预设时间段之后，如果检测到该IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫，并将该IP地址添加到黑名单中。

如果是分布式网络爬虫，爬取频率过高，即使超过了第一预设时间段，依然会对服务器造成很大压力，此种应用场景下，可以增加以下识别网络爬虫的策略：超过第一预设时间段后，如果仍接收到该IP地址发送的大量网站访问请求，则确定该IP地址对应的用户是网络爬虫，然后，将该IP地址添加到黑名单中，后续来自该IP地址的网站访问请求将全部屏蔽掉。

本实施例提供的识别网络爬虫的方法，在确定IP地址对应的访问频率大于预设阈值后，认为该IP地址很可能是网络爬虫，在第一预设时间段内如果接收到该IP地址发送的网站访问请求，则向该IP地址对应的客户端返回验证码页面，网络爬虫不会填写验证码，因此，如果在第二预设时间段内未接收到该IP地址发送的验证码，则确定该IP地址是网络爬虫，并将该IP地址添加到黑名单中。如果超过第一预设时间段后，再次检测到该IP地址对应的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫，并将该IP地址添加到黑名单中通过该方法能够提高识别网络爬虫的准确率。

图5是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图，该方法在图1所示实施例的基础上还可以包括以下步骤：

在S510中，当统计IP地址对应的网站访问量后，查找缓存区中是否存在与IP地址发送的网站访问请求相匹配的页面；如果存在，则执行S520；如果不存在，则执行S530。

在Nginx中安装网站服务的缓存机制，缓存保存时间及缓存清理机制，根据网站服务的实际需求确定。在Nginx执行完Lua插件的脚本后，优先从缓存区中查找与网站访问请求相匹配的页面。

在S520中，从缓存区中提取与网站访问请求相匹配的页面并返回给发送IP地址对应的客户端。

如果Nginx的缓存中存在网站访问请求相匹配的页面，则直接从缓存区中获得页面并返回给该IP地址对应的客户端。

在S530中，将网站访问请求发送给网站服务器。

如果Nginx的缓存中不存在网站访问请求相匹配的页面，则将网站访问请求发送网站服务器，由网站服务器向该IP地址返回与网站访问请求相匹配的页面。

本实施例提供的识别网络爬虫的方法，在需要响应网站访问请求时，优先从Nginx的缓存区中查找与网站访问请求对应的页面，这样，能够进一步降低网站服务器的负载。

相应于上述图1～图5所示的识别网络爬虫的方法实施例，本公开还提供了如下识别网络爬虫的装置实施例。

图6是根据一示例性实施例示出的一种识别网络爬虫的装置的框图，该装置应用于网站服务器中，如图6所示，该装置可以包括接收模块110、统计模块120、获取模块130、检测模块140和确定模块150。

接收模块110被配置为，接收IP地址发送的访问请求。

统计模块120被配置为，根据接收模块110接收的访问请求实时统计该IP地址对应的网站访问量。

在本公开一示例性实施例中，访问请求是网站访问请求，此种应用场景下，图6所示实施例中的接收模块110接收IP地址发送的网站访问请求。接收模块110每接收到该IP地址发送的网站访问请求时，统计模块120将该IP地址对应的网站访问计数值增加预设值，得到该IP地址对应的网站访问量。

获取模块130被配置为，根据统计模块120获得的网站访问量获取该IP地址对应的访问频率。

检测模块140被配置为，检测所述获取模块获得的该IP地址对应的访问频率是否大于预设阈值。

确定模块150被配置为，当检测模块140确定该IP地址对应的访问频率大于预设阈值时，确定该IP地址对应的用户是网络爬虫。

本实施例提供的识别网络爬虫的装置，接收IP地址发送的访问请求，并根据该访问请求实时统计该IP地址对应的网站访问量，根据网站访问量获得该IP地址对应的访问频率；如果该IP地址的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫。由上述内容可知，利用该装置识别网络爬虫时，不需要分析网站服务器的日志，而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量，从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

图7是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图，本实施例中，访问请求包括网站访问请求和流量统计系统访问请求，其中，流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量。

如图7所示，该装置可以包括接收模块110、增加子模块121、减少子模块122、获取模块130、检测模块140和确定模块150。

接收模块110被配置为，接收IP地址发送的访问请求。该访问请求包括网站访问请求和流量统计系统访问请求。

增加子模块121被配置为，每当接收模块110接收到IP地址发送的一个网站访问请求时，将该IP地址对应的网站访问计数值增加预设值。

减少子模块122被配置为，每当接收模块110接收到该IP地址发送的一个流量统计系统访问请求时，查询该IP地址对应的当前网站访问计数值，将当前网站访问计数值减少预设值，得到该IP地址对应的网站访问量。

流量统计系统，用来记录通过浏览器访问网站的真实用户的访问量，在网站页面内嵌入一端JS代码，真实用户都是通过浏览器发送网站访问请求，此时，会使网页执行内嵌的JS代码，执行该JS代码后会向流量统计系统发送流量统计系统访问请求以记录该IP地址的访问量，例如，记录发送流量统计系统访问请求的IP地址，以及该IP地址对应的网站访问量。

本实施例提供的识别网络爬虫的装置，接收到IP地址发送的网站访问请求，将该IP地址对应的网站访问计数值增加预设值；接收到该IP地址发送的流量统计访问请求时，将该IP地址对应的网站访问计数值减少预设值。对于真实用户而言，总是先发送网站访问请求，然后发送流量统计系统访问请求，因此，真实用户对应的网站访问计数值不会很高。这样，能够大大降低判断网络爬虫的预设阈值，从而在网络爬虫爬取过程中快速识别出网络爬虫，即提高了识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

图8是根据一示例性实施例示出的一种确定模块的框图，如图8所示，确定模块150可以包括检测子模块151、发送子模块152、第一确定子模块153和第二确定子模块154。

检测子模块151被配置为，在检测模块140确定出该IP地址对应的访问频率大于预设阈值后的第一预设时间段内，是否接收到该IP地址发送的网站访问请求。

发送子模块152被配置为，在检测子模块152确定在第一预设时间段内接收到该IP地址发送的网站访问请求，则向该IP地址对应的客户端发送验证码页面。

第一确定子模块153被配置为，在发送子模块152发送验证码页面后的第二预设时间段内，未检测到该IP地址发送的验证码，则确定所述IP地址对应的用户是网络爬虫，并将IP地址添加到黑名单中。

第二确定子模块154被配置为，在检测子模块151检测到第一预设时间段内未接收到该IP地址发送的网站访问请求，且超出第一预设时间段后，所述检测模块140再次检测到该IP地址的访问频率大于预设阈值，确定该IP地址对应的用户是网络爬虫，并将该IP地址添加到黑名单中。

本实施例提供的识别网络爬虫的装置，在确定IP地址对应的访问频率大于预设阈值后，认为该IP地址很可能是网络爬虫，在第一预设时间段内如果接收到该IP地址发送的网站访问请求，则向该IP地址对应的客户端返回验证码页面，网络爬虫不会填写验证码，因此，如果在第二预设时间段内未接收到该IP地址发送的验证码，则确定该IP地址是网络爬虫，并将该IP地址添加到黑名单中。如果超过第一预设时间段后，再次检测到该IP地址对应的访问频率大于预设阈值，则确定该IP地址对应的用户是网络爬虫，并将该IP地址添加到黑名单中通过该装置能够提高识别网络爬虫的准确率。

图9是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图，该装置在图6所示实施例的基础上还可以包括：查找模块310和返回模块320。

查找模块310被配置为，统计完该IP地址对应的网站访问量之后，查找缓存区中是否存在与IP地址发送的网站访问请求相匹配的页面。

在本公开一示例性实施例中，在Nginx中安装网站服务的缓存机制，缓存保存时间及缓存清理机制，根据网站服务的实际需求确定。在Nginx执行完Lua插件的脚本后，优先从缓存区中查找与网站访问请求相匹配的页面。

返回模块320被配置为，当查找模块310查找到缓存区中存在与网站访问请求相匹配的页面时，从缓存区中提取与网站访问请求相匹配的页面并返回给发送IP地址对应的客户端。

本实施例提供的识别网络爬虫的装置，在需要响应网站访问请求时，优先从Nginx的缓存区中查找与网站访问请求对应的页面，这样，能够进一步降低网站服务器的负载。

图10是根据一示例性实施例示出的一种用于识别网络爬虫的装置1900的框图。例如，装置1900可以被提供为一服务器。如图10所示，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行以下识别网络爬虫的方法：

接收IP地址发送的访问请求；

根据所述访问请求实时统计所述IP地址对应的网站访问量；

根据所述网站访问量获取所述IP地址对应的访问频率；

该识别网络爬虫的方法，不需要分析网站服务器的日志，而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量，从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫，提高识别网络爬虫的实时性，进而能够快速屏蔽掉恶意的网络爬虫。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种识别网络爬虫的方法，应用于网站服务器中，其特征在于，所述方法包括：

接收IP地址发送的访问请求；

根据所述访问请求实时统计所述IP地址对应的网站访问量；

根据所述网站访问量获取所述IP地址对应的访问频率；

2.根据权利要求1所述的方法，其特征在于，所述访问请求仅包括网站访问请求；

3.根据权利要求1所述的方法，其特征在于，所述访问请求包括网站访问请求和流量统计系统访问请求，其中，所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述当所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫，包括：

5.根据权利要求4所述的方法，其特征在于，所述当所述IP地址对应的访问频率大于预设阈值时，确定所述IP地址对应的用户是网络爬虫，还包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

7.一种识别网络爬虫的装置，应用于网站服务器中，其特征在于，包括：

接收模块，用于接收IP地址发送的访问请求；

8.根据权利要求7所述的装置，其特征在于，所述访问请求仅包括网站访问请求；

9.根据权利要求7所述的装置，其特征在于，所述访问请求包括网站访问请求和流量统计系统访问请求，其中，所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量；

所述统计模块包括：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述确定模块包括：

11.根据权利要求10所述的装置，其特征在于，所述确定模块还包括：

12.根据权利要求7-9任一项所述的装置，其特征在于，所述装置还包括：

13.一种服务器，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收IP地址发送的访问请求；

根据所述访问请求实时统计所述IP地址对应的网站访问量；

根据所述网站访问量获取所述IP地址对应的访问频率；