CN104601601B - 网络爬虫的检测方法及装置 - Google Patents

网络爬虫的检测方法及装置 Download PDF

Info

Publication number
CN104601601B
CN104601601B CN201510087889.6A CN201510087889A CN104601601B CN 104601601 B CN104601601 B CN 104601601B CN 201510087889 A CN201510087889 A CN 201510087889A CN 104601601 B CN104601601 B CN 104601601B
Authority
CN
China
Prior art keywords
blacklist
client
addresses
verification
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510087889.6A
Other languages
English (en)
Other versions
CN104601601A (zh
Inventor
沈建荣
谭国斌
马哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510087889.6A priority Critical patent/CN104601601B/zh
Publication of CN104601601A publication Critical patent/CN104601601A/zh
Application granted granted Critical
Publication of CN104601601B publication Critical patent/CN104601601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开是关于一种网络爬虫的检测方法及装置,用以节约服务器的运维成本。所述方法包括:在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;如果确定未接收到需要执行所述标识文件的请求,向所述客户端返回验证页面;如果所述客户端在所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中。本公开技术方案可以通过被监控的爬虫请求准实时地发现爬虫行为,避免通过手动方式将被监控的网络爬虫添加到第一黑名单中,降低了服务器的运维成本,并且还能减少恶意访问对服务器资源的占用,进而可以给用户带来更好的服务。

Description

网络爬虫的检测方法及装置
技术领域
本公开涉及互联网技术领域,尤其涉及一种网络爬虫的检测方法及装置。
背景技术
现在对于网站的恶意访问越来越严重,在极端的环境下,恶意爬虫已经对web站点的正常访问构成了威胁,甚至能够达到恶意攻击的程度。相关技术通过设置黑名单方法来限制恶意IP地址对网页进行访问,在该种方式中,通常服务器的运维人员收到监控报警后或者是手动分析日志后,发现一些恶意IP地址的访问量特别高,通过手动方式在将这些恶意的IP地址添加到黑名单中,致使服务器的运维成本较高。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种网络爬虫的检测方法及装置,用以节约服务器的运维成本。
根据本公开实施例的第一方面,提供一种网络爬虫的检测方法,应用在服务器上,包括:
在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
如果确定未接收到需要执行所述标识文件的请求,向所述客户端返回验证页面;
如果所述客户端在所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中。
在一实施例中,所述预设的标识文件嵌入在所述网页请求需要执行的脚本文件中。
在一实施例中,所述方法还可包括:
如果确定未接收到需要执行所述标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中;
每隔第一预设周期对所述第二黑名单中的ip地址进行清理。
在一实施例中,所述方法还可包括:
如果所述客户端在所述验证页面通过验证,将所述客户端的ip地址从所述第二黑名单中删除。
在一实施例中,所述方法还可包括:
每隔第二预设周期统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长;
从所述第一黑名单中删除存储时长超过预设时长的ip地址。
在一实施例中,所述统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长,可包括:
为所述第一黑名单中的每一个ip地址分配一个计时器;
在所述每一个ip地址被添加到所述第一黑名单时开始通过各自对应的计时器统计所述每一个ip地址的存储时长。
根据本公开实施例的第二方面,提供一种网络爬虫的检测装置,应用在服务器上,包括:
第一确定模块,被配置为在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
发送模块,被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求,向所述客户端返回验证页面;
第二确定模块,被配置为如果所述客户端在所述发送模块发送的所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中。
在一实施例中,所述预设的标识文件可嵌入在所述网页请求需要执行的脚本文件中。
在一实施例中,所述装置还可包括:
添加模块,被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中;
清理模块,被配置为每隔第一预设周期对所述第二黑名单中的ip地址进行清理。
在一实施例中,所述装置还可包括:
第一删除模块,被配置为如果所述客户端在所述发送模块发送的所述验证页面通过验证,将所述客户端的ip地址从所述第二黑名单中删除。
在一实施例中,所述装置还可包括:
统计模块,被配置为每隔第二预设周期统计所述第一黑名单中由所述第二确定模块确定的每一个ip地址在所述第一黑名单中的存储时长;
第二删除模块,被配置为从所述第一黑名单中删除所述统计模块统计的所述存储时长超过预设时长的ip地址。
在一实施例中,所述统计模块可包括:
分配子模块,被配置为为所述第一黑名单中的每一个ip地址分配一个计时器;
统计子模块,被配置为在所述每一个ip地址被添加到所述第一黑名单时开始通过所述分配子模块为所述每一个ip地址分配的各自对应的计时器统计所述每一个ip地址的存储时长。
根据本公开实施例的第三方面,提供一种网络爬虫的检测装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
如果确定未接收到需要执行所述标识文件的请求,向所述客户端返回验证页面;
如果所述客户端在所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中。
本公开的实施例提供的技术方案可以包括以下有益效果:在接收到来自客户端的访问请求时通过标识文件对访问请求进行区分,向未请求标识文件的访问请求对应的客户端返回验证页面,如果在验证页面仍未通过验证,确定访问请求为被监控的爬虫请求,从而可以通过被监控的爬虫请求准实时地发现爬虫行为,避免通过手动方式将被监控的网络爬虫添加到第一黑名单中,降低了服务器的运维成本,并且还能减少恶意访问对服务器资源的占用,进而可以给用户带来更好的服务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的网络爬虫的检测方法的流程图。
图2是根据一示例性实施例一示出的网络爬虫的检测方法的流程图。
图3A是根据一示例性实施例二示出的对第一黑名单进行更新的流程图。
图3B是根据一示例性实施例二示出的步骤S301的流程图。
图4是根据一示例性实施例示出的一种网络爬虫的检测装置的框图。
图5是根据一示例性实施例示出的另一种网络爬虫的检测装置的框图。
图6是根据一示例性实施例示出的一种适用于网络爬虫的检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的网络爬虫的检测方法的流程图,该网络爬虫的检测方法可以应用在服务器,如图1所示,该网络爬虫的检测方法包括以下步骤S101-S103:
在步骤S101中,在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求。
在一实施例中,客户端可以为正常用户所使用的浏览器,也可以为正常爬虫;在一实施例中,爬虫请求为类似httpClient的机制或curl、wget的命令,而普通的访问请求通过客户端的浏览器发送,因此爬虫请求主要关注网页上的页面内容,一般不会执行网页页面里的异步JavaScript(js)操作,也不会去关心css脚本,在一实施例中,本公开可以通过在css脚本或者js中嵌入预设的标识文件,该标识文件例如为一张图片,该张图片可以是无意义的并且体积非常小(例如,1*1像素大小)的图片,并且html中不显示该标识图片;在另一实施例中,还可以在css脚本或者js脚本中嵌入预设的标识代码。
在一实施例中,正常的访问请求会同时请求css脚本,并执行css脚本进而会加载嵌入的“标识图片”,而爬虫请求则不会向服务器请求加载该“标识图片”。在另一实施例中,正常的访问请求会同时请求js脚本,并执行js脚本进而会执行嵌入的“标识代码”,而爬虫请求则不会向服务器请求加载该“标识代码”。
在步骤S102中,如果确定未接收到需要执行标识文件的请求,向客户端返回验证页面。
在步骤S103中,如果客户端在验证页面未通过验证,确定访问请求为被监控的爬虫请求,将客户端的ip地址添加到第一黑名单中。
在一实施例中,在步骤S102和步骤S103中,当服务器向客户端返回验证页面时,如果访问请求为通过浏览器发送的正常用户的访问请求,则用户会在验证页面输入相应的验证码,进而可以在验证页面通过验证,而爬虫请求由于不会在验证页面输入相应的验证码,因此在验证页面是不会通过验证的,由此,本公开实施例通过将在验证页面未通过验证的访问请求确定为被监控的爬虫请求,并将该客户端的ip地址添加到第一黑名单中,并对该访问请求拒绝响应。在一实施例中,第一黑名单中的ip地址也是有可能是被黑客或者恶意爬虫攻击当做跳板代理的正常用户的ip地址,因此本公开实施例还可以对第一黑名单中的ip地址进行检测,确保正常用户对服务器的正常访问行为,避免对正常用户的误杀。
在本实施例中,在接收到来自客户端的访问请求时通过标识文件对访问请求进行区分,向未请求标识文件的访问请求对应的客户端返回验证页面,如果在验证页面仍未通过验证,确定访问请求为被监控的爬虫请求,从而可以通过被监控的爬虫请求准实时地发现爬虫行为,避免通过手动方式将被监控的网络爬虫添加到第一黑名单中,降低了服务器的运维成本,并且还能减少恶意访问对服务器资源的占用,进而可以给用户带来更好的服务。
在一实施例中,预设的标识文件可嵌入在网页请求需要执行的脚本文件中。
在一实施例中,方法还可包括:
如果确定未接收到需要执行标识文件的请求,将客户端对应的ip地址添加到第二黑名单中;
每隔第一预设周期对第二黑名单中的ip地址进行清理。
在一实施例中,方法还可包括:
如果客户端在验证页面通过验证,将客户端的ip地址从第二黑名单中删除。
在一实施例中,方法还可包括:
每隔第二预设周期统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长;
从第一黑名单中删除存储时长超过预设时长的ip地址。
在一实施例中,统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长,可包括:
为第一黑名单中的每一个ip地址分配一个计时器;
在每一个ip地址被添加到第一黑名单时开始通过各自对应的计时器统计每一个ip地址的存储时长。
具体如何对网络爬虫进行检测的,请参考后续实施例。
至此,本公开实施例提供的上述方法,可以通过被监控的爬虫请求准实时地发现爬虫行为,避免通过手动方式将被监控的网络爬虫添加到第一黑名单中,降低了服务器的运维成本,并且还能减少恶意访问对服务器资源的占用,进而可以给用户带来更好的服务。
下面以具体实施例来说明本公开实施例提供的技术方案。
图2是根据一示例性实施例一示出的网络爬虫的检测方法的流程图;本实施例利用本公开实施例提供的上述方法,以需要执行的脚本文件为css脚本,预设的标识文件嵌入在css脚本中的图片标识为例进行示例性说明,如图2所示,包括以下步骤S201-S206:
在步骤S201中,在接收到来自客户端的访问请求时,确定是否接收到需要加载标识图片的请求,如果确定接收到需要加载标识图片的请求,流程结束,如果确定未接收到需要加载标识图片的请求,执行步骤S202。
步骤S201的描述请参见上述步骤S101的描述,在此不再详述。
在步骤S202中,如果确定未接收到需要执行标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中,执行步骤S203。
在一实施例中,服务器有可能在接收到正常的访问请求时,由于网络不稳定出现致使丢失了“需要执行标识文件的请求”的数据包,为了避免对该种情形的访问请求的误判,通过将未接收到需要执行标识文件的请求的客户端对应的ip地址添加到第二黑名单中,将第二黑名单的ip地址作为潜在的网页爬虫进行监控,从而尽量减少对正常用户的误杀。
步骤S203,向客户端返回验证页面,确定客户端是否在验证页面通过验证,如果客户端在验证页面通过验证,执行步骤205;如果客户端在验证页面未通过验证,执行步骤S204。
在步骤S204中,如果客户端在验证页面未通过验证,确定访问请求为被监控的爬虫请求,将客户端的ip地址添加到第一黑名单中,流程结束。
步骤S204的描述请参见上述步骤S103的描述,在此不再详述。
在步骤S205中,如果客户端在验证页面通过验证,将客户端的ip地址从第二黑名单中删除。
在一实施例中,当服务器向客户端返回验证页面时,正常用户通常会在验证页面输入相应的验证码,进而可以在验证页面通过验证,由此,可以认定该客户端对应的ip地址为正常用户,从而可以将该客户端的ip地址从第二黑名单中删除,以此减小第二黑名单的体积,达到优化第二黑名单的长度的目的。
步骤S206,每隔第一预设周期对第二黑名单中的ip地址进行清理。
在一实施例中,第二黑名单作为“潜在黑名单”,如果第二黑名单中的ip地址在后续的验证页面未通过验证,则该ip地址会从第二黑名单转移到第一黑名单中,如果在后续的验证页面通过验证,则将从第二黑名单中删除该ip地址,因此第二黑名单中的ip地址一般不会在第二黑名单中驻留太长时间,通过每隔第一预设周期对第二黑名单中的ip地址进行清理,可以减小第二黑名单的体积,达到优化第二黑名单的长度的目的。在一实施例中,第一预设周期可以为第二预设周期的5倍,本领域技术人员可以理解的是,第一预设周期可以根据具体服务器的监控需求而定,本公开对第一预设周期的具体时间不做限定。
本实施例中,除了具有上述实施例的有益技术效果之外,本公开实施例通过将第二黑名单作为“潜在黑名单”,如果在后续的验证页面通过验证,则将从第二黑名单中删除该ip地址,因此第二黑名单中的ip地址一般不会在第二黑名单中驻留太长时间,通过每隔第一预设周期对第二黑名单中的ip地址进行清理,可以减小第二黑名单的体积,达到优化第二黑名单的长度的目的。
图3A是根据一示例性实施例二示出的对第一黑名单进行更新的流程图,图3B是根据一示例性实施例二示出的步骤S301的流程图;本实施例利用本公开实施例提供的上述方法,以如何实现对第一黑名单进行更新为例进行示例性说明,如图3A所示,包括如下步骤:
在步骤S301中,每隔第二预设周期统计第一黑名单中的每一个ip地址在第一黑名单中的存储时长。
在步骤S302中,从第一黑名单中删除存储时长超过预设时长的ip地址。
在一实施例中,如图3B所示,上述步骤S301可包括:
在步骤S311中,为第一黑名单中的每一个ip地址分配一个计时器。
在步骤S312中,在每一个ip地址被添加到第一黑名单时开始通过各自对应的计时器统计每一个ip地址的存储时长。
在一实施例中,第一黑名单中的ip地址有可能是被黑客或者恶意爬虫攻击当做跳板代理的正常用户的ip地址,因此本公开实施例还可以对第一黑名单中的ip地址在第一黑名单中的存储时长进行统计,将存储时长达到预设时长的ip地址删除,从而可以确保黑客或者恶意爬虫通过正常用户的ip地址达到其窃取服务器上的网络信息并且放弃该的ip地址之后,确保该的ip地址对应的正常用户能够继续对服务器进行正常访问,确保正常用户的访问行为。
本实施例中,通过对第一黑名单中的ip地址的存储时长进行统计,将存储时长达到预设时长的ip地址从第一黑名单中删除,从而可以将正常用户但是该ip地址被黑客或者恶意爬虫攻击当做跳板代理来使用的ip地址进行大赦,以确保正常用户的访问行为。
本领域技术人员可以理解的是,本公开实施例还可以设置白名单列表,通过将白名单中的ip地址的访问请求直接放行实现立体化的防御,从而减少恶意访问对宝贵的服务器资源的占用,进而可以给用户带来更好的服务。
图4是根据一示例性实施例示出的一种网络爬虫的检测装置的框图,如图4所示,网络爬虫的检测装置包括:
第一确定模块41,被配置为在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
发送模块42,被配置为如果第一确定模块41确定未接收到需要执行标识文件的请求,向客户端返回验证页面;
第二确定模块43,被配置为如果客户端在发送模块42发送的验证页面未通过验证,确定访问请求被监控的爬虫请求,将客户端的ip地址添加到第一黑名单中。
图5是根据一示例性实施例示出的另一种网络爬虫的检测装置的框图,在上述图4所示实施例的基础上,预设的标识文件可嵌入在网页请求需要执行的脚本文件中。
在一实施例中,网络爬虫的检测装置还可包括:
添加模块44,被配置为如果第一确定模块41确定未接收到需要执行标识文件的请求,将客户端对应的ip地址添加到第二黑名单中;
清理模块45,被配置为每隔第一预设周期对第二黑名单中的ip地址进行清理。
在一实施例中,网络爬虫的检测装置还可包括:
第一删除模块46,被配置为如果客户端在发送模块42发送的验证页面通过验证,将客户端的ip地址从第二黑名单中删除。
在一实施例中,网络爬虫的检测装置还可包括:
统计模块47,被配置为每隔第二预设周期统计第一黑名单中的由第二确定模块43确定的每一个ip地址在第一黑名单中的存储时长;
第二删除模块48,被配置为从第一黑名单中删除统计模块47统计的存储时长超过预设时长的ip地址。
在一实施例中,统计模块47可包括:
分配子模块471,被配置为为第二确定模块43所确定的第一黑名单中的每一个ip地址分配一个计时器;
统计子模块472,被配置为在每一个ip地址被添加到第一黑名单时开始通过分配子模块为每一个ip地址分配的各自对应的计时器统计每一个ip地址的存储时长。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种适用于网络爬虫的检测装置的框图。例如,装置600可以被提供为一服务器。参照图6,装置600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理部件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述网络爬虫的检测方法。
装置600还可以包括一个电源组件626被配置为执行装置600的电源管理,一个有线或无线网络接口650被配置为将装置600连接到网络,和一个输入输出(I/O)接口658。装置600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (7)

1.一种网络爬虫的检测方法,应用在服务器上,其特征在于,所述方法包括:
在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
如果确定未接收到需要执行所述标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中,并向所述客户端返回验证页面;
如果所述客户端在所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中;如果所述客户端在所述验证页面通过验证,将所述客户端的ip地址从所述第二黑名单中删除;
每隔第一预设周期对所述第二黑名单中的ip地址进行清理;其中,
所述对所述第二黑名单中的ip地址进行清理,包括:
将未通过对应的验证页面验证的ip地址从所述第二黑名单转移到所述第一黑名单中,将通过对应的验证页面验证的ip地址从第二黑名单中删除;
每隔第二预设周期统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长;
从所述第一黑名单中删除存储时长超过预设时长的ip地址。
2.根据权利要求1所述的方法,其特征在于,所述预设的标识文件嵌入在所述访问请求需要执行的脚本文件中。
3.根据权利要求1所述的方法,其特征在于,所述统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长,包括:
为所述第一黑名单中的每一个ip地址分配一个计时器;
在所述每一个ip地址被添加到所述第一黑名单时开始通过各自对应的计时器统计所述每一个ip地址的存储时长。
4.一种网络爬虫的检测装置,应用在服务器上,其特征在于,所述装置包括:
第一确定模块,被配置为在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
添加模块,被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中;
发送模块,被配置为如果所述第一确定模块确定未接收到需要执行所述标识文件的请求,向所述客户端返回验证页面;
第二确定模块,被配置为如果所述客户端在所述发送模块发送的所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中;
第一删除模块,被配置为如果所述客户端在所述发送模块发送的所述验证页面通过验证,将所述客户端的ip地址从所述第二黑名单中删除;
统计模块,被配置为每隔第二预设周期统计所述第一黑名单由所述第二确定模块确定的的每一个ip地址在所述第一黑名单中的存储时长;
第二删除模块,被配置为从所述第一黑名单中删除所述统计模块统计的所述存储时长超过预设时长的ip地址;
清理模块,被配置为每隔第一预设周期对所述第二黑名单中的ip地址进行清理;其中,将未通过对应的验证页面验证的ip地址从所述第二黑名单转移到所述第一黑名单中,将通过对应的验证页面验证的ip地址从第二黑名单中删除。
5.根据权利要求4所述的装置,其特征在于,所述预设的标识文件嵌入在所述访问请求需要执行的脚本文件中。
6.根据权利要求4所述的装置,其特征在于,所述统计模块包括:
分配子模块,被配置为为所述第一黑名单中的每一个ip地址分配一个计时器;
统计子模块,被配置为在所述每一个ip地址被添加到所述第一黑名单时开始通过所述分配子模块为所述每一个ip地址分配的各自对应的计时器统计所述每一个ip地址的存储时长。
7.一种网络爬虫的检测装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在接收到来自客户端的访问请求时,确定是否接收到需要执行预设的标识文件的请求;
如果确定未接收到需要执行所述标识文件的请求,将所述客户端对应的ip地址添加到第二黑名单中,并向所述客户端返回验证页面;
如果所述客户端在所述验证页面未通过验证,确定所述访问请求被监控的爬虫请求,将所述客户端的ip地址添加到第一黑名单中;如果所述客户端在所述验证页面通过验证,将所述客户端的ip地址从所述第二黑名单中删除;
每隔第一预设周期对所述第二黑名单中的ip地址进行清理;其中,
所述对所述第二黑名单中的ip地址进行清理,包括:
将未通过对应的验证页面验证的ip地址从所述第二黑名单转移到所述第一黑名单中,将通过对应的验证页面验证的ip地址从第二黑名单中删除;
每隔第二预设周期统计所述第一黑名单中的每一个ip地址在所述第一黑名单中的存储时长;
从所述第一黑名单中删除存储时长超过预设时长的ip地址。
CN201510087889.6A 2015-02-25 2015-02-25 网络爬虫的检测方法及装置 Active CN104601601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510087889.6A CN104601601B (zh) 2015-02-25 2015-02-25 网络爬虫的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510087889.6A CN104601601B (zh) 2015-02-25 2015-02-25 网络爬虫的检测方法及装置

Publications (2)

Publication Number Publication Date
CN104601601A CN104601601A (zh) 2015-05-06
CN104601601B true CN104601601B (zh) 2018-09-04

Family

ID=53127105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510087889.6A Active CN104601601B (zh) 2015-02-25 2015-02-25 网络爬虫的检测方法及装置

Country Status (1)

Country Link
CN (1) CN104601601B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851680B (zh) * 2015-05-15 2023-06-30 阿里巴巴集团控股有限公司 网络爬虫识别方法和装置
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN105871850B (zh) * 2016-04-05 2019-02-01 携程计算机技术(上海)有限公司 爬虫检测方法和系统
CN105827619B (zh) * 2016-04-25 2019-02-15 无锡中科富农物联科技有限公司 高访问情况下的爬虫封禁方法
CN105930727B (zh) * 2016-04-25 2018-11-09 无锡中科富农物联科技有限公司 基于Web的爬虫识别方法
CN108282443B (zh) * 2017-01-05 2021-04-23 阿里巴巴集团控股有限公司 一种爬虫行为识别方法和装置
CN109150790B (zh) * 2017-06-15 2021-05-25 北京京东尚科信息技术有限公司 Web页面爬虫识别方法和装置
CN109670093A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 爬虫识别方法、装置、设备及可读存储介质
CN109948025B (zh) * 2019-03-20 2023-10-20 上海古鳌电子科技股份有限公司 一种数据引用记录方法
CN110020512A (zh) * 2019-04-12 2019-07-16 重庆天蓬网络有限公司 一种反爬虫的方法、装置、设备及存储介质
CN110012023B (zh) * 2019-04-15 2020-06-09 重庆天蓬网络有限公司 一种投毒式的防爬方法、系统、终端及介质
CN111951027A (zh) * 2020-08-14 2020-11-17 上海冰鉴信息科技有限公司 具有欺诈风险的企业识别方法及装置
CN115208672B (zh) * 2022-07-15 2024-01-23 北京天融信网络安全技术有限公司 黑名单调整方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544193A (zh) * 2012-07-17 2014-01-29 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103634366A (zh) * 2012-08-27 2014-03-12 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103856476A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9258289B2 (en) * 2013-04-29 2016-02-09 Arbor Networks Authentication of IP source addresses

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544193A (zh) * 2012-07-17 2014-01-29 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103634366A (zh) * 2012-08-27 2014-03-12 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备
CN103856476A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 用于识别网络机器人的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《如何给网站加入优雅的实时反爬虫策略URL:https://my.oschina.net/waterbear/blog/304870》;URL:https://my.oschina.net/waterbear/blog/304870;《如何给网站加入优雅的实时反爬虫策略》;20140713;全文 *

Also Published As

Publication number Publication date
CN104601601A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN104601601B (zh) 网络爬虫的检测方法及装置
RU2628127C2 (ru) Способ и устройство для идентификации поведения пользователя
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN107465651B (zh) 网络攻击检测方法及装置
CN107465648B (zh) 异常设备的识别方法及装置
US10491621B2 (en) Website security tracking across a network
KR20180095798A (ko) 애플리케이션들의 보안 및 위험 평가 및 테스팅을 위한 시스템들 및 방법들
CN104219230B (zh) 识别恶意网站的方法及装置
CN108259425A (zh) 攻击请求的确定方法、装置及服务器
CN107992738B (zh) 一种账号登录异常检测方法、装置及电子设备
CN114095567B (zh) 数据访问请求的处理方法、装置、计算机设备及介质
CN108112038B (zh) 一种控制访问流量的方法及装置
US20190222587A1 (en) System and method for detection of attacks in a computer network using deception elements
CN109889511B (zh) 进程dns活动监控方法、设备及介质
CN106685899A (zh) 用于识别恶意访问的方法和设备
KR102242219B1 (ko) 서버가 공격받는 것을 막기 위한 방법 및 디바이스
US20160352775A1 (en) Identifying suspicious activity in a load test
CN103973635A (zh) 页面访问控制方法和相关装置及系统
CN107392020A (zh) 数据库操作分析方法、装置、计算设备及计算机存储介质
RU2738337C1 (ru) Система и способ обнаружения интеллектуальных ботов и защиты от них
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
CN112165445A (zh) 用于检测网络攻击的方法、装置、存储介质及计算机设备
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN109981533A (zh) 一种DDoS攻击检测方法、装置、电子设备及存储介质
CN107623693A (zh) 域名解析防护方法及装置、系统、计算设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant