CN105187396A - 识别网络爬虫的方法及装置 - Google Patents

识别网络爬虫的方法及装置 Download PDF

Info

Publication number
CN105187396A
CN105187396A CN201510490259.3A CN201510490259A CN105187396A CN 105187396 A CN105187396 A CN 105187396A CN 201510490259 A CN201510490259 A CN 201510490259A CN 105187396 A CN105187396 A CN 105187396A
Authority
CN
China
Prior art keywords
address
website visiting
request
website
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510490259.3A
Other languages
English (en)
Inventor
张旭华
谭国斌
沈建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Technology Co Ltd
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Priority to CN201510490259.3A priority Critical patent/CN105187396A/zh
Publication of CN105187396A publication Critical patent/CN105187396A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开实施例公开了一种识别网络爬虫的方法及装置,该方法接收IP地址发送的访问请求,并根据该访问请求实时统计该IP地址对应的网站访问量,根据网站访问量获得该IP地址对应的访问频率;如果该IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。由上述内容可知,利用该方法识别网络爬虫时,不需要分析网站服务器的日志,而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量,从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。

Description

识别网络爬虫的方法及装置
技术领域
本公开涉及计算机技术领域,特别是涉及一种识别网络爬虫的方法及装置。
背景技术
网络爬虫(Webcrawler),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以便做下一步的处理。
一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少;但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发上百个请求循环重复抓取,相当多的爬虫会对网站造成非常高的负载,造成网站访问压力非常大,导致网站访问速度缓慢甚至无法访问。因此,反爬虫(即,拒绝不合理的网络爬虫)成为网站安全的一项重要任务。
相关技术中,网站服务器的日志会记录全部访问该网站的IP,即记录真实用户的IP和爬虫的IP,因此,通过分析统计服务器的记录和网站服务器的日志,就能找到爬虫。例如,如果网站服务器的日志中记录了某个IP发起了大量的访问请求,但是,在统计服务器中根本找不到该IP,或者即使能找到该IP,但该IP的访问量却寥寥无几,此时,可以确定该IP是网络爬虫。
发明内容
为克服相关技术中存在的问题,本公开提供一种识别网络爬虫的方法及装置。
为了解决上述技术问题,本公开实施例公开了如下技术方案:
根据本公开实施例的第一方面,提供一种识别网络爬虫的方法,应用于网站服务器中,所述方法包括:
接收IP地址发送的访问请求;
根据所述访问请求实时统计所述IP地址对应的网站访问量;
根据所述网站访问量获取所述IP地址对应的访问频率;
当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
在第一方面第一种可能的实现方式中,不需要分析网站服务器的日志,而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量,从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
结合第一方面,在第一方面的第一种可能的实现方式中,所述访问请求仅包括网站访问请求;
所述根据所述访问请求实时统计所述IP地址对应的网站访问量,包括:
每当接收到IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值,得到所述IP地址对应的网站访问量。
结合第一方面,在第一方面的第二种可能的实现方式中,所述访问请求包括网站访问请求和流量统计系统访问请求,其中,所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量;
所述根据所述访问请求实时统计所述IP地址对应的网站访问量,包括:
每当接收到所述IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值;
每当接收到所述IP地址发送的一个流量统计系统访问请求时,查询所述IP地址对应的当前网站访问计数值,将所述当前网站访问计数值减少所述预设值,得到所述IP地址对应的网站访问量。
在第一方面的第二种可能的实现方式中,真实用户总是先发送网站访问请求,然后发送流量统计系统访问请求,因此,真实用户对应的网站访问计数值不会很高。这样,能够大大降低判断网络爬虫的预设阈值,从而在网络爬虫爬取过程中快速识别出网络爬虫,即提高了识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
结合第一方面、第一方面的第一种可能的实现方式和第一方面的第二种可能的实现方式中的至少一种,在第一方面的第三种可能的实现方式中,所述当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫,包括:
在确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内,如果接收到所述IP地址发送的网站访问请求,则向所述IP地址对应的客户端发送验证码页面;
如果在发送验证码页面后的第二预设时间段内未检测到所述IP地址发送的验证码,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
在第一方面的第三种可能的实现方式中,在确定IP地址对应的访问频率大于预设阈值后,认为该IP地址很可能是网络爬虫,在第一预设时间段内如果接收到该IP地址发送的网站访问请求,则向该IP地址对应的客户端返回验证码页面,网络爬虫不会填写验证码,因此,通过该方法能够提高识别网络爬虫的准确率。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫,还包括:
在确定出所述IP地址的访问频率大于所述预设阈值的第一预设时间段之后,如果再次检测到所述IP地址的访问频率大于所述预设阈值,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
在第一方面的第四种可能的实现方式中,对于爬取频率过高的分布式网络爬虫,即使超过了第一预设时间段,依然会对服务器造成很大压力,因此,超过第一预设时间段后,如果仍接收到该IP地址发送的大量网站访问请求,则确定该IP地址对应的用户是网络爬虫,进一步提高识别网络爬虫的准确率。
结合第一方面、第一方面的第一种可能的实现方式和第一方面的第二种可能的实现方式中的至少一种,在第一方面的第五种可能的实现方式中,所述方法还包括:
在统计所述IP地址对应的网站访问量之后,查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面;
当查找到缓存区中存在与所述网站访问请求相匹配的页面时,从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。
在第一方面的第五种可能的实现方式中,在需要响应网站访问请求时,优先从缓存区中查找与网站访问请求对应的页面,这样,能够进一步降低网站服务器的负载。
第二方面,提供一种识别网络爬虫的装置,应用于网站服务器中,包括:
接收模块,用于接收IP地址发送的访问请求;
统计模块,用于根据所述接收模块接收的访问请求实时统计所述IP地址对应的网站访问量;
获取模块,用于根据所述统计模块获得的网站访问量获取所述IP地址对应的访问频率;
检测模块,用于检测所述获取模块获得的所述IP地址对应的访问频率是否大于预设阈值;
确定模块,用于当所述检测模块确定所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
结合第二方面,在第二方面的第一种可能的实现方式中,所述访问请求仅包括网站访问请求;
所述统计模块用于:每当所述接收模块接收到IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值,得到所述IP地址对应的网站访问量。
结合第二方面,在第二方面的第二种可能的实现方式中,所述访问请求包括网站访问请求和流量统计系统访问请求,其中,所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量;
所述统计模块包括:
增加子模块,用于每当所述接收模块接收到所述IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值;
减少子模块,用于每当所述接收模块接收到所述IP地址发送的一个流量统计系统访问请求时,查询所述IP地址对应的当前网站访问计数值,将所述当前网站访问计数值减少所述预设值,得到所述IP地址对应的网站访问量。
结合第二方面、第二方面的第一种可能的实现方式和第二方面的第二种可能的实现方式中的至少一种,在第二方面的第三种可能的实现方式中,所述确定模块包括:
检测子模块,用于在所述检测模块确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内,是否接收到所述IP地址发送的网站访问请求;
发送子模块,用于在所述检测子模块确定在所述第一预设时间段内接收到所述IP地址发送的网站访问请求,则向所述IP地址对应的客户端发送验证码页面;
第一确定子模块,用于在所述发送子模块发送验证码页面后的第二预设时间段内,如果未检测到所述IP地址发送的验证码,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述确定模块还包括:
第二确定子模块,用于在超过所述第一预设时间段之后,如果所述检测模块再次检测到所述IP地址的访问频率大于所述预设阈值,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
结合第二方面、第二方面的第一种可能的实现方式和第二方面的第二种可能的实现方式中的至少一种,在第二方面的第五种可能的实现方式中,所述装置还包括:
查找模块,用于统计完所述IP地址对应的网站访问量之后,查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面;
返回模块,用于当所述查找模块查找到缓存区中存在与所述网站访问请求相匹配的页面时,从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。
根据本公开实施例的第三方面,提供一种终端设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收IP地址发送的访问请求;
根据所述访问请求实时统计所述IP地址对应的网站访问量;
根据所述网站访问量获取所述IP地址对应的访问频率;
当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
本公开的实施例提供的技术方案可以包括以下有益效果:接收IP地址发送的访问请求,并根据该访问请求实时统计该IP地址对应的网站访问量,根据网站访问量获得该IP地址对应的访问频率;如果该IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。由上述内容可知,该识别网络爬虫的方法不需要分析网站服务器的日志来识别网络爬虫,只需在接收到IP地址发送的访问请求时就能够实时统计IP地址的网站访问量,就能够快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,从而能够快速屏蔽掉恶意的网络爬虫。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种识别网络爬虫的方法的流程图;
图2是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图;
图3是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图;
图4是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图;
图5是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图;
图6是根据一示例性实施例示出的一种识别网络爬虫的装置的框图;
图7是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图;
图8是根据一示例性实施例示出的一种确定模块的框图;
图9是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图;
图10是根据一示例性实施例示出的一种用于识别网络爬虫的装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种识别网络爬虫的方法流程图,如图1所示,该方法用于网站服务器中,该方法可以包括以下步骤:
在S110中,接收IP地址发送的访问请求。
本实施例中,该访问请求是IP地址发送的网站访问请求,或者,访问请求是IP地址发送的网站访问请求和流量统计系统访问请求。
网站访问请求用于请求对网站服务器进行访问;流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量。
在S120中,根据访问请求实时统计IP地址对应的网站访问量。
每当接收到IP地址发送的网站访问请求,则增加该IP对应的网站访问量。
在S130中,根据网站访问量获取IP地址对应的访问频率。
根据一段时间内统计的该IP地址的网站访问量,计算单位时间(例如,1秒)内该IP地址的访问频率。
在S140中,当IP地址对应的访问频率大于预设阈值时,确定IP地址对应的用户是网络爬虫。
如果计算得到该IP地址对应的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。
预设阈值可以根据实际需要设定,预设阈值越大,识别出的网络爬虫越少;预设阈值越小,识别出的网络爬虫越多,但是,可能会拦截希望放行的搜索引擎,增大了网络爬虫的误判率。
本实施例提供的识别网络爬虫的方法,接收IP地址发送的访问请求,并根据该访问请求实时统计该IP地址对应的网站访问量,根据网站访问量获得该IP地址对应的访问频率;如果该IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。由上述内容可知,利用该方法识别网络爬虫时,不需要分析网站服务器的日志,而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量,从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
图2是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图,本实施例中,访问请求是网站访问请求。如图2所示,该方法可以包括以下步骤:
在S210中,接收IP地址发送的网站访问请求。
在S220中,将该IP地址对应的网站访问计数值增加预设值,得到该IP地址对应的网站访问量。
可以在网站服务器中增加Nginx的Lua插件,IP地址发送的全部访问请求都会经过该Lua插件,当该Lua插件接收到网站访问请求时,将该IP地址对应的网站访问计数值增加预设值,并将该网站访问计数值作为该IP地址对应的网站访问量。
例如,预设值可以是1,每当接收到IP地址发送的网站访问请求时,该IP地址对应的网站访问计数值加1。
在S230中,根据该IP对应的网站访问量获取该IP地址对应的访问频率。
在相同时间内,网络爬虫发送的网站访问量远远大于真实用户的网站访问量,例如,网页爬取能力差的网络爬虫,通常并发几十上百个网站访问请求循环重复抓取;而正常用户通常只发几个网站访问请求。
相应地,网络爬虫的访问频率远远大于真实用户的访问频率。
在S240中,当IP地址对应的访问频率大于预设阈值时,确定该IP地址对应的用户是网络爬虫。
可以根据实际需要设定预设阈值,比较IP地址对应的访问频率与预设阈值之间的大小,如果IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。
本实施例提供的识别网络爬虫的方法,接收到IP地址发送的网站访问请求后,实时统计该IP地址对应的网站访问量;然后,根据IP地址的网站访问量获得该IP地址对应的网站访问频率。如果IP地址对应的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。该方法能够在接收IP地址发送的网站访问请求后,实时记录该IP地址的网站访问量,并快速实时地获取IP地址的访问频率,根据访问频率识别出网络爬虫。即实现在网络爬虫爬取过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,能够快速屏蔽掉恶意的网络爬虫。
图3是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图,本实施例中,访问请求包括网站访问请求和流量统计系统访问请求。如图3所示,该方法可以包括以下步骤:
在S310中,接收IP地址发送的网站访问请求。
在S320中,将该IP地址对应的网站访问计数值增加预设值。
本公开在网站服务器中增加Nginx的Lua插件,IP地址对应的用户发送的全部访问请求都会经过该Lua插件,当该Lua插件接收到网站访问请求时,对IP地址对应的网站访问计数值增加预设值。该预设值可以设定为1。
在S330中,当接收到该IP地址发送的流量统计系统访问请求时,将该IP地址对应的当前网站访问计数值减少预设值,得到该IP对应的网站访问量。
构建一个流量统计系统,用来记录通过浏览器访问网站的真实用户的访问量,在网站页面内嵌入一端JS代码,真实用户都是通过浏览器发送网站访问请求,此时,会使网页执行内嵌的JS代码,执行该JS代码后会向流量统计系统发送流量统计系统访问请求以记录该IP地址的访问量,例如,记录发送流量统计系统访问请求的IP地址,以及该IP地址对应的网站访问量。
当Lua插件接收IP地址发送流量统计系统访问请求时,查询该IP地址对应的网站访问计数值,如果该IP地址对应的当前网站访问计数值大于0,则将该IP地址对应的当前网站访问计数值减少预设值。
对于真实用户而言,总是先发送网站访问请求,然后发送流量统计系统访问请求,相应的,真实用户对应的网站访问计数值总是先增加预设值,然后又减少预设值,基本保持不变。
对于网络爬虫而言,网络爬虫都是通过接口访问网站服务器,不会执行网页内的JS代码,即,网络爬虫不会发起流量统计系统访问请求,因此,网络爬虫对应的网站访问计数值总是增加预设值,随着网络爬虫发送的网站访问请求数量的增多,相应的网站访问计数值也增多,网络访问量不断增加。
在S340中,根据网站访问量获取该IP地址对应的访问频率。
根据一端时间内统计的该IP地址的网站访问量,计算该IP地址在单位时间内的访问频率。
在S350中,当IP地址对应的访问频率大于预设阈值时,确定该IP地址对应的用户是网络爬虫。
对于真实用户而言,由于其对应的网站访问量比较小,相应的真实用户的访问频率也比较小。这样,大大降低了判断网络爬虫的预设阈值,能够快速判断出网络爬虫,进而采取合适的策略拦截网络爬虫。
对于网络爬虫而言,由于其对应的网站访问量比较大,相应的网络爬虫的访问频率也比较大。
本实施例提供的识别网络爬虫的方法,接收到IP地址发送的网站访问请求,将该IP地址对应的网站访问计数值增加预设值;接收到该IP地址发送的流量统计访问请求时,将该IP地址对应的网站访问计数值减少预设值。对于真实用户而言,总是先发送网站访问请求,然后发送流量统计系统访问请求,因此,真实用户对应的网站访问计数值不会很高。这样,能够大大降低判断网络爬虫的预设阈值,从而在网络爬虫爬取过程中快速识别出网络爬虫,即提高了识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
图4是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图,该方法能够提高识别网络爬虫的准确,如图4所示,该方法可以包括以下步骤:
在S410中,接收IP地址发送的访问请求。
在S420中,根据访问请求实时统计IP地址对应的网站访问量。
在S430中,根据网站访问量获取IP地址对应的访问频率。
在S440中,当确定该IP地址对应的访问频率大于预设阈值后,检测在第一预设时间段内是否接收到该IP地址发送的网站访问请求,如果接收到,则执行S450;如果未接收到,则执行S490。
在S450中,向该IP地址对应的客户端发送验证码页面。
如果IP地址的访问频率大于预设阈值,则认为该IP地址很可能是网络爬虫,然后,可以设置第一预设时间段(即,过期时间)内,接收到该IP地址发送的网站访问请求时,向该IP地址对应的客户端返回一个验证码页面,要求该IP地址对应的用户填写验证码。
在S460中,判断在发送验证码页面后的第二预设时间段内是否检测到IP地址发送的验证码;如果未检测到该IP地址发送的验证码,则执行S470;如果检测到该IP地址发送的验证码,则执行S480。
向IP地址返回验证码页面后,如果是网络爬虫,则不会填写验证码;如果是真实用户,则会填写验证码。判断在第二预设时间内是否接收到该IP地址返回的验证码,如果接收到验证码,则确定该IP地址对应的用户是真实用户;如果未接收到验证码,则确定该IP地址对应的用户是网络爬虫。
在S470中,确定该IP地址对应的用户是网络爬虫,并将该IP地址添加到黑名单中。
确定IP地址对应的用户是网络爬虫后,将该IP地址添加到黑名单中,后续来自该IP地址的网站访问请求全部屏蔽掉。
在S480中,确定该IP地址对应的用户是真实用户。
在S490中,在第一预设时间段之后,如果检测到该IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫,并将该IP地址添加到黑名单中。
如果是分布式网络爬虫,爬取频率过高,即使超过了第一预设时间段,依然会对服务器造成很大压力,此种应用场景下,可以增加以下识别网络爬虫的策略:超过第一预设时间段后,如果仍接收到该IP地址发送的大量网站访问请求,则确定该IP地址对应的用户是网络爬虫,然后,将该IP地址添加到黑名单中,后续来自该IP地址的网站访问请求将全部屏蔽掉。
本实施例提供的识别网络爬虫的方法,在确定IP地址对应的访问频率大于预设阈值后,认为该IP地址很可能是网络爬虫,在第一预设时间段内如果接收到该IP地址发送的网站访问请求,则向该IP地址对应的客户端返回验证码页面,网络爬虫不会填写验证码,因此,如果在第二预设时间段内未接收到该IP地址发送的验证码,则确定该IP地址是网络爬虫,并将该IP地址添加到黑名单中。如果超过第一预设时间段后,再次检测到该IP地址对应的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫,并将该IP地址添加到黑名单中通过该方法能够提高识别网络爬虫的准确率。
图5是根据一示例性实施例示出的另一种识别网络爬虫的方法流程图,该方法在图1所示实施例的基础上还可以包括以下步骤:
在S510中,当统计IP地址对应的网站访问量后,查找缓存区中是否存在与IP地址发送的网站访问请求相匹配的页面;如果存在,则执行S520;如果不存在,则执行S530。
在Nginx中安装网站服务的缓存机制,缓存保存时间及缓存清理机制,根据网站服务的实际需求确定。在Nginx执行完Lua插件的脚本后,优先从缓存区中查找与网站访问请求相匹配的页面。
在S520中,从缓存区中提取与网站访问请求相匹配的页面并返回给发送IP地址对应的客户端。
如果Nginx的缓存中存在网站访问请求相匹配的页面,则直接从缓存区中获得页面并返回给该IP地址对应的客户端。
在S530中,将网站访问请求发送给网站服务器。
如果Nginx的缓存中不存在网站访问请求相匹配的页面,则将网站访问请求发送网站服务器,由网站服务器向该IP地址返回与网站访问请求相匹配的页面。
本实施例提供的识别网络爬虫的方法,在需要响应网站访问请求时,优先从Nginx的缓存区中查找与网站访问请求对应的页面,这样,能够进一步降低网站服务器的负载。
相应于上述图1~图5所示的识别网络爬虫的方法实施例,本公开还提供了如下识别网络爬虫的装置实施例。
图6是根据一示例性实施例示出的一种识别网络爬虫的装置的框图,该装置应用于网站服务器中,如图6所示,该装置可以包括接收模块110、统计模块120、获取模块130、检测模块140和确定模块150。
接收模块110被配置为,接收IP地址发送的访问请求。
统计模块120被配置为,根据接收模块110接收的访问请求实时统计该IP地址对应的网站访问量。
在本公开一示例性实施例中,访问请求是网站访问请求,此种应用场景下,图6所示实施例中的接收模块110接收IP地址发送的网站访问请求。接收模块110每接收到该IP地址发送的网站访问请求时,统计模块120将该IP地址对应的网站访问计数值增加预设值,得到该IP地址对应的网站访问量。
获取模块130被配置为,根据统计模块120获得的网站访问量获取该IP地址对应的访问频率。
检测模块140被配置为,检测所述获取模块获得的该IP地址对应的访问频率是否大于预设阈值。
确定模块150被配置为,当检测模块140确定该IP地址对应的访问频率大于预设阈值时,确定该IP地址对应的用户是网络爬虫。
本实施例提供的识别网络爬虫的装置,接收IP地址发送的访问请求,并根据该访问请求实时统计该IP地址对应的网站访问量,根据网站访问量获得该IP地址对应的访问频率;如果该IP地址的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫。由上述内容可知,利用该装置识别网络爬虫时,不需要分析网站服务器的日志,而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量,从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
图7是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图,本实施例中,访问请求包括网站访问请求和流量统计系统访问请求,其中,流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量。
如图7所示,该装置可以包括接收模块110、增加子模块121、减少子模块122、获取模块130、检测模块140和确定模块150。
接收模块110被配置为,接收IP地址发送的访问请求。该访问请求包括网站访问请求和流量统计系统访问请求。
增加子模块121被配置为,每当接收模块110接收到IP地址发送的一个网站访问请求时,将该IP地址对应的网站访问计数值增加预设值。
本公开在网站服务器中增加Nginx的Lua插件,IP地址对应的用户发送的全部访问请求都会经过该Lua插件,当该Lua插件接收到网站访问请求时,对IP地址对应的网站访问计数值增加预设值。该预设值可以设定为1。
减少子模块122被配置为,每当接收模块110接收到该IP地址发送的一个流量统计系统访问请求时,查询该IP地址对应的当前网站访问计数值,将当前网站访问计数值减少预设值,得到该IP地址对应的网站访问量。
流量统计系统,用来记录通过浏览器访问网站的真实用户的访问量,在网站页面内嵌入一端JS代码,真实用户都是通过浏览器发送网站访问请求,此时,会使网页执行内嵌的JS代码,执行该JS代码后会向流量统计系统发送流量统计系统访问请求以记录该IP地址的访问量,例如,记录发送流量统计系统访问请求的IP地址,以及该IP地址对应的网站访问量。
当Lua插件接收IP地址发送流量统计系统访问请求时,查询该IP地址对应的网站访问计数值,如果该IP地址对应的当前网站访问计数值大于0,则将该IP地址对应的当前网站访问计数值减少预设值。
对于真实用户而言,总是先发送网站访问请求,然后发送流量统计系统访问请求,相应的,真实用户对应的网站访问计数值总是先增加预设值,然后又减少预设值,基本保持不变。
获取模块130被配置为,根据统计模块120获得的网站访问量获取该IP地址对应的访问频率。
检测模块140被配置为,检测所述获取模块获得的该IP地址对应的访问频率是否大于预设阈值。
确定模块150被配置为,当检测模块140确定该IP地址对应的访问频率大于预设阈值时,确定该IP地址对应的用户是网络爬虫。
本实施例提供的识别网络爬虫的装置,接收到IP地址发送的网站访问请求,将该IP地址对应的网站访问计数值增加预设值;接收到该IP地址发送的流量统计访问请求时,将该IP地址对应的网站访问计数值减少预设值。对于真实用户而言,总是先发送网站访问请求,然后发送流量统计系统访问请求,因此,真实用户对应的网站访问计数值不会很高。这样,能够大大降低判断网络爬虫的预设阈值,从而在网络爬虫爬取过程中快速识别出网络爬虫,即提高了识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
图8是根据一示例性实施例示出的一种确定模块的框图,如图8所示,确定模块150可以包括检测子模块151、发送子模块152、第一确定子模块153和第二确定子模块154。
检测子模块151被配置为,在检测模块140确定出该IP地址对应的访问频率大于预设阈值后的第一预设时间段内,是否接收到该IP地址发送的网站访问请求。
发送子模块152被配置为,在检测子模块152确定在第一预设时间段内接收到该IP地址发送的网站访问请求,则向该IP地址对应的客户端发送验证码页面。
如果IP地址的访问频率大于预设阈值,则认为该IP地址很可能是网络爬虫,然后,可以设置第一预设时间段(即,过期时间)内,接收到该IP地址发送的网站访问请求时,向该IP地址对应的客户端返回一个验证码页面,要求该IP地址对应的用户填写验证码。
第一确定子模块153被配置为,在发送子模块152发送验证码页面后的第二预设时间段内,未检测到该IP地址发送的验证码,则确定所述IP地址对应的用户是网络爬虫,并将IP地址添加到黑名单中。
第二确定子模块154被配置为,在检测子模块151检测到第一预设时间段内未接收到该IP地址发送的网站访问请求,且超出第一预设时间段后,所述检测模块140再次检测到该IP地址的访问频率大于预设阈值,确定该IP地址对应的用户是网络爬虫,并将该IP地址添加到黑名单中。
本实施例提供的识别网络爬虫的装置,在确定IP地址对应的访问频率大于预设阈值后,认为该IP地址很可能是网络爬虫,在第一预设时间段内如果接收到该IP地址发送的网站访问请求,则向该IP地址对应的客户端返回验证码页面,网络爬虫不会填写验证码,因此,如果在第二预设时间段内未接收到该IP地址发送的验证码,则确定该IP地址是网络爬虫,并将该IP地址添加到黑名单中。如果超过第一预设时间段后,再次检测到该IP地址对应的访问频率大于预设阈值,则确定该IP地址对应的用户是网络爬虫,并将该IP地址添加到黑名单中通过该装置能够提高识别网络爬虫的准确率。
图9是根据一示例性实施例示出的另一种识别网络爬虫的装置的框图,该装置在图6所示实施例的基础上还可以包括:查找模块310和返回模块320。
查找模块310被配置为,统计完该IP地址对应的网站访问量之后,查找缓存区中是否存在与IP地址发送的网站访问请求相匹配的页面。
在本公开一示例性实施例中,在Nginx中安装网站服务的缓存机制,缓存保存时间及缓存清理机制,根据网站服务的实际需求确定。在Nginx执行完Lua插件的脚本后,优先从缓存区中查找与网站访问请求相匹配的页面。
返回模块320被配置为,当查找模块310查找到缓存区中存在与网站访问请求相匹配的页面时,从缓存区中提取与网站访问请求相匹配的页面并返回给发送IP地址对应的客户端。
如果Nginx的缓存中存在网站访问请求相匹配的页面,则直接从缓存区中获得页面并返回给该IP地址对应的客户端。
本实施例提供的识别网络爬虫的装置,在需要响应网站访问请求时,优先从Nginx的缓存区中查找与网站访问请求对应的页面,这样,能够进一步降低网站服务器的负载。
图10是根据一示例性实施例示出的一种用于识别网络爬虫的装置1900的框图。例如,装置1900可以被提供为一服务器。如图10所示,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行以下识别网络爬虫的方法:
接收IP地址发送的访问请求;
根据所述访问请求实时统计所述IP地址对应的网站访问量;
根据所述网站访问量获取所述IP地址对应的访问频率;
当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
该识别网络爬虫的方法,不需要分析网站服务器的日志,而是在接收到IP地址发送的访问请求时实时统计IP地址的网站访问量,从而实现快速实时地获取某个IP地址的访问频率。即实现了在网络爬虫爬取的过程中快速识别出网络爬虫,提高识别网络爬虫的实时性,进而能够快速屏蔽掉恶意的网络爬虫。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (13)

1.一种识别网络爬虫的方法,应用于网站服务器中,其特征在于,所述方法包括:
接收IP地址发送的访问请求;
根据所述访问请求实时统计所述IP地址对应的网站访问量;
根据所述网站访问量获取所述IP地址对应的访问频率;
当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
2.根据权利要求1所述的方法,其特征在于,所述访问请求仅包括网站访问请求;
所述根据所述访问请求实时统计所述IP地址对应的网站访问量,包括:
每当接收到IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值,得到所述IP地址对应的网站访问量。
3.根据权利要求1所述的方法,其特征在于,所述访问请求包括网站访问请求和流量统计系统访问请求,其中,所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量;
所述根据所述访问请求实时统计所述IP地址对应的网站访问量,包括:
每当接收到所述IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值;
每当接收到所述IP地址发送的一个流量统计系统访问请求时,查询所述IP地址对应的当前网站访问计数值,将所述当前网站访问计数值减少所述预设值,得到所述IP地址对应的网站访问量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫,包括:
在确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内,如果接收到所述IP地址发送的网站访问请求,则向所述IP地址对应的客户端发送验证码页面;
如果在发送验证码页面后的第二预设时间段内未检测到所述IP地址发送的验证码,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
5.根据权利要求4所述的方法,其特征在于,所述当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫,还包括:
在确定出所述IP地址的访问频率大于所述预设阈值的第一预设时间段之后,如果再次检测到所述IP地址的访问频率大于所述预设阈值,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
在统计所述IP地址对应的网站访问量之后,查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面;
当查找到缓存区中存在与所述网站访问请求相匹配的页面时,从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。
7.一种识别网络爬虫的装置,应用于网站服务器中,其特征在于,包括:
接收模块,用于接收IP地址发送的访问请求;
统计模块,用于根据所述接收模块接收的访问请求实时统计所述IP地址对应的网站访问量;
获取模块,用于根据所述统计模块获得的网站访问量获取所述IP地址对应的访问频率;
检测模块,用于检测所述获取模块获得的所述IP地址对应的访问频率是否大于预设阈值;
确定模块,用于当所述检测模块确定所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
8.根据权利要求7所述的装置,其特征在于,所述访问请求仅包括网站访问请求;
所述统计模块用于:每当所述接收模块接收到IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值,得到所述IP地址对应的网站访问量。
9.根据权利要求7所述的装置,其特征在于,所述访问请求包括网站访问请求和流量统计系统访问请求,其中,所述流量统计系统访问请求用于使流量统计系统统计IP地址通过浏览器发送网站访问请求的数量;
所述统计模块包括:
增加子模块,用于每当所述接收模块接收到所述IP地址发送的一个网站访问请求时,将所述IP地址对应的网站访问计数值增加预设值;
减少子模块,用于每当所述接收模块接收到所述IP地址发送的一个流量统计系统访问请求时,查询所述IP地址对应的当前网站访问计数值,将所述当前网站访问计数值减少所述预设值,得到所述IP地址对应的网站访问量。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述确定模块包括:
检测子模块,用于在所述检测模块确定出所述IP地址对应的访问频率大于所述预设阈值后的第一预设时间段内,是否接收到所述IP地址发送的网站访问请求;
发送子模块,用于在所述检测子模块确定在所述第一预设时间段内接收到所述IP地址发送的网站访问请求,则向所述IP地址对应的客户端发送验证码页面;
第一确定子模块,用于在所述发送子模块发送验证码页面后的第二预设时间段内,如果未检测到所述IP地址发送的验证码,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
11.根据权利要求10所述的装置,其特征在于,所述确定模块还包括:
第二确定子模块,用于在超过所述第一预设时间段之后,如果所述检测模块再次检测到所述IP地址的访问频率大于所述预设阈值,则确定所述IP地址对应的用户是网络爬虫,并将所述IP地址添加到黑名单中。
12.根据权利要求7-9任一项所述的装置,其特征在于,所述装置还包括:
查找模块,用于统计完所述IP地址对应的网站访问量之后,查找缓存区中是否存在与所述IP地址发送的网站访问请求相匹配的页面;
返回模块,用于当所述查找模块查找到缓存区中存在与所述网站访问请求相匹配的页面时,从所述缓存区中提取与所述网站访问请求相匹配的页面并返回给发送所述IP地址对应的客户端。
13.一种服务器,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收IP地址发送的访问请求;
根据所述访问请求实时统计所述IP地址对应的网站访问量;
根据所述网站访问量获取所述IP地址对应的访问频率;
当所述IP地址对应的访问频率大于预设阈值时,确定所述IP地址对应的用户是网络爬虫。
CN201510490259.3A 2015-08-11 2015-08-11 识别网络爬虫的方法及装置 Pending CN105187396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510490259.3A CN105187396A (zh) 2015-08-11 2015-08-11 识别网络爬虫的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510490259.3A CN105187396A (zh) 2015-08-11 2015-08-11 识别网络爬虫的方法及装置

Publications (1)

Publication Number Publication Date
CN105187396A true CN105187396A (zh) 2015-12-23

Family

ID=54909240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510490259.3A Pending CN105187396A (zh) 2015-08-11 2015-08-11 识别网络爬虫的方法及装置

Country Status (1)

Country Link
CN (1) CN105187396A (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN106534062A (zh) * 2016-09-23 2017-03-22 南京途牛科技有限公司 一种防爬虫的方法
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN106789831A (zh) * 2015-11-19 2017-05-31 阿里巴巴集团控股有限公司 识别网络攻击的方法和装置
CN106959947A (zh) * 2016-01-08 2017-07-18 刘挺 一种新型可排序反爬虫多领域垂直搜索网站的设计方法
CN106998317A (zh) * 2016-01-22 2017-08-01 高德信息技术有限公司 异常访问请求识别方法及装置
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107341395A (zh) * 2016-05-03 2017-11-10 北京京东尚科信息技术有限公司 一种拦截爬虫的方法
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
WO2018028430A1 (zh) * 2016-08-08 2018-02-15 阿里巴巴集团控股有限公司 识别及辅助识别虚假流量的方法、装置及系统
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108062459A (zh) * 2016-11-09 2018-05-22 腾讯科技(北京)有限公司 防止抓取页面信息的方法及装置
WO2018107784A1 (zh) * 2016-12-16 2018-06-21 华为技术有限公司 检测网页后门的方法和装置
CN108228864A (zh) * 2018-01-12 2018-06-29 深圳壹账通智能科技有限公司 网络爬虫识别方法、装置、计算机设备和存储介质
CN108712426A (zh) * 2018-05-21 2018-10-26 携程旅游网络技术(上海)有限公司 基于用户行为埋点的爬虫识别方法及系统
CN108989294A (zh) * 2018-06-28 2018-12-11 杭州安恒信息技术股份有限公司 一种准确识别网站访问的恶意用户的方法及系统
CN109150790A (zh) * 2017-06-15 2019-01-04 北京京东尚科信息技术有限公司 Web页面爬虫识别方法和装置
CN109446398A (zh) * 2018-11-06 2019-03-08 杭州安恒信息技术股份有限公司 智能检测网络爬虫行为的方法、装置以及电子设备
CN109600272A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 爬虫检测的方法及装置
CN109639674A (zh) * 2018-12-11 2019-04-16 广州猎萌网络科技有限公司 一种访问安全控制方法
CN109818949A (zh) * 2019-01-17 2019-05-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络的反爬虫方法
CN110012023A (zh) * 2019-04-15 2019-07-12 重庆天蓬网络有限公司 一种投毒式的防爬方法、系统、终端及介质
CN110011977A (zh) * 2019-03-07 2019-07-12 北京华安普特网络科技有限公司 一种网站安全防御方法
CN110035068A (zh) * 2019-03-14 2019-07-19 微梦创科网络科技(中国)有限公司 一种反抓站系统的禁封方法及装置
CN110245280A (zh) * 2019-05-06 2019-09-17 北京三快在线科技有限公司 识别网络爬虫的方法、装置、存储介质和电子设备
CN110581859A (zh) * 2019-09-18 2019-12-17 成都安恒信息技术有限公司 一种基于页面埋点的防爬虫方法
CN110858229A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 数据处理方法、设备、访问控制系统及存储介质
WO2020062655A1 (zh) * 2018-09-26 2020-04-02 深圳壹账通智能科技有限公司 爬虫识别方法、装置、设备及非易失性可读存储介质
CN112182629A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 一种恶意访问识别方法、装置、设备及存储介质
CN113536301A (zh) * 2021-07-19 2021-10-22 北京计算机技术及应用研究所 一种基于行为特征分析的反爬方法
CN113810381A (zh) * 2021-08-23 2021-12-17 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114070599A (zh) * 2021-11-11 2022-02-18 北京顶象技术有限公司 一种用户端不安全设备的识别方法及装置
CN114401104A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114553541A (zh) * 2022-02-17 2022-05-27 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质
WO2022117063A1 (zh) * 2020-12-03 2022-06-09 百果园技术(新加坡)有限公司 孤立森林的训练方法,网络爬虫的识别方法及装置
CN115065520A (zh) * 2022-06-09 2022-09-16 中国电信股份有限公司 反爬虫处理方法、装置、电子设备及可读存储介质
CN115174215A (zh) * 2022-07-05 2022-10-11 深圳市飞铭达信息技术有限公司 一种网络爬虫识别方法及电子商务系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置
CN104113519A (zh) * 2013-04-16 2014-10-22 阿里巴巴集团控股有限公司 网络攻击检测方法及其装置
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631830A (zh) * 2012-08-29 2014-03-12 华为技术有限公司 网络爬虫检测方法和装置
CN104113519A (zh) * 2013-04-16 2014-10-22 阿里巴巴集团控股有限公司 网络攻击检测方法及其装置
US20140325596A1 (en) * 2013-04-29 2014-10-30 Arbor Networks, Inc. Authentication of ip source addresses
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN104601601A (zh) * 2015-02-25 2015-05-06 小米科技有限责任公司 网络爬虫的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SINAT_20920651: ""给网站加入优雅的实时反爬虫策略"", 《CSDN博客》 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789831B (zh) * 2015-11-19 2020-10-23 阿里巴巴集团控股有限公司 识别网络攻击的方法和装置
CN106789831A (zh) * 2015-11-19 2017-05-31 阿里巴巴集团控股有限公司 识别网络攻击的方法和装置
CN106959947A (zh) * 2016-01-08 2017-07-18 刘挺 一种新型可排序反爬虫多领域垂直搜索网站的设计方法
CN106998317A (zh) * 2016-01-22 2017-08-01 高德信息技术有限公司 异常访问请求识别方法及装置
CN105930727A (zh) * 2016-04-25 2016-09-07 无锡中科富农物联科技有限公司 基于Web的爬虫识别算法
CN105930727B (zh) * 2016-04-25 2018-11-09 无锡中科富农物联科技有限公司 基于Web的爬虫识别方法
CN107341395B (zh) * 2016-05-03 2020-03-03 北京京东尚科信息技术有限公司 一种拦截爬虫的方法
CN107341395A (zh) * 2016-05-03 2017-11-10 北京京东尚科信息技术有限公司 一种拦截爬虫的方法
US10848511B2 (en) 2016-08-08 2020-11-24 Alibaba Group Holding Limited Method and apparatus for identifying fake traffic
WO2018028430A1 (zh) * 2016-08-08 2018-02-15 阿里巴巴集团控股有限公司 识别及辅助识别虚假流量的方法、装置及系统
CN106534062B (zh) * 2016-09-23 2019-05-10 南京途牛科技有限公司 一种防爬虫的方法
CN106534062A (zh) * 2016-09-23 2017-03-22 南京途牛科技有限公司 一种防爬虫的方法
CN108062459B (zh) * 2016-11-09 2020-06-05 腾讯科技(北京)有限公司 防止抓取页面信息的方法及装置
CN108062459A (zh) * 2016-11-09 2018-05-22 腾讯科技(北京)有限公司 防止抓取页面信息的方法及装置
CN108206802A (zh) * 2016-12-16 2018-06-26 华为技术有限公司 检测网页后门的方法和装置
CN108206802B (zh) * 2016-12-16 2020-11-17 华为技术有限公司 检测网页后门的方法和装置
WO2018107784A1 (zh) * 2016-12-16 2018-06-21 华为技术有限公司 检测网页后门的方法和装置
US11863587B2 (en) 2016-12-16 2024-01-02 Huawei Technologies Co., Ltd. Webshell detection method and apparatus
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN106790105B (zh) * 2016-12-26 2020-08-21 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN109150790A (zh) * 2017-06-15 2019-01-04 北京京东尚科信息技术有限公司 Web页面爬虫识别方法和装置
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107392022B (zh) * 2017-07-20 2020-12-29 北京星选科技有限公司 爬虫识别、处理方法及相关装置
CN107392022A (zh) * 2017-07-20 2017-11-24 北京小度信息科技有限公司 爬虫识别、处理方法及相关装置
CN109600272A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 爬虫检测的方法及装置
CN109600272B (zh) * 2017-09-30 2022-03-18 北京国双科技有限公司 爬虫检测的方法及装置
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN107943949B (zh) * 2017-11-24 2020-06-26 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN108228864A (zh) * 2018-01-12 2018-06-29 深圳壹账通智能科技有限公司 网络爬虫识别方法、装置、计算机设备和存储介质
CN108228864B (zh) * 2018-01-12 2019-08-20 深圳壹账通智能科技有限公司 网络爬虫识别方法、装置、计算机设备和存储介质
CN108712426A (zh) * 2018-05-21 2018-10-26 携程旅游网络技术(上海)有限公司 基于用户行为埋点的爬虫识别方法及系统
CN108989294A (zh) * 2018-06-28 2018-12-11 杭州安恒信息技术股份有限公司 一种准确识别网站访问的恶意用户的方法及系统
CN110858229A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 数据处理方法、设备、访问控制系统及存储介质
CN110858229B (zh) * 2018-08-23 2023-04-07 阿里巴巴集团控股有限公司 数据处理方法、设备、访问控制系统及存储介质
WO2020062655A1 (zh) * 2018-09-26 2020-04-02 深圳壹账通智能科技有限公司 爬虫识别方法、装置、设备及非易失性可读存储介质
CN109446398A (zh) * 2018-11-06 2019-03-08 杭州安恒信息技术股份有限公司 智能检测网络爬虫行为的方法、装置以及电子设备
CN109639674A (zh) * 2018-12-11 2019-04-16 广州猎萌网络科技有限公司 一种访问安全控制方法
CN109818949A (zh) * 2019-01-17 2019-05-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络的反爬虫方法
CN110011977A (zh) * 2019-03-07 2019-07-12 北京华安普特网络科技有限公司 一种网站安全防御方法
CN110011977B (zh) * 2019-03-07 2021-07-27 北京华安普特网络科技有限公司 一种网站安全防御方法
CN110035068B (zh) * 2019-03-14 2021-10-01 微梦创科网络科技(中国)有限公司 一种反抓站系统的禁封方法及装置
CN110035068A (zh) * 2019-03-14 2019-07-19 微梦创科网络科技(中国)有限公司 一种反抓站系统的禁封方法及装置
CN110012023A (zh) * 2019-04-15 2019-07-12 重庆天蓬网络有限公司 一种投毒式的防爬方法、系统、终端及介质
CN110245280A (zh) * 2019-05-06 2019-09-17 北京三快在线科技有限公司 识别网络爬虫的方法、装置、存储介质和电子设备
CN110581859A (zh) * 2019-09-18 2019-12-17 成都安恒信息技术有限公司 一种基于页面埋点的防爬虫方法
CN110581859B (zh) * 2019-09-18 2021-11-26 成都安恒信息技术有限公司 一种基于页面埋点的防爬虫方法
CN112182629A (zh) * 2020-10-28 2021-01-05 深圳前海微众银行股份有限公司 一种恶意访问识别方法、装置、设备及存储介质
WO2022117063A1 (zh) * 2020-12-03 2022-06-09 百果园技术(新加坡)有限公司 孤立森林的训练方法,网络爬虫的识别方法及装置
CN113536301A (zh) * 2021-07-19 2021-10-22 北京计算机技术及应用研究所 一种基于行为特征分析的反爬方法
CN113810381B (zh) * 2021-08-23 2023-02-24 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN113810381A (zh) * 2021-08-23 2021-12-17 杭州安恒信息技术股份有限公司 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN114070599A (zh) * 2021-11-11 2022-02-18 北京顶象技术有限公司 一种用户端不安全设备的识别方法及装置
CN114401104A (zh) * 2021-11-30 2022-04-26 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114401104B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质
CN114553541A (zh) * 2022-02-17 2022-05-27 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质
CN114553541B (zh) * 2022-02-17 2024-02-06 苏州良医汇网络科技有限公司 一种分级校验防爬虫的方法、装置、设备及存储介质
CN115065520A (zh) * 2022-06-09 2022-09-16 中国电信股份有限公司 反爬虫处理方法、装置、电子设备及可读存储介质
CN115174215A (zh) * 2022-07-05 2022-10-11 深圳市飞铭达信息技术有限公司 一种网络爬虫识别方法及电子商务系统

Similar Documents

Publication Publication Date Title
CN105187396A (zh) 识别网络爬虫的方法及装置
RU2615057C2 (ru) Способ и устройство для доступа к web-странице и маршрутизатор
CN102752288B (zh) 网络访问行为识别方法和装置
CN108363815B (zh) 一种网页页面的预读取方法、装置及智能终端设备
CN102624920B (zh) 一种通过代理服务器进行访问的方法及装置
CN103166917B (zh) 网络设备身份识别方法及系统
CN105516821B (zh) 弹幕筛选的方法及装置
CN110609937A (zh) 一种爬虫识别方法及装置
CN104391979A (zh) 网络恶意爬虫识别方法及装置
CN103139278A (zh) 一种网络资源预取并缓存加速的方法及其装置
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
CN105100032A (zh) 一种防止资源盗取的方法及装置
CN108667766B (zh) 文件探测方法及文件探测装置
CN104219230B (zh) 识别恶意网站的方法及装置
CN106911735B (zh) 数据获取方法及装置
CN104601601A (zh) 网络爬虫的检测方法及装置
CN104657659A (zh) 一种存储跨站攻击脚本漏洞检测方法、装置及系统
US7949724B1 (en) Determining attention data using DNS information
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN108429785A (zh) 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN103559203A (zh) 网页排序方法、装置和系统
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN110929129B (zh) 一种信息检测方法、设备及机器可读存储介质
CN104902033A (zh) 登陆地址记录方法及装置
CN102754488A (zh) 用户访问的控制方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151223

RJ01 Rejection of invention patent application after publication