CN107341395B - 一种拦截爬虫的方法 - Google Patents

一种拦截爬虫的方法 Download PDF

Info

Publication number
CN107341395B
CN107341395B CN201610286250.5A CN201610286250A CN107341395B CN 107341395 B CN107341395 B CN 107341395B CN 201610286250 A CN201610286250 A CN 201610286250A CN 107341395 B CN107341395 B CN 107341395B
Authority
CN
China
Prior art keywords
access request
cookie value
fields
server
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610286250.5A
Other languages
English (en)
Other versions
CN107341395A (zh
Inventor
王向维
韩笑跃
王飞
谢刚
费艳茹
韩勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Shangke Information Technology Co Ltd
Priority to CN201610286250.5A priority Critical patent/CN107341395B/zh
Publication of CN107341395A publication Critical patent/CN107341395A/zh
Application granted granted Critical
Publication of CN107341395B publication Critical patent/CN107341395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种拦截爬虫的方法,该方法包括:服务器端接收到客户端发送的访问页面的访问请求后,获取访问请求中的用户IP字段、用户代理UA字段、Referer字段以及cookie字段;根据过滤条件,选择所述字段的任意组合同时进行过滤,确定出不符合要求的字段;服务器端对不符合要求的字段所对应的访问请求进行拦截,将要访问页面的分类第一页响应给客户端。采用本发明能够有效拦截爬虫访问。

Description

一种拦截爬虫的方法
技术领域
本发明涉及网络技术,特别涉及一种拦截爬虫的方法。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前网页上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中。
现有技术中,为了确保正常用户的访问,有些网站采取过滤用户IP的方法,或者过滤HTTP请求的特定UA(User-Agent,用户代理)头的方法来拦截来自网络爬虫的访问,但是,在访问量非常大的情况下,当很多正常用户共用一个IP的情况下,会将这些正常用户误认为是网络爬虫从而被过滤掉。另一方面,根据HTTP协议规范,User-Agent头的值是可以任意设置的,因此很多网络爬虫都把自己的User-Agent头设置成与普通的浏览器一样来逃避过滤,所以导致拦截网络爬虫的效率不高。
发明内容
本发明的目的在于提供一种拦截爬虫的方法,能够有效拦截爬虫访问。
为实现上述发明目的,本发明提供了一种拦截爬虫的方法,该方法包括:
服务器端接收到客户端发送的访问页面的访问请求后,获取访问请求中的用户IP字段、用户代理UA字段、Referer字段以及cookie字段;根据过滤条件,选择所述字段的任意组合同时进行过滤,确定出不符合要求的字段;
服务器端对不符合要求的字段所对应的访问请求进行拦截,将要访问页面的分类第一页响应给客户端。
综上所述,本发明实施例提供的拦截爬虫的方法,在本发明实施例中,服务器端接收到客户端发送的访问页面的访问请求后,获取访问请求中的用户IP字段、用户代理UA字段、Referer字段以及cookie字段;根据过滤条件,选择所述字段的任意组合同时进行过滤,确定出不符合要求的字段;对不符合要求的字段所对应的访问请求进行拦截,将要访问页面的分类第一页响应给客户端。由此可见,本发明为防止爬虫影响正常用户访问服务器端,通过四种拦截手段,并行处理,来保证拦截爬虫率。因此,应用本发明之后,有效提高了爬虫的拦截率,降低了服务器的压力,保证网站稳定和高并发。并且正常用户的访问也不会被拦截。
附图说明
图1为本发明实施例拦截爬虫的方法流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明为确保浏览器的正常访问,有效拦截爬虫,通过四种拦截手段,并行处理,来保证拦截爬虫率。这四种拦截手段包括设置IP黑名单、设置UA黑名单、判断Referer字段非法、判断cookie值非法,每种拦截手段都是独立并行的,互相不会影响,可以根据具体网站访问情况,在接收到客户端发送的访问页面的HTTP请求后,采用多个拦截手段的组合,在最大程度上拦截爬虫。
本发明实施例公开了一种拦截爬虫的方法,包括以下步骤,流程示意图如图1所示。
步骤11、服务器端接收到客户端发送的访问页面的访问请求后,获取访问请求中的用户IP字段、用户代理UA字段、Referer字段以及cookie字段;根据过滤条件,选择所述字段的任意组合同时进行过滤,确定出不符合要求的字段。其中,访问请求,例如可以是HTTP请求。
下面简单介绍一下本发明所要过滤的各个字段。
UA字段是HTTP协议中的一部分,属于头域的组成部分。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计。
Referer字段也是HTTP协议中的一部分,属于头域的组成部分。用来告诉服务器端当前访问的资源是从哪个页面链接过来的。例如,用户点击了浏览器中A页面上的某个链接,则浏览器在向该链接发起网页访问请求时,自动在HTTP请求的请求头信息中的referer属性中加入该A页面的URL,用于表示用户在A页面的点击操作发起的向该链接的网页访问请求。
另外,本发明还利用爬虫不会执行Javascript(JS)方法,以及不会下载网页中的图片的特性,服务器端将生成的cookie值保存到图片中,爬虫不会下载图片,因此,在爬虫向服务器端发送的HTTP请求中不会携带cookie值,进而通过在HTTP请求中是否携带cookie值来区分爬虫的请求和浏览器的请求,最终实现对爬虫的有效拦截。
步骤12、服务器端对不符合要求的字段所对应的访问请求进行拦截,将要访问页面的分类第一页响应给客户端。
实施例一
服务器端根据设置的IP黑名单,对爬虫进行拦截。因此,本实施例中,
服务器端根据过滤条件,对HTTP请求中的用户IP字段进行过滤,确定出不符合要求的字段的方法包括:
将包含在IP黑名单中的用户IP字段,作为不符合要求的字段;其中,形成IP黑名单的方法包括:对预定时间段内从客户端发来的HTTP请求进行统计,得到该预定时间段内每个用户IP的访问次数;将同一用户IP的访问次数超过阈值的用户IP保存到IP黑名单中,形成IP黑名单。
优选地,可以进一步对超过阈值的用户IP进行验证,将未经过验证的非正常用户IP保存到IP黑名单中。
在具体实施例中,可以将1分钟内所有用户IP的访问次数进行排序,将访问次数排在前10名的用户IP保存到IP黑名单。
在另一个实施例中,可以将1分钟内所有用户IP的访问次数进行排序,查找出访问次数排在前100名的用户IP;然后对这100名的用户IP进行验证,排除正常用户IP,将余下的未经过验证的非正常用户IP保存到IP黑名单中。
在另一个实施例中,预先设置1分钟内访问次数的阈值为10。可以统计1分钟内每个用户IP的访问次数,将同一用户IP的访问次数超过10次的用户IP保存到IP黑名单中。
在另一个实施例中,预先设置1分钟内访问次数的阈值为20。可以统计1分钟内每个用户IP的访问次数,将同一用户IP的访问次数超过20次的用户IP查找出来;然后对这些访问次数超过20次的用户IP进行验证,排除正常用户IP,将余下的未经过验证的非正常用户IP保存到IP黑名单中。
因此,服务器端一旦接收到HTTP请求后,确定用户IP包含在IP黑名单中,则将要访问页面的分类第一页响应给客户端。
实施例二
服务器端根据设置的UA黑名单,对爬虫进行拦截。因此,本实施例中,
服务器端根据过滤条件,对HTTP请求中的UA字段进行过滤,确定出不符合要求的字段的方法包括:
将包含在UA黑名单中的UA字段,作为不符合要求的字段;其中,形成UA黑名单的方法包括:对预定时间段内从客户端发来的HTTP请求进行统计,得到该预定时间段内每个UA字段的出现次数;根据预先设置的浏览器UA库,确定出非浏览器UA;将出现次数超过阈值的非浏览器UA保存到UA黑名单中,形成UA黑名单。
在具体实施例中,预先设置有浏览器UA库,该浏览器UA库中包含了标准的浏览器标识。可以统计1分钟内同一个UA字段的出现次数,首先将每个UA字段与浏览器UA库进行比较,确定出非浏览器UA,然后将同一个UA字段的出现次数超过阈值的非浏览器UA保存到UA黑名单中。
因此,服务器端一旦接收到HTTP请求后,确定UA字段包含在UA黑名单中,则将要访问页面的分类第一页响应给客户端。
实施例三
服务器端根据Referer字段的合法性,对爬虫进行拦截。因此,本实施例中,服务器端根据过滤条件,对HTTP请求中的Referer字段进行过滤,确定出不符合要求的字段的方法包括:
判断HTTP请求中的Referer字段是否合法,如果所述Referer字段不包含URL地址,或者为空,则确定该HTTP请求中的Referer字段不符合要求。
前述已经说明,Referer字段也是一个URL地址,如果HTTP请求中不包含URL地址,或者为空,则说明该Referer字段不合法,需要被过滤,将要访问页面的分类第一页响应给客户端。
实施例四
服务器端根据cookie值,对爬虫进行拦截。因此,本实施例中,服务器端根据过滤条件,对HTTP请求中的cookie字段进行过滤,确定出不符合要求的字段的方法包括:
判断HTTP请求中是否包含有效cookie值,如果不包含cookie值,或者所包含的cookie值无效,则确定该HTTP请求中的cookie值不符合要求。
其中,服务器端接收到客户端发送的访问页面的HTTP请求后会生成cookie值,因此,在判断HTTP请求中是否包含有效cookie值之前,该方法进一步包括:生成当前用于识别爬虫的cookie值,并生成将所述cookie值保存到图片中的所述图片名称;将包含有所述图片名称的图片统一资源定位符URL路径保存到所请求的页面中。然后,服务器端将自身生成的cookie值,与HTTP请求中携带的cookie值进行比较,如果二者不相等,则判断HTTP请求中携带的cookie值为无效cookie值。
URL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法,对应的,Internet上的每一个网页都具有一个唯一的URL。当客户端需要访问服务器端中的网页时,就要先获取到该网页的URL。
本实施例客户端发送的访问页面的HTTP请求中,携带的是该页面的URL路径信息。需要说明的是,图片URL路径进一步保存在该页面中,保存的具体位置可以根据具体实现而设定,一个实施例可以是图片URL路径保存在该页面的图像(image)标签中。
优选地,生成当前用于识别爬虫的cookie值的方法包括:服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行md5消息摘要运算,得到当前cookie值。
优选地,生成图片名称的方法包括:服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行md5消息摘要运算,得到图片的名称。
需要说明的是,生成cookie值和图片名称的方法有多种,包括但不限于上述方法,由于本发明中cookie值是有时效的,所以生成时与时间戳有关,其他通过时间戳获取得到cookie值和图片名称的方法都在本发明的保护范围内。
需要说明的是,本发明中,为了防止爬虫的模仿,服务器端生成的cookie值每隔预定时间是发生变化的。反过来说,假设预定时间是10分钟,则每个10分钟内,服务器端生成的cookie值是相同的。然后服务器端就会将包含该cookie值的页面返回给客户端,因此,只要客户端是浏览器,就可以将该cookie值解析出来,携带在下一个HTTP请求中,发送给服务器端,那么,只要在同一个10分钟之内,服务器端接收的cookie值就会与服务器端自身生成的cookie值一致,这就说明该cookie值有效。如果在下一个10分钟的时候,客户端仍然携带之前的cookie值向服务器端发送HTTP请求,服务器端又生成了新的cookie值,这就导致服务器端接收的cookie值就会与服务器端自身生成的cookie值不一致,这就说明该cookie值无效。
在具体场景中,假设服务器端生成的cookie值每隔10分钟发生变化,即cookie值的有效时间为10分钟。则,服务器端接收到客户端发送的访问页面的HTTP请求后,取当前时间戳的前11位,20160101081:表示2016年1月1号8点10分到19分这10分钟。因此,将20160101081和当前第一密钥合并的字符串进行md5消息摘要运算,得到当前cookie值。将20160101081和当前第二密钥合并的字符串进行md5消息摘要运算,得到图片的名称。服务器端将所得的cookie值放入图片的描述信息里,生成新的图片并以得到的图片名称对该新的图片进行命名保存,然后服务器端将包含有图片名称的图片URL路径保存到所请求的页面中。这里,图片的描述信息包括但不限于拍照的时间,照片的分辨率,相机的类型等。以该图片名称命名的新的图片包含了cookie值。
如果是爬虫的话,服务器端接收到爬虫的HTTP请求后,会将图片URL路径保存到所请求的页面中。然后,服务器端判断HTTP请求中是否包含有效cookie值,经过判断爬虫的HTTP请求中并不带有cookie值,因此,将爬虫的请求拦截,将当前分类的第1页返回给爬虫。这样,爬虫始终获取的是当前分类的第1页,不会获取更多的页面。
如果是浏览器的话,服务器端接收到浏览器的HTTP请求后,会将图片URL路径保存到所请求的页面中。然后,服务器端判断HTTP请求中是否包含有效cookie值,如果无效,则将当前分类的第1页返回给浏览器。如果有效则允许访问,将所请求的页面返回给浏览器。这时,浏览器根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上;用Javascript方法解析图片,提取其中的cookie值,并进行保存,用于浏览器访问其他页面时在HTTP请求中携带该cookie值。
需要注意的是,现有技术中爬虫并不会下载图片,也不会用JS方法解析图片,因为,如果执行的话会大大增加爬虫的成本,包括CPU和带宽成本。因此,爬虫不会像浏览器那样提取图片中的cookie值,在访问其他页面时携带。进而就会被服务器端拦截。因此,本实施例中正是利用了爬虫的这种特点,在服务器端根据HTTP请求中的cookie值进行爬虫的拦截。
综上,本发明的有益效果在于,
一、本发明四种拦截爬虫手段包括设置IP黑名单、设置UA黑名单、判断Referer字段非法、判断cookie值非法,每种拦截手段都是独立并行的,互相不会影响,可以根据具体网站访问情况,在接收到客户端发送的访问页面的HTTP请求后,采用多个拦截手段的组合,在最大程度上拦截爬虫。
二、有效拦截爬虫,在正常用户访问量非常大的情况下也可以避免误杀正常用户,确保浏览器的正常访问。
三、在网站促销高峰,拦截爬虫访问,降低服务器压力,保证网站稳定和高并发。并可以对恶意攻击拦截。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种拦截爬虫的方法,其特征在于,该方法包括:
服务器端接收到客户端发送的访问页面的访问请求后,获取访问请求中的用户IP字段、用户代理UA字段、Referer字段以及cookie字段;根据过滤条件,选择所述字段的任意组合同时进行过滤,确定出不符合要求的字段;
服务器端对不符合要求的字段所对应的访问请求进行拦截,将要访问页面的分类第一页响应给客户端;
其中,服务器端根据过滤条件,对访问请求中的cookie字段进行过滤,确定出不符合要求的字段的方法包括:
判断访问请求中是否包含有效cookie值,如果不包含cookie值,或者所包含的cookie值无效,则确定该访问请求中的cookie值不符合要求;
其中,服务器端接收到客户端发送的访问页面的请求后,判断访问请求中是否包含有效cookie值之前,该方法进一步包括:
生成当前用于识别爬虫的cookie值,并生成将所述cookie值保存到图片中的图片名称;将包含有所述图片名称的图片统一资源定位符URL路径保存到所请求的页面中。
2.如权利要求1所述的方法,其特征在于,服务器端根据过滤条件,对访问请求中的用户IP字段进行过滤,确定出不符合要求的字段的方法包括:
将包含在IP黑名单中的用户IP字段,作为不符合要求的字段;
其中,形成IP黑名单的方法包括:对预定时间段内从客户端发来的访问请求进行统计,得到该预定时间段内每个用户IP的访问次数;将同一用户IP的访问次数超过阈值的用户IP保存到IP黑名单中,形成IP黑名单。
3.如权利要求2所述的方法,其特征在于,该方法进一步包括:对超过阈值的用户IP进行验证,将未经过验证的非正常用户IP保存到IP黑名单中。
4.如权利要求1所述的方法,其特征在于,服务器端根据过滤条件,对访问请求中的UA字段进行过滤,确定出不符合要求的字段的方法包括:
将包含在UA黑名单中的UA字段,作为不符合要求的字段;
其中,形成UA黑名单的方法包括:对预定时间段内从客户端发来的访问请求进行统计,得到该预定时间段内每个UA字段的出现次数;根据预先设置的浏览器UA库,确定出非浏览器UA;将出现次数超过阈值的非浏览器UA保存到UA黑名单中,形成UA黑名单。
5.如权利要求1所述的方法,其特征在于,服务器端根据过滤条件,对访问请求中的Referer字段进行过滤,确定出不符合要求的字段的方法包括:
判断访问请求中的Referer字段是否合法,如果所述Referer字段不包含URL地址,或者为空,则确定该访问请求中的Referer字段不符合要求。
6.如权利要求1所述的方法,其特征在于,所述判断所述访问请求中是否包含有效cookie值的方法包括:
服务器端将自身生成的cookie值,与访问请求中携带的cookie值进行比较,如果二者不相等,则判断访问请求中携带的cookie值为无效cookie值。
7.如权利要求1所述的方法,其特征在于,所述生成当前用于识别爬虫的cookie值的方法包括:
服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行md5消息摘要运算,得到当前cookie值。
8.如权利要求1所述的方法,其特征在于,所述生成将所述cookie值保存到图片中的所述图片名称的方法包括:
服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行md5消息摘要运算,得到图片的名称。
9.一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201610286250.5A 2016-05-03 2016-05-03 一种拦截爬虫的方法 Active CN107341395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610286250.5A CN107341395B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610286250.5A CN107341395B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法

Publications (2)

Publication Number Publication Date
CN107341395A CN107341395A (zh) 2017-11-10
CN107341395B true CN107341395B (zh) 2020-03-03

Family

ID=60222974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610286250.5A Active CN107341395B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法

Country Status (1)

Country Link
CN (1) CN107341395B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388794B (zh) * 2018-02-01 2020-09-08 金蝶软件(中国)有限公司 页面数据保护方法、装置、计算机设备和存储介质
CN108763274B (zh) * 2018-04-09 2021-06-11 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN108737531A (zh) * 2018-05-11 2018-11-02 北京奇艺世纪科技有限公司 一种业务处理的方法和装置
CN109670093A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 爬虫识别方法、装置、设备及可读存储介质
CN109492146B (zh) * 2018-11-09 2021-06-29 杭州安恒信息技术股份有限公司 一种防web爬虫的方法和装置
CN109981779B (zh) * 2019-03-27 2022-02-22 掌阅科技股份有限公司 服务提供方法、服务器及计算机存储介质
CN110958228A (zh) * 2019-11-19 2020-04-03 用友网络科技股份有限公司 爬虫访问拦截方法及设备、服务器和计算机可读存储介质
CN111241541A (zh) * 2019-12-04 2020-06-05 珠海横琴电享科技有限公司 一种根据请求数据防爬虫系统和方法
CN111565190B (zh) * 2020-05-06 2022-07-05 福建天晴数码有限公司 一种服务器过滤请求的方法及装置
CN112104600B (zh) * 2020-07-30 2022-11-04 山东鲁能软件技术有限公司 一种基于爬虫蜜罐陷阱的web反渗透方法,系统,设备及计算机可读存储介质
CN113901299A (zh) * 2021-08-31 2022-01-07 重庆小雨点小额贷款有限公司 一种数据处理方法、装置及计算机可读存储介质
CN115473665A (zh) * 2022-07-14 2022-12-13 苏州阿基米德网络科技有限公司 一种防数据爬取的拦截方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103107948A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种流量控制方法和装置
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103107948A (zh) * 2011-11-15 2013-05-15 阿里巴巴集团控股有限公司 一种流量控制方法和装置
CN103888490A (zh) * 2012-12-20 2014-06-25 上海天泰网络技术有限公司 一种全自动的web客户端人机识别的方法
CN104391979A (zh) * 2014-12-05 2015-03-04 北京国双科技有限公司 网络恶意爬虫识别方法及装置
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
How to detect fake users ( crawlers ) and cURL;Alain Tiemblo;《https://stackoverflow.com/questions/12257584/how-to-detect-fake-users-crawlers-and-curl/12401278#12401278》;20150820;第4,7页 *

Also Published As

Publication number Publication date
CN107341395A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107341395B (zh) 一种拦截爬虫的方法
CN107341160B (zh) 一种拦截爬虫的方法及装置
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
CN106936793B (zh) 一种信息拦截处理方法及终端
CN105930528B (zh) 一种网页缓存的方法及服务器
TW201824047A (zh) 攻擊請求的確定方法、裝置及伺服器
CN101674293B (zh) 一种分布式应用中处理非正常请求的方法及系统
US10043038B2 (en) Identifying private information from data streams
CN108632219B (zh) 一种网站漏洞检测方法、检测服务器、系统及存储介质
KR20060093306A (ko) 로컬 도메인 네임 시스템 및 이를 이용한 서비스 제공 방법
CN110351280A (zh) 一种威胁情报提取的方法、系统、设备及可读存储介质
CN108667770B (zh) 一种网站的漏洞测试方法、服务器及系统
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN107547490B (zh) 一种扫描器识别方法、装置及系统
CN113810381B (zh) 一种爬虫检测方法、web应用云防火墙、装置和存储介质
CN110636068B (zh) 在cc攻击防护中识别未知cdn节点的方法以及装置
CN109194671A (zh) 一种异常访问行为的识别方法及服务器
US10931688B2 (en) Malicious website discovery using web analytics identifiers
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN108429785A (zh) 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN111541672A (zh) 一种检测http请求安全性方法及系统
CN105635064A (zh) Csrf攻击检测方法及装置
CN105159992A (zh) 一种应用程序的页面内容及网络行为的检测方法及装置
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN106899689B (zh) 一种信息预下发的方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant