CN107341160B - 一种拦截爬虫的方法及装置 - Google Patents

一种拦截爬虫的方法及装置 Download PDF

Info

Publication number
CN107341160B
CN107341160B CN201610286222.3A CN201610286222A CN107341160B CN 107341160 B CN107341160 B CN 107341160B CN 201610286222 A CN201610286222 A CN 201610286222A CN 107341160 B CN107341160 B CN 107341160B
Authority
CN
China
Prior art keywords
page
crawler
value
picture
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610286222.3A
Other languages
English (en)
Other versions
CN107341160A (zh
Inventor
王向维
韩笑跃
王飞
谢刚
费艳茹
韩勇
马顺风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Shangke Information Technology Co Ltd
Priority to CN201610286222.3A priority Critical patent/CN107341160B/zh
Priority to PCT/CN2017/082707 priority patent/WO2017190641A1/zh
Publication of CN107341160A publication Critical patent/CN107341160A/zh
Application granted granted Critical
Publication of CN107341160B publication Critical patent/CN107341160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明公开了一种拦截爬虫的方法及装置,该方法包括:服务器端接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。采用本发明能够有效拦截爬虫访问。

Description

一种拦截爬虫的方法及装置
技术领域
本发明涉及网络技术,特别涉及一种拦截爬虫的方法及装置。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页信息的过程中,根据网页的抓取策略,不断从当前网页上抽取新的URL放入队列,直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中。
现有技术中,为了确保正常用户的访问,有些网站采取过滤客户端IP的方法,或者过滤HTTP请求的特定User-Agent头的方法来拦截来自网络爬虫的访问,但是,在访问量非常大的情况下,当很多正常用户共用一个IP的情况下,会将这些正常用户误认为是网络爬虫从而被过滤掉。另一方面,根据HTTP协议规范,User-Agent头的值是可以任意设置的,因此很多网络爬虫都把自己的User-Agent头设置成与普通的浏览器一样来逃避过滤,所以导致拦截网络爬虫的效率不高。
发明内容
本发明的目的在于提供一种拦截爬虫的方法及装置,能够有效拦截爬虫访问。
为实现上述发明目的,本发明提供了一种拦截爬虫的方法,该方法包括:
服务器端接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;
服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
为实现上述发明目的,本发明还提供了一种拦截爬虫的装置,该装置应用于服务器端,包括:
生成保存单元,接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;
处理单元,判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
为实现上述发明目的,本发明还提供了一种拦截爬虫的装置,该装置应用于作为浏览器的客户端,包括:
下载单元,根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上;
提取单元,解析所述图片,提取其中的用于识别爬虫的字段值,并进行保存,用于浏览器访问其他页面时在访问请求中携带该用于识别爬虫的字段值。
综上所述,本发明实施例提供的拦截爬虫的方法及装置,在本发明实施例中,服务器端接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。由此可见,本发明利用爬虫不会执行Javascript(JS)方法,以及不会下载网页中的图片的特性,服务器端将生成的用于识别爬虫的字段cookie值保存到图片中,爬虫不会下载图片,因此,应用本发明之后,有效提高了爬虫的拦截率,降低了服务器的压力,保证网站稳定和高并发。并且正常用户的访问也不会被拦截。
附图说明
图1为本发明实施例拦截爬虫的方法流程示意图。
图2为本发明具体实施例中应用于上述方法的拦截爬虫的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
本发明为确保浏览器的正常访问,有效拦截爬虫,利用爬虫不会执行JS方法,以及不会下载网页中的图片的特性,服务器端将生成的用于识别爬虫的字段cookie值保存到图片中,爬虫不会下载图片,因此,在爬虫向服务器端发送的访问请求中不会携带cookie值,进而通过在访问请求中是否携带cookie值来区分爬虫的请求和浏览器的请求,最终实现对爬虫的有效拦截。
本发明实施例公开了一种拦截爬虫的方法,包括以下步骤,流程示意图如图1所示。
步骤11、服务器端接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片URL路径保存到所请求的页面中。
其中,用于识别爬虫的字段值可以为cookie值;图片属性值可以为图片名称。简单讲,服务器端接收到客户端发送的访问页面的访问请求,例如HTTP请求后,生成cookie值和图片名称,然后将包含有该图片名称的图片URL路径保存到所请求的页面中。具体地,
服务器端生成当前用于识别爬虫的cookie值的方法包括:服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行加密运算,例如可以是md5消息摘要运算,得到当前cookie值。
服务器端生成图片名称的方法包括:服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行加密运算,例如可以是md5消息摘要运算,得到图片的名称。
需要说明的是,生成cookie值和图片名称的方法有多种,包括但不限于上述方法,由于本发明中cookie值是有时效的,所以生成时与时间戳有关,其他通过时间戳获取得到cookie值和图片名称的方法都在本发明的保护范围内。
URL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法,对应的,Internet上的每一个网页都具有一个唯一的URL。当客户端需要访问服务器端中的网页时,就要先获取到该网页的URL。
本实施例客户端发送的访问页面的HTTP请求中,携带的是该页面的URL路径信息。需要说明的是,图片URL路径进一步保存在该页面中,保存的具体位置可以根据具体实现而设定,一个实施例可以是图片URL路径保存在该页面的图像(image)标签中。
步骤12、服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
其中,服务器端判断当前要访问页面是否属于直接允许访问页面的方法包括:服务器端预先设置有允许直接访问页面的页面范围;服务器端判断当前要访问页面是否在所述范围内,如果在,则属于直接允许访问页面。
服务器端判断所述HTTP请求中是否包含有效cookie值的方法包括:服务器端将自身生成的cookie值,与HTTP请求中携带的cookie值进行比较,如果二者相等,则判断HTTP请求中携带的cookie值为有效cookie值。显然,如果二者不相等,则cookie值无效。
需要说明的是,本发明中,为了防止爬虫的模仿,服务器端生成的cookie值每隔预定时间是发生变化的。反过来说,假设预定时间是10分钟,则每个10分钟内,服务器端生成的cookie值是相同的。然后服务器端就会将包含该cookie值的页面返回给客户端,因此,只要客户端是浏览器,就可以将该cookie值解析出来,携带在下一个HTTP请求中,发送给服务器端,那么,只要在同一个10分钟之内,服务器端接收的cookie值就会与服务器端自身生成的cookie值一致,这就说明该cookie值有效。如果在下一个10分钟的时候,客户端仍然携带之前的cookie值向服务器端发送HTTP请求,服务器端又生成了新的cookie值,这就导致服务器端接收的cookie值就会与服务器端自身生成的cookie值不一致,这就说明该cookie值无效。
如果是爬虫的话,服务器端接收到爬虫的HTTP请求后,同样会将图片URL路径保存到所请求的页面中。然后,服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给爬虫。这是因为,在实际应用中,一般都会允许爬虫访问有限的几页,在一个实施例中可以是同一分类的1-10页。如果服务器判断当前要访问页面不属于直接允许访问页面,例如爬虫要访问第11页,则进一步判断HTTP请求中是否包含有效cookie值,经过判断爬虫的HTTP请求中并不带有cookie值,因此,将爬虫的请求拦截,将当前分类的第1页返回给爬虫。这样,爬虫始终获取的是当前分类的第1页,不会获取更多的页面。
如果是浏览器的话,服务器端接收到浏览器的HTTP请求后,会将图片URL路径保存到所请求的页面中。然后,服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给浏览器。这时,浏览器根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上;用Javascript方法解析图片,提取其中的cookie值,并进行保存,用于浏览器访问其他页面时在HTTP请求中携带该cookie值。假设浏览器访问第11页时,在HTTP请求中携带有解析出的cookie值,服务器端接收到该HTTP请求后,判断该cookie值是否有效,如果有效则允许访问第11页,如果无效,则将当前分类的第1页返回给浏览器。
另外,本发明中,为了进一步缓解服务器的压力,将允许直接访问的页面缓存在CDN(Content Delivery Network,内容分发网络)服务器上,当客户端请求其中允许直接访问的页面时,由CDN服务器将所请求的页面返回给客户端。CDN技术通过在网络各处放置CDN服务器,构成现有互联网上的一层智能虚拟网络,通常在CDN服务器上可缓存大量数据,当用户访问已存储的内容数据时,CDN服务器可将数据直接提供给用户,快速完成响应服务。这样,把爬虫的流量都指向各个省市的CDN服务器上,从而起到保护服务器,保证用户可以正常访问的作用。
为清楚说明本发明,下面列举具体场景进行说明。
本实施例中假设服务器端生成的cookie值每隔10分钟发生变化,即cookie值的有效时间为10分钟。则,服务器端接收到客户端发送的访问页面的HTTP请求后,取当前时间戳的前11位,20160101081:表示2016年1月1号8点10分到19分这10分钟。因此,将20160101081和当前第一密钥合并的字符串进行md5消息摘要运算,得到当前cookie值。将20160101081和当前第二密钥合并的字符串进行md5消息摘要运算,得到图片的名称。服务器端将所得的cookie值放入图片的描述信息里,生成新的图片并以得到的图片名称对该新的图片进行命名保存,然后服务器端将包含有图片名称的图片URL路径保存到所请求的页面中。这里,图片的描述信息包括但不限于拍照的时间,照片的分辨率,相机的类型等。以该图片名称命名的新的图片包含了cookie值。
实施例一,在一个实施方式中,
1)浏览器向服务器端发送HTTP请求,请求当前分类第一页;
服务器端生成包含cookie值的图片URL路径,保存到第一页中;
服务器端预先设置有允许直接访问页面的页面范围为1-10页,服务器端判断第1页属于直接访问范围,因此,将包含有图片URL路径的第1页返回给浏览器;
浏览器根据返回的当前分类第一页的页面中包含的图片URL路径将图片自动下载到浏览器上;用JS方法解析图片,提取其中的cookie值,并保存;后续翻页时携带该cookie值。
2)浏览器向服务器端发送携带cookie值的HTTP请求,请求当前分类第10页;
服务器端生成包含cookie值的图片URL路径,保存到第10页中;其中,由于在有效时间10分钟内,所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同;
服务器端预先设置有允许直接访问页面的页面范围为1-10页,服务器端判断第10页属于直接访问范围,因此,此时不需要判断cookie值是否有效,直接将包含有图片URL路径的第10页返回给浏览器。
浏览器根据返回的当前分类第10页的页面中包含的图片URL路径将图片自动下载到浏览器上;用JS方法解析图片,提取其中的cookie值,并保存;后续翻页时携带该cookie值。
3)浏览器向服务器端发送携带cookie值的HTTP请求,请求当前分类第11页;
服务器端生成包含cookie值的图片URL路径,保存到第11页中;其中,由于在有效时间10分钟内,所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同;
服务器端预先设置有允许直接访问页面的页面范围为1-10页,服务器端判断第11页不属于直接访问范围,因此,进一步判断cookie值是否有效,前述已经说明,由于在有效时间10分钟内,所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同,因此判断cookie值有效,将包含有图片URL路径的第11页返回给浏览器。
浏览器根据返回的当前分类第11页的页面中包含的图片URL路径将图片自动下载到浏览器上;用JS方法解析图片,提取其中的cookie值,并保存;后续翻页时携带该cookie值。
从而实现浏览器的正常访问。
实施例二,在另一个实施方式中,
如果浏览器接收到指向分类第10页的链接,则,
浏览器向服务器端发送HTTP请求,请求当前分类第10页;
服务器端生成包含cookie值的图片URL路径,保存到第10页中;
服务器端预先设置有允许直接访问页面的页面范围为1-10页,服务器端判断第10页属于直接访问范围,因此,此时虽然HTTP请求中并不带有cookie值,还是直接将包含有图片URL路径的第10页返回给浏览器。
浏览器根据返回的当前分类第10页的页面中包含的图片URL路径将图片自动下载到浏览器上;用JS方法解析图片,提取其中的cookie值,并保存;后续翻页时携带该cookie值。
实施例三,在另一个实施方式中,
如果浏览器接收到指向分类第11页的链接,则,
浏览器向服务器端发送HTTP请求,请求当前分类第11页;
服务器端生成包含cookie值的图片URL路径,保存到第11页中;
服务器端判断第11页不属于直接访问范围,因此,进一步判断HTTP请求中是否带有cookie值,由于是浏览器直接接收到的链接,所以HTTP请求中并不带有cookie值,因此,向浏览器返回当前分类第一页。
接下来,如果要继续访问其他页面,可以重复实施例一中的操作,实现页面的正常访问。
实施例四
在另一个实施方式中,
爬虫向服务器端发送HTTP请求,请求当前分类第一页;
服务器端生成包含cookie值的图片URL路径,保存到第一页中;
服务器端预先设置有允许直接访问页面的页面范围为1-10页,服务器端判断第1页属于直接访问范围,因此,将包含有图片URL路径的第1页返回给爬虫;
需要注意的是,现有技术中爬虫并不会下载图片,也不会用JS方法解析图片,因为,如果执行的话会大大增加爬虫的成本,包括CPU和带宽成本。因此,爬虫不会像浏览器那样提取图片中的cookie值,在访问其他页面时携带。进而就会被服务器端拦截。
实施例五
在另一个实施方式中,
爬虫向服务器端发送HTTP请求,请求当前分类第11页;
服务器端生成包含cookie值的图片URL路径,保存到第11页中;
服务器端判断第11页不属于直接访问范围,因此,进一步判断HTTP请求中是否带有cookie值,由于爬虫向服务器端发送的HTTP请求不可能带有cookie值,所以服务器端向爬虫返回当前分类第一页。
由此可以看出,通过本发明的方案,网络爬虫只能抓取有限的页面,确保了浏览器的正常访问。
基于同样的发明构思,本发明实施例还提出了一种拦截爬虫的装置,应用于服务器端,如图2所示。该装置包括:
生成保存单元201,接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;
处理单元202,判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
本发明还提出了一种拦截爬虫的装置,该装置应用于作为浏览器的客户端,包括:
下载单元,根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上;
提取单元,解析所述图片,提取其中的用于识别爬虫的字段值,并进行保存,用于浏览器访问其他页面时在访问请求中携带该用于识别爬虫的字段值。
本发明的有益效果在于,
一、有效拦截爬虫,在正常用户访问量非常大的情况下也可以避免误杀正常用户,确保浏览器的正常访问。
二、在网站促销高峰,拦截爬虫访问,降低服务器压力,保证网站稳定和高并发。并可以对恶意攻击拦截。
三、CDN服务器的设置,将爬虫的流量都指向各个省市的CDN服务器上,从而进一步起到保护服务器,保证用户可以正常访问的作用。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种拦截爬虫的方法,其特征在于,该方法包括:
服务器端接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;
服务器端判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
2.如权利要求1所述的方法,其特征在于,当客户端为浏览器时,该方法进一步包括:
浏览器根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上;解析所述图片,提取其中的用于识别爬虫的字段值,并进行保存,用于浏览器访问其他页面时在访问请求中携带该用于识别爬虫的字段值。
3.如权利要求1所述的方法,其特征在于,所述用于识别爬虫的字段值为cookie值;所述生成cookie值的方法包括:
服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行加密运算,得到当前cookie值。
4.如权利要求1所述的方法,其特征在于,所述用于识别爬虫的字段值为cookie值;所述图片属性值为图片名称;所述生成图片名称的方法包括:
服务器端根据cookie值的有效时间对当前时间戳的值进行选取;将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行加密运算,得到图片的名称。
5.如权利要求1所述的方法,其特征在于,服务器端判断当前要访问页面是否属于直接允许访问页面的方法包括:
服务器端预先设置有允许直接访问页面的页面范围;
服务器端判断当前要访问页面是否在所述范围内,如果在,则属于直接允许访问页面。
6.如权利要求1所述的方法,其特征在于,所述用于识别爬虫的字段值为cookie值;则判断所述访问请求中是否包含用于识别爬虫的有效字段值的方法包括:
服务器端将自身生成的cookie值,与访问请求中携带的cookie值进行比较,如果二者相等,则判断访问请求中携带的cookie值为有效cookie值。
7.如权利要求1所述的方法,其特征在于,该方法还包括:将允许直接访问的页面缓存在CDN服务器上,当客户端请求其中允许直接访问的页面时,由CDN服务器将所请求的页面返回给客户端。
8.一种拦截爬虫的装置,其特征在于,该装置应用于服务器端,包括:
生成保存单元,接收到客户端发送的访问页面的访问请求后,生成当前用于识别爬虫的字段值,并生成将所述字段值保存到图片中的图片属性值;将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中;
处理单元,判断当前要访问页面是否属于直接允许访问页面,如果是,则将所请求的页面返回给客户端;如果否,则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值,如果是有效字段值,则将所请求的页面返回给客户端;如果不包含用于识别爬虫的字段值,或者所包含的字段值无效,则确认为爬虫,将要访问页面的分类第一页返回给客户端。
CN201610286222.3A 2016-05-03 2016-05-03 一种拦截爬虫的方法及装置 Active CN107341160B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610286222.3A CN107341160B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法及装置
PCT/CN2017/082707 WO2017190641A1 (zh) 2016-05-03 2017-05-02 拦截爬虫的方法、装置、服务器终端以及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610286222.3A CN107341160B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法及装置

Publications (2)

Publication Number Publication Date
CN107341160A CN107341160A (zh) 2017-11-10
CN107341160B true CN107341160B (zh) 2020-09-01

Family

ID=60202740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610286222.3A Active CN107341160B (zh) 2016-05-03 2016-05-03 一种拦截爬虫的方法及装置

Country Status (2)

Country Link
CN (1) CN107341160B (zh)
WO (1) WO2017190641A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784960A (zh) * 2017-11-10 2019-05-21 北京奇虎科技有限公司 一种创意自动化审核方法、装置和设备
CN108763274B (zh) * 2018-04-09 2021-06-11 北京三快在线科技有限公司 访问请求的识别方法、装置、电子设备及存储介质
CN109657176A (zh) * 2018-10-16 2019-04-19 深圳壹账通智能科技有限公司 网络使用状态识别方法、装置、设备及可读存储介质
CN109492146B (zh) * 2018-11-09 2021-06-29 杭州安恒信息技术股份有限公司 一种防web爬虫的方法和装置
CN110069688A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 反爬虫的页面展示方法、服务器、存储介质及装置
CN110209911B (zh) * 2019-06-03 2023-03-28 桂林电子科技大学 一种基于请求成功率的自适应休眠时间调节方法
CN110958228A (zh) * 2019-11-19 2020-04-03 用友网络科技股份有限公司 爬虫访问拦截方法及设备、服务器和计算机可读存储介质
CN111428108A (zh) * 2020-03-25 2020-07-17 山东浪潮通软信息科技有限公司 一种基于深度学习的反爬虫方法、装置和介质
CN111614652A (zh) * 2020-05-15 2020-09-01 广东科徕尼智能科技有限公司 一种爬虫识别拦截方法、设备、存储介质
CN113704080A (zh) * 2020-05-22 2021-11-26 北京沃东天骏信息技术有限公司 一种自动化测试方法和装置
CN111683098B (zh) * 2020-06-10 2022-12-23 创新奇智(成都)科技有限公司 反爬虫方法、装置、电子设备及存储介质
CN112003819B (zh) * 2020-07-07 2022-07-01 瑞数信息技术(上海)有限公司 识别爬虫的方法、装置、设备和计算机存储介质
CN111783006A (zh) * 2020-07-22 2020-10-16 网易(杭州)网络有限公司 页面的生成方法、装置、电子设备及计算机可读介质
CN112073412A (zh) * 2020-09-08 2020-12-11 北京天融信网络安全技术有限公司 一种反爬虫方法、装置、处理器及计算机可读介质
CN113010818B (zh) * 2021-02-23 2023-06-30 腾讯科技(深圳)有限公司 访问限流方法、装置、电子设备及存储介质
CN113515682A (zh) * 2021-05-19 2021-10-19 平安国际智慧城市科技股份有限公司 数据爬取方法、装置、计算机设备和存储介质
CN113806614A (zh) * 2021-10-10 2021-12-17 北京亚鸿世纪科技发展有限公司 一种基于分析Http请求的网络爬虫快速识别装置
CN115037507B (zh) * 2022-04-22 2024-04-05 京东科技控股股份有限公司 用户访问管理的方法、装置和系统
CN115632817B (zh) * 2022-09-22 2023-09-05 浪潮卓数大数据产业发展有限公司 一种安卓端反爬方法及装置
CN116455660B (zh) * 2023-05-04 2023-10-17 北京数美时代科技有限公司 页面访问请求的控制方法、系统、存储介质和电子设备
CN116932854A (zh) * 2023-09-14 2023-10-24 百鸟数据科技(北京)有限责任公司 一种网页信息反爬虫方法、装置、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN104281607A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 微博热点话题分析方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130466B2 (en) * 2000-12-21 2006-10-31 Cobion Ag System and method for compiling images from a database and comparing the compiled images with known images
CN101635622B (zh) * 2008-07-24 2013-06-12 阿里巴巴集团控股有限公司 一种网页加密和解密的方法、系统及设备
US20110208714A1 (en) * 2010-02-19 2011-08-25 c/o Microsoft Corporation Large scale search bot detection
CN102833212B (zh) * 2011-06-14 2016-01-06 阿里巴巴集团控股有限公司 网页访问者身份识别方法及系统
CN103107948B (zh) * 2011-11-15 2016-02-03 阿里巴巴集团控股有限公司 一种流量控制方法和装置
CA2762544C (en) * 2011-12-20 2019-03-05 Ibm Canada Limited - Ibm Canada Limitee Identifying requests that invalidate user sessions
US9245145B2 (en) * 2012-07-16 2016-01-26 Salesforce.Com, Inc. Methods and systems for regulating database activity
CN104281626B (zh) * 2013-07-12 2018-01-19 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
CN105426415A (zh) * 2015-10-30 2016-03-23 Tcl集团股份有限公司 网站访问请求的管理方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN104281607A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 微博热点话题分析方法

Also Published As

Publication number Publication date
CN107341160A (zh) 2017-11-10
WO2017190641A1 (zh) 2017-11-09

Similar Documents

Publication Publication Date Title
CN107341160B (zh) 一种拦截爬虫的方法及装置
CN107341395B (zh) 一种拦截爬虫的方法
CN107025234B (zh) 一种信息推送方法及缓存服务器
CN105930528B (zh) 一种网页缓存的方法及服务器
TWI656772B (zh) 獲取網頁的方法、系統、網路伺服器、瀏覽器和gslb
CN103124263B (zh) 一种广告推送系统及广告推送设备、广告服务器
WO2018121331A1 (zh) 攻击请求的确定方法、装置及服务器
US10693858B2 (en) CDN-based access control method and related device
CN106302512B (zh) 一种用于控制访问的方法、设备与系统
CN104506525B (zh) 防止恶意抓取的方法和防护装置
CN110430188B (zh) 一种快速url过滤方法及装置
CN106126693B (zh) 一种网页的相关数据的发送方法及装置
JP2004507908A5 (zh)
CN105635073B (zh) 访问控制方法、装置和网络接入设备
CN107040584B (zh) 客户端下载图片的方法及装置
CN109802919B (zh) 一种web网页访问拦截方法及装置
CN105635064B (zh) Csrf攻击检测方法及装置
CN107528812B (zh) 一种攻击检测方法及装置
WO2007115288A2 (en) Method and system for providing improved url mangling performance using fast re-write
CN108429785A (zh) 一种爬虫识别加密串的生成方法、爬虫识别方法及装置
CN112364274A (zh) Web站点访问加速方法及装置
CN108574686B (zh) 一种在线预览文件的方法及装置
CN106899689B (zh) 一种信息预下发的方法及服务器
CN110413846B (zh) 用于网页镜像的数据处理方法、装置及计算机可读存储介质
WO2017020597A1 (zh) 一种资源缓存方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant