CN107341160B

CN107341160B - 一种拦截爬虫的方法及装置

Info

Publication number: CN107341160B
Application number: CN201610286222.3A
Authority: CN
Inventors: 王向维; 韩笑跃; 王飞; 谢刚; 费艳茹; 韩勇; 马顺风
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-03
Filing date: 2016-05-03
Publication date: 2020-09-01
Anticipated expiration: 2036-05-03
Also published as: CN107341160A; WO2017190641A1

Abstract

本发明公开了一种拦截爬虫的方法及装置，该方法包括：服务器端接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中；服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。采用本发明能够有效拦截爬虫访问。

Description

一种拦截爬虫的方法及装置

技术领域

本发明涉及网络技术，特别涉及一种拦截爬虫的方法及装置。

背景技术

网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干初始网页的URL(Uniform Resource Locator，统一资源定位符)开始，获得初始网页上的URL，在抓取网页信息的过程中，根据网页的抓取策略，不断从当前网页上抽取新的URL放入队列，直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中。

现有技术中，为了确保正常用户的访问，有些网站采取过滤客户端IP的方法，或者过滤HTTP请求的特定User-Agent头的方法来拦截来自网络爬虫的访问，但是，在访问量非常大的情况下，当很多正常用户共用一个IP的情况下，会将这些正常用户误认为是网络爬虫从而被过滤掉。另一方面，根据HTTP协议规范，User-Agent头的值是可以任意设置的，因此很多网络爬虫都把自己的User-Agent头设置成与普通的浏览器一样来逃避过滤，所以导致拦截网络爬虫的效率不高。

发明内容

本发明的目的在于提供一种拦截爬虫的方法及装置，能够有效拦截爬虫访问。

为实现上述发明目的，本发明提供了一种拦截爬虫的方法，该方法包括：

服务器端接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中；

服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。

为实现上述发明目的，本发明还提供了一种拦截爬虫的装置，该装置应用于服务器端，包括：

生成保存单元，接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中；

处理单元，判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。

为实现上述发明目的，本发明还提供了一种拦截爬虫的装置，该装置应用于作为浏览器的客户端，包括：

下载单元，根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上；

提取单元，解析所述图片，提取其中的用于识别爬虫的字段值，并进行保存，用于浏览器访问其他页面时在访问请求中携带该用于识别爬虫的字段值。

综上所述，本发明实施例提供的拦截爬虫的方法及装置，在本发明实施例中，服务器端接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中；服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。由此可见，本发明利用爬虫不会执行Javascript(JS)方法，以及不会下载网页中的图片的特性，服务器端将生成的用于识别爬虫的字段cookie值保存到图片中，爬虫不会下载图片，因此，应用本发明之后，有效提高了爬虫的拦截率，降低了服务器的压力，保证网站稳定和高并发。并且正常用户的访问也不会被拦截。

附图说明

图1为本发明实施例拦截爬虫的方法流程示意图。

图2为本发明具体实施例中应用于上述方法的拦截爬虫的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明所述方案作进一步地详细说明。

本发明为确保浏览器的正常访问，有效拦截爬虫，利用爬虫不会执行JS方法，以及不会下载网页中的图片的特性，服务器端将生成的用于识别爬虫的字段cookie值保存到图片中，爬虫不会下载图片，因此，在爬虫向服务器端发送的访问请求中不会携带cookie值，进而通过在访问请求中是否携带cookie值来区分爬虫的请求和浏览器的请求，最终实现对爬虫的有效拦截。

本发明实施例公开了一种拦截爬虫的方法，包括以下步骤，流程示意图如图1所示。

步骤11、服务器端接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片URL路径保存到所请求的页面中。

其中，用于识别爬虫的字段值可以为cookie值；图片属性值可以为图片名称。简单讲，服务器端接收到客户端发送的访问页面的访问请求，例如HTTP请求后，生成cookie值和图片名称，然后将包含有该图片名称的图片URL路径保存到所请求的页面中。具体地，

服务器端生成当前用于识别爬虫的cookie值的方法包括：服务器端根据cookie值的有效时间对当前时间戳的值进行选取；将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行加密运算，例如可以是md5消息摘要运算，得到当前cookie值。

服务器端生成图片名称的方法包括：服务器端根据cookie值的有效时间对当前时间戳的值进行选取；将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行加密运算，例如可以是md5消息摘要运算，得到图片的名称。

需要说明的是，生成cookie值和图片名称的方法有多种，包括但不限于上述方法，由于本发明中cookie值是有时效的，所以生成时与时间戳有关，其他通过时间戳获取得到cookie值和图片名称的方法都在本发明的保护范围内。

URL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法，对应的，Internet上的每一个网页都具有一个唯一的URL。当客户端需要访问服务器端中的网页时，就要先获取到该网页的URL。

本实施例客户端发送的访问页面的HTTP请求中，携带的是该页面的URL路径信息。需要说明的是，图片URL路径进一步保存在该页面中，保存的具体位置可以根据具体实现而设定，一个实施例可以是图片URL路径保存在该页面的图像(image)标签中。

步骤12、服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。

其中，服务器端判断当前要访问页面是否属于直接允许访问页面的方法包括：服务器端预先设置有允许直接访问页面的页面范围；服务器端判断当前要访问页面是否在所述范围内，如果在，则属于直接允许访问页面。

服务器端判断所述HTTP请求中是否包含有效cookie值的方法包括：服务器端将自身生成的cookie值，与HTTP请求中携带的cookie值进行比较，如果二者相等，则判断HTTP请求中携带的cookie值为有效cookie值。显然，如果二者不相等，则cookie值无效。

需要说明的是，本发明中，为了防止爬虫的模仿，服务器端生成的cookie值每隔预定时间是发生变化的。反过来说，假设预定时间是10分钟，则每个10分钟内，服务器端生成的cookie值是相同的。然后服务器端就会将包含该cookie值的页面返回给客户端，因此，只要客户端是浏览器，就可以将该cookie值解析出来，携带在下一个HTTP请求中，发送给服务器端，那么，只要在同一个10分钟之内，服务器端接收的cookie值就会与服务器端自身生成的cookie值一致，这就说明该cookie值有效。如果在下一个10分钟的时候，客户端仍然携带之前的cookie值向服务器端发送HTTP请求，服务器端又生成了新的cookie值，这就导致服务器端接收的cookie值就会与服务器端自身生成的cookie值不一致，这就说明该cookie值无效。

如果是爬虫的话，服务器端接收到爬虫的HTTP请求后，同样会将图片URL路径保存到所请求的页面中。然后，服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给爬虫。这是因为，在实际应用中，一般都会允许爬虫访问有限的几页，在一个实施例中可以是同一分类的1-10页。如果服务器判断当前要访问页面不属于直接允许访问页面，例如爬虫要访问第11页，则进一步判断HTTP请求中是否包含有效cookie值，经过判断爬虫的HTTP请求中并不带有cookie值，因此，将爬虫的请求拦截，将当前分类的第1页返回给爬虫。这样，爬虫始终获取的是当前分类的第1页，不会获取更多的页面。

如果是浏览器的话，服务器端接收到浏览器的HTTP请求后，会将图片URL路径保存到所请求的页面中。然后，服务器端判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给浏览器。这时，浏览器根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上；用Javascript方法解析图片，提取其中的cookie值，并进行保存，用于浏览器访问其他页面时在HTTP请求中携带该cookie值。假设浏览器访问第11页时，在HTTP请求中携带有解析出的cookie值，服务器端接收到该HTTP请求后，判断该cookie值是否有效，如果有效则允许访问第11页，如果无效，则将当前分类的第1页返回给浏览器。

另外，本发明中，为了进一步缓解服务器的压力，将允许直接访问的页面缓存在CDN(Content Delivery Network，内容分发网络)服务器上，当客户端请求其中允许直接访问的页面时，由CDN服务器将所请求的页面返回给客户端。CDN技术通过在网络各处放置CDN服务器，构成现有互联网上的一层智能虚拟网络，通常在CDN服务器上可缓存大量数据，当用户访问已存储的内容数据时，CDN服务器可将数据直接提供给用户，快速完成响应服务。这样，把爬虫的流量都指向各个省市的CDN服务器上，从而起到保护服务器，保证用户可以正常访问的作用。

为清楚说明本发明，下面列举具体场景进行说明。

本实施例中假设服务器端生成的cookie值每隔10分钟发生变化，即cookie值的有效时间为10分钟。则，服务器端接收到客户端发送的访问页面的HTTP请求后，取当前时间戳的前11位，20160101081：表示2016年1月1号8点10分到19分这10分钟。因此，将20160101081和当前第一密钥合并的字符串进行md5消息摘要运算，得到当前cookie值。将20160101081和当前第二密钥合并的字符串进行md5消息摘要运算，得到图片的名称。服务器端将所得的cookie值放入图片的描述信息里，生成新的图片并以得到的图片名称对该新的图片进行命名保存，然后服务器端将包含有图片名称的图片URL路径保存到所请求的页面中。这里，图片的描述信息包括但不限于拍照的时间，照片的分辨率，相机的类型等。以该图片名称命名的新的图片包含了cookie值。

实施例一，在一个实施方式中，

1)浏览器向服务器端发送HTTP请求，请求当前分类第一页；

服务器端生成包含cookie值的图片URL路径，保存到第一页中；

服务器端预先设置有允许直接访问页面的页面范围为1-10页，服务器端判断第1页属于直接访问范围，因此，将包含有图片URL路径的第1页返回给浏览器；

浏览器根据返回的当前分类第一页的页面中包含的图片URL路径将图片自动下载到浏览器上；用JS方法解析图片，提取其中的cookie值，并保存；后续翻页时携带该cookie值。

2)浏览器向服务器端发送携带cookie值的HTTP请求，请求当前分类第10页；

服务器端生成包含cookie值的图片URL路径，保存到第10页中；其中，由于在有效时间10分钟内，所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同；

服务器端预先设置有允许直接访问页面的页面范围为1-10页，服务器端判断第10页属于直接访问范围，因此，此时不需要判断cookie值是否有效，直接将包含有图片URL路径的第10页返回给浏览器。

浏览器根据返回的当前分类第10页的页面中包含的图片URL路径将图片自动下载到浏览器上；用JS方法解析图片，提取其中的cookie值，并保存；后续翻页时携带该cookie值。

3)浏览器向服务器端发送携带cookie值的HTTP请求，请求当前分类第11页；

服务器端生成包含cookie值的图片URL路径，保存到第11页中；其中，由于在有效时间10分钟内，所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同；

服务器端预先设置有允许直接访问页面的页面范围为1-10页，服务器端判断第11页不属于直接访问范围，因此，进一步判断cookie值是否有效，前述已经说明，由于在有效时间10分钟内，所以此时服务器端生成的cookie值与HTTP请求中携带的cookie值相同，因此判断cookie值有效，将包含有图片URL路径的第11页返回给浏览器。

浏览器根据返回的当前分类第11页的页面中包含的图片URL路径将图片自动下载到浏览器上；用JS方法解析图片，提取其中的cookie值，并保存；后续翻页时携带该cookie值。

从而实现浏览器的正常访问。

实施例二，在另一个实施方式中，

如果浏览器接收到指向分类第10页的链接，则，

浏览器向服务器端发送HTTP请求，请求当前分类第10页；

服务器端生成包含cookie值的图片URL路径，保存到第10页中；

服务器端预先设置有允许直接访问页面的页面范围为1-10页，服务器端判断第10页属于直接访问范围，因此，此时虽然HTTP请求中并不带有cookie值，还是直接将包含有图片URL路径的第10页返回给浏览器。

实施例三，在另一个实施方式中，

如果浏览器接收到指向分类第11页的链接，则，

浏览器向服务器端发送HTTP请求，请求当前分类第11页；

服务器端生成包含cookie值的图片URL路径，保存到第11页中；

服务器端判断第11页不属于直接访问范围，因此，进一步判断HTTP请求中是否带有cookie值，由于是浏览器直接接收到的链接，所以HTTP请求中并不带有cookie值，因此，向浏览器返回当前分类第一页。

接下来，如果要继续访问其他页面，可以重复实施例一中的操作，实现页面的正常访问。

实施例四

在另一个实施方式中，

爬虫向服务器端发送HTTP请求，请求当前分类第一页；

服务器端生成包含cookie值的图片URL路径，保存到第一页中；

服务器端预先设置有允许直接访问页面的页面范围为1-10页，服务器端判断第1页属于直接访问范围，因此，将包含有图片URL路径的第1页返回给爬虫；

需要注意的是，现有技术中爬虫并不会下载图片，也不会用JS方法解析图片，因为，如果执行的话会大大增加爬虫的成本，包括CPU和带宽成本。因此，爬虫不会像浏览器那样提取图片中的cookie值，在访问其他页面时携带。进而就会被服务器端拦截。

实施例五

在另一个实施方式中，

爬虫向服务器端发送HTTP请求，请求当前分类第11页；

服务器端生成包含cookie值的图片URL路径，保存到第11页中；

服务器端判断第11页不属于直接访问范围，因此，进一步判断HTTP请求中是否带有cookie值，由于爬虫向服务器端发送的HTTP请求不可能带有cookie值，所以服务器端向爬虫返回当前分类第一页。

由此可以看出，通过本发明的方案，网络爬虫只能抓取有限的页面，确保了浏览器的正常访问。

基于同样的发明构思，本发明实施例还提出了一种拦截爬虫的装置，应用于服务器端，如图2所示。该装置包括：

生成保存单元201，接收到客户端发送的访问页面的访问请求后，生成当前用于识别爬虫的字段值，并生成将所述字段值保存到图片中的图片属性值；将包含有所述图片属性值的图片统一资源定位符URL路径保存到所请求的页面中；

处理单元202，判断当前要访问页面是否属于直接允许访问页面，如果是，则将所请求的页面返回给客户端；如果否，则进一步判断所述访问请求中是否包含用于识别爬虫的有效字段值，如果是有效字段值，则将所请求的页面返回给客户端；如果不包含用于识别爬虫的字段值，或者所包含的字段值无效，则确认为爬虫，将要访问页面的分类第一页返回给客户端。

本发明还提出了一种拦截爬虫的装置，该装置应用于作为浏览器的客户端，包括：

本发明的有益效果在于，

一、有效拦截爬虫，在正常用户访问量非常大的情况下也可以避免误杀正常用户，确保浏览器的正常访问。

二、在网站促销高峰，拦截爬虫访问，降低服务器压力，保证网站稳定和高并发。并可以对恶意攻击拦截。

三、CDN服务器的设置，将爬虫的流量都指向各个省市的CDN服务器上，从而进一步起到保护服务器，保证用户可以正常访问的作用。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种拦截爬虫的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，当客户端为浏览器时，该方法进一步包括：

浏览器根据服务器端返回的页面中包含的图片URL路径将图片下载到浏览器上；解析所述图片，提取其中的用于识别爬虫的字段值，并进行保存，用于浏览器访问其他页面时在访问请求中携带该用于识别爬虫的字段值。

3.如权利要求1所述的方法，其特征在于，所述用于识别爬虫的字段值为cookie值；所述生成cookie值的方法包括：

服务器端根据cookie值的有效时间对当前时间戳的值进行选取；将所选取的当前时间戳的值与配置的当前第一密钥合并的字符串进行加密运算，得到当前cookie值。

4.如权利要求1所述的方法，其特征在于，所述用于识别爬虫的字段值为cookie值；所述图片属性值为图片名称；所述生成图片名称的方法包括：

服务器端根据cookie值的有效时间对当前时间戳的值进行选取；将所选取的当前时间戳的值与配置的当前第二密钥合并的字符串进行加密运算，得到图片的名称。

5.如权利要求1所述的方法，其特征在于，服务器端判断当前要访问页面是否属于直接允许访问页面的方法包括：

服务器端预先设置有允许直接访问页面的页面范围；

服务器端判断当前要访问页面是否在所述范围内，如果在，则属于直接允许访问页面。

6.如权利要求1所述的方法，其特征在于，所述用于识别爬虫的字段值为cookie值；则判断所述访问请求中是否包含用于识别爬虫的有效字段值的方法包括：

服务器端将自身生成的cookie值，与访问请求中携带的cookie值进行比较，如果二者相等，则判断访问请求中携带的cookie值为有效cookie值。

7.如权利要求1所述的方法，其特征在于，该方法还包括：将允许直接访问的页面缓存在CDN服务器上，当客户端请求其中允许直接访问的页面时，由CDN服务器将所请求的页面返回给客户端。

8.一种拦截爬虫的装置，其特征在于，该装置应用于服务器端，包括：