CN108282443B

CN108282443B - 一种爬虫行为识别方法和装置

Info

Publication number: CN108282443B
Application number: CN201710008321.XA
Authority: CN
Inventors: 张毅; 李晓晴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-01-05
Filing date: 2017-01-05
Publication date: 2021-04-23
Anticipated expiration: 2037-01-05
Also published as: CN108282443A

Abstract

本申请提出一种爬虫行为识别方法和装置，包括：校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。通过校验浏览器窗口大小进行客户端识别，并通过二次校验进行授权认证，防止绕开验证进行信息的爬取行为。

Description

一种爬虫行为识别方法和装置

技术领域

本发明涉及防爬领域，具体涉及一种爬虫行为识别方法和装置。

背景技术

网络爬虫是一种自动获取网页内容的程序。在网页产品中，经常会出现有网络爬虫抓取页面内容而对网页的正常访问流量造成影响的问题。因此，需要对网络爬虫请求进行识别，以方便对网络爬虫进行过滤和屏蔽。

目前识别网络爬虫的方法，一般从三个角度出发：

a.限制网络请求的频率，锁定发起请求的IP地址；一般程序发出的请求频率远高于人正常的网页浏览频率；nginx，waf,防火墙等防御手段基于此；

b.判断请求中是否包含正常浏览网页的行为特征；一般可以通过请求中的参数判断是否是人的正常浏览行为；比如对header字段的校验，隐藏域的使用；

c.判断请求中是否包含正常浏览网页的行为所不应该包含的特征；比如蜜罐，隐藏域的一些使用。

针对相关技术的三种方式，主要有以下三个缺陷：

a.限制ip请求频率的方式一般误判率比较高，此外，这种防爬手段通过代理方式可以较为轻松的绕过；

b.一些基于浏览器内核的工具可以模拟浏览器的部分行为，构造请求方面和真的浏览器相似度极高；

c.一些精细化的爬虫可以伪装浏览器的各项参数，也可以扫描隐藏域，从而绕开蜜罐等防爬方式。

相关技术根本的目的在于区分人和机器的行为；但无论多么精巧的防爬手段，都只能提高爬虫的技术门槛，并不能100％的杜绝爬虫行为。

发明内容

本发明提供一种爬虫行为识别方法和装置，防止相关技术中绕开验证进行信息爬取的行为。

为了实现上述发明目的，本发明采取的技术方案如下：

一种爬虫行为识别方法，包括：

校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；

跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

可选地，所述方法之前还包括：

对请求浏览的目标页面进行登录验证，当登录验证成功时，则允许用户浏览目标页面，当登录验证不成功时，跳转至登录页面。

可选地，校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件包括：

校验请求浏览的目标页面的浏览器窗口的长度信息和宽度是否大于或者等于预设窗口大小，并验证请求浏览的目标页面的浏览器窗口的位置信息是否处于预设范围。

可选地，验证所述目标页面的登录信息和校验时间信息包括：

校验用户输入的用户名和密码，并校验服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差是否满足预设阈值。

可选地，验证所述目标页面的登录信息和校验时间信息之后还包括：

校验所述目标页面对应的浏览器信息，所述浏览器信息包括浏览器的类型和浏览器内核版本，当所述浏览器信息验证通过时，授权本次请求；当所述浏览器信息验证不通过时，认定本次请求为爬虫行为。

为解决上述技术问题，本发明还提供一种爬虫行为识别装置，包括：

窗口校验模块，设置为校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；

浏览器校验模块，设置为跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

可选地，所述的装置还包括：

登录验证模块，设置为对本次请求浏览目标页面进行登录验证，当登录验证成功时，则允许用户访问浏览目标页面，当登录验证不成功时，跳转至登录页面。

可选地，所述窗口校验模块校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件是指：

可选地，浏览器校验模块验证所述目标页面的登录信息和校验时间信息是指：

可选地，浏览器校验模块还设置为：

为解决上述技术问题，本发明还提供一种爬虫行为识别装置，包括：存储器和处理器；

所述存储器，用于存放爬虫行为识别的程序；

所述处理器，执行爬虫行为识别的程序时，执行以下操作：

校验本次请求浏览目标页面的浏览器的窗口信息是否满足范围条件，当所述窗口信息满足范围条件，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足范围条件，则校验失败，认定本次请求为爬虫行为；

验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

本发明和现有技术相比，具有如下有益效果：

本发明的技术方案通过校验浏览器窗口大小进行客户端识别，并通过二次校验进行授权认证，防止绕开验证进行信息的爬取行为，有效的识别大部分爬虫行为，在识别爬虫行为和性能之间保证较优的折中。

附图说明

图1为本发明实施例的一种爬虫行为识别方法的流程图；

图2为本发明实施例的一种爬虫行为识别装置的结构示意图；

图3为本发明实施例1的自动提交表单的爬虫识别的流程图。

具体实施方式

为使本发明的发明目的、技术方案和有益效果更加清楚明了，下面结合附图对本发明的实施例进行说明，需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互任意组合。

如图1所示，本发明实施例提供一种爬虫行为识别方法，包括：

S101、校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；

S102、跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

本发明实施例中，爬虫行为是指按照一定的规则，自动地自动获取网页内容的程序或者脚本，常用的方式是从一个或若干初始网页的URL(Uniform Resource Locator，统一资源定位符)开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足一定停止条件。即通过源码解析来获得想要的内容。

发发明实施例中首先校验浏览器窗口信息，用于进行客户端识别，主要校验本次请求浏览目标页面的浏览器窗口的长度信息和宽度是否大于或者等于预设窗口大小，并验证本次请求浏览目标页面的浏览器窗口的位置信息是否处于预设范围。

本发明实施例中浏览器窗口信息主要包含两种，窗口的位置，即浏览器窗口在整个屏幕的位置；窗口的大小，即长和宽。只有窗口的位置和窗口的大小的信息都满足常规的范围，才认为是正确的浏览器窗口信息。

其中，浏览器窗口信息可以由系统管理员或其它用户根据一般使用习惯的范围设置，还可以浏览器的分辨率、屏幕尺寸等信息的改变而修改。

本发明实施例中二次校验时进行登录信息和时间信息校验；校验用户输入的用户名和密码是否正确，验证服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差是否满足预设阈值。服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差过大或者过小，说明不是用户手工操作浏览器发送的请求。

本发明实施例用户请求浏览目标页面时，进行授权验证，授权成功允许访问目标页面，授权不成功则认为时爬虫行为。本发明实施例中进行多次验证，通过校验浏览器窗口大小进行客户端识别，并通过二次校验进行授权认证，从而解决相关技术的缺陷。

其中，登录信息主要包括用户的用户名和密码，以及其他一些辅助登录的参数，比如蜜罐一类的技术通过增加额外参数判断是否机器发送的请求，其中，蜜罐相当于情报收集系统；指故意引诱攻击者攻击的目标，当攻击者入侵后，就可以知道攻击者是如何进行攻击行为的，随时了解针对服务器发动的最新的攻击和漏洞。还可以通过窃听黑客之间的联系，收集黑客所用的种种工具，并且掌握黑客的社交网络。

步骤S101之前还可以包括：

对请求浏览的目标页面进行登录验证，当登录验证成功时，则允许用户浏览目标页面，并执行步骤S101，当登录验证不成功时，跳转至登录页面。

步骤S101校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件可以包括：

本发明实施例中浏览器窗口信息主要包含两种，窗口的位置，即浏览器窗口在整个屏幕的位置；窗口的大小，即长和宽。只有窗口的位置和窗口的大小的信息都满足常规的范围，才认为是正确的浏览器窗口信息，当浏览器的窗口的位置或者窗口的大小的信息不满足常规的范围时，例如窗口最小化后，仍然存在对目标页面的请求，则可以认定非用户行为，是爬虫行为，再例如窗口的位置已经偏离出屏幕，致使目标页面的内容已经无法获取，仍然存在对目标页面的请求，则可以认定非用户行为，是爬虫行为。

步骤S102验证所述目标页面的登录信息和校验时间信息包括：

校验用户输入的用户名和密码，服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差是否满足预设阈值。

服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差过大或者过小，说明不是用户手工操作浏览器发送的请求。

步骤S102验证所述目标页面的登录信息和校验时间信息之后还包括：

浏览器信息主要包括浏览器的类型，浏览器内核版本等等，通过http头的user-agent字段信息获得。

如图2所示，本发明实施例还提供一种爬虫行为识别装置，包括：

窗口校验模块，设置为校验本次请求浏览目标页面的浏览器的窗口信息是否满足范围条件，当所述窗口信息满足范围条件，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足范围条件，则校验失败，认定本次请求为爬虫行为；

所述的装置还包括：

基于上述实施例，所述窗口校验模块校验本次请求浏览目标页面的浏览器的窗口信息是指：

校验本次请求浏览目标页面的浏览器窗口的长度信息和宽度是否大于或者等于预设窗口大小，并验证本次请求浏览目标页面的浏览器窗口的位置信息是否处于预设范围。

基于上述实施例，浏览器校验模块验证所述目标页面的登录信息和校验时间信息是指：

基于上述实施例，浏览器校验模块还设置为：

本发明实施例还提供一种爬虫行为识别装置，包括：存储器和处理器；

所述存储器，用于存放爬虫行为识别的程序；

所述处理器，执行爬虫行为识别的程序时，执行以下操作：

实施例1

如图3所示，本实施例说明利用上述爬虫行为识别方法进行识别的过程：

用户访问网站的任何页面，均需进行登录验证，登录成功则访问正常页面，登录不成功则访问登录页面；

已登录用户打开正常页面后，前端javascript会对浏览器的长度、宽度和位置进行校验，上述浏览器的窗口信息为只读属性；如果获取到的浏览器长宽、位置等信息在预设范围内，则校验成功，用户可正常浏览器目标页面并进行二次校验；若浏览器长宽位置等信息校验失败，则认为用户使用机器进行请求，本次请求为爬虫行为；

用户打开登录页面时，也会使用类似于上述的校验方式对浏览器的长宽信息进行校验；同时信息会传递到后台；校验通过后允许用户填写用户名和密码，连同校验的浏览器的窗口信息一起传递到后台进行授权验证；后台除了校验用户名和密码外，还需要判断javascript动态传过来的浏览器的窗口信息，所有信息都一致即认为登录成功；即前端通过javascript浏览器的窗口信息，校验数据发送到后端，登录时同时校验两次校验数据是否相同，时间差是否合理。

虽然本发明所揭示的实施方式如上，但其内容只是为了便于理解本发明的技术方案而采用的实施方式，并非用于限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭示的核心技术方案的前提下，可以在实施的形式和细节上做任何修改与变化，但本发明所限定的保护范围，仍须以所附的权利要求书限定的范围为准。

Claims

1.一种爬虫行为识别方法，其特征在于，包括：

校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；所述窗口信息包括窗口的位置和窗口的大小；

跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，包括：

校验用户输入的用户名和密码，并校验服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差是否满足预设阈值；当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

2.如权利要求1所述的方法，其特征在于：所述方法之前还包括：

3.如权利要求1所述的方法，其特征在于：校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件包括：

4.如权利要求1所述的方法，其特征在于：验证所述目标页面的登录信息和校验时间信息之后还包括：

5.一种爬虫行为识别装置，其特征在于：包括：

窗口校验模块，设置为校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；所述窗口信息包括窗口的位置和窗口的大小；

浏览器校验模块，设置为验证所述目标页面的登录信息和校验时间信息，包括：

6.如权利要求5所述的装置，其特征在于：还包括：

7.如权利要求5所述的装置，其特征在于：所述窗口校验模块校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件是指：

8.如权利要求5所述的装置，其特征在于：浏览器校验模块还设置为：

9.一种爬虫行为识别装置，其特征在于，包括：存储器和处理器；

所述存储器，用于存放爬虫行为识别的程序；

所述处理器，执行爬虫行为识别的程序时，执行以下操作：

校验本次请求浏览目标页面的浏览器的窗口信息是否满足范围条件，当所述窗口信息满足范围条件，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足范围条件，则校验失败，认定本次请求为爬虫行为；所述窗口信息包括窗口的位置和窗口的大小；