CN110581859A

CN110581859A - 一种基于页面埋点的防爬虫方法

Info

Publication number: CN110581859A
Application number: CN201910882561.1A
Authority: CN
Inventors: 陈志�; 范渊; 吴永越; 郑学新; 刘韬
Original assignee: Chengdu DBAPPSecurity Co Ltd
Current assignee: Chengdu DBAPPSecurity Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-17
Anticipated expiration: 2039-09-18
Also published as: CN110581859B

Abstract

本发明公开了一种基于页面埋点的防爬虫方法，包括以下步骤：判断请求ip是否在爬虫ip黑名单中；若不在，对页面的埋点元素的信息合法性进行一次校验；一次校验不通过，则为疑似爬虫ip加入疑似爬虫ip队列；对疑似爬虫ip进行二次校验；二次校验没有通过，则将该疑似爬虫ip为爬虫ip；对两次校验通过的请求ip制定一个单位时间的流量控制，通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip；若达到流量控制阈值，加入疑似爬虫ip队列并执行步骤S3的操作。本发明对网络爬虫识别的可靠性较高，不影响正常用户浏览网页的流畅性，极大的消耗网络爬虫自身的资源，降低网络爬虫访问网页的频率。

Description

一种基于页面埋点的防爬虫方法

技术领域

本发明涉及计算机技术领域，具体的说，是一种基于页面埋点的防爬虫方法。

背景技术

目前，爬虫技术已经遍布网络，并且越是涉及个人切身利益的地方，越是布满了爬虫。对于网络应用服务提供商来说，大量的流量来访问这个网站，会对这个网站的服务器造成巨大的压力，服务器压力一大干活就得受影响，那正常访问的用户就会受牵连。所以恶意流量以大量IP访问网站侵占带宽资源，不仅影响网站的正常运作，更可能造成用户的流失！

除了访问网站，爬虫在现在更主要的目的是“爬取”网站的数据，比如针对竞品的数据爬取，直接的影响就是造成网站的数据泄露。进而可能出现“复制网站”，从而影响网站排名，让真正想访问的用户去了假网站，从而用户流失。

总的来说，恶意爬虫不仅影响网站的正常运作，更危害网站安全！最可怕的是，相较于偶然性的黑产攻击，恶意爬虫是持续性的！这就意味着，如果要抗击恶意爬虫，需要消耗大量的时力！

现有的反爬虫方案中，有一种通过对客户端请求header中的UA进行识别来区分是否是爬虫的方案。Header中没有UA的，认为很大可能是爬虫，对header中带有UA的，如果是常用的浏览器UA（IE，Chrome等），则认为不是爬虫。该处理方式看起来没什么问题，但是太容易被欺骗了，爬虫只需在请求时在请求header中加上流行的UA值即可伪装通过该校验。

还有一种方式对一段时间内，某一ip的请求次数进行统计，请求数目达到一定的量，则认为这不是一个正常的人类用户的请求，大概率为爬虫请求，并对该ip做临时封禁处理。但某些爬虫使用者在应对此种反爬措施时，利用ip代理池，或者降低请求频率的方式，也可以很好地绕过这个反爬规则。

现有的反爬方案中，有一种对ip行为总结的方式，通过分析某ip在一段时间内的请求日志，通过构建业务模型，分析该ip的行为是一个人类用户的行为，还是一个爬虫的行为。该方式有个缺点就是，及时性不太够。对一个ip的访问日志分析，往往需要积累一定时间周期的日志，才具有分析的价值，所以动辄几天甚至长达一周。当通过日志分析得出某ip为爬虫ip时，可能该爬虫已经换ip继续工作。

术语介绍：

爬虫：爬虫是一种自主遍历Web的程序，目是从各种基于Web的系统和服务中发现和检索内容和知识。网络爬虫原本仅用于搜索引擎，但是随着互联网技术的发展，特别是大数据的到来，很多人都学习爬虫，企业也需要采集数据挖掘有价值的资料，但是这些爬虫采集的数据并不一定都是公开的，而是从网络上“偷”数据，这可能会引起比较严重的问题，比如采集用户信息泄露，也有可能引发法律风险，同时大量的请求也会加重对服务器的负载，影响服务器的性能，加重网站维护者的工作量。

发明内容

本发明的目的在于提供一种基于页面埋点的防爬虫方法，对网络爬虫识别的可靠性较高，不影响正常用户浏览网页的流畅性，极大的消耗网络爬虫自身的资源，降低网络爬虫访问网页的频率。

本发明通过下述技术方案实现：

一种基于页面埋点的防爬虫方法，具体包括以下步骤：

步骤S1：判断请求ip是否在爬虫ip黑名单中；

步骤S2：若不在，则通过浏览器的窗口信息、埋点元素所在的坐标信息以及当前页面的url对于埋点元素的信息合法性进行一次校验；一次校验不通过，则为疑似爬虫ip加入疑似爬虫ip队列；

步骤S3：对疑似爬虫ip进行二次校验；二次校验没有通过，则将该疑似爬虫ip为爬虫ip；

步骤S4：对两次校验通过的请求ip制定一个单位时间的流量控制，通过判断请求ip在单位时间内对资源的请求数是否到达流量控制阈值判断是否为疑似爬虫ip；

若达到流量控制阈值，加入疑似爬虫ip队列并执行步骤S3的操作；

若没有达到流量控制阈值，服务器将对请求数据处理。

进一步地，为了更好的实现本发明，所述步骤S1具体是指：服务端接收到一个请求时，取得请求ip，然后在服务器的爬虫ip黑名单中查找请求ip；若在，直接拒绝访问。

进一步地，为了更好的实现本发明，具体包括以下步骤：

步骤S21：客户端得到从服务器返回的页面信息；当页面被浏览器渲染或者有用户点击事件时，客户端上报埋点元素信息到服务器；所述页面信息包括页面埋点元素；

步骤S22：客户端向服务器发起HTTP请求，上报当前浏览器窗口宽度ww、高度信息wh、埋点元素所在坐标信息当前页面的url；

步骤S23：服务器接收到客户端上报的埋点元素信息请求，通过对比存储在redis中的url与页面埋点元素信息占页面宽高百分比的方式校验上报的埋点元素信息是否是合法的；

若校验合法，服务器颁发token给客户端，将token放到客户端请求的header中；

若校验不合法，将该请求ip放入疑似爬虫ip队列中。

进一步地，为了更好的实现本发明，所述步骤S23中的校验方式具体是指：

从客户端获取到的埋点元素的宽度百分比：cwp=pw/ww * 100%；

从客户端获取到的埋点元素的高度百分比：chp=ph/ww * 100%；

其中pw为埋点元素所在的横坐标；ph为埋点元素所在的纵坐标；

若cwp=wp且chp=hp，则校验合法，否则校验不合法。

进一步地，为了更好的实现本发明，步骤S3具体是指：处于疑似爬虫ip队列中的客户端将再次向服务器发起请求，服务器对客户端展示验证码校验；

若客户端通过验证码校验，则将该ip从疑似爬虫ip队列中解除，并给该客户端请求的header中添加token值；

若客户端没有通过验证码校验，则疑似爬虫ip将加入到爬虫ip黑名单中。

进一步地，为了更好的实现本发明，所述步骤S4具体是指：对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制，并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值；

若达到；该请求ip加入疑似爬虫ip队列并执行步骤S3的操作；

若未达到；服务器将对请求数据处理。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明对网络爬虫识别的可靠性较高，不影响正常用户浏览网页的流畅性，极大的消耗网络爬虫自身的资源，降低网络爬虫访问网页的频率；

（2）本发明通过在页面埋点，并从客户端上报埋点信息到服务端获取访问凭据的方式，来阻碍爬虫恶意爬取；

（3）本发明通过token来鉴别是否是一个真实的用户，准确性较高。

附图说明

图1为本发明的工作流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

本发明通过下述技术方案实现，如图1所示，一种基于页面埋点的防爬虫方法，具体包括以下步骤：

步骤S1：判断请求ip是否在爬虫ip黑名单中；

若没有达到流量控制阈值，服务器将对请求数据处理。

需要说明的是，通过上述改进，对网络爬虫识别的可靠性较高，不影响正常用户浏览网页的流畅性，并且即便网络爬虫破解了上述识别方法，也会极大的消耗网络爬虫自身的资源，降低网络爬虫访问网页的频率。

本发明中爬虫伪装的成本会比较高，除非爬虫是在一个真实的浏览器环境中打开的，这样势必也会影响到爬虫的效率。如果爬虫是这样的一种访问方式，那么对网络应用提供商来说，这种爬虫应用对系统的负载也不算大了。

实施例2：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，具体包括以下步骤：

若校验不合法，将该请求ip放入疑似爬虫ip队列中。

从客户端获取到的埋点元素的宽度百分比：cwp=pw/ww * 100%；

从客户端获取到的埋点元素的高度百分比：chp=ph/ww * 100%；

若cwp=wp且chp=hp，则校验合法，否则校验不合法。

对于埋点元素上报的触发事件来说，HTML DOM 允许 JavaScript 对 HTML 事件作出反应，本发明中提到的页面加载事件以及用户点击事件，都是用户在浏览HTML网页时非常常见的事件，且HTML DOM对此有非常好的支持。

上报埋点元素的坐标信息和当前网页的url，就是一个普通的HTTP请求，采用POST方式即可。

本发明中存储url与埋点元素信息的映射，以及存储页面临时token都可以借助redis来做存储。Redis是一款性能高效，支持数据类型丰富，使用范围极广的key-value数据库。借助redis的存储特性及支持的数据结构，可以快速的判断用户上传的埋点信息是否正确。并且可以高效的识别用户访问页面的token是否是伪造或者已过期。

需要说明的是，通过上述改进，本发明在判断请求ip是否是爬虫ip时，是相当及时的。如果获取token失败，就认为是疑似爬虫ip，然后通过流行的验证码方案，来判断是否是一个真实的用户，如果验证码也验证失败，则确认该ip为爬虫ip，进行临时封禁。

本发明中当用户访问有埋点的页面，如果用户没有触发埋点信息上报事件获取token，或者埋点信息校验不通过获取token失败，则认为该ip为疑似爬虫。具体的，哪些页面需要有埋点，是网络服务提供商来决定的。

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例3：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，步骤S3具体是指：处于疑似爬虫ip队列中的客户端将再次向服务器发起请求，服务器对客户端展示验证码校验；

需要说明的是，通过上述改进，

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例4：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，所述步骤S4具体是指：对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制，并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值；

若达到；该请求ip加入疑似爬虫ip队列并执行步骤S3的操作；

若未达到；服务器将对请求数据处理。

需要说明的是，通过上述改进，这里的流量控制阈值不是一个具体的值，是网络服务提供商根据自己服务器的cpu的内存、带宽以及平时的uv、pv等综合考虑的一个适合的值。

对于对一个请求ip做一个单位时间的流量控制的具体方法为：假设流量控制的条件是10s内单个ip请求次数不能超过100次用一个计数器来做，一个请求ip一个计数器counter，这个计数器的初始态value=100；过期时间是ttl=10s，也就是说从计数器创建时计时，10s中之后，这个计数器会自动销毁。当一个请求ip请求服务器，服务器先查看是否有与之匹配的计数器，如果没有，服务器为这个请求ip创建一个上述的初始态的计数器。从计数器被创建开始的10s钟之内，该请求ip每请求一次服务器，这个请求ip的计数器的值value就减1：value=value-1；当value的值小于0时，则认为请求ip达到了限流的阈值，将这个请求ip列入疑似爬虫请求ip队列。

本实施例的其他部分与上述实施例相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于页面埋点的防爬虫方法，其特征在于：具体包括以下步骤：

步骤S1：判断请求ip是否在爬虫ip黑名单中；

若没有达到流量控制阈值，服务器将对请求数据处理。

2.根据权利要求1所述的一种基于页面埋点的防爬虫方法，其特征在于：所述步骤S1具体是指：服务端接收到一个请求时，取得请求ip，然后在服务器的爬虫ip黑名单中查找请求ip；若在，直接拒绝访问。

3.根据权利要求1所述的一种基于页面埋点的防爬虫方法，其特征在于：具体包括以下步骤：

若校验不合法，将该请求ip放入疑似爬虫ip队列中。

4.根据权利要求3所述的一种基于页面埋点的防爬虫方法，其特征在于：所述步骤S23中的校验方式具体是指：

从客户端获取到的埋点元素的宽度百分比：cwp=pw/ww * 100%；

从客户端获取到的埋点元素的高度百分比：chp=ph/ww * 100%；

若cwp=wp且chp=hp，则校验合法，否则校验不合法。

5.根据权利要求1所述的一种基于页面埋点的防爬虫方法，其特征在于：步骤S3具体是指：处于疑似爬虫ip队列中的客户端将再次向服务器发起请求，服务器对客户端展示验证码校验；

6.根据权利要求1所述的一种基于页面埋点的防爬虫方法，其特征在于：所述步骤S4具体是指：对于步骤S23中校验合法的请求ip和步骤S3中通过验证码校验的请求ip做一个单位时间的流量控制，并判断该请求ip在单位时间内对资源的请求数是否达到流量控制阈值；

若达到；该请求ip加入疑似爬虫ip队列并执行步骤S3的操作；

若未达到；服务器将对请求数据处理。