CN105930727A

CN105930727A - 基于Web的爬虫识别算法

Info

Publication number: CN105930727A
Application number: CN201610262526.6A
Authority: CN
Inventors: 李兴涛; 王儒敬; 王伟
Original assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Current assignee: Anhui Z-Hope Technology Co Ltd; Wuxi Zhongke Funong Internet Of Things Technology Co Ltd; Jiangsu IoT Research and Development Center
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2016-09-07
Anticipated expiration: 2036-04-25
Also published as: CN105930727B

Abstract

本发明提供一种基于Web的爬虫识别算法，设置陷阱，并通过线上分析用户访问的行为特征判断是爬虫的概率；对于爬虫可能性大的访问者，要求验证码验证，减少误判；线下分析一天的数据通过大量数据正确的识别出隐藏性好的爬虫；对于识别出的爬虫加入到确定名单库中。本发明结合了线上的实时识别和线下的正确识别，在保证识别实时性的同时，提高了识别的准确性，降低了误判。

Description

基于Web的爬虫识别算法

技术领域

本发明涉及网络爬虫的识别方法，尤其是一种在线分析和离线分析相结合的爬虫识别方法。

背景技术

随着Web技术的发展和应用程序的多样化，用于发掘和收集数据信息任务的爬虫日益丰富，数量越来越庞大。爬虫加速了信息的流动和扩散，但同时也带来了多方面的负面影响：网络爬虫的大量访问请求会占用服务器资源，给服务器带来巨大负荷，导致服务器性能下降，影响用户的体验；恶意爬虫更会造成隐私数据泄漏、资源滥用、版权问题等；竞争关系的对手公司的大量抓取会造成公司的巨大损失降低公司的竞争力；很多网站会用到用户的访问信息做分析，分析用户的行为为用户做更好的推荐，爬虫产生的访问信息会对分析造成干扰。因此对检测出爬虫，并对其进行封禁的研究，对于企业发展、维护公司利益和提高竞争力有重大意义。

发明内容

本发明的目的是为克服当前爬虫检测实时性不高、召回率低和误判比较多的缺陷。现在的爬虫检测算法各有优缺点，由于爬虫的多样性，没有一种爬虫检测算法可以很好的检测所有爬虫，通常实时性、正确率之间有相对互斥的关系。本发明提出的基于Web的爬虫识别算法，结合了多种不同的策略，尤其是通过访问行为识别出爬虫，并提出线上线下分析结合的方法，提高了爬虫检测的实时性、提高了召回率和减少误封操作；可以有效的防止恶意爬虫爬取资源，减小服务器压力，并且为数据分析提供干净的数据；本发明采用的技术方案是：

一种基于Web的爬虫识别算法，包括一种在线识别方法；以及配合在线识别方法一起使用的一种离线识别方法；

在线识别方法通过：

S1）设置陷阱，根据访问者请求陷阱中的信息来初步判定为疑似爬虫；

S2）对于每一个访问者维护访问信息，通过对访问者的访问行为分析进一步判断是否为疑似爬虫；

S3）对于上述S1和S2识别出为疑似爬虫的行为，最后通过验证码验证的方法确定是否为爬虫。

进一步地，步骤(S2)中对于每一个访问者维护访问信息，具体包括：

从访问者的访问请求中提取关键字段，关键字段包括id、访问时间、引用字段、访问类型；

为每个id维护一个滑动窗口，用这个滑动窗口记录访问者最近访问的n次记录，n为窗口的大小；

每来到一个请求，首先分析该请求，提取关键字段；

如果没有该id对应的滑动窗口，创建该id的滑动窗口；

如果该id的滑动窗口满了，删除滑动窗口内最早的一次记录；

将新请求的信息存入滑动窗口内；

定期扫描所有的滑动窗口，对于最新一次请求距离当前时间超过设定时间阈值的滑动窗口直接删除。

更进一步地，步骤(S2)中，所述通过对访问者的访问行为分析进一步判断是否为疑似爬虫，具体包括：

提取访问行为中的特征向量，然后对各特征向量加权求和后得到一个评估得分，该评估得分超过设定阈值则判断访问者为疑似爬虫；

所述特征向量包括：

滑动窗口内的错误响应百分比作为一个特征向量；

通过滑动窗口提取访问类型，将head请求访问类型的占比作为一个特征向量；

通过滑动窗口提取出引用字段为空的占比，作为一个特征向量；

滑动窗口内，对请求的资源分类；统计请求每一种资源的访问次数占比；然后将各个资源的访问次数占比平方后相加，作为一个特征向量；

滑动窗口内请求资源的速率特征向量：生成一个请求资源的链表并且记录资源被请求的情况，将所有请求的相邻时间差大于设定阈值的次数统计出，并与请求的相邻时间差个数相除得到速率特征向量；

访问时间间隔特征向量，访问时间间隔特征向量的值越大则表示疑似爬虫的可能性越大。

所述访问时间间隔特征向量：访问时间间隔特征向量需要计算一个访问时间间隔得分score；

a)将滑动窗口中相邻访问之间的时间相减得到一个时间间隔序列；

b)对于时间间隔序列中时间间隔小于设定最小时长的，累加到后面的时间间隔，得到一个处理后时间间隔序列；

c)对score初始化一个得分score=0；遍历这个处理后时间间隔序列，每有一个数字在设定最小时长～设定最大时长之间，则score加一个数值，每有一个数字大于设定最大时长将score减去一个数值；

d)最后得出的score为访问时间间隔特征向量。

进一步地，

离线识别方法包括：离线识别的数据来源是网络日志，通过对网络日志分析；

L1）提取关键字段，包括：id、url、翻页情况；提取url用于分析用户请求资源的类型；

L2）对于提取的关键字段信息进行聚类：

通过对相同id的用户聚类产出每个id统计时段内的访问情况，包括：

统计时段内请求次数的统计，包括总次数和不同类型请求的次数，然后将head请求访问类型的占比作为一个特征向量；

翻页情况的统计，将统计时段内发生翻页超过设定次数的翻页情况次数占比作为一个特征向量；

统计时段内，请求的具体资源类型的次数统计；统计请求每一种资源的访问次数占比；然后将各个资源的访问次数占比平方后相加，作为一个特征向量；

L3）计算得分：

对于每一个id的聚类结果，对每个特征向量赋予各自对应的权值，做加权平均；根据加权平均结果，若超过设定分值阈值，判断为爬虫。

更进一步，离线识别方法中，对于统计时段内请求数量超过设定请求数最大阈值或翻页次数超过设定翻页次数最大阈值，则直接判定为爬虫。

具体地，

步骤(S1)中陷阱中的信息为隐藏在图片下或者与背景色一样用户看不到的链接，如果访问到了这些链接则初步判断访问者为爬虫。

本发明的优点在于：与现有技术相比，结合了在线方法和离线方法。在线方法快速实时的检测出大部分爬虫，提过了爬虫检测的实时性，添加验证码大大降低了爬虫的误判。离线方法通过大量数据分析提高了爬虫识别的召回率，同时可以将结果反馈到线上分析模块对线上分析模块进行调整。

附图说明

图1为本发明的算法总体流程图。

图2为本发明的线上分析流程图。

图3为本发明的线下分析流程图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

基于Web的爬虫识别算法，为了准确实时地识别爬虫的抓取行为，将该算法分为两部分，在线识别方法和离线识别方法，分别由线上分析模块和线下分析模块执行；

（一）在线识别方法识别可疑的抓取行为，包括（S1)设置陷阱、（S2)访问行为分析和（S3)验证码验证三部分；

S1）设置陷阱，根据访问者请求陷阱中的信息来初步判定为疑似爬虫；陷阱部分可以实时识别出部分抓取行为，通过在网页中设置一些用户看不见但是爬虫可能会爬取的链接，只要是访问到这些链接就判定是爬取的行为；比如隐藏在图片下或者与背景色一样用户看不到的链接，如果访问到了这些链接说明很有可能是爬虫。

S2）访问行为分析；

首先对于每一个访问者维护访问信息，从访问者的访问请求中提取关键字段，关键字段包括id、访问时间、引用字段（reference字段）、访问类型；并维护这些信息；id可以是用户账号或者IP地址，存在用户账号时用户账号作为id，用户没有注册账号时将用户的IP地址作为id；

线上请求的分析，虽然耗费的时间不长，但是当请求量非常大的时候还是会严重影响用户的体验的，所以对于到达线上分析的请求，不应该拦截请求等到解析完成再决定是封禁还是放行。服务器主进程到达请求的时候将请求信息交由线上分析模块之后应该继续该请求的正常访问，至于请求是不是爬虫请求可在后台进一步分析。因为对于抓取的请求必然是需要多次请求的，服务器允许它开始的几次请求获得数据，只要有效阻拦后面的更多次的请求就可以了。

由于累计的访问者数据量会非常大，因此为每个id维护一个滑动窗口，用这个滑动窗口记录访问者最近访问的n次记录，n为窗口的大小；

每来到一个请求，首先分析该请求，提取关键字段；

如果没有该id对应的滑动窗口，创建该id的滑动窗口；

将新请求的信息存入滑动窗口内；

此外，由于普通用户数量多，但是通常几次请求之后很长时间都不会有请求。对于这种情况就会产生很多滑动窗口，但是实际上对于这种很明显是用户的请求可以不用进一步考察直接放行。

所以需要定期扫描所有的滑动窗口，清除掉不需要的滑动窗口。对于那些最新一次请求距离当前时间比较长的滑动窗口可以直接删除；比如设定一个时间阈值，对于最新一次请求距离当前时间超过设定时间阈值的滑动窗口直接删除。

现有最简单的识别爬虫的方法是句法分析技术：句法分析技术中的robot协议访问检测，user-agent检测，利用这些将一些正规爬虫检测出来。根据robot协议在服务其中存在一个robots.txt文件，这个文件中写明了不让爬虫爬取的信息，正规爬虫是会访问这个robots.txt文件并且不会访问这个文件中表明的文件。但是考虑到robot协议不是一个强制性协议，一些恶意的爬虫根本不会访问robots.txt文件。所以这种策略并不可取。正规爬虫会在user-agent中表明自己的身份，但是同样该字段也是可以伪装的，恶意爬虫可以将自己伪装成正规爬虫。所以user-agent检测也并不可靠。通过上面分析，句法分析技术虽然简单但是并不能真实可靠地额识别出爬虫

因此本发明访问行为分析的具体算法采用了通信模式分析技术，提取访问行为中的特征向量，然后对各特征向量加权求和后得到一个评估得分，该评估得分超过设定阈值则判断访问者为疑似爬虫；

各特征向量如下所述：

滑动窗口内的错误响应百分比作为一个特征向量；当访问者的错误响应百分比过高，则可能为疑似爬虫；如果是非正常用户访问服务器，错误返回码的占比较高，比如爬虫可能在十次访问中就有两三次出错，而正常用户访问时在几十次访问才会出现一次错误；

通过滑动窗口提取访问类型，将head请求访问类型的占比作为一个特征向量；http协议中包括了几种访问类型，或称为请求类型，比如head、get、post等；部分爬虫通过head指令仅仅获取http回答的头，而不是整个回答；用户通过get命令获取整个html，因此访问类型有显著区别；如果head请求访问类型占比较高，则为爬虫的可能性较大；

通过滑动窗口提取出引用字段为空的占比，作为一个特征向量；一个会话的所有请求是否都有未分配的引用字段即reference字段（用户点击一个页面中的链接引导到另一个页面，那么这个原始页面是新页面的来源页面，reference字段存放来源页面的地址），如果未分配那么极有可能是爬虫；

比如对请求的资源分为8类，对于爬虫，只请求一种类型的资源及该类型资源的访问次数就很高；假如滑动窗口内存在20次访问次数，对8类资源的访问次数占比可能是0/20、1/20、18/20、0/20、1/20、0/20、0/20、0/20；将这些占比分数先各自平方后，再相加，得到的一个分数就大（此例为326/400）；而对于普通用户，对8类资源的访问次数占比可能是2/20、3/20、3/20、2/20、2/20、3/20、2/20、3/20，将这些占比分数先各自平方后，再相加，得到的一个分数就小（此例为52/400）；

如果前后两个请求相邻时间差大于某个阈值，那么认为极有可能是爬虫产生的（浏览器为了实时呈现网站，在初始请求后，跟着会发出很多嵌入式资源的请求；而爬虫并不需要所有这些资源，故不一定会请求嵌入式资源）这个可以主要用于检测除图片类爬虫之外的其他爬虫；滑动窗口内，如果有10次请求，那么相邻时间差有9个，这9个相邻时间差中假如有7个超过1秒，则将7/9作为速率特征向量；

访问时间间隔特征向量：访问时间间隔特征向量的值越大则表示疑似爬虫的可能性越大，访问时间间隔特征向量需要计算一个访问时间间隔得分score；爬虫为了快速爬取数据而不容易被发现，通常爬取频率不会太高（容易发现），也不会太低（抓取速率太低）。通过调查爬虫的平均爬取速率是每秒一到两次，而用户的最大查询速率是每分钟4次。

a)将滑动窗口中相邻访问之间的时间相减得到一个时间间隔序列；比如：

2,5,10,0.2,0.4,0.8

b)对于时间间隔序列中时间间隔小于设定最小时长（比如0.5秒）的，累加到后面的时间间隔，得到一个处理后时间间隔序列；比如：

2,5,10,0.2,0.4,0.8->2,5,10,1.4

c)对score初始化一个得分score=0；遍历这个处理后时间间隔序列，每有一个数字在设定最小时长～设定最大时长（比如15秒）之间，则score加一个数值，每有一个数字大于设定最大时长（15秒）将score减去一个数值；

d)最后得出的score为访问时间间隔特征向量；

最后对各特征向量加权求和后得到一个评估得分，该评估得分超过设定阈值则判断访问者为疑似爬虫。

上述（S1）和（S2）中识别出的疑似爬虫添加到疑似名单库中；

S3)验证码验证：验证码验证用于最后一步确定爬虫检测是否正确，验证码检测采用典型的CAPTCHA检测，服务器产生一个验证页面用来测试用户，要求用户输入产生的图片上面的字符组合。已经识别出来是疑似爬虫的要经过验证码验证，这样可以减少误判操作。验证码验证不通过则拒绝访问者继续访问服务器，并将访问者加入确定名单库，确定名单库中保存了确定为爬虫的黑名单；

（二）离线识别方法；

离线识别通过三个子模块来执行：map模块、reduce模块、分值计算模块；

离线识别的数据来源是网络日志，通过对网络日志分析，提取关键字段，然后聚类产出每个id统计时段内的访问情况，最后对每个id计算一个得分，根据得分判断是否为爬虫；一般采用一天作为一个统计时段；

如图3所示，离线识别方法包括：

L1）提取关键字段，包括：id、url、翻页情况；

map模块主要提取关键字段；对于id，登录用户采用用户账户作为id，非登录用户提取ip地址作为id；提取url用于reduce模块分析用户请求资源的类型；

L2）对于提取的关键字段信息进行聚类：由reduce模块进行；

翻页情况的统计，将统计时段内发生翻页超过设定次数（比如10次）的翻页情况次数占比作为一个特征向量；比如1000次访问中，200次访问时不翻页，100次访问时翻页小于等于10次，700次访问时翻页超过10次，则700/1000为一个特征向量；

L3）计算得分：由分值计算模块进行；

对于每一个id的聚类结果，对每个特征向量赋予各自对应的权值，做加权平均；根据加权平均结果，若超过设定分值阈值，判断为爬虫；加入确定名单库中；

对于关键字段信息中某些特征明显表示为爬虫的情况，则直接将得分设定为超过分值阈值；如统计时段内请求数量超过设定请求数最大阈值，翻页次数超过设定翻页次数最大阈值；具体的，如每天请求数量超过100万，翻页次数超过1万次等。

Claims

1.一种基于Web的爬虫识别算法，其特征在于，至少包括一种在线识别方法；

在线识别方法通过：

2.如权利要求1所述的基于Web的爬虫识别算法，其特征在于：

步骤(S2)中对于每一个访问者维护访问信息，具体包括：

每来到一个请求，首先分析该请求，提取关键字段；

如果没有该id对应的滑动窗口，创建该id的滑动窗口；

将新请求的信息存入滑动窗口内；

3.如权利要求2所述的基于Web的爬虫识别算法，其特征在于：

步骤(S2)中，所述通过对访问者的访问行为分析进一步判断是否为疑似爬虫，具体包括：

所述特征向量包括：

滑动窗口内的错误响应百分比作为一个特征向量；

4.如权利要求3所述的基于Web的爬虫识别算法，其特征在于：

d)最后得出的score为访问时间间隔特征向量。

5.如权利要求1～4中任一项所述的基于Web的爬虫识别算法，其特征在于：该爬虫识别算法还包括配合在线识别方法一起使用的一种离线识别方法；

L2）对于提取的关键字段信息进行聚类：

L3）计算得分：

6.如权利要求5所述的基于Web的爬虫识别算法，其特征在于：

离线识别方法中，对于统计时段内请求数量超过设定请求数最大阈值或翻页次数超过设定翻页次数最大阈值，则直接判定为爬虫。

7.如权利要求1所述的基于Web的爬虫识别算法，其特征在于：