CN107092660A

CN107092660A - 一种网站服务器爬虫识别方法和装置

Info

Publication number: CN107092660A
Application number: CN201710191636.2A
Authority: CN
Inventors: 夏珺峥; 乔宏利
Original assignee: Chengdu Gifted Data Co Ltd
Current assignee: Chengdu Gifted Data Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-08-25

Abstract

本发明属于互联网领域，特别涉及网站服务器爬虫识别方法和装置，流程为：依据用户IP地址对访问用户进行标记；对用户访问请求进行划分，将用户访问请求中请求资源、请求域名、子域名、访问路径相同的用户访问请求归为相同类型的访问请求；依据每类访问请求的资源类型划分出核心资源访问请求；依据访问用户的核心资源访问请求的请求时间连续性、请求内容连续性、访问持续时间、访问频度进行爬虫访问判断；将判断为爬虫访问的用户进行处理。本发明通过多种手段有效识别用户的爬虫行为，实现成本低，与网站业务耦合度较低，可移植性性强；独立于网站业务服务器逻辑，易于升级更新，运维成本和技术风险较低。

Description

一种网站服务器爬虫识别方法和装置

技术领域

本发明涉及互联网领域，具体涉及一种网站服务器爬虫识别方法和装置。

背景技术

目前互联网应用十分繁荣。网络爬虫程序会占用被爬网站服务器的宝贵带宽和计算资源，另外随着大数据技术兴起，网站数据和内容资源也日趋成为网站服务商的核心资产。如何从海量的普通用户访问请求中，有效识别爬虫机器人程序的数据爬取行为，已成为各大网站急需解决的主要技术问题之一。

目前已有反爬虫工作，往往是每个网站开发商各自为战，根据自己的业务特点，将反爬虫内置到业务服务器里。但是这一方面增加了各个网站的技术和业务成本，另一方面这样的技术方法往往跟网站具体业务耦合度太高，不具备可移植性。

另外，即便将反爬虫逻辑跟网站业务服务器逻辑耦合，还会导致反爬技术改进升级的麻烦，不能有效的应对新的爬虫技术和情况。如果因为反爬逻辑升级而重新部署服务器逻辑，又会提高网站运维成本和提高技术风险。

发明内容

本发明的目的在于：本发明的目的在于提供一种网站服务器爬虫识别方法和装置，来区分正常用户访问和爬虫程序访问，解决网络爬虫程序对一般网站服务器的数据采集和计算资源占用问题。

本发明采用的技术方案如下：

一种网站服务器爬虫识别方法，包括以下步骤：

S1：依据用户IP地址对访问用户进行标记；

S2：对用户访问请求进行划分，将用户访问请求中请求资源、请求域名、子域名、访问路径相同的用户访问请求归为相同类型的访问请求；

S3：依据每类访问请求的资源类型划分出核心资源访问请求；

S4：对访问用户的核心资源访问请求进行连续性判断，对非连续性访问判断为非爬虫访问，对连续性访问继续进行下一步；

S5：依据访问用户的核心资源访问请求的内容连续性、访问持续时间、访问频度进行爬虫访问判断；

S6：将判断为爬虫访问的用户进行处理。

进一步的，所述核心资源访问请求划分方法为：请求资源类型为展示数据内容的协议请求为核心资源访问请求。如请求资源类型为html,xml,json等涉及展示数据内容的协议请求为核心资源访问请求，相应的，请求资源类型为CSS，JS的访问请求，非核心资源访问请求。

进一步的，所述连续访问判断为：

设定连续访问阈值，当访问用户的相邻两次核心资源访问请求的时间小于连续访问阈值时判定用户为连续性访问。

进一步的，所述内容连续性的爬虫访问判断方法为：

对时间连续的访问，依据当前访问用户的核心资源访问请求协议标记的前次核心资源访问请求地址进行判断，如前次核心资源访问请求地址为非网站主地址URL和非历史访问地址URL，则判定访问用户的行为为爬虫访问。

进一步的，所述访问持续时间的爬虫访问判断方法为：

对时间连续的访问，依据访问用户的核心资源访问请求的访问持续时间，设定持续访问阈值，当访问持续时间超过持续访问阈值时判定访问用户的行为为爬虫访问。

进一步的，所述访问频度的爬虫访问判断步骤为：

S11：设定时间周期T1，统计每时间周期T1相同类型的核心资源访问请求频度为：

F＝N_CR/T1

其中，N_CR指的是在时间周期T1内时间连续的同类型核心资源访问请求的访问次数；

S12：对用户每种同类型核心资源访问请求的连续请求，获取其最近N次的访问频度值组[F₁,F₂,F₃,…F_N]，随机抽取访问频度值中任一值作为基准值F_y；

S13：依据F_y计算频度判定值F_s＝F_y±σ(σ＝φF_y)；其中φ为误差因子；

S14：判断访问频度值中除基准值F_y外的其它N-1个访问频度值是否满足范围[F_y-σ,F_y+σ]，当N-1个访问频度值全部满足范围时，通过设定频度阈值Fz，当基准值F_y大于频度阈值F_z时判定用户访问为爬虫访问。

进一步的，对判定有爬虫访问的用户处理方法为：

依据网站预设策略，可以断开当前用户连接，并在设定的禁止访问时间段内禁止用户的IP对该网站的访问，也可以投递该访问给业务服务器，修改协议头增加爬虫标记字段，由业务服务器侧处理。

进一步的，所述爬虫访问判定的次序为：内容连续性判定、访问频度判定、访问持续时间判定。

一种网站服务器爬虫识别的装置，包括：

来访用户标记模块：对每个来访用户，根据其I P地址进行唯一的标记；

用户参数采集统计模块：对每个用户每个同类型访问标记其访问时间和记录访问请求头，进而标记核心访问内容、时间、频度；

爬虫用户识别模块：依据用户参数采集统计模块的数据对访问用户的核心资源访问请求的请求时间连续性、请求内容连续性、访问持续时间、访问频度进行爬虫访问判断；

爬虫用户处理模块：对认定为爬虫程序的访问按网站预设策略进行处理，包括：断开访问链接并禁止在设定时间内访问或传递给业务服务器，修改协议头增加爬虫标记字段，由网站服务器侧处理。

进一步的，所述装置前置于网站服务器端。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、能够有效识别网络爬虫访问行为，并根据用户设定策略处理，防止爬虫访问耗费网站资源，对网站系统接入能力造成影响。

2、通过多种手段有效识别用户的爬虫行为，实现成本低，与网站业务耦合度较低，可移植性性强。

3、独立于网站业务服务器逻辑，易于升级更新，运维成本和技术风险较低。

4、对判别为爬虫的请求处理灵活，可以根据根据业务服务器需求调整配置。

附图说明

图1为本发明提供的算法过程流程图。

图2为本发明提供的装置原理图。

图3为本发明提供的算法过程流程实施例图。

图4为本发明提供的装置安装原理图。

具体实施方式

本说明书中公开的所有特征，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合附图对本发明作详细说明。

如图3所示，本发明的一种实施流程为：

S10.用来访用户I P地址标记来访用户C1；

S11.根据用户请求完整路径、请求资源类型，区分同类型请求访问；

S12.根据访问类型是否页面或数据，分离出核心访问请求CR1，记录其来访时戳TR1；

S13.判断同类型核心访问连续性：计算两个连续访问时间间隔t＝TR2-TR1，若t小于给定间隔ST2，认定为连续访问，继续下一步，否则直接判定为非爬虫访问，直接透传请求协议；

S14.对任意一种连续的核心访问，访问请求refer参数异常，则判断为爬虫访问；refer参数正常时继续下一步；

S15.计算每隔给定时间T1，任意一种相同类型的连续的核心访问CR1的访问频率F；其中，

F＝N_CR/T1；

S16.对任意一种相同类型的连续的核心访问，如果访问频率稳定，且大于给定值SF1，则判断为爬虫访问，否则直接下一步；其中访问频率稳定判定方法为：

对用户每种同类型核心资源访问请求的连续请求，获取其最近N次的访问频度值组[F1,F2,F3,…FN]，随机抽取访问频度值中任一值作为基准值Fy；依据Fy计算频度判定值F_s＝F_y±σ(σ＝φF_y)；其中φ为误差因子；判断访问频度值中除基准值Fy外的其它N-1个访问频度值是否满足范围[F_y-σ,F_y+σ]，当N-1个访问频度值全部满足范围时，访问频率稳定；

S17.对各种核心访问，如果其访问持续的时间超过指定值ST2，则判断为爬虫访问；判定为非爬虫访问直接透传请求协议。

对爬虫访问，按照设置规则进行处理，包括：依据断开当前用户连接，可以断开当前用户连接，并在设定的禁止访问时间段内禁止用户的IP对该网站的访问，也可以投递该访问给业务服务器，修改协议头增加爬虫标记字段，由业务服务器侧处理。

如图2所示，一种网站服务器爬虫识别的装置，其特征在于，包括：

来访用户标记模块：对每个来访用户，根据其IP地址进行唯一的标记；

如图4所示，所述装置前置于网站服务器端。

Claims

1.一种网站服务器爬虫识别方法，其特征在于，包括以下步骤：

S1：依据用户IP地址对访问用户进行标记；

S6：将判断为爬虫访问的用户进行处理。

2.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述核心资源访问请求划分方法为：请求资源类型为展示数据内容的协议请求为核心资源访问请求。

3.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述连续访问判断为：

4.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述内容连续性的爬虫访问判断方法为：

5.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述访问持续时间的爬虫访问判断方法为：

6.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述访问频度的爬虫访问判断步骤为：

F＝N_CR/T1

S14：判断访问频度值中除基准值F_y外的其它N-1个访问频度值是否满足范围[F_y-σ,F_y+σ]，当N-1个访问频度值全部满足范围时，通过设定频度阈值F_z，当基准值F_y大于频度阈值F_z时判定用户访问为爬虫访问。

7.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，对判定有爬虫访问的用户处理方法为：

8.根据权利要求1所述的一种网站服务器爬虫识别方法，其特征在于，所述爬虫访问判定的次序为：内容连续性判定、访问频度判定、访问持续时间判定。

9.一种网站服务器爬虫识别的装置，其特征在于，包括：

10.根据权利要求1所述的一种网站服务器爬虫识别的装置，其特征在于，所述装置前置于网站服务器端。