CN117118743A

CN117118743A - 一种爬虫行为识别方法、装置、设备及存储介质

Info

Publication number: CN117118743A
Application number: CN202311331903.3A
Authority: CN
Inventors: 王德龙; 朱文雷
Original assignee: Beijing Chaitin Tech Co ltd
Current assignee: Beijing Chaitin Tech Co ltd
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-11-24
Anticipated expiration: 2043-10-16
Also published as: CN117118743B

Abstract

本申请实施例提供了一种爬虫行为识别方法、装置、设备及存储介质，本申请实施例通过信用分值和信用变化速度两种方法识别爬虫行为，达到高准确率的反爬虫防护，避免因为对用户访问特征的一次性判断而产生的爬虫误判，并通过与防火墙的集成，实现监测全部流量，实现不需要维护人员配置，即可完成反爬虫规则。

Description

一种爬虫行为识别方法、装置、设备及存储介质

技术领域

本申请各实施例属网络安全技术领域，尤其涉及一种爬虫行为识别方法、装置、设备及存储介质。

背景技术

网络爬虫能够自动的反复的不断抓取网站中的数据，这不仅威胁到了网站的数据安全，也因为爬虫往往在很短时间内产生大量访问，给网站的正常服务造成了很大负载，甚至产生崩溃风险。在反爬虫技术中，主要的技术方案包括：用户权限限制、图片验证码识别、基于 IP 限流。同时反爬虫方案都需要网站维护人员在自己的业务中引入反爬虫代码，包括引入Web 前端代码和后端 SDK。这种反爬虫方式对网站维护人员并不友好，主要问题包括：反爬虫能力侵入业务功能，需要在业务中维护与业务无关的反爬虫机制；反爬虫规则需要手动维护，每个网站收到爬虫威胁的程度和方式不同，为了避免误伤真实用户，需要网站维护人员手动调整反爬虫规则。

发明内容

为了解决或缓解现有技术中的问题，本发明实施例提供了一种爬虫行为识别方法、装置、设备及存储介质。

第一方面，本申请实施例提供了一种反爬虫行为识别方法，包括：

向首次访问网站的用户分发信用值；

根据用户每次访问网站的HTTP请求，计算每次访问网站的用户信用值变化速率；

如果所述用户信用值变化速率大于预设阈值，则通过防火墙拦截所述用户访问网站的行为；

如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗；

对所述用户每次访问网站的HTTP请求的信用值消耗进行累加，直到用户分发的信用值被消耗为0；

当所述用户分发的信用值被消耗为0时，且所述用户进行再次访问请求时，则通过防火墙拦截所述用户访问网站的行为；

向所述用户推送人机识别验证界面进行验证；

确定所述用户是否通过人机识别验证，如果通过，则再次向所述用户分发信用值，如果未通过，则通过防火墙拦截所述用户访问一切接口。

作为本申请一优选实施例，所述向首次访问网站的用户分发信用值之前，包括：

对所述用户设置用户唯一编号 ID。

作为本申请一优选实施例，所述用户信用值变化速率通过以下方式计算：

k=1/（t₂-t₁）

其中，k为用户信用值变化速率，t₂为当前用户访问网站的时间戳，t₁为上一次用户访问网站的时间戳。

作为本申请一优选实施例，如果斜率k大于斜率阈值0.0001，则所述斜率计数器H加 1，否则斜率计数器H减 1，所述斜率计数器H的初试值为 0，当斜率计数器H 大于计数器阈值N时，重置用户的信用值为 0，并且重置斜率计数器 H 为 0。

作为本申请一优选实施例，所述如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗，包括：

通过用户访问网站的方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗。

作为本申请一优选实施例，所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗，具体通过以下方式计算：

A=B*（C+D），其中，A为信用值消耗，B为用户访问网站的访问方法，所述C为用户访问网站的访问类型，D为服务端的响应时间。

作为本申请一优选实施例，所述B通过以方式计算：其中，m为访问方法中的读取方式，当B为m时，则B的结果对应1，当B不为m时，则B的结果对应 0.6；

其中，所述C通过以方式计算：其中，f为访问类型中的多媒体类型，当C为f时，则C得分为0.05，当C不为f时，则C得分为0.004；

其中，所述D通过以方式计算：

D=m/10⁵

其中，m为用户一次HTTP请求的总耗时。

与现有技术相比，本申请实施例通过信用分值和信用变化速度两种方法识别爬虫行为，达到高准确率的反爬虫防护。避免因为对用户访问特征的一次性判断而产生的爬虫误判，并通过与防火墙的集成，实现监测全部流量，实现不需要维护人员的配置，即可完成反爬虫规则。

第二方面，本申请实施例提供了一种反爬虫行为识别装置，包括：

分发模块，用于向首次访问网站的用户分发信用值；

第一计算模块，用于根据用户每次访问网站的HTTP请求，计算每次访问网站的用户信用值变化速率；

拦截模块，用于如果所述用户信用值变化速率大于预设阈值，则通过防火墙拦截所述用户访问网站的行为；

第二计算模块，用于如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗；

累加模块，用于对所述用户每次访问网站的HTTP请求的信用值消耗进行累加，直到用户分发的信用值被消耗为0；

所述拦截模块，还用于当所述用户分发的信用值被消耗为0时，且所述用户进行再次访问请求时，则通过防火墙拦截所述用户访问网站的行为；

验证模块，用于向所述用户推送人机识别验证界面进行验证；

确定模块，用于确定所述用户是否通过人机识别验证，如果通过，则再次向所述用户分发信用值，如果未通过，则通过防火墙拦截所述用户访问一切接口。

第三方面，本申请实施例提供了一种电子设备，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行第一方面所述的一种反爬虫行为识别方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的一种爬虫行为识别方法的步骤。

与现有技术相比，第二方面到第四方面提供的技术方案的有益效果与第一方面提供的技术方案的有益效果相同，在此不再赘述。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分，本领域技术人员应该理解的是，这些附图未必是按比例绘制的，在附图中：

图1是本申请实施例提供的一种爬虫行为识别方法的流程示意图；

图2是本申请实施例提供的一种爬虫行为识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

第一方面，如图1所示，本申请实施例提供了一种爬虫行为识别方法，包括：

步骤S01，向首次访问网站的用户分发信用值；

步骤S01之前，包括：对所述用户设置用户唯一编号 ID，并赋予所述用户初试信用值为0；

需要说明的是，首先，当用户首次访问网站时，在浏览器中设置cookie，用于标记用户U的唯一 ID。

首次需要对访问网站的用户分发信用值，当信用值小于等于 0 时，用户需要进行人机识别验证。

步骤S02，根据用户每次访问网站的HTTP请求，计算每次访问网站的用户信用值变化速率；

在本申请实施例中，所述用户信用值变化速率通过以下方式计算：

k=1/（t₂-t₁）

具体的，如果斜率k大于斜率阈值0.0001，则所述斜率计数器H加 1，否则斜率计数器H减 1，所述斜率计数器H的初试值为 0，当斜率计数器H 大于计数器阈值N时，重置用户的信用值为 0，并且重置斜率计数器 H 为 0。

需要说明的是，为了能够尽快发现爬虫，再增加一个根据信用值变化速度来判断爬虫的方法，为每个用户记录一个信用值的斜率变化计数器H。当用户信用值每下降 1 分时，计算信用值下降斜率k。

爬虫抓取数据时具有速度快的特征，即短时间内访问大量数据，正常用户访问数据消耗的信用值过程斜率k较为平缓，爬虫消耗信用值的过程则更快，表现特征为信用值变化斜率k更大。

在用户每次进行HTTP请求时，都会计算每次访问网站的用户信用值变化速率，同时根据每次用户信用值变化速率与斜率阈值0.0001比较结果，确定斜率计数器H是否加1，当斜率计数器H 大于计数器阈值N时，就需要重置用户的信用值为 0，并且重置斜率计数器H 为 0，同时用户需要进行人机识别验证。

步骤S03，如果所述用户信用值变化速率大于预设阈值，则通过防火墙拦截所述用户访问网站的行为；

需要说明的时，根据步骤计算每次访问网站的用户信用值变化速率，如果信用值变化速率大于预设阈值，则说明爬虫抓取数据行为，则需要通过则通过防火墙拦截所述用户访问网站的行为。

步骤S04，如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗；

需要说明的时，如果用户信用值变化速率小于预设阈值，则说明爬虫抓取数据行为，此时需要计算所述用户每次访问网站的HTTP请求的信用值消耗。

步骤S04具体包括：通过用户访问网站的方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗。

所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗，具体通过以下方式计算：

具体的，所述B通过以方式计算：其中，m为访问方法中的读取方式，则B的结果对应1，当B不为m时，则B的结果对应 0.6；

在本申请实施例中，访问方式包括：读取，更新、创建和删除。

其中，所述C通过以方式计算：其中，f为访问类型中的文本类型，当C为f时，则C得分为0.05，当C不为f时，则C得分为0.004；

其中，所述D通过以方式计算：

D=m/10⁵

其中，m为用户一次HTTP请求的总耗时。

在本申请实施例中，计算过程中有 2 个固定参数和 1 个动态参数。固定参数是通过人机验证后获得的信用值，默认值 100；斜率计数器阈值H，默认值 5。动态参数是每次访问资源时从信用值中扣除信用值消耗A。

如果基于一个用户的信用值满分是 100，满分时可以正常访问 1000 个网站页面，每个页面的平均信用值消耗 A = 0.1。假定每个页面访问 10 个接口，每个接口耗时100ms，那么一次页面请求的 A= 1*(0.05 + 0.001)+10*(0.004 + 0.001) = 0.101。在计算信用值消耗 A 时用到参数是内置，为了自动适配不同网站的页面访问成本，允许修改信用值消耗 A计算过程中的参数，但推荐使用默认配置。

步骤S05，对所述用户每次访问网站的HTTP请求的信用值消耗进行累加，直到用户分发的信用值被消耗为0；

需要说明的是，用户通过验证后信用值就会进行增加预设信用值，当用户每次访问网站的内容时，会产生多次HTTP 请求，每个请求信用值消耗A。没调用一次接口，就会从用户信用值中扣除访问接口信用值消耗A。浏览网站的过程会持续消耗信用值，直到用户的信用值消耗为0。

步骤S06，当所述用户分发的信用值被消耗为0时，且所述用户进行再次访问请求时，则通过防火墙拦截所述用户访问网站的行为；

需要说明的是，当所述用户分发的信用值被消耗为0时，用户的下一次访问页面的请求，将被防火墙拦截。

步骤S07，向所述用户推送人机识别验证界面进行验证；

需要说明的是，当用户访问网站的行为被拦截后，需要重新进行人机识别验证，人机识别页面会对用户环境自动进行检测。

步骤S08，确定所述用户是否通过人机识别验证，如果通过，则再次向所述用户分发信用值，如果未通过，则通过防火墙拦截用户访问一切接口。

需要说明的是，如果通过人机识别验证，如果判断为普通用户，则将用户的信用值设置为T。如果人机识别页面自动检测结果，怀疑当前用户为爬虫，则会弹出基于视觉识别功能的人机识别验证，如果用户通过了视觉人机识别验证，为用户增加信用值并刷新访问页面。如果用户无法通过视觉人机识别验证，则禁止用户的其它一切接口访问，并返回HTTP错误码 405。

以下以两个具体应用场景说明本发明的技术方案：

场景A

假设小明正在访问受反爬虫防火墙保护的网站 Site，他的访问步骤是：

小明首次访问，被防火墙设置了用户唯一编号ID，并赋予初试信用值C为 0。

小明访问某个页面，此时他的信用值为0，因此小明看到的是“人机验证”的识别页面。

小明通过了人机验证的识别后，信用值被设置为 100，小明可以继续访问页面。

小明每次访问页面都会消耗部分信用值，并且因为小明在访问正常访问情况下，不会触发访问速率阈值，因此小明的访问仅仅会消耗信用值。

经过长时间访问后，小明的信用值被消耗到0，小明再次访问页面时，被再次要求进行“人机验证”。然后重复进行上述步骤。

场景B

假设某爬虫正在访问受反爬虫防火墙保护的网站Site，它的访问步骤是：

爬虫首次访问，被防火墙设置了用户唯一编号ID，并赋予初试信用值 C 为 0。

爬虫访问某个页面，此时它的信用值为0，因此爬虫看到的是“人机验证”的识别页面。

此时有2种情况，爬虫无法通过人机验证页面，则结束继续进行访问。

在步骤 3 种，人为帮助下，爬虫通过了人机验证，继续访问网站。

爬虫进行页面抓取并持续消耗信用值，在消耗信用值时，每降低1分，就会触发一次访问速率计算。

因为爬虫抓取速度快，因此会连续触发访问速率阈值，当第5次触发时，爬虫被再次要求进行人机验证，此时将重复步骤3的过程。

如果某个IP触发人机验证过程过于频繁，将产生IP威胁情报，将这个IP视作存在风险的IP在防火墙中进行拦截。

分发模块21，用于向首次访问网站的用户分发信用值；

第一计算模块22，用于根据用户每次访问网站的HTTP请求，计算每次访问网站的用户信用值变化速率；

拦截模块23，用于如果所述用户信用值变化速率大于预设阈值，则通过防火墙拦截所述用户访问网站的行为；

第二计算模块24，用于如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗；

累加模块25，用于对所述用户每次访问网站的HTTP请求的信用值消耗进行累加，直到用户分发的信用值被消耗为0；

所述拦截模块23，还用于当所述用户分发的信用值被消耗为0时，且所述用户进行再次访问请求时，则通过防火墙拦截所述用户访问网站的行为；

验证模块26，用于向所述用户推送人机识别验证界面进行验证；

确定模块27，用于确定所述用户是否通过人机识别验证，如果通过，则再次向所述用户分发信用值，如果未通过，则通过防火墙拦截用户访问一切接口。

所述存储器用于存储一个或多个程序指令；

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种爬虫行为识别方法，其特征在于，包括：

向首次访问网站的用户分发信用值；

如果用户信用值变化速率大于预设阈值，则通过防火墙拦截用户访问网站的行为；

如果用户信用值变化速率小于预设阈值，计算用户每次访问网站的HTTP请求的信用值消耗；

对用户每次访问网站的HTTP请求的信用值消耗进行累加，直到用户分发的信用值被消耗为0；

当用户分发的信用值被消耗为0时，且用户进行再次访问请求时，则通过防火墙拦截用户访问网站的行为；

向用户推送人机识别验证界面进行验证；

确定用户是否通过人机识别验证，如果通过，则再次向用户分发信用值，如果未通过，则通过防火墙拦截用户访问一切接口。

2.如权利要求1所述的爬虫行为识别方法，其特征在于，所述向首次访问网站的用户分发信用值之前，包括：

对用户设置用户唯一编号 ID。

3.如权利要求1所述的爬虫行为识别方法，其特征在于，所述用户信用值变化速率通过以下方式计算：k=1/（t₂-t₁）其中，k为用户信用值变化速率，t₂为当前用户访问网站的时间戳，t₁为上一次用户访问网站的时间戳。

4.如权利要求3所述的爬虫行为识别方法，其特征在于，

如果斜率k大于斜率阈值0.0001，则斜率计数器H加 1，否则斜率计数器H减 1，所述斜率计数器H的初试值为 0，当斜率计数器H 大于计数器阈值N时，重置用户的信用值为 0，并且重置斜率计数器 H 为 0。

5.如权利要求1所述的爬虫行为识别方法，其特征在于，所述如果所述用户信用值变化速率小于预设阈值，计算所述用户每次访问网站的HTTP请求的信用值消耗，包括：

6.如权利要求5所述的爬虫行为识别方法，其特征在于，所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗，具体通过以下方式计算：

A=B*（C+D），其中，A为信用值消耗，B为用户访问网站的访问方法，C为用户访问网站的访问类型，D为服务端的响应时间。

7.如权利要求6所述的一种爬虫行为识别方法，其特征在于，

所述B通过以方式计算：其中，m为访问方法中的读取方式，当B为m时，则B的结果对应1，当B不为m时，则B的结果对应 0.6 ；

其中，所述D通过以方式计算：

D=m/10⁵其中，m为用户一次HTTP请求的总耗时。

8.一种爬虫行为识别装置，其特征在于，包括：

分发模块，用于向首次访问网站的用户分发信用值；

9.一种电子设备，其特征在于，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至7任一项所述的一种爬虫行为识别方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种爬虫行为识别方法的步骤。