CN117118743B - 一种爬虫行为识别方法、装置、设备及存储介质 - Google Patents
一种爬虫行为识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117118743B CN117118743B CN202311331903.3A CN202311331903A CN117118743B CN 117118743 B CN117118743 B CN 117118743B CN 202311331903 A CN202311331903 A CN 202311331903A CN 117118743 B CN117118743 B CN 117118743B
- Authority
- CN
- China
- Prior art keywords
- user
- website
- credit value
- accessing
- credit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006399 behavior Effects 0.000 claims abstract description 44
- 230000008859 change Effects 0.000 claims abstract description 36
- 238000012795 verification Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 5
- 230000010354 integration Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 230000009193 crawling Effects 0.000 description 2
- 238000013101 initial test Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer And Data Communications (AREA)
Abstract
本申请实施例提供了一种爬虫行为识别方法、装置、设备及存储介质,本申请实施例通过信用分值和信用变化速度两种方法识别爬虫行为,达到高准确率的反爬虫防护,避免因为对用户访问特征的一次性判断而产生的爬虫误判,并通过与防火墙的集成,实现监测全部流量,实现不需要维护人员配置,即可完成反爬虫规则。
Description
技术领域
本申请各实施例属网络安全技术领域,尤其涉及一种爬虫行为识别方法、装置、设备及存储介质。
背景技术
网络爬虫能够自动的反复的不断抓取网站中的数据,这不仅威胁到了网站的数据安全,也因为爬虫往往在很短时间内产生大量访问,给网站的正常服务造成了很大负载,甚至产生崩溃风险。在反爬虫技术中,主要的技术方案包括:用户权限限制、图片验证码识别、基于 IP 限流。同时反爬虫方案都需要网站维护人员在自己的业务中引入反爬虫代码,包括引入Web 前端代码和后端 SDK。这种反爬虫方式对网站维护人员并不友好,主要问题包括:反爬虫能力侵入业务功能,需要在业务中维护与业务无关的反爬虫机制;反爬虫规则需要手动维护,每个网站收到爬虫威胁的程度和方式不同,为了避免误伤真实用户,需要网站维护人员手动调整反爬虫规则。
发明内容
为了解决或缓解现有技术中的问题,本发明实施例提供了一种爬虫行为识别方法、装置、设备及存储介质。
第一方面,本申请实施例提供了一种反爬虫行为识别方法,包括:
向首次访问网站的用户分发信用值;
根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
如果所述用户信用值变化速率大于预设阈值,则通过防火墙拦截所述用户访问网站的行为;
如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗;
对所述用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
当所述用户分发的信用值被消耗为0时,且所述用户进行再次访问请求时,则通过防火墙拦截所述用户访问网站的行为;
向所述用户推送人机识别验证界面进行验证;
确定所述用户是否通过人机识别验证,如果通过,则再次向所述用户分发信用值,如果未通过,则通过防火墙拦截所述用户访问一切接口。
作为本申请一优选实施例,所述向首次访问网站的用户分发信用值之前,包括:
对所述用户设置用户唯一编号 ID。
作为本申请一优选实施例,所述用户信用值变化速率通过以下方式计算:
k=1/(t2-t1)
其中,k为用户信用值变化速率,t2为当前用户访问网站的时间戳,t1为上一次用户访问网站的时间戳。
作为本申请一优选实施例,如果斜率k大于斜率阈值0.0001,则所述斜率计数器H加 1,否则斜率计数器H减 1,所述斜率计数器H的初试值为 0,当斜率计数器H 大于计数器阈值N时,重置用户的信用值为 0,并且重置斜率计数器 H 为 0。
作为本申请一优选实施例,所述如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗,包括:
通过用户访问网站的方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗。
作为本申请一优选实施例,所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗,具体通过以下方式计算:
A=B*(C+D),其中,A为信用值消耗,B为用户访问网站的访问方法,所述C为用户访问网站的访问类型,D为服务端的响应时间。
作为本申请一优选实施例,所述B通过以方式计算:其中,m为访问方法中的读取方式,当B为m时,则B的结果对应1,当B不为m时,则B的结果对应 0.6;
其中,所述C通过以方式计算:其中,f为访问类型中的多媒体类型,当C为f时,则C得分为0.05,当C不为f时,则C得分为0.004;
其中,所述D通过以方式计算:
D=m/105
其中,m为用户一次HTTP请求的总耗时。
与现有技术相比,本申请实施例通过信用分值和信用变化速度两种方法识别爬虫行为,达到高准确率的反爬虫防护。避免因为对用户访问特征的一次性判断而产生的爬虫误判,并通过与防火墙的集成,实现监测全部流量,实现不需要维护人员的配置,即可完成反爬虫规则。
第二方面,本申请实施例提供了一种反爬虫行为识别装置,包括:
分发模块,用于向首次访问网站的用户分发信用值;
第一计算模块,用于根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
拦截模块,用于如果所述用户信用值变化速率大于预设阈值,则通过防火墙拦截所述用户访问网站的行为;
第二计算模块,用于如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗;
累加模块,用于对所述用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
所述拦截模块,还用于当所述用户分发的信用值被消耗为0时,且所述用户进行再次访问请求时,则通过防火墙拦截所述用户访问网站的行为;
验证模块,用于向所述用户推送人机识别验证界面进行验证;
确定模块,用于确定所述用户是否通过人机识别验证,如果通过,则再次向所述用户分发信用值,如果未通过,则通过防火墙拦截所述用户访问一切接口。
第三方面,本申请实施例提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行第一方面所述的一种反爬虫行为识别方法步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的一种爬虫行为识别方法的步骤。
与现有技术相比,第二方面到第四方面提供的技术方案的有益效果与第一方面提供的技术方案的有益效果相同,在此不再赘述。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分,本领域技术人员应该理解的是,这些附图未必是按比例绘制的,在附图中:
图1是本申请实施例提供的一种爬虫行为识别方法的流程示意图;
图2是本申请实施例提供的一种爬虫行为识别装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
第一方面,如图1所示,本申请实施例提供了一种爬虫行为识别方法,包括:
步骤S01,向首次访问网站的用户分发信用值;
步骤S01之前,包括:对所述用户设置用户唯一编号 ID,并赋予所述用户初试信用值为0;
需要说明的是,首先,当用户首次访问网站时,在浏览器中设置cookie,用于标记用户U的唯一 ID。
首次需要对访问网站的用户分发信用值,当信用值小于等于 0 时,用户需要进行人机识别验证。
步骤S02,根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
在本申请实施例中,所述用户信用值变化速率通过以下方式计算:
k=1/(t2-t1)
其中,k为用户信用值变化速率,t2为当前用户访问网站的时间戳,t1 为上一次用户访问网站的时间戳。
具体的,如果斜率k大于斜率阈值0.0001,则所述斜率计数器H加 1,否则斜率计数器H减 1,所述斜率计数器H的初试值为 0,当斜率计数器H 大于计数器阈值N时,重置用户的信用值为 0,并且重置斜率计数器 H 为 0。
需要说明的是,为了能够尽快发现爬虫,再增加一个根据信用值变化速度来判断爬虫的方法,为每个用户记录一个信用值的斜率变化计数器H。当用户信用值每下降 1 分时,计算信用值下降斜率k。
爬虫抓取数据时具有速度快的特征,即短时间内访问大量数据,正常用户访问数据消耗的信用值过程斜率k较为平缓,爬虫消耗信用值的过程则更快,表现特征为信用值变化斜率k更大。
在用户每次进行HTTP请求时,都会计算每次访问网站的用户信用值变化速率,同时根据每次用户信用值变化速率与斜率阈值0.0001比较结果,确定斜率计数器H是否加1,当斜率计数器H 大于计数器阈值N时,就需要重置用户的信用值为 0,并且重置斜率计数器H 为 0,同时用户需要进行人机识别验证。
步骤S03,如果所述用户信用值变化速率大于预设阈值,则通过防火墙拦截所述用户访问网站的行为;
需要说明的时,根据步骤计算每次访问网站的用户信用值变化速率,如果信用值变化速率大于预设阈值,则说明爬虫抓取数据行为,则需要通过则通过防火墙拦截所述用户访问网站的行为。
步骤S04,如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗;
需要说明的时,如果用户信用值变化速率小于预设阈值,则说明爬虫抓取数据行为,此时需要计算所述用户每次访问网站的HTTP请求的信用值消耗。
步骤S04具体包括:通过用户访问网站的方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗。
所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗,具体通过以下方式计算:
A=B*(C+D),其中,A为信用值消耗,B为用户访问网站的访问方法,所述C为用户访问网站的访问类型,D为服务端的响应时间。
具体的,所述B通过以方式计算:其中,m为访问方法中的读取方式,则B的结果对应1,当B不为m时,则B的结果对应 0.6;
在本申请实施例中,访问方式包括:读取,更新、创建和删除。
其中,所述C通过以方式计算:其中,f为访问类型中的文本类型,当C为f时,则C得分为0.05,当C不为f时,则C得分为0.004;
其中,所述D通过以方式计算:
D=m/105
其中,m为用户一次HTTP请求的总耗时。
在本申请实施例中,计算过程中有 2 个固定参数和 1 个动态参数。固定参数是通过人机验证后获得的信用值,默认值 100;斜率计数器阈值H,默认值 5。动态参数是每次访问资源时从信用值中扣除信用值消耗A。
如果基于一个用户的信用值满分是 100,满分时可以正常访问 1000 个网站页面,每个页面的平均信用值消耗 A = 0.1。假定每个页面访问 10 个接口,每个接口耗时100ms,那么一次页面请求的 A= 1*(0.05 + 0.001)+10*(0.004 + 0.001) = 0.101。在计算信用值消耗 A 时用到参数是内置,为了自动适配不同网站的页面访问成本,允许修改信用值消耗 A计算过程中的参数,但推荐使用默认配置。
步骤S05,对所述用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
需要说明的是,用户通过验证后信用值就会进行增加预设信用值,当用户每次访问网站的内容时,会产生多次HTTP 请求,每个请求信用值消耗A。没调用一次接口,就会从用户信用值中扣除访问接口信用值消耗A。浏览网站的过程会持续消耗信用值,直到用户的信用值消耗为0。
步骤S06,当所述用户分发的信用值被消耗为0时,且所述用户进行再次访问请求时,则通过防火墙拦截所述用户访问网站的行为;
需要说明的是,当所述用户分发的信用值被消耗为0时,用户的下一次访问页面的请求,将被防火墙拦截。
步骤S07,向所述用户推送人机识别验证界面进行验证;
需要说明的是,当用户访问网站的行为被拦截后,需要重新进行人机识别验证,人机识别页面会对用户环境自动进行检测。
步骤S08,确定所述用户是否通过人机识别验证,如果通过,则再次向所述用户分发信用值,如果未通过,则通过防火墙拦截用户访问一切接口。
需要说明的是,如果通过人机识别验证,如果判断为普通用户,则将用户的信用值设置为T。如果人机识别页面自动检测结果,怀疑当前用户为爬虫,则会弹出基于视觉识别功能的人机识别验证,如果用户通过了视觉人机识别验证,为用户增加信用值并刷新访问页面。如果用户无法通过视觉人机识别验证,则禁止用户的其它一切接口访问,并返回HTTP错误码 405。
以下以两个具体应用场景说明本发明的技术方案:
场景A
假设小明正在访问受反爬虫防火墙保护的网站 Site,他的访问步骤是:
小明首次访问,被防火墙设置了用户唯一编号ID,并赋予初试信用值C为 0。
小明访问某个页面,此时他的信用值为0,因此小明看到的是“人机验证”的识别页面。
小明通过了人机验证的识别后,信用值被设置为 100,小明可以继续访问页面。
小明每次访问页面都会消耗部分信用值,并且因为小明在访问正常访问情况下,不会触发访问速率阈值,因此小明的访问仅仅会消耗信用值。
经过长时间访问后,小明的信用值被消耗到0,小明再次访问页面时,被再次要求进行“人机验证”。然后重复进行上述步骤。
场景B
假设某爬虫正在访问受反爬虫防火墙保护的网站Site,它的访问步骤是:
爬虫首次访问,被防火墙设置了用户唯一编号ID,并赋予初试信用值 C 为 0。
爬虫访问某个页面,此时它的信用值为0,因此爬虫看到的是“人机验证”的识别页面。
此时有2种情况,爬虫无法通过人机验证页面,则结束继续进行访问。
在步骤 3 种,人为帮助下,爬虫通过了人机验证,继续访问网站。
爬虫进行页面抓取并持续消耗信用值,在消耗信用值时,每降低1分,就会触发一次访问速率计算。
因为爬虫抓取速度快,因此会连续触发访问速率阈值,当第5次触发时,爬虫被再次要求进行人机验证,此时将重复步骤3的过程。
如果某个IP触发人机验证过程过于频繁,将产生IP威胁情报,将这个IP视作存在风险的IP在防火墙中进行拦截。
第二方面,本申请实施例提供了一种反爬虫行为识别装置,包括:
分发模块21,用于向首次访问网站的用户分发信用值;
第一计算模块22,用于根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
拦截模块23,用于如果所述用户信用值变化速率大于预设阈值,则通过防火墙拦截所述用户访问网站的行为;
第二计算模块24,用于如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗;
累加模块25,用于对所述用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
所述拦截模块23,还用于当所述用户分发的信用值被消耗为0时,且所述用户进行再次访问请求时,则通过防火墙拦截所述用户访问网站的行为;
验证模块26,用于向所述用户推送人机识别验证界面进行验证;
确定模块27,用于确定所述用户是否通过人机识别验证,如果通过,则再次向所述用户分发信用值,如果未通过,则通过防火墙拦截用户访问一切接口。
第三方面,本申请实施例提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行第一方面所述的一种反爬虫行为识别方法步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的一种爬虫行为识别方法的步骤。
与现有技术相比,第二方面到第四方面提供的技术方案的有益效果与第一方面提供的技术方案的有益效果相同,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种爬虫行为识别方法,其特征在于,包括:
向首次访问网站的用户分发信用值;
根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
如果用户信用值变化速率大于预设阈值,则通过防火墙拦截用户访问网站的行为;
如果用户信用值变化速率小于预设阈值,计算用户每次访问网站的HTTP请求的信用值消耗;
对用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
当用户分发的信用值被消耗为0时,且用户进行再次访问请求时,则通过防火墙拦截用户访问网站的行为;
向用户推送人机识别验证界面进行验证;
确定用户是否通过人机识别验证,如果通过,则再次向用户分发信用值,如果未通过,则通过防火墙拦截用户访问一切接口。
2.如权利要求1所述的爬虫行为识别方法,其特征在于,所述向首次访问网站的用户分发信用值之前,包括:
对用户设置用户唯一编号 ID。
3.如权利要求1所述的爬虫行为识别方法,其特征在于,所述用户信用值变化速率通过以下方式计算:k=1/(t2-t1)其中,k为用户信用值变化速率,t2为当前用户访问网站的时间戳,t1为上一次用户访问网站的时间戳。
4.如权利要求3所述的爬虫行为识别方法,其特征在于,
如果斜率k大于斜率阈值0.0001,则斜率计数器H加 1,否则斜率计数器H减 1,所述斜率计数器H的初试值为 0,当斜率计数器H 大于计数器阈值N时,重置用户的信用值为 0,并且重置斜率计数器 H 为 0。
5.如权利要求1所述的爬虫行为识别方法,其特征在于,所述如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗,包括:
通过用户访问网站的方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗。
6.如权利要求5所述的爬虫行为识别方法,其特征在于,所述通过用户访问网站的访问方法、访问类型和服务端的响应时间计算所述用户每次访问网站的HTTP请求的信用值消耗,具体通过以下方式计算:
A=B*(C+D),其中,A为信用值消耗,B为用户访问网站的访问方法,C为用户访问网站的访问类型,D为服务端的响应时间。
7.如权利要求6所述的一种爬虫行为识别方法,其特征在于,
所述B通过以方式计算:其中,m为访问方法中的读取方式,当B为m时,则B的结果对应1,当B不为m时,则B的结果对应 0.6 ;
其中,所述C通过以方式计算:其中,f为访问类型中的多媒体类型,当C为f时,则C得分为0.05,当C不为f时,则C得分为0.004;
其中,所述D通过以方式计算:
D=m/105其中,m为用户一次HTTP请求的总耗时。
8.一种爬虫行为识别装置,其特征在于,包括:
分发模块,用于向首次访问网站的用户分发信用值;
第一计算模块,用于根据用户每次访问网站的HTTP请求,计算每次访问网站的用户信用值变化速率;
拦截模块,用于如果所述用户信用值变化速率大于预设阈值,则通过防火墙拦截所述用户访问网站的行为;
第二计算模块,用于如果所述用户信用值变化速率小于预设阈值,计算所述用户每次访问网站的HTTP请求的信用值消耗;
累加模块,用于对所述用户每次访问网站的HTTP请求的信用值消耗进行累加,直到用户分发的信用值被消耗为0;
所述拦截模块,还用于当所述用户分发的信用值被消耗为0时,且所述用户进行再次访问请求时,则通过防火墙拦截所述用户访问网站的行为;
验证模块,用于向所述用户推送人机识别验证界面进行验证;
确定模块,用于确定所述用户是否通过人机识别验证,如果通过,则再次向所述用户分发信用值,如果未通过,则通过防火墙拦截所述用户访问一切接口。
9.一种电子设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1至7任一项所述的一种爬虫行为识别方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种爬虫行为识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331903.3A CN117118743B (zh) | 2023-10-16 | 2023-10-16 | 一种爬虫行为识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331903.3A CN117118743B (zh) | 2023-10-16 | 2023-10-16 | 一种爬虫行为识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117118743A CN117118743A (zh) | 2023-11-24 |
CN117118743B true CN117118743B (zh) | 2024-01-23 |
Family
ID=88813042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311331903.3A Active CN117118743B (zh) | 2023-10-16 | 2023-10-16 | 一种爬虫行为识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117118743B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426415A (zh) * | 2015-10-30 | 2016-03-23 | Tcl集团股份有限公司 | 网站访问请求的管理方法、装置及系统 |
CN109617914A (zh) * | 2019-01-15 | 2019-04-12 | 成都知道创宇信息技术有限公司 | 一种基于ip征信的云安全防护方法 |
CN109831451A (zh) * | 2019-03-07 | 2019-05-31 | 北京华安普特网络科技有限公司 | 基于防火墙的防挂马方法 |
CN112165475A (zh) * | 2020-09-22 | 2021-01-01 | 成都知道创宇信息技术有限公司 | 反爬虫方法、装置、网站服务器和可读存储介质 |
WO2021114454A1 (zh) * | 2019-12-13 | 2021-06-17 | 网宿科技股份有限公司 | 一种检测爬虫请求的方法和装置 |
CN113364753A (zh) * | 2021-05-31 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 反爬虫方法、装置、电子设备及计算机可读存储介质 |
-
2023
- 2023-10-16 CN CN202311331903.3A patent/CN117118743B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426415A (zh) * | 2015-10-30 | 2016-03-23 | Tcl集团股份有限公司 | 网站访问请求的管理方法、装置及系统 |
CN109617914A (zh) * | 2019-01-15 | 2019-04-12 | 成都知道创宇信息技术有限公司 | 一种基于ip征信的云安全防护方法 |
CN109831451A (zh) * | 2019-03-07 | 2019-05-31 | 北京华安普特网络科技有限公司 | 基于防火墙的防挂马方法 |
WO2021114454A1 (zh) * | 2019-12-13 | 2021-06-17 | 网宿科技股份有限公司 | 一种检测爬虫请求的方法和装置 |
CN112165475A (zh) * | 2020-09-22 | 2021-01-01 | 成都知道创宇信息技术有限公司 | 反爬虫方法、装置、网站服务器和可读存储介质 |
CN113364753A (zh) * | 2021-05-31 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 反爬虫方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117118743A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107943949B (zh) | 一种确定网络爬虫的方法及服务器 | |
CN108112038B (zh) | 一种控制访问流量的方法及装置 | |
CN108924118B (zh) | 一种撞库行为检测方法及系统 | |
CN110113393B (zh) | 一种消息推送方法、装置、电子设备及介质 | |
CN105591743A (zh) | 通过用户终端的设备运行特征进行身份鉴权的方法及装置 | |
CN113591068B (zh) | 一种在线登录设备管理方法、装置及电子设备 | |
CN103973635A (zh) | 页面访问控制方法和相关装置及系统 | |
CN109981533B (zh) | 一种DDoS攻击检测方法、装置、电子设备及存储介质 | |
CN106339629A (zh) | 一种应用程序管理方法及装置 | |
CN115378713B (zh) | 区块链应用预警防御方法、存储介质和电子设备 | |
US10742668B2 (en) | Network attack pattern determination apparatus, determination method, and non-transitory computer readable storage medium thereof | |
AU2017273371B2 (en) | Method and device for preventing server from being attacked | |
CN114157568B (zh) | 一种浏览器安全访问方法、装置、设备及存储介质 | |
CN106572056A (zh) | 一种风险监控方法及装置 | |
CN117118743B (zh) | 一种爬虫行为识别方法、装置、设备及存储介质 | |
CN111541687B (zh) | 一种网络攻击检测方法及装置 | |
CN109756762B (zh) | 一种终端类别的确定方法及装置 | |
CN110719337A (zh) | 业务系统、业务请求处理方法、装置及服务器 | |
CN115051867B (zh) | 一种非法外联行为的检测方法、装置、电子设备及介质 | |
CN116451071A (zh) | 样本标注方法、设备及可读存储介质 | |
CN107124330B (zh) | 数据下载控制方法及系统 | |
CN116016174A (zh) | 规则库升级方法、装置、电子设备和存储介质 | |
CN114157482A (zh) | 一种业务访问控制方法、装置、控制设备及存储介质 | |
CN112866265B (zh) | 一种csrf攻击防护方法及装置 | |
CN113923039A (zh) | 攻击设备识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |