CN113810381A - 一种爬虫检测方法、web应用云防火墙、装置和存储介质 - Google Patents

一种爬虫检测方法、web应用云防火墙、装置和存储介质 Download PDF

Info

Publication number
CN113810381A
CN113810381A CN202110968443.XA CN202110968443A CN113810381A CN 113810381 A CN113810381 A CN 113810381A CN 202110968443 A CN202110968443 A CN 202110968443A CN 113810381 A CN113810381 A CN 113810381A
Authority
CN
China
Prior art keywords
crawler
address
malicious
tendency
detection method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968443.XA
Other languages
English (en)
Other versions
CN113810381B (zh
Inventor
娄宇
范渊
杨勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202110968443.XA priority Critical patent/CN113810381B/zh
Publication of CN113810381A publication Critical patent/CN113810381A/zh
Application granted granted Critical
Publication of CN113810381B publication Critical patent/CN113810381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • H04L63/205Network architectures or network communication protocols for network security for managing network security; network security policies in general involving negotiation or determination of the one or more network security mechanisms to be used, e.g. by negotiation between the client and the server or between peers or by selection according to the capabilities of the entities involved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种爬虫检测方法、web应用云防火墙、装置和存储介质,通过获取站点的爬虫数据,其中,爬虫数据携带有来源IP地址、用户代理信息和时间戳;将来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定来源IP地址的恶意倾向,其中,标签所指示的恶意倾向从高到低排列分别包括第一等级、第二等级和第三等级;在来源IP地址的恶意倾向属于第二等级的情况下,根据爬虫数据生成各用户代理的爬虫特征信息,并将爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定用户代理的恶意倾向,解决了相关技术中爬虫检测方法存在检测不够准确的问题,提升了爬虫检测方法的准确度。

Description

一种爬虫检测方法、web应用云防火墙、装置和存储介质
技术领域
本申请涉及防爬虫技术领域,特别是涉及一种爬虫检测方法、web应用云防火墙、装置和存储介质。
背景技术
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫有一些是正向的如百度搜索引擎、谷歌搜索引擎等能够将用户的网站内容索引到互联网上,为网站引流。还有一些爬虫是负面的,即恶意爬虫,它们大多以利益为目的,或是为了攻击站点做信息收集,或是为了偷取站点上的有用信息,造成网站的带宽和机器处理资源的极大浪费,如果能够将这部分请求拦截掉将会节省成本。
相关技术通常采用请求报文中的信息还原出访问者画像的方式来识别恶意爬虫,然而请求报文中的Referer(网站来路)、User-Agent(用户代理)、Cookie(储存在用户本地终端上的数据)等客户端信息均可伪造,导致直接依靠这些信息的反爬装置无法起到很好的反爬虫效果。
针对相关技术中爬虫检测方法存在检测不够准确的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种爬虫检测方法、web应用云防火墙、装置和存储介质,以解决相关技术中爬虫检测方法存在检测不够准确的问题。
第一个方面,在本实施例中提供了一种爬虫检测方法,包括:
获取站点的爬虫数据,其中,所述爬虫数据携带有来源IP地址、用户代理信息和时间戳;
将所述来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定所述来源IP地址的恶意倾向,其中,所述标签所指示的恶意倾向从高到低排列分别包括第一等级、第二等级和第三等级;
在所述来源IP地址的恶意倾向属于所述第二等级的情况下,根据所述爬虫数据生成各用户代理的爬虫特征信息,并将所述爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定所述用户代理的恶意倾向。
在其中的一些实施例中,爬虫特征信息包括以下至少之一:
在预设周期内对应于第一响应码的访问频次;
在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值;
在预设周期内对应于第二响应码的访问数量;
在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值。
在其中的一些实施例中,所述第一响应码包括200,所述第二响应码包括以下至少之一:401、500、403。
在其中的一些实施例中,所述爬虫行为规则包括以下至少之一:
规则一,判断在预设周期内对应于第一响应码的访问频次是否超过阈值A,若是,则确定所述用户代理的恶意倾向属于第一等级;
规则二,判断在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值是否低于阈值B,若是,则确定所述用户代理的恶意倾向属于第三等级;
规则三,判断在预设周期内对应于第二响应码的访问数量是否超过阈值C,若是,则确定所述用户代理的恶意倾向属于第一等级;
规则四,判断在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值是否超过阈值D,若是,则确定所述用户代理的恶意倾向属于第一等级。
在其中的一些实施例中,获取站点的爬虫数据包括:
在站点中设置密饵,记录向所述密饵发起的访问请求信息,并确定所述访问请求信息为所述爬虫数据,其中,所述密饵包括在所述站点的响应页面中设置的页面密饵和/或在所述站点的端口中设置的端口密饵。
在其中的一些实施例中,在所述站点的响应页面中设置所述页面密饵包括:
在所述站点的响应页面中设置内链。
在其中的一些实施例中,在所述站点的端口中设置所述端口密饵包括:
获取所述站点的域名,在所述站点的域名下开设不同于默认端口的新端口,基于所述新端口接收所述访问请求信息。
在其中的一些实施例中,各所述预设IP地址携带有至少一类标签,将所述来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定所述来源IP地址的恶意倾向包括:
在所述来源IP地址和携带有多类标签的预设IP地址相匹配的情况下,获取所述站点的业务信息,根据所述站点的业务信息确定多类标签中的目标标签,并根据所述目标标签确定所述来源IP地址的恶意倾向。
在其中的一些实施例中,在所述来源IP地址的恶意倾向属于所述第二等级的情况下,根据所述爬虫数据生成各用户代理的爬虫特征信息,并将所述爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定所述用户代理的恶意倾向之后,还包括:
在检测到所述用户代理的恶意倾向属于所述第一等级的情况下,启动防护策略对站点进行防护处理。
第二个方面,在本实施例中提供了一种web应用云防火墙,所述web应用云防火墙用于执行上述第一个方面的爬虫检测方法。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述第一个方面的爬虫检测方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一个方面的爬虫检测方法的步骤。
与相关技术相比,在本实施例中提供的爬虫检测方法、web应用云防火墙、装置和存储介质,通过获取站点的爬虫数据,其中,爬虫数据携带有来源IP地址、用户代理信息和时间戳;将来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定来源IP地址的恶意倾向,其中,标签所指示的恶意倾向从高到低排列分别包括第一等级、第二等级和第三等级;在来源IP地址的恶意倾向属于第二等级的情况下,根据爬虫数据生成各用户代理的爬虫特征信息,并将爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定用户代理的恶意倾向,解决了相关技术中爬虫检测方法存在检测不够准确的问题,提升了爬虫检测方法的准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本实施例的爬虫检测方法的硬件结构框图;
图2是本实施例的爬虫检测方法的流程图;
图3是本实施例的web应用云防火墙系统的运行原理图;
图4是本实施例的web应用云防火墙系统的网络部署示意图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,除特别说明外,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的爬虫检测方法的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的爬虫检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种爬虫检测方法,图2是本实施例的爬虫检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取站点的爬虫数据,其中,爬虫数据携带有来源IP地址、用户代理信息和时间戳。
来源IP地址、用户代理信息和时间戳等信息均来自于http的请求报文。源IP地址即访问站点的客户端IP,不能伪造,只能通过代理隐藏真实IP,显示的是代理IP;用户代理信息,即User-Agent,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等;时间戳即http请求报文的请求时间。
提取到的来源IP地址、用户代理信息,时间戳即为一个请求者信息记录,如一个请求者信息记录为:(192.168.20.1,Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/87.0.4280.88 Safari/537.36,1626782626964)。
步骤S202,将来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定来源IP地址的恶意倾向,其中,标签所指示的恶意倾向从高到低排列分别包括第一等级、第二等级和第三等级。
其中,预设IP地址及其携带的标签可以通过多种方式获得,比如:人工输入、网络资源收集、蜜罐捕获、云防火墙历史攻击数据等。
一般情况下,一个IP地址会有多个标签,对于每个标签的正向或负向评价依不同的业务场景来判定,本申请仅对网站访问识别业务进行分析,将IP地址按照恶意倾向从高到低分为第一等级、第二等级和第三等级三类。为了更好的理解本实施例,将正向评价的标签称为黑标签,负向评价的标签称为白标签,中性评价的标签称为白标签。IP地址的恶意倾向等级可以通过以下规则进行评定:
若IP地址的全部标签为黑标签,则该IP地址的恶意倾向被判定为第一等级。
若IP地址的所有标签中不存在黑标签,则该IP地址的恶意倾向被判定为第二等级。
若IP地址为以上两种情况以外的情形,则该IP地址的恶意倾向被判定为第三等级。
具体地,若来源IP地址未能与预设IP地址进行匹配,则直接将该IP地址的恶意倾向判定为第二等级。
为清楚地理解以上规则,假设有以下黑标签和白标签:
黑标签:apt,c2、钓鱼网站、apt_apt29、apt_nobelium、scanner。
白标签:spider、IDC服务器。
假设有来源IP地址为83.171.237.173与预设IP地址匹配成功,该IP地址携带的标签为:apt、c2、钓鱼网站、apt_apt29、apt_nobelium,这几类标签全部是黑标签,表明这个IP地址是一个黑客常用IP,将其恶意倾向判定为第一等级;
假设有来源IP地址为60.8.123.221与预设IP地址匹配成功,该IP地址携带的标签为:spider,表明这是一个网络爬虫,是一个中性的词,并且没有其他黑标签,所以是一个无害的IP,将其恶意倾向判定为第三等级;
假设有来源IP地址为115.238.55.22与预设IP地址匹配成功,该IP地址携带的标签为:IDC服务器、scanner;其中IDC服务器为中性词,scanner是扫描器,扫描器对于正常业务带有负面含义,所以无法直接判定该IP是否有害,将其恶意倾向判定为第二等级。
其中,恶意倾向属于第一等级、第二等级和第三等级的爬虫可以分别称为恶意爬虫、未知爬虫和正常爬虫。
通过将获取到的来源IP地址与预设IP地址进行匹配,利用匹配成功的预设IP地址所携带的标签将来源IP地址的恶意倾向评定为三个等级,使得原本为第一等级的爬虫不会因伪造客户端信息而被误判为第二等级或第三等级,提升了网络的安全性。
步骤S203,在来源IP地址的恶意倾向属于第二等级的情况下,根据爬虫数据生成各用户代理的爬虫特征信息,并将爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定用户代理的恶意倾向。
通过针对属于第二等级的爬虫,使用设置的爬虫行为规则进一步检测出来源IP地址下属于第一等级的客户代理。
在本实施例中,爬虫特征信息包括但不限于:
在预设周期内对应于第一响应码的访问频次;在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值;在预设周期内对应于第二响应码的访问数量;在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值。其中,第一响应码包括200,第二响应码包括形如“4xx”、“5xx”的异常响应码,比如可以是:401、500、403。
相应地,对于上述的爬虫特征信息,在一些实施例中,还分别设置了相应的爬虫行为规则,其中,这些爬虫行为规则包括但不限于:
规则一,判断在预设周期内对应于第一响应码的访问频次是否超过阈值A,若是,则确定用户代理的恶意倾向属于第一等级。
规则二,判断在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值是否低于阈值B,若是,则确定用户代理的恶意倾向属于第三等级。
规则三,判断在预设周期内对应于第二响应码的访问数量是否超过阈值C,若是,则确定用户代理的恶意倾向属于第一等级。
规则四,判断在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值是否超过阈值D,若是,则确定用户代理的恶意倾向属于第一等级。
上述步骤S201至S203中,将获取到的来源IP地址与预设IP地址进行匹配,利用匹配成功的预设IP地址所携带的标签将来源IP地址的恶意倾向评定为三个等级,使得原本为第一等级的爬虫不会因伪造客户端信息而被误判为第二等级或第三等级,提升了网络的安全性;针对属于第二等级的爬虫,使用设置的爬虫行为规则进一步检测出来源IP地址下属于第一等级的客户代理,提高了恶意爬虫的识别率和精确性。
通过上述步骤,解决了相关技术中爬虫检测方法存在检测不够准确的问题,提升了爬虫检测方法的准确度。
在一个实施例中,获取站点的爬虫数据的手段包括但不限于以下至少之一:在站点的响应页面中设置页面密饵、在站点的端口中设置端口密饵等。
可选地,爬虫数据还可以来自于云防火墙自带的基础防护功能,当有恶意请求触发云防火墙的检测告警逻辑时,云防火墙将会记录该恶意请求的访问信息到日志中。网络爬虫的来源IP地址、用户代理信息和时间戳可直接从云防火墙的日志中获取。
在一个实施例中,页面蜜饵可以是在站点的响应页面中设置内链,该内链肉眼不可见,只有需要对网站做遍历的爬虫会发起请求。比如在站点www.test.com的首页下嵌入下一段代码:
“<div width="0"height="0">
<a href=”/spider?id=f1a81d782dea6a19bdca383bffe68452”>
</div>”。
那么访问的页面中会多出一个内链,但是普通用户肉眼无法察觉,而爬虫机器人会访问该链接。
可选地,设置页面蜜饵还可以采用动态替换、静态镜像修改的方式。
在一个实施例中,端口蜜饵可以通过获取站点的域名,在站点的域名下开设不同于默认端口的新端口,基于新端口接收访问请求信息。该端口不处理业务,仅接收外部请求。通常情况下,只有攻击者在信息收集阶段会访问该端口。假设域名为www.test.com,网站默认服务为80端口,19999端口没有服务占用,那么新增一个www.test.com:19999服务来监听攻击者。
在一个实施例中,爬虫行为规则还可以包括:若用户代理触发了云防火墙的检测告警逻辑,则确定该用户代理的恶意倾向属于第一等级。
在一个实施例中,可以使用时间段抽样、节点局部抽样,全局抽样等方法获得的数据执行爬虫行为规则。
在一个实施例中,通过爬虫行为规则检测出第一等级的用户代理后,启动防护策略对该站点进行防护处理。
在一个实施例中,还提供了一种web应用云防火墙系统,该系统用于实现上述实施例中的爬虫检测方法,已经进行过说明的不再赘述。
图3是优选实施例的web应用云防火墙系统的运行原理图,如图3所示,该web应用云防火墙系统包括:蜜饵模块、日志模块、威胁情报模块、云防火墙、爬虫分类模块和策略配置模块。
蜜饵模块用于诱导网络爬虫进入同时识别爬虫流量将爬虫数据发送到日志模块中。
日志模块用于日志存储和查询,其内部存储有来自蜜饵模块的访问信息和触发云防火墙的检测告警逻辑的访问信息。日志模块将蜜饵模块发送过来的爬虫数据直接发送到爬虫分类模块。
爬虫分类模块负责将爬虫按照恶意倾向分为第一等级、第二等级和第三等级的爬虫。
威胁情报模块负责收集情报,情报中包含IP地址及其携带的标签,根据标签将来源IP地址的恶意倾向分为第一等级、第二等级和第三等级三个等级。若识别到第一等级的爬虫将自动调用策略配置模块,从而调用云防护的对应功能,以加固站点。
策略配置模块用于识别恶意倾向为第一等级的网络爬虫并作出相应的防护处理。
图4是优选实施例的web应用云防火墙系统的网络部署示意图,如图4所示,所有请求web应用服务器的流量都需要通过web应用云防火墙,从而实现爬虫的检测、捕获和响应。
在一个实施例中,还提供了一种电子装置,该装置包括:存储器和处理器,该存储器中存储有计算机程序,该处理器执行该计算机程序时,实现上述一种爬虫检测方法的步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述一种爬虫检测方法的步骤。
应该明白的是,根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种爬虫检测方法,其特征在于,包括:
获取站点的爬虫数据,其中,所述爬虫数据携带有来源IP地址、用户代理信息和时间戳;
将所述来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定所述来源IP地址的恶意倾向,其中,所述标签所指示的恶意倾向从高到低排列分别包括第一等级、第二等级和第三等级;
在所述来源IP地址的恶意倾向属于所述第二等级的情况下,根据所述爬虫数据生成各用户代理的爬虫特征信息,并将所述爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定所述用户代理的恶意倾向。
2.根据权利要求1所述的爬虫检测方法,其特征在于,所述爬虫特征信息包括以下至少之一:
在预设周期内对应于第一响应码的访问频次;
在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值;
在预设周期内对应于第二响应码的访问数量;
在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值。
3.根据权利要求2所述的爬虫检测方法,其特征在于,所述第一响应码包括200,所述第二响应码包括以下至少之一:401、500、403。
4.根据权利要求1至3中任一项所述的爬虫检测方法,其特征在于,所述爬虫行为规则包括以下至少之一:
规则一,判断在预设周期内对应于第一响应码的访问频次是否超过阈值A,若是,则确定所述用户代理的恶意倾向属于所述第一等级;
规则二,判断在预设周期内对应于第一响应码的访问数量和预设周期所持续时间的比值是否低于阈值B,若是,则确定所述用户代理的恶意倾向属于所述第三等级;
规则三,判断在预设周期内对应于第二响应码的访问数量是否超过阈值C,若是,则确定所述用户代理的恶意倾向属于所述第一等级;
规则四,判断在预设周期内对应于第二响应码的访问数量和预设周期所持续时间的比值是否超过阈值D,若是,则确定所述用户代理的恶意倾向属于所述第一等级。
5.根据权利要求1所述的爬虫检测方法,其特征在于,获取站点的爬虫数据包括:
在所述站点中设置密饵,记录向所述密饵发起的访问请求信息,并确定所述访问请求信息为所述爬虫数据,其中,所述密饵包括在所述站点的响应页面中设置的页面密饵和/或在所述站点的端口中设置的端口密饵。
6.根据权利要求5所述的爬虫检测方法,其特征在于,在所述站点的响应页面中设置所述页面密饵包括:
在所述站点的响应页面中设置内链。
7.根据权利要求5所述的爬虫检测方法,其特征在于,在所述站点的端口中设置所述端口密饵包括:
获取所述站点的域名,在所述站点的域名下开设不同于默认端口的新端口,基于所述新端口接收所述访问请求信息。
8.根据权利要求1所述的爬虫检测方法,其特征在于,各所述预设IP地址携带有至少一类标签,将所述来源IP地址和预设IP地址进行匹配,根据相匹配的预设IP地址携带的标签初步确定所述来源IP地址的恶意倾向包括:
在所述来源IP地址和携带有多类标签的预设IP地址相匹配的情况下,获取所述站点的业务信息,根据所述站点的业务信息确定所述多类标签中的目标标签,并根据所述目标标签确定所述来源IP地址的恶意倾向。
9.根据权利要求1所述的爬虫检测方法,其特征在于,在所述来源IP地址的恶意倾向属于所述第二等级的情况下,根据所述爬虫数据生成各用户代理的爬虫特征信息,并将所述爬虫特征信息和爬虫行为规则进行匹配,根据相匹配的爬虫行为规则最终确定所述用户代理的恶意倾向之后,所述方法还包括:
在检测到所述用户代理的恶意倾向属于所述第一等级的情况下,启动防护策略对所述站点进行防护处理。
10.一种web应用云防火墙,其特征在于,所述web应用云防火墙用于执行权利要求1至9中任一项所述的爬虫检测方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的爬虫检测方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的爬虫检测方法的步骤。
CN202110968443.XA 2021-08-23 2021-08-23 一种爬虫检测方法、web应用云防火墙、装置和存储介质 Active CN113810381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968443.XA CN113810381B (zh) 2021-08-23 2021-08-23 一种爬虫检测方法、web应用云防火墙、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968443.XA CN113810381B (zh) 2021-08-23 2021-08-23 一种爬虫检测方法、web应用云防火墙、装置和存储介质

Publications (2)

Publication Number Publication Date
CN113810381A true CN113810381A (zh) 2021-12-17
CN113810381B CN113810381B (zh) 2023-02-24

Family

ID=78893877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968443.XA Active CN113810381B (zh) 2021-08-23 2021-08-23 一种爬虫检测方法、web应用云防火墙、装置和存储介质

Country Status (1)

Country Link
CN (1) CN113810381B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244809A (zh) * 2021-12-24 2022-03-25 北京天融信网络安全技术有限公司 用于检测目标网络中主机失陷等级的方法及装置
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置
CN115484300A (zh) * 2022-07-29 2022-12-16 天翼云科技有限公司 消息传输方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN107066576A (zh) * 2017-04-12 2017-08-18 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页选择方法和系统
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN109474640A (zh) * 2018-12-29 2019-03-15 北京奇安信科技有限公司 恶意爬虫检测方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187396A (zh) * 2015-08-11 2015-12-23 小米科技有限责任公司 识别网络爬虫的方法及装置
CN107066576A (zh) * 2017-04-12 2017-08-18 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页选择方法和系统
CN107943949A (zh) * 2017-11-24 2018-04-20 厦门集微科技有限公司 一种确定网络爬虫的方法及服务器
CN109474640A (zh) * 2018-12-29 2019-03-15 北京奇安信科技有限公司 恶意爬虫检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244809A (zh) * 2021-12-24 2022-03-25 北京天融信网络安全技术有限公司 用于检测目标网络中主机失陷等级的方法及装置
CN114244809B (zh) * 2021-12-24 2024-05-17 北京天融信网络安全技术有限公司 用于检测目标网络中主机失陷等级的方法及装置
CN114726616A (zh) * 2022-04-07 2022-07-08 京东科技信息技术有限公司 一种网站访问请求的处理方法及装置
CN115484300A (zh) * 2022-07-29 2022-12-16 天翼云科技有限公司 消息传输方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113810381B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN113810381B (zh) 一种爬虫检测方法、web应用云防火墙、装置和存储介质
US11399288B2 (en) Method for HTTP-based access point fingerprint and classification using machine learning
CN112383546B (zh) 一种处理网络攻击行为的方法、相关设备及存储介质
CN104348803B (zh) 链路劫持检测方法、装置、用户设备、分析服务器及系统
CN103607385B (zh) 基于浏览器进行安全检测的方法和装置
CN107341395B (zh) 一种拦截爬虫的方法
CN109274637B (zh) 确定分布式拒绝服务攻击的系统和方法
US20100235915A1 (en) Using host symptoms, host roles, and/or host reputation for detection of host infection
CN108667770B (zh) 一种网站的漏洞测试方法、服务器及系统
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN103634306A (zh) 网络数据的安全检测方法和安全检测服务器
CN110677384B (zh) 钓鱼网站的检测方法及装置、存储介质、电子装置
CN113259392B (zh) 一种网络安全攻防方法、装置及存储介质
CN107733699B (zh) 互联网资产安全管理方法、系统、设备及可读存储介质
CN106789486B (zh) 共享接入的检测方法、装置、电子设备及计算机可读存储介质
US10931688B2 (en) Malicious website discovery using web analytics identifiers
CN110636068A (zh) 在cc攻击防护中识别未知cdn节点的方法以及装置
CN107623693B (zh) 域名解析防护方法及装置、系统、计算设备、存储介质
CN113422759A (zh) 漏洞扫描方法、电子装置和存储介质
EP4033717A1 (en) Distinguishing network connection requests
CN114726608A (zh) 一种蜜罐引流方法、装置及其介质
CN112788065B (zh) 一种基于蜜罐和沙箱的物联网僵尸网络追踪方法及装置
EP3789890A1 (en) Fully qualified domain name (fqdn) determination
CN116015800A (zh) 一种扫描器识别方法、装置、电子设备及存储介质
CN114553529A (zh) 一种数据处理方法、装置、网络设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant