CN112437036B - 一种数据分析的方法及设备 - Google Patents

一种数据分析的方法及设备 Download PDF

Info

Publication number
CN112437036B
CN112437036B CN202010072275.1A CN202010072275A CN112437036B CN 112437036 B CN112437036 B CN 112437036B CN 202010072275 A CN202010072275 A CN 202010072275A CN 112437036 B CN112437036 B CN 112437036B
Authority
CN
China
Prior art keywords
access request
webpage address
target access
redirection
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072275.1A
Other languages
English (en)
Other versions
CN112437036A (zh
Inventor
吴俊毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202010072275.1A priority Critical patent/CN112437036B/zh
Publication of CN112437036A publication Critical patent/CN112437036A/zh
Application granted granted Critical
Publication of CN112437036B publication Critical patent/CN112437036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请的目的是提供一种数据分析的方法及设备,本申请通过获取用户对网页地址的访问请求;基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;根据所述目标访问请求确定新访问网页地址;将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。从而对可能为恶意爬虫的访问不进行直接封禁,而是进行重定向误封判断,准确识别是否为真正的恶意爬虫,避免对正常用户的行为产生误判。

Description

一种数据分析的方法及设备
技术领域
本申请涉及计算机领域,尤其涉及一种数据分析的方法及设备。
背景技术
随着大数据分析技术应用的发展,互联网数据由于其良好的开放性得到了人们的关注,作为自动采集网站页面数据的爬虫技术也成为大数据分析应用不可或缺的技术。然而,由于页面数据量大,恶意爬虫为了提高采集效率通常会采用各种手段来加快采集过程,但这些技术的使用导致网站服务器系统性能的下降,从而难于为正常用户提供服务。目前,恶意爬虫的防御主要有限制IP地址、黑名单判断等方式;然而,这些方式容易对正常用户的行为产生误判的可能。
发明内容
本申请的一个目的是提供一种数据分析的方法及设备,解决现有技术中恶意爬虫防御时容易对正常用户的行为产生误判的问题。
根据本申请的一个方面,提供了一种数据分析的方法,该方法包括:
获取用户对网页地址的访问请求;
基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;
根据所述目标访问请求确定新访问网页地址;
将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。
进一步地,所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。
进一步地,根据所述目标访问请求确定新访问网页地址,包括:
根据所述用户代理的身份标识、所述用户代理可接受的语言、所述用户代理可接受的文件类型、所述目标访问请求的来源以及所述用户代理的请求安全提升的支持信息生成哈希字符串;
将所述哈希字符串加入至所述目标访问请求的网页地址中,生成新访问网页地址。
进一步地,将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对所述目标访问请求进行封禁,包括:
设置所述新访问网页地址的cookie信息,将所述新网页地址以及所述cookie信息下发至发出所述目标访问请求的用户;
确定所述用户对所述新网页地址的重定向结果,基于所述重定向结果对发出所述目标访问请求进行封禁。
进一步地,确定所述用户对所述新网页地址的重定向结果包括:
若所述用户对所述新网页地址进行访问时的访问请求携带所述哈希字符串且含有所述cookie信息时,则所述重定向结果为所述目标访问请求为安全访问;
若所述用户对所述新网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致,则所述重定向结果为所述目标访问请求为恶意爬虫。
进一步地,所述认证策略包括:用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。
进一步地,所述满足进行重定向条件包括:
使用所述用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式中任一种认证方式或任几种组合的认证方式,进行预先判断所述访问请求时,当出现预先判断结果为所述访问请求为目标爬虫访问时,则满足进行重定向条件。
根据本申请再一个方面,还提供了一种数据分析的设备,该设备包括:
获取装置,用于获取用户对网页地址的访问请求;
认证装置,用于基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;
确定装置,用于根据所述目标访问请求确定新访问网页地址;
重定向装置,用于将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。
根据本申请又一个方面,还提供了一种数据分析的设备,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
与现有技术相比,本申请通过获取用户对网页地址的访问请求;基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;根据所述目标访问请求确定新访问网页地址;将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。从而对可能为恶意爬虫的访问不进行直接封禁,而是进行重定向误封判断,准确识别是否为真正的恶意爬虫,避免对正常用户的行为产生误判。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种数据分析的方法的流程示意图;
图2示出本申请一实施例中爬虫防御的流程示意图;
图3示出根据本申请再一个方面提供的一种数据分析的设备的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种数据分析的方法的流程示意图,该方法包括:步骤S11~步骤S14,
在步骤S11中,获取用户对网页地址的访问请求;在此,用户访问网页地址时,根据用户的访问请求分析该用户是否为正常用户,访问是否为恶意爬虫,以进行防御。接着,在步骤S12中,基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;在此,对访问请求进行预先判断,采用设定的认证策略进行,预先判断出该访问请求是否可能为高危请求,是否满足需要重定向条件,其中,重定向为将访问请求再重定向至原来的网页地址,目标访问请求为可能是高危请求的访问请求,需要进行重定向的访问请求。
在步骤S13中,根据所述目标访问请求确定新访问网页地址;在此,确定出需要重定向的目标访问请求后,根据该目标访问请求携带的信息对原来的网页地址进行处理,处理为新访问网页地址。从而,在步骤S14中,将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。在此,对目标访问请求进行误封兜底,该目标访问请求被预先认定为高危请求,存在恶意爬虫的可能,则对该目标访问请求不直接进行拦截,而是将该目标访问请求重定向至新访问网页地址,进行一次兜底跳转,根据重定向结果再确定是否需要对该目标访问请求进行封禁,其中,重定向结果包括兜底跳转时能够重新跳转回来,未能重新跳转回来,跳转回来时携带的信息出现异常等。通过本申请所述的对访问请求进行数据分析的方法,识别出访问请求是否需要进行重定向,并进一步地利用重定向对该访问请求进行判定,识别是否为恶意爬虫,避免了对正常用户的误判,从而进行恶意爬虫的防御。
在本申请一实施例中,所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。在此,用户代理可以为浏览器,目标访问请求包括访问的浏览器的身份信息(useragent,ua)、浏览器可接受的语言(acceptlanguage)、浏览器可接受的文件类型(accept)、该目标访问请求的来源(referer)以及浏览器是否支持请求安全提升(upgrade-insecure-requests)这五项特征,从而可以根据该五项特征进行对访问请求进行预先判断,判断是否为目标访问请求。进一步地,可以根据所述用户代理的身份标识、所述用户代理可接受的语言、所述用户代理可接受的文件类型、所述目标访问请求的来源以及所述用户代理的请求安全提升的支持信息生成哈希字符串;将所述哈希字符串加入至所述目标访问请求的网页地址中,生成新访问网页地址。在此,根据上述五项特征生成一个哈希字符串,用该哈希字符串标记用户,进行哈希限频时可以根据哈希字符串是否一致进行判断访问请求是否为恶意用户的请求。并且将生成的哈希字符串加入至原来的网页地址中,在原来的网页地址的后面加上该哈希字符串生成新的网页地址,从而将需要进行重定向的目标访问请求访问该新的网页地址。
在本申请一实施例中,在步骤S14中,设置所述新访问网页地址的cookie信息,将所述新网页地址以及所述cookie信息下发至发出所述目标访问请求的用户;确定所述用户对所述新网页地址的重定向结果,基于所述重定向结果对发出所述目标访问请求进行封禁。在此,设置cookie信息,将生成的新网页地址和设置的cookie信息下发给用户侧,用户再次进行访问新网页地址,即进行http状态码302动态植入自定义cookie信息,用户通过状态码302回来时解析出该cookie是不是空,是不是和自定义时一致,根据用户访问的重定向结果确定该目标访问请求是否需要封禁。
具体地,若所述用户对所述新网页地址进行访问时的访问请求携带所述哈希字符串且含有所述cookie信息时,则所述重定向结果为所述目标访问请求为安全访问;若所述用户对所述新网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致,则所述重定向结果为所述目标访问请求为恶意爬虫。在此,根据访问请求的浏览器的身份信息(useragent,ua)、浏览器可接受的语言(acceptlanguage)、浏览器可接受的文件类型(accept)、该目标访问请求的来源(referer)以及浏览器是否支持请求安全提升(upgrade-insecure-requests)这五项特征生成哈希字符串,使用该哈希字符串对用户进行标记,当用户再次重新访问新网页地址时,判断新网页地址中的哈希字符串是否与发出访问请求的用户的哈希字符串一致,且该访问请求是否含有cookie信息,若哈希字符串一致且含有cookie信息,则可判定该访问请求为正常用户发出的访问请求,为安全访问。若访问请求无cookie信息或者携带的cookie信息与自定义设置的cookie信息不一致,则可认为该访问请求为恶意爬虫,对该访问请求进行封禁。例如,用户访问某一网页地址www.XXX.com,需要进行302,则根据该访问请求计算出的哈希值确定新网页地址为www.XXX.com?xx=hash这种形式,随后自定义设置该新网页地址的cookie信息,将cookie信息与新网页地址一起下发到用户侧,用户侧的浏览器读取到302会重新访问下发的新的网页地址www.XXX.com?xx=hash。若用户访问过来时带上了xx=hash且有上述自定义的cookie,则被认定为正常用户;若访问过来时没有下发的cookie或者下发的cookie跟生成的规则不一致,则该用户为假冒的,需要403封禁。
需要说明的是,cookie为存储在用户计算机上的小文件,保存特定客户端和网站的适量数据,并可以由网页服务器或客户端浏览器访问,允许服务器提供针对特定用户定制的页面,或者页面本身可以包含一些知道cookie中的数据的脚本。
在本申请一实施例中,所述认证策略包括:用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。在此,用户代理的识别为对ua进行分析和识别,分析用户的ua是否符合user-agent的标准;黑白名单判断时根据用户的ip和ua判断用户是否为已经配置的可放行的用户,若为可放行的用户,则加入白名单中,若不可放行,则加入黑名单中。可以使用用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式对访问请求进行预先判断。
具体地,所述满足进行重定向条件包括:使用所述用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式中任一种认证方式或任几种组合的认证方式,进行预先判断所述访问请求时,当出现预先判断结果为所述访问请求为目标爬虫访问时,则满足进行重定向条件。在此,目标爬虫访问包括恶意爬虫访问、高危爬虫访问等,如图2所示,使用ua分析与识别、黑白名单判断、无cookie计数判断、hash限频判断、用户身份验证限频(buvid和mid限频)以及ip限频判断,可以当在任一环节判断出访问请求可能为恶意爬虫访问时,则进入误封逻辑,即对该访问请求进行重定向至加入哈希字符串的原来网页地址,判断是否可以正常回跳回来。还可以黑白名单判断不进入误封逻辑,使用其他判断方式判断出恶意爬虫时直接进入误封逻辑。满足进行重定向条件包括以下任一种情况:对所述访问请求进行用户的ua识别时,当用户的ua不符合标准时,则访问请求可能为恶意爬虫访问;当无cookie的计数超过预设计算阈值时,该请求访问可能为恶意爬虫访问;基于哈希限频判断所述访问请求是否为恶意爬虫访问,当访问请求中的哈希字符串与网页地址的哈希字符串不一致时,则可能为恶意爬虫访问;基于所述身份验证限频判断所述访问请求是否为恶意爬虫访问,判断用户的两个id(buvid和mid)是否符合标准,若否,则该请求访问可能为恶意爬虫访问;基于所述网页地址限频判断所述访问请求是否为恶意爬虫访问,当判断出该访问请求为恶意爬虫访问时,需要重定向至指定的网页地址。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种数据分析的方法。
与上文所述的方法相对应的,本申请还提供一种设备,其包括能够执行上述图1或图2或各个实施例所述的方法步骤的模块或单元,这些模块或单元可以通过硬件、软件或软硬结合的方式来实现,本申请并不限定。例如,在本申请一实施例中,还提供了一种数据分析的设备,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:
获取用户对网页地址的访问请求;
基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;
根据所述目标访问请求确定新访问网页地址;
将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。
图3示出根据本申请再一个方面提供的一种数据分析的设备的结构示意图,该设备包括:获取装置11、认证装置12、确定装置13及重定向装置14,其中,获取装置11用于获取用户对网页地址的访问请求;认证装置12用于基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求;确定装置13用于根据所述目标访问请求确定新访问网页地址;重定向装置14用于将所述目标访问请求重定向至所述新访问网页地址,基于重定向结果对发出所述目标访问请求进行封禁。
需要说明的是,获取装置11、确定装置12及同步装置13执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同,为简明起见,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种数据分析的方法,其中,所述方法包括:
获取用户对网页地址的访问请求;
基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求,其中,重定向为将所述访问请求再重定向至原来的网页地址;
根据所述目标访问请求确定新访问网页地址,其中,所述新访问网页地址中设置有所述新访问 网页地址对应的cookie信息;
将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转,在重定向结果包括未能跳转或跳转时携带异常信息的情况下,对发出的所述目标访问请求进行封禁,其中,所述未能跳转或跳转时携带异常信息的重定向结果包括所述用户对所述新访问网页地址进行访问时的所述目标访问请求未携带所述cookie信息或所携带的cookie信息与设置的所述cookie信息未一致。
2.根据权利要求1所述的方法,其中,所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。
3.根据权利要求2所述的方法,其中,根据所述目标访问请求确定新访问网页地址,包括:
根据所述用户代理的身份标识、所述用户代理可接受的语言、所述用户代理可接受的文件类型、所述目标访问请求的来源以及所述用户代理的请求安全提升的支持信息生成哈希字符串;
将所述哈希字符串加入至所述目标访问请求的网页地址中,生成新访问网页地址。
4.根据权利要求1所述的方法,其中,将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转,在重定向结果包括未能跳转或跳转时携带异常信息的情况下,对发出的所述目标访问请求进行封禁,包括:
设置所述新访问网页地址的cookie信息,将所述新访问网页地址以及所述cookie信息下发至发出所述目标访问请求的用户;
确定所述用户对所述新访问网页地址的重定向结果,基于所述重定向结果对发出所述目标访问请求进行封禁。
5.根据权利要求1所述的方法,其中,确定所述用户对所述新访问网页地址的重定向结果包括:
若所述用户对所述新访问网页地址进行访问时的访问请求携带哈希字符串且含有所述cookie信息时,则所述重定向结果为所述目标访问请求为安全访问;
若所述用户对所述新访问网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致,则所述重定向结果为所述目标访问请求为恶意爬虫。
6.根据权利要求1所述的方法,其中,所述认证策略包括:用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。
7.根据权利要求6所述的方法,其中,所述满足进行重定向条件包括:
使用所述用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式中任一种认证方式或任几种组合的认证方式,进行预先判断所述访问请求时,当出现预先判断结果为所述访问请求为目标爬虫访问时,则满足进行重定向条件。
8.一种数据分析的设备,其中,所述设备包括:
获取装置,用于获取用户对网页地址的访问请求;
认证装置,用于基于认证策略预先判断所述访问请求,确定满足进行重定向条件的目标访问请求,其中,重定向为将所述访问请求再重定向至原来的网页地址;
确定装置,用于根据所述目标访问请求确定新访问网页地址,其中,所述新访问网页地址中设置有所述新访问 网页地址对应的cookie信息;
重定向装置,用于将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转,在重定向结果包括未能跳转或跳转时携带异常信息的情况下,对发出的所述目标访问请求进行封禁,其中,所述未能跳转或跳转时携带异常信息的重定向结果包括所述用户对所述新访问网页地址进行访问时的所述目标访问请求未携带所述cookie信息或所携带的cookie信息与设置的所述cookie信息未一致。
9.一种数据分析的设备,其中,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。
10.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。
CN202010072275.1A 2020-01-21 2020-01-21 一种数据分析的方法及设备 Active CN112437036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072275.1A CN112437036B (zh) 2020-01-21 2020-01-21 一种数据分析的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072275.1A CN112437036B (zh) 2020-01-21 2020-01-21 一种数据分析的方法及设备

Publications (2)

Publication Number Publication Date
CN112437036A CN112437036A (zh) 2021-03-02
CN112437036B true CN112437036B (zh) 2023-01-24

Family

ID=74689808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072275.1A Active CN112437036B (zh) 2020-01-21 2020-01-21 一种数据分析的方法及设备

Country Status (1)

Country Link
CN (1) CN112437036B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106411868A (zh) * 2016-09-19 2017-02-15 成都知道创宇信息技术有限公司 一种自动识别web爬虫的方法
CN107172049A (zh) * 2017-05-19 2017-09-15 北京信安世纪科技有限公司 一种智能身份认证系统
CN108259416A (zh) * 2016-12-28 2018-07-06 华为技术有限公司 检测恶意网页的方法及相关设备
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
CN111585956A (zh) * 2020-03-31 2020-08-25 完美世界(北京)软件科技发展有限公司 一种网址防刷验证方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108933B2 (en) * 2008-10-21 2012-01-31 Lookout, Inc. System and method for attack and malware prevention

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106411868A (zh) * 2016-09-19 2017-02-15 成都知道创宇信息技术有限公司 一种自动识别web爬虫的方法
CN108259416A (zh) * 2016-12-28 2018-07-06 华为技术有限公司 检测恶意网页的方法及相关设备
CN107172049A (zh) * 2017-05-19 2017-09-15 北京信安世纪科技有限公司 一种智能身份认证系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
CN111585956A (zh) * 2020-03-31 2020-08-25 完美世界(北京)软件科技发展有限公司 一种网址防刷验证方法与装置

Also Published As

Publication number Publication date
CN112437036A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
Gupta et al. Enhancing the browser-side context-aware sanitization of suspicious HTML5 code for halting the DOM-based XSS vulnerabilities in cloud
CN110888838B (zh) 基于对象存储的请求处理方法、装置、设备及存储介质
CN111818035B (zh) 一种基于api网关的权限验证的方法及设备
CN108632219B (zh) 一种网站漏洞检测方法、检测服务器、系统及存储介质
KR20090090685A (ko) 웹 어플리케이션의 취약성 판단 방법 및 시스템
JP2004318816A (ja) 通信中継装置、通信中継方法及びプログラム
WO2019144548A1 (zh) 安全测试方法、装置、计算机设备和存储介质
CN113518077A (zh) 一种恶意网络爬虫检测方法、装置、设备及存储介质
CN111008405A (zh) 一种基于文件Hash的网站指纹识别方法
CN107147645B (zh) 网络安全数据的获取方法及装置
US8789177B1 (en) Method and system for automatically obtaining web page content in the presence of redirects
US20230291758A1 (en) Malware Detection Using Document Object Model Inspection
CN107103243B (zh) 漏洞的检测方法及装置
US20150127771A1 (en) Method and Apparatus
US11023590B2 (en) Security testing tool using crowd-sourced data
Alidoosti et al. Evaluating the web‐application resiliency to business‐layer DoS attacks
CN108259416B (zh) 检测恶意网页的方法及相关设备
Nagarjun et al. Cross-site scripting research: A review
CN111241547B (zh) 一种越权漏洞的检测方法、装置及系统
CN112437036B (zh) 一种数据分析的方法及设备
CN115348086B (zh) 一种攻击防护方法及装置、存储介质及电子设备
CN114793171A (zh) 访问请求的拦截方法、装置、存储介质及电子装置
CN113553601B (zh) 一种网页页面内容加密方法及设备
CN114490264A (zh) 应用系统的文件监控方法、装置、电子设备及存储介质
CN112637171A (zh) 数据流量处理方法、装置、设备、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant