CN112437036B

CN112437036B - 一种数据分析的方法及设备

Info

Publication number: CN112437036B
Application number: CN202010072275.1A
Authority: CN
Inventors: 吴俊毅
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-01-24
Anticipated expiration: 2040-01-21
Also published as: CN112437036A

Abstract

本申请的目的是提供一种数据分析的方法及设备，本申请通过获取用户对网页地址的访问请求；基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；根据所述目标访问请求确定新访问网页地址；将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。从而对可能为恶意爬虫的访问不进行直接封禁，而是进行重定向误封判断，准确识别是否为真正的恶意爬虫，避免对正常用户的行为产生误判。

Description

一种数据分析的方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种数据分析的方法及设备。

背景技术

随着大数据分析技术应用的发展，互联网数据由于其良好的开放性得到了人们的关注，作为自动采集网站页面数据的爬虫技术也成为大数据分析应用不可或缺的技术。然而，由于页面数据量大，恶意爬虫为了提高采集效率通常会采用各种手段来加快采集过程，但这些技术的使用导致网站服务器系统性能的下降，从而难于为正常用户提供服务。目前，恶意爬虫的防御主要有限制IP地址、黑名单判断等方式；然而，这些方式容易对正常用户的行为产生误判的可能。

发明内容

本申请的一个目的是提供一种数据分析的方法及设备，解决现有技术中恶意爬虫防御时容易对正常用户的行为产生误判的问题。

根据本申请的一个方面，提供了一种数据分析的方法，该方法包括：

获取用户对网页地址的访问请求；

基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；

根据所述目标访问请求确定新访问网页地址；

将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。

进一步地，所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。

进一步地，根据所述目标访问请求确定新访问网页地址，包括：

根据所述用户代理的身份标识、所述用户代理可接受的语言、所述用户代理可接受的文件类型、所述目标访问请求的来源以及所述用户代理的请求安全提升的支持信息生成哈希字符串；

将所述哈希字符串加入至所述目标访问请求的网页地址中，生成新访问网页地址。

进一步地，将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对所述目标访问请求进行封禁，包括：

设置所述新访问网页地址的cookie信息，将所述新网页地址以及所述cookie信息下发至发出所述目标访问请求的用户；

确定所述用户对所述新网页地址的重定向结果，基于所述重定向结果对发出所述目标访问请求进行封禁。

进一步地，确定所述用户对所述新网页地址的重定向结果包括：

若所述用户对所述新网页地址进行访问时的访问请求携带所述哈希字符串且含有所述cookie信息时，则所述重定向结果为所述目标访问请求为安全访问；

若所述用户对所述新网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致，则所述重定向结果为所述目标访问请求为恶意爬虫。

进一步地，所述认证策略包括：用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。

进一步地，所述满足进行重定向条件包括：

使用所述用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式中任一种认证方式或任几种组合的认证方式，进行预先判断所述访问请求时，当出现预先判断结果为所述访问请求为目标爬虫访问时，则满足进行重定向条件。

根据本申请再一个方面，还提供了一种数据分析的设备，该设备包括：

获取装置，用于获取用户对网页地址的访问请求；

认证装置，用于基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；

确定装置，用于根据所述目标访问请求确定新访问网页地址；

重定向装置，用于将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。

根据本申请又一个方面，还提供了一种数据分析的设备，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

根据本申请再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

与现有技术相比，本申请通过获取用户对网页地址的访问请求；基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；根据所述目标访问请求确定新访问网页地址；将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。从而对可能为恶意爬虫的访问不进行直接封禁，而是进行重定向误封判断，准确识别是否为真正的恶意爬虫，避免对正常用户的行为产生误判。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请的一个方面提供的一种数据分析的方法的流程示意图；

图2示出本申请一实施例中爬虫防御的流程示意图；

图3示出根据本申请再一个方面提供的一种数据分析的设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种数据分析的方法的流程示意图，该方法包括：步骤S11～步骤S14，

在步骤S11中，获取用户对网页地址的访问请求；在此，用户访问网页地址时，根据用户的访问请求分析该用户是否为正常用户，访问是否为恶意爬虫，以进行防御。接着，在步骤S12中，基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；在此，对访问请求进行预先判断，采用设定的认证策略进行，预先判断出该访问请求是否可能为高危请求，是否满足需要重定向条件，其中，重定向为将访问请求再重定向至原来的网页地址，目标访问请求为可能是高危请求的访问请求，需要进行重定向的访问请求。

在步骤S13中，根据所述目标访问请求确定新访问网页地址；在此，确定出需要重定向的目标访问请求后，根据该目标访问请求携带的信息对原来的网页地址进行处理，处理为新访问网页地址。从而，在步骤S14中，将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。在此，对目标访问请求进行误封兜底，该目标访问请求被预先认定为高危请求，存在恶意爬虫的可能，则对该目标访问请求不直接进行拦截，而是将该目标访问请求重定向至新访问网页地址，进行一次兜底跳转，根据重定向结果再确定是否需要对该目标访问请求进行封禁，其中，重定向结果包括兜底跳转时能够重新跳转回来，未能重新跳转回来，跳转回来时携带的信息出现异常等。通过本申请所述的对访问请求进行数据分析的方法，识别出访问请求是否需要进行重定向，并进一步地利用重定向对该访问请求进行判定，识别是否为恶意爬虫，避免了对正常用户的误判，从而进行恶意爬虫的防御。

在本申请一实施例中，所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。在此，用户代理可以为浏览器，目标访问请求包括访问的浏览器的身份信息(useragent，ua)、浏览器可接受的语言(acceptlanguage)、浏览器可接受的文件类型(accept)、该目标访问请求的来源(referer)以及浏览器是否支持请求安全提升(upgrade-insecure-requests)这五项特征，从而可以根据该五项特征进行对访问请求进行预先判断，判断是否为目标访问请求。进一步地，可以根据所述用户代理的身份标识、所述用户代理可接受的语言、所述用户代理可接受的文件类型、所述目标访问请求的来源以及所述用户代理的请求安全提升的支持信息生成哈希字符串；将所述哈希字符串加入至所述目标访问请求的网页地址中，生成新访问网页地址。在此，根据上述五项特征生成一个哈希字符串，用该哈希字符串标记用户，进行哈希限频时可以根据哈希字符串是否一致进行判断访问请求是否为恶意用户的请求。并且将生成的哈希字符串加入至原来的网页地址中，在原来的网页地址的后面加上该哈希字符串生成新的网页地址，从而将需要进行重定向的目标访问请求访问该新的网页地址。

在本申请一实施例中，在步骤S14中，设置所述新访问网页地址的cookie信息，将所述新网页地址以及所述cookie信息下发至发出所述目标访问请求的用户；确定所述用户对所述新网页地址的重定向结果，基于所述重定向结果对发出所述目标访问请求进行封禁。在此，设置cookie信息，将生成的新网页地址和设置的cookie信息下发给用户侧，用户再次进行访问新网页地址，即进行http状态码302动态植入自定义cookie信息，用户通过状态码302回来时解析出该cookie是不是空，是不是和自定义时一致，根据用户访问的重定向结果确定该目标访问请求是否需要封禁。

具体地，若所述用户对所述新网页地址进行访问时的访问请求携带所述哈希字符串且含有所述cookie信息时，则所述重定向结果为所述目标访问请求为安全访问；若所述用户对所述新网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致，则所述重定向结果为所述目标访问请求为恶意爬虫。在此，根据访问请求的浏览器的身份信息(useragent，ua)、浏览器可接受的语言(acceptlanguage)、浏览器可接受的文件类型(accept)、该目标访问请求的来源(referer)以及浏览器是否支持请求安全提升(upgrade-insecure-requests)这五项特征生成哈希字符串，使用该哈希字符串对用户进行标记，当用户再次重新访问新网页地址时，判断新网页地址中的哈希字符串是否与发出访问请求的用户的哈希字符串一致，且该访问请求是否含有cookie信息，若哈希字符串一致且含有cookie信息，则可判定该访问请求为正常用户发出的访问请求，为安全访问。若访问请求无cookie信息或者携带的cookie信息与自定义设置的cookie信息不一致，则可认为该访问请求为恶意爬虫，对该访问请求进行封禁。例如，用户访问某一网页地址www.XXX.com，需要进行302，则根据该访问请求计算出的哈希值确定新网页地址为www.XXX.com？xx＝hash这种形式，随后自定义设置该新网页地址的cookie信息，将cookie信息与新网页地址一起下发到用户侧，用户侧的浏览器读取到302会重新访问下发的新的网页地址www.XXX.com？xx＝hash。若用户访问过来时带上了xx＝hash且有上述自定义的cookie，则被认定为正常用户；若访问过来时没有下发的cookie或者下发的cookie跟生成的规则不一致，则该用户为假冒的，需要403封禁。

需要说明的是，cookie为存储在用户计算机上的小文件，保存特定客户端和网站的适量数据，并可以由网页服务器或客户端浏览器访问，允许服务器提供针对特定用户定制的页面，或者页面本身可以包含一些知道cookie中的数据的脚本。

在本申请一实施例中，所述认证策略包括：用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。在此，用户代理的识别为对ua进行分析和识别，分析用户的ua是否符合user-agent的标准；黑白名单判断时根据用户的ip和ua判断用户是否为已经配置的可放行的用户，若为可放行的用户，则加入白名单中，若不可放行，则加入黑名单中。可以使用用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式对访问请求进行预先判断。

具体地，所述满足进行重定向条件包括：使用所述用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式中任一种认证方式或任几种组合的认证方式，进行预先判断所述访问请求时，当出现预先判断结果为所述访问请求为目标爬虫访问时，则满足进行重定向条件。在此，目标爬虫访问包括恶意爬虫访问、高危爬虫访问等，如图2所示，使用ua分析与识别、黑白名单判断、无cookie计数判断、hash限频判断、用户身份验证限频(buvid和mid限频)以及ip限频判断，可以当在任一环节判断出访问请求可能为恶意爬虫访问时，则进入误封逻辑，即对该访问请求进行重定向至加入哈希字符串的原来网页地址，判断是否可以正常回跳回来。还可以黑白名单判断不进入误封逻辑，使用其他判断方式判断出恶意爬虫时直接进入误封逻辑。满足进行重定向条件包括以下任一种情况：对所述访问请求进行用户的ua识别时，当用户的ua不符合标准时，则访问请求可能为恶意爬虫访问；当无cookie的计数超过预设计算阈值时，该请求访问可能为恶意爬虫访问；基于哈希限频判断所述访问请求是否为恶意爬虫访问，当访问请求中的哈希字符串与网页地址的哈希字符串不一致时，则可能为恶意爬虫访问；基于所述身份验证限频判断所述访问请求是否为恶意爬虫访问，判断用户的两个id(buvid和mid)是否符合标准，若否，则该请求访问可能为恶意爬虫访问；基于所述网页地址限频判断所述访问请求是否为恶意爬虫访问，当判断出该访问请求为恶意爬虫访问时，需要重定向至指定的网页地址。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述一种数据分析的方法。

与上文所述的方法相对应的，本申请还提供一种设备，其包括能够执行上述图1或图2或各个实施例所述的方法步骤的模块或单元，这些模块或单元可以通过硬件、软件或软硬结合的方式来实现，本申请并不限定。例如，在本申请一实施例中，还提供了一种数据分析的设备，所述设备包括：

一个或多个处理器；以及

例如，计算机可读指令在被执行时使所述一个或多个处理器：

获取用户对网页地址的访问请求；

根据所述目标访问请求确定新访问网页地址；

图3示出根据本申请再一个方面提供的一种数据分析的设备的结构示意图，该设备包括：获取装置11、认证装置12、确定装置13及重定向装置14，其中，获取装置11用于获取用户对网页地址的访问请求；认证装置12用于基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求；确定装置13用于根据所述目标访问请求确定新访问网页地址；重定向装置14用于将所述目标访问请求重定向至所述新访问网页地址，基于重定向结果对发出所述目标访问请求进行封禁。

需要说明的是，获取装置11、确定装置12及同步装置13执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同，为简明起见，在此不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种数据分析的方法，其中，所述方法包括：

获取用户对网页地址的访问请求；

基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求，其中，重定向为将所述访问请求再重定向至原来的网页地址；

根据所述目标访问请求确定新访问网页地址，其中，所述新访问网页地址中设置有所述新访问网页地址对应的cookie信息；

将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转，在重定向结果包括未能跳转或跳转时携带异常信息的情况下，对发出的所述目标访问请求进行封禁，其中，所述未能跳转或跳转时携带异常信息的重定向结果包括所述用户对所述新访问网页地址进行访问时的所述目标访问请求未携带所述cookie信息或所携带的cookie信息与设置的所述cookie信息未一致。

2.根据权利要求1所述的方法，其中，所述目标访问请求包括用户代理的身份标识、用户代理可接受的语言、用户代理可接受的文件类型、目标访问请求的来源以及用户代理的请求安全提升的支持信息。

3.根据权利要求2所述的方法，其中，根据所述目标访问请求确定新访问网页地址，包括：

4.根据权利要求1所述的方法，其中，将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转，在重定向结果包括未能跳转或跳转时携带异常信息的情况下，对发出的所述目标访问请求进行封禁，包括：

设置所述新访问网页地址的cookie信息，将所述新访问网页地址以及所述cookie信息下发至发出所述目标访问请求的用户；

确定所述用户对所述新访问网页地址的重定向结果，基于所述重定向结果对发出所述目标访问请求进行封禁。

5.根据权利要求1所述的方法，其中，确定所述用户对所述新访问网页地址的重定向结果包括：

若所述用户对所述新访问网页地址进行访问时的访问请求携带哈希字符串且含有所述cookie信息时，则所述重定向结果为所述目标访问请求为安全访问；

若所述用户对所述新访问网页地址进行访问时的访问请求未携带所述cookie信息或所携带的cookie信息与设置的cookie信息未一致，则所述重定向结果为所述目标访问请求为恶意爬虫。

6.根据权利要求1所述的方法，其中，所述认证策略包括：用户代理的识别、黑白名单判断、无cookie计数判断、哈希限频、身份验证限频以及网页地址限频中任一种或任几种组合的认证方式。

7.根据权利要求6所述的方法，其中，所述满足进行重定向条件包括：

8.一种数据分析的设备，其中，所述设备包括：

获取装置，用于获取用户对网页地址的访问请求；

认证装置，用于基于认证策略预先判断所述访问请求，确定满足进行重定向条件的目标访问请求，其中，重定向为将所述访问请求再重定向至原来的网页地址；

确定装置，用于根据所述目标访问请求确定新访问网页地址，其中，所述新访问网页地址中设置有所述新访问网页地址对应的cookie信息；

重定向装置，用于将所述目标访问请求重定向至所述新访问网页地址执行兜底跳转，在重定向结果包括未能跳转或跳转时携带异常信息的情况下，对发出的所述目标访问请求进行封禁，其中，所述未能跳转或跳转时携带异常信息的重定向结果包括所述用户对所述新访问网页地址进行访问时的所述目标访问请求未携带所述cookie信息或所携带的cookie信息与设置的所述cookie信息未一致。

9.一种数据分析的设备，其中，所述设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至7中任一项所述方法的操作。

10.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至7中任一项所述的方法。