CN115550051A

CN115550051A - 一种智能反爬虫拦截系统

Info

Publication number: CN115550051A
Application number: CN202211261820.7A
Authority: CN
Inventors: 谢强; 陈晨
Original assignee: Wuhan Jiyi Network Technology Co ltd
Current assignee: Wuhan Jiyi Network Technology Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-30

Abstract

本发明公开了一种智能反爬虫拦截系统，包括虚拟防御平台，所述虚拟防御平台包括防御构建单元、异常共享单元、前端处理单元和虚拟构建单元，本发明涉及反爬虫拦截技术领域。该智能反爬虫拦截系统，通过构建多维度的企业专属防御框架，对注册用户的访问数据直接进行布防验证，对符合异常标准情况的注册用户进行防御异常标记，并且利用插件的形式，对注册用户的真实访问数据进行记录，通过与专属防御框架的验证访问数据进行对比，对结果不一致的注册用户进行插件异常标记，实现对存在风险的注册用户的识别，配合虚拟网页的设置，通过对虚拟网页资料下载情况的监控，实现恶意爬虫的精准确定和拦截。

Description

一种智能反爬虫拦截系统

技术领域

本发明涉及反爬虫拦截技术领域，具体为一种智能反爬虫拦截系统。

背景技术

随着网络的迅速发展，网络爬虫的影响比重愈发增加，恶意爬虫产生了大量的虚假用户，严重增加了企业运营成本，并且企业资源被批量抓走，丧失竞争力，数据安全性也得不到保障。

目前，较为常用的反爬虫手段，通常为：HTTP请求头分析拦截。然而，HTTP请求头的信息是浏览器封装的，但是可以很容易通过工具模拟产生，同时可以预设多套浏览器信息，在访问的时候随机使用、动态变化，预设的请求头信息采用高仿真的数据，服务器无法分辨出是真实的访问、还是网络爬虫的访问，从而不能有效拦截爬虫请求。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种智能反爬虫拦截系统，解决了常规反爬虫手段不能有效拦截爬虫请求的问题。

(二)技术方案

为实现上述目的，本发明提供了如下技术方案：一种智能反爬虫拦截系统，包括虚拟防御平台，所述虚拟防御平台包括防御构建单元、异常共享单元、前端处理单元和虚拟构建单元，所述防御构建单元用于基于注册用户IP、UA参数、地区和路径构建多维度黑白名单，进行异常情景设定，结合验证码验证生成企业专属防御框架，按照企业专属防御框架对注册用户产生的访问数据进行验证，对符合异常标准情况的注册用户进行防御异常标记，所述防御构建单元与异常共享单元对接，所述异常共享单元用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库，所述防御构建单元与前端处理单元对接，所述前端处理单元用于与浏览器进行合作，将插件作为注册用户访问企业网站时的前置条件，利用插件在注册用户访问网站时，对注册用户的访问数据进行记录，作为标准数据，与企业专属防御框架验证的注册用户产生的访问数据进行对比，对对比结果不一致的注册用户进行插件异常标记，所述前端处理单元与虚拟构建单元对接，所述虚拟构建单元用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中，对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控，在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，所述虚拟构建单元与异常共享单元对接，用于将注册用户信息输入到共享库中。

通过采用上述技术方案，构建多维度的企业专属防御框架，对注册用户的访问数据直接进行布防验证，对符合异常标准情况的注册用户进行防御异常标记，并且利用插件的形式，对注册用户的真实访问数据进行记录，通过与专属防御框架的验证访问数据进行对比，对结果不一致的注册用户进行插件异常标记，实现对存在风险的注册用户的识别，配合虚拟网页的设置，通过对虚拟网页资料下载情况的监控，实现恶意爬虫的精准确定和拦截。

本发明进一步设置为：所述防御构建单元包括多维度框架构建模块、标准内容填入模块、企业适配调节模块和企业防御模块，所述标准内容填入模块和企业适配调节模块均与多维度框架构建模块对接，所述多维度框架构建模块与企业防御模块对接。

本发明进一步设置为：所述多维度框架构建模块用于基于注册用户的IP、UA参数、地区和访问路径构建多维度黑白名单，对注册用户浏览网页时产生的访问数据进行发送顺序设定，作为标准情景，再出现不同于标准情景的情况时，标记为异常情景，作为防御框架；

所述标准内容填入模块用于将异常共享单元中的恶意名单直接填入到防御框架中；

所述企业适配调节模块用于按照多维度分类将企业需求填入到防御框架中，结合验证码验证生成企业专属防御框架，其中验证码的形式包括但不限于智能组合验证、滑动拼图验证、文字点选验证、语序点选验证、空间推理验证，利用注册用户的验证码验证结果反馈，进行人机识别，即验证码未通过的注册用户，直接进行拦截；

所述企业防御模块用于按照企业专属防御框架对注册用户产生的访问数据进行验证，在检测到符合专属防御框架设定异常标准的情况时，对注册用户进行防御异常标记。

通过采用上述技术方案，利用验证码进行人机识别拦截，实现初步智能拦截的同时，将注册用户浏览网页时产生的访问数据进行发送顺序设定作为标准情景，实现异常情景的迅速判定，提高恶意爬虫的识别效率。

本发明进一步设置为：所述异常共享单元包括恶意名单库和调控标识模块，所述恶意名单库与调控标识模块对接。

本发明进一步设置为：所述恶意名单库用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库；

所述调控标识模块用于在企业接收到注册用户访问时，与共享库进行对比，并对对比筛选出的注册用户进行恶意爬虫标记。

通过采用上述技术方案，将共享库作为共享资源，实现对共享库内置恶意爬虫的识别，进一步压缩恶意爬虫的生存空间，为企业的正常运营提供保障。

本发明进一步设置为：所述前端处理单元包括合作签订模块、浏览前置模块、备份比照模块和锁定模块，所述合作签订模块与浏览前置模块对接，所述浏览前置模块与备份比照模块对接，所述备份比照模块与锁定模块对接。

本发明进一步设置为：所述合作签订模块用于与不同的浏览器进行插件嵌入合作，签订合作契约后，将插件作为注册用户访问企业网站时的前置条件；

所述浏览前置模块用于设定插件功能，在注册用户访问网站时，对注册用户的IP和UA参数进行记录，作为标准数据；

所述备份比照模块用于将标准数据与防御构建单元中实际记录的注册用户的IP和UA参数进行对比；

所述锁定模块用于在出现UA参数对比不一致的情况时，对注册用户进行插件异常标记。

通过采用上述技术方案，以与浏览器合作的形式，进行前端监控，保证注册用户访问网站时产生数据的精准有效，从而有效避免UA参数出现仿真置换的情况，进一步提高恶意爬虫的识别效率。

本发明进一步设置为：所述虚拟构建单元包括网页虚拟模块、下载记录模块和恶意标记模块；

所述网页虚拟模块用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中；

所述下载记录模块用于对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控；

所述恶意标记模块用于在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，同时将恶意爬虫代表的注册用户信息输入到共享库中，在限定时间内未曾出现网页资料下载情况时，将未被拦截的带有防御异常标记的注册用户存储在风险库中，并向注册用户发送合作浏览器链接，在限定时间后未使用合作浏览器时，直接对注册用户进行拦截。

通过采用上述技术方案，利用虚拟网页的设计，对存在有恶意爬虫风险的注册用户进行虚拟网页资料下载监控，从而精准地判定出恶意爬虫，并且有效避免了对正常注册用户的误伤。

(三)有益效果

本发明提供了一种智能反爬虫拦截系统。具备以下有益效果：

(1)该智能反爬虫拦截系统，通过构建多维度的企业专属防御框架，对注册用户的访问数据直接进行布防验证，对符合异常标准情况的注册用户进行防御异常标记，并且利用插件的形式，对注册用户的真实访问数据进行记录，通过与专属防御框架的验证访问数据进行对比，对结果不一致的注册用户进行插件异常标记，实现对存在风险的注册用户的识别，配合虚拟网页的设置，通过对虚拟网页资料下载情况的监控，实现恶意爬虫的精准确定和拦截。

(2)该智能反爬虫拦截系统，通过利用验证码进行人机识别拦截，实现初步智能拦截的同时，将注册用户浏览网页时产生的访问数据进行发送顺序设定作为标准情景，实现异常情景的迅速判定，提高恶意爬虫的识别效率。

(3)该智能反爬虫拦截系统，通过将共享库作为共享资源，实现对共享库内置恶意爬虫的识别，进一步压缩恶意爬虫的生存空间，为企业的正常运营提供保障。

(4)该智能反爬虫拦截系统，通过以与浏览器合作的形式，进行前端监控，保证注册用户访问网站时产生数据的精准有效，从而有效避免UA参数出现仿真置换的情况，进一步提高恶意爬虫的识别效率。

(5)该智能反爬虫拦截系统，通过利用虚拟网页的设计，对存在有恶意爬虫风险的注册用户进行虚拟网页资料下载监控，从而精准地判定出恶意爬虫，并且有效避免了对正常注册用户的误伤。

附图说明

图1为本发明的系统原理框图；

图2为本发明防御构建单元的系统原理框图；

图3为本发明异常共享单元的系统原理框图；

图4为本发明前端处理单元的系统原理框图；

图5为本发明虚拟构建单元的系统原理框图。

图中，1、虚拟防御平台；2、防御构建单元；3、异常共享单元；4、前端处理单元；5、虚拟构建单元；6、多维度框架构建模块；7、标准内容填入模块；8、企业适配调节模块；9、企业防御模块；10、恶意名单库；11、调控标识模块；12、合作签订模块；13、浏览前置模块；14、备份比照模块；15、锁定模块；16、网页虚拟模块；17、下载记录模块；18、恶意标记模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5，本发明实施例提供一种技术方案：一种智能反爬虫拦截系统，如附图1所示，包括虚拟防御平台1，虚拟防御平台1包括防御构建单元2、异常共享单元3、前端处理单元4和虚拟构建单元5。

作为优选方案，防御构建单元2用于基于注册用户IP、UA参数、地区和路径构建多维度黑白名单，进行异常情景设定，结合验证码验证生成企业专属防御框架，按照企业专属防御框架对注册用户产生的访问数据进行验证，对符合异常标准情况的注册用户进行防御异常标记，具体的，如附图2所示，防御构建单元2包括多维度框架构建模块6、标准内容填入模块7、企业适配调节模块8和企业防御模块9，多维度框架构建模块6用于基于注册用户的IP、UA参数、地区和访问路径构建多维度黑白名单，对注册用户浏览网页时产生的访问数据进行发送顺序设定，作为标准情景，再出现不同于标准情景的情况时，标记为异常情景，作为防御框架；

标准内容填入模块7与多维度框架构建模块6对接，标准内容填入模块7用于将异常共享单元3中的恶意名单直接填入到防御框架中；

为了实现人机识别，企业适配调节模块8均与多维度框架构建模块6对接，企业适配调节模块8用于按照多维度分类将企业需求填入到防御框架中，结合验证码验证生成企业专属防御框架，作为详细说明，验证码的形式包括但不限于智能组合验证、滑动拼图验证、文字点选验证、语序点选验证、空间推理验证，利用注册用户的验证码验证结果反馈，进行人机识别，即验证码未通过的注册用户，直接进行拦截；

多维度框架构建模块6与企业防御模块9对接，企业防御模块9用于按照企业专属防御框架对注册用户产生的访问数据进行验证，在检测到符合专属防御框架设定异常标准的情况时，对注册用户进行防御异常标记。

作为优选方案，防御构建单元2与异常共享单元3对接，为了进一步压缩恶意爬虫的生存空间，异常共享单元3用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库，具体的，如附图3所示，异常共享单元3包括恶意名单库10和调控标识模块11，恶意名单库10用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库；

恶意名单库10与调控标识模块11对接，调控标识模块11用于在企业接收到注册用户访问时，与共享库进行对比，并对对比筛选出的注册用户进行恶意爬虫标记。

作为优选方案，防御构建单元2与前端处理单元4对接，前端处理单元4用于与浏览器进行合作，将插件作为注册用户访问企业网站时的前置条件，利用插件在注册用户访问网站时，对注册用户的访问数据进行记录，作为标准数据，与企业专属防御框架验证的注册用户产生的访问数据进行对比，对对比结果不一致的注册用户进行插件异常标记，具体的，如附图4所示，前端处理单元4包括合作签订模块12、浏览前置模块13、备份比照模块14和锁定模块15，合作签订模块12用于与不同的浏览器进行插件嵌入合作，签订合作契约后，将插件作为注册用户访问企业网站时的前置条件；

合作签订模块12与浏览前置模块13对接，浏览前置模块13用于设定插件功能，在注册用户访问网站时，对注册用户的IP和UA参数进行记录，作为标准数据；

浏览前置模块13与备份比照模块14对接，备份比照模块14用于将标准数据与防御构建单元2中实际记录的注册用户的IP和UA参数进行对比；

备份比照模块14与锁定模块15对接，锁定模块15用于在出现UA参数对比不一致的情况时，对注册用户进行插件异常标记。

作为优选方案，前端处理单元4与虚拟构建单元5对接，虚拟构建单元5用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中，对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控，在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，具体的，如附图5所示，虚拟构建单元5包括网页虚拟模块16、下载记录模块17和恶意标记模块18；

网页虚拟模块16用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中；

下载记录模块17用于对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控；

恶意标记模块18用于在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，同时将恶意爬虫代表的注册用户信息输入到共享库中。

作为优选方案，为了实现共享库资源的有效更新，虚拟构建单元5与异常共享单元3对接，用于将注册用户信息输入到共享库中，作为详细说明，恶意标记模块18用于在限定时间内未曾出现网页资料下载情况时，将未被拦截的带有防御异常标记的注册用户存储在风险库中，并向注册用户发送合作浏览器链接，在限定时间后未使用合作浏览器时，直接对注册用户进行拦截。

人机识别拦截与防御异常标记：企业防御模块9按照企业专属防御框架对注册用户产生的访问数据进行验证，在出现不同于标准情景的情况时，向注册用户随机发送不同的验证码，在验证不通过时，直接对注册用户进行拦截，在验证通过后，对注册用户进行防御异常标记；

插件异常标记：在注册用户访问网站时，浏览前置模块13对注册用户的IP和UA参数进行记录，作为标准数据，与企业防御模块9中实际记录的注册用户的IP和UA参数进行对比，在出现UA参数对比不一致的情况时，锁定模块15对注册用户进行插件异常标记；

虚拟验证：网页虚拟模块16按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中，在限定时间内出现虚拟网页资料下载情况时，恶意标记模块18锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，同时将恶意爬虫代表的注册用户信息输入到共享库中，其中带有插件异常标记的注册用户，持续浏览虚拟网页；

注册用户矫正拦截：对于在限定时间内未曾出现虚拟网页资料下载情况时，恶意标记模块18将未被拦截的带有防御异常标记的注册用户存储在风险库中，并向注册用户发送合作浏览器链接，作为正常浏览渠道，在限定时间后未使用合作浏览器时，直接对注册用户进行拦截，具体的，直接将带有防御异常标记的注册用户与风险库中存储的注册用户进行对，在风险库中存在已有注册用户，直接对该注册用户进行拦截。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种智能反爬虫拦截系统，包括虚拟防御平台(1)，其特征在于：所述虚拟防御平台(1)包括防御构建单元(2)、异常共享单元(3)、前端处理单元(4)和虚拟构建单元(5)，所述防御构建单元(2)用于基于注册用户IP、UA参数、地区和路径构建多维度黑白名单，进行异常情景设定，结合验证码验证生成企业专属防御框架，按照企业专属防御框架对注册用户产生的访问数据进行验证，对符合异常标准情况的注册用户进行防御异常标记，所述防御构建单元(2)与异常共享单元(3)对接，所述异常共享单元(3)用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库，所述防御构建单元(2)与前端处理单元(4)对接，所述前端处理单元(4)用于与浏览器进行合作，将插件作为注册用户访问企业网站时的前置条件，利用插件在注册用户访问网站时，对注册用户的访问数据进行记录，作为标准数据，与企业专属防御框架验证的注册用户产生的访问数据进行对比，对对比结果不一致的注册用户进行插件异常标记，所述前端处理单元(4)与虚拟构建单元(5)对接，所述虚拟构建单元(5)用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中，对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控，在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，所述虚拟构建单元(5)与异常共享单元(3)对接，用于将注册用户信息输入到共享库中。

2.根据权利要求1所述的一种智能反爬虫拦截系统，其特征在于：所述防御构建单元(2)包括多维度框架构建模块(6)、标准内容填入模块(7)、企业适配调节模块(8)和企业防御模块(9)，所述标准内容填入模块(7)和企业适配调节模块(8)均与多维度框架构建模块(6)对接，所述多维度框架构建模块(6)与企业防御模块(9)对接。

3.根据权利要求2所述的一种智能反爬虫拦截系统，其特征在于：所述多维度框架构建模块(6)用于基于注册用户的IP、UA参数、地区和访问路径构建多维度黑白名单，对注册用户浏览网页时产生的访问数据进行发送顺序设定，作为标准情景，再出现不同于标准情景的情况时，标记为异常情景，作为防御框架；

所述标准内容填入模块(7)用于将异常共享单元(3)中的恶意名单直接填入到防御框架中；

所述企业适配调节模块(8)用于按照多维度分类将企业需求填入到防御框架中，结合验证码验证生成企业专属防御框架；

所述企业防御模块(9)用于按照企业专属防御框架对注册用户产生的访问数据进行验证，在检测到符合专属防御框架设定异常标准的情况时，对注册用户进行防御异常标记。

4.根据权利要求1所述的一种智能反爬虫拦截系统，其特征在于：所述异常共享单元(3)包括恶意名单库(10)和调控标识模块(11)，所述恶意名单库(10)与调控标识模块(11)对接。

5.根据权利要求4所述的一种智能反爬虫拦截系统，其特征在于：所述恶意名单库(10)用于对确定的恶意爬虫信息进行记录，作为不同企业的共享库；

所述调控标识模块(11)用于在企业接收到注册用户访问时，与共享库进行对比，并对对比筛选出的注册用户进行恶意爬虫标记。

6.根据权利要求1所述的一种智能反爬虫拦截系统，其特征在于：所述前端处理单元(4)包括合作签订模块(12)、浏览前置模块(13)、备份比照模块(14)和锁定模块(15)，所述合作签订模块(12)与浏览前置模块(13)对接，所述浏览前置模块(13)与备份比照模块(14)对接，所述备份比照模块(14)与锁定模块(15)对接。

7.根据权利要求7所述的一种智能反爬虫拦截系统，其特征在于：所述合作签订模块(12)用于与不同的浏览器进行插件嵌入合作，签订合作契约后，将插件作为注册用户访问企业网站时的前置条件；

所述浏览前置模块(13)用于设定插件功能，在注册用户访问网站时，对注册用户的IP和UA参数进行记录，作为标准数据；

所述备份比照模块(14)用于将标准数据与防御构建单元(2)中实际记录的注册用户的IP和UA参数进行对比；

所述锁定模块(15)用于在出现UA参数对比不一致的情况时，对注册用户进行插件异常标记。

8.根据权利要求1所述的一种智能反爬虫拦截系统，其特征在于：所述虚拟构建单元(5)包括网页虚拟模块(16)、下载记录模块(17)和恶意标记模块(18)；

所述网页虚拟模块(16)用于按照企业正常网页布局构建虚假的虚拟网页，将带有防御异常标记和插件异常标记的注册用户浏览的网页跳转至虚拟网页中；

所述下载记录模块(17)用于对限定时间内的虚拟网页资料的浏览和下载情况进行实时监控；

所述恶意标记模块(18)用于在限定时间内出现虚拟网页资料下载情况时，锁定对应的注册用户，标记为恶意爬虫后，专属防御框架对恶意爬虫进行拦截，同时将恶意爬虫代表的注册用户信息输入到共享库中，在限定时间内未曾出现网页资料下载情况时，将未被拦截的带有防御异常标记的注册用户存储在风险库中，并向注册用户发送合作浏览器链接，在限定时间后未使用合作浏览器时，直接对注册用户进行拦截。