CN108494809A

CN108494809A - 一种基于服务器封包镜像的反爬系统

Info

Publication number: CN108494809A
Application number: CN201810547086.8A
Authority: CN
Inventors: 郭兴华; 刘鑫; 郝缙; 单学钟; 李禹霆; 赵利; 孙国洋; 张继璘; 吴晓庆
Original assignee: Boya Creation (tianjin) Technology Co Ltd
Current assignee: Boya Creation (tianjin) Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-09-04

Abstract

本发明提供了一种基于服务器封包镜像的反爬系统，其特点在于通过对服务器接收到的全量请求封包进行镜像复制，在旁路中将封包还原为用户请求，在与服务器分离的反爬分析中心及策略中心内对用户请求进行爬虫特征识别，以上过程不会对服务器正常工作过程产生影响，服务器根据策略中心的识别结果对请求做出相应的处理。通过使用网络层面的请求复制技术，不影响现有系统的运行，并且SDK部署稳定，不需要在策略变化时修改和发布程序，同时，反爬策略可以实时得到更新，令服务器的反爬效果得到及时的升级。

Description

一种基于服务器封包镜像的反爬系统

技术领域

本发明涉及一种基于服务器封包镜像的反爬系统。

背景技术

全球互联网请求中约20%为恶意爬虫所产生，数年来比例高居不下，恶意爬虫以窃取互联网上的权威和核心商业数据为目标，非法盗用他人数据而获取私利，还通过强硬的技术手段对加密数据进行破解，广大数据运营厂商深受其害，因此信息安全领域中对于数据防护技术的诉求日渐强烈。

目前业内的反爬技术架构设计通常存在两处不足之处，一是应用程序需要额外增加转发模块，将请求转发至反爬识别系统进行识别，这对于应用程序的负载设计增加了很大难度，同时对于后期应用程序升级、测试和运维将增加很多工作量；二是反爬模块与应用程序存在耦合，反爬模块无法提供独立的分析识别服务，模块可复用性低。

发明内容

本发明提供了一种基于服务器封包镜像的反爬系统，其特点在于通过对服务器接收到的全量请求封包进行镜像复制，在旁路中将封包还原为用户请求，在与服务器分离的反爬分析中心及策略中心内对用户请求进行爬虫特征识别，以上过程不会对服务器正常工作过程产生影响，服务器根据策略中心的识别结果对请求做出相应的处理。对于背景技术中所陈述的业内反爬技术架构设计中存在的不足，本系统给出了有效的应对实践。

本发明通过以下技术方案实现上述设计与目标：

S₁，客户端发送至服务器的封包后发送的流式请求数据传输单元在到达服务器网关时，通过流量复制的方式，将全量封包进行复制，而原始请求正常进入到S₂步骤，复制后的封包进入到S₃步骤；

S₂，原始请求封包正常进入到服务器端进行处理，服务器端将针对此请求向反爬策略中心发送分析请求，反爬策略中心给出爬虫识别结果，服务器针对此结果对请求进行正常响应或抛弃处理；

较佳地，所述步骤S₂包含：

在服务器端应用程序中使用与反爬策略中心相配合的反爬SDK实现策略请求与响应的通讯过程，此SDK适配多种语言，只实现请求与响应的基础通讯过程，因此逻辑稳定无需经常性更新或独立部署，不会对应用程序的后续升级以及测试过程产生额外工作量；

S₃，镜像后的封包，经过封包重组，还原为原始请求数据格式，并筛选其中发往目标程序的有必要监控的请求，并将请求数据整理后，发送至反爬行为分析中心，分析结果用于更新和完善反爬策略中心的识别规则，应用服务器将请求到最新的反爬策略。

较佳地，所述步骤S₃包含：

使用Kafka流处理平台承载大数据量的流式数据封包处理序列实现消息队列，确保请求序列完整，数据分析过程不发生遗漏；

由于是全量封包，数据报的各字段都将完整保留，因此可以进行更为精确的设备指纹记录与用户画像。

在符合本领域常识的基础上，上述各优选条件，可组合使用，达到本发明较佳实例。

本发明的积极进步效果在于：

使用网络层面的请求复制技术，不影响现有系统的运行，并且SDK部署稳定，不需要在策略变化时修改和发布程序，同时，反爬策略可以实时得到更新，令服务器的反爬效果得到及时的升级；

解决了业内同类系统普遍存在的模块耦合与动态部署的难题；

流量镜像旁路处理过程中的各模块相对独立，便于软硬件扩展，适合与现有应用系统的无缝集成。

附图说明

图1为本发明基于服务器封包镜像的反爬系统整体流程示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围中。

如图1所示，本发明中，用户请求在从网关发往服务器的过程中，通过软件或硬件的方式将请求进行复制，此复制过程对于应用系统透明，主要从网络与硬件层面对数据传输单元进行完整复制，因此复制过程或模块，对于应用系统来说是随时可以启用和停用的热插拨使用模式，非常适用于对既有系统进行安全升级。可硬件可软件的实施方法也为应用系统在权衡性能与成本方案时提供了极大便利。

由于复制过程中是对数据封包进行全量复制，而单个的数据封包非完整的数据请求，因此将同一请求的分组封包重组是必要的，重组后的请求中，还需要将目标访问地址为监控应用程序的部分筛选出来，只对有必要监控的请求进行后续处理。

原始请求正常进行处理，服务器端应用程序植入策略中心SDK，此SDK的逻辑稳定，只具备发送请求及响应是否爬虫的响应值，设备指纹、行为分析以及误伤评定以及其它综合指标的判断与升级均在策略中心进行，不对应用程序产生影响。

SDK可以以前端脚本或后端服务等形式植入应用程序，当应用程序需要请求反爬策略中心时辅助分析爬虫行为时，通过调用SDK中的相应方法，将请求数据中的关键参数用此方法传递给策略中心，策略中心反馈的返回值只有几种简易的枚举标记位，应用程序根据此标记位响应或抛弃请求，此过程及逻辑相对简单稳定。

反爬策略中心与应用系统并不存在强耦合关系，应用程序可以自行决定以实时询问或定期检测的方式从策略中心获得反爬指导，也可以针对业务数据增加风险控制中心与反爬策略中心相互配合实现数据防护。

反爬策略中心作为流量镜像这一旁路的末端模块，可以独立提供反爬API指导服务，因此在同一网段内的其它应用也可以将其请求列入筛选范围，将请求行为数据纳入分析模块，继而从策略中心获得更为准确的反爬策略支持。

策略中心完成的功能为，针对平衡礼貌策略、代理IP伪装、拟人操作这些不断进化的高仿真恶意机器行为，以设备指纹、访问流量，系统日志为基础，利用大数据模型、机器学习等技术完成用户画像、行为分析等工作，识别爬虫，拟定规则，在保证识别率的基础之上，进行误伤率评定，综合各项技术指标权重得出爬虫判断结果。

Claims

1.一种服务器反爬系统，其特征在于，通过对服务器全量请求数据封包进行镜像复制后，在旁路中进行重组还原为原始请求数据，然后针对复制的请求数据进行恶意爬虫的行为特征分析，此分析方式不会对现有应用系统的请求处理过程产生影响。

2.如权利要求1所述的系统，其特征在于，该系统包含了镜像模块、重组筛选模块、反爬行为分析中心与策略中心以及用于应用程序与策略中心通讯的SDK：

镜像模块用于复制服务器端全量请求封包数据单元；

重组筛选模块用于将复制后的请求封包数据单元重新组合还原为原始请求，并筛选其中有必要监控的部分请求；

反爬行为中心模块包含恶意爬虫识别算法，对请求特征进行分析产生对应反爬策略；

反爬策略中心模块包含的是反爬规则，并向应用程序通过SDK提供通讯接口，辅助应用程序进行恶意爬虫识别；

SDK实现应用程序与策略中心对于反爬策略的请求、执行与结果响应。

3.如权利要求1所述的系统，其特征在于，利用如权利要求2所述的模块结构进行组织，并通过以下步骤实现反爬过程：

S₁，封包后发送至服务器的的流式请求数据传输单元，在到达服务器网关时，通过流量复制的方式，将全量封包进行复制，而原始请求正常进入到S₂步骤，复制后的封包进入到S₃步骤；

S₂，原始请求封包正常进入服务器端进行处理，服务器端将使用SDK中的相应通讯接口函数，携带此请求的特征参数，向反爬策略中心发送分析请求，反爬策略中心针对此请求的特征参数结合反爬规则进行运算分析，给出爬虫行为判定结果反馈服务器端，服务器端根据此结果对此请求进行正常响应或抛弃处理；

S3，镜像复制后的封包，在旁路中经过封包重组，还原为原始请求数据格式，并筛选其中发往目标应用程序服务器的有必要监控的请求，将请求数据整理后，发送至反爬行为分析中心，分析结果用于更新和完善反爬策略中心的识别规则，应用服务器将从反爬策略中心请求到最新的反爬策略。

4.一种服务器反爬系统，采用如权利要求1-3中任一项或多项组合的方法实现反爬过程。