CN112333128A

CN112333128A - 一种基于自编码器的Web攻击行为检测系统

Info

Publication number: CN112333128A
Application number: CN201910715340.5A
Authority: CN
Inventors: 方勇; 黄诚; 刘亮; 祝鹏程; 周翔宇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-05
Anticipated expiration: 2039-08-05
Also published as: CN112333128B

Abstract

本发明涉及一种基于自编码器的Web攻击行为检测系统，其特征在于以正常HTTP请求样本经过自编码器模型时产生的模型损失进行度量，以此来进行Web攻击检测，同时使用注意力机制对每个字符的概率分布进行计算，以此来发现并标注攻击载荷。

Description

一种基于自编码器的Web攻击行为检测系统

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于自编码器的Web攻击行为检测系统，其特征在于通过对原始HTTP请求样本进行编码，并在解码阶段引入注意力机制，不仅实现对正常请求和攻击请求的分类，同时实现了对攻击栽荷的可视化标注，使检测结果具有了可解释性。

背景技术

近年来，随着互联网技术的飞速发展，一系列网络安全事件受到了广泛关注，其中绝大部分与Web安全密切相关，比如Facebook和中国铁路12306的数据泄露事件。据Imperva公司发布的“2018 Web应用漏洞现状”报告，Web应用漏洞与风险呈逐年增加的趋势，特别是SQL注入、跨站脚本（XSS）和Webshell等攻击手段对Web应用造成了巨大的危害。一次成功的攻击行为可能导致数据泄露、权限窃取甚至直接威胁系统的安全。目前国内外使用机器学习和深度学习模型检测Web攻击，保护Web应用程序的安全。然而模型检测规则的滞后、样本标签的缺乏和结果的可解释性问题，导致当前的攻击检测技术存在一定的瓶颈。因此，一种新型且高效的攻击检测模型具有重要的应用意义和实际价值。

从国内外已有的攻击检测技术，分析出各种检测技术在特征提取、向量构造以及算法选择的思路，并对各种检测技术的优缺点进行了比较。通过对这些检测技术的学习研究，针对目前的检测技术存在的不足，本申请实施例提供一种基于自编码器的攻击检测模型，包括数据准备、攻击检测和攻击载荷可视化三个模块。本申请实施例提供的模型能够有效的发现攻击行为，并实时定位攻击载荷，协助网站维护人员及时发现Web应用的漏洞，保护企业、组织的数据安全，因此具有极大的研究价值和现实意义。

发明内容

本申请实施例提出的模型采用Seq2Seq、自编码器模型、Bi-LSTM算法、注意力机制等技术，设计了一种基于模型损失度量的检测算法，用以对HTTP样本的分类，同时设计了一种基于注意力机制的攻击载荷标注方法，实现了对攻击载荷的可视化标注。

本申请实施例旨在实现如下目标：

（1）使用仅对正常样本进行训练的方式，使用基于模型损失度量的方法，通过设定一个合理的门限值作为模型的分类标准，达到对攻击的检测能力；

（2）引入注意力机制对模型进行优化，通过计算每个输入对模型输出的权重，增强模型对样本分类的准确率；

（3）使模型输出具有“可解释性”，计算模型每个输出的概率序列，通过设定一个输出门限值，以该值作为是否异常输出的标准，并将异常输出元素标注为红色，达到对攻击载荷（异常元素）“可视化”的效果。

为实现上述目的，本申请实施例提出的模型采用了如下技术方案：该Web攻击行为检测系统主要部署在待检测服务器上。系统主要包括数据准备模块、攻击检测模块和攻击载荷可视化模块。

所述的数据准备模块主要由Python编写，主要用于原始数据的预处理、样本清洗标记、词汇表生成以及序列向量的生成。

所述的攻击检测模块主要由模块构建、模型训练、模型损失统计、模型损失分类判定等部分组成，主要完成模型的训练以及使用模型对测试数据集进行分类检测。

所述的攻击载荷标注模块由概率分布统计、概率门限判定等部分组成，主要完成对样本攻击载荷的异常标注。

采用本申请实施例提供的基于自编码器的攻击行为检测模型，不仅降低了对训练样本的要求，减轻工作量，还能对攻击请求中的攻击载荷进行标注。同时，还能拥有很高的检测准确率，为网站维护人员提供了极大的便捷。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的主要系统架构图；

图2是本申请一实施例提出的数据准备模块流程图；

图3是本申请一实施例提出的攻击检测模块整体运行流程图；

图4是本申请一实施例提出的攻击载荷可视化模块功能设计图。

具体实施方法

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例所对本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员中没有做出创造性劳动性前提下所获得的其他实施例，都属于本申请保护的范围。

图1示为系统的主要架构图，详细的介绍了上述三个模块的相关设计，并说明了相关模块的工作流程以及主要功能。主要完成对原始数据集的预处理，对样本进行标记，生成词汇表并生成序列向量；攻击检测模块主要完成模型的训练以及使用模型对测试数据集进行分类检测；攻击载荷可视化模块主要完成对样本攻击载荷的异常标注。

图2所示数据准备模块流程图，从系统部署图上来看，主要完成对原始数据集的预处理，首先提取HTTP请求数据并逐条分割以便后续使用，接着将数据分别标记为正负样本并保存，然后基于字符ASCII码建立词汇表，使用基于字符嵌入的方法将样本数据编码为序列向量。

图3是攻击检测模块整体运行流程图，训练阶段：首先对正常样本数据集进行预处理，接着根据词汇表生成序列向量，作为Bi-LSTM自编码器的输入，然后训练生成模型，并根据定义的公式计算模型Loss的的门限值；检测阶段：同样先将测试样本集预处理为序列向量，然后通过模型预测得到模型Loss，与门限值比较，最终分类判断样本为正常或恶意。

图4是攻击载荷可视化模块流程图，训练阶段：引入注意力机制对输入的权重进行计算，并通过定义的公式计算模型输出概率序列的门限值；标注阶段：通过样本集输出的概率序列与门限值比较，大于门限值的判定为正常元素（字符），标注为白色，小于门限值的判定为异常元素（字符），标注为红色。

对用户访问目标网站所产生的HTTP流量样本进行采集，使这些样本通过本申请预设的模型，一旦模型的损失大于预设的门限值，则判定为攻击行为并进行阻断；同时，使用基于注意力机制的攻击载荷标注方法对该样本中每个字符的概率分布进行计算，一旦某个字符的概率分布值小于预设的门限值，则将该字符标注为红色。网站维护人员则可以通过标注的位置进行分析网站的漏洞在何处，并进行相应的修补，其中，基于模型损失度量的算法如下：

步骤1：通过训练大量的正常样本集，最终可得到一个Loss极低的模型；

步骤2：将测试集中的正常样本通过模型预测，正常情况下每个序列均可得到一个损失较低的预测值，统计所有序列的Loss，记为total_Loss:

然后将每个Loss一起构成门限值；

步骤3：将步骤2中得到的total_Loss进行求平均值和标准差，使用以下公式计算门限值：

式中，mean代表求平均值，std代表求标准差。C为常数，需要在实验中进行调整计算，一般来说，C需要保证门限值threshold大于测试集Loss的最大值Loss_max；

步骤4：将待检测样本中正常样本和恶意样本同时通过模型预测，如果通过序列的Loss>threshold，则判断为恶意样本；反之，序列的Loss<threshold，则为正常样本。

其中，基于注意力机制的攻击载荷标注原理如下。

步骤1：将测试样本通过训练好的模型预测，得到所有输出的概率序列

式中，Y_ij指的是第i个序列，在词汇表中的第j个元素，T为词汇表长度,记录当前α_ij的值。

步骤2：统计所有的样本输出，计为alpha:

计算alpha的均值和标准差，并使用以下公式计算门限值，式中，C为待定常数，mean求均值，std求标准差。

步骤3：通过调整常数C，保证门限值小于测试集中正常样本权重的最小值，且大于恶意样本的最大值，公式如下：

同时，需观察样本标注是否符合客观事实，如果符合，则选用该门限值，否则继续调整。

步骤4：将测试集中某一条序列通过模型检测，如果模型预测得到Y_ij的概率序列中的第j个元素a_ij<threshold,则表明Y_ij为异常，将其标注为红色；反之如果a_ij>threshold，则表明Y_ij为正常，将其标注为白色。

本申请在现有的诸多检测方法基础上，研究了基于自编码器的Web攻击行为检测技术，针对当前检测技术的痛点，分别提出一种基于模型损失度量的半监督检测算法和基于注意力机制的攻击载荷标注方法，并针对两种算法的门限值计算提出相应的公式，根据之前提出的理论算法基础，构建了一套适合于真实应用环境的攻击检测模型。

以上对本申请所提供的一种基于自编码器的Web攻击行为检测系统，进行了详细介绍，本说明书对本申请的原理及实施方法进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对本领域的一般技术人员，一句本申请的思想，在具体实施方式及应用方位上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于自编码器的Web攻击行为检测系统，其特征在于以下步骤：

步骤一：将原始的HTTP请求样本进行人工标注后，采用“字符嵌入”的方式构造序列向量，并使用Bi-LSTM算法对生成的向量进行编码处理；

步骤二：使用仅对正常样本进行训练的方式，选择交叉熵作为模型的损失函数，采用基于模型损失度量的算法对样本进行分类；

步骤三：引入注意力机制对模型进行优化，通过计算每个输入对模型输出的权重，增强模型对样本分类的准确率；

步骤四：计算模型每个输出的概率序列，对每个元素进行异常判定，并将异常输出元素标注为红色，达到“攻击可视化”的效果。

2.根据权利要求1所述的基于自编码器的Web攻击行为检测模型，其特征在于：针对HTTP请求数据的特点，放弃常规基于词嵌入的方法，使用基于字符嵌入的Bi-LSTM算法对样本进行编码和解码。

3.根据权利要求1所述的基于自编码器的Web攻击行为检测模型，其特征在于：利用深度学习中的自编码器模型，在初始训练中只需要标记为正常的样本，采用交叉熵损失函数作为模型的代价函数，以模型的损失作为分类标准，通过定义的公式对门限值进行调整，得到最佳分类门限。

4.根据权利要求1所述的基于自编码器的Web攻击行为检测模型，其特征在于：在攻击行为检测过程中，请求的每个字符或者泛化的结构数据对于分类的贡献是不同的，在解码过程中引入注入意力机制，计算每个字符的概率分布值，基于统计学的方法，使用定义的公式设置一个异常判定门限，对判定为异常的字符进行标注，最终可以达到对异常字符（即攻击载荷）的定位能力。