CN112333128A - 一种基于自编码器的Web攻击行为检测系统 - Google Patents

一种基于自编码器的Web攻击行为检测系统 Download PDF

Info

Publication number
CN112333128A
CN112333128A CN201910715340.5A CN201910715340A CN112333128A CN 112333128 A CN112333128 A CN 112333128A CN 201910715340 A CN201910715340 A CN 201910715340A CN 112333128 A CN112333128 A CN 112333128A
Authority
CN
China
Prior art keywords
model
self
encoder
behavior detection
attack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910715340.5A
Other languages
English (en)
Other versions
CN112333128B (zh
Inventor
方勇
黄诚
刘亮
祝鹏程
周翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910715340.5A priority Critical patent/CN112333128B/zh
Publication of CN112333128A publication Critical patent/CN112333128A/zh
Application granted granted Critical
Publication of CN112333128B publication Critical patent/CN112333128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于自编码器的Web攻击行为检测系统,其特征在于以正常HTTP请求样本经过自编码器模型时产生的模型损失进行度量,以此来进行Web攻击检测,同时使用注意力机制对每个字符的概率分布进行计算,以此来发现并标注攻击载荷。

Description

一种基于自编码器的Web攻击行为检测系统
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种基于自编码器的Web攻击行为检测系统,其特征在于通过对原始HTTP请求样本进行编码,并在解码阶段引入注意力机制,不仅实现对正常请求和攻击请求的分类,同时实现了对攻击栽荷的可视化标注,使检测结果具有了可解释性。
背景技术
近年来,随着互联网技术的飞速发展,一系列网络安全事件受到了广泛关注,其中绝大部分与Web安全密切相关,比如Facebook和中国铁路12306的数据泄露事件。据Imperva公司发布的“2018 Web应用漏洞现状”报告,Web应用漏洞与风险呈逐年增加的趋势,特别是SQL注入、跨站脚本(XSS)和Webshell等攻击手段对Web应用造成了巨大的危害。一次成功的攻击行为可能导致数据泄露、权限窃取甚至直接威胁系统的安全。目前国内外使用机器学习和深度学习模型检测Web攻击,保护Web应用程序的安全。然而模型检测规则的滞后、样本标签的缺乏和结果的可解释性问题,导致当前的攻击检测技术存在一定的瓶颈。因此,一种新型且高效的攻击检测模型具有重要的应用意义和实际价值。
从国内外已有的攻击检测技术,分析出各种检测技术在特征提取、向量构造以及算法选择的思路,并对各种检测技术的优缺点进行了比较。通过对这些检测技术的学习研究,针对目前的检测技术存在的不足,本申请实施例提供一种基于自编码器的攻击检测模型,包括数据准备、攻击检测和攻击载荷可视化三个模块。本申请实施例提供的模型能够有效的发现攻击行为,并实时定位攻击载荷,协助网站维护人员及时发现Web应用的漏洞,保护企业、组织的数据安全,因此具有极大的研究价值和现实意义。
发明内容
本申请实施例提出的模型采用Seq2Seq、自编码器模型、Bi-LSTM算法、注意力机制等技术,设计了一种基于模型损失度量的检测算法,用以对HTTP样本的分类,同时设计了一种基于注意力机制的攻击载荷标注方法,实现了对攻击载荷的可视化标注。
本申请实施例旨在实现如下目标:
(1)使用仅对正常样本进行训练的方式,使用基于模型损失度量的方法,通过设定一个合理的门限值作为模型的分类标准,达到对攻击的检测能力;
(2)引入注意力机制对模型进行优化,通过计算每个输入对模型输出的权重,增强模型对样本分类的准确率;
(3)使模型输出具有“可解释性”,计算模型每个输出的概率序列,通过设定一个输出门限值,以该值作为是否异常输出的标准,并将异常输出元素标注为红色,达到对攻击载荷(异常元素)“可视化”的效果。
为实现上述目的,本申请实施例提出的模型采用了如下技术方案:该Web攻击行为检测系统主要部署在待检测服务器上。系统主要包括数据准备模块、攻击检测模块和攻击载荷可视化模块。
所述的数据准备模块主要由Python编写,主要用于原始数据的预处理、样本清洗标记、词汇表生成以及序列向量的生成。
所述的攻击检测模块主要由模块构建、模型训练、模型损失统计、模型损失分类判定等部分组成,主要完成模型的训练以及使用模型对测试数据集进行分类检测。
所述的攻击载荷标注模块由概率分布统计、概率门限判定等部分组成,主要完成对样本攻击载荷的异常标注。
采用本申请实施例提供的基于自编码器的攻击行为检测模型,不仅降低了对训练样本的要求,减轻工作量,还能对攻击请求中的攻击载荷进行标注。同时,还能拥有很高的检测准确率,为网站维护人员提供了极大的便捷。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的主要系统架构图;
图2是本申请一实施例提出的数据准备模块流程图;
图3是本申请一实施例提出的攻击检测模块整体运行流程图;
图4是本申请一实施例提出的攻击载荷可视化模块功能设计图。
具体实施方法
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例所对本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员中没有做出创造性劳动性前提下所获得的其他实施例,都属于本申请保护的范围。
图1示为系统的主要架构图,详细的介绍了上述三个模块的相关设计,并说明了相关模块的工作流程以及主要功能。主要完成对原始数据集的预处理,对样本进行标记,生成词汇表并生成序列向量;攻击检测模块主要完成模型的训练以及使用模型对测试数据集进行分类检测;攻击载荷可视化模块主要完成对样本攻击载荷的异常标注。
图2所示数据准备模块流程图,从系统部署图上来看,主要完成对原始数据集的预处理,首先提取HTTP请求数据并逐条分割以便后续使用,接着将数据分别标记为正负样本并保存,然后基于字符ASCII码建立词汇表,使用基于字符嵌入的方法将样本数据编码为序列向量。
图3是攻击检测模块整体运行流程图,训练阶段:首先对正常样本数据集进行预处理,接着根据词汇表生成序列向量,作为Bi-LSTM自编码器的输入,然后训练生成模型,并根据定义的公式计算模型Loss的的门限值;检测阶段:同样先将测试样本集预处理为序列向量,然后通过模型预测得到模型Loss,与门限值比较,最终分类判断样本为正常或恶意。
图4是攻击载荷可视化模块流程图,训练阶段:引入注意力机制对输入的权重进行计算,并通过定义的公式计算模型输出概率序列的门限值;标注阶段:通过样本集输出的概率序列与门限值比较,大于门限值的判定为正常元素(字符),标注为白色,小于门限值的判定为异常元素(字符),标注为红色。
对用户访问目标网站所产生的HTTP流量样本进行采集,使这些样本通过本申请预设的模型,一旦模型的损失大于预设的门限值,则判定为攻击行为并进行阻断;同时,使用基于注意力机制的攻击载荷标注方法对该样本中每个字符的概率分布进行计算,一旦某个字符的概率分布值小于预设的门限值,则将该字符标注为红色。网站维护人员则可以通过标注的位置进行分析网站的漏洞在何处,并进行相应的修补,其中,基于模型损失度量的算法如下:
步骤1:通过训练大量的正常样本集,最终可得到一个Loss极低的模型;
步骤2:将测试集中的正常样本通过模型预测,正常情况下每个序列均可得到一个损失较低的预测值,统计所有序列的Loss,记为total_Loss:
Figure 90008DEST_PATH_IMAGE001
然后将每个Loss一起构成门限值;
步骤3:将步骤2中得到的total_Loss进行求平均值和标准差,使用以下公式计算门限值:
Figure 944831DEST_PATH_IMAGE002
式中,mean代表求平均值,std代表求标准差。C为常数,需要在实验中进行调整计算,一般来说,C需要保证门限值threshold大于测试集Loss的最大值Lossmax
步骤4:将待检测样本中正常样本和恶意样本同时通过模型预测,如果通过序列的Loss>threshold,则判断为恶意样本;反之,序列的Loss<threshold,则为正常样本。
其中,基于注意力机制的攻击载荷标注原理如下。
步骤1:将测试样本通过训练好的模型预测,得到所有输出的概率序列
Figure 724569DEST_PATH_IMAGE003
式中,Yij指的是第i个序列,在词汇表中的第j个元素,T为词汇表长度,记录当前αij的值。
步骤2:统计所有的样本输出,计为alpha:
Figure 119778DEST_PATH_IMAGE004
计算alpha的均值和标准差,并使用以下公式计算门限值,式中,C为待定常数,mean求均值,std求标准差。
步骤3:通过调整常数C,保证门限值小于测试集中正常样本权重的最小值,且大于恶意样本的最大值,公式如下:
Figure 871833DEST_PATH_IMAGE005
同时,需观察样本标注是否符合客观事实,如果符合,则选用该门限值,否则继续调整。
步骤4:将测试集中某一条序列通过模型检测,如果模型预测得到Yij的概率序列中的第j个元素aij<threshold,则表明Yij为异常,将其标注为红色;反之如果aij>threshold,则表明Yij为正常,将其标注为白色。
本申请在现有的诸多检测方法基础上,研究了基于自编码器的Web攻击行为检测技术,针对当前检测技术的痛点,分别提出一种基于模型损失度量的半监督检测算法和基于注意力机制的攻击载荷标注方法,并针对两种算法的门限值计算提出相应的公式,根据之前提出的理论算法基础,构建了一套适合于真实应用环境的攻击检测模型。
以上对本申请所提供的一种基于自编码器的Web攻击行为检测系统,进行了详细介绍,本说明书对本申请的原理及实施方法进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对本领域的一般技术人员,一句本申请的思想,在具体实施方式及应用方位上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (4)

1.一种基于自编码器的Web攻击行为检测系统,其特征在于以下步骤:
步骤一:将原始的HTTP请求样本进行人工标注后,采用“字符嵌入”的方式构造序列向量,并使用Bi-LSTM算法对生成的向量进行编码处理;
步骤二:使用仅对正常样本进行训练的方式,选择交叉熵作为模型的损失函数,采用基于模型损失度量的算法对样本进行分类;
步骤三:引入注意力机制对模型进行优化,通过计算每个输入对模型输出的权重,增强模型对样本分类的准确率;
步骤四:计算模型每个输出的概率序列,对每个元素进行异常判定,并将异常输出元素标注为红色,达到“攻击可视化”的效果。
2.根据权利要求1所述的基于自编码器的Web攻击行为检测模型,其特征在于:针对HTTP请求数据的特点,放弃常规基于词嵌入的方法,使用基于字符嵌入的Bi-LSTM算法对样本进行编码和解码。
3.根据权利要求1所述的基于自编码器的Web攻击行为检测模型,其特征在于:利用深度学习中的自编码器模型,在初始训练中只需要标记为正常的样本,采用交叉熵损失函数作为模型的代价函数,以模型的损失作为分类标准,通过定义的公式对门限值进行调整,得到最佳分类门限。
4.根据权利要求1所述的基于自编码器的Web攻击行为检测模型,其特征在于:在攻击行为检测过程中,请求的每个字符或者泛化的结构数据对于分类的贡献是不同的,在解码过程中引入注入意力机制,计算每个字符的概率分布值,基于统计学的方法,使用定义的公式设置一个异常判定门限,对判定为异常的字符进行标注,最终可以达到对异常字符(即攻击载荷)的定位能力。
CN201910715340.5A 2019-08-05 2019-08-05 一种基于自编码器的Web攻击行为检测系统 Active CN112333128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910715340.5A CN112333128B (zh) 2019-08-05 2019-08-05 一种基于自编码器的Web攻击行为检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910715340.5A CN112333128B (zh) 2019-08-05 2019-08-05 一种基于自编码器的Web攻击行为检测系统

Publications (2)

Publication Number Publication Date
CN112333128A true CN112333128A (zh) 2021-02-05
CN112333128B CN112333128B (zh) 2021-09-17

Family

ID=74319348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910715340.5A Active CN112333128B (zh) 2019-08-05 2019-08-05 一种基于自编码器的Web攻击行为检测系统

Country Status (1)

Country Link
CN (1) CN112333128B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312891A (zh) * 2021-04-22 2021-08-27 北京墨云科技有限公司 一种基于生成模型的payload自动生成方法、装置、系统
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法
CN114301630A (zh) * 2021-11-30 2022-04-08 北京六方云信息技术有限公司 网络攻击检测方法、装置、终端设备及存储介质
CN117955750A (zh) * 2024-03-27 2024-04-30 南昌大学 基于半监督模糊综合评价法的网络机器人行为检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156211A1 (en) * 2013-11-29 2015-06-04 Macau University Of Science And Technology Method for Predicting and Detecting Network Intrusion in a Computer Network
CN105389505A (zh) * 2015-10-19 2016-03-09 西安电子科技大学 基于栈式稀疏自编码器的托攻击检测方法
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
US20190004490A1 (en) * 2017-06-28 2019-01-03 Siemens Aktiengesellschaft Method for recognizing contingencies in a power supply network
US20190095300A1 (en) * 2017-09-27 2019-03-28 Panasonic Intellectual Property Corporation Of America Anomaly diagnosis method and anomaly diagnosis apparatus
CN109581871A (zh) * 2018-12-03 2019-04-05 北京工业大学 免疫对抗样本的工业控制系统入侵检测方法
CN109714322A (zh) * 2018-12-14 2019-05-03 中国科学院声学研究所 一种检测网络异常流量的方法及其系统
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
EP3492944A1 (en) * 2017-12-01 2019-06-05 Origin Wireless, Inc. Apparatus, systems and methods for event detection and recognition based on a wireless signal
CN110049034A (zh) * 2019-04-09 2019-07-23 江苏商贸职业学院 一种基于深度学习的复杂网络实时Sybil攻击检测方法
CN110086776A (zh) * 2019-03-22 2019-08-02 国网河南省电力公司经济技术研究院 基于深度学习的智能变电站网络入侵检测系统及检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150156211A1 (en) * 2013-11-29 2015-06-04 Macau University Of Science And Technology Method for Predicting and Detecting Network Intrusion in a Computer Network
CN105389505A (zh) * 2015-10-19 2016-03-09 西安电子科技大学 基于栈式稀疏自编码器的托攻击检测方法
US20190004490A1 (en) * 2017-06-28 2019-01-03 Siemens Aktiengesellschaft Method for recognizing contingencies in a power supply network
US20190095300A1 (en) * 2017-09-27 2019-03-28 Panasonic Intellectual Property Corporation Of America Anomaly diagnosis method and anomaly diagnosis apparatus
EP3492944A1 (en) * 2017-12-01 2019-06-05 Origin Wireless, Inc. Apparatus, systems and methods for event detection and recognition based on a wireless signal
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及系统
CN109829299A (zh) * 2018-11-29 2019-05-31 电子科技大学 一种基于深度自编码器的未知攻击识别方法
CN109581871A (zh) * 2018-12-03 2019-04-05 北京工业大学 免疫对抗样本的工业控制系统入侵检测方法
CN109714322A (zh) * 2018-12-14 2019-05-03 中国科学院声学研究所 一种检测网络异常流量的方法及其系统
CN110086776A (zh) * 2019-03-22 2019-08-02 国网河南省电力公司经济技术研究院 基于深度学习的智能变电站网络入侵检测系统及检测方法
CN110049034A (zh) * 2019-04-09 2019-07-23 江苏商贸职业学院 一种基于深度学习的复杂网络实时Sybil攻击检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALI MORADI VARTOUNI: "An Anomaly Detection Method to Detect Web Attacks Using Stacked Auto-Encoder", 《2018 6TH IRANIAN JOINT CONGRESS ON FUZZY AND INTELLIGENT SYSTEMS (CFIS)》 *
HIEU MAC: "Detecting Atacks on Web Applications using Autoencoder", 《SOICT 2018: PROCEEDINGS OF THE NINTH INTERNATIONAL SYMPOSIUM ON INFORMATION AND COMMUNICATION TECHNOLOGY》 *
HUA ZHANG: "Webshell Traffic Detection With Character-Level Features Based on Deep Learning", 《IEEE ACCESS》 *
郭旭东: "基于改进的稀疏去噪自编码器的入侵检测", 《计算机应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312891A (zh) * 2021-04-22 2021-08-27 北京墨云科技有限公司 一种基于生成模型的payload自动生成方法、装置、系统
CN113312891B (zh) * 2021-04-22 2022-08-26 北京墨云科技有限公司 一种基于生成模型的payload自动生成方法、装置、系统
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法
CN114168938B (zh) * 2021-10-29 2023-04-07 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法
CN114301630A (zh) * 2021-11-30 2022-04-08 北京六方云信息技术有限公司 网络攻击检测方法、装置、终端设备及存储介质
CN117955750A (zh) * 2024-03-27 2024-04-30 南昌大学 基于半监督模糊综合评价法的网络机器人行为检测方法
CN117955750B (zh) * 2024-03-27 2024-07-05 南昌大学 基于半监督模糊综合评价法的网络机器人行为检测方法

Also Published As

Publication number Publication date
CN112333128B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN112333128B (zh) 一种基于自编码器的Web攻击行为检测系统
Tang et al. Zerowall: Detecting zero-day web attacks through encoder-decoder recurrent neural networks
CN110233849B (zh) 网络安全态势分析的方法及系统
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN110909811A (zh) 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN113283476B (zh) 一种物联网网络入侵检测方法
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
CN106357618A (zh) 一种Web异常检测方法和装置
CN111901340A (zh) 一种面向能源互联网的入侵检测系统及其方法
CN114338195A (zh) 基于改进孤立森林算法的web流量异常检测方法及装置
CN116488915A (zh) 基于深度学习的Web攻击检测与分类识别方法及装置
CN116827656A (zh) 网络信息安全防护系统及其方法
CN115001934A (zh) 一种工控安全风险分析系统及方法
Do Xuan et al. Optimization of APT attack detection based on a model combining ATTENTION and deep learning
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN113902052A (zh) 一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测方法
CN109918901A (zh) 实时检测基于Cache攻击的方法
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN110958251A (zh) 一种基于实时流处理检测失陷主机并回溯的方法及装置
Salazar et al. Monitoring approaches for security and safety analysis: application to a load position system
Lai Intrusion Detection Technology Based on Large Language Models
KR102651655B1 (ko) 네트워크에 대한 침해 공격을 탐지하는 장치, 방법 및 컴퓨터 프로그램
CN109522715A (zh) 一种面向安全智能电网的数据融合分类方法与系统
Said et al. Attention-based CNN-BiLSTM deep learning approach for network intrusion detection system in software defined networks
CN113132414A (zh) 一种多步攻击模式挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant