CN111783929B

CN111783929B - 一种基于机器学习的智能Web攻击捕获方法及电子装置

Info

Publication number: CN111783929B
Application number: CN202010640909.9A
Authority: CN
Inventors: 贾晓启; 黄庆佳; 魏钰宸; 唐静; 谢静; 周梦婷; 付玉霞; 刘冠廷
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-05-05
Anticipated expiration: 2040-07-06
Also published as: CN111783929A

Abstract

本发明提供一种基于机器学习的智能Web攻击捕获方法及电子装置，包括截获一攻击流量，检索该攻击流量的源IP信息是否在IP‑目标映射表中及相应的IP‑目标映射表权重与实时流量分类表权重；根据IP‑目标映射表权重与实时流量分类表权重相互大小，分别通过IP‑目标映射表或实时攻击流量分类模型中得到该攻击流量对应的目标应用类型，并引导至相应的应用蜜罐中。本发明实现对攻击者的高效准确引导，并通过反馈调节机制让蜜罐系统实现对于攻击者行为和目标的不断学习，持续提升攻击引导和捕获的能力。

Description

一种基于机器学习的智能Web攻击捕获方法及电子装置

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于机器学习的智能Web攻击捕获方法及电子装置。

背景技术

随着网络技术的高速发展和广泛应用，网络已经成为了人们日常生活和工作的重要工具，然而，在网络技术蓬勃发展的同时，网络攻击和恶意代码的威胁也在与日俱增。通过对国家互联网应急响应中心在2013年至2018年的漏洞数据统计报告的分析，可以明显地发现，漏洞的总数量和威胁程度在逐年攀升，这五年间漏洞数量的平均增长率高于10％，年平均增长的漏洞数量也达到了10000个以上，其中更不乏一些恶意软件的变种或者新型高危攻击出现，如近年来危害十分广泛的勒索软件病毒，对全球范围内，包括政府、教育、医院、能源、通信、制造业在内，诸多科技民生相关领域的网络信息基础设备设施造成了难以估量的损失，而正是这类攻击的出现让传统的防御手段难以在第一时间做出针对性的防控，因此如何能够针对当前网络攻击进行有效防御是一个亟待解决的问题。

通过对当前网络现状的分析，会发现在传统的攻防对抗领域，攻击方与防御方之间正在进行着一场不对称的技术博弈，攻击方在工作量、获取信息面、承担后果等方面较防御方都占据着极大的优势，攻击方只需要承担极小的风险就有一定概率获取巨大的回报，而防御方则需要对系统的方方面面进行完备的防护才能够保证系统不被攻破。

安全防御技术一般可以分为被动防御技术和主动防御技术。被动防御技术是指基于病毒特征码扫描或者病毒特征库来对恶意软件或攻击进行识别和防护的手段，如传统的防火墙、入侵检测系统等等，主要利用已有的病毒特征库对来访流量等进行检测。目前被动防御技术最主要的缺点是对特征库有强依赖关系，导致了这类技术在遇到恶意代码变种或是新型恶意代码时，往往无法第一时间对其进行判别，从而使得系统暴露在风险之中。主动防御技术是指入侵行为对信息系统发生影响之前，能够及时精准预警，实时构建弹性防御体系，避免、转移、降低信息系统面临的风险的一种安全防护技术，当前主动防御技术中已有多种实施方案和研究成果，而其中最值得关注的技术即为蜜罐技术。

蜜罐技术在1989年作为一种主动防御技术被提出，它是网络欺骗技术中的核心技术之一，作为安全资源的一种，蜜罐本身并不提供真实的业务服务，它通过模拟或仿真的手段去复刻一些系统中的应用或服务，从而诱导攻击者对其进行攻击操作，与此同时，蜜罐通过自身设置的监控机制对攻击者的行为进行实时地监控、捕获和分析，以此来获悉攻击者使用的工具、攻击的方法等等，并进一步预测攻击者意图，来及时调整系统的安全控制策略，达到系统防护的目的。

当前蜜罐技术的发展主要包含两个方向。一是提升蜜罐系统动态部署能力，结合多项技术使得蜜罐系统按照一定的策略或者规则变化自身的网络拓扑结构，应用蜜罐类型等，这在一定程度上让攻击者难以有效识别其为蜜罐系统；二是提升蜜罐系统交互能力，结合多项技术使得蜜罐系统按照一定的策略或者规则与攻击者进行更加有效的交互操作，让攻击者难以意识到自己在与虚假的服务或系统进行交互操作。但在当前这两个研究方向中，存在着如下一些问题，当前蜜罐系统大多仅包含单个同类应用，攻击者所利用的漏洞不被蜜罐系统包含时，该蜜罐系统则无法捕获该次攻击，而在支持多应用的蜜罐系统中，蜜罐引导算法缺失了对于先验知识的参考，导致蜜罐系统在进行攻击引导时的低效，在应对多步攻击和新型攻击时则缺乏调节能力，导致蜜罐系统引导的失效。

针对当前快速演变的网络攻击，传统的被动防御手段高度依赖特征库，难以有效进行及时防护，高自动化、分布广泛、破坏力强的网络攻击让传统的防御手段难以在第一时间做出针对性的防控。而当前主动防御中的蜜罐技术中，对于多应用蜜罐支持度较低且在进行攻击流量引导时缺乏先验知识的支撑，分类引导的效率及准确率较低。因此，如何能够针对当前网络攻击进行有效防御是一个亟待解决的问题。

发明内容

本发明的目的在于研究并实现一种基于机器学习的智能Web攻击捕获方法及电子装置，避免传统蜜罐系统应用单一的问题，同时引入机器学习手段，使得先验知识被合理利用，大幅提高了攻击检测精度和速度，通过反馈调节机制，实现蜜罐对于多步攻击和新型攻击的有效引导，捕获到更多的攻击数据。

本发明采用的技术方案如下：

一种基于机器学习的智能Web攻击捕获方法，其步骤包括：

1)截获一攻击流量，检索该攻击流量的源IP信息是否在IP-目标映射表中及相应的IP-目标映射表权重与实时流量分类表权重；

2)若该源IP信息不存在于IP-目标映射表中时，将该源IP信息添加至IP-目标映射表，并赋予IP-目标映射表权重为0，实时流量分类表权重为n，n≥1；

3)若相应的IP-目标映射表权重不小于实时流量分类表权重，则查询IP-目标映射表中该源IP信息相应表项，得到该攻击流量对应的目标应用类型；若该源IP信息相应的IP-目标映射表权重小于实时流量分类表权重，则将该攻击流量输入实时攻击流量分类模型，得到该攻击流量对应的目标应用类型；

4)将目标应用类型引导至相应的应用蜜罐中，并依据引导结果，调整IP-目标映射表权重或实时流量分类表权重；

其中，通过以下步骤获取实时攻击流量分类模型：

a)从若干样本攻击流量负载字段中提取用于分类的若干特征字段集，并将各特征字段集转换为第一特征向量集；

b)将每一特征向量集进行归一化及降维处理，得到第二特征向量集；

c)对各第二特征向量集进行机器学习训练，得到实时攻击流量分类模型。

进一步地，所述目标应用类型包括WordPress应用、Joomla应用和Drupal应用。

进一步地，通过中间人机制与攻击流量进行目标应用类型探测时所使用的特征字，截获所述攻击流量。

进一步地，所述特征字包括WordPress应用中的wp及wordpress、Joomla应用中的joomla！及jm和Drupal应用中的drupal。

进一步地，特征字段集中的特征字段包括：WordPress应用中的wp、http、content、jquery、Head、plugins、themes、ui、effects、Get、media、customize、scriptaculous、admin、Widget、widgets、editor、mediaelement、post、Custom、core、gallery、php、theme、Tags、nav、suggest、swfupload、plupload及preview、Joomla应用中的http、get、components、xml、Administrator、manifest、php、index、head、Txt、sql、backup、joomla、database、Readme、configuration、tar、post、zip、Application、www、form、urlencoded、gz、5c、modules、upload、md、license及changelog和Drupal应用中的http、php、get、core、Install、index、administrator、post、application、www、form、urlencoded、5c、components、Gif、images、libraries、js、pwn、com\_jbcatalog、jsupload、server、uploadhandler、5cx74、Up、com\_facileforms、jquery、29、7b及files。

进一步地，降维处理的方法包括PCA降维。

进一步地，机器学习训练的方法包括朴素贝叶斯方法。

进一步地，通过以下策略调整IP-目标映射表权重或实时流量分类表权重：

1)若通过查询IP-目标映射表得到目标应用类型，则引导成功时IP-目标映射表权重加n；引导失败时IP-目标映射表权重减n；

2)若通过实时攻击流量分类模型得到目标应用类型，则引导成功时实时流量分类表权重加n；引导实时失败时流量分类表权重减n；

3)IP-目标映射表权重不大于n；

4)实时流量分类表权重不小于0。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明基于机器学习和蜜罐技术实现对攻击者的高效准确引导，并通过反馈调节机制让蜜罐系统实现对于攻击者行为和目标的不断学习，持续提升攻击引导和捕获的能力。

附图说明

图1为本发明系统框架图；

图2为本发明方法流程图；

图3为本发明中攻击流量处理流程图；

具体实施方式

下面结合附图对本发明进行进一步详细描述。

本发明系统框架如图1所示，系统构成包括包含多种应用蜜罐的蜜罐机群以及包含实时攻击流量分类模块和反馈调节模块的智能决策单元。

1)实时攻击流量分类模型生成模块

首先，本方法以WordPress、Joomla和Drupal三类Web应用作为目标对象，通过对这三类应用的攻击流量进行分析，提出了一种基于特征字段的分类方案，通过对攻击流量负载字段的分析，能够从中提取出如表1所示的90种用于分类的特征字段，然后将收集到的攻击流量按照选取的特征进行预处理得到用于训练分类器的特征向量，接着对特征向量进行归一化处理，并利用PCA降维的方式将向量维度降至30维，最后将得到的特征向量作为训练集输入到朴素贝叶斯分类模型中进行训练得到用于攻击流量实时分类的分类模型，利用选取出的特征字段进行分类的准确率能够达到97％。其中，由于采用PCA降维技术，因此30维特征向量的具体内容并不固定。

表1特征字段详情表

2)实时攻击流量分类模块

首先，对80端口接收的攻击流量进行预处理，得到用于分类的特征向量，然后将特征向量输入到上个模块生成的分类模型中，得到分类结果，即目标应用的类型，然后将该流量重定向至目标应用蜜罐中。

这里流量的拦截及重定向使用到了中间人技术，通过在蜜罐系统的流量入口设置反向代理，所有经过80端口的流量都被实时攻击流量分类模块拦截并分析，在得到分析结果即目标应用类型后，攻击流量会被重定向至具体的蜜罐，该重定向的方式可以为端口重定向，也可以为IP地址重定向。

由于实时攻击流量分类模块的准确率会受到根目录探测、新型攻击请求的影响而出现一定概率的分类误差，因此，本方法还设置了多特征页面模块及反馈调节模块用于对攻击者进行更加精准地引导。

3)多特征根页面模块

由于攻击者在探测Web应用根页面时，请求的内容上没有差异性，因此会导致实时攻击流量分类模块有一定概率出现分类的误差，因此本方法提出了一种多特征根页面的模块，该根页面包含多种Web应用的特征，通过对攻击者的攻击探测请求及大量的攻击工具源码分析，可以得到攻击者做Web应用类型探测时所用的主要特征字，在WordPress应用中，主要为wp、wordpress，在Joomla应用中，主要为joomla！、jm，在Drupal应用中，主要为drupal，如表2所示。本系统将所有的特征字都集合到同一个根页面中，在攻击者进行根页面探测时，就不会因为Web应用类型不是目标对象而放弃攻击。

表2根页面类型判断元素表

应用类型	Wordpress	Joomla	Drupal
				类型判断元素	Wordpresswp	joomla！jm	drupal

4)反馈调节模块

反馈调节模块主要用于调节实时攻击流量分类模块的分类效率以及针对新型web攻击请求可能会出现误差的情况设置。首先，通过对于大量web攻击失效时的web蜜罐回复进行分析，得到一个失败集合，用于判断攻击流量引导的正确性。然后，建立IP-目标映射表，该表包括攻击者与目标应用的映射关系及利用反馈调节模块分类和利用实时攻击流量分类模块的权重值，以此机制来对攻击者的行为进行学习，每当有新攻击者进入系统时，系统会利用实时攻击流量分类模块对该攻击流量进行分类，表格则记录下该攻击者以及其目标应用，结合失败集合对蜜罐回复分析得到该次引导的正确性，并据此修改反馈调节模块和实时攻击流量分类模块的分类权重值。

该模块使得系统能够以较高的效率进行攻击流量的引导，并且利用映射表的方式对攻击者的行为进行了记录和学习，保证了攻击者在一段时间内攻击目标的延续性，使蜜罐系统能够收集更深入的攻击行为。

本发明的方法具体流程如图2所示，系统初始状态下，实时流量分类表与IP-目标映射表均为空，在攻击者进行攻击时，首先通过中间人机制实时截获攻击流量，并获取流量的源IP信息，然后对IP-目标映射表进行检索，判断该攻击者IP是否存在于IP-目标映射表中。

若攻击者存在于IP-目标映射表中，那么接下来判断IP-目标映射表与实时流量分类表的分类权重关系，若前者权重大，则直接查询该映射表中记录的相应表项，得到攻击者的目标应用类型；若后者权重大，则对攻击流量进行如图3的处理，得到用于分类模型输入的特征向量，然后输入朴素贝叶斯分类器中得到攻击者的目标应用类型。

若攻击者不存在于IP-目标映射表中，那么对攻击流量进行如图3的处理，得到用于分类模型输入的特征向量，然后输入朴素贝叶斯分类器中得到攻击者的目标应用类型。同时设置该IP的实时流量分类模块分类权重为3，将该IP添加至IP-目标映射表中，设置反馈调节模块分类权重为0。

在得到目标应用类型后，利用流量重定向机制将攻击流量引导至特定的应用蜜罐中，并获取蜜罐对于该请求的回复内容，通过对该回复内容进行分析，判断本次引导是否成功，若由反馈调节模块引导，引导失败时，减少IP-目标映射表分类权重1，当权重为负值时删除IP-目标映射表中该IP对应项，引导成功时，增加IP-目标映射表分类权重1，分类权重不得大于3；若由实时流量分类模块引导，引导失败时，减少实时流量分类表的分类权重1，权重为负值时置零，引导成功时，增加实时流量分类模块分类权重1，分类权重不得大于3。

至此一次完整的攻击者引导及分类模块更新结束，方法同时兼顾分类的效率与准确性。

下面将给出一个具体实施例。可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

用户为网络安全研究人员，出于对当前web应用安全态势分析及新型web应用攻击方式的了解需求，寻求一种高效的web应用攻击捕获系统。在该种情形下，利用本发明中的智能蜜罐系统可以为该需求提供技术支撑。

用户将需要分析的web应用蜜罐添加至智能攻击捕获系统框架，在本例中我们以wordpress、joomla和drupal三类web应用为例。首先将该系统部署至云服务器上，保证三个应用蜜罐的部署环境一致，并同时部署只包含单一应用的wordpress、joomla和drupal应用蜜罐以及同类型的多应用arkhoney蜜罐系统，然后让其运行于互联网环境一个月的时间，对各个蜜罐系统捕获的数据进行如下分析。

部署一个月的时间内，智能攻击捕获系统共捕获4586次请求，其中有3513次GET请求，993次POST请求与67次HEAD请求。这些请求来自于36个国家的767个不同IP地址。

首先通过数据分析验证实时攻击流量分类模块的有效性。实验对本智能攻击捕获系统、单一应用蜜罐系统及多应用蜜罐系统进行了1000次攻击请求时间统计，其总攻击完成时间及平均攻击完成时间如表3所示。

表3攻击完成时间对比表

蜜罐类别	Wordpress	Joomla	Drupal	Arkhoney蜜罐系统	智能攻击捕获系统
						攻击总用时/s	362	339	342	381	377
平均攻击用时/s	0.362	0.339	0.342	0.381	0.377

从表3中数据分析，与单一应用蜜罐相比，仅包含实时攻击流量分类模块的智能蜜罐系统平均攻击引导耗时增加8.34％，arkhoney蜜罐系统平均攻击引导耗时增加9.57％，当仅包含实时攻击流量分类模块时，智能攻击捕获系统会对每个经过的流进行分类，造成了性能一定程度的损失，但与同类多应用蜜罐系统相比仍然要更高效。

然后通过数据分析对多特征根页面功能进行验证。本实验部署包含多特征根页面与不包含多特征根页面的两种智能攻击捕获系统至服务器上，进行攻击捕获的测试，捕获的攻击数据如表4所示。

表4多特征根页面功能验证表

由表4中数据分析，与不包含多特征页面的智能攻击捕获系统相比，包含有多特征页面的智能攻击捕获系统在捕获请求数量总数上多出35％，有效攻击捕获数量上多出57％，当智能攻击捕获系统包含多特征根页面后，攻击者有更大概率在根页面探测这一步获得自身的目标应用类型，因此会释放更多的攻击行为。

最后通过实验数据分析对反馈调节模块功能进行功能测试。本实验部署包含与不包含反馈调节模块的两种智能攻击捕获系统至服务器上并进行1000次攻击捕获的测试，其捕获的攻击数据如表5所示。

表5反馈调节模块功能验证表

蜜罐类别	非反馈调节	反馈调节	Arkhoney系统	Wordpress	Joomla	Drupal
							攻击总用时/s	377	358	381	362	339	342
平均攻击用时/s	0.377	0.358	0.381	0.362	0.339	0.342
							分类准确率	0.97	0.99	-	-	-	-

由表5中数据分析，反馈调节模块提升了分类引导效率，与单一应用蜜罐相比，平均攻击耗时仅增加2.97％，反馈调节模块使得系统在多步攻击时更多使用分类映射表进行分类，其分类效率高于机器学习的模型，因此包含反馈调节模块的智能攻击捕获系统平均攻击耗时更短；反馈调节模块提升了分类准确率两个百分点，反馈调节模块对攻击者的行为模式进行记录和学习，能够实时调节分类引导策略，使得方法引导及攻击捕获能力不断提升。

应当理解的是上述实施方式描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以权利要求书为准。

Claims

1.一种基于机器学习的智能Web攻击捕获方法，其步骤包括：

1)截获一攻击流量，检索该攻击流量的源IP信息是否在IP-目标映射表中；其中，所述IP-目标映射表包括攻击者与目标应用的映射关系及利用IP-目标映射表分类的权重值、利用实时攻击流量分类模块分类的权重值；

2)在该源IP信息不存在于IP-目标映射表中的情况下，则将该源IP信息添加至IP-目标映射表，且根据实时攻击流量分类模型对所述攻击流量进行分类引导，得到该攻击流量对应的目标应用类型，并赋予利用IP-目标映射表分类的权重值为0，利用实时攻击流量分类模块分类的权重值为n，n≥1；

3)在该源IP信息存在于IP-目标映射表中，且该源IP信息相应的利用IP-目标映射表分类的权重值不小于利用实时攻击流量分类模块分类的权重值的情况下，则查询IP-目标映射表中该源IP信息相应表项，得到该攻击流量对应的目标应用类型；

4)在该源IP信息存在于IP-目标映射表中，且该源IP信息相应的利用IP-目标映射表分类的权重值小于利用实时攻击流量分类模块分类的权重值的情况下，则根据实时攻击流量分类模型对所述攻击流量进行分类引导，得到该攻击流量对应的目标应用类型；

5)将目标应用类型引导至相应的应用蜜罐中，并依据引导结果，调整IP-目标映射表权重或实时流量分类表权重；

其中，通过以下步骤获取实时攻击流量分类模型：

2.如权利要求1所述的方法，其特征在于，所述目标应用类型包括WordPress应用、Joomla应用和Drupal应用。

3.如权利要求2所述的方法，其特征在于，通过中间人机制与攻击流量进行目标应用类型探测时所使用的特征字，截获所述攻击流量。

4.如权利要求3所述的方法，其特征在于，所述特征字包括WordPress应用中的wp及wordpress、Joomla应用中的joomla！及jm和Drupal应用中的drupal。

5.如权利要求2所述的方法，其特征在于，特征字段集中包括的特征字段包括：WordPress应用中的wp、http、content、jquery、Head、plugins、themes、ui、effects、Get、media、customize、scriptaculous、admin、Widget、widgets、editor、mediaelement、post、Custom、core、gallery、php、theme、Tags、nav、suggest、swfupload、plupload及preview、Joomla应用中的http、get、components、xml、Administrator、manifest、php、index、head、Txt、sql、backup、joomla、database、Readme、configuration、tar、post、zip、Application、www、form、urlencoded、gz、5c、modules、upload、md、license及changelog和Drupal应用中的http、php、get、core、Install、index、administrator、post、application、www、form、urlencoded、5c、components、Gif、images、libraries、js、pwn、com_jbcatalog、jsupload、server、uploadhandler、

5cx74、Up、com_facileforms、jquery、29、7b及files。

6.如权利要求1所述的方法，其特征在于，降维处理的方法包括PCA降维。

7.如权利要求1所述的方法，其特征在于，机器学习训练的方法包括朴素贝叶斯方法。

8.如权利要求1所述的方法，其特征在于，通过以下策略调整IP-目标映射表权重或实时流量分类表权重：

1)若通过查询IP-目标映射表得到目标应用类型，则引导成功时利用IP-目标映射表分类的权重值若小于m，则增加权重1，若不小于m，则不增加；引导失败时利用IP-目标映射表分类的权重值若不为负值则减1，若为负值则删除该IP；其中，m为自然数；

2)若通过实时攻击流量分类模型得到目标应用类型，则引导成功时利用实时攻击流量分类模块分类的权重值若小于m^′，则增加权重1，若不小于m^′，则不增加；引导失败时利用实时攻击流量分类模块分类的权重值若不为负值则减1，若为负值则置为零；其中，m^′为自然数。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。