CN114363093A - 一种基于深度强化学习的蜜罐部署主动防御方法 - Google Patents

一种基于深度强化学习的蜜罐部署主动防御方法 Download PDF

Info

Publication number
CN114363093A
CN114363093A CN202210263026.XA CN202210263026A CN114363093A CN 114363093 A CN114363093 A CN 114363093A CN 202210263026 A CN202210263026 A CN 202210263026A CN 114363093 A CN114363093 A CN 114363093A
Authority
CN
China
Prior art keywords
network
honeypot
reinforcement learning
traffic
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210263026.XA
Other languages
English (en)
Other versions
CN114363093B (zh
Inventor
韩蒙
林昶廷
胡书隆
纪守领
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Juntong Intelligent Technology Co ltd
Original Assignee
Zhejiang Juntong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Juntong Intelligent Technology Co ltd filed Critical Zhejiang Juntong Intelligent Technology Co ltd
Priority to CN202210263026.XA priority Critical patent/CN114363093B/zh
Publication of CN114363093A publication Critical patent/CN114363093A/zh
Application granted granted Critical
Publication of CN114363093B publication Critical patent/CN114363093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及面向网络空间安全及深度强化学习防御技术领域,具体涉及一种基于深度强化学习的蜜罐部署主动防御方法,本发明所提供的基于深度强化学习的蜜罐部署主动防御方法,将软件定义网络(SDN)与Mininet技术相结合,构建虚拟蜜罐主机和软件定义网络拓扑,并利用深度学习优化路由网络路径选择,将攻击流量引入蜜网,从而提高网络的安全性和收敛性,以此达到主动防御恶意流量攻击的目的。

Description

一种基于深度强化学习的蜜罐部署主动防御方法
技术领域
本发明涉及面向网络空间安全及深度强化学习防御技术领域,具体涉及一种基于深度强化学习的蜜罐部署主动防御方法。
背景技术
随着人工智能技术和互联网技术的不断发展,网络攻击技术也在日益更新。由于网络环境的日益复杂和安全威胁问题的日渐突出,信息安全已成为互联网时代公众关注并重点研究的对象。如防火墙、安全扫描、病毒防护和入侵检测等传统的网络安全设备,虽然在一定程度上可以降低诸多威胁带来的破坏,防御网络入侵行为,但伴随着云计算技术的高速发展,攻防技术已产生滞后,并出现攻防不平衡的问题。现有的防御体系需要依赖先验知识,即具备较为广泛的攻防知识储备和数据支撑,是一种典型的被动防御。在如今大数据时代背景下,单单依靠传统的防御技术已难以对未知攻击手段做出实时有效的响应和处理,由被动防御方式向主动防御方式的转变和结合应用,已成为如今网络安全防御技术发展的迫切要求。
蜜罐技术(Honeypot)是网络防御中的陷阱技术,它通过吸引诱骗攻击者并记录其攻击行为,从而研究学习敌手的攻击目的和攻击手段,保护真实服务资源。蜜网技术(Honeynet)的提出源于蜜罐技术,由多个蜜罐组成的蜜网可以执行更高效的主动防御,蜜网由诱骗服务模块集中部署的蜜罐群构成,是一种具有高交互研究型的蜜罐技术。蜜网技术通过提前设计的多个蜜罐主机,诱骗攻击者攻击,让攻击者误以为攻击对象是真机,以此达到迷惑攻击者的目的,同时获取攻击者的攻击行为和态势信息,再进行分析评估。该机制是一种十分有效的主动防御机制。
然而,传统蜜罐技术存在静态配置、固定部署等不足,极易被攻击者识别绕过而失去诱骗价值。因此,如何提高蜜罐的动态性与诱骗性成为蜜罐领域的关键问题。同样地,传统的蜜网需要物理机部署,使得其在部署过程中,存在实施复杂、成本高昂且流量控制困难等问题。试图解决这一问题的一个途径是将深度强化学习(DRL)技术应用于软件定义网络(SDN),通过SDN构建虚拟蜜网,并利用DRL算法训练SDN控制器以便智能化蜜罐部署过程。
深度强化学习自提出以来,便是人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。强化学习(RL)是一种人工智能优化技术,其关键优势在于,它不需要环境模型来生成攻击策略,而是通过与环境的交互来学习最佳策略,而深度强化学习则充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略。利用深度强化学习部署蜜罐,能实现对SDN流量状态的实时感知,在遇到恶意流量攻击时,将其主动转向蜜网,从而达到主动防御的目的。
发明内容
针对现有技术所存在的上述缺点,本发明在于提供一种基于深度强化学习的蜜罐部署主动防御方法,本发明所提供的基于深度强化学习的蜜罐部署主动防御方法,将软件定义网络(SDN)与Mininet技术相结合,构建虚拟蜜罐主机和软件定义网络拓扑,并利用深度学习优化路由网络路径选择,将攻击流量引入蜜网,从而提高网络的安全性和收敛性,以此达到主动防御恶意流量攻击的目的。
为实现上述目的,本发明的技术构思为:SDN的OpenDaylight控制器在基于深度强 化学习的训练过程中,决策控制层可能出现拥塞,控制层拥堵会导致控制器无法尽快进行 正常的路由下发;此外,若控制层的输入为恶意攻击流量,若不主动防御,则将导致业务应 用层的服务器遭受不同程度的破坏。基于上述情况,当决策控制层出现链路拥堵时,先利用 DQN模型对当前节点状态流量矩阵进行判断,根据模型输出的
Figure DEST_PATH_IMAGE001
Figure 505435DEST_PATH_IMAGE002
是否大于0来判断 此时控制层是否出现拥堵,随后再利用
Figure DEST_PATH_IMAGE003
贪婪探索策略减少对控制器与无连接的交 换机进行探索,从而更快在决策层进行路由下发;与此同时,若此时的流量负载输入至NIDS 模块输出判别为恶意攻击流量,则将当前的流量全部引入事先搭建好的蜜网,通过对蜜网 中蜜罐的交互信息判断恶意攻击流量是否成功被引入蜜网,成功给予正值奖励,失败则给 予负值奖励。
本发明提供了如下技术方案:
一种基于深度强化学习的蜜罐部署主动防御方法,包括以下步骤:
(1)利用SDN控制器及Mininet构建虚拟蜜罐主机,以及构建三层虚拟蜜网;
(2)智能体进行训练:基于强化学习中的深度Q网络算法训练SDN网络中的控制器,深度Q网络算法将Q学习与卷积神经网络相结合,构建强化学习训练模型;
(3)智能体蜜罐部署以及优化蜜网路由。
本发明进一步设置为:在步骤(1)中,所述三层虚拟蜜网分别为虚拟基础设施层、决策控制层以及业务应用层。
本发明进一步设置为:在步骤(1)中,包括以下步骤:
(101)利用SDN的OpenDaylight控制器对虚拟交换机流表进行控制,快速部署虚拟网络,再利用Mininet构建轻量级虚拟蜜罐主机及网络;
(102)构建蜜网的3层网络。
本发明进一步设置为:在步骤(2)中,包括以下步骤:
(201)构建基于OpenFlow协议的SDN网络拓扑流量模型;
(202)基于深度Q网络算法训练智能体;
(203)训练过程中,当前时刻的初始状态
Figure 861330DEST_PATH_IMAGE004
,即初始流量负载矩阵;动作
Figure DEST_PATH_IMAGE005
是指路 由路径选择,若成功将恶意流量引入蜜网并成功陷入蜜罐基于正奖励
Figure 511754DEST_PATH_IMAGE006
,若未陷入蜜罐则 给予负奖励
Figure DEST_PATH_IMAGE007
,若未检测到恶意流量,则进行正常的路由下发,奖励值设为0,下一个状态
Figure 809749DEST_PATH_IMAGE008
即指下一时刻的流量负载矩阵;
(204)将状态转换过程存储在经验回放缓冲区
Figure DEST_PATH_IMAGE009
中,作为网络模型的训练数据 集;
(205)从缓冲区
Figure 178414DEST_PATH_IMAGE009
中采样N个训练数据集,通过最小化当前Q网络的预测Q值
Figure 603579DEST_PATH_IMAGE001
和目标Q网络的目标Q值
Figure 374089DEST_PATH_IMAGE002
的均方差来更新当前Q网络的网络参数,每隔一段时间将当前Q 网络的相关参数复制给目标Q网络;
(206)在计算
Figure 734663DEST_PATH_IMAGE001
Figure 856203DEST_PATH_IMAGE002
时,若决策控制层出现拥塞,
Figure 960425DEST_PATH_IMAGE001
Figure 726387DEST_PATH_IMAGE002
的值都将设为0,若 未出现拥堵,则设为1,若控制器和虚拟交换机没有互相连接,则将
Figure 257862DEST_PATH_IMAGE001
Figure 601119DEST_PATH_IMAGE002
都设为-1,以 此来确定当前网络决策控制层的连接状态;
(207)在随机动作探索的过程中,执行贪婪探索策略
Figure 509032DEST_PATH_IMAGE003
,并对所执行的动作 进行限制,限制在某T时刻下可选择的动作为该状态下
Figure 378768DEST_PATH_IMAGE001
Figure 81145DEST_PATH_IMAGE002
值均大于0的动作。
本发明进一步设置为:在步骤(202)中,所述智能体为SDN网络中的OpenDaylight控制器。
本发明进一步设置为:在步骤(204)中,所述状态转换过程为状态
Figure 911698DEST_PATH_IMAGE004
、动作
Figure 92143DEST_PATH_IMAGE005
、奖励
Figure 337092DEST_PATH_IMAGE006
和下一个状态
Figure 210370DEST_PATH_IMAGE008
本发明进一步设置为:在步骤(3)中,包括以下步骤:
(301)首先判断SDN控制器与流表管理交换机的连接状态与决策控制层的链路拥堵状态;
(302)若决策控制层出现链路拥堵,再判断当前流量矩阵是否为恶意攻击流量;
(303)将当前流量矩阵输入网络入侵检测系统NIDS进行恶意攻击流量的判别;
(304)若控制层链路未出现拥堵且NIDS输出为正常流量,SDN控制器进行正常路由下发;
(305)当发现恶意流量存在时,将当前状态下的流量引入步蜜网,随后再通过蜜罐中的流量交互信息判断恶意流量是否成功引入蜜网;
(306)若恶意流量成功引入蜜网并陷入提前设置好的蜜罐,则给予智能体正奖励,并将此刻蜜罐与恶意流量的交互信息保存并将其上传至NIDS模块。
本发明进一步设置为:在步骤(306)中,还包括若未在蜜罐中发现恶意流量的交互信息,则说明恶意流量未能成功引入蜜网,此时给予智能体负值奖励。
有益效果
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
(1)本发明根据DQN模型的
Figure 528219DEST_PATH_IMAGE001
Figure 777935DEST_PATH_IMAGE002
输出,来判断当前决策控制层是否出现拥堵, 再利用
Figure 497629DEST_PATH_IMAGE003
贪婪探索策略减少SDN控制器对与其未连接的交换机进行不必要探索,从 而加快路由决策层的路由下发。
(2)本发明当NIDS模块判别控制层接收到的流量为恶意攻击流量时,便立即将当前流量转移引入事先搭建好的蜜网,若恶意流量成功引入蜜网,则给予智能体正值奖励,否则给予负值奖励,以此实现智能体智能部署蜜罐并优化蜜网路由的过程。
(3)本发明若在蜜罐的交互信息中发现恶意攻击流量的存在,随后将蜜罐与恶意攻击流量的交互数据上传至NISD模块,对NISD模块的判别数据库进行扩充,以此达到对后续相似流量快速识别的效果。
(4)本发明充分考虑控制层链路拥堵以及遭遇恶意流量攻击的情况,利用DQN模型 的特点,在模型探索以及
Figure 666442DEST_PATH_IMAGE010
值输出阶段,实现对控制层链路拥堵的判断,而模型奖励值的设 置则与蜜罐的成功部署进行反馈,以此实现智能部署蜜罐并优化蜜网路由下发。
附图说明
图1为本发明基于深度强化学习的蜜罐部署主动防御方法的流程图;
图2为本发明基于深度强化学习的蜜罐部署主动防御方法中强化学习中DQN算法结构的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例:
请参照图1和图2所示,本发明所提供的基于深度强化学习的蜜罐部署主动防御方法,包括以下步骤:
(1)利用SDN控制器及Mininet构建虚拟蜜罐主机,以及构建三层虚拟蜜网:虚拟基础设施层,决策控制层以及业务应用层。
其中,虚拟基础设施层由网络设备搭建业务网络,通过配置Open VSwitch部署虚拟交换机,利用OpenFlow协议流表管理交换机,再利用Mininet技术连接SDN底层,搭建蜜罐服务器和真实业务服务器;
决策控制层利用OpenDaylight控制器对虚拟交换机的流表信息收集和流量转发控制,优化网络资源,实现快速的网络业务部署;
业务应用层提供各项网络应用服务,为外部提供业务访问及主动防御虚拟蜜网,其中虚拟蜜网可诱导攻击者,保护真实业务服务器,同时根据需要动态调整网络结构,获取攻击者的有效态势数据,实施主动防御。
(2)智能体进行训练:基于强化学习中的深度Q网络算法(DQN)训练SDN网络中的控制器,决策层控制器的目标是将流量正确地、完整地、无延时地下发至各个网络节点,DQN将Q学习与卷积神经网络相结合,构建了强化学习训练模型,其算法步骤如下:
(201)DQN通过结合深度神经网络与强化学习的
Figure 471587DEST_PATH_IMAGE010
学习算法,不仅解决了状态空间 过大难以维护的问题,而且由于神经网络强大的特征提取能力,其潜力也远大于人工的特 征表示,强化学习中的
Figure 259414DEST_PATH_IMAGE010
学习通过贝尔曼方程,采用时序差分的方式进行迭代更新状态-动 作价值函数
Figure 833615DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
其中,
Figure 658483DEST_PATH_IMAGE012
为目标
Figure 685345DEST_PATH_IMAGE010
值,
Figure 542442DEST_PATH_IMAGE008
是作为动作
Figure 830204DEST_PATH_IMAGE005
出现的下 一状态,
Figure DEST_PATH_IMAGE013
Figure 216186DEST_PATH_IMAGE008
状态下的可能动作,
Figure 995923DEST_PATH_IMAGE014
为学习率,
Figure DEST_PATH_IMAGE015
为折现因子。根据贝尔曼最优方 程理论,只要通过不断迭代更新上式,即可使
Figure 233876DEST_PATH_IMAGE016
函数逼近至真实值
Figure DEST_PATH_IMAGE017
,从而最终得到最优 策略:
Figure 251510DEST_PATH_IMAGE018
(202)DQN还使用了目标网络机制,即在当前
Figure DEST_PATH_IMAGE019
网络结构基础上,搭建了一个结构 完全相同的目标
Figure 73973DEST_PATH_IMAGE020
网络组成DQN的整体模型框架,训练过程中,当前
Figure 200060DEST_PATH_IMAGE019
网络输出的预测
Figure 602223DEST_PATH_IMAGE016
值用来选择动作
Figure DEST_PATH_IMAGE021
,另一个目标
Figure 5522DEST_PATH_IMAGE020
网络用于计算目标
Figure 874252DEST_PATH_IMAGE016
值。通过计算预测
Figure 97423DEST_PATH_IMAGE016
值和目标
Figure 834435DEST_PATH_IMAGE016
值 得均方差来定义损失函数:
Figure 92241DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE023
为目标
Figure 849982DEST_PATH_IMAGE016
值,通过神经网络的反向梯度传 播来更新当前
Figure 826028DEST_PATH_IMAGE019
网络的参数
Figure 366731DEST_PATH_IMAGE024
(203)训练过程中,DQN采用了经验回放机制,将状态转换过程(状态
Figure DEST_PATH_IMAGE025
、动作
Figure 587365DEST_PATH_IMAGE026
、奖 励
Figure DEST_PATH_IMAGE027
、下一个状态
Figure 656953DEST_PATH_IMAGE028
)存储在经验回放缓冲区
Figure DEST_PATH_IMAGE029
中,作为网络模型的训练数据集,并以随 机采样的形式进行批处理学习;
(204)从
Figure 713770DEST_PATH_IMAGE029
中采样N个训练数据集,通过最小化损失函数来更新当前
Figure 792585DEST_PATH_IMAGE019
网络的 网络参数,对于目标
Figure 24983DEST_PATH_IMAGE030
网络,其网络参数不需要进行迭代更新,而是每隔一段时间从当前
Figure 531051DEST_PATH_IMAGE019
网络中将网络参数复制过来,即延时更新,再进行下一轮的学习。这种方法减轻了每次
Figure 481689DEST_PATH_IMAGE016
值变化对策略参数的影响,即减少了目标
Figure 973981DEST_PATH_IMAGE016
值与预测
Figure 60886DEST_PATH_IMAGE016
值之间的相关性,增加了策略训练 的稳定性;
(205)在计算
Figure DEST_PATH_IMAGE031
Figure 65751DEST_PATH_IMAGE032
时,若控制层链路出现链路拥塞,
Figure 503686DEST_PATH_IMAGE031
Figure 924303DEST_PATH_IMAGE031
的值都将设为 0;若未出现拥堵,则设为1;若控制器与交换机没有互相连接,则将
Figure 865714DEST_PATH_IMAGE031
Figure 713584DEST_PATH_IMAGE032
都设为-1。以 此来确定当前控制层的连接状态;
(206)在随机动作探索的过程中,执行贪婪探索策略
Figure DEST_PATH_IMAGE033
,并对所执行的动作 进行限制,限制在某T时刻下可选择的动作为该状态下
Figure 481558DEST_PATH_IMAGE031
Figure 440287DEST_PATH_IMAGE032
值均大于0的动作,即表明 此刻控制决策层出现拥堵或控制器与交换机无连接,以此减少出现控制与无连接交换机的 无效探索。
(3)智能体蜜罐部署以及优化蜜网路由过程:
(301)SDN中控制器在训练过程中,流量传输到达决策控制层后,需判断当前OpenDaylight控制器与流表管理交换机的连接状态与链路拥堵状态;
(302)若控制层出现拥堵,则需再次判断当前流量矩阵是否为恶意攻击流量;
(303)将当前节点的状态流量矩阵输入网络入侵检测系统(NIDS),根据NIDS的输出判断恶意攻击流量是否存在;
(304)若控制层链路未出现拥堵且NIDS系统输出为无攻击流量存在,控制器则进行正常的路由下发,并不给予智能体奖励;
(305)当发现恶意流量存在时,将流量引入蜜网,随后通过蜜罐中的流量交互信息判断恶意流量是否成功引入蜜网;
(306)若成功将恶意流量引入蜜网并陷入提前设置好的蜜罐,则给予智能体正奖励,并将此刻蜜罐与恶意流量的交互信息保存并将其上传至NIDS模块;
(307)若未在蜜罐中发现恶意流量的交互信息,则说明恶意流量未能成功引入蜜网,此时给予智能体负值奖励。
(308)不断重复步骤(301)-步骤(307)的训练过程,直至智能体学习到最佳的蜜罐部署方式以及最优蜜网路由下发路径。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,包括以下步骤:
(1)利用SDN控制器及Mininet构建虚拟蜜罐主机,以及构建三层虚拟蜜网;
(2)智能体进行训练:基于强化学习中的深度Q网络算法训练SDN网络中的控制器,深度Q网络算法将Q学习与卷积神经网络相结合,构建强化学习训练模型;
(3)智能体蜜罐部署以及优化蜜网路由。
2.根据权利要求1所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(1)中,所述三层虚拟蜜网分别为虚拟基础设施层、决策控制层以及业务应用层。
3.根据权利要求2所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(1)中,包括以下步骤:
(101)利用SDN的OpenDaylight控制器对虚拟交换机流表进行控制,快速部署虚拟网络,再利用Mininet构建轻量级虚拟蜜罐主机及网络;
(102)构建蜜网的3层网络。
4.根据权利要求1所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(2)中,包括以下步骤:
(201)构建基于OpenFlow协议的SDN网络拓扑流量模型;
(202)基于深度Q网络算法训练智能体;
(203)训练过程中,当前时刻的初始状态
Figure 708845DEST_PATH_IMAGE001
,即初始流量负载矩阵;动作
Figure 727617DEST_PATH_IMAGE002
是指路由路 径选择,若成功将恶意流量引入蜜网并成功陷入蜜罐基于正奖励
Figure 608985DEST_PATH_IMAGE003
,若未陷入蜜罐则给予 负奖励
Figure 496039DEST_PATH_IMAGE004
,若未检测到恶意流量,则进行正常的路由下发,奖励值设为0,下一个状态
Figure 412042DEST_PATH_IMAGE005
即 指下一时刻的流量负载矩阵;
(204)将状态转换过程存储在经验回放缓冲区
Figure 336136DEST_PATH_IMAGE006
中,作为网络模型的训练数据集;
(205)从缓冲区
Figure 344281DEST_PATH_IMAGE006
中采样N个训练数据集,通过最小化当前Q网络的预测Q值
Figure 644812DEST_PATH_IMAGE007
和目 标Q网络的目标Q值
Figure 415322DEST_PATH_IMAGE008
的均方差来更新当前Q网络的网络参数,每隔一段时间将当前Q网络 的相关参数复制给目标Q网络;
(206)在计算
Figure 775896DEST_PATH_IMAGE007
Figure 756491DEST_PATH_IMAGE008
时,若决策控制层出现拥塞,
Figure 860713DEST_PATH_IMAGE007
Figure 485729DEST_PATH_IMAGE007
的值都将设为0,若未出 现拥堵,则设为1,若控制器和虚拟交换机没有互相连接,则将
Figure 892571DEST_PATH_IMAGE007
Figure 235828DEST_PATH_IMAGE008
都设为-1,以此来 确定当前网络决策控制层的连接状态;
(207)在随机动作探索的过程中,执行贪婪探索策略
Figure 878161DEST_PATH_IMAGE009
,并对所执行的动作进行 限制,限制在某T时刻下可选择的动作为该状态下
Figure 623264DEST_PATH_IMAGE007
Figure 450274DEST_PATH_IMAGE008
值均大于0的动作。
5.根据权利要求4所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(202)中,所述智能体为SDN网络中的OpenDaylight控制器。
6.根据权利要求4所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在 于,在步骤(204)中,所述状态转换过程为状态
Figure 280827DEST_PATH_IMAGE001
、动作
Figure 726852DEST_PATH_IMAGE002
、奖励
Figure 592040DEST_PATH_IMAGE003
和下一个状态
Figure 845078DEST_PATH_IMAGE005
7.根据权利要求1所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(3)中,包括以下步骤:
(301)首先判断SDN控制器与流表管理交换机的连接状态与决策控制层的链路拥堵状态;
(302)若决策控制层出现链路拥堵,再判断当前流量矩阵是否为恶意攻击流量;
(303)将当前流量矩阵输入网络入侵检测系统NIDS进行恶意攻击流量的判别;
(304)若控制层链路未出现拥堵且NIDS输出为正常流量,SDN控制器进行正常路由下发;
(305)当发现恶意流量存在时,将当前状态下的流量引入步蜜网,随后再通过蜜罐中的流量交互信息判断恶意流量是否成功引入蜜网;
(306)若恶意流量成功引入蜜网并陷入提前设置好的蜜罐,则给予智能体正奖励,并将此刻蜜罐与恶意流量的交互信息保存并将其上传至NIDS模块。
8.根据权利要求7所述的一种基于深度强化学习的蜜罐部署主动防御方法,其特征在于,在步骤(306)中,还包括若未在蜜罐中发现恶意流量的交互信息,则说明恶意流量未能成功引入蜜网,此时给予智能体负值奖励。
CN202210263026.XA 2022-03-17 2022-03-17 一种基于深度强化学习的蜜罐部署主动防御方法 Active CN114363093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210263026.XA CN114363093B (zh) 2022-03-17 2022-03-17 一种基于深度强化学习的蜜罐部署主动防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210263026.XA CN114363093B (zh) 2022-03-17 2022-03-17 一种基于深度强化学习的蜜罐部署主动防御方法

Publications (2)

Publication Number Publication Date
CN114363093A true CN114363093A (zh) 2022-04-15
CN114363093B CN114363093B (zh) 2022-10-11

Family

ID=81094724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210263026.XA Active CN114363093B (zh) 2022-03-17 2022-03-17 一种基于深度强化学习的蜜罐部署主动防御方法

Country Status (1)

Country Link
CN (1) CN114363093B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866291A (zh) * 2022-04-18 2022-08-05 浙江大学 SDN下基于深度强化学习的DDoS防御系统及方法
CN114978731A (zh) * 2022-05-30 2022-08-30 北京计算机技术及应用研究所 一种基于多样性扩展的诱捕蜜罐实现系统及方法
CN115118532A (zh) * 2022-08-31 2022-09-27 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115460006A (zh) * 2022-09-14 2022-12-09 四川公众项目咨询管理有限公司 一种基于蜜罐技术的网络防御系统及防御方法
CN116132090A (zh) * 2022-11-09 2023-05-16 中国电子科技集团公司第三十研究所 一种面向Web安全防护的欺骗防御系统
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190081980A1 (en) * 2017-07-25 2019-03-14 Palo Alto Networks, Inc. Intelligent-interaction honeypot for iot devices
US20200045069A1 (en) * 2018-08-02 2020-02-06 Bae Systems Information And Electronic Systems Integration Inc. Network defense system and method thereof
CN110768987A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于sdn的虚拟蜜网动态部署方法及系统
CN110784476A (zh) * 2019-10-31 2020-02-11 国网河南省电力公司电力科学研究院 一种基于虚拟化动态部署的电力监控主动防御方法及系统
CN113783881A (zh) * 2021-09-15 2021-12-10 浙江工业大学 一种面向渗透攻击的网络蜜罐部署方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190081980A1 (en) * 2017-07-25 2019-03-14 Palo Alto Networks, Inc. Intelligent-interaction honeypot for iot devices
US20200045069A1 (en) * 2018-08-02 2020-02-06 Bae Systems Information And Electronic Systems Integration Inc. Network defense system and method thereof
CN110768987A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于sdn的虚拟蜜网动态部署方法及系统
CN110784476A (zh) * 2019-10-31 2020-02-11 国网河南省电力公司电力科学研究院 一种基于虚拟化动态部署的电力监控主动防御方法及系统
CN113783881A (zh) * 2021-09-15 2021-12-10 浙江工业大学 一种面向渗透攻击的网络蜜罐部署方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡洋: ""基于深度学习的SDN虚拟蜜网路由优化"", 《计算机系统应用》 *
谢盛嘉等: "基于蜜罐技术的校园网络安全模型研究", 《电脑开发与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866291A (zh) * 2022-04-18 2022-08-05 浙江大学 SDN下基于深度强化学习的DDoS防御系统及方法
CN114978731A (zh) * 2022-05-30 2022-08-30 北京计算机技术及应用研究所 一种基于多样性扩展的诱捕蜜罐实现系统及方法
CN115118532A (zh) * 2022-08-31 2022-09-27 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115118532B (zh) * 2022-08-31 2022-11-25 中国人民解放军战略支援部队航天工程大学 基于改进d3qn算法的sdn下自适应威胁缓解方法及系统
CN115134174B (zh) * 2022-08-31 2022-11-25 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115460006A (zh) * 2022-09-14 2022-12-09 四川公众项目咨询管理有限公司 一种基于蜜罐技术的网络防御系统及防御方法
CN115460006B (zh) * 2022-09-14 2024-08-09 四川公众项目咨询管理有限公司 一种基于蜜罐技术的网络防御系统及防御方法
CN116132090A (zh) * 2022-11-09 2023-05-16 中国电子科技集团公司第三十研究所 一种面向Web安全防护的欺骗防御系统
CN116132090B (zh) * 2022-11-09 2024-04-02 中国电子科技集团公司第三十研究所 一种面向Web安全防护的欺骗防御系统
CN117808174A (zh) * 2024-03-01 2024-04-02 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统
CN117808174B (zh) * 2024-03-01 2024-05-28 山东大学 网络攻击下基于强化学习的微电网运行优化方法及系统

Also Published As

Publication number Publication date
CN114363093B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN114363093B (zh) 一种基于深度强化学习的蜜罐部署主动防御方法
Zhou et al. An SDN-enabled proactive defense framework for DDoS mitigation in IoT networks
KR101703446B1 (ko) DoS 공격의 탐지가 가능한 네트워크 및 이의 제어 방법과, 상기 네트워크에 포함되는 게이트웨이 및 관리 서버
Shen et al. Adaptive Markov game theoretic data fusion approach for cyber network defense
CN107483512B (zh) 基于时间特征的SDN控制器DDoS检测与防御方法
CN110196554B (zh) 一种多智能体系统的安全一致性控制方法
Dhir et al. Prospective artificial intelligence approaches for active cyber defence
Jovanovic et al. Feature selection by improved sand cat swarm optimizer for intrusion detection
Stankovic et al. Feature selection by hybrid artificial bee colony algorithm for intrusion detection
Shen et al. A markov game theoretic data fusion approach for cyber situational awareness
CN110099046A (zh) 超融合服务器的网络跳变方法和系统
Wang et al. Deep learning for securing software-defined industrial internet of things: attacks and countermeasures
JP2022013823A (ja) 人工ニューラルネットワークによって分散型ネットワークの健全性ステータス(health status)を予測するための方法
US20220417269A1 (en) Edge-based polymorphic network with advanced agentless security
Muzafar et al. Ddos attack detection approaches in on software defined network
Wang et al. ReLFA: Resist link flooding attacks via renyi entropy and deep reinforcement learning in SDN-IoT
CN111953603A (zh) 基于深度强化学习软件定义物联网安全路由协议的方法
CN117792749A (zh) 基于深度强化学习的动态工控蜜罐部署方法
Peng et al. ADVICE: Towards adaptive scheduling for data collection and DDoS detection in SDN
Pradeepa et al. IPR: Intelligent Proactive Routing model toward DDoS attack handling in SDN
CN111786967B (zh) DDoS攻击的防御方法、系统、节点及存储介质
Sinthuja et al. DDoS attack detection using enhanced long-short term memory with hybrid machine learning algorithms
Yang et al. BLCS: brain-like based distributed control security in cyber physical systems
Babu et al. Implementing optimized classifier for distributed attack detection and BAIT-based attack correction in IoT
Shen et al. Strategies comparison for game theoretic cyber situational awareness and impact assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Han Meng

Inventor after: Lin Changting

Inventor after: Hu Shulong

Inventor before: Han Meng

Inventor before: Lin Changting

Inventor before: Hu Shulong

Inventor before: Ji Shouling

GR01 Patent grant
GR01 Patent grant