CN110300106B - 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 - Google Patents
基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 Download PDFInfo
- Publication number
- CN110300106B CN110300106B CN201910552217.6A CN201910552217A CN110300106B CN 110300106 B CN110300106 B CN 110300106B CN 201910552217 A CN201910552217 A CN 201910552217A CN 110300106 B CN110300106 B CN 110300106B
- Authority
- CN
- China
- Prior art keywords
- defense
- attack
- game
- time game
- moving target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明属于网络安全技术领域,特别涉及一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统,该方法包含:构建移动目标攻防策略集合;分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略。本发明在分析移动目标攻防过程基础上,构建Markov时间博弈模型,基于折扣总收益设计移动目标防御博弈的目标准则函数,实现对多阶段攻防博弈量化分析;基于非线性规划多阶段博弈均衡计算设计多阶段最优防御策略选取算法;进一步通过实验研究成果表明,能够有效刻画对抗过程并正确选取最优策略,以确保移动目标防御实施准确性,帮助网络安全管理人员更好的决策。
Description
技术领域
本发明属于网络安全技术领域,特别涉及一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统。
背景技术
全球性网络安全攻防竞赛已经达到前所未有的强度,各类网络攻击事件愈演愈烈,网络攻击者不断制定新的攻击策略,其中移动目标攻击(Moving Target Attack,MTA)技术是攻击者武器库中最受欢迎的攻击方法之一,它利用各种不确定的攻击手段隐藏攻击意图,并试图逃避传统网络防御的检测机制,由于传统网络防御机制无法准确预知攻击者下一步攻击行动,MTA技术在网络攻防博弈中逐渐获得竞争优势,这不仅对网络空间造成了很大的安全威胁,而且产生了高昂的防御成本。近年来,网络安全战略经历了从被动防御到主动防御的演化升级,新兴的移动目标防御(Moving Target Defense,MTD)技术已经成为再平衡网络安全竞争环境的新方法,它通过引入动态性、随机性以及异构性来保护网络空间,旨在利用攻击面的动态变换打破网络系统的静态特性,给攻击者呈现一个不可预测的网络状态,以此来阻止攻击者的恶意行为,进而大大增加攻击者攻击成功的难度。
博弈论(Game Theory)与MTD依据攻防成本与收益选取最优策略的目标相一致,具有目标一致性。在移动目标攻防对抗过程中,MTA试图通过各种攻击手段控制系统攻击面,将攻击面的暴露范围不断扩大为后续持续性攻击做好准备,而MTD则通过动态化、随机化和多样化方法控制系统攻击面,将系统攻击面进行转移或者减少以拒止MTA的攻击行动,因而移动目标攻防双方具有目标对立性;移动目标攻防双方对于最优策略的选取不仅仅取决于自身,同时也取决于对手,因而移动目标攻防策略具有策略依存性。因此,移动目标攻防过程所具有的关系非合作性、目标对立性和策略依存性与博弈论的理论特性相契合,博弈论可在选取移动目标防御最优策略选取研究方面发挥重要作用。现有技术中,基于完全信息博弈的最优防御策略选取算法,通过构建攻防随机博弈模型,预测攻击行为,并由此制定最优防御策略;基于完全信息动态博弈的最优策略,通过引入“虚拟节点”将攻击图转换为博弈树,进而采用非合作动态博弈求解最优防御策略;基于随机博弈的最优攻击面转移方法,为了权衡安全性和可用性,将移动目标防御形式化为二人随机博弈。然而,单阶段博弈难以有效刻画移动目标防御持续动态变化的特性,实际应用过程中受到限制。
发明内容
为此,本发明提供一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统,更加贴近实际攻防对抗场景,完整展示移动目标攻防过程,在降低复杂度的同时,大大增加了不同应用场景下的通用性。
按照本发明所提供的设计方案,一种基于Markov时间博弈的移动目标防御决策选取方法,包含如下内容:
构建移动目标攻防策略集合;
分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略。
上述的,移动目标攻防策略集合中,移动目标攻击策略包含:移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA;移动目标防御策略采用网络层移动目标防御MTD。
优选的,网络层移动目标防御MTD包含:通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。
上述的,Markov时间博弈移动目标防御模型构建中,利用动态时间博弈刻画单阶段移动目标防御博弈过程,并通过Markov决策过程刻画在不同阶段的随机迁移,将单状态单阶段时间博弈过程扩展至多状态多阶段上,通过多阶段时间博弈与Markov决策方法相结合,构建多阶段Markov时间博弈移动目标防御模型。
优选的,单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述,表示为STG-MTD=(N,B,R,η,U,T),其中,N表示攻防博弈参与人集合,B表示攻防博弈可行动作空间,R表示移动目标攻防双方所竞争的公共资源,η表示博弈信念集合,U表示移动目标攻防双方受益函数集合,T表示博弈总时间。
优选的,多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示,表示为MTG-MTD=(N,K,R,S,f,B,η,U,β,T),其中,K表示多阶段攻防博弈阶段数,S表示不同网络攻防阶段安全状态集合,f表示状态迁移概率,β表示折现因子。
上述的,模型均衡求解过程中,从移动目标攻防双方对攻击面的控制出发,结合移动目标攻防策略组合下的攻击收益值和防御收益值,获取移动目标攻防收益矩阵,并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。
上述的,模型均衡求解过程中,首先,通过引入子博弈精炼纳什均衡方法,去除均衡中不可置信威胁策略的纳什均衡,确定单阶段时间博弈均衡上的最优策略;然后,通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题,求解得到多阶段均衡策略及其收益,进而确定攻防双方最优移动目标防御策略。
进一步地,本发明还提供一种基于Markov时间博弈的移动目标防御决策选取装置,包含:策略构建模块、模型构建模块和分析求解模块,其中,
策略构建模块,用于构建移动目标攻防策略集合;
模型构建模块,用于分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
分析求解模块,用于对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略。。
进一步地,本发明还提供一种网络安全系统,包含上述的基于Markov时间博弈的移动目标防御决策选取装置。
本发明的有益效果:
本发明在分析移动目标攻防过程的基础上,构建了Markov时间博弈模型,具备分析多阶段-多状态攻防行为的能力;基于折扣总收益设计移动目标防御博弈的目标准则函数,实现了对多阶段攻防博弈的量化分析;基于非线性规划的多阶段博弈均衡计算设计多阶段最优防御策略选取算法。研究成果对于在多阶段移动目标攻防中实施网络防御决策具有指导意义,能够为开展网络空间攻防对抗研究提供理论模型支持。
本发明通过对移动目标防御模型均衡和收益分析中,由于单阶段博弈过程由时间博弈所刻画,使得博弈场景更贴近有实际网络攻防过程,相较于矩阵博弈,本发明中所采用的时间博弈可以更好地刻画博弈动态性,与此同时,利用Markov决策过程刻画多阶段性,更贴近攻防实际场景,有效刻画对抗过程并正确选取最优策略,以确保移动目标防御实施的准确性,从而帮助网络安全管理人员更好的决策。
附图说明:
图1为实施例中防御策略选取方法流程示意图;
图2为实施例中防御策略选取装置示意图;
图3为实施例中MTD理论框架示意;
图4为实施例中移动目标防御时间博弈示意;
图5为实施例中网络攻防时间博弈树示意;
图6为实施例中实验系统结构示意图。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
移动目标防御是一种新的主动防御思想,它通过移动或伪装攻击者探测的资源以扰乱应用程序存储器。当恶意软件获得对移动目标防御保护系统的访问权限时,它无法找到所需的易受攻击的资源以造成损害。就其本质而言,移动目标防御与攻击无关,因此可以有效抵御已知和未知攻击的多种变化。本发明实施例,参见图1所示,提供一种基于Markov时间博弈的移动目标防御决策选取方法,包含如下内容:
S101、构建移动目标攻防策略集合;
S102、分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
S103、对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略。
在分析移动目标攻防过程的基础上,构建了Markov时间博弈模型,具备分析多阶段-多状态攻防行为的能力;基于折扣总收益设计移动目标防御博弈的目标准则函数,实现了对多阶段攻防博弈的量化分析;基于非线性规划的多阶段博弈均衡计算设计多阶段最优防御策略选取算法。更贴近攻防实际场景,有效刻画对抗过程并正确选取最优策略,以确保移动目标防御实施的准确性,从而帮助网络安全管理人员更好的决策。
进一步地,本发明实施例中,移动目标攻防策略集合中,移动目标攻击策略包含:移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA;移动目标防御策略采用网络层移动目标防御MTD。优选的,网络层移动目标防御MTD包含:通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。
移动目标攻击MTA(Moving Target Defense,MTA)体系已经逐步发展并不断完善,常见的移动目标攻击技术,如下表所示:
表1移动目标攻击策略集合分类
多态MTA可以有效规避防御者入侵检测系统的特征检测,一方面多态MTA使用多个加密密钥生成相同恶意软件的不同实例,由于新实例具有新的未知静态签名,这使得基于签名的反恶意软件防御无效。另一方面多态MTA有效载荷(代码和数据)是加密的,它可以绕过防御者的深层静态分析。多态MTA通过更改内存中的代码使得防御者的攻击检测过程复杂化。
与多态MTA类似,自修改MTA可以有效规避文件和内存的自动扫描,而混淆MTA则可以有效逃避手动检查代码。混淆MTA所创建的具有混淆性的代码通常难以被传统检测手段所发现,它可以创建带有模糊字符串的有效负载、虚拟代码和复杂的函数调用图,并随机生成恶意软件实例。
反虚拟机/反沙箱MTA是另一种移动目标攻击方法,恶意软件分析通常利用虚拟机或沙箱环境检测恶意软件的运行活动,如果检测到虚拟机或沙箱,则反虚拟机/反沙箱MTA会改变其行为并避免任何恶意活动。一旦在真实系统上执行,在被标记为良性之后,它就会开始其恶意行为。
反调试MTA可以避免调试和运行时的检测分析。如果反调试MTA在运行时检测到调试工具,则会更改其执行流程保持良性操作。一旦它未被调试工具检测到,则会启动其恶意行为。
目标漏洞利用MTA可以更改URL模式、主机服务器、加密密钥和文件名,还可以通过限制来自相同IP地址的漏洞访问次数来规避蜜罐防御。
行为改变MTA通常在真实用户交互后发动攻击,因而它可以确保在真实机器上执行攻击。
这些有效的移动目标攻击方法为攻击者赢得了不对称的攻击优势,使得传统防御技术处于被动不利的局面。攻击者明确自己的攻击对象、攻击时间、攻击目标和攻击方式,而防御者则处于不确定状态,只能利用大量的成本、时间和资源来规避攻击者可能发起的任何攻击探测和入侵活动。因此,防御者和攻击者之间不存在理论上的对称性。
防止移动目标攻击的最佳方法是使用基于移动目标防御的新安全解决方案。将移动目标防御定义为一种通过创建、分析、评估和部署多样化、持续时变的机制和策略,以增加攻击实施的复杂度与成本,限制和降低系统脆弱性曝光度和被攻击的概率,提高系统弹性的防御手段,其基本理论框架,如图3所示。
将物理网络映射到逻辑任务模型,由调整引擎获取逻辑任务模型的当前状态,并由配置管理调整产生新状态进行适应,此外分析引擎会获取物理网络的实时事件,利用传统防御中入侵检测、防火墙等检测机制进行脆弱性分析,由逻辑安全模型产生逻辑安全状态发送给调整引擎,形成一个闭合自反馈的动态调整系统。移动目标防御技术研究是针对系统不同要素、安全威胁和应用场景设计的可行防御策略,分为系统层和网络层MTD两个层面,其中系统层MTD包括硬件MTD和软件MTD,网络层MTD包括MAC层、IP层、TCP层、会话层以及路径MTD,具体如表2所示。本发明实施例中所采用的移动目标防御策略可为网络层MTD。
表2移动目标防御策略分类
时间博弈,与现有的大多数博弈模型不同,时间博弈由防御者和攻击者两名局中人以及公共资源构成,它允许局中人在任意时刻采取行动来控制资源。然而,在局中人实际移动之前,不会显示控制资源控制权,因此隐蔽性是时间博弈的最大特点。每个局中人的目标是最大化控制资源时间,同时最小化移动成本。在移动目标攻防过程中,根据时间博弈基本理论,网络攻防系统中的局中人共同争夺对公共资源(攻击面)的控制权,尽可能地最大化自身的收益,图4显示了随着时间从左到右,移动目标攻击者(蓝色)和移动目标防御者(红色)之间的公共资源控制权的切换。
移动目标攻防策略的实施都需要付出一定的成本,其中,移动目标攻击者的目标是破坏网络关键服务,并尽可能降低攻击成本;移动目标防御者的目标是增加安全防御预算,减缓或组织攻击行为,以最大化移动目标攻击者的攻击成本。移动目标攻防双方都需要对系统攻击面进行控制,不同的是,攻击者是利用攻击面可用的脆弱性资源发起攻击,而防御者则是改变或减少攻击面脆弱性资源来提高攻击者的攻击难度,攻击面的控制权会随着局中人的行动发生变化。
进一步地,本发明实施例中,Markov时间博弈移动目标防御模型构建中,利用动态时间博弈刻画单阶段移动目标防御博弈过程,并通过Markov决策过程刻画在不同阶段的随机迁移,将单状态单阶段时间博弈过程扩展至多状态多阶段上,通过多阶段时间博弈与Markov决策方法相结合,构建多阶段Markov时间博弈移动目标防御模型。首先利用时间博弈模型刻画单阶段移动目标防御过程,接着从全局视角出发,借鉴Markov决策过程,将单阶段时间博弈各阶段之间的状态迁移描述为随机过程,通过多阶段时间博弈与Markov决策方法相结合,构建多阶段Markov时间博弈并进行均衡求解。
进一步地,本发明实施例中,单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述,表示为STG-MTD=(N,B,R,η,U,T),其中,
①N={NMTA,NMTD}是攻防博弈的参与人集合,其中NMTA代表移动目标攻击方;NMTD代表移动目标防御方。
②B={PMTA,PMTD}是攻防博弈可行动作空间,其中PMTA和PMTD分别代表移动目标攻击者和防御者的移动策略集。
③R是移动目标攻防双方所竞争的公共资源,将网络中的攻击面视为公共资源。
⑥T是博弈的总时间,其中T=TMTD+TMTA。
以单阶段时间博弈为基础构建多阶段Markov时间博弈模型。
进一步地,本发明实施例中,多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示,表示为MTG-MTD=(N,K,R,S,f,B,η,U,β,T),其中,
①N={NMTA,NMTD}是攻防博弈的参与人集合,其中NMTA代表移动目标攻击方;NMTD代表移动目标防御方。
②K是多阶段攻防博弈的阶段数,G(K)代表当前攻防博弈阶段,其中K={1,…,n},n∈N。
③R是移动目标攻防双方所竞争的公共资源,本文将网络中的攻击面视为公共资源。
④S={S1,S2,...,SK}是不同网络攻防阶段安全状态集合。
⑤f表示状态迁移概率,fij=f(Sj|Si)表示系统从状态Si迁移至状态Sj的概率,攻防双方的对抗行为是影响安全状态转换的关键因素,同时由于攻防双方的可行策略集和网络系统运行环境可能发生改变,因此状态转换具有一定随机性。
⑨β是折现因子,表示博弈阶段k中的收益相较初始阶段的折现比例,0<β≤1。
⑩T是单阶段博弈所需的总时间。
进一步地,本发明实施例中,模型均衡求解过程中,从移动目标攻防双方对攻击面的控制出发,结合移动目标攻防策略组合下的攻击收益值和防御收益值,获取移动目标攻防收益矩阵,并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。
移动目标攻防收益量化是最优防御策略选取的基础,本发明实施例中从移动目标攻防双方对攻击面的控制出发,结合移动目标攻防策略特点,对移动目标攻防策略收益进行全面分析量化。
定义3防御成本:防御成本DC(Defense Cost)由移动目标防御者控制攻击面的时间成本TCASC(Control Attack Surface Cost)和变换攻击面的时间成本THASC(HoppingAttack Surface Cost)两部分组成,DC=TCASC+THASC。
定义4攻击成本:攻击成本AC(Attack Cost)指移动目标攻击者发现系统漏洞采取MTA策略时所产生的时间成本。
定义5防御有效性:防御有效性DE(Defense Effectiveness)是移动目标防御者实施MTD策略对攻击面的控制时间。
定义7攻击有效性:攻击有效性AE(Attack Effectiveness)是移动目标攻击者实施MTA策略对攻击面的控制时间。
定义8防御收益:防御收益(Defense Rerard)指移动目标防御者控制攻击面获得的收益。
定义9攻击收益:攻击收益(Attack Reward)指移动目标攻击者控制攻击面获得的收益。
令R为目标准则函数,用于判断移动目标攻防双方策略选取的优劣。常用的准则函数主要有折现期望回报准则函数和平均回报准则函数。在移动目标攻防对抗过程中,由于网络系统信息的价值与时间相关,因此采用折现期望回报准则函数作为博弈双方的目标函数,其中,表示攻防双方在分别采取策略PMTA和PMTD时相较于初始阶段的折现收益值。
对于移动目标攻击方,它通过侦察网络攻击面,发现并利用系统资源脆弱性,进而导致系统性能开销增大或系统功能不可用。对于移动目标防御方,它通过选取MTD策略从而增大或转换攻击面,进而在保证网络功能正常安全运行的前提下提高系统的安全性。由以上定义可知,经过有限次博弈后,系统在不同状态间进行迁移,可用攻防博弈树表示。
进一步地,本发明实施例中,模型均衡求解过程中,首先,通过引入子博弈精炼纳什均衡方法,去除均衡中不可置信威胁策略的纳什均衡,确定单阶段时间博弈均衡上的最优策略;然后,通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题,求解得到多阶段均衡策略及其收益,进而确定攻防双方最优移动目标防御策略。
定理1多阶段Markov攻防时间博弈MTG-MTD存在混合策略下的纳什均衡。
证明MTG-MTD博弈由多个独立且相似的单阶段不完全信息动态博弈构成。一方面,由于每个独立的单阶段不完全信息动态博弈均属于有限博弈,因此,必定存在混合策略下的纳什均衡。另一方面,由多阶段Markov时间博弈模型的定义,依据转移概率和收益函数可知,存在与MTG-MTD等价的有限Markov博弈,且收益函数为凸函数。依据有限Markov博弈的均衡策略存在性定理,存在混合策略下的纳什均衡。综上,定理得证。
首先给出单阶段时间博弈均衡的求解过程和步骤,参照完全信息动态博弈的相关理论知识,移动目标攻防双方对攻击面的控制面争夺具有先后顺序,先行动一方的各种信息会被另一方完全掌握,因而后行动的一方可以根据另一方的信息进行相应的调整以保证最大化自身利益。
针对完全信息动态移动目标攻防场景,引入泽尔腾的子博弈精炼纳什均衡思想方法,去除均衡中的不可置信威胁策略的纳什均衡,得出合理的预测结果。不失一般性的,子博弈精炼纳什均衡的每个信息集上的均衡结果均为最优策略。
移动目标攻防双方在不同策略组合下的收益矩阵可以用图5的博弈树直观展示。假设博弈开始时刻由移动目标攻击者控制着攻击面,随后移动目标防御者实施策略,争夺攻击面的控制权,单阶段博弈总时间为T。
引入折现因子,将未来收益折算成基于初始阶段的折现收益,在此基础上,将博弈均衡策略的求解问题转化为非线性规划(Nonlinear Programming Second,NLP2)最优值问题求解多阶段均衡策略B*及其收益U*。
进一步地,基于上述的方法,本发明实施例还提供一种基于Markov时间博弈的移动目标防御决策选取装置,参见图2所示,包含:策略构建模块101、模型构建模块102和分析求解模块103,其中,
策略构建模块101,用于构建移动目标攻防策略集合;
模型构建模块102,用于分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
分析求解模块103,用于对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略。
进一步地,本发明实施例还提供一种网络安全系统,包含上述实施例中的基于Markov时间博弈的移动目标防御决策选取装置,用于对网络系统中的攻击行为进行预测分析。
基于移动目标攻防场景下多阶段Markov时间博弈模型及其子博弈精炼纳什均衡的研究,下面给出多阶段Markov时间博弈的最优主动防御策略选取算法。
算法的时间复杂度为O(k(m+n)2),空间复杂度为O(knm),表3展示了本发明实施例中提出的最优策略选取方法与其他最优策略选取方法的比较结果。在移动目标攻防对抗中,Manadhata P K.Game theoretic approaches to attack surface shifting[M].Moving Target Defense II.(a)仅讨论了单阶段博弈,Clark A,Sun K,Bushnell L,etal.A Game-Theoretic Approach to IP Address Randomization in Decoy-Based CyberDefense(b)虽然将博弈模型扩展到多阶段,但仍不能揭示移动目标攻防对抗的多状态和多阶段过程。Incomplete information Markov game theoretic approach to strategygeneration for moving target defense(c)结合Markov决策过程理论和动态博弈描述了多状态和多阶段特征,但现有博弈模型中均认为局中人的行动成本和有效性与时间无关,以时间作为收益度量研究更为切合实际。与它们相比,MTG-MTD是基于Markov时间博弈建立的,它完美地展示了移动目标攻防过程的对立性、动态性及自适应性的特征。在最优策略选取方面,本发明实施例中,分析了时间因素对攻防成本和收益的影响,并将最优策略选取问题转化为非线性规划问题求解,在降低复杂度的同时大大增加了不同的应用场景下更具通用性。
表3不同策略选取方法对比分析
通过应用实例验证MTG-MTD最优防御策略选取算法的有效性,利用软件定义网络部分节点拓扑搭建了实验网络环境,如图6所示,其中,LDAP服务器、FTP服务器、Linux数据库等控制服务器作为移动目标防御策略的应用目标,同时移动目标攻击者可以通过网络等途径访问控制服务器,它们的连通性通过配置表3中的访问控制策略来确定,应用服务器作为控制服务器的应用提供者。移动目标攻击者具有对应用服务器的用户级访问权限,其目标是窃取存储在Linux数据库服务器中的敏感信息。
移动目标攻击者的可能的攻击路径如下:
路径1:应用服务器→LDAP服务器→Linux数据库
路径2:应用服务器→LDAP服务器→FTP服务器→Linux数据库
表3防火墙策略
表4不同网络状态下的移动目标攻防策略
表5网络系统状态转移概率
表6移动目标攻防策略收益矩阵
(1)初始化参数
令S={S1,S2,S3,S4}表示网络阶段状态。S1是移动目标攻击者利用应用服务器的漏洞并获得其root权限的阶段状态;S2和S3分别是移动目标攻击者通过利用LDAP服务器和FTP服务器的漏洞获得Linux数据库访问权限的阶段状态;S4是攻击者通过利用Linux数据库的漏洞获得root权限的阶段状态。本实验中MTG-MTD的折扣率为β=0.7。
(2)构建策略空间,状态转移概率和收益矩阵
表4显示了每个网络状态下的移动目标攻防策略。
表示移动目标攻击者控制着攻击面,相关MTA策略含义见表1;表示移动目标防御者控制着攻击面。其中表示MTD在固定周期中变换IP地址和端口号,表示MTD在随机周期中变换IP地址和端口号,表示MTD在固定周期内变换转发路径,括号中的内容表示相应变换元素的取值范围。与此同时,网络状态转移概率具体如表5所示。依据2.3节移动目标攻防收益的计算方法,在表6中给出了移动目标攻防收益矩阵。
(3)选取MTG-MTD模型的最优策略
在选取最优策略之前,利用将最优策略选取问题等价转化为非线性规划问题。在此基础上,利用所提出的算法及交互式的线性和通用优化求解器(Linear Interactiveand General Optimizer)LINGO求解最优策略。表6给出了攻防双方及其相应收益的最优策略。
约束条件:
目标函数:
表6移动目标攻防策略和收益
本发明实施例中,基于多阶段Markov时间博弈模型研究了移动目标攻防策略选取问题,主要工作包括:(1)在分析移动目标攻防过程的基础上,构建了Markov时间博弈模型,具备分析多阶段-多状态攻防行为的能力;(2)基于折扣总收益设计了移动目标防御博弈的目标准则函数,实现对多阶段攻防博弈的量化分析;(3)提出了基于非线性规划的多阶段博弈均衡计算方法,设计多阶段最优防御策略选取算法。研究成果对于在多阶段移动目标攻防中实施网络防御决策具有指导意义,能够为开展网络空间攻防对抗研究提供理论模型支持。
通过以上对移动目标防御模型均衡和收益分析,可以得出以下移动目标攻防过程的一般规律:由于防御实施效果的针对性,应该尽可能实施成本低且防御效果佳的MTD策略,针对特定的移动目标攻击,要实施适当的移动目标防御。例如,在状态S1,攻击者的主要攻击手段是利用自身的动态变换规避常规的入侵检测系统,因而IDS对于上述攻击无效,相反的,实施移动目标防御可以有效抵御此类攻击。由于攻击的持续性,要尽可能避免攻击者与目标系统建立通信控制连接,否则很难采取有效防御策略,例如,在状态S4当攻击者已经入侵目标系统,并且进行后续攻击开发时,IDS等传统防御手段对于攻击防御无效,并且移动目标防御的效果也不理想,此时最佳策略为关闭服务。由于单阶段博弈过程由时间博弈所刻画,使得博弈场景更贴近有实际网络攻防过程,相较于矩阵博弈,本发明实施例中所采用的时间博弈可以更好地刻画博弈动态性,与此同时,利用Markov决策过程刻画多阶段性,从而帮助网络安全管理人员更好的决策。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (7)
1.一种基于Markov时间博弈的移动目标防御决策选取方法,其特征在于,包含如下内容:
构建移动目标攻防策略集合;
分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略;
Markov时间博弈移动目标防御模型构建中,利用动态时间博弈刻画单阶段移动目标防御博弈过程,并通过Markov决策过程刻画在不同阶段的随机迁移,将单状态单阶段时间博弈过程扩展至多状态多阶段上,通过多阶段时间博弈与Markov决策方法相结合,构建多阶段Markov时间博弈移动目标防御模型;
单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述,表示为STG-MTD=(N,B,R,η,U,T),其中,N表示攻防博弈参与人集合,B表示攻防博弈可行动作空间,R表示移动目标攻防双方所竞争的公共资源,η表示博弈信念集合,U表示移动目标攻防双方受益函数集合,T表示博弈总时间;
多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示,表示为MTG-MTD=(N,K,R,S,f,B,η,U,β,T),其中,K表示多阶段攻防博弈阶段数,S表示不同网络攻防阶段安全状态集合,f表示状态迁移概率,β表示折现因子。
2.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法,其特征在于,移动目标攻防策略集合中,移动目标攻击策略包含:移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA;移动目标防御策略采用网络层移动目标防御MTD。
3.根据权利要求2所述的基于Markov时间博弈的移动目标防御决策选取方法,其特征在于,网络层移动目标防御MTD包含:通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。
4.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法,其特征在于,模型均衡求解过程中,从移动目标攻防双方对攻击面的控制出发,结合移动目标攻防策略组合下的攻击收益值和防御收益值,获取移动目标攻防收益矩阵,并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。
5.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法,其特征在于,模型均衡求解过程中,首先,通过引入子博弈精炼纳什均衡方法,去除均衡中不可置信威胁策略的纳什均衡,确定单阶段时间博弈均衡上的最优策略;然后,通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题,求解得到多阶段均衡策略及其收益,进而确定攻防双方最优移动目标防御策略。
6.一种基于Markov时间博弈的移动目标防御决策选取装置,其特征在于,包含:策略构建模块、模型构建模块和分析求解模块,其中,
策略构建模块,用于构建移动目标攻防策略集合;
模型构建模块,用于分析基于Markov时间博弈的移动目标防御过程,构建Markov时间博弈移动目标防御模型;
分析求解模块,用于对Markov时间博弈移动目标防御模型进行均衡求解,确定其对抗过程中最优策略;
Markov时间博弈移动目标防御模型构建中,利用动态时间博弈刻画单阶段移动目标防御博弈过程,并通过Markov决策过程刻画在不同阶段的随机迁移,将单状态单阶段时间博弈过程扩展至多状态多阶段上,通过多阶段时间博弈与Markov决策方法相结合,构建多阶段Markov时间博弈移动目标防御模型;
单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述,表示为STG-MTD=(N,B,R,η,U,T),其中,N表示攻防博弈参与人集合,B表示攻防博弈可行动作空间,R表示移动目标攻防双方所竞争的公共资源,η表示博弈信念集合,U表示移动目标攻防双方受益函数集合,T表示博弈总时间;
多阶段Markov时间博弈移动目标防御模型MTG-MTD采用是十元组表示,表示为MTG-MTD=(N,K,R,S,f,B,η,U,β,T),其中,K表示多阶段攻防博弈阶段数,S表示不同网络攻防阶段安全状态集合,f表示状态迁移概率,β表示折现因子。。
7.一种网络安全系统,其特征在于,包含权利要求6所述的基于Markov时间博弈的移动目标防御决策选取装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552217.6A CN110300106B (zh) | 2019-06-24 | 2019-06-24 | 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910552217.6A CN110300106B (zh) | 2019-06-24 | 2019-06-24 | 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110300106A CN110300106A (zh) | 2019-10-01 |
CN110300106B true CN110300106B (zh) | 2021-11-23 |
Family
ID=68028703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910552217.6A Active CN110300106B (zh) | 2019-06-24 | 2019-06-24 | 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110300106B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111385288B (zh) * | 2020-02-20 | 2022-03-01 | 中国人民解放军战略支援部队信息工程大学 | 基于隐蔽对抗的移动目标防御时机选取方法及装置 |
CN112003854B (zh) * | 2020-08-20 | 2023-03-24 | 中国人民解放军战略支援部队信息工程大学 | 基于时空博弈的网络安全动态防御决策方法 |
CN112989357A (zh) * | 2021-03-09 | 2021-06-18 | 中国人民解放军空军工程大学 | 基于信号博弈模型的多阶段平台动态防御方法 |
CN112966273A (zh) * | 2021-03-09 | 2021-06-15 | 中国人民解放军空军工程大学 | 基于Markov演化模型的多阶段平台动态防御方法 |
CN113132350A (zh) * | 2021-03-12 | 2021-07-16 | 嘉兴职业技术学院 | 一种基于马尔可夫决策过程的反爬虫策略生成方法 |
CN113225255A (zh) * | 2021-03-31 | 2021-08-06 | 福建奇点时空数字科技有限公司 | 一种基于触发生成机制的sdn随机路由跳变方法 |
CN112969180B (zh) * | 2021-03-31 | 2022-07-01 | 山东大学 | 模糊环境下无线传感器网络攻击防御方法及系统 |
CN113852645B (zh) * | 2021-12-02 | 2022-03-29 | 北京邮电大学 | 抗客户端dns缓存中毒攻击的方法、装置及电子设备 |
CN115022067B (zh) * | 2022-06-17 | 2024-04-19 | 中国人民解放军国防科技大学 | 基于博弈的不对称信息下的网络安全防御方法及装置 |
CN115619607B (zh) * | 2022-09-06 | 2023-06-30 | 中国人民解放军国防科技大学 | 基于强化学习的多阶段资源攻防分配方法及系统 |
CN115510639B (zh) * | 2022-09-21 | 2023-05-16 | 河海大学 | 一种基于多移动防御资源和移动目标的新型变电站安全保护方法 |
CN116260634B (zh) * | 2023-02-03 | 2024-06-25 | 北京邮电大学 | 基于博弈论的物联网安全收益计算方法及相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107135224A (zh) * | 2017-05-12 | 2017-09-05 | 中国人民解放军信息工程大学 | 基于Markov演化博弈的网络防御策略选取方法及其装置 |
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN107545325A (zh) * | 2017-08-21 | 2018-01-05 | 浙江工业大学 | 一种基于博弈论的多微网互联运行优化方法 |
CN107623697A (zh) * | 2017-10-11 | 2018-01-23 | 北京邮电大学 | 一种基于攻防随机博弈模型的网络安全态势评估方法 |
CN108898010A (zh) * | 2018-06-25 | 2018-11-27 | 北京计算机技术及应用研究所 | 一种建立面向恶意代码防御的攻防随机博弈模型的方法 |
CN108965252A (zh) * | 2018-06-08 | 2018-12-07 | 浙江捷尚人工智能研究发展有限公司 | 一种基于OpenFlow的网络层移动目标防御方法及系统 |
CN109327427A (zh) * | 2018-05-16 | 2019-02-12 | 中国人民解放军战略支援部队信息工程大学 | 一种面对未知威胁的动态网络变化决策方法及其系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103152345B (zh) * | 2013-03-07 | 2015-09-16 | 南京理工大学常熟研究院有限公司 | 一种攻防博弈的网络安全最优攻防决策方法 |
US20160127402A1 (en) * | 2014-11-04 | 2016-05-05 | Patternex, Inc. | Method and apparatus for identifying and detecting threats to an enterprise or e-commerce system |
CN103401838B (zh) * | 2013-07-02 | 2016-02-03 | 中北大学 | 一种基于僵尸程序传播行为的僵尸网络预防方法 |
-
2019
- 2019-06-24 CN CN201910552217.6A patent/CN110300106B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107135224A (zh) * | 2017-05-12 | 2017-09-05 | 中国人民解放军信息工程大学 | 基于Markov演化博弈的网络防御策略选取方法及其装置 |
CN107463094A (zh) * | 2017-07-13 | 2017-12-12 | 江西洪都航空工业集团有限责任公司 | 一种不确定信息下多无人机空战动态博弈方法 |
CN107545325A (zh) * | 2017-08-21 | 2018-01-05 | 浙江工业大学 | 一种基于博弈论的多微网互联运行优化方法 |
CN107623697A (zh) * | 2017-10-11 | 2018-01-23 | 北京邮电大学 | 一种基于攻防随机博弈模型的网络安全态势评估方法 |
CN109327427A (zh) * | 2018-05-16 | 2019-02-12 | 中国人民解放军战略支援部队信息工程大学 | 一种面对未知威胁的动态网络变化决策方法及其系统 |
CN108965252A (zh) * | 2018-06-08 | 2018-12-07 | 浙江捷尚人工智能研究发展有限公司 | 一种基于OpenFlow的网络层移动目标防御方法及系统 |
CN108898010A (zh) * | 2018-06-25 | 2018-11-27 | 北京计算机技术及应用研究所 | 一种建立面向恶意代码防御的攻防随机博弈模型的方法 |
Non-Patent Citations (4)
Title |
---|
《Quantitative Verification and Synthesis of Attack-Defence Scenarios》;Zaruhi Aslanyan et al;《2016 IEEE 29th Computer Security Foundations Symposium (CSF)》;20160811;第105-119页 * |
Adaptive MTD Security using Markov Game Modeling;Ankur Chowdhary et al;《2019 International Conference on Computing, Networking and Communications (ICNC)》;20190411;第577-581页 * |
动态攻击网络Markov演化博弈安全分析模型;李艳等;《计算机科学与探索》;20151209;第10卷(第9期);第1272-1281页 * |
计算机网络对抗行动策略的Markov博弈模型;王长春等;《系统工程理论与实践》;20140930;第34卷(第9期);第2402-2410页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110300106A (zh) | 2019-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110300106B (zh) | 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统 | |
CN107135224B (zh) | 基于Markov演化博弈的网络防御策略选取方法及其装置 | |
Zhuang et al. | Towards a theory of moving target defense | |
Huang et al. | Dynamic bayesian games for adversarial and defensive cyber deception | |
CN110460572B (zh) | 基于Markov信号博弈的移动目标防御策略选取方法及设备 | |
CN111385288B (zh) | 基于隐蔽对抗的移动目标防御时机选取方法及装置 | |
Shen et al. | Adaptive Markov game theoretic data fusion approach for cyber network defense | |
CN112003854B (zh) | 基于时空博弈的网络安全动态防御决策方法 | |
Drašar et al. | Session-level adversary intent-driven cyberattack simulator | |
Fielder et al. | Defense-in-depth vs. critical component defense for industrial control systems | |
Islam et al. | Chimera: Autonomous planning and orchestration for malware deception | |
Li et al. | An optimal defensive deception framework for the container‐based cloud with deep reinforcement learning | |
Ben-Asher et al. | Attacker skill defender strategies and the effectiveness of migration-based moving target defense in cyber systems | |
Pawlick et al. | Optimal timing in dynamic and robust attacker engagement during advanced persistent threats | |
Chowdhary et al. | SDN-based moving target defense using multi-agent reinforcement learning | |
Gutierrez et al. | Online learning methods for controlling dynamic cyber deception strategies | |
Sokri | Game theory and cyber defense | |
Hu et al. | SOCMTD: selecting optimal countermeasure for moving target defense using dynamic game | |
Chen et al. | Optimal strategy for cyberspace mimic defense based on game theory | |
Zheng et al. | When to reset your keys: Optimal timing of security updates via learning | |
Amadi et al. | Anti-DDoS firewall; A zero-sum mitigation game model for distributed denial of service attack using Linear programming | |
Wang et al. | Optimal network defense strategy selection based on Bayesian game | |
Gao et al. | Cooperative Backdoor Attack in Decentralized Reinforcement Learning with Theoretical Guarantee | |
Gutierrez | Detecting Complex Cyber Attacks Using Decoys with Online Reinforcement Learning | |
Shen et al. | Strategies comparison for game theoretic cyber situational awareness and impact assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |