CN110460572A

CN110460572A - 基于Markov信号博弈的移动目标防御策略选取方法及设备

Info

Publication number: CN110460572A
Application number: CN201910606956.9A
Authority: CN
Inventors: 张恒巍; 蒋侣; 王晋东; 张玉臣; 王衡军; 刘小虎; 张畅; 冀会芳
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-07-06
Filing date: 2019-07-06
Publication date: 2019-11-15
Anticipated expiration: 2039-07-06
Also published as: CN110460572B

Abstract

本发明属于网络安全技术领域，特别涉及一种基于Markov信号博弈的移动目标防御策略选取方法及设备，该方法包含：结合信号博弈模型和马尔科夫决策过程，构建多阶段马尔科夫信号博弈模型，多阶段马尔科夫信号博弈模型包含多个独立且相似的单阶段信号博弈模型构成，每个单阶段信号博弈模型的信号博弈均属于有限博弈；选取移动目标防御对抗过程中的目标函数，并获取多阶段博弈均衡求解结果；依据多阶段博弈均衡求解结果，选取最优防御策略。本发明分析攻击者和防御者之间的动态对抗过程，求解多阶段博弈均衡，选取最优防御策略，弥补网络空间安全领域被动防御的不足，提高系统防御的时效性、客观性和准确性，增强网络安全主动防御能力。

Description

基于Markov信号博弈的移动目标防御策略选取方法及设备

技术领域

本发明属于网络安全技术领域，特别涉及一种基于Markov信号博弈的移动目标防御策略选取方法及设备。

背景技术

当前网络空间安全领域存在较为突出的问题是“易攻难守”，究其原因，可分为以下三个方面：一是攻击者有时间优势，通过主动扫描、被动监听等方式对目标系统的端口信息、网络协议漏洞等关键信息进行渗透测试和脆弱性分析；二是攻击者有能力优势，攻击者有提前收集信息和策划攻击手段的能力优势，目标系统结构的确定性、静态性和同构性增加了脆弱性被攻击者成功利用的概率；三是攻击者有成本优势，攻击者只需要找到部分系统脆弱性构成攻击链即可成功发起攻击，而现有恶意代码扫描、入侵检测、防火墙等防御技术大多是基于被动防御机制，其核心是检测技术，系统安全设计人员无法事先发现系统中存在的所有脆弱性，导致防御滞后于攻击。

为弥补网络空间安全领域被动防御的不足，增强网络安全主动防御能力已成为亟待解决的迫切问题。移动目标防御(Moving Target Defense,MTD)作为一种主动防御技术，能够有效提升目标系统的防御效能，其核心思想是建立、分析、评估和部署多样化的、随时间持续变化的机制和策略，以增加攻击者实施攻击的复杂度和成本，降低目标系统脆弱性暴露和被攻击的几率，增强目标系统防御能力。网络安全的本质在攻防对抗，因此从攻防对抗的角度出发，研究探索网络安全分析方法和防御技术体系，具有重要现实意义。从攻防对抗的角度分析并利用MTD技术增强目标系统的防御效能逐渐成为MTD领域的重要研究热点问题。博弈论作为研究网络攻防分析和防御决策方法的主要理论，网络攻防对抗过程中存在的目标对立性、关系非合作性以及策略依存性与博弈论的基本特征相符。因此将博弈论应用到MTD策略选取逐渐成为近年来的研究热点。但总体来说，基于博弈论的网络空间安全问题研究起步较晚，目前的研究方法仍然不够系统，已有研究成果大都以传统博弈模型为主，其模型方法大多建立在仅考虑攻防策略能够影响收益这类相对理想的条件下，未充分考虑网络攻防对抗中存在的攻防信息对均衡及收益的影响，影响系统防御性能的有效性。

发明内容

为此，本发明提供一种基于Markov信号博弈的移动目标防御策略选取方法及设备，解决传统博弈模型应用于移动目标防御策略选取时存在的忽略攻防信息对策略及收益的影响以及无法描述移动目标防御攻防过程中的概率更新受随机因素影响等问题，提高系统防御的时效性、客观性和准确性，具有很强的应用前景。

按照本发明所提供的设计方案，一种基于Markov信号博弈的移动目标防御策略选取方法，将移动目标防御攻防对抗不同阶段之间的状态跳变描述为随机过程，借鉴Markov决策过程，将多阶段信号博弈与Markov决策过程相结合，构建多阶段Markov信号博弈。信号博弈考虑攻防信息对博弈策略选取及博弈收益的影响，同时本发明考虑不同阶段间状态随机跳变，采用Markov决策过程描述这种随机跳变。因此，以信号博弈理论为基础，结合网络攻防实际，在攻防信息干扰攻防决策的情况下，构建多阶段Markov信号博弈模型；在求解和分析多阶段博弈均衡的基础上，选取最优防御策略选取。并基于上述方法，本发明还提供一种网络防御设备和网络系统拓扑结构。

本发明的有益效果：

1、本发明解决传统博弈模型应用于移动目标防御策略选取时存在忽略攻防信息对策略及收益的影响以及无法描述移动目标防御攻防过程中的概率更新受随机因素影响等问题，采用博弈理论对移动目标防御攻防行为进行分析，但采用的博弈方法是信号博弈，由于网络攻防对抗过程具有目标对立性、关系非合作性、策略依存性以及过程动态演化等特点，且攻防信息对博弈策略选取与博弈过程产生影响，这与信号博弈的特征十分相似。因此，采用信号博弈理论分析移动目标防御决策问题具有较好的现实研究意义；在实际网络攻防过程中，由于攻防双方策略集的改变以及系统运行环境的变化会导致原本达到均衡的状态被打破，从而开始下一阶段博弈；由于该过程具有一定的随机性，因此，本发明将信号博弈理论与Markov决策过程相结合，构建移动目标防御多阶段Markov信号博弈模型，用于攻击行为预测和安全防御策略选取，对移动目标防御具有一定的指导意义。

2、本发明在分析动态攻防博弈的基础上，将Markov决策过程与多阶段信号博弈模型相结合，用于分析移动目标防御问题，构建移动目标防御多阶段Markov信号博弈模型，并基于博弈折扣总收益设计了目标准则函数，用于多阶段攻防过程分析；在考虑状态随机跳变的基础上，同时考虑博弈系统中存在的随机干扰因素对阶段间概率更新的影响，提出Logistic映射，用于刻画概率更新过程中受到的随机干扰影响，更符合实际攻防过程；在给出的攻防策略收益量化方法基础上，通过精炼贝叶斯均衡的求解，获取最优防御策略选取结果，并通过仿真实验验证了模型和方法的有效性与可行性。

附图说明：

图1为实施例中防御策略选取方法流程示意图；

图2为实施例中攻击链模型示意；

图3为实施例中移动目标防御机制示意；

图4为实施例中信号博弈树示意；

图5为实施例中移动目标防御Markov信号博弈过程示意；

图6为实施例中网络系统拓扑示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

马尔科夫决策过程(Markov Decision Process)：是研究序贯决策的数学模型，用于研究具有“无记忆性”的随机过程。马尔科夫决策过程包含5个要素，分别为状态、动作、策略、奖励和回报。状态转移概率(State Transition Probability)：假设在时间集T中，马尔科夫决策过程的状态空间为I＝{a₁,a₂,…}，a_i∈R。针对链的情形，马尔可夫性通常用条件分布律来表示，即对和0≤t₁＜t₂…＜t_r＜m；t_i,m,n+m∈T，有

其中，a.∈I，记上式右端为P_ij(m,m+n)。称条件概率P_ij(m,m+n)＝P(X_m+n＝a_j|X_m＝a_i)为马尔科夫决策过程在时刻m处于状态a_i条件下，在时刻m+n转移到状态a_j的状态转移概率。攻击链(Attack Chain):是指从攻击的角度分析攻击者企图破坏或窃取防御者信息所需要布置不同攻击动作的路径或步骤，一般情况下可分为四个过程：扫描检测、脆弱性利用、攻击植入、攻击维持。移动目标防御(Moving Target Defense)：作为一种主动防御技术，其核心思想是建立、分析、评估和部署多样化的、随时间持续变化的机制和策略，以增加攻击者实施攻击的复杂度和成本，降低目标系统脆弱性暴露和被攻击的几率，增强目标系统防御能力。信号博弈(Signaling Game)：是研究博弈过程中信号如何影响博弈均衡及博弈收益的一种博弈理论。其特点是博弈双方或多方的信号能够对其他决策者的决策产生影响，从而影响博弈均衡以及决策方的收益。目前，信号博弈已在劳动力市场、军事作战、垄断限价等领域得到了广泛应用。

信号博弈模型属于不完全信息动态分析模型，由于信号博弈在考虑攻防策略对博弈均衡及收益影响的同时，兼顾真实或虚假攻防信息能够干扰攻防策略选取，并影响攻防收益，能很好地描述实际攻防对抗中的“尔虞我诈”过程。在信号博弈模型中，博弈系统由初始状态经动态对抗最终达到某个相对稳定状态。然而在实际的攻防博弈过程中存在较多随机因素，相对稳定状态后并非长期稳定。随着攻防过程的动态推进，攻防双方的目标、偏好、可行策略集、用户需求变化等随机因素可能破坏该稳定状态，博弈系统跳变到一个非稳定的新状态，攻防双方的认知概率也会发生变化，达到一种“看不清对方虚实”的新认知，进而开始下一阶段的动态博弈。

为此，本发明实施例中，参见图1所示，提供一种基于Markov信号博弈的移动目标防御策略选取方法，包含如下内容：

S101、结合信号博弈模型和马尔科夫决策过程，构建多阶段马尔科夫信号博弈模型，多阶段马尔科夫信号博弈模型包含多个独立且相似的单阶段信号博弈模型构成，每个单阶段信号博弈模型的信号博弈均属于有限博弈；

S102、选取移动目标防御对抗过程中的目标函数，并获取多阶段博弈均衡求解结果；

S103、依据多阶段博弈均衡求解结果，选取最优防御策略。

将移动目标防御攻防对抗不同阶段之间的状态跳变描述为随机过程，借鉴Markov决策过程，将多阶段信号博弈与Markov决策过程相结合，构建多阶段Markov信号博弈；分析在攻防信息的作用下攻击者和防御者之间的动态对抗过程，求解和分析多阶段博弈均衡，选取最优防御策略，弥补网络空间安全领域被动防御的不足，增强网络安全主动防御能力。

从攻击者对MTD系统发动攻击的动态攻防对抗过程的角度来看，攻击者企图毁坏MTD系统功能或窃取MTD系统敏感信息，需构建完整的攻击链模型，如图2所示，大致分为以下四个过程：(1)扫描检测：对于MTD系统，攻击者在发动攻击前通常会采用主动扫描、被动监听等方式获取MTD探测面信息，如系统指纹、数据存储位置信息等；(2)脆弱性利用：根据扫描检测阶段获取的MTD探测面信息，攻击者通过在线或离线的方式分析并加以利用MTD系统可能存在的脆弱性，包括协议、软件、端口号等各种脆弱性；(3)攻击植入：攻击者通过利用攻击面中系统脆弱性将恶意代码或恶意数据传输到目标系统，企图破坏目标系统功能或窃取敏感信息。该阶段不一定对目标系统功能造成故障或敏感信息丢失，主要是为攻击发动提供必要条件；(4)攻击维持：在恶意攻击代码或恶意数据成功植入MTD系统后，攻击者可能会发动攻击以便达到攻击目的，或埋下后门为下次入侵做准备。

攻击面(Attack Surface,AS)是指防御者为了防止攻击者利用某些系统资源脆弱性成功发起攻击所需转移或变换的资源集合，它由攻击面维度以及维度的取值构成，记为AS＝{ASD,ASV}。其中系统攻击面的维度为ASD＝{asd₁,asd₂,…,asd_k}，表示可能被利用的资源脆弱性，如网络服务端口、服务协议等；ASV＝{asv₁,asv₂,…,asv_k}表示攻击面维度的取值，如网络端口号等于8080。探测面(Exploration Surface,ES)是指攻击者为了能够进入目标系统并实现攻击目的所需探索的系统资源集合，它由探测面维度及维度取值范围构成，即ES＝{ESD,ESV}。其中探测面维度为ESD＝{esd₁,esd₂,…,esd_l}，表示攻击者所探测到系统资源集合，即目标系统资源配置属性，如系统指纹信息、数据存储位置信息；ESV＝{esv₁,esv₂,…,esv_l}为攻击者所探测到的系统资源维度可能的取值范围，如服务器的内存数据存储范围为2²⁴。

攻击面转换(Attack Surface shifting)是指在t时刻，目标系统满足下面两个条件之一，则说明目标系统攻击面发生了转换：

(1)即攻击面维度发生改变，简称攻击面转移；

(2)即攻击面维度取值发生变化，简称攻击面变换。

探测面扩展(Exploration Surface Enlarging)是指t时刻，目标系统满足以下两个条件之一，则说明探测面发生了扩展，简称探测面扩展：

(1)即通过增加探测面维度扩展探测面；

(2)即通过增加探测面维度的取值范围扩展探测面。

参见图3所示，移动目标防御基本原理是通过不断改变目标系统的脆弱性，增强目标系统的不确定性，使得攻击者无法构建完整的攻击链发动攻击，从而增强目标系统的防御能力，如图2所示。MTD系统通过扩展探测面增强攻击者获取MTD系统信息和挖掘资源脆弱性的难度，破坏攻击链中扫描检测和脆弱性利用两个阶段；通过时刻转换MTD系统资源脆弱性，即转换攻击面，增加攻击者有效攻击的难度，从而破坏攻击链中攻击植入和攻击维持两个阶段。

由于防御者无法预测攻击，MTD一般采取固定周期或随机周期机制改变MTD策略来抵御攻击。MTD策略由攻击面和探测面的维度空间、维度取值以及变化频率构成。其中，攻击面(探测面)维度空间代表各种网络系统资源，维度取值代表MTD系统资源属性取值，变化频率代表单位时间内攻击面(探测面)维度或维度取值改变的次数，包括固定频率和动态频率两种方式。维度空间和取值范围越大，变化频率越高，表明系统结构的动态性和随机性越强，攻击者越难发现并有效利用系统脆弱性。综上，将MTD策略形式化描述为一个五元组(asd,asv,esd,esv,f)，其中f代表MTD变化频率。

信号博弈作为一种研究博弈信号对博弈均衡影响的博弈理论，博弈局中人分别是信号发出者和信号接收者。信号发出者的类型并不为信号接收者所知，但接受者对信号发出者的类型有先验判断。接收者利用信号对发出者的类型做出修正，形成后验判断，进而选择最优行动。其信号博弈树如图4所示。通常情况下，信号博弈可表示为一个七元组其中，

①N＝(N_D,N_A)是信号博弈的参与者空间。模型中，攻击者N_A为信号接收者，防御者N_D为信号发送者。

②T＝(T_D,T_A)是博弈者的类型空间。防御者类型由采取的防御行动所决定，是防御者的私人信息，T_D＝{t₁,t₂…,t_n}表示防御者类型集合，T_A＝{t}表示攻击者类型集合。

③M为防御者的信号空间。信号名称与防御者的类型相对应，防御者可自主选择发送的信号。由于伪装行为的存在，防御者发送的信号和其实际类型不一定完全一致。

④B＝(D,A)是行动空间。D＝{d₁,d₂,…,d_g},A＝{a₁,a₂,…,a_h}表示防御者、攻击者的行动集合，双方的行动策略数均大于1，即g,h≥1。

⑤P_A是攻击者的先验信念集合。表示攻击者对防御者类型t_j的初始判断。

⑥是攻击者的后验信念集合。后验信念为攻击者观察到信号m_l后，使用贝叶斯法则调整后对防御者类型t_j的判断。

⑦U＝(U_D,U_A)是收益函数集合。表示参与者的博弈收益，由所有参与者的策略共同决定。

按以下步骤来求解网络攻防双方的精炼贝叶斯均衡：

(1)求解攻击者推断依存的子博弈精炼均衡策略

当m＝m₁时，

因为o₁+o₂+o₃＝1，令

即可得到

假设并且则有以下三种情况

若原式＝a₁₂·o₁+a₄₂·o₂+a₇₂·o₃，a(m₁)＝A₁

若原式＝a₂₂·o₁+a₅₂·o₂+a₈₂·o₃，a(m₁)＝A₂

若原式＝a₃₂·o₁+a₆₂·o₂+a₉₂·o₃，a(m₁)＝A₃

同理可得若a(m₂)＝A₁；若a(m₂)＝A₂；若a(m₂)＝A₃。同理可得若a(m₃)＝A₁；若a(m₃)＝A₂；若a(m₃)＝A₃。

(2)求解防御者推断的子博弈精炼均衡策略

当t＝t₁时

当时

原式＝max{U_D(m₁,a(m₁),t₁),U_D(m₂,a(m₂),t₁),U_D(m₃,a(m₃),t₁)}＝max{a₁₁,a₂₃,a₃₅}，由此可求得m(t₁)。同理可得情况下的m(t₁)。

且可以得到t₂、t₃类型的子博弈精炼均衡策略。

(3)求解信号博弈的精炼贝叶斯均衡

在已知m*(t),a*(m)的条件下，可以求出满足贝叶斯法则的攻击者对防御者类型的推断若P(t|m)与不冲突，即可得出信号博弈的精炼贝叶斯均衡策略

依据博弈理论可知，精炼贝叶斯纳什均衡下的混合策略即为双方的最优选择。信号博弈理论应用于移动目标防御决策存在以下缺点：(1)信号博弈理论中的局中人一般假设为完全理性，不一定与实际情况相符。信号博弈理论一般建立在行为者完全理性的前提假设下，而现实中由于人的决策能力可能是有限的，即实际决策者不一定完全理性个体。信号博弈理论无法解决有限理性条件下的博弈对抗，可能使最终的博弈均衡结果与实际相差较大，从而降低了模型和方法的有效性。(2)博弈量化没有统一的标准，主观性较强。一方面，信号博弈的策略量化标准不统一可能会导致相同博弈出现不同的均衡结果，由于策略量化直接影响博弈收益结果。然而，实际攻防过程中策略量化是一个很难定量的过程，这导致策略选择精度不够高。另一方面，博弈过程中某些策略收益难以量化，如系统损失，这类无法客观量化的度量因人而异，不同局中人考虑的标准不同。(3)移动目标防御机制防御效能有效性与其复杂度成正相关性，越复杂的多维度多属性转换，防御效能越好。

本发明的目的就是要采用信号博弈理论构建一种有效的移动目标防御决策方法，利用移动目标防御具有的主动防御特性来弥补传统被动防御技术存在的不足。由于现有移动目标防御决策研究大多忽略攻防信息的作用，与实际情况不符。针对移动目标防御攻防对抗存在的目标对立性、关系非合作性、策略依存性、信息不完全性以及攻防信息客观存在并能够发生作用等特点，同时考虑实际攻防过程中可能存在的随机干扰因素，基于信号博弈理论，将信号博弈模型与Markov决策过程相结合，构建多阶段Markov信号博弈模型。以博弈的折扣总收益为目标函数，提出贝叶斯均衡的求解方法，设计最优防御策略选取算法，可用于解决攻防信息作用下攻击策略预测与安全防御策略选取问题。

在信号博弈模型中，从博弈初始状态开始，博弈系统经过动态攻防对抗达到某个相对稳定状态，由于攻防策略是随时间变化的，攻击目的、攻防双方偏好以及目标系统运行环境可能发生改变，直接导致博弈系统稳定状态无法维持，并发生随机转移到新状态，从而开始下一阶段的信号博弈。与此同时，阶段间，上一阶段后验概率更新成下一阶段先验概率的过程受到随机干扰因素的影响，如攻击者观测能力有限以及系统环境发生变化等，导致后验概率在更新过程中受到干扰发生失真。但由于影响攻防双方可行策略集和目标系统状态改变的因素较多，作用原理复杂，并具有一定的随机性。进一步地，本发明实施例中，借鉴Markov决策过程刻画不同阶段间状态随机跳变，采用Logistic映射描述后验概率更新过程中的失真现象，将多阶段信号博弈和MDP相结合，构建多阶段Markov信号博弈模型对MTD攻防行为和防御决策进行分析。移动目标防御多阶段Markov信号博弈模型如图5所示。在阶段1时，攻防双方由初始状态开始连续决策、攻防对抗，最终以均衡策略达到该阶段的稳定状态。随着时间的推移，攻防双方目的或偏好发生变化以及目标系统环境可能发生改变，攻防策略发生改变，阶段1的稳定状态被破坏，MTD系统以概率η从阶段1的稳定状态跳变到阶段2的初始状态，在此过程中，由于攻击者观测能力有限及系统环境改变等随机干扰因素的作用下，上一阶段的攻防策略以及信号等历史信息作为公共信息在更新过程中发生失真，导致后验概率在更新过程中具有随机性，本发明实施例采用Logistic映射进行刻画此随机干扰。阶段2重复阶段1的过程，以此类推。从攻防全过程来看，MTD系统始终处于“攻防对抗—概率修正与状态随机跳变—攻防对抗”的动态过程中。在分析攻防双方期望总收益的基础上，并以此为攻防双方的目标函数，构建移动目标防御多阶段信号博弈模型。

进一步地，本发明实施例中，移动目标防御单阶段信号博弈模型MTD_S²GM(MovingTarget Defense Single-stage Signaling Game Model)可以表示为一个七元组，其中，

(1)N＝(N_a,N_d)是信号博弈模型局中人集合，N_a为攻击者，N_d为MTD系统，即防御者。

(2)Θ＝(Θ_a,Θ_d)分别是局中人N_a和N_d的类型空间，Θ_a＝(φ)表示攻击者只有一种类型，Θ_d＝(θ₁,θ₂,...,θ_n)表示防御者的防御类型，代表防御能力的强弱，由维度空间、维度取值以及变化频率决定，蕴含MTD防御策略信息。防御类型是防御者的私人信息，防御者知道自己的防御类型，攻击者不知道防御类型，但攻击者对防御类型Θ_d有先验概率分布。

(3)B＝(D,A)是攻防双方的策略空间。D＝(d₁,d₂,...,d_g)为防御者的MTD策略集合，d_i＝(asd_i,asv_i,esd_i,esv_i,f)；A＝{a₁,a₂,...,a_h}为攻击策略，g,h≥1。

(4)M＝{m₁,m₂,...,m_n}是防御者的信号空间，防御信号名称与防御类型相对应，防御者可以自主选择发送真实或虚假信号。真实信号可以表示防御者的真实类型，强化攻击者对防御信号的信任度；虚假信号可以迷惑、欺骗和诱导攻击者对防御类型的判断，起到主动防御的效果。

(5)p是攻击者通过收集防御者的情报信息得出的先验概率，它代表攻击者对防御类型的先验判断，可记为p(Θ_d)＝(p₁,p₂,...,p_n)，满足p_i＝p(θ_i)≥0，

(6)是攻击者的后验概率，表示攻击者接收到防御信号m_j时，利用贝叶斯法则修正先验概率p_i得到的防御类型θ_i后验概率。

(7)U＝(U_A,U_D)是攻防双方收益函数集合，分别用U_A(θ_i,m_j,a_k)和U_D(θ_i,m_j,a_k)表示，1≤i,j≤n，1≤k≤h，其描述了攻防双方在不同策略组合下的收益。

防御成本(Defense Cost,DC)包括MTD攻击面转换成本(Attack SurfaceShifting Cost,ASSC)、探测面扩展成本(Exploration Surface Enlarging Cost,ESEC)、MTD系统负面成本(System Negative Cost,SNC)成本和信号发送成本(Signal SendingCost,SSC)。ASSC表示攻击面发生转换导致的系统资源开销，其取值与MTD系统维度及取值变化相关。ESEC表示探测面扩展消耗的系统资源；SNC表示转换攻击面和扩展探测面时导致系统为用户提供的服务质量下降或系统无法正常工作的损失，其成本大小与攻击面探测面维度改变、变换频率f有关；SSC表示由于防御者释放信号导致系统资源消耗与性能降低，其成本大小与防御类型、释放的信号有关。

DC(θ_i,m_j,d_s)＝ASSC(d_s)+ESEC(d_s)+SNC(θ_i,d_s)+SSC(θ_i,m_j)

攻击成本(Attack Cost,AC)是指攻击者为构建“扫描检测—脆弱性利用—攻击植入—攻击维持”攻击链所需的时间、专业知识以及软硬件资源等，可记为AC(a_k)。

防御策略有效性(Effectiveness of Defense Strategies)是指当攻击者采用攻击策略a_k，防御者采用MTD策略d_s的有效性，记为ε(a_k,d_s)。如果防御策略能够完全阻止攻击，ε(a_k,d_s)＝1；当防御策略完全无效时，ε(a_k,d_s)＝0，其他情况时，0＜ε(a_k,d_s)＜1。

系统损失代价(System Damage Cost,SDC)是指攻防双方在攻击链上的对抗导致系统功能发生故障或敏感信息丢失所带来的损失，通常取正值，通过资源重要程度C(Criticality)，攻击致命度AL(Attack Lethality)，资源属性损害AD(AttributesDamage)进行描述。

攻击收益(Attack Payoff,AP)是指攻击者通过攻击链所获得总收益，可表示为

AP＝(1-ε)SDC(a_k,d_s)-AC(a_k) (1)

防御收益(Defense Payoff,DP)是指防御者通过采取MTD策略获得的收益，可表示为

DP＝-(1-ε)SDC(a_k,d_s)-DC(θ_i,m_j,d_s) (2)

移动目标防御多阶段Markov信号博弈模型(Moving Target Defense Multi-Stage Markov Signaling Game Model,MTD_M²SGM)可表示为一个十二元组，其中，

(2)Θ＝(Θ_a,Θ_d)分别是局中人N_a和N_d的类型空间，Θ_a＝(ξ)表示攻击者只有一种类型，Θ_d＝(θ₁,θ₂,...,θ_n)表示防御者的防御类型，代表防御能力的强弱，由维度空间、维度取值以及变化频率决定。防御类型是防御者的私人信息，防御者知道自己的防御类型，攻击者不知道防御类型，但攻击者对防御类型Θ_d有先验概率分布。

(3)T是多阶段信号博弈的阶段总数，G(k)表示第k个阶段博弈过程，k∈[1,T],k∈N⁺。

(4)B＝(D,A)是攻防双方的策略空间。为防御者在阶段G(k)中第i个策略，A＝{a₁,a₂,...,a_h}为攻击策略，g,h≥1。

(5)M＝{m₁,m₂,...,m_n}是防御者的信号空间，防御信号名称与防御类型相对应，防御者可以自主选择发送真实或虚假信号。真实信号可以表示防御者的真实类型，强化攻击者对防御信号的信任度；虚假信号可以迷惑、欺骗和诱导攻击者对防御类型的判断，起到主动防御的效果。

(6)p_k是攻击者在阶段k的先验概率，它是在随机干扰因素作用下由上阶段后验概率更新得到，可记为满足本发明实施例采用Logistic迭代映射刻画随机干扰因素对概率更新过程的影响，即x_n+1＝μx_n(1-x_n)，x_n＝p_k，迭代次数为n＝40,μ＝3.9。

(7)是攻击者在k阶段的后验概率，表示攻击者接收到防御信号m_j时，利用贝叶斯法则修正先验概率p_k得到的防御类型θ_i的后验概率。

(8)是攻防过程中MTD系统的T个阶段的初始安全状态集合。

(9)S＝{S₁,S₂,…,S_T}是攻防对抗过程中MTD系统的安全状态集合。

(10)ξ是折扣因子，ξ^k表示在博弈阶段k中的收益相较初始阶段的折现比例，0≤ξ^k≤1。

(11)η是MTD系统状态转移概率，其中表示系统从状态S_i跳变至状态的概率。转移概率η_ij取决于攻防双方的策略和MTD系统环境，如资源配置等。通过概率矩阵进行刻画，当i＝j，η_ij＝0。

(12)表示攻防双方在第k个阶段的收益函数集合。

进一步地，本发明实施例中，设计目标准则函数R，用于判断攻防双方策略的优劣。常用目标准则函数有折扣期望准则函数和平均回报准则函数。由于移动目标防御对抗过程中，攻防收益与时间有关，本发明实施例中，通过引入折现因子ξ，采用折扣期望准则函数，即

由上述定义可知，在有限次博弈过程中，MTD系统在不同状态间进行转换，攻防双方的目标是使自身收益函数达到最大值。

在移动目标防御攻防对抗过程中，攻防双方都尽可能最大化自身收益。对于移动目标防御多阶段Markov信号博弈，当攻防博弈阶段处于G(k)时，攻防策略和信号策略分别为和M＝{m₁,m₂,...,m_n}。根据多阶段信号博弈均衡定理，若(d^k*,a^k*,m^k*)为博弈阶段G(k)的精炼贝叶斯均衡，则满足下列条件：

基于MTD_M²SGM分析移动目标防御攻防对抗过程，由于攻防对抗过程由多个博弈阶段构成，且每个阶段会受到上一阶段攻防策略的影响。根据Markov决策过程理论，若(d^k*,a^k*,m^k*)是MTD_M²SGM的Markov最优响应策略，则(d^k*,a^k*,m^k*)使目标准则函数和达到最大值，当k∈[1,T]，满足下列条件：

由于移动目标防御攻防对抗过程是由T个阶段博弈构成，在每个阶段中攻防策略及为和攻防博弈的收益是有限的，因此MTD_M²SGM为多阶段-多状态的有限Markov信号博弈模型。

MTD_M²SGM是由多个独立且相似的单阶段信号博弈模型构成，同时每个独立的单阶段信号博弈均属于有限博弈。由MTD_M²SGM的定义，根据状态转移概率η和收益函数可知，存在与MTD_M²SGM相对应的有限随机博弈，且收益函数为凸函数。根据有限随机博弈的均衡存在性定理^[24]可知，该有限随机博弈存在混合策略下的均衡。综上所述，MTD_M²SGM存在精炼贝叶斯均衡。

假定博弈过程处于某一具体阶段时，下面给出单阶段信号博弈精炼贝叶斯均衡及对求解过程和步骤进行描述：

MTD_S²GM的精炼贝叶斯均衡可表示为其中m^*(θ,d^*)表示防御类型为θ的防御者释放信号m^*且选择防御策略d^*(m^*)，简记为m^*(θ)；a^*(m)为攻击者的信号依存策略；为攻击者对防御者的后验概率。精炼贝叶斯均衡满足以下条件：

(1)

(2)

是攻击者根据先验概率p、防御信号m以及最优策略组合(m^*(θ),a^*(m))通过贝叶斯法则得到的。

MTD_S²GM的精炼贝叶斯均衡求解过程及步骤如下：

(1)构建攻击者在每个信息集上的后验概率推断

(2)计算攻击者依存的最优反应策略a^*(m)；

由于是在给定后验概率推断的条件下求精炼贝叶斯均衡，因此采用逆序归纳法，在给定信号m，后验概率推断的假设下，选择攻击策略a^*(m)∈A，最大化攻击者期望收益，通过求得攻击者的最优反应策略a^*(m)。

(3)计算防御者依存的最优反应策略m^*(θ)；

防御类型为θ的防御者，在攻防双方完全理性的假设下，预测到攻击者的最优反应策略为a^*(m)，选择m^*(θ)∈M，最大化防御者期望收益，通过求得防御者的最优反应策略m^*(θ)。

(4)计算单阶段信号博弈精炼贝叶斯均衡

通过步骤(2)、(3)求得攻防双方相互依存的子博弈精炼纳什均衡(m^*(θ),a^*(m))，求出满足贝叶斯法则的后验概率推断如果与不冲突，则为MTD_S²GM的精炼贝叶斯均衡。

分析单阶段信号博弈均衡计算过程，时间复杂度主要集中在精炼贝叶斯均衡求解过程，|Θ_d|＝|M|＝n，令u＝max(g,h)，根据动态博弈理论可知，计算均衡的平均时间复杂度为ο(u³+n²+2n)。存储空间消耗主要集中在策略收益和均衡求解中间值的存储上，为ο(un)。

建立的移动目标防御攻防对抗模型包含多个阶段的子博弈过程，在单阶段信号博弈均衡求解的基础上，针对移动目标防御多阶段攻防对抗的收益计算问题，引入折扣因子ξ，将未来阶段的收益折算成基于初始阶段的折扣收益；同时引入Logistic映射，刻画阶段间影响后验概率更新的随机干扰因素。本发明实施例中，将MTD_M²SGM的均衡求解问题，转化为以最大化整体收益的动态规划问题。

其中，d^k，m^k和a^k分别表示在博弈阶段G(k)，防御方防御策略、信号策略和攻击策略。通过求解方程(6)即可得到攻防双方最优策略(m^k*(θ,d^k*),a^k*(m))，即为多阶段博弈的均衡策略集合。攻防双方在此策略组合下双方收益达到最大值，故防御方应将m^k*(θ,d^k*)作为最优防御策略。

在上述分析的基础上，本发明实施例中移动目标防御多阶段Markov信号博弈的最优防御策略选取算法可设计为如下：

Input:移动目标防御多阶段Markov信号博弈模型MTD_M²SGM

Output:多阶段最优防御策略m^k*(θ,d^k*)

BEGIN

1.初始化

2.构建防御策略空间D和攻击策略空间A；

3.构建攻防博弈各阶段初始安全状态集合和安全状态集合S＝{S₁,S₂,…,S_T}；

4.初始化Logistic映射：x_n+1＝μx_n(1-x_n)，x_n＝p_k，迭代次数为n＝40,μ＝3.9，k＝2,3,...,T；

5.初始化状态转移概率阶段k＝1；；

6.While(k≤T)；

{构建并计算不同阶段的单阶段信号博弈收益

7.构建满足

8.分别计算G(k)阶段攻防双方收益函数和

9.利用折扣因子ξ，计算攻防双方折扣收益

10.基于动态规划算法，以和作为目标函数，求解(m^k*(θ,d^k*),a^k*(m))；

11.根据(m^k*(θ,d^k*),a^k*(m))，利用贝叶斯公式求得后验概率推断

12.For(i＝1；i＜n；i++)

p_k+1(θ|m)＝x₄₀；

13.Output((m^k*(θ,d^k*))；//输出当前阶段信号博弈最优防御策略

14.k＝k+1；

}

END

分析上述算法时间复杂度可知，令Logistic映射迭代次数为r,平均时间复杂度为ο(k(u³+n²+2n+r))。存储空间消耗主要集中在策略收益和均衡求解中间值的存储上，为ο(k(un+r))。根据此算法分析移动目标防御攻防对抗单阶段策略选取及收益计算，再根据动态规划求解目标准则函数，得到多阶段最优防御策略，用于移动目标防御攻防对抗行为分析及防御决策。

基于上述的方法，本发明实施例还提供一种网络防御设备，包含：模型构建模块、模型求解模块和策略选取模块，其中，模型构建模块，用于结合信号博弈模型和马尔科夫决策过程，构建多阶段马尔科夫信号博弈模型，多阶段马尔科夫信号博弈模型包含多个独立且相似的单阶段信号博弈模型构成，每个单阶段信号博弈模型的信号博弈均属于有限博弈；模型求解模块，用于选取移动目标防御对抗过程中的目标函数，并获取多阶段博弈均衡求解结果；策略选取模块，用于依据多阶段博弈均衡求解结果，选取最优防御策略。

基于上述的网络防御设备，本发明实施例还提供一种网络系统拓扑结构，上述网络防御设备设置于内网和外部互联网之间。

本发明提出的模型和方法能够从有限理性的角度出发实现对连续、实时攻防过程的分析并预测威胁的动态变化，更加符合实际攻防场景，有效提高模型和方法的客观性和实用性。

为验证本发明实施例中MTD_M²SGM模型及最优防御策略选取算法的可行性与有效性，构建如图6所示的系统拓扑结构。实验网络系统主要由业务网、接入网和外部互联网构成，主要包括网络防御设备、Web服务器、文件服务器、数据库服务器和客户端。

将移动目标防御攻防对抗过程分为八个阶段，各状态如表1所示。其中是阶段G(k)的初始状态，S_k是阶段G(k)的结束状态。同时，实施例中假定不同阶段间的状态转移概率固定不变，通过历史数据和专家经验确定η_ij。同时，实施例中通过Logistic映射刻画阶段间随机干扰因素对概率更新的影响，并给出各阶段的更新后的概率矩阵A＝(a_ij)_2×2，a_ij＝p(θ_j|m_i)，具体如表2所示。

表1仿真实验系统不同阶段下状态表

表2状态转移概率及概率更新

仿真实验系统的访问控制策略限制外网用户只能访问Web服务器，系统内的文件服务器、客户端和Web服务器具有数据库服务器的访问权限。通过Nessus扫描工具扫描整个仿真系统，根据国家信息安全漏洞库(CNNVD)数据，分析路由器控制表、漏洞信息的基础上，实施例中将防御类型分为高等级防御类型θ_H和低等级防御类型θ_L，构建移动目标防御攻防对抗各阶段的攻防策略集，并给出相应的防御策略有效性矩阵ε_ij＝(a_i,d_j)_3×3，具体如表3所示。同时，针对各阶段不同攻防策略分别给出各阶段的攻防收益矩阵，具体如表4所示。

表3各阶段攻防策略及防御策略有效性矩阵

表4各阶段攻防收益矩阵

结合移动目标防御攻防对抗实际过程，设定折扣因子ξ＝0.4，利用Matlab2015工具实现最优防御策略选取算法，计算各阶段目标准则函数值，其中m^*(θ)，d^*(m)，a^*(m)分别为防御者最优信号策略、最优防御策略以及攻击者最优攻击策略。具体如表5所示。

表5各阶段均衡策略

以数据库服务器D1、D2为攻击目标，攻击者通过获取D1、D2的root权限窃取敏感信息并对数据库进行破坏或植入木马。攻击链主要有以下两条，对此分别展开分析：

(1)攻击链1：

第一阶段攻击者主要通过被动监听网络安全防御设备，分析并获取系统脆弱性；第二阶段系统以概率η₁₂＝0.7从S₁跳变到攻击者主要扫描并分析Web服务器可能存在的脆弱性；第三阶段系统以概率η₂₄＝0.8从S₂跳变到攻击者主要利用Web服务器存在的脆弱性并以之为跳板，获取F2的user权限和D1的access权限；第四阶段系统以概率η₄₆＝0.7从S₄跳变到获取F2的root权限和C2的root权限；第五阶段系统以概率η₆₇＝0.9从S₆跳变到获取D1的root权限并窃取D1中的敏感信息并破坏数据库D1。攻击链(1)的攻击总收益R_AT1＝112.9，防御总收益R_DT1＝-288.3。

(2)攻击链2：

第一阶段攻击者主要通过被动监听网络安全防御设备，分析并获取系统脆弱性；第二阶段系统以概率η₁₂＝0.7从S₁跳变到攻击者主要扫描并分析Web服务器可能存在的脆弱性；第三阶段系统以概率η₂₃＝0.7从S₂跳变到攻击者主要利用Web服务器存在的脆弱性并以之为跳板，获取F1的user权限和C2的user权限；第四阶段系统以概率η₃₅＝0.3从S₃跳变到获取C1的root权限和D2的user权限；第五阶段系统以概率η₅₈＝0.5从S₅跳变到获取D2的root权限并向D2植入木马便于下次攻击。攻击链(2)的攻击总收益R_AT2＝89，防御总收益R_DT2＝-227.6。

通过分析上述两条攻击链可知，从防御者的角度来看，因为R_DT1＜R_DT2，R_AT1＞R_AT2，攻击链(2)显然更符合防御者的期望，防御者应尽量避免攻击链(1)的形成。对比分析攻击链(1)和(2)可以发现，第1、2阶段两者相同；在第3阶段，攻击链(1)跳变到攻击链(2)跳变到为降低攻击链(1)形成的概率，需要减小由于策略集和系统运行环境的变化是引起状态跳变的重要原因，分析攻防过程中的攻击策略A⁴＝{Shutdown servertenor，install DLI Trojan，install VBW Trojan}，最优攻击策略为install DLITrojan，防御者可以在攻防对抗过程中，利用随机改变端口信息、增设黑名单等方式改变访问控制策略或增加delete DLI Trojan的频率以及其他针对性强的防御策略，从而降低的取值，降低攻击链(1)形成的可能性。

在上述建立的移动目标防御Markov信号博弈模型中，攻防收益矩阵以及状态之间的转移概率是准备步骤。因为本发明的目的是通过计算博弈的收益，使博弈过程中的防御收益达到最大，其对应的防御策略即为移动目标防御最优防御策略。由于专家经验获取的方法具有一定的主观性。因此，可以采用本发明实施例中的历史数据统计分析的方法提高数据的准确性。针对网络攻防过程，其攻防策略集的确定也是准备步骤，攻防策略集的选定，主要用于后期攻防过程的分析与求解，为网络攻防过程提供数据支撑。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，包含如下内容：

A)结合信号博弈模型和马尔科夫决策过程，构建多阶段马尔科夫信号博弈模型，多阶段马尔科夫信号博弈模型包含多个独立且相似的单阶段信号博弈模型构成，每个单阶段信号博弈模型的信号博弈均属于有限博弈；

B)选取移动目标防御对抗过程中的目标函数，并获取多阶段博弈均衡求解结果；

C)依据多阶段博弈均衡求解结果，选取最优防御策略。

2.根据权利要求1所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，A)中，借鉴马尔科夫决策过程来刻画不同阶段间状态随机跳变，采用Logistic映射描述后验概率更新过程中失真现象，将多阶段信号博弈和马尔科夫决策过程相结合，构建用于对移动目标防御系统中攻防行为和防御决策进行分析的多阶段马尔科夫信号博弈模型。

3.根据权利要求1或2所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，A)中，结合信号博弈模型和马尔科夫决策过程，利用七元组表示移动目标防御单阶段信号博弈模型，利用十二元组表示移动目标防御多阶段马尔科夫信号博弈模型，单阶段信号博弈模型多阶段马尔科夫信号博弈模型其中，N为模型局中人集合，Θ为局中人类型空间，B为攻防双方策略空间，M为防御者信号空间，P为攻击者通过收集防御者情报信息获取的先验概率，为攻击者后验概率，U为攻防双方收益函数集合，T为多阶段信号博弈的阶段总数，p_k为攻击者在阶段k先验概率，为攻击者在k阶段后验概率，S₀为攻防过程中移动目标防御系统T个阶段的初始安全状态集合，S为攻防对抗过程中移动目标防御系统安全状态集合，ξ为折扣因子，η为移动目标防御系统状态转移概率。

4.根据权利要求3所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，攻击者在阶段k先验概率p_k在随机干扰因素作用下由上阶段后验概率通过Logistic迭代映射更新获取。

5.根据权利要求1所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，B)中，移动目标防御系统在有限次博弈过程中在不同状态间进行切换，求解单阶段信号博弈均衡，并通过引入折现因子，采用折扣期望准则函数作为目标函数，求解多阶段马尔科夫信号博弈均衡。

6.根据权利要求5所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，单阶段信号博弈均衡求解中，构建攻击者后验概率推断，采用逆序归纳法，依据给定信号和后验概率推断，最大化攻击者期望收益，获取攻击者最优反应策略；在攻防双方完全理性假设下，依据攻击者最优反应策略，最大化防御者期望收益，得到防御者最优反应策略，获取攻防双方相互依存的单阶段信号博弈精炼贝叶斯均衡。

7.根据权利要求6所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，依据防御策略有效性、系统损失代价和攻击成本获取攻击者攻击收益；依据防御策略有效性、系统损失代价和防御成本获取防御者防御收益。

8.根据权利要求5所述的基于Markov信号博弈的移动目标防御策略选取方法，其特征在于，多阶段马尔科夫信号博弈均衡求解中，引入折现因子，将未来阶段受益折算成基于初始阶段的折扣收益；同时引入Logistic映射，刻画阶段间影响后验概率更新的随机干扰因素，将多阶段马尔科夫信号博弈均衡转化为以最大化整体收益的动态规划问题；对最大化整体收益的动态规划问题进行求解，得到多阶段博弈攻防双方均衡策略集合。

9.一种网络防御设备，其特征在于，包含：模型构建模块、模型求解模块和策略选取模块，其中，

模型构建模块，用于结合信号博弈模型和马尔科夫决策过程，构建多阶段马尔科夫信号博弈模型，多阶段马尔科夫信号博弈模型包含多个独立且相似的单阶段信号博弈模型构成，每个单阶段信号博弈模型的信号博弈均属于有限博弈；

模型求解模块，用于选取移动目标防御对抗过程中的目标函数，并获取多阶段博弈均衡求解结果；

策略选取模块，用于依据多阶段博弈均衡求解结果，选取最优防御策略。

10.一种网络系统拓扑结构，其特征在于，包含权利要求9所述的网络防御设备，所述网络防御设备设置于内网和外部互联网之间。