CN109327427A

CN109327427A - 一种面对未知威胁的动态网络变化决策方法及其系统

Info

Publication number: CN109327427A
Application number: CN201810467126.8A
Authority: CN
Inventors: 张玉臣; 刘小虎; 雷程; 谭晶磊; 程相然; 刘璟; 张恒巍; 马军强; 鲁晓彬; 龚会芳
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2019-02-12

Abstract

本发明涉及网络安全技术领域，具体涉及一种面对未知威胁的动态网络变化决策方法及其系统，包括以下步骤：根据当前网络状态，构建局中人的类型空间；局中人根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合；根据所述网络状态和攻防策略集合，获得系统状态转移概率；针对所选攻防策略获取攻防博弈双方的收益，并结合所述系统状态转移概率，构建基于不完全信息马尔科夫博弈的移动目标防御模型；将所述移动目标防御模型的求解等价转化为目标函数，得到最优的移动目标防御策略。本发明解决了面对未知威胁的基于有限网络资源选取最优防御策略，以实现网络性能开销和MTD防御收益的平衡的技术问题。

Description

一种面对未知威胁的动态网络变化决策方法及其系统

技术领域

本发明涉及网络安全技术领域，具体涉及一种面对未知威胁的动态网络变化决策方法及其系统。

背景技术

在网络攻击趋向组合化、自动化的态势下，现有防御方法难以有效应对愈加复杂的网络入侵，网络攻防地位的不对称性日益加剧。为了改变这种“易攻难守”的局面，移动目标防御(Moving Target Defense:MTD)技术应运而生。它旨在以防御方可控的方法通过改变系统要素的属性，实现被保护网络随机、动态、异构的变化，从而破坏攻击链对运行环境确定、静态、同构的依存要求，进而增加攻击者的攻击难度。虽然现有研究针对不同网络安全威胁提出了多种MTD技术和实现方法，但是不同MTD技术的简单叠加却会极大增加网络系统性能开销，“不惜一切代价”的防御无法适用于防御成本有限的实际条件。因此，如何基于有限网络资源选取最优防御策略，以实现网络性能开销和MTD防御收益的平衡，成为当前研究的热点和重点问题之一。博弈论(Game Theory)与MTD依据攻防成本与收益选取下一步最优跳变策略的目标相一致。与此同时，在MTD攻防对抗过程中，攻击方通过侦测和利用网络资源脆弱性和网络配置属性等达到攻击目的，防御方则通过改变攻击面和探测面增加攻击实施的难度，攻防双方具有目标对立性；攻防双方策略的选取是否有效不仅仅取决于自身的行为，同时还取决于对手选取的策略，攻防策略具有依存性。因此，MTD攻防对抗所具有的目标对立性和策略依存性与博弈理论的特性高度契合，博弈论可在选取MTD最优防御策略研究和实现安全与性能间平衡方面发挥重要作用。

发明内容

本发明提供了一种面对未知威胁的动态网络变化决策方法及其系统，构建了基于马尔科夫博弈的移动目标防御模型，进而求解得到最优的移动目标防御策略，解决了面对未知威胁的基于有限网络资源选取最优防御策略，以实现网络性能开销和MTD防御收益的平衡的技术问题。

为了达到上述技术目的，本发明所采用的技术方案如下：

一种面对未知威胁的动态网络变化决策方法，其特征在于，包括以下步骤：

根据当前网络状态，构建局中人的类型空间；

局中人根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合；

根据所述网络状态和攻防策略集合，获得系统状态转移概率；

针对所选攻防策略获取攻防博弈双方的收益，并结合所述系统状态转移概率，构建基于不完全信息马尔科夫博弈的移动目标防御模型；

将所述移动目标防御模型的求解等价转化为目标函数，得到最优的移动目标防御策略。

进一步，局中人根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合的方法，包括以下子过程：

自然从攻击者的类型空间中选取一个类型；

防御方依据网络状态、观测的攻击策略和先验信念判断攻击方可能的类型，并从相应的防御策略集合中选取防御策略进行防御。

进一步，所述攻击方和防御方的类型空间分别为：和

其中，Θ＝(Θ₁(S_j),Θ₂(S_j),...,Θ_t(S_j))表示网络状态S_j下局中人的类型集合，且满足

进一步，所述攻击策略集合和防御策略集合分别为：和

其中，表示当攻击方的类型为θ_t时，在网络状态S_j下可选的策略集合；且满足表示类型为θ_t的攻击方在网络状态为S_j时选择攻击策略的概率。

表示当防御方的类型为θ_t时，在网络状态S_j下可选的策略集合；且满足表示类型为θ_t的防御方在网络状态为S_j时选择防御策略的概率。

进一步，所述获取攻防博弈双方的收益的方法，包括以下步骤：

自然从攻击者的类型空间中选取一个类型，且只有攻击方知道自己的类型，防御方只能获得先验信念；

网络系统状态受到当前状态、攻防双方策略的影响而进行转移；

经过有限次博弈，获得攻防双方的收益。

进一步，所述获取状态转移概率，包括以下步骤：

在某一网络状态下实施某一攻击策略的概率；

防御方根据观测到的攻击策略选择某一防御策略抵御攻击的概率；

以及防御方实施该防御策略后网络状态转移到该网络状态的概率。

进一步，所述获取状态转移概率为T＝{P(o_j|S_i),P(r_j|o_j),P(S_i|r_j)}，其中，P(o_j|S_i)表示在网络系统状态为S_i下实施攻击策略o_j的概率；P(r_j|o_j)表示攻击策略o_j实施后防御方选择防御策略 r_j抵御攻击的概率；P(S_i|r_j)表示防御方实施防御策略r_j后网络状态转移到S_i的概率。

进一步，所述攻防博弈双方的收益，包括攻击面和探测面的改变。

进一步，所述攻防博弈双方的收益，其中攻击方收益B_O和防御方收益B_R分别为：

B_O＝B_O(S,Θ,P^O,P^R)＝ASR(ΔDC+ΔOC+ΔRC-AC(o_j,θ_t))+(1-ASR)(ΔRC-AC(o_j,θ_t))；

B_R＝B_R(S,Θ,P^O,P^R)＝ASR(ΔRC+ΔOC-ΔPC-ΔDC)+(1-ASR)(ΔRC+ΔOC-ΔNJ)；

其中，ASR表示攻防双方采取相应策略时，攻击者成功实施攻击的概率；ΔNJ表示网络跳变导致的性能开销，ΔOC表示网络系统攻击面的改变，ΔRC表示网络系统探测面的改变、 AC(o_j,θ_t)表示攻击成本，ΔDC表示攻击成功后对目标系统的资源造成的损失代价。

进一步，所述移动目标防御模型的目标准则函数为：其中，η为折扣率，表示攻防双方在分别采取策略P^O和P^R时未来的折扣收益值；B_S(P^O,P^R)表示在网络状态为S条件下，攻防双方策略分别为P^O和P^R时攻击方或防御方的收益。

进一步，所述目标函数为：其中，S_d表示未来的网络状态，且S_d∈S。

其中，约束条件： P_f(P_i ⁿ)≥0。

进一步，所述移动目标防御模型为攻防双方的收益值与对应的折扣收益期望值之和。

一种面对未知威胁的动态网络变化决策系统，其特征在于，包括：

用于根据当前网络状态，构建局中人的类型空间的类型构建模块；

用于根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合的攻防检测模块；

用于针对所选攻防策略获取攻防博弈双方的收益的攻防收益模块；

用于利用网络状态和攻防策略集合得到系统状态转移概率，并结合所述收益构建基于不完全信息马尔科夫博弈的移动目标防御模型；和

用于求解所述移动目标防御模型得到最优的移动目标防御策略的最优策略生成模块。

进一步，所述最优策略生成模块中，还包括：

用于将求解所述移动目标防御模型的问题转化为非线性规划问题的问题转化模块。

进一步，所述攻防收益模块中，还包括：

用于获取网络系统探测面的改变和网络系统攻击面的改变的资源脆弱性模块；

用于获取网络跳变导致的性能开销的网络跳变模块；

用于获取攻击者成功实施攻击的概率检测模块；

用于根据攻击者的能力水平和先验信念获取攻击成本的供给成本检测模块；

用于检测攻击者攻击成功后对目标系统的资源造成的损失的资源损失检测模块。

本发明所产生的有益效果如下：

1、本发明面向MTD防御体系构建Markov动态博弈的移动目标防御模型，该移动目标防御模型是基于有限网络资源选取的最优防御策略，实现了网络性能开销和MTD防御收益的平衡。

2、本发明所构建的目标防御模型是多状态-多阶段的有限马尔科夫随机博弈模型，该目标防御模型中包括混合均衡策略，在博弈双方不清楚对方策略的情况下，双方的选择会倾向于一组混合策略，它相较于其他策略可使得攻防双方收益最大。

3、本发明所构建的攻防博弈双方的收益函数中考虑到了攻击成本，它是根据攻击者的先验信念和能力水平所得到的，并引入了攻击者成功实施攻击的概率和攻击成功后对目标系统的资源造成的损失代价的影响因素，能够更加准确的得到攻防双方的收益值。

附图说明

图1为本发明的移动目标防御架构示意图；

图2为本发明的实验拓扑结构示意图；

图3为网络状态S₁的攻防博弈树示意图；

图4为网络状态S₂的攻防博弈树示意图；

图5为网络状态S₃的攻防博弈树示意图；

图6为网络状态S₄的攻防博弈树示意图。

图中：1-目标网络系统、2-跳变配置管理、3-跳变实施、4-分析引擎、5-跳变触发、6- 网络、7-网络服务器集群、8-防火墙、9-路由器、10-恶意敌手、11-邮件服务器、12-文件服务器、13-Linux数据库。

具体实施方式

下面结合附图和具体的实施例来进一步详细的说明本发明，但本发明的保护范围并不限于此。

移动目标防御(Moving Target Defense,MTD)是由移动目标的思想发展而来，基本架构如图1所示。MTD通过伪随机地改变目标网络系统部件的配置和状态，如IP地址、端口和系统指纹等信息，实现持续、动态地转移被防护系统的资源脆弱性，以诱骗、迷惑和混淆攻击者的探测，从而增加攻击的难度和成本。基本工作原理如下：

a.制定目标网络系统1的安全策略和功能任务，并对网络资源进行初始化；

b.依据预先定制的安全策略选取跳变元素和跳变周期，通过跳变配置管理2实现对网络系统的跳变配置；

c.将配置的跳变方案部署到相应节点以进行跳变实施3；

d.分析引擎4通过感知和分析当前目标网络系统1的安全态势将结果反馈给跳变触发5 的机制；

e.分析当前网络安全状态与跳变策略，通过跳变触发机制判断下一阶段跳变的策略。

博弈论是研究各个理性决策主体在其行为发生直接相互作用时的所采取的策略，以及策略均衡问题的一种数学理论和方法。它是在“理性人”的假设下研究参与者在利益相互影响的格局中如何实现利益最大化的策略选择问题。所谓相互影响，通常是指博弈中任何一个局中人都会受到剩余局中人行为的影响；所谓理性是指参加博弈的局中人试图实施对自己最有利的行为。由于局中人具有相互依存性，因此，博弈中理性的策略的选取必定是建立在预测剩余局中人反应的基础上的。博弈论的基本要素具体如下：

(1)局中人(Player)是指博弈中独自决策并在最后获得相应结果的个体。博弈模型一般认为局中人是“理性”假设的。

(2)策略/行为(Policy/Move)是指博弈局中人可能采取的全部策略的集合，它是博弈双方进行博弈的工具和手段，是选择行动的规则。

(3)行动顺序(Move Sequence)是指存在多个独立决策方进行决策时，局中人有时可以同时作出选择，从而保证公平合理；有时则有先后顺序之分，因此博弈模型须规定其中的行动次序。即使相同的局中人和策略集合，不同的行动次序会导致不同的博弈结果。

(4)收益(Revenue)是指局中人从博弈过程中能够获得的收益或效用水平，它是所有局中人得失的量化结果。在MTD攻防博弈过程中，攻防双方的收益要综合考虑策略实施所产生的性能消耗和带来的攻防效果。

在博弈论中，通过确定以上四个基本要素可构建博弈的基本框架。MTD攻防对抗过程的博弈类型具体分析如下：

(1)非合作性：在MTD攻防对抗过程中，由于攻防双方不会事先将博弈策略信息告知对方。攻击方的目标是通过侦测网络目标系统的探测面，以发现并利用侦测的资源脆弱性发动攻击，从而达到攻击目的。防御方的目标则是通过转移攻击面，以避免或减少资源脆弱性暴露给攻击方的可能性，从而提高系统的安全性。因此，攻防双方都希望通过选取有效策略事先收益的最大化，MTD博弈具有对抗非合作性。

(2)动态性：在网络攻防对抗过程中，由于MTD跳变方法和元素在不同跳变周期内持续变化，因此MTD网络攻防对抗可抽象为离散时间动态多阶段事件序列。在每个阶段中，攻防双方依据之前的经验和现在的网络状态采取相应的攻防策略；攻击方或者防御方在一次行动后都会获得不同的收益，且双方在每个博弈阶段都会依据自己的收益和观测到的网络系统状态调整己方策略。因此，MTD博弈具有动态性。

(3)马尔科夫性：在MTD网络攻防博弈中，由于攻防双方的对抗或者网络任务的变化会导致网络系统状态的随机转化；与此同时，下一时刻的攻防博弈策略是基于所处的网络状态上加以选择的。因此，MTD博弈对抗具有马尔科夫特性，可用马尔可夫决策过程(Markov Decision Process:MDP)刻画。MDP是指局中人周期地或连续地观察具有马尔可夫性的随机动态系统，并序贯地作出决策，系统由此发生随机状态转移，且状态转移具有无后效性。

(4)不完全信息性：由于MTD攻防双方都具有动态、多样的不确定性，无论是攻击方还是防御方，其对另一方的知识、经验水平和目的都是不完全了解的。与此同时，由于攻防博弈的不同阶段是建立在不同网络状态的基础上，因此攻防双方无法准确获知另一方在之前博弈中的收益。因此，攻防双方的博弈具有不完全信息特性。

基于以上对MTD博弈类型的分析，本发明以不完全信息马尔科夫动态博弈为基础提出了一种面对未知威胁的动态网络变化决策方法，构建了基于不完全信息马尔科夫博弈的移动目标防御模型，其满足以下两个假设条件：

假设1：完全理性假设，即假设攻击者和防御者是完全理性的，攻击者不会发动无利可图的攻击，防御者不会不计代价地进行防御。

假设2：类型假设，即假设攻击者或防御者将对另一方策略收益的不确定看作是对另一方类型的不确定，但对另一方的类型的概率分布有一个判断。

因为对于非理性攻击者，其只追求最大收益而不考虑代价，只需对能使其获得最大收益的策略进行研究即可。因此，理性攻击者行为较复杂，更加具有研究意义。将对参与者信息的不确定转换为对其类型的不确定，但对其类型的概率分布有判断是解决信息不完全问题的重要手段，攻防双方都可根据不确定因素划分为多种类型。在以上假设的基础上，定义了基于不完全信息马尔科夫博弈的移动目标防御模型，具体如下：

定义5：海萨尼转换(Harsanyi Transformation)是指将其余参与者不了解的参与者i类型信息转化为自然(Nature)对参与者i类型的选择。具体做法是：

(1)引入“自然”，用于参与者i选择前，随机决定i的类型，将对参与者i的类型的不了解变为对博弈进程的不了解；

(2)“自然”让参与者i知道自己的类型，但不让其他参与者知道i的类型；

(3)在“自然”选择之后，其他参与者同时从各自行动空间中选择行动方案。

定义6：基于不完全信息马尔科夫博弈的移动目标防御模型(IncompleteInformation Markov Game based Network Moving Target Defense Model,IMG-MTD)，包括以下步骤：

根据当前网络状态，构建局中人的类型空间；

进一步，所述基于不完全信息马尔科夫博弈的移动目标防御模型可以表示为八元组 (N,S,Θ,P_b,P,T,R,U)。

进一步，所述局中人用N＝{N^O,N^R}来表示，其中，N^O为攻击方；N^R为防御方。

进一步，攻防过程中的所述网络状态用S＝{S₁,S₂,...,S_k}来表示。每个网络状态表示某一跳变周期内的网络安全状态；网络状态间的随机转化是由一个跳变周期内攻防双方对抗行为导致的，它伴随着攻击面和探测面的转换。

进一步，所述局中人根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合的方法，包括以下子过程：

自然从攻击者的类型空间中选取一个类型；

进一步，在网络状态S_j下，所述局中人的类型空间用Θ＝(Θ₁(S_j),Θ₂(S_j),...,Θ_t(S_j))来表示。它满足条件，即在网络状态S_j下，对于任意的局中人i 都应该至少有一种类型。且局中人i知道自己的真实类型，而其他局中人并不知道i的真实类型。

进一步，在网络状态S_j下，所述先验信念用P_b(S_j)＝(P_b1(S_j),P_b2(S_j),...,P_bt(S_j))来表示。 P_bi(S_j)＝P_bi(θ_-i(S_j)|θ_i(S_j))＝P_bi(θ_i(S_j),θ_-i(S_j))/P_bi(θ_i(S_j))表示网络状态S_j下局中人i在自己实际类型为θ_i的前提下，对其他参与者类型θ-_i的判断。其中，θ-_i表示除去局中人i剩余所有局中人的类型； P_bi(θ(S_j))表示局中人类型组合的分布概率。

进一步，可选攻防策略的集合用P＝{P^O,P^R}来表示，它与局中人类型和网络状态相关，包含了移动目标防御选取的跳变元素和使用的跳变方法。

可选攻击策略的集合中的元素表示当攻击方是θt类型，且在网络状态S_j下的可选攻击策略的集合，并且在网络状态为S_j时类型为θ_t的攻击方选择攻击策略的概率需满足

可选防御策略的集合中的元素表示当防御方是θ_h类型，且在网络状态S_j下可选防御策略的集合，并且在网络状态为S_j时类型为θ_t的防御方选择防御策略的概率需满足

进一步，所述获取状态转移概率，包括以下步骤：

在某一网络状态下实施某一攻击策略的概率；

进一步，所述状态转移概率用T＝{P(o_j|S_i),P(r_j|o_j),P(S_i|r_j)}来表示，其中，P(o_j|S_i)表示在网络系统状态为S_i下实施攻击策略o_j的概率；P(r_j|o_j)表示攻击策略o_j实施后防御方选择防御策略r_j抵御攻击的概率；P(S_i|r_j)表示防御方实施防御策略r_j后网络状态转移到S_i的概率。其中，攻击策略o_j是可选攻击策略集合中的某一具体的攻击策略防御策略r_j是可选防御策略集合中的某一具体的防御策略

因此，T可以表示为表示状态转移出现在不同攻防阶段的交替过程中，攻防阶段的交替则是依据跳变周期进行划分的。与此同时，网络状态会影响攻防双方策略的选择；状态转移概率的取值取决于攻防双方的策略和网络环境，如网络配置、节点的操作系统环境等。

进一步，由于攻击方是依据能力水平和先验信念探索网络探测面，发现并利用攻击面中的资源脆弱性，进而导致网络性能开销增大或系统功能的不可用。因此，攻击收益在攻击成功时与网络系统损失代价、攻击面和探测面的改变、以及攻击成本有关；当攻击失败时，由于未能成功利用攻击面中的资源脆弱性造成系统损失，只与探测面的改变和攻击成本有关。防御方则是通过选取跳变策略从而增加探测面或转换攻击面，进而在保证网络功能正常运行的前提下提高系统的安全性。因此，防御收益在攻击成功时要考虑系统损失代价。R＝{R_A,R_D} 表示攻防博弈双方的收益函数集合，它由所有参与者的策略共同决定。攻防双方的收益由攻防成本和回报共同决定，可抽象为攻击面和探测面的改变，

所述攻防博弈双方的收益为：

所述攻击方的收益:

所述防御方的收益:

B_R＝B_R(S,Θ,P^O,P^R)＝ASR(ΔRC+ΔOC-ΔPC-ΔDC)+(1-ASR)(ΔRC+ΔOC-ΔNJ)；

在移动目标防御对抗过程中，由于网络系统信息的价值与时间相关，因此采用折扣期望回报准则函数作为博弈双方的目标准则函数U：

其中，η为折扣率，说明了未来的收益与现在的收益不能同等对待；示在攻防双方分别采取策略P^O和P^R时未来的折扣收益值。B_S(P^O,P^R)表示在网络状态为S条件下，攻防双方策略分别为P^O和P^R时攻击方或防御方的收益。

在防御的任何阶段，由于攻防双方获得收益时其相应的类型是确定的，因此局中人类型Θ 不会影响其他网络状态下攻防策略的选择和收益。

进一步，所述将所述移动目标防御模型的求解等价转化为目标函数，得到最优的移动目标防御策略的方法，包括以下步骤：

由于网络系统状态S是有限的，IMG-MTD模型是多状态-多阶段的有限马尔科夫随机博弈模型。另一方面，在IMG-MTD每个博弈阶段，网络状态的随机转变则使得攻防双方的先验信念和攻防策略发生改变，当系统处于某个确定的状态S_i时，则可看作是不完全信息静态博弈。因此，IMG-MTD存在混合均衡策略。

在网络状态处于S_i的时候，攻防博弈双方的策略集合分别为{P_i ^O}和{P_i ^R}，则博弈策略 (P_i ^O* _，P_i ^R*)为均衡策略的充要条件如下：

在博弈双方不清楚对方策略的情况下，双方的选择会倾向于一组混合策略，它相较于其他策略可使得攻防双方收益最大。此外，一旦博弈参与者中任意一方采取马尔科夫策略，另一方也会有一个马尔科夫最优策略。因此，IMG-MTD的均衡策略是指在每个子博弈中达到纳什均衡的马尔科夫策略组合，即对于任意参与者，若其均衡策略为则满足如下条件：

其中，S_d表示未来的网络状态，且S_d∈S。

由此可知，IMG-MTD一定存在纳什均衡策略解，且其满足公式(4)所述的条件。

因此，本发明将求解IMG-MTD的均衡解问题等价转化为一个非线性规划(Nonlinear Programming Second,NLP2)问题。对于给定的IMG-MTD模型，若确定性稳定马氏策略P_f ^*为其均衡策略；相应的稳定收益G^*为其均衡收益值，可将对博弈均衡策略和收益的求解等价转化为P_f ^*和G^*的NLP2问题，其中P_f∈{P_f(P_i ⁿ)|n∈N,S_i∈S,P_i ⁿ∈Pⁿ}，

目标函数：

约束条件：

(1)

(2)

(3)

进一步，本发明提出了一种面对未知威胁的动态网络变化决策系统，包括：

进一步，所述攻防收益模块中，还包括：

用于获取网络跳变导致的性能开销的网络跳变模块；

用于获取攻击者成功实施攻击的概率检测模块；

进一步，所述最优策略生成模块中，还包括：

本发明所给出的基于不完全信息马尔科夫博弈的移动目标防御模型的决策方法具体如下：

1、初始化移动目标防御模型中基本参数：系统状态转移空间S＝{S₁,S₂,...,S_k},折扣率参数 η；

2、构建类型空间：攻击方类型空间防御方类型空间

3、构建可选攻防策略集合：可选攻击策略和可选防御策略

4、获取系统状态转移概率T＝{P(o_j|S_i),P(r_j|o_j),P(S_i|r_j)}；

5、获取先验信念概率集合P_b(S_j)＝(P_b1(S_j),P_b2(S_j),...,P_bt(S_j))；

6、针对所选攻防策略对获得收益值B_O和B_R；

7、构建目标函数

8、令依约束条件

P_f(P_i ⁿ)≥0求解最优值；

9、得到最优均衡策略和均衡收益值。

进一步，其具体的博弈过程，包括如下步骤：

a.“自然”以一定概率从攻击者的类型空间中选取一个类型且只有攻击方N^O知道防御方N^R则只有先验信念P_b(S_j)；

b.攻击方依据网络状态从攻击策略空间选取攻击策略o_j实施攻击；

c.防御方依据网络状态和观测的攻击策略选取一个类型并从相应的防御策略空间选取防御策略r_j进行防御；

d.网络系统状态受到当前状态、攻防双方策略的影响而进行转移；

e.经过有限次博弈，攻防双方的收益分别为B_O(S,Θ,P^O,P^R)和B_R(S,Θ,P^O,P^R)。

IMG-MTD在攻击者成功达到攻击目的，或者防御方有效防御了攻击方所有可能的攻击路径情况下结束。

本发明通过应用实例来进一步验证基于不完全信息马尔科夫博弈的移动目标防御模型的正确性和最优选取算法的有效性。

如图2所示，利用典型拓扑构建实验网络环境，该网络环境包括网络6，网络服务器集群7通过防火墙8与所述网络6相连接，内网依次通过路由器9和防火墙8与网络6相连接，所述恶意敌手10与网络6相连接，所述内网中有四台主机：邮件服务器11，文件服务器12 和Linux数据库13网络中有四个节点网络服务器集群7记作H₁，邮件服务器11记作H₂，文件服务器12记作H₃和Linux数据库13记作H₄，通过配置访问控制策略限制网络节点间的连通关系，具体如表1所示：

表1防火墙策略

它们的基本配置信息和利用Nessus扫描器获得的网络系统中各节点的资源脆弱如表2所示：

表2节点配置与资源脆弱性

假设攻击者在Attack Host上具有Root权限，并以此作为攻击的起点，以获取Linux数据库服务器的重要信息为目标。

构建基于不完全信息马尔科夫博弈的移动目标防御模型，并利用设计的算法求解最优策略：

1)初始化参数

网络系统的状态集合为S＝{S₁,S₂,S₃,S₄}，分别为

S₁：利用H₁的脆弱性获得了服务器集群的Root权限；

S₂：利用H₂的脆弱性获得了邮件服务器user权限；

S₃：利用H₃的脆弱性获得了的文件服务器Root权限；

S₄：利用H₄的脆弱性获得了的Linux数据库的access权限。其中，IMG-MTD中的折扣率为β＝0.7。

2)构建局中人类型和策略空间

根据攻击方的历史行为，依据该移动目标防御模型的假设条件将攻击方的类型划分为 Θ^O＝(Θ^O(S₁),Θ^O(S₂),Θ^O(S₃),Θ^O(S₄))；与此同时，依据跳变元素、跳变方法和跳变周期将防御方的类型划分为Θ^R＝(Θ^R(S₁),Θ^R(S₂),Θ^R(S₃),Θ^R(S₄))，具体如表3和表4所示。

表3不同攻击类型与攻击策略

表4不同防御类型与防御策略

在防御策略中，部分策略是通过选取不同的跳变方法、跳变元素和跳变周期实施网络跳变，其中：

ASD＝{ASD₁,ASD₂,ASD₃}表示选择的跳变方法是转换攻击面；

ASD₁＝{IP,C类}表示所选攻击面维度是IP地址，维度取值范围为C类地址空间；

ASD₂＝{port,64512}表示所选攻击面维度是端口信息，维度取值范围为64512；

ASD₃＝{fingerprint，512}表示所选攻击面维度是系统指纹信息，维度取值范围为512。

ESD＝{ESD₁}表示选择的跳变方法是扩展探测面；

ESD₁＝{fingerprint,1024}表示所选探测面维度是系统指纹信息，维度取值范围为1024。

当有多个跳变元素时，不同元素之间的跳变是相互正交的，即互不干扰。

此外，默认跳变周期是固定的；ASD₁+Time表示跳变周期是可变的。

3)获得系统状态转移概率、局中人先验信念和攻防策略收益

局中人策略集合确定后，对防御效能进量化评估可得到如图3-6所示的各类型局中人策略实施的成本和收益。

另外，通过对历史数据的分析，不同防御阶段的防御方可得到攻击方类型的先验信念为：

防御方对攻击方的历史行为进行分析得到的攻击方类型的先验信念为：

由于每个博弈阶段的攻击方和防御方的类型不止1种，因此分别需要进行2次海萨尼转换，得到的网络博弈树，如图3-6所示。

此外，在构建网络分层资源图的基础上给出了网络系统状态转移关系和转移概率，具体如表5所示：

表5网络系统状态转移概率

4)选取IMG-MTD模型的最优策略

通过对以非线性规划问题进行求解，得到的攻防双方均衡策略和收益如表6所示：

表6 IMG-MTD最优策略与收益

要说明的是，上述实施例是对本发明技术方案的说明而非限制，所属技术领域普通技术人员的等同替换或者根据现有技术而做的其它修改，只要没超出本发明技术方案的思路和范围，均应包含在本发明所要求的权利范围之内。

Claims

1.一种面对未知威胁的动态网络变化决策方法，其特征在于，包括以下步骤：

根据当前网络状态，构建局中人的类型空间；

2.根据权利要求1所述的一种面对未知威胁的动态网络变化决策方法，其特征在于，局中人根据先验信念判断对方的类型，并根据所述类型获取可选攻防策略集合的方法，包括以下子过程：

自然从攻击者的类型空间中选取一个类型；

3.根据权利要求1所述的一种面对未知威胁的动态网络变化决策方法，其特征在于，所述获取状态转移概率，包括以下步骤：

在某一网络状态下实施某一攻击策略的概率；

4.根据权利要求1所述的一种面对未知威胁的动态网络变化决策方法，其特征在于，所述攻防博弈双方的收益，包括攻击面和探测面的改变。

5.根据权利要求1所述的一种面对未知威胁的动态网络变化决策方法，其特征在于，所述攻防博弈双方的收益为：

所述攻击方的收益＝ASR(ΔDC+ΔAS+ΔES-AC(a_j,θ_h))+(1-ASR)(ΔES-AC(a_j,θ_h))；

所述防御方的收益＝ASR(ΔES+ΔAS-ΔPC-ΔDC)+(1-ASR)(ΔES+ΔAS-ΔPC)；

其中，ASR表示攻防双方采取相应策略时，攻击者成功实施攻击的概率；ΔPC表示网络跳变导致的性能开销，ΔAS表示网络系统攻击面的改变，ΔES表示网络系统探测面的改变、AC(a_j,θ_h)表示攻击成本，ΔDC表示攻击成功后对目标系统的资源造成的损失代价。

6.根据权利要求1所述的一种面对未知威胁的动态网络变化决策方法，其特征在于，所述移动目标防御模型为攻防双方的收益值与对应的折扣收益期望值之和。

7.一种面对未知威胁的动态网络变化决策系统，其特征在于，包括：

8.根据权利要求7所述的一种完全信息条件下网络动态变换的决策系统，其特征在于，所述攻防收益模块中，还包括：

用于获取网络跳变导致的性能开销的网络跳变模块；

用于获取攻击者成功实施攻击的概率检测模块；

9.根据权利要求7所述的一种完全信息条件下网络动态变换的决策系统，其特征在于，所述最优策略生成模块中，还包括：