CN112003854A

CN112003854A - 基于时空博弈的网络安全动态防御决策方法

Info

Publication number: CN112003854A
Application number: CN202010840546.3A
Authority: CN
Inventors: 张恒巍; 谭晶磊; 刘小虎; 张玉臣; 王晋东; 胡浩; 汪永伟
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-27
Anticipated expiration: 2040-08-20
Also published as: CN112003854B

Abstract

本发明属于网络安全技术领域，涉及一种基于时空博弈的网络安全动态防御决策方法，依据网络攻防动态时空对抗特性，构建多维变换移动目标防御模型，多维变换移动目标防御模型中攻防双方通过实施攻防策略控制的网络表面由探测面、攻击面及检测面共同决定；依据多维变换移动目标防御模型，分析攻防博弈过程并刻画移动目标防御安全状态演化过程；利用微分博弈分析连续网络攻防过程，构建移动目标防御时空决策模型；针对移动目标防御时空决策模型，通过量化攻防收益并进行鞍点均衡策略求解，确定最优时空防御策略。本发明基于博弈模型实现兼顾空间策略和时间策略的防御决策，增强网络安全防御决策的针对性和时效性，提升网络安全防御效能。

Description

基于时空博弈的网络安全动态防御决策方法

技术领域

本发明属于网络安全技术领域，特别涉及一种基于时空博弈的网络安全动态防御决策方法。

背景技术

当前各类自适应网络攻击日趋复杂多样，其中高级持续性威胁(AdvancedPersistent Threats,APTs)因其隐蔽性和持续性的攻击特性，对传统防御技术带来了极大的挑战。网络攻防对抗固有的时间、成本及信息不对称特性，为攻击者赢得了极大的优势。为了打破这种不对称局势，移动目标防御(Moving Target Defense,MTD)作为一种极具颠覆性的主动防御方法应运而生，其核心思想是通过降低目标系统的同质性、静态性以及确定性增加攻击者的成功攻击难度。MTD研究要回答以下三个问题：(1)空间决策(What toMove):如何选取MTD策略移动对象、方式和范围；(2)时间决策(When to Move)：如何选取MTD策略移动时机；(3)策略实施(How to Move)：如何设计实施MTD策略。对于第三个问题的研究，根据不同网络堆栈协议层，已经提出了动态运行环境(Dynamic RuntimeEnvironment,DRE)、动态软件(Dynamic Software,DS)、动态数据(Dynamic Data,DD)、动态平台(Dynamic Platforms,DP)以及动态网络(Dynamic Networks,DN)等各类MTD技术，并得到了广泛的应用。虽然现有的MTD实施策略各有千秋，然而MTD实施的关键前提旨在有限的变换空间内通过选取空间策略及时间策略实现策略组合收益最大化，因此前两个问题的研究具有同样重要的意义。但是现有的MTD决策研究大都集中在空间决策(What to Move)，现已经有提出了各种博弈方法的MTD空间决策框架，但是却简化或忽视了同样重要的时间决策(When to Move)，目前有开始研究时间决策问题，并提出基于Stackelberg博弈的MTD时空决策模型，但是该方法所提出的博弈模型仍然采用离散多阶段博弈模型，很难准确有效刻画MTD攻防决策过程的连续状态空间，因此在防御端不能连续指导最优防御决策选取，进而影响网络防御性能。

发明内容

为此，本发明提供一种基于时空博弈的网络安全动态防御决策方法，通过多维变换模型有效刻画移动目标防御攻防动态对抗特性，基于博弈模型实现兼顾空间策略和时间策略的防御决策，增强网络安全防御决策的针对性和时效性，提升网络安全防御效能。

按照本发明所提供的设计方案，一种基于时空博弈的网络安全动态防御决策方法，包含如下内容：

依据网络攻防动态时空对抗特性，构建多维变换移动目标防御模型，该多维变换移动目标防御模型中攻防双方通过实施攻防策略控制的网络表面由探测面、攻击面及检测面共同决定；

依据多维变换移动目标防御模型，分析攻防博弈过程并刻画移动目标防御安全状态演化过程；

利用微分博弈分析连续网络攻防过程，构建移动目标防御时空决策模型；

针对移动目标防御时空决策模型，通过量化攻防收益并进行鞍点均衡策略求解，确定最优时空防御策略。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，多维变换移动目标防御模型中，依据t时刻防御者移动攻击探测所需的探测面信息来构成探测面移动，该探测面移动包含：攻击者所需探测的探测面元素、不同探测面元素在时刻t取值空间构成的探测面空间及探测面移动方式，其中，探测面移动方式包含2种：(1)已知探测面中随机移动，用于保证探测面元素的移动的随机性；(2)未知探测面移动，引入新的未知探测面增加探测面元素的移动范围，同时给攻击增加误导信息。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，多维变换移动目标防御模型中，依据t时刻防御者移动现有攻击所需的攻击面信息来构成攻击面移动，该攻击面移动包括：攻击所需的攻击面元素、不同攻击面元素t时刻取值空间构成的攻击面空间及攻击面移动方式，其中，攻击面移动方式包括：确定性攻击面移动和随机性攻击面移动。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，多维变换移动目标防御模型中，依据t时刻防御者在基于网络流量、行为或主机请求攻击检测情况下动态放置检测系统来构成检测面移动，该检测面移动包含：防御者防御所需检测面元素、不同检测面元素t时刻取值空间构成的检测面空间及检测面移动方式。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，根据攻防双方时间策略服从无记忆指数分布特征，获取攻防双方时间策略的概率密度函数；假设多维变换移动目标防御模型攻防时间段[0,t]，依据概率密度函数来获取防御时间策略和攻击时间策略表示；依据t时刻攻防双方选取不同类型空间攻击策略的概率来获取多维变换移动目标防御模型攻防空间策略表示。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，基于隐蔽对抗的攻防特性分析多维变换移动目标防御安全状态的变换过程，根据攻防博弈演进及网络表面控制权变换过程，构建移动目标防御攻防对抗的安全状态演化模型，该安全状态演化模型包含网络表面的安全状态、威胁状态及自然状态，三个状态之间通过概率动态变换。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，设定攻防对抗行动后不同网络状态变换概率来定义攻防状态变换概率；建立不同网络状态网络表面数量在设定时间段内的变量方程组；根据变量方程组的微分求解来获取各网络状态下的变化率。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，借鉴FlipIt博弈，构建移动目标防御时空决策模型，该时空决策模型表示为七元组FDG-MTD(FlipItDifferential Game Based on Moving Target Defense,FDG-MTD)，即FDG-MTD＝(N,Θ,t,S,P,f,U)，其中，N表示移动目标防御攻防博弈的参与人集合，Θ为攻防博弈类型集合，t为移动目标防御攻防博弈的时间范围，S(t)为移动目标防御t时刻攻防博弈网络状态变量，P为移动目标防御攻防博弈时空策略，f为移动目标防御攻防博弈的网络状态变换函数，U为移动目标防御攻防博弈收益函数集合。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，量化攻防收益中，假设在移动目标防御攻防对抗过程中t时刻防御策略作用下自然和威胁状态变换为安全状态的总时间与攻击策略作用下自然和安全状态变换为威胁状态的总时间两者的差值为防御回报函数，在攻击策略作用下自然和安全状态变换为威胁状态的总时间与防御策略作用下自然和威胁状态变换为安全状态的总时间两者的差值为攻击回报函数，攻防双方在攻防策略下的实施时间成本函数；综合攻防回报函数和成本函数，获取攻防双方在FlipIt博弈过程中的收益函数。

作为本发明基于时空博弈的网络安全动态防御决策方法，进一步地，针对移动目标防御时空决策模型，通过构造协状态方程和汉密尔顿方程进行定量分析，并通过构造目标函数及约束条件以利用动态规划法求解鞍点策略。

本发明的有益效果：

本发明相比基于攻击面的移动目标防御MTD模型，通过融入防御方信息要素和空间维度，构建基于探测-攻击-检测面的移动目标防御模型，能够有效刻画MTD的攻防动态对抗特性，因此要素更加全面，体现攻防对抗特性；在策略选取方面，通过考虑时间维度，同时将离散决策过程变为连续决策过程，构建基于FlipIt微分博弈的MTD时空决策模型，能够提升防御端的连续决策能力，增强了防御决策的正确性和时效性；在应用场景方面，利用FlipIt博弈隐蔽对抗特性刻画MTD系统安全状态演化过程，并量化攻防收益，可以有效解决APT攻击高隐蔽、难检测问题，能提高防御决策的针对性；相较于以往离散多阶段的MTD攻防博弈分析，本案能够更加贴合真实MTD攻防场景所具有的的隐蔽对抗、实时连续的攻防特性，能够保证网络性能开销和防御收益之间的平衡，并进一步通过数值分析和仿真实验验证本案方案的有效性。

附图说明：

图1为实施例中网络安全动态防御决策方法流程示意；

图2为实施例中基于探测-攻击-检测面的MTD模型示意；

图3为实施例中攻防时间策略示意；

图4为实施例中NTP模型中系统安全状态变换示意；

图5为实施例中实验系统结构示意；

图6为实施例中面对“随机型”攻击策略网络系统安全演化趋势示意；

图7为实施例中面对“保守型”攻击策略网络系统安全演化趋势示意；

图8为实施例中面对“冒进型”攻击策略网络系统安全演化趋势示意；

图9为实施例中多维变换与二维及单维变换对比试验示意；

图10为实施例中随攻防策略不断变换三种不同状态网络表面演化趋势示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

攻击面是由方法、通道、数据三类资源组成的网络防御主流建模方法。它基于攻击者对攻击面已知性和防御者的攻击面不变性两个假设，描述了攻击者利用资源脆弱性的方法，即系统通道利用、系统方法调用、系统数据交互。然而，移动目标防御是一种通过创建、分析、评估和部署多样化、随时间连续变换的机制或策略，增加攻击者实施攻击的复杂度和成本，限制和降低系统脆弱性曝光程度和被攻击概率，提高系统弹性的防御手段。现有基于攻击面的MTD模型存在如下不足：(1)攻击过程可分为离线侦测和在线实施攻击两个阶段，然而现有攻击面模型无法描述攻击方对目标系统中资源脆弱性的探寻侦测。(2)MTD是一个攻击面连续变换的过程，然而现有攻击面模型无法描述不同时间内目标系统暴露的攻击面，以及攻击面属性暴露的时间周期。(3)由于现有攻击面模型建模视角的单一性，使得现有MTD模型缺乏全面性与动态性，因此无法描述攻防过程中攻防双方漏洞利用过程。为此，本发明实施例，参见图1所示，提供一种基于时空博弈的网络安全动态防御决策方法，包含如下内容：

S101、依据网络攻防动态时空对抗特性，构建多维变换移动目标防御模型，该多维变换移动目标防御模型中攻防双方通过实施攻防策略控制的网络表面由探测面、攻击面及检测面共同决定；

S102、依据多维变换移动目标防御模型，分析攻防博弈过程并刻画移动目标防御安全状态演化过程；

S103、利用微分博弈分析连续网络攻防过程，构建移动目标防御时空决策模型；

S104、针对移动目标防御时空决策模型，通过量化攻防收益并进行鞍点均衡策略求解，确定最优时空防御策略。

在原有攻击面概念的基础上，借鉴攻击面移动(Attack Surface Moving,ASM)的思想，通过扩展目标网络系统元素维度和防御机制，构建基于探测-攻击-检测面多维变换(Exploration-Attack-Detection Surface Moving Target Defense,EADS-MTD)的移动目标防御模型，如图2所示，其中MTD策略是目标网络系统的核心，基于MTD空间策略实现探测面、攻击面、检测面移动，在MTD策略的指导下，将探测面、攻击面、检测面赋予MTD的思想，使其相互组合作用，形成基于探测-攻击-检测面多维变换的MTD安全闭环模型，以此来抵御各阶段网络攻击。EADS-MTD模型从攻击者和防御者两个方面出发，一方面对于攻击者而言，探测面是指攻击者可以探测到的目标网络系统元素，包括到不限于IP地址、端口号、网络拓扑、路径路由等信息；攻击面是指攻击者已经收集到的目标网络系统元素，属于探测面的子集，并针对某一目标网络元素制定好相应的攻击策略；另一方面对于防御者而言，检测面是指防御者可用于攻击检测的防御手段，包括但不限于IDS，IPS等检测技术等。网络攻击首先探测目标网络系统，获取目标网络系统的拓扑结构、网络带宽、以及不同节点的软件部署等信息。对于攻击者而言，探测面负责攻击侦察，攻击面负责攻击访问权限的确立，二者为攻击者探索系统提供立足点和有利位置，从而进一步扩散、收集和过滤目标网络系统的重要信息，探测面和攻击面移动可以有效抵御网络攻击的扫描探测和攻击策略制定阶段。对于防御者而言，由于探测和攻击流量在本质上有别于合法用户流量，检测面移动可以有效抵御网络攻击的各个阶段。

作为本发明实施例中基于时空博弈的网络安全动态防御决策方法，进一步地，多维变换移动目标防御模型中，依据t时刻防御者移动攻击探测所需的探测面信息来构成探测面移动，该探测面移动包含：攻击者所需探测的探测面元素、不同探测面元素在时刻t取值空间构成的探测面空间及探测面移动方式，其中，探测面移动方式包含：已知探测面中随机移动及未知探测面中移动探测面同时增加攻击误导信息。进一步地，多维变换移动目标防御模型中，依据t时刻防御者移动现有攻击所需的攻击面信息来构成攻击面移动，该攻击面移动包括：攻击所需的攻击面元素、不同攻击面元素t时刻取值空间构成的攻击面空间及攻击面移动方式，其中，攻击面移动方式包括：确定性攻击面移动和随机性攻击面移动。进一步地，多维变换移动目标防御模型中，依据t时刻防御者在基于网络流量、行为或主机请求攻击检测情况下动态放置检测系统来构成检测面移动，该检测面移动包含：防御者防御所需检测面元素、不同检测面元素t时刻取值空间构成的检测面空间及检测面移动方式。

网络表面(Cyber Surface,CS)是攻防双方的公共资源，攻防双方通过实施相应的攻防策略控制网络表面，它由探测面、攻击面以及检测面共同决定，可记为CS＝{ES,AS,DS}，其中ES为探测面，AS为攻击面，DS为检测面。探测面移动(Exploration SurfaceMoving,ESM)是在某一时刻t，防御者移动攻击探测所需的探测面信息，它由探索面元素(Exploration Surface Element:ESE)、探测面空间(Exploration Surface Space:ESS)和探测面移动方式(Exploration Surface Moving Way,ESMW)共同决定，可记为

其中，

为攻击者所需探测的探测面元素；

为不同探测面元素在t时刻可能的取值空间，ESMW_i ^t为移动探测面的移动方式，主要有两种，一种为在已知探测面中随机移动，主要是保证探测面元素的移动的随机性，一种为引入新的未知探测面，在移动探测面的同时给攻击增加误导信息。攻击面移动(Attack Surface Moving,ASM)是在某一时刻t，防御者移动现有攻击方法所需的攻击面信息，它由攻击面元素(Attack Surface Element:ASE)、攻击面空间(Attack SurfaceSpace:ASS)和移动方式(Attack Surface Moving Way,ASMW)共同决定，可记为

其中

为攻击所需的攻击面元素；

为不同攻击面元素在t时刻的取值空间；ASMW_i ^t为移动攻击面的移动方式，主要有两种，一种为确定性攻击面移动，一种为随机性攻击面移动，其目的是将目标网络系统在不同状态之间动态变换，使现有的攻击方法失效，例如攻击者利用基于Linux操作系统的漏洞，则会对基于Windows操作系统的机器无效。检测面移动(Detection SurfaceMoving,DSM)是指在某一时刻t，防御者在基于网络流量、行为或主机请求检测攻击的情况下，动态的放置检测系统，它由检测面元素(Detection Surface Element:DSE)、检测面空间(Detection Surface Space:DSS)和移动方式(Detection Surface Moving Way,DSMW)共同决定，可记为

其中，

为防御者防御所需的检测面元素；

为不同检测面元素在t时刻可能的取值空间，DSMW_i ^t为移动检测面的移动方式，即动态部署方式，一方面保证系统性能的可用性，另一方面有效检测攻击行为。在EADS-MTD模型中，不但可以描述MTD的空间策略，而且可以对网络系统的安全状态进行多维描述。

博弈论是研究多智能体决策的数学理论分析工具，它由参与人、策略/行为、行动时间以及收益等4个基本要素构成，其中参与人(Player)是指博弈中独自决策并在最后获得相应结果的个体。策略/行为(Policy/Move)是指博弈参与人可能采取的全部策略的集合，它是博弈双方进行博弈的工具和手段，是选择行动的规则。行动时机(Move Timing)是指存在多个独立决策方进行决策时，参与人策略/行为的实施时机。收益(Revenue)是指参与人从博弈过程中能够获得的收益水平，它是所有参与人得失的量化结果。博弈中理性决策必定是建立在预测剩余参与人反应的基础上的，任何一个参与人都不能以单方面改变自己的策略来增加其收益，参加博弈的参与人试图实施对自己最有利的行为，其中任何一个参与人都会受到剩余参与人行为的影响。在MTD攻防博弈过程中，攻防双方的收益要综合考虑策略实施的投入产出比。

MTD所具有的随机性、动态性以及异构性导致不同的MTD网络安全状态，MTD攻防过程具有多状态随机连续隐蔽变换的特性。本发明结合不同类型博弈的特点，对MTD攻防博弈过程进行如下分析：(1)非对称性：由于MTD攻防双方都具有动态、多样的不确定性，无论是攻击者还是防御者，其对另一方的知识、经验水平、收益、目的及相关策略等博弈信息都无法准确获知，因此攻防信息不对称，因此攻防双方的博弈具有不对称特性。(2)隐蔽性：随着攻防对抗的不断升级，攻防双方都采用隐蔽方式发起行动，这使得攻防双方在对抗过程具有隐蔽特性。(3)协同演化性：由于MTD攻防过程的高连续特性，攻防博弈的网络安全状态实时发生变化，使得攻防对抗始终处于连续实时对抗状态，因此攻防双方具有协同演化特性。

作为本发明实施例中的基于时空博弈的网络安全动态防御决策方法，进一步地，根据攻防双方时间策略服从无记忆指数分布特征，获取攻防双方时间策略的概率密度函数；假设多维变换移动目标防御模型攻防时间段[0,t]，依据概率密度函数来获取防御时间策略和攻击时间策略表示；依据t时刻攻防双方选取不同类型空间攻击策略的概率来获取多维变换移动目标防御模型攻防空间策略表示。

MTD时空决策不但为攻防双方选择合适的时间策略，即何时采取行动；而且选择攻防双方最佳的空间策略，即采取何种行动。MTD攻防对抗导致网络系统安全状态变换，即在一次攻防对抗完成后，会对MTD网络表面产生影响，从而导致网络系统安全状态的变化。

MTD攻防时间策略T＝(T_D,T_A)，其中T_A为攻击者控制网络表面的时间，T_D为MTD控制网络表面的时间，由于攻防双方所采取的行动不会立即完成，即具有非瞬时性和非自适应性，因此，攻防双方的时间策略服从无记忆指数分布特征，即T_D～E(λ_D)λ_D＞0，T_A～E(λ_A)λ_A＞0,其中λ_D和λ_A分别为防御时间策略和攻击时间策略的率参数，则攻防双方时间策略的概率密度函数分为

和

如图3所示，在某一MTD攻防时间段[0,t]内，防御时间策略

攻击时间策略

MTD攻防空间策略D＝(D(t),A(t))，其中A(t)为攻击策略，A(t)＝(A_H(t),A_L(t))，它由“冒进型”攻击者和“保守型”攻击者两类策略组成，在某一时刻t，攻击者采用混合策略A(t)＝(A_H(t),A_L(t))，A(t)表示选取不同类型空间攻击策略的概率且A_H(t)+A_L(t)＝1；D(t)为防御策略，D(t)＝(D_H(t),D_L(t))＝{ESM,ASM,DSM}，D(t)表示选取不同空间防御策略的概率且D_H(t)+D_L(t)＝1，空间攻击策略具有“冒进型”MTD策略和“保守型”MTD策略两类，其中EMS和AMS属于“冒进型”MTD策略，而DSM属于“保守型”MTD策略。MTD攻防双方的时空策略对抗导致不同系统安全状态的变换，可将依据攻防双方的交互过程分析MTD攻防的系统安全状态演化。

作为本发明实施例中的基于时空博弈的网络安全动态防御决策方法，进一步地，基于隐蔽对抗的攻防特性分析多维变换移动目标防御安全状态的变换过程，根据攻防博弈演进及网络表面控制权变换过程，构建移动目标防御攻防对抗的安全状态演化模型，该安全状态演化模型包含网络表面的安全状态、威胁状态及自然状态，三个状态之间通过概率动态变换。

基于隐蔽对抗的攻防特性分析MTD系统安全状态的变换过程，构建MTD时空决策的控制方程及其状态方程。随着MTD攻防对抗的不断深化演进，当前的MTD攻防态势越来越趋向于实时隐蔽对抗，攻防双方难以掌握有效的博弈时间信息，而现有基于攻击面和探测面的MTD系统安全状态变换过程仅仅从攻防对抗的动态性出发，忽视MTD攻防所具有的的实时性和隐蔽性，无法准确刻画MTD攻防过程所具有的连续动态、隐秘对抗特性，本案实施例中借鉴FlipIt博弈的隐蔽接管(Stealthy Takeover)思想，伴随着MTD攻防博弈的不断演进，网络表面的控制权不断变换，构建MTD攻防对抗的系统安全状态演化模型NTP。NTP模型包含网络系统中网络表面的三个状态：安全状态P(Protected State)、威胁状态T(ThreatState)以及自然状态N(Nature State)。具体如下：

(1)安全状态(Protected State)：

此时MTD控制着网络表面，但是攻击者仍有可能随时发动攻击行为。

(2)威胁状态(Threat State)：

此时攻击者控制着网络表面，但是防御者仍可以通过采取防御策略拒止攻击。

(3)自然状态(Nature State)：

此时网络表面处于自然状态，攻防双方均没有对其进行控制。

MTD网络表面在上述三种状态下的变换关系如图4所示，假设网络表面总数为S，并保持不变，在某一时刻t处于上述三种状态的网络表面数量分别记为S_PS(t)、S_TS(t)、S_NS(t)，在初始时刻t₀安全状态、自然状态、威胁状态的网络表面比例分别为S_PS(t₀)、S_TS(t₀)、S_NS(t₀)，则在

有S_PS(t),S_TS(t),S_NS(t)≥0且S_PS(t)+S_TS(t)+S_NS(t)＝S。在NTP模型中，网络表面状态的状态变换如下：当攻防双方均不采取行动时，网络表面处于自然状态，此时网络系统正常工作。而当攻击者采取行动后，自然状态的网络表面会以一定概率变换为威胁状态，此时攻击者控制着网络表面，系统可能面临更进一步的损害，类似的，如果防御者采取行动，自然状态的网络表面会以一定概率变换为安全状态，此时防御者控制着网络表面，系统仍处于正常工作状态，同样的，威胁状态的网络表面在防御者采取行动后会变换为安全状态，但是如果在一段时间内防御者不采取任何行动而攻击者行动，处于安全状态网络表面又将变换为威胁状态。

作为本发明实施例基于时空博弈的网络安全动态防御决策方法，进一步地，设定攻防对抗行动后不同网络状态变换概率来定义攻防状态变换概率；建立不同网络状态网络表面数量在设定时间段内的变量方程组；根据变量方程组的微分求解来获取各网络状态下的变化率。

在上述分析的基础上，定义攻防状态变换概率η(t)表征攻防对抗行动后不同网络状态变换概率，具体可表示如下内容：

建立关于S_PAS(t)、S_TAS(t)、S_NAS(t)在Δt时间段内的变量方程组，其中，表示为:

综合上述分析，基于NTP模型描述网络系统安全状态变换的微分方程组可表示如下内容：

其中，

表示自然状态的变化率，它由两部分组成，一方面在攻击者策略A(t)作用下变换为威胁状态，另一方面在MTD策略作用D(t)下变换为安全状态；

表示威胁状态的变化率，它由三部分组成，一是由自然状态变换而来的，二是由安全状态变换而来，三是在MTD策略作用D(t)下变换为安全状态；在

表示安全状态的变化率，它由两部分组成，一是由自然状态变换而来，二是在攻击者策略A(t)作用下变换为威胁状态。

作为本发明实施例中基于时空博弈的网络安全动态防御决策方法，进一步地，借鉴FlipIt博弈，构建移动目标防御时空决策模型，该时空决策模型表示为七元组，即FDG-MTD＝(N,Θ,t,S,P,f,U)，其中，N表示移动目标防御攻防博弈的参与人集合，Θ为攻防博弈类型集合，t为移动目标防御攻防博弈的时间范围，S(t)为移动目标防御t时刻攻防博弈网络状态变量，P为移动目标防御攻防博弈时空策略，f为移动目标防御攻防博弈的网络状态变换函数，U为移动目标防御攻防博弈收益函数集合。

基于FlipIt微分博弈的MTD时空决策模型FDG-MTD(FlipIt Differential GameBased Moving Target Defense)可以表示为一个7元组FDG-MTD＝(N,Θ,t,S,P,f,U)，其中，N＝(N_D,N_A)是MTD攻防博弈的参与人集合。其中N_D代表防御者，N_A代表攻击者。Θ＝(Θ_D,Θ_A)是攻防博弈的类型集合，属于参与人的私有信息。其中

可将攻防双方分为“冒进型”和“保守型”两种类型。t∈[t_start,t_end]是MTD攻防博弈的时间范围，t_start为博弈开始时间，不失一般性的，可令t_start＝0，t_end为博弈结束时间，t_start和t_end时刻均为防御者控制着网络表面，FDG-MTD中的网络状态、攻防双方的控制策略和博弈收益均为以t的自变量函数。S(t)＝{(S_PS(t),S_TS(t),S_NS(t))|S_PS(t)+S_TS(t)+S_NS(t)＝S}是MTD攻防博弈的网络系统状态变量。S_PS(t)、S_TS(t)、S_NS(t)代表t时刻系统中处于安全状态P、威胁状态T、自然状态N的网络表面的数量，S代表网络表面的总数量。P＝(D,T)＝((D(t),T_D),(A(t),T_A))是MTD攻防博弈时空策略。

是MTD攻防博弈的网络系统状态变换函数。其中，

U＝(U_D,U_A)是MTD攻防博弈的收益函数集合。对于时间[t_start,t_end]上MTD攻防对抗博弈，收益函数为

其中，u_i(t,S(t),D(t),A(t))表示攻防博弈参与人在某一时刻t的瞬时收益。相较于离散多阶段MTD博弈模型，U是随时间连续动态变化的积分函数。

作为本发明实施例中基于时空博弈的网络安全动态防御决策方法，进一步地，量化攻防收益中，假设在移动目标防御攻防对抗过程中t时刻防御策略作用下自然和威胁状态变换为安全状态的总时间与攻击策略作用下自然和安全状态变换为威胁状态的总时间两者的差值为防御回报函数，在攻击策略作用下自然和安全状态变换为威胁状态的总时间与防御策略作用下自然和威胁状态变换为安全状态的总时间两者的差值为攻击回报函数，攻防双方在攻防策略下的实施时间成本函数；综合攻防回报函数和成本函数，获取攻防双方在FlipIt博弈过程中的收益函数。

在MTD攻防对抗过程中，攻防双方竞争网络表面的控制权，因此多数情况下攻防收益由某一方对网络表面的控制时间所决定。在基于隐蔽对抗的MTD网络系统变换过程分析中，可定义不同状态的网络表面以刻画攻防状态变换，随着攻防对抗的推进，攻防双方采取攻防策略控制网络表面。在MTD攻防对抗过程中，t时刻的防御回报R_D(t)和攻击回报R_A(t)为

其中防御回报R_D(t)表示在MTD策略作用下自然和威胁状态变换为安全状态的总时间，与攻击策略作用下自然和安全状态变换为威胁状态的总时间的差值；攻击回报R_A(t)表示在攻击策略作用下自然和安全状态变换为威胁状态的总时间，与MTD策略作用下自然和威胁状态变换为安全状态的总时间的差值。

考虑攻防策略实施时间成本代价，一方面由于攻击策略实施需要一定的启动时间成本和执行时间成本，我们假定不同类型攻击策略具有固定的安装成本，用C_S表示，其大小不随时间变化，根据不同攻击者类型，分为C_CS和C_RS两种，分别表示“保守型”攻击者启动成本和“冒进型”攻击者启动成本，而C_I·e^-rt表示攻击执行过程中的持续性成本，其中C_I为攻击行动成本，r为成本衰减因子，所以定义攻防双方在某一时刻t攻击策略的实施时间成本为

同时，为了简化计算，考虑两种不同类型的MTD策略，“保守型”防御者C_C，高能力防御者C_R，不同类型防御策略具有的防御时间成本不同，其中C_L<C_H，所以防御策略实施时间成本为

综合考虑MTD攻防双方的策略的回报和成本代价，可得攻防双方在FlipIt微分博弈过程中的收益函数为：

作为本发明实施例中基于时空博弈的网络安全动态防御决策方法，进一步地，针对移动目标防御时空决策模型，通过构造协状态方程和汉密尔顿方程进行定量分析，并通过构造目标函数及约束条件以利用动态规划法求解鞍点策略。

基于FlipIt微分博弈的MTD时空决策模型FDG-MTD，可定义其鞍点均衡策略(D^*(t),A^*(t))。(A^*(t),D^*(t))为基于FlipIt微分博弈的MTD时空决策模型FDG-MTD的鞍点均衡策略的充要条件为：

MTD攻防博弈的网络系统状态变换函数

和MTD攻防双方的瞬时收益u_i(t,S(t),D(t),A(t))在MTD网络系统状态变量S(t)＝{(S_PS(t),S_TS(t),S_NS(t))|S_PS(t)+S_TS(t)+S_NS(t)＝S}和MTD攻防空间策略D＝(D(t),A(t))上是有界且连续的，并且f与u满足线性参数表达，且D中D(t)与A(t)所形成的笛卡尔积集合满足凸集合，基于FlipIt微分博弈的MTD时空决策模型FDG-MTD存在鞍点均衡。

以MTD策略为例，求解最优MTD时空策略，首先构造协状态方程和汉密尔顿方程进行定量分析：

协状态方程：

汉密尔顿方程：

满足如下条件：

由上式可得：

对于攻击者而言，求解方法一致，故在此不再赘述，接下来利用动态规划法求解鞍点策略，方法如下：

首先构造目标函数及约束条件

求得

和

然后，令

则可以计算得到D^*(t)＝(D_H ^*(t),D_L ^*(t))，其中

D_L(t)^*＝1-D_H(t)^*

同理，令

可得A^*(t)＝(A_H(t)^*,A_L(t)^*)，其中

A_L(t)^*＝1-A_H(t)^*

基于以上内容，本案实施例中最优MTD时空决策算法可设计如下：

算法1 FDG-MTD最优时空决策算法

Input:MTD时空决策模型FDG-MTD

Output:最优时空策略P^*

BEGIN

1.初始化FDG-MTD＝(N,Θ,t,S,P,f,U)；

2.初始化网络系统参数N，η_NT，η_NP，η_TP，η_PT；

3.构建MTD策略类型集合Θ_D和攻击策略类型集合Θ_A；

4.分析攻防状态演化过程，构建状态演化微分方程组

5.初始化相关参数配置；

6.构造攻防双方的协状态函数

7.构造攻防双方的汉密尔顿函数

8.计算

9.利用动态规划方法计算目标函数，求解

和

10.针对攻防双方，由

和

计算D(t)^*和A(t)^*；

11.根据攻防时间策略定义5，由定义5以及

和

计算公式，计算

和

12.Return最优时空策略

END

为验证本发明实施例中方案有效性，下面结合仿真数据做进一步解释说明：

以SDN仿真网络系统Mininet中的入侵和移动目标防御为例，首先利用轻量级SDN仿真测试平台Mininet和Ryu控制器搭建了网络实验设置环境，如图5所示，网络节点总数为1000，服务器配置如下：2.6GHz主频，500G硬盘容量，8GB内存，Linux操作系统Ubuntu14.04。LDAP服务器、FTP服务器、Appliction服务器等控制服务器集群作为移动目标防御策略的应用目标，其中应用服务器作为控制服务器的应用提供者，正常用户按照图示绿色箭头获取应用访问权限，与此同时，攻击者按照图示红色箭头入侵路径破坏SDN的可用性。攻击者具有对LDAP服务器的用户级访问权限，其目标是窃取存储在Linux数据库服务器中的敏感信息。各个服务器的相关漏洞信息如下表1所示。初始化相关实验参数：N＝1000，η_NT＝η_NP＝1/3，η_TP＝η_PT＝1/2，自然状态各个网络表面占比：9/10:1/20:1/20，威胁状态各个网络表面占比：1/20:9/10:1/20，安全状态各个网络表面占比：1/20:1/20:9/10，攻防博弈的时间范围为[0,100s]。

表1服务器漏信息

在实验过程中，利用Nmap软件扫描网络系统漏洞，并参考MITRE ATT&CK(Adversarial Tactics,Techniques,and Common Knowledge)攻击行为知识库，不同攻防策略集合如表2和表3所示：

表2攻击策略描述

表3MTD策略描述

利用Python进行攻防过程仿真，MATLAB R2014b进行数值仿真实验，展示MTD攻防过程中攻击面状态演化曲线，并讨论攻防时空策略对网络表面状态的影响。首先分析不同类型防御者面对随机型攻击者的策略变化，实验设计如下：

1.面对不同类型攻击策略，在不同MTD策略作用下，网络系统安全状态演化趋势，其中横坐标为攻防时间，纵坐标为混合策略概率：

1)面对“随机型”攻击策略，“随机型”MTD策略、“冒进型”MTD策略、“保守型”MTD策略作用下，网络系统安全状态演化趋势。

由图6可知，随着攻防对抗的不断推进，“冒进型”MTD策略在t＝3.7s时达到最大值，此时安全状态网络表面所占比例为39.27％，当t＝34.4s时开始趋于稳定，此时安全状态网络表面所占比例为16.67％；“冒进型”MTD策略和“随机型”MTD策略均处于先上升后稳定的演化趋势，其中“随机型”MTD策略在t＝36.95s时开始趋于稳定，此时安全状态网络表面所占比例为50％，而“冒进型”MTD策略从t＝77.7s时起，安全状态网络表面所占比例在64.2％-64.28％之间震荡。因此在[0,4.75s]，“冒进型”MTD策略为最优MTD策略，[4.75s-23s]，“随机型”MTD策略为最优MTD策略，而[23s-100s]，“保守型”MTD策略为最优MTD策略。

2)面对“保守型”攻击策略，“随机型”MTD策略、“冒进型”MTD策略、“保守型”MTD策作用下，网络系统安全状态演化趋势。

由图7可知，随着攻防对抗的不断推进，“冒进型”MTD策略在t＝7.6s时达到最大值，此时安全状态网络表面所占比例为66.61％，然后开始逐渐下降，当t＝91.8s时开始趋于稳定，此时安全状态网络表面所占比例为50％；“保守型”MTD策略和“随机型”MTD策略均处于上升的演化趋势，且“随机型”MTD策略的上升速率明显大于“保守型”MTD策略，其中“随机型”MTD策略在t＝44.2s时开始趋于稳定，此时安全状态网络表面所占比例为83.33％。因此在[0,7.9s]，“冒进型”MTD策略为最优MTD策略，[7.9s-45.8s]，“随机型”MTD策略为最优MTD策略，而[45.8s-100s]，“保守型”MTD策略为最优MTD策略。

3)面对“冒进型”攻击策略，“随机型”MTD策略、“冒进型”MTD策略、“保守型”MTD策略作用下，网络系统安全状态演化趋势。

由图8可知，随着攻防对抗的不断推进，“冒进型”MTD策略在t＝3s时达到最大值，此时安全状态网络表面所占比例为29.47％，然后开始逐渐下降，当t＝31.6s时开始趋于稳定，此时安全状态网络表面所占比例为10％；“保守型”MTD策略和“随机型”MTD策略的演化趋势与图7类似。因此在[0,4s]，“冒进型”MTD策略为最优MTD策略，[4s-27.8s]，“随机型”MTD策略为最优MTD策略，而[27.8s-100s]，“保守型”MTD策略为最优MTD策略。

综上所述，在网络攻防初始阶段，采用“冒进型”MTD策略以“闪电战”的形式抵御攻击者，而后采用“随机型”MTD策略积累防御优势，最后以“保守型”MTD策略逐步扩大防御优势。

2、探测-攻击-检测面多维变换方法与攻击-探测面二维变换方法以及攻击面单维变换方法对比，实验结果如图9所示。

由图9可知，在自然网络状态下，将本案方案与二维变换和单维变换的空间MTD决策方法进行对比实验，若攻防双方均采用“随机型”攻防策略时，当网络系统处于初始阶段时，二维变换和单维变换的方法略优于本案方法，但是随着攻防对抗的不断演进，本案方案明显优于二维变换方法，其中网络安全状态网络表面所占比例为58％，由此可见，在增加检测面移动策略后，本案方法基于攻击-探测-检测面多维变换，相较于二维变换和单维变换的方法，增加检测面维度，能够更有效的抵御连续“随机型”攻击策略，且时空MTD决策方法明显优于空间MTD策略方法。

3、通过不同攻防混合策略的的变化取值，分析策略对攻防状态的影响，由图10可以看出，随着攻防策略的不断变换，三种不同状态网络表面的演化趋势。其中x轴为网络表面中NS所占比例，y轴为网络表面中TS所占比例，z轴为网络表面中PS所占比例，对比图10中a、b、c分别表示自然状态、威胁状态、安全状态下MTD状态演示变化趋势图，由图可知，自然状态下MTD演化中安全状态所占比例最小，但是对于威胁状态下MTD状态演化而言，安全状态所占比例明显高于自然状态，由此可见，采用MTD策略对于抵御各类攻击策略效果显著。

4、通过上述实验，将本案方案和现有研究所提模型进行综合比较，结果如表4所示：

表4模型和方法对比

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的系统，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的系统。

基于上述的系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的系统。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述系统实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和系统，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于时空博弈的网络安全动态防御决策方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，多维变换移动目标防御模型中，依据t时刻防御者移动攻击探测所需的探测面信息来构成探测面移动，该探测面移动包含：攻击者所需探测的探测面元素、不同探测面元素在时刻t取值空间构成的探测面空间及探测面移动方式，其中，探测面移动方式包含：用于保证探测面元素移动随机性的已知探测面中随机移动和通过引入新未知探测面增加探测面元素的移动范围及攻击误导信息的未知探测面移动。

3.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，多维变换移动目标防御模型中，依据t时刻防御者移动现有攻击所需的攻击面信息来构成攻击面移动，该攻击面移动包括：攻击所需的攻击面元素、不同攻击面元素t时刻取值空间构成的攻击面空间及攻击面移动方式，其中，攻击面移动方式包括：确定性攻击面移动和随机性攻击面移动。

4.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，多维变换移动目标防御模型中，依据t时刻防御者在基于网络流量、行为或主机请求攻击检测情况下动态放置检测系统来构成检测面移动，该检测面移动包含：防御者防御所需检测面元素、不同检测面元素t时刻取值空间构成的检测面空间及检测面移动方式。

5.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，根据攻防双方时间策略服从无记忆指数分布特征，获取攻防双方时间策略的概率密度函数；假设多维变换移动目标防御模型攻防时间段[0,t]，依据概率密度函数来获取防御时间策略和攻击时间策略表示；依据t时刻攻防双方选取不同类型空间攻击策略的概率来获取多维变换移动目标防御模型攻防空间策略表示。

6.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，基于隐蔽对抗的攻防特性分析多维变换移动目标防御安全状态的变换过程，根据攻防博弈演进及网络表面控制权变换过程，构建移动目标防御攻防对抗的安全状态演化模型，该安全状态演化模型包含网络表面的安全状态、威胁状态及自然状态，三个状态之间通过概率动态变换。

7.根据权利要求6所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，设定攻防对抗行动后不同网络状态变换概率来定义攻防状态变换概率；建立不同网络状态网络表面数量在设定时间段内的变量方程组；根据变量方程组的微分求解来获取各网络状态下的变化率。

8.根据权利要求1～7任一项所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，借鉴FlipIt博弈，构建移动目标防御时空决策模型FDG-MTD，该时空决策模型表示为七元组，即FDG-MTD＝(N,Θ,t,S,P,f,U)，其中，N表示移动目标防御攻防博弈的参与人集合，Θ为攻防博弈类型集合，t为移动目标防御攻防博弈的时间范围，S(t)为移动目标防御t时刻攻防博弈网络状态变量，P为移动目标防御攻防博弈时空策略，f为移动目标防御攻防博弈的网络状态变换函数，U为移动目标防御攻防博弈收益函数集合。

9.根据权利要求8所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，量化攻防收益中，假设在移动目标防御攻防对抗过程中t时刻防御策略作用下自然和威胁状态变换为安全状态的总时间与攻击策略作用下自然和安全状态变换为威胁状态的总时间两者的差值为防御回报函数，在攻击策略作用下自然和安全状态变换为威胁状态的总时间与防御策略作用下自然和威胁状态变换为安全状态的总时间两者的差值为攻击回报函数，攻防双方在攻防策略下的实施时间成本函数；综合攻防回报函数和成本函数，获取攻防双方在FlipIt博弈过程中的收益函数。

10.根据权利要求1所述的基于时空博弈的网络安全动态防御决策方法，其特征在于，针对移动目标防御时空决策模型，通过构造协状态方程和汉密尔顿方程进行定量分析，并通过构造目标函数及约束条件以利用动态规划法求解鞍点策略。