CN110300106B

CN110300106B - 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统

Info

Publication number: CN110300106B
Application number: CN201910552217.6A
Authority: CN
Inventors: 谭晶磊; 张红旗; 杨英杰; 金辉; 雷程
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2021-11-23
Anticipated expiration: 2039-06-24
Also published as: CN110300106A

Abstract

本发明属于网络安全技术领域，特别涉及一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统，该方法包含：构建移动目标攻防策略集合；分析基于Markov时间博弈的移动目标防御过程，构建Markov时间博弈移动目标防御模型；对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略。本发明在分析移动目标攻防过程基础上，构建Markov时间博弈模型，基于折扣总收益设计移动目标防御博弈的目标准则函数，实现对多阶段攻防博弈量化分析；基于非线性规划多阶段博弈均衡计算设计多阶段最优防御策略选取算法；进一步通过实验研究成果表明，能够有效刻画对抗过程并正确选取最优策略，以确保移动目标防御实施准确性，帮助网络安全管理人员更好的决策。

Description

基于Markov时间博弈的移动目标防御决策选取方法、装置及系统

技术领域

本发明属于网络安全技术领域，特别涉及一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统。

背景技术

全球性网络安全攻防竞赛已经达到前所未有的强度，各类网络攻击事件愈演愈烈，网络攻击者不断制定新的攻击策略，其中移动目标攻击(Moving Target Attack,MTA)技术是攻击者武器库中最受欢迎的攻击方法之一，它利用各种不确定的攻击手段隐藏攻击意图，并试图逃避传统网络防御的检测机制，由于传统网络防御机制无法准确预知攻击者下一步攻击行动，MTA技术在网络攻防博弈中逐渐获得竞争优势，这不仅对网络空间造成了很大的安全威胁，而且产生了高昂的防御成本。近年来，网络安全战略经历了从被动防御到主动防御的演化升级，新兴的移动目标防御(Moving Target Defense,MTD)技术已经成为再平衡网络安全竞争环境的新方法，它通过引入动态性、随机性以及异构性来保护网络空间，旨在利用攻击面的动态变换打破网络系统的静态特性，给攻击者呈现一个不可预测的网络状态，以此来阻止攻击者的恶意行为，进而大大增加攻击者攻击成功的难度。

博弈论(Game Theory)与MTD依据攻防成本与收益选取最优策略的目标相一致，具有目标一致性。在移动目标攻防对抗过程中，MTA试图通过各种攻击手段控制系统攻击面，将攻击面的暴露范围不断扩大为后续持续性攻击做好准备，而MTD则通过动态化、随机化和多样化方法控制系统攻击面，将系统攻击面进行转移或者减少以拒止MTA的攻击行动，因而移动目标攻防双方具有目标对立性；移动目标攻防双方对于最优策略的选取不仅仅取决于自身，同时也取决于对手，因而移动目标攻防策略具有策略依存性。因此，移动目标攻防过程所具有的关系非合作性、目标对立性和策略依存性与博弈论的理论特性相契合，博弈论可在选取移动目标防御最优策略选取研究方面发挥重要作用。现有技术中，基于完全信息博弈的最优防御策略选取算法，通过构建攻防随机博弈模型，预测攻击行为，并由此制定最优防御策略；基于完全信息动态博弈的最优策略，通过引入“虚拟节点”将攻击图转换为博弈树，进而采用非合作动态博弈求解最优防御策略；基于随机博弈的最优攻击面转移方法，为了权衡安全性和可用性，将移动目标防御形式化为二人随机博弈。然而，单阶段博弈难以有效刻画移动目标防御持续动态变化的特性，实际应用过程中受到限制。

发明内容

为此，本发明提供一种基于Markov时间博弈的移动目标防御决策选取方法、装置及系统，更加贴近实际攻防对抗场景，完整展示移动目标攻防过程，在降低复杂度的同时，大大增加了不同应用场景下的通用性。

按照本发明所提供的设计方案，一种基于Markov时间博弈的移动目标防御决策选取方法，包含如下内容：

构建移动目标攻防策略集合；

分析基于Markov时间博弈的移动目标防御过程，构建Markov时间博弈移动目标防御模型；

对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略。

上述的，移动目标攻防策略集合中，移动目标攻击策略包含：移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA；移动目标防御策略采用网络层移动目标防御MTD。

优选的，网络层移动目标防御MTD包含：通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。

上述的，Markov时间博弈移动目标防御模型构建中，利用动态时间博弈刻画单阶段移动目标防御博弈过程，并通过Markov决策过程刻画在不同阶段的随机迁移，将单状态单阶段时间博弈过程扩展至多状态多阶段上，通过多阶段时间博弈与Markov决策方法相结合，构建多阶段Markov时间博弈移动目标防御模型。

优选的，单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述，表示为STG-MTD＝(N,B,R,η,U,T)，其中，N表示攻防博弈参与人集合，B表示攻防博弈可行动作空间，R表示移动目标攻防双方所竞争的公共资源，η表示博弈信念集合，U表示移动目标攻防双方受益函数集合，T表示博弈总时间。

优选的，多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示，表示为MTG-MTD＝(N,K,R,S,f,B,η,U,β,T)，其中，K表示多阶段攻防博弈阶段数，S表示不同网络攻防阶段安全状态集合，f表示状态迁移概率，β表示折现因子。

上述的，模型均衡求解过程中，从移动目标攻防双方对攻击面的控制出发，结合移动目标攻防策略组合下的攻击收益值和防御收益值，获取移动目标攻防收益矩阵，并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。

上述的，模型均衡求解过程中，首先，通过引入子博弈精炼纳什均衡方法，去除均衡中不可置信威胁策略的纳什均衡，确定单阶段时间博弈均衡上的最优策略；然后，通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题，求解得到多阶段均衡策略及其收益，进而确定攻防双方最优移动目标防御策略。

进一步地，本发明还提供一种基于Markov时间博弈的移动目标防御决策选取装置，包含：策略构建模块、模型构建模块和分析求解模块，其中，

策略构建模块，用于构建移动目标攻防策略集合；

模型构建模块，用于分析基于Markov时间博弈的移动目标防御过程，构建Markov时间博弈移动目标防御模型；

分析求解模块，用于对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略。。

进一步地，本发明还提供一种网络安全系统，包含上述的基于Markov时间博弈的移动目标防御决策选取装置。

本发明的有益效果：

本发明在分析移动目标攻防过程的基础上，构建了Markov时间博弈模型，具备分析多阶段-多状态攻防行为的能力；基于折扣总收益设计移动目标防御博弈的目标准则函数，实现了对多阶段攻防博弈的量化分析；基于非线性规划的多阶段博弈均衡计算设计多阶段最优防御策略选取算法。研究成果对于在多阶段移动目标攻防中实施网络防御决策具有指导意义，能够为开展网络空间攻防对抗研究提供理论模型支持。

本发明通过对移动目标防御模型均衡和收益分析中，由于单阶段博弈过程由时间博弈所刻画，使得博弈场景更贴近有实际网络攻防过程，相较于矩阵博弈，本发明中所采用的时间博弈可以更好地刻画博弈动态性，与此同时，利用Markov决策过程刻画多阶段性，更贴近攻防实际场景，有效刻画对抗过程并正确选取最优策略，以确保移动目标防御实施的准确性，从而帮助网络安全管理人员更好的决策。

附图说明：

图1为实施例中防御策略选取方法流程示意图；

图2为实施例中防御策略选取装置示意图；

图3为实施例中MTD理论框架示意；

图4为实施例中移动目标防御时间博弈示意；

图5为实施例中网络攻防时间博弈树示意；

图6为实施例中实验系统结构示意图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

移动目标防御是一种新的主动防御思想，它通过移动或伪装攻击者探测的资源以扰乱应用程序存储器。当恶意软件获得对移动目标防御保护系统的访问权限时，它无法找到所需的易受攻击的资源以造成损害。就其本质而言，移动目标防御与攻击无关，因此可以有效抵御已知和未知攻击的多种变化。本发明实施例，参见图1所示，提供一种基于Markov时间博弈的移动目标防御决策选取方法，包含如下内容：

S101、构建移动目标攻防策略集合；

S102、分析基于Markov时间博弈的移动目标防御过程，构建Markov时间博弈移动目标防御模型；

S103、对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略。

在分析移动目标攻防过程的基础上，构建了Markov时间博弈模型，具备分析多阶段-多状态攻防行为的能力；基于折扣总收益设计移动目标防御博弈的目标准则函数，实现了对多阶段攻防博弈的量化分析；基于非线性规划的多阶段博弈均衡计算设计多阶段最优防御策略选取算法。更贴近攻防实际场景，有效刻画对抗过程并正确选取最优策略，以确保移动目标防御实施的准确性，从而帮助网络安全管理人员更好的决策。

进一步地，本发明实施例中，移动目标攻防策略集合中，移动目标攻击策略包含：移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA；移动目标防御策略采用网络层移动目标防御MTD。优选的，网络层移动目标防御MTD包含：通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。

移动目标攻击MTA(Moving Target Defense,MTA)体系已经逐步发展并不断完善，常见的移动目标攻击技术，如下表所示：

表1移动目标攻击策略集合分类

多态MTA可以有效规避防御者入侵检测系统的特征检测，一方面多态MTA使用多个加密密钥生成相同恶意软件的不同实例，由于新实例具有新的未知静态签名，这使得基于签名的反恶意软件防御无效。另一方面多态MTA有效载荷(代码和数据)是加密的，它可以绕过防御者的深层静态分析。多态MTA通过更改内存中的代码使得防御者的攻击检测过程复杂化。

与多态MTA类似，自修改MTA可以有效规避文件和内存的自动扫描，而混淆MTA则可以有效逃避手动检查代码。混淆MTA所创建的具有混淆性的代码通常难以被传统检测手段所发现，它可以创建带有模糊字符串的有效负载、虚拟代码和复杂的函数调用图，并随机生成恶意软件实例。

反虚拟机/反沙箱MTA是另一种移动目标攻击方法，恶意软件分析通常利用虚拟机或沙箱环境检测恶意软件的运行活动，如果检测到虚拟机或沙箱，则反虚拟机/反沙箱MTA会改变其行为并避免任何恶意活动。一旦在真实系统上执行，在被标记为良性之后，它就会开始其恶意行为。

反调试MTA可以避免调试和运行时的检测分析。如果反调试MTA在运行时检测到调试工具，则会更改其执行流程保持良性操作。一旦它未被调试工具检测到，则会启动其恶意行为。

目标漏洞利用MTA可以更改URL模式、主机服务器、加密密钥和文件名，还可以通过限制来自相同IP地址的漏洞访问次数来规避蜜罐防御。

行为改变MTA通常在真实用户交互后发动攻击，因而它可以确保在真实机器上执行攻击。

这些有效的移动目标攻击方法为攻击者赢得了不对称的攻击优势，使得传统防御技术处于被动不利的局面。攻击者明确自己的攻击对象、攻击时间、攻击目标和攻击方式，而防御者则处于不确定状态，只能利用大量的成本、时间和资源来规避攻击者可能发起的任何攻击探测和入侵活动。因此，防御者和攻击者之间不存在理论上的对称性。

防止移动目标攻击的最佳方法是使用基于移动目标防御的新安全解决方案。将移动目标防御定义为一种通过创建、分析、评估和部署多样化、持续时变的机制和策略，以增加攻击实施的复杂度与成本，限制和降低系统脆弱性曝光度和被攻击的概率，提高系统弹性的防御手段，其基本理论框架，如图3所示。

将物理网络映射到逻辑任务模型，由调整引擎获取逻辑任务模型的当前状态，并由配置管理调整产生新状态进行适应，此外分析引擎会获取物理网络的实时事件，利用传统防御中入侵检测、防火墙等检测机制进行脆弱性分析，由逻辑安全模型产生逻辑安全状态发送给调整引擎，形成一个闭合自反馈的动态调整系统。移动目标防御技术研究是针对系统不同要素、安全威胁和应用场景设计的可行防御策略，分为系统层和网络层MTD两个层面，其中系统层MTD包括硬件MTD和软件MTD，网络层MTD包括MAC层、IP层、TCP层、会话层以及路径MTD，具体如表2所示。本发明实施例中所采用的移动目标防御策略可为网络层MTD。

表2移动目标防御策略分类

时间博弈，与现有的大多数博弈模型不同，时间博弈由防御者和攻击者两名局中人以及公共资源构成，它允许局中人在任意时刻采取行动来控制资源。然而，在局中人实际移动之前，不会显示控制资源控制权，因此隐蔽性是时间博弈的最大特点。每个局中人的目标是最大化控制资源时间，同时最小化移动成本。在移动目标攻防过程中，根据时间博弈基本理论，网络攻防系统中的局中人共同争夺对公共资源(攻击面)的控制权，尽可能地最大化自身的收益，图4显示了随着时间从左到右，移动目标攻击者(蓝色)和移动目标防御者(红色)之间的公共资源控制权的切换。

移动目标攻防策略的实施都需要付出一定的成本，其中，移动目标攻击者的目标是破坏网络关键服务，并尽可能降低攻击成本；移动目标防御者的目标是增加安全防御预算，减缓或组织攻击行为，以最大化移动目标攻击者的攻击成本。移动目标攻防双方都需要对系统攻击面进行控制，不同的是，攻击者是利用攻击面可用的脆弱性资源发起攻击，而防御者则是改变或减少攻击面脆弱性资源来提高攻击者的攻击难度，攻击面的控制权会随着局中人的行动发生变化。

进一步地，本发明实施例中，Markov时间博弈移动目标防御模型构建中，利用动态时间博弈刻画单阶段移动目标防御博弈过程，并通过Markov决策过程刻画在不同阶段的随机迁移，将单状态单阶段时间博弈过程扩展至多状态多阶段上，通过多阶段时间博弈与Markov决策方法相结合，构建多阶段Markov时间博弈移动目标防御模型。首先利用时间博弈模型刻画单阶段移动目标防御过程，接着从全局视角出发，借鉴Markov决策过程，将单阶段时间博弈各阶段之间的状态迁移描述为随机过程，通过多阶段时间博弈与Markov决策方法相结合，构建多阶段Markov时间博弈并进行均衡求解。

进一步地，本发明实施例中，单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述，表示为STG-MTD＝(N,B,R,η,U,T)，其中，

①N＝{N_MTA,N_MTD}是攻防博弈的参与人集合，其中N_MTA代表移动目标攻击方；N_MTD代表移动目标防御方。

②B＝{P_MTA,P_MTD}是攻防博弈可行动作空间，其中P_MTA和P_MTD分别代表移动目标攻击者和防御者的移动策略集。

③R是移动目标攻防双方所竞争的公共资源，将网络中的攻击面视为公共资源。

④η是博弈信念集合，

表示移动目标攻击方选择MTA策略

的概率，满足

表示移动目标防御方选择MTD策略

的概率，满足

⑤U＝{U_MTA,U_MTD}是移动目标攻防双方的收益函数集合，它由所有局中人对攻击面的控制时间T_N和策略实施所需成本C_N共同决定，分别为

和

1≤i≤m，1≤j≤l。

⑥T是博弈的总时间，其中T＝T_MTD+T_MTA。

以单阶段时间博弈为基础构建多阶段Markov时间博弈模型。

进一步地，本发明实施例中，多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示，表示为MTG-MTD＝(N,K,R,S,f,B,η,U,β,T)，其中，

②K是多阶段攻防博弈的阶段数，G(K)代表当前攻防博弈阶段，其中K＝{1,…,n}，n∈N。

③R是移动目标攻防双方所竞争的公共资源，本文将网络中的攻击面视为公共资源。

④S＝{S₁,S₂,...,S_K}是不同网络攻防阶段安全状态集合。

⑤f表示状态迁移概率，f_ij＝f(S_j|S_i)表示系统从状态S_i迁移至状态S_j的概率，攻防双方的对抗行为是影响安全状态转换的关键因素，同时由于攻防双方的可行策略集和网络系统运行环境可能发生改变，因此状态转换具有一定随机性。

⑥

是攻防博弈动作空间，其中P_MTA和P_MTD分别代表移动目标攻击者和防御者的策略集，

表示移动目标攻击方在第k个阶段的可选MTA策略；

表示移动目标防御方在第k个阶段的可选MTD策略。

⑦η是博弈信念集合，在第k阶段，

表示移动目标攻击方选择MTA策略

的概率，满足

表示移动目标防御方选择MTD策略

的概率，满足

⑧

是移动目标攻防双方的收益函数集合，它由所有局中人对攻击面的控制时间T_N和策略实施所需成本C_N共同决定，

和

1≤i≤m，1≤j≤l。移动目标防御者的目的是最小化移动目标攻击者的收益。

⑨β是折现因子，表示博弈阶段k中的收益相较初始阶段的折现比例，0＜β≤1。

⑩T是单阶段博弈所需的总时间。

进一步地，本发明实施例中，模型均衡求解过程中，从移动目标攻防双方对攻击面的控制出发，结合移动目标攻防策略组合下的攻击收益值和防御收益值，获取移动目标攻防收益矩阵，并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。

移动目标攻防收益量化是最优防御策略选取的基础，本发明实施例中从移动目标攻防双方对攻击面的控制出发，结合移动目标攻防策略特点，对移动目标攻防策略收益进行全面分析量化。

定义3防御成本：防御成本DC(Defense Cost)由移动目标防御者控制攻击面的时间成本T_CASC(Control Attack Surface Cost)和变换攻击面的时间成本T_HASC(HoppingAttack Surface Cost)两部分组成，DC＝T_CASC+T_HASC。

定义4攻击成本：攻击成本AC(Attack Cost)指移动目标攻击者发现系统漏洞采取MTA策略时所产生的时间成本。

定义5防御有效性：防御有效性DE(Defense Effectiveness)是移动目标防御者实施MTD策略对攻击面的控制时间。

定义7攻击有效性：攻击有效性AE(Attack Effectiveness)是移动目标攻击者实施MTA策略对攻击面的控制时间。

定义8防御收益：防御收益(Defense Rerard)指移动目标防御者控制攻击面获得的收益。

定义9攻击收益：攻击收益(Attack Reward)指移动目标攻击者控制攻击面获得的收益。

移动目标攻防收益矩阵M如下，

和

分别表示策略组合

下的攻击收益值和防御收益值，满足定义8、定义9。

令R为目标准则函数，用于判断移动目标攻防双方策略选取的优劣。常用的准则函数主要有折现期望回报准则函数和平均回报准则函数。在移动目标攻防对抗过程中，由于网络系统信息的价值与时间相关，因此采用折现期望回报准则函数作为博弈双方的目标函数，其中，

表示攻防双方在分别采取策略P_MTA和P_MTD时相较于初始阶段的折现收益值。

对于移动目标攻击方，它通过侦察网络攻击面，发现并利用系统资源脆弱性，进而导致系统性能开销增大或系统功能不可用。对于移动目标防御方，它通过选取MTD策略从而增大或转换攻击面，进而在保证网络功能正常安全运行的前提下提高系统的安全性。由以上定义可知，经过有限次博弈后，系统在不同状态间进行迁移，可用攻防博弈树表示。

进一步地，本发明实施例中，模型均衡求解过程中，首先，通过引入子博弈精炼纳什均衡方法，去除均衡中不可置信威胁策略的纳什均衡，确定单阶段时间博弈均衡上的最优策略；然后，通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题，求解得到多阶段均衡策略及其收益，进而确定攻防双方最优移动目标防御策略。

在时间博弈阶段G(K)，移动目标攻防策略分别为

和

若

为第k阶段的时间稳定策略，则对于任意攻防策略

满足：

为某一阶段时间博弈G(K)的子博弈精炼纳什均衡，该策略组合为G(K)的一个纳什均衡，且在G(K)的某段运行过程j_λ，子博弈G(j_λ)的限制策略组合

是G(j_λ)的纳什均衡。

不同移动目标攻防策略的选取会影响每阶段博弈情况，根据Markov决策准则，参与人必有一个Markov最优响应策略。因此，如果

为Markov最优响应策略，那么

使目标准则函数

对任意阶段k均满足下列条件：

定理1多阶段Markov攻防时间博弈MTG-MTD存在混合策略下的纳什均衡。

证明MTG-MTD博弈由多个独立且相似的单阶段不完全信息动态博弈构成。一方面，由于每个独立的单阶段不完全信息动态博弈均属于有限博弈，因此，必定存在混合策略下的纳什均衡。另一方面，由多阶段Markov时间博弈模型的定义，依据转移概率和收益函数可知，存在与MTG-MTD等价的有限Markov博弈，且收益函数为凸函数。依据有限Markov博弈的均衡策略存在性定理，存在混合策略下的纳什均衡。综上，定理得证。

首先给出单阶段时间博弈均衡的求解过程和步骤，参照完全信息动态博弈的相关理论知识，移动目标攻防双方对攻击面的控制面争夺具有先后顺序，先行动一方的各种信息会被另一方完全掌握，因而后行动的一方可以根据另一方的信息进行相应的调整以保证最大化自身利益。

针对完全信息动态移动目标攻防场景，引入泽尔腾的子博弈精炼纳什均衡思想方法，去除均衡中的不可置信威胁策略的纳什均衡，得出合理的预测结果。不失一般性的，子博弈精炼纳什均衡的每个信息集上的均衡结果均为最优策略。

移动目标攻防双方在不同策略组合下的收益矩阵可以用图5的博弈树直观展示。假设博弈开始时刻由移动目标攻击者控制着攻击面，随后移动目标防御者实施策略，争夺攻击面的控制权，单阶段博弈总时间为T。

引入折现因子，将未来收益折算成基于初始阶段的折现收益，在此基础上，将博弈均衡策略的求解问题转化为非线性规划(Nonlinear Programming Second,NLP2)最优值问题求解多阶段均衡策略B^*及其收益U^*。

对于K＝{1,…,n}，n∈N，

目标函数：

约束条件：

求解上述目标函数可以得到最优解集合

依据博弈理论，混合策略

是第k阶段攻防双方的最优选择，因此

即为最优移动目标防御策略。

进一步地，基于上述的方法，本发明实施例还提供一种基于Markov时间博弈的移动目标防御决策选取装置，参见图2所示，包含：策略构建模块101、模型构建模块102和分析求解模块103，其中，

策略构建模块101，用于构建移动目标攻防策略集合；

模型构建模块102，用于分析基于Markov时间博弈的移动目标防御过程，构建Markov时间博弈移动目标防御模型；

分析求解模块103，用于对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略。

进一步地，本发明实施例还提供一种网络安全系统，包含上述实施例中的基于Markov时间博弈的移动目标防御决策选取装置，用于对网络系统中的攻击行为进行预测分析。

基于移动目标攻防场景下多阶段Markov时间博弈模型及其子博弈精炼纳什均衡的研究，下面给出多阶段Markov时间博弈的最优主动防御策略选取算法。

算法的时间复杂度为O(k(m+n)²)，空间复杂度为O(knm)，表3展示了本发明实施例中提出的最优策略选取方法与其他最优策略选取方法的比较结果。在移动目标攻防对抗中，Manadhata P K.Game theoretic approaches to attack surface shifting[M].Moving Target Defense II.(a)仅讨论了单阶段博弈，Clark A,Sun K,Bushnell L,etal.A Game-Theoretic Approach to IP Address Randomization in Decoy-Based CyberDefense(b)虽然将博弈模型扩展到多阶段，但仍不能揭示移动目标攻防对抗的多状态和多阶段过程。Incomplete information Markov game theoretic approach to strategygeneration for moving target defense(c)结合Markov决策过程理论和动态博弈描述了多状态和多阶段特征，但现有博弈模型中均认为局中人的行动成本和有效性与时间无关，以时间作为收益度量研究更为切合实际。与它们相比，MTG-MTD是基于Markov时间博弈建立的，它完美地展示了移动目标攻防过程的对立性、动态性及自适应性的特征。在最优策略选取方面，本发明实施例中，分析了时间因素对攻防成本和收益的影响，并将最优策略选取问题转化为非线性规划问题求解，在降低复杂度的同时大大增加了不同的应用场景下更具通用性。

表3不同策略选取方法对比分析

通过应用实例验证MTG-MTD最优防御策略选取算法的有效性，利用软件定义网络部分节点拓扑搭建了实验网络环境，如图6所示，其中，LDAP服务器、FTP服务器、Linux数据库等控制服务器作为移动目标防御策略的应用目标，同时移动目标攻击者可以通过网络等途径访问控制服务器，它们的连通性通过配置表3中的访问控制策略来确定，应用服务器作为控制服务器的应用提供者。移动目标攻击者具有对应用服务器的用户级访问权限，其目标是窃取存储在Linux数据库服务器中的敏感信息。

移动目标攻击者的可能的攻击路径如下：

路径1：应用服务器→LDAP服务器→Linux数据库

路径2：应用服务器→LDAP服务器→FTP服务器→Linux数据库

表3防火墙策略

表4不同网络状态下的移动目标攻防策略

表5网络系统状态转移概率

表6移动目标攻防策略收益矩阵

(1)初始化参数

令S＝{S₁,S₂,S₃,S₄}表示网络阶段状态。S₁是移动目标攻击者利用应用服务器的漏洞并获得其root权限的阶段状态；S₂和S₃分别是移动目标攻击者通过利用LDAP服务器和FTP服务器的漏洞获得Linux数据库访问权限的阶段状态；S₄是攻击者通过利用Linux数据库的漏洞获得root权限的阶段状态。本实验中MTG-MTD的折扣率为β＝0.7。

(2)构建策略空间，状态转移概率和收益矩阵

表4显示了每个网络状态下的移动目标攻防策略。

表示移动目标攻击者控制着攻击面，相关MTA策略含义见表1；

表示移动目标防御者控制着攻击面。其中

表示MTD在固定周期中变换IP地址和端口号，

表示MTD在随机周期中变换IP地址和端口号，

表示MTD在固定周期内变换转发路径，括号中的内容表示相应变换元素的取值范围。与此同时，网络状态转移概率具体如表5所示。依据2.3节移动目标攻防收益的计算方法，在表6中给出了移动目标攻防收益矩阵。

(3)选取MTG-MTD模型的最优策略

在选取最优策略之前，利用将最优策略选取问题等价转化为非线性规划问题。在此基础上，利用所提出的算法及交互式的线性和通用优化求解器(Linear Interactiveand General Optimizer)LINGO求解最优策略。表6给出了攻防双方及其相应收益的最优策略。

约束条件：

目标函数：

表6移动目标攻防策略和收益

本发明实施例中，基于多阶段Markov时间博弈模型研究了移动目标攻防策略选取问题，主要工作包括：(1)在分析移动目标攻防过程的基础上，构建了Markov时间博弈模型，具备分析多阶段-多状态攻防行为的能力；(2)基于折扣总收益设计了移动目标防御博弈的目标准则函数，实现对多阶段攻防博弈的量化分析；(3)提出了基于非线性规划的多阶段博弈均衡计算方法，设计多阶段最优防御策略选取算法。研究成果对于在多阶段移动目标攻防中实施网络防御决策具有指导意义，能够为开展网络空间攻防对抗研究提供理论模型支持。

通过以上对移动目标防御模型均衡和收益分析，可以得出以下移动目标攻防过程的一般规律：由于防御实施效果的针对性，应该尽可能实施成本低且防御效果佳的MTD策略，针对特定的移动目标攻击，要实施适当的移动目标防御。例如，在状态S₁，攻击者的主要攻击手段是利用自身的动态变换规避常规的入侵检测系统，因而IDS对于上述攻击无效，相反的，实施移动目标防御可以有效抵御此类攻击。由于攻击的持续性，要尽可能避免攻击者与目标系统建立通信控制连接，否则很难采取有效防御策略，例如，在状态S₄当攻击者已经入侵目标系统，并且进行后续攻击开发时，IDS等传统防御手段对于攻击防御无效，并且移动目标防御的效果也不理想，此时最佳策略为关闭服务。由于单阶段博弈过程由时间博弈所刻画，使得博弈场景更贴近有实际网络攻防过程，相较于矩阵博弈，本发明实施例中所采用的时间博弈可以更好地刻画博弈动态性，与此同时，利用Markov决策过程刻画多阶段性，从而帮助网络安全管理人员更好的决策。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的方法。

基于上述的方法，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的方法。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于Markov时间博弈的移动目标防御决策选取方法，其特征在于，包含如下内容：

构建移动目标攻防策略集合；

对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略；

Markov时间博弈移动目标防御模型构建中，利用动态时间博弈刻画单阶段移动目标防御博弈过程，并通过Markov决策过程刻画在不同阶段的随机迁移，将单状态单阶段时间博弈过程扩展至多状态多阶段上，通过多阶段时间博弈与Markov决策方法相结合，构建多阶段Markov时间博弈移动目标防御模型；

单状态单阶段时间博弈过程采用六元组表示的单阶段时间博弈模型STG-MTD描述，表示为STG-MTD＝(N,B,R,η,U,T)，其中，N表示攻防博弈参与人集合，B表示攻防博弈可行动作空间，R表示移动目标攻防双方所竞争的公共资源，η表示博弈信念集合，U表示移动目标攻防双方受益函数集合，T表示博弈总时间；

多阶段Markov时间博弈移动目标防御模型MTG-MTD采用十元组表示，表示为MTG-MTD＝(N,K,R,S,f,B,η,U,β,T)，其中，K表示多阶段攻防博弈阶段数，S表示不同网络攻防阶段安全状态集合，f表示状态迁移概率，β表示折现因子。

2.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法，其特征在于，移动目标攻防策略集合中，移动目标攻击策略包含：移动目标攻击MTA体系中通过变换恶意软件签名实现攻击行为的多态MTA、通过动态变换恶意软件代码实现攻击行为的自修改MTA、通过隐藏恶意活动实现攻击行为的混淆MTA、通过变换恶意软件签名并隐藏恶意代码数据实现攻击行为的自加密MTA和通过变换追踪环境行为实现攻击行为的反虚拟机/反沙箱MTA；移动目标防御策略采用网络层移动目标防御MTD。

3.根据权利要求2所述的基于Markov时间博弈的移动目标防御决策选取方法，其特征在于，网络层移动目标防御MTD包含：通过变换MAC地址进行防御的MAC层MTD、通过变换IP地址进行防御的IP层MTD、通过变换网络协议进行防御的TCP层MTD、通过变换应用程序端口进行防御的会话层MTD和通过变换转发路径进行防御的路径MTD。

4.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法，其特征在于，模型均衡求解过程中，从移动目标攻防双方对攻击面的控制出发，结合移动目标攻防策略组合下的攻击收益值和防御收益值，获取移动目标攻防收益矩阵，并采用折现期望回报准则函数作为博弈双方目标函数对移动目标攻防策略收益进行量化分析。

5.根据权利要求1所述的基于Markov时间博弈的移动目标防御决策选取方法，其特征在于，模型均衡求解过程中，首先，通过引入子博弈精炼纳什均衡方法，去除均衡中不可置信威胁策略的纳什均衡，确定单阶段时间博弈均衡上的最优策略；然后，通过折现因子将博弈均衡策略的求解问题转换为非线性规划最优值问题，求解得到多阶段均衡策略及其收益，进而确定攻防双方最优移动目标防御策略。

6.一种基于Markov时间博弈的移动目标防御决策选取装置，其特征在于，包含：策略构建模块、模型构建模块和分析求解模块，其中，

策略构建模块，用于构建移动目标攻防策略集合；

分析求解模块，用于对Markov时间博弈移动目标防御模型进行均衡求解，确定其对抗过程中最优策略；

多阶段Markov时间博弈移动目标防御模型MTG-MTD采用是十元组表示，表示为MTG-MTD＝(N,K,R,S,f,B,η,U,β,T)，其中，K表示多阶段攻防博弈阶段数，S表示不同网络攻防阶段安全状态集合，f表示状态迁移概率，β表示折现因子。。

7.一种网络安全系统，其特征在于，包含权利要求6所述的基于Markov时间博弈的移动目标防御决策选取装置。