CN107566387B

CN107566387B - 基于攻防演化博弈分析的网络防御行动决策方法

Info

Publication number: CN107566387B
Application number: CN201710828665.5A
Authority: CN
Inventors: 张恒巍; 王衡军; 黄健明; 王晋东; 寇广; 王娜
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2020-01-10
Anticipated expiration: 2037-09-14
Also published as: CN107566387A

Abstract

本发明属于网络安全技术领域，特别涉及一种基于攻防演化博弈分析的网络防御行动决策方法，包含：引入同一博弈群体策略依存关系的激励因子，构建网络攻防演化博弈模型；对网络攻防演化博弈模型进行均衡求解，得到攻防演化过程中的不同平衡点；根据平衡点确定最优防御策略；并对平衡点进行稳定性分析获取相应的博弈演化趋势。本发明采用引入激励因子并通过复制动态演化方程用于描述网络攻防过程，构建基于改进演化博弈理论的网络攻防演化博弈模型；针对攻防双方均具有多种可选策略的情形进行演化均衡求解，对所求均衡点进行稳定性分析，扩展网络攻防博弈模型及其应用范围，提高模型的实用性和准确性，对网络安全技术具有重要的指导意义。

Description

基于攻防演化博弈分析的网络防御行动决策方法

技术领域

本发明属于网络安全技术领域，特别涉及一种基于攻防演化博弈分析的网络防御行动决策方法。

背景技术

随着信息技术的发展，各类网络基础设施已遍布人类社会的各个领域，极大地提高了人们生活、工作的效率，相应地，人们对网络空间的依赖性也越强。人们对社会发展中不断利市的智能化程度的现实需求，导致网络空间朝着规模庞大、环境复杂的方向发展，这直接导致网络环境中不稳定因素的增多，来自黑客、木马、病毒程序、恶意代码、物理故障、人为破坏等各方面的威胁层出不穷，使得网络空间安全面临的严峻威胁和挑战。如何确保网络安全，为人们正常提供服务，已成为当前人们必需面对和解决的问题。整个社会信息程度的提高依赖于健全的网络空间基础设施。发展，使得我们可以获得来自四面八方的信息。随着整个社会的信息化程度不断提高，无论在哪个各个领域，信息处理都是不可回避的问题。人类越来越依靠基于信息技术所创造的产品，以信息技术为基础的信息产业已经成为世界经济的重要支柱产业，信息产业的发达程度已经成为一个国家的综合国力和国际竞争力强弱的重要标志。信息是企业或组织进行正常商务运作和管理不可或缺的资源，同时信息资产比传统的实物资产更加脆弱、更容易受到损坏，因此信息安全直接关系组织机构正常运作和持续发展，从最高层次来讲，信息安全关系到国家的安全；就个人而言，信息安全关系到个人隐私和财产的安全。无论是个人、组织还是国家，保护关键的信息资产的安全性都是非常重要。信息安全的任务，就是采取措施让信息资产免遭威胁，或将威胁带来的后果降到最低，以维护组织的正常运作。

针对网络安全存在的问题，亟需一种安全防御技术，用于解决实际存在的问题。目前关于网络防御的安全技术很多，传统的安全技术如防火墙、入侵检测和漏洞检测等技术已经无法应对日益多样化的网络攻击手段。由于博弈理论具有的目标对立性、策略依存性和关系非合作性正是博弈论的基本特征，又由于网络攻防是动态对抗的，采用动态博弈理论研究网络攻防双方策略选取问题能够提高网络防御决策效能。学者们将博弈理论应用于网络攻防分析，但由于研究起步较晚，已有研究成果较少且未能形成完善的网络攻防博弈体系。在网络攻防过程中，不同的攻击者和防御者具有不同的安全知识和技能水平，因此他们会形成不同的决策机制。由于博弈过程中参与者获得的收益具有差异，随着时间的推移，在收益差异的牵引和学习机制的驱动下，低收益参与者不断学习收益高的参与者的策略，改进自己的行为。在上述“学习—改进”机制的推动下，攻防对抗呈现动态进化趋势，形成不断演化的动态网络安全态势。将博弈理论应用于网络行为分析已经成为一个研究热点，而演化博弈模型大都采用复制动态的学习机制，其思想是选取某一特定策略频率的变化等于该策略的适应度与群体平均适应之间的差值。然而，传统复制动态并未考虑同一群体下策略间的相互依赖关系。在实际网络攻防过程中，不仅攻防策略之间存在依存性，防御策略之间和攻击策略之间均存在一定的依赖关系。传统博弈理论以矩阵博弈为基础，建立在行为者完全理性的基础上，但完全理性的假设与实际情况不符。在网络攻防过程中，攻防策略的实施主要依靠人的行动来完成，由于攻防决策者的自身能力、个人认识等不同，且会受到外部环境等不同因素的影响，使其根本无法达到完全理性。因此，基于完全理性条件的博弈模型应用于网络安全行为分析具有一定的局限性。传统演化博弈理论以行为人有限理性为前提，将攻防过程以演化的形势进行均衡求解与分析，构建基于演化博弈理论的网络攻防博弈模型更加符合实际。但是，传统演化博弈未能考虑攻防双方同一博弈群体策略之间存在的依赖关系。策略依存性是攻防过程的特征之一，在实际网络攻防过程中，不仅攻防策略之间存在依存关系，防御策略之间以及攻击策略之间同样存在依存关系，忽略同一群体策略之间的依存关系，会降低模型和方法的有效性和准确性。

发明内容

为现有技术中的不足，本发明提供一种基于攻防演化博弈分析的网络防御行动决策方法，针对攻防双方均具有多种可选策略的情形进行演化均衡求解，并对所求均衡点进行稳定性分析，可以用于网络攻击行为分析和指导防御决策的选取，实用性和和指导意义更强。

按照本发明所提供的设计方案，一种基于攻防演化博弈分析的网络防御行动决策方法，包含：

A)、引入同一博弈群体策略依存关系的激励因子，构建网络攻防演化博弈模型；

B)、对网络攻防演化博弈模型进行均衡求解，得到攻防演化过程中的不同平衡点；

C)、根据平衡点确定最优防御策略；并对平衡点进行稳定性分析获取相应的博弈演化趋势。

上述的，A)中激励因子采用历史数据统计分析方法预先获取。

上述的，A)中对均衡点进行稳定性分析，具体包含：

A1)、针对防御方，按照防御策略强度将防御策略划分为强防御策略和弱防御策略两类，构建防御方的可选策略集DS＝{DS₁,DS₂}，其中，DS₁表示强防御策略，DS₂表示弱防御策略；针对攻击方，构建攻击方的可选策略集AS＝{AS₁,AS₂}，其中，AS₁表示强攻击策略，AS₂表示弱攻击策略；

A2)、建立网络攻防博弈树，并根据网络攻防博弈树获取网络攻防演化博弈模型策略选取演化情况；

A3)、根据网络攻防演化博弈模型策略选取演化情况，通过引入攻防双方的激励因子，分别获取防御策略DS₁复制动态方程q′_i(t)和攻击策略AS₁复制动态方程p′_i(t)；

A4)、联立网络攻防演化博弈中双方的复制动态方程，构建网络攻防演化博弈模型的复制动态微分方程。

优选的，A3)中防御策略的动态复制方程获取过程如下：针对防御方的n种可选防御策略DS＝{DS₁,DS₂,…,DS_n}，假设t时刻选取策略DS_i的防御者个数为x_i(t)，其所占防御决策者总体个数比例为q_i(t)，防御策略DS_i的适应能力为

在t时刻的平均适应度为

采用α_ij表示防御策略DS_j对防御策略DS_i的影响，

获取防御策略DS_i的复制动态方程为：

优选的，A3)中攻击策略的动态复制方程获取过程如下：对于攻击方的m种可选攻击策略AS＝{AS₁,AS₂,…,AS_m}，假设t时刻选取策略AS_i的攻击者个数为y_i(t)，其所占攻击决策者总体个数比例为p_i(t)，攻击策略AS_i的适应能力为

在t时刻的平均适应度为

采用β_ij表示攻击策略AS_j对攻击策略AS_i的影响，

得到攻击策略AS_i的复制动态方程为：

优选的，B)中对网络攻防演化博弈模型进行均衡求解，具体为：令

对网络攻防演化博弈模型的复制动态微分方程求解，得到网络攻防演化博弈平衡状态点。

上述的，C)中对平衡点进行稳定性分析获取相应的博弈演化趋势，包含：激励因子设置多个数值，通过动力学仿真分别验证相应激励因子在博弈演化过程中影响。

本发明的有益效果：

本发明针对传统博弈理论完全理性假设与攻防实际情况不符的情况，从演化博弈理论出发，在攻防决策者非完全理性的条件下，基于非合作演化博弈理论，构建攻防演化博弈模型；针对传统演化博弈理论未能考虑同一群体策略之间的依赖关系的问题，采用一种引入激励因子并通过复制动态演化方程用于描述网络攻防过程，构建基于改进演化博弈理论的网络攻防演化博弈模型；针对攻防双方均具有多种可选策略的情形进行演化均衡求解，对所求均衡点进行稳定性分析，同样适用于网络攻击行为分析和指导防御决策，扩展网络攻防博弈模型及其应用范围，提高模型的实用性和准确性，对网络安全技术具有重要的指导意义。

附图说明：

图1为基本网络攻防博弈树示意图；

图2为本发明的方法流程示意图；

图3为网络攻防演化博弈模型构建流程图；

图4为实施例中网络攻防博弈树示意图；

图5为仿真实例中当α₁₂＝1，β₁₂＝1时，不同初始状态的攻防演化趋势；

图6为仿真实例中当α₁₂＝3，β₁₂＝3时，不同初始状态的攻防演化趋势；

图7为仿真实例中当α₁₂＝0.5，β₁₂＝0.5时，不同初始状态的攻防演化趋势；

图8为仿真实例中当α₁₂＝0.5，β₁₂＝4时，不同初始状态的攻防演化趋势。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

实施例中涉及到的技术术语解释如下：演化博弈论(Evolutionary GameTheory)：源于Darwin的生物进化论，继承了生物学对于物种进化的理论阐述，从个体有限理性条件出发，以群体行为为研究对象，在阐述生物物种的发展历程和进化选择中，解释了生物行为的进化博弈过程。通过长期的试错、模仿和改进，所有的博弈方都会趋于某个稳定的策略，该策略可能在群体组织中长期稳定下来，这种稳定的策略均衡就与生物进化的进化稳定策略非常相似，以达到一种相对和谐的博弈均衡状态。复制动态(ReplicatorDynamic)：在由有限理性博弈方组成的群体中，博弈者通过不断试错、学习、改进自身策略，使博弈结果比平均水平好的策略逐步被更多博弈方采用，从而群体中采用各种策略的博弈方的比例会发生变化。演化稳定策略(ESS，Evolutionary Stable Strategy)：是指在具有明确定义下不会被突变体入侵的策略，是演化博弈中具有真正稳定性和较强预测能力的均衡策略。它是生物进化理论中具有较强抗干扰能力且在受到干扰后仍能“恢复”的稳健性均衡概念，是演化博弈分析中最核心的均衡概念。激励因子(Strength Factor)表示策略之间的激励关系，令α_ij，将其定义为防御激励因子。当α_ij<1时，表示防御策略DS_j对DS_i的演化具有抑制作用，可以降低DS_i的扩散速率；当α_ij>1时，表示防御策略DS_j对DS_i的演化具有促进作用，可以增强DS_i的扩散速率。同理，令β_ij，将其定义为攻击激励因子，用于描述攻击策略AS_i和AS_j之间的激励关系。

针对网络攻防过程中存在的目标对立性、策略依存性、关系非合作性以及过程动态演化等特点，结合演化博弈理论，网络攻防演化博弈模型ADEGM(Attack-DefenseEvolutionary Game Model)可以表示为4元组，ADEGM＝(N,S,P,U)，其中

①N＝(N_D,N_A)是演化博弈的参与者空间。其中，N_D为防御方，N_A为攻击方。

②S＝(DS,AS)是博弈策略空间。其中DS＝{DS₁,DS₂,…DS_n}表示防御者的可选策略集,AS＝{AS₁,AS₂,…AS_m}表示攻击者的可选策略集。

③P＝(p,q)是博弈信念集合。其中p_i表示攻击者选择攻击策略AS_i的概率，q_j表示防御者选防御策略DS_j的概率。

④U＝(U_D,U_A)是收益函数集合。表示参与者的博弈收益，由所有参与者的策略共同决定。

在网络攻防对抗中，攻击方A和防御方D的决策者均有多个策略可供选择，假设攻防双方决策者的可选策略集分别为{AS₁,AS₂…AS_m}、{DS₁,DS₂…DS_n}(其中m,n∈N且m,n≥2)，在博弈过程的不同阶段，策略被攻防决策者采用的概率不同，且该概率随着时间的推移在学习机制的作用下不断变化，从而使攻防策略选取形成一个动态变化过程。形成的攻防博弈树如图1所示。p_i表示选择攻击策略AS_i的概率，q_j表示选防御策略DS_j的概率。

采用不同策略进行攻防对抗时，会产生相应的攻防收益值。具体数值用如下收益矩阵表示，其中a_ij和b_ij分别表示攻击者和防御者采取AS_i、DS_j时各自的收益。

对于防御方，策略的选取有n种可能，决策者以不同的概率q_i对各个防御策略DS_i进行选取，但对于整个策略集满足条件：

同样，攻击方针对自身m种可选策略，决策者以不同的概率p_i对各个攻击策略AS_i进行选取，对于整个策略集满足：

基于以上条件，计算防御方不同防御策略的期望收益U_DSi和平均收益

由于防御收益较低者会学习模仿高收益者所选取的策略，针对防御策略集中的可选策略{DS₁,DS₂…DS_n}，选取不同策略的人数比例将随着时间的推移而发生变化，采用q_i(t)表示，其中q_i(t)表示选择防御策略DS_i的人数比例，且满足：

对于某个特定防御策略DS_i，选取该策略的人数比例是时间的函数，其动态变化速率可以用复制动态方程进行表示：

同理，针对攻击方策略集中的可选策略{AS₁,AS₂…AS_m}，选取不同策略的人数比例随时间动态变化，分别用p_i(t)来进行表示，其中p_i(t)满足：

针对攻击方的任意可选攻击策略AS_i可以得到相应的复制动态方程：

联立以上两个复制动态方程，令

通过求解，即可得到网络攻防演化博弈平衡状态点，从而可以实现安全防御策略选取的分析和预测。

由于网络规模日益扩大，网络攻击手段日益复杂化、智能化和多样化，入侵检测、防火墙等传统的静态防御措施已经无法满足当前网络安全的需要，如何确保网络空间安全成为一个亟需解决的问题。将博弈理论应用于网络行为分析已经成为一个研究热点，而演化博弈模型大都采用复制动态的学习机制，其思想是选取某一特定策略频率的变化等于该策略的适应度与群体平均适应之间的差值。然而，传统复制动态并未考虑同一群体下策略间的相互依赖关系。在实际网络攻防过程中，不仅攻防策略之间存在依存性，防御策略之间和攻击策略之间均存在一定的依赖关系。传统演化博弈未能考虑攻防双方同一博弈群体策略之间存在的依赖关系。策略依存性是攻防过程的特征之一，在实际网络攻防过程中，不仅攻防策略之间存在依存关系，防御策略之间以及攻击策略之间同样存在依存关系，忽略同一群体策略之间的依存关系，会降低模型和方法的有效性和准确性。鉴于此，本发明实施例提供一种基于攻防演化博弈分析的网络防御行动决策方法，参见图2所示，包含：

101)、引入同一博弈群体策略依存关系的激励因子，构建网络攻防演化博弈模型；

102)、对网络攻防演化博弈模型进行均衡求解，得到攻防演化过程中的不同平衡点；

103)、根据平衡点确定最优防御策略；并对平衡点进行稳定性分析获取相应的博弈演化趋势。

通过构建“新型的”动态攻防演化博弈模型，深入分析网络安全状态随时间的演化过程，用于攻击行为预测与最优防御策略选取，进而实施有效的主动防御。

在实际网络攻防过程中，攻防双方通过选取恰当的攻防策略进行攻防对抗，最终的攻防对抗结果与攻防双方所选取的策略相关。网络攻防是一个长期斗争过程，在每次攻防对抗结束之后，攻防双方均能从攻防结果中吸取教训和经验，为下一次攻防对抗做好准备。学习机制是演化博弈的核心，主要是指决策者可以通过学习他人的策略，不断试错、学习、调整自身策略，使收益结果最终达到最优。因此，将演化博弈理论应用于网络攻防分析具有一定的现实意义，构建的网络攻防演化博弈模型和决策方法能够较好地指导网络安全防御决策。然而，在攻防过程中，攻防双方同一博弈群体策略之间同样存在依赖关系，既存在相互促进的作用，也存在相互抑制的作用，而以复制动态为核心的传统演化博弈理论中未能考虑该因素的影响。因此，需要一种考虑同一博弈群体策略之间相互关系的演化博弈方法。通过引入激励因子，用于表示同一博弈群体中的策略依存关系，将其应用于网络攻防对抗建模分析，可为网络信息安全防御决策提供一定指导。为此，本发明的另一个实施例，参见图3所示，构建网络攻防演化博弈模型，具体包含：

201)、针对防御方，按照防御策略强度将防御策略划分为强防御策略和弱防御策略两类，构建防御方的可选策略集DS＝{DS₁,DS₂}，其中，DS₁表示强防御策略，DS₂表示弱防御策略；针对攻击方，构建攻击方的可选策略集AS＝{AS₁,AS₂}，其中，AS₁表示强攻击策略，AS₂表示弱攻击策略；

202)、建立网络攻防博弈树，并根据网络攻防博弈树获取网络攻防演化博弈模型策略选取演化情况；

203)、根据网络攻防演化博弈模型策略选取演化情况，通过引入攻防双方的激励因子，分别获取防御策略DS₁复制动态方程q′_i(t)和攻击策略AS₁复制动态方程p′_i(t)；

204)、联立网络攻防演化博弈中双方的复制动态方程，构建网络攻防演化博弈模型的复制动态微分方程。

在传统建攻防演化博弈模型基础上，针对防御方的n种可选防御策略DS＝{DS₁,DS₂,…,DS_n}，假设t时刻选取策略DS_i的防御者个数为x_i(t)，其所占防御决策者总体个数比例为q_i(t)，防御策略DS_i的适应能力(期望收益)为在t时刻的平均适应度(平均收益)为

由此可知：

随着攻防过程的推进，选取策略DS_i的个体数目发生变化，其变化率既正比于选取DS_i的个体数目，又与策略DS_i的适应能力正相关，考虑不同防御策略之间的依赖关系，采用α_ij表示防御策略DS_j对防御策略DS_i的影响。由此即可得到如下关系式

通过对q_i(t)进行求导，可以得到选取防御策略DS_i的复制动态为

对于攻击方的m种可选攻击策略AS＝{AS₁,AS₂,…,AS_m}，假设t时刻选取策略AS_i的攻击者个数为y_i(t)，其所占攻击决策者总体个数比例为p_i(t)，攻击策略AS_i的适应能力为

在t时刻的平均适应度为

同理可知：

选取策略AS_i的个体数目发生变化，可用下式进行描述

通过对p_i(t)进行求导，可以得到选取攻击策略AS_i的复制动态为

通过联立攻防演化方程，即可得到改进后的复制动态微分方程系统。

当

时，即可得到Taylor和Jonker最早提出的复制动态方程，

根据上述内容可知，改进的复制动态是对传统复制动态的继承拓展，在传统复制动态的基础上，可进一步描述同一群体策略之间的依赖关系。在实际攻防过程中，同一群体中不同攻防策略的对其他策略的影响因子不同，此时采用改进复制动态进行描述具有更好的准确性。

令

通过求解即可得到改进条件下的网络攻防演化博弈平衡状态点，从而可以实现网络安全防御策略选取。

基于上述改进复制动态攻防演化博弈模型，为方便分析，针对防御方，按照防御策略强度不同可将防御策略划分为强防御策略和弱防御策略两类，构建防御方的可选策略集DS＝{DS₁,DS₂}，其中DS₁表示强防御策略，DS₂表示弱防御策略。同理，针对攻击方，构建攻击方的可选策略集AS＝{AS₁,AS₂}，其中AS₁表示强攻击策略，AS₂表示弱攻击策略。其对应的网络攻防博弈树如图4所示。

基于上述条件，可以得出以下相关博弈式子

由q₁(t)+q₂(t)＝1，p₁(t)+p₂(t)＝1，可得q′₁(t)＝-q′₂(t)，p′₁(t)＝-p′₂(t)。

因此，只需考虑q₁(t)和p₁(t)的演化状态，即可得到整个攻防博弈系统的策略选取演化情况。进一步得到防御策略DS₁和攻击策略AS₁的复制动态方程：

令

通过求解可以得到以下五组解：

针对改进后的网络攻防演化博弈模型，采用动力学仿真方法，通过对激励因子设置的不同取值，来验证同一群体中不同策略之间的依赖关系对博弈演化过程的影响。

针对攻防双方均存在200个决策者的攻防博弈系统，分别设定a₁₁＝10，a₁₁＝10，a₁₁＝10，a₁₁＝10，d₁₁＝10，d₁₁＝10，d₁₁＝10，d₁₁＝10。在此基础上，针对激励因子的不同取值，对初始状态分别为(q₁,p₁)＝(0.2,0.3)和(q₁,p₁)＝(0.6,0.7)时的状态演化趋势进行实验仿真，可以得到不同激励因子在博弈演化过程中起到的作用。

(1)当α₁₂＝1，β₁₂＝1时，表示防御策略之间和攻击策略之间均不存在依赖关系，此时，改进复制动态与传统复制动态系统一致，该博弈系统的状态演化趋势如图5所示。当初始状态为(q₁,p₁)＝(0.2,0.3)时，策略DS₁在仿真15次时达到稳定，策略AS₁在仿真30次时达到稳定；当初始状态为(q₁,p₁)＝(0.6,0.7)时，策略DS₁在仿真35次时达到稳定，策略AS₁在仿真25次时达到稳定。

(2)当α₁₂＝3，β₁₂＝3，时，表示防御策略DS₂对DS₁具有激励作用，攻击策略AS₂对AS₁具有激励作用，通过仿真，该博弈系统的状态演化趋势具体如图6所示。当初始状态为(q₁,p₁)＝(0.2,0.3)时，策略DS₁在仿真5次时达到稳定，策略AS₁在仿真12次时达到稳定；当初始状态为(q₁,p₁)＝(0.6,0.7)时，策略DS₁在仿真15次时达到稳定，策略AS₁在仿真10次时达到稳定。显然，当α₁₂＝3，β₁₂＝3时，同一群体中的不同策略存在激励作用，从而加快了博弈收敛的速度。

(3)当α₁₂＝0.5，β₁₂＝0.5时，表示防御策略DS₂对DS₁具有抑制作用，攻击策略AS₂对AS₁具有抑制作用，通过仿真，该博弈系统的状态演化趋势具体如图7所示。当初始状态为(q₁,p₁)＝(0.2,0.3)时，策略DS₁在仿真28次时达到稳定，策略AS₁在仿真65次时达到稳定；当初始状态为(q₁,p₁)＝(0.6,0.7)时，策略DS₁在仿真60次时达到稳定，策略AS₁在仿真50次时达到稳定。显然，当α₁₂＝0.5，β₁₂＝0.5时，同一群体中的不同策略存在抑制作用，从而降低了博弈收敛的速度。

(4)当α₁₂＝0.5，β₁₂＝4，时，表示防御策略DS₂对DS₁具有抑制作用，攻击策略AS₂对AS₁具有激励作用，通过仿真，该博弈系统的状态演化趋势如图8所示。当初始状态为(q₁,p₁)＝(0.2,0.3)时，策略DS₁在仿真28次时达到稳定，策略AS₁在仿真12次时达到稳定；当初始状态为(q₁,p₁)＝(0.6,0.7)时，策略DS₁在仿真60次时达到稳定，策略AS₁在仿真10次时达到稳定。显然，当α₁₂＝0.5时，防御方策略DS₂对DS₁具有抑制作用，从而降低了博弈收敛的速度；当β₁₂＝4时，攻击策略AS₂对AS₁具有激励作用，从而加快了博弈收敛的速度。

由以上仿真结果可知，在给定各博弈参数取值的条件下，博弈系统在经过多次演化后，最终将收敛于某个稳定状态，得到了相应的最优防御策略。通过观察对比发现，复制动态中激励因子的不同取值，对博弈系统演化的速度具有不同的影响。当该激励因子小于1时，对策略的演化速率具有抑制作用，当激励因子大于1时，对策略的演化速率具有激励作用。由此可知，同一群体中的策略依存关系对博弈演化过程具有重要影响，说明本系统的实验仿真演化结果与发明所提模型中的理论分析保持一致，从而验证了发明提出的基于改进的攻防演化博弈模型具有有效性。

从网络攻防实际出发，基于非合作演化博弈理论，通过引入激励因子，改进传统复制动态方程，构建基于改进复制动态的网络攻防演化博弈模型，通过计算博弈的收益最大值，使博弈演化过程中的防御收益达到最大，其对应的防御策略即为最优网络安全防御策略；针对攻防双方均具有两种可选策略的情形，利用改进复制动态方程进行均衡求解，采用系统动力学方法进行演化仿真分析，验证了不同激励因子对网络攻防演化过程的影响。针对同一博弈群体策略之间存在一定的依赖关系，在传统复制动态的基础上，通过引入激励因子，用于描述同一博弈群体不同策略之间的依存关系。本发明仍然采用演化博弈理论对网络攻防行为进行分析，既满足了博弈模型就有的特征，又能描述同一群体不同策略之间的关系。通过对传统复制动态的改进，拓展了博弈模型及其应用范围，提高了模型的实用性和准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于攻防演化博弈分析的网络防御行动决策方法，其特征在于，包含：

C)、根据平衡点确定最优防御策略；并对平衡点进行稳定性分析获取相应的博弈演化趋势；

A)中构建网络攻防演化博弈模型，具体包含：

A4)、联立网络攻防演化博弈中双方的复制动态方程，构建网络攻防演化博弈模型的复制动态微分方程；

A3)中防御策略的动态复制方程获取过程如下：针对防御方的n种可选防御策略DS＝{DS₁,DS₂,…,DS_n}，假设t时刻选取策略DS_i的防御者个数为x_i(t)，其所占防御决策者总体个数比例为q_i(t)，防御策略DS_i的适应能力为

在t时刻的平均适应度为

定义α_ij为防御方的激励因子，采用α_ij表示防御策略DS_j对防御策略DS_i的依存关系，

获取防御策略DS_i的复制动态方程为：

A3)中攻击策略的动态复制方程获取过程如下：对于攻击方的m种可选攻击策略AS＝{AS₁,AS₂,…,AS_m}，假设t时刻选取策略AS_i的攻击者个数为y_i(t)，其所占攻击决策者总体个数比例为p_i(t)，攻击策略AS_i的适应能力为

在t时刻的平均适应度为

定义β_ij为攻击方的激励因子，采用β_ij表示攻击策略AS_j对攻击策略AS_i的依存关系，

得到攻击策略AS_i的复制动态方程为：

2.根据权利要求1所述的基于攻防演化博弈分析的网络防御行动决策方法，其特征在于，A)中激励因子采用历史数据统计分析方法预先获取。

3.根据权利要求1所述的基于攻防演化博弈分析的网络防御行动决策方法，其特征在于，B)中对网络攻防演化博弈模型进行均衡求解，具体为：令对网络攻防演化博弈模型的复制动态微分方程求解，得到网络攻防演化博弈平衡状态点。

4.根据权利要求1所述的基于攻防演化博弈分析的网络防御行动决策方法，其特征在于，C)中对平衡点进行稳定性分析获取相应的博弈演化趋势，包含：激励因子设置多个数值，通过动力学仿真分别验证相应激励因子在博弈演化过程中影响。