CN116248335A

CN116248335A - 基于智能演化博弈的网络攻防策略选取方法及系统

Info

Publication number: CN116248335A
Application number: CN202211640495.5A
Authority: CN
Inventors: 谭晶磊; 金辉; 孙鹏宇; 张森磊; 李哲铭; 张恒巍; 刘小虎; 张玉臣; 王瑞祥
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-06-09

Abstract

本发明属于网络安全技术领域，特别涉及一种基于智能演化博弈的网络攻防策略选取方法及系统，通过分析网络场景脆弱性信息来获取攻防策略集，结合有限理性博弈情境构建网络攻防演化博弈决策模型，并依据模型来获取攻防双方不同策略组合的攻防收益；在攻防博弈过程中，依据双方未实施策略的收益及当前实施策略收益来设置遗憾值，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法来构建攻防智能体各自实施策略的概率方程，联合攻防双方的概率方程构造攻防双方博弈过程决策选取的微分方程组；通过对微分方程组进行演化均衡求解来获取攻防双方最优策略。本发明将演化博弈与遗憾最小化算法相结合，提升攻防博弈过程中策略选取的正确性和实用性。

Description

基于智能演化博弈的网络攻防策略选取方法及系统

技术领域

本发明属于网络安全技术领域，特别涉及一种基于智能演化博弈的网络攻防策略选取方法及系统。

背景技术

当前网络安全形势日益严峻，网络攻击正朝着智能化、组合化、隐蔽化方向不断发展，越来越多的安全事件对网络空间安全造成了极大的破坏。网络攻防博弈对抗局势愈演愈烈，网络防御也正从被动防御向主动防御不断演进，但是网络安全态势的不对称性仍尤为显著，对于攻击者而言，具有充分的信息、成本和时间优势，可以利用尽可能小的代价造成尽可能大的攻击破坏；而对于防御者而言，疲于应对攻击者固有的各方优势，必须采用尽可能小的成本获取尽可能大的防御收益。博弈论提供一种分析决策理论工具，已经在网络空间安全领域取得了长足的应用，而基于博弈理论研究网络攻防决策已经成为当前的研究热点，因此，通过分析网络攻防行为可以帮助网络安全运维人员提高网络信息系统的防护能力，有助于网络安全运维人员把控网络安全态势，及时科学地实施网络防御策略，从而扭转当前网络空间安全“易攻难守”的不对称态势。

当前网络攻防博弈决策已经发展到非完全理性博弈决策，目前主流的方法主要分为两类，一类是基于演化博弈的网络攻防决策方法，一类是基于强化学习的网络攻防决策方法。基于演化博弈的网络攻防决策方法在无线传感器网络(Wireless Sensor Networks,WSN)中得到了广泛的应用，该类侧重于为防御者提供策略选取指导，但大都基于复制动态方程求解最优策略，策略寻优过程与实际网络攻防过程并不相符，大大降低了应用价值与实际意义。基于强化学习的网络攻防决策方法在车联网、云环境、智能电网、自组织网络等场景中取得了极大的研究进展，但大都基于Markov决策过程，根据未来收益的预期折现，基于值函数进行确定性策略选取，决策收敛性较差，会存在策略退化的现象，不适用于高维连续动作空间。

发明内容

为此，本发明提供一种基于智能演化博弈的网络攻防策略选取方法及系统，将演化博弈与遗憾最小化算法相结合，解决现有技术中网络攻防实际应用中受限的情形。

按照本发明所提供的设计方案，提供一种基于智能演化博弈的网络攻防策略选取方法，包含如下内容：

通过分析网络场景脆弱性信息来获取攻防策略集，结合有限理性博弈情境构建网络攻防演化博弈决策模型，并依据模型来获取攻防双方不同策略组合的攻防收益；

在攻防博弈过程中，依据双方未实施策略的收益及当前实施策略收益来设置遗憾值，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法来构建攻防智能体各自实施策略的概率方程，联合攻防双方的概率方程构造攻防双方博弈过程决策选取的微分方程组；

通过对微分方程组进行演化均衡求解来获取攻防双方最优策略。

作为本发明中基于智能演化博弈的网络攻防策略选取方法，进一步，通过分析网络场景脆弱性信息来获取攻防策略集之前，还包含：利用漏洞扫描工具来获取网络场景的脆弱性信息。

作为本发明中基于智能演化博弈的网络攻防策略选取方法，进一步地，结合有限理性博弈情境构建的网络攻防演化博弈决策模型利用五元组(N,D,π,S,U)表示，其中，N表示攻防博弈局参与人集合，D表示攻防博弈策略空间，π表示攻防博弈策略选取概率集合，S表示攻防博弈状态集合，U表示攻防博弈收益矩阵集合。

作为本发明中基于智能演化博弈的网络攻防策略选取方法，进一步地，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法构建攻防智能体各自实施策略的概率方程：首先，依据策略期望收益设置攻防博弈时策略权值；然后，基于遗憾最小化RM算法将策略选取过程建模为

其中，/>

表示防御者在时刻t攻防博弈时策略DS_j所具有的权值，/>

表示防御者在时刻t选取攻防博弈策略DS_j的概率，/>

表示攻击者在时刻t攻防博弈时策略AS_j所具有的权值，/>

表示攻击者在时刻t选取攻防博弈策略AS_j的概率。

作为本发明中基于智能演化博弈的网络攻防策略选取方法，进一步地，依据策略期望收益设置的攻防博弈时策略权值表示为

其中，λ为学习能力参数，/>

为防御者在时刻t-1攻防博弈时实施策略DS_j时的损失函数，/>

为攻击者在时刻t-1攻防博弈时实施策略AS_j时的损失函数。

作为本发明基于智能演化博弈的网络攻防策略选取方法，进一步地，攻防双方的损失函数由攻防双方中各自所有单个策略期望收益中的最大值和其攻防博弈时刻实施各自对应策略的期望收益的差值来表示。

作为本发明基于智能演化博弈的网络攻防策略选取方法，进一步地，攻防双方博弈过程决策选取的微分方程组表示为

其中，A和B分别表示攻防双方的收益矩阵，概率向量p为所有纯攻击策略选取概率元素组成的向量，概率向量q为所有纯防御策略选取概率元素组成的向量，p_i表示选取攻击策略AS_i的概率，dp_i/dt表示选取策略AS_i的概率随时间的变化率，(Aq)_i表示策略AS_i的期望收益，p^TAq表示攻击策略集的平均收益；q_j表示选取防御策略DS_j的概率，dq_j/dt表示选取策略DS_j的概率随时间的变化率，(Bp)_j表示防御策略DS_j的期望收益，q^TBp表示防御策略集的平均收益，λ为学习能力参数，k表示所有单个策略期望收益中的最大值策略标记。/>

作为本发明基于智能演化博弈的网络攻防策略选取方法，进一步地，通过对微分方程组进行演化均衡求解来获取攻防双方最优策略中，通过遗憾值的学习来更新策略选取概率及策略在策略集中的权重，依据更新后的权重来选取最优策略。

进一步地，本发明还提供一种基于智能演化博弈的网络攻防策略选取系统，包含：模型构建模块、攻防分析模块和最优输出模块，其中，

模型构建模块，用于通过分析网络场景脆弱性信息来获取攻防策略集，结合有限理性博弈情境构建网络攻防演化博弈决策模型，并依据模型来获取攻防双方不同策略组合的攻防收益；

攻防分析模块，用于在攻防博弈过程中，依据双方未实施策略的收益及当前实施策略收益来设置遗憾值，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法来构建攻防智能体各自实施策略的概率方程，联合攻防双方的概率方程构造攻防双方博弈过程决策选取的微分方程组；

最优输出模块，用于通过对微分方程组进行演化均衡求解来获取攻防双方最优策略。

本发明的有益效果：

本发明针对网络安全攻防双方认知能力的差异性与局限性，结合有限理性博弈情境，通过构建基于遗憾最小化RM算法的网络攻防演化博弈决策模型，应用演化博弈理论刻画攻防演化过程，采用RM算法优化策略学习机制，将传统博弈中的静态分析拓展为动态演化过程，保证策略学习的随机性与收敛性，分析不同状态攻防双方不同策略的演化规律，有效提高策略选取算法的收敛性与学习效率；最后通过求解演化稳定均衡给出最优防御决策方法，以刻画攻防双方最优策略的演化轨迹，为适度安全下的网络主动防御提供决策支持。并进一步通过数值实验结果验证，本案方案与与其他博弈决策方法相比，具有较好的优越性。

附图说明：

图1为实施例中基于智能演化博弈的网络攻防策略选取流程示意；

图2为实施例中企业网络场景示意；

图3为实施例中网络状态变换图示意；

图4为实施例中各状态下防御策略选取概率变化曲线示意；

图5为实施例中状态S₁下防御策略不同初始防御选取概率下的策略演化示意；

图6为实施例中状态S₁下攻击策略不同初始攻击选取概率下的策略演化示意；

图7为实施例中不同学习能力下最优防御策略选取概率变化曲线示意；

图8为实施例中博弈策略选取方法收敛速率对比示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

演化博弈是一种面向有限理性局中人的博弈理论，可以有效建模有限理性攻防对抗过程。强化学习是一项复杂的任务，一个智能体所做决策的影响可能取决于系统中其他智能体所做的决策。因此，可以将演化博弈与强化学习相结合，从而利用强化学习机制来求解网络攻防演化博弈决策问题。本案实施例，参见图1所示，提供一种基于智能演化博弈的网络攻防策略选取方法，包含：

S101、通过分析网络场景脆弱性信息来获取攻防策略集，结合有限理性博弈情境构建网络攻防演化博弈决策模型，并依据模型来获取攻防双方不同策略组合的攻防收益；

S102、在攻防博弈过程中，依据双方未实施策略的收益及当前实施策略收益来设置遗憾值，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法来构建攻防智能体各自实施策略的概率方程，联合攻防双方的概率方程构造攻防双方博弈过程决策选取的微分方程组；

S103、通过对微分方程组进行演化均衡求解来获取攻防双方最优策略。

遗憾最小化算法是一种基于策略的强化学习算法，将智能体的行动历史和他当前的策略决策相关联，其核心思想是在智能体实施策略之后，智能体会回顾到目前为止实施策略的历史和相应的回报，事后后悔没有实施最优策略，通过基于事后最优策略所得到的预期收益和当前策略所得到的实际收益构建损失函数度量遗憾值，以此完成策略的更新。基于遗憾最小化算法的网络攻防演化博弈决策模型利用RM算法能够根据博弈历史的遗憾程度决定未来策略选取的更新规则的特性，来描述策略是如何随时间进行演变，即通过建立一个基于RM算法的微分方程组刻画网络防御策略选取概率的动态变化，从而动态地展示网络攻防决策过程和学习行为轨迹。

在网络攻防对抗中，由于攻防双方具有有限理性的特征，对彼此的攻防信息无法完全掌握，因而在面对不确定性的攻防决策时，不可能通过一次博弈就能选取最优策略，往往存在选择一个策略后，发现若实施另外一个策略效果可能会更好的现象。例如攻击者的策略集合为{A₁,A₂,A₃}，防御者的策略集合为{D₁,D₂,D₃}，以防御者为例，用u_d(A_i,D_j)表示攻击者选取策略A_i，防御者选取策略D_j时防御者的收益，

表示防御者未采取策略D_k的遗憾值，即未采取的策略产生的收益减去当前所采取策略D_j产生的收益，满足

假设攻击者选取策略A₁时，防御者选取D₁，D₂，D₃时得到的博弈收益分别为-1，0，1，第一回合时，攻防以策略(A₁,D₁)进行博弈，在第一回合后(事后)，可计算得到策略D₂的遗憾值为1，同理可得策略D₃的遗憾值为2，那么在第二回合博弈中，防御者选取策略D₁，D₂，D₃的概率分别为0，1/3，2/3，因此，在第二回合中防御者趋向于选取策略D₃。如此反复，每一回合后通过遗憾值计算各策略的选取概率，从而决定下一回合的策略选取，通过不断的更新策略选取概率，最终找到最优策略。

本案实施例中，将演化博弈与遗憾最小化算法相结合，将网络攻防策略参数化，通过设计面向非完全理性场景的网络攻防博弈决策方案来突破基于复制动态方程的演化博弈学习机制，保证决策的收敛性；另一方面，引入基于策略的遗憾最小化算法，保证策略学习的随机性，能够为网络攻防决策提供科学、高效的博弈理论工具，有效提高网络安全运维人员的防御能力。

可利用漏洞扫描工具来获取网络场景的脆弱性信息。结合有限理性博弈情境构建的网络攻防演化博弈决策模型利用五元组(N,D,π,S,U)表示，其中，N表示攻防博弈局参与人集合，D表示攻防博弈策略空间，π表示攻防博弈策略选取概率集合，S表示攻防博弈状态集合，U表示攻防博弈收益矩阵集合。

可将基于遗憾最小化算法网络攻防演化博弈决策模型(Network Attack-defenseEvolutionary Game Making-decision Model based on Regret Minimum)表示为：ADEG-RM＝(N,D,π,S,U)。其中，N＝(N_A,N_D)表示网络攻防博弈局中人集合，N_A为攻击者，N_D为防御者。D＝(AS,DS)表示网络攻防博弈策略空间，AS＝{AS₁,AS₂,…,AS_m}表示攻击者的策略集合，DS＝{DS₁,DS₂,…,DS_n}表示防御者的策略集合，m和n分别表示攻防双方的策略数量，m,n为正整数且m,n≥2。π＝(p,q)表示网络攻防博弈信念集合，p＝(p₁,p₂,…,p_m)表示对攻击者的策略集AS的一种概率分布，即p_i∈p表示攻击者以概率p_i随机选择策略AS_i实施攻击，满足1≤i≤m，

q＝(q₁,q₂,…,q_n)表示对防御者的策略集DS的一种概率配置，即q_j∈q表示防御者以概率q_j随机选择策略DS_j实施防御，满足1≤j≤n，/>

S＝(S₁,S₂,...,S_n)表示网络攻防博弈的状态集合，将攻击者对服务器的控制权视为网络状态。U＝(U_A,U_D)表示网络攻防博弈的收益函数集合，指网络攻防双方在博弈过程中获得的收益，不同的策略组合(AS_i,DS_j)得到不同收益。U_A为攻击者的收益矩阵，U_D为防御者的收益矩阵。

攻防收益矩阵M由不同攻防策略(AS_i,DS_j)博弈下所产生攻防收益值(a_ij，d_ij)组成，其中A为攻击者的策略收益矩阵，B为防御者的策略收益矩阵，攻击收益值a_ij＝U_A(AS_i,DS_j)，防御收益值d_ij＝U_D(AS_i,DS_j)。

复制动态方程是描述群体中选择较成功的策略的个体逐渐增加，该策略选取比例不断调整变化，最终趋于稳定状态，其策略更新规则是单个策略的期望收益高于平均收益的策略逐步被更多的个体所采取，那么该策略的选取概率(使用该策略的个体在群体中占比)动态变化直至稳定。因此，可用以研究攻防演化博弈过程中攻防双方选择各自策略的概率如何随时间动态变化。则攻击者以概率p_i选取攻击策略AS_i，防御者以概率q_j选取防御策略DS_j的复制动态演化方程为

其中，A和B分别是攻防双方的收益矩阵，概率向量p＝{p₁,p₂,...,p_m}描述的是所有纯攻击策略{AS₁,AS₂,...,AS_m}的选取概率，概率向量q＝{q₁,q₂,...,q_n}描述的是所有纯防御策略{DS₁,DS₂,...,DS_n}的选取概率。对于攻击者来说，p_i表示选取攻击策略AS_i的概率，dp_i/dt表示选取策略AS_i的概率随时间的变化率，(Aq)_i表示策略AS_i的期望收益，p^TAq表示攻击策略集的平均收益；对于防御者来说，q_j表示选取防御策略DS_j的概率，dq_j/dt表示选取策略DS_j的概率随时间的变化率，(Bp)_j表示防御策略DS_j的期望收益，q^TBp表示防御策略集的平均收益。由式(1)可以看出，策略选取的概率与单个策略的期望收益和策略集的平均收益的差值成正比。

基于期望收益的损失函数可表示为：

由于期望收益能够更好地反映某一防御策略对于所有攻击策略的整体效果，因此，基于期望收益来设置损失函数。损失函数

是对遗憾值的度量，其中/>

表示实施某一策略DS_j的期望收益(Bp)_j，r表示所有单个策略期望收益中的最大值，即r＝max_k(Bp)_k。

多项式权值算法(The Polynomial Weight algorithm)是RM算法中的一种，在事后计算相对最优策略的遗憾，其定义了分配给策略DS_j的权值

与其产生损失/>

之间的关系，通过损失不断更新策略DS_j在策略集中的受偏好程度，得到如式(3)所示的权值更新公式可表示为：

其中，λ是学习能力参数，用于控制权值变化速度，寻找最优策略的过程实际可以理解为分配给策略的权值不断增大的过程，在博弈初始时，策略集中的每个策略的权值均等，随着攻防博弈的进行，防御者不断增强对博弈环境、攻击知识等不确定信息的了解，逐步调整各个策略在策略集中的权重，由此可知，只有某一策略与最优策略的损失越小，在下一回合博弈时该策略的权值才会增加。

基于RM算法的网络防御策略选取概率可表示为：

RM算法作为一种基于策略的学习算法，直接针对策略进行建模，如式(4)所示，能够更好地处理以概率选取随机策略的学习。其中

表示防御者在时刻t攻防博弈时策略DS_j所具有的权值，该权值基于损失函数/>

更新，权值越大，则该策略被选取的概率越大，以此来达到策略选取概率更新的目的。

网络攻防双方寻找最优策略的过程，是一个不断学习、探寻和优化的过程，在博弈过程中逐步更新各自的策略选取概率。以防御者策略寻优为例，可用

表示t时刻防御策略DS_j选取概率的更新，可通过式(5)表示，如下。

由上式可知，策略选取概率的更新

取决于分配的权值和该策略选取的概率。

通过式(3)、式(4)和式(5)关联可得到式(6)基于RM算法的网络攻防演化博弈决策方程，刻画攻防双方对最优策略的探索，描述攻防策略选取的更新规则。

基于RM算法的网络攻防演化博弈决策方程可表示为：

/>

上式为基于RM算法得到的期望损失加权的复制动态方程，用以刻画攻防博弈过程中攻防双方有限理性策略选取的随时间的动态演化。在网络攻防对抗中，攻防双方通过遗憾值来更新策略选取的概率，达到最优策略选取的目的，即在多次博弈中通过对遗憾值的学习不断更新每个策略在策略集中的权重，从而找到各自的最优策略。

基于上述方法方案内容，实现最优网络攻防演化博弈决策选取的算法可设计为如算法1所示。

/>

/>

进一步地，基于上述的方法，本发明实施例还提供一种基于智能演化博弈的网络攻防策略选取系统，包含：模型构建模块、攻防分析模块和最优输出模块，其中，

为验证本案方案有效性，下面结合实验数据做进一步解释说明：

部署小型企业网络场景，用于验证所提博弈模型的有效性。首先设置网络场景，根据脆弱性信息给出攻防策略集和攻防策略收益矩阵；其次计算出不同状态下的最优防御策略选取概率，动态刻画防御策略选取的演化轨迹；然后验证防御策略选取的稳定性，即防御策略选取概率不随初始状态的变化而变化。最后，将本案所提算法与基于复制动态方程的攻防演化博弈算法进行比较，以验证本案所提算法的收敛性和学习效率。

1、实验设置

参见图2所示，网络主要由LDAP服务器、Web服务器以及FTP服务器三类服务器集群组成，其中，基于Apache服务器和Mysql数据库搭建Windows系统下的LDAP服务器，基于PentesterLab搭建Web服务器，最后基于Docker工具Vulnstudy搭建FTP服务器，并利用漏扫工具AWVS设置服务器漏洞。攻击者的目的是入侵服务器集群，以各个服务器集群的漏洞为跳板，获取服务器的控制权限，最终通过不同的攻击路径窃取FTP服务器集群中关键的网络数据，防御者的目的是保护服务器集群，监控并识别网络攻击路径，通过部署入侵检测系统阻断攻击。

攻击者在初始状态具有对LDAP服务器的User权限，其目的是窃取FTP服务器中的关键数据，可将攻击者的攻击策略定义为基于各个服务器的漏洞扫描和利用行为，分别对应Exp-LDAP，Exp-Web，Exp-FTP，不失一般性地，Exp-LDAP表示攻击者利用特定漏洞(CVE-2016-5195)攻击LDAP服务器，Exp-Web表示攻击者利用特定漏洞(CVE-2017-5095)攻击Web服务器，Exp-FTP表示攻击者利用特定漏洞(CVE-2015-3306)攻击FTP服务器，具体漏洞信息见表1。设置两条攻击路径：

攻击路径1：Exp-LDAP—>Exp-FTP；

攻击路径2：Exp-LDAP—>Exp-Web—>Exp-FTP。

按照不同的攻击路径，网络状态也在发生相应变换，如图3所示，左边虚线为攻击路径1，右边虚线为攻击路径2。初始状态S₀下可以通过特定漏洞实施Exp-LDAP，从而到达状态S₁，该状态攻击者具有LDAP服务器的root权限，Web服务器的user权限以及FTP服务器的user权限；在状态S₁攻击可通过远程代码执行获取FTP服务器的root权限达到最终目的，或者通过跨站脚本攻击对Web服务器实施Exp-Web，继而到达状态S₂，在该状态攻击者具有Web服务器的root权限和FTP服务器user权限，状态S₂下攻击者实施Exp-FTP即可获取到FTP服务器的root权限达到最终目的。当然，攻击者也有可能担心被检测到而不实施攻击No-Exp，而继续保持在相应状态下。

与此同时，针对不同服务器漏洞的特定漏洞扫描攻击，防御者监控主机运行的服务和流量，并部署相应的入侵检测系统，可将防御者的防御策略定义为基于各个服务器漏洞的攻击检测与入侵防御，分别对应Mon-LDAP，Mon-Web，Mon-FTP，不失一般性地，Mon-LDAP表示防御者使用Auditd软件监控系统敏感文件的访问权限与痕迹，Mon-Web表示防御者使用OSSEC HIDS软件检测Web服务器的日志信息，Mon-FTP表示防御者使用Snort软件监听特定状态下FTP服务器端口的流量。防御者也可能受限于资源和性能，从而选择不实施监控，可用No-mon表示。

假设防御者可使用的资源是有限的，因此，需要选择最优策略来实施监控；而攻击者避免攻击行为被防御者检测，因此也需要实施最优策略来利用漏洞。实验网络中各类服务器漏洞信息如表1所示。漏洞是驻留在服务器给定端口上固有的安全缺陷，它可以基于机密性(Confidentiality)、完整性(Integrity)和可用性(Availability)(CIA)三个方面进行衡量。

表1服务器漏洞信息

假设攻击者所获得收益即为防御者的损失，将攻防收益视为零和，即攻击收益与防御收益之和为零。攻防策略收益的量化方法中，可依据不同攻防策略的特点，得到不同状态S₀、S₁、S₂下网络攻防策略的收益矩阵，如表2、表3、表4所示。

表2状态S₀下攻防策略收益矩阵

表3状态S₁下攻防策略收益矩阵

表4状态S₂下攻防策略收益矩阵

2、数值分析

1)不同状态下最优防御策略选取概率

根据算法1初始化攻防演化博弈模型，攻击者的策略空间为{No-exp,Exp-LDAP,Exp-Web,Exp-FTP}，攻击策略空间的概率分布为{p₁,p₂,p₃,p₄}且满足

防御者的策略空间为{No-mon,Mon-LDAP,Mon-Web,Mon-FTP}，其策略空间的概率分布为{q₁,q₂,q₃,q₄}且满足/>

假设攻击者和网络管理员都具有一定的学习能力，由此设置λ＝0.3。下面在不同状态下建立基于RM算法的攻防策略演化方程的基础上，分别研究各状态下的最优防御策略的演化过程。

通过仿真得到状态S₀、S₁和S₂下各防御策略的演化轨迹，如图4所示。其中，横坐标t表示攻防博弈次数，纵坐标表示防御策略选取概率。为了能够更好地说明策略选取的演化效果，初始状态均以等概率选取相应策略。对于两策略博弈，如状态S₀和S₂，设置攻防策略初始选取概率均为1/2；对于三策略博弈，如状态S₁，设置攻防策略初始选取概率均为1/3。从图中可以看出，防御策略{No-mon,Mon-LDAP,Mon-Web,Mon-FTP}在不同状态下的最优防御策略的变化曲线。网络管理员在与攻击者反复博弈过程中，经过策略不断试错、学习和调整，防御策略的选取概率最终达到稳定状态。状态S₀下防御者面对攻击时，防御者最优策略最终以混合概率{q₁＝0.41862,q₂＝0.58138}选取策略{No-mon,Mon-LDAP}实施；状态S₁下防御者最终得到的最优防御策略是以混合概率{q₁＝0.00006,q₃＝0.53979,q₄＝0.46015}选取策略{No-mon,Mon-Web,Mon-FTP}加以实施；状态S₂下防御者最优策略最终以混合概率{q₁＝0.15961,q₂＝0.84039}选取策略{No-mon,Mon-FTP}实施，从而能够确保在各状态以最小成本达到最大防御效果。

初始状态S₀下攻击者实施Exp-LDAP，对于防御者来说，最优防御策略是采取Mon-LDAP阻断攻击切断攻击者向FTP服务器攻击的源头，或考虑到防御资源受限和成本过高的因素，而暂不采取监控；状态S₁下可通过直接和间接两种方式获取到FTP服务器的root权限，因此防御者在状态S₁为能够阻断攻击，最优防御策略是以{q₁＝0.00006,q₃＝0.53979,q₄＝0.46015}的概率实施，既可以防止攻击者直接攻击FTP服务器，也可以防止攻击者间接攻击Web服务器。如果防御者错误地选取了No-mon策略使攻击者获取到Web服务器的root权限，到达状态S₂，那么攻击者在实施Exp-FTP时，防御者将会以大概率0.84039选取最优防御策略Mon-FTP来阻断对FTP服务器的攻击，以防FTP服务器被攻陷造成关键数据的丢失。

2)防御策略选取收敛性

为了能够更好地说明防御策略选取的稳定性，以状态S₁下的攻防博弈为例。设置如下攻防场景，第一种情况是针对初始时刻不同防御策略选取概率下的攻防策略演化，假设攻击者以等概率1/3随机选取攻击策略，变化防御者的策略选取，观察最优防御策略的演化轨迹；第二种情况是针对初始时刻不同攻击策略选取概率下的攻防策略演化，假设防御者以等概率1/3随机选取防御策略，变化攻击者的策略选取，观察最优防御策略的演化轨迹。

第一种情况，不同初始防御策略选取概率。针对不同的防御策略，此时攻击者以等概率1/3随机实施攻击策略{No-exp,Exp-Web,Exp-FTP}。防御策略{No-mon,Mon-Web,Mon-FTP}选取的初始概率分别对应以下三种情况：①{q₁＝0.1,q₃＝0.3,q₄＝0.6}；②{q₁＝0.3,q₃＝0.5,q₄＝0.2}；③{q₁＝0.6,q₃＝0.1,q₄＝0.3}，通过实验可以得到以上三种情况下状态S₁的防御策略的演化轨迹图，如图5所示。

第二种情况，不同初始攻击策略选取概率。针对不同的攻击策略，防御者以等概率1/3随机选取防御策略{No-mon,Mon-Web,Mon-FTP}。攻击策略{No-exp,Exp-Web,Exp-FTP}选取的初始概率分别对应以下三种情况：①{p₁＝0.1,p₃＝0.3,p₄＝0.6}；②{p₁＝0.2,p₃＝0.5,p₄＝0.3}；③{p₁＝0.7,p₃＝0.1,p₄＝0.2}，此时通过实验可以得到以上三种情况下状态S₁的防御策略的演化轨迹图，如图6所示。

由上图可知，最优防御策略的决策结果并不会受到开始时刻防御策略和攻击策略的选取概率的不同而发生变化，在博弈过程中最终会达到一个稳定状态，并始终保持这一稳定状态。

3)学习能力变化对防御策略选取的影响

以状态S₂为例来说明不同学习能力对选取最优防御策略的影响。攻防双方初始时以1/2概率在攻防策略空间中随机选取各自的策略，在这样的场景下，通过改变学习能力参数λ，观察学习能力的提升对攻防双方策略演化的影响，即当λ＝0.1,0.3,0.5,0.7，0.9时，研究攻防双方博弈的演化规律。采用算法1求解状态S₂下防御策略演化方程，可得到在不同学习能力下防御决策结果的变化曲线如图7所示，最优防御策略的决策结果最终均趋于稳定，但不同的学习能力到达稳定所需的时间显然不一样。图中显示随着学习能力λ的不断增强，最优防御策略选取概率演化到稳定状态的时间越短，说明在攻防对抗演化过程中，随着防御者学习能力的提升，对策略选取有了更加准确的认识，因此在策略选取上能够快速决策，选出最佳防御策略Mon-FTP。

4)博弈策略选取方法比较

考虑到攻防双方受攻防知识、计算能力等因素的影响，攻防双方仅具有关于对手的部分信息，而且博弈需要不断地试错学习，是一个逐步寻优的过程。为了更好地说明本案方法的优越性，将本案方法与基于传统复制动态方程的策略选取方法作比较。比较结果如图8所示，x轴是博弈次数t，y轴是最优防御策略选取概率，图中深灰色实线表示基于传统复制动态方程的策略选取方法最优防御策略演化轨迹，浅灰色实线表示本案方案最优防御策略演化轨迹。从图中可以看出，本案方案在t＝504时就已找到最优防御策略，而基于传统复制动态方程的策略选取方法在t＝578时才找到最优防御策略。因此，本案方法相对于基于传统复制动态方程的策略选取方法学习最优策略时用时更少，速度更快，最优策略收敛速率提升了12.8％。同时学习过程中波动幅度也相对较小，对防御者做出判断的影响也相对较小，具有更好的收敛性和学习效率。

因此，基于以上实验数据能够更好说明，本案方案通过将演化博弈与遗憾最小化算法相结合，将网络攻防策略参数化，能够提升攻防博弈过程中策略选取的正确性和实用性，便于实现网络威胁防御中资源的最优分配。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于智能演化博弈的网络攻防策略选取方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，通过分析网络场景脆弱性信息来获取攻防策略集之前，还包含：利用漏洞扫描工具来获取网络场景的脆弱性信息。

3.根据权利要求1或2所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，结合有限理性博弈情境构建的网络攻防演化博弈决策模型利用五元组(N,D,π,S,U)表示，其中，N表示攻防博弈局参与人集合，D表示攻防博弈策略空间，π表示攻防博弈策略选取概率集合，S表示攻防博弈状态集合，U表示攻防博弈收益矩阵集合。

4.根据权利要求1所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，利用策略权值和策略期望收益损失并基于遗憾最小化RM算法构建攻防智能体各自实施策略的概率方程：首先，依据策略期望收益设置攻防博弈时策略权值；然后，基于遗憾最小化RM算法将策略选取过程建模为

其中，/>

表示防御者在时刻t攻防博弈时策略DS_j所具有的权值，/>

表示防御者在时刻t选取攻防博弈策略DS_j的概率，/>

表示攻击者在时刻t攻防博弈时策略AS_j所具有的权值，/>

表示攻击者在时刻t选取攻防博弈策略AS_j的概率。

5.根据权利要求4所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，依据策略期望收益设置的攻防博弈时策略权值表示为

其中，λ为学习能力参数，/>

为防御者在时刻t-1攻防博弈时实施策略DS_j时的损失函数，/>

为攻击者在时刻t-1攻防博弈时实施策略AS_j时的损失函数。

6.根据权利要求5所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，攻防双方的损失函数由攻防双方中各自所有单个策略期望收益中的最大值和其攻防博弈时刻实施各自对应策略的期望收益的差值来表示。

7.根据权利要求1所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，攻防双方博弈过程决策选取的微分方程组表示为

其中，A和B分别表示攻防双方的收益矩阵，概率向量p为所有纯攻击策略选取概率元素组成的向量，概率向量q为所有纯防御策略选取概率元素组成的向量，p_i表示选取攻击策略AS_i的概率，dp_i/dt表示选取策略AS_i的概率随时间的变化率，(Aq)_i表示策略AS_i的期望收益，p^TAq表示攻击策略集的平均收益；q_j表示选取防御策略DS_j的概率，dq_j/dt表示选取策略DS_j的概率随时间的变化率，(Bp)_j表示防御策略DS_j的期望收益，q^TBp表示防御策略集的平均收益，λ为学习能力参数，k表示所有单个策略期望收益中的最大值策略标记。

8.根据权利要求7所述的基于智能演化博弈的网络攻防策略选取方法，其特征在于，通过对微分方程组进行演化均衡求解来获取攻防双方最优策略中，通过遗憾值的学习来更新策略选取概率及策略在策略集中的权重，依据更新后的权重来选取最优策略。

9.一种基于智能演化博弈的网络攻防策略选取系统，其特征在于，包含：模型构建模块、攻防分析模块和最优输出模块，其中，

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序，并在程序执行时实现权利要求1～8任一项所述的方法步骤。