CN113553591A

CN113553591A - 一种基于进化博弈论的多阶段动态防御的方法

Info

Publication number: CN113553591A
Application number: CN202110717786.9A
Authority: CN
Inventors: 罗智勇; 曹宇彤; 王启龙
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-10-26

Abstract

一种基于进化博弈论的多阶段动态防御的方法，在动态对抗网络中，选择最优防御策略是一个困难的问题。要解决这个问题，我们从攻击者和防御者双方的现实有限理性出发。首先，结合不完全信息博弈场景，建立贝叶斯攻防进化博弈模型。同时，将攻防双方的类型集和策略集的能力扩展到任意n，使他们拥有多层次的攻击/防御策略，也考虑到了防御信号的影响作用。攻防双方通过不断学习调整自己的策略。博弈过程经过多次迭代，最终达到动态均衡状态。通过计算攻防策略的成本/收益。得出最优防御策略。本发明能够选择出最优的安全防御策略，提高了防御决策的动态分析效率，增强了防御态势的预测能力。

Description

一种基于进化博弈论的多阶段动态防御的方法

技术领域

本发明涉及网络安全领域，具体涉及了一种在动态攻防过程中选择最优防御的方法。

背景技术

随着互联网的广泛应用，人们的生产和生活越来越离不开计算机。目前我们采用不断更新的网络技术来提高网络连接性，但同时我们也正在见证一个前所未有的网络攻击时代。确保数据、设备、网络和用户的机密性、完整性和可用性已经变得至关重要。

大多数网络安全研究的重点要么是针对特定的漏洞，要么是提出特定的防御算法来抵御定义明确的攻击方案。大多数的防御技术，都是静态被动防御，然而在面对网络中未知攻击、瞬时攻击时,无法有效地完成动态的安全保障。虽然这种网络安全研究很重要，但很少有人关注攻击者和防御者之间的动态交互。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于提供了一种基于进化博弈论的多阶段动态防御的方法。

本发明通过建立攻击者/防御者的模型，分析攻防活动的对抗和演变趋势。本发明还考虑到防御信号的影响。首先在单阶段博弈中，攻防双方都使用贝叶斯规则，根据环境信息和收集的信息选择最优决策，以达到精炼的贝叶斯均衡状态。但是，在信息不对称的前提下，由于参与者的安全知识和技能水平不同，由此产生的决策机制和收益也会不同。随着博弈阶段数量的增加，低收益的参与者会不断学习高收益参与者的策略，从而完善他们的决策机制。有了学习机制，攻守双方的活动继续处于多阶段状态，呈现出动态演化的趋势。基于有限理性和信息不对称的前提，构建了多阶段攻防信号演化博弈模型。通过建立演化博弈的复制者动力学方程，分析博弈参与者决策机制的演化，计算量化收益，求解演化均衡，有助于选择最优防御策略。

本发明采用的技术方案包括如下步骤：

（1）针对网络攻击过程中存在的信息不对称性，防御者释放虚假防御信号，从而影响攻击者对攻击策略的选取，使网络防御变被动为主动；

（2）建立不完全信息攻防进化博弈模型；

（3）攻防策略成本/收益量化

（4）最优策略选择算法求解。

所述步骤（1）具体为：

（1.1）初始阶段，防御信号最强，第二阶段攻防双方根据前一阶段的防守策略和现阶段的防守信号对防守者的类型做出判断，同时，策略选择的概率也会随着时间的推移在学习机制的影响下发生变化，经过多个阶段后，攻防双方在游戏的各个阶段重复上述过程，此时攻击者可以完全确定防御者的类型，即防御信号的作用消失，结果，不完全信息状态过渡到完全信息状态，攻防博弈达到动态平衡。

所述步骤（2）具体为：

（2.1）不完全信息攻防进化博弈模型用五元组来表示(N，T，S，K，U)。

所述步骤（3）具体为：

（3.1）在网络攻防博弈中,攻防双方的收益通常用收益向量表示。

所述步骤（4）具体为：

（4.1）用U(σ∗, σ∗) ≥ U(σ, σ∗)保证纳什均衡策略，其中σ≠σ*；

（4.2）利用动态进化方程计算进化稳定均衡:

=0

从解中得到网络攻防博弈决策的进化稳定均衡。

（4.3）设计基于进化稳定均衡的最优防御策略选择算法:

a)初始化五元组(N，T，S，K，U)；

b)构造T_A= {t_k}，T_D={t}，1 ≤ k ≤ λ；

c)构造E_A= {ε_k}，E_D= {ε}，0 ≤ ε_k≤ 1；

d)构造S_A= {A_i}，1 ≤ i ≤ n；S_A= {D_j}，1 ≤ j ≤ m；

e)构造Pk= {p_ki}，∀k,∃0 ≤ p_ki≤ 1，

；构造Q = {q_j}，0 ≤ q_j≤ 1，

;

f)计算Prob(t_k|t)；

g)设置防御效能ω，0<ω<1；

h)遍历每一种攻击类型；计算不同策略组合下攻击收益和防御收益；

i)为t_k型攻击者的每个策略构造随机复制者动态方程F(p_k)；

j)为防御者的每个策略构造随机复制者动态方程G(q)；

k)计算进化稳定均衡Y；

l)输出最佳防御策略。

通过上述方案，本发明的优点是：提出了一种量化攻防策略收益/成本的方法，并利用复制动力学方程计算攻防策略选择的概率。最后，通过模拟网络系统中的攻防行为，求解进化平衡，获得最优防御策略。表明进化稳定攻防策略具有更强的可预测性和鲁棒性。验证了选择最优防御策略的可行性，可为决策者选择合适的安全防御策略提供指导。

附图说明

图1为本发明的实验网络系统的结构图。

图2为本发明的实验网络中根据采用不同策略的回报矩阵形成的博弈树。

图3为本发明的实验网络中t₁类型攻击者选择策略“A₁ = DoS”时的演化轨迹。

图4为本发明的实验网络中t2类型攻击者选择策略“A₂ = Sniffer”时的演化轨迹。

图5为本发明的实验网络中防御者选择策略“D₁ =Patch Upgrade”时的演化轨迹。

具体实施方式

下面结合附图和实例对本发明进行进一步说明。

本发明实施例如下：

步骤1：在博弈初始阶段，防御者释放适合本阶段的欺骗信号，并选取相应的最优防御策略。攻击者基于博弈每阶段的学习经验，使防御欺骗信号效能存在一定的衰减，通过衰减因子δ_i（0<δ_i<1）表示。

步骤2：本发明中只考虑两种基本的攻防策略：两种基本防御策略“D₁ =补丁升级”和“D₂=服务关闭”，两种基本的攻击策略“A₁ = DoS”和“A₂ = Sniffer”。根据防御的历史经验，我们可以将攻击类型分为“t₁=冒险”和“t₂=保守”，回报矩阵分别为：

;

。

步骤3：当攻击类型为“t₁=冒险”时，选择策略“A₁ = DoS”的人口比例为p₁₁(0 ≤p₁₁≤ 1)；同时，选择策略“A₂= Sniffer”的人口比例为p₁₂ = 1-p₁₁。当攻击类型为“t₂ =保守”时，选择策略“A₁ = DoS”的人口比例为p₂₁(0 ≤ p₂₁≤ 1)，选择策略“A₂ = Sniffer”的人口比例为p₂₂ = 1-p₂₁。选择策略“D₁ =Patch Upgrade”的防守人口比例为q(0 ≤ q ≤1)。同时，选择策略“D₂=Service Close”的游戏人口比例为1-q，同时，根据参与者的安全知识设置衰减因子δ。

步骤4：攻击类型t₁的演化方程为：

攻击类型t2的演化方程为：

防守方演化方程为：

。

步骤5：令上述三个方程右侧等于零，可得到防守方最佳防御策略为“D₁ =PatchUpgrade”和“D₂=Service Close”。概率分别为q和1-q。

步骤6：结合攻防收益量化表，可以得到步骤2中两种基本攻防策略的攻防收益。

表1攻防收益量化表

步骤7：在实验中设置不同的策略初始值，分别得到攻击者和防御者的进化轨迹。由图3可知，t₁类型的攻击者更喜欢“A₂= Sniffer”攻击。防御者选择“D₁ =Patch Upgrade”的纯策略，会增加攻击者入侵的难度，提高防御者自身的收益。由图4可知，经过策略学习和改进，t₂类型攻击者最终会选择概率为1的“A₁ = DoS”攻击。以上结果验证了所提出的攻防进化博弈模型能够动态刻画策略选择的轨迹。

Claims

1.一种基于进化博弈论的多阶段动态防御的方法，其特征是：所述方法具体步骤如下：

步骤1：分析攻防有限理性；

步骤2：将不完全信息攻防进化博弈模型形式化为五元组(N，T，S，K，U)；

步骤3：攻防策略成本/收益量化；

步骤4：最优策略选择算法求解。

2.根据权利要求1所述的一种基于进化博弈论的多阶段动态防御的方法，其特征是，所述步骤1具体为：不同攻防双方具有不同的认知能力，在网络攻击过程中，不同策略群体通过研究和学习其他群体的策略，低收益群体遵循高收益群体的策略，以改进自己的策略，导致了有限理性的重复博弈。

3.根据权利要求1所述的一种基于进化博弈论的多阶段动态防御的方法，其特征是，所述步骤2具体为：N代表游戏参与者集合，其中N_D是防守者群体，N_A是攻击者群体；T代表防守者和进攻者的类型空间，T_A＝{t₁，t₂，…}是攻击者种群的类型空间，T_D＝{t}是防守者的类型；S代表攻击者和防御者的策略集，其中DS代表防御者的策略集，DS＝{a_i|i＝1,2,…}，AS代表攻击者的策略集，AS＝{d_j|j＝1,2，…}；K表示多级博弈中的级数，即K＝{1,2，…}；U＝(U_A，U_D)是收益的集合，U_A和U_D分别是攻击方和防守方的收益。

4.根据权利要求1所述的一种基于进化博弈论的多阶段动态防御的方法，其特征是，所述步骤3具体为：

和

分别表示当策略为(A_i,D_j)且攻击方类型为t_k时攻击者和防守者的代价，可以构成代价矩阵M_k。

5.根据权利要求1所述的一种基于进化博弈论的多阶段动态防御的方法，其特征是，所述步骤4具体为：攻防进化稳定策略：σ*＝(P,Q)；其中，P为攻击方在策略空间T_A上选择策略的概率，Q为防守方在T_D上选择策略的概率；防御者结合当前防御情况，分析攻击者类型P＝(ε1,ε2…ελ)的先验概率分布，由于防御者只有一个t型，所以防御者推断的攻击者类型的概率可以用贝叶斯公式来计算：

其中，t_k表示攻击者类型；防守者选择不同类型的防守策略D_j的平均预期回报：

防御者在反复学习后，选择策略D_j的防御者比例随时间变化有

其中，δi为衰减因子；类型为t_k的攻击者的平均回报：

攻击者在反复学习后，选择策略A_i的攻击者比例随时间变化有

其中，δi为衰减因子。