CN116708042A

CN116708042A - 一种用于网络防御博弈决策的策略空间探索方法

Info

Publication number: CN116708042A
Application number: CN202310986647.5A
Authority: CN
Inventors: 庄连生; 黄义鸿
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-09-05
Anticipated expiration: 2043-08-08
Also published as: CN116708042B

Abstract

本发明涉及人工智能领域，具体涉及一种用于网络防御博弈决策的策略空间探索方法，为两个势力构建博弈策略组和策略表示矩阵；通过对策略表示矩阵求解近似的纳什均衡得到元策略；两个势力各自构建最优对策模型求解最优对策，比较防御方的最优对策相对于对手的元策略能否取得大于给定阈值的优势，若能，则根据元策略给出的最优对策模型上的若干个概率分布生成网络防御策略；若不能，则将最优对策添加至博弈策略组，并基于博弈策略组重新生成元策略，求解最优对策。本发明提供的方法充分地利用采样得到的网络攻防博弈数据，并达到与在线方法相同的性能，具有更高的数据效率，更加适用于数据成本较大的实际网络防御问题。

Description

一种用于网络防御博弈决策的策略空间探索方法

技术领域

本发明涉及人工智能领域，具体涉及一种用于网络防御博弈决策的策略空间探索方法。

背景技术

维护网络安全的主旨在于保护网络系统的硬件安全，软件安全，及网络系统中储存的数据安全，使其不因偶然事故或者具有主观恶意的行为遭到破坏、更改或者信息泄露，保证网络系统连续可靠正常地运行，网络服务不中断。网络攻防是网络空间安全领域的重要课题，研究网络攻防策略能够帮助相关组织了解并提升自身的网络防御能力，减少被网络攻击的可能性，最大程度地保证网络安全。

通过对网络攻防策略的研究可以更好地应对不断演化的网络攻击威胁，迭代网络防御体系。网络攻防与零和博弈在对抗关系和策略依存等方面具有相似性，因此博弈论也被认为是网络安全领域的基础理论之一。根据博弈论对网络攻防进行建模，分析网络攻防策略日益成为当今网络安全领域的研究热点。

传统的网络攻防策略推理方法中，网络攻防中的策略推理大多采用在线的强化学习方法。这类方法需要持续性地针对对手不同的策略求解相对应的最优对策，依赖于对网络攻防双方博弈交互数据的大量采样。高频率的重求解会导致这类方法难以有效利用历史采样的博弈数据，历史数据利用率低下，还会带来数据成本高昂的问题。在一些实际的网络攻防问题中，对真实的网络攻防双方博弈过程的大量采样便具有较高的数据代价，传统方法也越来越难以满足需求。

发明内容

为解决上述问题，本发明提供一种用于网络防御博弈决策的策略空间探索方法。

该方法包括：

步骤一，互为对手势力的网络攻击方和网络防御方两个势力各初始化一个采样攻防策略组合，两个势力根据各自的采样攻防策略组合/>进行若干局网络攻防博弈，对网络攻防博弈的数据采样得到静态博弈数据集/>；

步骤二，为两个势力各初始化一个包括个策略的博弈策略组，并基于各自的博弈策略组定义一个行数和列数均为/>的策略表示矩阵，第/>方势力的策略表示矩阵的第/>行第列的元素/>代表第/>方势力的博弈策略组的第/>个策略与对手势力/>的博弈策略组的第/>个策略进行组合后网络防御方的防御期望收益，/>；

步骤三，对两个势力的策略表示矩阵求解近似的纳什均衡得到两个势力的完成更新的元策略；

步骤四，为两个势力各构建最优对策模型，最优对策模型根据对手势力的完成更新的元策略基于离线强化学习求解最优对策；为两个势力各构建一个与最优对策模型结构完全相同的拷贝模型，称为目标网络；

步骤五，基于目标网络和静态博弈数据集并根据强化学习时序差分算法计算最优对策模型的损失函数/>，并根据损失函数/>训练最优对策模型，/>为最优对策模型的模型参数；

步骤六，计算网络防御方的最优对策模型生成的最优对策对网络攻击方的完成更新的元策略的优势/>，如果优势/>小于给定阈值，则将两个势力的最优对策添加至各自的博弈策略组，重新求解元策略并更新最优对策模型，直到优势/>不小于给定阈值；

步骤七，根据网络防御方的完成更新的元策略给出的最优对策模型上的若干个概率分布，为网络防御方生成防御策略。

进一步的，步骤二中所述第方势力的策略表示矩阵的第/>行第/>列的元素/>为：

；

其中，代表策略表示矩阵的每个元素进行采样平均需要对弈的局数，/>表示对策略表示矩阵的每个元素进行采样的第/>局，/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹，终局指网络攻击结束或者网络防御失败，/>表示终局时刻，代表博弈轨迹/>下第/>方势力的收益。

进一步的，步骤三具体包括：

步骤三A，为两个势力各初始化一个元策略；

步骤三B，通过增殖动态的方式更新元策略；

步骤三C，每次对元策略更新后，对元策略/>探索化处理，使元策略/>在博弈策略组中所有策略上具有非零的概率分量；

步骤三D，达到预设的元策略更新完成条件后，得到完成更新的元策略/>。

进一步的，步骤三B，具体指按照下方公式更新元策略：

；

其中，表示在第/>次更新元策略时，第/>方势力的元策略/>选择第/>方势力的博弈策略组中的第/>个策略的概率/>，/>表示元策略/>更新的步长，/>表示在连续时间系统下/>对时间的一阶导数，其具体计算公式为：

；

其中，表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时，第/>方势力选择第/>方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益，/>表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益；/>代表第/>方势力选择第/>方势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益，/>代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益，/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。

进一步的，步骤三C具体指：

元策略每次更新后，对元策略/>进行探索化处理，使元策略/>在博弈策略组中所有策略上具有非零的概率：

；

其中，表示第/>方势力第/>次更新元策略得到的元策略，/>为argmin函数，/>代表欧几里得距离，/>表示第/>方势力第/>次更新元策略时，第/>方势力的元策略选择第/>方势力的博弈策略组中第/>个策略的概率分量对时间的一阶导数，/>是一种由预设的探索参数/>和博弈策略组中策略数量/>定义的探索性策略空间，其表达式为：

；

其中，表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中每个策略的概率均不小于/>，/>表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中所有策略的概率之和为1，/>表示第/>方势力的博弈策略组中任意一个策略。

进一步的，步骤一所述静态博弈数据集的数据结构为五元组/>，五元组中的元素分别表示当前博弈状态/>，当前博弈状态/>下的历史轨迹/>，转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>。

进一步的，步骤五具体指：

从静态博弈数据集中获取一批数据，根据强化学习时序差分算法计算最优对策模型的损失函数/>：

；

其中，代表数学符号期望，/>表示从静态博弈数据集/>中取五元组的期望，/>代表最优对策模型的模型参数，/>代表在转移后的博弈状态/>下一方势力的可行动作，/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计，代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计，代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计，/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数；

根据损失函数训练最优对策模型。

进一步的，所述重要度权重参数为：

；

其中，表示到达转移后的博弈状态/>的轨迹长度，/>表示累乘符号，/>表示第/>方势力的对手势力/>在历史轨迹/>中的第/>个动作，/>表示第/>方势力的对手势力/>的完成更新的元策略，/>表示第/>方势力的对手势力/>的采样攻防策略组合，/>表示历史轨迹/>中的第/>个动作对应的博弈状态。

进一步的，步骤六中所述计算网络防御方的最优对策对网络攻击方的元策略的优势，具体指：将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明首次采用离线强化学习的方法实现网络防御中的策略推理，求解零和博弈问题。与基于在线的强化学习方法的传统网络防御策略推理方法相比，本发明提供的方法能够反复利用离线数据集实现训练不同阶段的策略求解目标，充分地利用采样得到的网络攻防博弈数据，并达到与在线方法相同的性能，具有更高的数据效率，更加适用于数据成本较大的实际网络防御问题。

附图说明

图1为本发明实施例提供的一种用于网络防御博弈决策的策略空间探索方法流程图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明，在详细说明本发明各实施例的技术方案前，对所涉及的名词和术语进行解释说明，在本说明书中，名称相同或标号相同的部件代表相似或相同的结构，且仅限于示意的目的。

在网络攻防系统中，存在网络攻击方和网络防御方两个势力，互为对手。本发明提供一种用于网络防御博弈决策的策略空间探索方法，如图1所示，令两个势力进行若干局网络攻防博弈，得到静态博弈数据集；为两个势力构建博弈策略组并基于博弈策略组构建策略表示矩阵；通过对策略表示矩阵求解近似的纳什均衡得到完成更新的元策略；两个势力各自构建最优对策模型以及目标网络，目标网络为最优对策模型的拷贝，最优对策模型根据对手的完成更新的元策略基于离线强化学习的方法求解最优对策，基于静态博弈数据集和目标网络训练最优对策模型；比较最优对策相对于对手的完成更新的元策略能否取得大于给定阈值的优势，若能，则根据完成更新的元策略给出的最优对策模型上的若干个概率分布生成网络防御策略；若不能，则将最优对策添加至博弈策略组，并基于博弈策略组重新生成元策略，求解最优对策。具体步骤如下：

1.数据准备

为两个势力各初始化一个采样攻防策略组合，攻防策略组合/>的初始化的方式为在己方势力各个博弈状态下以均匀随机分布方式选择己方势力所有可行动作。网络攻击方和网络防御方两个势力根据己方势力的采样攻防策略组合/>进行若干局博弈，对博弈过程中每一步的数据采样得到静态博弈数据集/>。静态博弈数据集/>的数据结构为五元组，五元组中的元素分别表示当前博弈状态/>，当前博弈状态/>下的历史轨迹/>，转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>。

网络防御方的己方势力指网络防御方自身，网络攻击方的己方势力指网络攻击方自身。网络防御方的对手势力指网络攻击方，网络攻击方的对手势力指网络防御方。

策略指两个势力在各个博弈状态下选择动作的规则；博弈状态指在攻防博弈过程中的某一时刻，一方势力所处的具体情况，包括网络攻击手段、网络防御手段、系统漏洞等信息；可行动作指在每个博弈状态下，一方势力可以采取的所有可能动作组成的集合。

2.初始化博弈策略组与策略表示矩阵

网络攻击方与网络防御方各自随机初始化一个策略的组合作为己方势力的博弈策略组，两个势力的博弈策略组中策略的数量均为。两个势力各自基于己方势力的博弈策略组定义一个策略表示矩阵，策略表示矩阵的行数量和列数量均为P，策略表示矩阵每行依次对应己方势力的博弈策略组中的一个策略，策略表示矩阵每列依次对应对手势力的博弈策略组中的一个策略，策略表示矩阵中每个元素的值由元素所在行、列代表的策略进行组合后网络防御方的防御期望收益定义，本发明通过采样平均实现对第/>方势力的策略表示矩阵的第/>行第/>列的元素所代表的网络防御方的防御期望收益/>的近似：

；

其中，，/>代表策略表示矩阵的每个元素进行采样平均需要对弈的局数，/>为根据经验预设的值，/>表示对策略表示矩阵的每个元素进行采样的第/>局，/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹，终局指网络攻击结束或者网络防御失败，/>表示终局时刻，/>代表博弈轨迹/>下第/>方势力的收益。

3.求解元策略

对两个势力的策略表示矩阵求解近似的纳什均衡得到两个势力的完成更新的元策略，完成更新的元策略/>代表在博弈策略组的概率分布。

为两个势力各初始化一个元策略为在各自博弈策略组上均匀分布，即网络攻击方与网络防御方的元策略/>均为在各自博弈策略组中全部策略成员上的均匀分布。

以增殖动态的方式对元策略进行若干次更新，直到达到预设的更新完成条件，更新的表达式为：

；

其中，表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时，第/>方势力选择己方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益，/>表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益。在实际的计算机系统中无法严格实现对连续时间系统的模拟，所以引入了学习步长以达成近似。代表第/>方势力选择第/>方势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益，代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益，/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。/>。

元策略每次更新后，对元策略/>进行探索化处理，使元策略/>在博弈策略组中所有策略上具有非零的概率分量，以保证充分探索策略空间，其表达式为：

；

本发明中元策略的预设的更新完成条件为满足预设的训练次数，完成元策略/>的更新后得到博弈策略组下的完成更新的元策略/>。

4.扩充策略组

网络攻击方和网络防御方两个势力根据对手势力的完成更新的元策略基于离线强化学习的方式求解最优对策，其中离线强化学习依赖于静态博弈数据集/>，并根据网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势决定是否得到最终的网络防御方的策略生成方式。

为两个势力各构建一个深度神经网络，定义为最优对策模型，最优对策模型根据对手势力的完成更新的元策略基于离线强化学习的方式求解最优对策，最优对策模型会持续更新；为两个势力各构建一个与最优对策模型结构完全相同的拷贝模型，称为目标网络，目标网络用来与更新过程中的最优对策模型进行比较计算最优对策模型的损失。

；

其中，代表数学符号期望，/>表示从静态博弈数据集/>中取五元组的期望，/>代表最优对策模型的模型参数，/>代表在转移后的博弈状态/>下一方势力的可行动作，/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计，代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计，代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计，/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数，其计算公式为：

；

其中，表示到达转移后的博弈状态/>的轨迹长度，/>表示累乘符号，/>表示第/>方势力的对手势力/>在历史轨迹/>中的第/>个动作，/>表示第/>方势力的对手势力/>的完成更新的元策略，/>表示第/>方势力的对手势力/>的采样攻防策略组合，/>表示历史轨迹/>中的第/>个动作对应的博弈状态，/>表示每个势力的博弈策略组中策略的数量。

在的实际计算中，为提高计算效率，判断转移后的博弈状态/>下输出价值估计最大的动作与历史轨迹/>中的第/>个动作是否相同，若相同，则将/>取值/>；若不同，则将/>取值/>。/>为预先设定的参数，/>为一方势力在转移后的博弈状态/>下可行动作的数量。转移后的博弈状态/>下输出价值估计最大的动作指在转移后的博弈状态下令目标网络/>输出价值估计最大的动作。

不断地对最优对策模型的参数进行优化并降低损失函数/>。如果达到训练结束条件后，将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>，如果优势/>小于给定阈值，则将两个势力的最优对策模型生成的最优对策添加至各自的博弈策略组，重新求解元策略并更新最优对策模型，直到优势/>不小于给定阈值。

5.模型部署与测试

根据网络防御方的完成更新的元策略给出的最优对策模型上的若干个概率分布，为网络防御方生成防御策略。

虽然本发明以网络防御决策作为应用对象，但是同样适用于其它非完全信息博弈问题，包括对弈类的电子竞技、对弈类的棋牌竞技、电子对抗等。

以上所述实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种用于网络防御博弈决策的策略空间探索方法，其特征在于，包括以下步骤：

步骤二，为两个势力各初始化一个包括个策略的博弈策略组，并基于各自的博弈策略组定义一个行数和列数均为/>的策略表示矩阵，第/>方势力的策略表示矩阵的第/>行第/>列的元素/>代表第/>方势力的博弈策略组的第/>个策略与对手势力/>的博弈策略组的第/>个策略进行组合后网络防御方的防御期望收益，/>；

2.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤二中所述第方势力的策略表示矩阵的第/>行第/>列的元素/>为：

；

其中，代表策略表示矩阵的每个元素进行采样平均需要对弈的局数，/>表示对策略表示矩阵的每个元素进行采样的第/>局，/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹，终局指网络攻击结束或者网络防御失败，/>表示终局时刻，/>代表博弈轨迹/>下第/>方势力的收益。

3.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤三具体包括：

步骤三A，为两个势力各初始化一个元策略；

步骤三B，通过增殖动态的方式更新元策略；

4.根据权利要求3所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤三B，具体指按照下方公式更新元策略：

；

其中，表示在第/>次更新元策略时，第/>方势力的元策略/>选择第/>方势力的博弈策略组中的第/>个策略的概率/>，/>表示元策略/>更新的步长，/>表示在连续时间系统下对时间的一阶导数，其具体计算公式为：

；

其中，表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时，第/>方势力选择第/>方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益，表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益；/>代表第方势力选择第/>方势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率，/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益，/>代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益，/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。

5.根据权利要求3所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤三C具体指：

；

6.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤一所述静态博弈数据集的数据结构为五元组/>，五元组中的元素分别表示当前博弈状态/>，当前博弈状态/>下的历史轨迹/>，转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>。

7.根据权利要求6所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤五具体指：

；

其中，代表数学符号期望，/>表示从静态博弈数据集/>中取五元组/>的期望，/>代表最优对策模型的模型参数，/>代表在转移后的博弈状态/>下一方势力的可行动作，/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计，/>代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计，/>代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计，/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数；

根据损失函数训练最优对策模型。

8.根据权利要求7所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，所述重要度权重参数为：

；

9.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法，其特征在于，步骤六中所述计算网络防御方的最优对策对网络攻击方的元策略的优势，具体指：将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>。