CN116708042A - 一种用于网络防御博弈决策的策略空间探索方法 - Google Patents

一种用于网络防御博弈决策的策略空间探索方法 Download PDF

Info

Publication number
CN116708042A
CN116708042A CN202310986647.5A CN202310986647A CN116708042A CN 116708042 A CN116708042 A CN 116708042A CN 202310986647 A CN202310986647 A CN 202310986647A CN 116708042 A CN116708042 A CN 116708042A
Authority
CN
China
Prior art keywords
strategy
policy
game
force
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310986647.5A
Other languages
English (en)
Other versions
CN116708042B (zh
Inventor
庄连生
黄义鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310986647.5A priority Critical patent/CN116708042B/zh
Publication of CN116708042A publication Critical patent/CN116708042A/zh
Application granted granted Critical
Publication of CN116708042B publication Critical patent/CN116708042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • H04L63/205Network architectures or network communication protocols for network security for managing network security; network security policies in general involving negotiation or determination of the one or more network security mechanisms to be used, e.g. by negotiation between the client and the server or between peers or by selection according to the capabilities of the entities involved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及人工智能领域,具体涉及一种用于网络防御博弈决策的策略空间探索方法,为两个势力构建博弈策略组和策略表示矩阵;通过对策略表示矩阵求解近似的纳什均衡得到元策略;两个势力各自构建最优对策模型求解最优对策,比较防御方的最优对策相对于对手的元策略能否取得大于给定阈值的优势,若能,则根据元策略给出的最优对策模型上的若干个概率分布生成网络防御策略;若不能,则将最优对策添加至博弈策略组,并基于博弈策略组重新生成元策略,求解最优对策。本发明提供的方法充分地利用采样得到的网络攻防博弈数据,并达到与在线方法相同的性能,具有更高的数据效率,更加适用于数据成本较大的实际网络防御问题。

Description

一种用于网络防御博弈决策的策略空间探索方法
技术领域
本发明涉及人工智能领域,具体涉及一种用于网络防御博弈决策的策略空间探索方法。
背景技术
维护网络安全的主旨在于保护网络系统的硬件安全,软件安全,及网络系统中储存的数据安全,使其不因偶然事故或者具有主观恶意的行为遭到破坏、更改或者信息泄露,保证网络系统连续可靠正常地运行,网络服务不中断。网络攻防是网络空间安全领域的重要课题,研究网络攻防策略能够帮助相关组织了解并提升自身的网络防御能力,减少被网络攻击的可能性,最大程度地保证网络安全。
通过对网络攻防策略的研究可以更好地应对不断演化的网络攻击威胁,迭代网络防御体系。网络攻防与零和博弈在对抗关系和策略依存等方面具有相似性,因此博弈论也被认为是网络安全领域的基础理论之一。根据博弈论对网络攻防进行建模,分析网络攻防策略日益成为当今网络安全领域的研究热点。
传统的网络攻防策略推理方法中,网络攻防中的策略推理大多采用在线的强化学习方法。这类方法需要持续性地针对对手不同的策略求解相对应的最优对策,依赖于对网络攻防双方博弈交互数据的大量采样。高频率的重求解会导致这类方法难以有效利用历史采样的博弈数据,历史数据利用率低下,还会带来数据成本高昂的问题。在一些实际的网络攻防问题中,对真实的网络攻防双方博弈过程的大量采样便具有较高的数据代价,传统方法也越来越难以满足需求。
发明内容
为解决上述问题,本发明提供一种用于网络防御博弈决策的策略空间探索方法。
该方法包括:
步骤一,互为对手势力的网络攻击方和网络防御方两个势力各初始化一个采样攻防策略组合,两个势力根据各自的采样攻防策略组合/>进行若干局网络攻防博弈,对网络攻防博弈的数据采样得到静态博弈数据集/>
步骤二,为两个势力各初始化一个包括个策略的博弈策略组,并基于各自的博弈策略组定义一个行数和列数均为/>的策略表示矩阵,第/>方势力的策略表示矩阵的第/>行第列的元素/>代表第/>方势力的博弈策略组的第/>个策略与对手势力/>的博弈策略组的第/>个策略进行组合后网络防御方的防御期望收益,/>
步骤三,对两个势力的策略表示矩阵求解近似的纳什均衡得到两个势力的完成更新的元策略
步骤四,为两个势力各构建最优对策模型,最优对策模型根据对手势力的完成更新的元策略基于离线强化学习求解最优对策;为两个势力各构建一个与最优对策模型结构完全相同的拷贝模型,称为目标网络;
步骤五,基于目标网络和静态博弈数据集并根据强化学习时序差分算法计算最优对策模型的损失函数/>,并根据损失函数/>训练最优对策模型,/>为最优对策模型的模型参数;
步骤六,计算网络防御方的最优对策模型生成的最优对策对网络攻击方的完成更新的元策略的优势/>,如果优势/>小于给定阈值,则将两个势力的最优对策添加至各自的博弈策略组,重新求解元策略并更新最优对策模型,直到优势/>不小于给定阈值;
步骤七,根据网络防御方的完成更新的元策略给出的最优对策模型上的若干个概率分布,为网络防御方生成防御策略。
进一步的,步骤二中所述第方势力的策略表示矩阵的第/>行第/>列的元素/>为:
其中,代表策略表示矩阵的每个元素进行采样平均需要对弈的局数,/>表示对策略表示矩阵的每个元素进行采样的第/>局,/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹,终局指网络攻击结束或者网络防御失败,/>表示终局时刻,代表博弈轨迹/>下第/>方势力的收益。
进一步的,步骤三具体包括:
步骤三A,为两个势力各初始化一个元策略
步骤三B,通过增殖动态的方式更新元策略
步骤三C,每次对元策略更新后,对元策略/>探索化处理,使元策略/>在博弈策略组中所有策略上具有非零的概率分量;
步骤三D,达到预设的元策略更新完成条件后,得到完成更新的元策略/>
进一步的,步骤三B,具体指按照下方公式更新元策略
其中,表示在第/>次更新元策略时,第/>方势力的元策略/>选择第/>方势力的博弈策略组中的第/>个策略的概率/>,/>表示元策略/>更新的步长,/>表示在连续时间系统下/>对时间的一阶导数,其具体计算公式为:
其中,表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时,第/>方势力选择第/>方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益,/>表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益;/>代表第/>方势力选择第/>方势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益,/>代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益,/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。
进一步的,步骤三C具体指:
元策略每次更新后,对元策略/>进行探索化处理,使元策略/>在博弈策略组中所有策略上具有非零的概率:
其中,表示第/>方势力第/>次更新元策略得到的元策略,/>为argmin函数,/>代表欧几里得距离,/>表示第/>方势力第/>次更新元策略时,第/>方势力的元策略选择第/>方势力的博弈策略组中第/>个策略的概率分量对时间的一阶导数,/>是一种由预设的探索参数/>和博弈策略组中策略数量/>定义的探索性策略空间,其表达式为:
其中,表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中每个策略的概率均不小于/>,/>表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中所有策略的概率之和为1,/>表示第/>方势力的博弈策略组中任意一个策略。
进一步的,步骤一所述静态博弈数据集的数据结构为五元组/>,五元组中的元素分别表示当前博弈状态/>,当前博弈状态/>下的历史轨迹/>,转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>
进一步的,步骤五具体指:
从静态博弈数据集中获取一批数据,根据强化学习时序差分算法计算最优对策模型的损失函数/>
其中,代表数学符号期望,/>表示从静态博弈数据集/>中取五元组的期望,/>代表最优对策模型的模型参数,/>代表在转移后的博弈状态/>下一方势力的可行动作,/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计,代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计,代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计,/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数;
根据损失函数训练最优对策模型。
进一步的,所述重要度权重参数为:
其中,表示到达转移后的博弈状态/>的轨迹长度,/>表示累乘符号,/>表示第/>方势力的对手势力/>在历史轨迹/>中的第/>个动作,/>表示第/>方势力的对手势力/>的完成更新的元策略,/>表示第/>方势力的对手势力/>的采样攻防策略组合,/>表示历史轨迹/>中的第/>个动作对应的博弈状态。
进一步的,步骤六中所述计算网络防御方的最优对策对网络攻击方的元策略的优势,具体指:将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明首次采用离线强化学习的方法实现网络防御中的策略推理,求解零和博弈问题。与基于在线的强化学习方法的传统网络防御策略推理方法相比,本发明提供的方法能够反复利用离线数据集实现训练不同阶段的策略求解目标,充分地利用采样得到的网络攻防博弈数据,并达到与在线方法相同的性能,具有更高的数据效率,更加适用于数据成本较大的实际网络防御问题。
附图说明
图1为本发明实施例提供的一种用于网络防御博弈决策的策略空间探索方法流程图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
在网络攻防系统中,存在网络攻击方和网络防御方两个势力,互为对手。本发明提供一种用于网络防御博弈决策的策略空间探索方法,如图1所示,令两个势力进行若干局网络攻防博弈,得到静态博弈数据集;为两个势力构建博弈策略组并基于博弈策略组构建策略表示矩阵;通过对策略表示矩阵求解近似的纳什均衡得到完成更新的元策略;两个势力各自构建最优对策模型以及目标网络,目标网络为最优对策模型的拷贝,最优对策模型根据对手的完成更新的元策略基于离线强化学习的方法求解最优对策,基于静态博弈数据集和目标网络训练最优对策模型;比较最优对策相对于对手的完成更新的元策略能否取得大于给定阈值的优势,若能,则根据完成更新的元策略给出的最优对策模型上的若干个概率分布生成网络防御策略;若不能,则将最优对策添加至博弈策略组,并基于博弈策略组重新生成元策略,求解最优对策。具体步骤如下:
1.数据准备
为两个势力各初始化一个采样攻防策略组合,攻防策略组合/>的初始化的方式为在己方势力各个博弈状态下以均匀随机分布方式选择己方势力所有可行动作。网络攻击方和网络防御方两个势力根据己方势力的采样攻防策略组合/>进行若干局博弈,对博弈过程中每一步的数据采样得到静态博弈数据集/>。静态博弈数据集/>的数据结构为五元组,五元组中的元素分别表示当前博弈状态/>,当前博弈状态/>下的历史轨迹/>,转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>
网络防御方的己方势力指网络防御方自身,网络攻击方的己方势力指网络攻击方自身。网络防御方的对手势力指网络攻击方,网络攻击方的对手势力指网络防御方。
策略指两个势力在各个博弈状态下选择动作的规则;博弈状态指在攻防博弈过程中的某一时刻,一方势力所处的具体情况,包括网络攻击手段、网络防御手段、系统漏洞等信息;可行动作指在每个博弈状态下,一方势力可以采取的所有可能动作组成的集合。
2.初始化博弈策略组与策略表示矩阵
网络攻击方与网络防御方各自随机初始化一个策略的组合作为己方势力的博弈策略组,两个势力的博弈策略组中策略的数量均为。两个势力各自基于己方势力的博弈策略组定义一个策略表示矩阵,策略表示矩阵的行数量和列数量均为P,策略表示矩阵每行依次对应己方势力的博弈策略组中的一个策略,策略表示矩阵每列依次对应对手势力的博弈策略组中的一个策略,策略表示矩阵中每个元素的值由元素所在行、列代表的策略进行组合后网络防御方的防御期望收益定义,本发明通过采样平均实现对第/>方势力的策略表示矩阵的第/>行第/>列的元素所代表的网络防御方的防御期望收益/>的近似:
其中,,/>代表策略表示矩阵的每个元素进行采样平均需要对弈的局数,/>为根据经验预设的值,/>表示对策略表示矩阵的每个元素进行采样的第/>局,/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹,终局指网络攻击结束或者网络防御失败,/>表示终局时刻,/>代表博弈轨迹/>下第/>方势力的收益。
3.求解元策略
对两个势力的策略表示矩阵求解近似的纳什均衡得到两个势力的完成更新的元策略,完成更新的元策略/>代表在博弈策略组的概率分布。
为两个势力各初始化一个元策略为在各自博弈策略组上均匀分布,即网络攻击方与网络防御方的元策略/>均为在各自博弈策略组中全部策略成员上的均匀分布。
以增殖动态的方式对元策略进行若干次更新,直到达到预设的更新完成条件,更新的表达式为:
其中,表示在第/>次更新元策略时,第/>方势力的元策略/>选择第/>方势力的博弈策略组中的第/>个策略的概率/>,/>表示元策略/>更新的步长,/>表示在连续时间系统下/>对时间的一阶导数,其具体计算公式为:
其中,表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时,第/>方势力选择己方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益,/>表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益。在实际的计算机系统中无法严格实现对连续时间系统的模拟,所以引入了学习步长以达成近似。代表第/>方势力选择第/>方势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益,代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益,/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。/>
元策略每次更新后,对元策略/>进行探索化处理,使元策略/>在博弈策略组中所有策略上具有非零的概率分量,以保证充分探索策略空间,其表达式为:
其中,表示第/>方势力第/>次更新元策略得到的元策略,/>为argmin函数,/>代表欧几里得距离,/>表示第/>方势力第/>次更新元策略时,第/>方势力的元策略选择第/>方势力的博弈策略组中第/>个策略的概率分量对时间的一阶导数,/>是一种由预设的探索参数/>和博弈策略组中策略数量/>定义的探索性策略空间,其表达式为:
其中,表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中每个策略的概率均不小于/>,/>表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中所有策略的概率之和为1,/>表示第/>方势力的博弈策略组中任意一个策略。
本发明中元策略的预设的更新完成条件为满足预设的训练次数,完成元策略/>的更新后得到博弈策略组下的完成更新的元策略/>
4.扩充策略组
网络攻击方和网络防御方两个势力根据对手势力的完成更新的元策略基于离线强化学习的方式求解最优对策,其中离线强化学习依赖于静态博弈数据集/>,并根据网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势决定是否得到最终的网络防御方的策略生成方式。
为两个势力各构建一个深度神经网络,定义为最优对策模型,最优对策模型根据对手势力的完成更新的元策略基于离线强化学习的方式求解最优对策,最优对策模型会持续更新;为两个势力各构建一个与最优对策模型结构完全相同的拷贝模型,称为目标网络,目标网络用来与更新过程中的最优对策模型进行比较计算最优对策模型的损失。
从静态博弈数据集中获取一批数据,根据强化学习时序差分算法计算最优对策模型的损失函数/>
其中,代表数学符号期望,/>表示从静态博弈数据集/>中取五元组的期望,/>代表最优对策模型的模型参数,/>代表在转移后的博弈状态/>下一方势力的可行动作,/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计,代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计,代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计,/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数,其计算公式为:
其中,表示到达转移后的博弈状态/>的轨迹长度,/>表示累乘符号,/>表示第/>方势力的对手势力/>在历史轨迹/>中的第/>个动作,/>表示第/>方势力的对手势力/>的完成更新的元策略,/>表示第/>方势力的对手势力/>的采样攻防策略组合,/>表示历史轨迹/>中的第/>个动作对应的博弈状态,/>表示每个势力的博弈策略组中策略的数量。
的实际计算中,为提高计算效率,判断转移后的博弈状态/>下输出价值估计最大的动作与历史轨迹/>中的第/>个动作是否相同,若相同,则将/>取值/>;若不同,则将/>取值/>。/>为预先设定的参数,/>为一方势力在转移后的博弈状态/>下可行动作的数量。转移后的博弈状态/>下输出价值估计最大的动作指在转移后的博弈状态下令目标网络/>输出价值估计最大的动作。
不断地对最优对策模型的参数进行优化并降低损失函数/>。如果达到训练结束条件后,将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>,如果优势/>小于给定阈值,则将两个势力的最优对策模型生成的最优对策添加至各自的博弈策略组,重新求解元策略并更新最优对策模型,直到优势/>不小于给定阈值。
5.模型部署与测试
根据网络防御方的完成更新的元策略给出的最优对策模型上的若干个概率分布,为网络防御方生成防御策略。
虽然本发明以网络防御决策作为应用对象,但是同样适用于其它非完全信息博弈问题,包括对弈类的电子竞技、对弈类的棋牌竞技、电子对抗等。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (9)

1.一种用于网络防御博弈决策的策略空间探索方法,其特征在于,包括以下步骤:
步骤一,互为对手势力的网络攻击方和网络防御方两个势力各初始化一个采样攻防策略组合,两个势力根据各自的采样攻防策略组合/>进行若干局网络攻防博弈,对网络攻防博弈的数据采样得到静态博弈数据集/>
步骤二,为两个势力各初始化一个包括个策略的博弈策略组,并基于各自的博弈策略组定义一个行数和列数均为/>的策略表示矩阵,第/>方势力的策略表示矩阵的第/>行第/>列的元素/>代表第/>方势力的博弈策略组的第/>个策略与对手势力/>的博弈策略组的第/>个策略进行组合后网络防御方的防御期望收益,/>
步骤三,对两个势力的策略表示矩阵求解近似的纳什均衡得到两个势力的完成更新的元策略
步骤四,为两个势力各构建最优对策模型,最优对策模型根据对手势力的完成更新的元策略基于离线强化学习求解最优对策;为两个势力各构建一个与最优对策模型结构完全相同的拷贝模型,称为目标网络;
步骤五,基于目标网络和静态博弈数据集并根据强化学习时序差分算法计算最优对策模型的损失函数/>,并根据损失函数/>训练最优对策模型,/>为最优对策模型的模型参数;
步骤六,计算网络防御方的最优对策模型生成的最优对策对网络攻击方的完成更新的元策略的优势/>,如果优势/>小于给定阈值,则将两个势力的最优对策添加至各自的博弈策略组,重新求解元策略并更新最优对策模型,直到优势/>不小于给定阈值;
步骤七,根据网络防御方的完成更新的元策略给出的最优对策模型上的若干个概率分布,为网络防御方生成防御策略。
2.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤二中所述第方势力的策略表示矩阵的第/>行第/>列的元素/>为:
其中,代表策略表示矩阵的每个元素进行采样平均需要对弈的局数,/>表示对策略表示矩阵的每个元素进行采样的第/>局,/>表示根据采样攻防策略组合/>分布采样得到的一个达到终局的博弈轨迹,终局指网络攻击结束或者网络防御失败,/>表示终局时刻,/>代表博弈轨迹/>下第/>方势力的收益。
3.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤三具体包括:
步骤三A,为两个势力各初始化一个元策略
步骤三B,通过增殖动态的方式更新元策略
步骤三C,每次对元策略更新后,对元策略/>探索化处理,使元策略/>在博弈策略组中所有策略上具有非零的概率分量;
步骤三D,达到预设的元策略更新完成条件后,得到完成更新的元策略/>
4.根据权利要求3所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤三B,具体指按照下方公式更新元策略
其中,表示在第/>次更新元策略时,第/>方势力的元策略/>选择第/>方势力的博弈策略组中的第/>个策略的概率/>,/>表示元策略/>更新的步长,/>表示在连续时间系统下对时间的一阶导数,其具体计算公式为:
其中,表示在第/>方势力的对手势力/>采用对手势力的元策略/>选取策略时,第/>方势力选择第/>方势力的博弈策略组中的第/>个策略得到的网络防御方的防御期望收益,表示第/>方势力采用元策略/>选取策略时的网络防御方的防御期望收益;/>代表第方势力选择第/>方势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的对手势力/>选择对手势力的博弈策略组中第/>个策略的概率,/>代表第/>方势力的策略表示矩阵第/>行第/>列的元素所代表的网络防御方的防御期望收益,/>代表第/>方势力的博弈策略组中的每个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益,/>代表第/>方势力的博弈策略组中的第/>个策略与对手势力/>的博弈策略组中的每个策略进行组合后网络防御方的防御期望收益。
5.根据权利要求3所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤三C具体指:
元策略每次更新后,对元策略/>进行探索化处理,使元策略/>在博弈策略组中所有策略上具有非零的概率:
其中,表示第/>方势力第/>次更新元策略得到的元策略,/>为argmin函数,/>代表欧几里得距离,/>表示第/>方势力第/>次更新元策略时,第/>方势力的元策略选择第/>方势力的博弈策略组中第/>个策略的概率分量对时间的一阶导数,/>是一种由预设的探索参数/>和博弈策略组中策略数量/>定义的探索性策略空间,其表达式为:
其中,表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中每个策略的概率均不小于/>,/>表示第/>方势力的元策略/>选取第/>方势力的博弈策略组中所有策略的概率之和为1,/>表示第/>方势力的博弈策略组中任意一个策略。
6.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤一所述静态博弈数据集的数据结构为五元组/>,五元组中的元素分别表示当前博弈状态/>,当前博弈状态/>下的历史轨迹/>,转移后的博弈状态/>、博弈状态从/>转移到/>的过程中的收益/>、当前博弈状态/>下采样攻防策略组合/>选择的动作/>
7.根据权利要求6所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤五具体指:
从静态博弈数据集中获取一批数据,根据强化学习时序差分算法计算最优对策模型的损失函数/>
其中,代表数学符号期望,/>表示从静态博弈数据集/>中取五元组/>的期望,/>代表最优对策模型的模型参数,/>代表在转移后的博弈状态/>下一方势力的可行动作,/>代表最优对策模型/>在当前博弈状态/>下对动作/>的价值估计,/>代表目标网络/>在转移后的博弈状态/>下对可行动作/>的价值估计,/>代表在/>中选取令/>的值最大的动作时目标网络/>输出的价值估计,/>代表由静态博弈数据集/>中的历史轨迹/>计算得到的重要度权重参数;
根据损失函数训练最优对策模型。
8.根据权利要求7所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,所述重要度权重参数为:
其中,表示到达转移后的博弈状态/>的轨迹长度,/>表示累乘符号,/>表示第/>方势力的对手势力/>在历史轨迹/>中的第/>个动作,/>表示第/>方势力的对手势力/>的完成更新的元策略,/>表示第/>方势力的对手势力/>的采样攻防策略组合,/>表示历史轨迹/>中的第/>个动作对应的博弈状态。
9.根据权利要求1所述一种用于网络防御博弈决策的策略空间探索方法,其特征在于,步骤六中所述计算网络防御方的最优对策对网络攻击方的元策略的优势,具体指:将每一局的网络防御方的收益进行采样平均得到网络防御方的最优对策对网络攻击方的完成更新的元策略/>的优势/>
CN202310986647.5A 2023-08-08 2023-08-08 一种用于网络防御博弈决策的策略空间探索方法 Active CN116708042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310986647.5A CN116708042B (zh) 2023-08-08 2023-08-08 一种用于网络防御博弈决策的策略空间探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310986647.5A CN116708042B (zh) 2023-08-08 2023-08-08 一种用于网络防御博弈决策的策略空间探索方法

Publications (2)

Publication Number Publication Date
CN116708042A true CN116708042A (zh) 2023-09-05
CN116708042B CN116708042B (zh) 2023-11-17

Family

ID=87826130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310986647.5A Active CN116708042B (zh) 2023-08-08 2023-08-08 一种用于网络防御博弈决策的策略空间探索方法

Country Status (1)

Country Link
CN (1) CN116708042B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312810A (zh) * 2023-11-30 2023-12-29 中国人民解放军国防科技大学 基于博弈历史树的不完全信息攻防博弈对手识别方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2271047A1 (en) * 2009-06-22 2011-01-05 Deutsche Telekom AG Game theoretic recommendation system and method for security alert dissemination
CN103152345A (zh) * 2013-03-07 2013-06-12 南京理工大学常熟研究院有限公司 一种攻防博弈的网络安全最优攻防决策方法
US20180114163A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Method And System For Determining An Optimal Strategy Pertaining To A Business Opportunity In Cognitive Decision Making
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统
CN110166428A (zh) * 2019-04-12 2019-08-23 中国人民解放军战略支援部队信息工程大学 基于强化学习和攻防博弈的智能防御决策方法及装置
US20200045069A1 (en) * 2018-08-02 2020-02-06 Bae Systems Information And Electronic Systems Integration Inc. Network defense system and method thereof
CN112003854A (zh) * 2020-08-20 2020-11-27 中国人民解放军战略支援部队信息工程大学 基于时空博弈的网络安全动态防御决策方法
CN113407248A (zh) * 2020-12-11 2021-09-17 绍兴文理学院 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
CN114024738A (zh) * 2021-11-03 2022-02-08 哈尔滨理工大学 一种基于多阶段攻防信号的网络防御方法
CN115033878A (zh) * 2022-08-09 2022-09-09 中国人民解放军国防科技大学 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN115169555A (zh) * 2022-07-18 2022-10-11 中国人民解放军国防科技大学 一种基于深度强化学习的边攻击网络瓦解方法
CN115348064A (zh) * 2022-07-28 2022-11-15 南京邮电大学 网络攻击下基于动态博弈的配电网防御策略设计方法
CN115883236A (zh) * 2022-12-10 2023-03-31 国网福建省电力有限公司 电网智能终端协同攻击监测系统
CN115983389A (zh) * 2022-12-07 2023-04-18 北京理工大学 一种基于强化学习的攻防博弈决策方法
WO2023072385A1 (en) * 2021-10-27 2023-05-04 Huawei Technologies Co., Ltd. A system and framework for optimal decision making in the presence of non-stationary opponents
CN116205298A (zh) * 2023-02-08 2023-06-02 武汉理工大学 一种基于深度强化学习的对手行为策略建模方法及系统
CN116248335A (zh) * 2022-12-20 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于智能演化博弈的网络攻防策略选取方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2271047A1 (en) * 2009-06-22 2011-01-05 Deutsche Telekom AG Game theoretic recommendation system and method for security alert dissemination
CN103152345A (zh) * 2013-03-07 2013-06-12 南京理工大学常熟研究院有限公司 一种攻防博弈的网络安全最优攻防决策方法
US20180114163A1 (en) * 2016-10-20 2018-04-26 Loven Systems, LLC Method And System For Determining An Optimal Strategy Pertaining To A Business Opportunity In Cognitive Decision Making
CN108512837A (zh) * 2018-03-16 2018-09-07 西安电子科技大学 一种基于攻防演化博弈的网络安全态势评估的方法及系统
US20200045069A1 (en) * 2018-08-02 2020-02-06 Bae Systems Information And Electronic Systems Integration Inc. Network defense system and method thereof
CN110166428A (zh) * 2019-04-12 2019-08-23 中国人民解放军战略支援部队信息工程大学 基于强化学习和攻防博弈的智能防御决策方法及装置
CN112003854A (zh) * 2020-08-20 2020-11-27 中国人民解放军战略支援部队信息工程大学 基于时空博弈的网络安全动态防御决策方法
CN113407248A (zh) * 2020-12-11 2021-09-17 绍兴文理学院 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
WO2023072385A1 (en) * 2021-10-27 2023-05-04 Huawei Technologies Co., Ltd. A system and framework for optimal decision making in the presence of non-stationary opponents
CN114024738A (zh) * 2021-11-03 2022-02-08 哈尔滨理工大学 一种基于多阶段攻防信号的网络防御方法
CN115169555A (zh) * 2022-07-18 2022-10-11 中国人民解放军国防科技大学 一种基于深度强化学习的边攻击网络瓦解方法
CN115348064A (zh) * 2022-07-28 2022-11-15 南京邮电大学 网络攻击下基于动态博弈的配电网防御策略设计方法
CN115033878A (zh) * 2022-08-09 2022-09-09 中国人民解放军国防科技大学 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN115983389A (zh) * 2022-12-07 2023-04-18 北京理工大学 一种基于强化学习的攻防博弈决策方法
CN115883236A (zh) * 2022-12-10 2023-03-31 国网福建省电力有限公司 电网智能终端协同攻击监测系统
CN116248335A (zh) * 2022-12-20 2023-06-09 中国人民解放军战略支援部队信息工程大学 基于智能演化博弈的网络攻防策略选取方法及系统
CN116205298A (zh) * 2023-02-08 2023-06-02 武汉理工大学 一种基于深度强化学习的对手行为策略建模方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUANG, Y.: "Efficient Double Oracle for Extensive-Form Two-Player Zero-Sum Games", 《NEURAL INFORMATION PROCESSING: 29TH INTERNATIONAL CONFERENCE, ICONIP 2022, VIRTUAL EVENT, PROCEEDINGS. LECTURE NOTES IN COMPUTER SCIENCE》 *
JING WANG: "Nonfragile Output Feedback Tracking Control for Markov Jump Fuzzy Systems Based on Integral Reinforcement Learning Scheme", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
刘景玮;刘京菊;陆余良;杨斌;朱凯龙;: "基于网络攻防博弈模型的最优防御策略选取方法", 计算机科学, no. 06 *
谭晶磊: "基于博弈理论的移动目标防御决策方法研究", 《中国优秀博士学位论文全文数据库(电子期刊)信息科技辑》 *
金辉;张红旗;张传富;胡浩;: "复杂网络中基于QRD的主动防御决策方法研究", 信息网络安全, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117312810A (zh) * 2023-11-30 2023-12-29 中国人民解放军国防科技大学 基于博弈历史树的不完全信息攻防博弈对手识别方法
CN117312810B (zh) * 2023-11-30 2024-02-23 中国人民解放军国防科技大学 基于博弈历史树的不完全信息攻防博弈对手识别方法

Also Published As

Publication number Publication date
CN116708042B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
Churchill et al. Fast heuristic search for RTS game combat scenarios
CN116708042B (zh) 一种用于网络防御博弈决策的策略空间探索方法
CN107566387B (zh) 基于攻防演化博弈分析的网络防御行动决策方法
CN108629422A (zh) 一种基于知识指导-战术感知的智能体学习方法
CN105005820B (zh) 一种基于种群爆炸粒子群算法的目标分配优化方法
CN111245828A (zh) 一种基于三方动态博弈的防御策略产生方法
CN113553591A (zh) 一种基于进化博弈论的多阶段动态防御的方法
CN112491818A (zh) 基于多智能体深度强化学习的电网输电线路防御方法
Uriarte et al. Automatic learning of combat models for RTS games
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN112487431A (zh) 基于非完全信息的入侵检测系统最优稳态策略求解方法
CN116861239A (zh) 一种联邦学习方法和系统
CN114024738A (zh) 一种基于多阶段攻防信号的网络防御方法
CN113132398B (zh) 一种基于q学习的阵列蜜罐系统防御策略预测方法
CN113194059B (zh) 移动目标防御策略选择的方法
CN112651110B (zh) 基于多阶段动态博弈的恶性数据注入攻击防御方法
CN117807597A (zh) 面向后门攻击的鲁棒个性化联邦学习方法
CN111905373A (zh) 一种基于博弈论和纳什均衡的人工智能决策方法及系统
Marius et al. Combining scripted behavior with game tree search for stronger, more robust game AI
Ganzfried et al. Parallel algorithm for approximating Nash equilibrium in multiplayer stochastic games with application to naval strategic planning
CN114722998B (zh) 一种基于cnn-ppo的兵棋推演智能体构建方法
CN115983389A (zh) 一种基于强化学习的攻防博弈决策方法
Nguyen et al. Heuristic search exploiting non-additive and unit properties for RTS-game unit micromanagement
Liu et al. An improved minimax-Q algorithm based on generalized policy iteration to solve a Chaser-Invader game
CN117441168A (zh) 用于深度强化学习中的对抗性攻击的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant