CN115544898B - 基于深度强化学习的多智能体攻防决策方法 - Google Patents

基于深度强化学习的多智能体攻防决策方法 Download PDF

Info

Publication number
CN115544898B
CN115544898B CN202211398653.0A CN202211398653A CN115544898B CN 115544898 B CN115544898 B CN 115544898B CN 202211398653 A CN202211398653 A CN 202211398653A CN 115544898 B CN115544898 B CN 115544898B
Authority
CN
China
Prior art keywords
agent
attack
defense
intelligent
agents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211398653.0A
Other languages
English (en)
Other versions
CN115544898A (zh
Inventor
李湛
李熙伦
郑晓龙
于兴虎
高会军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211398653.0A priority Critical patent/CN115544898B/zh
Publication of CN115544898A publication Critical patent/CN115544898A/zh
Application granted granted Critical
Publication of CN115544898B publication Critical patent/CN115544898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

基于深度强化学习的多智能体攻防决策方法,涉及人工智能、机器学习领域。本发明解决了多智能体深度确定性策略梯度方法,无法应用于智能体可坠毁的场景下的问题。本发明该攻防决策方法包括如下过程:S1、根据场景构建攻防环境;S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;所述数据集知识库内所有样本的数据维度相同;S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策。主要用于复杂场景下的多对多智能体的攻防决策。

Description

基于深度强化学习的多智能体攻防决策方法
技术领域
本发明涉及人工智能、机器学习领域。
背景技术
强化学习近来被应用到解决许多挑战性问题上去,比如玩游戏和机器人上。也有很多重要的应用场景牵涉到多个智能体之间的交互,在这种共同的交互演化过程中,会有新的行为出现,问题也会变得更加复杂。传统的强化学习方法不适用于多智能体方法,因此,多智能体深度强化学习应运而生。
对于复杂的多对多攻守博弈场景,在数学上无法求得解析的纳什均衡解,因此需要使用多智能体深度强化学习方法。Ryan Lowe等人在2017年提出了多智能体演员-评论家算法和多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic PolicyGradient,下文简称MADDPG),采用集中式训练的框架,分散式执行的方式,在一些合作、竞争混合的环境下取得了优越的效果。针对随机马尔科夫博弈:在攻防对抗博弈中,我们需要控制攻防双方多个智能体完成各自目标。此过程可描述为随机马尔科夫博弈。N个智能体的随机马尔科夫博弈Γ可表示为其中S为状态空间;Aj为第j个智能体动作空间;第j个智能体的奖励函数为rj:/>状态转移概率p为S×A1×…×AN→Ω(s),描述状态随时间的随机变化,其中Ω(s)为整个状态空间S上的概率分布集合;折扣因子γ∈[0,1)。每个智能体的目标是最大化自身的总预期回报/>
但是现有的多智能体深度确定性策略梯度算法(MADDPG)存在的弊端是,无法应用于智能体可坠毁的场景下,也即:无法处理训练过程中智能体数量变化的情况;由于在获取训练样本的过程中,当智能体由于碰撞坠毁导致智能体数量变化时,经验回放池中得到的同一时刻下所有智能体的数据缺失,当从经验回放池中抽取出数据缺失的样本时,使得输入至深度神经网络中数据维度变小,使得现有深度神经网络无法继续进行训练学习、整个训练过程被迫终止。
发明内容
本发明目的是为了解决多智能体深度确定性策略梯度算法(MADDPG),无法应用于智能体可坠毁的场景下的问题,本发明提供了一种基于深度强化学习的多智能体攻防决策方法。
基于深度强化学习的多智能体攻防决策方法,该攻防决策方法基于同一场景下的N个智能体和目标地标实现;智能体为飞行器,且每个智能体内嵌入深度神经网络,N为大于或等于5的整数;该攻防决策方法包括如下过程:
S1、根据场景构建攻防环境;
攻防环境中N个智能体被划分为两组,分别为进攻方和防守方,且进攻方内各智能体独立进攻,防守方所对应的所有智能体协同合作;
S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;
所述数据集知识库内所有样本的数据维度相同,且每个样本中的数据为由同一采样轮次下的N个智能体的当前状态、动作、奖励和新状态构成;所述智能体的动作包括由水平面内的x轴方向和y轴方向的期望加速度构成的合成期望加速度;
S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;其中,每个样本中的当前状态、奖励和新状态作为深度神经网络的输入,每个样本中的动作作为深度神经网络的输出;
S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策。
优选的是,S2、构建适用于深度神经网络的数据集知识库的实现方式包括:
S21、设置数据集知识库内的样本数量为M;每个采样批次下包括多次采样;
S22、在第P个采样批次下,进行第l次采样,使攻防环境中N个智能体中每个智能体根据自身观测空间、当前状态和剩余N-1智能体的动作,并生成相应动作与攻防环境进行交互,获得相应的奖励、新状态;P的初始值为1,且每个采样批次下,l的初始值为1;
S23、判断第P个采样批次下的第l次采样,是否出现智能体坠毁,结果为是,执行步骤S24;结果为否,执行步骤S25;
S24、将第P个采样批次下第l次采样获得的所有数据删除,令P=P+1,再对第P个采样批次下的所有智能体的当前状态重新初始化,执行步骤S22;
S25、将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、动作、奖励和新状态,作为当前第P个采样批次下的一个样本存入数据集知识库,执行步骤S26;
S26、判断数据集知识库内的样本数量是否达到M,结果为否,执行步骤S27,结果为是,执行步骤S28;
S27、当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时,令P=P+1,执行步骤S22;否则,令l=l+1,执行步骤S22;
S28、结束,完成数据集知识库的构建。
优选的是,防守方的智能体的目标为:阻止进攻方的智能体撞击目标地标、合作拦截进攻方的智能体、以及同时避免与进攻方的智能体撞击;
进攻方的智能体的目标为:撞击目标地标、同时躲避防守方的智能体的拦截。
优选的是,S2中、交互过程中每个智能体最大化自身奖励的实现方式包括:
(三)当当前智能体为进攻方的智能体时,该当前智能体的奖励函数ri为:
ri=ri dis+ri col
其中,ri dis为进攻方的第i个智能体的距离奖励,ri col为进攻方的第i个智能体的撞击奖励,d(i,goal)为进攻方的第i个智能体与目标地标的距离,d(i,goodj)为进攻方的第i个智能体与防守方的第j个智能体的距离;
(四)当当前智能体为防守方的智能体时,该当前智能体的奖励函数ri为:
ri=ri adv+ri good
其中,ri adv为防守方的第i个智能体的第一距离奖励,ri good为防守方的第i个智能体的第二距离奖励,d(goal,advj)为进攻方的第j个智能体与目标地标的距离;d(i,advj)为防守方的第i个智能体与进攻方的第j个智能体的距离。
优选的是,S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策的实现方式包括:
在每个攻防轮次下,使训练后的各智能体根据自身观测空间做出相应的动作。
一种计算机可读的存储设备,所述存储设备存储有计算机程序,所述计算机程序被执行时实现如所述基于深度强化学习的多智能体攻防决策方法。
一种基于深度强化学习的多智能体攻防决策装置,包括存储设备、处理器以及存储在所述存储设备中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序实现如所述基于深度强化学习的多智能体攻防决策方法。
本发明带来的有益效果是:
现有的多智能体深度强化学习方法大多用于追逃博弈的场景下,然而对于攻防博弈问题却很少有人研究。相较追逃博弈,攻防博弈对智能体提出了更严格的要求。
本发明所述基于深度强化学习的多智能体攻防决策方法,考虑了场景中智能体会因碰撞而坠毁,导致智能体数量变化的问题,避免了因智能体数量变化而导致的样本维度缺失的问题,本发明可应用于复杂的多对多攻防场景下,并展现出了很好的效果。
发明在智能体坠毁后将该智能体冻结,不再与环境交互。对于坠毁的智能体,不对其所在采样批次下继续采样,完成当前采样批次下的采样操作,同时,对下一采样批次下的所有智能体的当前状态重新初始化,继续下一轮采样批次下的采样操作。因此,本发明在构建数据集知识库内样本的过程中,可保证每个采样批次下所有样本数据维度相同;也就是说,智能体坠毁后更新所有神经网络参数时只使用智能体坠毁前的数据,保证了输入至深度神经网络中数据维度相同,使神经网络能正常进行计算。
附图说明
图1是本发明所述轴对称矢量偏振光获取装置的结构示意图;
图2是场景中进攻方的飞行器、防守方的飞行器和目标地标的相对位置示意图;
图3是攻守双方智能体之间未发生碰撞坠毁,本发明方法与传统的MADDPG方法对深度神经网络进行训练过程中,获得的两条平均奖励曲线对比图;
图4是攻守双方智能体之间发生碰撞坠毁时,本发明方法与传统的MADDPG方法在执行阶段中,获得的两条平均奖励曲线对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
参见图1说明本实施例1,本实施例1所述的基于深度强化学习的多智能体攻防决策方法,该攻防决策方法基于同一场景下的N个智能体和目标地标实现;智能体为飞行器,且每个智能体内嵌入深度神经网络,N为大于或等于5的整数;该攻防决策方法包括如下过程:
S1、根据场景构建攻防环境;
攻防环境中N个智能体被划分为两组,分别为进攻方和防守方,且进攻方内各智能体独立进攻,防守方所对应的所有智能体协同合作;
S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;
所述数据集知识库内所有样本的数据维度相同,且每个样本中的数据为由同一采样轮次下的N个智能体的当前状态、动作、奖励和新状态构成;所述智能体的动作包括由水平面内的x轴方向和y轴方向的期望加速度构成的合成期望加速度;
S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;其中,每个样本中的当前状态、奖励和新状态作为深度神经网络的输入,每个样本中的动作作为深度神经网络的输出;
S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策。
应用时,每个智能体内嵌入深度神经网络为现有的神经网络,且步骤S4中训练的过程采用现有技术实现。
具体的,S2、构建适用于深度神经网络的数据集知识库的实现方式包括:
S21、设置数据集知识库内的样本数量为M;每个采样批次下包括多次采样;
S22、在第P个采样批次下,进行第l次采样,使攻防环境中N个智能体中每个智能体根据自身观测空间、当前状态和剩余N-1智能体的动作,并生成相应动作与攻防环境进行交互,获得相应的奖励、新状态;P的初始值为1,且每个采样批次下,l的初始值为1;
S23、判断第P个采样批次下的第l次采样,是否出现智能体坠毁,结果为是,执行步骤S24;结果为否,执行步骤S25;
S24、将第P个采样批次下第l次采样获得的所有数据删除,令P=P+1,再对第P个采样批次下的所有智能体的当前状态重新初始化,执行步骤S22;
S25、将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、动作、奖励和新状态,作为当前第P个采样批次下的一个样本存入数据集知识库,执行步骤S26;
S26、判断数据集知识库内的样本数量是否达到M,结果为否,执行步骤S27,结果为是,执行步骤S28;
S27、当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时,令P=P+1,执行步骤S22;否则,令l=l+1,执行步骤S22;
S28、结束,完成数据集知识库的构建。
传统的MADDPG算法在集中式训练框架下,深度神经网络需要所有智能体信息输入,若使坠毁的智能体继续在环境中交互,则必然会影响其他智能体的决策,在智能体坠毁后,其会对其余正常工作智能体的决策产生影响,这种影响不可以忽略。本发明在智能体坠毁后将该智能体冻结,不再与环境交互。对于坠毁的智能体,不对其所在采样批次下继续采样,完成当前采样批次下的采样操作,同时,对下一采样批次下的所有智能体的当前状态重新初始化,实现下一轮采样批次下的采样操作。因此,本发明在构建样本集的过程中,可保证每个采样批次下所有样本数据维度相同;也就是说,智能体坠毁后更新所有神经网络参数时只使用智能体坠毁前的数据。
具体的,S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策的实现方式包括:
在每个攻防轮次下,使训练后的各智能体根据自身观测空间做出相应的动作。
例如,场景可由m个防守的智能体,n个进攻的智能体和1个目标地标组成。每个智能体均为同构的四旋翼飞行器,其动力学模型为:
其中,分别为滚转、俯仰和偏航角的角加速度;/>分别为滚转、俯仰和偏航角的角速度;m四旋翼飞行器质量;Ixx,Iyy,Izz分别为x,y,z三轴的惯性矩;Mx,My,Mz分别为x,y,z三轴的气动力矩;Fz是竖直方向的空气动力,g为重力加速度;本发明中假设四旋翼飞行器在固定高度飞行,即/>为z轴方向的期望加速度,/>为x轴方向的期望加速度,/>为y轴方向的期望加速度。通过改进传统的MADDPG算法,训练出x轴、y轴方向的期望加速度构成的合成期望加速度,并使用PID控制器控制飞行器移动。
进攻智能体的目标是撞击目标地标,同时躲避防守智能体的拦截;防守智能体的目标是合作拦截进攻智能体撞击目标地标。每个智能体不知道其他智能体的动作策略等信息。上述场景可描述为一个攻防博弈场景,进攻智能体和防守智能体双方的最终目标分别是撞击目标地标和阻止对方撞击目标地标。为达成各自的最终目标,双方在博弈过程中涉及拦截与反拦截,部分智能体可能因碰撞坠毁。
奖励的设置是对智能体的有效激励,进攻智能体的目标是撞击目标地标,同时尽量远离防守智能体,避免被撞击坠毁。本发明给出了一种距离-撞击组合奖励形式,第i个进攻智能体的奖励函数由两部分组成,形式如下:
ri=ri dis+ri col
其中,ri dis为进攻方的第i个智能体的距离奖励,ri col为进攻方的第i个智能体的撞击奖励,d(i,goal)为进攻方的第i个智能体与目标地标的距离,d(i,goodj)为进攻方的第i个智能体与防守方的第j个智能体的距离;
防守智能体的目标是阻止进攻智能体撞击目标地标,需要对进攻智能体实施拦截,同时避免与进攻智能体撞击。防守智能体的奖励函数分为两部分,一部分是根据进攻智能体距离目标地标获得的ri adv,另一部分是根据防守智能体与进攻智能体的距离获得的ri good,第i个防守智能体的奖励函数形式如下
ri=ri adv+ri good
其中,ri adv为防守方的第i个智能体的第一距离奖励,ri good为防守方的第i个智能体的第二距离奖励,d(goal,advj)为进攻方的第j个智能体与目标地标的距离;d(i,advj)为防守方的第i个智能体与进攻方的第j个智能体的距离。可以看到,ri adv和ri good都是基于距离的奖励函数。所有防守智能体之间通过合作关系来抵御进攻智能体的撞击,可对防守智能体方设计一个合作奖励,即为所有防守智能体的奖励的平均值:
通过以下来验证本发明的技术效果,具体为:
假设:总智能体的数量为6,其中,防守方的智能体数量为3,进攻方的智能体数量为3,为了方便描述飞行器之间的碰撞,将飞行器的包络视作二维平面中半径大小相同的圆形,具体参见图2,图2中,黑色圆为目标地标,灰色圆为进攻方的飞行器,白色圆为防守方的飞行器;
每个智能体内的深度神经网络可由一个两层ReLU参数化的MLP组成,每一层有64个神经元,我们使用学习率为0.01的Adam优化器和τ=0:01来更新深度神经网络,τ表示滑动平均更新的系数。折扣因子设置为0.95,经验回放池的大小为106(也即:数据集知识库内的样本数量),每次抽取用于更新神经网络的数据容量大小为1024。
在训练阶段所有智能体平均奖励曲线如图3所示。对于MADDPG算法,为了比较其与本发明方法的效果,假设在训练过程中智能体碰撞后不不坠毁;而本发明方法在训练过程中智能体碰撞坠毁。从图3中可以看出,在6500次训练后,本发明方法获得的场景中所有智能体的平均奖励曲线,始终位于传统MADDPG方法平均奖励曲线的上方,且从本发明方法获得的所有智能体的平均奖励曲线可看出,在5000次至6000次所在的一段曲线更加的平稳,说明本发明对深度神经网络训练的效果更好。
若攻守双方智能体之间发生碰撞坠毁,此时,对于现有的MADDPG算法,在获得样本的过程中,若攻守双方智能体之间发生碰撞坠毁,仍然继续获得样本,此时,对于现有的MADDPG算法所获得的每一样本中由于存在智能体坠毁的情况存在,导致有些样本之中存在数据维度缺失,在后续训练过程中,当输入至智能体内的数据维度缺失时,无法继续执行,训练过程被迫截止。而对于本发明方法当出现智能体碰撞坠毁时,此时的数据不作为样本进行存储,且更新智能体的当前状态,重新进行样本采样,这样使得所采集的所有样本的维度相同,不会导致训练被迫截止,保证了样本维度相同,为后续精确训练提供准确的数据基础。
在执行阶段所有智能体平均奖励如图4所示。在执行场景中,分别使用两种算法训练出的结果进行仿真,智能体会碰撞坠毁。图4中,分别使用两种算法各执行50000步仿真,仿真步长为0.05s,执行的奖励曲线,具体参见图4;本发明方法最小平均奖励为-60.97,传统的MADDPG算法最小平均奖励为-175.23,本发明相较传统方法在性能上有着显著的优势。预设每个执行轮次中最大执行步数为45步情况下,本发明方法可执行4101个轮次,传统的MADDPG算法可执行1917个轮次,由于本发明方法可执行轮次大于传统的MADDPG算法的可执行轮次,说明每个执行轮次下,执行的步数少,步数少就说明更高效,即:说明本发明方法相较MADDPG算法在每个执行轮次中执行步数更少,本发明方法更为高效,性能更为优越。
实施例2:
本实施例2所述的一种计算机可读的存储设备,所述存储设备存储有计算机程序,其特征在于,所述计算机程序被执行时所述基于深度强化学习的多智能体攻防决策方法。
实施例3:
本实施例3所述的一种基于深度强化学习的多智能体攻防决策装置,包括存储设备、处理器以及存储在所述存储设备中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序实现所述基于深度强化学习的多智能体攻防决策方法。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (6)

1.基于深度强化学习的多智能体攻防决策方法,该攻防决策方法基于同一场景下的N个智能体和目标地标实现;智能体为飞行器,且每个智能体内嵌入深度神经网络,N为大于或等于5的整数;其特征在于,该攻防决策方法包括如下过程:
S1、根据场景构建攻防环境;
攻防环境中N个智能体被划分为两组,分别为进攻方和防守方,且进攻方内各智能体独立进攻,防守方所对应的所有智能体协同合作;
S2、将N个智能体与攻防环境进行交互,交互过程中每个智能体最大化自身奖励,构建适用于深度神经网络的数据集知识库;
所述数据集知识库内所有样本的数据维度相同,且每个样本中的数据为由同一采样轮次下的N个智能体的当前状态、动作、奖励和新状态构成;所述智能体的动作包括由水平面内的x轴方向和y轴方向的期望加速度构成的合成期望加速度;
构建适用于深度神经网络的数据集知识库的实现方式包括:
S21、设置数据集知识库内的样本数量为M;每个采样批次下包括多次采样;
S22、在第P个采样批次下,进行第l次采样,使攻防环境中N个智能体中每个智能体根据自身观测空间、当前状态和剩余N-1智能体的动作,并生成相应动作与攻防环境进行交互,获得相应的奖励、新状态;P的初始值为1,且每个采样批次下,l的初始值为1;
S23、判断第P个采样批次下的第l次采样,是否出现智能体坠毁,结果为是,执行步骤S24;结果为否,执行步骤S25;
S24、将第P个采样批次下第l次采样获得的所有数据删除,令P=P+1,再对第P个采样批次下的所有智能体的当前状态重新初始化,执行步骤S22;
S25、将第P个采样批次下第l次采样获得的攻防环境中所有智能体的当前状态、动作、奖励和新状态,作为当前第P个采样批次下的一个样本存入数据集知识库,执行步骤S26;
S26、判断数据集知识库内的样本数量是否达到M,结果为否,执行步骤S27,结果为是,执行步骤S28;
S27、当当前第P个采样批次下样本数量达到45或进攻方内的智能体撞击目标地标时,令P=P+1,执行步骤S22;否则,令l=l+1,执行步骤S22;
S28、结束,完成数据集知识库的构建;
S3、从数据集知识库中随机抽取一批样本,利用同批样本同时对每个智能体的深度神经网络进行训练,获得训练后的智能体;其中,每个样本中的当前状态、奖励和新状态作为深度神经网络的输入,每个样本中的动作作为深度神经网络的输出;
S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策。
2.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法,其特征在于,
防守方的智能体的目标为:阻止进攻方的智能体撞击目标地标、合作拦截进攻方的智能体、以及同时避免与进攻方的智能体撞击;
进攻方的智能体的目标为:撞击目标地标、同时躲避防守方的智能体的拦截。
3.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法,其特征在于,S2中、交互过程中每个智能体最大化自身奖励的实现方式包括:
(一)当当前智能体为进攻方的智能体时,该当前智能体的奖励函数ri为:
ri=ri dis+ri col
ri dis=-d(i,goal)+mjind(i,goodj);
其中,ri dis为进攻方的第i个智能体的距离奖励,ri col为进攻方的第i个智能体的撞击奖励,d(i,goal)为进攻方的第i个智能体与目标地标的距离,d(i,goodj)为进攻方的第i个智能体与防守方的第j个智能体的距离;
(二)当当前智能体为防守方的智能体时,该当前智能体的奖励函数ri为:
ri=ri adv+ri good
其中,ri adv为防守方的第i个智能体的第一距离奖励,ri good为防守方的第i个智能体的第二距离奖励,d(goal,advj)为进攻方的第j个智能体与目标地标的距离;d(i,advj)为防守方的第i个智能体与进攻方的第j个智能体的距离。
4.根据权利要求1所述的基于深度强化学习的多智能体攻防决策方法,其特征在于,S4、在当前攻防环境和预设攻防轮次下,使训练后的各智能体进行攻防决策的实现方式包括:
在每个攻防轮次下,使训练后的各智能体根据自身观测空间做出相应的动作。
5.一种计算机可读的存储设备,所述存储设备存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至4任一所述基于深度强化学习的多智能体攻防决策方法。
6.一种基于深度强化学习的多智能体攻防决策装置,包括存储设备、处理器以及存储在所述存储设备中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序实现如权利要求1至4任一所述基于深度强化学习的多智能体攻防决策方法。
CN202211398653.0A 2022-11-09 2022-11-09 基于深度强化学习的多智能体攻防决策方法 Active CN115544898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211398653.0A CN115544898B (zh) 2022-11-09 2022-11-09 基于深度强化学习的多智能体攻防决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211398653.0A CN115544898B (zh) 2022-11-09 2022-11-09 基于深度强化学习的多智能体攻防决策方法

Publications (2)

Publication Number Publication Date
CN115544898A CN115544898A (zh) 2022-12-30
CN115544898B true CN115544898B (zh) 2023-08-29

Family

ID=84719651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211398653.0A Active CN115544898B (zh) 2022-11-09 2022-11-09 基于深度强化学习的多智能体攻防决策方法

Country Status (1)

Country Link
CN (1) CN115544898B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112198892A (zh) * 2020-05-13 2021-01-08 北京理工大学 一种多无人机智能协同突防对抗方法
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114358141A (zh) * 2021-12-14 2022-04-15 中国运载火箭技术研究院 一种面向多作战单元协同决策的多智能体增强学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110658829B (zh) * 2019-10-30 2021-03-30 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112198892A (zh) * 2020-05-13 2021-01-08 北京理工大学 一种多无人机智能协同突防对抗方法
CN112633415A (zh) * 2021-01-11 2021-04-09 中国人民解放军国防科技大学 基于规则约束训练的无人机集群智能任务执行方法和装置
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN114358141A (zh) * 2021-12-14 2022-04-15 中国运载火箭技术研究院 一种面向多作战单元协同决策的多智能体增强学习方法

Also Published As

Publication number Publication date
CN115544898A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN113396428B (zh) 多智能体应用的学习系统、计算机程序产品和方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
Toubman et al. Rewarding air combat behavior in training simulations
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN115544898B (zh) 基于深度强化学习的多智能体攻防决策方法
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
Ma et al. Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav
Zhu et al. Mastering air combat game with deep reinforcement learning
Lee et al. Amplifying the Imitation Effect for Reinforcement Learning of UCAV's Mission Execution
Lu et al. Strategy Generation Based on DDPG with Prioritized Experience Replay for UCAV

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant