CN116136945A - 一种基于反事实基线的无人机集群对抗博弈仿真方法 - Google Patents

一种基于反事实基线的无人机集群对抗博弈仿真方法 Download PDF

Info

Publication number
CN116136945A
CN116136945A CN202310177541.0A CN202310177541A CN116136945A CN 116136945 A CN116136945 A CN 116136945A CN 202310177541 A CN202310177541 A CN 202310177541A CN 116136945 A CN116136945 A CN 116136945A
Authority
CN
China
Prior art keywords
agent
action
network
intelligent
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310177541.0A
Other languages
English (en)
Inventor
王尔申
宏晨
刘帆
蔚保国
徐嵩
何成龙
陈昌龙
曲萍萍
别玉霞
庞涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN202310177541.0A priority Critical patent/CN116136945A/zh
Publication of CN116136945A publication Critical patent/CN116136945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于反事实基线的无人机集群对抗博弈仿真方法,涉及无人机及强化学习技术领域。该方法首先设定对抗博弈的智能体数和对抗博弈回合数等信息;并初始化每个智能体的动作网络和评估网络参数;然后初始化无人机集群对抗博弈环境,获取环境的初始状态空间以及每个智能体的观察值;计算评估网络输出的损失函数,把评估网络输出误差最小化;最后通过当前动作策略计算每个智能体每个步长的基线;使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络,直至对抗博弈回合数为止。

Description

一种基于反事实基线的无人机集群对抗博弈仿真方法
技术领域
本发明涉及无人机及强化学习技术领域,尤其涉及一种基于反事实基线的无人机集群对抗博弈仿真方法。
背景技术
无人机集群(Unmanned aerial vehicle,即UAV)是由若干配备多种任务载荷的低成本小型无人机组成的无人化作战系统,通过自主学习共同完成特定作战任务。作为典型的多智能体系统,无人机集群以高智能、难防御、强进攻、低成本、使用灵活等优势使得作战模式发生深刻变革。
随着无人机智能化水平的提高和集群控制技术的飞速发展,无人机集群对抗智能决策技术将成为未来无人机作战的关键技术,解决多智能体对抗问题的另一种思路是利用强化学习方法。强化学习是一种对目标导向与决策问题进行理解和自动化处理的计算方法,它常用马尔可夫决策过程建立数学模型,已在解决复杂环境下智能决策方面体现出不俗能力和良好发展态势,强化学习强调智能体通过与环境的直接交互来学习,而不需要可仿效的监督信号或对周围环境的完全建模,因此在解决长时间持续性复杂对抗任务时具有一定优势。相对于单智能体强化学习,多智能体强化学习具有更高的复杂度:一方面随着智能体数量的增加,相应的策略空间呈指数级增加,其难度远超围棋等棋类游戏;另一方面随着异构智能体的加入,多智能体间的通信、协作和配合变得更加重要。
深度强化学习(Deep reinforcement learning,即DRL)是近年来强化学习的一个发展迅速的新兴方向,它利用深度神经网络拟合难以学习的价值函数或最优策略。最近几年DRL创造出了许多惊人的成绩。Deepmind提出的基于值方法的深度Q网络(Deep Q-Networks,即DQN),为深度强化学习的发展奠定了基础。随之产生了DQN的许多变种,如:Dueling DQN、Double DQN(DDQN)等。
集中式训练分布式执行(CTDE):它由演员评论家框架发展而来,设计如图2.a所示,集中式训练,是指在训练中使用联合行为值函数对智能体进行训练,智能体智能观测到部分信息,包括部分的状态信息和部分的动作信息,在这种情况下,应该采用什么样的策略。通过学习多智能体的协调策略(Coordinated Policy),能够针对Dec-POMDP模型进行优化。COMA(Counterfactual Multi-Agent Policy Gradients)算法利用集中式的评论家网络对每个智能体的状态-动作价值函数进行估计,使用分布式的动作网络对每个智能体的策略进行迭代更新。
反事实基线(counterfactual baseline):这个想法是受奖励变化(differencerewards)的启发,在奖励变化中,代理根据比较全局奖励与将代理动作换位默认动作后的全局奖励来制定奖励函数进行学习。虽然奖励变化是解决奖励分配问题的一个有力的方式,但为了估计基线,需要一个仿真器。当一个模拟器已经被用于学习时,奖励变化方法会增加必须进行的仿真的数量,因为每个代理的奖励变化需要一个单独的反事实仿真。并且如何选择默认动作还不清楚。COMA通过使用集中的评论家(critic)来计算优势函数,比较当前动作的价值与忽视单个代理动作并保持其它代理动作不变的反事实基线。
GRU(Gate Recurrent Unit)是循环神经网络的一种,其同LSTM一样能够有效捕捉长序列之间的语义关联,为了解决长期记忆和反向传播中的梯度等问题而提出来的,缓解梯度消失或爆炸现象。效果都优于传统RNN且计算复杂度相比LSTM要小。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于反事实基线的无人机集群对抗博弈仿真方法及系统,实现在无人机集群对抗博弈中纳什均衡的求解方法。
为解决上述技术问题,本发明所采取的技术方案是:一种基于反事实基线的无人机集群对抗博弈仿真方法,包括以下步骤:
步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T;初始化每个智能体的动作网络参数ω和评估网络参数θ,一个评估网络对应一个目标评估网络,将评估网络的网络参数复制给目标网络;设定回放缓冲区D用来保存临时作战数据,用来更新动作网络和评估网络;
步骤2、初始化无人机集群对抗博弈环境,获取环境的初始状态空间S以及每个智能体的观察值O;每一个智能体根据自己的动作网络执行动作
Figure BDA0004101500230000021
将所有无人机的执行动作联合得到无人机集群的联合动作at=(a1,t,a2,t,…,aN,t),通过联合动作at与对抗博弈环境交互;并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态ot+1和奖励rt+1,同时将交互经验即对战数据存储到回放缓冲区D中;
步骤2.1:无人机执行各个动作的概率P(u)由动作网络最终层z输出,选取智能体状态对应动作作为智能体的动作策略π,智能体状态对应动作由ε-greedy策略选取,如下公式所示:
Figure BDA0004101500230000022
其中,a为智能体采取的最优动作,A为动作集合,A*为评估网络输出的最大Q值对应的动作,π(a|St)为智能体在状态St下对应的动作,ε为概率值,ε-greedy策略以概率ε均匀选择所有动作,以概率1-ε选择最优动作;
步骤2.2:将每局对战数据加入回放缓冲区D中,每一局对战数据包括下面信息:
Figure BDA0004101500230000031
其中,st为当前智能体状态,
Figure BDA0004101500230000032
为当前智能体观测状态,n为智能体的编号,ai为第i个智能体的动作,/>
Figure BDA0004101500230000033
为智能体联合动作,rt为环境反馈即时奖励;
步骤3、随机从回放缓冲区D中采样一些数据,这些数据必须是不同的回合中的相同无人机对应数据;计算评估网络输出的损失函数,并采用梯度下降方法,把评估网络输出误差最小化;
步骤3.1:在评估网络中输入当前智能体的全部状态
Figure BDA0004101500230000034
其中,下标x,y表示在二维环境中的位置,v为智能体速度,θ为航向角速度,g为剩余干扰次数,当前智能体的观测状态
Figure BDA0004101500230000035
其中/>
Figure BDA0004101500230000036
是第j个友军的观测状态子向量,
Figure BDA0004101500230000037
除自身外其他智能体的联合动作,自身智能体的one-hot编码,所有智能体上一时刻的动作,评估网络输出为当前智能体所有可执行动作的Q值;
步骤3.2:计算评估网络的梯度,并使用TD-error的方式更新评估网络权重,把损失函数的值降到最低;采用TD(λ)的形式进行评估网络权重更新,损失函数Loss如下:
Figure BDA0004101500230000038
其中,
Figure BDA0004101500230000039
Figure BDA00041015002300000310
其中,
Figure BDA00041015002300000311
为状态价值函数,衡量智能体到达状态S的好坏,y(λ)表示n从1到无穷所有步数的加权和,λ为折扣因子,rt+1为下一时刻的即时奖励;
则Loss函数公式表示为:
Figure BDA0004101500230000041
其中,f(·)为评估网络的函数值,
Figure BDA0004101500230000042
为目标评估网络输出的预测函数值;
步骤4、通过当前动作策略计算每个智能体每个步长的基线B,基线B计算公式如下:
Figure BDA0004101500230000043
其中,u′a为智能体的联合动作,u-a为除去当前智能体动作的联合动作,Q(s,(u-a,u′a))表示针对智能体i的每个动作的价值函数,智能体i目标评估网络输出该动作的反事实基线Q值估计;
步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络;
使用集中的评估网络来计算智能体在当前环境下的优势函数的公式如下:
Figure BDA0004101500230000044
其中,Aa(s,u)为优势函数,Q(·)为动作价值函数,Q(s,u)=r+γV(st+1);
采用反事实的多智能体策略梯度的方法,利用策略梯度定理使奖励期望达到最大来更新动作网络:
Figure BDA0004101500230000045
其中,g为当前智能体动作网络的梯度,r为当前时刻智能体的奖励,γ为折扣因子,τ为交互一次的经验轨迹,V(st)为当前时刻智能体的状态价值函数,同时保持其他智能体动作不变,将其他智能体视为环境,即求智能体i在当前环境下的优势函数,采用梯度上升法,使智能体的优势函数最大化;
其中,优势函数Aa(s,u)使用独立回报计算获得,此时智能体动作网络的梯度计算公式变成如下所示:
Figure BDA0004101500230000046
将更新的动作网络参数保存,并迭代更新,达到对抗博弈回合数M为止,终止退出。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于反事实基线的无人机集群对抗博弈仿真方法,基于动作网络和评估网络,具有结构简单,易于实现,仿真模拟空战等优点;通过把损失函数降到最低,从而达到集群收益最大,可以为未来无人机集群作战提供思路和建议。
附图说明
图1为本发明实施例提供的一种基于反事实基线的无人机集群对抗博弈仿真方法的流程图;
图2为本发明实施例提供的动作网络和评估网络设计图,其中,(a)为CTDE训练框架,(b)为动作网络,(c)为评估网络;
图3为本发明实施例提供的本发明方法与其他无人机集群对抗博弈仿真方法模拟对比的收益曲线图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,一种基于反事实基线的无人机集群对抗博弈仿真方法,如图1所示,包括以下步骤:
步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T;初始化每个智能体的动作网络参数ω和评估网络参数θ,一个评估网络对应一个目标评估网络,将评估网络的网络参数复制给目标网络;设定回放缓冲区D用来保存临时作战数据,用来更新动作网络和评估网络;
本实施例中,设定对抗博弈的智能体数N=12,对抗博弈回合数M=20000,每回合对抗博弈双方最大交互长度T=200;
步骤2、初始化无人机集群对抗博弈环境,在地图一三象限上随机位置生成红蓝位置,获取环境的初始状态空间S,S=[S1,S2,…,SN]包括无人机的自身的状态(位置、存活、干扰次数)、动作信息,以及每个智能体的观察值O:
Figure BDA0004101500230000051
Figure BDA0004101500230000052
其中表示智能体i自身的状态和动作的信息,/>
Figure BDA0004101500230000053
代表同队其他智能体的态势特征信息,/>
Figure BDA0004101500230000054
代表对手的态势特征信息(每个无人机与对手的相对位置),X={RED,BLUE}表示X类型的智能体;每一个智能体根据自己的动作网络执行动作ai,t=πθi(·|oi,t),i∈N,t∈T,将所有无人机的执行动作联合得到无人机集群的联合动作at=(a1,t,a2,t,…,aN,t),通过联合动作at与对抗博弈环境交互;并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态ot+1和奖励rt+1,同时将交互经验即对战数据存储到回放缓冲区D中;
步骤2.1:无人机执行各个动作的概率P(u)由动作网络最终层z输出,如图2(b)所示,选取智能体状态对应动作作为智能体的动作策略π,智能体状态对应动作由ε-greedy策略选取,如下公式所示:
Figure BDA0004101500230000061
其中,a为智能体采取的最优动作,A为动作集合,A*为评估网络输出的最大Q值对应的动作,π(a|St)为智能体在状态St下对应的动作,ε为概率值(该值一般较小,如取0.1),ε-greedy策略以概率ε均匀选择所有动作,以概率1-ε选择最优动作;
步骤2.2:将每局对战数据加入回放缓冲区D中,每一局对战数据包括下面信息:
Figure BDA0004101500230000062
其中,st为当前智能体状态,
Figure BDA0004101500230000063
为当前智能体观测状态(除自身之外其他智能体状态),n为智能体的编号,ai为第i个智能体的动作,/>
Figure BDA0004101500230000064
为智能体联合动作,rt为环境反馈即时奖励;
步骤3、随机从回放缓冲区D中采样一些数据,这些数据必须是不同的回合中的相同无人机对应数据;因为在选动作时不仅需要输入当前网络的输入,还要给神经网络输入隐藏层状态,隐藏层状态和之前的经验相关,因此就不能随机抽取经验进行学习。所以这里一次抽取多个回合数据,然后一次给神经网络传入每个回合的同一个位置。计算评估网络输出的损失函数,并采用梯度下降方法,把评估网络输出误差最小化;
步骤3.1:在评估网络中输入当前智能体的全部状态
Figure BDA0004101500230000065
其中,下标x,y表示在二维环境中的位置,v为智能体速度,θ为航向角速度,g为剩余干扰次数,当前智能体的观测状态
Figure BDA0004101500230000066
其中/>
Figure BDA0004101500230000067
是第j个友军的观测状态子向量,
Figure BDA0004101500230000068
除自身外其他智能体的联合动作,自身智能体的one-hot编码,所有智能体上一时刻的动作,评估网络输出为当前智能体所有可执行动作的Q值,如图2(c)所示;
步骤3.2:计算评估网络的梯度,并使用TD-error的方式更新评估网络权重,把损失函数的值降到最低;TD-error包括TD(0),TD(λ)两种更新形式,本实施例只采用TD(λ)的形式进行更新,损失函数Loss如下:
Figure BDA0004101500230000071
/>
其中,
Figure BDA0004101500230000072
Figure BDA0004101500230000073
其中,
Figure BDA0004101500230000074
为状态价值函数,衡量智能体到达状态S的好坏(当在前一状态采取动作后,有一定概率转移到状态S,所以我们需要衡量到达这个状态的好坏),y(λ)表示n从1到无穷所有步数的加权和,λ为折扣因子,rt+1为下一时刻的即时奖励;
也就是说,Loss函数公式可以表示为:
Figure BDA0004101500230000075
其中,f(·)为评估网络的函数值,
Figure BDA0004101500230000076
为目标评估网络输出的预测函数值;
步骤4、通过当前动作策略计算每个智能体每个步长的基线B,基线B计算公式如下:
Figure BDA0004101500230000077
其中,u′a为智能体的联合动作,u-a为除去当前智能体动作的联合动作,Q(s,(u-a,u′a))表示针对智能体i的每个动作的价值函数,智能体i目标评估网络输出该动作的反事实基线Q值估计;
步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络;
使用集中的评估网络来计算智能体在当前环境下的优势函数的公式如下:
Figure BDA0004101500230000078
其中,Aa(s,u)为优势函数,Q(·)为动作价值函数,Q(s,u)=r+γV(st+1);
采用反事实的多智能体策略梯度的方法,利用策略梯度定理使奖励期望达到最大来更新动作网络:
Figure BDA0004101500230000081
其中,g为当前智能体动作网络的梯度,r为当前时刻智能体的奖励,γ为折扣因子,τ为交互一次的经验轨迹,V(st)为当前时刻智能体的状态价值函数,同时保持其他智能体动作不变,将其他智能体视为环境,即求智能体i在当前环境下的优势函数,采用梯度上升法,使智能体的优势函数最大化;
其中,优势函数Aa(s,u)使用独立回报计算获得,此时智能体动作网络的梯度计算公式变成如下所示:
Figure BDA0004101500230000082
将更新的动作网络参数保存,并迭代更新,达到对抗博弈回合数M为止,终止退出。
最终,将本发明方法与其他对抗博弈算法进行对比,如图3所示,从图中可以看出,随着对抗回合的增加,奖励函数正在稳步上升并逐步收敛,并且本发明方法更快的收敛,得到较高的奖励函数,说明无人机集群可以更快速的学到有效的策略。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (6)

1.一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:包括以下步骤:
步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T;初始化每个智能体的动作网络参数ω和评估网络参数θ,一个评估网络对应一个目标评估网络,将评估网络的网络参数复制给目标网络;设定回放缓冲区D用来保存临时作战数据,用来更新动作网络和评估网络;
步骤2、初始化无人机集群对抗博弈环境,获取环境的初始状态空间S以及每个智能体的观察值O;每一个智能体根据自己的动作网络执行动作
Figure FDA0004101500220000011
将所有无人机的执行动作联合得到无人机集群的联合动作at=(a1,t,a2,t,…,aN,t),通过联合动作at与对抗博弈环境交互;并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态ot+1和奖励rt+1,同时将交互经验即对战数据存储到回放缓冲区D中;
步骤3、随机从回放缓冲区D中采样一些数据,这些数据必须是不同的回合中的相同无人机对应数据;计算评估网络输出的损失函数,并采用梯度下降方法,把评估网络输出误差最小化;
步骤4、通过当前动作策略计算每个智能体每个步长的基线B;
步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数,比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线,更新智能体的动作网络;将更新的动作网络参数保存,并迭代更新,达到对抗博弈回合数M为止,终止退出。
2.根据权利要求1所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:所述步骤2的具体方法为:
步骤2.1:无人机执行各个动作的概率P(u)由动作网络最终层z输出,选取智能体状态对应动作作为智能体的动作策略π,智能体状态对应动作由ε-greedy策略选取,如下公式所示:
Figure FDA0004101500220000012
其中,a为智能体采取的最优动作,A为动作集合,A*为评估网络输出的最大Q值对应的动作,π(a|St)为智能体在状态St下对应的动作,ε为概率值,ε-greedy策略以概率ε均匀选择所有动作,以概率1-ε选择最优动作;
步骤2.2:将每局对战数据加入回放缓冲区D中,每一局对战数据包括下面信息:
Figure FDA0004101500220000021
其中,st为当前智能体状态,
Figure FDA0004101500220000022
为当前智能体观测状态,n为智能体的编号,ai为第i个智能体的动作,/>
Figure FDA0004101500220000023
为智能体联合动作,rt为环境反馈即时奖励。
3.根据权利要求2所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:所述步骤3的具体方法为:
步骤3.1:在评估网络中输入当前智能体的全部状态
Figure FDA0004101500220000024
其中,下标x,y表示在二维环境中的位置,v为智能体速度,θ为航向角速度,g为剩余干扰次数,当前智能体的观测状态/>
Figure FDA0004101500220000025
其中/>
Figure FDA0004101500220000026
是第j个友军的观测状态子向量,/>
Figure FDA0004101500220000027
除自身外其他智能体的联合动作,自身智能体的one-hot编码,所有智能体上一时刻的动作,评估网络输出为当前智能体所有可执行动作的Q值;
步骤3.2:计算评估网络的梯度,并使用TD-error的方式更新评估网络权重,把损失函数的值降到最低。
4.根据权利要求3所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:所述步骤3.2采用TD(λ)的形式进行评估网络权重更新,损失函数Loss如下:
Figure FDA0004101500220000028
其中,
Figure FDA0004101500220000029
Figure FDA00041015002200000210
其中,
Figure FDA00041015002200000211
为状态价值函数,衡量智能体到达状态S的好坏,y(λ)表示n从1到无穷所有步数的加权和,λ为折扣因子,rt+1为下一时刻的即时奖励;
则Loss函数公式表示为:
Figure FDA00041015002200000212
其中,f(·)为评估网络的函数值,
Figure FDA00041015002200000213
为目标评估网络输出的预测函数值。
5.根据权利要求4所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:步骤4所述每个智能体每个步长的基线B计算公式如下:
Figure FDA0004101500220000031
其中,u′a为智能体的联合动作,u-a为除去当前智能体动作的联合动作,Q(s,(u-a,u′a))表示针对智能体i的每个动作的价值函数,智能体i目标评估网络输出该动作的反事实基线Q值估计。
6.根据权利要求5所述的一种基于反事实基线的无人机集群对抗博弈仿真方法,其特征在于:所述步骤5的具体方法为:
使用集中的评估网络来计算智能体在当前环境下的优势函数的公式如下:
Figure FDA0004101500220000032
其中,Aa(s,u)为优势函数,Q(·)为动作价值函数,Q(s,u)=r+γV(st+1);
采用反事实的多智能体策略梯度的方法,利用策略梯度定理使奖励期望达到最大来更新动作网络:
Figure FDA0004101500220000033
其中,g为当前智能体动作网络的梯度,r为当前时刻智能体的奖励,γ为折扣因子,τ为交互一次的经验轨迹,V(st)为当前时刻智能体的状态价值函数,同时保持其他智能体动作不变,将其他智能体视为环境,即求智能体i在当前环境下的优势函数,采用梯度上升法,使智能体的优势函数最大化;
其中,优势函数Aa(s,u)使用独立回报计算获得,此时智能体动作网络的梯度计算公式变成如下所示:
Figure FDA0004101500220000034
将更新的动作网络参数保存,并迭代更新,达到最大训练回合数M为止,终止退出。
CN202310177541.0A 2023-02-28 2023-02-28 一种基于反事实基线的无人机集群对抗博弈仿真方法 Pending CN116136945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310177541.0A CN116136945A (zh) 2023-02-28 2023-02-28 一种基于反事实基线的无人机集群对抗博弈仿真方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310177541.0A CN116136945A (zh) 2023-02-28 2023-02-28 一种基于反事实基线的无人机集群对抗博弈仿真方法

Publications (1)

Publication Number Publication Date
CN116136945A true CN116136945A (zh) 2023-05-19

Family

ID=86334514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310177541.0A Pending CN116136945A (zh) 2023-02-28 2023-02-28 一种基于反事实基线的无人机集群对抗博弈仿真方法

Country Status (1)

Country Link
CN (1) CN116136945A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117434968A (zh) * 2023-12-19 2024-01-23 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN117707219A (zh) * 2024-02-05 2024-03-15 西安羚控电子科技有限公司 基于深度强化学习的无人机集群侦查对抗方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN117434968A (zh) * 2023-12-19 2024-01-23 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN117434968B (zh) * 2023-12-19 2024-03-19 华中科技大学 一种基于分布式a2c的多无人机追逃博弈方法及系统
CN117707219A (zh) * 2024-02-05 2024-03-15 西安羚控电子科技有限公司 基于深度强化学习的无人机集群侦查对抗方法及装置
CN117707219B (zh) * 2024-02-05 2024-05-17 西安羚控电子科技有限公司 基于深度强化学习的无人机集群侦查对抗方法及装置

Similar Documents

Publication Publication Date Title
Pope et al. Hierarchical reinforcement learning for air-to-air combat
CN116136945A (zh) 一种基于反事实基线的无人机集群对抗博弈仿真方法
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
Ma et al. Multi-robot target encirclement control with collision avoidance via deep reinforcement learning
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN116360503B (zh) 一种无人机博弈对抗策略生成方法、系统及电子设备
CN116661503B (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
Chai et al. A hierarchical deep reinforcement learning framework for 6-DOF UCAV air-to-air combat
CN116430888A (zh) 多无人机空战策略生成方法、装置和计算机设备
Diallo et al. Multi-agent pattern formation: a distributed model-free deep reinforcement learning approach
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
Singh et al. Pursuit-evasion with Decentralized Robotic Swarm in Continuous State Space and Action Space via Deep Reinforcement Learning.
CN114037048B (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN115906673B (zh) 作战实体行为模型一体化建模方法及系统
Huang et al. A deep reinforcement learning approach to preserve connectivity for multi-robot systems
CN116859989A (zh) 一种基于群体协同的无人机集群智能对抗策略生成方法
CN115668216A (zh) 具有易处理的纳什均衡解的非零和博弈系统框架
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN114371729B (zh) 一种基于距离优先经验回放的无人机空战机动决策方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination