CN116136945A

CN116136945A - 一种基于反事实基线的无人机集群对抗博弈仿真方法

Info

Publication number: CN116136945A
Application number: CN202310177541.0A
Authority: CN
Inventors: 王尔申; 宏晨; 刘帆; 蔚保国; 徐嵩; 何成龙; 陈昌龙; 曲萍萍; 别玉霞; 庞涛
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-05-19

Abstract

本发明提供一种基于反事实基线的无人机集群对抗博弈仿真方法，涉及无人机及强化学习技术领域。该方法首先设定对抗博弈的智能体数和对抗博弈回合数等信息；并初始化每个智能体的动作网络和评估网络参数；然后初始化无人机集群对抗博弈环境，获取环境的初始状态空间以及每个智能体的观察值；计算评估网络输出的损失函数，把评估网络输出误差最小化；最后通过当前动作策略计算每个智能体每个步长的基线；使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数，比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线，更新智能体的动作网络，直至对抗博弈回合数为止。

Description

一种基于反事实基线的无人机集群对抗博弈仿真方法

技术领域

本发明涉及无人机及强化学习技术领域，尤其涉及一种基于反事实基线的无人机集群对抗博弈仿真方法。

背景技术

无人机集群(Unmanned aerial vehicle,即UAV)是由若干配备多种任务载荷的低成本小型无人机组成的无人化作战系统，通过自主学习共同完成特定作战任务。作为典型的多智能体系统，无人机集群以高智能、难防御、强进攻、低成本、使用灵活等优势使得作战模式发生深刻变革。

随着无人机智能化水平的提高和集群控制技术的飞速发展，无人机集群对抗智能决策技术将成为未来无人机作战的关键技术，解决多智能体对抗问题的另一种思路是利用强化学习方法。强化学习是一种对目标导向与决策问题进行理解和自动化处理的计算方法，它常用马尔可夫决策过程建立数学模型，已在解决复杂环境下智能决策方面体现出不俗能力和良好发展态势，强化学习强调智能体通过与环境的直接交互来学习，而不需要可仿效的监督信号或对周围环境的完全建模，因此在解决长时间持续性复杂对抗任务时具有一定优势。相对于单智能体强化学习，多智能体强化学习具有更高的复杂度：一方面随着智能体数量的增加，相应的策略空间呈指数级增加，其难度远超围棋等棋类游戏；另一方面随着异构智能体的加入，多智能体间的通信、协作和配合变得更加重要。

深度强化学习(Deep reinforcement learning,即DRL)是近年来强化学习的一个发展迅速的新兴方向，它利用深度神经网络拟合难以学习的价值函数或最优策略。最近几年DRL创造出了许多惊人的成绩。Deepmind提出的基于值方法的深度Q网络(Deep Q-Networks,即DQN),为深度强化学习的发展奠定了基础。随之产生了DQN的许多变种，如：Dueling DQN、Double DQN(DDQN)等。

集中式训练分布式执行(CTDE)：它由演员评论家框架发展而来，设计如图2.a所示，集中式训练，是指在训练中使用联合行为值函数对智能体进行训练，智能体智能观测到部分信息，包括部分的状态信息和部分的动作信息，在这种情况下，应该采用什么样的策略。通过学习多智能体的协调策略(Coordinated Policy)，能够针对Dec-POMDP模型进行优化。COMA(Counterfactual Multi-Agent Policy Gradients)算法利用集中式的评论家网络对每个智能体的状态-动作价值函数进行估计，使用分布式的动作网络对每个智能体的策略进行迭代更新。

反事实基线(counterfactual baseline)：这个想法是受奖励变化(differencerewards)的启发，在奖励变化中，代理根据比较全局奖励与将代理动作换位默认动作后的全局奖励来制定奖励函数进行学习。虽然奖励变化是解决奖励分配问题的一个有力的方式，但为了估计基线，需要一个仿真器。当一个模拟器已经被用于学习时，奖励变化方法会增加必须进行的仿真的数量，因为每个代理的奖励变化需要一个单独的反事实仿真。并且如何选择默认动作还不清楚。COMA通过使用集中的评论家(critic)来计算优势函数，比较当前动作的价值与忽视单个代理动作并保持其它代理动作不变的反事实基线。

GRU(Gate Recurrent Unit)是循环神经网络的一种，其同LSTM一样能够有效捕捉长序列之间的语义关联,为了解决长期记忆和反向传播中的梯度等问题而提出来的，缓解梯度消失或爆炸现象。效果都优于传统RNN且计算复杂度相比LSTM要小。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于反事实基线的无人机集群对抗博弈仿真方法及系统，实现在无人机集群对抗博弈中纳什均衡的求解方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于反事实基线的无人机集群对抗博弈仿真方法，包括以下步骤：

步骤1、设定作战数据回放缓冲区D、对抗博弈的智能体数N和对抗博弈回合数M以及每回合对抗博弈双方最大交互长度T；初始化每个智能体的动作网络参数ω和评估网络参数θ，一个评估网络对应一个目标评估网络，将评估网络的网络参数复制给目标网络；设定回放缓冲区D用来保存临时作战数据，用来更新动作网络和评估网络；

步骤2、初始化无人机集群对抗博弈环境，获取环境的初始状态空间S以及每个智能体的观察值O；每一个智能体根据自己的动作网络执行动作

将所有无人机的执行动作联合得到无人机集群的联合动作a_t＝(a_1,t,a_2,t,…,a_N,t)，通过联合动作a_t与对抗博弈环境交互；并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态o_t+1和奖励r_t+1，同时将交互经验即对战数据存储到回放缓冲区D中；

步骤2.1：无人机执行各个动作的概率P(u)由动作网络最终层z输出，选取智能体状态对应动作作为智能体的动作策略π，智能体状态对应动作由ε-greedy策略选取，如下公式所示：

其中，a为智能体采取的最优动作，A为动作集合，A^*为评估网络输出的最大Q值对应的动作，π(a|S_t)为智能体在状态S_t下对应的动作，ε为概率值，ε-greedy策略以概率ε均匀选择所有动作，以概率1-ε选择最优动作；

步骤2.2：将每局对战数据加入回放缓冲区D中，每一局对战数据包括下面信息：

其中，s_t为当前智能体状态，

为当前智能体观测状态，n为智能体的编号，a_i为第i个智能体的动作，/>

为智能体联合动作，r_t为环境反馈即时奖励；

步骤3、随机从回放缓冲区D中采样一些数据，这些数据必须是不同的回合中的相同无人机对应数据；计算评估网络输出的损失函数，并采用梯度下降方法，把评估网络输出误差最小化；

步骤3.1：在评估网络中输入当前智能体的全部状态

其中，下标x,y表示在二维环境中的位置，v为智能体速度，θ为航向角速度，g为剩余干扰次数，当前智能体的观测状态

其中/>

是第j个友军的观测状态子向量，

除自身外其他智能体的联合动作，自身智能体的one-hot编码，所有智能体上一时刻的动作，评估网络输出为当前智能体所有可执行动作的Q值；

步骤3.2：计算评估网络的梯度，并使用TD-error的方式更新评估网络权重，把损失函数的值降到最低；采用TD(λ)的形式进行评估网络权重更新，损失函数Loss如下：

其中，

其中，

为状态价值函数，衡量智能体到达状态S的好坏，y^(λ)表示n从1到无穷所有步数的加权和，λ为折扣因子，r^t+1为下一时刻的即时奖励；

则Loss函数公式表示为：

其中，f(·)为评估网络的函数值，

为目标评估网络输出的预测函数值；

步骤4、通过当前动作策略计算每个智能体每个步长的基线B，基线B计算公式如下：

其中，u′^a为智能体的联合动作，u^-a为除去当前智能体动作的联合动作，Q(s,(u^-a,u′^a))表示针对智能体i的每个动作的价值函数，智能体i目标评估网络输出该动作的反事实基线Q值估计；

步骤5、使用无人机集群中所有智能体对应的评估网络计算当前智能体在当前环境下的优势函数，比较当前智能体动作的价值与除去当前智能体动作并保持其他智能体动作不变的反事实基线，更新智能体的动作网络；

使用集中的评估网络来计算智能体在当前环境下的优势函数的公式如下：

其中，A^a(s,u)为优势函数，Q(·)为动作价值函数，Q(s,u)＝r+γV(s_t+1)；

采用反事实的多智能体策略梯度的方法，利用策略梯度定理使奖励期望达到最大来更新动作网络：

其中，g为当前智能体动作网络的梯度，r为当前时刻智能体的奖励，γ为折扣因子，τ为交互一次的经验轨迹，V(s_t)为当前时刻智能体的状态价值函数，同时保持其他智能体动作不变，将其他智能体视为环境，即求智能体i在当前环境下的优势函数，采用梯度上升法，使智能体的优势函数最大化；

其中，优势函数A^a(s,u)使用独立回报计算获得，此时智能体动作网络的梯度计算公式变成如下所示：

将更新的动作网络参数保存，并迭代更新，达到对抗博弈回合数M为止，终止退出。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于反事实基线的无人机集群对抗博弈仿真方法，基于动作网络和评估网络，具有结构简单，易于实现，仿真模拟空战等优点；通过把损失函数降到最低，从而达到集群收益最大，可以为未来无人机集群作战提供思路和建议。

附图说明

图1为本发明实施例提供的一种基于反事实基线的无人机集群对抗博弈仿真方法的流程图；

图2为本发明实施例提供的动作网络和评估网络设计图，其中，(a)为CTDE训练框架，(b)为动作网络，(c)为评估网络；

图3为本发明实施例提供的本发明方法与其他无人机集群对抗博弈仿真方法模拟对比的收益曲线图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，一种基于反事实基线的无人机集群对抗博弈仿真方法，如图1所示，包括以下步骤：

本实施例中，设定对抗博弈的智能体数N＝12，对抗博弈回合数M＝20000，每回合对抗博弈双方最大交互长度T＝200；

步骤2、初始化无人机集群对抗博弈环境，在地图一三象限上随机位置生成红蓝位置，获取环境的初始状态空间S，S＝[S₁,S₂,…,S_N]包括无人机的自身的状态(位置、存活、干扰次数)、动作信息，以及每个智能体的观察值O：

其中表示智能体i自身的状态和动作的信息，/>

代表同队其他智能体的态势特征信息，/>

代表对手的态势特征信息(每个无人机与对手的相对位置)，X＝{RED,BLUE}表示X类型的智能体；每一个智能体根据自己的动作网络执行动作a_i,t＝π_θi(·|o_i,t),i∈N,t∈T，将所有无人机的执行动作联合得到无人机集群的联合动作a_t＝(a_1,t,a_2,t,…,a_N,t)，通过联合动作a_t与对抗博弈环境交互；并从对抗博弈环境中获取整个无人机集群下一时刻的观测状态o_t+1和奖励r_t+1，同时将交互经验即对战数据存储到回放缓冲区D中；

步骤2.1：无人机执行各个动作的概率P(u)由动作网络最终层z输出，如图2(b)所示，选取智能体状态对应动作作为智能体的动作策略π，智能体状态对应动作由ε-greedy策略选取，如下公式所示：

其中，a为智能体采取的最优动作，A为动作集合，A^*为评估网络输出的最大Q值对应的动作，π(a|S_t)为智能体在状态S_t下对应的动作，ε为概率值(该值一般较小，如取0.1)，ε-greedy策略以概率ε均匀选择所有动作，以概率1-ε选择最优动作；

其中，s_t为当前智能体状态，

为当前智能体观测状态(除自身之外其他智能体状态)，n为智能体的编号，a_i为第i个智能体的动作，/>

为智能体联合动作，r_t为环境反馈即时奖励；

步骤3、随机从回放缓冲区D中采样一些数据，这些数据必须是不同的回合中的相同无人机对应数据；因为在选动作时不仅需要输入当前网络的输入，还要给神经网络输入隐藏层状态，隐藏层状态和之前的经验相关，因此就不能随机抽取经验进行学习。所以这里一次抽取多个回合数据，然后一次给神经网络传入每个回合的同一个位置。计算评估网络输出的损失函数，并采用梯度下降方法，把评估网络输出误差最小化；

步骤3.1：在评估网络中输入当前智能体的全部状态

其中/>

是第j个友军的观测状态子向量，

除自身外其他智能体的联合动作，自身智能体的one-hot编码，所有智能体上一时刻的动作，评估网络输出为当前智能体所有可执行动作的Q值，如图2(c)所示；

步骤3.2：计算评估网络的梯度，并使用TD-error的方式更新评估网络权重，把损失函数的值降到最低；TD-error包括TD(0),TD(λ)两种更新形式，本实施例只采用TD(λ)的形式进行更新，损失函数Loss如下：

/>

其中，

其中，

为状态价值函数，衡量智能体到达状态S的好坏(当在前一状态采取动作后，有一定概率转移到状态S，所以我们需要衡量到达这个状态的好坏)，y^(λ)表示n从1到无穷所有步数的加权和，λ为折扣因子，r^t+1为下一时刻的即时奖励；

也就是说，Loss函数公式可以表示为：

其中，f(·)为评估网络的函数值，

为目标评估网络输出的预测函数值；

最终，将本发明方法与其他对抗博弈算法进行对比，如图3所示，从图中可以看出，随着对抗回合的增加，奖励函数正在稳步上升并逐步收敛，并且本发明方法更快的收敛，得到较高的奖励函数，说明无人机集群可以更快速的学到有效的策略。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。