CN114638339A

CN114638339A - 基于深度强化学习的智能体任务分配方法

Info

Publication number: CN114638339A
Application number: CN202210234672.3A
Authority: CN
Inventors: 付强; 刘家义; 王刚; 范成礼
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-17

Abstract

公开一种基于深度强化学习的智能体任务分配方法，包括下列步骤：强弱智能体架构设计；协同行为的马尔科夫决策过程设计；阶段性奖励机制设计；智能体网络结构设计；多头注意力机制与目标选择设计。本发明提出“一强带N弱”的多智能体结构，能够降低系统复杂度，消除多智能体系统在处理复杂问题时容易出现交互冲突的短板；通过多头注意力机制和阶段性奖励机制，有效提高了训练的效率和稳定性。

Description

基于深度强化学习的智能体任务分配方法

技术领域

本发明涉及强化学习领域技术，具体涉及一种基于深度强化学习的智能体任务分配方法。

背景技术

大规模博弈对抗场景中，智能体需要处理很多并发任务分配以及随机事件，整个态势充满了复杂性和不确定性。

Hang的《Application of Markov Decision Process in Target Assignment》(Journal of Harbin Institute of Technology，1996，28(2)：32-36.)认为动态武器目标分配分为策略优化和匹配优化两个阶段，马尔科夫的动态性可以用于动态武器目标分配的求解。Chen的《An Improved Algorithm of Policies Optimization of Dynamic WeaponTarget AssignmentProblem》(System Engineering Theory and Practice，2007，(7)：160-165.)在此基础上，对马尔科夫过程策略优化中的基于策略迭代法和值迭代法的混合迭代法进行改进，用以解决大规模的武器目标分配问题。He的《Finite Stage MDP forTask Allocation in UCAVs Cooperative Control》(Fire Control&Command Control，2012，37(10)：99-101.)通过马尔科夫决策过程将任务分配问题化为分阶段决策过程，这种方法在较小规模寻优问题中，拥有较好的效果。

国内，徐浩的《基于模糊多目标规划的防空反导火力分配》(系统工程与电子技术，2017，(12)：1-8.)针对现有多目标分配方法很难适用于不确定情况下的防空反导作战的问题，采用模糊多目标规划方法构建任务分配模型；张骏的《多目标多决策者环境下防空反导装备体系资源分配与优化》(国防科技大学学报，2015，37(1)：171-178.)在层次化多目标分析方法的基础之上，引入风险管理，提出以反导为背景的任务分配模型。

Mnih的《Human-Level Control through Deep Reinforcement Learning》(Nature，2015，(518)：529-533.)提出深度Q网络(Deep Q Network，DQN)，首次将深度学习领域的卷积神经网络(Convolutional Neural Networks，CNN)与强化学习领域的Q学习算法相结合；在此基础上，Schaul的《Prioritized Experience Replay》(Computer Science，2015.)提出基于优先级经验回放机制的DQN，通过提高重要转移过程重新采样的频次，显著改善了DQN网络学习效率。为解决Q学习在大规模数据时学习过程估计误差过大的伺题，Van的《DeepReinforcement Learning with Double Q-Learning》(Computer Science，2016.)提出双重深度Q网络(double-DQN)，通过将两套Q网络运用到DQN框架内分别负责选取和评估动作，有效避免了过高估计，提高了策略训练的稳定性。Silver的《Mastering the gameof Go without human knowledge》(Nature2017，(550)：354-359.)仅通过强化学习产生的训练数据进行网络更新，击败人类顶尖围棋选手的阿尔法元。不依赖于大量人类样本数据，无需人工参与指导，而且还发现很多人类未曾探索过的围棋定式。

发明内容

针对现有技术存在的问题，本发明提供一种基于深度强化学习的智能体任务分配方法，具体包括下列步骤：

Step1.强弱智能体架构设计

在一定时间内，将全局态势，简称为“状态”，作为计算能力较强的强智能体的输入，获得作战任务；基于战术规则的弱智能体根据自身态势对强智能体的作战任务进行分解，形成需要执行的“动作”，进而输出对应动作的具体指令到仿真环境中；弱智能体根据指令做出决策后，整个“仿真环境”的态势会随之发生改变，此时会产生“环境数据”；产生的“环境数据”会根据强智能体所需要的数据结构转化为“状态”作为强智能体的输入；

Step2.协同行为的马尔科夫决策过程设计

设马尔可夫过程MDP四元素(S，A，r，p)：状态S，动作A，奖励函数r，转移概率p；马尔可夫性：p(s_t+1|s₀，a₀，...，s_t，a_t)＝p(s_t+1|s_t，a_t)；策略函数π：S→A；s_t为t时刻的状态，a_t为t时刻的动作；

优化目标：求解最优的策略函数π^*，最大化期望累积奖励值：

s.t.s_t+1～p(·|s_t，a_t)，a_t～π(·|s_t)，t＝0，...T-1 (1)

式中，γ、r_t、T分别表示奖励衰减系数、t时刻的奖励、总时间，上角标t表示幂指数；

在p(s_t+1|s_t，a_t)未知情况下求解马尔科夫决策过程，核心思路是采用时间差分算法估计动作-值函数Q^π(s，a)：

Q^π(s_t，a_t)←Q^π(s_t，a_t)+α[r(s_t，a_t)+γmax_aQ^π(s_t+1，a)-Q^π(s_t，a_t)] (3)

π′(s)＝arg max_aQ^π(s，a) (4)

式中，s泛指状态，a泛指动作，r(s_t，a_t)表示在t时刻状态s_t情况下执行动作a_t获得的奖励，π′(s)表示在状态s情况下的最优策略，argmax_a表示执行动作a的最大值自变量点集；

Step3.阶段性奖励机制设计

阶段性奖励机制采用拆解任务目标，阶段性给予奖励值的方法，引导神经网络找到取得胜利的策略；在此基础上，根据实际任务中不同的目标对奖励函数进行优化设计，将最小化拦截资源消耗也作为一项奖励指标，增大全局收益最大化对于智能体收益影响的效果；

Step4.智能体网络结构设计

态势输入数据分为四类：第一类为红方基地状态；第二类为红方雷达状态和拦截器状态；第三类为蓝方单位状态；第四类为可被红方攻击的蓝方单位状态；每类数据的单位数量不固定，随着战场形势而变化；

每类态势数据各自通过两层全联接-线性整流函数fc-relu进行特征提取，然后将所有特征向量进行合并，特征向量为提前定义好的；通过concat函数连接合并多个特征向量，形成数组，再通过一层fc-relu及门控循环单元GRU生成全局特征；GRU引入重置门和更新门的概念，修改网络中隐藏状态的计算方式，能够解决神经网络存在的梯度消失问题；

神经网络在决策时既要考虑当前状况，也要考虑历史信息，需要通过GRU与全局态势不断交互，选择保留或遗忘信息；将全局特征与可选择的蓝方单位特征向量通过注意力机制运算，选择拦截单位；各个拦截单位再根据自身状态结合提前设计好的规则库通过注意力运算选择拦截时机和敌方单位；

Step5.多头注意力机制与目标选择设计

将决策动作进行多头处理作为网络的输出，即将动作分为动作主语、动作谓语、动作宾语；

在选择拦截目标时，神经网络需要在局部区域重点关注一些重要目标；将每个火力单元状态和来袭目标的特征向量分别使用加性模型实现注意力机制运算；“每个火力单元状态和来袭目标的特征向量”都从“状态”数据中获得，而“状态”数据是由“仿真环境数据”转换而来；

定义X＝[x₁，...，x_N]为N个输入信息形成的向量，x_i为当前可选择的第i个来袭目标，i＝1，2，…，N，首先计算在给定查询向量q和X下，选择第i个目标的概率为a_i，a_i被称为注意力分布，则定义a_i为

式中，s(x_i，q)为注意力打分函数，表示在查询向量q前提下选择第i个来袭目标的得分，得分越高，第i个来袭目标被选择的概率越大，计算模型选择加性模型：

s(x_i，q)＝v^Ttanh(Wx_i+Uq) (7)

式中，查询向量q为每个火力单元的特征向量，W和U为第一和第二可训练的神经网络参数，v为全局态势特征向量，即为带条件的注意力机制，使得全局态势信息参与计算，tanh为双曲正切函数；得到每个火力单元关于每个目标的注意力分值，分别对分值向量的每一位进行sigmoid采样，最后产生总体决策。

在本发明的一个实施例中，在Step3中，可在成功抵御第一次攻击后，一次性给予阶段性奖励；在蓝方高价值单位损失后，给予相应奖励值；红方获胜后，给予获胜奖励值；

本发明基于使用资源最少原则的奖励函数：

式中，m为拦截蓝方有人单位的数量，n为拦截蓝方无人机的数量，i为发射导弹的数量。

在本发明的一个具体实施例中，在Step4中，红方基地状态包括要地基本信息，要地正在受攻击的状况；红方雷达状态和拦截器状态包括火力单元当前的配置情况，雷达的工作状态，发射车的工作状态，雷达受攻击的状况，火力单元能够打击的敌方单位信息；蓝方单位状态包括蓝方单位基本信息，被红方导弹攻击的状况；可被红方攻击的蓝方单位状态包括可被红方火力单元打击的状况。

在本发明的另一个实施例中，在Step5中，动作主语为选择哪些拦截单位，动作谓语为选择哪个发射车在什么时机拦截，动作宾语为选择哪些敌方目标。

本发明提出“一强带N弱”的多智能体结构，可以降低系统复杂度，消除多智能体系统在处理复杂问题时容易出现交互冲突的短板。针对大规模任务分配问题特点，提出改进近端策略优化(PPO-TAGNA)算法，通过多头注意力机制和阶段性奖励机制，有效提高了训练的效率和稳定性。最后在数字战场通过实验验证了多智能体架构和PPO-TAGNA算法用于解决地空对抗任务分配问题的可行性与优越性。

附图说明

图1给出强弱智能体协同行为决策模型研究框架；

图2给出智能体训练网络结构；

图3给出消融实验算法性能对比；

图4给出实验想定示意图；

图5给出算法性能对比；

图6给出训练前智能体表现；

图7给出训练后智能体表现。

具体实施方式

下面结合附图详细描述本发明。

本发明基于深度强化学习的智能体任务分配方法具体包括下列步骤：

Step1.强弱智能体架构设计

大规模地空对抗任务分配需要处理很多并发任务分配以及随机事件，整个战场态势充满复杂性和不确定性。完全分布式的多智能体架构对于随机事件的全局协调性较差，难以满足地空对抗任务分配的需求目前的集中式分配架构都能取得全局最优结果，但对于大规模的复杂问题，因为求解时间代价过大而实用性不强。针对地空对抗的分布式协同作战指控问题，本发明结合深度强化学习开发架构，基于数据规则双驱动的思想，提出强弱智能体指控系统。强弱智能体系统架构如图1所示，在一定时间内，将全局态势(图中表示为“状态”)作为计算能力较强的强智能体的输入，获得作战任务。基于战术规则的弱智能体根据自身态势对强智能体的作战任务进行分解，形成需要执行的“动作”，进而输出对应动作的具体指令到仿真环境中。弱智能体根据指令做出决策后，整个“仿真环境”的态势会随之发生改变，此时会产生“环境数据”。产生的“环境数据”会根据强智能体所需要的数据结构转化为“状态”作为强智能体的输入。即强智能体根据全局态势对弱智能体进行任务分配，弱智能体将作战任务分解为指令(如某时刻对某个目标进行拦截)。以仿真对抗数据驱动强智能体，作战规则驱动弱智能体，目的是提高多智能体系统解决复杂任务的速率和降低系统复杂度，消除多智能体系统在处理复杂问题的短板。强智能体为弱智能体的上级，每一个弱智能体对应一个作战单元，弱智能体之间并行协同执行具体动作，期望在较短时间内，利用计算能力较强的多智能体获取态势信息并快速分配任务，再由多个弱智能体根据具体任务与自身状态，选择合适的时机与拦截器对敌方目标进行拦截，在实现战术目标的前提下尽量节省资源。

Step2.协同行为的马尔科夫决策过程设计

传统的多智能体协同决策研究主要集中在基于模型的研究上，即理性智能体研究。传统的任务分配研究存在过于依赖背后模型的准确度等缺点，只关注从模型到执行器的设计，而不关注模型的产生过程。智能对抗环境中，智能体种类多样，对于多智能体难以获得精准的决策模型，且存在复杂的任务环境和态势扰动，因此环境模型呈现一定的随机性和时变性。这些都需要研究智能体模型在信息缺失下的控制方法。

此模型框架的实质是基于分配策略最优算法的思想，结合深度强化学习方法，求解大规模任务分配问题。

设马尔可夫过程(MDP)四元素(S，A，r，p)：状态S，动作A，奖励函数r，转移概率p；马尔可夫性：p(s_t+1|s₀，a₀，...，s_t，a_t)＝p(s_t+1|s_t，a_t)；策略函数π：S→A。s_t为t时刻的状态，a_t为t时刻的动作。

s.t.s_t+1～p(·|s_t，a_t)，a_t～π(·|s_t)，t＝0，...T-1 (1)

式中，γ、r_t、T分别表示奖励衰减系数、t时刻的奖励、总时间，上角标t表示幂指数。

π′(s)＝arg max_aQ^π(s，a) (4)

式中，s泛指状态，a泛指动作，r(s_t，a_t)表示在t时刻状态s_t情况下执行动作a_t获得的奖励，π′(s)表示在状态s情况下的最优策略，argmax_a表示执行动作a的最大值自变量点集。

Step3.阶段性奖励机制设计

奖励函数的设计是深度强化学习应用于任务分配的关键，设计深度强化学习的奖励函数必须具体问题具体分析。针对地空对抗任务分配问题，通常奖励值设计思路是给每种类型的单位都设置相应的奖励值，若有单位损耗，则给予对应单位的奖励值，在每轮推演结束时将每一步的奖励值相加，作为最终的奖励值。但实际操作中，由于各个单位损失的奖励值在每一步都会相互抵消，导致最终得到的奖励值较小，学习效率低下。但是如果只在每局最后一步给出胜利或者失败的奖励值，其它步奖励值均为0，相当于没有添加任何人工的先验知识，可以给神经网络最大限度的学习空间，但会导致奖励值过于稀疏，神经网络探索到获胜状态并学到策略的概率很低。因此，理想的奖励值要既不过于稀疏，也不过于稠密，能明确地引导智能体向获胜的方向学习。

阶段性奖励机制采用拆解任务目标，阶段性给予奖励值的方法，引导神经网络找到取得胜利的策略，例如，可在成功抵御第一次攻击后，一次性给予阶段性奖励；在蓝方高价值单位损失后，给予相应奖励值；红方获胜后，给予获胜奖励值。在此基础上，根据实际任务中不同的目标对奖励函数进行优化设计，将最小化拦截资源消耗也作为一项奖励指标，增大全局收益最大化对于智能体收益影响的效果。

例如，本发明基于使用资源最少原则的奖励函数：

式中，m为拦截蓝方有人单位的数量，n为拦截蓝方无人机的数量，i为发射导弹的数量。此奖励值为获得胜利加50分，拦截蓝方战斗机等有人目标加5分，拦截无人机加1分，其余不做得分处理，每发射一枚导弹扣0.05分。由于以上每个给予奖励值的阶段，都是红方想获得胜利必须达到的任务目标，因此可以引导智能体逐步、逐阶段学习。

Step4.智能体网络结构设计

多智能体指控模型的神经网络结构如图2所示。态势输入数据分为四类：第一类为红方基地状态，包括要地基本信息，要地正在受攻击的状况；第二类为红方雷达状态和拦截器状态，包括火力单元当前的配置情况，雷达的工作状态，发射车的工作状态，雷达受攻击的状况，火力单元能够打击的敌方单位信息；第三类为蓝方单位状态，包括蓝方单位基本信息，被红方导弹攻击的状况；第四类为可被红方攻击的蓝方单位状态，包括可被红方火力单元打击的状况。每类数据的单位数量不固定，随着战场形势而变化。

每类态势数据各自通过两层全联接-线性整流函数(fc-relu)进行特征提取，然后将所有特征向量进行合并，特征向量为提前定义好的，例如雷达开机特征为“1”，关机为“0”；发射导弹特征为“1”，不发射为“0”。通过concat函数连接合并多个特征向量，形成数组(concat函数编程软件中常用的函数)，concat方法相当于数据库中的全连接(UNION ALL)，可以将多个特征向量指定按某个轴进行连接，形成新的特征向量(例如将多个数组横向连接起来，形成一个新的数组)，再通过一层fc-relu及门控循环单元(Gated RecurrentUnit，GRU)生成全局特征。GRU引入重置门和更新门的概念，修改网络中隐藏状态的计算方式，能够解决神经网络存在的梯度消失问题，具体如下。

给定t时刻的输入X_t和上一时间步隐藏状态H_t-1，经过激活函数sigmoid函数的fc-relu层的计算，可以得到重置门R_t、更新门Z_t的输出：

R_t＝σ(X_tW_xr+H_t-1W_hr+b_r)

Z_t＝σ(X_tW_xz+H_t-1W_hz+b_z)

其中，W_xr、W_hr和W_xz、W_hz均为权重参数，b_r、b_z是偏置参数，σ为sigmoid函数。sigmoid函数可以将元素的值变换到0和1之间，因此重置门和更新门中每个元素的值域都是[0，1]。

t时刻的候选隐藏状态

和隐藏状态H_t的计算如下：

其中，W_xh和W_hh是权重参数，b_h是偏置参数，·是按元素乘法。重置门R_t的功能是决定前一时刻隐藏状态需要重置的信息有多少，当其中元素值接近0时，代表重置对应隐藏状态元素为0，即前一时刻的隐藏状态全部重置为当前时刻的输入；更新门Z_t的功能是决定前一时刻的信息是否被丢弃，其值越小，代表前一时刻隐藏节点所包含的信息被丢弃得越多。GRU网络模型复杂度较低的原因是忽略了某些没用的信息，而其中的重置门可以捕捉时间序列里短期的依赖关系，更新门则可以捕捉时间序列里长期的依赖关系。

神经网络在决策时既要考虑当前状况，也要考虑历史信息，需要通过GRU与全局态势不断交互，选择保留或遗忘信息。将全局特征与可选择的蓝方单位特征向量通过注意力机制运算，选择拦截单位；各个拦截单位再根据自身状态结合提前设计好的规则库通过注意力运算选择拦截时机和敌方单位。这部分是架构设计，注意力机制运算、选择拦截单位是以训练参数，不断调整概率的方式。具体如下：

注意力运算是一种让强智能体在某个时间点重点关注某些信息，忽略其他信息的机制，它能够让强智能体在局部区域更快速更精确的做出更优的决策。

当神经网络面临大量输入态势信息时，可以借鉴人类的注意力机制，只选择一些关键的信息进行处理，注意力机制也可称为注意力网络。以输入大篇文字为例：给定一篇文章，然后对文章的内容进行提取并假设一定数量的问题，提出的问题只和文中部分内容相关，与其余部分无关。为降低解算压力，仅需要挑选相关内容让神经网络进行处理。

定义X＝[x₁，...，x_N]为N个输入信息组成的数组，首先计算在给定q和X下，选择第i个输入信息的注意力分布a_i，i＝1，…，M，i的取值跟环境目标数量相关，q为查询向量，则定义a_i为

式中，s(x_i，q)为注意力打分函数，计算模型如下：

加性模型：s(x_i，q)＝v^Ttanh(Wx_i+Uq)；

点积模型：

缩放点击模型：

双线性模型：

式中，W，U，v为可学习的网络参数；d为输入信息的维度，T表示转置。双线性模型可以看作是一种泛化的点积模型。假设双线性模型中W＝U^Tv，则该模型可以写为

即分别对x和q进行线性变换后计算点积。

Step5.多头注意力机制与目标选择设计

如图2所示，本发明将决策动作进行多头处理作为网络的输出，即将动作分为动作主语(选择哪些拦截单位)、动作谓语(选择哪个发射车在什么时机拦截)、动作宾语(选择哪些敌方目标)。

在选择拦截目标时，神经网络需要在局部区域重点关注一些重要目标。本发明将每个火力单元状态和来袭目标的特征向量分别使用加性模型实现注意力机制运算。“每个火力单元状态和来袭目标的特征向量”都从“状态”数据中获得，而“状态”数据是由“仿真环境数据”转换而来，“转换”即是将“仿真环境数据”通过concat函数连接合并为“状态”。

s(x_i，q)＝v^Ttanh(Wx_i+Uq) (7)

式中，查询向量q为每个火力单元的特征向量，W和U为第一和第二可训练的神经网络参数，v为全局态势特征向量，即为带条件的注意力机制，使得全局态势信息参与计算，tanh为双曲正切函数。得到每个火力单元关于每个目标的注意力分值，分别对分值向量的每一位进行sigmoid采样，最后产生总体决策。

具体实施例

为研究两种机制对算法性能的影响，本发明设计消融实验，通过在基础近端策略优化(PPO)算法上增减两种机制，共设置四种不同算法，比较效果的不同之处。实验设置如下表所示：

表1不同算法对比

所有算法均在相同场景设置下迭代训练1000000次，实验结果如图3所示，可以看出，单独加入阶段性奖励机制和多头注意力机制都能对基础PPO算法的性能有一定的提高，平均奖励可从10提升至30到40之间，阶段性奖励机制的作用稍大且更为稳定。将两种机制同时加入时，算法的性能可以得到显著提升，平均奖励值可提升至65左右，说明本发明提出的PPO-TAGNA方法有效适用于强弱智能体框架下的任务分配问题。

本发明神经网络训练环境在虚拟数字战场进行，在想定作战区域内，针对一定数量的蓝方进攻兵力，在红方有要地需要保护且兵力有限的情况下，红方智能体需要针对战场局势做出实时决策，根据敌方的威胁程度等因素进行任务分配，在尽量保存自身力量的同时保护要地不被摧毁。本发明通过深度强化学习方法训练红方的任务分配策略，红蓝对抗双方想定如图4所示。

红方兵力设置及能力指标：保卫要地2个：指挥所、机场；预警机1架：探测范围400km；远程火力单元组成：1辆远程火控雷达车(可同时跟踪8个蓝方目标，制导16枚防空导弹，最大探测距离200km，扇区120°)、8辆远程导弹发射车(可兼容远程/进程防空导弹，每辆发射车装载3枚远程防空导弹和4枚近程防空导弹)；近程火力单元组成：1辆近程火控雷达车(可同时跟踪4个敌方目标，制导8枚防空导弹，最大探测距离60km，扇区360°)、3辆近程导弹发射车(每辆发射车装载4枚近程防空导弹)；若火控雷达被摧毁，该火力单元失去作战能力；制导过程雷达需要全程开机；开机时会辐射电磁波，从而被对手捕捉，暴露自身位置；火控雷达受地球曲率及地物遮蔽等物理限制，存在盲区，考虑大气层对电波的折射作用，雷达极限视距为

H_T为目标的海拔高度，H_R为雷达天线的海拔高度，本发明H_R设为4m。防空导弹飞行轨迹为最佳能量弹道，拦截远界160km(远程)、40km(近程)，针对无人机、战斗机、轰炸机、反辐射导弹、空对地导弹在杀伤区的高杀伤概率为75％，低杀伤概率为55％，针对巡航导弹在杀伤区的高杀伤概率为45％，低杀伤概率为35％。由4个远程火力单元加3个近程火力单元扇形部署保卫红方指挥所，由2个远程火力单元加3个近程火力单元扇形部署保卫红方机场，共12个火力单元。

蓝方兵力设置及能力指标：巡航导弹18枚；无人机：20架，每架携带2枚反辐射导弹和一枚空对地导弹；战斗机：12架，每架携带6枚反辐射导弹和2枚空对地导弹；轰炸机：4架。反辐射导弹射程110km，命中率80％；空对地导弹射程60km，命中率80％；干扰机：2架，进行防区外远距离支援干扰，干扰扇区15°，红方雷达受到干扰后，根据干扰等级，相应降低杀伤概率。

训练硬件配置为：CPU运行仿真环境，型号Intel Xeon E5-2678V3，88核，256G内存；GPU*2运行神经网络训练，型号Nvidia GeForce 2080Ti，72核，11G显存。PPO中的超参数ε＝0.2，学习率为10^-4，批尺寸为5120，神经网络中隐藏层单元数分别为128和256。

将本发明提出的“一强带N弱(OGMN)”智能体架构、Alpha C2智能体架构分别用PPO算法在数字战场迭代1000000次，并与基于专家决策准则的规则库对比结果如图5所示：

在数字战场的推演中，本发明可涌现出一定的策略与战术。如图6所示为训练前的红方智能体表现，此时只让距离目标最近的单位进行防御，并没有分担防御压力的意识，且并未区分目标的价值高低，最终导致高价值目标攻击时，可实施拦截的单位资源耗尽而失败。

图7为训练后的红方智能体决策，此时智能体可区分出蓝方高威胁度单位，并分担了防御压力，更合理利用资源，更高效的保卫要地，最终主动攻击蓝方高价值目标取得胜利。请把下面两端整合成一段。

针对现有地空对抗任务分配方法的博弈对抗性体现不足、多智能体系统在处理复杂任务时效率低、存在交互冲突等问题，本发明提出一种“一强带N弱(OGMN)”的多智能体体系结构，降低问题复杂度以减少分配冲突；并针对传统动态任务分配求解算法计算量大，求解速度慢等不足，本发明提出了针对强弱智能体任务分配的近端策略优化(PPO for TaskAssignment General andNarrow Agent，PPO-TAGNA)算法。

本发明提出“一强带N弱(OGMN)”的多智能体结构，该结构能降低系统复杂度，消除多智能体系统在处理复杂问题时容易出现交互冲突的短板。针对大规模任务分配问题特点，提出PPO-TAGNA算法，通过多头注意力机制和阶段性奖励机制，有效提高了训练的效率和稳定性。最后在数字战场通过实验验证了OGMN智能体架构和PPO-TAGNA算法用于解决地空对抗任务分配问题的可行性与优越性。

Claims

1.基于深度强化学习的智能体任务分配方法，其特征在于，具体包括下列步骤：

Step1.强弱智能体架构设计

Step2.协同行为的马尔科夫决策过程设计

Q^π(s，a)＝E[∑^Tγ^tr_t|s₀＝s，a₀＝a] (2)

π′(s)＝argmax_aQ^π(s，a) (4)

Step3.阶段性奖励机制设计

Step4.智能体网络结构设计

Step5.多头注意力机制与目标选择设计

s(x_i，q)＝v^Ttanh(Wx_i+U_q) (7)

2.如权利要求1所述的基于深度强化学习的智能体任务分配方法，其特征在于，在Step3中，可在成功抵御第一次攻击后，一次性给予阶段性奖励；在蓝方高价值单位损失后，给予相应奖励值；红方获胜后，给予获胜奖励值；

本发明基于使用资源最少原则的奖励函数：

3.如权利要求1所述的基于深度强化学习的智能体任务分配方法，其特征在于，在Step4中，红方基地状态包括要地基本信息，要地正在受攻击的状况；红方雷达状态和拦截器状态包括火力单元当前的配置情况，雷达的工作状态，发射车的工作状态，雷达受攻击的状况，火力单元能够打击的敌方单位信息；蓝方单位状态包括蓝方单位基本信息，被红方导弹攻击的状况；可被红方攻击的蓝方单位状态包括可被红方火力单元打击的状况。

4.如权利要求1所述的基于深度强化学习的智能体任务分配方法，其特征在于，在Step5中，动作主语为选择哪些拦截单位，动作谓语为选择哪个发射车在什么时机拦截，动作宾语为选择哪些敌方目标。