CN116187787B

CN116187787B - 作战资源跨域调配问题的智能规划方法

Info

Publication number: CN116187787B
Application number: CN202310451758.6A
Authority: CN
Inventors: 刘庆国; 王才红; 许馨月; 董茜; 王怿; 吕乃冰; 赵若帆; 邢顾严
Original assignee: 96901 Unit Of Chinese Pla
Current assignee: 96901 Unit Of Chinese Pla
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-09-12
Anticipated expiration: 2043-04-25
Also published as: CN116187787A

Abstract

本发明提供一种作战资源跨域调配问题的智能规划方法，包括以下步骤：设计基于通信的多智能体强化学习作战资源跨域调配的求解环境；建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型；训练基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型，得出训练好的临近策略优化网络模型；应用训练好的临近策略优化网络模型进行测试，求解作战资源跨域调度问题；针对应用场景变化开展多智能体作战资源跨域调配深度强化学习网络优化，完成所述临近策略优化网络模型的自学习和在线升级。本发明的作战资源跨域调配问题的智能规划方法，能够求解出整体的资源调配方案，使得资源运输时间成本最低。

Description

作战资源跨域调配问题的智能规划方法

技术领域

发明涉及军事决策技术领域，特别涉及一种作战资源跨域调配问题的智能规划方法、电子设备和存储介质。

背景技术

现有技术中，武器资源调配规划是指在作战打击任务下发后，为了更好地完成作战打击任务而进行部队、作战区域、运输平台、武器类型和武器数量规划的一项调度决策活动，依据给定的作战区域武器资源需求，结合可用部队、部队武器资源数量和运输平台运输特性等因素，进行武器资源调配，尽可能压缩运输时间成本，以满足作战打击任务需求。

在现代化高技术战争中，考虑时间多样性、空间多样性和武器多样性三方面特征并合理调度武器资源是各级指挥机构进行作战任务筹划时需解决的关键问题之一，对于作战任务规划效能的发挥具有重要意义。

目前，在武器资源调配问题的研究中，已经有很多解决方法被提出，求解该问题的主要算法分为精确算法和启发式算法。精确算法如动态规划法、分支界定法等将原问题分解为若干子问题，然后再对子问题进行分解，直到求的全局最优解。尽管使用精确算法可以获得全局最优解，但其往往需要进行大量计算，对问题的求解时间较长。另一种方法是启发式算法，如蚁群算法和粒子群算法等，其主要思想是按照特定的启发规则对问题进行不断探索，经过多轮迭代优化得到一个较优近似解，但不能保证是全局最优解。启发式算法对比精确算法时间更短，但当问题求解规模较大时，也需要进行多轮迭代获得较优解。同时，如果问题场景发生变化，上述两种算法往往需要重新求解，造成较大的计算成本，因此两种算法很难扩展到在线或者对实时性要求较高的作战任务问题中。

强化学习是一个在马尔可夫决策框架下，智能体在观察环境的状态信息后根据自身的决策做出对应动作与环境进行交互，环境予以智能体相应奖励回报，智能体在不断的交互与试错中提高自身的回报从而形成策略的智能算法。然而在目前求解资源调配的强化学习算法中，多数是以中心控制的方法进行训练与执行，常常导致动作维度爆炸、收敛困难等问题。多智能体强化学习(MARL)是拥有多个智能体的强化学习，在多智能体强化学习中，多个智能体在观测各自周围环境后，根据各自策略做出对应动作，与环境交互后环境给予智能体奖励回报。CTDE是一种在训练时用全局信息训练，在执行时只使用能获得的信息输入智能体的网络获得执行动作框架。PPO算法属于执行者-评论者算法中的一种，其在目标函数中使用截断或者KL散度惩罚的方法，防止新旧策略差异过大，保证新策略比就策略效果相同或者更好；同时对采样到的样本重复利用，有效解决了On-policy类算法样本利用率低的问题，拥有很好的鲁棒性和数据效率，实现简单。将PPO扩展到多智能体中，形成MAPPO算法，其属于CTDE框架中的一员，即每个智能体拥有自己的执行者和评论者网络，每个执行者依据智能体的局部观测作为其网络输入，而评论者依据全局信息或者所有智能体的局部观测进行拼接形成全局观测值信息作为其网络输入。

针对大规模武器资源调配问题，需要实现考虑战场环境随机性和多变性的武器资源调配问题的快速精确求解，解决传统的武器资源调配问题解决方法存在的求解时间长、难以获取最优解等问题，改善单智能体强化学习算法动作维度爆炸、收敛困难等缺点。

发明内容

为了解决现有技术存在的问题，本发明提供一种作战资源跨域调配问题的智能规划方法，能够在满足所有作战区域所需资源的情况下，求解出整体的资源调配方案，使得资源运输时间成本最低。

为实现上述目的，本发明提供的一种作战资源跨域调配问题的智能规划方法，包括以下步骤：

S1、设计基于通信的多智能体强化学习作战资源跨域调配的求解环境；

S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型；

S3、训练基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型，得出训练好的临近策略优化网络模型；

S4、应用训练好的临近策略优化网络模型进行测试，求解作战资源跨域调度问题；

S5、针对应用场景变化开展多智能体作战资源跨域调配深度强化学习网络优化，完成所述临近策略优化网络模型的自学习和在线升级。

进一步地，

所述S1中的求解环境，具体通过定义在作战资源跨域调配过程中多部队的环境状态空间、动作空间、环境奖励值以及多智能体强化学习模型实现。

进一步地，还包括，

所述环境状态空间，包括某时刻智能体的局部观测值、训练时输入智能体评论者网络的全局信息以及在环境返回状态的动作掩码；

所述多智能体中的每个智能体拥有一个执行者网络、一个评论者网络、初始化执行者与评论者神经网络的参数；

所述多智能体强化学习模型为分散的部分可观察多马尔可夫决策过程的元组形式。

进一步地，还包括，

所述元组形式，表示为）；

其中，为智能体个数，/>为全局观测值状态，/>为智能体动作集合，/>为状态转移概率，即/>，s表示当前状态，s'表示下一时刻状态，u表示当前时刻执行的动作，/>为每个智能体的状态转移概率，/>为每个智能体的局部观测值，/>为环境奖励，/>为折扣因子；

某时刻智能体的局部观测值，表示为：

其中，表示当前智能体/>剩余的当前决策武器类型数量以及智能体/>中该类型运输平台剩余数量，由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成；/>表示当前智能体/>与当前决策的作战区域之间的距离；表示当前决策的作战区域以及武器需求类型的需求剩余需求数量，由武器类型独热编码和武器需求数量独热编码构成；而/>则表示剩余需要决策的作战区域该类型武器的需求数量，由一个矩阵组成，矩阵每行代表着每个作战区域当前类型武器的需求数量，每个作战区域在每行的信息固定，且已经完成决策的作战区域信息不再出现在矩阵中；矩阵每行由武器类型独热编码和武器需求数量独热编码构成；

进一步地，还包括，

定义训练时时刻输入每个智能体评论者网络的全局信息/>如下：

其中与智能体局部观测值定义一致，/>和/>为每个智能体局部观测值/>和/>拼接构成的矩阵。

进一步地，所述步骤S3包括以下步骤：

S31、初始化环境，获得时刻每个智能体的局部观测值以及多智能体系统的环境全局观测值；

S32、智能体将局部观测值输入执行者网络中，输出所有动作的值，并计算获得每个动作的概率值，根据概率采样获得智能体动作；

S33、每个智能体在时刻做出相应动作后，环境会随之而改变，进入/>+1时刻后环境返回环境奖励，每个智能体获得/>+1时刻的局部观测值及用于训练的环境全局观测值；

S34、将S32到S33获得的时刻局部观测值集合、/>+1时刻局部观测值集合动作集合、时刻全局观测值、/>+1时刻全局观测值、/>时刻的奖励暂存到经验池中；如果当前回合没有完成，则跳至S32，如果当前任务完成但训练还未结束，跳至S31；同时若经验池中的样本数量达到指定值后，执行S35到S39/>次后将经验池中样本丢弃，跳至S32，直到达到训练结束条件；

S35、从经验池随机抽取若干样本进行训练；将全局观测值和/>分别作为评论者网络输入，输出当前时刻和下一时刻的Value值，使用当前时刻和下一时刻的Value值和奖励/>计算优势函数/>；所述优势函数/>使用泛化优势估计GAE计算；

S36、使用S35计算得到的优势函数计算每个智能体执行者网络目标函数；

S37、使用梯度下降算法计算执行者网络目标函数的梯度，更新每个智能体的执行者网络；

S38、使用TD-Error方法计算评论者网络的损失函数，其计算公式如下：

其中，表示真实的Value值，此Value值使用/>计算获得，r_t为当前t时刻获取的奖励值，/>为折扣因子，V(s_t)和V(s_t+1)分别为当前时刻和下一时刻的Value值；在GAE中，在计算优势函数/>的同时计算了/>；

S39、使用梯度下降算法计算评论者网络损失函数的梯度，更新每个智能体的评论者网络；

更进一步地，所述步骤S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型的步骤，还包括，

建立基于多层感知机/注意力网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体执行者网络模型；

建立基于多层感知机/变换神经网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体评论者网络模型。

为实现上述目的，本发明还提供一种电子设备，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行上述的作战资源跨域调配问题的智能规划方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述的作战资源跨域调配问题的智能规划方法的步骤。

本发明的作战资源跨域调配问题的智能规划方法，具有以下有益效果：

与现有技术相比，本发明提出的一种作战资源跨域调配问题的智能规划方法，使用多智能体强化学习的方法解决了完全中央控制维度爆炸的问题，同时使用通信机制聚合智能体间的信息，解决了局部观测造成的信息不全问题。同时，使用强化学习方法具有学习能力强、算法适应性强和运行效率高等优点，并具备随应用场景变化的自学习能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，并与本发明的实施例一起，用于解释本发明，并不构成对本发明的限制。在附图中：

图1为根据本发明的作战资源跨域调配问题的智能规划方法的流程图；

图2为根据本发明实施例的智能体执行者网络模型示意图；

图3为根据本发明实施例的自注意力网络模型示意图；

图4为根据本发明实施例的智能体评论者网络模型示意图；

图5为根据本发明实施例的Transformer网络模型示意图；

图6为根据本发明实施例的作战资源跨域调配问题的智能规划方法整体实现流程图；

图7为根据本发明实施例的作战资源跨域调配问题的智能规划方法训练流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

独热编码（one-hot）类型：一种N位二进制编码数据类型。对于长度为N的独热编码，取值为i（0<i≤N）时，右起第i位为“1”，其余位均为“0”。如N=5、i=2时，对应独热编码为：00010。

集中式训练-分布式执行（CTDE，Centralized Training DecentralizedExecution）框架：多智能体强化学习算法框架中的一种，在智能体进行执行和采样时仅根据自身的观测进行决策，在训练时使用完全的观测信息对网络进行集中更新。

深度强化学习PPO算法：为深度强化学习算法的一种，PPO即Proximal policyoptimization（邻近策略优化），是一种基于on-policy深度强化学习算法。

实施例1

图1为根据本发明的作战资源跨域调配问题的智能规划方法流程图，下面将参考图1，对本发明的作战资源跨域调配问题的智能规划方法进行详细描述。

在步骤101，建立多部队跨地域武器调配模型。

优选地，对多部队跨地域武器调配问题本身进行定义。存在多个固定数量的部队和数量不固定的作战区域。每个部队装备的武器类型和武器运输平台类型多样且数量受限，每种资源运输平台的满载量和单位运输时间成本不同，每种武器的重量不同，不同部队到作战区域的路线长度不同。在调配问题中，作战区域武器紧迫程度的问题被认为是一样的。问题的目标是在满足所有作战区域所需资源的情况下，求解出整体的资源调配方案，使得资源运输时间成本最低。

优选地，调配问题的约束条件如下：

1）每个部队使用每种运输平台运输武器资源的总重量不超过本部队该类型武器运输平台的总载重量；

2）每个部队运输每种武器资源的数量不超过本部队该类武器的剩余数量；

3）每个作战区域得到的每种武器的数量大于等于本作战区域该类型资源所需的资源数量。

优选地，将调配问题进行数学定义。

部队集合，作战区域集合/>，运输平台集合/>，武器类型集合/>；使用/>表示部队拥有/>类武器数量；/>表示作战区域对/>类武器的需求量；/>表示/>类武器的单位重量；/>分别表示运输平台/>的单位运输时间成本和满载量；/>表示第/>个部队可调用的运输平台/>的数量；/>表示第/>个部队到第/>个作战区域的距离；/>表示从部队/>使用运输平台/>运输/>类型资源到作战区域/>的武器数量，。另外，设置每个资源部队每种类型武器和作战区域的每种类型武器的需求量有一个最大数量限制，即/>和/>。

由上述给出的数学定义，以及优化目标和约束条件给出该问题的目标函数，如下式所示：

.

在步骤102，设计基于协同通信的多智能体强化学习的多部队跨地域武器调配方法求解环境。

优选地，定义在武器资源调配过程中多部队的环境状态空间、动作空间、环境奖励值，每个智能体拥有自己的一个执行者策略网络和一个评论者网络，初始化执行者与评论者神经网络的参数。

本实施例中，使用Python编写仿真环境，定义环境中规则以及约束条件等，使用Pytorch框架对强化学习算法进行实现。

优选地，多智能体强化学习模型定义为分散的部分可观察多马尔可夫决策过程(DEC-POMDP)的元组形式），其中/>为智能体个数，S为全局观测值状态，为智能体动作集合，/>为状态转移概率，即/>，/>为每个智能体自己的状态转移概率，/>为每个智能体的局部观测值，/>为环境奖励/>为折扣因子。在该模型中上述符号具体含义在下面展开。

步骤201，设计基于通信的多智能体强化学习武器资源调配方法求解环境的状态，具体为：

定义智能体在时刻/>的局部观测值构成如下：

其中，表示当前智能体/>也就是部队/>剩余的当前决策武器类型数量以及部队/>中该类型运输平台剩余数量，由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成；/>表示当前部队与当前决策的作战区域之间的距离；/>表示当前决策的作战区域以及武器需求类型的需求剩余需求数量，由武器类型独热编码和武器需求数量独热编码构成；而/>则表示剩余需要决策的作战区域该类型武器的需求数量，由一个矩阵组成，矩阵每行代表着每个作战区域当前类型武器的需求数量，每个作战区域在每行的信息固定，且已经完成决策的作战区域信息不再出现在矩阵中。矩阵每行由武器类型独热编码和武器需求数量独热编码构成。

其中，与智能体局部信息定义一致，/>和/>为每个智能体局部信息/>和/>拼接构成的矩阵。

最后，在环境返回给的状态中，还包括对动作的掩码，掩码会屏蔽掉智能体选择数量大于自己拥有武器数量的动作。

本实施例中，在Python中实现动作掩码使用torch.where()方法，将非法动作在经过Softmax函数前替换成一个负的最大值。

步骤202，设计基于通信的多智能体强化学习武器资源调配方法求解环境的动作空间，具体为：

由于每个时间步step中的作战区域和武器需求类型确定，因此每个智能体只需要决策需要给该作战区域分配多少数量的该类型武器，因此动作空间是离散类型的，一共有个动作。

步骤203，设计基于通信的多智能体强化学习武器资源调配方法求解环境的奖励。由于问题的求解目标是使得资源运输总成本最低，因此当决策回合结束时，环境会给予多智能体系统一个反馈奖励，而其他时刻奖励都为0，奖励具体构成如下：

其中，为最大运输时间成本，第一项表示总运输时间成本越低，奖励值越高；第二项表示当智能体选择了不合法的动作或者已经都没有武器的时候，表示决策有误，给予负奖励。

在步骤103，建立基于协同通信的多智能体强化学习的多部队跨地域武器调配方法网络模型。

步骤301，建立基于MLP/Attention/GRU（多层感知机/注意力机制/门控循环单元）混合架构的基于通信的多智能体强化学习武器资源调配方法每个智能体执行者(Actor)网络模型，如图2所示。

本实施例中，如图2所示，智能体执行者网络输入的是步骤201中提到的智能体局部观测以及上一时刻/>GRU输出/>，/>中的四个组成部分分别先经过一个MLP网络提取特征，/>由于是矩阵形式，在提取特征后经过一个Flatten层进行扁平化处理；随后由于/>是智能体/>特有信息，而/>是所有智能体都一致的信息，所以对/>经过特征提取后的信息进行拼接，形成中间特征/>，这个中间特征与其他智能体的中间特征/>输入注意力网络中，获得与其他智能体交流后的沟通信息/>；同时，中间特征/>与特征进行拼接，经过一个MLP网络后与沟通信息/>进行拼接输入GRU网络中（由于使用局部观测，使用RNN类网络可提高感知空间），GRU网络使用当前时刻t的信息与过去时刻的信息进行结合，输出再经过一个MLP网络后将高维特征映射成为动作维度的动作，在动作掩码MASK的一起作用下获得最后动作Action，即选取武器数量。多层感知机可以是两层或者更多层的线性层，线性层之间使用Tanh作为激活函数。

优选地，GRU网络计算过程如下：

（a）在获得前一时刻目标的状态信息提取特征的输入和当前目标特征输入之后，将两者记性合并计算重置门：

（b）将前一目标的状态信息提取特征的输入和当前目标特征输入/>合并计算为更新门/>:

（c）计算候选集：

（d）计算该单元的输出值：

（e）最后计算输出层输出值

本实施例中，注意力机制如图3所示，包括将当前智能体的中间信息中间特征作为注意力机制的查询Q（query），其他智能体的中间特征/>作为注意力机制的键K（key）和值V（Value），使用缩放点积注意力对查询和键进行计算，输出每个值对应的权重。通过权重与值的点积获得聚合的信息沟通信息/>，在这里，掩盖掉智能体本身信息，只保留其他智能体的信息。上述计算权重的公式如下：

其中，为Q与K的长度。

在步骤302，建立基于MLP/Transformer/GRU（多层感知机/变换神经网络/门控循环单元）混合架构的基于通信的多智能体强化学习武器资源调配方法每个智能体评论者（Critic）网络模型。

本实施例中，如图4所示，和/>为矩阵形式，使用Transformer提取特征后经过Flatten层进行扁平化处理，与/>经过MLP后提取的特征进行拼接，与上一时刻/>GRU输出/>一起输入GRU网络中，获得与历史信息结合起来的特征后经过一个MLP将多维特征映射成一个Value值。

本实施例中，Transformer结构如图5所示，在图5所示Transformer网络结构中，注意力机制可使用单头或者多头注意力机制，将当前智能体作为注意力的查询，其他智能体的/>作为键值对。

在步骤104，训练基于协同通信的多智能体强化学习的多部队跨地域武器调配方法网络。

优选地，基于通信的多智能体强化学习武器资源调配方法训练流程如图7所示，包括以下步骤：

步骤401，初始化环境，每个智能体（部队）会获得时刻自身的局部观测值，如智能体/>会获得其观测值/>，多智能体系统会获得环境全局观测值/>。

步骤402，智能体将局部观测值输入自己的决策网络中，如图1所示，网络输出所有动作的值，通过Softmax函数计算获得每个动作的概率值，并根据概率采样获得智能体动作，智能体动作记为/>。

步骤403，每个智能体在时刻做出相应动作后，环境会随之而改变，进入时刻/>后环境返回环境奖励/>，每个智能体在时刻/>会获得局部观测值/>，同样，也有用于训练的环境全局观测值/>。

步骤404，用记为所有智能体/>时刻局部观测值的集合，记为所有智能体/>时刻做出的动作的集合，将上述步骤102到步骤104获得的时刻/>局部观察值集合、时刻/>局部观察值集合动作集合、时刻/>全局观测值、时刻/>全局观测值、时刻/>的奖励/>暂时存储到经验池/>中。如果当前回合没有完成，则继续进行步骤302到当前步骤，如果当前任务完成但训练还未结束，执行步骤401。同时如果经验池/>中的样本数量达到指定的值后，重复执行/>次步骤405-步骤409后将经验池/>中样本丢弃（K的取值在100-1000之间），继续执行步骤402到当前步骤，直到达到训练结束条件。

步骤405，从经验池随机抽取一定批量样本进行训练。将全局观测值/>和/>分别作为评论者网络输入，输出当前时刻和下一时刻的Value值，使用两个Value值和奖励/>计算优势函数/>，优势函数/>使用GAE（泛化优势估计）计算，计算公式如下：

上式中为折扣因子，/>为GAE系数，取1时GAE就是蒙特卡洛采样，取0时为TD-Error方法。

步骤406，使用步骤405计算得到的优势函数计算每个智能体执行者网络的截断目标函数，计算公式如下：

上式中，为重要性采样比值，/>为新策略，/>旧就策略，为了更清晰简洁表示，省略每个智能体编号下标。/>为截断系数，控制着新旧策略差异。

步骤407，使用梯度下降算法计算执行者网络目标函数梯度，更新每个智能体执行者网络。

步骤408，使用TD-Error方法计算评论者网络的损失函数，其计算公式如下：

上式中，表示真实的Value值，一般计算直接使用/>计算获得，但在GAE中，在计算优势函数/>的同时计算了/>。

步骤409，使用梯度下降算法计算评论者网络损失函数梯度，更新每个智能体评论者网络。

在步骤105，应用训练结果实现多部队跨地域武器调配问题求解，并针对应用场景变化开展多智能体武器资源调配深度强化学习网络优化，完成算法的自学习和在线升级。

优选地，将训练好的智能体强化学习武器资源调配深度强化学习网络模型接入应用环境中的资源调配系统，提供武器资源调配后台算法支持，实现对真实救灾应急环境中的武器资源调配问题的求解。当应用场景发生改变时，由应用环境提供训练场景想定更新数据，通过步骤104实现算法自学习和在线升级。

本实施例中，为验证本方法的效果，使用Python语言完成仿真环境和算法的实现，实验中部队也即智能体的数量取值分别为4、8、12、16、20，作战区域数量范围介于[1，30]，强化学习算法均采用固定5000000个时间步训练。分别设置环境种子为1、10、100、1000、10000完成5轮实验，每轮实验共100个随机生成的测试环境，取所有测试环境的平均值作为实验结果进行算法评估。为便于比较，选用现有主流的用于资源调配优化的单智能体PPO算法、遗传算法、粒子群算法，与本专利所提出的方法进行平均奖励和算法时间消耗情况对比测试，实验结果如表1和表2所示。

表1 不同数量智能体下本发明算法和其他算法的奖励对比结果

表2 不同数量智能体下本发明算法和其他算法的时间消耗对比结果

本实施例中，根据表1和表2可以看出，本发明所提出的方法在平均奖励和时间消耗上完全优于单智能体PPO算法、遗传算法和粒子群算法，虽然四个算法在优化效果上差距不大（奖励值基本接近），但随着智能体的增加，其他的算法在奖励下降上更加明显，这是因为需要决策存储区更多了，单智能体算法需要选择存储区作为动作，导致在相同训练时间步情况下，奖励上升相比本专利算法更加缓慢。两个传统智能算法在奖励上下降不如单智能体算法，但消耗时间一直都非常高，且随着需要决策的存储区越来越多，环境越来越复杂，单智能体强化学习和传统算法在时间消耗上急剧上升，而多智能体因为是多个智能体并行给出决策结果，其算法时间并没有收到太多影响。综上，本发明所提出的一种作战资源跨域调配问题的智能规划方法优化结果更好、计算速度更快，明显优于现有主流算法。

本发明在MAPPO算法基础上提出了一种作战资源跨域调配问题的智能规划方法，将每个部队作为一个智能体，多个部队共同构成多智能体系统。环境在每次初始化时智能体数量固定，但其武器类型和数量等随机生成，随机生成数量不等的作战区域（武器资源需求区域），其需求的武器类型和数量也是随机生成，每次对一个作战区域的一种武器需求类型进行决策，每个智能体每次决策该部队需要运往该作战区域多少数量的武器，当所有作战区域数量满足或者是部队所拥有武器数量不能够满足作战区域需求时，该决策回合结束，环境予以奖励反馈。同时，在每个执行者网络之间建立联系，构建沟通渠道，使得每个部队可以观测到其他智能体的状态，协同起来更好的进行资源分配。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行上述的作战资源跨域调配问题的智能规划方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述的作战资源跨域调配问题的智能规划方法的步骤，所述作战资源跨域调配问题的智能规划方法参见前述部分的介绍，不再赘述。

本领域普通技术人员可以理解：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种作战资源跨域调配问题的智能规划方法，其特征在于，包括如下步骤：

S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型，包括，

建立基于多层感知机/注意力网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体执行者网络模型，包括，智能体执行者网络输入智能体局部观测以及上一时刻/>GRU输出/>，/>中的四个组成部分分别先经过一个MLP网络提取特征，/>由于是矩阵形式，在提取特征后经过一个Flatten层进行扁平化处理；由于/>是智能体/>特有信息，而/>是所有智能体都一致的信息，对/>经过特征提取后的信息进行拼接，形成中间特征/>，所述中间特征/>与其他智能体的中间特征/>输入注意力网络中，获得与其他智能体交流后的沟通信息/>；所述中间特征/>与/>特征进行拼接，经过一个MLP网络后与沟通信息/>进行拼接输入GRU网络中，GRU网络使用当前时刻t的信息与过去时刻的信息进行结合，输出再经过一个MLP网络后将高维特征映射成为动作维度的动作，在动作掩码MASK的作用下获得最后动作Action，即选取武器数量；

建立基于多层感知机/变换神经网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体评论者网络模型，包括，和/>为矩阵形式，使用Transformer提取特征后经过Flatten层进行扁平化处理，与/>经过MLP后提取的特征进行拼接，与上一时刻/>GRU输出/>一起输入GRU网络中，获得与历史信息结合起来的特征后经过一个MLP将多维特征映射成一个Value值；

2.根据权利要求1所述的作战资源跨域调配问题的智能规划方法，其特征在于，

3.根据权利要求2所述的作战资源跨域调配问题的智能规划方法，其特征在于，还包括，

4.根据权利要求3所述的作战资源跨域调配问题的智能规划方法，其特征在于，还包括，

所述元组形式，表示为）；

某时刻智能体的局部观测值，表示为：

其中，表示当前智能体/>剩余的当前决策武器类型数量以及智能体/>中该类型运输平台剩余数量，由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成；/>表示当前智能体/>与当前决策的作战区域之间的距离；/>表示当前决策的作战区域以及武器需求类型的需求剩余需求数量，由武器类型独热编码和武器需求数量独热编码构成；而/>则表示剩余需要决策的作战区域该类型武器的需求数量，由一个矩阵组成，矩阵每行代表着每个作战区域当前类型武器的需求数量，每个作战区域在每行的信息固定，且已经完成决策的作战区域信息不再出现在矩阵中；矩阵每行由武器类型独热编码和武器需求数量独热编码构成。

5.根据权利要求4所述的作战资源跨域调配问题的智能规划方法，其特征在于，还包括，

6.根据权利要求1所述的作战资源跨域调配问题的智能规划方法，其特征在于，所述步骤S3包括以下步骤：

S34、将S32到S33获得的时刻局部观测值集合、/>+1时刻局部观测值集合动作集合、/>时刻全局观测值、/>+1时刻全局观测值、/>时刻的奖励暂存到经验池中；如果当前回合没有完成，则跳至S32，如果当前任务完成但训练还未结束，跳至S31；同时若经验池中的样本数量达到指定值后，执行S35到S39/>次后将经验池中样本丢弃，跳至S32，直到达到训练结束条件；

S39、使用梯度下降算法计算评论者网络损失函数的梯度，更新每个智能体的评论者网络。

7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上储存有在所述处理器上运行的程序，所述处理器运行所述程序时执行权利要求1-6任一项所述的作战资源跨域调配问题的智能规划方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1-6任一项所述的作战资源跨域调配问题的智能规划方法的步骤。