CN116187787A - 作战资源跨域调配问题的智能规划方法 - Google Patents

作战资源跨域调配问题的智能规划方法 Download PDF

Info

Publication number
CN116187787A
CN116187787A CN202310451758.6A CN202310451758A CN116187787A CN 116187787 A CN116187787 A CN 116187787A CN 202310451758 A CN202310451758 A CN 202310451758A CN 116187787 A CN116187787 A CN 116187787A
Authority
CN
China
Prior art keywords
agent
combat
cross
network
domain allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310451758.6A
Other languages
English (en)
Other versions
CN116187787B (zh
Inventor
刘庆国
王才红
许馨月
董茜
王怿
吕乃冰
赵若帆
邢顾严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pla 96901
Original Assignee
Pla 96901
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pla 96901 filed Critical Pla 96901
Priority to CN202310451758.6A priority Critical patent/CN116187787B/zh
Publication of CN116187787A publication Critical patent/CN116187787A/zh
Application granted granted Critical
Publication of CN116187787B publication Critical patent/CN116187787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种作战资源跨域调配问题的智能规划方法,包括以下步骤:设计基于通信的多智能体强化学习作战资源跨域调配的求解环境;建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型;训练基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型,得出训练好的临近策略优化网络模型;应用训练好的临近策略优化网络模型进行测试,求解作战资源跨域调度问题;针对应用场景变化开展多智能体作战资源跨域调配深度强化学习网络优化,完成所述临近策略优化网络模型的自学习和在线升级。本发明的作战资源跨域调配问题的智能规划方法,能够求解出整体的资源调配方案,使得资源运输时间成本最低。

Description

作战资源跨域调配问题的智能规划方法
技术领域
发明涉及军事决策技术领域,特别涉及一种作战资源跨域调配问题的智能规划方法、电子设备和存储介质。
背景技术
现有技术中,武器资源调配规划是指在作战打击任务下发后,为了更好地完成作战打击任务而进行部队、作战区域、运输平台、武器类型和武器数量规划的一项调度决策活动,依据给定的作战区域武器资源需求,结合可用部队、部队武器资源数量和运输平台运输特性等因素,进行武器资源调配,尽可能压缩运输时间成本,以满足作战打击任务需求。
在现代化高技术战争中,考虑时间多样性、空间多样性和武器多样性三方面特征并合理调度武器资源是各级指挥机构进行作战任务筹划时需解决的关键问题之一,对于作战任务规划效能的发挥具有重要意义。
目前,在武器资源调配问题的研究中,已经有很多解决方法被提出,求解该问题的主要算法分为精确算法和启发式算法。精确算法如动态规划法、分支界定法等将原问题分解为若干子问题,然后再对子问题进行分解,直到求的全局最优解。尽管使用精确算法可以获得全局最优解,但其往往需要进行大量计算,对问题的求解时间较长。另一种方法是启发式算法,如蚁群算法和粒子群算法等,其主要思想是按照特定的启发规则对问题进行不断探索,经过多轮迭代优化得到一个较优近似解,但不能保证是全局最优解。启发式算法对比精确算法时间更短,但当问题求解规模较大时,也需要进行多轮迭代获得较优解。同时,如果问题场景发生变化,上述两种算法往往需要重新求解,造成较大的计算成本,因此两种算法很难扩展到在线或者对实时性要求较高的作战任务问题中。
强化学习是一个在马尔可夫决策框架下,智能体在观察环境的状态信息后根据自身的决策做出对应动作与环境进行交互,环境予以智能体相应奖励回报,智能体在不断的交互与试错中提高自身的回报从而形成策略的智能算法。然而在目前求解资源调配的强化学习算法中,多数是以中心控制的方法进行训练与执行,常常导致动作维度爆炸、收敛困难等问题。多智能体强化学习(MARL)是拥有多个智能体的强化学习,在多智能体强化学习中,多个智能体在观测各自周围环境后,根据各自策略做出对应动作,与环境交互后环境给予智能体奖励回报。CTDE是一种在训练时用全局信息训练,在执行时只使用能获得的信息输入智能体的网络获得执行动作框架。PPO算法属于执行者-评论者算法中的一种,其在目标函数中使用截断或者KL散度惩罚的方法,防止新旧策略差异过大,保证新策略比就策略效果相同或者更好;同时对采样到的样本重复利用,有效解决了On-policy类算法样本利用率低的问题,拥有很好的鲁棒性和数据效率,实现简单。将PPO扩展到多智能体中,形成MAPPO算法,其属于CTDE框架中的一员,即每个智能体拥有自己的执行者和评论者网络,每个执行者依据智能体的局部观测作为其网络输入,而评论者依据全局信息或者所有智能体的局部观测进行拼接形成全局观测值信息作为其网络输入。
针对大规模武器资源调配问题,需要实现考虑战场环境随机性和多变性的武器资源调配问题的快速精确求解,解决传统的武器资源调配问题解决方法存在的求解时间长、难以获取最优解等问题,改善单智能体强化学习算法动作维度爆炸、收敛困难等缺点。
发明内容
为了解决现有技术存在的问题,本发明提供一种作战资源跨域调配问题的智能规划方法,能够在满足所有作战区域所需资源的情况下,求解出整体的资源调配方案,使得资源运输时间成本最低。
为实现上述目的,本发明提供的一种作战资源跨域调配问题的智能规划方法,包括以下步骤:
S1、设计基于通信的多智能体强化学习作战资源跨域调配的求解环境;
S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型;
S3、训练基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型,得出训练好的临近策略优化网络模型;
S4、应用训练好的临近策略优化网络模型进行测试,求解作战资源跨域调度问题;
S5、针对应用场景变化开展多智能体作战资源跨域调配深度强化学习网络优化,完成所述临近策略优化网络模型的自学习和在线升级。
进一步地,
所述S1中的求解环境,具体通过定义在作战资源跨域调配过程中多部队的环境状态空间、动作空间、环境奖励值以及多智能体强化学习模型实现。
进一步地,还包括,
所述环境状态空间,包括某时刻智能体的局部观测值、训练时输入智能体评论者网络的全局信息以及在环境返回状态的动作掩码;
所述多智能体中的每个智能体拥有一个执行者网络、一个评论者网络、初始化执行者与评论者神经网络的参数;
所述多智能体强化学习模型为分散的部分可观察多马尔可夫决策过程的元组形式。
进一步地,还包括,
所述元组形式,表示为
Figure SMS_1
);
其中,
Figure SMS_2
为智能体个数,/>
Figure SMS_6
为全局观测值状态,/>
Figure SMS_8
为智能体动作集合,/>
Figure SMS_4
为状态转移概率,即/>
Figure SMS_7
,s表示当前状态,s'表示下一时刻状态,u表示当前时刻执行的动作,/>
Figure SMS_9
为每个智能体的状态转移概率,/>
Figure SMS_10
为每个智能体的局部观测值,/>
Figure SMS_3
为环境奖励,/>
Figure SMS_5
为折扣因子;
某时刻智能体的局部观测值,表示为:
Figure SMS_11
其中,
Figure SMS_12
表示当前智能体/>
Figure SMS_13
剩余的当前决策武器类型数量以及智能体/>
Figure SMS_14
中该类型运输平台剩余数量,由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成;/>
Figure SMS_15
表示当前智能体/>
Figure SMS_16
与当前决策的作战区域之间的距离;
Figure SMS_17
表示当前决策的作战区域以及武器需求类型的需求剩余需求数量,由武器类型独热编码和武器需求数量独热编码构成;而/>
Figure SMS_18
则表示剩余需要决策的作战区域该类型武器的需求数量,由一个矩阵组成,矩阵每行代表着每个作战区域当前类型武器的需求数量,每个作战区域在每行的信息固定,且已经完成决策的作战区域信息不再出现在矩阵中;矩阵每行由武器类型独热编码和武器需求数量独热编码构成;
进一步地,还包括,
定义训练时时刻
Figure SMS_19
输入每个智能体评论者网络的全局信息/>
Figure SMS_20
如下:
Figure SMS_21
其中
Figure SMS_22
与智能体局部观测值定义一致,/>
Figure SMS_23
和/>
Figure SMS_24
为每个智能体局部观测值/>
Figure SMS_25
和/>
Figure SMS_26
拼接构成的矩阵。
进一步地,所述步骤S3包括以下步骤:
S31、初始化环境,获得
Figure SMS_27
时刻每个智能体的局部观测值以及多智能体系统的环境全局观测值;
S32、智能体将局部观测值输入执行者网络中,输出所有动作的值,并计算获得每个动作的概率值,根据概率采样获得智能体动作;
S33、每个智能体在时刻
Figure SMS_28
做出相应动作后,环境会随之而改变,进入/>
Figure SMS_29
+1时刻后环境返回环境奖励,每个智能体获得/>
Figure SMS_30
+1时刻的局部观测值及用于训练的环境全局观测值;
S34、将S32到S33获得的
Figure SMS_31
时刻局部观测值集合、/>
Figure SMS_32
+1时刻局部观测值集合动作集合、
Figure SMS_33
时刻全局观测值、/>
Figure SMS_34
+1时刻全局观测值、/>
Figure SMS_35
时刻的奖励暂存到经验池中;如果当前回合没有完成,则跳至S32,如果当前任务完成但训练还未结束,跳至S31;同时若经验池中的样本数量达到指定值后,执行S35到S39/>
Figure SMS_36
次后将经验池中样本丢弃,跳至S32,直到达到训练结束条件;
S35、从经验池随机抽取若干样本进行训练;将全局观测值
Figure SMS_37
和/>
Figure SMS_38
分别作为评论者网络输入,输出当前时刻和下一时刻的Value值,使用当前时刻和下一时刻的Value值和奖励/>
Figure SMS_39
计算优势函数/>
Figure SMS_40
;所述优势函数/>
Figure SMS_41
使用泛化优势估计GAE计算;
S36、使用S35计算得到的优势函数
Figure SMS_42
计算每个智能体执行者网络目标函数;
S37、使用梯度下降算法计算执行者网络目标函数的梯度,更新每个智能体的执行者网络;
S38、使用TD-Error方法计算评论者网络的损失函数
Figure SMS_43
,其计算公式如下:
Figure SMS_44
其中,
Figure SMS_45
表示真实的Value值,此Value值使用/>
Figure SMS_46
计算获得,rt为当前t时刻获取的奖励值,/>
Figure SMS_47
为折扣因子,V(st)和V(st+1)分别为当前时刻和下一时刻的Value值;在GAE中,在计算优势函数/>
Figure SMS_48
的同时计算了/>
Figure SMS_49
S39、使用梯度下降算法计算评论者网络损失函数的梯度,更新每个智能体的评论者网络;
更进一步地,所述步骤S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型的步骤,还包括,
建立基于多层感知机/注意力网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体执行者网络模型;
建立基于多层感知机/变换神经网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体评论者网络模型。
为实现上述目的,本发明还提供一种电子设备,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行上述的作战资源跨域调配问题的智能规划方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的作战资源跨域调配问题的智能规划方法的步骤。
本发明的作战资源跨域调配问题的智能规划方法,具有以下有益效果:
与现有技术相比,本发明提出的一种作战资源跨域调配问题的智能规划方法,使用多智能体强化学习的方法解决了完全中央控制维度爆炸的问题,同时使用通信机制聚合智能体间的信息,解决了局部观测造成的信息不全问题。同时,使用强化学习方法具有学习能力强、算法适应性强和运行效率高等优点,并具备随应用场景变化的自学习能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,并与本发明的实施例一起,用于解释本发明,并不构成对本发明的限制。在附图中:
图1为根据本发明的作战资源跨域调配问题的智能规划方法的流程图;
图2为根据本发明实施例的智能体执行者网络模型示意图;
图3为根据本发明实施例的自注意力网络模型示意图;
图4为根据本发明实施例的智能体评论者网络模型示意图;
图5为根据本发明实施例的Transformer网络模型示意图;
图6为根据本发明实施例的作战资源跨域调配问题的智能规划方法整体实现流程图;
图7为根据本发明实施例的作战资源跨域调配问题的智能规划方法训练流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
独热编码(one-hot)类型:一种N位二进制编码数据类型。对于长度为N的独热编码,取值为i(0<i≤N)时,右起第i位为“1”,其余位均为“0”。如N=5、i=2时,对应独热编码为:00010。
集中式训练-分布式执行(CTDE,Centralized Training DecentralizedExecution)框架:多智能体强化学习算法框架中的一种,在智能体进行执行和采样时仅根据自身的观测进行决策,在训练时使用完全的观测信息对网络进行集中更新。
深度强化学习PPO算法:为深度强化学习算法的一种,PPO即Proximal policyoptimization(邻近策略优化),是一种基于on-policy深度强化学习算法。
实施例1
图1为根据本发明的作战资源跨域调配问题的智能规划方法流程图,下面将参考图1,对本发明的作战资源跨域调配问题的智能规划方法进行详细描述。
在步骤101,建立多部队跨地域武器调配模型。
优选地,对多部队跨地域武器调配问题本身进行定义。存在多个固定数量的部队和数量不固定的作战区域。每个部队装备的武器类型和武器运输平台类型多样且数量受限,每种资源运输平台的满载量和单位运输时间成本不同,每种武器的重量不同,不同部队到作战区域的路线长度不同。在调配问题中,作战区域武器紧迫程度的问题被认为是一样的。问题的目标是在满足所有作战区域所需资源的情况下,求解出整体的资源调配方案,使得资源运输时间成本最低。
优选地,调配问题的约束条件如下:
1)每个部队使用每种运输平台运输武器资源的总重量不超过本部队该类型武器运输平台的总载重量;
2)每个部队运输每种武器资源的数量不超过本部队该类武器的剩余数量;
3)每个作战区域得到的每种武器的数量大于等于本作战区域该类型资源所需的资源数量。
优选地,将调配问题进行数学定义。
部队集合
Figure SMS_53
,作战区域集合/>
Figure SMS_57
,运输平台集合/>
Figure SMS_60
,武器类型集合/>
Figure SMS_52
;使用/>
Figure SMS_56
表示部队拥有/>
Figure SMS_61
类武器数量;/>
Figure SMS_65
表示作战区域对/>
Figure SMS_51
类武器的需求量;/>
Figure SMS_54
表示/>
Figure SMS_58
类武器的单位重量;/>
Figure SMS_64
分别表示运输平台/>
Figure SMS_67
的单位运输时间成本和满载量;/>
Figure SMS_70
表示第/>
Figure SMS_73
个部队可调用的运输平台/>
Figure SMS_75
的数量;/>
Figure SMS_66
表示第/>
Figure SMS_68
个部队到第/>
Figure SMS_71
个作战区域的距离;/>
Figure SMS_74
表示从部队/>
Figure SMS_50
使用运输平台/>
Figure SMS_55
运输/>
Figure SMS_59
类型资源到作战区域/>
Figure SMS_62
的武器数量,
Figure SMS_63
。另外,设置每个资源部队每种类型武器和作战区域的每种类型武器的需求量有一个最大数量限制,即/>
Figure SMS_69
和/>
Figure SMS_72
由上述给出的数学定义,以及优化目标和约束条件给出该问题的目标函数,如下式所示:
Figure SMS_76
Figure SMS_77
./>
Figure SMS_78
Figure SMS_79
Figure SMS_80
在步骤102,设计基于协同通信的多智能体强化学习的多部队跨地域武器调配方法求解环境。
优选地,定义在武器资源调配过程中多部队的环境状态空间、动作空间、环境奖励值,每个智能体拥有自己的一个执行者策略网络和一个评论者网络,初始化执行者与评论者神经网络的参数。
本实施例中,使用Python编写仿真环境,定义环境中规则以及约束条件等,使用Pytorch框架对强化学习算法进行实现。
优选地,多智能体强化学习模型定义为分散的部分可观察多马尔可夫决策过程(DEC-POMDP)的元组形式
Figure SMS_83
),其中/>
Figure SMS_84
为智能体个数,S为全局观测值状态,
Figure SMS_88
为智能体动作集合,/>
Figure SMS_82
为状态转移概率,即/>
Figure SMS_85
,/>
Figure SMS_87
为每个智能体自己的状态转移概率,/>
Figure SMS_89
为每个智能体的局部观测值,/>
Figure SMS_81
为环境奖励/>
Figure SMS_86
为折扣因子。在该模型中上述符号具体含义在下面展开。
步骤201,设计基于通信的多智能体强化学习武器资源调配方法求解环境的状态,具体为:
定义智能体
Figure SMS_90
在时刻/>
Figure SMS_91
的局部观测值构成如下:
Figure SMS_92
其中,
Figure SMS_93
表示当前智能体/>
Figure SMS_94
也就是部队/>
Figure SMS_95
剩余的当前决策武器类型数量以及部队/>
Figure SMS_96
中该类型运输平台剩余数量,由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成;/>
Figure SMS_97
表示当前部队与当前决策的作战区域之间的距离;/>
Figure SMS_98
表示当前决策的作战区域以及武器需求类型的需求剩余需求数量,由武器类型独热编码和武器需求数量独热编码构成;而/>
Figure SMS_99
则表示剩余需要决策的作战区域该类型武器的需求数量,由一个矩阵组成,矩阵每行代表着每个作战区域当前类型武器的需求数量,每个作战区域在每行的信息固定,且已经完成决策的作战区域信息不再出现在矩阵中。矩阵每行由武器类型独热编码和武器需求数量独热编码构成。
定义训练时时刻
Figure SMS_100
输入每个智能体评论者网络的全局信息/>
Figure SMS_101
如下:
Figure SMS_102
其中,
Figure SMS_103
与智能体局部信息定义一致,/>
Figure SMS_104
和/>
Figure SMS_105
为每个智能体局部信息/>
Figure SMS_106
和/>
Figure SMS_107
拼接构成的矩阵。
最后,在环境返回给的状态中,还包括对动作的掩码,掩码会屏蔽掉智能体选择数量大于自己拥有武器数量的动作。
本实施例中,在Python中实现动作掩码使用torch.where()方法,将非法动作在经过Softmax函数前替换成一个负的最大值。
步骤202,设计基于通信的多智能体强化学习武器资源调配方法求解环境的动作空间,具体为:
由于每个时间步step中的作战区域和武器需求类型确定,因此每个智能体只需要决策需要给该作战区域分配多少数量的该类型武器,因此动作空间是离散类型的,一共有
Figure SMS_108
个动作。
步骤203,设计基于通信的多智能体强化学习武器资源调配方法求解环境的奖励。由于问题的求解目标是使得资源运输总成本最低,因此当决策回合结束时,环境会给予多智能体系统一个反馈奖励,而其他时刻奖励都为0,奖励具体构成如下:
Figure SMS_109
其中,
Figure SMS_110
为最大运输时间成本,第一项表示总运输时间成本越低,奖励值越高;第二项表示当智能体选择了不合法的动作或者已经都没有武器的时候,表示决策有误,给予负奖励。
在步骤103,建立基于协同通信的多智能体强化学习的多部队跨地域武器调配方法网络模型。
步骤301,建立基于MLP/Attention/GRU(多层感知机/注意力机制/门控循环单元)混合架构的基于通信的多智能体强化学习武器资源调配方法每个智能体执行者(Actor)网络模型,如图2所示。
本实施例中,如图2所示,智能体执行者网络输入的是步骤201中提到的智能体局部观测
Figure SMS_121
以及上一时刻/>
Figure SMS_113
GRU输出/>
Figure SMS_117
,/>
Figure SMS_122
中的四个组成部分
Figure SMS_125
分别先经过一个MLP网络提取特征,/>
Figure SMS_123
由于是矩阵形式,在提取特征后经过一个Flatten层进行扁平化处理;随后由于/>
Figure SMS_126
是智能体/>
Figure SMS_120
特有信息,而/>
Figure SMS_124
是所有智能体都一致的信息,所以对/>
Figure SMS_111
经过特征提取后的信息进行拼接,形成中间特征/>
Figure SMS_118
,这个中间特征与其他智能体的中间特征/>
Figure SMS_112
输入注意力网络中,获得与其他智能体交流后的沟通信息/>
Figure SMS_116
;同时,中间特征/>
Figure SMS_115
Figure SMS_119
特征进行拼接,经过一个MLP网络后与沟通信息/>
Figure SMS_114
进行拼接输入GRU网络中(由于使用局部观测,使用RNN类网络可提高感知空间),GRU网络使用当前时刻t的信息与过去时刻的信息进行结合,输出再经过一个MLP网络后将高维特征映射成为动作维度的动作,在动作掩码MASK的一起作用下获得最后动作Action,即选取武器数量。多层感知机可以是两层或者更多层的线性层,线性层之间使用Tanh作为激活函数。
优选地,GRU网络计算过程如下:
(a)在获得前一时刻目标的状态信息提取特征的输入
Figure SMS_127
和当前目标特征输入
Figure SMS_128
之后,将两者记性合并计算重置门:
Figure SMS_129
Figure SMS_130
(b)将前一目标的状态信息提取特征的输入
Figure SMS_131
和当前目标特征输入/>
Figure SMS_132
合并计算为更新门/>
Figure SMS_133
:
Figure SMS_134
Figure SMS_135
(c)计算候选集
Figure SMS_136
Figure SMS_137
Figure SMS_138
(d)计算该单元的输出值:
Figure SMS_139
(e)最后计算输出层输出值
Figure SMS_140
Figure SMS_141
本实施例中,注意力机制如图3所示,包括将当前智能体的中间信息中间特征
Figure SMS_142
作为注意力机制的查询Q(query),其他智能体的中间特征/>
Figure SMS_143
作为注意力机制的键K(key)和值V(Value),使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重。通过权重与值的点积获得聚合的信息沟通信息/>
Figure SMS_144
,在这里,掩盖掉智能体本身信息,只保留其他智能体的信息。上述计算权重的公式如下:
Figure SMS_145
其中,
Figure SMS_146
为Q与K的长度。
在步骤302,建立基于MLP/Transformer/GRU(多层感知机/变换神经网络/门控循环单元)混合架构的基于通信的多智能体强化学习武器资源调配方法每个智能体评论者(Critic)网络模型。
本实施例中,如图4所示,
Figure SMS_147
和/>
Figure SMS_148
为矩阵形式,使用Transformer提取特征后经过Flatten层进行扁平化处理,与/>
Figure SMS_149
经过MLP后提取的特征进行拼接,与上一时刻/>
Figure SMS_150
GRU输出/>
Figure SMS_151
一起输入GRU网络中,获得与历史信息结合起来的特征后经过一个MLP将多维特征映射成一个Value值。
本实施例中,Transformer结构如图5所示,在图5所示Transformer网络结构中,注意力机制可使用单头或者多头注意力机制,将当前智能体
Figure SMS_152
作为注意力的查询,其他智能体的/>
Figure SMS_153
作为键值对。
在步骤104,训练基于协同通信的多智能体强化学习的多部队跨地域武器调配方法网络。
优选地,基于通信的多智能体强化学习武器资源调配方法训练流程如图7所示,包括以下步骤:
步骤401,初始化环境,每个智能体(部队)会获得
Figure SMS_154
时刻自身的局部观测值,如智能体/>
Figure SMS_155
会获得其观测值/>
Figure SMS_156
,多智能体系统会获得环境全局观测值/>
Figure SMS_157
步骤402,智能体将局部观测值输入自己的决策网络中,如图1所示,网络输出所有动作的值,通过Softmax函数计算获得每个动作的概率值,并根据概率采样获得智能体动作,智能体
Figure SMS_158
动作记为/>
Figure SMS_159
步骤403,每个智能体在时刻
Figure SMS_160
做出相应动作后,环境会随之而改变,进入时刻/>
Figure SMS_161
后环境返回环境奖励/>
Figure SMS_162
,每个智能体在时刻/>
Figure SMS_163
会获得局部观测值/>
Figure SMS_164
,同样,也有用于训练的环境全局观测值/>
Figure SMS_165
步骤404,用
Figure SMS_168
记为所有智能体/>
Figure SMS_173
时刻局部观测值的集合,
Figure SMS_176
记为所有智能体/>
Figure SMS_167
时刻做出的动作的集合,将上述步骤102到步骤104获得的时刻/>
Figure SMS_172
局部观察值集合、时刻/>
Figure SMS_174
局部观察值集合动作集合、时刻/>
Figure SMS_178
全局观测值、时刻/>
Figure SMS_166
全局观测值、时刻/>
Figure SMS_171
的奖励/>
Figure SMS_175
暂时存储到经验池/>
Figure SMS_179
中。如果当前回合没有完成,则继续进行步骤302到当前步骤,如果当前任务完成但训练还未结束,执行步骤401。同时如果经验池/>
Figure SMS_169
中的样本数量达到指定的值后,重复执行/>
Figure SMS_170
次步骤405-步骤409后将经验池/>
Figure SMS_177
中样本丢弃(K的取值在100-1000之间),继续执行步骤402到当前步骤,直到达到训练结束条件。
步骤405,从经验池
Figure SMS_180
随机抽取一定批量样本进行训练。将全局观测值/>
Figure SMS_181
和/>
Figure SMS_182
分别作为评论者网络输入,输出当前时刻和下一时刻的Value值,使用两个Value值和奖励/>
Figure SMS_183
计算优势函数/>
Figure SMS_184
,优势函数/>
Figure SMS_185
使用GAE(泛化优势估计)计算,计算公式如下:
Figure SMS_186
上式中
Figure SMS_187
为折扣因子,/>
Figure SMS_188
为GAE系数,取1时GAE就是蒙特卡洛采样,取0时为TD-Error方法。
步骤406,使用步骤405计算得到的优势函数
Figure SMS_189
计算每个智能体执行者网络的截断目标函数,计算公式如下:/>
Figure SMS_190
Figure SMS_191
上式中,
Figure SMS_192
为重要性采样比值,/>
Figure SMS_193
为新策略,/>
Figure SMS_194
旧就策略,为了更清晰简洁表示,省略每个智能体编号下标。/>
Figure SMS_195
为截断系数,控制着新旧策略差异。
步骤407,使用梯度下降算法计算执行者网络目标函数梯度,更新每个智能体执行者网络。
步骤408,使用TD-Error方法计算评论者网络的损失函数,其计算公式如下:
Figure SMS_196
上式中,
Figure SMS_197
表示真实的Value值,一般计算直接使用/>
Figure SMS_198
计算获得,但在GAE中,在计算优势函数/>
Figure SMS_199
的同时计算了/>
Figure SMS_200
步骤409,使用梯度下降算法计算评论者网络损失函数梯度,更新每个智能体评论者网络。
在步骤105,应用训练结果实现多部队跨地域武器调配问题求解,并针对应用场景变化开展多智能体武器资源调配深度强化学习网络优化,完成算法的自学习和在线升级。
优选地,将训练好的智能体强化学习武器资源调配深度强化学习网络模型接入应用环境中的资源调配系统,提供武器资源调配后台算法支持,实现对真实救灾应急环境中的武器资源调配问题的求解。当应用场景发生改变时,由应用环境提供训练场景想定更新数据,通过步骤104实现算法自学习和在线升级。
本实施例中,为验证本方法的效果,使用Python语言完成仿真环境和算法的实现,实验中部队也即智能体的数量取值分别为4、8、12、16、20,作战区域数量范围介于[1,30],强化学习算法均采用固定5000000个时间步训练。分别设置环境种子为1、10、100、1000、10000完成5轮实验,每轮实验共100个随机生成的测试环境,取所有测试环境的平均值作为实验结果进行算法评估。为便于比较,选用现有主流的用于资源调配优化的单智能体PPO算法、遗传算法、粒子群算法,与本专利所提出的方法进行平均奖励和算法时间消耗情况对比测试,实验结果如表1和表2所示。
表1 不同数量智能体下本发明算法和其他算法的奖励对比结果
Figure SMS_201
表2 不同数量智能体下本发明算法和其他算法的时间消耗对比结果
Figure SMS_202
本实施例中,根据表1和表2可以看出,本发明所提出的方法在平均奖励和时间消耗上完全优于单智能体PPO算法、遗传算法和粒子群算法,虽然四个算法在优化效果上差距不大(奖励值基本接近),但随着智能体的增加,其他的算法在奖励下降上更加明显,这是因为需要决策存储区更多了,单智能体算法需要选择存储区作为动作,导致在相同训练时间步情况下,奖励上升相比本专利算法更加缓慢。两个传统智能算法在奖励上下降不如单智能体算法,但消耗时间一直都非常高,且随着需要决策的存储区越来越多,环境越来越复杂,单智能体强化学习和传统算法在时间消耗上急剧上升,而多智能体因为是多个智能体并行给出决策结果,其算法时间并没有收到太多影响。综上,本发明所提出的一种作战资源跨域调配问题的智能规划方法优化结果更好、计算速度更快,明显优于现有主流算法。
本发明在MAPPO算法基础上提出了一种作战资源跨域调配问题的智能规划方法,将每个部队作为一个智能体,多个部队共同构成多智能体系统。环境在每次初始化时智能体数量固定,但其武器类型和数量等随机生成,随机生成数量不等的作战区域(武器资源需求区域),其需求的武器类型和数量也是随机生成,每次对一个作战区域的一种武器需求类型进行决策,每个智能体每次决策该部队需要运往该作战区域多少数量的武器,当所有作战区域数量满足或者是部队所拥有武器数量不能够满足作战区域需求时,该决策回合结束,环境予以奖励反馈。同时,在每个执行者网络之间建立联系,构建沟通渠道,使得每个部队可以观测到其他智能体的状态,协同起来更好的进行资源分配。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行上述的作战资源跨域调配问题的智能规划方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的作战资源跨域调配问题的智能规划方法的步骤,所述作战资源跨域调配问题的智能规划方法参见前述部分的介绍,不再赘述。
本领域普通技术人员可以理解:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种作战资源跨域调配问题的智能规划方法,其特征在于,包括如下步骤:
S1、设计基于通信的多智能体强化学习作战资源跨域调配的求解环境;
S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型;
S3、训练基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型,得出训练好的临近策略优化网络模型;
S4、应用训练好的临近策略优化网络模型进行测试,求解作战资源跨域调度问题;
S5、针对应用场景变化开展多智能体作战资源跨域调配深度强化学习网络优化,完成所述临近策略优化网络模型的自学习和在线升级。
2.根据权利要求1所述的作战资源跨域调配问题的智能规划方法,其特征在于,
所述S1中的求解环境,具体通过定义在作战资源跨域调配过程中多部队的环境状态空间、动作空间、环境奖励值以及多智能体强化学习模型实现。
3.根据权利要求2所述的作战资源跨域调配问题的智能规划方法,其特征在于,还包括,
所述环境状态空间,包括某时刻智能体的局部观测值、训练时输入智能体评论者网络的全局信息以及在环境返回状态的动作掩码;
所述多智能体中的每个智能体拥有一个执行者网络、一个评论者网络、初始化执行者与评论者神经网络的参数;
所述多智能体强化学习模型为分散的部分可观察多马尔可夫决策过程的元组形式。
4.根据权利要求3所述的作战资源跨域调配问题的智能规划方法,其特征在于,还包括,
所述元组形式,表示为
Figure QLYQS_1
);
其中,
Figure QLYQS_4
为智能体个数,/>
Figure QLYQS_6
为全局观测值状态,/>
Figure QLYQS_8
为智能体动作集合,/>
Figure QLYQS_2
为状态转移概率,即/>
Figure QLYQS_7
,s表示当前状态,s'表示下一时刻状态,u表示当前时刻执行的动作,/>
Figure QLYQS_9
为每个智能体的状态转移概率,/>
Figure QLYQS_10
为每个智能体的局部观测值,/>
Figure QLYQS_3
为环境奖励,/>
Figure QLYQS_5
为折扣因子;
某时刻智能体的局部观测值,表示为:
Figure QLYQS_11
其中,
Figure QLYQS_12
表示当前智能体/>
Figure QLYQS_13
剩余的当前决策武器类型数量以及智能体/>
Figure QLYQS_14
中该类型运输平台剩余数量,由武器类型独热编码、剩余数量独热编码以及该类型运输平台剩余数量构成;/>
Figure QLYQS_15
表示当前智能体/>
Figure QLYQS_16
与当前决策的作战区域之间的距离;/>
Figure QLYQS_17
表示当前决策的作战区域以及武器需求类型的需求剩余需求数量,由武器类型独热编码和武器需求数量独热编码构成;而/>
Figure QLYQS_18
则表示剩余需要决策的作战区域该类型武器的需求数量,由一个矩阵组成,矩阵每行代表着每个作战区域当前类型武器的需求数量,每个作战区域在每行的信息固定,且已经完成决策的作战区域信息不再出现在矩阵中;矩阵每行由武器类型独热编码和武器需求数量独热编码构成。/>
5.根据权利要求4所述的作战资源跨域调配问题的智能规划方法,其特征在于,还包括,
定义训练时时刻
Figure QLYQS_19
输入每个智能体评论者网络的全局信息/>
Figure QLYQS_20
如下:
Figure QLYQS_21
其中
Figure QLYQS_22
与智能体局部观测值定义一致,/>
Figure QLYQS_23
和/>
Figure QLYQS_24
为每个智能体局部观测值/>
Figure QLYQS_25
和/>
Figure QLYQS_26
拼接构成的矩阵。
6.根据权利要求1所述的作战资源跨域调配问题的智能规划方法,其特征在于,所述步骤S3包括以下步骤:
S31、初始化环境,获得
Figure QLYQS_27
时刻每个智能体的局部观测值以及多智能体系统的环境全局观测值;
S32、智能体将局部观测值输入执行者网络中,输出所有动作的值,并计算获得每个动作的概率值,根据概率采样获得智能体动作;
S33、每个智能体在时刻
Figure QLYQS_28
做出相应动作后,环境会随之而改变,进入/>
Figure QLYQS_29
+1时刻后环境返回环境奖励,每个智能体获得/>
Figure QLYQS_30
+1时刻的局部观测值及用于训练的环境全局观测值;
S34、将S32到S33获得的
Figure QLYQS_31
时刻局部观测值集合、/>
Figure QLYQS_32
+1时刻局部观测值集合动作集合、/>
Figure QLYQS_33
时刻全局观测值、/>
Figure QLYQS_34
+1时刻全局观测值、/>
Figure QLYQS_35
时刻的奖励暂存到经验池中;如果当前回合没有完成,则跳至S32,如果当前任务完成但训练还未结束,跳至S31;同时若经验池中的样本数量达到指定值后,执行S35到S39/>
Figure QLYQS_36
次后将经验池中样本丢弃,跳至S32,直到达到训练结束条件;
S35、从经验池随机抽取若干样本进行训练;将全局观测值
Figure QLYQS_37
和/>
Figure QLYQS_38
分别作为评论者网络输入,输出当前时刻和下一时刻的Value值,使用当前时刻和下一时刻的Value值和奖励/>
Figure QLYQS_39
计算优势函数/>
Figure QLYQS_40
;所述优势函数/>
Figure QLYQS_41
使用泛化优势估计GAE计算;
S36、使用S35计算得到的优势函数
Figure QLYQS_42
计算每个智能体执行者网络目标函数;
S37、使用梯度下降算法计算执行者网络目标函数的梯度,更新每个智能体的执行者网络;
S38、使用TD-Error方法计算评论者网络的损失函数
Figure QLYQS_43
,其计算公式如下:
Figure QLYQS_44
其中,
Figure QLYQS_45
表示真实的Value值,此Value值使用/>
Figure QLYQS_46
计算获得,rt为当前t时刻获取的奖励值,/>
Figure QLYQS_47
为折扣因子,V(st)和V(st+1)分别为当前时刻和下一时刻的Value值;在GAE中,在计算优势函数/>
Figure QLYQS_48
的同时计算了/>
Figure QLYQS_49
S39、使用梯度下降算法计算评论者网络损失函数的梯度,更新每个智能体的评论者网络。
7.根据权利要求1所述的作战资源跨域调配问题的智能规划方法,其特征在于,所述步骤S2、建立基于通信的多智能体强化学习作战资源跨域调配的临近策略优化网络模型的步骤,还包括,
建立基于多层感知机/注意力网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体执行者网络模型;
建立基于多层感知机/变换神经网络/门控循环单元混合架构的基于通信的多智能体强化学习作战资源跨域调配的智能体评论者网络模型。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行权利要求1-7任一项所述的作战资源跨域调配问题的智能规划方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7任一项所述的作战资源跨域调配问题的智能规划方法的步骤。
CN202310451758.6A 2023-04-25 2023-04-25 作战资源跨域调配问题的智能规划方法 Active CN116187787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310451758.6A CN116187787B (zh) 2023-04-25 2023-04-25 作战资源跨域调配问题的智能规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310451758.6A CN116187787B (zh) 2023-04-25 2023-04-25 作战资源跨域调配问题的智能规划方法

Publications (2)

Publication Number Publication Date
CN116187787A true CN116187787A (zh) 2023-05-30
CN116187787B CN116187787B (zh) 2023-09-12

Family

ID=86438730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310451758.6A Active CN116187787B (zh) 2023-04-25 2023-04-25 作战资源跨域调配问题的智能规划方法

Country Status (1)

Country Link
CN (1) CN116187787B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485039A (zh) * 2023-06-08 2023-07-25 中国人民解放军96901部队 一种基于强化学习的打击序列智能规划方法
CN116757497A (zh) * 2023-06-12 2023-09-15 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
US20220104034A1 (en) * 2020-09-30 2022-03-31 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method of association of user equipment in a cellular network according to a transferable association policy
CN114722701A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 基于深度强化学习模型的兵棋推演协作策略获取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
US20220104034A1 (en) * 2020-09-30 2022-03-31 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method of association of user equipment in a cellular network according to a transferable association policy
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
CN113791634A (zh) * 2021-08-22 2021-12-14 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN114722701A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 基于深度强化学习模型的兵棋推演协作策略获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马宗阳: "基于多智能体强化学习的兵棋推演决策方法研究", 《万方数据知识服务平台》, pages 20 - 42 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485039A (zh) * 2023-06-08 2023-07-25 中国人民解放军96901部队 一种基于强化学习的打击序列智能规划方法
CN116485039B (zh) * 2023-06-08 2023-10-13 中国人民解放军96901部队 一种基于强化学习的打击序列智能规划方法
CN116757497A (zh) * 2023-06-12 2023-09-15 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法
CN116757497B (zh) * 2023-06-12 2024-01-12 南京航空航天大学 基于图类感知Transformer的多模态军事智能辅助作战决策方法

Also Published As

Publication number Publication date
CN116187787B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
CN116187787B (zh) 作战资源跨域调配问题的智能规划方法
Coit et al. The evolution of system reliability optimization
CN110427006A (zh) 一种用于流程工业的多智能体协同控制系统及方法
CN112232478A (zh) 一种基于分层注意力机制的多智能体强化学习方法及系统
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
Li et al. Adaptive learning: A new decentralized reinforcement learning approach for cooperative multiagent systems
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN111160511A (zh) 一种共识主动学习的群体智能方法
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
Zhang et al. Multi-agent system application in accordance with game theory in bi-directional coordination network model
Wu et al. A data-driven improved genetic algorithm for agile earth observation satellite scheduling with time-dependent transition time
CN110851911B (zh) 终端状态计算模型训练方法、控制序列搜索方法及装置
Kumar et al. Novel Reinforcement Learning Guided Enhanced Variable Weight Grey Wolf Optimization (RLV-GWO) Algorithm for Multi-UAV Path Planning
CN113837348A (zh) 基于强化学习的变化环境多智能体控制方法与装置
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
Zhou et al. A novel mission planning method for UAVs’ course of action
Kuravsky et al. An applied multi-agent system within the framework of a player-centered probabilistic computer game
Li et al. Towards learning behavior modeling of military logistics agent utilizing profit sharing reinforcement learning algorithm
CN115185294A (zh) 基于qmix的航空兵多编队协同自主行为决策建模方法
Liu RETRACTED: Research on decision-making strategy of soccer robot based on multi-agent reinforcement learning
CN114202175A (zh) 一种基于人工智能的作战任务规划方法及系统
Wang et al. Bic-ddpg: Bidirectionally-coordinated nets for deep multi-agent reinforcement learning
Liu et al. Soft-Actor-Attention-Critic Based on Unknown Agent Action Prediction for Multi-Agent Collaborative Confrontation
CN116485039B (zh) 一种基于强化学习的打击序列智能规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant