CN116661503A - 一种基于多智能体安全强化学习的集群航迹自动规划方法 - Google Patents
一种基于多智能体安全强化学习的集群航迹自动规划方法 Download PDFInfo
- Publication number
- CN116661503A CN116661503A CN202310966213.9A CN202310966213A CN116661503A CN 116661503 A CN116661503 A CN 116661503A CN 202310966213 A CN202310966213 A CN 202310966213A CN 116661503 A CN116661503 A CN 116661503A
- Authority
- CN
- China
- Prior art keywords
- agent
- value
- intelligent
- reinforcement learning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000002787 reinforcement Effects 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000007613 environmental effect Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 28
- 230000000875 corresponding effect Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000011010 flushing procedure Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000001360 synchronised effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供的一种基于多智能体安全强化学习的集群航迹自动规划方法,包括以下步骤:设计多智能体安全强化学习的集群航迹自动规划的求解环境;建立多智能体安全强化学习的集群航迹自动规划的网络模型;基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。本发明的基于多智能体安全强化学习的集群航迹自动规划方法,能够进行多弹飞行航迹同步规划,在训练时使用全局信息进行算法训练,充分使用环境的信息进行全局最优化,无需人为干预、简单易用。
Description
技术领域
发明涉及军事运筹技术领域,特别涉及一种基于多智能体安全强化学习的集群航迹自动规划方法、电子设备和存储介质。
背景技术
现有技术中,飞行航迹规划作为导弹武器任务规划的核心内容,需要综合考虑武器机动性能、载荷特性、导航制导、飞行安全和生存对抗等多种因素,合理优化设计出从发射点到目标点的飞行路线,是一个复杂的多目标、多约束最优化问题。目前,对导弹武器飞行航迹规划的研究主要集中于单个武器的单条航迹规划,对于多弹集群攻击多目标条件下的集群攻击飞行航迹自动规划问题,因涉及的规划场景复杂、约束条件众多,相关研究甚少,尚无有效解决方法。
传统航迹规划方法的典型代表有人工势场法、A*算法、D*算法、狄杰斯特拉算法、Bug算法、遗传算法以及粒子群算法等,多数只适用于固定不变的场景,当环境发生变化时需要重新计算,计算量大,并且只适用于知道环境全局信息的场景,而人工势场法虽可使用局部观测并且适应动态变化环境,但对观测信息要求高,存在势场为零导致智能体不再运动或永远抵达不了目标点,导致问题求解失败的情况。
智能规划方法主要是强化学习算法,主要包括单智能体和多智能体两种,单智能体求解方法适应性较差一般仅用于简单场景的单航迹规划,现有的多智能体航迹规划方法多是对单智能体航迹规划方法进行简单移植改造放在多智能体环境中,主要采用集中式规划方法进行求解,由于状态空间过大导致计算维度爆炸、求解时实性差。另外,由于在多发导弹集群攻击飞行航迹规划的过程中,难免会出现单个武器与障碍物、与其他武器之间发生碰撞的情况,以往的处理方法分两种:一是在奖励中加入碰撞惩罚,但这种方法很难确定一个合适的惩罚值,惩罚值过高容易造成智能体“懦弱”的现象,宁愿飞偏也不再前进,惩罚过低又会使得智能体出现“鲁莽”现象,为了达成任务不惜发生多次碰撞;二是使用动作屏蔽机制,在各种情况下使用动作掩码对非法或者不安全动作进行屏蔽,但这种方法只适用于离散动作空间,并且需要人为设计,可能出现获取不到最优策略的情况。
综上,现有的航迹规划方法均无法满足多弹集群攻击飞行航迹规划问题的求解需求。
发明内容
为了解决现有技术存在的问题,本发明提供一种基于多智能体安全强化学习的集群航迹自动规划方法,能够进行多弹飞行航迹同步规划,在训练时使用全局信息进行算法训练,充分使用环境的信息进行全局最优化,无需人为干预、简单易用。
为实现上述目的,本发明提供的一种基于多智能体安全强化学习的集群航迹自动规划方法,包括以下步骤:
设计多智能体安全强化学习的集群航迹自动规划的求解环境;
建立多智能体安全强化学习的集群航迹自动规划的网络模型;
基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;
将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。
进一步地,所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤,包括,
定义每个智能体的位置信息,每个智能体对应的目标点位置信息,和智能体与目标点之间的距离;
定义智能体的速度,角速度,在世界坐标下前进方向与目标点之间的夹角;
定义障碍物与智能体的相对距离;
定义智能体与智能体之间的相对距离;
每个智能体探测周围障碍物或者其他智能体距离信息,构成列表数据;
定义智能体在时刻t的局部观测值,定义时刻t的全局观测值。
进一步地,还包括,设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间,每个武器的动作空间是连续的,包括线速度与角速度;
设计武器目标分配深度强化学习求解环境的奖励和代价,对于环境的奖励以及代价,将完成到达目标点的任务作为奖励,到达目标点的时候,给予智能体正奖励,其他时刻给予智能体负的相对距离奖励以及相对角度奖励,激励智能体快速到达目标点,并且角度指向目标点;
根据智能体与障碍物或者其他智能体之间最小相对距离进行判断,如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值,则产生代价。
进一步地,所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括,
智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后,输出值中间信息,中间信息/>再经过两个多层感知机后输出自己的信息提取值/>以及经过一个sigmoid激活函数处理的阈值/>,用于决策其他智能体的信息数量;
其他智能体的信息由自注意力机制聚合得到,将阈值/>乘以/>加上自身信息提取值/>再经过两个多层感知机,输出正态分布的均值/>和方差/>,采用冲参数的方法选取根据均值和方差构成的正态分布选取动作/>,多层感知机为线性层,线性层之间使用Tanh作为激活函数。
进一步地,还包括,
将当前智能体的中间信息作为注意力机制的查询,其他智能体的中间信息/>作为注意力机制的键和值,使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重;
通过权重与值的点积获得聚合的信息Mi,掩盖智能体本身信息,保留其他智能体的信息。
进一步地,所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括以下步骤,
1)在搭建好模拟器和模型后,输入参数建立一个新的环境模型,初始化环境,每个智能体获得t时刻自身的局部观测值,在训练时,各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中,构成全局观测值;
2)智能体将局部观测值输入智能体执行者网络中,通过一个多层感知机后,保留自己的观测信息,使用自注意力机制与其他智能体交换信息,并将交换获得的信息与自身原有的信息进行整合,输出连续动作所需要的均值和方差,并使用重参数的方法采样获得动作,智能体动作记为/>;
3)每个智能体在时刻t做出相应动作后,环境会随之而改变,进入时刻t+1后环境返回总体奖励Rt和总体代价Ct,每个智能体在时刻t+1会获得局部观测值,和用于训练的环境全局观测值/>;
4)用记为所有智能体t时刻局部观测值的集合,/>记为所有智能体t时刻做出的动作的集合,将步骤2)到步骤4)获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价/>存储到经验回放池/>中;如果当前任务没有完成,则继续进行步骤2)到步骤4);如果当前任务完成但训练还未结束,执行步骤1);如果经验回放池/>中的样本数量达到预设值后,执行步骤5)-8)直至网络收敛;
5)从经验回放池随机抽取一定批量样本进行训练。
6)使用梯度下降算法对损失函数求导,从而对每个智能体的评论者网络参数进行更新;
7)冻结每个智能体中评论者网络的参数,计算评论者网络更新后的查询值,取其最小值作为最小查询/>值,将每个智能体的t的局部观测值/>输入其智能体执行者网络输出动作对数/>,使用/>值与/>计算执行者网络的损失函数;
8)使用梯度下降算法对损失函数求导,对每个智能体的执行者策略网络参数进行更新,在一定训练间隔,对拉格朗日乘子使用梯度下降算法进行更新,更新所需损失函数如公式3所示,对熵温度系数使用梯度下降算法进行更新:
公式3
其中,为拉格朗日乘子,d为对代价C的约束。
更进一步地,所述步骤6)包括,
将当前样本中的每一个时刻t的下一时刻t+1的局部观测值作为每个智能体执行者网络的输入,智能体的执行者网络输出智能体在t+1时刻每个动作以及动作概率对应的;
将每个智能体动作与全局观测输入奖励目标评论者与代价目标评论者网络中,获得四个状态/>下的查询值,查询值以及损失函数代表每个智能体内查询值和损失函数等的计算,不再标记智能体编号;
每个评论者网络分别拥有两个查询值,分别取其最小的目标与/>值作为计算梯度所使用的值,从而计算目标值,其奖励目标计算如公式1所示,代价计算如公式2所示:
公式1
公式2
其中,为折扣因子,/>为控制探索强度的熵温度系数,Rt为进入时刻t+1后环境返回总体奖励,Ct为进入时刻t+1后总体代价,ut+1为智能体在时刻t+1的动作;
使用经验回放池中的/>输入每个智能体的奖励评论者和代价评论者网络中,获得四个状态/>下的当前查询/>值,每个评论者网络分别拥有两个查询值,根据评论者网络损失函数计算两个查询值的损失。
为实现上述目的,本发明还提供一种电子设备,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。
本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法,具有以下有益效果:
(1)多弹飞行航迹同步规划。本方法使用多智能体安全强化学习方法,对于多发导弹攻击集群,综合利用每发导弹自身局部观测信息和与其他导弹交互信息进行动作决策,实现了一次规划多发导弹多条飞行航迹。
(2)全局最优化。本方法使用多智能体安全SAC算法,在训练时使用全局信息进行算法训练,充分使用环境的信息;在执行时每个智能体只需要关注自己的信息,并且与其他智能体进行沟通交流,完成沟通交流后获得更全面的信息,从而选取一条安全、无碰撞、避免冲突的航迹。执行时使用局部观测信息,更接近现实中武器使用激光雷达进行探测从而仅获得周围信息的场景,减少真实世界中获取全局信息的需求,仅需要在仿真环境中使用全局信息即可。
(3)无需人为干预、简单易用。本方法使用安全强化学习算法训练出集群航迹自动规划策略,无需人为设计每个状态下智能体非法动作屏蔽规则,在保证安全、无碰撞情况下最小化每个智能体到达其目标点的时间,解决了奖惩设计困难,连续动作空间下无法进行动作屏蔽的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,并与本发明的实施例一起,用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法的流程图;
图2为本发明实施例的智能体执行者网络模型示意图;
图3为本发明实施例的自注意力网络模型示意图;
图4为本发明实施例的智能体评论者网络模型示意图;
图5为本发明实施例的多智能体安全强化学习的集群航迹自动规划方法训练流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
图1为根据本发明的一种基于多智能体安全强化学习的集群航迹自动规划方法流程图,下面将参考图1,对本发明的基于多智能体安全强化学习的集群航迹自动规划方法进行详细描述。
在步骤101,设计多智能体安全强化学习的集群航迹自动规划的求解环境。
优选地,基于动力学构建集群航迹自动规划仿真环境用于航迹规划训练,定义在航迹规划过程中多武器的环境状态空间、动作空间、奖励和代价,每个智能体拥有自己的一个执行者策略网络,以及四个评论者网络,分别是奖励评论者网络、奖励目标评论者网络、代价评论者网络和代价目标评论者网络,初始化执行者与评论者神经网络的参数。
武器在此仿真环境中的训练过程定义为分散的部分可观察受约束的马尔可夫决策过程(DEC-POCMDP)的元组形式,其中/>为智能体个数,/>为全局观测状态,为智能体动作集合,/>为状态转移概率,即/>,/>为每个智能体自己的状态转移概率,/>为每个智能体的局部观测值,/>为奖励,/>为环境代价,/>为折扣因子。在该仿真环境中上述符号具体含义在下面展开。
优选地,设计多智能体安全强化学习的集群航迹自动规划求解环境的状态,可具体执行为:
定义每个智能体的位置信息为,/>代表第/>个智能体,每个智能体对应的目标点位置信息为/>,智能体/>与目标点之间的距离可以表示为/>。智能体的速度表示为/>,角速度表示为/>,其在世界坐标下前进方向与目标点之间的夹角可表示为。障碍物与智能体/>的相对距离定义为/>,其中/>为环境中障碍物的数量。智能体/>与智能体/>之间的相对距离定义/>,其中/>为智能体总数;
另外,每个智能体搭载激光雷达,可探测周围障碍物或者其他智能体距离信息,探测范围为120,探测距离为100km,可在20个方向上收集数据信息,构成列表数据/>。
定义智能体在时刻t的局部观测值/>:
定义时刻t的全局观测值:
其中,,/>,/>。
优选地,设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间,包括,每个武器的动作空间是连续的,由线速度与角速度构成,线速度取值范围为[-3,3],单位为km/s;角速度取值范围为[-2, 2],单位为rad/s。
优选地,设计武器目标分配深度强化学习求解环境的奖励和代价。对于环境的奖励以及代价,将完成到达目标点的任务作为奖励,对于碰撞作为代价。时刻t奖励设计如下式所示。
其中,到达目标点的时候,给予智能体一个较大正奖励,其他时刻给予智能体负的相对距离奖励以及相对角度奖励,以激励智能体以较快的速度到达目标点,并且角度尽可能只想目标点,k、/>为权重系数。
时刻t代价设计如下式所示:
其中,为智能体与智能体或者障碍物之间的距离阈值,,即取智能体与障碍物或者其他智能体之间最小相对距离进行判断。为了让智能体与其他智能体或者障碍物保持在安全距离内,如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值,那么会产生代价。
本实施例中,实现基于Unity3D模拟器,具体如下:
a)首先创建一个容纳智能体的环境。实现一个Monobehaviour子类,用于实现环境中地图生成、障碍物随机生成、智能体起始点和目标点随机生成功能。
b)实现Agent子类。Agent子类定义了智能体观测自身的局部环境、根据策略执行动作的方法,以及重置环境的方法。
c)将Agent子类添加到对应的武器预制体对象。
d)实现基于动力学的武器状态转移的代码。
e)实现武器到达目标点、碰撞判定、局部观测与全局观测生成等代码。
实现模拟器环境及多武器参数修改接口,以便使用不同难度的场景进行训练。
在步骤102,建立多智能体安全强化学习的集群航迹自动规划的网络模型。
优选地,建立基于FC/Attention(全连接网络/注意力机制)混合架构的多智能体安全强化学习的集群航迹自动规划方法每个智能体执行者网络模型。
优选地,请参考图2,智能体执行者网络是输入或者是/>与上一时刻智能体所做的动作的组合/>经过一个多层感知机(MLP,由多层FC构成)后,输出值中间信息/>,然后这个中间信息/>再经过两个多层感知机后输出自己的信息提取值/>以及经过一个sigmoid激活函数处理的阈值/>,用于决定其他智能体的信息有多少是可以用于智能体本身决策的。其他智能体的信息由自注意力机制聚合得到/>。最后将阈值/>乘以/>加上自身信息提取值/>再经过两个多层感知机,输出正态分布的均值/>和方差/>,最后使用冲参数的方法选取根据均值和方差构成的正态分布选取动作/>。多层感知机可以是两层的线性层,线性层之间使用Tanh作为激活函数。
优选地,自注意力机制如图3所示,将当前智能体的中间信息作为注意力机制的查询Q(query),其他智能体的中间信息/>作为注意力机制的键K(key)和值(Value),使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重。通过权重与值的点积获得聚合的信息Mi,在这里,掩盖掉智能体本身信息,只保留其他智能体的信息。
其中,d为Q与K的长度。
优选地,建立多智能体强化学习的集群航迹自动规划每个智能体评论者网络模型,其为奖励评论者和代价评论者的网络,如图4所示,FC为全连接网络,和/>为评论者输出的Q值。
在步骤103,训练多智能体安全强化学习的集群航迹自动规划的网络。
优选地,如图5所示,多智能体安全强化学习的集群航迹自动规划方法训练流程,可具体执行为:
步骤S301,在搭建好模拟器和模型后,首先输入参数新建立一个环境模型,随后初始化环境,每个智能体会获得t时刻自身的局部观测值,如智能体会获得其观测值/>,在训练时,各个智能体的信息以及环境中障碍物信息将被传递到评论者的网络中,构成了全局观测值/>。
本实施例中,设置算法超参数及网络优化器等。使用正交初始化初始化网络参数,即网络中的权重和偏差。
步骤S302,智能体将局部观测值输入智能体执行者网络中,通过一个多层感知机后,一方面,保留自己的观测信息,另一方面,使用自注意力机制与其他智能体交换信息,并将交换获得的信息与自身原有的信息进行整合,输出连续动作所需要的均值和方差,并使用重参数的方法采样获得动作,智能体动作记为/>。
步骤S303,每个智能体在时刻t做出相应动作后,环境会随之而改变,进入时刻t+1后环境返回总体奖励Rt和总体代价Ct,每个智能体在时刻t+1会获得局部观测值,同样,也有用于训练的环境全局观测值/>。
步骤S304,用记为所有智能体t时刻局部观测值的集合,记为所有智能体t时刻做出的动作的集合,将上述步骤S302到步骤S304获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价/>存储到经验回放池/>中。如果当前任务没有完成,则继续进行步骤S302到当前步骤,如果当前任务完成但训练还未结束,执行步骤S301。同时如果经验回放池/>中的样本数量达到一定的值后,同步且重复执行后面步骤S305-S308直到网络收敛。
步骤S305,从经验回放池随机抽取一定批量样本进行训练。首先将当前样本中的每一个时刻t的下一时刻t+1的局部观测值/>作为每个智能体执行者网络的输入,智能体/>的执行者网络输出智能体在t+1时刻每个动作/>以及动作概率对应的/>。将每个智能体动作与全局观测/>输入奖励目标评论者与代价目标评论者网络中,获得四个状态/>下的Q值,以下Q值以及损失函数代表每个智能体内Q值和损失函数等的计算,不再标记智能体编号。每个评论者网络分别拥有两个Q值,分别取其最小的目标/>与/>值作为计算梯度所使用的值,从而计算目标值,其奖励目标计算如下面第一个公式所示,代价计算如下面第二个公式所示。
其中,为折扣因子,/>为控制探索强度的熵温度系数。
随后使用经验回放池中的/>输入每个智能体的奖励评论者和代价评论者网络中,同样获得四个状态/>下的当前/>值,每个评论者网络分别拥有两个Q值,随后使用TD算法计算两个Q值的损失,如下面两个公式所示。
其中,为评论者网络损失函数。
步骤S306,使用梯度下降算法对损失函数求导,从而对每个智能体的评论者网络参数进行更新。
步骤S307,冻结每个智能体中评论者网络的参数,与步骤6中计算当前值方法一致,计算评论者网络更新后的/>值,取其最小值作为/>值,同时,将每个智能体的t的局部观测值/>输入其智能体执行者网络输出动作对数/>,使用/>值与计算执行者网络的损失,计算如下面公式所示。
其中,为每个智能体执行者网络损失函数,/>为拉格朗日乘子。
步骤S308,使用梯度下降算法对损失函数求导,从而对每个智能体的执行者策略网络参数进行更新,在一定训练间隔,对拉格朗日乘子使用梯度下降算法进行更新,更新所需损失函数如下面公式所示。最后对熵温度系数使用梯度下降算法进行更新。
其中,d为对代价C的约束。
在步骤104,将训练好的航迹规划方法迁移到真实环境中。
本发明提供的基于多智能体安全强化学习的集群航迹自动规划方法,构建集群航迹自动规划问题求解环境,使用多智能体安全强化学习方法让每个武器在观测到自身周围环境的基础上与其他武器进行通信,交换其位置、速度等信息,随后进行决策,在奖励与代价下学习避免碰撞并到达每个智能体的目标点,使用集中式训练-分布式执行的多智能体强化学习框架进行训练,并将训练好的集群攻击航迹自动规划方法用于武器任务规划,有效解决了多发导弹集群攻击多个目标时多条飞行航迹的批量自动规划难题。
集中式训练-分布式执行(CTDE)框架:多智能体强化学习算法框架中的一种,在智能体进行执行和采样时仅根据自身的观测进行决策,在训练时使用完全的观测信息对网络进行集中更新。
深度强化学习SAC算法:为深度强化学习算法的一种,SAC即soft actor critc(柔性执行者-评论者),是一种基于off-policy和最大熵的深度强化学习算法。
本发明还提供一种电子设备,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤,所述基于多智能体安全强化学习的集群航迹自动规划方法参见前述部分的介绍,不再赘述。
本领域普通技术人员可以理解:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,包括以下步骤:
设计多智能体安全强化学习的集群航迹自动规划的求解环境;
建立多智能体安全强化学习的集群航迹自动规划的网络模型;
基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型;
将训练完成的集群航迹自动规划的网络模型迁移到真实环境中。
2.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述设计多智能体安全强化学习的集群航迹自动规划的求解环境的步骤,包括,
定义每个智能体的位置信息,每个智能体对应的目标点位置信息,和智能体与目标点之间的距离;
定义智能体的速度,角速度,在世界坐标下前进方向与目标点之间的夹角;
定义障碍物与智能体的相对距离;
定义智能体与智能体之间的相对距离;
每个智能体探测周围障碍物或者其他智能体距离信息,构成列表数据;
定义智能体在时刻t的局部观测值,定义时刻t的全局观测值。
3.根据权利要求2所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,还包括,设计多智能体安全强化学习的集群航迹自动规划方法求解环境的动作空间,每个武器的动作空间是连续的,包括线速度与角速度;
设计武器目标分配深度强化学习求解环境的奖励和代价,对于环境的奖励以及代价,将完成到达目标点的任务作为奖励,到达目标点的时候,给予智能体正奖励,其他时刻给予智能体负的相对距离奖励以及相对角度奖励,激励智能体快速到达目标点,并且角度指向目标点;
根据智能体与障碍物或者其他智能体之间最小相对距离进行判断,如果智能体与障碍物或者其他智能体的相对距离小于指定距离阈值,则产生代价。
4.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述建立多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括,
智能体执行者网络是输入或者是输入与上一时刻智能体所做的动作的组合经过一个多层感知机后,输出值中间信息,中间信息/>再经过两个多层感知机后输出自己的信息提取值/>以及经过一个sigmoid激活函数处理的阈值/>,用于决策其他智能体的信息数量;
其他智能体的信息由自注意力机制聚合得到,将阈值/>乘以/>加上自身信息提取值/>再经过两个多层感知机,输出正态分布的均值/>和方差/>,采用冲参数的方法选取根据均值和方差构成的正态分布选取动作/>,多层感知机为线性层,线性层之间使用Tanh作为激活函数。
5.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,还包括,
将当前智能体的中间信息作为注意力机制的查询,其他智能体的中间信息/>作为注意力机制的键和值,使用缩放点积注意力对查询和键进行计算,输出每个值对应的权重;
通过权重与值的点积获得聚合的信息Mi,掩盖智能体本身信息,保留其他智能体的信息。
6.根据权利要求1所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述基于求解环境训练多智能体安全强化学习的集群航迹自动规划的网络模型的步骤,包括以下步骤,
1)在搭建好模拟器和模型后,输入参数建立一个新的环境模型,初始化环境,每个智能体获得t时刻自身的局部观测值,在训练时,各个智能体的信息以及环境中障碍物信息被传递到评论者的网络中,构成全局观测值;
2)智能体将局部观测值输入智能体执行者网络中,通过一个多层感知机后,保留自己的观测信息,使用自注意力机制与其他智能体交换信息,并将交换获得的信息与自身原有的信息进行整合,输出连续动作所需要的均值和方差,并使用重参数的方法采样获得动作,智能体动作记为/>;
3)每个智能体在时刻t做出相应动作后,环境会随之而改变,进入时刻t+1后环境返回总体奖励Rt和总体代价Ct,每个智能体在时刻t+1会获得局部观测值,和用于训练的环境全局观测值/>;
4)用记为所有智能体t时刻局部观测值的集合,/>记为所有智能体t时刻做出的动作的集合,将步骤2)到步骤4)获得的时刻t局部观察值集合、时刻t+1局部观察值集合动作集合、时刻t全局观测值、时刻t+1全局观测值、时刻t的奖励、时刻t的代价/>存储到经验回放池/>中;如果当前任务没有完成,则继续进行步骤2)到步骤4);如果当前任务完成但训练还未结束,执行步骤1);如果经验回放池/>中的样本数量达到预设值后,执行步骤5)-8)直至网络收敛;
5)从经验回放池随机抽取一定批量样本进行训练;
6)使用梯度下降算法对损失函数求导,从而对每个智能体的评论者网络参数进行更新;
7)冻结每个智能体中评论者网络的参数,计算评论者网络更新后的查询值,取其最小值作为最小查询/>值,将每个智能体的t的局部观测值/>输入其智能体执行者网络输出动作对数/>,使用/>值与/>计算执行者网络的损失函数;
8)使用梯度下降算法对损失函数求导,对每个智能体的执行者策略网络参数进行更新,在一定训练间隔,对拉格朗日乘子使用梯度下降算法进行更新,更新所需损失函数如公式3所示,对熵温度系数使用梯度下降算法进行更新:
公式3
其中,为拉格朗日乘子,d为对代价C的约束。
7.根据权利要求6所述的基于多智能体安全强化学习的集群航迹自动规划方法,其特征在于,所述步骤6)包括,
将当前样本中的每一个时刻t的下一时刻t+1的局部观测值作为每个智能体执行者网络的输入,智能体的执行者网络输出智能体在t+1时刻每个动作以及动作概率对应的;
将每个智能体动作与全局观测输入奖励目标评论者与代价目标评论者网络中,获得四个状态/>下的查询值,查询值以及损失函数代表每个智能体内查询值和损失函数等的计算,不再标记智能体编号;
每个评论者网络分别拥有两个查询值,分别取其最小的目标与/>值作为计算梯度所使用的值,从而计算目标值,其奖励目标计算如公式1所示,代价计算如公式2所示:
公式1
公式2
其中,为折扣因子,/>为控制探索强度的熵温度系数,Rt为进入时刻t+1后环境返回总体奖励,Ct为进入时刻t+1后总体代价,ut+1为智能体在时刻t+1的动作;
使用经验回放池中的/>输入每个智能体的奖励评论者和代价评论者网络中,获得四个状态/>下的当前查询/>值,每个评论者网络分别拥有两个查询值,根据评论者网络损失函数计算两个查询值的损失。
8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上储存有在所述处理器上运行的程序,所述处理器运行所述程序时执行权利要求1-7任一项所述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7任一项所述的基于多智能体安全强化学习的集群航迹自动规划方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310966213.9A CN116661503B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310966213.9A CN116661503B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116661503A true CN116661503A (zh) | 2023-08-29 |
CN116661503B CN116661503B (zh) | 2023-10-13 |
Family
ID=87715794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310966213.9A Active CN116661503B (zh) | 2023-08-02 | 2023-08-02 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116661503B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236416A (zh) * | 2023-11-13 | 2023-12-15 | 之江实验室 | 一种大语言模型交互方法和装置 |
CN117371760A (zh) * | 2023-11-30 | 2024-01-09 | 武汉理工大学 | 考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法 |
CN117993580A (zh) * | 2024-04-03 | 2024-05-07 | 中国民航大学 | 一种基于多智能体协作的停机位分配方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000080673A (ja) * | 1998-09-08 | 2000-03-21 | Ishikawajima Harima Heavy Ind Co Ltd | 浚渫船向け経路計画法 |
US20210292011A1 (en) * | 2020-03-18 | 2021-09-23 | Michael Limotta | Machine learning system and method for orbital trajectory planning |
CN113495578A (zh) * | 2021-09-07 | 2021-10-12 | 南京航空航天大学 | 一种基于数字孪生式训练的集群航迹规划强化学习方法 |
CN115457809A (zh) * | 2022-08-10 | 2022-12-09 | 中国电子科技集团公司第五十二研究所 | 对面支援场景下基于多智能体强化学习的航迹规划方法 |
CN116501069A (zh) * | 2023-06-06 | 2023-07-28 | 中国舰船研究设计中心 | 一种基于多智能体强化学习的水面无人集群航路规划方法 |
-
2023
- 2023-08-02 CN CN202310966213.9A patent/CN116661503B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000080673A (ja) * | 1998-09-08 | 2000-03-21 | Ishikawajima Harima Heavy Ind Co Ltd | 浚渫船向け経路計画法 |
US20210292011A1 (en) * | 2020-03-18 | 2021-09-23 | Michael Limotta | Machine learning system and method for orbital trajectory planning |
CN113495578A (zh) * | 2021-09-07 | 2021-10-12 | 南京航空航天大学 | 一种基于数字孪生式训练的集群航迹规划强化学习方法 |
CN115457809A (zh) * | 2022-08-10 | 2022-12-09 | 中国电子科技集团公司第五十二研究所 | 对面支援场景下基于多智能体强化学习的航迹规划方法 |
CN116501069A (zh) * | 2023-06-06 | 2023-07-28 | 中国舰船研究设计中心 | 一种基于多智能体强化学习的水面无人集群航路规划方法 |
Non-Patent Citations (3)
Title |
---|
李璐璐 等: "智能集群系统的强化学习方法综述", 计算机学报, pages 1 - 24 * |
王兴众 等: "基于SAC算法的作战仿真推演智能决策技术", 中国船舶研究, vol. 16, no. 6, pages 99 - 108 * |
高振龙: "基于群体智能的无人机集群运动与规划方法研究", 中国优秀硕士学位论文全文数据库工程科技Ⅱ辑, no. 07, pages 031 - 637 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236416A (zh) * | 2023-11-13 | 2023-12-15 | 之江实验室 | 一种大语言模型交互方法和装置 |
CN117371760A (zh) * | 2023-11-30 | 2024-01-09 | 武汉理工大学 | 考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法 |
CN117371760B (zh) * | 2023-11-30 | 2024-05-28 | 武汉理工大学 | 考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法 |
CN117993580A (zh) * | 2024-04-03 | 2024-05-07 | 中国民航大学 | 一种基于多智能体协作的停机位分配方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116661503B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116661503B (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
Pope et al. | Hierarchical reinforcement learning for air-to-air combat | |
Yang et al. | UAV air combat autonomous maneuver decision based on DDPG algorithm | |
Jiang et al. | UAV path planning and collision avoidance in 3D environments based on POMPD and improved grey wolf optimizer | |
Liu et al. | Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network | |
CN113095481A (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN113791634A (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
You et al. | Target tracking strategy using deep deterministic policy gradient | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Wei et al. | Recurrent MADDPG for object detection and assignment in combat tasks | |
CN113625569B (zh) | 一种基于混合决策模型的小型无人机防控决策方法及系统 | |
CN116501086B (zh) | 一种基于强化学习的飞行器自主规避决策方法 | |
CN117313561B (zh) | 无人机智能决策模型训练方法及无人机智能决策方法 | |
CN114815891A (zh) | 一种基于per-idqn的多无人机围捕战术方法 | |
Kong et al. | Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
Wang et al. | Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
Wei et al. | Deep hierarchical reinforcement learning based formation planning for multiple unmanned surface vehicles with experimental results | |
Zhou et al. | Vision-based navigation of uav with continuous action space using deep reinforcement learning | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making | |
Zhu et al. | Mastering air combat game with deep reinforcement learning | |
Han et al. | Ground threat prediction-based path planning of unmanned autonomous helicopter using hybrid enhanced artificial bee colony algorithm | |
CN116430891A (zh) | 一种面向多智能体路径规划环境的深度强化学习方法 | |
CN115220458A (zh) | 基于强化学习的多机器人围捕多目标的分布式决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |