CN116501069A - 一种基于多智能体强化学习的水面无人集群航路规划方法 - Google Patents
一种基于多智能体强化学习的水面无人集群航路规划方法 Download PDFInfo
- Publication number
- CN116501069A CN116501069A CN202310666171.7A CN202310666171A CN116501069A CN 116501069 A CN116501069 A CN 116501069A CN 202310666171 A CN202310666171 A CN 202310666171A CN 116501069 A CN116501069 A CN 116501069A
- Authority
- CN
- China
- Prior art keywords
- unmanned
- water surface
- target
- cluster
- unmanned ship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000003795 chemical substances by application Substances 0.000 title claims abstract description 37
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000013461 design Methods 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 230000004083 survival effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的水面无人集群航路规划方法,包括:步骤1、根据水面无人集群执行任务的区域想定,进行三维环境建模;步骤2、针对水面无人集群执行目标驱逐任务,利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型,即MDP模型;在MDP模型中通过设置目标奖励与过程奖励引导智能体的学习方向;步骤3、通过多智能体近端策略优化算法对MDP模型进行训练,训练得到用于水面无人集群执行目标驱逐任务的神经网络模型,利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。本发明能解决水面无人集群协同航路规划问题,智能体会自主规划实时航路,不需要额外求解动态目标的驱逐顺序。
Description
技术领域
本发明涉及无人船自主航路规划技术领域,尤其涉及一种基于多智能体强化学习的水面无人集群航路规划方法。
背景技术
水面无人船是一种具备自主航行能力,通过搭载任务载荷来遂行相关任务的水面设备,兼具高速、灵活等特点,无人船执行任何任务的首要前提就是航路规划,而在实际作业过程中单一无人船由于自身载荷与系统的限制,显的势单力薄,为了与更高的作业效率与更广的作业范围,在实施作业的过程时大多采用多艘无人船组成水面无人集群进行实际作业。
在水面无人集群协同航路规划领域,国内外学者针对水面无人集群协同航路规划中的航路可飞性、障碍规避、冲突规避等方面进行大量研究,并产生诸多研究成果,按照规划方法来分可以分为1)人工势场方法;2)基于数学的规划方法,包括非线性规划算法与动态规划算法;3)基于图形学的方法,包括A*算法、Voronoi图法、概率路标图法和快速扩展随机树等;4)智能优化算法,包括遗传算法、模拟退火算法、粒子群算法和蚁群算法等,海上环境复杂且目标大都为动态,传统规划方法在决策的过程中考虑决策时刻之前状态的比重大大多于考虑决策行为对后续阶段产生后果的影响,并且在需要实时决策的任务中,每一个决策都需要处理大量的实时海上态势数据,传统的规划方法难以实现实时决策目的;5)基于深度强化学习(DRL)的算法,包括基于DQN的无人船全局路径规划等。
传统无人船路径规划算法很难满足在未知的复杂海洋环境中进行高效的实时航路规划,但得益于深度神经网络的优秀表征能力,结合深度强化学习的无人船航路规划方法在这种情况下应运而生。智能体在与环境的交互中获取数据,通过不断“试错”的方式去探索并规划航路,满足并适用于各种复杂环境,但现有基于DRL的无人船航路控制问题研究成果多集中于对航向或路径跟踪控制,基于DRL面向海上目标驱逐的水面无人集群实时航路规划则少有研究。
本发明要解决的技术问题为:考虑动态目标和无人船运动特性找到一条符合实际任务需要的实时最优航路。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于多智能体强化学习的水面无人集群航路规划方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于多智能体强化学习的水面无人集群航路规划方法,该方法包括以下步骤:
步骤1、根据水面无人集群执行任务的区域想定,进行三维环境建模;
步骤2、针对水面无人集群执行目标驱逐任务,利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型,即MDP模型;在MDP模型中通过设置目标奖励与过程奖励引导智能体的学习方向;
步骤3、通过多智能体近端策略优化算法对MDP模型进行训练,训练得到用于水面无人集群执行目标驱逐任务的神经网络模型,利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。
进一步地,本发明的所述步骤S1中的方法包括:进行三维环境建模,对批量动态目标的航路点、速度进行设置;对水面无人集群的初始位置、朝向、驱逐距离进行设定。
进一步地,本发明的所述步骤2中的方法包括:
步骤2.1、构建水面无人集群的状态空间,水面无人集群包括多艘无人船,确定无人船与动态目标的对应关系;
步骤2.2、将无人船的航行航向与航行速度两类参数分别离散为9维与3维,即动作空间有9*3维;
步骤2.3、在航行情况下,根据定义的状态空间和动作空间,以一个给定的动作进行状态转移,对无人船下一时刻的状态进行表示;
步骤2.4、构建奖惩函数,从四个方面考虑回报:目标距离回报、成功驱逐回报、动态目标存活回报与碰撞障碍物回报。
进一步地,本发明的所述步骤2.1的方法包括:
状态空间被定义为:
st=(P(t),ψ1(t),ψ2(t),…ψm(t),D1(t),D2(t),…Dn(t))
其中,P(t)表示在第t个时间片的动态目标与无人船的对应关系,ψa(t)表示第t个时间片无人船a的位置与航行信息,Db(t)表示第t个时间片动态目标b的位置信息;
无人船与动态目标的对应关系由以下方法确定:
根据动态目标与无人船位置的远近关系,得到各动态目标与无人船的分配关系;
动态目标Tj与各无人船(S1,S2,…,Sn)的距离关系为(d1j,d2j,…,dnj),其中:
min(d1j,d2j,…,dnj)=dmj
则动态目标Tj的初步无人船分配方案为(Tj,Sm),即Tj的初步分配的驱逐无人船为Sm,如果分配给无人船Sm的目标数量超过自身驱逐资源数量限制,则将该目标分配给除无人船Sm外距离最近的无人船,后续无人船如果还是出现分配目标数量超过自身驱逐资源数量,则继续按距离远近关系顺延给后续无人船;
ψa(t)中的位置与航行信息包括位置坐标(x,y)、航速v和航向位置坐标(x,y)表示为二维连续空间,为了简化训练过程,航向/>表示为一维的离散空间;
Db(t)中的位置信息包括动态目标的三维坐标(x,y,z)。
进一步地,本发明的所述步骤2.2的方法包括:
将无人船的航行航向与航行速度两类分别离散为9维与3维,即动作空间有9*3维,如下:
航行航向的取值范围为:
航行速度分为:减速、巡航、加速;
其中,航行航向中的0表示下一航段保持当前航向,航行航向大于0表示下一航段顺时针调整相应的度数,航行航向小于0表示下一航段逆时针调整相应的度数,表示最大调整度数;航行速度将航速从0到最大航速vmax分为11段[0、0.1vmax、0.2vmax、0.3vmax、0.4vmax、0.5vmax、0.6vmax、0.7vmax、0.8vmax、0.9vmax、vmax],当航行速度处于0时,减速的决策将失效,当速度处于vmax时,加速的决策将失效。
进一步地,本发明的所述步骤2.3的方法包括:
在航行情况下,根据定义的状态空间和动作空间,以一个给定的动作at=(α(t),β(t))进行状态转移,无人船的下一时刻的状态表示为:
其中,Δv表示由动作β(t)决定的速度的变化量,无人船航向的正北方向为0度,顺时针方向为航向增加方向,α(t)的0度表示航向不变,α(t)大于0表示航向在上一时刻基础上向顺时针方向增加α(t)度,反之则转向逆时针方法。
进一步地,本发明的所述步骤2.3的方法包括:
在水面无人集群收集到状态信息,由神经网络产生相应的动作并且水面无人集群执行该动作后,考虑四个方面的回报,目标距离回报r1(t)、成功驱逐回报r2(t)、动态目标存活回报r3(t)与碰撞障碍物回报r4(t);其中:
目标距离回报r1(t)具体如下:
其中,AWTt-1表示t-1时刻,无人船与分配到的目标的平均距离,即与每一个目标的距离之和除分配到目标的数量,AWTt表示t时刻无人船与上一时刻无人船分配到的目标的平均距离,AWTbase表示基准值,rewardAWT表示基准奖励;
成功驱逐回报r2(t)具体如下:
r2(t)=rewardD*DN(t)
其中,rewardD表示驱逐掉一个目标的奖励,DN(t)表示这个时刻t已驱逐的目标数量;
动态目标存活回报r3(t)具体如下:
r3(t)=rewardS*SN(t)
其中,rewardS表示一个目标存在时的奖励,SN(t)表示这个时刻t还存活的动态目标数量;
碰撞障碍物回报r4(t)具体如下:
r4(t)=rewardC*CN(t)
其中,rewardC表示碰撞到障碍物时的奖励,CN(t)表示这个时刻t碰撞到障碍物的无人船数量;
总的奖励函数可以表示为:
r(t)=ar1(t)+br2(t)+cr3(t)+dr4(t)
其中,a、b、c、d为权重系数,a+b+c+d=1。
进一步地,本发明的所述步骤3的方法包括:
步骤3.1、给定水面无人集群起始点、朝向和想定情景的三维建模;
步骤3.2、使用步骤2建立的MDP模型,选用多智能体近端策略优化算法,即MAPPO算法,MAPPO算法是在单智能体近端策略优化算法的基础上采用集中式训练-分布式执行架构构成的多智能体算法,使用MAPPO算法做为航路规划神经网络训练的算法,根据步骤1建立的环境模型和步骤2构建的MDP模型进行训练;
步骤3.3、在训练得到智能体神经网络模型之后,对无人船进行实时的航路规划。
本发明产生的有益效果是:
本发明较现有的水面无人集群协同航路规划方法充分利用先验知识,考虑动态目标和无人船运动特性:
(1)以多智能体技术解决水面无人集群协同航路规划问题;
(2)相比传统实时规划方法,大幅减少实际规划耗费的时间;
(3)在训练过程中由于奖励的设置,训练完成后,智能体会自主规划实时航路,不需要额外求解动态目标的驱逐顺序。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的基于多智能体强化学习的水面无人集群航路规划逻辑步骤;
图2是本发明实施例的基于作业想定的三维环境建模图;
图3是本发明实施例的基于MAPPO的算法集中式训练-分布式执行架构;
图4是本发明实施例的水面无人集群工作流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的水面无人集群协同实时航路规划方法,水面无人集群执行目标驱逐任务,利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型(MDP);通过设置目标奖励与过程奖励引导智能体的学习方向;通过设置的离散动作控制无人船的航路;通过多智能体近端策略优化算法(MAPPO)训练得到用于水面无人集群执行目标驱逐任务的神经网络模型,最后利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。
如图1所示,本发明的一种基于多智能体强化学习的水面无人集群航路规划方法,包括如下三个步骤。
S1、根据水面无人集群执行任务的区域想定,进行三维环境建模,对批量动态目标的航路点、速度进行设置;对无人船的初始位置、朝向、驱逐距离进行设定,具体环境各部件建模图如图2所示。
本实施例,S2、构建水面无人集群航路规划的马尔可夫决策过程(MDP)具体实现步骤如下:
Step1、状态空间被定义为
st=(P(t),ψ1(t),ψ2(t),…ψm(t),D1(t),D2(t),…Dn(t)) (1)
其中,P(t)表示在第t个时间片的动态目标与无人船的对应关系,ψa(t)表示第t个时间片无人船a的位置与航行信息,Db(t)表示第t个时间片动态目标b的位置信息。
无人船与目标的对应关系由以下方法确定:
根据动态目标与无人船位置的远近关系,得到各动态目标与无人船的分配关系;
例如动态目标Tj与各无人船(S1,S2,…,Sn)的距离关系为(d1j,d2j,…,dnj),其中,
min(d1j,d2j,…,dnj)=dmj (2)
则动态目标Tj的初步无人船分配方案为(Tj,Sm),即Tj的初步分配的驱逐无人船为Sm,如果分配给无人船Sm的目标数量超过自身驱逐资源数量限制,则将该目标分配给除无人船Sm外距离最近的无人船,后续无人船如果还是出现分配目标数量超过自身驱逐资源数量,则继续按距离远近关系顺延给后续无人船。
ψa(t)中的位置与航行信息包括位置坐标(x,y)、航速v和航向位置坐标(x,y)表示为二维连续空间,为了简化训练过程,航向/>表示为一维的离散空间。
Db(t)中的位置信息包括动态目标的三维坐标(x,y,z)。
step2、将无人船的动作航向与航速两类分别离散为9维与3维,即动作空间有9*3维,如下:
上表中的航行航向中的0表示下一航段保持当前航向,航行航向大于0表示下一航段顺时针调整相应的度数,航行航向小于0表示下一航段逆时针调整相应的度数。在上表中的航行速度将航速从0到最大航速vmax分为11段[0、0.1vmax、0.2vmax、0.3vmax、0.4vmax、0.5vmax、0.6vmax、0.7vmax、0.8vmax、0.9vmax、vmax],当航行速度处于0时,减速的决策将失效,当速度处于vmax时,加速的决策将失效。例如当前航段航速为0.2vmax,航行速度动作为加速则下一航段速度为0.3vmax。
step3、在航行情况下,根据定义的状态空间和动作空间,以一个给定的动作at=(α(t),β(t))就可以进行状态转移,无人船的下一时刻的状态可以表示为:
上式中,Δv表示由动作β(t)决定的速度的变化量,无人船航向的正北方向为0度,顺时针方向为航向增加方向,α(t)的0度表示航向不变,α(t)大于0表示航向在上一时刻基础上向顺时针方向增加α(t)度,反之则转向逆时针方法。
动态目标与无人船的对应关系P(t)的更新由step1中的目标分配方法来更新。
step4、奖惩函数具体如下:
在水面无人集群收集到状态信息,由神经网络产生相应的动作并且水面无人集群执行该动作后,主要考虑四个方面的回报,目标距离回报r1(t)、成功驱逐回报r2(t)、动态目标存活回报r3(t)与碰撞障碍物回报r4(t)。
目标距离回报r1(t)具体如下:
上式中,AWTt-1表示t-1时刻,无人船与分配到的目标的平均距离,即与每一个目标的距离之和除分配到目标的数量,AWTt表示t时刻无人船与上一时刻无人船分配到的目标的平均距离,AWTbase表示基准值,rewardAWT表示基准奖励。
成功驱逐回报r2(t)具体如下:
r2(t)=rewardD*DN(t) (5)
上式中,rewardD表示驱逐掉一个目标的奖励,DN(t)表示这个时刻t已驱逐的目标数量。
动态目标存活回报r3(t)具体如下:
r3(t)=rewards*SN(t) (6)
上式中,rewardS表示一个目标存在时的奖励,SN(t)表示这个时刻t还存活的动态目标数量。
碰撞障碍物回报r4(t)具体如下:
r4(t)=rewardc*CN(t) (7)
上式中,rewardC表示碰撞到障碍物时的奖励,CN(t)表示这个时刻t碰撞到障碍物的无人船数量。
总的奖励函数可以表示为:
r(t)=arl(t)+br2(t)+cr3(t)+dr4(t) (8)
其中a、b、c、d为权重系数,a+b+c+d=1。
本实施例中,根据S1的环境建模和S2的MDP的构建。
S3基于MAPPO算法根据水面无人集群的想定场景完成协同航路规划具体实现如下:
step1、给定水面无人集群起始点、朝向和想定情景的三维建模;
step2、使用S2建立的MDP模型,选用多智能体近端策略优化算法(MAPPO)算法,MAPPO是在单智能体近端策略优化算法(PPO)的基础上采用集中式训练-分布式执行架构构成的多智能体算法,算法的集中式训练-分布式执行架构如图3所示,使用MAPPO算法做为航路规划神经网络训练的算法,设定batch_size=200、learning rate=5e-4、criticlearning rate=5e-4、RMSprop optimizer epsilon=1e-5、number of ppo epochs=15、ppo clip parameter=0.2、entropy term coefficient=0.01、discount factor forrewards=0.99、gae lambda parameter=0.95,设定actor和critic网络为三层,隐藏层为64维,根据S1建立的环境模型和S2构建的MDP进行训练。
在训练得到智能体神经网络模型之后,再按照图4中流程对无人船进行实时的航路规划,图4是本发明的水面无人集群工作流程示意图。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,该方法包括以下步骤:
步骤1、根据水面无人集群执行任务的区域想定,进行三维环境建模;
步骤2、针对水面无人集群执行目标驱逐任务,利用强化学习的马尔可夫决策理论构建水面无人集群航路规划的马尔可夫决策模型,即MDP模型;在MDP模型中通过设置目标奖励与过程奖励引导智能体的学习方向;
步骤3、通过多智能体近端策略优化算法对MDP模型进行训练,训练得到用于水面无人集群执行目标驱逐任务的神经网络模型,利用神经网络模型实现水面无人集群执行目标驱逐任务时的实时航路规划。
2.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤S1中的方法包括:进行三维环境建模,对批量动态目标的航路点、速度进行设置;对水面无人集群的初始位置、朝向、驱逐距离进行设定。
3.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤2中的方法包括:
步骤2.1、构建水面无人集群的状态空间,水面无人集群包括多艘无人船,确定无人船与动态目标的对应关系;
步骤2.2、将无人船的航行航向与航行速度两类参数分别离散为9维与3维,即动作空间有9*3维;
步骤2.3、在航行情况下,根据定义的状态空间和动作空间,以一个给定的动作进行状态转移,对无人船下一时刻的状态进行表示;
步骤2.4、构建奖惩函数,从四个方面考虑回报:目标距离回报、成功驱逐回报、动态目标存活回报与碰撞障碍物回报。
4.根据权利要求3所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤2.1的方法包括:
状态空间被定义为:
st=P(t),ψ1(t),ψ2(t),…ψm(t),D1(t),D2(t),…Dn(t))
其中,P(t)表示在第t个时间片的动态目标与无人船的对应关系,ψa(t)表示第t个时间片无人船a的位置与航行信息,Db(t)表示第t个时间片动态目标b的位置信息;
无人船与动态目标的对应关系由以下方法确定:
根据动态目标与无人船位置的远近关系,得到各动态目标与无人船的分配关系;
动态目标Tj与各无人船(S1,S2,…,Sn)的距离关系为(d1j,d2j,…,dnj),其中:
min(d1j,d2j,…,dnj)=dmj
则动态目标Tj的初步无人船分配方案为(Tj,Sm),即Tj的初步分配的驱逐无人船为Sm,如果分配给无人船Sm的目标数量超过自身驱逐资源数量限制,则将该目标分配给除无人船Sm外距离最近的无人船,后续无人船如果还是出现分配目标数量超过自身驱逐资源数量,则继续按距离远近关系顺延给后续无人船;
ψa(t)中的位置与航行信息包括位置坐标(x,y)、航速v和航向位置坐标(x,y)表示为二维连续空间,为了简化训练过程,航向/>表示为一维的离散空间;
Db(t)中的位置信息包括动态目标的三维坐标(x,y,z)。
5.根据权利要求4所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤2.2的方法包括:
将无人船的航行航向与航行速度两类分别离散为9维与3维,即动作空间有9*3维,如下:
航行航向的取值范围为:
航行速度分为:减速、巡航、加速;
其中,航行航向中的0表示下一航段保持当前航向,航行航向大于0表示下一航段顺时针调整相应的度数,航行航向小于0表示下一航段逆时针调整相应的度数,表示最大调整度数;航行速度将航速从0到最大航速vmax分为11段[0、0.1vmax、0.2vmax、0.3vmax、0.4vmax、0.5vmax、0.6vmax、0.7vmax、0.8vmax、0.9vmax、vmax],当航行速度处于0时,减速的决策将失效,当速度处于vmax时,加速的决策将失效。
6.根据权利要求5所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤2.3的方法包括:
在航行情况下,根据定义的状态空间和动作空间,以一个给定的动作at=(α(t),β(t))进行状态转移,无人船的下一时刻的状态表示为:
其中,Δv表示由动作β(t)决定的速度的变化量,无人船航向的正北方向为0度,顺时针方向为航向增加方向,α(t)的0度表示航向不变,α(t)大于0表示航向在上一时刻基础上向顺时针方向增加α(t)度,反之则转向逆时针方法。
7.根据权利要求6所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤2.3的方法包括:
在水面无人集群收集到状态信息,由神经网络产生相应的动作并且水面无人集群执行该动作后,考虑四个方面的回报,目标距离回报r1(t)、成功驱逐回报r2(t)、动态目标存活回报r3(t)与碰撞障碍物回报r4(t);其中:
目标距离回报r1(t)具体如下:
其中,AWTt-1表示t-1时刻,无人船与分配到的目标的平均距离,即与每一个目标的距离之和除分配到目标的数量,AWTt表示t时刻无人船与上一时刻无人船分配到的目标的平均距离,AWTbase表示基准值,rewardAWT表示基准奖励;
成功驱逐回报r2(t)具体如下:
r2(t)=rewardD*DN(t)
其中,rewardD表示驱逐掉一个目标的奖励,DN(t)表示这个时刻t已驱逐的目标数量;
动态目标存活回报r3(t)具体如下:
r3(t)=rewardS*SN(t)
其中,rewardS表示一个目标存在时的奖励,SN(t)表示这个时刻t还存活的动态目标数量;
碰撞障碍物回报r4(t)具体如下:
r4(t)=rewardC*CN(t)
其中,rewardC表示碰撞到障碍物时的奖励,CN(t)表示这个时刻t碰撞到障碍物的无人船数量;
总的奖励函数可以表示为:
r(t)=ar1(t)+br2(t)+cr3(t)+dr4(t)
其中,a、b、c、d为权重系数,a+b+c+d=1。
8.根据权利要求1所述的基于多智能体强化学习的水面无人集群航路规划方法,其特征在于,所述步骤3的方法包括:
步骤3.1、给定水面无人集群起始点、朝向和想定情景的三维建模;
步骤3.2、使用步骤2建立的MDP模型,选用多智能体近端策略优化算法,即MAPPO算法,MAPPO算法是在单智能体近端策略优化算法的基础上采用集中式训练-分布式执行架构构成的多智能体算法,使用MAPPO算法做为航路规划神经网络训练的算法,根据步骤1建立的环境模型和步骤2构建的MDP模型进行训练;
步骤3.3、在训练得到智能体神经网络模型之后,对无人船进行实时的航路规划。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310666171.7A CN116501069A (zh) | 2023-06-06 | 2023-06-06 | 一种基于多智能体强化学习的水面无人集群航路规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310666171.7A CN116501069A (zh) | 2023-06-06 | 2023-06-06 | 一种基于多智能体强化学习的水面无人集群航路规划方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116501069A true CN116501069A (zh) | 2023-07-28 |
Family
ID=87320396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310666171.7A Pending CN116501069A (zh) | 2023-06-06 | 2023-06-06 | 一种基于多智能体强化学习的水面无人集群航路规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501069A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116661503A (zh) * | 2023-08-02 | 2023-08-29 | 中国人民解放军96901部队 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
CN117168468A (zh) * | 2023-11-03 | 2023-12-05 | 安徽大学 | 基于近端策略优化的多无人艇深度强化学习协同导航方法 |
-
2023
- 2023-06-06 CN CN202310666171.7A patent/CN116501069A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116661503A (zh) * | 2023-08-02 | 2023-08-29 | 中国人民解放军96901部队 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
CN116661503B (zh) * | 2023-08-02 | 2023-10-13 | 中国人民解放军96901部队 | 一种基于多智能体安全强化学习的集群航迹自动规划方法 |
CN117168468A (zh) * | 2023-11-03 | 2023-12-05 | 安徽大学 | 基于近端策略优化的多无人艇深度强化学习协同导航方法 |
CN117168468B (zh) * | 2023-11-03 | 2024-02-06 | 安徽大学 | 基于近端策略优化的多无人艇深度强化学习协同导航方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112378408B (zh) | 一种实现轮式移动机器人实时避障的路径规划方法 | |
CN110658829B (zh) | 一种基于深度强化学习的群无人艇智能避碰方法 | |
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Chen et al. | Path planning and obstacle avoiding of the USV based on improved ACO-APF hybrid algorithm with adaptive early-warning | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN116501069A (zh) | 一种基于多智能体强化学习的水面无人集群航路规划方法 | |
CN110703766B (zh) | 一种基于迁移学习策略深度q网络的无人机路径规划方法 | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN108762281A (zh) | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 | |
CN111045453A (zh) | 一种基于无人艇与多水下机器人的协同控制系统及方法 | |
CN115509251A (zh) | 基于mappo算法的多无人机多目标协同跟踪控制方法 | |
CN114397896A (zh) | 一种改进粒子群算法的动态路径规划方法 | |
Xin et al. | Overview of research on transformation of multi-AUV formations | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
Yao et al. | Path planning for multiple unmanned surface vehicles using Glasius bio-inspired neural network with Hungarian algorithm | |
Sun et al. | Cooperative strategy for pursuit-evasion problem in the presence of static and dynamic obstacles | |
Kabtoul et al. | Proactive and smooth maneuvering for navigation around pedestrians | |
CN115107948B (zh) | 一种高效强化学习自主船舶避碰方法 | |
CN114942643B (zh) | 一种usv无人艇路径规划模型的构建方法及应用 | |
CN115903820A (zh) | 多无人艇追逃博弈控制方法 | |
CN116301011A (zh) | 一种多智能体高效编队避障方法 | |
Liu et al. | Multiple UAV formations delivery task planning based on a distributed adaptive algorithm | |
Wang et al. | Efficient Reinforcement Learning for Autonomous Ship Collision Avoidance under Learning Experience Reuse | |
Zhou et al. | Lane Change Decision Control of Autonomous Vehicle Based on A3C Algorithm | |
Qu et al. | A novel classified self-organising map applied to task assignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |