CN115809609B - 一种多水下自主航行器目标搜索方法及其系统 - Google Patents

一种多水下自主航行器目标搜索方法及其系统 Download PDF

Info

Publication number
CN115809609B
CN115809609B CN202310064245.XA CN202310064245A CN115809609B CN 115809609 B CN115809609 B CN 115809609B CN 202310064245 A CN202310064245 A CN 202310064245A CN 115809609 B CN115809609 B CN 115809609B
Authority
CN
China
Prior art keywords
network
target
autonomous
underwater
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310064245.XA
Other languages
English (en)
Other versions
CN115809609A (zh
Inventor
姜宇
于慧勇
宋建军
齐红
赵明浩
王跃航
王光诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310064245.XA priority Critical patent/CN115809609B/zh
Publication of CN115809609A publication Critical patent/CN115809609A/zh
Application granted granted Critical
Publication of CN115809609B publication Critical patent/CN115809609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种多水下自主航行器目标搜索方法及其系统。步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型;步骤2、利用水下自主航行器数据构建航行器目标搜索仿真模型;步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;步骤4、每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;步骤5、基于数据中动作的价值,进而更新行动者网络和评论家网络;步骤6、基于更新的行动者网络,对仿真目标移动模型进行搜索。用以解决环境因素对目标的漂移轨迹的影响问题。

Description

一种多水下自主航行器目标搜索方法及其系统
技术领域
本发明涉及目标搜索领域,具体涉及一种多水下自主航行器目标搜索方法及其系统。
背景技术
自主水下航行器的发展使许多最初在水下环境中由载人航行器完成的任务实现了自动化。自主水下航行器在海洋研究、深海勘探和研究以及军事领域都有较多的应用。随着人工智能技术的不断发展,水下相关技术的不断突破,为响应蓝海战略,对自主水下航行器控制的深入探索与研究是未来国家发展的重要趋势。
在自主水下航行器目标搜索问题中,有很多环境因素会影响目标的漂移轨迹,如风、浅流和海浪,这极大的增加了目标搜索的难度。在海上运动物体的搜索中还存在着信息不足、搜索面积大、搜索时间长、后勤保障困难、海洋环境恶劣等关键问题。目前的自主水下航行器控制策略还很难较好的解决该问题。
单水下自主航行器深度强化学习方法已广泛应用于自动驾驶、无人机等工业领域。对于多水下自主航行器深度强化学习方法,研究者也取得了一些突破。多水下自主航行器系统在自组织网状网络方面取得了长足的进步,并在通信方面实现了高水平的可靠性和安全性。尽管许多研究人员在一些关键领域正在逐步取得进展,但在目标搜索方面还没有产生完美的结果。
发明内容
本发明提供一种多水下自主航行器目标搜索方法,用以解决环境因素对目标的漂移轨迹的影响问题。
本发明提供一种多水下自主航行器目标搜索系统,利用多智能体深度强化学习来解决多水下自主航行器的目标搜索问题,并且在构建过程中融入地图信息,提高训练的效率,增加搜索成功率以及降低搜索时间。
本发明通过以下技术方案实现:
一种多水下自主航行器目标搜索方法,所述目标搜索方法具体包括以下步骤:
步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型;
步骤2、利用水下自主航行器数据构建航行器目标搜索仿真模型;
步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
步骤4、每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
步骤5、基于步骤4的数据中动作的价值,进而更新行动者网络和评论家网络;
步骤6、基于更新的行动者网络,对仿真目标移动模型进行搜索。
一种多水下自主航行器目标搜索方法,所述步骤1仿真目标移动模型具体为,由历史海洋目标漂移数据进行目标运行轨迹的生成,通过随机尺度,随机角度和随机位置来进行数据增强,模拟现实中海洋目标漂移的复杂轨迹。
一种多水下自主航行器目标搜索方法,所述步骤1航行器目标搜索仿真模型具体为,由航行器的移动控制,声纳探测组成,其移动控制模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向,其声纳探测通过声波的发送,反射和接受来进行目标的探测。
一种多水下自主航行器目标搜索方法,所述步骤3当前的状态输入包括当前航行器的坐标,其他航行器相对当前航行器的坐标。
一种多水下自主航行器目标搜索方法,所述步骤3地图信息包括全部的航行器的探索区域构成,之后经过预分配与数据处理最终生成该水下自主航行器的地图信息。
一种多水下自主航行器目标搜索方法,所述步骤3存储数据具体为,将该步执行过程中涉及到所有水下自主航行器的输入状态、地图、动作、动作执行后的状态和动作执行后的地图保存到经验回放存储器当中,以步为单位进行存储。
一种多水下自主航行器目标搜索方法,所述步骤4中的评论家网络的输入是所有水下自主航行器的状态、动作和地图,而不是单一水下自主航行器。
一种多水下自主航行器目标搜索方法,所述步骤5具体为,评论家网络的损失函数如下:
Figure SMS_1
Figure SMS_2
行动者网络的策略梯度如下:
Figure SMS_3
其中,
Figure SMS_17
是水下自主航行器的神经网络参数;/>
Figure SMS_6
是当前的状态集
Figure SMS_10
;/>
Figure SMS_8
是当前的地图信息;/>
Figure SMS_12
是下一步的状态集;/>
Figure SMS_16
是下一步的地图;
Figure SMS_18
是价值函数;/>
Figure SMS_15
是随着Q函数一起更新的目标价值函数;/>
Figure SMS_19
是由目标评论家网络预测的Q值;/>
Figure SMS_4
是水下自主航行器/>
Figure SMS_11
的动作;/>
Figure SMS_7
是当前水下自主航行器的观察值,包含所有水下自主航行器的坐标;/>
Figure SMS_9
是水下自主航行器得到的当前地图信息;/>
Figure SMS_13
是水下自主航行器执行当前动作之后获得的奖励值;/>
Figure SMS_14
是折扣值;/>
Figure SMS_5
是经验回放存储器。
一种多水下自主航行器目标搜索方法,所述评论家网络为N层全卷积网络或N层全连接网络;所述行动者网络均为N层全卷积网络或N层全连接网络。
一种多水下自主航行器目标搜索系统,所述系统包括模型生成模块、航行器目标搜索仿真模型更新及存储模块、网络模块和网络更新模块;
所述模型生成模块,利用历史海洋目标漂移数据生成仿真目标移动模型,利用水下自主航行器数据构建航行器目标搜索仿真模型;
所述航行器目标搜索仿真模型更新及存储模块,每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
所述网络模块,每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
所述网络更新模块,基于数据中动作的价值,进而更新行动者网络。
本发明的有益效果是:
本发明利用多水下自主航行器深度强化学习来解决多水下自主航行器的目标搜索问题,并且在构建过程中融入地图信息,提高训练的效率,增加搜索成功率以及降低搜索时间。
本发明通过在仿真模拟下的不断学习训练,多自主水下自主航行器可以自主的进行实时规划,并进行相互之间的协作,进而很好的完成目标搜索任务;通过在水下自主航行器的输入中加入地图信息,利用了航行器的航行历史信息,从而加快了方法的学习速度,也可以很好的提高目标搜索的平均搜索成功率以及减少平均搜索时间。
附图说明
图1本发明的实时规划过程示意图;
图2本发明的训练更新过程示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,一种多水下自主航行器目标搜索方法,所述目标搜索方法具体包括以下步骤:
步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型;
从国家海上搜救支援系统中通过多次仿真模拟生成海上目标漂移轨迹,然后由这些数据进行目标运行轨迹的生成,通过随机尺度,随机角度和随机位置来进行数据增强,模拟现实中海洋目标漂移的复杂轨迹,形成仿真目标移动模型。
步骤2、利用水下自主航行器AUV数据构建航行器目标搜索仿真模型;
所述航行器目标搜索仿真模型是由4个自主水下航行器组成,每个自主水下航行器具有控制系统,声纳探测系统,数据记录系统,通信系统等子系统。航行器的移动控制是模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向;其声纳探测通过声波的发送,反射和接受来进行目标的探测;数据记录系统会将其探测到的物体以及经历过的坐标记录到存储器中;通信系统会定期和周围其他航行器进行信息交换。
步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
所述每个水下自主航行器的输入包括状态和地图信息,其中状态包括当前航行器的坐标,其他3个航行器相对当前航行器的坐标,其中的地图信息是由全部的航行器的探索区域构成,对每个部分都记录是否探索过以及探索的时间,之后经过预分配,将地图中的未探索区域分配给距离最近的航行器,然后将分配后的地图矩阵,以该航行器为中心,周围角度相等的8个方向上的矩阵值进行叠加,从而将地图矩阵转换为周围8个方向上的未探索区域个数,以此来引导水下自主航行器去探索未知区域,增加目标搜索的效率。由于海洋中目标会进行漂流,所以将探索时间较长的区域重新标记为未探索区域,以应对漂移目标的搜索。
所述存储行动中生成的数据是将该步执行过程中涉及到所有水下自主航行器决策的依据和规划结果保存到经验回放存储器当中,以步为单位进行存储;每条数据中由4个水下自主航行器的执行数据组成,每个水下自主航行器的决策的依据和规划结果包括输入状态、地图、动作、动作执行后的状态和动作执行后的地图。
将状态和地图信息输入到行为者网络中进行决策获得动作。然后在模拟环境中执行该动作,获得新的状态和地图信息。将产生的经验存储在一个经验回放存储器中。
奖励设置主要由三部分组成:当一个水下自主航行器发现目标时,给予一个巨大的奖励来鼓励搜寻目标,发现的时间越早,奖励越高;当水下自主航行器撞到边界时给与惩罚;当水下自主航行器探索一个新区域时,给予正奖励;当它反复探索一个区域时,给予负奖励。
步骤4、每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
每个水下自主航行器都有自己的行动者网络、评论家网络和目标评论家网络。首先从经验回放存储器的数据中随机抽取。然后每个水下自主航行器按时间步长将所有水下自主航行器的状态、地图和动作输入到批评家网络中,得到动作评价的Q值。然后根据行动者网络的策略梯度更新行动加网络。从目标评论家网络中也可以得到预测的Q值,根据这两个Q值更新评论家网络。
步骤5、基于步骤4的数据中动作的价值,进而更新行动者网络和评论家网络; 评论家网络的作用是加快行动者网络的更新;
步骤6、基于更新的行动者网络,对仿真目标移动模型进行搜索。
一种多水下自主航行器目标搜索方法,所述步骤1仿真目标移动模型具体为,由历史海洋目标漂移数据进行目标运行轨迹的生成,通过随机尺度,随机角度和随机位置来进行数据增强,模拟现实中海洋目标漂移的复杂轨迹。
一种多水下自主航行器目标搜索方法,所述步骤1航行器目标搜索仿真模型具体为,由航行器的移动控制,声纳探测组成,其移动控制模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向,其声纳探测通过声波的发送,反射和接受来进行目标的探测。
一种多水下自主航行器目标搜索方法,所述步骤3当前的状态输入包括当前航行器的坐标,其他航行器相对当前航行器的坐标。
一种多水下自主航行器目标搜索方法,所述步骤3地图信息包括全部的航行器的探索区域构成,之后经过预分配与数据处理最终生成该水下自主航行器的地图信息。
一种多水下自主航行器目标搜索方法,所述步骤3存储数据具体为,将该步执行过程中涉及到所有水下自主航行器的输入状态、地图、动作、动作执行后的状态和动作执行后的地图保存到经验回放存储器当中,以步为单位进行存储。
一种多水下自主航行器目标搜索方法,所述步骤4中的评论家网络的输入是所有水下自主航行器的状态、动作和地图,而不是单一水下自主航行器。
一种多水下自主航行器目标搜索方法,所述步骤5具体为,评论家网络的损失函数如下:
Figure SMS_20
Figure SMS_21
行动者网络的策略梯度如下:
Figure SMS_22
其中,
Figure SMS_33
是水下自主航行器的神经网络参数;/>
Figure SMS_24
是当前的状态集
Figure SMS_29
;/>
Figure SMS_23
是当前的地图信息;/>
Figure SMS_30
是下一步的状态集;/>
Figure SMS_34
是下一步的地图;
Figure SMS_38
是价值函数;/>
Figure SMS_31
是随着Q函数一起更新的目标价值函数;/>
Figure SMS_36
是由目标评论家网络预测的Q值;/>
Figure SMS_26
是水下自主航行器/>
Figure SMS_27
的动作;/>
Figure SMS_28
是当前水下自主航行器的观察值,包含所有水下自主航行器的坐标;/>
Figure SMS_32
是水下自主航行器得到的当前地图信息;/>
Figure SMS_35
是水下自主航行器执行当前动作之后获得的奖励值;/>
Figure SMS_37
是折扣值;/>
Figure SMS_25
是经验回放存储器。
一种多水下自主航行器目标搜索方法,所述评论家网络为N层全卷积网络或N层全连接网络;所述行动者网络均为N层全卷积网络或N层全连接网络。
一种多水下自主航行器目标搜索系统,所述系统包括模型生成模块、航行器目标搜索仿真模型更新及存储模块、网络模块和网络更新模块;
所述模型生成模块,利用历史海洋目标漂移数据生成仿真目标移动模型,利用水下自主航行器AUV数据构建航行器目标搜索仿真模型;
所述航行器目标搜索仿真模型更新及存储模块,每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
所述网络模块,每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
所述网络更新模块,基于数据中动作的价值,进而更新行动者网络。

Claims (6)

1.一种多水下自主航行器目标搜索方法,其特征在于,所述目标搜索方法具体包括以下步骤:
步骤1、利用历史海洋目标漂移数据生成仿真目标移动模型;
步骤2、利用水下自主航行器数据构建航行器目标搜索仿真模型;
步骤3、每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
步骤4、每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
步骤5、基于步骤4的数据中动作的价值,进而更新行动者网络和评论家网络;
步骤6、基于更新的行动者网络,对仿真目标移动模型进行搜索;
所述步骤1仿真目标移动模型具体为,由历史海洋目标漂移数据进行目标运行轨迹的生成,通过随机尺度,随机角度和随机位置来进行数据增强,模拟现实中海洋目标漂移的复杂轨迹;
所述步骤2航行器目标搜索仿真模型具体为,由航行器的移动控制,声纳探测组成,其移动控制模拟真实的航行器通过控制转矩和发动机转速来控制移动和转向,其声纳探测通过声波的发送,反射和接受来进行目标的探测;
所述步骤4中的评论家网络的输入是所有水下自主航行器的状态、动作和地图,而不是单一水下自主航行器;
所述步骤5具体为,评论家网络的损失函数如下:
Figure QLYQS_1
行动者网络的策略梯度如下:
Figure QLYQS_2
其中,
Figure QLYQS_7
是智能体的神经网络参数; />
Figure QLYQS_4
是当前的状态集/>
Figure QLYQS_15
;/>
Figure QLYQS_8
是当前的地图信息;/>
Figure QLYQS_17
是下一步的状态集;/>
Figure QLYQS_9
是下一步的地图;/>
Figure QLYQS_18
是价值函数;/>
Figure QLYQS_6
是随着Q函数一起更新的目标价值函数;/>
Figure QLYQS_16
是由目标评论家网络预测的Q值;/>
Figure QLYQS_3
是智能体/>
Figure QLYQS_13
的动作;/>
Figure QLYQS_10
是当前智能体的观察值,包含所有智能体的坐标;/>
Figure QLYQS_14
是智能体得到的当前地图信息;/>
Figure QLYQS_11
是智能体/>
Figure QLYQS_19
执行当前动作之后获得的奖励值;/>
Figure QLYQS_5
是折扣值;/>
Figure QLYQS_12
是经验回放存储器。
2.根据权利要求1所述一种多水下自主航行器目标搜索方法,其特征在于,所述步骤3当前的状态输入包括当前航行器的坐标,其他航行器相对当前航行器的坐标。
3.根据权利要求1所述一种多水下自主航行器目标搜索方法,其特征在于,所述步骤3地图信息包括全部的航行器的探索区域构成,之后经过预分配与数据处理最终生成该水下自主航行器的地图信息。
4.根据权利要求1所述一种多水下自主航行器目标搜索方法,其特征在于,所述步骤3存储数据具体为,将该步执行过程中涉及到所有智能体的输入状态、地图、动作、动作执行后的状态和动作执行后的地图保存到经验回放存储器当中,以步为单位进行存储。
5.根据权利要求1所述一种多水下自主航行器目标搜索方法,其特征在于,所述评论家网络为N层全卷积网络或N层全连接网络;所述行动者网络均为N层全卷积网络或N层全连接网络。
6.一种多水下自主航行器目标搜索系统,其特征在于,所述系统使用如权利要求1-5任一所述多水下自主航行器目标搜索方法,所述系统包括模型生成模块、航行器目标搜索仿真模型更新及存储模块、网络模块和网络更新模块;
所述模型生成模块,利用历史海洋目标漂移数据生成仿真目标移动模型,利用水下自主航行数据构建航行器目标搜索仿真模型;
所述航行器目标搜索仿真模型更新及存储模块,每个水下自主航行器从环境中获取当前的状态以及地图信息,输入到行动者网络进行实时路径规划,实时更新航行器目标搜索仿真模型,并存储行动过程中所生成的数据;
所述网络模块,每个水下自主航行器的每一条数据,所有水下自主航行器的状态、地图和动作均输入到评论家网络;
所述网络更新模块,基于数据中动作的价值,进而更新行动者网络。
CN202310064245.XA 2023-02-06 2023-02-06 一种多水下自主航行器目标搜索方法及其系统 Active CN115809609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310064245.XA CN115809609B (zh) 2023-02-06 2023-02-06 一种多水下自主航行器目标搜索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310064245.XA CN115809609B (zh) 2023-02-06 2023-02-06 一种多水下自主航行器目标搜索方法及其系统

Publications (2)

Publication Number Publication Date
CN115809609A CN115809609A (zh) 2023-03-17
CN115809609B true CN115809609B (zh) 2023-05-23

Family

ID=85487510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310064245.XA Active CN115809609B (zh) 2023-02-06 2023-02-06 一种多水下自主航行器目标搜索方法及其系统

Country Status (1)

Country Link
CN (1) CN115809609B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116520861B (zh) * 2023-05-04 2024-04-12 哈尔滨工程大学 基于改进Glasius仿生神经网络的静态目标搜索方法与装置
CN117606490B (zh) * 2024-01-23 2024-05-14 吉林大学 一种水下自主航行器协同搜索路径规划方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111337931B (zh) * 2020-03-19 2022-11-15 哈尔滨工程大学 一种auv目标搜索方法
CN111998847A (zh) * 2020-07-16 2020-11-27 西北工业大学 一种基于深度强化学习的水下航行器仿生地磁导航方法
CN113033119B (zh) * 2021-03-11 2022-03-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法

Also Published As

Publication number Publication date
CN115809609A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
CN115809609B (zh) 一种多水下自主航行器目标搜索方法及其系统
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN111273670B (zh) 一种针对快速移动障碍物的无人艇避碰方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN110906935A (zh) 一种无人艇路径规划方法
CN115562357B (zh) 一种面向无人机集群的智能路径规划方法
CN113298260A (zh) 一种基于深度强化学习的对抗仿真推演方法
CN112859864A (zh) 一种面向无人船的几何路径规划方法
Yan et al. Reinforcement Learning‐Based Autonomous Navigation and Obstacle Avoidance for USVs under Partially Observable Conditions
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Du et al. An optimized path planning method for coastal ships based on improved DDPG and DP
CN115167447A (zh) 基于雷达图像端到端深度强化学习的无人艇智能避障方法
Liu et al. Auv path planning under ocean current based on reinforcement learning in electronic chart
CN114578834A (zh) 基于目标分层双感知域的强化学习的无人车路径规划方法
He et al. Uuv path planning for collision avoidance based on ant colony algorithm
Bye A receding horizon genetic algorithm for dynamic resource allocation: A case study on optimal positioning of tugs
CN115107948B (zh) 一种高效强化学习自主船舶避碰方法
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
Yao et al. UAV/USV Cooperative Trajectory Optimization Based on Reinforcement Learning
Christophe et al. Genetic algorithm‐based multiple moving target reaching using a fleet of sailboats
CN117606490B (zh) 一种水下自主航行器协同搜索路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant