CN115790608B - 基于强化学习的auv路径规划算法及装置 - Google Patents

基于强化学习的auv路径规划算法及装置 Download PDF

Info

Publication number
CN115790608B
CN115790608B CN202310048358.0A CN202310048358A CN115790608B CN 115790608 B CN115790608 B CN 115790608B CN 202310048358 A CN202310048358 A CN 202310048358A CN 115790608 B CN115790608 B CN 115790608B
Authority
CN
China
Prior art keywords
auv
path planning
ocean
algorithm
simulation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310048358.0A
Other languages
English (en)
Other versions
CN115790608A (zh
Inventor
陈德盛
温家宝
何景逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310048358.0A priority Critical patent/CN115790608B/zh
Publication of CN115790608A publication Critical patent/CN115790608A/zh
Application granted granted Critical
Publication of CN115790608B publication Critical patent/CN115790608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于强化学习的AUV路径规划算法及装置。涉及水下无人潜航技术领域。包括:引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。以此实现对扰动海洋环境的鲁棒性,提升了路径规划的能力。

Description

基于强化学习的AUV路径规划算法及装置
技术领域
本申请涉及水下无人潜航技术领域,具体而言,涉及一种基于强化学习的AUV路径规划算法及装置。
背景技术
自主式水下航行器(Autonomous Underwater Vehicle,AUV)是人类认识海洋,探索海洋,开发海洋的重要手段和工具。因为其功能众多且无需投入人力实时操控,可以自主进行海洋水文观测,以及能源开采探测等多种任务,且不用担心工作人员的生命安全问题,因此在海洋探索开发中具有极强的优越性。一条适合的航路是AUV完成既定任务的重要一环,而合适的航路需要结合多种因素综合考虑才能得到并满足任务要求。但因为海洋环境具有很强的复杂性和不确定性,使得AUV的路径规划能力强弱,将对其航行的安全性,准确性以及探索效率等具有极大的影响,也对AUV路径规划研究提出了更多更高的要求。
发明内容
本申请实施例的目的在于提供一种基于强化学习的AUV路径规划算法及装置,用以提升路径规划的能力。
第一方面,本发明提供一种基于强化学习的AUV路径规划算法,包括:引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。
在可选的实施方式中,引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型,包括:引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。
在可选的实施方式中,所述路径规划算法包括奖励函数,所述奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定;其中,根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
在可选的实施方式中,所述路径规划算法包括温度系数,所述温度系数用于路径规划算法收敛控制以及AUV探索控制;初始设置最大的温度系数,以及构建目标熵,基于所述最大的温度系数、所述目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
第二方面,本发明提供一种基于强化学习的AUV路径规划装置,包括:确定模块,用于引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;训练模块,用于采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;规划模块,用于基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。
在可选的实施方式中,所述确定模块具体用于:引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。
在可选的实施方式中,所述路径规划算法包括奖励函数,所述奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定;其中,根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
在可选的实施方式中,所述路径规划算法包括温度系数,所述温度系数用于路径规划算法收敛控制以及AUV探索控制;初始设置最大的温度系数,以及构建目标熵,基于所述最大的温度系数、所述目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
第三方面,本发明提供一种电子设备,所述诊断设备连接器包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存储的程序时用于实现前述实施方式任一所述的算法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式任一所述的算法步骤。
本申请的一种基于强化学习的AUV路径规划算法及装置。通过引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。以此实现对扰动海洋环境的鲁棒性,提升了路径规划的能力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于强化学习的AUV路径规划算法流程示意图;
图2为本申请实施例提供的基于真实数据的三维海洋仿真环境图;
图3为本申请实施例提供的未加扰动的三维洋流局部图;
图4为本申请实施例提供的加扰动的三维洋流局部图;
图5为本申请实施例提供的修改前的温度系数收敛变化图;
图6为本申请实施例提供的修改后的温度系数收敛变化图;
图7为本申请实施例提供的强鲁棒性路径规划算法SRS整体框架图;
图8为本申请实施例提供的一种基于强化学习的AUV路径规划装置结构示意图;
图9为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的一种基于强化学习的AUV路径规划算法流程示意图。如图1所示,该方法包括:
S110,引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型。
该初始的三维水下海洋环境仿真模型可以基于真实的海洋测量数据构建。
其中,引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。
S120,采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;
在一些实施例中,路径规划算法可以包括奖励函数,奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定。
可以根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
在一些实施例中,路径规划算法可以包括温度系数,温度系数用于路径规划算法收敛控制以及AUV探索控制;可以初始设置最大的温度系数,以及构建目标熵,基于最大的温度系数、目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
S130,基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。
通过本申请实施例,可以针对现有AUV海洋仿真环境不真实,数据由公式生成的问题,引入了真实海洋测量数据,构建了可靠的三维海洋仿真环境。能够解决在扰动海洋环境下,AUV无法正常进行路径规划的问题,增强了AUV对扰动海洋环境的鲁棒性。可帮助实现对AUV的智能化控制,赋予AUV根据海洋环境进行自主决策的能力。该方法经过大量的实验并进行了验证,有效地提高了该方法可靠性。
在一些实施例中,本申请实施例提供了一种基于强化学习的强鲁棒性AUV路径规划算法(SRS),包括以下步骤:
引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;例如引入马里亚纳海沟部分海域的测量数据,测量区域位于(142°E∼142.5°E,11°N∼11.5°N,海平面10000M,其实际范围为54436.34m×55445.34m×10000m。通过Matlab构建三维海洋仿真环境,并划分为100×100×40的网格以方便展示,如图2所示。
为了模拟海洋环境的不确定性,我们在环境建模引入高斯马尔科夫模型,该模型是基于水声信号传播的原理。未加扰动的洋流局部图,如图3所示。
假设水声信号是一个简单的谐波,距离函数的近似解可以由汉克尔函数给出,因此,状态空间中的模态模型可以推导为可表示为:
Figure SMS_1
其中
Figure SMS_2
是状态向量,/>
Figure SMS_3
是模态函数的矩阵。
Figure SMS_4
Figure SMS_5
其中
Figure SMS_6
表示第n个状态,/>
Figure SMS_7
表示第n个模态函数。它们的计算方式如下:
Figure SMS_8
Figure SMS_9
Figure SMS_10
和c表示AUV的声源频率和声速。/>
Figure SMS_11
为第n个模态函数。/>
Figure SMS_12
为水平波数。
该方程显示了AUV声波在空间的变化情况。在考虑了海水不均匀性和其他因素的影响后,我们进一步加入了高斯马尔科夫过程模型。
Figure SMS_13
其中
Figure SMS_14
是零均值的高斯白噪声模型。从这个表述中,我们可以得到一个具有一定随机性且比较可靠的海洋模拟环境。同时,通过调整校正模型/>
Figure SMS_15
的大小,可以控制洋流大小和方向的随机性。比如设置/>
Figure SMS_16
,即扰动变化程度为原来的10%,如图4所示。
根据路径规划场景的需要,可以设置奖励函数,提高算法学习能力;奖励函数的设置主要包括以下三部分:距离变化奖励
Figure SMS_17
、边界碰撞奖励/>
Figure SMS_18
和最终目标奖励/>
Figure SMS_19
对于
Figure SMS_20
,首先分别计算当前位置(/>
Figure SMS_21
)与目标点(/>
Figure SMS_22
)的距离
Figure SMS_23
,以及最后时刻位置(/>
Figure SMS_24
)和目标点(/>
Figure SMS_25
)的距离/>
Figure SMS_26
Figure SMS_27
Figure SMS_28
/>
然后根据两个距离差值的变化,得到距离变化的奖励
Figure SMS_29
Figure SMS_30
其中,
Figure SMS_31
是固定奖励,/>
Figure SMS_32
是加权系数。距离变化奖励的目的是引导AUV减少与目标点的距离并逐渐接近目标点。
边界碰撞奖励
Figure SMS_33
是对AUV执行任务时的范围限制,可以有效地帮助 AUV 减少探索范围。
最终目标奖励
Figure SMS_34
是AUV到达目标点的最终奖励,它鼓励AUV尽快完成任务。
综上所述,奖励函数被设定为:
Figure SMS_35
其中,
Figure SMS_36
和/>
Figure SMS_37
是两个奖励的触发条件。通过实验证明,奖励函数的设置可以有效加速算法训练,帮助AUV快速完成任务。当AUV触碰边界时,/>
Figure SMS_38
=1,否则默认为0。当AUV到达目标点时,/>
Figure SMS_39
=1,否则默认为0。具体来说,/>
Figure SMS_40
=−100,/>
Figure SMS_41
=1000。通过实验证明,奖励函数的设置可以有效加速算法训练,帮助AUV快速完成任务。
可以根据海洋环境的特点,修改温度系数,加快算法收敛速度;
温度系数是算法训练收敛和AUV探索控制的关键,其调节被构造为一个带约束的优化问题。假设
Figure SMS_42
是在t时刻时AUV根据此时环境状态/>
Figure SMS_43
采取动作/>
Figure SMS_44
得到的奖励;/>
Figure SMS_45
表示t时刻的策略,/>
Figure SMS_46
表示策略熵,/>
Figure SMS_47
表示熵阈值,E表示奖励的数学期望,T表示总训练时间。
Figure SMS_48
伴随着期望奖励的最大化,要确保策略熵
Figure SMS_49
大于阈值/>
Figure SMS_50
。因此,温度系数的损失函数/>
Figure SMS_51
可以表示为:
Figure SMS_52
它通过拉格朗日乘数法和动态规划对温度系数
Figure SMS_53
进行自动调节。由于海洋环境具有随机性大,无用信息多的特点,导致在探索过程中存在温度系数自动调节失效的问题。每次计算出的实际策略熵始终小于目标熵,使得温度系数不断增大,最终出现算法效果差,甚至无法收敛的情况。
Figure SMS_54
为了适应随机性大的海洋环境,我们初始设置最大的温度系数,允许高度随机的动作,保证初始最大的探索度。因此构建了一个较小的目标熵,并将策略熵设定为始终小于目标熵。由此产生的差值将确保温度系数一直降低到收敛状态。
Figure SMS_55
通过改变温度系数的自动调节方式,来控制算法在高随机环境下探索度设置。这种调整方式可以使AUV做出高度随机的动作选择,并保证在开始时进行最大限度的探索。随后直接降低温度系数,直到模型训练到收敛,有利于提高模型鲁棒性。修改前后的温度系数变化如图5和图6所示。
整体框架图如图7所示,采用最大熵强化学习算法SAC为框架,实现AUV在扰动环境下鲁棒性路径规划:对于强鲁棒性路径规划算法的设计,我们根据场景需要选择离散SAC作为基础框架,使用动作网络、软Q网络和目标Q网络进行数据处理,三种网络耦合可以提高算法的数据处理能力,经验池的设计可以提高样本利用率。结合最大熵强化学习算法SAC,将改进后的强鲁棒性强化学习算法SRS,应用于AUV路径规划场景中,实现对扰动海洋环境的鲁棒性。
图8为本申请实施例提供的一种基于强化学习的AUV路径规划装置结构示意图。如图8所示,该装置包括:确定模块801,用于引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;训练模块802,用于采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;规划模块803,用于基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。
在一些实施例中,确定模块801具体用于:引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。
在一些实施例中,路径规划算法包括奖励函数,奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定;其中,根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
在一些实施例中,路径规划算法包括温度系数,温度系数用于路径规划算法收敛控制以及AUV探索控制;初始设置最大的温度系数,以及构建目标熵,基于最大的温度系数、目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
本申请实施例还提供了一种电子设备,如图9所示,包括处理器910、通信接口920、存储器930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。
存储器930,用于存放计算机程序。
处理器910,用于执行存储器930上所存放的程序时,实现如上述任意一实施例的方法步骤。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一的基于强化学习的AUV路径规划算法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一的基于强化学习的AUV路径规划算法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (6)

1.一种基于强化学习的AUV路径规划算法,其特征在于,包括:
引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;
采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;
基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划;
引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型,包括:
引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;
通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动;
高斯马尔科夫过程模型为:
Figure QLYQS_1
其中,
Figure QLYQS_2
为状态向量,/>
Figure QLYQS_3
为模态函数的矩阵,/>
Figure QLYQS_4
为零均值的高斯白噪声模型;
Figure QLYQS_5
Figure QLYQS_6
Figure QLYQS_7
Figure QLYQS_8
其中,
Figure QLYQS_9
为第n个状态,/>
Figure QLYQS_10
为第n个模态函数,/>
Figure QLYQS_11
和c分别为AUV的声源频率和声速,
Figure QLYQS_12
为第n个模态函数,/>
Figure QLYQS_13
为水平波数;
所述路径规划算法包括奖励函数,所述奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定;
其中,根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
2.根据权利要求1所述的算法,其特征在于,所述路径规划算法包括温度系数,所述温度系数用于路径规划算法收敛控制以及AUV探索控制;
初始设置最大的温度系数,以及构建目标熵,基于所述最大的温度系数、所述目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
3.一种基于强化学习的AUV路径规划装置,其特征在于,包括:
确定模块,用于引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型,并根据高斯马尔科夫过程,模拟和控制海洋环境扰动,确定优化后的三维水下海洋环境仿真模型;
训练模块,用于采用最大熵强化学习算法SAC为框架,在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练,得到训练好的路径规划算法;
规划模块,用于基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划;
所述确定模块具体用于:
引入真实海洋测量数据,建立AUV三维水下海洋环境仿真模型;
通过高斯马尔科夫过程,根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型,确定优化后的三维水下海洋环境仿真模型;所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动;
高斯马尔科夫过程模型为:
Figure QLYQS_14
其中,
Figure QLYQS_15
为状态向量,/>
Figure QLYQS_16
为模态函数的矩阵,/>
Figure QLYQS_17
为零均值的高斯白噪声模型;
Figure QLYQS_18
Figure QLYQS_19
Figure QLYQS_20
Figure QLYQS_21
其中,
Figure QLYQS_22
为第n个状态,/>
Figure QLYQS_23
为第n个模态函数,/>
Figure QLYQS_24
和c分别为AUV的声源频率和声速,
Figure QLYQS_25
为第n个模态函数,/>
Figure QLYQS_26
为水平波数;
所述路径规划算法包括奖励函数,所述奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定;
其中,根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值,确定距离变化奖励;根据AUV执行任务时的范围限制确定边界碰撞奖励;AUV到达目标点后确定最终目标奖励。
4.根据权利要求3所述的装置,其特征在于,所述路径规划算法包括温度系数,所述温度系数用于路径规划算法收敛控制以及AUV探索控制;
初始设置最大的温度系数,以及构建目标熵,基于所述最大的温度系数、所述目标熵以及策略熵控制温度系数,其中,允许高度随机的动作,策略熵设定为始终小于目标熵。
5.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时用于实现权利要求1-2任一所述的算法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-2任一所述的算法。
CN202310048358.0A 2023-01-31 2023-01-31 基于强化学习的auv路径规划算法及装置 Active CN115790608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310048358.0A CN115790608B (zh) 2023-01-31 2023-01-31 基于强化学习的auv路径规划算法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310048358.0A CN115790608B (zh) 2023-01-31 2023-01-31 基于强化学习的auv路径规划算法及装置

Publications (2)

Publication Number Publication Date
CN115790608A CN115790608A (zh) 2023-03-14
CN115790608B true CN115790608B (zh) 2023-05-30

Family

ID=85429376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310048358.0A Active CN115790608B (zh) 2023-01-31 2023-01-31 基于强化学习的auv路径规划算法及装置

Country Status (1)

Country Link
CN (1) CN115790608B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112034711A (zh) * 2020-08-31 2020-12-04 东南大学 一种基于深度强化学习的无人艇抗海浪干扰控制方法
CN112965363A (zh) * 2021-02-03 2021-06-15 大连海事大学 一种基于外源卡尔曼滤波的船舶动力定位系统
CN113176776A (zh) * 2021-03-03 2021-07-27 上海大学 基于深度强化学习的无人艇天气自适应避障方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN114179799A (zh) * 2021-12-23 2022-03-15 南京理工大学 用于acc与aeb的融合多传感器信息的自车行驶路径识别方法
CN114237235A (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016496A (zh) * 2022-06-30 2022-09-06 重庆大学 基于深度强化学习的水面无人艇路径跟踪方法
CN115470934A (zh) * 2022-09-14 2022-12-13 天津大学 一种基于序列模型的海洋环境下的强化学习路径规划算法
CN115640754A (zh) * 2022-11-11 2023-01-24 中国船舶重工集团公司第七一九研究所 一种可视化的uuv目标跟踪路径规划训练系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7048456B2 (ja) * 2018-08-30 2022-04-05 本田技研工業株式会社 学習装置、学習方法、およびプログラム
US20200334565A1 (en) * 2019-04-16 2020-10-22 Siemens Aktiengesellschaft Maximum entropy regularised multi-goal reinforcement learning
US11367120B2 (en) * 2019-11-08 2022-06-21 Microsoft Technology Licensing, Llc Adaptive rewarding for content personalization
CN115618716A (zh) * 2022-09-14 2023-01-17 天津大学 一种基于离散SAC算法的gazebo潜航器路径规划算法
CN115661204B (zh) * 2022-11-01 2023-11-10 中国人民解放军军事科学院国防科技创新研究院 一种无人机集群对运动目标的协同搜寻与跟踪定位方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112034711A (zh) * 2020-08-31 2020-12-04 东南大学 一种基于深度强化学习的无人艇抗海浪干扰控制方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112965363A (zh) * 2021-02-03 2021-06-15 大连海事大学 一种基于外源卡尔曼滤波的船舶动力定位系统
CN113176776A (zh) * 2021-03-03 2021-07-27 上海大学 基于深度强化学习的无人艇天气自适应避障方法
CN113391633A (zh) * 2021-06-21 2021-09-14 南京航空航天大学 一种面向城市环境的移动机器人融合路径规划方法
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN114237235A (zh) * 2021-12-02 2022-03-25 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114415663A (zh) * 2021-12-15 2022-04-29 北京工业大学 基于深度强化学习的路径规划方法及系统
CN114179799A (zh) * 2021-12-23 2022-03-15 南京理工大学 用于acc与aeb的融合多传感器信息的自车行驶路径识别方法
CN114580302A (zh) * 2022-03-16 2022-06-03 重庆大学 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115016496A (zh) * 2022-06-30 2022-09-06 重庆大学 基于深度强化学习的水面无人艇路径跟踪方法
CN115470934A (zh) * 2022-09-14 2022-12-13 天津大学 一种基于序列模型的海洋环境下的强化学习路径规划算法
CN115640754A (zh) * 2022-11-11 2023-01-24 中国船舶重工集团公司第七一九研究所 一种可视化的uuv目标跟踪路径规划训练系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱进.基于深度强化学习的单智能体自动驾驶控制研究.《中国优秀硕士学位论文全文数据库工程科技II辑》.2022,(第2期),1-84. *

Also Published As

Publication number Publication date
CN115790608A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN109540151B (zh) 一种基于强化学习的auv三维路径规划方法
Xue et al. System identification of ship dynamic model based on Gaussian process regression with input noise
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN108319293B (zh) 一种基于lstm网络的uuv实时避碰规划方法
CN109784201B (zh) 基于四维风险评估的auv动态避障方法
Boeing et al. Leveraging multiple simulators for crossing the reality gap
CN104809529A (zh) 一种细菌觅食优化的多船会遇避碰方法
Wang et al. Local path optimization method for unmanned ship based on particle swarm acceleration calculation and dynamic optimal control
CN109556609B (zh) 一种基于人工智能的避碰方法及装置
Yao et al. Lstm-pso: Long short-term memory ship motion prediction based on particle swarm optimization
CN110906935A (zh) 一种无人艇路径规划方法
CN114261400A (zh) 一种自动驾驶决策方法、装置、设备和存储介质
WO2023011172A1 (zh) 一种驾驶行为确定方法及其相关设备
CN110837680A (zh) 一种水下拖缆稳态运动多目标优化方法及系统
CN116992577B (zh) 跨介质航行器的仿真方法、系统、设备及存储介质
CN115790608B (zh) 基于强化学习的auv路径规划算法及装置
CN113642591B (zh) 一种基于迁移学习的多波束海底沉积层类型的估计方法及系统
CN108594241A (zh) 一种auv声隐身态势评估方法
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
CN114675561A (zh) 无人艇的仿真测试系统、方法、设备及存储介质
CN112257309B (zh) 一种水下履带装备流场及力学响应预测方法及系统
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
CN112764421B (zh) 无人深潜器自主导航轨迹预测积分控制方法及装置
Xue et al. System Identification of Ship Dynamics Nonlinear Model with Free-Running Tests Based on Two Step Semiconjugate Bayesian Regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant