CN115686031A - 一种基于学习和采样的auv信息性路径规划方法 - Google Patents

一种基于学习和采样的auv信息性路径规划方法 Download PDF

Info

Publication number
CN115686031A
CN115686031A CN202211381884.0A CN202211381884A CN115686031A CN 115686031 A CN115686031 A CN 115686031A CN 202211381884 A CN202211381884 A CN 202211381884A CN 115686031 A CN115686031 A CN 115686031A
Authority
CN
China
Prior art keywords
auv
path
learning
state
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211381884.0A
Other languages
English (en)
Inventor
郑华荣
于颖
徐文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuyao Robot Research Center
Zhejiang University ZJU
Original Assignee
Yuyao Robot Research Center
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuyao Robot Research Center, Zhejiang University ZJU filed Critical Yuyao Robot Research Center
Priority to CN202211381884.0A priority Critical patent/CN115686031A/zh
Publication of CN115686031A publication Critical patent/CN115686031A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于学习和采样的AUV信息性路径规划方法,属于自主水下航行器的路径规划领域。本发明首先,使用Q‑learning进行AUV路径规划。然后,完成基于概率路线图的Q‑learning混合路径规划方法,降低求解问题的维度,通过混合路径规划方法实现洋流场中的IPP问题。最后,通过混合路径规划方法实现AUV的自动返航功能。本发明不仅能解决多目标优化问题,还具有运算效率高的优点,既最小化AUV的能量消耗,又考虑了AUV采样信息价值的最大化,同时实现避障,为AUV规划一条安全的最优路径,以及能够实现AUV自动返航的功能。

Description

一种基于学习和采样的AUV信息性路径规划方法
技术领域
本发明属于自主水下航行器的路径规划领域,具体涉及一种考虑洋流影响的基于学习和采样的自主水下航行器的信息性路径规划方法。
背景技术
考虑洋流影响的自主水下航行器(AUV)的信息性路径规划,信息性路径规划(IPP)是指在满足预算约束条件下为AUV规划一条最大化采样信息价值的路径。同时,在海洋环境中,要考虑洋流的存在对AUV运动的影响。
很多考虑洋流影响的路径规划方法被提出,以确定能量消耗最低或航行时间最短的最优路径。基于图的搜索方法被广泛应用于海洋环境中的路径规划问题,例如Dijkstra算法和A*算法,该类算法采用环境的离散表示,具有良好的一致性和收敛性,但在时变的洋流场环境下很难求解。水平集方法是在随时间动态变化的流场中进行水下航行器路径规划的有效方法,但也可能存在计算问题。势场法是在障碍物和目标上人工产生斥力场和引力场,从而计算出水下航行器的安全路径的方法,该方法能够有效地解决避障问题,但往往会产生局部最优解并且不能考虑所有的洋流变量。粒子群优化方法也被应用于路径规划研究,以获得全局最优路径,但其存在过早收敛等问题。在复杂的海洋环境下,路径规划有时需要考虑多目标优化问题,例如在混合整数非线性规划的优化问题中,提出了一个时空网络模型,该模型能在最小化循环时间的同时降低能耗,同时实现避碰。
IPP问题最一般的形式是在一组约束条件下,找到一条使信息增益最大化的路径。已有多种解决方法被提出。例如,采用智能生成快速探索随机循环方法为传感机器人规划信息性路径,以实现周期性持续环境监测,并生成高斯随机场分布的最佳估计。针对IPP问题,子模奖励函数和部分可观察的马尔可夫决策过程被提出,然而这些方法通常很难应用于大规模问题实例。同时考虑预算约束和信息增益的IPP问题可以使用组合优化问题来表述,具体的求解方法包括递归贪婪算法、分支界定技术等,但随着预算的增加和搜索空间的扩大,IPP问题的规模通常会呈指数级增长。IPP问题与自适应采样密切相关,在自适应采样中,目标是访问预测不确定性最小或信息增益最大的观测位置。基于迭代自适应采样的快速探索信息采集算法被提出,用于解决IPP问题。为了计算IPP问题的最优解,一种方法是选择一组“有信息量”的感知位置,然后以最低的成本去遍历这些位置;另一种方法是在有限范围内搜索和规划,可以结合基于采样的方法实现渐进最优性。
基于采样的方法由于在处理高维问题方面具有优势,也被广泛应用于AUV的路径规划中,例如概率路线图、快速探索随机树(RRT)等方法被提出,这些算法都能在适当的计算时间内渐进逼近最优解。通过使用分支界定技术对搜索树进行剪枝,提出了一种RRT算法的变体,即RRT*算法,该方法具有实时功能。基于采样的方法是为AUV的信息收集任务生成最优采样路径的最佳方法之一。然而,现有的基于采样的路径规划方法大多数是在没有考虑预算约束的情况下最小化路径代价,因此不能直接应用于IPP问题。
发明内容
为了解决现有AUV路径规划研究中没有综合考虑洋流影响、信息采集以及静态避障的问题,本发明提出一种基于学习和采样的AUV信息性路径规划方法。本发明所提出的方法扩展了基于采样的路径规划技术,以改进对IPP问题的求解,利用概率路线图对IPP算法进行效率提升,既最小化AUV的能量消耗,又考虑了AUV采样信息价值的最大化,同时实现避障,为AUV规划一条安全的最优路径。该方法不仅能解决多目标优化问题,还具有运算效率高的优点以及能够实现AUV自动返航的功能。
本发明解决其技术问题所采用的技术方案是:
本发明包括如下具体步骤:
步骤1,使用Q-learning进行AUV路径规划:
步骤1.1,AUV在状态st执行动作at+1,并接收实时奖励值rt+1=R(st,at+1),其中R为奖励矩阵。奖励矩阵R以状态S为行,动作A为列。R(si,aj)(i,j1,2,…,N)表示从当前状态si执行动作aj达到下一个状态sj后获得的奖励值。奖励矩阵R如下:
Figure BDA0003922644890000031
当两个状态不能转移时,对应的矩阵元素设为-1。当两个状态能够转移时,如果状态sj是目标状态,则将矩阵元素设置为10,否则设置为0。
步骤1.2,通过学习和更新建立储存Q值的Q-table的过程,AUV能够学习到一个目标策略π:S→A,该目标策略将状态集S映射到动作集A,AUV将据此选择从当前状态到目标状态的一系列动作。最优的目标策略π*能够指导AUV选择使累积奖励期望Q值最大化的动作,此时AUV能够以一种最节能的方式安全到达目标状态。
对于AUV路径规划问题,状态空间S是AUV所有可能位置的集合,动作空间A是AUV所有可能移动的集合。Q值是AUV在某一时刻t,在位置st(st∈S)处采取某一动作at(at∈A)移动到另一个位置的未来累积奖励的期望,定义为:
Figure BDA0003922644890000032
其中,π是目标策略,
Figure BDA0003922644890000033
表示期望运算,ri(i=t+1,t+2,…,t+m)表示AUV在未来时刻i所获得的奖励值。Gt=rt+1+γrt+22rt+3+…+γm-1rt+m表示在当前时刻t的未来m个时刻的累计折扣奖励值,未来时刻的奖励通过乘以折扣系数γ,γ2,…,γm-1反映在当前时刻。折扣系数γ∈[0,1)表示AUV有远见的程度,γ越接近1,说明AUV越有远见,即AUV越会考虑其动作选择对未来的影响。
步骤1.3,使用时间差分法学习目标策略π。Q-table中的累积奖励期望Q值的学习和更新过程为:
Figure BDA0003922644890000034
其中,α为学习率,s′为在状态s下执行动作a后到达的下一状态。值函数Q(s,a)的值表示在状态s下选择动作a的目标策略π的质量。
对于整个学习过程,首先将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵,然后使用公式(2)对Q-table进行迭代更新。在每次的迭代过程中,从随机选择的初始状态中,根据行为策略选择一个动作a。在执行动作a后,得到下一状态s’。当R(s,a)的值为-1时,进行新的迭代。否则,使用公式(2)对Q(s,a)的值进行更新并到达状态s’。重复上述过程,直到达到目标状态,此次迭代终止。如果达到Q-table的收敛条件,整个学习过程就此结束。
通过Q-table中的累积奖励期望Q值的学习和更新这个过程,能够得到收敛的Q*,并为AUV学习到最优的目标策略π*。从公式(2)中可以看出,Q-table的收敛条件为对于每一个状态s和动作a有:
R(s,a)+γmaxa,Q(s',a')=Q(s,a) (3)
或者表示为:
|R(s,a)+γmaxa,Q(s',a')-Q(s,a)|<δ (4)
其中,δ为一个非常小的正常数。当满足公式(4)中的条件后,可以认为Q-table是收敛的,此时基于收敛的Q-table,即Q*,得到的最优目标策略π*表示为:
Figure BDA0003922644890000041
利用最优目标策略π*依次选择动作,实现AUV从起始状态到目标状态的路径规划。得到的状态序列对应AUV在空间中的位置。由于奖励矩阵是专门为AUV到达目标位置而设计的,因此AUV根据π*选择的动作将最终实现最短路径的规划目标。由得到的状态序列组成的最优路径P*表示为:
Figure BDA0003922644890000042
其中,
Figure BDA0003922644890000043
表示最优路径P*上的路径点,n为路径点的数量,
Figure BDA0003922644890000044
表示从路径点
Figure BDA0003922644890000045
到路径点
Figure BDA0003922644890000046
的子路径段。
步骤2,基于学习和采样的AUV信息性路径规划方法
步骤2.1,基于概率路线图的Q-learning混合路径规划方法
概率路线图方法主要包括两个阶段:图的构建阶段和图的搜索阶段。
在图的构建阶段,构建一个路线图表示AUV周围的工作环境。首先,将环境初始化为一个空的无向图G(S,A),其中顶点集S表示一组无碰撞的AUV位置节点,即Q-learning中的状态空间。边集A表示无碰撞的路径集合,即Q-learning中的动作空间。其次,使用均匀随机采样(URS)法和K最近邻(KNN)算法构造路线图。使用URS方法,在自由空间中采样无碰撞的节点si(i1,2,…,N),并添加到顶点集S中。然后,使用KNN算法搜索si的k个邻居节点,将节点si分别与它的k个邻居节点相连,生成连线以构建路线图。同时,检查连线是否与任何障碍物碰撞,将无碰撞的连线添加到边集A中,否则删除连线。最后,便得到了构建的低维无碰撞概率路线图。
在图的搜索阶段,将Q-learning算法与生成的概率路线图集成在一起。概率路线图作为Q-learning算法的输入用来构建奖励矩阵R和Q-table。将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间。
步骤2.2,混合路径规划方法实现洋流场中的IPP问题
AUV需要沿前进路径Pf对环境信息进行采样,同时要考虑洋流对其能量消耗的影响。对于构造好的概率路线图,首先得到一个初始的奖励矩阵
Figure BDA0003922644890000051
此时,
Figure BDA0003922644890000052
只有三个元素值,即-1,0和10。然后,利用已知的流场和环境信息数据对奖励矩阵
Figure BDA0003922644890000053
进行重新设计。考虑在状态sh处的采样信息值
Figure BDA0003922644890000054
以及由状态sl转移到状态sh时的能量消耗
Figure BDA0003922644890000055
将初始奖励矩阵中的非负值
Figure BDA0003922644890000056
重新设计为:
Figure BDA0003922644890000057
其中,ρ和ω为正常数权重系数。能量消耗
Figure BDA0003922644890000058
由下式(8)进行计算:
Figure BDA0003922644890000059
其中,Pv是AUV的推进功率,与AUV的推进速度大小
Figure BDA00039226448900000510
的立方成正比,ti是AUV沿着子路径段
Figure BDA00039226448900000511
行驶所花费的时间,k为AUV的阻力系数,由AUV自身的设计决定,路径点pi对应于状态sl,路径点pi+1对应于状态sh
Figure BDA00039226448900000512
是AUV在子路径段
Figure BDA00039226448900000513
上行驶时相对于海底的速度,可以通过
Figure BDA00039226448900000514
和洋流速度
Figure BDA00039226448900000515
的矢量合成得到,即:
Figure BDA00039226448900000516
在公式(7)中,有组合奖励rie=ρri-ωre。由于ri和re的单位和数量级不同,对ri和re进行无量纲处理,即进行归一化。采用Min-Max归一化方法,使ri和re的值在[0,1]范围内。同时,为了避免rie中出现负的奖励值,rie也被归一化为在[0,1]范围内。
由于rie的范围为[0,1],小于初始奖励矩阵
Figure BDA0003922644890000061
中目标位置处的值10,因此不会影响AUV接近目标区域的目的性。通过合理设计ρ和ω的值,可以实现在信息收集和能量消耗之间的合理权衡。重新设计的奖励矩阵
Figure BDA0003922644890000062
如下:
Figure BDA0003922644890000063
AUV在沿前进路径Pf采样的过程中,若能量储备不足,则需以最节能的方式沿返回路径Pr返回起始点。由于在返回路径Pr上AUV不进行采样,只考虑洋流对AUV能量消耗的影响,因此奖励矩阵的设计是不同的。由公式(8)可知,当AUV的推进速度大小一定时,AUV的能量消耗与航行时间成正比。因此,利用AUV航行时间的倒数来重新设计奖励矩阵的值。航行时间越短,能耗越少,AUV获得的奖励值越高。建立初始的奖励矩阵
Figure BDA0003922644890000064
如下:
Figure BDA0003922644890000065
AUV要返回到起始点,因此将原来的起始状态s1设置为目标状态,奖励矩阵
Figure BDA0003922644890000066
中对应位置的值为10。然后,根据已知的洋流场数据,以及AUV的推进速度大小和方向,计算得到AUV的航行时间为:
Figure BDA0003922644890000071
其中,Δti,j是AUV从状态位置si(空间二维坐标为[xi,yi])到状态位置sj(空间二维坐标为[xj,yj])所花费的航行时间,lcell为环境空间中单位网格的长度,
Figure BDA0003922644890000072
为AUV相对于海底的速度大小,即推进速度,可由公式(9)计算得到。经过重新设计得到的奖励矩阵
Figure BDA0003922644890000073
如下:
Figure BDA0003922644890000074
在对奖励矩阵进行系统的设计后,可以利用重新设计得到的
Figure BDA0003922644890000075
Figure BDA0003922644890000076
根据公式(2)分别对Q-table进行学习和更新直至其收敛,得到Qf-table和Qr-table,分别表示为矩阵形式Qf(s,a)与Qr(s,a)。同时,AUV学习到最优目标策略
Figure BDA0003922644890000077
Figure BDA0003922644890000078
为:
Figure BDA0003922644890000079
Figure BDA00039226448900000710
根据
Figure BDA00039226448900000711
可以得到AUV的最优前进路径
Figure BDA00039226448900000712
实现IPP任务:
Figure BDA00039226448900000713
根据
Figure BDA00039226448900000714
可以得到AUV的最优返回路径
Figure BDA00039226448900000715
为:
Figure BDA00039226448900000716
步骤2.3,混合路径规划方法实现AUV的自动返航功能
自动返航功能设计如下:
在AUV沿着最优前进路径
Figure BDA00039226448900000717
行驶的每一步,根据AUV已行驶的路径,用公式(15)计算AUV在当前位置p处的剩余能量Er
Figure BDA0003922644890000081
其中,ei为子路径段
Figure BDA0003922644890000082
上的能量消耗。
找到最优前进路径
Figure BDA0003922644890000083
上的下一个路径点p′。利用学习得到的Qr-table规划从p′到起始点的最优返回路径
Figure BDA0003922644890000084
根据
Figure BDA0003922644890000085
Figure BDA0003922644890000086
计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗Em
将Er与Em进行比较,以确定AUV的能量储备是否足够。若Er≥Em,则能量充足,AUV前往下一路径点p′继续采样,此时AUV的当前位置变为p′。否则,让AUV停止采样,并从收敛的Qr-table中找到从当前位置p返回起始点的最低能耗的返回路径Pr。此时,从起点到当前点AUV所行驶过的路径就是最终的前进路径Pf
连接Pf和Pr形成最终规划的闭合往返轨迹P。在上述过程中,只需要学习一次就可以得到收敛的Qr-table,可以从其中方便地搜索返回路径,为实现自动返航功能提供了便利。
本发明的有益效果是:
提出的基于概率路线图的Q-learning混合路径规划方法,可用于AUV进行高效地环境信息采样。首先,将概率路线图与Q-learning过程相结合,降低了求解问题的维度,减轻了计算负担。然后,针对在洋流场和温度场中的采样问题,即信息性路径规划问题,对Q-learning中的奖励矩阵进行了系统的设计。此外,考虑到AUV的能量储备有限,设计了AUV的自动返航的功能。所提出的算法中只需一次学习就可以实现多次规划的特性,为此项功能的实现提供了极大的便利。本发明在计算资源和决策时间有限的AUV上具有很大的应用潜力。本发明不仅能解决多目标优化问题,还具有运算效率高的优点,既最小化AUV的能量消耗,又考虑了AUV采样信息价值的最大化,同时实现避障,为AUV规划一条安全的最优路径,以及能够实现AUV自动返航的功能。
此外,本发明所提出的混合路径规划算法不仅局限于本发明所考虑的场景,也适用于其他一般的信息性路径规划问题。
附图说明
图1为AUV所在的环境空间以及路径形式表示的示意图;
图2为概率路线图的构建过程示意图;
图3为构建的概率路线图的示意图;
图4为Eo2500J的路径规划结果示意图;
图5为蒙特卡洛模拟结果示意图;
图6(a)Eo2200J的场景;
图6(b)Eo2000J的场景;
图7为Eo500J的路径规划结果示意图。
具体实施方式
本发明提出一种基于学习和采样的AUV信息性路径规划方法,同时考虑障碍物的存在、洋流的对AUV运动的影响和对环境信息采样,本发明解决了在洋流场存在的环境中为AUV规划一条满足预算约束的采样信息最大化的安全路径的问题。本发明使用强化学习中的Q-learning算法,利用环境信息和洋流场的先验知识设计奖励矩阵,基于该奖励矩阵对Q-table进行学习和更新直至收敛,通过遍历收敛的Q-table来为AUV构建一条信息丰富的最优安全路径。此外,为了提高Q-learning方法的效率,将概率路线图与之结合,以降低Q-learning方法中状态空间和Q-table的维度。在经过一次完整的学习至收敛的Q-table中能够搜索到任意两个位置节点之间的路径,利用这一特性本发明设计了AUV在其能量不足时自动返航的功能。
本发明解决其技术问题所采用的技术方案是:
本发明包括如下具体步骤:
步骤1,使用Q-learning进行AUV路径规划:
Q-learning是一种基于值的强化学习方法,通过显式学习一个值函数Q(s,a)来隐式学习目标策略π。Q-learning算法的主要思想是构造状态集S和动作集A,然后建立一个储存Q值的Q-table来评估所选取的动作的好坏。偏好的动作将获得奖励,否则将受到惩罚。具体来说,AUV在状态st执行动作at+1,并接收实时奖励值rt+1=R(st,at+1),其中R为奖励矩阵。奖励矩阵R以状态S为行,动作A为列。R(si,aj)(i,j=1,2,…,N)表示从当前状态si执行动作aj达到状态sj后获得的奖励值。当两个状态不能转移时,对应的矩阵元素设为-1。当两个状态能够转移时,如果状态sj是目标状态,则将矩阵元素设置为10,否则设置为0。奖励矩阵R如下:
Figure BDA0003922644890000101
通过学习和更新建立Q-table的过程,AUV能够学习到一个目标策略π:S→A,该目标策略将状态集S映射到动作集A,AUV将据此选择从当前状态到目标状态的一系列动作。最优的目标策略π*能够指导AUV选择使累积奖励期望Q值最大化的动作。根据学习到的最优策略π*,AUV能够以一种最节能的方式安全到达目标状态。
对于AUV路径规划问题,状态空间S是AUV所有可能位置的集合,动作空间A是AUV所有可能移动的集合。Q值是AUV在某一时刻t,在位置st(st∈S)处采取某一动作at(at∈A)移动到另一个位置的未来累积奖励的期望,定义为:
Figure BDA0003922644890000102
其中,π是目标策略,
Figure BDA0003922644890000103
表示期望运算,ri(i=t+1,t+2,…,t+m)表示AUV在未来时刻i所获得的奖励值。Gt=rt+1+γrt+22rt+3+…γm-1rt+m表示在当前时刻t的未来m个时刻的累计折扣奖励值,未来时刻的奖励通过乘以折扣系数γ,γ2,…,γm-1反映在当前时刻。折扣系数γ∈[0,1)表示AUV有远见的程度,γ越接近1,说明AUV越有远见,即AUV越会考虑其动作选择对未来的影响。
使用时间差分法学习目标策略π。Q-table中的累积奖励期望Q值的学习和更新过程为:
Figure BDA0003922644890000104
其中,α为学习率,s′为在状态s下执行动作a后到达的下一状态。Q(s,a)的值表示在状态s下选择动作a的目标策略π的质量。
对于整个学习过程,首先将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵,然后使用公式(2)对Q-table进行迭代更新。在每次的迭代过程中,从随机选择的初始状态中,根据行为策略(例如∈greedy,即以∈的概率随机选择一个动作,以(1-∈)的概率按照目标策略π去选择一个动作)选择一个动作a。在执行动作a后,得到下一状态s’。当R(s,a)的值为-1时,进行新的迭代。否则,使用公式(2)对Q(s,a)的值进行更新并到达状态s’。重复上述过程,直到达到目标状态,此次迭代终止。如果达到Q-table的收敛条件,整个学习过程就此结束。
Q-table的学习和更新是Q-learning算法的核心。通过这个过程,能够得到收敛的Q*,并为AUV学习到最优的目标策略π*。从公式(2)中可以看出,Q-table的收敛条件为对于每一个状态s和动作a有:
R(s,a)+γmaxa,Q(s',a')=Q(s,a) (3)
或者表示为:
|R(s,a)+γmaxa,Q(S',a')-Q(s,a)|<δ (4)
其中,δ为一个非常小的正常数。当满足公式(4)中的条件后,可以认为Q-table是收敛的,此时基于收敛的Q-table,即Q*,得到的最优目标策略π*表示为:
Figure BDA0003922644890000111
利用最优目标策略π*依次选择动作,实现AUV从起始状态到目标状态的路径规划。得到的状态序列对应AUV在空间中的位置。由于奖励矩阵是专门为AUV到达目标位置而设计的,因此AUV根据π*选择的动作将最终实现最短路径的规划目标。由得到的状态序列组成的最优路径P*表示为:
Figure BDA0003922644890000112
其中,
Figure BDA0003922644890000113
表示最优路径P*上的路径点,n为路径点的数量,
Figure BDA0003922644890000114
表示从路径点
Figure BDA0003922644890000115
到路径点
Figure BDA0003922644890000116
的子路径段。路径表示形式如图1所示。
步骤2,基于学习和采样的AUV信息性路径规划方法
在上一步骤中,对Q-learning算法实现AUV最短路径规划的原理进行了介绍。本步骤将对基于学习和采样的AUV信息性路径规划方法进行详细说明。首先,为了提高计算效率,提出了基于概率路线图的Q-learning混合路径规划方法。其次,为了解决考虑洋流影响的IPP问题,对混合路径规划方法中Q-learning的奖励矩阵进行了专门的设计。最后,介绍了所提出的混合路径规划方法如何方便地实现AUV的自动返航功能。
步骤2.1,基于概率路线图的Q-learning混合路径规划方法
Q-learning中Q-table学习和更新的效率与状态空间和动作空间的维度有关。当状态空间和动作空间较大时,算法的收敛速度会很慢。针对这一问题,本发明引入了基于采样的概率路线图方法来降低Q-learning的空间维度。概率路线图方法的基本思想是通过随机采样构建一个包含可能路径的网络图,并从中搜索路径。概率路线图方法主要包括两个阶段:图的构建阶段和图的搜索阶段。
在图的构建阶段,构建一个路线图来表示AUV周围的工作环境。首先,将环境初始化为一个空的无向图G(S,A),其中顶点集S表示一组无碰撞的AUV位置节点,即Q-learning中的状态空间。边集A表示无碰撞的路径集合,即Q-learning中的动作空间。然后,使用均匀随机采样(URS)法和K最近邻(KNN)算法构造路线图。使用URS方法,在自由空间中采样无碰撞的节点si(i=1,2,…,N),并添加到顶点集S中,如图2最左边图所示。然后使用KNN算法搜索si的k个邻居节点,将节点si分别与它的k个邻居节点相连,生成连线以构建路线图。同时,检查连线是否与任何障碍物碰撞,将无碰撞的连线添加到边集A中,否则删除连线,如图2中间图所示。由此,便得到了构建的低维无碰撞概率路线图,如图2最右边图所示。
在图的搜索阶段,将Q-learning算法与生成的概率路线图集成在一起。概率路线图作为Q-learning算法的输入用来构建奖励矩阵R和Q-table。将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间。更具体地说,假设构建的概率路线图如图3所示,随机采样的节点数量为N,图中的每个节点si(i=1,2,…,N)表示一种状态,即AUV的位置。状态s1是初始状态,状态sN是目标状态。动作aj(j=1,2,…,N)由图中每条边上的箭头表示。由此可以看出,与原始环境地图相比,状态空间的维度大大减小。相应地,奖励矩阵和Q-table的维度也大大降低,从而算法的效率得到了提高。
虽然概率路线图能够减少Q-learning中的状态数量,但可能会导致空间覆盖不完全的问题。由于概率路线图中的节点是随机生成的,路径或最优路径不能保证每次运行都会存在。若出现这种情况,会使用重采样的方法构建新的概率路线图。此外,可以适当增加采样节点的数量来提高空间覆盖率,但会牺牲算法的效率。在实际应用中应合理设计相关的算法参数。
步骤2.2,混合路径规划方法实现洋流场中的IPP问题
由于奖励矩阵不关心每个状态位置的信息值和洋流,因此步骤2.1中的混合路径规划方法不能直接应用于洋流场中的IPP问题。受Q-learning算法选择Q值最高的路径的原理启发,进一步采用上述基于概率路线图的Q-learning混合算法,通过对奖励矩阵R的系统设计来实现IPP。
AUV需要沿前进路径Pf对环境信息进行采样,同时要考虑洋流对其能量消耗的影响。对于构造好的概率路线图,如图3所示,首先得到一个初始的奖励矩阵
Figure BDA0003922644890000131
此时,
Figure BDA0003922644890000132
只有三个元素值,即-1,0和10。然后,利用已知的流场和环境信息数据对奖励矩阵
Figure BDA0003922644890000133
进行重新设计。考虑在状态sh处的采样信息值
Figure BDA0003922644890000134
以及由状态sl转移到状态sh时的能量消耗
Figure BDA0003922644890000135
将初始奖励矩阵中的非负值
Figure BDA0003922644890000136
重新设计为:
Figure BDA0003922644890000137
其中,ρ和ω为正常数权重系数。能量消耗
Figure BDA0003922644890000138
由下式(8)进行计算:
Figure BDA0003922644890000139
其中,Pv是AUV的推进功率,与AUV的推进速度大小
Figure BDA00039226448900001310
的立方成正比,ti是AUV沿着子路径段
Figure BDA00039226448900001311
行驶所花费的时间,k为AUV的阻力系数,由AUV自身的设计决定,路径点pi对应于状态sl,路径点pi+1对应于状态sh
Figure BDA00039226448900001312
是AUV在子路径段
Figure BDA00039226448900001313
上行驶时相对于海底的速度,可以通过
Figure BDA00039226448900001314
和洋流速度
Figure BDA00039226448900001315
的矢量合成得到,即:
Figure BDA00039226448900001316
在公式(7)中,有组合奖励rie=ρri-ωre。由于ri和re的单位和数量级不同,对ri和re进行无量纲处理,即进行归一化。采用Min-Max归一化方法,使ri和re的值在[0,1]范围内。同时,为了避免rie中出现负的奖励值,rie也被归一化为在[0,1]范围内,即:
Figure BDA0003922644890000141
由于rie的范围为[0,1],小于初始奖励矩阵
Figure BDA0003922644890000142
中目标位置处的值10,因此不会影响AUV接近目标区域的目的性。通过合理设计ρ和ω的值,可以实现在信息收集和能量消耗之间的合理权衡。重新设计的奖励矩阵
Figure BDA0003922644890000143
如下:
Figure BDA0003922644890000144
AUV在沿前进路径Pf采样的过程中,若能量储备不足,则需以最节能的方式沿返回路径Pr返回起始点。由于在返回路径Pr上AUV不进行采样,只考虑洋流对AUV能量消耗的影响,因此奖励矩阵的设计是不同的。由公式(8)可知,当AUV的推进速度大小一定时,AUV的能量消耗与航行时间成正比。因此,利用AUV航行时间的倒数来重新设计奖励矩阵的值。航行时间越短,能耗越少,AUV获得的奖励值越高。建立初始的奖励矩阵
Figure BDA0003922644890000145
Figure BDA0003922644890000151
AUV要返回到起始点,因此将原来的起始状态s1设置为目标状态,奖励矩阵
Figure BDA0003922644890000152
中对应位置的值为10。然后,根据已知的洋流场数据,以及AUV的推进速度大小和方向,计算得到AUV的航行时间为:
Figure BDA0003922644890000153
其中,Δti,j是AUV从状态位置si(空间二维坐标为[xi,yi])到状态位置sj(空间二维坐标为[xj,yj])所花费的航行时间,lcell为环境空间(如图1所示)中单位网格的长度,
Figure BDA0003922644890000154
为AUV相对于海底的速度大小,可由公式(9)计算得到。经过重新设计得到的奖励矩阵
Figure BDA0003922644890000155
为:
Figure BDA0003922644890000156
在对奖励矩阵进行系统的设计后,可以利用重新设计得到的
Figure BDA0003922644890000157
Figure BDA0003922644890000158
根据公式(2)分别对Q-table进行学习和更新直至其收敛,得到Qf-table和Qr-table,分别表示为矩阵形式Qf(s,a)与Qr(s,a)。同时,AUV学习到最优目标策略
Figure BDA0003922644890000159
Figure BDA00039226448900001510
为:
Figure BDA00039226448900001511
Figure BDA0003922644890000161
根据
Figure BDA0003922644890000162
可以得到AUV的最优前进路径
Figure BDA0003922644890000163
实现IPP任务:
Figure BDA0003922644890000164
根据
Figure BDA0003922644890000165
可以得到AUV的最优返回路径
Figure BDA0003922644890000166
为:
Figure BDA0003922644890000167
步骤2.3,混合路径规划方法实现AUV的自动返航功能
考虑AUV自身能量储备的限制,AUV可能无法到达信息价值最大的目标区域。执行采样任务的AUV能够感知自身的能量储备,并能够在能量不足时自动返回起始点。学习得到的Q-table为此功能的设计提供了很大的便利,将在本步骤进行介绍。
自动返航功能设计如下:
在AUV沿着最优前进路径
Figure BDA0003922644890000168
行驶的每一步,根据AUV已行驶的路径,用(16)计算AUV在当前位置p处的剩余能量Er
Figure BDA0003922644890000169
其中,ei为子路径段
Figure BDA00039226448900001610
上的能量消耗。
找到最优前进路径
Figure BDA00039226448900001611
上的下一个路径点p′。利用学习得到的Qr-table规划从p′到起始点的最优返回路径
Figure BDA00039226448900001612
根据
Figure BDA00039226448900001613
Figure BDA00039226448900001614
计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗Em
将Er与Em进行比较,以确定AUV的能量储备是否足够。若Er≥Em,则能量充足,AUV前往下一路径点p′继续采样,此时AUV的当前位置变为p′。否则,让AUV停止采样,并从收敛的Qr-table中找到从当前位置p返回起始点的最低能耗的返回路径Pr。此时,从起点到当前点AUV所行驶过的路径就是最终的前进路径Pf
连接Pf和Pr形成最终规划的闭合往返轨迹P。在上述过程中,只需要学习一次就可以得到收敛的Qr-table,可以从其中方便地搜索返回路径,为实现自动返航功能提供了便利。
步骤3,仿真结果和讨论
在本步骤中,给出了仿真结果来证明所提出的混合路径规划方法的可行性和有效性。在仿真实验中,二维环境空间大小为10×10,每个单位网格大小为1km1km。因此,在环境空间中总共有100个位置。利用URS方法,采样不同数量的节点,构建概率路线图。采用温度梯度数据作为已知的采样信息。AUV的起始点坐标设为[1,1],目标节点设置为整个环境中温度梯度信息最丰富的3×3区域的中心点[8,8]。这两个点将以与生成概率路线图相同的方式添加到无碰撞路线图中。二维仿真环境如图1所示,其中,深灰色的多边形表示静态障碍物的分布,星号表示起始位置,圆点代表目标位置,背景为温度梯度信息数据的分布,背景上的箭头表示洋流矢量。
相关参数设计如下:AUV的阻力系数k=3.425,AUV的推进速度大小恒定为0.5m/s;Q-learning中的学习参数分别为∈0.9,γ=0.8,α=0.2;奖励函数中的权重系数为ρ=1.5,ω=0.5。
3.1在温度场和洋流场环境中IPP的实现
在初始能量储备Eo不同的情况下,设置采样节点的数量为N75进行了多次模拟,结果如下:
(1)AUV具有足够的能量储备Eo2500J,此时AUV能够完成采样任务并返回起点。使用所提出的基于学习和采样的路径规划方法规划的前进路径和返回路径如图4所示。图中温度梯度绝对值更大的背景区域有更高的信息价值。AUV沿前进路径采样时,同时考虑安全到达目标位置、信息获取和能量消耗三个因素。为了减少能量消耗,AUV试图顺着洋流行驶,并尽可能通过高信息价值区域。返回时,AUV只考虑能量消耗。图中,AUV从目标点返回时,为了沿着洋流行驶,会向左上方行驶一小段距离,但为了返回起点,它会转向下方靠近起点。由于从目标点到起始点,洋流场的总体趋势与AUV的行驶方向相反,因此AUV返回时无法利用洋流,只能尽可能地将能量消耗降到最低。
由于在构建概率路线图时采样的节点是随机生成的,所以设置了不同的随机种子,并进行了100次蒙特卡洛模拟,得到的路径规划结果如图5所示。从图中可以看出,有时规划的路径可能不是最优的,这是由于概率路线图方法采样的随机性。为了解决这个问题,可以人工设置随机种子来选择更好的规划结果。此外,可以设计随机节点的分布趋势,使其倾向于分布在信息价值更高的区域。
(2)AUV的能量储备不足Eo2200J或2000J,此时AUV的能量储备不足以支撑其达到目标区域,无法完成整个采样过程,它将在中途返回到起点。在图6(a)中,AUV的初始能量储备为2200J,当它沿着最优采样前进路径几乎到达目标区域时,它会返回到起始点。否则,它将能量耗尽,无法返回。AUV经过的采样区域主要是信息丰富的区域。返回时,AUV先向右下方行驶一段距离,以利用洋流减少能量消耗,而不是直接向左下方行驶。然后,AUV向左下方行驶回到起点。在图6(b)中,AUV的拥有的初始能量储备更低,为2000J,前进路径变得更短,且AUV在半路返回起点。
(3)AUV的能量储备很少,只有Eo500J,此时AUV由于能量不足无法出发,如图7所示。AUV的初始能量不足以支撑它迈出第一步,尽管它在返回时可以顺着洋流行驶。虽然在实际应用中,AUV可能能够出发行驶一段很短的距离,但地图的分辨率和概率路线图的使用会导致其做出不同的决定。
3.2混合路径规划算法与Q-learning的对比
本步骤中,将提出的混合路径规划方法与单独的Q-learning算法在运行时间、能量消耗和信息增益三方面进行了比较,以证明所提出的算法的优越性。
表1对算法的运行时间,包括学习时间和规划时间,进行了比较。
表1
Figure BDA0003922644890000181
从学习时间的比较可以看出,混合路径规划算法在计算上比Q-learning算法更高效。同时,减少概率路线图中随机采样节点的数量N也可以提高效率。但是,当采样节点数量过少时,算法的完备性不能得到保证。从规划时间的比较可以看出,在初始能量储备不同的情况下,每种算法的规划时间大致相同,这是因为Q-learning学习和更新Q-table的过程需要更多的时间,而根据初始能量搜索路径的过程需要很少的时间。
表2对算法的能量消耗和获得的信息增益方面进行了比较。
表2
Figure BDA0003922644890000191
当初始能量储备Eo5000J时,无论使用哪种算法AUV都可以完成采样任务并回到起点。使用单独的Q-learning算法时,AUV沿着前进路径采样得到的信息是最丰富的,尽管它需要更多的能量和运行时间。对于混合路径规划算法,N75的情况优于其它两种情况。因此,有必要通过合理设置采样节点的数量来平衡算法的效率和性能。
本发明在有洋流存在的温度场环境中,提出了一种基于概率路线图的Q-learning混合路径规划方法,用于AUV进行高效地环境信息采样。首先,采用Q-learning算法求解一般的AUV路径规划问题。为了减轻计算负担,将概率路线图与Q-learning过程相结合,降低了求解问题的维度。然后,针对在洋流场和温度场中的采样问题,即信息性路径规划问题,对Q-learning中的奖励矩阵进行了系统的设计。此外,考虑到AUV的能量储备有限,设计了AUV的自动返航的功能。所提出的算法中只需一次学习就可以实现多次规划的特性,为此项功能的实现提供了极大的便利。结合实际海洋环境数据,仿真验证了提出的混合算法的有效性。通过对各种场景的模拟,AUV能够很好地完成信息性路径规划任务。与单独的Q-learning算法相比,提出的混合算法具有更高的计算效率。因此,该算法在计算资源和决策时间有限的AUV上具有很大的应用潜力。此外,所提出的混合算法不仅局限于所考虑的场景,也适用于其他一般的信息性路径规划问题。

Claims (5)

1.一种基于学习和采样的AUV信息性路径规划方法,其特征在于包括如下具体步骤:
步骤1,使用Q-learning进行AUV路径规划:
步骤1.1,AUV在状态st执行动作at+1,并接收实时奖励值rt+1=R(st,at+1),其中R为奖励矩阵;奖励矩阵R以状态S为行,动作A为列,R(si,aj)表示从当前状态si执行动作aj达到下一个状态sj后获得的奖励值;其中i,j=1,2,...,N;
奖励矩阵R如下:
Figure FDA0003922644880000011
当两个状态不能转移时,对应的矩阵元素设为-1,当两个状态能够转移时,如果状态sj是目标状态,则将矩阵元素设置为10,否则设置为0;
步骤1.2,通过学习和更新建立储存Q值的Q-table的过程,AUV能够学习到一个目标策略π:S→A,该目标策略将状态集S映射到动作集A,AUV将据此选择从当前状态到目标状态的一系列动作,最优的目标策略π*能够指导AUV选择使累积奖励期望Q值最大化的动作,此时AUV能够以一种最节能的方式安全到达目标状态;
对于AUV路径规划问题,状态空间S是AUV所有位置的集合,动作空间A是AUV所有移动的集合;Q值是AUV在某一时刻t,在位置st(st∈S)处采取某一动作at(at∈A)移动到另一个位置的未来累积奖励的期望,定义为:
Figure FDA0003922644880000012
其中,π是目标策略,
Figure FDA0003922644880000013
表示期望运算,ri(i=t+1,t+2,...,t+m)表示AUV在未来时刻i所获得的奖励值;Gt=rt+1+γrt+22rt+3+…+γm-1rt+m表示在当前时刻t的未来m个时刻的累计折扣奖励值,未来时刻的奖励通过乘以折扣系数γ,γ2,…,γm-1反映在当前时刻;
步骤1.3,使用时间差分法学习目标策略π;Q-table中的累积奖励期望Q值的学习和更新过程为:
Figure FDA0003922644880000021
其中,α为学习率,s′为在状态s下执行动作a后到达的下一状态,a′为s′执行的动作,值函数Q(s,a)的值表示在状态s下选择动作a的目标策略π的质量;
通过Q-table中的累积奖励期望Q值的学习和更新这个过程,得到收敛的Q*,并为AUV学习到最优的目标策略π*
利用最优目标策略π*依次选择动作,实现AUV从起始状态到目标状态的路径规划,得到的状态序列对应AUV在空间中的位置;
AUV根据π*选择的动作将最终实现最短路径的规划目标;由得到的状态序列组成的最优路径P*表示为:
Figure FDA0003922644880000022
其中,
Figure FDA0003922644880000023
表示最优路径P*上的路径点,n为路径点的数量,
Figure FDA0003922644880000024
表示从路径点
Figure FDA0003922644880000025
到路径点
Figure FDA0003922644880000026
的子路径段;
步骤2,基于学习和采样的AUV信息性路径规划方法;
步骤2.1,基于概率路线图的Q-learning混合路径规划方法;
概率路线图方法包括两个阶段:图的构建阶段和图的搜索阶段;
在图的构建阶段,构建一个路线图表示AUV周围的工作环境;首先,将环境初始化为一个空的无向图G(S,A),其中顶点集S表示一组无碰撞的AUV位置节点,即Q-learning中的状态空间;边集A表示无碰撞的路径集合,即Q-learning中的动作空间;
其次,使用均匀随机采样URS法和K最近邻KNN算法构造路线图;使用URS方法,在自由空间中采样无碰撞的节点si,i=1,2,...,N,并添加到顶点集S中;
然后,使用KNN算法搜索si的k个邻居节点,将节点si分别与它的k个邻居节点相连,生成连线以构建路线图;同时,检查连线是否与任何障碍物碰撞,将无碰撞的连线添加到边集A中,否则删除连线;
最后,得到构建的低维无碰撞概率路线图;
在图的搜索阶段,将Q-learning算法与生成的概率路线图集成在一起,概率路线图作为Q-learning算法的输入,用于构建奖励矩阵R和Q-table,将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间;
步骤2.2,混合路径规划方法实现洋流场中的IPP问题;
AUV沿前进路径Pf对环境信息进行采样,同时考虑洋流对其能量消耗的影响;对于构造好的概率路线图,得到一个初始的奖励矩阵
Figure FDA0003922644880000031
此时
Figure FDA0003922644880000032
只有三个元素值,即-1,0和10;然后利用已知的流场和环境信息数据对奖励矩阵
Figure FDA0003922644880000033
进行重新设计,考虑在状态sh处的采样信息值
Figure FDA0003922644880000034
以及由状态sl转移到状态sh时的能量消耗
Figure FDA0003922644880000035
将初始奖励矩阵中的非负值
Figure FDA0003922644880000036
重新设计为:
Figure FDA0003922644880000037
其中,ρ和ω为正常数权重系数,能量消耗
Figure FDA0003922644880000038
由下式(8)进行计算:
Figure FDA0003922644880000039
其中,Pv是AUV的推进功率,与AUV的推进速度大小
Figure FDA00039226448800000310
的立方成正比,ti是AUV沿着子路径段
Figure FDA00039226448800000311
行驶所花费的时间,k为AUV的阻力系数,由AUV自身的设计决定,路径点pi对应于状态sl,路径点pi+1对应于状态sh
Figure FDA00039226448800000312
是AUV在子路径段
Figure FDA00039226448800000313
上行驶时相对于海底的速度,通过
Figure FDA00039226448800000314
和洋流速度
Figure FDA00039226448800000315
的矢量合成得到:
Figure FDA00039226448800000316
在公式(7)中,有组合奖励rie=ρri-ωre,对ri和re进行无量纲处理,即进行归一化,采用Min-Max归一化方法,使ri和re的值在[0,1]范围内,同时rie也被归一化为在[0,1]范围内;
通过合理设计ρ和ω值,实现在信息收集和能量消耗之间的合理权衡,重新设计的奖励矩阵
Figure FDA00039226448800000317
如下:
Figure FDA0003922644880000041
AUV在沿前进路径Pf采样的过程中,若能量储备不足,则需以最节能的方式沿返回路径Pr返回起始点;利用AUV航行时间的倒数重新设计奖励矩阵的值,航行时间越短,能耗越少,AUV获得的奖励值越高,建立初始的奖励矩阵
Figure FDA0003922644880000042
如下:
Figure FDA0003922644880000043
AUV返回到起始点,因此将原来的起始状态s1设置为目标状态,奖励矩阵
Figure FDA0003922644880000044
中对应位置的值为10;然后,根据已知的洋流场数据,以及AUV的推进速度大小和方向,计算得到AUV的航行时间为:
Figure FDA0003922644880000045
其中,Δti,j是AUV从状态位置si,空间二维坐标为[xi,yi],到状态位置sj,空间二维坐标为[xj,yj],所花费的航行时间,lcell为环境空间中单位网格的长度,
Figure FDA00039226448800000410
为AUV相对于海底的速度大小,即推进速度,由公式(9)计算得到;经过重新设计得到的奖励矩阵
Figure FDA0003922644880000046
如下:
Figure FDA0003922644880000047
对奖励矩阵进行系统的设计后,利用重新设计得到的
Figure FDA0003922644880000048
Figure FDA0003922644880000049
根据公式(2)分别对Q-table进行学习和更新直至其收敛,得到Qf-table和Qr-table,分别表示为矩阵形式Qf(s,a)与Qr(s,a);AUV学习到最优目标策略
Figure FDA0003922644880000051
Figure FDA0003922644880000052
为:
Figure FDA0003922644880000053
Figure FDA0003922644880000054
根据
Figure FDA0003922644880000055
得到AUV的最优前进路径
Figure FDA0003922644880000056
实现IPP任务:
Figure FDA0003922644880000057
根据
Figure FDA0003922644880000058
得到AUV的最优返回路径
Figure FDA0003922644880000059
为:
Figure FDA00039226448800000510
步骤2.3,混合路径规划方法实现AUV的自动返航功能
在AUV沿着最优前进路径
Figure FDA00039226448800000511
行驶的每一步,根据AUV已行驶的路径,用公式(15)计算AUV在当前位置p处的剩余能量Er
Figure FDA00039226448800000512
其中,ei为子路径段
Figure FDA00039226448800000513
上的能量消耗;
找到最优前进路径
Figure FDA00039226448800000514
上的下一个路径点p′,利用学习得到的Qr-table规划从p′到起始点的最优返回路径
Figure FDA00039226448800000515
根据
Figure FDA00039226448800000516
Figure FDA00039226448800000517
计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗Em
将Er与Em进行比较,确定AUV的能量储备是否足够;若Er≥Em,则能量充足,AUV前往下一路径点p′继续采样,此时AUV的当前位置变为p′;否则,让AUV停止采样,并从收敛的Qr-table中找到从当前位置p返回起始点的最低能耗的返回路径Pr;此时,从起点到当前点AUV所行驶过的路径就是最终的前进路径Pf;连接Pf和Pr形成最终规划的闭合往返轨迹P。
2.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法,其特征在于:在步骤1.2中,所述折扣系数γ∈[0,1),表示AUV有远见的程度,γ越接近1,说明AUV越有远见,即AUV越考虑其动作选择对未来的影响。
3.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法,其特征在于:在步骤1.3中,对于整个学习过程,将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵,然后使用公式(2)对Q-table进行迭代更新;
在每次的迭代过程中,从随机选择的初始状态中,根据行为策略选择一个动作a;在执行动作a后,得到下一状态s’;
当R(s,a)的值为-1时,进行新的迭代;否则,使用公式(2)对Q(s,a)的值进行更新并到达状态s’;
重复上述过程,直到达到目标状态,此次迭代终止;如果达到Q-table的收敛条件,整个学习过程就此结束。
4.根据权利要求1或3所述一种基于学习和采样的AUV信息性路径规划方法,其特征在于:在步骤1.3中,从公式(2)中看出,Q-table的收敛条件为对于每一个状态s和动作a有:
R(s,a)+γmaxa′Q(s′,a′)=Q(s,a) (3)
或者表示为
|R(s,a)+γmaxa′Q(s′,a′)-Q(s,a)|<δ (4)
其中,δ为一个非常小的正常数;当满足公式(4)中的条件后,Q-table是收敛的,此时基于收敛的Q-table,即Q*,得到的最优目标策略π*表示为:
π*(s)=argmaxaQ*(s,a) (5)。
5.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法,其特征在于:在步骤2.1中,虽然概率路线图能够减少Q-learning中的状态数量,但存在导致空间覆盖不完全的问题,若出现这种情况,使用重采样的方法构建新的概率路线图;
此外,适当增加采样节点的数量提高空间覆盖率。
CN202211381884.0A 2022-11-02 2022-11-02 一种基于学习和采样的auv信息性路径规划方法 Pending CN115686031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211381884.0A CN115686031A (zh) 2022-11-02 2022-11-02 一种基于学习和采样的auv信息性路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211381884.0A CN115686031A (zh) 2022-11-02 2022-11-02 一种基于学习和采样的auv信息性路径规划方法

Publications (1)

Publication Number Publication Date
CN115686031A true CN115686031A (zh) 2023-02-03

Family

ID=85049396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211381884.0A Pending CN115686031A (zh) 2022-11-02 2022-11-02 一种基于学习和采样的auv信息性路径规划方法

Country Status (1)

Country Link
CN (1) CN115686031A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116519005A (zh) * 2023-07-04 2023-08-01 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116519005A (zh) * 2023-07-04 2023-08-01 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置
CN116519005B (zh) * 2023-07-04 2023-10-03 上海云骥跃动智能科技发展有限公司 一种路径规划方法及装置

Similar Documents

Publication Publication Date Title
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Che et al. An improved ant colony optimization algorithm based on particle swarm optimization algorithm for path planning of autonomous underwater vehicle
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN108459503B (zh) 一种基于量子蚁群算法的无人水面艇航迹规划方法
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN114625151B (zh) 一种基于强化学习的水下机器人避障路径规划方法
Li et al. Three-dimensional path planning for AUVs in ocean currents environment based on an improved compression factor particle swarm optimization algorithm
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
CN113051815A (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
CN115686031A (zh) 一种基于学习和采样的auv信息性路径规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
Chowdhury et al. Optimal path planning of autonomous marine vehicles in stochastic dynamic ocean flows using a GPU-accelerated algorithm
Wang Reinforcement learning for combinatorial optimization
Cui et al. Multi-strategy adaptable ant colony optimization algorithm and its application in robot path planning
CN110989602A (zh) 医学病理检验实验室内自主引导车路径规划方法及系统
Gong et al. A mutation operator self-adaptive differential evolution particle swarm optimization algorithm for USV navigation
Zang et al. Research on Constraining Strategies of Underwater Glider's Trajectory Under the Influence of Ocean Currents Based on DQN Algorithm
CN113790729B (zh) 一种基于强化学习算法的无人天车路径规划方法及装置
Wang et al. Deep Reinforcement Learning-Based Periodic Earth Observation Scheduling for Agile Satellite Constellation
Nai et al. A Vehicle Path Planning Algorithm Based on Mixed Policy Gradient Actor‐Critic Model with Random Escape Term and Filter Optimization
Wenwen Application Research of end to end behavior decision based on deep reinforcement learning
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking
Zheng et al. Path planning of stratospheric airship in dynamic wind field based on deep reinforcement learning
Yu et al. Learning and Sampling-Based Informative Path Planning for AUVs in Ocean Current Fields
Liu et al. Ship Path Planning Based on AlphaZero Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination