CN115686031A

CN115686031A - 一种基于学习和采样的auv信息性路径规划方法

Info

Publication number: CN115686031A
Application number: CN202211381884.0A
Authority: CN
Inventors: 郑华荣; 于颖; 徐文
Original assignee: Yuyao Robot Research Center; Zhejiang University ZJU
Current assignee: Yuyao Robot Research Center; Zhejiang University ZJU
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-02-03

Abstract

本发明公开了一种基于学习和采样的AUV信息性路径规划方法，属于自主水下航行器的路径规划领域。本发明首先，使用Q‑learning进行AUV路径规划。然后，完成基于概率路线图的Q‑learning混合路径规划方法，降低求解问题的维度，通过混合路径规划方法实现洋流场中的IPP问题。最后，通过混合路径规划方法实现AUV的自动返航功能。本发明不仅能解决多目标优化问题，还具有运算效率高的优点，既最小化AUV的能量消耗，又考虑了AUV采样信息价值的最大化，同时实现避障，为AUV规划一条安全的最优路径，以及能够实现AUV自动返航的功能。

Description

一种基于学习和采样的AUV信息性路径规划方法

技术领域

本发明属于自主水下航行器的路径规划领域，具体涉及一种考虑洋流影响的基于学习和采样的自主水下航行器的信息性路径规划方法。

背景技术

考虑洋流影响的自主水下航行器(AUV)的信息性路径规划，信息性路径规划(IPP)是指在满足预算约束条件下为AUV规划一条最大化采样信息价值的路径。同时，在海洋环境中，要考虑洋流的存在对AUV运动的影响。

很多考虑洋流影响的路径规划方法被提出，以确定能量消耗最低或航行时间最短的最优路径。基于图的搜索方法被广泛应用于海洋环境中的路径规划问题，例如Dijkstra算法和A*算法，该类算法采用环境的离散表示，具有良好的一致性和收敛性，但在时变的洋流场环境下很难求解。水平集方法是在随时间动态变化的流场中进行水下航行器路径规划的有效方法，但也可能存在计算问题。势场法是在障碍物和目标上人工产生斥力场和引力场，从而计算出水下航行器的安全路径的方法，该方法能够有效地解决避障问题，但往往会产生局部最优解并且不能考虑所有的洋流变量。粒子群优化方法也被应用于路径规划研究，以获得全局最优路径，但其存在过早收敛等问题。在复杂的海洋环境下，路径规划有时需要考虑多目标优化问题，例如在混合整数非线性规划的优化问题中，提出了一个时空网络模型，该模型能在最小化循环时间的同时降低能耗，同时实现避碰。

IPP问题最一般的形式是在一组约束条件下，找到一条使信息增益最大化的路径。已有多种解决方法被提出。例如，采用智能生成快速探索随机循环方法为传感机器人规划信息性路径，以实现周期性持续环境监测，并生成高斯随机场分布的最佳估计。针对IPP问题，子模奖励函数和部分可观察的马尔可夫决策过程被提出，然而这些方法通常很难应用于大规模问题实例。同时考虑预算约束和信息增益的IPP问题可以使用组合优化问题来表述，具体的求解方法包括递归贪婪算法、分支界定技术等，但随着预算的增加和搜索空间的扩大，IPP问题的规模通常会呈指数级增长。IPP问题与自适应采样密切相关，在自适应采样中，目标是访问预测不确定性最小或信息增益最大的观测位置。基于迭代自适应采样的快速探索信息采集算法被提出，用于解决IPP问题。为了计算IPP问题的最优解，一种方法是选择一组“有信息量”的感知位置，然后以最低的成本去遍历这些位置；另一种方法是在有限范围内搜索和规划，可以结合基于采样的方法实现渐进最优性。

基于采样的方法由于在处理高维问题方面具有优势，也被广泛应用于AUV的路径规划中，例如概率路线图、快速探索随机树(RRT)等方法被提出，这些算法都能在适当的计算时间内渐进逼近最优解。通过使用分支界定技术对搜索树进行剪枝，提出了一种RRT算法的变体，即RRT*算法，该方法具有实时功能。基于采样的方法是为AUV的信息收集任务生成最优采样路径的最佳方法之一。然而，现有的基于采样的路径规划方法大多数是在没有考虑预算约束的情况下最小化路径代价，因此不能直接应用于IPP问题。

发明内容

为了解决现有AUV路径规划研究中没有综合考虑洋流影响、信息采集以及静态避障的问题，本发明提出一种基于学习和采样的AUV信息性路径规划方法。本发明所提出的方法扩展了基于采样的路径规划技术，以改进对IPP问题的求解，利用概率路线图对IPP算法进行效率提升，既最小化AUV的能量消耗，又考虑了AUV采样信息价值的最大化，同时实现避障，为AUV规划一条安全的最优路径。该方法不仅能解决多目标优化问题，还具有运算效率高的优点以及能够实现AUV自动返航的功能。

本发明解决其技术问题所采用的技术方案是：

本发明包括如下具体步骤：

步骤1，使用Q-learning进行AUV路径规划：

步骤1.1，AUV在状态s_t执行动作a_t+1，并接收实时奖励值r_t+1＝R(s_t,a_t+1)，其中R为奖励矩阵。奖励矩阵R以状态S为行，动作A为列。R(s_i,a_j)(i,j1,2,…,N)表示从当前状态s_i执行动作a_j达到下一个状态s_j后获得的奖励值。奖励矩阵R如下：

当两个状态不能转移时，对应的矩阵元素设为-1。当两个状态能够转移时，如果状态s_j是目标状态，则将矩阵元素设置为10，否则设置为0。

步骤1.2，通过学习和更新建立储存Q值的Q-table的过程，AUV能够学习到一个目标策略π:S→A，该目标策略将状态集S映射到动作集A，AUV将据此选择从当前状态到目标状态的一系列动作。最优的目标策略π^*能够指导AUV选择使累积奖励期望Q值最大化的动作，此时AUV能够以一种最节能的方式安全到达目标状态。

对于AUV路径规划问题，状态空间S是AUV所有可能位置的集合，动作空间A是AUV所有可能移动的集合。Q值是AUV在某一时刻t，在位置s_t(s_t∈S)处采取某一动作a_t(a_t∈A)移动到另一个位置的未来累积奖励的期望，定义为：

其中，π是目标策略，

表示期望运算，r_i(i＝t+1,t+2,…,t+m)表示AUV在未来时刻i所获得的奖励值。G_t＝r_t+1+γr_t+2+γ²r_t+3+…+γ^m-1r_t+m表示在当前时刻t的未来m个时刻的累计折扣奖励值，未来时刻的奖励通过乘以折扣系数γ,γ²,…,γ^m-1反映在当前时刻。折扣系数γ∈[0,1)表示AUV有远见的程度，γ越接近1，说明AUV越有远见，即AUV越会考虑其动作选择对未来的影响。

步骤1.3，使用时间差分法学习目标策略π。Q-table中的累积奖励期望Q值的学习和更新过程为：

其中，α为学习率，s′为在状态s下执行动作a后到达的下一状态。值函数Q(s,a)的值表示在状态s下选择动作a的目标策略π的质量。

对于整个学习过程，首先将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵，然后使用公式(2)对Q-table进行迭代更新。在每次的迭代过程中，从随机选择的初始状态中，根据行为策略选择一个动作a。在执行动作a后，得到下一状态s’。当R(s,a)的值为-1时，进行新的迭代。否则，使用公式(2)对Q(s,a)的值进行更新并到达状态s’。重复上述过程，直到达到目标状态，此次迭代终止。如果达到Q-table的收敛条件，整个学习过程就此结束。

通过Q-table中的累积奖励期望Q值的学习和更新这个过程，能够得到收敛的Q^*，并为AUV学习到最优的目标策略π^*。从公式(2)中可以看出，Q-table的收敛条件为对于每一个状态s和动作a有：

R(s,a)+γmax_a,Q(s',a')＝Q(s,a) (3)

或者表示为：

|R(s,a)+γmax_a,Q(s',a')-Q(s,a)|<δ (4)

其中，δ为一个非常小的正常数。当满足公式(4)中的条件后，可以认为Q-table是收敛的，此时基于收敛的Q-table，即Q^*，得到的最优目标策略π^*表示为：

利用最优目标策略π^*依次选择动作，实现AUV从起始状态到目标状态的路径规划。得到的状态序列对应AUV在空间中的位置。由于奖励矩阵是专门为AUV到达目标位置而设计的，因此AUV根据π^*选择的动作将最终实现最短路径的规划目标。由得到的状态序列组成的最优路径P^*表示为：

其中，

表示最优路径P^*上的路径点，n为路径点的数量，

表示从路径点

到路径点

的子路径段。

步骤2，基于学习和采样的AUV信息性路径规划方法

步骤2.1，基于概率路线图的Q-learning混合路径规划方法

概率路线图方法主要包括两个阶段：图的构建阶段和图的搜索阶段。

在图的构建阶段，构建一个路线图表示AUV周围的工作环境。首先，将环境初始化为一个空的无向图G(S,A)，其中顶点集S表示一组无碰撞的AUV位置节点，即Q-learning中的状态空间。边集A表示无碰撞的路径集合，即Q-learning中的动作空间。其次，使用均匀随机采样(URS)法和K最近邻(KNN)算法构造路线图。使用URS方法，在自由空间中采样无碰撞的节点s_i(i1,2,…,N)，并添加到顶点集S中。然后，使用KNN算法搜索s_i的k个邻居节点，将节点s_i分别与它的k个邻居节点相连，生成连线以构建路线图。同时，检查连线是否与任何障碍物碰撞，将无碰撞的连线添加到边集A中，否则删除连线。最后，便得到了构建的低维无碰撞概率路线图。

在图的搜索阶段，将Q-learning算法与生成的概率路线图集成在一起。概率路线图作为Q-learning算法的输入用来构建奖励矩阵R和Q-table。将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间。

步骤2.2，混合路径规划方法实现洋流场中的IPP问题

AUV需要沿前进路径P_f对环境信息进行采样，同时要考虑洋流对其能量消耗的影响。对于构造好的概率路线图，首先得到一个初始的奖励矩阵

此时，

只有三个元素值，即-1，0和10。然后，利用已知的流场和环境信息数据对奖励矩阵

进行重新设计。考虑在状态s_h处的采样信息值

以及由状态s_l转移到状态s_h时的能量消耗

将初始奖励矩阵中的非负值

重新设计为：

其中，ρ和ω为正常数权重系数。能量消耗

由下式(8)进行计算：

其中，P_v是AUV的推进功率，与AUV的推进速度大小

的立方成正比，t_i是AUV沿着子路径段

行驶所花费的时间，k为AUV的阻力系数，由AUV自身的设计决定，路径点p_i对应于状态s_l，路径点p_i+1对应于状态s_h，

是AUV在子路径段

上行驶时相对于海底的速度，可以通过

和洋流速度

的矢量合成得到，即：

在公式(7)中，有组合奖励r_ie＝ρr_i-ωr_e。由于r_i和r_e的单位和数量级不同，对r_i和r_e进行无量纲处理，即进行归一化。采用Min-Max归一化方法，使r_i和r_e的值在[0,1]范围内。同时，为了避免r_ie中出现负的奖励值，r_ie也被归一化为在[0,1]范围内。

由于r_ie的范围为[0,1]，小于初始奖励矩阵

中目标位置处的值10，因此不会影响AUV接近目标区域的目的性。通过合理设计ρ和ω的值，可以实现在信息收集和能量消耗之间的合理权衡。重新设计的奖励矩阵

如下：

AUV在沿前进路径P_f采样的过程中，若能量储备不足，则需以最节能的方式沿返回路径P_r返回起始点。由于在返回路径P_r上AUV不进行采样，只考虑洋流对AUV能量消耗的影响，因此奖励矩阵的设计是不同的。由公式(8)可知，当AUV的推进速度大小一定时，AUV的能量消耗与航行时间成正比。因此，利用AUV航行时间的倒数来重新设计奖励矩阵的值。航行时间越短，能耗越少，AUV获得的奖励值越高。建立初始的奖励矩阵

如下：

AUV要返回到起始点，因此将原来的起始状态s₁设置为目标状态，奖励矩阵

中对应位置的值为10。然后，根据已知的洋流场数据，以及AUV的推进速度大小和方向，计算得到AUV的航行时间为：

其中，Δt_i,j是AUV从状态位置s_i(空间二维坐标为[x_i,y_i])到状态位置s_j(空间二维坐标为[x_j,y_j])所花费的航行时间，l_cell为环境空间中单位网格的长度，

为AUV相对于海底的速度大小，即推进速度，可由公式(9)计算得到。经过重新设计得到的奖励矩阵

如下：

在对奖励矩阵进行系统的设计后，可以利用重新设计得到的

和

根据公式(2)分别对Q-table进行学习和更新直至其收敛，得到Q^f-table和Q^r-table，分别表示为矩阵形式Q^f(s,a)与Q^r(s,a)。同时，AUV学习到最优目标策略

和

为：

根据

可以得到AUV的最优前进路径

实现IPP任务：

根据

可以得到AUV的最优返回路径

为：

步骤2.3，混合路径规划方法实现AUV的自动返航功能

自动返航功能设计如下：

在AUV沿着最优前进路径

行驶的每一步，根据AUV已行驶的路径，用公式(15)计算AUV在当前位置p处的剩余能量E_r：

其中，e_i为子路径段

上的能量消耗。

找到最优前进路径

上的下一个路径点p′。利用学习得到的Q^r-table规划从p′到起始点的最优返回路径

根据

和

计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗E_m。

将E_r与E_m进行比较，以确定AUV的能量储备是否足够。若E_r≥E_m，则能量充足，AUV前往下一路径点p′继续采样，此时AUV的当前位置变为p′。否则，让AUV停止采样，并从收敛的Q^r-table中找到从当前位置p返回起始点的最低能耗的返回路径P_r。此时，从起点到当前点AUV所行驶过的路径就是最终的前进路径P_f。

连接P_f和P_r形成最终规划的闭合往返轨迹P。在上述过程中，只需要学习一次就可以得到收敛的Q^r-table，可以从其中方便地搜索返回路径，为实现自动返航功能提供了便利。

本发明的有益效果是：

提出的基于概率路线图的Q-learning混合路径规划方法，可用于AUV进行高效地环境信息采样。首先，将概率路线图与Q-learning过程相结合，降低了求解问题的维度，减轻了计算负担。然后，针对在洋流场和温度场中的采样问题，即信息性路径规划问题，对Q-learning中的奖励矩阵进行了系统的设计。此外，考虑到AUV的能量储备有限，设计了AUV的自动返航的功能。所提出的算法中只需一次学习就可以实现多次规划的特性，为此项功能的实现提供了极大的便利。本发明在计算资源和决策时间有限的AUV上具有很大的应用潜力。本发明不仅能解决多目标优化问题，还具有运算效率高的优点，既最小化AUV的能量消耗，又考虑了AUV采样信息价值的最大化，同时实现避障，为AUV规划一条安全的最优路径，以及能够实现AUV自动返航的功能。

此外，本发明所提出的混合路径规划算法不仅局限于本发明所考虑的场景，也适用于其他一般的信息性路径规划问题。

附图说明

图1为AUV所在的环境空间以及路径形式表示的示意图；

图2为概率路线图的构建过程示意图；

图3为构建的概率路线图的示意图；

图4为E_o2500J的路径规划结果示意图；

图5为蒙特卡洛模拟结果示意图；

图6(a)E_o2200J的场景；

图6(b)E_o2000J的场景；

图7为E_o500J的路径规划结果示意图。

具体实施方式

本发明提出一种基于学习和采样的AUV信息性路径规划方法，同时考虑障碍物的存在、洋流的对AUV运动的影响和对环境信息采样，本发明解决了在洋流场存在的环境中为AUV规划一条满足预算约束的采样信息最大化的安全路径的问题。本发明使用强化学习中的Q-learning算法，利用环境信息和洋流场的先验知识设计奖励矩阵，基于该奖励矩阵对Q-table进行学习和更新直至收敛，通过遍历收敛的Q-table来为AUV构建一条信息丰富的最优安全路径。此外，为了提高Q-learning方法的效率，将概率路线图与之结合，以降低Q-learning方法中状态空间和Q-table的维度。在经过一次完整的学习至收敛的Q-table中能够搜索到任意两个位置节点之间的路径，利用这一特性本发明设计了AUV在其能量不足时自动返航的功能。

本发明解决其技术问题所采用的技术方案是：

本发明包括如下具体步骤：

步骤1，使用Q-learning进行AUV路径规划：

Q-learning是一种基于值的强化学习方法，通过显式学习一个值函数Q(s,a)来隐式学习目标策略π。Q-learning算法的主要思想是构造状态集S和动作集A，然后建立一个储存Q值的Q-table来评估所选取的动作的好坏。偏好的动作将获得奖励，否则将受到惩罚。具体来说，AUV在状态s_t执行动作a_t+1，并接收实时奖励值r_t+1＝R(s_t,a_t+1)，其中R为奖励矩阵。奖励矩阵R以状态S为行，动作A为列。R(s_i,a_j)(i,j＝1,2,…,N)表示从当前状态s_i执行动作a_j达到状态s_j后获得的奖励值。当两个状态不能转移时，对应的矩阵元素设为-1。当两个状态能够转移时，如果状态s_j是目标状态，则将矩阵元素设置为10，否则设置为0。奖励矩阵R如下：

通过学习和更新建立Q-table的过程，AUV能够学习到一个目标策略π:S→A，该目标策略将状态集S映射到动作集A，AUV将据此选择从当前状态到目标状态的一系列动作。最优的目标策略π^*能够指导AUV选择使累积奖励期望Q值最大化的动作。根据学习到的最优策略π^*，AUV能够以一种最节能的方式安全到达目标状态。

其中，π是目标策略，

表示期望运算，r_i(i＝t+1,t+2,…,t+m)表示AUV在未来时刻i所获得的奖励值。G_t＝r_t+1+γr_t+2+γ²r_t+3+…γ^m-1r_t+m表示在当前时刻t的未来m个时刻的累计折扣奖励值，未来时刻的奖励通过乘以折扣系数γ,γ²,…,γ^m-1反映在当前时刻。折扣系数γ∈[0,1)表示AUV有远见的程度，γ越接近1，说明AUV越有远见，即AUV越会考虑其动作选择对未来的影响。

使用时间差分法学习目标策略π。Q-table中的累积奖励期望Q值的学习和更新过程为：

其中，α为学习率，s′为在状态s下执行动作a后到达的下一状态。Q(s,a)的值表示在状态s下选择动作a的目标策略π的质量。

对于整个学习过程，首先将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵，然后使用公式(2)对Q-table进行迭代更新。在每次的迭代过程中，从随机选择的初始状态中，根据行为策略(例如∈greedy，即以∈的概率随机选择一个动作，以(1-∈)的概率按照目标策略π去选择一个动作)选择一个动作a。在执行动作a后，得到下一状态s’。当R(s,a)的值为-1时，进行新的迭代。否则，使用公式(2)对Q(s,a)的值进行更新并到达状态s’。重复上述过程，直到达到目标状态，此次迭代终止。如果达到Q-table的收敛条件，整个学习过程就此结束。

Q-table的学习和更新是Q-learning算法的核心。通过这个过程，能够得到收敛的Q^*，并为AUV学习到最优的目标策略π^*。从公式(2)中可以看出，Q-table的收敛条件为对于每一个状态s和动作a有：

R(s,a)+γmax_a,Q(s',a')＝Q(s,a) (3)

或者表示为：

|R(s,a)+γmax_a,Q(S',a')-Q(s,a)|<δ (4)

其中，

表示最优路径P^*上的路径点，n为路径点的数量，

表示从路径点

到路径点

的子路径段。路径表示形式如图1所示。

步骤2，基于学习和采样的AUV信息性路径规划方法

在上一步骤中，对Q-learning算法实现AUV最短路径规划的原理进行了介绍。本步骤将对基于学习和采样的AUV信息性路径规划方法进行详细说明。首先，为了提高计算效率，提出了基于概率路线图的Q-learning混合路径规划方法。其次，为了解决考虑洋流影响的IPP问题，对混合路径规划方法中Q-learning的奖励矩阵进行了专门的设计。最后，介绍了所提出的混合路径规划方法如何方便地实现AUV的自动返航功能。

步骤2.1，基于概率路线图的Q-learning混合路径规划方法

Q-learning中Q-table学习和更新的效率与状态空间和动作空间的维度有关。当状态空间和动作空间较大时，算法的收敛速度会很慢。针对这一问题，本发明引入了基于采样的概率路线图方法来降低Q-learning的空间维度。概率路线图方法的基本思想是通过随机采样构建一个包含可能路径的网络图，并从中搜索路径。概率路线图方法主要包括两个阶段：图的构建阶段和图的搜索阶段。

在图的构建阶段，构建一个路线图来表示AUV周围的工作环境。首先，将环境初始化为一个空的无向图G(S,A)，其中顶点集S表示一组无碰撞的AUV位置节点，即Q-learning中的状态空间。边集A表示无碰撞的路径集合，即Q-learning中的动作空间。然后，使用均匀随机采样(URS)法和K最近邻(KNN)算法构造路线图。使用URS方法，在自由空间中采样无碰撞的节点s_i(i＝1,2,…,N)，并添加到顶点集S中，如图2最左边图所示。然后使用KNN算法搜索s_i的k个邻居节点，将节点s_i分别与它的k个邻居节点相连，生成连线以构建路线图。同时，检查连线是否与任何障碍物碰撞，将无碰撞的连线添加到边集A中，否则删除连线，如图2中间图所示。由此，便得到了构建的低维无碰撞概率路线图，如图2最右边图所示。

在图的搜索阶段，将Q-learning算法与生成的概率路线图集成在一起。概率路线图作为Q-learning算法的输入用来构建奖励矩阵R和Q-table。将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间。更具体地说，假设构建的概率路线图如图3所示，随机采样的节点数量为N，图中的每个节点s_i(i＝1,2,…,N)表示一种状态，即AUV的位置。状态s₁是初始状态，状态s_N是目标状态。动作a_j(j＝1,2,…,N)由图中每条边上的箭头表示。由此可以看出，与原始环境地图相比，状态空间的维度大大减小。相应地，奖励矩阵和Q-table的维度也大大降低，从而算法的效率得到了提高。

虽然概率路线图能够减少Q-learning中的状态数量，但可能会导致空间覆盖不完全的问题。由于概率路线图中的节点是随机生成的，路径或最优路径不能保证每次运行都会存在。若出现这种情况，会使用重采样的方法构建新的概率路线图。此外，可以适当增加采样节点的数量来提高空间覆盖率，但会牺牲算法的效率。在实际应用中应合理设计相关的算法参数。

步骤2.2，混合路径规划方法实现洋流场中的IPP问题

由于奖励矩阵不关心每个状态位置的信息值和洋流，因此步骤2.1中的混合路径规划方法不能直接应用于洋流场中的IPP问题。受Q-learning算法选择Q值最高的路径的原理启发，进一步采用上述基于概率路线图的Q-learning混合算法，通过对奖励矩阵R的系统设计来实现IPP。

AUV需要沿前进路径P_f对环境信息进行采样，同时要考虑洋流对其能量消耗的影响。对于构造好的概率路线图，如图3所示，首先得到一个初始的奖励矩阵

此时，

进行重新设计。考虑在状态s_h处的采样信息值

以及由状态s_l转移到状态s_h时的能量消耗

将初始奖励矩阵中的非负值

重新设计为：

其中，ρ和ω为正常数权重系数。能量消耗

由下式(8)进行计算：

其中，P_v是AUV的推进功率，与AUV的推进速度大小

的立方成正比，t_i是AUV沿着子路径段

是AUV在子路径段

上行驶时相对于海底的速度，可以通过

和洋流速度

的矢量合成得到，即：

在公式(7)中，有组合奖励r_ie＝ρr_i-ωr_e。由于r_i和r_e的单位和数量级不同，对r_i和r_e进行无量纲处理，即进行归一化。采用Min-Max归一化方法，使r_i和r_e的值在[0,1]范围内。同时，为了避免r_ie中出现负的奖励值，r_ie也被归一化为在[0,1]范围内，即：

由于r_ie的范围为[0,1]，小于初始奖励矩阵

如下：

其中，Δt_i,j是AUV从状态位置s_i(空间二维坐标为[x_i,y_i])到状态位置s_j(空间二维坐标为[x_j,y_j])所花费的航行时间，l_cell为环境空间(如图1所示)中单位网格的长度，

为AUV相对于海底的速度大小，可由公式(9)计算得到。经过重新设计得到的奖励矩阵

为：

在对奖励矩阵进行系统的设计后，可以利用重新设计得到的

和

和

为：

根据

可以得到AUV的最优前进路径

实现IPP任务：

根据

可以得到AUV的最优返回路径

为：

步骤2.3，混合路径规划方法实现AUV的自动返航功能

考虑AUV自身能量储备的限制，AUV可能无法到达信息价值最大的目标区域。执行采样任务的AUV能够感知自身的能量储备，并能够在能量不足时自动返回起始点。学习得到的Q-table为此功能的设计提供了很大的便利，将在本步骤进行介绍。

自动返航功能设计如下：

在AUV沿着最优前进路径

行驶的每一步，根据AUV已行驶的路径，用(16)计算AUV在当前位置p处的剩余能量E_r：

其中，e_i为子路径段

上的能量消耗。

找到最优前进路径

根据

和

步骤3，仿真结果和讨论

在本步骤中，给出了仿真结果来证明所提出的混合路径规划方法的可行性和有效性。在仿真实验中，二维环境空间大小为10×10，每个单位网格大小为1km1km。因此，在环境空间中总共有100个位置。利用URS方法，采样不同数量的节点，构建概率路线图。采用温度梯度数据作为已知的采样信息。AUV的起始点坐标设为[1,1]，目标节点设置为整个环境中温度梯度信息最丰富的3×3区域的中心点[8,8]。这两个点将以与生成概率路线图相同的方式添加到无碰撞路线图中。二维仿真环境如图1所示，其中，深灰色的多边形表示静态障碍物的分布，星号表示起始位置，圆点代表目标位置，背景为温度梯度信息数据的分布，背景上的箭头表示洋流矢量。

相关参数设计如下：AUV的阻力系数k＝3.425，AUV的推进速度大小恒定为0.5m/s；Q-learning中的学习参数分别为∈0.9，γ＝0.8，α＝0.2；奖励函数中的权重系数为ρ＝1.5，ω＝0.5。

3.1在温度场和洋流场环境中IPP的实现

在初始能量储备E_o不同的情况下，设置采样节点的数量为N75进行了多次模拟，结果如下：

(1)AUV具有足够的能量储备E_o2500J，此时AUV能够完成采样任务并返回起点。使用所提出的基于学习和采样的路径规划方法规划的前进路径和返回路径如图4所示。图中温度梯度绝对值更大的背景区域有更高的信息价值。AUV沿前进路径采样时，同时考虑安全到达目标位置、信息获取和能量消耗三个因素。为了减少能量消耗，AUV试图顺着洋流行驶，并尽可能通过高信息价值区域。返回时，AUV只考虑能量消耗。图中，AUV从目标点返回时，为了沿着洋流行驶，会向左上方行驶一小段距离，但为了返回起点，它会转向下方靠近起点。由于从目标点到起始点，洋流场的总体趋势与AUV的行驶方向相反，因此AUV返回时无法利用洋流，只能尽可能地将能量消耗降到最低。

由于在构建概率路线图时采样的节点是随机生成的，所以设置了不同的随机种子，并进行了100次蒙特卡洛模拟，得到的路径规划结果如图5所示。从图中可以看出，有时规划的路径可能不是最优的，这是由于概率路线图方法采样的随机性。为了解决这个问题，可以人工设置随机种子来选择更好的规划结果。此外，可以设计随机节点的分布趋势，使其倾向于分布在信息价值更高的区域。

(2)AUV的能量储备不足E_o2200J或2000J，此时AUV的能量储备不足以支撑其达到目标区域，无法完成整个采样过程，它将在中途返回到起点。在图6(a)中，AUV的初始能量储备为2200J，当它沿着最优采样前进路径几乎到达目标区域时，它会返回到起始点。否则，它将能量耗尽，无法返回。AUV经过的采样区域主要是信息丰富的区域。返回时，AUV先向右下方行驶一段距离，以利用洋流减少能量消耗，而不是直接向左下方行驶。然后，AUV向左下方行驶回到起点。在图6(b)中，AUV的拥有的初始能量储备更低，为2000J，前进路径变得更短，且AUV在半路返回起点。

(3)AUV的能量储备很少，只有E_o500J，此时AUV由于能量不足无法出发，如图7所示。AUV的初始能量不足以支撑它迈出第一步，尽管它在返回时可以顺着洋流行驶。虽然在实际应用中，AUV可能能够出发行驶一段很短的距离，但地图的分辨率和概率路线图的使用会导致其做出不同的决定。

3.2混合路径规划算法与Q-learning的对比

本步骤中，将提出的混合路径规划方法与单独的Q-learning算法在运行时间、能量消耗和信息增益三方面进行了比较，以证明所提出的算法的优越性。

表1对算法的运行时间，包括学习时间和规划时间，进行了比较。

表1

从学习时间的比较可以看出，混合路径规划算法在计算上比Q-learning算法更高效。同时，减少概率路线图中随机采样节点的数量N也可以提高效率。但是，当采样节点数量过少时，算法的完备性不能得到保证。从规划时间的比较可以看出，在初始能量储备不同的情况下，每种算法的规划时间大致相同，这是因为Q-learning学习和更新Q-table的过程需要更多的时间，而根据初始能量搜索路径的过程需要很少的时间。

表2对算法的能量消耗和获得的信息增益方面进行了比较。

表2

当初始能量储备E_o5000J时，无论使用哪种算法AUV都可以完成采样任务并回到起点。使用单独的Q-learning算法时，AUV沿着前进路径采样得到的信息是最丰富的，尽管它需要更多的能量和运行时间。对于混合路径规划算法，N75的情况优于其它两种情况。因此，有必要通过合理设置采样节点的数量来平衡算法的效率和性能。

本发明在有洋流存在的温度场环境中，提出了一种基于概率路线图的Q-learning混合路径规划方法，用于AUV进行高效地环境信息采样。首先，采用Q-learning算法求解一般的AUV路径规划问题。为了减轻计算负担，将概率路线图与Q-learning过程相结合，降低了求解问题的维度。然后，针对在洋流场和温度场中的采样问题，即信息性路径规划问题，对Q-learning中的奖励矩阵进行了系统的设计。此外，考虑到AUV的能量储备有限，设计了AUV的自动返航的功能。所提出的算法中只需一次学习就可以实现多次规划的特性，为此项功能的实现提供了极大的便利。结合实际海洋环境数据，仿真验证了提出的混合算法的有效性。通过对各种场景的模拟，AUV能够很好地完成信息性路径规划任务。与单独的Q-learning算法相比，提出的混合算法具有更高的计算效率。因此，该算法在计算资源和决策时间有限的AUV上具有很大的应用潜力。此外，所提出的混合算法不仅局限于所考虑的场景，也适用于其他一般的信息性路径规划问题。

Claims

1.一种基于学习和采样的AUV信息性路径规划方法，其特征在于包括如下具体步骤：

步骤1，使用Q-learning进行AUV路径规划：

步骤1.1，AUV在状态s_t执行动作a_t+1，并接收实时奖励值r_t+1＝R(s_t，a_t+1)，其中R为奖励矩阵；奖励矩阵R以状态S为行，动作A为列，R(s_i，a_j)表示从当前状态s_i执行动作a_j达到下一个状态s_j后获得的奖励值；其中i，j＝1，2，...，N；

奖励矩阵R如下：

当两个状态不能转移时，对应的矩阵元素设为-1，当两个状态能够转移时，如果状态s_j是目标状态，则将矩阵元素设置为10，否则设置为0；

步骤1.2，通过学习和更新建立储存Q值的Q-table的过程，AUV能够学习到一个目标策略π：S→A，该目标策略将状态集S映射到动作集A，AUV将据此选择从当前状态到目标状态的一系列动作，最优的目标策略π^*能够指导AUV选择使累积奖励期望Q值最大化的动作，此时AUV能够以一种最节能的方式安全到达目标状态；

对于AUV路径规划问题，状态空间S是AUV所有位置的集合，动作空间A是AUV所有移动的集合；Q值是AUV在某一时刻t，在位置s_t(s_t∈S)处采取某一动作a_t(a_t∈A)移动到另一个位置的未来累积奖励的期望，定义为：

其中，π是目标策略，

表示期望运算，r_i(i＝t+1，t+2，...，t+m)表示AUV在未来时刻i所获得的奖励值；G_t＝r_t+1+γr_t+2+γ²r_t+3+…+γ^m-1r_t+m表示在当前时刻t的未来m个时刻的累计折扣奖励值，未来时刻的奖励通过乘以折扣系数γ，γ²，…，γ^m-1反映在当前时刻；

步骤1.3，使用时间差分法学习目标策略π；Q-table中的累积奖励期望Q值的学习和更新过程为：

其中，α为学习率，s′为在状态s下执行动作a后到达的下一状态，a′为s′执行的动作，值函数Q(s，a)的值表示在状态s下选择动作a的目标策略π的质量；

通过Q-table中的累积奖励期望Q值的学习和更新这个过程，得到收敛的Q^*，并为AUV学习到最优的目标策略π^*；

利用最优目标策略π^*依次选择动作，实现AUV从起始状态到目标状态的路径规划，得到的状态序列对应AUV在空间中的位置；

AUV根据π^*选择的动作将最终实现最短路径的规划目标；由得到的状态序列组成的最优路径P^*表示为：

其中，

表示最优路径P^*上的路径点，n为路径点的数量，

表示从路径点

到路径点

的子路径段；

步骤2，基于学习和采样的AUV信息性路径规划方法；

步骤2.1，基于概率路线图的Q-learning混合路径规划方法；

概率路线图方法包括两个阶段：图的构建阶段和图的搜索阶段；

在图的构建阶段，构建一个路线图表示AUV周围的工作环境；首先，将环境初始化为一个空的无向图G(S，A)，其中顶点集S表示一组无碰撞的AUV位置节点，即Q-learning中的状态空间；边集A表示无碰撞的路径集合，即Q-learning中的动作空间；

其次，使用均匀随机采样URS法和K最近邻KNN算法构造路线图；使用URS方法，在自由空间中采样无碰撞的节点s_i，i＝1，2，...，N，并添加到顶点集S中；

然后，使用KNN算法搜索s_i的k个邻居节点，将节点s_i分别与它的k个邻居节点相连，生成连线以构建路线图；同时，检查连线是否与任何障碍物碰撞，将无碰撞的连线添加到边集A中，否则删除连线；

最后，得到构建的低维无碰撞概率路线图；

在图的搜索阶段，将Q-learning算法与生成的概率路线图集成在一起，概率路线图作为Q-learning算法的输入，用于构建奖励矩阵R和Q-table，将概率路线图中的随机采样节点集合设置为Q-learning中的状态空间；

步骤2.2，混合路径规划方法实现洋流场中的IPP问题；

AUV沿前进路径P_f对环境信息进行采样，同时考虑洋流对其能量消耗的影响；对于构造好的概率路线图，得到一个初始的奖励矩阵

此时

只有三个元素值，即-1，0和10；然后利用已知的流场和环境信息数据对奖励矩阵

进行重新设计，考虑在状态s_h处的采样信息值

以及由状态s_l转移到状态s_h时的能量消耗

将初始奖励矩阵中的非负值

重新设计为：

其中，ρ和ω为正常数权重系数，能量消耗

由下式(8)进行计算：

其中，P_v是AUV的推进功率，与AUV的推进速度大小

的立方成正比，t_i是AUV沿着子路径段

是AUV在子路径段

上行驶时相对于海底的速度，通过

和洋流速度

的矢量合成得到：

在公式(7)中，有组合奖励r_ie＝ρr_i-ωr_e，对r_i和r_e进行无量纲处理，即进行归一化，采用Min-Max归一化方法，使r_i和r_e的值在[0，1]范围内，同时r_ie也被归一化为在[0，1]范围内；

通过合理设计ρ和ω值，实现在信息收集和能量消耗之间的合理权衡，重新设计的奖励矩阵

如下：

AUV在沿前进路径P_f采样的过程中，若能量储备不足，则需以最节能的方式沿返回路径P_r返回起始点；利用AUV航行时间的倒数重新设计奖励矩阵的值，航行时间越短，能耗越少，AUV获得的奖励值越高，建立初始的奖励矩阵

如下：

AUV返回到起始点，因此将原来的起始状态s₁设置为目标状态，奖励矩阵

中对应位置的值为10；然后，根据已知的洋流场数据，以及AUV的推进速度大小和方向，计算得到AUV的航行时间为：

其中，Δt_i，j是AUV从状态位置s_i，空间二维坐标为[x_i，y_i]，到状态位置s_j，空间二维坐标为[x_j，y_j]，所花费的航行时间，l_cell为环境空间中单位网格的长度，

为AUV相对于海底的速度大小，即推进速度，由公式(9)计算得到；经过重新设计得到的奖励矩阵

如下：

对奖励矩阵进行系统的设计后，利用重新设计得到的

和

根据公式(2)分别对Q-table进行学习和更新直至其收敛，得到Q^f-table和Q^r-table，分别表示为矩阵形式Q^f(s，a)与Q^r(s，a)；AUV学习到最优目标策略

和

为：

根据

得到AUV的最优前进路径

实现IPP任务：

根据

得到AUV的最优返回路径

为：

步骤2.3，混合路径规划方法实现AUV的自动返航功能

在AUV沿着最优前进路径

其中，e_i为子路径段

上的能量消耗；

找到最优前进路径

上的下一个路径点p′，利用学习得到的Q^r-table规划从p′到起始点的最优返回路径

根据

和

计算AUV从当前位置p到下一路径点p′以及从下一路径点p′回到起点的最小能耗E_m；

将E_r与E_m进行比较，确定AUV的能量储备是否足够；若E_r≥E_m，则能量充足，AUV前往下一路径点p′继续采样，此时AUV的当前位置变为p′；否则，让AUV停止采样，并从收敛的Q^r-table中找到从当前位置p返回起始点的最低能耗的返回路径P_r；此时，从起点到当前点AUV所行驶过的路径就是最终的前进路径P_f；连接P_f和P_r形成最终规划的闭合往返轨迹P。

2.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法，其特征在于：在步骤1.2中，所述折扣系数γ∈[0，1)，表示AUV有远见的程度，γ越接近1，说明AUV越有远见，即AUV越考虑其动作选择对未来的影响。

3.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法，其特征在于：在步骤1.3中，对于整个学习过程，将Q-table初始化为一个与奖励矩阵R大小相同的全零矩阵，然后使用公式(2)对Q-table进行迭代更新；

在每次的迭代过程中，从随机选择的初始状态中，根据行为策略选择一个动作a；在执行动作a后，得到下一状态s’；

当R(s，a)的值为-1时，进行新的迭代；否则，使用公式(2)对Q(s，a)的值进行更新并到达状态s’；

重复上述过程，直到达到目标状态，此次迭代终止；如果达到Q-table的收敛条件，整个学习过程就此结束。

4.根据权利要求1或3所述一种基于学习和采样的AUV信息性路径规划方法，其特征在于：在步骤1.3中，从公式(2)中看出，Q-table的收敛条件为对于每一个状态s和动作a有：

R(s，a)+γmax_a′Q(s′，a′)＝Q(s，a) (3)

或者表示为

|R(s，a)+γmax_a′Q(s′，a′)-Q(s，a)|＜δ (4)

其中，δ为一个非常小的正常数；当满足公式(4)中的条件后，Q-table是收敛的，此时基于收敛的Q-table，即Q^*，得到的最优目标策略π^*表示为：

π^*(s)＝argmax_aQ^*(s，a) (5)。

5.根据权利要求1所述一种基于学习和采样的AUV信息性路径规划方法，其特征在于：在步骤2.1中，虽然概率路线图能够减少Q-learning中的状态数量，但存在导致空间覆盖不完全的问题，若出现这种情况，使用重采样的方法构建新的概率路线图；

此外，适当增加采样节点的数量提高空间覆盖率。