CN110597058B

CN110597058B - 一种基于增强学习的三自由度自主水下航行器控制方法

Info

Publication number: CN110597058B
Application number: CN201910799267.4A
Authority: CN
Inventors: 洪榛; 刘涛; 安曼; 李严; 陈博; 俞立
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-06-17
Anticipated expiration: 2039-08-28
Also published as: CN110597058A

Abstract

一种基于增强学习的三自由度自主水下航行器控制方法，包括以下步骤：步骤1)定义AUV控制系统模型位置状态参数步骤；2)定义AUV控制器表达式；步骤3)构建策略与评价网络结构；步骤4)设计目标与当前值网络参数更新方式；步骤5)设计AUV运动的探索与利用策略；步骤6)设计基于优先度的经验回放策略；步骤7)构建带优先级的经验回访池样本存储结构；步骤8)定义回报函数；步骤9)求解AUV运动控制目标策略。本发明不仅提高了控制效果的收敛速度，也进一步提高了控制效率，尤其在水下航行器领域具有一定的发展前景。

Description

一种基于增强学习的三自由度自主水下航行器控制方法

技术领域

本发明涉及一种基于增强学习的三自由度自主水下航行器控制方法，属于水下机器人控制技术领域。

背景技术

地球资源的枯竭促使人们将注意力转向资源丰富的海洋，水下资源的开发价值日益突出，从而进一步推动了水下机器人的发展。近年来，世界上大多数国家的热点都被置于自主水下机器人的发展之中。自主水下航行器(AUV)是一种有效执行水下作业的新型工具。便携式小型AUV在近海，湖泊和水库等水域中具有广泛的水文监测和水下资源勘探应用前景，具有体积小，模块化，易用，成本低等优点。目前，关于浅水便携式小型AUV有效控制方法的研究很少，但其应用价值不容忽视。

通常，AUV可以通过传统的控制算法执行一些简单的运动控制任务，例如PID控制，滑动模式控制和自适应控制。虽然PID控制具有结构简单，易于实现的优点，但其参数设置困难，在复杂的水下环境中无法实时调整，导致控制效果和控制精度差，甚至容易引起振荡。而且非常差的稳健性。滑模控制可以克服系统的不确定性，对干扰具有很强的鲁棒性，特别是对于非线性系统。然而，由于滑动表面附近的惯性，系统绕滑动表面移动，使系统抖动。自适应控制不需要控制对象的精确数学模型。它坚固耐用，能够适应受控对象的动态特性变化，环境特征的变化以及行动条件的变化。然而，在理想情况下，自适应控制的参数估计方法随着无限时间逐渐收敛，并且在实际应用中，需要一种在有限时间内需要快速收敛的参数估计方法。

近年来，随着人工智能技术的发展，利用强化学习来控制AUV的运动已成为一个新的研究方向。强化学习可以通过与环境的持续交互在训练中自主学习控制策略，从而避免手动参与参数调整和提高控制精度。然而，早期强化学习不能保证高维和连续运动空间的控制精度。目前已有的算法，例如：DQN(深Q网络)算法，在多个AI游戏的性能中达到或超过人类水平，但DQN算法不能应用于具有高维和连续运动输出的控制对象；DPG(确定性策略梯度)算法，该算法在连续动作输出控制问题中的性能优于随机梯度下降法；基于DQN和DPG算法的DDPG(深度确定性策略梯度)算法，该算法在处理高维连续动作空间控制任务时具有很强的鲁棒性和稳定性。但目前，该方法在小型AUV控制中的应用仍处于探索阶段。

发明内容

为了克服现有水下航行器控制方法的不足，本发明提供一种基于增强学习的三自由度自主水下航行器控制方法，该方法不仅提高了控制效果的收敛速度，也进一步提高了控制效率，尤其在水下航行器领域具有一定的发展前景。

为了解决上述技术问题，本发明所采用的技术方案为：

一种基于增强学习的三自由度自主水下航行器控制方法，包括以下步骤：

步骤1)初始化经验回放池；

步骤2)由从处理器获取AUV当前时刻的状态s，输入给主处理器；

步骤3)由主处理输出动作a，并发送给从处理器；

步骤4)从处理控制电机驱动模块控制推进器推力进行运动，并重新读取AUV运动后的状态s’；

步骤5)主处理器计算该动作后的回报r，和样本优先度P；

步骤6)将(s,a,r,s’,P)存入经验池中；

步骤7)从经验池中按照样本优先度提取一批样本进行训练，更新控制算法模型与经验池；

步骤8)判断AUV是否到达目标点，若未到达则重复步骤1-7，直至完成任务；

步骤9)定义经验回放池的基础样本。

进一步，所述步骤1)中，所采用经验回访池的样本数据存储结构为基于SumTree的树结构模型，所有的经验回放样本只保存在最下面的叶子节点上，一个节点一个样本。内部节点不保存样本数据；叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和，当采样时，首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间，然后在每个区间中分别采样一个样本，按照从上往下的方式采样，计算公式为：n＝sum(P)/batch_size，式中，sum(P)是SumTree根节点的值，P为样本的优先度值。

所述步骤2)中，定义AUV当前位置状态s_t＝[ε,δ,L,u,v,r]^T，式中，ε为AUV路径偏差，其计算公式为：ε(t)＝L(t)×sinα(t)；δ为AUV航向角偏差，其计算公式为：

式中X_wpt(i)，Y_wpt(i)表示t时刻下AUV在水平面上的位置；L为与下一目标点之间的距离，其计算公式为：

以地面坐标系为参考，u为x轴方向的前进速度、v为y轴方向的横移速度、r为绕z轴旋转的偏航角速度。

所述步骤3)中，定义动作a由本发明的基于增强学习的控制算法P-NNDPG的策略网络获得，其策略网络采用四层结构，将状态s_t作为输入层，第二层与第三层为隐藏层，采用全连接结构，最后一层输出动作a_t。在网络中，隐藏层采用ReLu激活函数进行非线性化，而输出层采用Tanh激活函数进行非线性化，其输出范围(-1,1)；在AUV控制中，设定最大推力F_max、最大扭矩T_max，将F_max和T_max设为动作输出边界值，将策略网络输出值乘以动作边界值作为AUV动力输入，则有a_t＝{(F,T)|-F_max<F<F_max,-T_max<T<T_max}，小型AUV使用无刷直流电机(BLDC)作为推进器，因此输出推力和扭矩在瞬态响应中具有有限的变化值，因此在动作网络输出时执行限制处理，AUV电机驱动模块优化后得

式中，F_last和T_last为上一次控制器动力输出，ΔF_max和ΔT_max为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量；策略网络训练中，其权重参数θ^μ使用策略梯度的方式进行更新，在策略网络中其策略梯度计算公式为：

式中，θ^Q，θ^u通过平滑更新策略进行更新，公式为：

β＜＜1是参数更新平滑因子。

所述步骤5)中，采用了在策略输出的动作上假如随机噪声的方法作为探索和利用策略，其表达式为：

a_t＝μ(s_t|θ^μ)+Δu_t

式中，Δu_t～N(μ,σ²)为零均值高斯白噪声。

AUV的控制方法每次在动作选择时，以概率1-ε去选择最大值函数Q(s,a)的动作a_max，并且以ε的概率在可执行的动作空间中进行随机的选择要执行的动作，使得算法能够尽量多的去探索未知的状态，使算法不会陷于局部最优。

所述步骤6)中，采用了基于优先度的经验回放策略。即为经验池中的每个样本都赋予优先度pri，对于时间差分中TD-Error绝对值较大的样本赋予较高的优先度，在采样时，优先度越高的样本将优先被采样，以此加快算法的收敛速度；

在网络训练中，TD-Error为：

Δ_i＝r_i+γQ(s_i+1,μ(s_i+1|θ^μ)|θ^Q)-Q(s_i,a_i|θ^Q)

式中，r_i为即时奖励，γ为奖励折扣因子，s_i为当前状态，a_i为当前动作，s_i+1为转移到下一时刻的状态；

令样本优先度pri_i为：

pri_i＝|Δ_i|+ζ

式中，ζ是一个很小的正常数，为了使有一些TD-error为0的特殊边缘例子也能够被抽取；

同时，借鉴了ε-greedy策略，在优先度回放中引入随机采样的方法，此方法结合贪婪优先度回放和随机均匀采样。定义样本i的采样概率为：

式中，pri_i是样本i的优先度，α是优先度采样因子，当α等于0时，采用随机均匀采样。

所述步骤7)中，采用经验回访池的样本数据存储结构为基于SumTree的树结构模型，所有的经验回放样本只保存在最下面的叶子节点上，一个节点一个样本；内部节点不保存样本数据，叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和，当采样时，首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间，然后在每个区间中分别采样一个样本，按照从上往下的方式采样；计算公式为：

n＝sum(P)/batch_size

式中，sum(P)是SumTree根节点的值，P为样本的优先度值。

所述步骤8)中，为保证目标策略在实际控制中能够准确参考航向角偏差δ_t和路径偏差ε_t进行修改，同时保证快速稳定到达目标点的要求，即航行速度u_t越快越好，其旋转角速度r_t应该越小越好，设计控制算法回报函数为：

reward＝-(ρ₁δ_t+ρ₂ε_t-ρ₄u_t+ρ₅r_t)

式中，ρ₁、ρ₂、ρ₃、ρ₄和ρ₅分别为各个上述各个参数的权重系数。

所述步骤9)中，包含如下过程：

①初始化经验回放池；

②根据步骤1)，获取AUV当前时刻的状态s；

③根据步骤3)-8)获得当前状态对应的a；

④控制电机驱动模块控制推进器推力进行运动，并重新读取AUV运动后的状态s’；

⑤根据步骤8)计算该动作后的回报r，根据步骤6)计算样本优先度P；

⑥将(s,a,r,s’,P)存入步骤7)所构建的经验池结构中；

⑦从经验池中按照样本优先度提取一批样本进行训练，更新控制算法模型与经验池；

⑧判断AUV是否到达目标点，若未到达则重复过程①-⑦，直至完成任务，并输出目标策略。

本发明的有益效果为提高了控制效果的收敛速度和控制效率，尤其在水下航行器领域具有一定的发展前景：

附图说明：

图1为经验回访池的样本数据存储结构示意图。

图2为本发明基于增强学习的轨迹控制方法工作流程图。

图3为AUV运动状态和目标点位在水平面上的投影。

图4为策略网络和评价网络结构。

具体实施方式：

以下通过附图和具体实施方式对本发明作进一步阐述。

参照图1～图4，一种基于增强学习的三自由度自主水下航行器控制方法，包括以下步骤：

步骤1)初始化经验回放池；

步骤3)由主处理输出动作a，并发送给从处理器；

步骤5)主处理器计算该动作后的回报r，和样本优先度P；

步骤6)将(s,a,r,s’,P)存入经验池中；

步骤9)定义经验回放池的基础样本。

所述步骤1)中，所采用经验回访池的样本数据存储结构为基于SumTree的树结构模型，所有的经验回放样本只保存在最下面的叶子节点上，一个节点一个样本。内部节点不保存样本数据，叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和，当采样时，首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间，然后在每个区间中分别采样一个样本，按照从上往下的方式采样，计算公式为：n＝sum(P)/batch_size，式中，sum(P)是SumTree根节点的值，P为样本的优先度值。

所述步骤3)中，定义动作a由本发明的基于增强学习的控制算法P-NNDPG的策略网络获得，其策略网络采用四层结构，将状态s_t作为输入层，第二层与第三层为隐藏层，采用全连接结构，最后一层输出动作a_t；在网络中，隐藏层采用ReLu激活函数进行非线性化，而输出层采用Tanh激活函数进行非线性化，其输出范围(-1,1)；在AUV控制中，设定最大推力F_max、最大扭矩T_max，将F_max和T_max设为动作输出边界值，将策略网络输出值乘以动作边界值作为AUV动力输入，则有a_t＝{(F,T)|-F_max<F<F_max,-T_max<T<T_max}，小型AUV使用无刷直流电机(BLDC)作为推进器，因此输出推力和扭矩在瞬态响应中具有有限的变化值，因此在动作网络输出时执行限制处理，AUV电机驱动模块优化后得

式中，F_last和T_last为上一次控制器动力输出，ΔF_max和ΔT_max为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量，策略网络训练中，其权重参数θ^μ使用策略梯度的方式进行更新，在策略网络中其策略梯度计算公式为：

式中，θ^Q，θ^u通过平滑更新策略进行更新，公式为：

β＜＜1是参数更新平滑因子。

a_t＝μ(s_t|θ^μ)+Δu_t

式中，Δu_t～N(μ,σ²)为零均值高斯白噪声。

在网络训练中，TD-Error为：

Δ_i＝r_i+γQ(s_i+1,μ(s_i+1|θ^μ)|θ^Q)-Q(s_i,a_i|θ^Q)

令样本优先度pri_i为：

pri_i＝|Δ_i|+ζ

n＝sum(P)/batch_size

式中，sum(P)是SumTree根节点的值，P为样本的优先度值。

reward＝-(ρ₁δ_t+ρ₂ε_t-ρ₄u_t+ρ₅r_t)

所述步骤9)中，包含如下过程：

①初始化经验回放池；

②根据步骤1)，获取AUV当前时刻的状态s；

③根据步骤3)-8)获得当前状态对应的a；

⑥将(s,a,r,s’,P)存入步骤7)所构建的经验池结构中；

以上实施例进用以说明本发明的技术方案而非限制，本领域普通技术人员对于本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应含盖在本发明的权利要求范围中。

Claims

1.一种基于增强学习的三自由度自主水下航行器控制方法，其特征在于：包括以下步骤：

步骤1)定义AUV控制系统模型位置状态参数；

步骤2)定义AUV控制器表达式；

步骤3)构建策略与评价网络结构；

步骤4)设计目标与当前值网络参数更新方式；

步骤5)设计AUV运动的探索与利用策略；

步骤6)设计基于优先度的经验回放策略；

步骤7)构建带优先级的经验回放池样本存储结构；

步骤8)定义回报函数；

步骤9)求解AUV运动控制目标策略；

所述步骤1)中，定义AUV当前位置状态：

s_t＝[ε,δ,L,u,v,r]^T

式中，ε为AUV路径偏差，其计算公式为：ε(t)＝L(t)×sinα(t)；δ为AUV航向角偏差，其计算公式为：

以地面坐标系为参考，u为x轴方向的前进速度、v为y轴方向的横移速度、r为绕z轴旋转的偏航角速度；

所述步骤2)中，定义AUV控制器表达式为：

式中，η(t)为AUV当前的位置状态，

为AUV当前的速度状态，所设计的AUV控制器μ(·)本质上相当于控制器输出τ_T和AUV所处状态

之间的映射模型，使用神经网络去拟合控制器μ(·)，其网络参数定义为θ^μ，则基于神经网络的AUV控制器表示为：

a_t＝μ(s_t|θ^μ)

式中，a_t＝[F₁,0,F₂,T]^T为控制器的动力输出，F₁,F₂,T分别表示水平方向上的推力、垂直方向上的推力和水平方向上的扭矩，s_t＝[η,v]^T为AUV所处位置状态；

所述步骤3)中，策略网络采用四层结构，将状态s_t作为输入层，第二层与第三层为隐藏层，采用全连接结构，最后一层输出动作a_t；在网络中，隐藏层采用ReLu激活函数进行非线性化，而输出层采用Tanh激活函数进行非线性化，其输出范围(-1,1)；在AUV控制中，设定最大推力F_max、最大扭矩T_max，将F_max和T_max设为动作输出边界值，将策略网络输出值乘以动作边界值作为AUV动力输入，则有a_t＝{(F,T)|-F_max<F<F_max,-T_max<T<T_max}，小型AUV使用无刷直流电机BLDC作为推进器，因此输出推力和扭矩在瞬态响应中具有有限的变化值，因此在动作网络输出时执行限制处理，AUV电机驱动模块优化后得

式中，F_last和T_last为上一次控制器动力输出，ΔF_max和ΔT_max为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量；

所述步骤3)中，评价网络采用四层结构，将状态与动作对(s_t,a_t)当作输入层，第二层与第三层为隐藏层，采用全连接结构，最后一层输出评价值Q值，各层均使用ReLu激活函数进行非线性化；

所述步骤4)中，采用一种“软”平滑方式更新，其表达式为：

式中，β＜＜1是参数更新平滑因子，θ^Q、θ^Q′分别为评价网络中当前值网络eval network和目标网络target network的权重参数，θ^μ、θ^μ′分别为当前值网络eval network和目标网络target network的权重参数；

评价网络其权重参数θ^Q采用最小化Loss Function，利用随机梯度下降的方式更新，其Loss Function为：

式中，y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ′)|θ^Q′)，r_i为瞬时回报，γ为回报折扣因子，s_i+1为转移到下一时刻AUV的状态；

在策略网络训练中，其权重参数θ^μ使用策略梯度的方式进行更新，在策略网络中其策略梯度计算公式为：

所述步骤5)中，采用了在策略输出的动作上随机噪声的方法作为探索和利用策略，其表达式为：

a_t＝μ(s_t|θ^μ)+Δu_t

式中，Δu_t～N(μ,σ²)为零均值高斯白噪声；

AUV的控制方法每次在动作选择时，以概率1-ε去选择最大值函数Q(s,a)的动作a_max，并且以ε的概率在可执行的动作空间中进行随机的选择要执行的动作，使得算法能够尽量多的去探索未知的状态，使算法不会陷于局部最优；

所述步骤6)中，采用了基于优先度的经验回放策略，即为经验池中的每个样本都赋予优先度pri，对于时间差分中TD-Error绝对值较大的样本赋予较高的优先度，在采样时，优先度越高的样本将优先被采样，以此加快算法的收敛速度；

在网络训练中，TD-Error为：

Δ_i＝r_i+γQ(s_i+1,μ(s_i+1|θ^μ)|θ^Q)-Q(s_i,a_i|θ^Q)

式中，s_i为当前状态，a_i为当前动作，s_i+1为转移到下一时刻的状态；

令样本优先度pri_i为：

pri_i＝|Δ_i|+ζ

同时，借鉴了ε-greedy策略，在优先度回放中引入随机采样的方法，此方法结合贪婪优先度回放和随机均匀采样，定义样本i的采样概率为：

式中，pri_i是样本i的优先度，α是优先度采样因子，当α等于0时，采用随机均匀采样；

所述步骤7)中，采用经验回放池的样本数据存储结构为基于SumTree的树结构模型，所有的经验回放样本只保存在最下面的叶子节点上，一个节点一个样本；内部节点不保存样本数据，叶子节点保存数据与样本优先级，对于内部节点每个节点只保存自己的子节点的优先级值之和，当采样时，首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间，然后在每个区间中分别采样一个样本，按照从上往下的方式采样；计算公式为：

n＝sum(P)/batch_size

式中，sum(P)是SumTree根节点的值，P为样本的优先度值；

所述步骤8)中，为保证目标策略在实际控制中能够准确参考航向角偏差δ_t和路径偏差ε_t进行修改，同时保证快速稳定到达目标点的要求，航行速度u_t越快越好，其旋转角速度r_t应该越小越好，设计控制算法回报函数为：

reward＝-(ρ₁δ_t+ρ₂ε_t-ρ₄u_t+ρ₅r_t)

式中，ρ₁、ρ₂、ρ₃、ρ₄和ρ₅分别为各个上述各个参数的权重系数；

所述步骤9)中，包含如下过程：

①初始化经验回放池；

②根据步骤1)，获取AUV当前时刻的状态s；

③根据步骤3)-8)获得当前状态对应的a；

⑥将(s,a,r,s’,P)存入步骤7)所构建的经验回放池结构中；

⑦从经验回放池中按照样本优先度提取一批样本进行训练，更新控制算法模型与经验回放池；