CN110597058B - 一种基于增强学习的三自由度自主水下航行器控制方法 - Google Patents

一种基于增强学习的三自由度自主水下航行器控制方法 Download PDF

Info

Publication number
CN110597058B
CN110597058B CN201910799267.4A CN201910799267A CN110597058B CN 110597058 B CN110597058 B CN 110597058B CN 201910799267 A CN201910799267 A CN 201910799267A CN 110597058 B CN110597058 B CN 110597058B
Authority
CN
China
Prior art keywords
auv
network
priority
sample
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910799267.4A
Other languages
English (en)
Other versions
CN110597058A (zh
Inventor
洪榛
刘涛
安曼
李严
陈博
俞立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910799267.4A priority Critical patent/CN110597058B/zh
Publication of CN110597058A publication Critical patent/CN110597058A/zh
Application granted granted Critical
Publication of CN110597058B publication Critical patent/CN110597058B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于增强学习的三自由度自主水下航行器控制方法,包括以下步骤:步骤1)定义AUV控制系统模型位置状态参数步骤;2)定义AUV控制器表达式;步骤3)构建策略与评价网络结构;步骤4)设计目标与当前值网络参数更新方式;步骤5)设计AUV运动的探索与利用策略;步骤6)设计基于优先度的经验回放策略;步骤7)构建带优先级的经验回访池样本存储结构;步骤8)定义回报函数;步骤9)求解AUV运动控制目标策略。本发明不仅提高了控制效果的收敛速度,也进一步提高了控制效率,尤其在水下航行器领域具有一定的发展前景。

Description

一种基于增强学习的三自由度自主水下航行器控制方法
技术领域
本发明涉及一种基于增强学习的三自由度自主水下航行器控制方法,属于水下机器人控制技术领域。
背景技术
地球资源的枯竭促使人们将注意力转向资源丰富的海洋,水下资源的开发价值日益突出,从而进一步推动了水下机器人的发展。近年来,世界上大多数国家的热点都被置于自主水下机器人的发展之中。自主水下航行器(AUV)是一种有效执行水下作业的新型工具。便携式小型AUV在近海,湖泊和水库等水域中具有广泛的水文监测和水下资源勘探应用前景,具有体积小,模块化,易用,成本低等优点。目前,关于浅水便携式小型AUV有效控制方法的研究很少,但其应用价值不容忽视。
通常,AUV可以通过传统的控制算法执行一些简单的运动控制任务,例如PID控制,滑动模式控制和自适应控制。虽然PID控制具有结构简单,易于实现的优点,但其参数设置困难,在复杂的水下环境中无法实时调整,导致控制效果和控制精度差,甚至容易引起振荡。而且非常差的稳健性。滑模控制可以克服系统的不确定性,对干扰具有很强的鲁棒性,特别是对于非线性系统。然而,由于滑动表面附近的惯性,系统绕滑动表面移动,使系统抖动。自适应控制不需要控制对象的精确数学模型。它坚固耐用,能够适应受控对象的动态特性变化,环境特征的变化以及行动条件的变化。然而,在理想情况下,自适应控制的参数估计方法随着无限时间逐渐收敛,并且在实际应用中,需要一种在有限时间内需要快速收敛的参数估计方法。
近年来,随着人工智能技术的发展,利用强化学习来控制AUV的运动已成为一个新的研究方向。强化学习可以通过与环境的持续交互在训练中自主学习控制策略,从而避免手动参与参数调整和提高控制精度。然而,早期强化学习不能保证高维和连续运动空间的控制精度。目前已有的算法,例如:DQN(深Q网络)算法,在多个AI游戏的性能中达到或超过人类水平,但DQN算法不能应用于具有高维和连续运动输出的控制对象;DPG(确定性策略梯度)算法,该算法在连续动作输出控制问题中的性能优于随机梯度下降法;基于DQN和DPG算法的DDPG(深度确定性策略梯度)算法,该算法在处理高维连续动作空间控制任务时具有很强的鲁棒性和稳定性。但目前,该方法在小型AUV控制中的应用仍处于探索阶段。
发明内容
为了克服现有水下航行器控制方法的不足,本发明提供一种基于增强学习的三自由度自主水下航行器控制方法,该方法不仅提高了控制效果的收敛速度,也进一步提高了控制效率,尤其在水下航行器领域具有一定的发展前景。
为了解决上述技术问题,本发明所采用的技术方案为:
一种基于增强学习的三自由度自主水下航行器控制方法,包括以下步骤:
步骤1)初始化经验回放池;
步骤2)由从处理器获取AUV当前时刻的状态s,输入给主处理器;
步骤3)由主处理输出动作a,并发送给从处理器;
步骤4)从处理控制电机驱动模块控制推进器推力进行运动,并重新读取AUV运动后的状态s’;
步骤5)主处理器计算该动作后的回报r,和样本优先度P;
步骤6)将(s,a,r,s’,P)存入经验池中;
步骤7)从经验池中按照样本优先度提取一批样本进行训练,更新控制算法模型与经验池;
步骤8)判断AUV是否到达目标点,若未到达则重复步骤1-7,直至完成任务;
步骤9)定义经验回放池的基础样本。
进一步,所述步骤1)中,所采用经验回访池的样本数据存储结构为基于SumTree的树结构模型,所有的经验回放样本只保存在最下面的叶子节点上,一个节点一个样本。内部节点不保存样本数据;叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和,当采样时,首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间,然后在每个区间中分别采样一个样本,按照从上往下的方式采样,计算公式为:n=sum(P)/batch_size,式中,sum(P)是SumTree根节点的值,P为样本的优先度值。
所述步骤2)中,定义AUV当前位置状态st=[ε,δ,L,u,v,r]T,式中,ε为AUV路径偏差,其计算公式为:ε(t)=L(t)×sinα(t);δ为AUV航向角偏差,其计算公式为:
Figure BDA0002181831950000021
式中Xwpt(i),Ywpt(i)表示t时刻下AUV在水平面上的位置;L为与下一目标点之间的距离,其计算公式为:
Figure BDA0002181831950000022
以地面坐标系为参考,u为x轴方向的前进速度、v为y轴方向的横移速度、r为绕z轴旋转的偏航角速度。
所述步骤3)中,定义动作a由本发明的基于增强学习的控制算法P-NNDPG的策略网络获得,其策略网络采用四层结构,将状态st作为输入层,第二层与第三层为隐藏层,采用全连接结构,最后一层输出动作at。在网络中,隐藏层采用ReLu激活函数进行非线性化,而输出层采用Tanh激活函数进行非线性化,其输出范围(-1,1);在AUV控制中,设定最大推力Fmax、最大扭矩Tmax,将Fmax和Tmax设为动作输出边界值,将策略网络输出值乘以动作边界值作为AUV动力输入,则有at={(F,T)|-Fmax<F<Fmax,-Tmax<T<Tmax},小型AUV使用无刷直流电机(BLDC)作为推进器,因此输出推力和扭矩在瞬态响应中具有有限的变化值,因此在动作网络输出时执行限制处理,AUV电机驱动模块优化后得
Figure BDA0002181831950000031
式中,Flast和Tlast为上一次控制器动力输出,ΔFmax和ΔTmax为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量;策略网络训练中,其权重参数θμ使用策略梯度的方式进行更新,在策略网络中其策略梯度计算公式为:
Figure BDA0002181831950000032
式中,θQ,θu通过平滑更新策略进行更新,公式为:
Figure BDA0002181831950000033
β<<1是参数更新平滑因子。
所述步骤5)中,采用了在策略输出的动作上假如随机噪声的方法作为探索和利用策略,其表达式为:
at=μ(stμ)+Δut
式中,Δut~N(μ,σ2)为零均值高斯白噪声。
AUV的控制方法每次在动作选择时,以概率1-ε去选择最大值函数Q(s,a)的动作amax,并且以ε的概率在可执行的动作空间中进行随机的选择要执行的动作,使得算法能够尽量多的去探索未知的状态,使算法不会陷于局部最优。
所述步骤6)中,采用了基于优先度的经验回放策略。即为经验池中的每个样本都赋予优先度pri,对于时间差分中TD-Error绝对值较大的样本赋予较高的优先度,在采样时,优先度越高的样本将优先被采样,以此加快算法的收敛速度;
在网络训练中,TD-Error为:
Δi=ri+γQ(si+1,μ(si+1μ)|θQ)-Q(si,aiQ)
式中,ri为即时奖励,γ为奖励折扣因子,si为当前状态,ai为当前动作,si+1为转移到下一时刻的状态;
令样本优先度prii为:
prii=|Δi|+ζ
式中,ζ是一个很小的正常数,为了使有一些TD-error为0的特殊边缘例子也能够被抽取;
同时,借鉴了ε-greedy策略,在优先度回放中引入随机采样的方法,此方法结合贪婪优先度回放和随机均匀采样。定义样本i的采样概率为:
Figure BDA0002181831950000041
式中,prii是样本i的优先度,α是优先度采样因子,当α等于0时,采用随机均匀采样。
所述步骤7)中,采用经验回访池的样本数据存储结构为基于SumTree的树结构模型,所有的经验回放样本只保存在最下面的叶子节点上,一个节点一个样本;内部节点不保存样本数据,叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和,当采样时,首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间,然后在每个区间中分别采样一个样本,按照从上往下的方式采样;计算公式为:
n=sum(P)/batch_size
式中,sum(P)是SumTree根节点的值,P为样本的优先度值。
所述步骤8)中,为保证目标策略在实际控制中能够准确参考航向角偏差δt和路径偏差εt进行修改,同时保证快速稳定到达目标点的要求,即航行速度ut越快越好,其旋转角速度rt应该越小越好,设计控制算法回报函数为:
reward=-(ρ1δt2εt4ut5rt)
式中,ρ1、ρ2、ρ3、ρ4和ρ5分别为各个上述各个参数的权重系数。
所述步骤9)中,包含如下过程:
①初始化经验回放池;
②根据步骤1),获取AUV当前时刻的状态s;
③根据步骤3)-8)获得当前状态对应的a;
④控制电机驱动模块控制推进器推力进行运动,并重新读取AUV运动后的状态s’;
⑤根据步骤8)计算该动作后的回报r,根据步骤6)计算样本优先度P;
⑥将(s,a,r,s’,P)存入步骤7)所构建的经验池结构中;
⑦从经验池中按照样本优先度提取一批样本进行训练,更新控制算法模型与经验池;
⑧判断AUV是否到达目标点,若未到达则重复过程①-⑦,直至完成任务,并输出目标策略。
本发明的有益效果为提高了控制效果的收敛速度和控制效率,尤其在水下航行器领域具有一定的发展前景:
附图说明:
图1为经验回访池的样本数据存储结构示意图。
图2为本发明基于增强学习的轨迹控制方法工作流程图。
图3为AUV运动状态和目标点位在水平面上的投影。
图4为策略网络和评价网络结构。
具体实施方式:
以下通过附图和具体实施方式对本发明作进一步阐述。
参照图1~图4,一种基于增强学习的三自由度自主水下航行器控制方法,包括以下步骤:
步骤1)初始化经验回放池;
步骤2)由从处理器获取AUV当前时刻的状态s,输入给主处理器;
步骤3)由主处理输出动作a,并发送给从处理器;
步骤4)从处理控制电机驱动模块控制推进器推力进行运动,并重新读取AUV运动后的状态s’;
步骤5)主处理器计算该动作后的回报r,和样本优先度P;
步骤6)将(s,a,r,s’,P)存入经验池中;
步骤7)从经验池中按照样本优先度提取一批样本进行训练,更新控制算法模型与经验池;
步骤8)判断AUV是否到达目标点,若未到达则重复步骤1-7,直至完成任务;
步骤9)定义经验回放池的基础样本。
所述步骤1)中,所采用经验回访池的样本数据存储结构为基于SumTree的树结构模型,所有的经验回放样本只保存在最下面的叶子节点上,一个节点一个样本。内部节点不保存样本数据,叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和,当采样时,首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间,然后在每个区间中分别采样一个样本,按照从上往下的方式采样,计算公式为:n=sum(P)/batch_size,式中,sum(P)是SumTree根节点的值,P为样本的优先度值。
所述步骤2)中,定义AUV当前位置状态st=[ε,δ,L,u,v,r]T,式中,ε为AUV路径偏差,其计算公式为:ε(t)=L(t)×sinα(t);δ为AUV航向角偏差,其计算公式为:
Figure BDA0002181831950000051
式中Xwpt(i),Ywpt(i)表示t时刻下AUV在水平面上的位置;L为与下一目标点之间的距离,其计算公式为:
Figure BDA0002181831950000061
以地面坐标系为参考,u为x轴方向的前进速度、v为y轴方向的横移速度、r为绕z轴旋转的偏航角速度。
所述步骤3)中,定义动作a由本发明的基于增强学习的控制算法P-NNDPG的策略网络获得,其策略网络采用四层结构,将状态st作为输入层,第二层与第三层为隐藏层,采用全连接结构,最后一层输出动作at;在网络中,隐藏层采用ReLu激活函数进行非线性化,而输出层采用Tanh激活函数进行非线性化,其输出范围(-1,1);在AUV控制中,设定最大推力Fmax、最大扭矩Tmax,将Fmax和Tmax设为动作输出边界值,将策略网络输出值乘以动作边界值作为AUV动力输入,则有at={(F,T)|-Fmax<F<Fmax,-Tmax<T<Tmax},小型AUV使用无刷直流电机(BLDC)作为推进器,因此输出推力和扭矩在瞬态响应中具有有限的变化值,因此在动作网络输出时执行限制处理,AUV电机驱动模块优化后得
Figure BDA0002181831950000062
式中,Flast和Tlast为上一次控制器动力输出,ΔFmax和ΔTmax为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量,策略网络训练中,其权重参数θμ使用策略梯度的方式进行更新,在策略网络中其策略梯度计算公式为:
Figure BDA0002181831950000063
式中,θQ,θu通过平滑更新策略进行更新,公式为:
Figure BDA0002181831950000064
β<<1是参数更新平滑因子。
所述步骤5)中,采用了在策略输出的动作上假如随机噪声的方法作为探索和利用策略,其表达式为:
at=μ(stμ)+Δut
式中,Δut~N(μ,σ2)为零均值高斯白噪声。
AUV的控制方法每次在动作选择时,以概率1-ε去选择最大值函数Q(s,a)的动作amax,并且以ε的概率在可执行的动作空间中进行随机的选择要执行的动作,使得算法能够尽量多的去探索未知的状态,使算法不会陷于局部最优。
所述步骤6)中,采用了基于优先度的经验回放策略。即为经验池中的每个样本都赋予优先度pri,对于时间差分中TD-Error绝对值较大的样本赋予较高的优先度,在采样时,优先度越高的样本将优先被采样,以此加快算法的收敛速度;
在网络训练中,TD-Error为:
Δi=ri+γQ(si+1,μ(si+1μ)|θQ)-Q(si,aiQ)
式中,ri为即时奖励,γ为奖励折扣因子,si为当前状态,ai为当前动作,si+1为转移到下一时刻的状态;
令样本优先度prii为:
prii=|Δi|+ζ
式中,ζ是一个很小的正常数,为了使有一些TD-error为0的特殊边缘例子也能够被抽取;
同时,借鉴了ε-greedy策略,在优先度回放中引入随机采样的方法,此方法结合贪婪优先度回放和随机均匀采样。定义样本i的采样概率为:
Figure BDA0002181831950000071
式中,prii是样本i的优先度,α是优先度采样因子,当α等于0时,采用随机均匀采样。
所述步骤7)中,采用经验回访池的样本数据存储结构为基于SumTree的树结构模型,所有的经验回放样本只保存在最下面的叶子节点上,一个节点一个样本;内部节点不保存样本数据,叶子节点保存数据与样本优先级。对于内部节点每个节点只保存自己的子节点的优先级值之和,当采样时,首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间,然后在每个区间中分别采样一个样本,按照从上往下的方式采样;计算公式为:
n=sum(P)/batch_size
式中,sum(P)是SumTree根节点的值,P为样本的优先度值。
所述步骤8)中,为保证目标策略在实际控制中能够准确参考航向角偏差δt和路径偏差εt进行修改,同时保证快速稳定到达目标点的要求,即航行速度ut越快越好,其旋转角速度rt应该越小越好,设计控制算法回报函数为:
reward=-(ρ1δt2εt4ut5rt)
式中,ρ1、ρ2、ρ3、ρ4和ρ5分别为各个上述各个参数的权重系数。
所述步骤9)中,包含如下过程:
①初始化经验回放池;
②根据步骤1),获取AUV当前时刻的状态s;
③根据步骤3)-8)获得当前状态对应的a;
④控制电机驱动模块控制推进器推力进行运动,并重新读取AUV运动后的状态s’;
⑤根据步骤8)计算该动作后的回报r,根据步骤6)计算样本优先度P;
⑥将(s,a,r,s’,P)存入步骤7)所构建的经验池结构中;
⑦从经验池中按照样本优先度提取一批样本进行训练,更新控制算法模型与经验池;
⑧判断AUV是否到达目标点,若未到达则重复过程①-⑦,直至完成任务,并输出目标策略。
以上实施例进用以说明本发明的技术方案而非限制,本领域普通技术人员对于本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应含盖在本发明的权利要求范围中。

Claims (1)

1.一种基于增强学习的三自由度自主水下航行器控制方法,其特征在于:包括以下步骤:
步骤1)定义AUV控制系统模型位置状态参数;
步骤2)定义AUV控制器表达式;
步骤3)构建策略与评价网络结构;
步骤4)设计目标与当前值网络参数更新方式;
步骤5)设计AUV运动的探索与利用策略;
步骤6)设计基于优先度的经验回放策略;
步骤7)构建带优先级的经验回放池样本存储结构;
步骤8)定义回报函数;
步骤9)求解AUV运动控制目标策略;
所述步骤1)中,定义AUV当前位置状态:
st=[ε,δ,L,u,v,r]T
式中,ε为AUV路径偏差,其计算公式为:ε(t)=L(t)×sinα(t);δ为AUV航向角偏差,其计算公式为:
Figure FDA0003555796050000011
式中Xwpt(i),Ywpt(i)表示t时刻下AUV在水平面上的位置;L为与下一目标点之间的距离,其计算公式为:
Figure FDA0003555796050000012
以地面坐标系为参考,u为x轴方向的前进速度、v为y轴方向的横移速度、r为绕z轴旋转的偏航角速度;
所述步骤2)中,定义AUV控制器表达式为:
Figure FDA0003555796050000013
式中,η(t)为AUV当前的位置状态,
Figure FDA0003555796050000014
为AUV当前的速度状态,所设计的AUV控制器μ(·)本质上相当于控制器输出τT和AUV所处状态
Figure FDA0003555796050000015
之间的映射模型,使用神经网络去拟合控制器μ(·),其网络参数定义为θμ,则基于神经网络的AUV控制器表示为:
at=μ(stμ)
式中,at=[F1,0,F2,T]T为控制器的动力输出,F1,F2,T分别表示水平方向上的推力、垂直方向上的推力和水平方向上的扭矩,st=[η,v]T为AUV所处位置状态;
所述步骤3)中,策略网络采用四层结构,将状态st作为输入层,第二层与第三层为隐藏层,采用全连接结构,最后一层输出动作at;在网络中,隐藏层采用ReLu激活函数进行非线性化,而输出层采用Tanh激活函数进行非线性化,其输出范围(-1,1);在AUV控制中,设定最大推力Fmax、最大扭矩Tmax,将Fmax和Tmax设为动作输出边界值,将策略网络输出值乘以动作边界值作为AUV动力输入,则有at={(F,T)|-Fmax<F<Fmax,-Tmax<T<Tmax},小型AUV使用无刷直流电机BLDC作为推进器,因此输出推力和扭矩在瞬态响应中具有有限的变化值,因此在动作网络输出时执行限制处理,AUV电机驱动模块优化后得
Figure FDA0003555796050000021
式中,Flast和Tlast为上一次控制器动力输出,ΔFmax和ΔTmax为推进器在控制器更新输出的时间段内所能达到的最大的推力和扭矩变化量;
所述步骤3)中,评价网络采用四层结构,将状态与动作对(st,at)当作输入层,第二层与第三层为隐藏层,采用全连接结构,最后一层输出评价值Q值,各层均使用ReLu激活函数进行非线性化;
所述步骤4)中,采用一种“软”平滑方式更新,其表达式为:
Figure FDA0003555796050000022
式中,β<<1是参数更新平滑因子,θQ、θQ′分别为评价网络中当前值网络eval network和目标网络target network的权重参数,θμ、θμ′分别为当前值网络eval network和目标网络target network的权重参数;
评价网络其权重参数θQ采用最小化Loss Function,利用随机梯度下降的方式更新,其Loss Function为:
Figure FDA0003555796050000023
式中,yi=ri+γQ'(si+1,μ'(si+1μ′)|θQ′),ri为瞬时回报,γ为回报折扣因子,si+1为转移到下一时刻AUV的状态;
在策略网络训练中,其权重参数θμ使用策略梯度的方式进行更新,在策略网络中其策略梯度计算公式为:
Figure FDA0003555796050000031
所述步骤5)中,采用了在策略输出的动作上随机噪声的方法作为探索和利用策略,其表达式为:
at=μ(stμ)+Δut
式中,Δut~N(μ,σ2)为零均值高斯白噪声;
AUV的控制方法每次在动作选择时,以概率1-ε去选择最大值函数Q(s,a)的动作amax,并且以ε的概率在可执行的动作空间中进行随机的选择要执行的动作,使得算法能够尽量多的去探索未知的状态,使算法不会陷于局部最优;
所述步骤6)中,采用了基于优先度的经验回放策略,即为经验池中的每个样本都赋予优先度pri,对于时间差分中TD-Error绝对值较大的样本赋予较高的优先度,在采样时,优先度越高的样本将优先被采样,以此加快算法的收敛速度;
在网络训练中,TD-Error为:
Δi=ri+γQ(si+1,μ(si+1μ)|θQ)-Q(si,aiQ)
式中,si为当前状态,ai为当前动作,si+1为转移到下一时刻的状态;
令样本优先度prii为:
prii=|Δi|+ζ
式中,ζ是一个很小的正常数,为了使有一些TD-error为0的特殊边缘例子也能够被抽取;
同时,借鉴了ε-greedy策略,在优先度回放中引入随机采样的方法,此方法结合贪婪优先度回放和随机均匀采样,定义样本i的采样概率为:
Figure FDA0003555796050000032
式中,prii是样本i的优先度,α是优先度采样因子,当α等于0时,采用随机均匀采样;
所述步骤7)中,采用经验回放池的样本数据存储结构为基于SumTree的树结构模型,所有的经验回放样本只保存在最下面的叶子节点上,一个节点一个样本;内部节点不保存样本数据,叶子节点保存数据与样本优先级,对于内部节点每个节点只保存自己的子节点的优先级值之和,当采样时,首先根据总的优先度和采样个数将整个SumTree的叶子节点划分成很多区间,然后在每个区间中分别采样一个样本,按照从上往下的方式采样;计算公式为:
n=sum(P)/batch_size
式中,sum(P)是SumTree根节点的值,P为样本的优先度值;
所述步骤8)中,为保证目标策略在实际控制中能够准确参考航向角偏差δt和路径偏差εt进行修改,同时保证快速稳定到达目标点的要求,航行速度ut越快越好,其旋转角速度rt应该越小越好,设计控制算法回报函数为:
reward=-(ρ1δt2εt4ut5rt)
式中,ρ1、ρ2、ρ3、ρ4和ρ5分别为各个上述各个参数的权重系数;
所述步骤9)中,包含如下过程:
①初始化经验回放池;
②根据步骤1),获取AUV当前时刻的状态s;
③根据步骤3)-8)获得当前状态对应的a;
④控制电机驱动模块控制推进器推力进行运动,并重新读取AUV运动后的状态s’;
⑤根据步骤8)计算该动作后的回报r,根据步骤6)计算样本优先度P;
⑥将(s,a,r,s’,P)存入步骤7)所构建的经验回放池结构中;
⑦从经验回放池中按照样本优先度提取一批样本进行训练,更新控制算法模型与经验回放池;
⑧判断AUV是否到达目标点,若未到达则重复过程①-⑦,直至完成任务,并输出目标策略。
CN201910799267.4A 2019-08-28 2019-08-28 一种基于增强学习的三自由度自主水下航行器控制方法 Active CN110597058B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910799267.4A CN110597058B (zh) 2019-08-28 2019-08-28 一种基于增强学习的三自由度自主水下航行器控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910799267.4A CN110597058B (zh) 2019-08-28 2019-08-28 一种基于增强学习的三自由度自主水下航行器控制方法

Publications (2)

Publication Number Publication Date
CN110597058A CN110597058A (zh) 2019-12-20
CN110597058B true CN110597058B (zh) 2022-06-17

Family

ID=68855986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910799267.4A Active CN110597058B (zh) 2019-08-28 2019-08-28 一种基于增强学习的三自由度自主水下航行器控制方法

Country Status (1)

Country Link
CN (1) CN110597058B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310384B (zh) * 2020-01-16 2024-05-21 香港中文大学(深圳) 一种风场协同控制方法、终端及计算机可读存储介质
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN112100834A (zh) * 2020-09-06 2020-12-18 西北工业大学 一种基于深度强化学习的水下滑翔机姿态控制方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112558465B (zh) * 2020-12-03 2022-11-01 大连海事大学 一种带有输入限制的未知无人船有限时间强化学习控制方法
CN113010963B (zh) * 2021-03-04 2022-04-29 山东大学 基于深度强化学习的变质量水下航行器避障方法及系统
CN114089633B (zh) * 2021-11-19 2024-04-26 江苏科技大学 一种水下机器人多电机耦合驱动控制装置及方法
CN114839884B (zh) * 2022-07-05 2022-09-30 山东大学 一种基于深度强化学习的水下航行器底层控制方法及系统
CN116295449B (zh) * 2023-05-25 2023-09-12 吉林大学 水下自主航行器路径指示方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9146546B2 (en) * 2012-06-04 2015-09-29 Brain Corporation Systems and apparatus for implementing task-specific learning using spiking neurons

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN109669452A (zh) * 2018-11-02 2019-04-23 北京物资学院 一种基于并行强化学习的云机器人任务调度方法和系统
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN109784201A (zh) * 2018-12-24 2019-05-21 中国海洋大学 基于四维风险评估的auv动态避障方法

Also Published As

Publication number Publication date
CN110597058A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110597058B (zh) 一种基于增强学习的三自由度自主水下航行器控制方法
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN114625151B (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN113033119B (zh) 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN110909859A (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN113885534B (zh) 一种基于智能预测控制的水面无人船路径跟踪方法
CN109782600A (zh) 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN106338919A (zh) 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN109189083B (zh) 一种具有垂推的低速水下航行器的定深控制方法
CN112947431A (zh) 一种基于强化学习的无人船路径跟踪方法
CN107315348B (zh) 一种基于惩罚式小波网络的无人潜航器位姿控制方法
CN114428517B (zh) 一种无人机无人艇协同平台端对端自主降落控制方法
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
Blekas et al. RL-based path planning for an over-actuated floating vehicle under disturbances
CN114995468A (zh) 一种基于贝叶斯深度强化学习的水下机器人智能控制方法
CN118305789A (zh) 一种基于改进海洋捕食者算法的水下机械臂轨迹优化方法及系统
CN117555352A (zh) 一种基于离散sac的海洋洋流助力路径规划方法
CN115303455B (zh) 水下仿生机器人运动控制方法、装置、设备及存储介质
CN114840928B (zh) 一种基于深度学习的水下航行器集群运动仿真方法
CN116578080A (zh) 一种基于深度强化学习的局部路径规划方法
CN116126000A (zh) 基于环境最优艏向的水下机器人悬停强化学习控制方法
CN116466701A (zh) 一种无人水面艇能耗最小轨迹规划方法
CN115390573A (zh) 基于强化学习的蝠鲼式仿生鱼控制方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant