CN109407682B - 基于图像特征深度强化学习的auv管道循管方法 - Google Patents
基于图像特征深度强化学习的auv管道循管方法 Download PDFInfo
- Publication number
- CN109407682B CN109407682B CN201811143861.XA CN201811143861A CN109407682B CN 109407682 B CN109407682 B CN 109407682B CN 201811143861 A CN201811143861 A CN 201811143861A CN 109407682 B CN109407682 B CN 109407682B
- Authority
- CN
- China
- Prior art keywords
- auv
- old
- layer
- action
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002787 reinforcement Effects 0.000 title claims abstract description 18
- 230000009471 action Effects 0.000 claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 30
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 8
- 238000011217 control strategy Methods 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 abstract 1
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于图像特征深度强化学习的AUV管道循管方法。首先,将AUV循管控制问题建模为连续状态、连续动作的Markov决策过程;其次,控制策略抽象为AUV观测状态(摄像头获取的图像)到运动动作的映射,并利用深度神经网络表达;最后,利用近端策略优化(PPO)方法自主采集数据并训练深度神经网络,最终获得具有一定泛化能力的端到端的循管控制策略。仿真结果表明,本发明能够有效控制AUV的循管动作,而且对于新的和未知的管道几何结构具有较强的泛化能力。该方法是一种端到端(end‑to‑end)的视觉循管运动控制方法,无需知晓AUV的运动学/动力学模型,也无需人工特征提取。
Description
技术领域
本发明涉及智能海洋装备领域,尤其是一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。
背景技术
目前,石油、天然气和电力公司拥有大量的地下管道或电缆网络。由于这些管道和电缆广泛地分布在海洋中,必须由受过专门训练的操作人员使用远程遥控水下机器人(Remote Operated Vehicle,ROV)才能来执行日常检查和维护工作。不仅人力成本及维护代价高,耗费时间长,而且高度受制于地面和洋面的天气条件。故此,产业界对水下管道进行自动检测、测量和维护的需求不断增长并日益迫切起来,而自主水下航行器(AutonomousUnderwater Vehicle,AUV)的出现为这一需求的解决提供了现实、方便的硬件条件。
AUV是一种由传感器供电的、综合了人工智能和其他先进计算技术的任务控制器,集成了深潜、传感、环境自适应、能量储存转换与推进等多种功能,可以在没有任何表面容器的情况下从海岸部署并自主搜集来自传感器的所有有用数据,无需借助人力操控来执行预设任务,从而有望显著降低所需的成本和工时,有效打破外界气候环境的限制。然而,采用AUV进行自主管道检测的主要难点在于,控制算法只有在有效适应变化条件或未知条件的前提下,才能稳健地跟踪管道。为此,有必要通过仿真对水下管道的循管跟踪过程进行预演,生成优化的循管策略,进而保证循管跟踪的顺利开展和水下管道设施的安全性,这一问题已引起学术界和产业界的极大关注。
Zhao Yue提出了一种基于观测器的、自适应神经网络的流水线跟踪控制方法,通过构造自适应状态观测器来估计ROV的状态,利用局部RNN学习未知函数;Fang Ming-Chung等人利用人工视觉算法获得机器人相对于管道的相对角位置,并采用重力导数比例导数范数来控制机器人;Li Zhijun等人则提出了AUV轨迹跟踪的自适应控制律,解决了与水动力阻尼系数相关的参数估计问题。不过,这些方法均要求建立精确的动力学模型,而在实际应用中水下环境非常复杂,欲获得水下机器人的精确动力学模型非常困难,这意味着AUV控制器的控制参数集合难以确定,甚至是不可能的。此时,若在一个不精确的动力学模型指导下,上述控制方法的性能将不可避免地出现严重退化。
考虑到强化学习策略能通过在线学习来计算水下机器人的部分状态信息,有利于帮助AUV处理诸多不可预见或不能准确获知的情况,Aksnes等人采用SARSA和有监督的CACLA来增强AUV的管道跟踪能力,取得了更好的泛化能力,在一定程度上克服了精确动力学模型存在的不足,从而开启了强化学习应用在AUV管道跟踪中的先河。之后,Paula等人提出了一种选择性强化学习方法,它不依赖于动态系统的先验知识,而是通过在线学习与非平稳的环境进行交互,实现了控制策略的实时自适应;Yu等人设计了一种基于深度强化学习的水下运动控制系统,利用两个神经网络来选择动作并评估该动作的获益,实验结果表明当轨迹为复杂曲线时,该系统表现出优于传统PID控制系统的性能;类似地,Cui Rongxin等人也利用两种神经网络给出了一种用于增强AUV轨迹跟踪的强化学习技术,可用于评估当前时间步长控制的长距离性能以及补偿未知的动力学参数所产生的影响,具有更好的鲁棒性;Wu Hui等人则提出一种离散时间的无模型强化学习框架,可有效解决AUV的恒定深度控制、曲线深度跟踪和海底跟踪三方面问题。尽管上述方法不要求预先获取复杂海底环境下的精确动力学模型,可是它们却假定AUV的位置和速度已知,且对位置和速度信息的精度较为敏感。一方面,在现实中,我们很难获取到AUV的位置和位姿信息,即使能通过精密传感器来测量这些信息,其价格成本也会非常高昂;另一方面,水下环境复杂多变,获取到的AUV位置和位姿信息的准确性和可靠性亦难以保证。
因此,现有的基于动力学模型的AUV管道跟踪方法和基于强化学习策略的AUV管道跟踪方法均存在诸多约束和限制,与真正付诸实用尚有一段距离。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。
本发明的技术解决方案是:一种基于图像特征深度强化学习的AUV管道循管方法,依次按照如下步骤进行:
所述表示旧策略模型,用于生成智能体与环境的交互数据,训练过程中每隔一段时间用最新的策略模型更新;表示正在训练的策略模型,在训练过程中利用得到的交互数据不断更新该策略神经网络的参数;表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,为该高斯分布的协方差矩阵,在此使用单位阵表示,为该高斯分布的均值;所述 是从AUV的状态数据到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.5 第5层为全连接层,由512个单元进行全连接组成;
步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.3 令迭代次数i = 1;
的经验数据,所述t表示时刻且1 < t < T,表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,表示在第t个时刻旧策略模型指导AUV所选择的动作,表示AUV执行动作时所获得的即时奖励,表示AUV在状态的值函数值,表示AUV执行动作后该回合是否结束(比如已偏离管道),具体详细步骤如下:
步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数。具体步骤如下:
步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
与现有的技术相比,本发明从三个方面降低AUV自主管道跟踪的软硬件,并提高其对复杂海底环境的自适应能力:
首先,利用深度神经网络将管道跟踪问题建模为图像到AUV速度的映射,并通过近端策略优化训练得到神经网络参数,建立图像像素到AUV循管动作的Markov决策过程。故而,只需在AUV底部安装一个普通摄像头,并根据其获取的图像即可控制AUV做出较优的循管动作决策,而无需搭载昂贵的传感器来获取精确的AUV位置和位姿信息,显著降低了管道跟踪的硬件成本。
其次,通过发掘深度神经网络的泛化能力,放松了对动力学模型精度的约束,不仅可抑制模型误差产生的控制动作失真,也能降低算法实现的复杂度。
然后,由于本发明对动力学模型的参数精度和AUV的位置、姿态参数精度均较为鲁棒,能有效适应不同几何形状的管道布局。
因此,本发明具有自适应能力好、泛化能力强、软硬件成本低等优点。
附图说明
图1是本发明实施例每次迭代的平均循管长度变化曲线图。
图2是本发明实施例回报的变化曲线图。
图3是本发明实施例在原始场景中由习得策略生成的轨迹。
图4是本发明实施例三弯管道中循管任务的执行结果图。
图5是本发明实施例七弯管道中循管任务的执行结果图。
图6是本发明实施例九弯管道中循管任务的执行结果图。
具体实施方式
本发明的基于图像特征深度强化学习的AUV管道循管方法,依次按照如下步骤进行:
所述表示旧策略模型,用于生成智能体与环境的交互数据,训练过程中每隔一段时间用最新的策略模型更新;表示正在训练的策略模型,在训练过程中利用得到的交互数据不断更新该策略神经网络的参数;表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,为该高斯分布的协方差矩阵,在此使用单位阵表示,为该高斯分布的均值;所述 是从AUV的状态数据到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.5 第5层为全连接层,由512个单元进行全连接组成;
步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.3 令迭代次数i = 1;
的经验数据,所述t表示时刻且1 < t < T,表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,表示在第t个时刻旧策略模型指导AUV所选择的动作,表示AUV执行动作时所获得的即时奖励,表示AUV在状态的值函数值,表示AUV执行动作后该回合是否结束(比如已偏离管道),具体详细步骤如下:
步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数。具体步骤如下:
步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
本发明实施例每次迭代的平均循管长度如图1,从图1中可见,平均循管长度随迭代次数的增加而逐渐递增,表明本发明的自适应决策模型变得越来越优化。
本发明实施例回报率的变化趋势如图2,从图2中可见,随着训练次数的增加,回报率呈上升趋势,表明本发明的自适应决策模型越来越智能,能够做出愈加有效的循管动作决策。
本发明实施例在原始场景中由习得策略生成的轨迹如图3,从图3中可见,AUV可自主进行管道循管,并且在到达管道末端时会掉头返回。同时,AUV在原始场景所不具备的三弯管道、七弯管道及九弯管道中的自适应决策结果如图4~图6,从图4~图6中可见,具有自主学习策略的AUV能够遵循管道的几何形状顺利完成任务,表明本发明的学习策略具有很好的泛化能力。
Claims (1)
1.一种基于图像特征深度强化学习的AUV管道循管方法,其特征在于依次按如下步骤进行:
步骤1根据公式(1)和公式(2)的定义建立两个策略模型πold(a|s)和πθ(a|s):
πold(a|s)=N(μ(s),∑), (1)
πθ(a|s)=N(μ(s),∑), (2)
所述πold(a|s)表示旧策略模型;πθ(a|s)表示正在训练的策略模型;a表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,∑为该高斯分布的协方差矩阵,使用单位阵表示,μ(s)为该高斯分布的均值;所述μ(s)是从AUV的状态数据s到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.1第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据s;
步骤1.2第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.3第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.4第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.5第5层为全连接层,由512个单元进行全连接组成;
步骤1.6第6层为输出层,输出μ(s),即AUV的线速度和角速度;
步骤1.7建立从AUV的状态到一个实数值的映射,所述映射共享μ(s)网络结构的前5层,在第5层之后再构建另一个输出V(s);
步骤2.采用近端策略优化强化学习算法,训练πold(a|s)和πθ(a|s)的深度神经网络参数:
步骤2.1初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.2初始化策略模型πold(a|s)和πθ(a|s),使用-1.0到1.0的随机数对其中的神经网络参数进行初始化;
步骤2.3令迭代次数i=1;
步骤2.4用旧策略模型πold(a|s)与环境实体进行交互,获得T个时间步长的经验数据{st,at,rt,vt,dt},所述t表示时刻且1<t<T,st表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,at表示在第t个时刻旧策略模型πold(a|s)指导AUV所选择的动作,rt表示AUV执行动作at时所获得的即时奖励,vt表示AUV在状态的值函数值,dt表示AUV执行动作at后该回合是否结束,具体步骤如下:
步骤a)令t=1;
步骤b)AUV所搭载的摄像机采集到图像st,将其输入旧策略模型πold(a|s),得到动作at;
步骤c)AUV执行动作at,从摄像头获取到图像st+1,根据st+1判断是否远离管道,若远离管道,则rt=-0.1且dt=1,否则rt=0.05且dt=0;
步骤d)根据公式vt=rt+γV(st|1)计算得到vt;
步骤e)将st、at、rt、vt、dt组成一个5元组{st,at,rt,vt,dt},作为经验数据存储到数据集D中;
步骤f)令t=t+1,若t>T,则转入步骤2.5,否则转入步骤2.4b);
步骤2.5对于数据集D中的每个5元组{st,at,rt,vt,dt},其中,根据vt、dt、rt,按照公式(3)计算每步动作的优势值At,并将其插入数据集D中;
At=-V(st)+rt+γrt+1+...+γT-t+1rT-1+γT-1V(sT) (3)
所述At表示执行动作at的优势值;V(st)表示在t时刻状态的值函数;rt表示AUV执行动作at时所获得的即时奖励;γ表示折扣因子;
步骤2.6更新旧策略模型πold(a|s),即令πold(a|s)=πθ(a|s),将当前策略模型的神经网络参数赋值给旧策略模型的神经网络;
步骤2.7利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数,具体步骤如下:
步骤a)令k=1;
步骤b)令j=1;
步骤c)从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
步骤d)更新当前策略模型πθ(a|s)的θ,即θt+1=θt+g;
步骤e)令j=j+1,若j>J,则转到步骤f),否则转到步骤c);
步骤f)令k=k+1,若k>K,则转到步骤2.8,否则转到步骤b);
步骤2.8令i=i+1,若i>M,则结束训练,得到了以为θ参数的循管策略模型πθ(a|s),转入步骤3,否则转入步骤2.4;
步骤3.将智能决策模型πθ(a|s)部署到AUV中,用于控制其循管运动;
步骤3.1利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据s;
步骤3.2将状态数据s输入智能决策模型πθ(a|s),计算得到AUV应执行的循管动作a;
步骤3.3向AUV发出命令,使其执行循管动作a;
步骤3.4若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143861.XA CN109407682B (zh) | 2018-09-29 | 2018-09-29 | 基于图像特征深度强化学习的auv管道循管方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811143861.XA CN109407682B (zh) | 2018-09-29 | 2018-09-29 | 基于图像特征深度强化学习的auv管道循管方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109407682A CN109407682A (zh) | 2019-03-01 |
CN109407682B true CN109407682B (zh) | 2021-06-15 |
Family
ID=65465561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811143861.XA Active CN109407682B (zh) | 2018-09-29 | 2018-09-29 | 基于图像特征深度强化学习的auv管道循管方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109407682B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111111200B (zh) * | 2019-12-23 | 2023-11-14 | 北京像素软件科技股份有限公司 | 战斗策略生成方法及装置 |
CN111580544B (zh) * | 2020-03-25 | 2021-05-07 | 北京航空航天大学 | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 |
CN112469103B (zh) * | 2020-11-26 | 2022-03-08 | 厦门大学 | 基于强化学习Sarsa算法的水声协作通信路由方法 |
CN112947505B (zh) * | 2021-03-22 | 2022-11-25 | 哈尔滨工程大学 | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 |
CN114354082B (zh) * | 2022-03-18 | 2022-05-31 | 山东科技大学 | 一种基于仿鲟鱼吻须的海底管道智能循迹系统和循迹方法 |
CN115291616B (zh) * | 2022-07-25 | 2023-05-26 | 江苏海洋大学 | 一种基于近端策略优化算法的auv动态避障方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102644A (zh) * | 2017-06-22 | 2017-08-29 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108594639A (zh) * | 2018-03-28 | 2018-09-28 | 哈尔滨工程大学 | 一种基于强化学习的全垫升气垫船航迹跟踪控制方法 |
-
2018
- 2018-09-29 CN CN201811143861.XA patent/CN109407682B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107102644A (zh) * | 2017-06-22 | 2017-08-29 | 华南师范大学 | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 |
CN107748566A (zh) * | 2017-09-20 | 2018-03-02 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108594639A (zh) * | 2018-03-28 | 2018-09-28 | 哈尔滨工程大学 | 一种基于强化学习的全垫升气垫船航迹跟踪控制方法 |
Non-Patent Citations (4)
Title |
---|
A Novel Non-Supervised Deep-Learning-Based Network Traffic Control Method for Software Defined Wireless Networks;B. Mao等;《 IEEE Wireless Communications》;IEEE;20180904;第25卷(第4期);第74-81页 * |
Deep reinforcement learning based optimal trajectory tracking control of autonomous underwater vehicle;Runsheng Yu等;《2017 36th Chinese Control Conference (CCC)》;IEEE;20170911;第4958-4965页 * |
Proximal Policy Optimization Algorithms;John Schulman等;《arXiv》;arXiv;20170828;第1-12页 * |
部分观测马尔可夫决策过程下的深海热液自主探测研究;李金龙;《中国优秀硕士学位论文全文数据库 基础科学辑》;中国学术期刊(光盘版)电子杂志社;20150515(第05期);第1-88页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109407682A (zh) | 2019-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109407682B (zh) | 基于图像特征深度强化学习的auv管道循管方法 | |
CN107748566B (zh) | 一种基于强化学习的水下自主机器人固定深度控制方法 | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
US11727281B2 (en) | Unsupervised control using learned rewards | |
El-Fakdi et al. | Two-step gradient-based reinforcement learning for underwater robotics behavior learning | |
Liu et al. | Deep inference for covariance estimation: Learning gaussian noise models for state estimation | |
Cao et al. | Target search control of AUV in underwater environment with deep reinforcement learning | |
CN113084817B (zh) | 扰流环境下水下机器人的物体搜索及抓取控制方法 | |
CN113033118B (zh) | 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法 | |
CN114115262B (zh) | 基于方位角信息的多auv执行器饱和协同编队控制系统和方法 | |
Liu et al. | Pixel-to-action policy for underwater pipeline following via deep reinforcement learning | |
He et al. | Multi-AUV inspection for process monitoring of underwater oil transportation | |
CN113821035A (zh) | 无人船轨迹追踪控制方法和装置 | |
Yang et al. | Learning to propagate interaction effects for modeling deformable linear objects dynamics | |
Wang et al. | Path-following optimal control of autonomous underwater vehicle based on deep reinforcement learning | |
Lee et al. | Approximate inverse reinforcement learning from vision-based imitation learning | |
Yamano et al. | Fluid force identification acting on snake-like robots swimming in viscous fluids | |
Pan et al. | Learning for depth control of a robotic penguin: A data-driven model predictive control approach | |
Wang et al. | Adversarial deep reinforcement learning based robust depth tracking control for underactuated autonomous underwater vehicle | |
Skaldebø et al. | Dynamic positioning of an underwater vehicle using monocular vision-based object detection with machine learning | |
Dimitrov et al. | Model identification of a small fully-actuated aquatic surface vehicle using a long short-term memory neural network | |
Peng et al. | Moving object grasping method of mechanical arm based on deep deterministic policy gradient and hindsight experience replay | |
El-Fakdi et al. | Autonomous underwater vehicle control using reinforcement learning policy search methods | |
Chauvin-Hameau | Informative path planning for algae farm surveying | |
Zhang et al. | Tracking control of AUV via novel soft actor-critic and suboptimal demonstrations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |