CN109407682B - 基于图像特征深度强化学习的auv管道循管方法 - Google Patents

基于图像特征深度强化学习的auv管道循管方法 Download PDF

Info

Publication number
CN109407682B
CN109407682B CN201811143861.XA CN201811143861A CN109407682B CN 109407682 B CN109407682 B CN 109407682B CN 201811143861 A CN201811143861 A CN 201811143861A CN 109407682 B CN109407682 B CN 109407682B
Authority
CN
China
Prior art keywords
auv
old
layer
action
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811143861.XA
Other languages
English (en)
Other versions
CN109407682A (zh
Inventor
林远山
王芳
于红
常亚青
崔新忠
刘亚楠
孙圣禹
吕泽宇
宋梓奇
曹凯惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Ocean University
Original Assignee
Dalian Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Ocean University filed Critical Dalian Ocean University
Priority to CN201811143861.XA priority Critical patent/CN109407682B/zh
Publication of CN109407682A publication Critical patent/CN109407682A/zh
Application granted granted Critical
Publication of CN109407682B publication Critical patent/CN109407682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于图像特征深度强化学习的AUV管道循管方法。首先,将AUV循管控制问题建模为连续状态、连续动作的Markov决策过程;其次,控制策略抽象为AUV观测状态(摄像头获取的图像)到运动动作的映射,并利用深度神经网络表达;最后,利用近端策略优化(PPO)方法自主采集数据并训练深度神经网络,最终获得具有一定泛化能力的端到端的循管控制策略。仿真结果表明,本发明能够有效控制AUV的循管动作,而且对于新的和未知的管道几何结构具有较强的泛化能力。该方法是一种端到端(end‑to‑end)的视觉循管运动控制方法,无需知晓AUV的运动学/动力学模型,也无需人工特征提取。

Description

基于图像特征深度强化学习的AUV管道循管方法
技术领域
本发明涉及智能海洋装备领域,尤其是一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。
背景技术
目前,石油、天然气和电力公司拥有大量的地下管道或电缆网络。由于这些管道和电缆广泛地分布在海洋中,必须由受过专门训练的操作人员使用远程遥控水下机器人(Remote Operated Vehicle,ROV)才能来执行日常检查和维护工作。不仅人力成本及维护代价高,耗费时间长,而且高度受制于地面和洋面的天气条件。故此,产业界对水下管道进行自动检测、测量和维护的需求不断增长并日益迫切起来,而自主水下航行器(AutonomousUnderwater Vehicle,AUV)的出现为这一需求的解决提供了现实、方便的硬件条件。
AUV是一种由传感器供电的、综合了人工智能和其他先进计算技术的任务控制器,集成了深潜、传感、环境自适应、能量储存转换与推进等多种功能,可以在没有任何表面容器的情况下从海岸部署并自主搜集来自传感器的所有有用数据,无需借助人力操控来执行预设任务,从而有望显著降低所需的成本和工时,有效打破外界气候环境的限制。然而,采用AUV进行自主管道检测的主要难点在于,控制算法只有在有效适应变化条件或未知条件的前提下,才能稳健地跟踪管道。为此,有必要通过仿真对水下管道的循管跟踪过程进行预演,生成优化的循管策略,进而保证循管跟踪的顺利开展和水下管道设施的安全性,这一问题已引起学术界和产业界的极大关注。
Zhao Yue提出了一种基于观测器的、自适应神经网络的流水线跟踪控制方法,通过构造自适应状态观测器来估计ROV的状态,利用局部RNN学习未知函数;Fang Ming-Chung等人利用人工视觉算法获得机器人相对于管道的相对角位置,并采用重力导数比例导数范数来控制机器人;Li Zhijun等人则提出了AUV轨迹跟踪的自适应控制律,解决了与水动力阻尼系数相关的参数估计问题。不过,这些方法均要求建立精确的动力学模型,而在实际应用中水下环境非常复杂,欲获得水下机器人的精确动力学模型非常困难,这意味着AUV控制器的控制参数集合难以确定,甚至是不可能的。此时,若在一个不精确的动力学模型指导下,上述控制方法的性能将不可避免地出现严重退化。
考虑到强化学习策略能通过在线学习来计算水下机器人的部分状态信息,有利于帮助AUV处理诸多不可预见或不能准确获知的情况,Aksnes等人采用SARSA和有监督的CACLA来增强AUV的管道跟踪能力,取得了更好的泛化能力,在一定程度上克服了精确动力学模型存在的不足,从而开启了强化学习应用在AUV管道跟踪中的先河。之后,Paula等人提出了一种选择性强化学习方法,它不依赖于动态系统的先验知识,而是通过在线学习与非平稳的环境进行交互,实现了控制策略的实时自适应;Yu等人设计了一种基于深度强化学习的水下运动控制系统,利用两个神经网络来选择动作并评估该动作的获益,实验结果表明当轨迹为复杂曲线时,该系统表现出优于传统PID控制系统的性能;类似地,Cui Rongxin等人也利用两种神经网络给出了一种用于增强AUV轨迹跟踪的强化学习技术,可用于评估当前时间步长控制的长距离性能以及补偿未知的动力学参数所产生的影响,具有更好的鲁棒性;Wu Hui等人则提出一种离散时间的无模型强化学习框架,可有效解决AUV的恒定深度控制、曲线深度跟踪和海底跟踪三方面问题。尽管上述方法不要求预先获取复杂海底环境下的精确动力学模型,可是它们却假定AUV的位置和速度已知,且对位置和速度信息的精度较为敏感。一方面,在现实中,我们很难获取到AUV的位置和位姿信息,即使能通过精密传感器来测量这些信息,其价格成本也会非常高昂;另一方面,水下环境复杂多变,获取到的AUV位置和位姿信息的准确性和可靠性亦难以保证。
因此,现有的基于动力学模型的AUV管道跟踪方法和基于强化学习策略的AUV管道跟踪方法均存在诸多约束和限制,与真正付诸实用尚有一段距离。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。
本发明的技术解决方案是:一种基于图像特征深度强化学习的AUV管道循管方法,依次按照如下步骤进行:
步骤1 根据公式(1)和公式(2)的定义建立两个策略模型
Figure DEST_PATH_IMAGE001
Figure 712290DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
, (1)
Figure 941146DEST_PATH_IMAGE004
, (2)
所述
Figure 566162DEST_PATH_IMAGE001
表示旧策略模型,用于生成智能体与环境的交互数据,训练过程中每隔一段时间用最新的策略模型更新;
Figure 832058DEST_PATH_IMAGE002
表示正在训练的策略模型,在训练过程中利用得到的交互数据不断更新该策略神经网络的参数;
Figure DEST_PATH_IMAGE005
表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,
Figure 893424DEST_PATH_IMAGE006
为该高斯分布的协方差矩阵,在此使用单位阵表示,
Figure DEST_PATH_IMAGE007
为该高斯分布的均值;所述
Figure 942283DEST_PATH_IMAGE007
是从AUV的状态数据
Figure 671073DEST_PATH_IMAGE008
到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.1 第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
Figure 576712DEST_PATH_IMAGE008
步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.5 第5层为全连接层,由512个单元进行全连接组成;
步骤1.6 第6层为输出层,输出
Figure 141686DEST_PATH_IMAGE007
,即AUV的线速度和角速度;
步骤1.7 后面的训练算法需要评估AUV状态
Figure 571399DEST_PATH_IMAGE008
的优劣程度,即需要建立从AUV的状态到一个实数值的映射
Figure DEST_PATH_IMAGE009
,该值函数深度神经网络来表示,在此共享
Figure 171008DEST_PATH_IMAGE007
网络结构的前5层,即在第5层之后再构建另一个输出
Figure 778706DEST_PATH_IMAGE009
步骤2. 采用近端策略优化(Proximal Policy Optimization,PPO)强化学习算法,训练
Figure 565397DEST_PATH_IMAGE001
Figure 346271DEST_PATH_IMAGE002
的深度神经网络参数;
步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.2 初始化策略模型
Figure 784074DEST_PATH_IMAGE001
Figure 297095DEST_PATH_IMAGE002
,使用-1.0到1.0的随机数对其中的神经网络参数进行初始化;
步骤2.3 令迭代次数i = 1;
步骤2.4 用旧策略模型
Figure 633399DEST_PATH_IMAGE001
与环境实体进行交互,获得T个时间步长
的经验数据
Figure 358909DEST_PATH_IMAGE010
,所述t表示时刻且1 < t < T,
Figure DEST_PATH_IMAGE011
表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,
Figure 385640DEST_PATH_IMAGE012
表示在第t个时刻旧策略模型
Figure 335142DEST_PATH_IMAGE001
指导AUV所选择的动作,
Figure DEST_PATH_IMAGE013
表示AUV执行动作
Figure 345692DEST_PATH_IMAGE012
时所获得的即时奖励,
Figure 406052DEST_PATH_IMAGE014
表示AUV在状态的值函数值,
Figure DEST_PATH_IMAGE015
表示AUV执行动作
Figure 569180DEST_PATH_IMAGE012
后该回合是否结束(比如已偏离管道),具体详细步骤如下:
步骤 a) 令
Figure 955162DEST_PATH_IMAGE016
步骤 b) AUV所搭载的摄像机采集到图像
Figure 187429DEST_PATH_IMAGE011
,将其输入旧策略模型
Figure 848217DEST_PATH_IMAGE001
,得到动作
Figure 131431DEST_PATH_IMAGE012
步骤 c) AUV执行动作
Figure 422735DEST_PATH_IMAGE012
,从摄像头获取到图像
Figure DEST_PATH_IMAGE017
,根据
Figure 345561DEST_PATH_IMAGE017
判断是否远离管道,若远离管道,让时为
Figure 747723DEST_PATH_IMAGE013
=- 0.1且
Figure 885443DEST_PATH_IMAGE015
=1,否则
Figure 596916DEST_PATH_IMAGE013
=0.05且
Figure 820087DEST_PATH_IMAGE015
=0;
步骤 d) 根据公式
Figure 25941DEST_PATH_IMAGE018
计算得到
Figure DEST_PATH_IMAGE019
步骤 e) 将
Figure 18167DEST_PATH_IMAGE011
Figure 166121DEST_PATH_IMAGE012
Figure 673326DEST_PATH_IMAGE013
Figure 620553DEST_PATH_IMAGE014
Figure 732866DEST_PATH_IMAGE015
组成一个5元组
Figure 333611DEST_PATH_IMAGE010
,作为经验数据存储到数据集D中;
步骤 f) 令
Figure 780642DEST_PATH_IMAGE020
,若
Figure DEST_PATH_IMAGE021
,则转入步骤2.5,否则转入步骤2.4 b);
步骤2.5 对于数据集D中的每个5元组
Figure 328298DEST_PATH_IMAGE010
,其中,根据
Figure 295117DEST_PATH_IMAGE014
Figure 270026DEST_PATH_IMAGE015
Figure 486244DEST_PATH_IMAGE013
,按照公式(3)计算每步动作的优势值
Figure 821279DEST_PATH_IMAGE022
,并将其插入数据集D中;
Figure DEST_PATH_IMAGE023
(3)
所述
Figure 908184DEST_PATH_IMAGE022
表示执行动作
Figure 53994DEST_PATH_IMAGE012
的优势值;
Figure 960770DEST_PATH_IMAGE024
表示在t时刻状态的值函数;
Figure 646967DEST_PATH_IMAGE013
表示AUV执行动作
Figure 572066DEST_PATH_IMAGE012
时所获得的即时奖励;
Figure DEST_PATH_IMAGE025
表示折扣因子;
步骤2.6 更新旧策略模型
Figure 419937DEST_PATH_IMAGE001
,即令
Figure 548430DEST_PATH_IMAGE026
,将当前策略模型的神经网络参数赋值给旧策略模型的神经网络;
步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数。具体步骤如下:
步骤 a) 令
Figure DEST_PATH_IMAGE027
步骤 b) 令
Figure 241579DEST_PATH_IMAGE028
步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
Figure DEST_PATH_IMAGE029
(4)
所述
Figure 490027DEST_PATH_IMAGE030
表示需要优化的损失函数;
Figure DEST_PATH_IMAGE031
表示对括号内的表达式求期望值;
Figure 243219DEST_PATH_IMAGE032
表示动作
Figure 921325DEST_PATH_IMAGE012
的优势函数估计值;
Figure DEST_PATH_IMAGE033
表示截断参数,PPO算法的一个超级参数,通常设定为0.2;
步骤 d) 更新当前策略模型
Figure 870695DEST_PATH_IMAGE002
Figure 521120DEST_PATH_IMAGE034
,即
Figure DEST_PATH_IMAGE035
步骤 e) 令
Figure 445213DEST_PATH_IMAGE036
,若
Figure DEST_PATH_IMAGE037
,则转到步骤f),否则转到步骤c);
步骤 f) 令
Figure 266408DEST_PATH_IMAGE038
,若
Figure DEST_PATH_IMAGE039
,则转到步骤2.8,否则转到步骤b);
步骤2.8 令
Figure 301360DEST_PATH_IMAGE040
,若
Figure DEST_PATH_IMAGE041
,则结束训练,得到了以为
Figure 337449DEST_PATH_IMAGE034
参数的循管策略模型
Figure 901285DEST_PATH_IMAGE002
,转入步骤3,否则转入步骤2.4;
步骤3. 将智能决策模型
Figure 553984DEST_PATH_IMAGE002
部署到AUV中,用于控制其循管运动;
步骤3.1 利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
Figure 641894DEST_PATH_IMAGE008
步骤3.2 将状态数据
Figure 735752DEST_PATH_IMAGE008
输入智能决策模型
Figure 798386DEST_PATH_IMAGE002
,从而计算得到AUV应执行的循管动作
Figure 876063DEST_PATH_IMAGE005
步骤3.3 向AUV发出命令,使其执行循管动作
Figure 252818DEST_PATH_IMAGE005
步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
与现有的技术相比,本发明从三个方面降低AUV自主管道跟踪的软硬件,并提高其对复杂海底环境的自适应能力:
首先,利用深度神经网络将管道跟踪问题建模为图像到AUV速度的映射,并通过近端策略优化训练得到神经网络参数,建立图像像素到AUV循管动作的Markov决策过程。故而,只需在AUV底部安装一个普通摄像头,并根据其获取的图像即可控制AUV做出较优的循管动作决策,而无需搭载昂贵的传感器来获取精确的AUV位置和位姿信息,显著降低了管道跟踪的硬件成本。
其次,通过发掘深度神经网络的泛化能力,放松了对动力学模型精度的约束,不仅可抑制模型误差产生的控制动作失真,也能降低算法实现的复杂度。
然后,由于本发明对动力学模型的参数精度和AUV的位置、姿态参数精度均较为鲁棒,能有效适应不同几何形状的管道布局。
因此,本发明具有自适应能力好、泛化能力强、软硬件成本低等优点。
附图说明
图1是本发明实施例每次迭代的平均循管长度变化曲线图。
图2是本发明实施例回报的变化曲线图。
图3是本发明实施例在原始场景中由习得策略生成的轨迹。
图4是本发明实施例三弯管道中循管任务的执行结果图。
图5是本发明实施例七弯管道中循管任务的执行结果图。
图6是本发明实施例九弯管道中循管任务的执行结果图。
具体实施方式
本发明的基于图像特征深度强化学习的AUV管道循管方法,依次按照如下步骤进行:
步骤1 根据公式(1)和公式(2)的定义建立两个策略模型
Figure 529079DEST_PATH_IMAGE001
Figure 238581DEST_PATH_IMAGE002
Figure 537976DEST_PATH_IMAGE003
, (1)
Figure 515159DEST_PATH_IMAGE004
, (2)
所述
Figure 583609DEST_PATH_IMAGE001
表示旧策略模型,用于生成智能体与环境的交互数据,训练过程中每隔一段时间用最新的策略模型更新;
Figure 191308DEST_PATH_IMAGE002
表示正在训练的策略模型,在训练过程中利用得到的交互数据不断更新该策略神经网络的参数;
Figure 40315DEST_PATH_IMAGE005
表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,
Figure 742561DEST_PATH_IMAGE006
为该高斯分布的协方差矩阵,在此使用单位阵表示,
Figure 993414DEST_PATH_IMAGE007
为该高斯分布的均值;所述
Figure 772014DEST_PATH_IMAGE007
是从AUV的状态数据
Figure 46000DEST_PATH_IMAGE008
到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.1 第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
Figure 364986DEST_PATH_IMAGE008
步骤1.2 第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.3 第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.4 第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元(ReLU)作为其激活函数;
步骤1.5 第5层为全连接层,由512个单元进行全连接组成;
步骤1.6 第6层为输出层,输出
Figure 673608DEST_PATH_IMAGE007
,即AUV的线速度和角速度;
步骤1.7 后面的训练算法需要评估AUV状态
Figure 606798DEST_PATH_IMAGE008
的优劣程度,即需要建立从AUV的状态到一个实数值的映射
Figure 164818DEST_PATH_IMAGE009
,该值函数深度神经网络来表示,在此共享
Figure 225178DEST_PATH_IMAGE007
网络结构的前5层,即在第5层之后再构建另一个输出
Figure 388306DEST_PATH_IMAGE009
步骤2. 采用近端策略优化(Proximal Policy Optimization,PPO)强化学习算法,训练
Figure 305446DEST_PATH_IMAGE001
Figure 554025DEST_PATH_IMAGE002
的深度神经网络参数;
步骤2.1 初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.2 初始化策略模型
Figure 667343DEST_PATH_IMAGE001
Figure 481716DEST_PATH_IMAGE002
,使用-1.0到1.0的随机数对其中的神经网络参数进行初始化;
步骤2.3 令迭代次数i = 1;
步骤2.4 用旧策略模型
Figure 773020DEST_PATH_IMAGE001
与环境实体进行交互,获得T个时间步长
的经验数据
Figure 305632DEST_PATH_IMAGE010
,所述t表示时刻且1 < t < T,
Figure 973374DEST_PATH_IMAGE011
表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,
Figure 579936DEST_PATH_IMAGE012
表示在第t个时刻旧策略模型
Figure 104458DEST_PATH_IMAGE001
指导AUV所选择的动作,
Figure 576896DEST_PATH_IMAGE013
表示AUV执行动作
Figure 517171DEST_PATH_IMAGE012
时所获得的即时奖励,
Figure 306135DEST_PATH_IMAGE014
表示AUV在状态的值函数值,
Figure 204821DEST_PATH_IMAGE015
表示AUV执行动作
Figure 384130DEST_PATH_IMAGE012
后该回合是否结束(比如已偏离管道),具体详细步骤如下:
步骤 a) 令
Figure 190412DEST_PATH_IMAGE016
步骤 b) AUV所搭载的摄像机采集到图像
Figure 551992DEST_PATH_IMAGE011
,将其输入旧策略模型
Figure 90420DEST_PATH_IMAGE001
,得到动作
Figure 84921DEST_PATH_IMAGE012
步骤 c) AUV执行动作
Figure 632577DEST_PATH_IMAGE012
,从摄像头获取到图像
Figure 333817DEST_PATH_IMAGE017
,根据
Figure 105464DEST_PATH_IMAGE017
判断是否远离管道,若远离管道,让时为
Figure 774211DEST_PATH_IMAGE013
=- 0.1且
Figure 125558DEST_PATH_IMAGE015
=1,否则
Figure 743622DEST_PATH_IMAGE013
=0.05且
Figure 889432DEST_PATH_IMAGE015
=0;
步骤 d) 根据公式
Figure 796208DEST_PATH_IMAGE018
计算得到
Figure 482404DEST_PATH_IMAGE019
步骤 e) 将
Figure 407504DEST_PATH_IMAGE011
Figure 724216DEST_PATH_IMAGE012
Figure 915026DEST_PATH_IMAGE013
Figure 342596DEST_PATH_IMAGE014
Figure 935251DEST_PATH_IMAGE015
组成一个5元组
Figure 688444DEST_PATH_IMAGE010
,作为经验数据存储到数据集D中;
步骤 f) 令
Figure 553500DEST_PATH_IMAGE020
,若
Figure 784762DEST_PATH_IMAGE021
,则转入步骤2.5,否则转入步骤2.4 b);
步骤2.5 对于数据集D中的每个5元组
Figure 231924DEST_PATH_IMAGE010
,其中,根据
Figure 890438DEST_PATH_IMAGE014
Figure 259102DEST_PATH_IMAGE015
Figure 90792DEST_PATH_IMAGE013
,按照公式(3)计算每步动作的优势值
Figure 579411DEST_PATH_IMAGE022
,并将其插入数据集D中;
Figure 471144DEST_PATH_IMAGE023
(3)
所述
Figure 327104DEST_PATH_IMAGE022
表示执行动作
Figure 634589DEST_PATH_IMAGE012
的优势值;
Figure 56343DEST_PATH_IMAGE024
表示在t时刻状态的值函数;
Figure 322239DEST_PATH_IMAGE013
表示AUV执行动作
Figure 383605DEST_PATH_IMAGE012
时所获得的即时奖励;
Figure 822677DEST_PATH_IMAGE025
表示折扣因子;
步骤2.6 更新旧策略模型
Figure 36620DEST_PATH_IMAGE001
,即令
Figure 473418DEST_PATH_IMAGE026
步骤2.7 利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数。具体步骤如下:
步骤 a) 令
Figure 835129DEST_PATH_IMAGE027
步骤 b) 令
Figure 484416DEST_PATH_IMAGE028
步骤 c) 从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
Figure 333292DEST_PATH_IMAGE029
(4)
所述
Figure 737729DEST_PATH_IMAGE030
表示需要优化的损失函数;
Figure 524419DEST_PATH_IMAGE031
表示对括号内的表达式求期望值;
Figure 39714DEST_PATH_IMAGE032
表示动作
Figure 493829DEST_PATH_IMAGE012
的优势函数估计值;
Figure 6850DEST_PATH_IMAGE033
表示截断参数,PPO算法的一个超级参数,通常设定为0.2;
步骤 d) 更新当前策略模型
Figure 343154DEST_PATH_IMAGE002
Figure 114670DEST_PATH_IMAGE034
,即
Figure 157712DEST_PATH_IMAGE035
步骤 e) 令
Figure 903951DEST_PATH_IMAGE036
,若
Figure 399654DEST_PATH_IMAGE037
,则转到步骤f),否则转到步骤c);
步骤 f) 令
Figure 725594DEST_PATH_IMAGE038
,若
Figure 685459DEST_PATH_IMAGE039
,则转到步骤2.8,否则转到步骤b);
步骤2.8 令
Figure 789550DEST_PATH_IMAGE040
,若
Figure 100446DEST_PATH_IMAGE041
,则结束训练,得到了以为
Figure 964497DEST_PATH_IMAGE034
参数的循管策略模型
Figure 716552DEST_PATH_IMAGE002
,转入步骤3,否则转入步骤2.4;
步骤3. 将智能决策模型
Figure 70173DEST_PATH_IMAGE002
部署到AUV中,用于控制其循管运动;
步骤3.1 利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据
Figure 806048DEST_PATH_IMAGE008
步骤3.2 将状态数据
Figure 191899DEST_PATH_IMAGE008
输入智能决策模型
Figure 126357DEST_PATH_IMAGE002
,从而计算得到AUV应执行的循管动作
Figure 854141DEST_PATH_IMAGE005
步骤3.3 向AUV发出命令,使其执行循管动作
Figure 546154DEST_PATH_IMAGE005
步骤3.4 若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
本发明实施例每次迭代的平均循管长度如图1,从图1中可见,平均循管长度随迭代次数的增加而逐渐递增,表明本发明的自适应决策模型变得越来越优化。
本发明实施例回报率的变化趋势如图2,从图2中可见,随着训练次数的增加,回报率呈上升趋势,表明本发明的自适应决策模型越来越智能,能够做出愈加有效的循管动作决策。
本发明实施例在原始场景中由习得策略生成的轨迹如图3,从图3中可见,AUV可自主进行管道循管,并且在到达管道末端时会掉头返回。同时,AUV在原始场景所不具备的三弯管道、七弯管道及九弯管道中的自适应决策结果如图4~图6,从图4~图6中可见,具有自主学习策略的AUV能够遵循管道的几何形状顺利完成任务,表明本发明的学习策略具有很好的泛化能力。

Claims (1)

1.一种基于图像特征深度强化学习的AUV管道循管方法,其特征在于依次按如下步骤进行:
步骤1根据公式(1)和公式(2)的定义建立两个策略模型πold(a|s)和πθ(a|s):
πold(a|s)=N(μ(s),∑), (1)
πθ(a|s)=N(μ(s),∑), (2)
所述πold(a|s)表示旧策略模型;πθ(a|s)表示正在训练的策略模型;a表示策略模型计算得到的动作;s表示AUV的状态;N表示高斯分布,∑为该高斯分布的协方差矩阵,使用单位阵表示,μ(s)为该高斯分布的均值;所述μ(s)是从AUV的状态数据s到AUV的线速度和角速度的映射,采用深度神经网络表示,所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层,构建步骤如下:
步骤1.1第1层为输入层,输入一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据s;
步骤1.2第2层为卷积层,使用32个大小为6×6的卷积滤波器,以5个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.3第3层为卷积层,使用64个大小为4×4的卷积滤波器,以3个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.4第4层为卷积层,使用64个大小为2×2的卷积滤波器,以2个像素为步长进行卷积运算,并使用修正线性单元作为其激活函数;
步骤1.5第5层为全连接层,由512个单元进行全连接组成;
步骤1.6第6层为输出层,输出μ(s),即AUV的线速度和角速度;
步骤1.7建立从AUV的状态到一个实数值的映射,所述映射共享μ(s)网络结构的前5层,在第5层之后再构建另一个输出V(s);
步骤2.采用近端策略优化强化学习算法,训练πold(a|s)和πθ(a|s)的深度神经网络参数:
步骤2.1初始化PPO算法的裁剪参数,轨迹长度T等超级参数;
步骤2.2初始化策略模型πold(a|s)和πθ(a|s),使用-1.0到1.0的随机数对其中的神经网络参数进行初始化;
步骤2.3令迭代次数i=1;
步骤2.4用旧策略模型πold(a|s)与环境实体进行交互,获得T个时间步长的经验数据{st,at,rt,vt,dt},所述t表示时刻且1<t<T,st表示AUV搭载的摄像机在第t时刻采集到的图像,用来表示AUV的状态数据,at表示在第t个时刻旧策略模型πold(a|s)指导AUV所选择的动作,rt表示AUV执行动作at时所获得的即时奖励,vt表示AUV在状态的值函数值,dt表示AUV执行动作at后该回合是否结束,具体步骤如下:
步骤a)令t=1;
步骤b)AUV所搭载的摄像机采集到图像st,将其输入旧策略模型πold(a|s),得到动作at
步骤c)AUV执行动作at,从摄像头获取到图像st+1,根据st+1判断是否远离管道,若远离管道,则rt=-0.1且dt=1,否则rt=0.05且dt=0;
步骤d)根据公式vt=rt+γV(st|1)计算得到vt
步骤e)将st、at、rt、vt、dt组成一个5元组{st,at,rt,vt,dt},作为经验数据存储到数据集D中;
步骤f)令t=t+1,若t>T,则转入步骤2.5,否则转入步骤2.4b);
步骤2.5对于数据集D中的每个5元组{st,at,rt,vt,dt},其中,根据vt、dt、rt,按照公式(3)计算每步动作的优势值At,并将其插入数据集D中;
At=-V(st)+rt+γrt+1+...+γT-t+1rT-1T-1V(sT) (3)
所述At表示执行动作at的优势值;V(st)表示在t时刻状态的值函数;rt表示AUV执行动作at时所获得的即时奖励;γ表示折扣因子;
步骤2.6更新旧策略模型πold(a|s),即令πold(a|s)=πθ(a|s),将当前策略模型的神经网络参数赋值给旧策略模型的神经网络;
步骤2.7利用收集到的数据集D,采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化,更新当前策略模型的参数,具体步骤如下:
步骤a)令k=1;
步骤b)令j=1;
步骤c)从数据集D中取出b条经验数据,根据公式(4)计算出损失函数值及其梯度值g;
Figure FDA0003030456170000031
所述LCLIP(θ)表示需要优化的损失函数;
Figure FDA0003030456170000032
表示对括号内的表达式求期望值;
Figure FDA0003030456170000033
表示动作at的优势函数估计值;ε表示截断参数,PPO算法的一个超级参数,通常设定为0.2;
步骤d)更新当前策略模型πθ(a|s)的θ,即θt+1=θt+g;
步骤e)令j=j+1,若j>J,则转到步骤f),否则转到步骤c);
步骤f)令k=k+1,若k>K,则转到步骤2.8,否则转到步骤b);
步骤2.8令i=i+1,若i>M,则结束训练,得到了以为θ参数的循管策略模型πθ(a|s),转入步骤3,否则转入步骤2.4;
步骤3.将智能决策模型πθ(a|s)部署到AUV中,用于控制其循管运动;
步骤3.1利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像,作为AUV的状态数据s;
步骤3.2将状态数据s输入智能决策模型πθ(a|s),计算得到AUV应执行的循管动作a;
步骤3.3向AUV发出命令,使其执行循管动作a;
步骤3.4若接收到人为命令,则AUV的运动由远程操控人员接管,否则延时q秒后转入步骤3.1。
CN201811143861.XA 2018-09-29 2018-09-29 基于图像特征深度强化学习的auv管道循管方法 Active CN109407682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811143861.XA CN109407682B (zh) 2018-09-29 2018-09-29 基于图像特征深度强化学习的auv管道循管方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811143861.XA CN109407682B (zh) 2018-09-29 2018-09-29 基于图像特征深度强化学习的auv管道循管方法

Publications (2)

Publication Number Publication Date
CN109407682A CN109407682A (zh) 2019-03-01
CN109407682B true CN109407682B (zh) 2021-06-15

Family

ID=65465561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811143861.XA Active CN109407682B (zh) 2018-09-29 2018-09-29 基于图像特征深度强化学习的auv管道循管方法

Country Status (1)

Country Link
CN (1) CN109407682B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111111200B (zh) * 2019-12-23 2023-11-14 北京像素软件科技股份有限公司 战斗策略生成方法及装置
CN111580544B (zh) * 2020-03-25 2021-05-07 北京航空航天大学 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN112469103B (zh) * 2020-11-26 2022-03-08 厦门大学 基于强化学习Sarsa算法的水声协作通信路由方法
CN112947505B (zh) * 2021-03-22 2022-11-25 哈尔滨工程大学 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法
CN114354082B (zh) * 2022-03-18 2022-05-31 山东科技大学 一种基于仿鲟鱼吻须的海底管道智能循迹系统和循迹方法
CN115291616B (zh) * 2022-07-25 2023-05-26 江苏海洋大学 一种基于近端策略优化算法的auv动态避障方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102644A (zh) * 2017-06-22 2017-08-29 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108594639A (zh) * 2018-03-28 2018-09-28 哈尔滨工程大学 一种基于强化学习的全垫升气垫船航迹跟踪控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102644A (zh) * 2017-06-22 2017-08-29 华南师范大学 基于深度强化学习的水下机器人轨迹控制方法及控制系统
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108594639A (zh) * 2018-03-28 2018-09-28 哈尔滨工程大学 一种基于强化学习的全垫升气垫船航迹跟踪控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Novel Non-Supervised Deep-Learning-Based Network Traffic Control Method for Software Defined Wireless Networks;B. Mao等;《 IEEE Wireless Communications》;IEEE;20180904;第25卷(第4期);第74-81页 *
Deep reinforcement learning based optimal trajectory tracking control of autonomous underwater vehicle;Runsheng Yu等;《2017 36th Chinese Control Conference (CCC)》;IEEE;20170911;第4958-4965页 *
Proximal Policy Optimization Algorithms;John Schulman等;《arXiv》;arXiv;20170828;第1-12页 *
部分观测马尔可夫决策过程下的深海热液自主探测研究;李金龙;《中国优秀硕士学位论文全文数据库 基础科学辑》;中国学术期刊(光盘版)电子杂志社;20150515(第05期);第1-88页 *

Also Published As

Publication number Publication date
CN109407682A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109407682B (zh) 基于图像特征深度强化学习的auv管道循管方法
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
CN113033119B (zh) 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
US11727281B2 (en) Unsupervised control using learned rewards
El-Fakdi et al. Two-step gradient-based reinforcement learning for underwater robotics behavior learning
Liu et al. Deep inference for covariance estimation: Learning gaussian noise models for state estimation
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN113084817B (zh) 扰流环境下水下机器人的物体搜索及抓取控制方法
CN113033118B (zh) 一种基于示范数据强化学习技术的水下航行器自主上浮控制方法
CN114115262B (zh) 基于方位角信息的多auv执行器饱和协同编队控制系统和方法
Liu et al. Pixel-to-action policy for underwater pipeline following via deep reinforcement learning
He et al. Multi-AUV inspection for process monitoring of underwater oil transportation
CN113821035A (zh) 无人船轨迹追踪控制方法和装置
Yang et al. Learning to propagate interaction effects for modeling deformable linear objects dynamics
Wang et al. Path-following optimal control of autonomous underwater vehicle based on deep reinforcement learning
Lee et al. Approximate inverse reinforcement learning from vision-based imitation learning
Yamano et al. Fluid force identification acting on snake-like robots swimming in viscous fluids
Pan et al. Learning for depth control of a robotic penguin: A data-driven model predictive control approach
Wang et al. Adversarial deep reinforcement learning based robust depth tracking control for underactuated autonomous underwater vehicle
Skaldebø et al. Dynamic positioning of an underwater vehicle using monocular vision-based object detection with machine learning
Dimitrov et al. Model identification of a small fully-actuated aquatic surface vehicle using a long short-term memory neural network
Peng et al. Moving object grasping method of mechanical arm based on deep deterministic policy gradient and hindsight experience replay
El-Fakdi et al. Autonomous underwater vehicle control using reinforcement learning policy search methods
Chauvin-Hameau Informative path planning for algae farm surveying
Zhang et al. Tracking control of AUV via novel soft actor-critic and suboptimal demonstrations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant