CN109407682B

CN109407682B - 基于图像特征深度强化学习的auv管道循管方法

Info

Publication number: CN109407682B
Application number: CN201811143861.XA
Authority: CN
Inventors: 林远山; 王芳; 于红; 常亚青; 崔新忠; 刘亚楠; 孙圣禹; 吕泽宇; 宋梓奇; 曹凯惠
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-06-15
Anticipated expiration: 2038-09-29
Also published as: CN109407682A

Abstract

本发明公开一种基于图像特征深度强化学习的AUV管道循管方法。首先，将AUV循管控制问题建模为连续状态、连续动作的Markov决策过程；其次，控制策略抽象为AUV观测状态（摄像头获取的图像）到运动动作的映射，并利用深度神经网络表达；最后，利用近端策略优化（PPO）方法自主采集数据并训练深度神经网络，最终获得具有一定泛化能力的端到端的循管控制策略。仿真结果表明，本发明能够有效控制AUV的循管动作，而且对于新的和未知的管道几何结构具有较强的泛化能力。该方法是一种端到端(end‑to‑end)的视觉循管运动控制方法，无需知晓AUV的运动学/动力学模型，也无需人工特征提取。

Description

基于图像特征深度强化学习的AUV管道循管方法

技术领域

本发明涉及智能海洋装备领域，尤其是一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。

背景技术

目前，石油、天然气和电力公司拥有大量的地下管道或电缆网络。由于这些管道和电缆广泛地分布在海洋中，必须由受过专门训练的操作人员使用远程遥控水下机器人（Remote Operated Vehicle，ROV）才能来执行日常检查和维护工作。不仅人力成本及维护代价高，耗费时间长，而且高度受制于地面和洋面的天气条件。故此，产业界对水下管道进行自动检测、测量和维护的需求不断增长并日益迫切起来，而自主水下航行器（AutonomousUnderwater Vehicle，AUV）的出现为这一需求的解决提供了现实、方便的硬件条件。

AUV是一种由传感器供电的、综合了人工智能和其他先进计算技术的任务控制器，集成了深潜、传感、环境自适应、能量储存转换与推进等多种功能，可以在没有任何表面容器的情况下从海岸部署并自主搜集来自传感器的所有有用数据，无需借助人力操控来执行预设任务，从而有望显著降低所需的成本和工时，有效打破外界气候环境的限制。然而，采用AUV进行自主管道检测的主要难点在于，控制算法只有在有效适应变化条件或未知条件的前提下，才能稳健地跟踪管道。为此，有必要通过仿真对水下管道的循管跟踪过程进行预演，生成优化的循管策略，进而保证循管跟踪的顺利开展和水下管道设施的安全性，这一问题已引起学术界和产业界的极大关注。

Zhao Yue提出了一种基于观测器的、自适应神经网络的流水线跟踪控制方法，通过构造自适应状态观测器来估计ROV的状态，利用局部RNN学习未知函数；Fang Ming-Chung等人利用人工视觉算法获得机器人相对于管道的相对角位置，并采用重力导数比例导数范数来控制机器人；Li Zhijun等人则提出了AUV轨迹跟踪的自适应控制律，解决了与水动力阻尼系数相关的参数估计问题。不过，这些方法均要求建立精确的动力学模型，而在实际应用中水下环境非常复杂，欲获得水下机器人的精确动力学模型非常困难，这意味着AUV控制器的控制参数集合难以确定，甚至是不可能的。此时，若在一个不精确的动力学模型指导下，上述控制方法的性能将不可避免地出现严重退化。

考虑到强化学习策略能通过在线学习来计算水下机器人的部分状态信息，有利于帮助AUV处理诸多不可预见或不能准确获知的情况，Aksnes等人采用SARSA和有监督的CACLA来增强AUV的管道跟踪能力，取得了更好的泛化能力，在一定程度上克服了精确动力学模型存在的不足，从而开启了强化学习应用在AUV管道跟踪中的先河。之后，Paula等人提出了一种选择性强化学习方法，它不依赖于动态系统的先验知识，而是通过在线学习与非平稳的环境进行交互，实现了控制策略的实时自适应；Yu等人设计了一种基于深度强化学习的水下运动控制系统，利用两个神经网络来选择动作并评估该动作的获益，实验结果表明当轨迹为复杂曲线时，该系统表现出优于传统PID控制系统的性能；类似地，Cui Rongxin等人也利用两种神经网络给出了一种用于增强AUV轨迹跟踪的强化学习技术，可用于评估当前时间步长控制的长距离性能以及补偿未知的动力学参数所产生的影响，具有更好的鲁棒性；Wu Hui等人则提出一种离散时间的无模型强化学习框架，可有效解决AUV的恒定深度控制、曲线深度跟踪和海底跟踪三方面问题。尽管上述方法不要求预先获取复杂海底环境下的精确动力学模型，可是它们却假定AUV的位置和速度已知，且对位置和速度信息的精度较为敏感。一方面，在现实中，我们很难获取到AUV的位置和位姿信息，即使能通过精密传感器来测量这些信息，其价格成本也会非常高昂；另一方面，水下环境复杂多变，获取到的AUV位置和位姿信息的准确性和可靠性亦难以保证。

因此，现有的基于动力学模型的AUV管道跟踪方法和基于强化学习策略的AUV管道跟踪方法均存在诸多约束和限制，与真正付诸实用尚有一段距离。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种自适应能力好、泛化能力强、软硬件成本低的基于图像特征深度强化学习的AUV管道循管方法。

本发明的技术解决方案是：一种基于图像特征深度强化学习的AUV管道循管方法，依次按照如下步骤进行：

步骤1 根据公式(1)和公式(2)的定义建立两个策略模型

和

：

， (1)

， (2)

所述

表示旧策略模型，用于生成智能体与环境的交互数据，训练过程中每隔一段时间用最新的策略模型更新；

表示正在训练的策略模型，在训练过程中利用得到的交互数据不断更新该策略神经网络的参数；

表示策略模型计算得到的动作；s表示AUV的状态；N表示高斯分布，

为该高斯分布的协方差矩阵，在此使用单位阵表示，

为该高斯分布的均值；所述

是从AUV的状态数据

到AUV的线速度和角速度的映射，采用深度神经网络表示，所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层，构建步骤如下：

步骤1.1 第1层为输入层，输入一幅大小为64×64像素的3通道RGB图像，作为AUV的状态数据

；

步骤1.2 第2层为卷积层，使用32个大小为6×6的卷积滤波器，以5个像素为步长进行卷积运算，并使用修正线性单元（ReLU）作为其激活函数；

步骤1.3 第3层为卷积层，使用64个大小为4×4的卷积滤波器，以3个像素为步长进行卷积运算，并使用修正线性单元（ReLU）作为其激活函数；

步骤1.4 第4层为卷积层，使用64个大小为2×2的卷积滤波器，以2个像素为步长进行卷积运算，并使用修正线性单元（ReLU）作为其激活函数；

步骤1.5 第5层为全连接层，由512个单元进行全连接组成；

步骤1.6 第6层为输出层，输出

，即AUV的线速度和角速度；

步骤1.7 后面的训练算法需要评估AUV状态

的优劣程度，即需要建立从AUV的状态到一个实数值的映射

，该值函数深度神经网络来表示，在此共享

网络结构的前5层，即在第5层之后再构建另一个输出

；

步骤2. 采用近端策略优化（Proximal Policy Optimization，PPO）强化学习算法，训练

和

的深度神经网络参数；

步骤2.1 初始化PPO算法的裁剪参数，轨迹长度T等超级参数；

步骤2.2 初始化策略模型

和

，使用-1.0到1.0的随机数对其中的神经网络参数进行初始化；

步骤2.3 令迭代次数i = 1；

步骤2.4 用旧策略模型

与环境实体进行交互，获得T个时间步长

的经验数据

，所述t表示时刻且1 < t < T，

表示AUV搭载的摄像机在第t时刻采集到的图像，用来表示AUV的状态数据，

表示在第t个时刻旧策略模型

指导AUV所选择的动作，

表示AUV执行动作

时所获得的即时奖励，

表示AUV在状态的值函数值，

表示AUV执行动作

后该回合是否结束（比如已偏离管道），具体详细步骤如下：

步骤 a) 令

；

步骤 b) AUV所搭载的摄像机采集到图像

，将其输入旧策略模型

，得到动作

；

步骤 c) AUV执行动作

，从摄像头获取到图像

，根据

判断是否远离管道，若远离管道，让时为

=- 0.1且

=1，否则

=0.05且

=0；

步骤 d) 根据公式

计算得到

；

步骤 e) 将

、

、

、

、

组成一个5元组

，作为经验数据存储到数据集D中；

步骤 f) 令

，若

，则转入步骤2.5，否则转入步骤2.4 b)；

步骤2.5 对于数据集D中的每个5元组

，其中，根据

、

、

，按照公式(3)计算每步动作的优势值

，并将其插入数据集D中；

(3)

所述

表示执行动作

的优势值；

表示在t时刻状态的值函数；

表示AUV执行动作

时所获得的即时奖励；

表示折扣因子；

步骤2.6 更新旧策略模型

，即令

，将当前策略模型的神经网络参数赋值给旧策略模型的神经网络；

步骤2.7 利用收集到的数据集D，采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化，更新当前策略模型的参数。具体步骤如下：

步骤 a) 令

；

步骤 b) 令

；

步骤 c) 从数据集D中取出b条经验数据，根据公式(4)计算出损失函数值及其梯度值g；

(4)

所述

表示需要优化的损失函数；

表示对括号内的表达式求期望值；

表示动作

的优势函数估计值；

表示截断参数，PPO算法的一个超级参数，通常设定为0.2；

步骤 d) 更新当前策略模型

的

，即

；

步骤 e) 令

，若

，则转到步骤f)，否则转到步骤c)；

步骤 f) 令

，若

，则转到步骤2.8，否则转到步骤b)；

步骤2.8 令

，若

，则结束训练，得到了以为

参数的循管策略模型

，转入步骤3，否则转入步骤2.4；

步骤3. 将智能决策模型

部署到AUV中，用于控制其循管运动；

步骤3.1 利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像，作为AUV的状态数据

；

步骤3.2 将状态数据

输入智能决策模型

，从而计算得到AUV应执行的循管动作

；

步骤3.3 向AUV发出命令，使其执行循管动作

；

步骤3.4 若接收到人为命令，则AUV的运动由远程操控人员接管，否则延时q秒后转入步骤3.1。

与现有的技术相比，本发明从三个方面降低AUV自主管道跟踪的软硬件，并提高其对复杂海底环境的自适应能力：

首先，利用深度神经网络将管道跟踪问题建模为图像到AUV速度的映射，并通过近端策略优化训练得到神经网络参数，建立图像像素到AUV循管动作的Markov决策过程。故而，只需在AUV底部安装一个普通摄像头，并根据其获取的图像即可控制AUV做出较优的循管动作决策，而无需搭载昂贵的传感器来获取精确的AUV位置和位姿信息，显著降低了管道跟踪的硬件成本。

其次，通过发掘深度神经网络的泛化能力，放松了对动力学模型精度的约束，不仅可抑制模型误差产生的控制动作失真，也能降低算法实现的复杂度。

然后，由于本发明对动力学模型的参数精度和AUV的位置、姿态参数精度均较为鲁棒，能有效适应不同几何形状的管道布局。

因此，本发明具有自适应能力好、泛化能力强、软硬件成本低等优点。

附图说明

图1是本发明实施例每次迭代的平均循管长度变化曲线图。

图2是本发明实施例回报的变化曲线图。

图3是本发明实施例在原始场景中由习得策略生成的轨迹。

图4是本发明实施例三弯管道中循管任务的执行结果图。

图5是本发明实施例七弯管道中循管任务的执行结果图。

图6是本发明实施例九弯管道中循管任务的执行结果图。

具体实施方式

本发明的基于图像特征深度强化学习的AUV管道循管方法，依次按照如下步骤进行：

步骤1 根据公式(1)和公式(2)的定义建立两个策略模型

和

：

， (1)

， (2)

所述

为该高斯分布的协方差矩阵，在此使用单位阵表示，

为该高斯分布的均值；所述

是从AUV的状态数据

；

步骤1.5 第5层为全连接层，由512个单元进行全连接组成；

步骤1.6 第6层为输出层，输出

，即AUV的线速度和角速度；

步骤1.7 后面的训练算法需要评估AUV状态

的优劣程度，即需要建立从AUV的状态到一个实数值的映射

，该值函数深度神经网络来表示，在此共享

网络结构的前5层，即在第5层之后再构建另一个输出

；

和

的深度神经网络参数；

步骤2.1 初始化PPO算法的裁剪参数，轨迹长度T等超级参数；

步骤2.2 初始化策略模型

和

，使用-1.0到1.0的随机数对其中的神经网络参数进行初始化；

步骤2.3 令迭代次数i = 1；

步骤2.4 用旧策略模型

与环境实体进行交互，获得T个时间步长

的经验数据

，所述t表示时刻且1 < t < T，

表示在第t个时刻旧策略模型

指导AUV所选择的动作，

表示AUV执行动作

时所获得的即时奖励，

表示AUV在状态的值函数值，

表示AUV执行动作

步骤 a) 令

；

步骤 b) AUV所搭载的摄像机采集到图像

，将其输入旧策略模型

，得到动作

；

步骤 c) AUV执行动作

，从摄像头获取到图像

，根据

判断是否远离管道，若远离管道，让时为

=- 0.1且

=1，否则

=0.05且

=0；

步骤 d) 根据公式

计算得到

；

步骤 e) 将

、

、

、

、

组成一个5元组

，作为经验数据存储到数据集D中；

步骤 f) 令

，若

，则转入步骤2.5，否则转入步骤2.4 b)；

步骤2.5 对于数据集D中的每个5元组

，其中，根据

、

、

，按照公式(3)计算每步动作的优势值

，并将其插入数据集D中；

(3)

所述

表示执行动作

的优势值；

表示在t时刻状态的值函数；

表示AUV执行动作

时所获得的即时奖励；

表示折扣因子；

步骤2.6 更新旧策略模型

，即令

；

步骤 a) 令

；

步骤 b) 令

；

(4)

所述

表示需要优化的损失函数；

表示对括号内的表达式求期望值；

表示动作

的优势函数估计值；

表示截断参数，PPO算法的一个超级参数，通常设定为0.2；

步骤 d) 更新当前策略模型

的

，即

；

步骤 e) 令

，若

，则转到步骤f)，否则转到步骤c)；

步骤 f) 令

，若

，则转到步骤2.8，否则转到步骤b)；

步骤2.8 令

，若

，则结束训练，得到了以为

参数的循管策略模型

，转入步骤3，否则转入步骤2.4；

步骤3. 将智能决策模型

部署到AUV中，用于控制其循管运动；

；

步骤3.2 将状态数据

输入智能决策模型

，从而计算得到AUV应执行的循管动作

；

步骤3.3 向AUV发出命令，使其执行循管动作

；

本发明实施例每次迭代的平均循管长度如图1，从图1中可见，平均循管长度随迭代次数的增加而逐渐递增，表明本发明的自适应决策模型变得越来越优化。

本发明实施例回报率的变化趋势如图2，从图2中可见，随着训练次数的增加，回报率呈上升趋势，表明本发明的自适应决策模型越来越智能，能够做出愈加有效的循管动作决策。

本发明实施例在原始场景中由习得策略生成的轨迹如图3，从图3中可见，AUV可自主进行管道循管，并且在到达管道末端时会掉头返回。同时，AUV在原始场景所不具备的三弯管道、七弯管道及九弯管道中的自适应决策结果如图4~图6，从图4~图6中可见，具有自主学习策略的AUV能够遵循管道的几何形状顺利完成任务，表明本发明的学习策略具有很好的泛化能力。

Claims

1.一种基于图像特征深度强化学习的AUV管道循管方法，其特征在于依次按如下步骤进行：

步骤1根据公式(1)和公式(2)的定义建立两个策略模型π_old(a|s)和π_θ(a|s)：

π_old(a|s)＝N(μ(s)，∑)， (1)

π_θ(a|s)＝N(μ(s)，∑)， (2)

所述π_old(a|s)表示旧策略模型；π_θ(a|s)表示正在训练的策略模型；a表示策略模型计算得到的动作；s表示AUV的状态；N表示高斯分布，∑为该高斯分布的协方差矩阵，使用单位阵表示，μ(s)为该高斯分布的均值；所述μ(s)是从AUV的状态数据s到AUV的线速度和角速度的映射，采用深度神经网络表示，所述深度神经网络包含1个输入层、3个卷积层、1个全连接层和1个输出层，构建步骤如下：

步骤1.1第1层为输入层，输入一幅大小为64×64像素的3通道RGB图像，作为AUV的状态数据s；

步骤1.2第2层为卷积层，使用32个大小为6×6的卷积滤波器，以5个像素为步长进行卷积运算，并使用修正线性单元作为其激活函数；

步骤1.3第3层为卷积层，使用64个大小为4×4的卷积滤波器，以3个像素为步长进行卷积运算，并使用修正线性单元作为其激活函数；

步骤1.4第4层为卷积层，使用64个大小为2×2的卷积滤波器，以2个像素为步长进行卷积运算，并使用修正线性单元作为其激活函数；

步骤1.5第5层为全连接层，由512个单元进行全连接组成；

步骤1.6第6层为输出层，输出μ(s)，即AUV的线速度和角速度；

步骤1.7建立从AUV的状态到一个实数值的映射，所述映射共享μ(s)网络结构的前5层，在第5层之后再构建另一个输出V(s)；

步骤2.采用近端策略优化强化学习算法，训练π_old(a|s)和π_θ(a|s)的深度神经网络参数：

步骤2.1初始化PPO算法的裁剪参数，轨迹长度T等超级参数；

步骤2.2初始化策略模型π_old(a|s)和π_θ(a|s)，使用-1.0到1.0的随机数对其中的神经网络参数进行初始化；

步骤2.3令迭代次数i＝1；

步骤2.4用旧策略模型π_old(a|s)与环境实体进行交互，获得T个时间步长的经验数据{s_t，a_t，r_t，v_t，d_t}，所述t表示时刻且1＜t＜T，s_t表示AUV搭载的摄像机在第t时刻采集到的图像，用来表示AUV的状态数据，a_t表示在第t个时刻旧策略模型π_old(a|s)指导AUV所选择的动作，r_t表示AUV执行动作a_t时所获得的即时奖励，v_t表示AUV在状态的值函数值，d_t表示AUV执行动作a_t后该回合是否结束，具体步骤如下：

步骤a)令t＝1；

步骤b)AUV所搭载的摄像机采集到图像s_t，将其输入旧策略模型π_old(a|s)，得到动作a_t；

步骤c)AUV执行动作a_t，从摄像头获取到图像s_t+1，根据s_t+1判断是否远离管道，若远离管道，则r_t＝-0.1且d_t＝1，否则r_t＝0.05且d_t＝0；

步骤d)根据公式v_t＝r_t+γV(s_t|1)计算得到v_t；

步骤e)将s_t、a_t、r_t、v_t、d_t组成一个5元组{s_t，a_t，r_t，v_t，d_t}，作为经验数据存储到数据集D中；

步骤f)令t＝t+1，若t＞T，则转入步骤2.5，否则转入步骤2.4b)；

步骤2.5对于数据集D中的每个5元组{s_t，a_t，r_t，v_t，d_t}，其中，根据v_t、d_t、r_t，按照公式(3)计算每步动作的优势值A_t，并将其插入数据集D中；

A_t＝-V(s_t)+r_t+γr_t+1+...+γ^T-t+1r_T-1+γ^T-1V(s_T) (3)

所述A_t表示执行动作a_t的优势值；V(s_t)表示在t时刻状态的值函数；r_t表示AUV执行动作a_t时所获得的即时奖励；γ表示折扣因子；

步骤2.6更新旧策略模型π_old(a|s)，即令π_old(a|s)＝π_θ(a|s)，将当前策略模型的神经网络参数赋值给旧策略模型的神经网络；

步骤2.7利用收集到的数据集D，采用随机梯度下降法SGD或Adam等优化方法对损失函数进行优化，更新当前策略模型的参数，具体步骤如下：

步骤a)令k＝1；

步骤b)令j＝1；

步骤c)从数据集D中取出b条经验数据，根据公式(4)计算出损失函数值及其梯度值g；

所述L^CLIP(θ)表示需要优化的损失函数；

表示对括号内的表达式求期望值；

表示动作a_t的优势函数估计值；ε表示截断参数，PPO算法的一个超级参数，通常设定为0.2；

步骤d)更新当前策略模型π_θ(a|s)的θ，即θ_t+1＝θ_t+g；

步骤e)令j＝j+1，若j＞J，则转到步骤f)，否则转到步骤c)；

步骤f)令k＝k+1，若k＞K，则转到步骤2.8，否则转到步骤b)；

步骤2.8令i＝i+1，若i＞M，则结束训练，得到了以为θ参数的循管策略模型π_θ(a|s)，转入步骤3，否则转入步骤2.4；

步骤3.将智能决策模型π_θ(a|s)部署到AUV中，用于控制其循管运动；

步骤3.1利用AUV搭载的摄像机中拍摄一幅大小为64×64像素的3通道RGB图像，作为AUV的状态数据s；

步骤3.2将状态数据s输入智能决策模型π_θ(a|s)，计算得到AUV应执行的循管动作a；

步骤3.3向AUV发出命令，使其执行循管动作a；

步骤3.4若接收到人为命令，则AUV的运动由远程操控人员接管，否则延时q秒后转入步骤3.1。