CN111340868B

CN111340868B - 基于视觉深度估计的无人水下航行器自主决策控制方法

Info

Publication number: CN111340868B
Application number: CN202010121857.4A
Authority: CN
Inventors: 刘彦呈; 朱鹏莅; 姚书翰; 马川; 赵友涛; 吕寅新; 张珍睿; 许晨
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-06-02
Anticipated expiration: 2040-02-26
Also published as: CN111340868A

Abstract

本发明公开了一种基于视觉深度估计的无人水下航行器自主决策控制方法，包括：实时提取水下航行器拍摄到的视频图像，将视频图像分帧处理后输入至几何分析深度估计网络进行处理，对图像的深度特征进行提取，获得水下航行器与障碍物的距离和轮廓特征信息、并将其合成深度图像；将连续多帧深度图像输入至自主决策控制网络中，采用卷积神经网络提取整合深度图像的深度特征，将深度特征作为状态信息输入至强化学习网络中进行训练，经不断迭代优化获得对应于水下航行器的线速度和角速度。

Description

基于视觉深度估计的无人水下航行器自主决策控制方法

技术领域

本发明涉及水下航行器智能航行领域，尤其涉及一种基于视觉深度估计的无人水下航行器自主决策控制方法。

背景技术

无人水下航行器(Unmanned Underwater Vehicle，UUV)作为船舶与海洋工程和机器人技术的交叉学科产物，是囊括了力学、控制、通信、机械等多方面技术的高智能体，具有安全系数高、造价低、尺寸小、重量轻、灵活性高、活动范围广等独特优势，且能够在水中进行长期观察、探测和打捞作业，因此被广泛应用于军事、科学、经济等众多领域。在军事领域上，UUV作为未来海洋战争的一种新型现代化高科技装备，在反潜、反雷、海上封锁和反封锁等方面都有着重要的用途；在科学领域上，UUV可进行水文调查、海洋勘测和海洋观测；在经济领域上，UUV对于石油开采、海底电缆的检测、港口建设、水下施工、海洋救援、打捞船只、海底地形探测及海洋渔业等方面都有着巨大的作用。在上述水下特定作业任务中，UUV需要按照预设目标进行自主航行与避碰，这就必须保证UUV具备一定的自主航行能力，进而保证作业任务的顺利完成。为此，根据UUV不同的作业任务需求，通过设计相应的智能神经网络控制算法保证UUV对目标区域的精准自主航行，进而满足海洋开发应用中对UUV运动控制技术的需求，目前已成为水下机器人学的国际研究热点之一。

有别于水面船舶的水平面三自由度运动，UUV在水下三维空间的运动属于六自由度运动形式。考虑到水下海洋环境是非结构化环境，具有复杂性、多变性和随机性等特点，UUV在近海面运动时会受到海浪的干扰作用，随着工作深度的增加还会受到海流干扰作用，引起动态模型非线性阻尼动力参数的摄动，同时UUV本体的水动力特性非常复杂，各运动自由度之间的状态变量具有强耦合性，模型参数具有强非线性，使得UUV系统具有强非线性、强耦合性、水动力系数不确定性、未建模动态及外界未知干扰等动态特征。UUV水下空间运动模型是非线性、强耦合且存在参数可变的不确定性运动控制，且在实际应用中存在流体的不确定扰动，故给控制系统的设计带来较大困难。

目前来看，随着无人水下航行器水下作业任务的复杂程度日益提高，对航行器的水下操纵能力提出了更高的要求，在系统存在内部不确定性和外部扰动影响的情况下，基于模型的传统控制方法旨在从感知环境信息中搜索可用的路径或轨迹，然后开发对应的控制器来精确跟踪所搜索的路径或轨迹，但是存在一系列控制环节繁琐、环境感知复杂、系统模型不精确等局限性；纵观水下航行器的传统控制策略，由于海洋环境复杂多变，获取的感知信息具有极大随机性，致使提取特征的准确率急剧下降。此外，感知环境的多变性也决定了应对策略的无序性和应激性，致使固定模型驱动的决策方法的失效，这些问题都会一定程度地造成水下航行器水下控制功能失效。

发明内容

根据现有技术存在的问题，本发明公开了一种基于视觉深度估计的无人水下航行器自主决策控制方法，具体包括如下步骤：

实时提取水下航行器拍摄到的视频图像，将视频图像分帧处理后输入至几何分析深度估计网络中，对图像的深度特征进行提取，获得水下航行器与障碍物的距离和轮廓特征信息，并将其合成深度图像；将连续多帧深度图像输入至自主决策控制网络中，采用卷积神经网络提取整合深度图像中的深度特征，将深度特征作为状态信息输入至强化学习网络中进行训练，经不断迭代优化获得对应于水下航行器的线速度和角速度；

其中几何分析深度估计网络包括深度估计网络和自我运动估计网络；深度估计网络采用完全卷积的编码器-解码器结构，通过设计两种编码器网络结构进行比较，搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样；将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中，使用深度神经网络估计深度和分析自我运动状态，进而从RGB图像中获得密集深度图，将两帧RGB图像序列输入至自我运动估计网络中，生成时间序列两帧图像之间的SE3变换矩阵，规范两帧图像之间的平移和旋转参数，通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象，对当前帧图像进行自我运动估计从而映射为下一帧图像；

其中自主决策控制网络包括卷积神经网络和强化学习控制网络；

在时刻t∈[0,T]通过单目相机深度估计图像x_t执行动作策略a_t＝π(x_t)，根据强化学习控制网络中的奖励函数得到奖励值r_t，观测下一时刻的相机深度图像x_t+1，在自主决策控制网络中，采用梯度下降法最大化累积奖励值R_t，

其中强化学习控制网络利用一个目标网络和一个在线网络，目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同，目标网络的权值在短时间内被固定、从在线网络复制；在双网络设置的基础上，设计水下航行器奖惩机制，利用神经网络的非线性特性不断迭代优化，分别利用在线和目标网络进行动作选择和最优状态估计。

通过将映射到下一帧的场景

与真实的下一帧图像I_j在RGB空间中进行像素损失对比，建立深度估计网络的监督信号；

其中图像重构损失为上一帧到当前帧的最小重构损失L_rec，最小重构损失的具体损失函数如下：

该几何分析深度估计网络将重构损失、SSIM损失和深度平滑损失相融合，其总的损失函数如下：

其中α_j为超参数，L_ssim为图像SSIM损失，L_sm为深度平滑损失。

累积奖励值R_t表达式为：

其中γ是折扣因子；

在水下航行器强化学习控制网络的每一轮迭代过程中，设计动作策略a_t＝π(x_t)，则整体的状态-动作的值函数被定义为：

Q^π(x_t,a_t)＝E[R_t|x_t,a_t,π]

上述等式通过贝尔曼等式整理为：

Q^π(x_t,a_t)＝E[r_t+γE[Q^π(x_t+1,a_t+1)|x_t,a_t,π]

在每次迭代中选择最优动作决策，得到最优Q值函数为：

通过当前t时刻的奖励值r_t加上t+1时刻的折扣最优Q^*值得到当前的最优Q值函数，利用深度神经网络的非线性逼近特性不断迭代优化网络权重，直至水下航行器具备自主决策控制能力。

进一步的，所述目标网络的目标值如下：

其中，a^max(s′；θ)＝arg max_a′Q(s′,a′；θ)，x_t+1是下一时刻的深度图像，θ和θ^-分别为在线网络和目标网络的网络参数，损失函数通过梯度下降法进行网络参数优化，自主决策控制网络的损失函数如下：

Loss＝||y_j-Q(s,a；θ)||²

其中强化学习控制网络中的值函数Q被分解为状态值函数和优势函数即：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中，V表示一个全连通层流估计的状态值函数，A表示另一个全连通层流估计的优势函数，对优势函数加一个限定，设优势函数的期望为0，将公式变成：

其中，

是优势函数A的基数，它等于动作集的大小，让每个A值减去此迭代周期所有A值得平均值，保证期望值为0的约束。

由于采用了上述技术方案，本发明提供的一种基于视觉深度估计的无人水下航行器自主决策控制方法，本方法以环境视频为输入，提出了一种基于编译码框架的几何分析深度估计网络生成深度图像，以提供实际复杂环境的空间几何信息。基于卷积神经网络和强化学习技术构建的自主决策控制网络输出具有避障功能的自主控制动作决策。相对于传统的水下航行器自主控制策略，本方法利用深度学习通过数据驱动获取的特征更具鲁棒性和准确性，使用强化学习通过航行状态驱动策略机制获取动作决策，兼具静态决策稳定性和动态策略调整能力，进而满足自主感知与分析、决策与控制一体化的智能航行器航行需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为深度估计网络整体框图

图3为自我运动估计网络整理框图

图4为强化学习控制神经网络训练流程图

图5为自主决策控制网络在仿真器中训练的奖励值曲线

图6为水下航行器仿真器训练轨迹图

图7为本专利几何分析深度估计网络真实环境深度评估效果图

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于视觉深度估计的无人水下航行器自主决策控制方法，包括如下步骤：首先是几何分析深度估计网络的网络结构和损失函数设计：

基于深度学习知识，对现存的图像深度估计网络加以改进。深度估计网络采用完全卷积的编码器-解码器结构，通过设计两种编码器网络结构进行比较，搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样，将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中，使用深度神经网络估计深度和分析自我运动状态，进而从RGB图像中获得密集深度图，深度估计网络结构如图2所示。

自我运动估计网络如图3所示，将两帧RGB图像序列输入至自我运动估计网络中，生成时间序列两帧图像之间的SE3变换矩阵，规范两帧图像之间的平移和旋转参数，通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象，针对下一帧图像的自我运动估计将当前帧图像映射为下一帧图像；

因此在输入两帧RGB图像I_i、I_j的情况下，可得到I_i至I_j的自我运动估计估计E_i→j，I_j通过深度估计网络得到深度映射D_j，通过图像的warping：

其中

为重建的j帧图像，φ由图像坐标点像素读取。

通过将映射到下一帧的场景

与真实的下一帧图像I_j在RGB空间中进行像素损失对比，建立深度估计网络的监督信号；其中图像重构损失为上一帧到当前帧的最小重构损失L_rec，最小重构损失的具体损失函数如下：

综上所述，使用UUV搭建的视觉传感器采集真实水下图像，提取视觉传感器内参矩阵K，建立用于训练深度估计网络的数据集，并设定和微调超参数，训练以及测试深度估计网络，生成具有高质量的网络模型。

第二部分为自主决策控制网络和损失函数设计；

基于视觉图像深度估计的UUV自主控制问题可以看作“感知-决策”的过程，在这个阶段UUV通过单目相机与外界环境交互，实现自身地不断优化。在这个过程中，UUV在时刻t∈[0,T]通过相机深度估计图像x_t，由奖励函数得到奖励值r_t，然后观测下一时刻的相机深度图像x_t+1。我们的目标是最大化累积奖励值：

其中，γ是折扣因子；

在每一轮迭代的过程中，设计动作策略a_t＝π(x_t)，那么状态-动作的值函数可以被定义为：

Q^π(x_t,a_t)＝E[R_t|x_t,a_t,π]

上述等式可通过贝尔曼等式整理为：

Q^π(x_t,a_t)＝E[r_t+γE[Q^π(x_t+1,a_t+1)|x_t,a_t,π]

在每次迭代中选择最优动作决策，我们可得到最优Q值函数为：

从公式中可以看出，我们通过当前t时刻的奖励值r_t加上t+1时刻的折扣最优Q值得到当前的最优Q值函数。与直接在大的状态空间上计算Q值函数不同，这个问题可以通过用深度神经网络逼近这个最优Q值函数来解决。

如图4所示为强化学习控制神经网络训练流程图，其中强化学习控制网络利用一个目标网络和一个在线网络，目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同，目标网络的权值在短时间内被固定、从在线网络复制；在双网络设置的基础上，分别设计在线和目标网络进行动作选择和最优状态估计。其目标网络的目标值如下：

其中，a^max(s′；θ)＝arg max_a′Q(s′,a′；θ)，x_t+1是下一时刻的深度图像，θ和θ^-分别为在线网络和目标网络的网络参数。

最后损失函数通过梯度下降法进行网络参数优化，自主决策控制网络的损失函数如下：

Loss＝||y_j-Q(s,a；θ)||²

本方法中的自主决策控制网络体系结构如图1的后半部分所示，先构建了四层卷积神经网络，然后构建了两个全连通层流，分别对状态值函数和动作优势函数进行估计，最后通过一种特殊的聚集操作，将两者结合起来近似每个有效动作的Q值。

决策控制网络从网络结构上改进了传统的DQN网络。它利用模型结构将值函数表示成更细致的形式，这使得模型能够拥有更高的表现。值函数Q被分解为状态值函数(ValueFunction)和优势函数(Advantage Function)，即：

Q(s,a；θ,α,β)＝V(s；θ,β)+A(s,a；θ,α)

其中，V表示一个全连通层流估计的状态值函数，A表示另一个全连通层流估计的优势函数。优势函数可以表现出当前行动和平均表现之间的区别：如果优于平均表现，那么优势函数为正，反之则为负。我们对优势函数加一个限定，我们知道优势函数的期望为0，将公式变成：

其中，

是优势函数A的基数，它等于动作集的大小，让每个A值减去此迭代期所有A值得平均值，可以保证期望值为0的约束，从而增加了整理输出的稳定性。

在本方法中，所涉及的自主决策控制网络利用ε-greedy策略和启发式搜索规则来进行动作的平衡和探索，以提高学习效率。航行器在所涉及的动作集中随机地选择动作进行探索，并伴有涉及的奖惩机制，在不断地迭代优化后输出对应不同动作的Q值。根据本专利航行器的实际需求，规定了7个动作，分别为前进0.2和0.4m/s，转向-30、-15、0、15和30rad/s，训练好的决策控制网络分别输出线速度和角速度的Q值，对应于动作集中的前进和转向，Q值大者优选选择该动作，重复训练，直至可以达到基本的自主控制功能。其中，奖励函数具体公式如下所示：

r＝v×cosα×ΔT

其中，v是线速度、α是角速度、ΔT是每两次迭代的间隔时间。累积奖励值是集内所有步骤的瞬时奖励的和。如果检测到碰撞，则该事件立即终止，并附加-5的惩罚。否则，该事件将持续到达到设定的最大步数为止。

为了验证几何分析深度估计网络和自主决策控制网络算法在实际应用中的有效性，基于构建了多障碍物的Gazebo仿真平台上，利用两片GPU(英伟达GeForce GTX 2080Ti11GB)在机器人操作系统(ROS)环境下对模型进行了训练。在模拟训练过程中，水下虚拟环境利用ROS与外部计算机进行交互。

如图5所示为自主决策控制网络在仿真器中训练的奖励值曲线，随着迭代次数的增加，奖励值迅速增加，在900次迭代后达到相对稳定的奖励值。仿真水下航行器在Gazebo仿真器中的路径轨迹如图6所示，从图中可以看出，水下航行器在避障时通常选择相似的路径。这是因为在获得每个状态的Q值后，由网络估计动作，并由贪心策略选择，从而得到所有状态的装箱策略。由于训练阶段定义的奖励函数更倾向于保持直线而不是转弯，所以水下航行器以最小曲率的回路航行，以保持最大的直线速度，并成功避免了所有碰撞。这表明，该方法具有良好的碰撞避免能力。

接下来是真实环境实验部分，本专利所采用的水下航行器是一台八推进器全驱动航行器，由Blue Robotics公司生产，并搭载低光高清水下摄像头，可以保证所观测到图像的清晰度。在模拟环境中进行训练后，将训练后的模型转移到实际控制器中。利用OpenCV库读取原始视频帧，通过几何分析深度估计网络和自主决策控制网络两阶段处理得到线速度和角速度的具体数值。下一步，通过自定义通信协议将线速度和角速度信息转化为水下航行器各通道的控制指令，通过UDP通信通过地面站软件发送给水下航行器中。

为了验证几何分析深度估计网络的有效性和优越性，本专利对单目深度估计效果进行了定量评价，比较了英国学者Godard于2017年提出的MonoDepth算法进行了对比，并与其进行了3个误差度量的比较，即采用绝对相对差(ARD)、平方相对差(SRD)和均方根误差(RMSE)。结果如表1所示，从中可以看出，本专利所提出的方法取得了最好的性能。可视化结果的对比如图7所示，其中为了可视化的目的，从稀疏测量中插入了地面真值深度图。从图7可以看出，本专利方法在深度估计和距离特征提取方面表现出了显著的性能。

表1

方法	绝对相对差	平方相对差	均方根误差
				Monodepth	0.162	1.578	6.104
本专利方法	0.138	1.029	5.260

本发明建立基于数据驱动的深度学习神经网络架构对获取的多尺度、多维度的环境特征进行深度分析处理；以安全航行规范为准则，采用强化学习神经网络架构，利用感知的深度特征与航行信息状态信息为驱动数据，拟合动静态避碰策略，寻求最优规划路径，兼具静态决策稳定性和动态策略调整能力，进而满足自主感知与分析、决策与控制一体化的智能航行器航行需求。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。