CN111340868B - 基于视觉深度估计的无人水下航行器自主决策控制方法 - Google Patents

基于视觉深度估计的无人水下航行器自主决策控制方法 Download PDF

Info

Publication number
CN111340868B
CN111340868B CN202010121857.4A CN202010121857A CN111340868B CN 111340868 B CN111340868 B CN 111340868B CN 202010121857 A CN202010121857 A CN 202010121857A CN 111340868 B CN111340868 B CN 111340868B
Authority
CN
China
Prior art keywords
network
depth
underwater vehicle
function
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010121857.4A
Other languages
English (en)
Other versions
CN111340868A (zh
Inventor
刘彦呈
朱鹏莅
姚书翰
马川
赵友涛
吕寅新
张珍睿
许晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Maritime University
Original Assignee
Dalian Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Maritime University filed Critical Dalian Maritime University
Priority to CN202010121857.4A priority Critical patent/CN111340868B/zh
Publication of CN111340868A publication Critical patent/CN111340868A/zh
Application granted granted Critical
Publication of CN111340868B publication Critical patent/CN111340868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉深度估计的无人水下航行器自主决策控制方法,包括:实时提取水下航行器拍摄到的视频图像,将视频图像分帧处理后输入至几何分析深度估计网络进行处理,对图像的深度特征进行提取,获得水下航行器与障碍物的距离和轮廓特征信息、并将其合成深度图像;将连续多帧深度图像输入至自主决策控制网络中,采用卷积神经网络提取整合深度图像的深度特征,将深度特征作为状态信息输入至强化学习网络中进行训练,经不断迭代优化获得对应于水下航行器的线速度和角速度。

Description

基于视觉深度估计的无人水下航行器自主决策控制方法
技术领域
本发明涉及水下航行器智能航行领域,尤其涉及一种基于视觉深度估计的无人水下航行器自主决策控制方法。
背景技术
无人水下航行器(Unmanned Underwater Vehicle,UUV)作为船舶与海洋工程和机器人技术的交叉学科产物,是囊括了力学、控制、通信、机械等多方面技术的高智能体,具有安全系数高、造价低、尺寸小、重量轻、灵活性高、活动范围广等独特优势,且能够在水中进行长期观察、探测和打捞作业,因此被广泛应用于军事、科学、经济等众多领域。在军事领域上,UUV作为未来海洋战争的一种新型现代化高科技装备,在反潜、反雷、海上封锁和反封锁等方面都有着重要的用途;在科学领域上,UUV可进行水文调查、海洋勘测和海洋观测;在经济领域上,UUV对于石油开采、海底电缆的检测、港口建设、水下施工、海洋救援、打捞船只、海底地形探测及海洋渔业等方面都有着巨大的作用。在上述水下特定作业任务中,UUV需要按照预设目标进行自主航行与避碰,这就必须保证UUV具备一定的自主航行能力,进而保证作业任务的顺利完成。为此,根据UUV不同的作业任务需求,通过设计相应的智能神经网络控制算法保证UUV对目标区域的精准自主航行,进而满足海洋开发应用中对UUV运动控制技术的需求,目前已成为水下机器人学的国际研究热点之一。
有别于水面船舶的水平面三自由度运动,UUV在水下三维空间的运动属于六自由度运动形式。考虑到水下海洋环境是非结构化环境,具有复杂性、多变性和随机性等特点,UUV在近海面运动时会受到海浪的干扰作用,随着工作深度的增加还会受到海流干扰作用,引起动态模型非线性阻尼动力参数的摄动,同时UUV本体的水动力特性非常复杂,各运动自由度之间的状态变量具有强耦合性,模型参数具有强非线性,使得UUV系统具有强非线性、强耦合性、水动力系数不确定性、未建模动态及外界未知干扰等动态特征。UUV水下空间运动模型是非线性、强耦合且存在参数可变的不确定性运动控制,且在实际应用中存在流体的不确定扰动,故给控制系统的设计带来较大困难。
目前来看,随着无人水下航行器水下作业任务的复杂程度日益提高,对航行器的水下操纵能力提出了更高的要求,在系统存在内部不确定性和外部扰动影响的情况下,基于模型的传统控制方法旨在从感知环境信息中搜索可用的路径或轨迹,然后开发对应的控制器来精确跟踪所搜索的路径或轨迹,但是存在一系列控制环节繁琐、环境感知复杂、系统模型不精确等局限性;纵观水下航行器的传统控制策略,由于海洋环境复杂多变,获取的感知信息具有极大随机性,致使提取特征的准确率急剧下降。此外,感知环境的多变性也决定了应对策略的无序性和应激性,致使固定模型驱动的决策方法的失效,这些问题都会一定程度地造成水下航行器水下控制功能失效。
发明内容
根据现有技术存在的问题,本发明公开了一种基于视觉深度估计的无人水下航行器自主决策控制方法,具体包括如下步骤:
实时提取水下航行器拍摄到的视频图像,将视频图像分帧处理后输入至几何分析深度估计网络中,对图像的深度特征进行提取,获得水下航行器与障碍物的距离和轮廓特征信息,并将其合成深度图像;将连续多帧深度图像输入至自主决策控制网络中,采用卷积神经网络提取整合深度图像中的深度特征,将深度特征作为状态信息输入至强化学习网络中进行训练,经不断迭代优化获得对应于水下航行器的线速度和角速度;
其中几何分析深度估计网络包括深度估计网络和自我运动估计网络;深度估计网络采用完全卷积的编码器-解码器结构,通过设计两种编码器网络结构进行比较,搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样;将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中,使用深度神经网络估计深度和分析自我运动状态,进而从RGB图像中获得密集深度图,将两帧RGB图像序列输入至自我运动估计网络中,生成时间序列两帧图像之间的SE3变换矩阵,规范两帧图像之间的平移和旋转参数,通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象,对当前帧图像进行自我运动估计从而映射为下一帧图像;
其中自主决策控制网络包括卷积神经网络和强化学习控制网络;
在时刻t∈[0,T]通过单目相机深度估计图像xt执行动作策略at=π(xt),根据强化学习控制网络中的奖励函数得到奖励值rt,观测下一时刻的相机深度图像xt+1,在自主决策控制网络中,采用梯度下降法最大化累积奖励值Rt
其中强化学习控制网络利用一个目标网络和一个在线网络,目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同,目标网络的权值在短时间内被固定、从在线网络复制;在双网络设置的基础上,设计水下航行器奖惩机制,利用神经网络的非线性特性不断迭代优化,分别利用在线和目标网络进行动作选择和最优状态估计。
通过将映射到下一帧的场景
Figure BDA0002393211770000031
与真实的下一帧图像Ij在RGB空间中进行像素损失对比,建立深度估计网络的监督信号;
其中图像重构损失为上一帧到当前帧的最小重构损失Lrec,最小重构损失的具体损失函数如下:
Figure BDA0002393211770000032
该几何分析深度估计网络将重构损失、SSIM损失和深度平滑损失相融合,其总的损失函数如下:
Figure BDA0002393211770000033
其中αj为超参数,Lssim为图像SSIM损失,Lsm为深度平滑损失。
累积奖励值Rt表达式为:
Figure BDA0002393211770000034
其中γ是折扣因子;
在水下航行器强化学习控制网络的每一轮迭代过程中,设计动作策略at=π(xt),则整体的状态-动作的值函数被定义为:
Qπ(xt,at)=E[Rt|xt,at,π]
上述等式通过贝尔曼等式整理为:
Qπ(xt,at)=E[rt+γE[Qπ(xt+1,at+1)|xt,at,π]
在每次迭代中选择最优动作决策,得到最优Q值函数为:
Figure BDA0002393211770000035
通过当前t时刻的奖励值rt加上t+1时刻的折扣最优Q*值得到当前的最优Q值函数,利用深度神经网络的非线性逼近特性不断迭代优化网络权重,直至水下航行器具备自主决策控制能力。
进一步的,所述目标网络的目标值如下:
Figure BDA0002393211770000041
其中,amax(s′;θ)=arg maxa′Q(s′,a′;θ),xt+1是下一时刻的深度图像,θ和θ-分别为在线网络和目标网络的网络参数,损失函数通过梯度下降法进行网络参数优化,自主决策控制网络的损失函数如下:
Loss=||yj-Q(s,a;θ)||2
其中强化学习控制网络中的值函数Q被分解为状态值函数和优势函数即:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中,V表示一个全连通层流估计的状态值函数,A表示另一个全连通层流估计的优势函数,对优势函数加一个限定,设优势函数的期望为0,将公式变成:
Figure BDA0002393211770000042
其中,
Figure BDA0002393211770000043
是优势函数A的基数,它等于动作集的大小,让每个A值减去此迭代周期所有A值得平均值,保证期望值为0的约束。
由于采用了上述技术方案,本发明提供的一种基于视觉深度估计的无人水下航行器自主决策控制方法,本方法以环境视频为输入,提出了一种基于编译码框架的几何分析深度估计网络生成深度图像,以提供实际复杂环境的空间几何信息。基于卷积神经网络和强化学习技术构建的自主决策控制网络输出具有避障功能的自主控制动作决策。相对于传统的水下航行器自主控制策略,本方法利用深度学习通过数据驱动获取的特征更具鲁棒性和准确性,使用强化学习通过航行状态驱动策略机制获取动作决策,兼具静态决策稳定性和动态策略调整能力,进而满足自主感知与分析、决策与控制一体化的智能航行器航行需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为深度估计网络整体框图
图3为自我运动估计网络整理框图
图4为强化学习控制神经网络训练流程图
图5为自主决策控制网络在仿真器中训练的奖励值曲线
图6为水下航行器仿真器训练轨迹图
图7为本专利几何分析深度估计网络真实环境深度评估效果图
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1所示的一种基于视觉深度估计的无人水下航行器自主决策控制方法,包括如下步骤:首先是几何分析深度估计网络的网络结构和损失函数设计:
基于深度学习知识,对现存的图像深度估计网络加以改进。深度估计网络采用完全卷积的编码器-解码器结构,通过设计两种编码器网络结构进行比较,搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样,将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中,使用深度神经网络估计深度和分析自我运动状态,进而从RGB图像中获得密集深度图,深度估计网络结构如图2所示。
自我运动估计网络如图3所示,将两帧RGB图像序列输入至自我运动估计网络中,生成时间序列两帧图像之间的SE3变换矩阵,规范两帧图像之间的平移和旋转参数,通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象,针对下一帧图像的自我运动估计将当前帧图像映射为下一帧图像;
因此在输入两帧RGB图像Ii、Ij的情况下,可得到Ii至Ij的自我运动估计估计Ei→j,Ij通过深度估计网络得到深度映射Dj,通过图像的warping:
Figure BDA0002393211770000051
其中
Figure BDA0002393211770000052
为重建的j帧图像,φ由图像坐标点像素读取。
通过将映射到下一帧的场景
Figure BDA0002393211770000053
与真实的下一帧图像Ij在RGB空间中进行像素损失对比,建立深度估计网络的监督信号;其中图像重构损失为上一帧到当前帧的最小重构损失Lrec,最小重构损失的具体损失函数如下:
Figure BDA0002393211770000054
该几何分析深度估计网络将重构损失、SSIM损失和深度平滑损失相融合,其总的损失函数如下:
Figure BDA0002393211770000061
其中αj为超参数,Lssim为图像SSIM损失,Lsm为深度平滑损失。
综上所述,使用UUV搭建的视觉传感器采集真实水下图像,提取视觉传感器内参矩阵K,建立用于训练深度估计网络的数据集,并设定和微调超参数,训练以及测试深度估计网络,生成具有高质量的网络模型。
第二部分为自主决策控制网络和损失函数设计;
基于视觉图像深度估计的UUV自主控制问题可以看作“感知-决策”的过程,在这个阶段UUV通过单目相机与外界环境交互,实现自身地不断优化。在这个过程中,UUV在时刻t∈[0,T]通过相机深度估计图像xt,由奖励函数得到奖励值rt,然后观测下一时刻的相机深度图像xt+1。我们的目标是最大化累积奖励值:
Figure BDA0002393211770000062
其中,γ是折扣因子;
在每一轮迭代的过程中,设计动作策略at=π(xt),那么状态-动作的值函数可以被定义为:
Qπ(xt,at)=E[Rt|xt,at,π]
上述等式可通过贝尔曼等式整理为:
Qπ(xt,at)=E[rt+γE[Qπ(xt+1,at+1)|xt,at,π]
在每次迭代中选择最优动作决策,我们可得到最优Q值函数为:
Figure BDA0002393211770000063
从公式中可以看出,我们通过当前t时刻的奖励值rt加上t+1时刻的折扣最优Q值得到当前的最优Q值函数。与直接在大的状态空间上计算Q值函数不同,这个问题可以通过用深度神经网络逼近这个最优Q值函数来解决。
如图4所示为强化学习控制神经网络训练流程图,其中强化学习控制网络利用一个目标网络和一个在线网络,目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同,目标网络的权值在短时间内被固定、从在线网络复制;在双网络设置的基础上,分别设计在线和目标网络进行动作选择和最优状态估计。其目标网络的目标值如下:
其中,amax(s′;θ)=arg maxa′Q(s′,a′;θ),xt+1是下一时刻的深度图像,θ和θ-分别为在线网络和目标网络的网络参数。
最后损失函数通过梯度下降法进行网络参数优化,自主决策控制网络的损失函数如下:
Loss=||yj-Q(s,a;θ)||2
本方法中的自主决策控制网络体系结构如图1的后半部分所示,先构建了四层卷积神经网络,然后构建了两个全连通层流,分别对状态值函数和动作优势函数进行估计,最后通过一种特殊的聚集操作,将两者结合起来近似每个有效动作的Q值。
决策控制网络从网络结构上改进了传统的DQN网络。它利用模型结构将值函数表示成更细致的形式,这使得模型能够拥有更高的表现。值函数Q被分解为状态值函数(ValueFunction)和优势函数(Advantage Function),即:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中,V表示一个全连通层流估计的状态值函数,A表示另一个全连通层流估计的优势函数。优势函数可以表现出当前行动和平均表现之间的区别:如果优于平均表现,那么优势函数为正,反之则为负。我们对优势函数加一个限定,我们知道优势函数的期望为0,将公式变成:
Figure BDA0002393211770000071
其中,
Figure BDA0002393211770000072
是优势函数A的基数,它等于动作集的大小,让每个A值减去此迭代期所有A值得平均值,可以保证期望值为0的约束,从而增加了整理输出的稳定性。
在本方法中,所涉及的自主决策控制网络利用ε-greedy策略和启发式搜索规则来进行动作的平衡和探索,以提高学习效率。航行器在所涉及的动作集中随机地选择动作进行探索,并伴有涉及的奖惩机制,在不断地迭代优化后输出对应不同动作的Q值。根据本专利航行器的实际需求,规定了7个动作,分别为前进0.2和0.4m/s,转向-30、-15、0、15和30rad/s,训练好的决策控制网络分别输出线速度和角速度的Q值,对应于动作集中的前进和转向,Q值大者优选选择该动作,重复训练,直至可以达到基本的自主控制功能。其中,奖励函数具体公式如下所示:
r=v×cosα×ΔT
其中,v是线速度、α是角速度、ΔT是每两次迭代的间隔时间。累积奖励值是集内所有步骤的瞬时奖励的和。如果检测到碰撞,则该事件立即终止,并附加-5的惩罚。否则,该事件将持续到达到设定的最大步数为止。
为了验证几何分析深度估计网络和自主决策控制网络算法在实际应用中的有效性,基于构建了多障碍物的Gazebo仿真平台上,利用两片GPU(英伟达GeForce GTX 2080Ti11GB)在机器人操作系统(ROS)环境下对模型进行了训练。在模拟训练过程中,水下虚拟环境利用ROS与外部计算机进行交互。
如图5所示为自主决策控制网络在仿真器中训练的奖励值曲线,随着迭代次数的增加,奖励值迅速增加,在900次迭代后达到相对稳定的奖励值。仿真水下航行器在Gazebo仿真器中的路径轨迹如图6所示,从图中可以看出,水下航行器在避障时通常选择相似的路径。这是因为在获得每个状态的Q值后,由网络估计动作,并由贪心策略选择,从而得到所有状态的装箱策略。由于训练阶段定义的奖励函数更倾向于保持直线而不是转弯,所以水下航行器以最小曲率的回路航行,以保持最大的直线速度,并成功避免了所有碰撞。这表明,该方法具有良好的碰撞避免能力。
接下来是真实环境实验部分,本专利所采用的水下航行器是一台八推进器全驱动航行器,由Blue Robotics公司生产,并搭载低光高清水下摄像头,可以保证所观测到图像的清晰度。在模拟环境中进行训练后,将训练后的模型转移到实际控制器中。利用OpenCV库读取原始视频帧,通过几何分析深度估计网络和自主决策控制网络两阶段处理得到线速度和角速度的具体数值。下一步,通过自定义通信协议将线速度和角速度信息转化为水下航行器各通道的控制指令,通过UDP通信通过地面站软件发送给水下航行器中。
为了验证几何分析深度估计网络的有效性和优越性,本专利对单目深度估计效果进行了定量评价,比较了英国学者Godard于2017年提出的MonoDepth算法进行了对比,并与其进行了3个误差度量的比较,即采用绝对相对差(ARD)、平方相对差(SRD)和均方根误差(RMSE)。结果如表1所示,从中可以看出,本专利所提出的方法取得了最好的性能。可视化结果的对比如图7所示,其中为了可视化的目的,从稀疏测量中插入了地面真值深度图。从图7可以看出,本专利方法在深度估计和距离特征提取方面表现出了显著的性能。
表1
方法 绝对相对差 平方相对差 均方根误差
Monodepth 0.162 1.578 6.104
本专利方法 0.138 1.029 5.260
本发明建立基于数据驱动的深度学习神经网络架构对获取的多尺度、多维度的环境特征进行深度分析处理;以安全航行规范为准则,采用强化学习神经网络架构,利用感知的深度特征与航行信息状态信息为驱动数据,拟合动静态避碰策略,寻求最优规划路径,兼具静态决策稳定性和动态策略调整能力,进而满足自主感知与分析、决策与控制一体化的智能航行器航行需求。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于视觉深度估计的无人水下航行器自主决策控制方法,其特征在于包括:
实时提取水下航行器拍摄到的视频图像,将视频图像分帧处理后输入至几何分析深度估计网络中,对图像的深度特征进行提取,获得水下航行器与障碍物的距离和轮廓特征信息,并将其合成深度图像;将连续多帧深度图像输入至自主决策控制网络中,采用卷积神经网络提取整合深度图像中的深度特征,将深度特征作为状态信息输入至强化学习网络中进行训练,经不断迭代优化获得对应于水下航行器的线速度和角速度;
其中几何分析深度估计网络包括深度估计网络和自我运动估计网络;深度估计网络采用完全卷积的编码器-解码器结构,通过设计两种编码器网络结构进行比较,搭建基础的卷积层和反卷积层神经网络完成图像的下采样和上采样;将以时间序列的连续三帧单目视觉RGB图像和摄像机内参矩阵K输入至深度估计网络中,使用深度神经网络估计深度和分析自我运动状态,进而从RGB图像中获得密集深度图,将两帧RGB图像序列输入至自我运动估计网络中,生成时间序列两帧图像之间的SE3变换矩阵,规范两帧图像之间的平移和旋转参数,通过将一帧图像转换为相邻一帧的图像实现对场景不同视角的想象,对当前帧图像进行自我运动估计从而映射为下一帧图像;
其中自主决策控制网络包括卷积神经网络和强化学习控制网络;
在时刻t∈[0,T]通过单目相机深度估计图像xt执行动作策略at=π(xt),根据强化学习控制网络中的奖励函数得到奖励值rt,观测下一时刻的相机深度图像xt+1,在自主决策控制网络中,采用梯度下降法最大化累积奖励值Rt
其中强化学习控制网络利用一个目标网络和一个在线网络,目标网络是在线网络的副本、与在线网络在每个训练步骤通过反向传播更新权值不同,目标网络的权值在短时间内被固定、从在线网络复制;在双网络设置的基础上,设计水下航行器奖惩机制,利用神经网络的非线性特性不断迭代优化,分别利用在线和目标网络进行动作选择和最优状态估计。
2.根据权利要求1所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:通过将映射到下一帧的场景
Figure FDA0002393211760000011
与真实的下一帧图像Ij在RGB空间中进行像素损失对比,建立深度估计网络的监督信号;
其中图像重构损失为上一帧到当前帧的最小重构损失Lrec,最小重构损失的具体损失函数如下:
Figure FDA0002393211760000021
该几何分析深度估计网络将重构损失、SSIM损失和深度平滑损失相融合,其总的损失函数如下:
Figure FDA0002393211760000022
其中αj为超参数,Lssim为图像SSIM损失,Lsm为深度平滑损失。
3.根据权利要求2所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:累积奖励值Rt表达式为:
Figure FDA0002393211760000023
其中γ是折扣因子;
在水下航行器强化学习控制网络的每一轮迭代过程中,设计动作策略at=π(xt),则整体的状态-动作的值函数被定义为:
Qπ(xt,at)=E[Rt|xt,at,π]
上述等式通过贝尔曼等式整理为:
Qπ(xt,at)=E[rt+γE[Qπ(xt+1,at+1)|xt,at,π]
在每次迭代中选择最优动作决策,得到最优Q值函数为:
Figure FDA0002393211760000024
通过当前t时刻的奖励值rt加上t+1时刻的折扣最优Q*值得到当前的最优Q值函数,利用深度神经网络的非线性逼近特性不断迭代优化网络权重,直至水下航行器具备自主决策控制能力。
4.根据权利要求1所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:所述目标网络的目标值如下:
Figure FDA0002393211760000031
其中,amax(s′;θ)=argmaxa′Q(s′,a′;θ),xt+1是下一时刻的深度图像,θ和θ-分别为在线网络和目标网络的网络参数,损失函数通过梯度下降法进行网络参数优化,自主决策控制网络的损失函数如下:
Loss=||yj-Q(s,a;θ)||2
5.根据权利要求4所述的基于视觉深度估计的无人水下航行器自主决策控制方法,其特征还在于:其中强化学习控制网络中的值函数Q被分解为状态值函数和优势函数即:
Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)
其中,V表示一个全连通层流估计的状态值函数,A表示另一个全连通层流估计的优势函数,对优势函数加一个限定,设优势函数的期望为0,将公式变成:
Figure FDA0002393211760000032
其中,
Figure FDA0002393211760000033
是优势函数A的基数,它等于动作集的大小,让每个A值减去此迭代周期所有A值得平均值,保证期望值为0的约束。
CN202010121857.4A 2020-02-26 2020-02-26 基于视觉深度估计的无人水下航行器自主决策控制方法 Active CN111340868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121857.4A CN111340868B (zh) 2020-02-26 2020-02-26 基于视觉深度估计的无人水下航行器自主决策控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121857.4A CN111340868B (zh) 2020-02-26 2020-02-26 基于视觉深度估计的无人水下航行器自主决策控制方法

Publications (2)

Publication Number Publication Date
CN111340868A CN111340868A (zh) 2020-06-26
CN111340868B true CN111340868B (zh) 2023-06-02

Family

ID=71181925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121857.4A Active CN111340868B (zh) 2020-02-26 2020-02-26 基于视觉深度估计的无人水下航行器自主决策控制方法

Country Status (1)

Country Link
CN (1) CN111340868B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149354A (zh) * 2020-09-24 2020-12-29 哈尔滨工程大学 一种用于uuv集群的强化学习算法研究平台
CN112347900B (zh) * 2020-11-04 2022-10-14 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
EP4209006A4 (en) * 2020-11-11 2023-10-18 Huawei Technologies Co., Ltd. APPARATUS AND METHOD FOR VERIFYING ESTIMATED DEPTH INFORMATION
CN112347961B (zh) * 2020-11-16 2023-05-26 哈尔滨工业大学 水流体内无人平台智能目标捕获方法及系统
CN113989327B (zh) * 2021-10-27 2023-04-07 中国矿业大学 一种基于卷积神经网络粒子滤波算法的单uuv目标状态估计方法
CN115081936B (zh) * 2022-07-21 2022-11-18 之江实验室 面向应急条件下多遥感卫星观测任务调度的方法和装置
CN115871901B (zh) * 2023-02-14 2023-05-16 山东科技大学 一种仿鲟鱼机器人及海底电缆故障检测方法
CN117029838B (zh) * 2023-10-09 2024-01-23 广东电网有限责任公司阳江供电局 一种水下机器人导航控制方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246151A (zh) * 2019-06-03 2019-09-17 南京工程学院 一种基于深度学习和单目视觉的水下机器人目标跟踪方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246151A (zh) * 2019-06-03 2019-09-17 南京工程学院 一种基于深度学习和单目视觉的水下机器人目标跟踪方法
CN110716574A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 一种基于深度q网络的uuv实时避碰规划方法
CN110738697A (zh) * 2019-10-10 2020-01-31 福州大学 基于深度学习的单目深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向无人机自主飞行的无监督单目视觉深度估计;赵栓峰;黄涛;许倩;耿龙龙;;激光与光电子学进展;57(第02期);137-146 *

Also Published As

Publication number Publication date
CN111340868A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340868B (zh) 基于视觉深度估计的无人水下航行器自主决策控制方法
Rosinol et al. Nerf-slam: Real-time dense monocular slam with neural radiance fields
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN107038713A (zh) 一种融合光流法和神经网络的运动目标捕捉方法
CN114077258B (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN111368755A (zh) 一种基于视觉的四足机器人行人自主跟随方法
CN112783199B (zh) 一种基于迁移学习的无人机自主导航方法
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
Li et al. Learning view and target invariant visual servoing for navigation
CN114326821B (zh) 基于深度强化学习的无人机自主避障系统及方法
Yao et al. Vision-based environment perception and autonomous obstacle avoidance for unmanned underwater vehicle
Zhu et al. Autonomous reinforcement control of visual underwater vehicles: Real-time experiments using computer vision
Liu et al. Data augmentation technology driven by image style transfer in self-driving car based on end-to-end learning
CN111812978A (zh) 一种多无人机协作slam方法与系统
Lan et al. Based on Deep Reinforcement Learning to path planning in uncertain ocean currents for Underwater Gliders
Cao et al. Unsupervised visual odometry and action integration for pointgoal navigation in indoor environment
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
Ishii et al. A self-organizing map based navigation system for an underwater robot
Wang et al. Stepwise cooperative trajectory planning for multiple BUVs based on temporal–spatial Bezier curves
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
CN114326826B (zh) 多无人机队形变换方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant