CN110246151B - 一种基于深度学习和单目视觉的水下机器人目标跟踪方法 - Google Patents

一种基于深度学习和单目视觉的水下机器人目标跟踪方法 Download PDF

Info

Publication number
CN110246151B
CN110246151B CN201910474803.3A CN201910474803A CN110246151B CN 110246151 B CN110246151 B CN 110246151B CN 201910474803 A CN201910474803 A CN 201910474803A CN 110246151 B CN110246151 B CN 110246151B
Authority
CN
China
Prior art keywords
image
underwater
transmission
deep learning
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910474803.3A
Other languages
English (en)
Other versions
CN110246151A (zh
Inventor
陈国军
陈巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201910474803.3A priority Critical patent/CN110246151B/zh
Publication of CN110246151A publication Critical patent/CN110246151A/zh
Application granted granted Critical
Publication of CN110246151B publication Critical patent/CN110246151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于水下机器人技术领域,公开了一种基于深度学习和单目视觉的水下机器人目标跟踪方法,包括:从视频序列中输入图像,对于每个输入图像,使用深度学习神经网络来估计水下传输图,确定目标方位;通过网络获得的传输图,建立目标运动估计的方向和控制方案。本发明提出了一种基于深度学习的水下机器人单目视觉目标跟踪新方法,单目图像采集方法在水下环境中计算水下图像的传输。对于每一个传入的视频帧和没有先验知识的环境中,创造性引入先前训练的卷积神经网络计算传输图,这个传输提供了深度相关的估计。本发明提出的方法能够找到目标区域,并建立一个跟踪的方向。

Description

一种基于深度学习和单目视觉的水下机器人目标跟踪方法
技术领域
本发明属于水下机器人技术领域,尤其涉及一种基于深度学习和单目视觉的水下机器人目标跟踪方法。
背景技术
目前,最接近的现有技术:
水下机器人已广泛应用于各种水下工作,如水下结构的维护和检查、传感器的安装和科学勘探的样本检索等,这些工作通常由人工控制遥控执行,因此操作依赖于人类感知(主要是视觉),操作人员的工作条件、经验和技能严重影响操作质量。因此,为了保证水下工作准确性,需要进行自动控制,而高精度的水下目标跟踪是一个关键要求。
使用视觉传感器进行水下导航的尝试有很多种,然而所提出的导航算法难以直接应用于实际应用。尤其是所提出的基于视觉的算法可能无法充分处理已安装的海底结构附近的定位任务,因为该算法需要目标对象的特定配置,例如附加基准标记。因此,本设计扩大基于视觉的算法识别结构自然场景下目标的能力,提出一种新的方法来最大限度地提高视觉传感器的可行性,以应对这些问题。
随着技术的进步,机器人和机器正变得越来越自主。在这一领域水下机器人,自主水下机器人(AUV)的数量大幅增加。计算机视觉得到了广泛的应用。各种水下机器人任务,如:栖息地和动物分类、地图绘制、3D场景重建、可视化、对接、跟踪、检查和定位。
在自主水下机器人(AUV)中计算机视觉也得到广泛应用,可实现各种水下机器人任务,水下目标在图像成像过程中由于受到水质的影响,光线被部分吸收、反射及散射。由于受到摄像机与目标物体之间距离的影响,光线的强度会随着距离的拉大而急剧减小,降低了水下图像的对比度,并使图像中的目标物体清晰度较差,不利于水下视频图像的进一步处理,造成目标特征提取的困难和影响目标定位的精度。由于视觉具有非侵入性、被动性和高信息含量,因此它是一种具有吸引力的感知方式,尤其是在较浅的深度。然而,诸如光的折射和吸收、水中悬浮粒子和颜色失真等因素会影响视觉数据的质量,从而导致图像的噪声和失真。依靠视觉感知的AUV因此面临着困难的挑战,因此在视觉驱动的任务上表现不佳。目前大多数方法都集中在将灰度图像转换为颜色的任务上,许多方法使用基于物理的技术来直接模拟光折射,特别是为了恢复水下图像的颜色。水下图像由于色彩或其他环境的影响而失真,缺乏地面真实性,这是以往彩色化方法的必然要求。此外,水下图像中存在的失真是高度非线性的;简单的方法(例如在图像中添加色调)并不能捕获所有依赖项。深度学习方法的应用极大地提高了对象分类、分割、空间变换等多个任务的性能。
综上所述,现有技术存在的问题是:
水下图像的对比度低,目标物体清晰度差,不利于水下视频图像的进一步处理,造成目标特征提取的困难和影响目标定位的精度。
解决上述技术问题的难度:水下环境对视觉传感影响很大,因为悬浮粒子的光折射、吸收和散射会对光学产生很大的影响。例如,由于红色波长很快被水吸收,图像的色调往往是绿色或蓝色。随着深度的加深,这种效果会恶化,因为越来越多的红色色调被吸收了。这种变形在本质上是非常非线性的,并且受许多因素的影响,例如存在的光线量(阴天与晴天、工作深度)、水中的粒子量、一天中的时间和使用的相机。这可能会导致任务困难,如分割,跟踪,或分类,因为他们间接或直接使用颜色。
解决上述技术问题的意义:本发明提出了一种基于深度学习的水下机器人单目视觉目标跟踪新方法,单目图像采集方法在水下环境中计算水下图像的传输。对于每一个传入的视频帧和没有先验知识的环境中,本发明使用先前训练的卷积。神经网络计算传输图。这个传输提供了深度相关的估计,本发明提出的方法能够找到目标区域。并建立一个跟踪的方向。水下对比实验表明,该方法能够更精确、更稳定地获取水下环境中的定位数据。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度学习和单目视觉的水下机器人目标跟踪方法。
本发明是这样实现的,一种基于深度学习和单目视觉的水下机器人目标跟踪方法。所述基于深度学习和单目视觉的水下机器人目标跟踪方法包括:
步骤一,从视频序列中输入图像,对于每个输入图像,使用深度学习神经网络来估计水下传输图,确定目标方位;
步骤二,通过网络获得的传输图,建立目标运动估计的方向和控制方案。
进一步,步骤一中,所述深度学习是一种卷积神经网络(CNN),它具有由卷积层、轮询层和完全连接层组成的深度层。
所述神经网络最常用的结构由三层组成,称为输入层、隐层和输出层,每个层由一个或多个由小圆圈表示的节点组成。节点之间的窄线表示从一个节点到下一个节点的信息流。输出层具有四个节点,在对象分类的情况下有四个分类。隐藏层和输出层中的节点称为主动节点,而输入层中的节点称为被动节点。来自输入层的每个值被复制并发送到所有隐藏节点。被称为完全互连结构。主动节点的输出是由输入xi、权重wi和偏置B组成的SigMID函数。
使用基于如何找出卷积视觉网络中的最佳局部稀疏结构如何逼近和覆盖可用的密集分量。
进一步,步骤一中,通过估计水下传输图,利用单眼彩色摄像机提供的图像神经网络。传输图为场景中物体的相对深度。从视频序列中输入图像,采用深度学习来估计传输图,提供一个有效的运动方向。
在水下环境中,光线会受到影响,在光线传播过程中发生散射和吸收。这两种现象最终形成衰减的现象,散射也会降低图像的质量,通过添加有噪声的信息形成。前向散射当来自场景的光线分散在小角度到达图像平面,产生模糊效果关于形象,降低了对比度,在水下介质中,在每个颜色通道中,λ∈{r,g,b}:
其中是直接分量(信号),/>是前向散射分量和/>后向散射分量。忽略最终图像中的第二分量的影响:
a)直接分量:直接分量表示到达摄像机的光的量;定义为:
其中Jλ(x)是退化信号,即衰减信号,称为透射t(x)。
b)后向散射分量:后向散射分量可以定义为:
其中一个是表示颜色的遮光灯。介质的辐射特性。这个常数与视线上的水的体积有关。此外,该常数被深度改变并受光源影响。(1×T(x))部分将后向散射的效果作为场景对象与摄像机之间的深度差D(x)的函数。随着距离越高,最终图像上的α的影响就越大。
c)最终模型:通过应用获得最终模型第3条和第4条在公式2中产生:
Iλ(x)=Jλ(x)t(x)+Aλ(1-t(x)) (6)
该模型常用于图像复原方法,Jλ(x)包含图像信息没有降解,更为重要的是t(x),因为它与深度的关系。卷积神经网络提供了一个估计值。
进一步,步骤一中,所述估计水下传输图,在水下环境中,是计算物体相对深度的重要步骤。卷积神经网络模型基于相同原理,但有不同的拓扑结构。通过场景的先验知识估计深度D,估计视频图像中的每个图像的传输。值在区间[0;1]中,被用来估计图像中对象的相对深度。主要是处理模糊图像,图像的数据是专门组成的。通过水下混浊的图像。因此,设计的模型需要学习,水下浑浊图像斑的关系它们各自的透射图。
1)体系结构和层设计:
深度神经网络由六层组成,前四层被分为两对非对称卷积,接着是一个池和一个卷积层。卷积神经网络体系结构显示层和生成的特征映射。在每一组特征图之间示出具有层类型和内核大小的层,卷积层数即卷积的数目。
为了提高计算效率,采用非对称核对替换正平方核,这些核产生相同的结果,具有较小的计算负担和内存使用。目标是将原来的16×16贴片转换为一个值,不需要任何填充就可以应用卷积。此外,使用汇总层总结在相同的特征图中的相邻神经元组中存储的信息。
神经元输出是用双曲模型建模,由于激活函数输出的值为大于零,传输限制为1,在此将激活输出限制为间隔中的一个数(0,1)。将激活函数定义了输出的上限和下限,函数定义如下:
A(x)=min(tmax,max(tmin,t(x))) (7)
其中A(x)是输入的输出神经元的激活函数,t(x)是最后一个卷积层的输出。tmin和tmax分别为下限值和上限值,本算法中,设置为0和1。
2)数据采集与模型训练:
可行性采集和标注数据训练深度神经网络效率普遍偏低。混浊图像对采集要求并且它们相关的精确传输图阻碍了用真实数据训练模型的能力。假设沿补丁的深度是恒定的,可以估计每个图像只有一个传输。遵循这一原则,认识逆境收集数据后,生成合成数据。
采用反向传播算法来计算。相对于模型参数的梯度来优化。该模型用256个方块的批次训练,在处理每个批次之后,将输出与地面真值进行比较,并利用距离函数计算损失函数L如下:
其中yi是传递函数的f(xi)的输出值。最后,使用优化器重新调整权重,重复这个过程。为了减少损失L,将该模型应用于水下混浊图像对网络进行了训练。分析图像中的每个贴片步履蹒跚。
进一步,步骤二中,所述目标运动估计的方向和控制方案包括:
1)运动方向:
先建立AUV和摄像机的模型,在此基础上,根据先验知识定义一个形状来描述AUV的轮廓图像,然后分析传输图,在图像中找到最佳的位置来适应形状。在本发明中由像素包围的像素的最低传输平均值形状,该方法使用矩形形状找到位置。由于其计算负担小,可以计算运动方向:
di=arg min(Sp*t(x)) (9)
当di是逃生的方向时,Sp定义经验形状,t(x)是传输因素,本发明将俯仰角设置为向上方向,计算当前和先前有效值之间的平均值,以避免突然变化和平滑AUV运动。
2)无功控制器:
跟踪方向定义为Di=(Dx,Dy)。推进器角度基于位置误差E=(Ex,Ey,Ez),根据图像C=(Cx+Cy)的中心进行以下方程计算:
Ex=DROL
其中DROL是选定的平均深度,本发明为每个AUV的自由度实现了一个无功控制器,控制器估计升沉、偏振运动和偏航旋转:
us=Kps·Ex
uy=Kpy·Ey
uh=Kph·Ez (11)
其中Kps、Kpy和Kph是各自的比例收益。
综上所述,本发明的优点及积极效果为:
表1,本发明与现有技术对比结果
训练时间 识别时间
LeNet算法 2分钟 3秒钟
AlexNet算法 32分钟 6秒钟
GoogleNet算法 2小时 5秒钟
本发明算法 1分钟 2秒钟
本发明提出了一种基于深度学习的水下机器人单目视觉目标跟踪新方法,单目图像采集方法在水下环境中计算水下图像的传输。对于每一个传入的视频帧和没有先验知识的环境中,创造性引入先前训练的卷积神经网络计算传输图,这个传输提供了深度相关的估计。本发明提出的方法能够找到目标区域,并建立一个跟踪的方向。本发明的基于深度学习和单目视觉的水下机器人目标跟踪方法经过在水下机器人的应用,由安徽省机床及刃模具产品质量监督检验中心检验(编号2018X121),检验结果表明,在水下机器人导航方式、驱动方式、运行速度、续航时间、定位精度等方面,达到目前国内领先水平。
附图说明
图1是本发明实施例提供的基于深度学习和单目视觉的水下机器人目标跟踪方法流程图。
图2是本发明实施例提供的神经网络结构图。
图3是本发明实施例提供的主动节点结构图。
图4是本发明实施例提供的AUV控制系统流程图。
图5是本发明实施例提供的深度神经网络体系结构图。
图6是本发明实施例提供的设计的目标及其跟踪结果示意图;
图中:(a)几何目标;(b)标签类型目标;(c)特征类型目标。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理做详细描述。
如图1所示,本发明实施例提供的基于深度学习和单目视觉的水下机器人目标跟踪方法包括:
S101:从视频序列中输入图像,对于每个输入图像,使用深度学习神经网络来估计水下传输图,确定目标方位;
S102:通过网络获得的传输图,建立目标运动估计的方向和控制方案。
进一步,步骤S101中,所述深度学习是一种卷积神经网络(CNN),它具有由卷积层、轮询层和完全连接层组成的深度层。
所述神经网络最常用的结构由三层组成,称为输入层、隐层和输出层,每个层由一个或多个由小圆圈表示的节点组成。节点之间的窄线表示从一个节点到下一个节点的信息流。输出层具有四个节点,在对象分类的情况下有四个分类。隐藏层和输出层中的节点称为主动节点,而输入层中的节点称为被动节点。来自输入层的每个值被复制并发送到所有隐藏节点。被称为完全互连结构。主动节点的输出是由输入xi、权重wi和偏置B组成的SigMID函数。
使用基于如何找出卷积视觉网络中的最佳局部稀疏结构如何逼近和覆盖可用的密集分量。
进一步,步骤S101中,通过估计水下传输图,利用单眼彩色摄像机提供的图像神经网络。传输图为场景中物体的相对深度。从视频序列中输入图像,采用深度学习来估计传输图,提供一个有效的运动方向。
在水下环境中,光线会受到影响,在光线传播过程中发生散射和吸收。这两种现象最终形成衰减的现象,散射也会降低图像的质量,通过添加有噪声的信息形成。前向散射当来自场景的光线分散在小角度到达图像平面,产生模糊效果关于形象,降低了对比度,在水下介质中,在每个颜色通道中,λ∈{r,g,b}:
其中是直接分量(信号),/>是前向散射分量和/>后向散射分量。忽略最终图像中的第二分量的影响:
a)直接分量:直接分量表示到达摄像机的光的量;定义为:
其中Jλ(x)是退化信号,即衰减信号,称为透射t(x)。
b)后向散射分量:后向散射分量可以定义为:
其中一个是表示颜色的遮光灯。介质的辐射特性。这个常数与视线上的水的体积有关。此外,该常数被深度改变并受光源影响。(1×T(x))部分将后向散射的效果作为场景对象与摄像机之间的深度差D(x)的函数。随着距离越高,最终图像上的α的影响就越大。
c)最终模型:通过应用获得最终模型第3条和第4条在公式2中产生:
Iλ(x)=Jλ(x)t(x)+Aλ(1-t(x)) (6)
该模型常用于图像复原方法,Jλ(x)包含图像信息没有降解,更为重要的是t(x),因为它与深度的关系。卷积神经网络提供了一个估计值。
进一步,步骤S101中,所述估计水下传输图,在水下环境中,是计算物体相对深度的重要步骤。卷积神经网络模型基于相同原理,但有不同的拓扑结构。通过场景的先验知识估计深度D,估计视频图像中的每个图像的传输。值在区间[0;1]中,被用来估计图像中对象的相对深度。主要是处理模糊图像,图像的数据是专门组成的。通过水下混浊的图像。因此,设计的模型需要学习,水下浑浊图像斑的关系它们各自的透射图。
1)体系结构和层设计:
深度神经网络由六层组成,前四层被分为两对非对称卷积,接着是一个池和一个卷积层。卷积神经网络体系结构显示层和生成的特征映射。在每一组特征图之间示出具有层类型和内核大小的层,卷积层数即卷积的数目。
为了提高计算效率,采用非对称核对替换正平方核,这些核产生相同的结果,具有较小的计算负担和内存使用。目标是将原来的16×16贴片转换为一个值,因此不需要任何填充就可以应用卷积。此外,使用汇总层总结在相同的特征图中的相邻神经元组中存储的信息。
通常,神经元输出是用双曲模型建模的,由于激活函数输出的值为大于零,传输限制为1,在此将激活输出限制为间隔中的一个数(0,1)。将激活函数定义了输出的上限和下限,函数定义如下:
A(x)=min(tmax,max(tmin,t(x))) (7)
其中A(x)是输入的输出神经元的激活函数,t(x)是最后一个卷积层的输出。tmin和tmax分别为下限值和上限值,本算法中,设置为0和1。
2)数据采集与模型训练:
可行性采集和标注数据训练深度神经网络效率普遍偏低。混浊图像对采集要求并且它们相关的精确传输图阻碍了用真实数据训练模型的能力。假设沿补丁的深度是恒定的,可以估计每个图像只有一个传输,而不需要知道它的深度图。遵循这一原则,认识逆境收集数据后,生成合成数据。
采用反向传播算法来计算。相对于模型参数的梯度来优化。该模型用256个方块的批次训练,在处理每个批次之后,将输出与地面真值进行比较,并利用距离函数计算损失函数L如下:
其中yi是传递函数的f(xi)的输出值。最后,使用优化器重新调整权重,重复这个过程。为了减少损失L,将该模型应用于水下混浊图像对网络进行了训练。分析图像中的每个贴片步履蹒跚。
进一步,步骤S102中,所述目标运动估计的方向和控制方案包括:
1)运动方向:
先建立AUV和摄像机的模型,在此基础上,根据先验知识定义一个形状来描述AUV的轮廓图像,然后分析传输图,在图像中找到最佳的位置来适应形状。在本发明中由像素包围的像素的最低传输平均值形状,该方法使用矩形形状找到位置。由于其计算负担小,可以计算运动方向:
di=arg min(Sp*t(x)) (9)
当di是逃生的方向时,Sp定义经验形状,t(x)是传输因素,本发明将俯仰角设置为向上方向,计算当前和先前有效值之间的平均值,以避免突然变化和平滑AUV运动。
2)无功控制器:
跟踪方向定义为Di=(Dx,Dy)。推进器角度基于位置误差E=(Ex,Ey,Ez),根据图像C=(Cx+Cy)的中心进行以下方程计算:
Ex=DROL
其中DROL是选定的平均深度,本发明为每个AUV的自由度实现了一个无功控制器,控制器估计升沉、偏振运动和偏航旋转:
us=Kps·Ex
uy=Kpy·Ey
uh=Kph·Ez (11)
其中Kps、Kpy和Kph是各自的比例收益。
下面结合具体实施例对本发明的应用原理作进一步描述。
实施例:
(1)深度学习体系结构
基于深度学习的目标识别优于传统机器学习与匹配大数据的情况下。深度学习是一种卷积神经网络(CNN),它具有由卷积层、轮询层和完全连接层组成的深度层。
神经网络最常用的结构如图2所示,由三层组成,称为输入层、隐层和输出层,每个层由一个或多个由小圆圈表示的节点组成。节点之间的窄线表示从一个节点到下一个节点的信息流。输出层具有四个节点,在对象分类的情况下有四个分类。隐藏层和输出层中的节点称为主动节点,而输入层中的节点称为被动节点。来自输入层的每个值被复制并发送到所有隐藏节点。被称为完全互连结构。如图3所示,主动节点的输出是由输入xi、权重wi和偏置B组成的SigMID函数。
本发明使用了基于如何找出卷积视觉网络中的最佳局部稀疏结构如何逼近和覆盖可用的密集分量。
(2)AUV控制系统
本发明通过估计水下传输图,利用单眼彩色摄像机提供的图像神经网络。传输图可以理解为场景中物体的相对深度。从视频序列中输入图像,采用深度学习来估计传输图,提供一个有效的运动方向。过程如图4所示。
1)图像形成背景
在水下环境中,光线会受到影响,在光线传播过程中发生散射和吸收。这两种现象最终形成了衰减的现象,散射也会降低图像的质量,通过添加有噪声的信息形成。前向散射当来自场景的光线分散在小角度到达图像平面,产生模糊效果关于形象,降低了对比度,在水下介质中,在每个颜色通道中,λ∈{r,g,b}:
其中是直接分量(信号),/>是前向散射分量和/>后向散射分量。如前所述,可以忽略最终图像中的第二分量的影响:
a)直接分量:直接分量表示到达摄像机的光的量;定义为:
其中Jλ(x)是退化信号,即衰减信号,称为透射t(x)。
b)后向散射分量:后向散射分量可以定义为:
其中一个是表示颜色的遮光灯。介质的辐射特性。这个常数与视线上的水的体积有关。此外,该常数被深度改变并受光源影响。(1×T(x))部分将后向散射的效果作为场景对象与摄像机之间的深度差D(x)的函数。随着距离越高,最终图像上的α的影响就越大。
c)最终模型:通过应用获得最终模型第3条和第4条在公式2中产生:
Iλ(x)=Jλ(x)t(x)+Aλ(1-t(x)) (6)
该模型常用于图像复原方法,Jλ(x)包含图像信息没有降解,更为重要的是t(x),因为它与深度的关系。卷积神经网络提供了一个估计值。
2)传输估计
通过场景的先验知识估计深度D,估计视频图像中的每个图像的传输。值在区间[0;1]中,被用来估计图像中对象的相对深度。在水下环境中,传输估计是计算物体相对深度的重要步骤。可以用来估计传输。卷积神经网络模型基于相同原理,但有不同的拓扑结构。本发明主要是处理模糊图像,图像的数据是专门组成的。通过水下混浊的图像。因此,本发明设计的模型需要学习,水下浑浊图像斑的关系它们各自的透射图。
a)体系结构和层设计:
在图5中是深度神经网络体系结构。网络由六层组成,前四层被分为两对非对称卷积,接着是一个池和一个卷积层。卷积神经网络体系结构显示层和生成的特征映射。在每一组特征图之间示出具有层类型和内核大小的层,卷积层数即卷积的数目。
为了提高计算效率,采用非对称核对替换正平方核,这些核产生相同的结果,具有较小的计算负担和内存使用。目标是将原来的16×16贴片转换为一个值,不需要任何填充就可以应用卷积。此外,使用汇总层总结在相同的特征图中的相邻神经元组中存储的信息。
通常,神经元输出是用双曲模型建模的,由于激活函数输出的值为大于零,传输限制为1,将激活输出限制为间隔中的一个数(0,1)。因此,本发明将激活函数定义了输出的上限和下限,函数定义如下:
A(x)=min(tmax,max(tmin,t(x))) (7)
其中A(x)是输入的输出神经元的激活函数,t(x)是最后一个卷积层的输出。tmin和tmax分别为下限值和上限值,在本发明算法中,设置为0和1。
b)数据采集与模型训练:
可行性采集和标注数据训练深度神经网络效率普遍偏低。混浊图像对采集要求并且它们相关的精确传输图阻碍了用真实数据训练模型的能力。本发明假设沿补丁的深度是恒定的,可以估计每个图像只有一个传输,而不需要知道它的深度图。遵循这一原则,认识逆境收集数据后,本发明生成合成数据。第一,收集一套680幅清晰的水下图像并进行了分割。它们在许多16×16块。在每一个,模拟了随机产生的散射介质。传输,限制在0和1之间。结果是一个数据。由1000000个混浊的水下图像组成的集合它们各自的地面真实性,即模拟传输,其中800000用于培训,100000用于验证。100000用于测试。这种划分是为了避免过度拟合。
本发明采用反向传播算法来计算。相对于模型参数的梯度来优化。该模型用256个方块的批次训练,在处理每个批次之后,将输出与地面真值进行比较,并利用距离函数计算损失函数L如下:
其中yi是传递函数的f(xi)的输出值。最后,使用优化器重新调整权重,重复这个过程。为了减少损失L。将该模型应用于水下混浊图像对网络进行了训练。分析图像中的每个贴片步履蹒跚。这个过程使空间维度减少了16像素,同时也达到了图像的宽度和高度。由于每个正方形贴片成为一个像素,正在分析每个像素的环境,并估计像素的传输为图像中的每个像素。
3)目标运动估计的方向和控制方案
a)运动方向:
为了找到运动方向,必须要先建立的AUV和摄像机的模型,在此基础上,根据先验知识定义一个形状来描述AUV的轮廓图像,然后分析传输图,在图像中找到最佳的位置来适应形状。在本发明中由像素包围的像素的最低传输平均值形状,该方法使用矩形形状找到位置。由于其计算负担小。可以计算运动方向:
di=arg min(Sp*t(x)) (9)
当di是逃生的方向时,Sp就是定义我们的经验形状,t(x)是传输因素,本发明是将俯仰角设置为向上方向,计算当前和先前有效值之间的平均值,以避免突然变化和平滑AUV运动。
b)无功控制器:
本发明中跟踪方向定义为Di=(Dx,Dy)。推进器角度基于位置误差E=(Ex,Ey,Ez),根据图像C=(Cx+Cy)的中心进行以下方程计算:
Ex=DROL
其中DROL是选定的平均深度,本发明为每个AUV的自由度实现了一个无功控制器,控制器估计升沉、偏振运动和偏航旋转:
us=Kps·Ex
uy=Kpy·Ey
uh=Kph·Ez (11)
其中Kps、Kpy和Kph是各自的比例收益。
本发明提出了一种实时目标跟踪方法。适用于小型单体水下机器人的一种方法单目照相机,通过估计使用深度神经网络的传输图,以确定目标方位。水下图像携带相关信息介质效应与物体深度的关系和深度。本发明利用这个属性估计相对深度图。基于这些信息,控制机器人的运动方向。该方向由先前基于机器人的尺寸和摄像机特性确定的区域中的最高距离平均值确定。跟踪方法还提出了一种新方法深度神经网络拓扑估计输入图像的传输图。考虑估计的传输图可以是用于解决跟踪问题,神经网络的使用估计传输图提供更好的结果,在实验中发现,水下和朦胧图像呈现相似性,AUV在水下场景中使用神经网络来估计一个水下场景中的传输图,估计通过网络获得的传输图可以用于确定的运动方向。
本发明以“水下机器人目标跟踪方法”为对象,使用深度学习算法的自主水下航行器(AUV)配备单目相机,创造性引入基于深度学习的单目视觉水下机器人目标跟踪方法,对于每个输入图像,使用深度神经网络来计算传输图,可以理解为相对深度图。对图像的每个贴片估计透射图,以确定目标。
现阶段水下图像增强技术通常划分成图像空间域增强与图像频率域增强两种。基于空域增强的处理方法有对比度拉伸、直方图均衡化、图像锐化与边缘处理。基于频域加强的常用方法主要有小波变换和同态滤波等。本发明采用深度学习的水下机器人单目视觉目标跟踪新方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习和单目视觉的水下机器人目标跟踪方法,其特征在于,所述基于深度学习和单目视觉的水下机器人目标跟踪方法包括:
步骤一,从视频序列中输入图像,对于每个输入图像,使用深度学习神经网络来估计水下传输图,确定目标方位;
步骤二,通过网络获得的传输图,建立目标运动估计的方向和控制方案;
步骤一中的深度学习是卷积神经网络CNN,由卷积层、轮询层和完全连接层组成的深度层;
步骤一中通过估计水下传输图,利用单眼彩色摄像机提供的图像神经网络;传输图为场景中物体的相对深度;从视频序列中输入图像,采用深度学习估计传输图,提供一个有效的运动方向;在水下介质中,在每个颜色通道中,λ∈{r,g,b}:
其中是直接分量信号,/>是前向散射分量,/>是后向散射分量;忽略最终图像中的第二分量的影响:
a)直接分量:直接分量表示到达摄像机的光的量;定义为:
其中Jλ(x)是退化信号,即衰减信号,称为透射t(x);
b)后向散射分量:后向散射分量定义为:
其中一个是表示颜色的遮光灯;介质的辐射特性;常数与视线上的水的体积有关;此外,该常数被深度改变并受光源影响;1×T(x)部分将后向散射的效果作为场景对象与摄像机之间的深度差D(x)的函数;随着距离越高,最终图像上的α的影响就越大;
c)最终模型:通过应用获得最终模型和/>在公式中产生:
Iλ(x)=Jλ(x)t(x)+Aλ(1-t(x))。
2.如权利要求1所述的基于深度学习和单目视觉的水下机器人目标跟踪方法,其特征在于,步骤一中估计水下传输图,通过场景的先验知识估计深度D,估计视频图像中的每个图像的传输值在区间[0,1]中,估计图像中对象的相对深度;
1)采用非对称核对替换正平方核目标是将原来的16×16贴片转换为一个值,不需要任何填充就可以应用卷积;此外,使用汇总层总结在相同的特征图中的相邻神经元组中存储的信息;
神经元输出是用双曲模型建模,由于激活函数输出的值为大于零,传输限制为1,在此将激活输出限制为间隔中的一个数(0,1);将激活函数定义了输出的上限和下限,函数定义如下:
A(x)=min(tmax,max(tmin,t(x)));
其中A(x)是输入的输出神经元的激活函数,t(x)是最后一个卷积层的输出;tmin和tmax分别为下限值和上限值,设置为0和1;
2)数据采集与模型训练:
可行性采集和标注数据训练深度神经网络效率普遍偏低;混浊图像对采集要求并且它们相关的精确传输图阻碍了用真实数据训练模型的能力;假设沿补丁的深度是恒定的,估计每个图像只有一个传输;遵循这一原则,收集数据后,生成合成数据;
采用反向传播算法来计算;相对于模型参数的梯度来优化;该模型用256个方块的批次训练,在处理每个批次之后,将输出与地面真值进行比较,并利用距离函数计算损失函数L如下:
其中yi是传递函数的f(xi)的输出值;最后,使用优化器重新调整权重,重复这个过程;为了减少损失L,将该模型应用于水下混浊图像对网络进行了训练;分析图像中的每个贴片运动方式。
3.如权利要求1所述的基于深度学习和单目视觉的水下机器人目标跟踪方法,其特征在于,步骤二中目标运动估计的方向和控制方案包括:
1)运动方向:
先建立AUV和摄像机的模型,在此基础上,根据先验知识定义一个形状来描述AUV的轮廓图像,然后分析传输图,在图像中找到最佳的位置来适应形状;在本发明中由像素包围的像素的最低传输平均值形状,该方法使用矩形形状找到位置;由于其计算负担小,计算运动方向:
di=argmin(Sp*t(x));
当di是逃生的方向时,Sp定义经验形状,t(x)是传输因素,将俯仰角设置为向上方向,计算当前和先前有效值之间的平均值;
2)无功控制器:
跟踪方向定义为Di=(Dx,Dy);推进器角度基于位置误差E=(Ex,Ey,Ez),根据图像C=(Cx+Cy)的中心进行以下方程计算:
Ex=DR0L
其中DROL是选定的平均深度,为每个AUV的自由度实现了一个无功控制器,控制器估计升沉、偏振运动和偏航旋转:
us=Kps·Ex
uy=Kpy·Ey
uh=Kph·Ez
其中Kps、Kpy和Kph是各自的比例收益。
4.一种应用权利要求1~3任意一项所述基于深度学习和单目视觉的水下机器人目标跟踪方法的水下机器人。
CN201910474803.3A 2019-06-03 2019-06-03 一种基于深度学习和单目视觉的水下机器人目标跟踪方法 Active CN110246151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910474803.3A CN110246151B (zh) 2019-06-03 2019-06-03 一种基于深度学习和单目视觉的水下机器人目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910474803.3A CN110246151B (zh) 2019-06-03 2019-06-03 一种基于深度学习和单目视觉的水下机器人目标跟踪方法

Publications (2)

Publication Number Publication Date
CN110246151A CN110246151A (zh) 2019-09-17
CN110246151B true CN110246151B (zh) 2023-09-15

Family

ID=67885866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910474803.3A Active CN110246151B (zh) 2019-06-03 2019-06-03 一种基于深度学习和单目视觉的水下机器人目标跟踪方法

Country Status (1)

Country Link
CN (1) CN110246151B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675341B (zh) * 2019-09-18 2022-11-15 哈尔滨工程大学 一种单目光视觉引导的水下机器人与海底平台对接方法
CN111340868B (zh) * 2020-02-26 2023-06-02 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN111413698A (zh) * 2020-03-04 2020-07-14 武汉理工大学 一种面向水下机器人搜寻探摸的目标定位方法
CN111915678B (zh) * 2020-07-17 2021-04-27 哈尔滨工程大学 一种基于深度学习的水下单目视觉目标深度定位融合估计方法
CN112184765B (zh) * 2020-09-18 2022-08-23 西北工业大学 一种用于水下航行器的自主跟踪方法
CN113538522B (zh) * 2021-08-12 2022-08-12 广东工业大学 一种用于腹腔镜微创手术的器械视觉跟踪方法
CN114965918A (zh) * 2022-04-20 2022-08-30 重庆两江生态渔业发展有限公司 一种基于卫星遥感图像的水质分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909008A (zh) * 2017-10-29 2018-04-13 北京工业大学 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法
CN108536157A (zh) * 2018-05-22 2018-09-14 上海迈陆海洋科技发展有限公司 一种智能水下机器人及其系统、物标跟踪方法
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909008A (zh) * 2017-10-29 2018-04-13 北京工业大学 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法
CN108536157A (zh) * 2018-05-22 2018-09-14 上海迈陆海洋科技发展有限公司 一种智能水下机器人及其系统、物标跟踪方法
CN109240091A (zh) * 2018-11-13 2019-01-18 燕山大学 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法

Also Published As

Publication number Publication date
CN110246151A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110246151B (zh) 一种基于深度学习和单目视觉的水下机器人目标跟踪方法
Han et al. Underwater image processing and object detection based on deep CNN method
CN108986136B (zh) 一种基于语义分割的双目场景流确定方法及系统
WO2020151109A1 (zh) 基于点云带权通道特征的三维目标检测方法及系统
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN112819772B (zh) 一种高精度快速图形检测识别方法
CN103996201A (zh) 一种基于改进梯度和自适应窗口的立体匹配方法
CN108010075B (zh) 一种基于多特征联合的局部立体匹配方法
CN112818925A (zh) 一种城市建筑和树冠识别方法
CN115147709B (zh) 一种基于深度学习的水下目标三维重建方法
CN112561996A (zh) 一种自主水下机器人回收对接中目标检测方法
CN112329615A (zh) 一种用于水下视觉目标自主抓取的环境态势评估方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
Unnikrishnan et al. Robust extraction of multiple structures from non-uniformly sampled data
CN102592290A (zh) 一种针对水下显微视频的运动目标区域检测方法
Hirner et al. FC-DCNN: A densely connected neural network for stereo estimation
Hamid et al. Stereo matching algorithm based on hybrid convolutional neural network and directional intensity difference
CN113256697B (zh) 水下场景的三维重建方法、系统、装置和存储介质
Li et al. Vision-based target detection and positioning approach for underwater robots
CN107944350B (zh) 一种基于外观和几何信息融合的单目视觉道路识别方法
CN117132651A (zh) 一种融合彩色图像和深度图像的三维人体姿态估计方法
CN112348853B (zh) 基于红外显著性特征融合的粒子滤波跟踪的方法
CN114972276A (zh) 一种车辆自动驾驶距离判断算法
Wang et al. Underwater Terrain Image Stitching Based on Spatial Gradient Feature Block.
US20240153120A1 (en) Method to determine the depth from images by self-adaptive learning of a neural network and system thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant