CN112347900A - 基于距离估计的单目视觉水下目标自动抓取方法 - Google Patents

基于距离估计的单目视觉水下目标自动抓取方法 Download PDF

Info

Publication number
CN112347900A
CN112347900A CN202011214606.7A CN202011214606A CN112347900A CN 112347900 A CN112347900 A CN 112347900A CN 202011214606 A CN202011214606 A CN 202011214606A CN 112347900 A CN112347900 A CN 112347900A
Authority
CN
China
Prior art keywords
image
network
action
underwater
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011214606.7A
Other languages
English (en)
Other versions
CN112347900B (zh
Inventor
王楠
杨学文
崔燕妮
张兴
辛国玲
胡文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202011214606.7A priority Critical patent/CN112347900B/zh
Publication of CN112347900A publication Critical patent/CN112347900A/zh
Application granted granted Critical
Publication of CN112347900B publication Critical patent/CN112347900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/14Measuring arrangements characterised by the use of optical techniques for measuring distance or clearance between spaced objects or spaced apertures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mechanical Engineering (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Robotics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,具体公开了一种基于距离估计的单目视觉水下目标自动抓取方法,包括步骤:采集水下动态场景中机械臂抓取目标时的传感器数据,包括单目图像信号与触觉感知信号;对单目图像信号进行深度估计得到深度估计图像;通过强化学习网络融合传感器数据以及深度估计图像,得到动作指令;收集对应的训练数据对强化学习网络进行优化,直至完成设定的训练次数。本发明直接采用单目图像进行强化学习训练,引入基于距离估计的测距步骤,用于进一步抽取单目图像中的深度信息,并通过强化学习网络产生对应的动作指令,再不断收集训练数据对强化学习网络进行训练和优化,从而能够明显提升机械臂水下抓取目标的效率。

Description

基于距离估计的单目视觉水下目标自动抓取方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于距离估计的单目视觉水下目标自动抓取方法。
背景技术
随着人类对海洋探索的不断深入,水下作业、海洋科学考察等活动也日益增多,人类对支撑起这些海洋探索活动的作业设备以及作业方法也提出了越来越高的要求。机械臂通常会搭载在水下机器人上完成水下作业,目前水下机械臂的控制方式,主要是通过主从伺服控制,虽然该方法已经较为成熟且已广泛应用,但是在很大程度上倚赖人类对水下场景的感知以及临场遥操作,越来越不能满足复杂高效的任务需求,如何实现水下机械臂的自主作业成为亟待解决的关键问题。
视觉是水下机器人技术中非常重要的部分,是最直观的观测技术,基于视觉引导的水下机械臂抓取控制技术的研究得到广泛关注。通常基于视觉的机械臂抓取控制技术采用的是双目视觉,通过相机标定、双目图像矫正以及立体匹配等一系列步骤得到目标物体在机械臂坐标系的位置,根据目标物体相对机械臂根坐标系的方位角、极角、末端旋转角得到机械手末端的位姿,通过逆运动学求解得出机械臂各个关节的角度信息然后驱动机械臂的抓取,但是水下环境的特殊性会影响双目的立体匹配的准确性,影响抓取效率。
发明内容
本发明提供一种基于距离估计的单目视觉水下目标自动抓取方法,解决的技术问题在于:目前基于双目视觉的水下机械臂抓取控制技术,在水下环境的影响下,其双目的立体匹配的准确性不够高,导致其抓取水下目标的效率不够高。
为解决以上技术问题,本发明提供一种基于距离估计的单目视觉水下目标自动抓取方法,包括步骤:
S1:采集水下动态场景中机械臂抓取目标时的传感器数据,所述传感器数据包括单目图像信号与触觉感知信号;
S2:对所述单目图像信号进行深度估计得到深度估计图像;
S3:通过强化学习网络融合所述传感器数据以及所述深度估计图像,得到对应的动作指令,引导机械臂进行自主抓取;
S4:重复所述步骤S1~S3,收集对应的训练数据并存储到记忆库,同时对所述强化学习网络进行优化,直至完成设定的训练次数。
在进一步的实施方式中,所述单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据;所述触觉感知信号为布尔类型数据,即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号,否则返回0的信号。
在进一步的实施方式中,所述步骤S2具体包括步骤:
S21:对所述单目图像信号对应的水下源图像I采用最大衰减识别算法进行复原处理,获得复原图像J;
S22:分别提取出所述复原图像J与所述水下源图像I的红色通道JR和IR,求取JR和IR的比值作为距离系数
Figure BDA0002759933650000021
S23:对距离系数d归一化得到深度估计图像。
在进一步的实施方式中,在所述步骤S21中,所述最大衰减识别算法具体包括步骤:
S211:估计全局背景光A;该步骤具体包括:
1)用一个窗口大小可调的最大值滤波器对所述水下源图像I的R通道进行滤波,得到对应的深度图像;
2)在每个图像块对应的深度图像中找到亮度最低的10%的像素点对应到其水下源图像I中,根据这些像素点得到每个图像块的背景光,图像块的个数为m×n,优选为2×2;
3)整合所有图像块的背景光,以估计R通道的全局背景光AR(x);
4)与R通道相同原理和步骤地,估计所述水下源图像I的G通道的全局背景光AG(x)和B通道的全局背景光AB(x);
S212:估计传播系数ξ;该步骤具体包括:
1)根据
Figure BDA0002759933650000031
估计所述水下源图像的R通道的传播系数ξR(x),其中Ω(x)代表局部区域,y代表所述局部区域中像素点的位置,IR(y)代表R通道对应像素点的像素值;
2)与R通道相同原理和步骤地,计算所述水下源图像的G通道的传播系数ξG(x)和B通道的传播系数ξB(x);
S213:根据水下光传播模型I(x)=J(x)ξ(x)+B(1-ξ(x))得到复原图像J,x为水下源图像I及复原图像J中像素的位置;在进一步的实施方式中,所述步骤S3具体包括步骤:
S31:将所述传感器数据与所述深度估计图像输入到DQN网络中,估计每个动作的Q值;
S32:通过ε-greedy算法选取当前状态对应的动作;
S33:根据步骤S32选取的动作控制机械臂进行自主抓取。
在进一步的实施方式中,在所述步骤S31中,所述DQN网络包括估计Q网络和目标Q网络;
所述估计Q网络的结构包括:
第一卷积神经网络,由第一卷积层、第一池化层与第一全连接层组成,用于提取所述单目图像信号的特征向量;
第二卷积神经网络,由第二卷积层、第二池化层与第二全连接层组成,用于提取所述深度估计图像的特征向量;
所述单目图像信号的特征向量、所述深度估计图像的特征向量以及所述触觉感知信号通过一个全连接网络进行信息融合,得到每个离散动作的Q值;
所述目标Q网络与所述估计Q网络具有相同的网络结构,所述估计Q网络的参数表示为θ,所述目标Q网络的参数表示为θ-
在进一步的实施方式中,在所述步骤S32中,所述ε-greedy算法描述为:
Figure BDA0002759933650000041
其中,ε为探索率,0<ε<1,|A|代表所有可选择的动作数目,S表示当前状态,a表示对应当前状态S的动作集合,Q(S,a)代表当前状态S与动作集合a所对应的Q值集合,a*表示Q值集合Q(S,a)中最大的Q值所对应的动作,π(a|S)表示当前的状态S下选取a的策略;
所述步骤S32具体为:
每次选取一个0到1的随机数,如果这个数大于ε则选择Q值集合Q(S,a)中的最大Q值所对应的动作,否则,从可选择的动作中随机选取动作;随着训练次数的增加,从高到低不断减小ε的值,直至减小到≤0.001,然后保持不变。
在进一步的实施方式中,在所述步骤S4中,所述训练数据为机械臂控制过程中采集到的四元组数据<S,A,R,S′>,其中:
S表示当前状态,为当前执行步骤S1得到的传感器数据和执行步骤S2得到的深度估计图像;
A表示选取的动作,为由当前状态S执行步骤S3得到的动作;
R表示获得的奖励,为在当前状态S时采取动作A环境给出的奖励;
S′表示下一个状态,为执行动作A之后重新执行步骤S1和S2,得到的下一传感器数据和下一深度估计图像。
在进一步的实施方式中,所述奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值,其公式表示为:
Figure BDA0002759933650000042
其中,(xe,ye,ze)为机械臂夹爪末端执行器的三维坐标,(xt,yt,zt)为目标的三维坐标。
在进一步的实施方式中,在所述步骤S4中,对所述强化学习网络进行优化的步骤包括:
S41:从记忆库中随机抽取M个样本数据,即M个四元组<S,A,R,S′>;
S42:将M个样本数据中的当前状态S输入到所述估计Q网络中得到当前状态S与其动作集合a所对应的Q值集合Q(S,a|θ);
S43:根据M个样本中的动作A提取出S42中与动作A相对应的Q值集合Q(S,A);
S44:将M个样本中的下一个状态S′输入到所述目标Q网络中得到每个下一个状态S′与其动作集合a′所对应的Q值集合Q(S′,a′|θ-);
S45:计算目标Q值集合,第i个样本的目标Q值公式为:
Figure BDA0002759933650000051
其中,Ri为第i个样本中的奖励值,γ为折扣因子,θ-为所述目标Q网络的参数,Si′为第i个样本中的下一个状态,a′i为将Si′输入到所述Q目标网络中得到的动作的集合;
S46:计算M个样本的TD-error;该步骤具体包括:
1)求取M个样本中每个样本的TD-error,M个样本中第i个样本的TD-error定义为Li=(yi-Q(Si,Ai|θ))2,yi为第i个样本求得的目标Q值,Q(Si,Ai|θ)为第i个样本所对应的当前状态Si输入到所述估计Q网络得到的当前状态Si与其动作Ai所对应的Q值;
2)根据L=E[Li]求取M个样本的TD-error的均值,以此作为M个样本的TD-error;
S47:通过最小化M个样本的TD-error更新所述估计Q网络的参数,延时更新所述目标Q网络的参数。
本发明提供的一种基于距离估计的单目视觉水下目标自动抓取方法,直接采用单目图像进行强化学习训练,并针对从单目图像中无法直接获取目标的空间位置信息,造成抓取效率低下等问题,引入一个基于距离估计的测距步骤,用于进一步抽取单目图像中的深度信息,并通过强化学习网络产生对应的动作指令,再不断收集训练数据对强化学习网络进行训练和优化,从而能够明显提升机械臂水下抓取目标的效率。
附图说明
图1是本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法的步骤流程图;
图2是本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法所应用系统的模块结构图;
图3是本发明实施例提供的图2所示系统的工作流程图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
为提升水下机器人抓取目标的效率,本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法,其步骤流程如图1所示,主要包括步骤S1~S5。
(1)步骤S1
S1:采集水下动态场景中机械臂抓取目标时的传感器数据,传感器数据包括单目图像信号与触觉感知信号。
其中,单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据;触觉感知信号为布尔类型数据,即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号,否则返回0的信号。
(2)步骤S2
S2:对单目图像信号进行深度估计得到深度估计图像。
作为一种优选的实施方式,本实施例利用红光在水下衰减的特点来实现距离估计,步骤S2具体包括步骤:
S21:对单目图像信号对应的水下源图像I采用最大衰减识别算法进行复原处理,获得复原图像J;
S22:分别提取出复原图像J与水下源图像I的红色通道JR和IR,求取JR和IR的比值作为距离系数
Figure BDA0002759933650000071
S23:对距离系数d归一化得到深度估计图像。
其中,在步骤S21中,最大衰减识别算法具体包括步骤:
S211:估计全局背景光A;该步骤具体包括:
1)用一个窗口大小可调的最大值滤波器对所述水下源图像I的R通道进行滤波,得到对应的深度图像;
2)为了获取更为准确的背景光本发明采用图像分块的方法,在每个图像块对应的深度图像中找到亮度最低的10%的像素点对应到其水下源图像I中,根据这些像素点得到每个图像块的背景光,推荐图像块的个数为2×2;
3)整合所有图像块的背景光,以估计R通道的全局背景光AR(x);
4)与R通道相同原理和步骤地,估计所述水下源图像I的G通道的全局背景光AG(x)和B通道的全局背景光AB(x);
S212:估计传播系数ξ;该步骤具体包括:
1)根据
Figure BDA0002759933650000072
估计所述水下源图像的R通道的传播系数ξR(x),其中Ω(x)代表局部区域,y代表所述局部区域中像素点的位置,IR(y)代表R通道对应像素点的像素值;
2)与R通道相同原理和步骤地,计算所述水下源图像的G通道的传播系数ξG(x)和B通道的传播系数ξB(x);
S213:根据估计的全局背景光A和对应的传播系数ξ,基于水下光传播模型I(x)=J(x)ξ(x)+B(1-ξ(x))得到复原图像J,x为水下源图像I及复原图像J中像素的位置。
还需要说明的是,
Figure BDA0002759933650000081
的推算过程为:
经典的光照散射模型如式:I(x)=J(x)ξ(x)+A(x)(1-ξ(x)),由于水体对不同颜色光的吸收和散射系数不同,因此在水下的衰减也不同,所以R、G、B三种颜色的传播系数分开考虑,得到:
IR(x)=JR(x)ξR(x)+AR(x)(1-ξR(x))
IG(x)=JG(x)ξG(x)+AG(x)(1-ξG(x))
IB(x)=JB(x)ξB(x)+AB(x)(1-ξB(x))
对上述公式两边在局部区域Ω(x)上取最大值,假设传播系数ξ(x)背景光A(x)在局部区域Ω(x)中保持一致,得到:
Figure BDA0002759933650000082
Figure BDA0002759933650000083
Figure BDA0002759933650000084
以R通道为例,继续转化:
Figure BDA0002759933650000085
然后,两边同除1-AR(x)得到:
Figure BDA0002759933650000086
进一步转化:
Figure BDA0002759933650000087
考虑到近距离的衰减,通常水下背景光A是比较暗的,特别是在深海中,同时,在合适的窗口大小下,目标离相机越接近,目标区域越明亮,J的最大值越近似于1,此时,
Figure BDA0002759933650000091
(3)步骤S3
S3:通过强化学习网络融合传感器数据以及深度估计图像,得到对应的动作指令,引导机械臂进行自主抓取。
步骤S3中强化学习网络有多种可选择的方案,作为一种优选的实施方式,本发明采用DQN的网络模型,步骤S3具体包括步骤:
S31:将传感器数据与深度估计图像输入到DQN网络中,估计每个动作的Q值;
S32:通过ε-greedy算法选取当前状态对应的动作;
S33:根据步骤S32选取的动作控制机械臂进行自主抓取。
其中,在步骤S31中,DQN网络包括估计Q网络和目标Q网络;
估计Q网络的结构包括:
第一卷积神经网络,由第一卷积层、第一池化层与第一全连接层组成,用于提取单目图像信号的特征向量;
第二卷积神经网络,由第二卷积层、第二池化层与第二全连接层组成,用于提取深度估计图像的特征向量;
单目图像信号的特征向量、深度估计图像的特征向量以及触觉感知信号通过一个全连接网络(包括多个全连接层)进行信息融合,得到每个离散动作的Q值;
目标Q网络与估计Q网络具有相同的网络结构,估计Q网络的参数表示为θ,目标Q网络的参数表示为θ-
在步骤S32中,ε-greedy算法描述为:
Figure BDA0002759933650000092
其中,ε为探索率,0<ε<1,|A|代表所有可选择的动作数目,S表示当前状态,a表示对应当前状态S的动作集合,Q(S,a)代表当前状态S与动作集合a所对应的Q值集合,a*表示Q值集合Q(S,a)中最大的Q值所对应的动作,π(a|S)表示当前的状态S下选取a的策略;
步骤S32具体为:
每次选取一个0到1的随机数,如果这个数大于ε则选择Q值集合Q(S,a)中的最大Q值所对应的动作,否则,从可选择的动作中随机选取动作;随着训练次数的增加,从高到低不断减小ε的值,直至减小到≤0.001(本实施例设定减小到0.001),然后保持不变。
(4)步骤S4
S4:重复步骤S1~S3,收集对应的训练数据并存储到记忆库,同时对强化学习网络进行优化,直至完成设定的训练次数。
在本步骤S4中,训练数据为机械臂控制过程中采集到的四元组数据<S,A,R,S′>,其中:
S表示当前状态,为当前执行步骤S1得到的传感器数据和执行步骤S2得到的深度估计图像;
A表示选取的动作,为由当前状态S执行步骤S3得到的动作;
R表示获得的奖励,为在当前状态S时采取动作A环境给出的奖励;
S′表示下一个状态,为执行动作A之后重新执行步骤S1和S2,得到的下一传感器数据和下一深度估计图像。
奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值,其公式表示为:
Figure BDA0002759933650000101
其中,(xe,ye,ze)为机械臂夹爪末端执行器的三维坐标,(xt,yt,zt)为目标的三维坐标。
在本步骤S4中,对强化学习网络进行优化的步骤包括:
S41:从记忆库中随机抽取M个样本数据,即M个四元组<S,A,R,S′>;
S42:将M个样本数据中的当前状态S输入到估计Q网络中得到当前状态S与其动作集合a所对应的Q值集合Q(S,a|θ);
S43:根据M个样本中的动作A提取出S42中与动作A相对应的Q值集合Q(S,A);
S44:将M个样本中的下一个状态S′输入到目标Q网络中得到每个下一个状态S′与其动作集合a′所对应的Q值集合Q(S′,a′|θ-);
S45:计算目标Q值,第i个样本的目标Q值公式为:
Figure BDA0002759933650000111
其中,Ri为第i个样本中的奖励值,γ为折扣因子(一般设置为接近1的值,本实施例设置为0.95),θ-为目标Q网络的参数,Si′为第i个样本中的下一个状态,a′i为将Si′输入到所述Q目标网络中得到的动作的集合;
S46:计算M个样本的TD-error;该步骤具体包括:
1)求取M个样本中每个样本的TD-error,M个样本中第i个样本的TD-error定义为Li=(yi-Q(Si,Ai|θ))2,yi为第i个样本求得的目标Q值,Q(Si,Ai|θ)为第i个样本所对应的当前状态Si输入到所述估计Q网络得到的当前状态Si与其动作Ai所对应的Q值;
2)根据L=E[Li]求取M个样本的TD-error的均值,以此作为M个样本的TD-error;
S47:通过最小化M个样本的TD-error更新所述估计Q网络的参数,延时更新所述目标Q网络的参数。
(5)步骤S5
使用训练好的强化学习网络进行水下机械臂的抓取控制。
本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法,直接采用单目图像进行强化学习训练,并针对从单目图像中无法直接获取目标的空间位置信息,造成抓取效率低下等问题,引入一个基于距离估计的测距步骤,用于进一步抽取单目图像中的深度信息,并通过强化学习网络产生对应的动作指令,再不断收集训练数据对强化学习网络进行训练和优化,从而能够明显提升机械臂水下抓取目标的效率。
本实施例还提供一种基于距离估计的单目视觉水下目标自动抓取系统,对应于步骤S1~S5的方法,如图2所示,包括数据采集模块、深度估计模块、抓取控制模块。如图3所示,数据采集模块用于执行上述步骤S1,深度估计模块用于执行上述步骤S2,抓取控制模块用于执行上述步骤S3。深度估计模块还用于接收步骤S4对其的优化。数据采集模块、深度估计模块、抓取控制模块还用于执行步骤S5,用于实际水下机器人的抓取控制。关于各个模块所执行功能的细节,步骤S1~S5已经作了详细介绍,在本系统中不再介绍。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,包括步骤:
S1:采集水下动态场景中机械臂抓取目标时的传感器数据,所述传感器数据包括单目图像信号与触觉感知信号;
S2:对所述单目图像信号进行深度估计得到深度估计图像;
S3:通过强化学习网络融合所述传感器数据以及所述深度估计图像,得到对应的动作指令,引导机械臂进行自主抓取;
S4:重复所述步骤S1~S3,收集对应的训练数据并存储到记忆库,同时对所述强化学习网络进行优化,直至完成设定的训练次数。
2.如权利要求1所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,所述单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据;所述触觉感知信号为布尔类型数据,即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号,否则返回0的信号。
3.如权利要求2所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,所述步骤S2具体包括步骤:
S21:对所述单目图像信号对应的水下源图像I采用最大衰减识别算法进行复原处理,获得复原图像J;
S22:分别提取出所述复原图像J与所述水下源图像I的红色通道JR和IR,求取JR和IR的比值作为距离系数
Figure FDA0002759933640000011
S23:对距离系数d归一化得到深度估计图像。
4.如权利要求3所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,在所述步骤S21中,所述最大衰减识别算法具体包括步骤:
S211:估计全局背景光A;该步骤具体包括:
1、)用一个窗口大小可调的最大值滤波器对所述水下源图像I的R通道进行滤波,得到对应的深度图像;
2、)在每个图像块对应的深度图像中找到亮度最低的10%的像素点对应到其水下源图像I中,根据这些像素点得到每个图像块的背景光,图像块的个数为m×n;
3)整合所有图像块的背景光,以估计R通道的全局背景光AR(x);
4、)与R通道相同原理和步骤地,估计所述水下源图像I的G通道的全局背景光AG(x)和B通道的全局背景光AB(x);
S212:估计传播系数ξ;该步骤具体包括:
1)根据
Figure FDA0002759933640000021
估计所述水下源图像的R通道的传播系数ξR(x),其中Ω(x)代表局部区域,y代表所述局部区域中像素点的位置,IR(y)代表R通道对应像素点的像素值;
2)与R通道相同原理和步骤地,计算所述水下源图像的G通道的传播系数ξG(x)和B通道的传播系数ξB(x);
S213:根据水下光传播模型I(x)=J(x)ξ(x)+A(1-ξ(x))得到复原图像J,x为水下源图像I及复原图像J中像素的位置。
5.如权利要求4所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,所述步骤S3具体包括步骤:
S31:将所述传感器数据与所述深度估计图像输入到DQN网络中,估计每个动作的Q值;
S32:通过ε-greedy算法选取当前状态对应的动作;
S33:根据步骤S32选取的动作控制机械臂进行自主抓取。
6.如权利要求5所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,在所述步骤S31中,所述DQN网络包括估计Q网络和目标Q网络;
所述估计Q网络的结构包括:
第一卷积神经网络,由第一卷积层、第一池化层与第一全连接层组成,用于提取所述单目图像信号的特征向量;
第二卷积神经网络,由第二卷积层、第二池化层与第二全连接层组成,用于提取所述深度估计图像的特征向量;
所述单目图像信号的特征向量、所述深度估计图像的特征向量以及所述触觉感知信号通过一个全连接网络进行信息融合,得到每个离散动作的Q值;
所述目标Q网络与所述估计Q网络具有相同的网络结构,所述估计Q网络的参数表示为θ,所述目标Q网络的参数表示为θ-
7.如权利要求6所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于:在所述步骤S32中,所述ε-greedy算法描述为:
Figure FDA0002759933640000031
其中,ε为探索率,0<ε<1,|A|代表所有可选择的动作数目,S表示当前状态,a表示对应当前状态S的动作集合,Q(S,a)代表当前状态S与动作集合a所对应的Q值集合,a*表示Q值集合Q(S,a)中最大的Q值所对应的动作,π(a|S)表示当前的状态S下选取a的策略;
所述步骤S32具体为:
每次选取一个0到1的随机数,如果这个数大于ε则选择Q值集合Q(S,a)中的最大Q值所对应的动作,否则,从可选择的动作中随机选取动作;随着训练次数的增加,从高到低不断减小ε的值,直至减小到≤0.001,然后保持不变。
8.如权利要求1或7所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,在所述步骤S4中,所述训练数据为机械臂控制过程中采集到的四元组数据<S,A,R,S′>,其中:
S表示当前状态,为当前执行步骤S1得到的传感器数据和执行步骤S2得到的深度估计图像;
A表示选取的动作,为由当前状态S执行步骤S3得到的动作;
R表示获得的奖励,为在当前状态S时采取动作A环境给出的奖励;
S′表示下一个状态,为执行动作A之后重新执行步骤S1和S2,得到的下一传感器数据和下一深度估计图像。
9.如权利要求8所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,所述奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值,其公式表示为:
Figure FDA0002759933640000041
其中,(xe,ye,ze)为机械臂夹爪末端执行器的三维坐标,(xt,yt,zt)为目标的三维坐标。
10.如权利要求8所述的基于距离估计的单目视觉水下目标自动抓取方法,其特征在于,在所述步骤S4中,对所述强化学习网络进行优化的步骤包括:
S41:从记忆库中随机抽取M个样本数据,即M个四元组<S,A,R,S′>;
S42:将M个样本数据中的当前状态S输入到所述估计Q网络中得到当前状态S与其动作集合a所对应的Q值集合Q(S,a|θ);
S43:根据M个样本中的动作A提取出所述步骤S42中与动作A相对应的Q值集合Q(S,A);
S44:将M个样本中的下一个状态S′输入到所述目标Q网络中得到每个下一个状态S′与其动作集合a′所对应的Q值集合Q(S′,a′|θ-);
S45:计算目标Q值集合,第i个样本的目标Q值公式为:
Figure FDA0002759933640000051
其中,Ri为第i个样本中的奖励值,γ为折扣因子,θ-为所述目标Q网络的参数,Si′为第i个样本中的下一个状态,a′i为将Si′输入到所述Q目标网络中得到的动作的集合;
S46:计算M个样本的TD-error;该步骤具体包括:
1)求取M个样本中每个样本的TD-error,M个样本中第i个样本的TD-error定义为Li=(yi-Q(Si,Ai|θ))2,yi为第i个样本求得的目标Q值,Q(Si,Ai|θ)为第i个样本所对应的当前状态Si输入到所述估计Q网络得到的当前状态Si与其动作Ai所对应的Q值;
2)根据L=E[Li]求取M个样本的TD-error的均值,以此作为M个样本的TD-error;
S47:通过最小化M个样本的TD-error更新所述估计Q网络的参数,延时更新所述目标Q网络的参数。
CN202011214606.7A 2020-11-04 2020-11-04 基于距离估计的单目视觉水下目标自动抓取方法 Active CN112347900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011214606.7A CN112347900B (zh) 2020-11-04 2020-11-04 基于距离估计的单目视觉水下目标自动抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011214606.7A CN112347900B (zh) 2020-11-04 2020-11-04 基于距离估计的单目视觉水下目标自动抓取方法

Publications (2)

Publication Number Publication Date
CN112347900A true CN112347900A (zh) 2021-02-09
CN112347900B CN112347900B (zh) 2022-10-14

Family

ID=74356320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011214606.7A Active CN112347900B (zh) 2020-11-04 2020-11-04 基于距离估计的单目视觉水下目标自动抓取方法

Country Status (1)

Country Link
CN (1) CN112347900B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052885A (zh) * 2021-03-29 2021-06-29 中国海洋大学 一种基于光流和深度估计的水下环境安全性评估方法
CN113420704A (zh) * 2021-06-18 2021-09-21 北京盈迪曼德科技有限公司 一种基于视觉传感器的物体识别方法、装置及机器人
CN114770461A (zh) * 2022-04-14 2022-07-22 深圳技术大学 一种基于单目视觉的移动机器人及其自动抓取方法
CN116255908A (zh) * 2023-05-11 2023-06-13 山东建筑大学 面向水下机器人的海生物定位测量装置及方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107220653A (zh) * 2017-04-11 2017-09-29 中国海洋大学 基于逻辑随机共振的水下弱目标检测系统及其方法
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
CN108415441A (zh) * 2018-03-05 2018-08-17 中国海洋大学 基于单目视觉的水下机器人目标跟随系统及其方法
CN109239661A (zh) * 2018-09-18 2019-01-18 广西大学 一种基于深度q网络的rfid室内定位系统及算法
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN111055279A (zh) * 2019-12-17 2020-04-24 清华大学深圳国际研究生院 基于触觉与视觉结合的多模态物体抓取方法与系统
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
WO2020207017A1 (zh) * 2019-04-11 2020-10-15 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
CN107220653A (zh) * 2017-04-11 2017-09-29 中国海洋大学 基于逻辑随机共振的水下弱目标检测系统及其方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN108415441A (zh) * 2018-03-05 2018-08-17 中国海洋大学 基于单目视觉的水下机器人目标跟随系统及其方法
CN109239661A (zh) * 2018-09-18 2019-01-18 广西大学 一种基于深度q网络的rfid室内定位系统及算法
WO2020207017A1 (zh) * 2019-04-11 2020-10-15 上海交通大学 农业场景无标定机器人运动视觉协同伺服控制方法与设备
CN110450153A (zh) * 2019-07-08 2019-11-15 清华大学 一种基于深度强化学习的机械臂物品主动拾取方法
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN111055279A (zh) * 2019-12-17 2020-04-24 清华大学深圳国际研究生院 基于触觉与视觉结合的多模态物体抓取方法与系统
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN111340868A (zh) * 2020-02-26 2020-06-26 大连海事大学 基于视觉深度估计的无人水下航行器自主决策控制方法
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIUXUAN WU ET AL.: "Position Control of Cable-Driven Robotic Soft Arm Based on Deep Reinforcement Learning", 《INFORMATION》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052885A (zh) * 2021-03-29 2021-06-29 中国海洋大学 一种基于光流和深度估计的水下环境安全性评估方法
CN113420704A (zh) * 2021-06-18 2021-09-21 北京盈迪曼德科技有限公司 一种基于视觉传感器的物体识别方法、装置及机器人
CN114770461A (zh) * 2022-04-14 2022-07-22 深圳技术大学 一种基于单目视觉的移动机器人及其自动抓取方法
CN114770461B (zh) * 2022-04-14 2023-12-01 深圳技术大学 一种基于单目视觉的移动机器人及其自动抓取方法
CN116255908A (zh) * 2023-05-11 2023-06-13 山东建筑大学 面向水下机器人的海生物定位测量装置及方法
CN116255908B (zh) * 2023-05-11 2023-08-15 山东建筑大学 面向水下机器人的海生物定位测量装置及方法

Also Published As

Publication number Publication date
CN112347900B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN112347900B (zh) 基于距离估计的单目视觉水下目标自动抓取方法
CN112270249B (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
CN109934864B (zh) 面向机械臂抓取位姿估计的残差网络深度学习方法
CN109800864B (zh) 一种基于图像输入的机器人主动学习方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN111079561A (zh) 一种基于虚拟训练的机器人智能抓取方法
JP2019171540A (ja) 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
CN108550162B (zh) 一种基于深度强化学习的物体检测方法
CN108986166A (zh) 一种基于半监督学习的单目视觉里程预测方法及里程计
CN110223382B (zh) 基于深度学习的单帧图像自由视点三维模型重建方法
CN112329615B (zh) 一种用于水下视觉目标自主抓取的环境态势评估方法
CN111913435A (zh) 一种基于堆积沙漏网络的单/多目标关键点定位方法
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
KR20200059111A (ko) 뉴럴 네트워크를 이용하는 파지 방법, 파지 학습 방법 및 파지 로봇
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
CN114494594B (zh) 基于深度学习的航天员操作设备状态识别方法
CN113408443B (zh) 基于多视角图像的手势姿态预测方法及系统
CN112734823B (zh) 一种基于图像的视觉伺服的雅可比矩阵深度估计方法
CN115861780B (zh) 一种基于yolo-ggcnn的机械臂检测抓取方法
CN113052885B (zh) 一种基于光流和深度估计的水下环境安全性评估方法
CN116852353A (zh) 一种基于深度强化学习的密集场景机械臂抓取多目标物体的方法
Chen et al. Anti-disturbance grabbing of underwater robot based on retinex image enhancement
CN113821108B (zh) 基于多模态交互技术的机器人远程控制系统及控制方法
CN114594768A (zh) 一种基于视觉特征图重构的移动机器人导航决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant