CN112347900A

CN112347900A - 基于距离估计的单目视觉水下目标自动抓取方法

Info

Publication number: CN112347900A
Application number: CN202011214606.7A
Authority: CN
Inventors: 王楠; 杨学文; 崔燕妮; 张兴; 辛国玲; 胡文杰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-09
Anticipated expiration: 2040-11-04
Also published as: CN112347900B

Abstract

本发明涉及计算机视觉技术领域，具体公开了一种基于距离估计的单目视觉水下目标自动抓取方法，包括步骤：采集水下动态场景中机械臂抓取目标时的传感器数据，包括单目图像信号与触觉感知信号；对单目图像信号进行深度估计得到深度估计图像；通过强化学习网络融合传感器数据以及深度估计图像，得到动作指令；收集对应的训练数据对强化学习网络进行优化，直至完成设定的训练次数。本发明直接采用单目图像进行强化学习训练，引入基于距离估计的测距步骤，用于进一步抽取单目图像中的深度信息，并通过强化学习网络产生对应的动作指令，再不断收集训练数据对强化学习网络进行训练和优化，从而能够明显提升机械臂水下抓取目标的效率。

Description

基于距离估计的单目视觉水下目标自动抓取方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于距离估计的单目视觉水下目标自动抓取方法。

背景技术

随着人类对海洋探索的不断深入，水下作业、海洋科学考察等活动也日益增多，人类对支撑起这些海洋探索活动的作业设备以及作业方法也提出了越来越高的要求。机械臂通常会搭载在水下机器人上完成水下作业，目前水下机械臂的控制方式，主要是通过主从伺服控制，虽然该方法已经较为成熟且已广泛应用，但是在很大程度上倚赖人类对水下场景的感知以及临场遥操作，越来越不能满足复杂高效的任务需求，如何实现水下机械臂的自主作业成为亟待解决的关键问题。

视觉是水下机器人技术中非常重要的部分，是最直观的观测技术，基于视觉引导的水下机械臂抓取控制技术的研究得到广泛关注。通常基于视觉的机械臂抓取控制技术采用的是双目视觉，通过相机标定、双目图像矫正以及立体匹配等一系列步骤得到目标物体在机械臂坐标系的位置，根据目标物体相对机械臂根坐标系的方位角、极角、末端旋转角得到机械手末端的位姿，通过逆运动学求解得出机械臂各个关节的角度信息然后驱动机械臂的抓取，但是水下环境的特殊性会影响双目的立体匹配的准确性，影响抓取效率。

发明内容

本发明提供一种基于距离估计的单目视觉水下目标自动抓取方法，解决的技术问题在于：目前基于双目视觉的水下机械臂抓取控制技术，在水下环境的影响下，其双目的立体匹配的准确性不够高，导致其抓取水下目标的效率不够高。

为解决以上技术问题，本发明提供一种基于距离估计的单目视觉水下目标自动抓取方法，包括步骤：

S1：采集水下动态场景中机械臂抓取目标时的传感器数据，所述传感器数据包括单目图像信号与触觉感知信号；

S2：对所述单目图像信号进行深度估计得到深度估计图像；

S3：通过强化学习网络融合所述传感器数据以及所述深度估计图像，得到对应的动作指令，引导机械臂进行自主抓取；

S4：重复所述步骤S1～S3，收集对应的训练数据并存储到记忆库，同时对所述强化学习网络进行优化，直至完成设定的训练次数。

在进一步的实施方式中，所述单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据；所述触觉感知信号为布尔类型数据，即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号，否则返回0的信号。

在进一步的实施方式中，所述步骤S2具体包括步骤：

S21：对所述单目图像信号对应的水下源图像I采用最大衰减识别算法进行复原处理，获得复原图像J；

S22：分别提取出所述复原图像J与所述水下源图像I的红色通道J^R和I^R，求取J^R和I^R的比值作为距离系数

S23：对距离系数d归一化得到深度估计图像。

在进一步的实施方式中，在所述步骤S21中，所述最大衰减识别算法具体包括步骤：

S211：估计全局背景光A；该步骤具体包括：

1)用一个窗口大小可调的最大值滤波器对所述水下源图像I的R通道进行滤波，得到对应的深度图像；

2)在每个图像块对应的深度图像中找到亮度最低的10％的像素点对应到其水下源图像I中，根据这些像素点得到每个图像块的背景光，图像块的个数为m×n，优选为2×2；

3)整合所有图像块的背景光，以估计R通道的全局背景光A^R(x)；

4)与R通道相同原理和步骤地，估计所述水下源图像I的G通道的全局背景光A^G(x)和B通道的全局背景光A^B(x)；

S212：估计传播系数ξ；该步骤具体包括：

1)根据

估计所述水下源图像的R通道的传播系数ξ^R(x)，其中Ω(x)代表局部区域，y代表所述局部区域中像素点的位置，I^R(y)代表R通道对应像素点的像素值；

2)与R通道相同原理和步骤地，计算所述水下源图像的G通道的传播系数ξ^G(x)和B通道的传播系数ξ^B(x)；

S213：根据水下光传播模型I(x)＝J(x)ξ(x)+B(1-ξ(x))得到复原图像J，x为水下源图像I及复原图像J中像素的位置；在进一步的实施方式中，所述步骤S3具体包括步骤：

S31：将所述传感器数据与所述深度估计图像输入到DQN网络中，估计每个动作的Q值；

S32：通过ε-greedy算法选取当前状态对应的动作；

S33：根据步骤S32选取的动作控制机械臂进行自主抓取。

在进一步的实施方式中，在所述步骤S31中，所述DQN网络包括估计Q网络和目标Q网络；

所述估计Q网络的结构包括：

第一卷积神经网络，由第一卷积层、第一池化层与第一全连接层组成，用于提取所述单目图像信号的特征向量；

第二卷积神经网络，由第二卷积层、第二池化层与第二全连接层组成，用于提取所述深度估计图像的特征向量；

所述单目图像信号的特征向量、所述深度估计图像的特征向量以及所述触觉感知信号通过一个全连接网络进行信息融合，得到每个离散动作的Q值；

所述目标Q网络与所述估计Q网络具有相同的网络结构，所述估计Q网络的参数表示为θ，所述目标Q网络的参数表示为θ^-。

在进一步的实施方式中，在所述步骤S32中，所述ε-greedy算法描述为：

其中，ε为探索率，0＜ε＜1，|A|代表所有可选择的动作数目，S表示当前状态，a表示对应当前状态S的动作集合，Q(S，a)代表当前状态S与动作集合a所对应的Q值集合，a*表示Q值集合Q(S,a)中最大的Q值所对应的动作，π(a|S)表示当前的状态S下选取a的策略；

所述步骤S32具体为：

每次选取一个0到1的随机数，如果这个数大于ε则选择Q值集合Q(S，a)中的最大Q值所对应的动作，否则，从可选择的动作中随机选取动作；随着训练次数的增加，从高到低不断减小ε的值，直至减小到≤0.001，然后保持不变。

在进一步的实施方式中，在所述步骤S4中，所述训练数据为机械臂控制过程中采集到的四元组数据<S，A，R，S′>，其中：

S表示当前状态，为当前执行步骤S1得到的传感器数据和执行步骤S2得到的深度估计图像；

A表示选取的动作，为由当前状态S执行步骤S3得到的动作；

R表示获得的奖励，为在当前状态S时采取动作A环境给出的奖励；

S′表示下一个状态，为执行动作A之后重新执行步骤S1和S2，得到的下一传感器数据和下一深度估计图像。

在进一步的实施方式中，所述奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值，其公式表示为：

其中，(x_e,y_e,z_e)为机械臂夹爪末端执行器的三维坐标，(x_t,y_t,z_t)为目标的三维坐标。

在进一步的实施方式中，在所述步骤S4中，对所述强化学习网络进行优化的步骤包括：

S41：从记忆库中随机抽取M个样本数据，即M个四元组<S，A，R，S′>；

S42：将M个样本数据中的当前状态S输入到所述估计Q网络中得到当前状态S与其动作集合a所对应的Q值集合Q(S，a|θ)；

S43：根据M个样本中的动作A提取出S42中与动作A相对应的Q值集合Q(S，A)；

S44：将M个样本中的下一个状态S′输入到所述目标Q网络中得到每个下一个状态S′与其动作集合a′所对应的Q值集合Q(S′，a′|θ^-)；

S45：计算目标Q值集合，第i个样本的目标Q值公式为：

其中，R_i为第i个样本中的奖励值，γ为折扣因子，θ^-为所述目标Q网络的参数，S_i′为第i个样本中的下一个状态，a′_i为将S_i′输入到所述Q目标网络中得到的动作的集合；

S46：计算M个样本的TD-error；该步骤具体包括：

1)求取M个样本中每个样本的TD-error，M个样本中第i个样本的TD-error定义为L_i＝(y_i-Q(S_i，A_i|θ))²，y_i为第i个样本求得的目标Q值，Q(S_i，A_i|θ)为第i个样本所对应的当前状态S_i输入到所述估计Q网络得到的当前状态S_i与其动作A_i所对应的Q值；

2)根据L＝E[L_i]求取M个样本的TD-error的均值，以此作为M个样本的TD-error；

S47：通过最小化M个样本的TD-error更新所述估计Q网络的参数，延时更新所述目标Q网络的参数。

本发明提供的一种基于距离估计的单目视觉水下目标自动抓取方法，直接采用单目图像进行强化学习训练，并针对从单目图像中无法直接获取目标的空间位置信息，造成抓取效率低下等问题，引入一个基于距离估计的测距步骤，用于进一步抽取单目图像中的深度信息，并通过强化学习网络产生对应的动作指令，再不断收集训练数据对强化学习网络进行训练和优化，从而能够明显提升机械臂水下抓取目标的效率。

附图说明

图1是本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法的步骤流程图；

图2是本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法所应用系统的模块结构图；

图3是本发明实施例提供的图2所示系统的工作流程图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

为提升水下机器人抓取目标的效率，本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法，其步骤流程如图1所示，主要包括步骤S1～S5。

(1)步骤S1

S1：采集水下动态场景中机械臂抓取目标时的传感器数据，传感器数据包括单目图像信号与触觉感知信号。

其中，单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据；触觉感知信号为布尔类型数据，即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号，否则返回0的信号。

(2)步骤S2

S2：对单目图像信号进行深度估计得到深度估计图像。

作为一种优选的实施方式，本实施例利用红光在水下衰减的特点来实现距离估计，步骤S2具体包括步骤：

S21：对单目图像信号对应的水下源图像I采用最大衰减识别算法进行复原处理，获得复原图像J；

S22：分别提取出复原图像J与水下源图像I的红色通道J^R和I^R，求取J^R和I^R的比值作为距离系数

S23：对距离系数d归一化得到深度估计图像。

其中，在步骤S21中，最大衰减识别算法具体包括步骤：

S211：估计全局背景光A；该步骤具体包括：

2)为了获取更为准确的背景光本发明采用图像分块的方法，在每个图像块对应的深度图像中找到亮度最低的10％的像素点对应到其水下源图像I中，根据这些像素点得到每个图像块的背景光，推荐图像块的个数为2×2；

S212：估计传播系数ξ；该步骤具体包括：

1)根据

S213：根据估计的全局背景光A和对应的传播系数ξ，基于水下光传播模型I(x)＝J(x)ξ(x)+B(1-ξ(x))得到复原图像J，x为水下源图像I及复原图像J中像素的位置。

还需要说明的是，

的推算过程为：

经典的光照散射模型如式：I(x)＝J(x)ξ(x)+A(x)(1-ξ(x))，由于水体对不同颜色光的吸收和散射系数不同，因此在水下的衰减也不同，所以R、G、B三种颜色的传播系数分开考虑，得到：

I^R(x)＝J^R(x)ξ^R(x)+A^R(x)(1-ξ^R(x))

I^G(x)＝J^G(x)ξ^G(x)+A^G(x)(1-ξ^G(x))

I^B(x)＝J^B(x)ξ^B(x)+A^B(x)(1-ξ^B(x))

对上述公式两边在局部区域Ω(x)上取最大值，假设传播系数ξ(x)背景光A(x)在局部区域Ω(x)中保持一致，得到：

以R通道为例，继续转化：

然后，两边同除1-A^R(x)得到：

进一步转化：

考虑到近距离的衰减，通常水下背景光A是比较暗的，特别是在深海中，同时，在合适的窗口大小下，目标离相机越接近，目标区域越明亮，J的最大值越近似于1，此时，

(3)步骤S3

S3：通过强化学习网络融合传感器数据以及深度估计图像，得到对应的动作指令，引导机械臂进行自主抓取。

步骤S3中强化学习网络有多种可选择的方案，作为一种优选的实施方式，本发明采用DQN的网络模型，步骤S3具体包括步骤：

S31：将传感器数据与深度估计图像输入到DQN网络中，估计每个动作的Q值；

S32：通过ε-greedy算法选取当前状态对应的动作；

S33：根据步骤S32选取的动作控制机械臂进行自主抓取。

其中，在步骤S31中，DQN网络包括估计Q网络和目标Q网络；

估计Q网络的结构包括：

第一卷积神经网络，由第一卷积层、第一池化层与第一全连接层组成，用于提取单目图像信号的特征向量；

第二卷积神经网络，由第二卷积层、第二池化层与第二全连接层组成，用于提取深度估计图像的特征向量；

单目图像信号的特征向量、深度估计图像的特征向量以及触觉感知信号通过一个全连接网络(包括多个全连接层)进行信息融合，得到每个离散动作的Q值；

目标Q网络与估计Q网络具有相同的网络结构，估计Q网络的参数表示为θ，目标Q网络的参数表示为θ^-。

在步骤S32中，ε-greedy算法描述为：

其中，ε为探索率，0＜ε＜1，|A|代表所有可选择的动作数目，S表示当前状态，a表示对应当前状态S的动作集合，Q(S,a)代表当前状态S与动作集合a所对应的Q值集合，a^*表示Q值集合Q(S,a)中最大的Q值所对应的动作，π(a|S)表示当前的状态S下选取a的策略；

步骤S32具体为：

每次选取一个0到1的随机数，如果这个数大于ε则选择Q值集合Q(S,a)中的最大Q值所对应的动作，否则，从可选择的动作中随机选取动作；随着训练次数的增加，从高到低不断减小ε的值，直至减小到≤0.001(本实施例设定减小到0.001)，然后保持不变。

(4)步骤S4

S4：重复步骤S1～S3，收集对应的训练数据并存储到记忆库，同时对强化学习网络进行优化，直至完成设定的训练次数。

在本步骤S4中，训练数据为机械臂控制过程中采集到的四元组数据<S,A,R,S′>，其中：

A表示选取的动作，为由当前状态S执行步骤S3得到的动作；

奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值，其公式表示为：

在本步骤S4中，对强化学习网络进行优化的步骤包括：

S41：从记忆库中随机抽取M个样本数据，即M个四元组<S,A,R,S′>；

S42：将M个样本数据中的当前状态S输入到估计Q网络中得到当前状态S与其动作集合a所对应的Q值集合Q(S，a|θ)；

S44：将M个样本中的下一个状态S′输入到目标Q网络中得到每个下一个状态S′与其动作集合a′所对应的Q值集合Q(S′，a′|θ^-)；

S45：计算目标Q值，第i个样本的目标Q值公式为：

其中，R_i为第i个样本中的奖励值，γ为折扣因子(一般设置为接近1的值，本实施例设置为0.95)，θ^-为目标Q网络的参数，S_i′为第i个样本中的下一个状态，a′_i为将S_i′输入到所述Q目标网络中得到的动作的集合；

S46：计算M个样本的TD-error；该步骤具体包括：

(5)步骤S5

使用训练好的强化学习网络进行水下机械臂的抓取控制。

本发明实施例提供的一种基于距离估计的单目视觉水下目标自动抓取方法，直接采用单目图像进行强化学习训练，并针对从单目图像中无法直接获取目标的空间位置信息，造成抓取效率低下等问题，引入一个基于距离估计的测距步骤，用于进一步抽取单目图像中的深度信息，并通过强化学习网络产生对应的动作指令，再不断收集训练数据对强化学习网络进行训练和优化，从而能够明显提升机械臂水下抓取目标的效率。

本实施例还提供一种基于距离估计的单目视觉水下目标自动抓取系统，对应于步骤S1～S5的方法，如图2所示，包括数据采集模块、深度估计模块、抓取控制模块。如图3所示，数据采集模块用于执行上述步骤S1，深度估计模块用于执行上述步骤S2，抓取控制模块用于执行上述步骤S3。深度估计模块还用于接收步骤S4对其的优化。数据采集模块、深度估计模块、抓取控制模块还用于执行步骤S5，用于实际水下机器人的抓取控制。关于各个模块所执行功能的细节，步骤S1～S5已经作了详细介绍，在本系统中不再介绍。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，包括步骤：

S2：对所述单目图像信号进行深度估计得到深度估计图像；

2.如权利要求1所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，所述单目图像信号为通过单目相机采集的包含机械臂状态和外界环境的视觉图像数据；所述触觉感知信号为布尔类型数据，即机械臂夹爪末端执行器与外界环境发生接触即返回1的信号，否则返回0的信号。

3.如权利要求2所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，所述步骤S2具体包括步骤：

S23：对距离系数d归一化得到深度估计图像。

4.如权利要求3所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，在所述步骤S21中，所述最大衰减识别算法具体包括步骤：

S211：估计全局背景光A；该步骤具体包括：

1、)用一个窗口大小可调的最大值滤波器对所述水下源图像I的R通道进行滤波，得到对应的深度图像；

2、)在每个图像块对应的深度图像中找到亮度最低的10％的像素点对应到其水下源图像I中，根据这些像素点得到每个图像块的背景光，图像块的个数为m×n；

4、)与R通道相同原理和步骤地，估计所述水下源图像I的G通道的全局背景光A^G(x)和B通道的全局背景光A^B(x)；

S212：估计传播系数ξ；该步骤具体包括：

1)根据

S213：根据水下光传播模型I(x)＝J(x)ξ(x)+A(1-ξ(x))得到复原图像J，x为水下源图像I及复原图像J中像素的位置。

5.如权利要求4所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，所述步骤S3具体包括步骤：

S32：通过ε-greedy算法选取当前状态对应的动作；

S33：根据步骤S32选取的动作控制机械臂进行自主抓取。

6.如权利要求5所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，在所述步骤S31中，所述DQN网络包括估计Q网络和目标Q网络；

所述估计Q网络的结构包括：

7.如权利要求6所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于：在所述步骤S32中，所述ε-greedy算法描述为：

其中，ε为探索率，0＜ε＜1，|A|代表所有可选择的动作数目，S表示当前状态，a表示对应当前状态S的动作集合，Q(S，a)代表当前状态S与动作集合a所对应的Q值集合，a*表示Q值集合Q(S，a)中最大的Q值所对应的动作，π(a|S)表示当前的状态S下选取a的策略；

所述步骤S32具体为：

8.如权利要求1或7所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，在所述步骤S4中，所述训练数据为机械臂控制过程中采集到的四元组数据<S，A，R，S′>，其中：

A表示选取的动作，为由当前状态S执行步骤S3得到的动作；

9.如权利要求8所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，所述奖励R为机械臂夹爪末端执行器与目标之间在三维空间的欧式距离的负值，其公式表示为：

其中，(x_e，y_e，z_e)为机械臂夹爪末端执行器的三维坐标，(x_t，y_t，z_t)为目标的三维坐标。

10.如权利要求8所述的基于距离估计的单目视觉水下目标自动抓取方法，其特征在于，在所述步骤S4中，对所述强化学习网络进行优化的步骤包括：

S43：根据M个样本中的动作A提取出所述步骤S42中与动作A相对应的Q值集合Q(S，A)；

S45：计算目标Q值集合，第i个样本的目标Q值公式为：

S46：计算M个样本的TD-error；该步骤具体包括：