CN114549586A

CN114549586A - 一种基于视觉感知机械臂的目标定位方法

Info

Publication number: CN114549586A
Application number: CN202210162016.7A
Authority: CN
Inventors: 王华锋; 张豪督; 陈澳; 张英韬; 屠焕青
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明公开了一种基于视觉感知机械臂的目标定位方法，在视觉感知机械臂上搭载Realsense 3D深度摄像头，通过所述深度摄像头获取待测目标周围环境的图像信息；利用事先训练好的检测模型和跟踪算法，在所获取的图像信息中识别出待测目标，并对待测目标进行跟踪测距；当待测目标移动时，根据目标点位置进行跟踪判断；当待测目标停稳时中断跟踪，并控制所述视觉感知机械臂定位所述待测目标。上述方法解决了机械臂对目标精准定位的问题，而且稳定可靠、可扩展性好，具有极大的推广价值。

Description

一种基于视觉感知机械臂的目标定位方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于视觉感知机械臂的目标定位方法。

背景技术

随着人工智能技术的发展，人们对机器人的要求不再局限于机器人的局部运动。近年来，随着计算机视觉的出现及智能机械臂的应用，研究人员对机械臂与计算机视觉组合的系统越来越感兴趣，视觉感知机械臂的研究已经成为机器人学研究的一个重要方面。例如自助加油加电领域，利用视觉感知机械臂对汽车油箱盖进行精准识别以及精确定位，并通过关节控制实现对汽车的自助加油加电，已越来越成为一个热点方向。

随着社会需求的提高，要求机械臂拥有更强的感知、判断以及执行能力，基于计算机视觉以及机械控制的研究成为解决该问题的关键，而现有技术中缺乏相应的解决方案。

发明内容

本发明的目的是提供一种基于视觉感知机械臂的目标定位方法，该方法解决了机械臂对目标精准定位的问题，而且稳定可靠、可扩展性好，具有极大的推广价值。

本发明的目的是通过以下技术方案实现的：

一种基于视觉感知机械臂的目标定位方法，所述方法包括：

步骤1、在视觉感知机械臂上搭载Realsense 3D深度摄像头，通过所述深度摄像头获取待测目标周围环境的图像信息；

步骤2、利用事先训练好的检测模型和跟踪算法，在所获取的图像信息中识别出待测目标，并对待测目标进行跟踪测距；

步骤3、当待测目标移动时，根据目标点位置进行跟踪判断；当待测目标停稳时中断跟踪，并控制所述视觉感知机械臂定位所述待测目标。

由上述本发明提供的技术方案可以看出，上述方法解决了机械臂对目标精准定位的问题，而且稳定可靠、可扩展性好，具有极大的推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于视觉感知机械臂的目标定位方法流程示意图；

图2所示为本发明实施例所采用RobotDetection模型的结构示意图；

图3为本发明实施例所述四大坐标系的位置关系示意图；

图4为本发明实施例所述图像坐标系、像素坐标系、世界坐标系(参考坐标系)的转化关系示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示为本发明实施例提供的基于视觉感知机械臂的目标定位方法流程示意图，所述方法包括：

在该步骤中，所搭载的Realsense 3D深度摄像头结合了3D深度和2D镜头模块，既能轻松获取普通RGB色彩图像又能够获取物体的深度图像，亦可融合该深度图像与其获取到的二维图像信息，大大弥补了二维图像中缺失的深度信息，其功能越来越接近人眼的功能。

在该步骤中，所述检测模型采用利用自制数据集训练的RobotDetection模型，如图2所示为本发明实施例所采用RobotDetection模型的结构示意图，为了提高模型的运行速度，本发明相比于业界其他现有的检测模型，设置了更少的模型参数，采用的卷积核尺寸更小，具体来说，在RobotDetection模型的参数结构中：

部分卷积层使用大小为3的卷积核来进行特征提取，步长设置为1，扩充尺寸同样设置为1；

采用卷积层-激活函数层-批量归一化层(BatchNorm)-最大池化层作为基本单元，多层堆叠成最终的特征提取部分。

另外，本发明实施例采用检测、跟踪以及抓取相结合的方法，针对检测算法速度慢但不需要初始化和跟踪算法速度快但必须要第一帧初始化的情况，利用检测模型得到的矩形框作为跟踪算法的第一帧初始化框，实现自主检测跟踪。

举例来说，为了针对性的对不同的目标进行检测，检测模型还设定了六种不同大小的锚点(anchor)，在检测模型的不同尺度上进行目标点的检测。

其中，在特征提取网络中，第14层后检测出目标，再经过了5次下采样，提取特征图的特征并减小计算量，下采样后特征图尺度减小为输入图片的1/32，对于较大的目标，也使用相对较大的锚点进行检测；对于第14层的特征提取网络经过1*1的卷积之后，再与经过特征提取网络与反卷积之后的第8层网络进行堆叠，特征图此时已经经过了4次下采样，因此特征图的尺度减小为输入图像的1/16大小，针对较小物体的检测，采用较小的三个锚点。

在训练阶段，为了使网络的运行速度得到有效提升，本发明实施例将网络输入的大小变为320*320，为了提升网络检测效果，在训练阶段利用随机尺度输入，每隔32取一个尺度，随机输入范围是[224,416]，与其对应的最后一层特征图大小范围为[7,13]，固定使用320*320大小的输入，最后再进行200次迭代完成训练。

另外，在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些几何模型参数就是相机参数，这个求解参数(内参、外参、畸变参数)的过程就称之为相机标定(或摄像机标定)。

在该步骤中，在控制所述视觉感知机械臂定位所述待测目标的过程中，首先需要进行坐标系转换，坐标系包括世界坐标系、相机坐标系、图像坐标系以及像素坐标系，通过建立他们之间的位置关系实现二维平面一点与三维空间一点的坐标转换，如图3所示为本发明实施例所述四大坐标系的位置关系示意图，四大坐标系具体为：

世界坐标系O_w-X_wY_wZ_w是建立在真实世界中的坐标系，它的单位为米(m)，用来描述深度摄像头的位置，或者用来描述三维空间中所有点；

摄像机坐标系O_c-X_cY_cZ_c以深度摄像头的光心O_c来建立摄像机坐标的原点位置，其单位为米(m)，横、纵坐标分别与图像坐标系的横、纵坐标轴平行，但是Z轴为深度摄像头的光轴；

图像坐标系O_i-xy的原点为图像中心，以毫米(mm)为单位，横坐标与纵坐标分别平行于摄像机坐标系的横坐标与纵坐标，描述了像素的实际位置；

像素坐标系O_o-uv将图像左上角的像素点O_o作为原点，它的单位为像素(pixel)，其横纵坐标与图像坐标系的横纵坐标分别平行；

如图4所示为本发明实施例所述图像坐标系、像素坐标系、世界坐标系(参考坐标系)的转化关系示意图，将世界坐标系转化为计算机可以处理的像素坐标，经过把相机外参进行转换从而得到相机内参来进行测距，具体来说：

(1)从世界坐标系转换到摄像机坐标系的过程称为刚体变换，在此变换过程中物体不会出现形变，只需要进行旋转变换和平移变换，为了得到相应的旋转矩阵，可围绕不同的坐标轴进行不同角度的旋转，则坐标转换关系如下：

式中，(X_w,Y_w,Z_w)为在世界坐标系中点P的坐标；(X_c,Y_c,Z_c)为在摄像机坐标系中点P的坐标；R为一个3×3的矩阵，将它称为旋转矩阵；T为一个3×1的矩阵，将它称为平移矩阵；

其中，旋转矩阵

平移矩阵T中的(T_x,T_y,T_z)是世界坐标系原点相对于摄像机坐标系原点的平移向量；

将式(1)转换为矩阵形式如下所示：

(2)摄像机坐标系到图像坐标系的转换

透视投影可以形象的描述摄像机坐标系与图像坐标系之间的转换关系，图像坐标系的原点是成像平面与深度摄像头光轴之间的交点，其x，y轴与X_c，Z_c轴平行，由理想的针孔成像原理可以得到坐标转换关系如下式所示：

式中，f为深度摄像头的焦距，它是一个固定的参数，由深度摄像头自身决定；

将式(3)转换成矩阵形式，如下式所示：

(3)图像坐标系到像素坐标系的转换

把投影点p进行图像坐标系与像素坐标系间转换的原因是由于二者的单位不同，前者是毫米(mm)，后者是像素(pixel)；

假设在像素坐标系下有一个点p，其在x轴和y轴方向上的尺寸为d_x和d_y，则两个不同坐标系之间的转关系如下所示：

式中，d_x，d_y分别表示在x轴和y轴方向上的物理尺寸，即每一个行和每一列分别代表多少毫米；

将上式转换成矩阵形式，如下式所示：

联立式(6)、式(4)和式(2)，将任意一点p从世界坐标系转换到像素坐标系，转换关系如下式所示：

式中，

分别为像素坐标系中u轴和v轴方向的归一化焦距；M₁为由深度摄像头内部结构决定的内部参数矩阵；M₂为外部参数矩阵，由旋转矩阵R和平移矩阵T组成。

另外，具体实现过程中，当检测模型和跟踪算法识别跟踪失败时，可以重新调用检测模型对目标周围环境进行检测，实现对待测目标的再捕获。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

综上所述，本发明实施例通过搭载Realsense 3D深度摄像头的视觉感知机械臂，能够有效识别并定位目标的3D图像深度信息，实现对目标的识别及测距，例如将其应用于汽车的自助加油加电，可有效的对车辆以及油箱盖进行识别及测距，显著提高了机械臂对目标物体执行动作的精确度，从而进一步提高了实用性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。