CN113524194A

CN113524194A - 基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法

Info

Publication number: CN113524194A
Application number: CN202110900461.4A
Authority: CN
Inventors: 欧阳奇; 王舒波; 张兴兰; 李文琪; 刘煜程; 李�瑞; 苑康; 徐永林; 黄涛; 杨焱; 盛遥
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-04-28
Filing date: 2021-08-06
Publication date: 2021-10-22
Anticipated expiration: 2041-08-06
Also published as: CN113524194B

Abstract

本发明公开了一种基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法，包括以下步骤：初始化视觉抓取系统中的双目视觉平台以及工业机械臂；双目视觉平台的两个相机同时对物料框拍摄照片，将照片反馈控制器，识别照片中的工件目标，并获得中心点像素坐标，分割工件目标轮廓和外界环境，将识别到的目标的区域中心点像素坐标换到机械臂坐标系；结合双目相机系统，经过三维立体重构获取工件目标深度；建立机器人正、逆运动学模型(D‑H)，对工件目标进行抓取，将工件目标摆放到指定位置。计算机自动控制，使抓取更智能化；通过训练好的卷积神经网络模型，抓取工件组件更稳定、精准；CNN共享卷积核，处理高维数据、提取图像特征能力强。

Description

基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法

技术领域

本发明涉及卷积神经网络目标识别算法、6自由度工业机器人技术领域，具体的说是一种基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法。

背景技术

随着经济的发展与科技的进步，人们越来越多地将自动化技术应用到生产与生活中，与此同时，也对自动化技术提出了更高的要求。近十年来，工业机器人的普及使得机器人自动化得到了更广泛的应用和关注。很多机器人系统已经集成了视觉系统，利用机器视觉技术实现检测、识别、定位等功能，为后续的机器人运动提供必要的信息。

在许多自动化应用场合中，如自动化分拣、装配、拆垛、码垛、上料等过程中，工业机器人经常被用来进行抓取作业。要完成抓取操作，机器人系统可能需要完成目标感知、运动规划、抓取规划等一系列任务。视觉系统在机器人抓取作业中的作用就是识别、定位目标物体，为机器人提供目标物体的类型与位置信息。其中，位置估计的精度关系到抓取的成功率与精度，是非常重要的技术参数。

本发明硬件选择:64位计算机，英伟达rtx2060以上gpu，六自由度工业机器人，双目工业相机，外光源。

专业针对散乱无序堆放的工件设计，可协助机器人实现3D智能抓取。通过对工件3D数据扫描以实现三维准确定位，引导机械手准确抓取定位工件，实现了工业机器人自动化生产线的柔性工装。

机器人bin-picking问题，也就是针对物体杂乱摆放的机器人抓取问题。通过人工智能深度学习以及机器人视觉的算法去主动计算具体位置并且抓取物体。

现有的机器人视觉抓取系统的识别速度、精度仍存在不足，受周围环境影响的光线影响导致抓取误差。

发明内容

针对上述问题，本发明提供了一种基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法，针对现有不足的改进:通过卷积神经网络，训练出目标识别模型和语义分割模型可以加快识别的速度以及精度，对于工业生产领域提高了生产效率，降低生产过程中工人的危险。并且我们是将两个深度学习模型结合，可以降低因为周围环境的光线影响产生的误差。

为达到上述目的，本发明采用的具体技术方案如下：

一种基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法，其关键在于：包括以下步骤：

步骤1)：初始化视觉抓取系统中的双目视觉平台以及工业机械臂；

步骤2)：视觉抓取系统控制器控制双目视觉平台的两个相机同时对物料框拍摄照片；并将拍摄得到的照片反馈至视觉抓取系统控制器；

步骤3)：视觉抓取系统控制器识别照片中的工件目标，并获得工件目标的区域中心点像素坐标；

步骤4)：视觉抓取系统控制器根据所述被抓取工件目标的区域中心点像素坐标对所述照片组中的工件目标轮廓和外界环境进行分割；

步骤5)：视觉抓取系统控制器采用单目手眼标定算法，将识别到的所述目标的区域中心点像素坐标换到机械臂坐标系；

步骤6)：视觉抓取系统控制器结合双目相机系统，经过三维立体重构获取工件目标深度；

步骤7)：视觉抓取系统控制器对工业机械臂建立机器人正、逆运动学模型(D-H)，对工件目标进行抓取，并将工件目标摆放到指定位置。

采用上述方案，采用双目工业相机构建视觉系统，并配合六自由度的工业机器人，实现机械臂杂乱摆放抓取。利用静态双目图像采集系统采集工件组件的图像，计算机图像采集系统采集的图像对工件组件进行三维空间精准定位并且计算出被抓取工件的外轮廓，机器人根据工件位置及轮廓信息实现对工件组件快速抓取。

进一步描述，所述步骤3)的具体步骤为：

步骤31)：采集被抓取工件的图片，得到工件图片初始数据集；

步骤32)：对所述工件图片初始数据集采用扩充手段进行扩充，得到扩充工件图片数据集；

其中扩充手段包括对图片进行裁剪操作、翻转操作、镜像操作、调节原图片亮度操作、调节原图对比度操作、调节原图色度操作、调节原图饱和度操作、高斯模糊操作、锐化操作、添加噪声操作、转换成灰度图像操作；

步骤33)：通过labelImg程序标注出工件，划分出工件识别训练集、工件识别测试集、工件识别验证集后，在NVIDIA GPU上进行训练，得到基于tensorflow框架的卷积神经网络目标识别模型Yolov3；

步骤34)：采用步骤33得到的卷积神经网络目标识别模型Yolov3对照片组中的工件进行识别，得到每个工件的识别率；

步骤35)：选取识别率最高的工件作为工件目标，并计算出工件目标的区域中心点像素坐标。

采用上述方案，利用静态双目图像采集系统采集工件组件的图像，计算机图像采集系统采集的图像对工件组件进行三维空间精准定位并且计算出被抓取工件的外轮廓，机器人根据工件位置及轮廓信息实现对工件组件快速抓取在工件组件抓取中，计算机根据训练好的卷积神经网络目标识别算法(Yolov3)的快速识别定位。

再做进一步描述，步骤33)中，计算工件目标的区域中心点像素坐标的步骤为：

卷积神经网络目标识别模型Yolov3对照片组中的工件目标进行识别时，输出所有预测边界框，并设定每个预测边界框的中心点像素坐标均落在其对应的cell中；

则区域中心点像素坐标的计算公式为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU)(b,Object)＝σ(t_o)

其中，(b_x,b_y,b_w,b_h)为预测的边界框在要素图feature map中的中心点像素坐标和长宽，所述要素图feature map指卷积网络里面的卷积层的输出；

(t_x,t_y,t_w,t_h)为网络学习的相对于先验框(prior,anchor)的offsets；

(c_x,c_y)是各个cell的左上点像素坐标；

p_h,p_w为先验框(prior,anchor)相对于特征图的长和宽；

预测边界框相对于原照片的像素坐标实际值等于(b_x,b_y,b_w,b_h)除以对应的要素图feature map的尺寸，再乘以原始照片的尺寸。

Yolov3检测原理：

Yolov3是一阶段End2End的目标检测器。Yolov3将输入图像分成S*S个格子，每个格子预测B个bounding box，每个boundingbox预测内容包括:Location(x,y,w,h)、Confidence Score和C个类别的概率，因此Yolov3输出层的channel数为S*S*B*(5+C)。Yolov3的loss函数也有三部分组成：Location误差，Confidence误差和分类误差。

Yolov3网络结构：

Yolov3的网络结构由基础特征提取网络、multi-scale特征融合层和输出层组成。特征提取网络。Yolov3使用DarkNet53作为特征提取网络：DarkNet53基本采用了全卷积网络，用步长为2的卷积操作替代了池化层，同时添加了Residual单元，避免在网络层数过深时发生梯度弥散。特征融合层。为了解决之前Yolo版本对小目标不敏感的问题，Yolov3采用了3个不同尺度的特征图来进行目标检测，分别为13*13,26*26,52*52,用来检测大、中、小三种目标。特征融合层选取DarkNet产出的三种尺度特征图作为输入，借鉴了FPN(featurepyramid networks)的思想，通过一系列的卷积层和上采样对各尺度的特征图进行融合。输出层。同样使用了全卷积结构，其中最后一个卷积层的卷积核个数是255：3*(80+4+1)＝255，3表示一个grid cell包含3个boundingbox，4表示框的4个坐标信息，1表示ConfidenceScore，80表示COCO数据集中80个类别的概率。

采用上述方案，Yolov3目标识别与传统方法相比的优势：

(a)多级预测：Yolov3增加了top down的多级预测，解决了yolo颗粒度粗，对小目标无力的问题。v2只有一个detection，v3一下变成了3个，分别是一个下采样的，featuremap为13*13，还有2个上采样的eltwise sum，feature map为26*26，52*52，也就是说v3的416版本已经用到了52的feature map，而v2把多尺度考虑到训练的data采样上，最后也只是用到了13的feature map，这应该是对小目标影响最大的地方。在论文中从单层预测五种boundingbox变成每层3种boundingbox；

(b)loss不同：Yolov3替换了v2的softmax loss变成logistic loss，由于每个点所对应的bounding box少并且差异大，每个bounding与ground truth的matching策略变成了1对1。当预测的目标类别很复杂的时候，采用logistic regression进行分类是更有效的，比如在Open Images Dataset数据集进行分类。在这个数据集中，会有很多重叠的标签，比如女人、人，如果使用softmax则意味着每个候选框只对应着一个类别，但是实际上并不总是这样。复合标签的方法能对数据进行更好的建模。

(c)加深网络：采用简化的residual block取代了原来1×1和3×3的block；(其实就是加了一个shortcut，也是网络加深必然所要采取的手段)。这和上一点是有关系的，v2的darknet-19变成了v3的darknet-53，为啥呢？就是需要上采样啊，卷积层的数量自然就多了，另外作者还是用了一连串的3*3、1*1卷积，3*3的卷积增加channel，而1*1的卷积在于压缩3*3卷积后的特征表示。

(d)router：由于top down的多级预测，进而改变了router(或者说concatenate)时的方式，将原来诡异的reorg改成了upsample。

再做进一步描述，步骤4)的具体步骤为：

步骤41)：获取步骤32)得到的扩充工件图片数据集；

步骤42)：通过labelme程序标注出工件轮廓，区分出工件与外部环境，划分出工件分割训练集、工件分割测试集、工件分割验证集后，在NVIDIA GPU上进行训练，搭建基于pytorch框架的全卷积神经网络语义分割模型U-net；

步骤43)：结合所述工件目标的区域中心点像素坐标和所述全卷积神经网络语义分割模型U-net对双目视觉平台拍摄的照片进行工件目标和外部环境分割。

采用上述方案，U-net图像分割对比传统方法优势：

(a)5个池化层(pooling layer)实现了网络对图像特征的多尺度特征识别。

(b)上采样部分会融合特征提取部分的输出，这样做实际上是将多尺度特征融合在了一起，以最后一个上采样为例，它的特征既来自第一个卷积block的输出(同尺度特征)，也来自上采样的输出(大尺度特征)，这样的连接是贯穿整个网络的，你可以看到上图的网络中有四次融合过程，相对应的FCN网络只在最后一层进行融合。

(c)适用于小规模的数据集。这一点主要还是针对于医学数据来说的，对于图像分类任务或者去噪之类的任务数据集还是很充足的。

(d)不使用全连接层。搭建网络时，全连接层的应用始终受限，主要是由于其参数过多。假设输入是一张尺寸为(224，224，3)的彩色图片，并假设期望输出的特征图尺寸为(224，224，64)。如果采用全连接Linear，那么输入特征数量为224*224*3＝150528，输出特征尺寸为224*224*64＝3211264，参数的数量为150528*3211264＝483,385,147,392，这甚至比很多大型网络参数都多；而如果使用卷积Conv(假设用3x3的卷积核)，那么需要的卷积核为64个3x3x3的卷积核，总参数数量为64*3*3*3＝1728，所以相比于全连接，卷积层大幅度减少了网络的参数数量。

再做进一步描述，步骤5)的具体步骤为：

步骤51)：利用张正友标定法获取单目相机的内参矩阵以及外参矩阵；

步骤52)：利用步骤51)求得的内参矩阵与外参矩阵，通过张正友标定法，计算相机畸变系数，然后做与畸变相反的变换，消除畸变，得到单目相机参数；

其中单目相机参数包括内参矩阵、径向畸变参数k₁，k₂、切向畸变参数p₁，p₂；

对于鱼眼镜头等径向畸变特别大的才需要计算k3相机由于光学透镜的特性使得成像存在着径向畸变，可由三个参数k₁,k₂,k₃确定；由于装配方面的误差，传感器与光学镜头之间并非完全平行，因此成像存在切向畸变。

步骤53)：通过手眼标定算法得到变换矩阵X，通过步骤51)获得外参数将识别到的物体中心点像素坐标从像素坐标系转换到机械臂坐标系。

采用上述方案，手眼标定是指建立视觉传感器坐标系与机械臂坐标系之间的转换关系，用来完成视觉系统所获取的目标物位置到机械臂坐标系的转换。

再做进一步描述，步骤51)中具体步骤为：

所述内参数包括焦距f、成像原点C_x,C_y、径向畸变k1，k2、切向畸变p1，p2；所述外参数包括工件目标点的世界坐标；

利用张正友标定法通过拍摄一组棋盘格标定板的照片由C++和opencv库计算得到所述内参数和外参数；

内参矩阵为：

其中内参矩阵：

f:焦距，单位毫米；

f_x:使用像素来描述x轴方向焦距的长度；

f_y:使用像素来描述y轴方向焦距的长度；

u₀,v₀:主点坐标，单位也是像素；

γ:为坐标轴倾斜参数，理想情况下为0；

内参矩阵是相机自身的属性，通过标定就可以得到这些参数；

外参矩阵为：

其中外参矩阵：相机的外参是世界坐标系在相机坐标系下的描述；

R是旋转参数是每个轴的旋转矩阵的乘积，其中每个轴的旋转参数(φ,ω,θ)；T是平移参数(T_x,T_y,T_z)；旋转矩阵和平移矩阵共同描述了把主点从世界坐标系转换到相机坐标系；

旋转矩阵：描述了世界坐标系的坐标轴相对于相机坐标轴的方向；

平移矩阵：描述了在相机坐标系下，世界坐标系下原点的位置。

内外参数求解，令H＝[h₁h₂h₃]，

则[h₁ h₂ h₃]＝λA[r₁ r₂ t]，

经过数学变换，可以得到：

B是一个对称阵，B的有效元素就剩下6个，即：

b＝[B₁₁ B₁₂ B₂₂ B₁₃ B₂₃ B₃₃]^T

进一步化简：

通过计算得到

v_ij＝[h_i1h_j1,h_i1h_j2+h_i2h_j1,h_i2h_j2,h_i3h_j1+h_i1h_j3,h_i3h_j2+h_i2h_j3,h_i3h_j3]^T

利用上述的两个约束条件得到下面的方程组：

通过cholesky分解得到摄相机机的内参阵A，对于外参阵通过下面的公式解得：[h₁ h₂ h₃]＝λA[r₁ r₂ t]化简可得：

其中λ＝1/||A^-1h₁||＝1/||A^-1h₂||。

采用上述方案，摄像头由于光学透镜的特性使得成像存在着径向畸变，可由三个参数k₁,k₂,k₃确定；由于装配方面的误差，传感器与光学镜头之间并非完全平行，因此成像存在切向畸变，可由两个参数p₁,p₂确定。单个摄像头的定标主要是计算出摄像头的内参(焦距f和成像原点C_x,C_y、五个畸变参数)以及外参(标定物的世界坐标)。

再做进一步描述，步骤52)的具体步骤为：

步骤521)：按照张正友标定法，利用主点周围的泰勒级数展开的前两项确定径向畸变的畸变系数，数学表达式：

其中，(u,v)代表理想无畸变的像素坐标，

代表实际径向畸变的情况下的像素坐标，(u₀,v₀)代表主点，(x,y)代表理想无畸变时的连续图像像素坐标，

代表实际径向畸变的情况下的连续图像像素坐标；k1、k2代表前两阶的畸变参数；

步骤522)：对于图像上的任意一点，有两个等式，化成矩阵形式：

通过相机模型计算出(x,y)；

通过已求得的内参矩阵中得到(u₀,v₀)；

由相机模型中物体的世界坐标点解出(u,v)；

步骤523)：用一点求得径向畸变参数；

对于n副包含棋盘格的图像进行定标，每个图像里有棋盘格角点m个，得到2mn个等式，运用最小二乘法对结果进行优化，通过等式k＝(D^TD)^-1D^Td解得径向畸变参数k＝[k1,k2]；

其中D是等式左边的方程的系数矩阵，d是等式右边的有畸变的像素坐标与无像素坐标之差构成的矩阵；

步骤524)：将求解得到的畸变参数与理想无畸变条件下的内、外参数一起进行极大似然估计；以最小化下列函数为目标，在参数估计中增加k1,k2：

极大似然估计：n副包含棋盘格的图像进行定标，每个图像里有棋盘格角点m个，令第i副图像上的角点M_j在上述计算得到的摄像机矩阵下图像上的投影点为：

其中R_i和t_i是第i副图对应的旋转矩阵和平移向量，K是内参数矩阵；

则角点m_ij的概率密度函数为：

构造似然函数：

L取得最大值，下面式子最小：

步骤525)：利用莱文贝格－马夸特方法(Levenberg-Marquardt)算法迭代计算，最终就得到了单目相机参数。

Levenberg-Marquardt：莱文贝格－马夸特方法(Levenberg–Marquardtalgorithm)能提供数非线性最小化(局部最小)的数值解。此算法能借由执行时修改参数达到结合高斯-牛顿算法以及梯度下降法的优点，并对两者之不足作改善(比如高斯-牛顿算法之反矩阵不存在或是初始值离局部极小值太远)

采用上述方案，径向畸变产生原因是光线在远离透镜中心的地方比靠近中心的地方更加弯曲径向畸变主要包含桶形畸变和枕形畸变两种。切向畸变产生的原因透镜不完全平行于图像平面，这种现象发生于成像仪被粘贴在摄像机的时候。畸变矫正，首先应该知道畸变系数，然后做与畸变相反的变换，消除畸变。张氏标定法中只关注径向畸变。我们是按照张正友标定法，计算畸变系数的。

再做进一步描述，步骤53)中具体步骤为：

步骤53)中具体步骤为：

采用Halcon工业视觉库使用9点法进行手眼标定，通过机器人的末端行经9个点得到在机械臂坐标系，同时还要用计算机识别9个点计算出像素坐标；通过求解经典数学模型AX＝XB得到图像像素坐标系到机械臂坐标系的变换矩阵；

其中求解经典数学模型AX＝XB：

其中：

表示摄像机(camera)坐标系相对于机器人基坐标系(也是世界坐标，world)的齐次变换矩阵；这是Eye-to-hand问题的求解目标。

和

表示棋盘图(grid)相对于摄像机坐标系的齐次变换矩阵，分别对应第i次和第j次样本；

和

表示机器人末端(end)TCP坐标系相对于机器人基座坐标系的齐次变换矩阵，分别对应第i次和第j次样本；

表示棋盘图(grid)相对于机器人末端TCP的齐次变换矩阵，棋盘图固定连接在机器人末端，

是一个常量矩阵；

令

求解经典数学模型AX＝XB得到图像坐标系到机械臂坐标系的变换矩阵步骤包括：物体从相机像素坐标系转换到世界坐标系的过程，通过旋转和平移来得到：

将其变换矩阵由一个旋转矩阵和平移向量组合成的齐次坐标矩阵来表示：

其中，R为旋转矩阵，t为平移向量，r₃设定在世界坐标系中物点所在平面过世界坐标系原点且与Zw轴垂直，得到Zw＝0转换成上式的形式；

其中变换矩阵X为：

采用上述方案，手眼标定是指建立视觉传感器坐标系与机械臂坐标系之间的转换关系，用来完成视觉系统所获取的目标物位置到机械臂坐标系的转换。本系统采用Eye-to-Hand(眼在手外)手眼系统的标定技术，对于eye-to-hand模式手眼标定的主要过程可转化为对经典数学模型AX＝XB的求解Tsai等提出两步法求解旋转平移矩阵，先求旋转矩阵，再求平移向量。

本系统借助Halcon工业视觉库使用9点法进行手眼标定，让机器人的末端去走这就9个点得到在机器人坐标系中的坐标，同时还要用计算机识别9个点计算出像素坐标。这样就得到了9组对应的坐标，通过求解AX＝XB得到图像坐标系到机基标系的变换矩阵，就可以将识别到的物体中心点坐标从像素坐标系转换到基坐标系下完成平面2D抓取工作。

再做进一步描述，步骤6)中具体步骤为：

步骤61)：通过OpenCV视觉库中的BM或SGBM算法进行双目立体匹配，将两个不同方向的图像平面重新投影到同一个平面且光轴互相平行；

其中利用步骤51)求得外参数进行立体匹配，该立体分配是通过分别对两张图片用单应性矩阵H(homography matrix)变换得到；

目的是把两个不同方向的图像平面(下图中灰色平面)重新投影到同一个平面且光轴互相平行，这样转化为理想情况的模型。主要工作是在极线上寻找匹配点，但是由于要保证两个相机参数完全一致是不现实的，并且外界光照变化和视角不同的影响，使得单个像素点鲁棒性很差。所以匹配工作是一项很重要的事情，这也关系着双目视觉测距的准确性。

设三维世界坐标的点为X＝[X,Y,Z,1]TX＝[X,Y,Z,1]T，二维相机平面像素坐标为m＝[u,v,1]Tm＝[u,v,1]T，所以标定用的棋盘格平面到图像平面的单应性关系为：

s₀m＝K[R,T]X

其中s为尺度因子，K为摄像机内参数，R为旋转矩阵，T为平移向量；令

s对于齐次坐标来说，不会改变齐次坐标值；张氏标定法中，将世界坐标系构建在棋盘格平面上，令棋盘格平面为Z＝0的平面，则可得：

把K[r1,r2,t]叫做单应性矩阵H，即

H＝[h₁ h₂ h₃]

[h₁ h₂ h₃]＝λA[r₁ r₂ t]；

步骤62)：再通过双目视差d＝x_l-x_t求得工件目标点P离双目相机的深度z；

具体计算公式为：

根据三角形相似定律：

其中，f为相机焦距，b为左右相机基线，双目视差d为左相机像素点(x_l,y_l)和右相机中对应工件目标点(x_r,y_r)的关系。

采用上述方案，因为单目相机无法获得被抓取工件所在空间准确的高度及姿态，只能识别到其表面的中心点2D平面坐标。所以被抓取工件高度及摆放姿态受单目视觉相机限制，因此增加一个相机构成双目系统，利用双目立体匹配，实现三维空间目标抓取。利用双目相机视差测算深度信息，通过OpenCV视觉库中的BM或SGBM算法进行双目立体匹配，立体匹配是通过分别对两张图片用单应性矩阵(homography matrix)变换得到，目的是把两个不同方向的图像平面(下图中灰色平面)重新投影到同一个平面且光轴互相平行，这样转化为理想情况的模型。主要工作是在极线上寻找匹配点，但是由于要保证两个相机参数完全一致是不现实的，并且外界光照变化和视角不同的影响，使得单个像素点鲁棒性很差。所以匹配工作是一项很重要的事情，这也关系着双目视觉测距的准确性。再通过双目视差(目标点在左右两幅图上成像的横向坐标直接存在的差异)d＝x_l-x_t求得空间点P离相机的距离(深度)Z。

再做进一步描述，步骤7)中：

所述机器人正、逆运动学模型(D-H)为：M＝f(q_i)；

其中，M为机器人末端执行器的位置，q_i为机器人各个关节变量。

若给定q_i要求确定相应的M，称为正运动学问题，简记为DKP。相反，若已知末端执行器的位置M，求解对应的关节变量，称为逆运动学问题，简记为IKP。

采用上述方案，求解正运动问题，是为了检验，校准机器人，计算工作空间等。求解逆运动问题，是为了路径规划和机器人控制，逆向运动学往往有多个解而且分析更为复杂。机器人逆运动分析是运动规划不控制中的重要问题，但由于机器人逆运动问题的复杂性和多样性，无法建立通用的解析算法。逆运动学问题实际上是一个非线性超越方程组的求解问题，其中包括解的存在性、唯一性及求解的方法等一系列复杂问题。

再做一进步描述，基于位置闭环的伺服电机控制技术。

用位置控制方式(位置控制方式有加速、保持、减速的过程)，每隔50毫秒发一次位置信息给运动控制器。闭环控制系统是控制系统的一种类型。具体内容是指：把控制系统输出量的一部分或全部，通过一定方法和装置反送回系统的输入端，然后将反馈信息与原输入信息进行比较，再将比较的结果施加于系统进行控制，避免系统偏离预定目标。通过位置闭环的伺服电机控制，将抓取到的工件按规定角度摆放到指定位置，即完成一轮抓取工作，随后可进行下一次抓取工作。

本发明的有益效果：本系统采用双目工业相机构建视觉系统，并配合六自由度的工业机器人，对实现机械臂杂乱摆放抓取(bin-picking)的关键技术进行了研究开发。在Visual Studio平台上利用OpenCV计算机视觉库以及Halcon工业视觉库开发自动标定算法和系统程序，搭建基于Eye-to-Hand手眼模型的工业机器人bin-picking系统平台，并进行手眼标定、双目标定和抓取摆放。利用静态双目图像采集系统采集工件组件的图像，计算机图像采集系统采集的图像对工件组件进行三维空间精准定位并且计算出被抓取工件的外轮廓，机器人根据工件位置及轮廓信息实现对工件组件快速抓取。在工件组件抓取中，计算机根据训练好的卷积神经网络目标识别算法(Yolov3)的识别定位、全卷积神经网络语义分割算法(U-net)的目标轮廓分割，平稳的控制机器人反复调节机械手与工件组件之间的相对位置，直至工件组件完成抓取及放置工作；机器人完成工件组件的抓取放置操作均由计算机自动控制，使抓取更智能化；通过训练好的卷积神经网络(CNN)模型，可以使工件组件抓取过程更稳定、更精准，并且CNN共享卷积核，可以处理高维数据、提取图像特征能力强、适应性更强，计算机运算速度快，特征提取和模式分类同时进行，并同时在训练中产生，优化工件组件的抓取过程，降低生产成本，提高生产效率。

附图说明

图1是本发明的系统目标抓取流程框图；

图2是训练过程的loss下降曲线图；

图3是识别率最高的工件计算出识别到的目标的区域中心点像素坐标示意图；

图4是物体轮廓勾与周围环境分割后的示意图；

图5是标定板的示意图；

图6是理想双目相机成像模型的示意图；

图7是数学模型AX＝XB的求解Tsai的模型框图；

图8是本系统的MFC系统界面示意图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

一种基于多模特征深度学习的机器人视觉抓取系统的目标抓取方法，从图1可以看出，其中包括以下步骤：

步骤33)：通过labelImg程序标注出工件，划分出工件识别训练集、工件识别测试集、工件识别验证集后，在NVIDIA GPU上进行训练，得到基于tensorflow框架的卷积神经网络目标识别模型Yolov3。可以从图2看出训练过程的loss下降曲线，利用训练好的模型进行被抓件的识别，可以从图3看出，每次选择识别率最高的工件计算出识别到的目标的区域中心点像素坐标；

步骤33)中，计算工件目标的区域中心点像素坐标的步骤为：

则区域中心点像素坐标的计算公式为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(object)*IOU)(b,Object)＝σ(t_o)

(c_x,c_y)是各个cell的左上点像素坐标；

p_h,p_w为先验框(prior,anchor)相对于特征图的长和宽；

其中先验框：通常情况下模型预测到的框和真实目标所在的框有差异，所以我们希望有一个方法对模型预测到的框进行调整，使得预测到的框更接近真实目标所在的框。虽然我们不能约束预测框的位置，但是可以统一真实框的位置。我们将假设我们将所有真实框的长宽都设为128，把这个长宽都为128的框叫做先验框(Anchor)，那么这样模型学习到的系数都会偏向这个先验框。通过平移+变换的操作让预测框变回真实框。Yolov3有9种先验框：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。

特征图：一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Yolov3采用了3个不同尺度的特征图来进行对象检测，分别是13*13，36*26，52*52。

预测边界框相对于原照片的像素坐标实际值等于(b_x,b_y,b_w,b_h)除以对应的要素图feature map的尺寸，再乘以原照片的尺寸。

步骤41)：获取步骤32得到的扩充工件图片数据集；

采用U-net语义分割网络将目标物体进行分割，将目标物体与周围环境背景分隔开。U-net与其他常见的分割网络有一点非常不同的地方：U-net采用了完全不同的特征融合方式：拼接，U-net采用将特征在channel维度拼接在一起，形成更厚的特征。而FCN融合时使用的对应点相加，并不形成更厚的特征。所以语义分割网络在特征融合时有两种办法：1.FCN式的对应点相加，对应于tensorflow中的tf.add()函数；2.U-net式的channel维度拼接融合，对应于tensorflow的tf.concat()函数。

U-net中一个标准的上采样block，运用了一个跳连接把前面的特征图和上采样后的特征图concat到一起，目的是使得上采样后的特征图具有更多的浅层语义信息，增强分割精度，最后一层直接一个sigmoid二分类把mask分为前景和背景。

x＝Conv2DTranspose(256,(2,2),strides＝(2,2),padding＝'same')(x)

x＝BatchNormalization()(x)

x＝Activation('relu')(x)

x＝concatenate([x,b3])

x＝Conv2D(256,(3,3),padding＝'same')(x)

x＝BatchNormalization()(x)

x＝Activation('relu')(x)

x＝Conv2D(256,(3,3),padding＝'same')(x)

x＝BatchNormalization()(x)

x＝Activation('relu')(x)

步骤43)：结合所述工件目标的区域中心点像素坐标和所述全卷积神经网络语义分割模型U-net对双目视觉平台拍摄的照片进行工件目标和外部环境分割。可以从图4中看出，利用目标识别网络计算出物体中心点坐标后再通过语义分割网络(U-net)将物体轮廓勾与周围环境分割出。

步骤51)：利用张正友标定法获取单目相机的内参数、外参数；

所述内参数和外参数利用张正友标定法通过拍摄一组棋盘格标定板的照片由C++和opencv库计算得到；

其中内参矩阵为：

其中内参矩阵：

f:焦距，单位毫米；

f_x:使用像素来描述x轴方向焦距的长度；

f_y:使用像素来描述y轴方向焦距的长度；

u₀,v₀:主点坐标，单位也是像素；

γ:为坐标轴倾斜参数，理想情况下为0；

外参矩阵为：

步骤52)：利用步骤51)求得的内参矩阵与外参矩阵，通过张正友标定法计算相机畸变系数，做与畸变相反的变换，消除畸变，得到单目相机参数；

内参矩阵为：

径向畸变(k1,k2,k3)：[-0.0877380616380599 0.153589113078236 -0.0852569993337717]

切向畸变(p1,p2):[0 0]

其中，(u,v)代表理想无畸变的像素坐标，

通过相机模型计算出(x,y)；

通过已求得的内参矩阵中得到(u₀,v₀)；

由相机模型中物体的世界坐标点解出(u,v)；

步骤523)：用一点求得径向畸变参数；

则角点m_ij的概率密度函数为：

构造似然函数：

L取得最大值，下面式子最小：

采用Halcon工业视觉库使用9点法进行手眼标定，可以从图5中看出，标定板示意图，通过机器人的末端行经9个点得到在机械臂坐标系，同时还要用计算机识别9个点计算出像素坐标；通过求解经典数学模型AX＝XB得到图像像素坐标系到机械臂坐标系的变换矩阵；

其中求解经典数学模型AX＝XB：

可以从图7中看出，数学模型AX＝XB的求解Tsai的模型框图；

其中：

表示摄像机(camera)坐标系相对于机器人基坐标系(也是世界坐标，world)的齐次变换矩阵；

和

和

是一个常量矩阵；

令

其中，R为旋转矩阵，t为平移向量，r₃设定在世界坐标系中物点所在平面过世界坐标系原点且与Z_w轴垂直，得到Z_w＝0转换成上式的形式；

其中变换矩阵X为：

s₀m＝K[R,T]X

把K[r1,r2,t]叫做单应性矩阵H，即

H＝[h₁ h₂ h₃]

[h₁ h₂ h₃]＝λA[r₁ r₂ t]；

具体计算公式为：

可以从图6中看出，理想双目相机成像模式示意图；

根据三角形相似定律：

所述机器人正、逆运动学模型(D-H)为：M＝f(q_i)；

可以从图8中看出，MFC系统界面示意图，通过MFC系统界面，将系统各个部分联系在一起，对系统的流畅程度进行整体优化，在保证识别精度的同时提高识别及抓取的速度。

系统界面解释：

(1)上方2个图像显示框为双目相机采集得到的图像显示框；

(2)下方图像显示框为对工件框拍摄的图片经过Yolov3目标识别网络处理后的图片，图中粉色框为识别到的工件；

(3)右侧“采集图像”按钮功能为：初始化双目相机并与计算机建立起通讯；

(4)右侧“保存图像”按钮功能为：同时储存双目相机拍到的图像；

(5)右侧“双目标定”按钮功能为：系统自动进行双目标定功能，为双目立体重构和测距做基础；

(6)右侧“手眼标定”按钮功能为：系统自动进行手眼标定功能，为机械手定位抓取做基础；

(7)右侧“初始化”按钮功能为：初始化机械手，与机械手建立通讯并且使机械手运动到设定好的初始位置；

(8)右侧“Yolo”按钮功能为：通过训练好的Yolov3网络以及U-net网络对拍摄到的工件框中的工件进行目标识别、目标分割、定位，并且将三维坐标经手眼标定后得到的变换矩阵转换为机械手坐标系下的基坐标，再将转换后的三维坐标通过伺服通讯协议发送给机械手，控制机械手进行抓取并移动到指定位置在放下；

(9)右侧文本编辑框中“ID”为：将抓取识别到的第几号工件(从第0号起)；

“X、Y、Z”：像素坐标系下工件的三维坐标；

“QX、QY、QZ”：机械手坐标系下工件的三维坐标；

本发明的工作原理：先初始化双目视觉平台以及工业机械臂，左右相机同时对物料框拍摄照片，利用卷积神经网络算法(Yolov3)识别到被抓取目标并获取目标像素坐标，使用语义分割算法(U-net)将不规则形状工件与周围环境分割出来，通过手眼标定算法将识别到的目标像素坐标转换到机械手坐标系下，再使用双目相机系统经过三维立体重构求得该目标深度信息。对机械臂建立机器人正、逆运动学模型(D-H)，通过与机械臂的伺服控制将机械臂运行到目标所在位置将目标抓取，随后将目标摆放到指定位置，完成一次抓取控制。

应当指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换，也应属于本发明的保护范围。