CN109344882A

CN109344882A - 基于卷积神经网络的机器人控制目标位姿识别方法

Info

Publication number: CN109344882A
Application number: CN201811059293.5A
Authority: CN
Inventors: 周乐; 戴世请; 李正刚; 侯北平; 陈立; 冯玖强; 介婧; 郑慧
Original assignee: Zhejiang Lover Health Science and Technology Development Co Ltd
Current assignee: Zhejiang Lover Health Science and Technology Development Co Ltd; Zhejiang University of Science and Technology ZUST
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-02-15
Anticipated expiration: 2038-09-12
Also published as: CN109344882B

Abstract

本发明公开了一种基于卷积神经网络的机器人控制目标位姿识别方法，包括：(1)利用双目摄像机采集控制目标不同位姿的图像数据组成样本数据集；(2)对样本数据集进行标签标注；(3)构建深层卷积神经网络模型；(4)采集新的图像样本，利用所述深层卷积神经网络模型求取新的图像样本的特征点像素坐标；(5)求取双目摄像机对应的投影矩阵；(6)求取特征点像素坐标对应的特征点三维坐标；(7)将特征点三维坐标变换映射至机器人控制坐标系，得到控制目标的位姿信息。本发明既充分利用物体特征信息，又充分考虑到外界干扰的影响，同时避免了普通深度神经网络对位置，姿态信息难以标定的问题，对机器人控制目标姿态检测技术实现了提升。

Description

基于卷积神经网络的机器人控制目标位姿识别方法

技术领域

本发明属于机器人控制技术领域，具体是涉及一种基于卷积神经网络的机器人控制目标位姿识别方法。

背景技术

在现代工业生产过程中，随着工业机器人在工业领域的广泛应用，一些不适合于人工作业的危险工作环境或简单而重复的大批量工业生产操作已经逐步被机器作业替代。在工业制造现场，工业机器人能够实现对产品实行高效的抓取、分拣操作，但是机器操作精度受机器视觉系统对产品识别定位，姿态估计等各方面检测精度限制而较难满足于工业生产应用，从而限制了工业机器人的普及应用，对于满足工业生产的视觉检测方法的研究是一种挑战。同时，随着基于物体特征的机器视觉技术和图像处理算法的不断进步，具有优越性能的机器视觉系统在工业生产领域得到广泛应用。其中，基于提取颜色特征的算法简单且具有缩放旋转以及平移不变性，但颜色信息不足之处在于忽略了图像中的空间位置关系，并且颜色特征受外界光照因素干扰大。基于纹理特征物体检测方法能够很好的获取物体结构和空间信息，但对于某些工业产品其表面纹理特征不明显，基于纹理特征的检测方法适用性不高。而基于卷积神经网络的分类方法具有自适应性，能够自学习的提取分类所需的特征，但是该方法需要大量标注数据，且存在人工难以对位置和姿态等信息准确标定的问题。因此，需要提出一种既可以充分利用待检测目标特征，又能直观而准确表示机器人控制目标位姿信息的检测技术。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于卷积神经网络的机器人控制目标位姿识别方法。

本发明利用先进的数据处理技术、深度学习技术，避免了手工设计特征的复杂过程，并且能够克服图像形变、遮挡、光照变化等影响，对机器人控制目标特征点进行学习，随后应用双目视觉技术反求特征点空间坐标进而对机器人控制目标位姿进行估计。

一种基于卷积神经网络的机器人控制目标位姿识别方法，包括如下步骤：

(1)利用双目摄像机采集正常运行过程中机器人控制目标不同位姿的图像数据作为样本图像，组成数据建模用的样本数据集；

(2)对样本数据集内的样本图像进行标签标注，所述标签由姿态类别和特征点像素坐标组成；

(3)利用标注后的样本数据集构建深层卷积神经网络模型；

(4)采集控制目标新的图像样本，利用构建得到的深层卷积神经网络模型求取新的图像样本的姿态类别与特征点像素坐标；

(5)求取双目摄像机对应的投影矩阵，建立像素坐标与空间坐标之间的变换关系；

(6)根据像素坐标与空间坐标之间的变换关系，求取步骤(4)中所述特征点像素坐标对应的特征点三维坐标；

(7)将求得的特征点三维坐标变换映射至机器人控制坐标系，得到机器人控制坐标系下控制目标的位姿信息。

本发明中，双目摄像机包括两个摄像机镜头，两个镜头的位置和方向可根据实际机器人控制场景、控制目标设定，可通过若干次实验确定。同时可根据需要设置对应的光源，以保证双目摄像机能够采集到清楚的图片样本。

本发明中，所述机器人控制目标可以是需要灌装或者其他工业处理的瓶体，也可以是与位姿确定相关的其他工业产品，比如可以是各种工业生产中的产品分拣、零件装配等。

本发明中，不同位姿中某一类位姿可以是特定的一个位姿，也可以是一个位姿范围确定的位姿类别。某一类位姿，可以采集一个图像，也可以是采集多个图像，作为优选，一般采集多个图像。

作为优选，步骤(2)进行标签标注前，先对得到的样本图像进行预处理，得到设定大小的样本图像(比如样本图像大小均为H×W。其中，H表示图像长度；W为图像宽度)，然后再进行标签标注。

作为优选，步骤(2)进行标签标注时，某一类姿态下的特征点为该类姿态下能观察到的机器人控制目标表面点。采用该技术方案，可以避免在某一类位姿状态下，机器人采集的特征点被遮挡的情况，保证所有采集的特征点均为可观察到的特定点。

本发明中特征点的设置可以是机器人控制目标的顶点，也可以是控制目标某一棱或者某一个面上点，特征点的数量以及位置等可根据控制目标的放置角度以及复杂程度等确定。

本发明中，所述姿态类别可根据实际控制目标的姿态进行设定，比如可分为左侧立、右侧立、左前倒、右前倒、左后倒、右后倒六种姿态类别等。作为优选，所述姿态类别采用独热编码形式。

本发明中，步骤(3)中，构建深层卷积神经网络模型时，采用梯度下降来更新模型参数使损失函数最小化。然后，反复迭代直至达到模型收敛条件；具体为：

首先，在步骤(2)获得一个标注后的样本数据集的基础上，使用均匀随机抽样的方式将样本数据集划分为训练集、验证集、测试集，这三个集合不能有交集。训练集用于训练模型的普通参数，普通参数就是可以被梯度下降所更新的参数；验证集用于人工调节模型的超参数，超参数包括网络层数、网络节点数、迭代次数、学习率等；测试集用于最终模型性能评价。

然后，搭建深层卷积神经网络模型架构：

(3-1)定义网络结构。输入为H×W矩阵，输出长度为16的向量。

(3-2)初始化模型参数。据人工经验选择超参数，如网络层数、卷积核大小、学习率等，然后初始化普通参数。

(3-3)训练阶段。输入样本数据集中训练集与验证集部分，执行前向传播计算损失，执行反向传播更新模型普通参数，期间观察验证集表现调整超参数设置。

(3-4)模型评价。模型输入测试集，观察模型表现，若模型在测试集上表型不佳，即泛化能力不足，则选择增加样本数据集、改变模型结构等操作，重复步骤(3-2)和(3-3)，直至获取具有较优性能的卷积神经网络模型。

作为优选，步骤(5)中，双目摄像机对应的投影矩阵分别为：

M_left为其中一个摄像机的投影矩阵，M_right为另外一个摄像机投影矩阵；

所述像素坐标与空间坐标之间的变换关系为：

其中：z_c1,z_c2分别为特征点位于左右摄像机的摄像机坐标系中Z_c方向分量的取值；(u₁,v₁)，(u₂,v₂)分别为两个摄像机中的特征点像素坐标；(x_w,y_w,z_w)为待求的特征点三维坐标。

双目摄像机所拍摄到的左右图像中同一特征点的左右两个二维像素坐标唯一对应着世界坐标下一个空间点。这样的对应关系是由摄像机成像的几何模型所决定的，这样的几何模型就是摄像机的参数，参数主要分为内部参数和外部参数，获得这些参数的过程就是摄像机标定。

作为优选，所述M_left或M_right均采用张正友的平面标定方法获取。

作为优选，步骤(6)中，所述特征点三维坐标(x_w，y_w，z_w)由如下方程组求得：

四个方程仅存在x_w，y_w，z_w三个未知数，可采用最小二乘法唯一求解。

根据步骤(6)计算可得到若干个特征点的空间坐标，接着需要将所求得空间坐标进行旋转平移变换，映射至机器人控制坐标系，以此可以重构机器人控制坐标系下控制目标的位姿，所需的特征点数目取决于机器人控制目标的几何外形复杂程度。

本发明的基于卷积神经网络的机器人控制目标姿态识别方法，以工业生产过程中机器人控制目标不同位姿图片为样本，在充分考虑到工业生产过程中光照、背景等干扰因素影响的情况下，提取出能够自适应，自学习提取物体特征的卷积神经网络模型，并根据提取到的特征信息实现用于机器人控制目标若干个特征点的学习，并在卷积神经网络模型学习到目标特征点像素坐标的基础上，采用双目视觉定位技术，实现对特征点空间坐标的确定。然后根据若干个特征点空间坐标信息映射至实际位姿信息。

本发明的识别方法对机器人控制目标特征提取既可以充分利用物体特征信息，又充分考虑到外界干扰的影响，同时避免了普通深度神经网络对位置，姿态信息难以标定的问题，从而对机器人控制目标姿态检测技术实现了提升。

具体实施方式

以灌装过程中瓶体位姿的检测过程为例，对本发明做进一步说明：

一种基于卷积神经网络的机器人控制目标姿态学习方法，该方法针对瓶体抓取过程中的位姿检测问题，首先选取合理的双目间距与适当的拍摄角度搭建双目视觉平台，采集正常工作状态下瓶体多种位姿数据，随后对位姿图片数据进行特征点标定，建立瓶体特征点学习模型。该模型结构由卷积神经网络经样本数据训练得到。在此基础上，利用模型对在线生产过程进行瓶体特征点学习，获得瓶体特征点图像像素坐标，然后利用双目视觉平台计算出相应的特征点空间坐标，并根据若干个特征点空间坐标估计瓶体位姿，得到最终的瓶体位姿检测结果。该方法是实现工业机器人的精准控制的基础，可应用于工业生产中的产品分拣、零件装配、瓶体灌装等工业流程。

本发明是一种基于卷积神经网络的机器人控制目标位姿学习方法，包括以下步骤：

第一步：样本数据集获取。按照特定生产场景的特点，搭建双目视觉平台，利用双目视觉平台采集该工业生产场景下，正常运行过程中机器人控制目标不同位姿的图像数据作为样本图像，组成数据建模用的样本数据集。该步骤中，针对某一类位姿的控制目标，可以采集多个样本图像。

第二步：样本数据集预处理。对样本数据集进行裁剪处理，使得样本数据集中各个样本图像大小均为H×W。其中，H表示图像长度；W为图像宽度；

随后对预处理后的样本数据集进行标签标注。在瓶体不同姿态的情况下，在获取的样本图像上所能观察到的瓶体表面点根据姿态的改变而改变。例如，若选取瓶体左肩用于后期位姿估计需要的特征点，可是当瓶体姿态为右侧立的时候，该特征点会被瓶体本身遮挡，无法在样本图像中观察到。为了避免特征点学习过程中相应特征点被遮挡的问题。将机器人控制目标的姿态划分为若干类，分别选取若干个该类姿态下能观察到的瓶体表面点作为位姿估计所需的特征点。标注标签由姿态类别Q和特征点像素坐标P两部分组成：

姿态类别Q。对预处理后的样本数据集进行姿态类别标签标注。姿态类别由实际应用工业过程与控制目标复杂程度共同确定。首先考虑控制目标在工业过程中的机器人操作情况，如吸盘吸取点、机械臂抓取位置等方面考虑，随后根据控制目标的复杂程度考虑需要多少个姿态类别与特征点能较好的区别不同位姿情况，方便机器人操作。标签采用独热编码形式，假设分为左侧立、右侧立、左前倒、右前倒、左后倒、右后倒六种姿态类别，其姿态类别Q＝[q₁,q₂,q₃,q₄,q₅,q₆]的表现形式分别如下：

左侧立：[1,0,0,0,0,0]

右侧立：[0,1,0,0,0,0]

左前倒：[0,0,1,0,0,0]

右前倒：[0,0,0,1,0,0]

左后倒：[0,0,0,0,1,0]

右后倒：[0,0,0,0,0,1]

姿态类别Q相应的损失函数Loss1如下：

其中，Q为姿态类别的正确答案，Q′为姿态类别的预测值，q_i′表示某一姿态类别可能概率的预测，由后续的深层卷积神经网络模型得到，q_i表示某一姿态类别的正确答案。n＝6为姿态类别数。

特征点像素坐标P。姿态分类后，对每个姿态类别的图像分别选取若干个无遮挡特征点，获取特征点对应的图像像素坐标。假设选取了四个特征点为A,B,C,D，各个特征点的像素坐标分别为(p₁,p₂),(p₃,p₄),(p₅,p₆),(p₇,p₈)。其特征点像素坐标P形式如下所示：

[p₁,p₂,p₃,p₄,p₅,p₆,p₇,p₈]

其中，p₁,p₃,p₅,p₇∈(0,H)，p₂,p₄,p₆,p₈∈(0,W)。

特征点像素坐标P相应的损失函数Loss2如下：

其中，P为特征点像素坐标的正确答案，P′为特征点像素坐标的预测值，p_i′表示某一特征点的某一分量预测值，p_i表示某一特征点的正确答案，m＝8为P中元素个数。

一个完整的标签[Q,P]由姿态类别Q与特征点像素坐标P组成，假如一张待标注样本为左侧立姿态，且选取的特征点数目为4个。

其完整标签[Q,P]表现为：[1,0,0,0,0,0,p₁,p₂,p₃,p₄,p₅,p₆,p₇,p₈]

完整标签相应的损失函数Loss如下：

Loss＝(1-k)·Loss1+k·Loss2 (3)

其中，k为一个常数。

第三步：模型训练。构建深层卷积神经网络模型，采用梯度下降来更新模型参数使损失函数值减小。然后，反复迭代使损失函数最小化，即模型收敛。

首先，在第二步获得一个标签标注的样本数据集的基础上，使用均匀随机抽样的方式将样本数据集划分为训练集、验证集、测试集，这三个集合不能有交集。训练集用于训练普通参数，普通参数就是可以被梯度下降所更新的参数；验证集用于人工调节超参数，超参数包括网络层数、网络节点数、迭代次数、学习率等；测试集用于最终模型性能评价。

然后，搭建深层卷积神经网络模型架构。1)定义网络结构。输入为H×W矩阵，输出长度为16的向量。2)初始化模型参数。据人工经验选择超参数，如网络层数、卷积核大小、学习率等，然后初始化普通参数。3)训练阶段。输入样本数据集中训练集与验证集部分，执行前向传播计算损失函数，并将损失函数值反向传播，采用梯度下降更新模型普通参数来降低损失函数值，然后反复迭代使损失函数最小化，即模型收敛，期间观察验证集损失函数值调整超参数设置。4)模型评价。模型输入测试集，观察模型表现，若模型在测试集上表型不佳，即泛化能力不足，则选择增加样本数据集、改变模型结构等操作，重复2)、3)，直至获取具有较优性能的卷积神经网络模型。

第四步：模型特征点学习。利用双目视觉平台采集新的图像样本，通过训练好的新模型和模型参数对新图像进行特征点学习，输出新样本信息，包含姿态类别与特征点的像素坐标。

第五步：双目摄像机标定。双目摄像机所拍摄到的左右图像中同一特征点的左右两个二维像素坐标唯一对应着世界坐标下一个空间点。这样的对应关系是由摄像机成像的几何模型所决定的，这样的几何模型就是摄像机的参数，参数主要分为内部参数和外部参数，获得这些参数的过程就是摄像机标定。

首先，建立坐标系。摄像机标定过程中有如下几个坐标系：

世界坐标系O_W-X_WY_WZ_W：由用户任意定义的三维空间坐标系，一般的三维场景都用这个坐标系来表示，是空间场景的绝对坐标系。

摄像机坐标系O_C-X_CY_CZ_C：以摄像机光心为原点，以垂直于成像平面的摄像机光轴为Z轴建立三维直角坐标系。其中该坐标系的X轴和Y轴一般与图像物理坐标系的相应x轴和y轴平行，两轴所在平面平行于成像平面。左摄像机坐标系O_C1-X_C1Y_C1Z_C1，右摄像机坐标系O_C2-X_C2Y_C2Z_C2。

图像物理坐标系O_P-XY：原点为透镜光轴与成像平面的交点，X与Y轴分别平行于摄像机坐标系的x与y轴，是平面直角坐标系，长度单位为毫米。左摄像机图像物理坐标系O_P1-X₁Y₁，右摄像机图像物理坐标系O_P2-X₂Y₂。

图像像素坐标系O_pix-UV：为固定在图像上的以像素为单位的平面直角坐标系，其原点位于图像左上角,坐标轴平行于图像物理坐标系的X和Y轴。左摄像机图像像素坐标系O_pix1-U₁V₁，右摄像机图像像素坐标系O_pix2-U₂V₂。

其次，摄像机成像坐标系变换。

1)摄像机坐标世界坐标：

其中，(x_w,y_w,z_w)为空间点的世界坐标系齐次坐标；(x_c,y_c,z_c)为空间点的摄像机坐标系齐次坐标；(t₁,t₂,t₃)表示世界坐标系的原点在摄像机坐标系中的坐标，令t＝(t₁,t₂,t₃)^T，称为平移向量；r_ij表示摄像机坐标系中的第i个坐标轴方向的单位向量在世界坐标系里的坐标，世界坐标系中的第j个坐标轴方向的单位向量在摄像机坐标系里的坐标，令r₁＝(r₁₁,r₂₁,r₃₁)^T，r₂＝(r₁₂,r₂₂,r₃₂)^T，r₃＝(r₁₃,r₂₃,r₃₃)^T，R＝[r₁,r₂,r₃]，O^T＝(0,0,0)；则上述公式可以简化为：

其中R称为旋转矩阵，对于旋转向量r₁,r₂,r₃，有下式成立：

2)摄像机坐标图像物理坐标：

其中(x,y)为像点图像物理坐标系齐次坐标；f为摄像机焦距。

3)图像物理坐标图像像素坐标：

其中，(u,v)为像点的图像像素坐标系齐次坐标；(u₀,v₀)为摄像机光学中心在成像平面上的投影位置；θ为成像平面纵横坐标轴的夹角，其取值接近90°；d_x，d_y分别表示每个像素在成像平面x，y方向上的确定物理尺寸，即表示一个像素为多少毫米。

联合1)2)3)坐标变换公式得：

其中α,β,γ为均为中间变量，其值分别为α＝f/d_x，β＝f/(d_y·sinθ)，γ＝-fcotθ/d_x。

化简得：

其中s＝z_c为尺度因子,它的出现只是为了方便运算，而且对于齐次坐标，尺度因子不会改变坐标值；M₁为摄像机内参矩阵，由α，β，γ，u₀，v₀决定，由于α，β，γ，u₀，v₀只与摄像机内部参数有关，称这些参数为内部参数；M₂＝[r₁r₂r₃t]为摄像机外参矩阵，[r₁r₂r₃]和t分别是摄像机坐标系相对于世界坐标系的旋转矩阵和平移向量，称为摄像机外部参数；M＝M₁M₂，称为投影矩阵。

最后，采用张正友的平面标定方法获取摄像摄像机机内部参数与外部参数，便可建立像素坐标与空间坐标之间的变换。

第六步：三维反求空间坐标。在深度卷积神经网络模型学习输出图像类别标签P与对应特征点像素坐标Q前提下，采用双目视觉系统，通过摄像机标定得到的投影矩阵M反求特征点三维坐标。

其中，s₁,s₂分别为左右摄像机的尺度因子；(u₁,v₁)，(u₂,v₂)分别为左右摄像机像素坐标；(x_w,y_w,z_w)为待求特征点三维坐标M_left为左摄像机投影矩阵，M_right为右摄像机投影矩阵。

M_left，M_right均可通过摄像机标定获得，令其取值如下：

则左右摄像机投影公式如下：

其中，z_c1,z_c2分别为空间点位于左右摄像机的摄像机坐标系中Z_c方向分量的取值，具体取值难以确定。

化简得：

其中(u₁,v₁)，(u₂,v₂)就是卷积神经网络学习到的特征点投影至左右摄像机成像平面的像素坐标，因此，四个方程仅存在x_w，y_w，z_w三个未知数，可采用最小二乘法唯一求解。

第七步：位姿估计。根据第六步计算可得到若干个特征点的空间坐标，接着需要将所求得空间坐标进行旋转平移变换，映射至机器人控制坐标系(类似上面世界坐标系变换至摄像机坐标系，此处为世界坐标系变换至机器人控制坐标系，通过旋转平移达到，根据具体情况决定)，以此可以重构机器人控制坐标系下控制目标的位姿，所需的特征点数目取决于机器人控制目标的几何外形复杂程度。

Claims

1.一种基于卷积神经网络的机器人控制目标位姿识别方法，其特征在于，包括：

(3)利用标注后的样本数据集构建深层卷积神经网络模型；

2.根据权利要求1所述的基于卷积神经网络的机器人控制目标位姿识别方法，其特征在于，步骤(2)进行标签标注前，先对得到的样本图像进行预处理，得到设定大小的样本图像，然后再进行标签标注。

3.根据权利要求1所述的基于卷积神经网络的机器人控制目标位姿识别方法，其特征在于，步骤(2)进行标签标注时，某一类姿态下的特征点为该类姿态下能观察到的机器人控制目标表面点。

4.根据权利要求1所述的基于卷积神经网络的机器人控制目标位姿识别方法，其特征在于，步骤(3)中，构建深层卷积神经网络模型时，采用梯度下降来更新模型参数使损失函数最小化。

5.根据权利要求1所述的基于卷积神经网络的机器人控制目标位姿识别方法，其特征在于，步骤(5)中，双目摄像机对应的投影矩阵分别为：

所述像素坐标与空间坐标之间的变换关系为：

6.根据权利要求5所述的基于卷积神经网络的机器人控制目标位姿识别方法，所述M_left或M_right均采用张正友的平面标定方法获取。

7.根据权利要求6所述的基于卷积神经网络的机器人控制目标位姿识别方法，步骤(6)中，所述特征点三维坐标(x_w，y_w，z_w)由如下方程组求得：

8.根据权利要求7所述的基于卷积神经网络的机器人控制目标位姿识别方法，采用最小二乘法求取所述特征点三维坐标(x_w，y_w，z_w)。