CN115147488A

CN115147488A - 一种基于密集预测的工件位姿估计方法与抓取系统

Info

Publication number: CN115147488A
Application number: CN202210789995.9A
Authority: CN
Inventors: 王耀南; 刘学兵; 朱青; 袁小芳; 冯明涛; 周显恩; 冯运; 谭浩然; 唐永鹏; 武子杰
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-04
Anticipated expiration: 2042-07-06
Also published as: CN115147488B

Abstract

本发明公开了一种基于密集预测的工件位姿估计方法与抓取系统，搭建密集逐像素预测网络并训练，获取包含工件的场景RGB图像输入该预测网络，利用网络中的特征金字塔网络提取图像的逐像素卷积特征，采用三个回归分支网络从逐像素卷积特征中分别预测逐像素的语义信息、中心点信息和关键点信息，利用前述信息进行多工件实例分割，得到每个工件实例的密集关键点预测，采用投票策略确定各工件关键点2D位置，通过工件关键点2D位置以及对应工件模型上的3D位置建立2D‑3D对应关系，采用UD‑PnP算法计算工件的6D位姿。该方法网络结构简单、鲁棒性强、执行速度快，适合复杂工业场景下弱纹理、多工件任意位姿工件的抓取任务。

Description

一种基于密集预测的工件位姿估计方法与抓取系统

技术领域

本发明涉及机器人视觉感知及工件抓取应用领域，具体涉及一种基于密集预测的工件位姿估计方法与抓取系统。

背景技术

机器人抓取是工业自动化生产中最基本的任务，其目的在于代替人工完成工业零件的上料、装配、分拣等繁琐任务。在典型工件抓取任务中，机器人需要在包含多个工件物体的杂乱场景中识别出指定工件，并抓取其放置在指定位置。一般而言，工业零件表面纹理较弱，并且随机地以任意姿态放置或堆叠场景中，给工件位姿估计任务带来巨大的挑战。

传统目标位姿估计通常采用模板匹配方法，将场景下目标图像与数据库进行匹配找到最佳视图，或者通过特征点匹配建立目标图像2D关键点与物体3D模型的对应关系，然后采用PnP(Perspective-n-Point)方法计算出目标位姿。由于这些方法依赖人工图像特征计算，位姿求解精度易受图像噪声、杂乱场景和光照变化影响。

随着深度学习技术的发展，近年来基于卷积神经网络(convolution neuralnetwork，CNN)的目标位姿估计研究取得重要进展，这类方法以原始相机采集图像作为输入，采用端到端的方式直接回归位姿参数。PoseNet作为开创性的位姿估计方法，提出了一种基于CNN的网络框架，可以从单个图像中回归目标6D位姿。进一步，PoseCNN将目标位姿估计分解成三个任务，目标类别、3D位置和3D姿态，进一步提高了算法精度。此外，为了解决图像数值和位姿参数之间的非线性关系，一些方法采用2D-3D对应点的思路，CNN网络用于回归目标物体在图像上的2D关键点坐标，然后采用PnP方法计算位姿。然而，这些方法大多针对纹理丰富的室内家居物体所设计的，无法直接应用于工业场景中纹理较弱的零件，并且对于场景中存在的多实例工件，往往需要引入额外的实例分割方法以区别不同工件的位姿计算。此外，在机器人抓取应用场景中，要求视觉算法执行效率高、性能可靠稳定，面对计算性能普遍偏低的工控机硬件平台，算法开发难度大。

因此，如何解决工业场景下弱纹理、多工件实例的位姿估计，提高精度以满足机器人抓取需求成为本领域技术人员亟需解决的问题。

发明内容

本发明的目的是提供一种基于密集预测的工件位姿估计方法及机器人抓取系统，其能够利用有限的计算资源解决工业场景下弱纹理、多实例工件的位姿估计。

针对以上技术问题，本发明提供一种基于密集预测的工件位姿估计方法及机器人抓取系统。

本发明解决其技术问题采用的技术方案是：

一种基于密集预测的工件位姿估计方法，包括如下几个步骤：

步骤S1：搭建密集逐像素预测网络，网络包括特征金字塔网络和三个回归分支网络，特征金字塔网络用于对输入的RGB图像进行特征提取，以获得图像的逐像素卷积特征，三个回归分支网络分别对输入的逐像素卷积特征进行密集逐像素信息预测；

步骤S2：将预设的训练集输入至搭建好的密集逐像素预测网络进行训练，得到训练后的网络，根据预设的损失函数计算网络的损失值，并反向传播更新网络的网络参数，得到更新后的密集逐像素预测网络；

步骤S3：获取包含多个工件场景下的RGB图像，将其输入至更新后的密集逐像素预测网络中，得到每个像素所属工件实例的语义信息、中心点信息和关键点信息；

步骤S4：根据所述每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，从逐像素关键点信息预测中得到每个工件实例的密集关键点预测，采用投票策略确定各工件关键点2D位置；

步骤S5：通过工件关键点2D位置以及对应工件模型上的3D位置建立2D-3D对应关系，采用UD-PnP算法计算工件的6D位姿并发送到机器人抓取系统中，实现工业场景下任意位姿工件的抓取任务。

优选地，步骤S1中的特征金字塔网络以ResNet-18网络为主干网络，舍弃其“layer3”及后续卷积层，通过3次2倍上采样操作，将卷积特征图尺寸恢复至输入图像大小，并且利用跨连接操作将相同尺寸的下采样特征和上采样特征进行融合。

优选地，三个回归分支网络分别为逐像素语义预测网络、逐像素中心点预测网络和逐像素关键点预测网络，步骤S1中的三个回归分支网络分别对输入的逐像素卷积特征进行密集逐像素信息预测，包括：

逐像素语义预测网络对输入的逐像素卷积特征进行密集逐像素语义信息预测，得到预测逐像素语义信息；

逐像素中心点预测网络对输入的逐像素卷积特征进行密集逐像素中心点信息预测，得到预测逐像素中心点位置信息；

逐像素关键点预测网络对输入的逐像素卷积特征进行密集逐像素关键点信息预测，得到预测逐像素关键点位置信息和置信度信息。

优选地，步骤S1中三个回归分支网络分别由单层卷积层构成。

优选地，步骤S3中获取包含多个工件场景下的RGB图像，将其输入至更新后的密集逐像素预测网络中得到中心点位置信息，具体为：

其中，v_c(p)为预测的像素p的中心点位置，c|_p,x为像素p所属工件中心点图像x坐标，p|_x为像素p的x值，c|_p,y为像素p所属工件中心点图像y坐标，p|_y为像素p的y值，W和H为输入图像宽、高尺寸；

所述步骤S3中获取包含多个工件场景下的RGB图像，将其输入至更新后的密集逐像素预测网络中得到关键点位置信息和置信度信息，具体为：

其中，v_k(p)为预测的像素p的关键点位置，x为像素p所属工件的关键点图像坐标，下标k区别不同关键点，p为像素p的坐标；

其中，s_k(p)为每个关键点预测的置信度，x为像素p所属工件的关键点图像坐标。

优选地，步骤S2中预设的损失函数具体为：

其中，

为网络的总损失，α、β、γ分别为语义分支、中心点分支和关键点分支权重因子，

为语义分支网络损失函数，采用交叉熵损失，

为中心点分支网络损失函数，采用L2损失，

为关键点分支网络损失，采用smooth L1损失，由位置损失

和置信度损失

构成，

为网络预测的像素p中心点位置，

为其对应真值，

为网络预测的像素p关键点位置，

为其对应真值，

为网络预测的像素p关键点位置置信度值，

为其对应真值。

优选地，步骤S4根据每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，具体为：

步骤S41：对每个像素所属工件实例的语义信息进行softmax()处理，得到每个像素所属工件类别，并利用其从预测的逐像素中心点位置信息中分离出不同类别工件的逐像素中心点位置预测信息；

步骤S42：对每类工件的逐像素中心点位置预测信息进行聚类以得到同类工件不同实例的中心点分布区域；

步骤S43：根据逐像素预测的中心点所属区域对每个像素分配不同实例标签，得到不同工件的实例掩码。

优选地，步骤S42包括：

S421：通过逐像素预测的中心点位置v_c(p)计算工件预测的中心点位置c(p)，具体公式如下：

c(p)＝(W·v_c(p)|_x+p|_x,H·v_c(p)|_y+p|_y)

S422：通过DBSCAN算法对每类工件预测的中心点位置进行聚类，得到同类工件不同实例的中心点分布区域。

优选地，步骤S4中根据密集关键点位置预测采用投票策略算出各工件关键点2D位置，包括：

步骤S44：根据每个关键点预测的置信度s_k(p)，将置信度s_k(p)从大到小排列筛选出前m个关键点预测；

步骤S45：从中随机选择两个像素p₁，p₂以及其关键点预测v_k(p₁)，v_k(p₂)，将其2D平面交点h_k,1作为一个假定关键点，重复若干次以得到若干个假定关键点；

步骤S46：计算每一个假定关键点的投票质量w_k,i：

其中，Ins为工件实例标签，I为指示函数，θ为阈值；

步骤S47：从所有假定关键点中计算出工件各关键点位置的均值和协方差，作为关键点的2D位置，其中均值μ_k和协方差Σ_k的计算公式如下：

基于密集预测的工件位姿估计方法的机器人抓取系统，包括机器人位姿计算模块、通信模块、抓取模块和图像采集模块，

图像采集模块用于实时采集多工件场景下的RGB图像并发送至位姿计算模块；

位姿计算模块采用基于密集预测的工件位姿估计方法计算工件的6D位姿并通过通信模块发送至抓取模块；

抓取模块接收工件的6D位姿信息并抓取目标工件。

上述基于密集预测的工件位姿估计方法和机器人抓取系统，首先通过搭建密集逐像素预测网络并对其进行训练和更新，输入机器人相机上获取的包含工件的场景RGB图像，然后利用密集逐像素预测网络中的特征金字塔网络(Feature Pyramid Networks，FPN)提取图像的逐像素卷积特征，采用三个回归分支网络从图像的逐像素卷积特征中分别预测每个像素的语义信息、所属实例中心点信息和关键点信息，然后根据每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，从逐像素关键点信息预测中得到每个工件实例的密集关键点预测，采用投票策略确定各工件关键点2D位置，然后通过工件关键点2D位置以及对应工件模型上的3D位置建立2D-3D对应关系，最后采用UD-PnP(Uncertainty-driven PnP，不确定性驱动的PnP)算法计算工件的6D位姿并发送到机器人抓取系统中，实现工业场景下任意位姿工件的抓取任务。

该方法通过逐像素密集目标中心点预测方式实现多实例分割任务，算法网络结构更精简、执行效率高，同时引入预测不确定性概念，通过投票评估可以提高位姿预测的可靠性，保证算法精度。可以有效克服目标物体局部纹理特征不明显、缺失或者干扰所引起的回归不确定问题，有利于复杂工业场景下弱纹理、多实例、遮挡堆叠工件的高精度位姿估计需求。

附图说明

图1为本发明一实施例中基于密集预测的工件位姿估计方法流程图；

图2为本发明一实施例中多工件实例分割流程图；

图3为本发明一实施例中投票策略的投票过程流程图；

图4为本发明一实施例中基于密集预测的工件位姿估计方法网络结构示意图；

图5为本发明一实施例中多工件实例分割过程示意图；

图6为本发明一实施例中涉及的机器人抓取系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

参见图1和图4，图1为一种实施方式提供的基于密集预测的工件位姿估计方法的流程图，图4为一种实施方式提供的基于密集预测的工件位姿估计方法网络结构示意图。

一种基于密集预测的工件位姿估计方法，包括以下步骤：

步骤S4：根据每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，从逐像素关键点信息预测中得到每个工件实例的密集关键点预测，采用投票策略确定各工件关键点2D位置；

步骤S5：通过工件关键点2D位置以及对应工件模型上的3D位置建立2D-3D对应关系，采用UD-PnP(Uncertainty-driven PnP，不确定性驱动的PnP)算法计算工件的6D位姿并发送到机器人抓取系统中，实现工业场景下任意位姿工件的抓取任务。

上述基于密集预测的工件位姿估计方法和机器人抓取系统，首先通过搭建密集逐像素预测网络并对其进行训练和更新，输入机器人相机上获取的包含工件的场景RGB图像，然后利用密集逐像素预测网络中的特征金字塔网络(Feature Pyramid Networks，FPN)提取图像的逐像素卷积特征，采用三个回归分支网络从图像的逐像素卷积特征中分别预测每个像素的语义信息、所属实例中心点和关键点信息，然后根据每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，从逐像素关键点信息预测中得到每个工件实例的密集关键点预测，采用投票策略确定各工件关键点2D位置，然后通过工件关键点2D位置以及对应工件模型上的3D位置建立2D-3D对应关系，最后采用UD-PnP算法计算工件的6D位姿并发送到机器人抓取系统中，实现工业场景下任意位姿工件的抓取任务。该方法通过逐像素密集目标中心点预测方式实现多实例分割任务，算法网络结构更精简、执行效率高，同时引入预测不确定性概念，通过投票评估可以提高位姿预测的可靠性，保证算法精度。可以有效克服目标物体局部纹理特征不明显、缺失或者干扰所引起的回归不确定问题，有利于复杂工业场景下弱纹理、多实例、遮挡堆叠工件的高精度位姿估计需求。

在一个实施例中，步骤S1中的特征金字塔网络FPN以ResNet-18网络为主干网络，舍弃其“layer3”及后续卷积层，通过3次2倍上采样操作，将卷积特征图尺寸恢复至输入图像大小，并且利用跨连接操作将相同尺寸的下采样特征和上采样特征进行融合。

在一个实施例中，三个回归分支网络分别为逐像素语义预测网络、逐像素中心点预测网络和逐像素关键点预测网络，分别对输入的逐像素卷积特征进行密集逐像素信息预测，包括：

具体地，三个回归分支网络以FPN网络输出的逐像素图像卷积特征为输入，分别获得每个像素所属工件实例的语义信息、中心点信息和关键点信息，并相应输出逐像素语义信息、中心点位置信息、关键点位置信息和关键点置信度信息。

在一个实施例中，三个回归分支网络分别由单层卷积层构成。

采用上述密集逐像素预测网络，可使各预测信息尺寸与输入卷积特征大小一致，其中张量数据形式分别为[h,w,c+1]，[h,w,c*2]，[h,w,c*k*3]，其中[h,w]为图像尺寸，c为工件类别，k为关键点数量(k＞4)。语义信息使用自然数表示，不同的数表示不同类别，0表示背景。

在一个实施例中，步骤S3中获取包含多个工件场景下的RGB图像，将其输入至更新后的密集逐像素预测网络中得到中心点位置信息、关键点位置信息和置信度信息，具体公式如下：

具体地，将预测的中心点位置v_c(p)和关键点位置v_k(p)通过上述方式处理，可将密集逐像素预测网络的回归值范围约束在[-1,1]内，以提高网络的训练速度和泛化性能。

进一步地，搭建好的密集逐像素预测网络在使用前利用预设的训练集(RGB图像、工件类别、实例掩码和关键点2D图像位置)进行训练，得到训练后的网络，根据预设的损失函数计算网络的损失值，在一个实施例中，步骤S2中预设的损失函数具体为：

其中，

为语义分支网络损失函数，采用交叉熵损失，

为中心点分支网络损失函数，

为关键点分支网络损失函数，由位置损失

和置信度损失

构成，

为网络预测的像素p中心点位置，

为其对应真值，

为网络预测的像素p关键点位置，

为其对应真值，

为网络预测的像素p关键点位置置信度值，

为其对应真值。

具体地，密集逐像素预测网络的总损失通过三个分支网络损失加权求和计算，其中语义分支网络采用交叉熵损失，中心点分支网络采用L2损失，关键点分支网络采用smooth L1损失。

在一个实施例中，步骤S4根据每个像素所属工件实例的语义信息和中心点信息进行多工件实例分割，具体为：

步骤S41：对所述每个像素所属工件实例的语义信息进行softmax()处理，得到每个像素所属工件类别，并利用其从预测的逐像素中心点位置信息中分离出不同类别工件的逐像素中心点位置预测信息；

在一个实施例中，步骤S42包括：

c(p)＝(W·v_c(p)|_x+p|_x,H·v_c(p)|_y+p|_y)；

具体地，参见图2和图5，图2为多工件实例分割流程图，图5为多工件实例分割过程示意图。

首先对每个像素所属工件实例的语义信息进行softmax()处理，得到每个像素所属工件类别，然后利用该类别信息从预测的逐像素中心点位置信息中分离出不同类别工件的逐像素中心点位置预测v_c(p)，通过公式计算得到工件预测的中心点位置c(p)，并通过DBSCAN算法对每类工件预测的中心点位置c(p)进行聚类，得到同类工件的不同实例的中心点分布区域，最后根据每个像素预测中心点所属区域为其分配不同实例标签，得到不同工件的实例掩码，以此完成多类别多工件实例分割任务。

在一个实施例中，步骤S4中根据密集关键点位置预测采用投票策略算出各工件关键点2D位置，具体过程如下：

步骤S46：计算每一个假定关键点的投票质量w_k,i：

其中，Ins为工件实例标签，I为指示函数，θ为阈值；

具体地，参见图3，图3为一种实施方式提供的投票策略的投票过程流程图。

采用投票策略的投票过程为：首先依据置信度s_k(p)从大到小排列筛选出前m个关键点预测；然后从中随机选择两个像素p₁，p₂以及其关键点预测v_k(p₁)，v_k(p₂)，将其2D平面交点h_k,1作为一个假定关键点，重复若干次以得到若干个假定关键点；然后计算每一个假定关键点的投票质量w_k,i，最后从所有假定关键点中计算出工件各关键点位置的均值和协方差作为关键点的2D位置。在计算关键点2D位置的过程中，引入预测不确定性概念，通过投票评估可以提高位姿预测的可靠性，保证算法精度。

在一个实施例中，步骤S5中采用UD-PnP(Uncertainty-drivenPnP，不确定性驱动的PnP)算法计算工件的6D位姿，该算法采用迭代优化方式最小化Mahalanobis距离(马氏距离)，即：

其中，

为关键点3D模型位置，π为相机二维投影方程，

为关键点从3D投影至2D平面的位置，K为关键点数量，(R，t)为工件位姿矩阵表示。

在一个实施例中，基于密集预测的工件位姿估计方法的机器人抓取系统，包括机器人位姿计算模块、通信模块、抓取模块和图像采集模块，图像采集模块用于实时采集多工件场景下的RGB图像并发送至位姿计算模块；位姿计算模块采用基于密集预测的工件位姿估计方法计算工件的6D位姿并通过通信模块发送至抓取模块，抓取模块接收工件的6D位姿信息并抓取目标工件。

具体地，参考图6，图6为机器人抓取系统结构示意图。

机器人抓取系统包括机器人、末端执行器和工业相机，采用“眼在手外”视觉模型，通过机器人视觉标定得到相机坐标系到机器人末端执行器坐标系转换矩阵，并且针对每个类别工件定义其在工件坐标系下的抓取姿态。获取场景下的工件6D位姿后，将工件抓取姿态从工件坐标系经工件6D位姿、机器人手眼转换矩阵转换成机器人末端执行器抓取姿态，然后发送给机器人控制系统执行。

关于基于密集预测的工件位姿估计方法的机器人抓取系统的具体限定可以参见上文中对于基于密集预测的工件位姿估计方法的限定，在此不再赘述。

以上对本发明所提供的一种基于密集预测的工件位姿估计方法和机器人抓取系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。