CN113927597A

CN113927597A - 基于深度学习的机器人连接件六自由度位姿估计系统

Info

Publication number: CN113927597A
Application number: CN202111226194.3A
Authority: CN
Inventors: 张立国; 李佳庆; 金梅; 薛静芳; 耿星硕; 杨红光; 张升; 申前; 章玉鹏; 王磊
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-14
Anticipated expiration: 2041-10-21
Also published as: CN113927597B

Abstract

本发明涉及深度学习与视觉机器人技术领域，具体涉及基于深度学习的机器人连接件六自由度位姿估计系统，包括如下步骤：利用虚拟现实技术制作数据集；改进DOPE算法对连接件进行6D位姿估计；搭建机器人连接件位姿估计抓取平台；本发明利用虚拟现实技术对数据集做了改进，使数据集背景信息多样化，即使换到新环境也不会影响精度；对于特定的工业场景制作特定的数据集，利用虚拟现实技术进行制作，极大地减轻了人工标注物体的工作量；同时在单目视觉机器人连接件分拣场景中，对遮挡问题利用随机掩模局部处理方法对数据集进行了改进，提高了网络在处理物体遮挡时的准确度。

Description

基于深度学习的机器人连接件六自由度位姿估计系统

技术领域

本发明涉及深度学习与视觉机器人技术领域，具体涉及基于深度学习的机器人连接件六自由度位姿估计系统。

背景技术

近些年面对制造业升级的挑战，我国相继提出一系列智能制造战略。根据中国发布的工业4.0白皮书，提出以智能制造为主攻方向打造具有国际竞争力的中国制造业。在智能制造领域中，机器视觉技术、人工智能技术、虚拟现实技术、机器人技术无疑是智能制造的重点内容与核心内容，而融合了这几点技术的机器人自动识别抓取、和柔性装配技术成为了近年来研究的热门方向。

六自由度位姿估计简称6D位姿估计，即找到图像中物体位置以及计算物体坐标系与相机坐标系之间的旋转平移关系，6D位姿估计的意义在于能够获得物体的精确姿态，支撑对于物体的精细操作，主要应用于机器人抓取领域和增强现实领域。

基于图像的6D目标姿态估计在虚拟现实和机器人操作等应用中发挥着越来越重要的角色。在工业制造业的实际场景中，机器人抓取工作的核心问题在于准确识别物体的6D姿态，传统算法的做法需要手工定义三维特征描述符，将现场扫描的待抓取物体的点云与已知的待抓取物体模型点云进行三维模板匹配，在配准后进行凸优化减小误差，但这种方法耗时长难以实时计算，而依靠点云输入的深度学习算法则需要排除背景干扰在网络中加入语义分割部分，这种方法虽然在速度上有了明显提升但依然无法满足实时性要求。于是如何通过输入单目RGB图像，根据先验物体模型依据纹理特征还原物体6D姿态信息成为当前的研究趋势，一旦得到物体的6D姿态信息，就可以根据物体与相机的坐标转换关系以及相机与机械臂的坐标转换关系得到物体相对机械臂的位置姿态，然后机器人便可以根据这些信息做到抓取装配等一系列动作。因此，研究一种精确实时的6D姿态估计算法成为工业应用的迫切需要。

随着RGB-D深度相机的兴起，在机械臂抓取任务上,用传感器获取的深度信息与RGB结合的方法也开始兴起，传统方法主要是构建目标物体的局部特征描述子SIFT、HOG、ORB等，提取图像中的特征点，构建特征描述符进行特征匹配，然后用PnP算法计算物体的6D位姿，对于纹理丰富、背景简单、特征明显的物体通常具有良好的效果，而对于弱纹理、特征不明显的物体则使用模板匹配的方法，例如Sida Peng、YuanLiu等人在2018年发表的PVNet。Bugra Tekin、Sudipta N.Sinha等人提出了YOLO-6D算法，该方法先预测物体3D最小包围盒在2D图片上的投影，然后通过PnP算法计算出目标的6D姿态,相较于PoseCNN、改进的BB8利用微调对最后结果修正的做法，Bugra Tekin采用端到端的方式去掉了微调部分。Jonathan Tremblay，Yu Xiang等人提出了一种基于关键点检测的物体六自由度位姿估计算法框架，即DOPE(deep object pose estimation)算法框架,该算法框架创新性的提出从单个RGB图像中推断已知对象的3D姿态，而无需后续对齐。

但是在实际工程中，原DOPE算法存在识别速度过慢的问题，导致对物体位姿估计的速度慢于送料车或者传送带的送料速度。同时在工业环境下，采集到的图像中的零件可能存在较大的尺度变化，从而降低位姿估计的准确度。此外，原DOPE网络在对物体位姿估计时仅使用RGB图像，对于遮挡的零件难以准确识别，造成机器人抓取系统的准确性和鲁棒性较低。

目前领域还存在如下技术问题：1)限制6D位姿估计实际应用很大的一个难点在于纯手工制作数据集难度很大，并且现有的6D位姿估计方法使用的大都是用LINEMOD或YCB-Video等数据集，但是由于机器人连接件的特殊性，在这些数据集上测试效果好的网络在实际应用中并不适应一些低纹理的工件。2)为了提高网络的运行速度，融合模型轻量化方法对特征提取部分进行改进，相比原网络帧率提高了14FPS。3)为了降低网络参数量减少带来的精度损失，引入注意力机制提高检测精度。4)为了应对原网络对于待检测零件尺度变化带来的误检和漏检问题，提出多尺度融合的位姿估计模块，进一步提高网络精度。5)针对工程中存在的零件遮挡问题，本文提出随机掩模局部处理方法对数据集进行改进，优化网络在处理物体遮挡情况时的精度。

发明内容

针对上述的问题，本发明提供基于深度学习的机器人连接件六自由度位姿估计系统，不仅仅要检测出目标零件的空间位置，还要预估目标零件的状态，以便控制机器人对零件进行抓取；同时解决当前抓取精度问题，避免待检测零件尺度变化带来的误检和漏检问题，在工程中零件遮挡问题等。

为实现上述目的，本发明提供如下技术方案：

基于深度学习的机器人连接件六自由度位姿估计系统，包括如下步骤：

步骤1、利用虚拟现实技术制作数据集；

步骤2、改进DOPE算法对连接件进行6D位姿估计；

步骤3、搭建机器人连接件位姿估计抓取平台。

本发明技术方案的进一步改进在于：步骤1中，包括如下步骤：

步骤11、采用虚幻引擎4为基础，导入物体模型全自动生成6D位姿估计的虚拟数据集从而对数量较少的现实数据进行扩展，形成混合数据集；

步骤12、对单目视觉机器人连接件分拣场景，采用随机掩模局部处理方法对数据集进行改进，优化网络在处理物体遮挡情况时的准确度，通过实验比较相同网络在混合数据集中训练结果，在物体6D位姿检测中常用的评价标准是平均模型点的3D距离，将估计位姿下的3D模型点和真值位姿下的3D模型点计算平均距离偏差，如果偏差小于物体直径的10％则为位姿估计正确，即阈值为0.1m，其评价公式如下：

式中，R_est为预测旋转矩阵，T_est为预测的平移矩阵，R为真值的旋转矩阵，T为真值的平移矩阵，P_i为物体中的3D点；

步骤13、将阈值设定为0.1m，当ADD值小于该阈值时认为姿态估计正确，若ADD值大于该阈值则认为检测失败。将每类物体各个阈值下的ADD值进行计算，然后计算在各阈值下的ADD通过率如下式所示：

式中TP为正确检出位姿，FN即检测错位位姿。

该程序运行环境为Python环境，通过混合数据集训练60个epoch后的网络预测效果好于现实数据集。

本发明技术方案的进一步改进在于：步骤2中，包括如下步骤：

步骤21、采用了VGG19的前10个卷积层进行特征提取，后面拼接两个卷积层将特征维度控制在128，使用ImageNet的预训练模型为初始参数，相比于其他算法使用语义分割后的感兴趣区域进行特征提取，DOPE算法使用完整图片进行训练，并添加前景和背景信息；

步骤22、DOPE算法的位姿估计思路是不对物体的旋转矩阵R和平移矩阵T进行直接预测，而是估计物体3D最小包围盒8个顶点在2D图像中的投影点坐标加物体形心在2D图像中的投影坐标，将原本的6D位姿估计问题转换为9个关键点检测问题,通过这种转换可以仅通过RGB图像完成对物体位姿的估计而不需要输入点云数据，在位姿估计模型中，一是对于物体3D最小包围框8个顶点以及1个物体形心位置共9个点的预测，该预测结果为置信图；二是对于最小包围盒8个顶点指向物体质心位置的矢量预测，该预测结果为矢量场；在置信图中数据维度为batchsize*9*50*50,其中9代表顶点数，而50*50代表置信图大小，每个顶点分别存储在一个50*50大小的图像中,其中每个像素值代表顶点在该处的概率大小，将置信图通过上述采样于图像对齐，置信图中每个像素存储的像素值为0≤x≤1，数值含义为存在顶点的概率值，此放大为0≤x≤255，置信图的预测过程可用公式表示：

{P₁,P₂,....,P₉}＝f(F,φ) (3)

式中，{P₁,P₂....,P₉}为预测出的顶点的位置，f为置信网络预测图，F为输入特征图，φ为置信图预测网络参数。

本发明技术方案的进一步改进在于：步骤3中，将算法作为一个节点在ROS上运行，在进行抓取工作前，需进行工作台的标定和工具的标定，之后进行手眼标定，在重复进行抓取实验中，通过网络估计处待抓取零件位姿，根据转换矩阵计算，将相机坐标系下位姿转换成机械臂坐标系下位姿，将结果输入示教器中进行自动路径规划对零件进行抓取，成功抓取零件则为通过。

与现有技术相比，本发明提供的基于深度学习的机器人连接件六自由度位姿估计系统有益效果如下：

1.本发明利用虚拟现实技术对数据集做了改进，使数据集背景信息多样化，即使换到新环境也不会影响精度。在数据集中物体位置和位姿变化幅度较大，避免了网络过拟合现象的产生。对于特定的工业场景制作特定的数据集，利用虚拟现实技术进行制作，极大地减轻了人工标注物体的工作量。同时在单目视觉机器人连接件分拣场景中，对遮挡问题利用随机掩模局部处理方法对数据集进行了改进，提高了网络在处理物体遮挡时的准确度。

2.本发明对位姿估计网络进行了改进，提高了检测速度与检测精度。使用深度可分离卷积操作代替传统卷积操作对原DOPE网络结构进行轻量化处理，提高网络运行速度，实现实时性检测；引入注意力机制，将特征提取模块提取到的特征经过通道注意力模块和空间注意力模块，使用不同大小感受野的特征进行融合，提升网络精度；提出多尺度融合的位姿估计模块，将3种尺度的特征图进行融合，替换原有的单一尺度特征图，解决原DOPE网络在识别过大尺度或者过小尺度的零件时存在的误识别和漏识别问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于深度学习的机器人连接件六自由度位姿估计方法流程示意图。

图2为对利用虚拟现实技术做的数据集进行评估的结果图。

图3为原DOPE算法整个特征提取部分架构图。

图4为改进后的DOPE特征提取网络图。

图5为原DOPE网络运行帧率对比图。

图6为改进后的网络运行帧率对比图

图7为注意力模块的总体结构图。

图8为改进后的位姿估计模块DOPEstage总体结构图。

图9为改进后的位姿估计网络模块部分结构图。

图10为改进后的位姿估计网络模块部分结构图。

具体实施方式

下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1、利用虚拟现实技术制作数据集

本发明用于训练神经网络模型的数据集是通过虚拟现实技术制作，传统的6D位姿估计开源数据集，基本都是通过对真实物体在现实环境下的拍摄和人工标注下生成，但其缺点也十分明显，虽然相机对物体拍摄角度不同，但背景一致会导致无用的背景特征对网络影响过大，换到新环境时严重影响精度，还有物体位置和位姿变化不大，容易造成网络过拟合。对于特定工业场景需要对待测物体制作专用数据集，但是人工标注物体的6D位姿可以说是耗时巨大的工程，于是本发明以虚幻引擎4为基础提出一种基于虚拟现实技术的数据集制作方法，通过导入物体模型全自动生成6D位姿估计的虚拟数据集从而对数量较少的现实数据进行扩展，形成混合数据集。针对单目视觉机器人连接件分拣场景，本研究制作了两种型号机器人连接件数据集，并且针对遮挡问题提出随机掩模局部处理方法对数据集进行改进，优化网络在处理物体遮挡情况时的准确度，通过实验比较相同网络在混合数据集中训练结果比现实数据集中训练结果有所提升。在物体6D位姿检测中常用的评价标准是平均模型点的3D距离(ADD,average distance)：将估计位姿下的3D模型点和真值位姿下的3D模型点计算平均距离偏差，如果偏差小于物体直径的10％则认为位姿估计正确，即阈值为0.1m，其评价公式如下：

本研究将阈值设定为0.1m，当ADD值小于该阈值时认为姿态估计正确，称为TP即正确检出位姿，若ADD值大于该阈值则认为检测失败，称为FN即检测错位位姿。将每类物体各个阈值下的ADD值进行计算，然后计算在各阈值下的ADD通过率如下式所示：

该程序运行环境为Python环境，对虚拟数据集评估结果如附图2所示，可以看出通过混合数据集训练60个epoch后的网络预测效果略好于现实数据集。本发明设计的通过建立物体模型和使用虚幻引擎4制作机器人连接件的虚拟数据集方法对实际数据集进行扩展，消除手工数据集中定位引起的重投影误差和语义分割时的像素误差，设计对比实验证明在混合数据集下训练的DOPE网络相比在现实数据集中的ADD通过率提升4.68％，并针对实际生产环境中零件遮挡问题提出随机掩模局部处理方法进行数据集方面的改进，设计对比实验证明进行局部遮挡处理后不会引起ADD通过率下降反而提高6.85％，并且网络对于遮挡情况的抵抗性有很大的增强，在遮挡率为40％、60％、80％时，两种零件ADD通过率分别提升了17.7％、29.9％、11.9％和15.8％、25.7％、10.2％。

步骤2、改进DOPE算法对连接件进行6D位姿估计

本发明制作了机器人连接件的混合数据集，并且针对零件遮挡的实际问题做出了相应改进，但还远远不能满足实际工程需要，在实际的制作环境中，识别速度要大于传送带或送料车的送料速度，在提升算法识别速度时会引起精度损失问题，在图像中零件可能存在较大的尺度变化。针对这些问题，本发明在DOPE网络基础上进行改进，提高零件的识别准确率和速度，解决实际工程中零件尺度变化问题，以及如何在不影响精度的前提下满足实际工程中的检测速度提高帧率问题。DOPE算法的特征提取阶段，采用了VGG19的前10个卷积层进行特征提取，后面拼接两个卷积层将特征维度控制在128，使用ImageNet的预训练模型为初始参数，相比于其他算法使用语义分割后的感兴趣区域(Region Of Interest)进行特征提取，DOPE算法使用完整图片进行训练，添加了前景和背景信息，整个特征提取部分架构图如附图3所示。

DOPE算法的位姿估计思路是不对物体的旋转矩阵R和平移矩阵T进行直接预测，而是估计物体3D最小包围盒8个顶点在2D图像中的投影点坐标加物体形心在2D图像中的投影坐标，这样将原本的6D位姿估计问题转换为9个关键点检测问题,通过这种转换可以仅通过RGB图像完成对物体位姿的估计而不需要输入点云数据，其位姿估计模型如附图3所示。该模型主体包含两个部分，一是对于物体3D最小包围框8个顶点以及1个物体形心位置共9个点的预测，该预测结果称为置信图(Belief map)；二是对于最小包围盒8个顶点指向物体质心位置的矢量预测，该预测结果称为矢量场(Affinity map)。在置信图中数据维度为batchsize*9*50*50,其中9代表顶点数，而50*50代表置信图大小，每个顶点分别存储在一个50*50大小的图像中,其中每个像素值代表顶点在该处的概率大小，将置信图通过上采样(UpSampling)于图像对齐。置信图中每个像素存储的像素值为0≤x≤1，数值含义为存在顶点的概率值，此处放大为0≤x≤255。置信图的预测过程可用公式表示：

{P₁,P₂,....,P₉}＝f(F,φ) (3)

式中，{P₁,P₂....,P₉}为预测出的顶点的位置，f为置信网络预测图，F为输入特征图，φ为置信图预测网络参数；

对于基于关键点的位姿估计方法，其精度要求非常高，预测的顶点位置有几个像素的偏移就会造成PnP投影后误差过大，应当持续提高网络精度，本发明提出的改进DOPE位姿估计算法主要从三个方面来改进：第一，基于深度可分离卷积操作对特征提取网络进行改进使网络轻量化，加快网络运行速度提高检测帧率；第二，引入注意力机制模块，提高网络精度降低由网络轻量化引起的精度损失；第三，基于多尺度特征融合的位姿估计网络改进，提高网络对图像中较大或较小尺度零件的识别能力。本发明对此引入了注意力机制和多尺度特征融合模块，根据实验结果改进后ADD通过率平均提高5.25％，AUC上平均提高8.25％。并且多尺度特征融合模块解决了零件尺度变化过大时网络识别错误和无法识别的问题。针对原网络运行帧率低的问题，本研究使用深度可分离卷积操作替代传统卷积操作，经实验验证，改进后网络运行帧率提升14FPS，使网络达到实时检测要求。综合看来，本发明进行网络改进后，网络的ADD通过率提高5.25％、检测速度提高了14FPS。

步骤3、搭建机器人连接件位姿估计抓取平台

本发明根据改进的数据集和改进的DOPE位姿估计算法，在实验环境下搭建一个机器人连接件位姿估计抓取平台，模拟真实环境，讨论本发明使用方法在实际工程中的效果。在硬件上，对相机、机械臂、待抓取零件进行了选择。在软件上，将算法作为一个节点在ROS(Robot Operating System)上运行。在进行抓取工作前，还需要进行工作台的标定和工具的标定，之后进行手眼标定。在重复进行抓取实验中，首先通过网络估计处待抓取零件位姿，然后根据转换矩阵计算，将相机坐标系下位姿转换成机械臂坐标系下位姿，将结果输入示教器中进行自动路径规划对零件进行抓取，若成功抓取到零件称为通过，本实验通过图像识别率和机器人抓取率两个指标进行说明。下面结合附图与具体实施方式对本发明做更为详细的说明：

如图1所示，本发明包括如下步骤：

步骤1、利用虚拟现实技术制作数据集

步骤11、本发明针对工业制造场景，根据机器人连接件生产线单目视觉系统抓取现场的实际场景出发，制作了两种型号机器人连接件的虚拟与现实的混合数据集。首先，需要根据连接件实际尺寸建立工件模型，其中PivConnectorV1尺寸为7.7×7.7×0.7(单位：cm)，servoholderV1尺寸为10.5×5.2×0.7(单位：cm)。本发明使用虚幻引擎来构建虚拟数据集，构建好的模型中带有工件完整的几何信息，可以根据这些信息自动计算物体质心坐标从而消除像素误差；可以定义相机与工件的相对位姿从而消除由定位不准导致的重投影误差；为了解决物体固定的问题，可以设置物体随机移动和随机旋转；为了解决背景单一的问题，本发明为物体添加了随机背景作为干扰。其中原始位置为在世界坐标系中连接件坐标(0,0,0)，相机坐标(-20,0,0)，相机距离连接件20cm，垂直拍摄，相机位置固定分辨率为640×480，连接件在x轴(-10,10)，y轴(-15,15)，z轴(-15,15)随机移动，连接件绕x轴±45°，y轴±180°，z轴±180°随机旋转。

该虚拟数据集将物体位置、旋转程度随机设置，光照角度、光照强度设为随机大小，背景纹理随机替换，避免了对特定数据分布的过度拟合，背景图像来自VOC2007数据集，此外还添加了工业环境下机器臂抓取的真实场景。本研究构建了连接件PivConnectorV1、servoholderV1的虚拟数据集，数据集大小为：连接件PivConnectorV1训练集8000张，测试集1500张、连接件servoholderV1训练集8000张，测试集1500张，将两种零件的纯虚拟数据作为现实数据集的扩展，加入现实数据集后，混合数据集大小为：连接件PivConnectorV1训练集10000张，测试集2000张、连接件servoholderV1训练集10000张，测试集2000张。

步骤12、针对遮挡问题进行数据改进。本发明通过随机掩模局部处理的方法构建了机器人连接件遮挡数据集。相比于LCHF算法，由于零件体积小，对整张图片进行分割可能会出现部分图片有完整的齿轮图形，而其他图片没有齿轮图形，这种结果相当于只对背景进行了拼接，没有产生遮挡情况，本研究提出如下改进，通过产生局部掩模只对有齿轮模型的位置进行遮挡，算法思路是，读取齿轮位置信息，生成随机大小的掩模，对齿轮进行不完全遮挡，即随机遮挡齿轮表面，遮挡面积为齿轮暴露面积的0～80％，对于掩模图像的选取应当避免选用纯色块，因为使用纯色块进行遮挡时可能被网络当成工件特征影响后续处理，所以随机截取背景作为掩模图像对物体进行遮挡处理，如下公式：

I_h,w＝crop(Rndom(0,h-O_h),Random(0,w-O_w)) (4)

式中，crop()表示图像裁剪，h表示输入图像高度，w表示输入图像宽度，O_h表示物体高度，O_w表示物体宽度，Random()表示随机数，I_h,w表示处理后图片。

其中，处理后图像的宽高应满足如下公式：

式中，I_w表示处理后图像的宽度，I_h表示处理后的图像高度。随机掩模局部处理过的网络其对实际工程中零件遮挡问题有了良好的抵抗性。

步骤2、改进DOPE算法对连接件进行6D位姿估计

步骤21、首先使用深度可分离卷积操作对原来传统卷积操作进行替换。特征提取网络作为位姿估计网络中的特征提取器，很大程度上决定了位姿估计算法框架的运行速度和检测精度，DOPE网络采用VGG19的前24层进行特征提取，虽然有良好的检测精度，但检测速度最高只有16FPS左右，难以满足实时性要求，本发明通过引入深度可分离卷积操作来改造特征提取网络，缩减网络参量提高网络运行速度，以满足实时检测的需要。具体步骤为：

(1)进行深度卷积操作，输入为3通道的RGB图像，不同于传统卷积操作直接对三个通道使用3个卷积核进行卷积操作，深度卷积操作中1个通道只由1个卷积核负责。

(2)进行逐点卷积操作，用扩增维度大小数量的卷积核对深度卷积操作后的所有通道做卷积运算，并将运算结果进行加权组合，完成维度扩张。假设输入特征图F的尺寸为(S_F*S_K,C)，卷积核K的尺寸为(S_K*S_K,C,N),输出特征图O的尺寸为(S_O*S_O,N),深度卷积操作可用如下表达式所示：

式中，

为深度卷积核，第C个卷积只对输入特征图F的第C个通道进行处理，处理结果为输出特征图

的第C个通道，深度卷积操作的计算量为S_K*S_K*C*S_F*S_F,逐点卷积的计算量即为1*1*C*N*S_F*S_F,深度可分离卷积操作总体计算量为S_K*S_K*C*S_F*S_F+C*N*S_F*S_F,通过将深度可分离卷积操作参数量与传统卷积操作参数量作比可得参数压缩率，如下式：

可以看出，本发明在引入深度可分离卷积后在理论上可以减少网络参数量，提高网络运算速度，对特征提取网络进行改进，改进后的特征提取网络结构如附图4所示。改进后的网络结构参数量与原特征提取网络参数量对比结果如表1所示：

表1改进前后网络参量对比

网络名称	参数量
		原特征提取网络	9，696,958
改进特征提取网络	1,106,696

通过比较可见，改进后的网络参数量大约为原参数量的1/9，但网络结构依旧保持不变。这里需要特别说明一点，在经过深度可分离卷积操作之后，网络损失了一些精度，所以需要将输入图片和特征图尺寸进行修改，经输入图片大小改为416×416，输出特征图大小修改为52×52，以便后续位姿估计的模块改动。实验对比结果如附图5、6所示。

步骤22、其次引入注意力机制，补偿参数量减少带来的精度损失，具体步骤为：

(1)建立通道注意力模块，输入特征分别经过平均池化和最大池化进行特征筛选后产生两个特征图结果，再把两个特征图分别送入两层MLP网络，将输出特征进行元素智能加和操作，即对每个给定输入向量乘以对应权重然后加和，最后结果结果sigmoid激活函数进行激活得到输出的通道注意力特征图，该过程的数学表达式如下：

M_c(F)＝σ(MLP((AvgPool(F))+MLP(MaxPool(F))) (8)

式中，σ表示sigmoid激活函数，AvgPool(F)表示平均池化操作，MaxPool(F)表示最大池化操作，F表示输入特征，M_c表示通道注意力特征图。

(2)建立空间注意力模块，输入为通道注意力特征图，分别通过平均池化层和最大池化层得到平均池化输出和最大池化输出，然后将两个输出拼接为一个张量送入一层卷积层，该层卷积核选用3x3大小，将结果用sigmoid激活函数进行激活，最终得到空间注意力特征图，该过程可以用如下数学公式表示：

M_S(F)＝σ(f^3×3([AvgPool(F))；MaxPool(F)]) (9)

式中，σ表示sigmoid激活函数，AvgPool(F)表示平均池化操作，MaxPool(F)表示最大池化操作，f^3×3表示卷积核大小为3x3的卷积操作。

综上所述，注意力模块的总体结构图如附图7所示。其中

表示元素智能乘积(elements-wise multiplication)操作，即对每一个输入向量乘以一个权重向量，在特征提取网络中间加入注意力模块会改变网络结构无法加载预训练模型，所以本研究在特征提取网络后一层加入注意力模块。将原DOPE网络和改进的DOPE网络(DOPE+DSC+Attention+Multi-Scale)进行对比，实验结果如表1所示。

表1改进前后网络对比

步骤23、最后加入多尺度特征融合，其具体步骤为：在原网络位姿估计模块进行改进，加入多尺度特征融合，加入三种不同尺寸的特征图进行融合，提高网络应对零件尺度变化的识别能力，提高检测精度。改进后的位姿估计网络模块如附图8和附图9所示。图中输入特征维度为52×52×128，该特征图首先输入一个五层卷积层得到大小为52×52×9/16的特征图，当预测对象为置信图时结果为52×52×9，当预测对象为矢量场时结果大小为52×52×16，此时，输出特征图尺寸为52，输入图片为416，刚好输出是输入的1/8，此时靠近网络前端，感受野相对小的特征图尺寸较高，特征图语义表征能力弱，适合进行小目标检测；然后，所得结果通过一个三层卷积层得到大小为26×26×9/16的特征图，此时输出为输入的1/16，适合进行中等大小目标的检测；接着，所得结果通过一个三层卷积层得到大小为13×13×9/16的特征图，此时输出为输入的1/32，该位置处于网络后端，特征图感受野相对较大特征图尺寸较低，几何表征较弱空间特征缺乏，适合进行大目标检测。现在，在改进位姿估计网络模块的前中后三个位置中得到了尺度不同的特征图，这时进行特征融合，先将大小为13×13×9/16的特征图结果送入一个卷积集合中，每一层卷积核大小分别为1x1、3x3、1x1、1x1、3x3，然后将结果进行一个卷积核大小为1x1的卷积操作，再进行一步2倍上采样，将所得结果与大小为26×26×9/16的特征图进行拼接，然后通过相同的操作再与大小为52×52×9/16的特征图进行拼接，将所得结果通过卷积集合和卷积操作后即可得到最后预测结果，将此改进模块称为多尺度位姿估计模块，用此模块来替换原位姿估计网络中的所有DOPEstage模块进行位姿估计，改进后的DOPEstage模块如附图8、9、10所示。

步骤3、搭建机器人连接件位姿估计抓取平台

步骤31、硬件选型，具体步骤如下所示：

(1)相机选择。由于本实验主要利用图像的RGB信息，所以不需要获得深度图，在视觉部分使用微软RealSenseD435摄像头作为视觉传感器。该相机原理采用散斑结构光进行深度获取，传感器由左红外相机，红外点阵投射器，右红外相机，RGB相机组成。

(2)机械臂选型。本发明使用机器人为深圳华成工控HC-S6六轴工业机器人，该机器人每个关节都具有丰富的传感器，可以感知电机电流，速度，扭矩、加速度等参数，该机器人附带一个示教器，可以手动控制机械臂运动也可以输入目标坐标进行自动路径规划。该机械手为小型机器人，负载较小，但运行速度和抓取范围均满足要求，重复抓取精度也比较好，可以作为实验机械手使用。

(3)待抓取零件。在本章中待抓取材料为3D打印而成，零件包括待抓取零件两种机器人连接件PivConnectorV1、servoholderV1和两种干扰零件两种齿轮零件clb和clb，其中机器人连接件打印材料为白色树脂，公差±0.1-0.2mm；齿轮零件打印材料为灰色树脂，公差±0.1-0.2mm，打印成型材料外表下存在条痕层纹，肉眼无法观察使用相机分辨率为640×480观察拍摄图片发现无表面纹理，不影响正常使用。

步骤32、软件说明。本发明算法作为一个节点在ROS(Robot Operating System)上运行，订阅RealSenseD435相机发布的RGB图像，通过发布器位姿估计结果，发布数据格式包括，目标类别、得分、位姿四元数、平移向量、2D投影点坐标、投影点中心位置坐标，使用ROS自带图形化工件rviz进行可视化操作。其中，Image栏显示经过改进DOPE算法处理后的位姿估计结果，不同零件使用不同颜色最小包围框，servoholderV1使用橘色线框，PivConnectorV1使用蓝色线框，Camera栏显示相机输入图片和零件得分还有零件位姿，零件位姿由红色箭头表示，当网络检测到目标零件时，会在正中间白色网格处绘制物体的最小包围盒在相机坐标系下的位置，以及位姿箭头。

步骤33、工作台标定及工具标定。在工作台标定中，输入数据如表2：

表2工作台标定输入数据表

坐标	P<sub>0</sub>	P<sub>x</sub>	P<sub>y</sub>
				X	285.618	285.618	285.618
Y	7.525	7.525	7.525
				Z	477.516	477.516	477.516

在进行工具标定时，输入数据如表3所示：

表3工具标定输入数据表

标定后，输入坐标将自动转化为世界坐标系中坐标，手眼标定时将自动转换为工具坐标系。

步骤34、手眼标定。本发明将标定板固定在机械臂末端然后使机械臂运动到九个不同位姿，通过相机采集图片进行标定，使用软件为OpenCV3.4.1，标定板参数为7行9列，方格尺寸24×24mm，相机采集9张标定数据。

步骤35、重复抓取实验。在实验中，首先通过网络估计处待抓取零件位姿，然后根据转换矩阵计算，将相机坐标系下位姿转换成机械臂坐标系下位姿，将结果输入示教器中进行自动路径规划对零件进行抓取，若成功抓取到零件称为通过，本实验通过图像识别率和机器人抓取率两个指标进行说明，改进网络识别效果比较稳定，可以准确的检出两种零件，对于干扰零件则没有反应，对于复杂背景环境干扰也具有相对较好的抵抗性，没有对背景中的相似纹理进行误判。接着进行200次重复抓取实验，以每50次为步长对图像识别成功率与机械手抓取成功率分别进行统计，统计结果如表4所示。

表4 200次重复抓取结果统计表

从统计结果来看，识别成功率和抓取成功率平均值均在90％以上，其中，识别成功率高于抓取成功率，分析原因为网络正确识别了零件类型，但位姿估计结果并不准确，与真实值误差过大，导致机械臂抓取失败，同时可以看出图像识别成功率比较稳定，并不会随着实验次数增多有明显变化，可以说明网络工作比较稳定，无论是识别成功率还是抓取成功率均保持在90％以上，对于在真实场景中应用具有一定的借鉴意义。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明装置权利要求书确定的保护范围内。

Claims

1.基于深度学习的机器人连接件六自由度位姿估计系统，其特征在于，包括如下步骤：

步骤1、利用虚拟现实技术制作数据集；

步骤2、改进DOPE算法对连接件进行6D位姿估计；

步骤3、搭建机器人连接件位姿估计抓取平台。

2.根据权利要求1所述基于深度学习的机器人连接件六自由度位姿估计系统，其特征在于：步骤1中，包括如下步骤：

步骤13、将阈值设定为0.1m，当ADD值小于该阈值时认为姿态估计正确，若ADD值大于该阈值则认为检测失败，将每类物体各个阈值下的ADD值进行计算，然后计算在各阈值下的ADD通过率如下式所示：

其中，TP为正确检出位姿，FN即检测错位位姿；

3.根据权利要求1所述基于深度学习的机器人连接件六自由度位姿估计系统，其特征在于：步骤2中，包括如下步骤：

{P₁,P₂,....,P₉}＝f(F,φ) (3)

4.根据权利要求1所述基于深度学习的机器人连接件六自由度位姿估计系统，其特征在于：步骤3中，将算法作为一个节点在ROS上运行，在进行抓取工作前，需进行工作台的标定和工具的标定，之后进行手眼标定，在重复进行抓取实验中，通过网络估计处待抓取零件位姿，根据转换矩阵计算，将相机坐标系下位姿转换成机械臂坐标系下位姿，将结果输入示教器中进行自动路径规划对零件进行抓取，成功抓取零件则为通过。