CN117218192A

CN117218192A - 一种基于深度学习与合成数据的弱纹理物体位姿估计方法

Info

Publication number: CN117218192A
Application number: CN202311103136.0A
Authority: CN
Inventors: 郑天宇; 张胜文; 舒瑞; 张春燕; 程德俊
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-12-12

Abstract

本发明公开一种基于深度学习与合成数据的弱纹理物体位姿估计方法，对无纹理CAD模型进行渲染得到合成数据，经过融合CBAM模块的5层卷积层组成的自编码器网络得到位姿潜在特征提取网络，制作成码本，将真实测试图像输入到改进的Mask R‑CNN实例分割网络得到包围框信息；对包围框信息进行裁剪，输入位姿潜在特征提取网络得到潜在特征向量；根据潜在特征向量与模板潜在向量计算出余弦相似度，采用k近邻算法得到3D旋转位姿；根据真实测试图像中CAD模型数据的边界框信息得到z轴平移量估计值，采用图像坐标系与相机坐标系的转化关系式得到x轴和y轴上的平移量；提高了网络表达特征的能力，降低计算复杂度，在减少模型参数量的同时提高6D位姿估计识别精度。

Description

一种基于深度学习与合成数据的弱纹理物体位姿估计方法

技术领域

本发明涉及计算机视觉和机械臂抓取领域中的物体6D位姿估计技术，特别涉及一种弱纹理物体位姿估计方法。

背景技术

物体6D位姿估计能够帮助操作人员获取相机坐标系下物体刚体的3D平移信息和3D旋转信息，从而提高操作人员的操作精度以及效率。传统的物体位姿估计一般是基于特征点对应的方法和基于模板匹配的方法。这些方法在遮挡情况以及面对弱纹理物体时效果很差，难以应对当今复杂的工业环境。随着深度学习技术的发展，越来越多针对基于深度学习的6D位姿估计方法被提出。

中国专利申请号为202010619800.7的文献中提出了基于位姿估计和校正的单图像机器人无序目标抓取方法，但是这种方法需要大量的真实数据集，成本高，工作量大，制作困难。中国申请号为CN202110921177.5的文献中提出了一种弱纹理物体位姿估计方法和系统，利用点渲染分割网络植入实例分割方法，但是由于网络的限制，该位姿估计方法在实际任务中依赖于深度信息和真实图像，不具备一定的柔性。目前，虽然基于深度学习的方法优于传统方法，但是它们通常需要标注真实数据集，产生很大的数据集制作成本。针对弱纹理与合成数据的6D位姿估计方法难以在保持高精度的同时实现快速性。

发明内容

本发明的目的是解决目前工业场景下弱纹理物体的6D位姿估计精度低、速度慢以及数据集制作困难等问题。提出了一种基于深度学习与合成数据的弱纹理物体位姿估计方法，利用合成数据训练以解决数据获取困难的问题，通过算法融合在保持检测速度的同时提高检测精度。

为实现上述目的，本发明一种基于深度学习与合成数据的弱纹理物体位姿估计方法采用的技术方案是：获取若干无纹理的物体的T-LESS数据集，得到每个物体的无纹理CAD模型，还包括以下步骤：

步骤1)：对无纹理CAD模型进行渲染得到合成数据以及每个数据对应的边界框信息；

步骤2)：对物体6D位姿解耦为一个旋转位姿和一个平移量的组合，所述的合成数据中的每个数据都对应于一个旋转位姿和平移量；

步骤3)：所述的合成数据经过融合CBAM模块的5层卷积层组成的自编码器网络，得到模板潜在向量z_i，再经过5层反卷积层，完成一次完整的迭代，训练得到位姿潜在特征提取网络，将所述的合成数据输入该位姿潜在特征提取网络制作成码本，码本中的模板潜在向量z_i与合成数据中每个数据对应的旋转位姿一一对应；

步骤4)：将真实测试图像输入到融合Swin Transformer的改进的Mask R-CNN实例分割网络，得到特征图，对特征图中的每一点设定预定的ROI，ROI经RPN过滤得到候选ROI，对候选ROI进行ROIAlign，得到包围框信息；

步骤5)对步骤4)中所述的包围框信息进行裁剪，输入步骤3)中所述的位姿潜在特征提取网络，得到对应的潜在特征向量z_test；

步骤6)：根据所述的潜在特征向量z_test与所述的模板潜在向量z_i计算出余弦相似度，再采用k近邻算法寻找与物体图像姿态最接近的k个模板，这k个模板对应的姿态就是物体图像的3D旋转位姿；

步骤7)：先根据真实测试图像中物体对应的合成数据中的CAD模型数据的边界框信息以及步骤4)中所述的包围框信息得到z轴平移量的估计值，再采用图像坐标系与相机坐标系的转化关系式得到真实测试图像中物体在x轴和y轴上的平移量。

本发明采用上述技术方案后的优点如下：

(1)本发明设计了用于6D位姿估计任务的融合了CBAM(卷积注意力模块)的降噪自编码器网络，其通过将CBAM纳入现有的降噪自编码器算法而得到，该模块抑制了来自信道和空间两个维度的不相关特征，突出物体特征，抑制不相关特征，提高网络表达特征的能力。因此，降噪自编码器可以更好地提取潜在特征。

(2)本发明设计了用于6D位姿估计的实例分割网络，将Swin Transformer融入到改进的实例分割模型Mask R-CNN中。针对传统Mask R-CNN实例分割网络精度低、速度慢的特点，将主干网络替换为Swin Transformer网络结构，在减少网络参数量的同时提高了检测精度，由于Swin Transformer的滑动窗口操作，计算复杂度大大降低，从而降低了计算复杂度，使网络能够应对大尺寸的图像输入，同时保持低内存占用，模型参数量大大降低；而改进的Mask R-CNN实例分割网络，是针对FPN传递给RPN的特征图信息缺乏底层信息，将传统FPN结构增加从下到上的向后连接的通道得到一种改进的FPN网络，提高本发明实例分割网络的精度。

(3)本发明为基于合成数据的弱纹理物体6D位姿估计，借由虚拟渲染、空间采样、域随机化技术实现本发明改进的降噪自编码器网络的训练，以此减少虚拟模型与真实模型之间的域差距，大大减少了6D位姿估计方法的实现成本，本发明将改进的算法融入到整个模型中，使得本发明能够在减少模型参数量的同时提高6D位姿估计识别精度。

附图说明

图1为本发明提出的一种基于深度学习与合成数据的弱纹理物体位姿估计方法的流程图；

图2为本发明中融合了CBAM的卷积降噪自编码器结构图；

图3为本发明中融合了Swin Transformer主干网络改进的实例分割网络结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征以及优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，本发明可以以各种形式实现而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

首先获取若干无纹理的工业物体的T-LESS数据集，至少30个无纹理的工业物体，这些工业物体具有对称性，其中部分工业物体具有相似的形状。获取数据的场景包括无聚集、单物体实例，同时也包括复杂的聚集、遮挡、多物体实例情况。该T-LESS数据集中提供了每个物体的无纹理CAD模型，通过Miscrosoft v2等各种RGB-D传感器获取数据集图像。在评估6D位姿估计算法时，一般选择Primesense传感器获取工业物体的图像作为测试集，提供了每个物体的mask图像以及位姿。

如图1所示，针对无纹理CAD模型，采用OpenGL渲染工具对其进行渲染，得到大量的合成数据A，并记录虚拟空间中的位姿信息。具体为，首先将无纹理CAD模型在Meshlab中打开，将CAD模型中心平移到世界坐标系原点中心，这样就保证了渲染后的视角与测试数据接近。之后使用OpenGL载入.obj格式的CAD模型点云数据，确定摄像机焦距参数、主点坐标和相机外参之后，即可渲染得到纯背景下的合成数据B。此时除CAD模型外，背景显示为纯黑色，经过二值化，即可得到掩码信息。然后借助掩码信息将白色区域与纯黑背景进行区域叠加，再经过斐波那契网格采样，最终得到所需的大量的合成数据A。合成数据A记录了每个数据对应的边界框信息(u_j,v_j,w_j,h_j)，即虚拟空间中的位姿信息，1≤j≤n，n为采样的视角点数量，u：代表边界框的左上角点的水平坐标；v：代表边界框的左上角点的垂直坐标；w：代表边界框的宽度；h：代表边界框的高度。

斐波那契网格采样具体为，要采样n个视角点，每个视角点坐标为(x_n，y_n，z_n)，由下式得到：

其中，为黄金分割比例。

然后，对物体6D位姿估计问题作解耦分析：物体的6D位姿估计指的是确定物体在三维空间中的旋转与平移，通常表示为一个旋转位姿和平移量的组合，因此，合成数据A中的每个数据都对应于一个旋转位姿R_i和一个平移量。而旋转域平移是两个相对独立的变换，将物体6D位姿估计解耦为3D旋转和3D平移，使得物体6D位姿估计问题变得简化和可控。

再采用融合了CBAM的降噪自编码器作为特征提取网络，采用合成数据A进行域随机化训练得到潜在特征提取网络，并且结合合成数据A训练得到的对应向量制作成码本。具体为：如图2所示，使用物体的无纹理CAD模型生成20000张分辨率为128×128的合成数据A进行域随机化训练，批量大小为64；将经过域随机化方法处理的合成数据A输入融合了CBAM的降噪自编码器网络中，经过CBAM模块的5层卷积层组成的编码器结构，得到潜在向量，再经过5层反卷积层，完成一次完整的迭代。经过40000次迭代后，使得模型学习到重要的特征，最终训练得到一个位姿潜在特征提取网络，然后将合成数据A输入该位姿潜在特征提取网络，制作成码本。

所述的融合了CBAM的降噪自编码器网络，将卷积降噪自编码器中编码器前三层分别融入了CBAM，融入CBAM的作用是提高CNN的感知能力和表示能力，使其能够更好地适应复杂多变的视觉任务。通过引入通道和空间的注意力机制，CBAM可以自动地选择并调整网络提取的特征，使其更加准确和有针对性。

所述的域随机化方法具体为：在训练过程中，物体的无纹理CAD模型生成的20000张分辨率为128×128的合成数据A，对模板图像添加随机的尺度变换和平移变换作为噪声。为了获得更有效的数据，使用域随机化方法进行数据增强如下：(1)随机使用MS COCO和PASCAL VOC数据集中的图像替换背景；(2)随机添加一定程度的黑色正方形遮挡；(3)随机改变图像对比度、亮度和颜色失真；(4)随机调整高斯模糊；(5)随机的对输入训练图像应用额外的增强：利用随机光位置和随机漫反射和镜面反射进行渲染。其中，前4种数据增强方式以50％的概率施加于合成数据A，且都用第5种增强方式处理。

码本的制作方法具体为：经过斐波那契网格采样得到的最终的合成数据A中，其中每个数据所代表的姿态特征与其对应的128维的模板潜在向量一一对应制作成码本，码本为合成数据A中数据i通过潜在特征提取网络得到的模板潜在向量z_i与合成数据A每个数据对应的旋转矩阵R_i一一对应，并记录在码本上，1≤i≤n。

如图3所示，本发明将真实测试图像输入到融合了Swin Transformer的改改进的Mask R-CNN实例分割网络进行目标检测与分割任务。具体是：复合结构1-4为SwinTransformer网络中的Swin-T结构，首先经过由4层复合结构1-4和改进的FPN结构组成的主干网络Mask R-CNN，得到特征图(feature map)，然后对这个特征图中的每一点设定预定的ROI(感兴趣区域)，从而得到多个ROI；接着将这些ROI送入到RPN(区域建议网络)中，过滤掉部分ROI，得到候选ROI。接着对候选ROI进行ROIAlign(特征对齐)操作，对特征对齐后的候选ROI进行分类和包围框回归，生成掩码，完成目标检测与分割。此时，将真实测试图像对应的包围框的边界框信息表示为(u_w,v_w,w_w,h_w)，1≤w≤n，其中u代表边界框的左上角点的水平坐标；v代表边界框的左上角点的垂直坐标；w表边界框的宽度；h表边界框的高度。在每一个ROI里面进行FCN操作生成掩码。

常规的FPN结构是输入到RPN的特征图只包含有当前层和上层的特征信息，缺乏低层的特征信息，而底层特征图包含更详细的信息。因此，本发明采用改进的FPN结构，增加了从下到上然后向后连接的通道。其中，P_i(i＝2，3，4，5，6)是FPN结构的特征金字塔的特征，添加的自下而上的路径合并低级特征图M_i和高级特征图P_i+1生成新的特征图M_i+1。具体如下式2所示：

其中，表示步长(stride)为2，卷积核尺寸(size)为3×3的卷积；表示步长(stride)为1，卷积核尺寸(size)为3×3的卷积；P_i+1表示高级特征图；M_i表示低级特征图；M_i+1表示得到的新的特征图。。

模型在训练过程中，为了模拟实际中物体聚集、散乱的场景，本发明将合成数据A进行额外的数据增强。具体的4种数据增强方式如下：(1)随机使用MS COCO数据集和PASCALVOC数据集背景图像进行替换，并以随机平移，缩放和平面内旋转粘贴来自训练集的对象；(2)随机调整对比度、颜色饱和度与亮度；(3)随机添加高斯模糊与高斯噪声；(4)随机的对输入训练试图应用额外的增强：利用随机光位置和随机漫反射和镜面反射进行渲染。其中，前2种数据增强方式以50％的概率施加于训练数据，第3种数据增强方式以20％的概率施加于训练数据，数据都用第4种增强方式处理。同时，本发明设置Adam作为设置模型参数的梯度下降优化算法。

结合实例分割网络得到的边界框信息(u_w,v_w,w_w,h_w)，对物体边界框信息(u_w,v_w,w_w,h_w)进行裁剪，将将裁剪得到的图像输入训练好的图1所示的潜在特征提取网络，得到对应的潜在特征向量z_test。

将真实测试图像得到的物体的潜在特征向量z_test与码本数据计算余弦相似度以及K近邻算法实现模板匹配得到初始3D旋转位姿。具体是：结合码本中记录的所有的模板潜在向量z_i与物体图像的姿态的潜在特征向量z_test，采取余弦相似度衡量物体图像与模板图像的特征相似度，如下式计算余弦相似度(similarity)：

在计算出物体图像与所有的模板的相似度后，再使用k近邻算法寻找与物体图像姿态最接近的k个模板，这k个模板对应的姿态R_k(1≤k≤n)就是物体图像的3D旋转位姿，在实际应用时常取k＝1。

最后，根据真实测试图像中物体对应的合成数据A，以其所对应CAD模型数据的边界框信息(u_j,v_j,w_j,h_j)，经融合了Swin Transformer(swin转换器)的改进的Mask R-CNN实例分割网络得到的真实测试图像中物体的边界框信息(u_w,v_w,w_w,h_w)，以及得到的对应模板信息，计算出初始3D平移位姿。具体是：

首先根据相机的成像模型得到：

其中，t_w，z表示真实测试图像中物体的z轴平移量，t_j，z表示合成数据A中物体的z轴平移量，f_w和f_j分别表示真实相机的焦距和渲染相机的焦距，则z轴平移量t_w，z的估计值为：

w_w、h_w分别是真实测试图像的包围框信息(u_w,v_w,w_w,h_w)中边界框的宽度和高度，w_j、h_j分别是合成数据A记录的每个数据对应的边界框信息(u_j,v_j,w_j,h_j)中边界框的宽度和和高度。

为了求解真实测试图像中物体在x轴和y轴上的平移量t_w，x和t_w，y，首先估计出真实测试图像中物体中心在图像在平面上的位置x_w，y_w为：

其中，c_x，w与c_y，w分别表示图像平面坐标的偏移量，同理可求得合成数据A中物体中心在图像平面上的位置(x_j，y_j)。再采用图像坐标系与相机坐标系的转化关系如下：

根据位置x_w，y_w式和图像坐标系与相机坐标系的转化关系式得到真实测试图像中物体在x轴和y轴上的平移量：

当深度信息可用时，使用物体点云对位姿进行优化。将真实测试图像中物体的点云记为P_w，其质心为合成数据A中对应数据点云记为P_j，其质心记为/>则真实测试图像中物体的z轴平移量为：

最后，根据式图像坐标系与相机坐标系的转化关系式来重新计算真实测试图像中物体的X轴和y轴平移量，得到真实测试图像中物体的3D平移位姿为：[t_w，x，t_w，y，t_w，z]。即最终得到的是3D旋转位姿和3D平移位姿，其中3D旋转位姿为R_k，3D平移位姿为[t_w，x，t_w，y，t_w，z]，两者共同组成真实测试图像中物体初始6D位姿。

本发明优选方案是：再结合深度信息和掩码采用迭代最近点算法实现位姿的细化。具体为：传统情况下，ICP算法直接通过物体点云和源点云继续精配准，由于场景中只有部分可见因此配准精度不高。采用迭代最近点优化，首先是要对初始点云信息进行一系列预处理工作，例如，孔洞填充、下采样等；然后使用ICP算法进行迭代优化，反复执行以下步骤直到收敛：根据初始位姿信息，将源点云变换到物体点云下；然后使用最近点匹配重新计算点对应关系；最后根据新的点对应关系，重新计算刚体变换。经过多次迭代，ICP算法逐渐优化初始位姿估计，使得配准结果更加准确。在位姿细化过程中，可以灵活调整参数以平衡迭代次数和配准精度，以满足具体的应用需求。

经过ICP算法精配准后，可以得到真实测试图像中物体更加精确的3D旋转位姿为R_k′和3D平移位姿为[t_w，x′，t_w，y′，t_w，z′]。

以下提供本发明的一个验证例：

实验评估了0.5和0.75阈值情况下的IoU的mAP。此外，实验用参数的数量来衡量模型的复杂性，实例分割网络实验的结果见表1：

表1

表1中分别列举了以resnet50、resnet101为骨干网络与本发明以Swin-T和改进的FPN结构模型为骨干网络进行比较，结果体现了本发明改进的实例分割算法在目标检测与分割任务的有效性与先进性。

在训练过程中，本发明使用了没有姿态标注的3D模型视图作为训练数据，这种方法属于自监督学习，相较于监督学习，节约了大量的成本。对于表面无纹理或者弱纹理的物体，本发明应用了可见表面差异(VSD)指标来量化预测结果(测量召回率)：

其中，表示对物体模型进行估计后得到的相机中心到3D投影点的距离；err_vsd由估计的和地面实况可见对象深度表面之间的距离确定，在测试实验中，选取阈值τ＝20mm，θ＝0.3。如表2所示，对象召回的err_vsd＜0.3：

表2

其中，基础模型为由未进行本发明改进的模型(降噪自编码器和Mask R-CNN)，加入CBAM后，平均准确率提高3.29％；只对Mask R-CNN进行主干网络进行改进，平均准确率提高9.16％；完整模型，平均准确率提高12.33％；平均识别时间为0.6s。

Claims

1.一种基于深度学习与合成数据的弱纹理物体位姿估计方法，获取若干无纹理的物体的T-LESS数据集，得到每个物体的无纹理CAD模型，其特征是包括以下步骤：

步骤6)：根据所述的潜在特征向量z_test与所述的模板潜在向量zi计算出余弦相似度，再采用k近邻算法寻找与物体图像姿态最接近的k个模板，这k个模板对应的姿态就是物体图像的3D旋转位姿；

2.根据权利要求1所述的弱纹理物体位姿估计方法，其特征是：步骤7)中所述的z轴平移量的估计值为t_j，z为所述的合成数据中物体的z轴平移量，f_w和f_j分别为真实相机的焦距和渲染相机的焦距，w_w、h_w分别是所述的包围框信息中边界框的宽度和高度，w_j、h_j分别是合成数据记录的每个数据对应的边界框信息中边界框的宽度和和高度。

3.根据权利要求2所述的弱纹理物体位姿估计方法，其特征是：当深度信息可用时，则真实测试图像中物体的z轴平移量为P_w为真实测试图像中物体的点云记为P_w，/>为真实测试图像中物体的点云的质心，/>为合成数据中对应数据点云的质心，t_j，z为合成数据中物体的z轴平移量。

4.根据权利要求3所述的弱纹理物体位姿估计方法，其特征是：根据图像坐标系与相机坐标系的转化关系式重新计算真实测试图像中物体的x轴和y轴平移量，得到真实测试图像中物体的3D平移位姿。

5.根据权利要求4所述的弱纹理物体位姿估计方法，其特征是：对初始点云信息进行预处理，再采用ICP算法进行迭代优化初始位姿估计，得到3D旋转位姿和平移量。

6.根据权利要求1-5任一所述的弱纹理物体位姿估计方法，其特征是：步骤1)中，采用OpenGL载入.obj格式的CAD模型点云数据，渲染得到纯背景下数据，将白色区域与纯黑背景进行区域叠加，再经过斐波那契网格采样得到所述的合成数据。

7.根据权利要求1-5任一所述的弱纹理物体位姿估计方法，其特征是：步骤3)中，对所述的合成数据进行域随机化训练，再输入所述的自编码器网络，所述的自编码器网络将卷积降噪自编码器中编码器前三层分别融入CBAM。

8.根据权利要求1-5任一所述的弱纹理物体位姿估计方法，其特征是：步骤4)中，所述的改进的Mask R-CNN实例分割网络由4层复合结构和改进的FPN结构组成，所述的改进的FPN包含有当前层、上层以及从下到上并向后连接的通道，合并低级特征图和高级特征图生成新的特征图。

9.根据权利要求8所述的弱纹理物体位姿估计方法，其特征是：所述的新的特征图P_i(i＝2,3，4，5，6)是FPN结构的特征金字塔的特征，低级特征图为M_i，高级特征图为P_i+1，/>表示步长stride为2、卷积核尺寸size为3×3的卷积；/>表示步长为1、卷积核尺寸为3×3的卷积。

10.根据权利要求1所述的弱纹理物体位姿估计方法，其特征是：步骤6)中，所述的余弦相似度