CN117218343A

CN117218343A - 一种基于深度学习的语义部件姿态估计方法

Info

Publication number: CN117218343A
Application number: CN202311164549.XA
Authority: CN
Inventors: 杨路; 欧阳东
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-12-12

Abstract

本发明公开一种基于深度学习的语义部件姿态估计方法，提出了SURF‑FPS算法与CPFNet模型，SURF‑FPS算法为联合SURF算法的物体模型三维关键点采样方法，用于数据预处理阶段，能够综合考虑物体的几何特征与潜在的表面纹理特征，使选取的物体关键点更加具有稳定的特征代表性；CPFNet模型可以充分利用样本的RGB图像和深度信息，在各编码层与解码层之间进行图像信息与点云信息之间的高维度特征融合；点云特征编码模块通过将点云的空间信息与对应的高维度特征信息合并处理，该模块能够较完整地提取目标物体的上下文部件特征，并且在后续的注意力模块中进行全局信息的融合，从而利用特征更加明显的关键部件来综合提升姿态估计的效果。

Description

一种基于深度学习的语义部件姿态估计方法

技术领域

本发明涉及6D姿态估计技术领域，具体为一种基于深度学习的语义部件姿态估计方法。

背景技术

在城市智能化交通潮流日渐兴盛的时代潮流中，人们对自动驾驶的热情逐渐高涨，尽管如今距离真正的全自动驾驶尚有差距，汽车所搭载的自动技术只能算作辅助驾驶系统，还无法完全取代人类驾驶员，但是其技术的进步已经远超从前，现在国内外搭载激光雷达和多个摄像头的半自动驾驶汽车已经在真实道路上进行人类监督的行驶测试。我们也应该看到这种种令人激动的背后，都离不开6D姿态估计技术的支持，汽车自动避障、自动变道等人类驾驶员能轻易完成的动作，对于自动驾驶的汽车来说，全都离不开对周边所有物体的检测与估计，只有准确探测并知晓了周遭事物，才有可能确保汽车能够持续平安地行驶。

近些年以来，各种大小型电子设备算力大致依照芯片界摩尔定律那般，近乎于成倍地快速迭代增长，得益于此，以强大算力作为支撑基础的深度学习与神经网络等方式逐渐火热起来，足够强大的算力支持使得研究者在设计神经网络模型时不再以算力为主要掣肘因素，而是能尽可能优先考虑效果优化，与之相匹配的应用者在实际应用时也能更加得心应手。目前来说，对于基于深度学习的6D姿态估计方法，大致可分为图像整体估计、图像关键点匹配、图像结合深度信息三种。

图像整体估计是指神经网络基于输入的RGB图像直接估计出视图中目标物体的6D位姿信息，这是一种端到端的估计过程，直接由单个网络模型一步完成整个位姿估计。Do等人提出了Deep-6DPose网络，该网络内部可分为目标物体检测分割和估计两大部分，前一部分使用区域提议网络(Region Proposal Networks)来将多种物体进行检测与分割，后一部分对分割之后的物体进行6D姿态估计，在估计时将变换矩阵内的待估参数解耦为平移参数与旋转参数，如此处理可以使旋转参数通过Lie代数表示来进行回归，并且该端到端网络的推断速度可达10FPS，能达到实际机器人的使用要求。但是Deep-6DPose网络由于实际上是预测区域提议网络处理过的物体对象的位姿，而非直接预测输入图像中的目标物体位姿，所以在估计小型物体或者对称物体的6D位姿时效果并不是十分理想。

基于图像关键点匹配的方法是指建立起图像上的2D点与物体模型上3D点的映射关系，再通过一系列映射的关键点得出目标物体的位姿信息，具体来说分两个阶段，首先检测出输入图像中的二维关键点，第二阶段使用PnP算法计算出目标物体的6D姿态结果。由于提取图像关键点的步骤本就借助神经网络处理，再加上还要将检测出的关键点经由固定算法计算才能得出目标物体的位姿估计结果，故此类图像关键点匹配的方法一般来说会比图像整体估计的方法慢一些。

上述两种方式主要都是应用RGB图像作为6D位姿估计网络的输入信息，但是对于越来越贴近真实场景的复杂位姿估计挑战，仅仅采用片面的图像根本无法达到比较理想可用的位姿估计精确度，在某些相对有利的场景中，在获取目标物体图像时，是可以通过深度探测设备同时获取其深度信息的，而且就算在实际应用时无法在拍摄目标物体的图像的同时实时获取其深度信息，也可以在训练网络时以RGB-D数据为输入，为位姿估计网络对于分析模式的学习提供更丰富的颜色与深度信息，使得在实际推理时有更好的表现。

发明内容

针对上述问题，本发明的目的在于提供一种基于深度学习的语义部件姿态估计方法，通过高质量的关键点选取方法、显著增强局部上下文信息的点云编码模块、高质量聚合全局特征的注意力机制模块和部件姿态的注意力融合机制，能更具有倾向性地利用特征更加明显的关键部件来综合提升姿态估计的效果。技术方案如下：

一种基于深度学习的语义部件姿态估计方法，包括以下步骤：

步骤1：根据现有的物体原始模型的数据集构建可用于姿态估计的部件级物体姿态估计数据集，且选取具有可分离结构的模型作为目标模型；

步骤2：考虑目标模型的几何特征信息和潜在的表面纹理信息，采用SURF-FPS算法选取行目标模型三维关键点；

步骤3：基于目标模型三维关键点构建物体6D姿态估计网络模型CPFNet，采用包含注意力机制的Transformer结构作为网络模型的架构，在Transformer的点云特征编码模块中对于输入的点云空间数据与相应的多维特征数据，首先进行能够代表物体部件的局部上下文特征的增强，再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取；

并且在图像特征和点云特征的编码模块与解码模块之间加入图像与点云双向融合模块，使得RGB图像信息与深度点云信息融合时不仅考虑点云的空间位置，同时还充分利用前述点云特征编码模块给出的点云综合特征；

在获取包含样本所有综合特征的特征向量之后，在部件级自适应姿态回归模块中使用实例语义分割模块、实例中心点投票模块和关键点检测模块进行处理，并使用最小二乘法拟合出目标物体的姿态。

更进一步的，所述步骤2具体包括：

步骤2.1：在视点采样球面从多角度对目标模型进行渲染，生成涵盖目标模型所有方位的图像，生成目标物体在相机坐标系中姿态的伪代码；

步骤2.2：在各图像中使用SURF算法来寻找特征明显的二维关键点，再通过渲染时产生的映射关系找出所有视角图像的二维关键点所对应的模型原始三维点；

步骤2.3：在筛选出的点集中通过FPS算法得到最终的目标模型关键点。

进一步的，所述SURF算法具体包括：

步骤2.2.1：通过搜索目标模型所有尺度空间上的图像并构建Hessian矩阵以识别潜在的对尺度与选择不变的极值兴趣点；

首先对图像进行高斯滤波，经过滤波之后的Hessian矩阵如下式所示：

其中，(x,y)表示图像I中的像素位置，L_xy(x,y,σ)＝G(σ)*I(x,y)代表图像I与高斯二阶混合偏导卷积所得的高斯尺度空间，σ表示用于卷积的高斯模版的尺度，G(σ)表示相应参数尺度的高斯二阶偏导运算，I(x,y)表示图像I在(x,y)处的值，g(δ)表示高斯模版函数；L_xx(x,y,σ)与L_yy(x,y,σ)则分别对应图像I在x方向和y方向与高斯二阶偏导进行卷积所得的高斯尺度空间；

将Hessian矩阵判别式设置为下式：

det(H)＝L_xx*L_yy-(0.9L_xy)²

其中，L_xx、L_yy和L_xy分别与L_xx(x,y,σ)、L_yy(x,y,σ)和L_xy(x,y,σ)含义相同；

步骤2.2.2：构造尺度空间，进行特征点过滤并进行精确定位；

通过比较各点与其图像域周围像素点和相邻尺度域的像素点的det(H)来找出极值点作为初步筛选出的特征点，再经过错误定位点和能量较弱点的剔除得到稳定特征点；

步骤2.2.3：特征方向赋值；

以稳定特征点为圆心，以15°的旋转步长来统计60°扇形邻域内的Harr小波特征，并将特征值最大的扇形方向作为特征方向；

步骤2.2.4：生成特征描述

着各特征点主方向取若干矩形子区域，并在每个子区域内部将水平和垂直主方向的若干像素点的Harr小波特征与其绝对值相加，并将其依照二阶高斯函数加权求和，并对每个区域内的高斯模版和特征进行卷积并归一化。

更进一步的，所述物体6D姿态估计网络模型CPFNet中具体处理步骤如下：

步骤3.1：点云特征编码模块对于输入的点云空间数据与相应的多维特征数据，首先通过上下文特征增强子模块进行增强，使其能够代表物体部件的局部上下文特征，再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取；

步骤3.2：图像与点云双向融合模块将图像所蕴含的物体模型外观特征与点云所蕴含的物体模型几何特征进行相互融合，在每层编码或解码模块对样本信息进行提取与聚合之后，将进一步处理后的图像特征融入到点云特征之中，并将进一步处理后的点云特征融入到图像特征之中，令整个Transformer结构最后获取到综合物体模型所有信息的最终特征；

步骤3.3：再将终特征分别传入相对独立的实例语义分割模块、中心点投票模块和关键点检测模块中，通过实例语义分割模块将场景中归属于不同目标物体实例的点分别给出语意标签，通过实例中心点投票模块给出逐点指向其归属的目标物体实例的中心点的偏移方向，通过关键点检测模块在各目标物体模块中检测出其预先选定的关键点，三个模块输出的结果共同作用并辅以MeanSift的中心聚类滤波和最小二乘拟合来生成最终的物体姿态估计结果。

更进一步的，所述步骤3.1具体包括：

步骤3.1.1：每层的点云特征编码模块的输入均为一个N×(3+C_in)的矩阵，其中N表示当前层中需要处理的点云中点的总数，(3+C_in)代表点的空间坐标的维度和上一层模块中融合过RGB特征的点云特征的维度；

步骤3.1.2：对所述点云进行ORB-FPS操作来获取具有几何特征和潜在纹理特征的子点集，即S×(3+C_in)维度的矩阵D₀，然后将其送入上下文特征增强子模块中以提取物体模型的部件上下文特征；其中，S表示ORB-FPS操作后新的样本数量；

步骤3.1.3：在获取整合部件语义信息的特征之后，将其输送至全局特征提取模块，此处采用的注意力模块基于采用线性注意力和核因子分解的Lambda注意力算法，

Atnn(Q,K,V)＝Q(softmax(K)^TV)

其中，Q,K,V表示输入特征矩阵分别与注意力机制中定义的Query、Key和Value的权重矩阵W_q、W_k和W_v点乘之后的特征结果；

步骤3.1.4：采用改进的Lambda注意力机制LAttn(·)在输入特征，即上下文特征增强子模块的输出特征，与Query权重矩阵W_q进行线性映射之前利用卷积操作进行局部特征的聚合和几何特征的更新，并利用Q与包含softmax操作的键值特征交互来获取全局特征，其余的Key权重矩阵W_k和Value权重矩阵W_v也做出相应的计算维度变换。

更进一步的，所述步骤3.1.2具体包括：

步骤a)：采用FLANN算法来聚合各点的上下文区域的特征形成矩阵D₁，令数据维度扩增至S×(3+C_in)×K；其中K表示FLANN算法中设定的近邻参数；

步骤b)：将扩增之前的矩阵D₀直接复制K层形成矩阵D₂以匹配扩增之后的矩阵维度，将二者相减的结果再与复制后的矩阵D₂进行拼接操作以获取S×(6+2Cin)×K维度的特征矩阵D₃；特征矩阵D₃从实质含义上分为S×6×K维度的子矩阵D₃₁和S×2C_in×K维度的子矩阵D₃₂；

步骤c)：令子矩阵D₃₁通过MLP层进行编码，将编码后的空间特征与子矩阵D₃₂进行连接以形成上下文特征增强子模块最终输出的S×(C_h+2C_in)×K维度特征矩阵D₄；其中，C_h表示MLP层设定的输出维度。

更进一步的，所述步骤3.2具体包括：

步骤3.2.1：图像与点云双向融合模块最开始接受输入时，借助渲染器的内参矩阵，将样本的深度图升维变成相机坐标系中的点云，将三维点云作为像素点和深度点的连接桥梁，即获得一个与图像特征图完全像素对齐的坐标图和与点云特征完全对应的点云；

步骤3.2.2：在将图像特征向点云特征融合的方向上，采用FLANN算法在坐标图中收集点云中特征点s_i的若干近邻点，用于近似最近邻匹配的特征向量为点云中特征点的空间坐标s_i(x_i,y_i,z_i)与其相应点特征F_Pi的拼接，从近邻点所对应的图像特征映射之中收集其纹理与颜色特征F_Ri，以避免最大池化对近邻特征的硬整合导致的特征破坏；采用改进的Lambda注意力机制LAttn(·)来收集聚合特征，再用共享权重的多层感知机σ(·)来将整合之后的特征编码至与点云特征相同的维度，最后再通过多层感知机将其与原始点云特征F_P拼接后的特征进行编码，获取融合图像特征后的点云特征F_Pfused；

步骤3.2.3：在将点云特征向图像特征融合的方向上，采用FLANN算法找出图像特征中具有相应坐标图特征的各个像素r_i对应的点云中的若干近邻点，收集近邻点所对应的点特征F_Pi，用于近似最近邻匹配的特征向量为像素点对应坐标图中的空间坐标s_i(x_i,y_i,z_i)与其图像特征中相应像素特征F_Ri的拼接，再采用共享权重的多层感知机将其编码至与图像特征相同的维度，再采用注意力机制来提取聚合特征，并将其与原始的图像特征F_R进行拼接，再将拼接特征通过共享权重的多层感知机进行编码，获取融合点云特征后的图像特征F_Rfused。

更进一步的，所述物体6D姿态估计网络模型CPFNet中还包括在图像特征和点云特征各自的编码层与相应的解码层之间添加跳跃连接，在解码层对高度浓缩的特征进行解码时嵌入合适的原始样本信息，使得生成的特征在聚合综合特征的同时收集真实的原始邻域信息；在点云特征的跳跃连接中，在采用多层感知机进行编码之前，通过扩展点卷积网络对处理前的本层原始点云特征先提取特征。

更进一步的，所述步骤3.3中，语义实例分割模块的损失函数为：

其中，N表示除了场景背景之外各实例的所有部件紧凑排序后的语义标签数量，p_i表示实例分割模块给出的某像素属于标签i的概率，α_i表示标签i的权重因子，该超参数用于调节属于本标签与不属于本标签的像素点损失之间的比例，(1-p_i)^γ为调制因子，用于降低容易分类像素的损失贡献；

中心点投票模块损失函数和关键点检测模块的损失函数为：

其中，V表示样本中除了背景之外的m个像素所对应的目标模型三维空间点处指向实例中心点或者实例关键点的单位向量估计值，表示/>所对应点处的单位向量真实值，表示/>与/>的夹角；

综合各模块的损失函数后，总损失函数如下式所示：

L＝λ₁L_InsSeg+λ₂L_CtrOfst+λ₃L_KpOfst

其中，λ₁、λ₂和λ₃分别是实例语义分割模块的损失函数L_InsSeg、中心点投票模块损失函数L_CtrOfst和关键点检测模块的损失函数L_KpOfst的权重参数。

本发明的有益效果是

1)本发明的方法包含了更有效的物体模型三维关键点选取的方法SURF-FPS，能够兼顾物体模型表面潜在的弱纹理信息和模型顶点的几何约束信息。

2)本发明提出的CPFNet网络模型以RGB图像及其相应的深度图像作为输入，在提取高聚合度特征的阶段采用Transformer架构，设计了能够更加高效地增强目标物体局部上下文特征的点云特征编码模块，并且对在各编码解码层之间用于融合物体外观信息和几何信息的图像与点云双向融合模块加入了关键性的近似最近邻选择算法，使得该模块能够在融合特征时考虑到更高层的特征信息。

3)本发明对于最后利用综合特征得出实例姿态部分的模块，由于部件对实例整体姿态估计的影响不尽相同，提出了通过各语义部件注意力融合得到实例整体姿态的机制。

4)本发明还提出了与网络模型相配套的损失函数，该损失函数能够充分地利用图像特征编码分支和点云特征编码分支自身特征流的数据特点，对于网络模型中各分支分别进行有效的约束。

附图说明

图1为本发明物体6D姿态估计模型CPFNet的整体架构示意图。

图2为本发明点云编码模块示意图。

图3(a)为图像与点云双向融合模块中图像特征向点云特征融合示意图。

图3(b)为图像与点云双向融合模块中点云特征向图像特征融合示意图。

图4(a)为CPFNet训练曲线之模型训练阶段损失值曲线。

图4(b)为CPFNet训练曲线之模型验证阶段损失值曲线。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明提出了SURF-FPS方法与CPFNet(Context Part Fusion Net)模型。SURF-FPS是一种联合SURF算法的物体模型三维关键点采样方法，主要用于数据预处理阶段，能够综合考虑物体的几何特征与潜在的表面纹理特征，使选取的物体关键点更加具有稳定的特征代表性。CPFNet模型采用Transformer结构作为网络模型的主体架构，可以充分利用样本的RGB图像和深度信息，在各编码层与解码层之间进行图像信息与点云信息之间的高维度特征融合。

具体来说，本发明设计了一种点云特征编码模块，通过将点云的空间信息与对应的高维度特征信息合并处理，该模块能够较完整地提取目标物体的上下文部件特征，并且在后续的注意力模块中进行全局信息的融合，从而利用特征更加明显的关键部件来综合提升姿态估计的效果。

1、部件级物体姿态估计数据集

本发明的数据集在ShapeNet数据集与PartNet数据集中选取了共有的6个种类的物体模型，鉴于主要目标是分析物体部件分割对姿态估计精度的影响，所以选取的物品种类都是能明显地进行常识上分割出不同部件的，从每个类别中选取一个具有可分离结构的模型，各类别的编号为在自建数据集内部的编号，顶点数与网面数可以从侧面体现出原始模型的精细程度，采样点数为模型在PartNet数据集中提供的采样点数量，每个模型的总采样点数量都为10000，下表分别统计了各部件所含采样点数量与网面数具体信息如表1所示。

表1物体原始模型信息

考虑到ShapeNet和PartNet中模型的坐标表示有偏移，所以还需要求出两数据集的模型之间的变换矩阵，本发明采用关键点变换计算并且以点集距离来验证。

本数据集总规模为100000，其中训练样本与测试样本划分比例为9:1，每个样本都含有配套的RGBD数据和标签数据，其中标签数据分为实例级别和部件级别两种，分别用来进行实例级和部件级的姿态估计效果评估，数据集样本元数据如表2所示，其中n表示不同实例的数量。

表2数据集样本元数据信息

2、关键点选取方法

作为最终拟合出物体姿态的直接数据，物体的关键点在物体6D姿态估计中扮演着极其重要的角色，在模型数据的预处理阶段，如果能够选取识别度较高的关键点，则对于网络模型检测并给出关键点是十分有利的。

考虑到本发明处理的并非是纯点云数据，关键点的选取联合利用物体模型的表面可能存在的纹理或者颜色信息，因此可以通过在预处理时渲染多角度的目标模型相应的RGB图像来辅助判别出更加独特的关键点。本发明采用SURF(Speeded Up Robust Features加速稳健特征)算法，SURF为有着高效的特征提取和描述算法，并且其特征十分稳定，不仅对于图像的亮度、旋转与尺度变换可以保持不变，而且对于噪声和视角变换也具有相当的稳定性，其算法的主要步骤如下：

(1)通过搜索所有尺度空间上的图像并构建Hessian矩阵以识别潜在的对尺度与选择不变的极值兴趣点。

其中，(x,y)表示图像I中的像素位置，L_xy(x,y,σ)＝G(σ)*I(x,y)代表图像I与高斯二阶混合偏导卷积所得的高斯尺度空间，σ表示用于卷积的高斯模版的尺度，G(σ)表示相应参数尺度的高斯二阶偏导运算，I(x,y)表示图像I在(x,y)处的值，g(δ)表示高斯模版函数；L_xx(x,y,σ)与L_yy(x,y,σ)则分别对应图像I在x方向和y方向与高斯二阶偏导进行卷积所得的高斯尺度空间。

为了加速计算图像中每个像素所对应的Hessian矩阵行列式并借此来判定局部特征点，SURF使用盒式滤波器替代高斯滤波器，为了平衡使用盒式滤波器近似高斯核系数随着远离中心点而减小所带来的误差，Hessian矩阵判别式被设置为：

det(H)＝L_xx*L_yy-(0.9L_xy)²

其中，L_xx、L_yy和L_xy分别与L_xx(x,y,σ)、L_yy(x,y,σ)和L_xy(x,y,σ)含义相同。

(2)构造尺度空间，进行特征点过滤并进行精确定位。

SURF的尺度空间由若干组与层构成，图像的尺寸在不同组之间保持不变，而使用的盒式滤波器的模版尺寸逐组增大，同组不同层见的滤波器尺寸相同但模糊系数逐渐增大，这也使得计算各层的代价相同。本发明通过比较各点与其图像域周围像素点和相邻尺度域的像素点的det(H)来找出极值点作为初步筛选出的特征点，再经过错误定位点和能量较弱点的剔除得到稳定特征点。

(3)特征方向赋值。

(4)生成特征描述。

沿着各特征点主方向取若干矩形子区域，并在每个子区域内部将水平和垂直主方向的若干像素点的Harr小波特征与其绝对值相加，并将其依照二阶高斯函数加权求和，在此过程中对每个区域内的高斯模版和特征进行卷积并归一化，以确保光照不变性。

由此本发明提出了SURF-FPS算法，具体来说，该算法首先在视点采样球面从多角度对目标模型进行渲染，生成涵盖物体所有方位的图像，生成目标物体在相机坐标系中姿态的伪代码，随后在各图像中使用SURF来寻找特征明显的二维关键点，再通过渲染时产生的映射关系找出所有视角图像的二维关键点所对应的模型原始三维点，最后在筛选出的点集中通过FPS(Farthest point sampling最远点采样)算法得到最终的目标物体关键点，FPS算法的伪代码，我们选取点云的重心作为采样点集S内的初始点s0，以此方法获得的关键点在物体表面分布得较均匀并且能够指出较明显的特征，在实验过程中能体现出较好的关键点检测效果。

3、网络模型设计

本发明所提出的物体6D姿态估计模型CPFNet是基于目标模型三维关键点进行拟合的，所以网络的主要任务就是给出目标物体在相机坐标系中各个三维关键点的坐标，考虑到本发明的姿态估计场景所提供的样本为RGB图像及其响应的深度图，故采用包含注意力机制的Transformer结构作为网络模型的主要架构，并且在各编码模块与解码模块之间加入了能使RGB图像信息与深度点云信息相互更高效融合的模块，在获取包含样本所有综合特征的特征向量之后，也同样使用实例语义分割模块、实例中心点投票模块和关键点检测模块进行处理，最后使用最小二乘法拟合出目标物体的姿态。

如图1所示为本发明设计的网络模型整体架构，鉴于本实施例的场景中的姿态估计目标为RGB图像信息相对较少的弱纹理物体，并且目标物体具有较强的部件间关系，故有针对性地对编码层中处理点云的模块进行了重新设计，使改模块在处理点云特征信息方面不仅拥有更强的提取上下文局部几何特征能力，并且加入了融合并提取点云全局几何特征的注意力模块，使得网络整体对于物体部件特征的注意力更加集中。还改进了RGB图像信息与深度点云特征信息融合模块，使得融合时不仅仅考虑点云的空间位置，同时还充分利用前述点云特征编码模块给出的点云综合特征，令信息融合更具有特征性。本发明还相应地改善了网络的损失函数，使得整个网络在训练时的梯度下降方向更加契合物体的部件语义关系。

(1)点云特征编码模块

本发明在Transformer的点云特征编码模块中对于输入的点云空间数据与相应的多维特征数据，首先通过上下文特征增强子模块进行增强，使其能够代表物体部件的局部上下文特征，再将增强后的各部件特征输送至注意力机制模块进总体的特征整合与提取，该模块的具体结构如图2所示。

每层的点云特征编码模块的输入均为一个N×(3+C_in)的矩阵，其中N表示该层中需要处理的点云中点的总数，(3+C_in)代表点的空间坐标的维度和上一层模块中融合过RGB特征的点云特征的维度。首先对该点云进行ORB-FPS操作来获取具有几何特征和潜在纹理特征的子点集，其中ORB(Oriented Fast and Rotated Brief定向快速和旋转指令)与前述所提的SURF算法类似，是一种用于二维图像中特征点检测的算法，其设计了Oriented FAST算法用于特征提取和Rotated BRIEF算法用于特征描述，并且其检测耗时仅为SURF算法的10％，适合用于在网络计算中来兼顾特征检测速度与准度的平衡，ORB与FPS联合的过程与前述SURF-FPS类似。

经过ORB-FPS操作之后，获得S×(3+C_in)维度的矩阵D₀，接下来将其送入上下文特征增强的子模块中以提取物体模型的部件上下文特征。具体来说，首先采用FLANN(FastLibrary for Approximate Nearest Neighbors快速库的近似最近邻)算法来聚合各点的上下文区域的特征形成矩阵D₁，令数据维度扩增至S×(3+Cin)×K，再将扩增之前的矩阵D₀直接复制K层形成矩阵D₂以匹配扩增之后的矩阵维度，将二者相减的结果再与复制后的矩阵D₂进行拼接操作以获取S×(6+2Cin)×K维度的特征矩阵D₃，该矩阵可以从实质含义上分为S×6×K维度的子矩阵D₃₁和S×2Cin×K维度的子矩阵D₃₂，再令子矩阵D₃₁通过MLP层进行编码，将编码后的空间特征与子矩阵D₃₂进行连接以形成上下文特征增强子模块最终输出的S×(C_h+2C_in)×K维度特征矩阵D₄。

在上述子模块的特征流过程中，与RandLANet中局部空间编码子模块仅对点的空间坐标进行编码不同的是，本发明还对点相应的特征进行相对特征增强。在整个流程中，特征数据矩阵从实质上来说可以分割为点云的空间位置处理和特征处理两个部分，对于数据矩阵特征部分的相减与拼接操作是为了配合空间位置的编码操作，而空间位置的相减与拼接则是在为点的上下文邻域通过MLP进行编码而做准备，点空间位置的相减表示的是其与空间相似近邻点的相对位置特征，再拼接上其原始位置即可对于该上下文区域进行空间特征定位，基于这两种特征信息的上下文特征编码才能更好地将部件拓扑关系进行增强。

本发明采用的FLANN算法可以综合考虑各点包含空间坐标、RGB颜色、相应法向量以及上层经过融合的点特征等所有维度特征，并以此来筛选出从高维综合特征层面与基准点最相似的近邻点。FLANN的全称为Fast Library for Approximate Nearest Neighbors，该近似最近邻开源库主要包含随机K-D树和分层K均值树这两种算法和相应的最优算法选择机制，能够对含高维度特征的大数据集进行最近邻搜索。

在获取整合部件语义信息的特征之后，接着将其输送至全局特征提取模块，此处采用的注意力模块基于采用线性注意力和核因子分解的Lambda注意力算法，其简单表示如下式所示：

Atnn(Q,K,V)＝Q(softmax(K)^TV)

其中，Q,K,V表示输入特征矩阵分别与注意力机制中定义的Query、Key和Value的权重矩阵W_q、W_k和W_v点乘之后的特征结果。

注意力模块对Lambda注意力算法做了更加适合整合特征的改进，即在特征与Query权重矩阵W_q进行线性映射之前利用卷积操作进行局部特征的聚合和几何特征的更新，并利用Q与包含softmax操作的键值特征交互来获取全局特征，其余的Key和Value的权重矩阵W_k好W_v也做出相应的计算维度变换，具体的计算如下式所示：

Q＝EdgeConv(F)W_q

K＝Flatten(F)W_k

V＝Flatten(F)W_v

y_i＝q_i(softmax(k_i)^Tv_i)

其中，F表示经过部件语义特征增强的特征矩阵，EdgeConv是一种卷积计算方式，为注意力层的输出，q_i、k_i和v_i分别为Q、K、V的第i子序列。

(2)图像与点云双向融合模块

图像与点云双向融合模块能够将图像所蕴含的物体模型外观特征与点云所蕴含的物体模型几何特征进行相互融合，在每层编码或解码模块对样本信息进行提取与聚合之后，将进一步处理后的图像特征融入到点云特征之中，与将进一步处理后的点云特征融入到图像特征之中，都能够为后续某方面编码或解码层的特征处理提供另一方面的额外特征，这能够令整个Transformer结构最后获取的特征更加综合物体模型的所有信息，该模块的结构如图3(a)和图3(b)所示。

由于样本的深度信息在不同层的点云特征编码模块之间是以深度图的形式流动，所以在本模块的最开始接受输入时，将会借助渲染器的内参矩阵，将样本的深度图升维变成相机坐标系中的点云，而这些三维点云可以作为像素点和深度点的连接桥梁，即获得一个与图像特征图完全像素对齐的坐标图和与点云特征完全对应的点云。

如图3(a)所示，在将图像特征向点云特征融合的方向上，在坐标图中收集点云中特征点s_i的若干近邻点，收集的方式为前述所提及的FLANN算法，用于近似最近邻匹配的特征向量为点云中特征点的空间坐标s_i(x_i,y_i,z_i)与其相应点特征F_Pi的拼接，从这些近邻点所对应的图像特征映射之中收集其纹理与颜色特征F_Ri，为了避免最大池化等对近邻特征的硬整合导致的特征破坏，本发明采用了前述提及改进的Lambda注意力机制LAttn(·)来收集重要的聚合特征，再用共享权重的多层感知机σ(·)来将整合之后的特征编码至与点云特征相同的维度，最后再通过多层感知机将其与原始点云特征F_P拼接后的特征进行编码，获取融合图像特征后的点云特征F_Pfused。

如图3(b)所示，在将点云特征向图像特征融合的方向上，特征的流动与上述流程近似相反，具体来说，借助FLANN算法找出图像特征中具有相应坐标图特征R的各个像素r_i对应的点云中的若干近邻点，收集近邻点所对应的点特征F_Pi，用于近似最近邻匹配的特征向量为像素点对应坐标图中的空间坐标s_i(x_i,y_i,z_i)与其图像特征中相应像素特征F_Ri的拼接，再采用共享权重的多层感知机将其编码至与图像特征相同的维度，再采用与上述相同的注意力机制来提取重要的聚合特征，并将其与原始的图像特征F_R进行拼接，再将拼接特征通过共享权重的多层感知机进行编码，获取融合点云特征后的图像特征F_Rfused。

因为在编码阶段，点云特征与图像特征的维度都会逐层变小，所以需要维护图像特征中各点与坐标图之间的对应关系，用以确保对压缩编码后幸存的每个像素特征都能够映射到其原始的坐标图中。考虑到卷积核映射原始特征是导致图像特征维度缩小的原因，直接使用卷积核的中心来近似经过映射后的新坐标，而对于此时图像特征与坐标图特征维度不符的情况，采用最近插值算法来将坐标图映射成与图像特征相同的维度。

(3)部件级自适应姿态回归模块

借助图像与点云双向融合模块，在经过Transformer的编码与解码过程之后，可以得到综合了图像外观特征与点云几何特征的高密度聚合特征，再次通过渲染器的内参矩阵将各特征点投影成为二维的RGB图像与深度图像，同时通过其映射关系将外观特征与几何特征进行配对拼接得到最终的特征，再将该特征分别传入相对独立的实例语义分割模块、中心点投票模块和关键点检测模块，这些模块都由基础的多层感知机与卷积层组成，其中实例语义分割模块用于将场景中归属于不同目标物体实例的点分别给出语意标签，实例中心点投票模块用于给出逐点指向其归属的目标物体实例的中心点的偏移方向，关键点检测模块用于在各目标物体模块中检测出其预先选定的关键点，三个模块输出的结果共同作用并辅以MeanSift的中心聚类滤波和最小二乘拟合来生成最终的物体姿态估计结果。

与其他直接回归出目标物体整体的模型不同的是，得益于实验专用的部件级数据集带有精准的部件级标注，本发明的三个处理最终特征的模块针对的是具体部件，也即从图像中分割出的是各实例的所有部件，投票指向的中心点为各部件的中心点，而检测出的关键点也是基于部件特征且从属于各部件的。由于有关部件相对于实例的姿态估计具有正负两向的效果，故本发明对于同一实例I的各个部件所得出的姿态估计结果K_i＝[R_i；T_i]进行加权，各部件的姿态估计结果对于合成整体姿态估计结果的影响因子β_i是可变的，也作为一组特殊的权重矢量随着训练而变化，迭代完成后的各权重值与相应部件在其所属实例的姿态估计中特征的显著性成正比。具体来说，对各部件姿态变换矩阵中的平移矩阵T_i的合成是直接取各元素值的平均。而对各旋转矩阵R_i的合成则需要将三个方向的旋转角度解算出来，对各角度分别取平均后再计算出总的旋转矩阵，此过程记为σR_i。则对于有n个部件的实例I来说，其最终的姿态估计结果的数学表征下式所示：

/>

(4)跳跃连接模块

尽管本发明的点云特征编码模块能够通过显式地考虑上下文特征来增强部件的结构信息，但由于在各编码层的模块之间对图像特征的卷积与对点云特征的降采样操作，在聚合提炼出高浓度综合特征的同时也在大量地丢失原始的样本信息，故本发明分别在图像特征和点云特征各自的编码层与相应的解码层之间添加跳跃连接，该跳跃连接能够在解码层对高度浓缩的特征进行解码时嵌入合适的原始样本信息，使得生成的特征在聚合综合特征的同时收集真实的原始邻域信息。

与图像特征中仅使用共享权重的多层感知机不同的是，在点云特征的跳跃连接中，会在采用多层感知机进行编码之前，通过扩展点卷积网络对处理前的本层原始点云特征先提取特征，该网络组件能够通过扩展对点云的卷积在提取每个点邻域的特征时显著地增加其有效的感受邻域，使得各点的上下文关系能够被更多地保留。尽管增加相应的残差结构数量能够逐渐增加高层次感受邻域的有效接收范围，令跳跃连接插入的信息更丰富，但是在综合考虑到计算效率之后，本发明最终将编码器与解码器层数限制在两层。

具体来说，普通的点卷积算法直接对基准点邻域计算k个最近邻点并对它们进行卷积运算，如下式所示：

其中，N_j表示基准点p_j的邻域点，⊙表示Hadamard乘积，f(·)表示将特征向量映射到点坐标的函数，g(·)表示将相对位置映射到核权重的核函数，在此采用多层感知机作为g(·)的实现。

而扩展点卷积首先计算k*d个最近邻点，再按照与基准点的距离排序，每隔d个近邻点取一个点，最终取得k个点进行卷积运算，利用稀疏性来扩展卷积核在基准点邻域上的覆盖范围。

(5)损失函数

在考虑针对于语义实例分割模块的损失函数时，鉴于目标物体作为前景仅占整个场景的小部分，所以对目标实例所包含的像素进行分割属于不平衡的数据分类，对于如实例边缘变色等难以分类的样本需要投入更多的关注。由于本发明的样本为单一场景多实例，单个样本中像素的语义标签不仅包含若干个不同的实例和一个背景，还包含了各实例的部件标签，故实例语义分割模块实际上完成的是多分类任务，本发明用FocalLoss的多分类版本作为实例语义分割模块的损失函数，如下式所示，

其中，N表示除了场景背景之外各实例的所有部件紧凑排序后的语义标签数量，p_i表示实例分割模块给出的某像素属于标签i的概率，α_i表示标签i的权重因子，该超参数用于调节属于本标签与不属于本标签的像素点损失之间的比例，(1-p_i)^γ为调制因子，用于降低容易分类像素的损失贡献。

对于中心点投票模块和关键点检测模块，由于这两个模块的输出都是指向某点的向量，所以将它们的损失函数合并设计，考虑到向量代表三维方向的特殊性，若仅将预测向量与真值向量作差所得的误差向量取模，无法完全利用出向量的方向性，故采用内积的形式，令预测向量的角度误差的损失函数值超越一次幂函数的值，如下式所示，

其中，V表示样本中除了背景之外的m个像素所对应的目标模型三维空间点处指向实例中心点或者实例关键点的单位向量估计值，表示/>所对应点处的单位向量真实值，表示/>与/>的夹角。

综合各模块的损失函数后，总损失函数如下式所示：

L＝λ₁L_InsSeg+λ₂L_CtrOfst+λ₃L_KpOfst

4、多模型姿态估计对比实验

本实施例的对比实验总共采用了五个网络模型，在相同实验条件下进行对比实验。其中，CPFNet为物体姿态估计网络模型，FFB6D网络为用于对物体部件关系进行精度分析的基准模型。

PVN3D网络也是专用于从单个RGB-D图像中进行物体6D姿态估计任务的模型，该模型并不直接回归姿态矩阵的参数，而是与FFB6D网络一样以目标物体的三维关键点为桥梁分为两个阶段来估计其姿态，第一阶段采用一种深度霍夫投票网络来检测物体的三维关键点，第二阶段则以最小二乘拟合的方式估计6D姿态参数，该模型创新性地将传统物体6D姿态估计采用的二维关键点扩展至三维，可以充分地利用深度信息中所蕴含的刚性物体的额外几何约束。

MaskedFusion网络是一个使用RGB-D数据估计对象6D姿态的框架，其架构为模块化的管道，内置的多个子任务分别采用不同的方法来实现精确的6D姿态，主要是通过在网络上包含掩码来表达物体形状的特征，并同时采用对象掩码来消除不相关的数据。

PR-GCN网络的主要贡献是提出带点细化的图卷积网络(PR-GCN)，它能够以统一的方式解决基于RGB-D的6D位姿估中存在的深度数据的表示效果不佳和不同模态的整合不足两大局限性问题。该网络首先引入点细化网络(PRN)对三维点云进行抛光，在去除噪声的情况下恢复缺失部分，之后提出了多模态融合图卷积网络(MMF-GCN)来加强图像信息与深度信息的组合，它通过图卷积网络中的局部信息传播来捕获几何感知的多模态相关。并且通过在若干基准数据集中的实验表明所提出的PRN和MMF-GCN模块可以较好地推广到其他框架之中。

表3各网络对比实验结果

网络模型的训练曲线如图4(a)和图4(b)所示，各网络模型在本发明的部件级物体姿态估计数据集中的姿态估计结果如表3所示，其中最好的姿态估计结果进行了加粗显示。从实验结果中可以看出，对于本发明的部件级物体姿态估计数据集来说，由于样本场景中包含的多个物体皆为远距离的弱纹理实例，各个网络模型可以依赖的图像特征较为不足，所以总体来说，用来作为对照的近些年表现不错的基准模型都未能达到其在广泛使用的基准数据集中的表现。

本发明所提出的CPFNet网络模型在每个目标物体的姿态估计任务中都取得了最优的成绩，并且相对于用作姿态估计精度分析的基准网络模型FFB6D来说，所有实例的平均姿态估计精度有了4.7％的提升，达到了81.0％。

综上所述，本发明的方法包含了更有效的物体模型三维关键点选取的方法SURF-FPS，能够兼顾物体模型表面潜在的弱纹理信息和模型顶点的几何约束信息。本发明提出的CPFNet网络模型以RGB图像及其相应的深度图像作为输入，在提取高聚合度特征的阶段采用Transformer架构，设计了能够更加高效地增强目标物体局部上下文特征的点云特征编码模块，并且对在各编码解码层之间用于融合物体外观信息和几何信息的图像与点云双向融合模块加入了关键性的近似最近邻选择算法，使得该模块能够在融合特征时考虑到更高层的特征信息。对于最后利用综合特征得出实例姿态部分的模块，由于部件对实例整体姿态估计的影响不尽相同，提出了通过各语义部件注意力融合得到实例整体姿态的机制。本发明还提出了与网络模型相配套的损失函数，该损失函数能够充分地利用图像特征编码分支和点云特征编码分支自身特征流的数据特点，对于网络模型中各分支分别进行有效的约束。

Claims

1.一种基于深度学习的语义部件姿态估计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述步骤2具体包括：

3.根据权利要求2所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述SURF算法具体包括：

将Hessian矩阵判别式设置为下式：

det(H)＝L_xx*L_yy-(0.9L_xy)²

步骤2.2.3：特征方向赋值；

步骤2.2.4：生成特征描述

4.根据权利要求1所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述物体6D姿态估计网络模型CPFNet中具体处理步骤如下：

5.根据权利要求4所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述步骤3.1具体包括：

Atnn(Q,K,V)＝Q(softmax(K)^TV)

6.根据权利要求5所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述步骤3.1.2具体包括：

步骤c)：令子矩阵D₃₁通过MLP层进行编码，将编码后的空间特征与子矩阵D₃₂进行连接以形成上下文特征增强子模块最终输出的S×(C_h+2C_in)×K维度特征矩阵D₄；C_h表示MLP层设定的输出维度。

7.根据权利要求5所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述步骤3.2具体包括：

步骤3.2.1：图像与点云双向融合模块最开始接受输入时，借助渲染器的内参矩阵，将样本的深度图升维变成相机坐标系中的点云，将三维点云作为像素点和深度点的连接桥梁，

即获得一个与图像特征图完全像素对齐的坐标图和与点云特征完全对应的点云；

8.根据权利要求4所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述物体6D姿态估计网络模型CPFNet中还包括在图像特征和点云特征各自的编码层与相应的解码层之间添加跳跃连接，在解码层对高度浓缩的特征进行解码时嵌入合适的原始样本信息，使得生成的特征在聚合综合特征的同时收集真实的原始邻域信息；在点云特征的跳跃连接中，在采用多层感知机进行编码之前，通过扩展点卷积网络对处理前的本层原始点云特征先提取特征。

9.根据权利要求4所述的基于深度学习的语义部件姿态估计方法，其特征在于，所述步骤3.3中，语义实例分割模块的损失函数为：

中心点投票模块损失函数和关键点检测模块的损失函数为：

综合各模块的损失函数后，总损失函数如下式所示：

L＝λ₁L_InsSeg+λ₂L_CtrOfst+λ₃L_KpOfst