CN110363817A

CN110363817A - 目标位姿估计方法、电子设备和介质

Info

Publication number: CN110363817A
Application number: CN201910621163.4A
Authority: CN
Inventors: 钱智明; 刘洋
Original assignee: Beijing See Technology Co Ltd
Current assignee: Beijing See Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-22
Anticipated expiration: 2039-07-10
Also published as: CN110363817B

Abstract

本发明提供一种目标位姿估计方法、电子设备和介质，其中方法包括：获取图像的多层次特征图；将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到所述目标区域的特征；将所述目标区域的特征输入至实例分割子网络，得到目标语义特征和实例分割结果，所述目标语义特征为所述实例分割子网络的特定层输出的特征图；将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果。本发明中，能够将目标的位姿信息与目标的位置、大小、形状等特征实现内在的关联，从而能够更加充分地将目标的多方面信息进行融合来得到目标的位姿信息，提高了目标位姿估计的准确性。

Description

目标位姿估计方法、电子设备和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标位姿估计方法、电子设备和介质。

背景技术

目标位姿估计主要用于检测图像中目标在世界坐标系中的位置和姿态。精确的目标位姿估计对增强现实、自动驾驶和机器人技术等至关重要。例如，目标位姿估计能够帮助机器人从货架上摘取目标。

目前，目标位姿估计方法大致可分为基于模板的方法、基于特征的方法。在基于模板的方法中，构造一个刚性模板，用于扫描输入图像中的不同位置，在每个位置计算相似度得分，通过比较这些相似度得分得到最佳匹配。在位姿估计中，通常通过渲染相应的三维模型得到模板，但是，它们不能很好地处理对象之间的遮挡。

在基于特征的方法中，从图像中提取局部特征，并与三维模型上的特征进行匹配，建立2D-3D对应关系，从而得到6D位姿。基于特征的方法能够处理对象之间的遮挡，然而它们需要对象上有足够的纹理来计算局部特征，在对象纹理特征不明显时，显得无能为力。

发明内容

本发明实施例提供一种目标位姿估计方法、电子设备和介质，以解决现有位姿估计方法中存在的上述问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种目标位姿估计方法，所述方法包括：

获取图像的多层次特征图；

将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到目标区域，并根据所述多层次特征图和所述目标区域在所述图像中的位置，得到所述目标区域的特征；所述目标区域为所述图像中的目标所在的图像区域；

将所述目标区域的特征输入至实例分割子网络，得到目标语义特征和实例分割结果，所述目标语义特征为所述实例分割子网络的特定层输出的特征图；

将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果。

第二方面，本发明实施例提供了一种目标位姿估计装置，包括：

获取模块，用于获取图像的多层次特征图；

目标检测模块，用于将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到目标区域，并根据所述多层次特征图和所述目标区域在所述图像中的位置，得到所述目标区域的特征；所述目标区域为所述图像中的目标所在的图像区域；

实例分割模块，用于将所述目标区域的特征输入至实例分割子网络，得到所述目标语义特征和实例分割结果，所述目标语义特征为所述实例分割子网络的特定层输出的特征图；

位姿估计模块，用于将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现本发明实施例第一方面中的目标位姿估计方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例第一方面中的目标位姿估计方法中的步骤。

本发明实施例中，通过获取多层次特征，并基于多层次特征来得到目标区域的特征，并继而根据目标区域的特征进行实例分割，获得目标语义特征和实例分割结果，进一步得到目标位姿。在上述多个任务执行过程中，多层次特征可供所有任务共享，目标检测子网络的检测结果直接用于实例分割，而位姿估计子网络所用到的目标语义特征是通过实例分割子网络所共享得到的。因此，通过上述多任务学习框架，能够将目标的位姿信息与目标的位置、大小、形状等特征实现内在的关联，从而能够更加充分地将目标的多方面信息进行融合来得到目标的位姿信息，提高了目标位姿估计的准确性。

附图说明

图1是本发明实施例提供的一种目标位姿估计方法的流程示意图；

图2是本发明实施例提供的一种MLOPE的总体网络结构示意图；

图3是本发明实施例提供的目标位姿估计装置的结构示意图；

图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种目标位姿估计方法，具体的，提供一种基于多任务学习的图像目标位姿估计(Multi-task Learning for Object Pose Estimation，MLOPE)方法，图1示出了该目标位姿估计方法的流程示意图，图2示出了该MLOPE的总体网络结构。

如图1所示，该目标位姿估计方法包括以下步骤：

步骤101：获取图像的多层次特征图。

本发明实施例中，上述图像可通过图像采集装置采集得到。该步骤中，通过对图像进行特征提取来获取图像的多层次特征图。其中，多层次特征图为图像不同分辨率、不同语义层次的特征图组合。

本发明实施例中，获取图像的多层次特征图可通过以下方式实现：

将图像输入至主干网络(如MobileNet、ResNet、VGG等)，获得第三、四、五层次的特征图，对应特征图上的宽高分别为基准图像宽高的1/8、1/16和1/32。然后将不同层次特征图输入到特征金字塔网络(Feature Pyramid Networks，简称FPN)，得到所述多层次特征图。使用FPN获得图像的多层次特征图，能够解决物体检测中的多尺度问题，大幅度提升了小物体检测的性能。

步骤102：将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到目标区域，并根据所述多层次特征图和所述目标区域在所述图像中的位置，得到所述目标区域的特征。

其中，上述目标区域为图像中的目标所在的图像区域，图像中的目标是指图像中的物体，例如，图像中的车辆、行人、建筑物等，目标区域的特征是指多层次特征图中目标区域所对应的局部特征。

可选的，步骤102包括：

判断所述图像的预生成区域是否存在目标，并对存在目标的预生成区域进行非极大值抑制(Non Maximum Suppression，简称NMS)，得到目标候选区域；

根据所述多层次特征图对所述目标候选区域采用感兴趣区域对齐(Region ofInterest Align，简称RoIAlign)进行裁剪，得到所述目标候选区域的特征；

判断所述目标候选区域中目标的类别，并回归得到优化的目标区域；

根据所述多层次特征图对所述目标区域采用所述RoIAlign进行裁剪，以得到所述目标区域的特征。

其中，图像的预生成区域可理解为图像中预先根据规则生成的区域，图像包括若干不同位置、不同大小的预生成区域，或者说，图像是若干不同位置、不同大小的预生成区域集合。

具体的，所述目标检测子网络包括区域推荐模块、候选区域特征获取模块、区域分类与目标位置回归模块以及目标区域特征获取模块；

步骤102包括：

将所述多层次特征图输入至所述区域推荐模块，所述区域推荐模块通过区域推荐网络(Region Proposal Network，简称RPN)来判断图像的预生成区域是否存在目标，并对存在目标的预生成区域进行非极大值抑制，得到目标候选区域；

所述候选区域特征获取模块根据所述多层次特征图对所述目标候选区域采用RoIAlign进行裁剪，得到所述目标候选区域的特征；

所述区域分类与目标位置回归模块判断所述目标候选区域中目标的类别，并回归得到优化的目标区域；

所述目标区域特征获取模块根据所述多层次特征图对所述目标区域采用RoIAlign进行裁剪，以得到所述目标区域的特征。

其中，RPN是一种全卷积网络，RPN的输入是一张图像的多层次特征图和根据预先确定的规则所生成的区域，RPN的输出分为两支，一支是所述预生成区域包含目标的概率，另一支是所述预生成区域(一般表现为几何框)的四个参数，分别是候选区域的中心坐标以及候选区域的宽和高。从RPN的结果中过滤掉非目标区域后采用NMS可得到目标候选区域。后续目标检测步骤是在候选区域基础上所做的进一步类别判断和目标位置优化，得到最终的目标类别和位置。

步骤103：将所述目标区域的特征输入至实例分割子网络，得到目标语义特征和实例分割结果，所述目标语义特征为所述实例分割子网络的特定层输出的特征图。

该步骤中，可在实例分割子网络中通过一系列卷积和反卷积操作得到实例分割结果，目标语义特征是反卷积层的输出，实例分割是在目标检测基础上进一步对目标进行像素级标记。

其中，上述实例分割子网络可包括两个卷积层模块，每个卷积层模块包括一个卷积层、一个ReLU(Rectified Linear Unit，线性整流函数，又称修正线性单元)层和一个批归一化(Batch Normalization)层，其中，两个卷积层模块的卷积层分别为反卷积层和面向分割任务的卷积层。

可选的，步骤103包括：

将所述目标区域的特征输入至所述实例分割子网络，将所述反卷积层的输出作为所述目标语义特征；

通过所述面向分割任务的卷积层得到每个目标区域的多类别掩膜输出，作为所述实例分割结果。

步骤104：将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果。

该步骤中，考虑到目标的位置、形状和大小等信息与目标位姿具有内在一致性，而目标的位置、形状和大小等信息又可通过关键点来描述，因而这里采用的策略是首先获得关键点2D位置信息，然后通过n点透视法(perspective-n-point problem，简称PnP)计算得到目标位姿。

其中，上述位姿估计子网络可包括一个卷积层模块、一个基于关键点位置投票的卷积层、候选关键点投票层和基于关键点的2D-3D位姿解算层。

可选的，步骤104包括：

将所述目标语义特征和所述实例分割结果输入至所述位姿估计子网络，得到图像中每个目标点与预设关键点的方向矢量；

对所述图像中的全部目标点进行随机抽样一致算法(Random Sample Consensus，简称RANSAC)采样，并根据任意两个目标点的方向矢量计算得到候选关键点；

采用霍夫投票对所述候选关键点进行投票，得到所述预设关键点的2D位置；

根据所述预设关键点的2D位置和所述预设关键点在3D模型中的位置，通过PnP计算得到所述目标的位姿；

其中，所述预设关键点在3D模型中的位置通过最远点采样法(Farthest PointSampling，简称FPS)计算得到。

本发明实施例中，上述目标位姿估计方法通过多任务位姿估计网络(即MLOPE)实现，该多任务位姿估计网络的框架(即多任务学习框架)如图2所示。

以下结合图2对整个目标位姿估计过程说明如下：

首先，将图像输入到主干网络(即Backbone，例如MobileNet、ResNet和VGG等网络)，获得图像主干网络所输出的五个不同层次的特征图。其次，将所述主干网络后三层次特征图输入至FPN中，得到图像的多层次特征图。第三，将多层次特征图输入和预先根据规则生成的区域至RPN中，得到预生成区域中是否包含目标和区域位置矫正的结果，并进一步通过NMS得到目标候选区域。然后，通过RoIAlign得到目标候选区域的特征，并根据这些特征回归得到目标类别和更精确的目标区域，进一步通过RoIAlign，得到目标区域的特征。接下来，对于每一个目标区域，根据所述目标区域的特征通过一系列卷积和反卷积操作得到目标语义特征和实例分割的结果。最后，在位姿估计子网络中利用实例分割子网络中的目标语义特征和实例分割结果得到目标的位姿估计结果。

本发明实施例中，为了训练优化MLOPE的总体网络，可构造多任务损失函数L_multi，该多任务损失函数L_multi通过以下公式计算：

其中，L_rpn为用于计算区域推荐误差的损失函数；L_det为用于计算目标区域分类与位置回归的误差的损失函数；L_mask为所述实例分割子网络的损失函数，用于计算实例分割误差；L_pose为所述位姿估计子网络的损失函数，用于计算目标位姿估计误差；为所述L_rpn的可学习参数，为所述L_det的可学习参数，为所述L_mask的可学习参数，为所述L_pose的可学习参数。

可选的，RPN的损失函数L_rpn可采用交叉熵和Smoothed L₁-loss来构造，所述L_rpn通过以下公式计算：

其中，S_rpn和为所述图像的预生成区域是否存在目标的标记集合及其真值，S_rpn(i,c)表示第i个区域的类别为c的概率，B_rpn和为目标位置回归的集合及其真值，C为分类总数，N_{roi_rpn}为推荐区域总数。

可选的，区域分类与目标位置回归模块的损失函数L_det通过以下公式计算：

其中，S_det和为区域分类结果的集合及其真值，B_rpn和为目标位置回归结果的集合及其真值，C为分类总数，N_roi为检测到的目标总数。

可选的，实例分割子网络的损失函数L_mask可采用二值交叉熵来度量，L_mask通过以下公式计算：

其中，为单个目标检测区域的分割结果，这里的分割结果只取目标类别所对应的掩模，W和H代表了掩模区域的宽和高，为固定值。

可选的，目标的3D位姿可由八个关键点的2D坐标计算而得，因此可通过这些坐标值来构建位姿估计网络的损失函数L_pose。具体的，位姿估计子网络的损失函数L_pose通过以下公式计算：

其中，X表示所有检测区域的目标关键点3D空间坐标集合，Q表示所有检测区域的目标关键点3D姿态所对应的四元数的集合，P＝[X,Q]，L_x为位置的损失函数，L_q为姿态的损失函数，N_r为目标数量，和为L_pose的可学习参数。

通过上述损失函数，该方法能够很好地处理目标遮挡问题，在LINEMOD数据集上平均精度达到97％，在有遮挡的Occlusion LINEMOD数据集上平均精度达到66％。另外，该方法采用全卷积网络，可快速实现图像目标位姿估计，在1080Ti GPU上其处理速度达到10fps，在iOS A12处理器上达到3～5fps。

综上，本发明实施例中，通过获取多层次特征，并基于多层次特征来得到目标区域的特征，并继而根据目标区域的特征进行实例分割，获得目标语义特征和实例分割结果，进一步得到目标位姿。在上述多个任务执行过程中，多层次特征可供所有任务共享，目标检测子网络的检测结果直接用于实例分割，而位姿估计子网络所用到的目标语义特征是通过实例分割子网络所共享得到的。因此，通过上述多任务学习框架，能够将目标的位姿信息与目标的位置、大小、形状等特征实现内在的关联，从而能够更加充分地将目标的多方面信息进行融合来得到目标的位姿信息，提高了目标位姿估计的准确性。

如图3所示，本发明实施例提供一种目标位姿估计装置300，包括：

获取模块301，用于获取图像的多层次特征图；

目标检测模块302，用于将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到目标区域，并根据所述多层次特征图和所述目标区域在所述图像中的位置，得到所述目标区域的特征；所述目标区域为所述图像中的目标所在的图像区域；

实例分割模块303，用于将所述目标区域的特征输入至实例分割子网络，得到所述目标语义特征和实例分割结果，所述目标语义特征为所述实例分割子网络的特定层输出的特征图；

位姿估计模块304，用于将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果。

可选的，目标检测模块302包括：

区域推荐子模块，用于判断所述图像的预生成区域是否存在目标，并对存在目标的预生成区域进行非极大值抑制，得到目标候选区域；

候选区域特征获取子模块，用于根据所述多层次特征图对所述目标候选区域采用感兴趣区域对齐RoIAlign进行裁剪，得到所述目标候选区域的特征；

区域分类与目标位置回归子模块，用于判断所述目标候选区域中目标的类别，并回归得到优化的目标区域；

目标区域特征获取子模块，用于根据所述多层次特征图对所述目标区域采用所述RoIAlign进行裁剪，以得到所述目标区域的特征。

可选的，所述实例分割子网络包括反卷积层和面向分割任务的卷积层；

实例分割模块303具体用于：

可选的，位姿估计模块304具体用于：

对所述图像中的全部目标点进行RANSAC采样，并根据任意两个目标点的方向矢量计算得到候选关键点；

其中，所述预设关键点在3D模型中的位置通过FPS计算得到。

可选的，目标位姿估计装置300采用多任务位姿估计网络，所述多任务位姿估计网络的损失函数L_multi通过以下公式计算：

可选的，所述L_rpn通过以下公式计算：

可选的，所述L_det通过以下公式计算：

可选的，所述L_mask通过以下公式计算：

可选的，所述L_pose通过以下公式计算：

其中，X表示所有检测区域的目标关键点3D空间坐标集合，Q表示所有检测区域的目标关键点3D姿态所对应的四元数的集合，P＝[X,Q]，L_x为位置的损失函数，L_q为姿态的损失函数，N_r为目标数量，和为所述L_pose的可学习参数。

需要说明的是，目标位姿估计方法实施例中任意实施方式都可以被本实施例中的目标位姿估计装置300所实现，以及达到相同的有益效果，为避免重复，此处不再赘述。

如图4所示，本发明实施例还提供的电子设备500，该电子设备500包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序；处理器502执行所述计算机程序时，实现如下步骤：

获取图像的多层次特征图；

在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器502代表的一个或多个处理器和存储器501代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。处理器502负责管理总线架构和通常的处理，存储器501可以存储处理器502在执行指令时所使用的数据。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备等。

可选的，处理器502执行所述计算机程序时，实现如下步骤：

判断所述图像的预生成区域是否存在目标，并对存在目标的预生成区域进行非极大值抑制，得到目标候选区域；

根据所述多层次特征图对所述目标候选区域采用感兴趣区域对齐RoIAlign进行裁剪，得到所述目标候选区域的特征；

处理器502执行所述计算机程序时，实现如下步骤：

可选的，处理器502执行所述计算机程序时，实现如下步骤：

其中，所述预设关键点在3D模型中的位置通过FPS计算得到。

可选的，电子设备500采用多任务位姿估计网络，所述多任务位姿估计网络的损失函数L_multi通过以下公式计算：

可选的，所述L_rpn通过以下公式计算：

可选的，所述L_det通过以下公式计算：

可选的，所述L_mask通过以下公式计算：

可选的，所述L_pose通过以下公式计算：

需要说明的是，目标位姿估计方法实施例中任意实施方式都可以被本实施例中的电子设备500所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述数据缓存方法实施例的各个过程，或者，实现上述数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其他的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标位姿估计方法，其特征在于，所述方法包括：

获取图像的多层次特征图；

2.根据权利要求1所述的方法，其特征在于，将所述多层次特征图输入至目标检测子网络，根据所述多层次特征图，得到所述图像中的目标所在的目标区域，并根据所述多层次特征图和所述目标区域在所述图像中的位置，得到所述目标区域的特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述实例分割子网络包括反卷积层和面向分割任务的卷积层；

将所述目标区域的特征输入至实例分割子网络，得到所述目标语义特征和实例分割结果，包括：

4.根据权利要求1所述的方法，其特征在于，将所述目标语义特征和所述实例分割结果输入至位姿估计子网络，得到所述目标的位姿估计结果，包括：

对所述图像中的全部目标点进行随机抽样一致算法RANSAC采样，并根据任意两个目标点的方向矢量计算得到候选关键点；

根据所述预设关键点的2D位置和所述预设关键点在3D模型中的位置，通过n点透视法PnP计算得到所述目标的位姿；

其中，所述预设关键点在3D模型中的位置通过最远点采样法FPS计算得到。

5.根据权利要求2所述的方法，其特征在于，所述方法通过多任务位姿估计网络实现，所述多任务位姿估计网络的损失函数L_multi通过以下公式计算：

6.根据权利要求5所述的方法，其特征在于，所述L_rpn通过以下公式计算：

7.根据权利要求5所述的方法，其特征在于，所述L_det通过以下公式计算：

8.根据权利要求5所述的方法，其特征在于，所述L_mask通过以下公式计算：

9.根据权利要求5所述的方法，其特征在于，所述L_pose通过以下公式计算：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至9中任一项所述的目标位姿估计方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述的目标位姿估计方法中的步骤。