CN112598735B

CN112598735B - 一种融合三维模型信息的单张图像物体位姿估计方法

Info

Publication number: CN112598735B
Application number: CN202011518313.8A
Authority: CN
Inventors: 戴玉超; 沈守刚; 邓辉; 何明一
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-02-27
Anticipated expiration: 2040-12-21
Also published as: CN112598735A

Abstract

本发明提供了一种融合三维模型信息的单张图像物体位姿估计方法，从图像中获得图像特征、三维坐标预测结果以及物体的分割结果，利用物体的分割结果提取初始的坐标预测结果以及图像特征，将其融合之后可以获得初始的物体局部三维点云以及其特征；将初始的局部三维点云特征与从完整三维模型提取的全局特征进行局部‑全局特征融合，可以在初始的三维坐标基础上进行精细化，获得更加精确的三维坐标预测；更加精确的三维坐标预测可以获得更加精确的二维‑三维对应，依据二维‑三维对应可以获得精确的物体位姿。

Description

一种融合三维模型信息的单张图像物体位姿估计方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种姿态预测方法。

背景技术

基于视觉的物体姿态估计在空间操作、工业制造、机器人导航等领域扮演着举足轻重的角色。目标位姿的准确测量是直接关系到空间或空中任务，比如航天器交会对接、在轨装配、空中加油等工作成功与否的一项重要工作。

从视觉进行物体位姿的估计是指从图像中准确的估计出目标对象相对于相机的位置和姿态，其中位置表示相机坐标系相当于物体坐标系的平移关系，姿态表示相机相对于目标物体坐标系的旋转关系。

传统的基于单目图像的位姿估计方法主要依靠关键点的匹配来建立图像和三维模型之间的二维-三维关系，然后根据二维-三维对应关系优化重投影误差函数来实现目标位姿估计。基于深度学习的位姿估计方法在近年来被广泛使用，第一种普遍使用的策略是利用深度学习方法预测三维模型关键点对应的二维图像坐标，然后依据二维-三维对应关系获得目标物体的位姿。但是此种方法容易受到遮挡以及光照变化等因素的影响，无法在具有挑战性的场景进行物体位姿估计。第二种策略是预测二维图像对应的三维坐标，通常可以利用RGB颜色空间来编码三维空间，从图像中预测物体所对应的RGB编码信息，间接建立二维-三维对应关系，利用优化方法获得目标物体的位姿。从图像中直接预测二维像素点对应的三维坐标，然后依据二维-三维对应关系进行姿态估计方法具有比较好的效果，其主要的流程图如图1所示。但是直接从图像中预测三维坐标的方法未能有效的利用物体完整三维模型信息，从图像中直接获得的三维坐标信息具有较大的不确定性。

发明内容

为了克服现有技术的不足，本发明提供一种融合三维模型信息的单张图像物体位姿估计方法，能够提供更加精确的三维坐标预测。

本发明解决其技术问题所采用的技术方案包括以下步骤：

1)对待进行位姿估计的输入图像进行目标检测，确定目标物体所在区域；

2)将目标物体基础区域从输入图像中截取，获得目标物体图像；

3)从目标物体图像中提取特征，将提取出的特征称为图像特征；根据图像特征对目标物体的三维坐标进行预测；根据图像特征对目标物体图像进行物体分割，获得物体像素级分割结果；根据图像特征对目标物体图像再次进行特征提取，获得像素特征，表示目标物体图像中每一个像素点对应的特征；

4)提取目标物体图像中物体区域的三维坐标以及像素特征，获得包含n个点的三维点云；

5)对包含n个点的三维点云进行点云特征提取；将提取的特征以及步骤4)提取的像素特征在通道维度上进行拼接，获得物体局部拼接特征；

6)对所述物体局部拼接特征进行融合，获得物体局部融合特征；

7)提取目标物体完整的三维点云特征，输出物体全局特征；

8)将物体局部特征、物体全局特征扩展维度至所述物体像素级分割结果中物体区域像素个数n，然后将扩维后的物体局部融合特征、扩维后的物体全局特征以及物体局部拼接特征在通道维度上进行拼接，获得局部-全局拼接特征；对局部-全局拼接特征进行处理，最终获得精确三维坐标预测结果；

9)根据精确三维坐标预测结果，依据其与二维图像的对应关系，由透视n点算法求得目标物体位姿。

所述的目标所在区域是指包含目标物体的矩形框，以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。

所述的三维坐标预测采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为三通道的坐标预测；三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标，三通道坐标表示目标物体在三维坐标系中三个维度的坐标值，分别为三维笛卡尔坐标系的x轴、y轴、z轴。

所述的物体分割采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为一通道的物体像素分割图；物体像素分割图通过像素值指明属于物体的像素。

所述的像素特征提取采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为多通道的像素特征。

所述的提取目标物体图像中物体区域的三维坐标以及像素特征使用矩阵索引的方式。

所述的物体局部融合特征采用多层感知机对物体局部拼接特征进行处理获得。

所述的物体全局特征采用多层感知机对物体完整的三维点云进行特征提取获得。

本发明的有益效果是：

1)充分利用已有数据，从局部-全局特征融合的角度将完整三维模型信息融合；

2)从图像中获得图像特征、三维坐标预测结果以及物体的分割结果，利用物体的分割结果提取初始的坐标预测结果以及图像特征，将其融合之后可以获得初始的物体局部三维点云以及其特征；

3)将初始的局部三维点云特征与从完整三维模型提取的全局特征进行局部-全局特征融合，可以在初始的三维坐标基础上进行精细化，获得更加精确的三维坐标预测；

4)更加精确的三维坐标预测可以获得更加精确的二维-三维对应，依据二维-三维对应可以获得精确的物体位姿。

附图说明

图1是现有基础算法流程图。

图2是本发明一实施例的姿态预测方法流程图。

图3是本发明一实施例的姿态预测详细方法结构图。

图4是本发明坐标预测-物体分割-图像特征提取模块一个可能的实现。

图5是本发明一实施例的完整网络结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明旨在解决直接由图像中预测三维坐标的位姿估计方法所预测的三维坐标不确定性比较大的问题，以及未能充分利用物体全局信息的问题，提出一种融合三维模型信息获得更高精确度三维坐标的方法。

如图2示出了本发明一实施例的姿态预测方法流程图，本发明包括以下步骤：

1)对待进行位姿估计的输入图像进行目标检测，确定目标物体所在基础区域。采用目标检测器输出的包含目标物体的矩形框，以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。

目标检测器可以采用任何能从图像中进行目标检测的网络，本发明不做限制。

2)根据所述目标物体所在基础区域，确定目标物体图像。由于目标物体图像需要作为后续坐标预测-物体分割-像素特征提取模块的输入，因此，目标物体的图像应该与坐标预测-物体分割-像素特征提取模块所需的尺寸一致。将目标物体基础区域从输入图像中截取，然后保持截取后图像的长宽比例不变，采用图像插值的方法将截取后图像缩放至坐标预测-物体分割-像素特征提取模块所需的尺寸。

在目标物体处于输入图像边缘的导致所述基础区域部分处于输入图像外，可以采用在缺失的部分补0的方式，获得的目标物体图像。

在一种可能的实现方式中，可以用目标检测器输出的包含目标物体的矩形框，以矩形框中心点以及矩形框的高和宽中的最大值所确定的基础区域从输入图像中裁剪出来。将裁剪后所得的图像保持长宽比不变的情况下，采用最近邻插值或者双线性内插法对裁剪后的图像进行缩放。并且保证缩放后图像的最长边尺寸为128、256等数值，如果物体位于输入图像边缘，导致物体所在基础局域有部分区域处于输入图像外，可以采用在缺失的部分补0的方式，得到完全方正的图像，获得目标物体图像。因此目标物体图像可能尺寸为128x128或256x256像素。

3)将所述目标物体图像输入至“坐标预测-物体分割-像素特征提取”模块，所述坐标预测-物体分割-像素特征提取模块包括基本网络、坐标预测分支网络、目标物体分割分支网络、像素特征提取分支网络。

基本网络用于从所述目标物体图像提取特征，将提取出的特征称为图像特征。所述坐标预测分支网络用于从所述图像特征对所述目标物体的三维坐标进行预测，所述目标物体分割分支网络用于从所述图像特征对所述目标物体图像进行物体分割，获得物体像素级分割结果，所述图像特征提取分支网络用于从所述图像特征对所述目标物体图像再次进行特征提取，获得像素特征，因为其表示目标物体图像中每一个像素点对应的特征，因此称为像素特征。

所述基本网络可以是能够从图像中提取特征的任何网络，本发明不做限制。所述坐标预测分支网络为任何可能的多层卷积神经网络结构，需要保证其输入维度符合图像特征维度以及输出为三通道的坐标预测。三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标，三通道的坐标分别表示目标物体在三维坐标系中三个维度的坐标值，其中三个维度的坐标值为三维笛卡尔坐标系的x轴、y轴、z轴。

所述物体分割分支网络为任何可能的多层卷积神经网络结构，需要保证其输入维度符合图像特征维度以及输出为一通道的物体像素分割图。物体像素分割图指明了哪些像素属于物体，哪些像素不属于物体。举例说明，像素值为0的部分表示该像素位置不属于目标物体，像素值为1的部分表示该像素位置为目标物体。

像素特征提取分支网络为任何可能的多层卷积神经网络结构，需要保证其输入维度符合图像特征维度以及输出为多通道的像素特征。

所述基本网络的一个可能的实现为12层全卷积神经网络结构，其中可以采用跳接的方式组合特征图，具体为将第3层的输出特征通过跳接，在通道维度上拼接在第6层输出的特征上，将第9层输出的特征图通过一个卷积层获得一个新的特征图，将其在通道维度上拼接在第12层输出的特征图上，将其作为目标物体图像的图像特征。

所述坐标预测分支网络的一个可能实现为采用全卷积神经网络结构，输出与目标图像对应的三通道的坐标。在一种可能的实现中，三通道坐标维度为3x256x256，也就是说每个像素点处预测一个三维坐标。三通道的坐标分别表示目标物体在三维坐标系中三个维度的坐标值，三个维度的坐标值表示在三维笛卡尔坐标系的x轴、y轴、z轴。

所述目标分割分支网络输出一个一通道的物体像素分割图，获得物体像素级的分割结果。一个可能的实现为像素值为0的部分表示该像素位置不属于目标物体，像素值为1的部分表示该像素位置为目标物体。

所述像素特征提取网络的一个可能实现为采用全卷积神经网络结构，用于从所述基本网络提取的图像特征中提取像素特征，输出64通道的像素特征，表示目标物体图像中与每一个像素点对应的特征。

4)初始预测提取模块提取目标物体图像中物体区域的三维坐标以及像素特征。所述坐标预测-物体分割-像素特征提取模块输出的三通道的坐标图、多通道的像素特征中有包含非物体区域(背景区域)的无效结果，因此需要用像素级物体分割结果对坐标预测-物体分割-像素特征提取模块输出的三通道坐标、像素特征进行提取，获得目标物体图像中物体区域的像素对应的三维坐标以及像素特征。可以但不限于使用矩阵索引的方式对三通道坐标、像素特征进行提取。

举例来说，目标物体分割分支网络输出的像素级物体分割中，像素值为1的表示该像素属于目标物体，像素值为0的表示该像素不属于物体，因此可以直接采用矩阵索引的方式，提取出像素值为1处的三通道坐标、多通道的像素特征。假设物体像素级分割结果中值为1的像素个数为n，像素特征的通道数为q，那么提取之后的像素特征的维度为n x q，三维坐标维度为n x 3，可以将提取后三维坐标看成包含n个点的三维点云，每个点是由x、y、z坐标组成。

5)物体局部特征拼接模块包含对初始预测提取模块获得的包含n个点的三维点云进行点云特征提取，点云特征提取采用任何能够从点云中提取特征的网络，本发明不做限制。然后将由点云提取的特征以及初始预测提取模块提取出来的像素特征在通道维度上进行拼接，获得局部拼接特征。举例来说，从点云提取的特征维度为n x p，其通道数为p，像素特征维度为n x q，其通道数为q，那么在对两个特征在通道维度上拼接之后的特征通道数为p+q，特征维度则为n x(p+q)。

所述三维点云以及所述像素特征均为所述目标物体的某一可见部分的三维坐标和像素特征，因此将物体局部拼接特征模块的输出的特征称为物体局部拼接特征。

6)因为所述物体局部拼接特征为从所述三维点云中提取的特征和所述像素特征在通道维度上拼接，因此物体局部特征融合模块用于对所述物体局部拼接特征进行融合，输出物体局部融合特征。局部拼接特征相当于在点云特征的基础上增加了通道数，因此可以使用类似于点云提取网络的任何结构。

在一种可能的实现方式中，可以采用多层感知机对物体局部拼接特征进行处理，获得物体局部融合特征。

7)全局特征提取模块提取物体完整的三维点云特征，输出物体全局特征。因为所述物体全局特征为从物体完整三维点云提取的特征，因此称为物体全局特征。全局特征提取模块可以采用任何能够从点云中提取特征的网络，本发明不做限制。

在一种可能的实现中，可以采用类似于PointNet网络的多层感知机对物体完整的三维点云进行特征提取。

8)局部-全局特征融合模块将所述物体局部融合特征、所述物体局部拼接特征以及所述物体全局特征进行局部-全局特征融合。所述局部-全局特征融合包括将所述物体局部特征、所述物体全局特征扩展维度至所述物体像素级分割结果中物体区域像素个数n，然后将扩维后的物体局部融合特征、扩维后的物体全局特征以及所述物体局部拼接特征在通道维度上进行拼接，获得局部-全局拼接特征。局部-全局拼接特征也相当于在点云特征的基础上增加了通道数，因此可以使用类似于点云提取网络的任何结构来对局部-全局拼接特征进行处理，最终获得精确的三维坐标预测结果。

举例来说，扩维后的物体局部融合特征维度为n x i，扩维后的物体全局特征维度为n x j，所述物体局部拼接特征维度为n x k，在通道维度上进行拼接后获得的局部-全局拼接特征维度为n x(i+j+k)，然后对拼接后的局部-全局拼接特征进行处理，获得维度为nx 3的三维坐标预测结果。

在一种可能的实现方式中，扩维后的物体局部融合特征维度为n x 1024，扩维后的物体全局特征维度为n x 1024，所述物体局部拼接特征维度为n x 128，在通道维度上进行拼接后获得的局部-全局拼接特征维度为n x 2176，然后采用多层感知机对拼接后的局部-全局拼接特征进行处理，获得维度为n x 3的三维坐标预测结果。

9)根据所述局部-全局特征模块输出的精确三维坐标预测结果，依据其与二维图像的对应关系，由透视n点算法求得物体位姿。

本发明公开了一种利用局部-全局特征融合的方法获得更加精确的物体三维坐标方法，可以获得更加精确的二维-三维对应，因此可以获得更加精确的物体位姿。

本发明在由图像中获得三维坐标然后进行位姿估计的方法上进行扩展，融合物体全局的三维信息，获得更加精确的物体三维坐标，然后再利用二维-三维对应获得精确的物体位姿。图3示出了本发明实施例的姿态预测详细方法结构图，其具体步骤为：

1)输入待进行位姿估计的输入图像，输入图像中包括带进行姿态预测的目标物体，输入图像不限制其图像大小，对输入图像进行目标检测，本公开的实施例中目标检测可以采用任何目标检测网络，不对其进行限制。目标检测确定目标物体所在区域。在本公开的一个实施例中，采用矩形框作为目标所在区域。

在一种可能的实施方式中，可以采用矩形框的中心点(C_u,C_v)以及矩形框的高h和宽w中的最大值的a倍S＝a*max(h,w)来表示目标物体所在基础区域.

2)根据目标所在基础局域，获得目标物体图像。由于目标图像需要进一步输入至坐标预测-物体分割-图像特征提取模块，因此需要将目标图像尺寸转换至坐标预测-物体分割-图像特征提取模块需要的尺寸。在本发明的一实施例中，从所述输入图像中将所述目标物体所在基础区域裁剪，在保持裁剪后图像长宽比不变的情况下将其缩放至坐标预测-物体分割-图像特征提取模块需要的尺寸，得到目标物体图像。如果物体位于输入图像边缘，导致物体所在基础局域有部分区域处于输入图像外，可以采用在缺失的部分补0的方式，得到完全方正的图像，获得目标物体图像。

在一种可能的实现方式中，给定一个目标检测器输出的矩形框，该矩形框包含位置为C_u,v的目标对象。检测框的高和宽分别是h和w像素。可以认为边界框的大小为S＝max(h,w)。然后使用边界框的中心点C_u,v作为参考点来放大边界框至最后根据/>来裁剪图像。如果裁剪的范围超过完整图像区域，可以对缺失的部分进行补零。然后将裁剪后的图像放大至一个固定大小S*，得到目标物体图像，具体的S*可以为128,256等数值，但是不宜过大或者过小，放大可以采用最近邻插值算法或者双线性内插算法。

3)将所述目标物体图像输入至坐标预测-物体分割-像素特征提取模块，所述坐标预测-物体分割-图像特征提取模块包括基本网络，坐标预测分支网络、目标物体分割分支网络、图像特征提取分支网络。

所述基本网络的一个可能的实现为12层全卷积神经网络结构，其中可以采用跳接的方式组合特征图，具体为将第3层的输出特征通过跳接，拼接在第6层输出的特征上，将第9层输出的特征图通过一个卷积层获得一个新的特征图，将其拼接在第12层输出的特征图上，将其作为目标物体图像的基本特征。

所述坐标预测分支网络的一个可能实现为采用全卷积神经网络结构，输出三个通道的目标物体坐标图，三通道目标物体坐标图分别表示目标物体在三维坐标系中三个维度的坐标值，三个维度的坐标值表示在三维笛卡尔坐标系的x轴、y轴、z轴。

所述目标分割分支网络输出一个一通道的物体像素分割，一个可能的实现为像素值为0的部分表示该像素位置不属于目标物体，像素值为1的部分表示该像素位置为目标物体。

所述像素特征提取网络的一个可能实现为采用全卷积神经网络结构，输出64通道的图像特征图，表示图像像素点对应的图像特征。

坐标预测-物体分割-图像特征提取模块一个可能的实现如图4所示。将三通道分辨率为256x256的目标物体图像输入坐标预测-物体分割-像素特征提取模块，三个分支网络分别得到64通道的像素特征、一通道的物体分割、三通道的三维坐标预测。

4)初始预测提取模块根据所述目标物体分割分支网络输出物体分割结果找到物体所在像素位置的三维坐标预测结果、像素特征结果。假设物体分割结果中包含物体的像素个数为n，那么提取之后的图像特征维度为n x 64，三维坐标维度为n x 3，可以将其视为包含n个点的三维点云。

5)物体局部特征拼接模块包含对初始预测提取模块获得的包含n个点的三维点云进行点云特征提取，然后物体局部特征拼接模块将由点云提取的特征以及初始预测提取模块提取出来的像素特征在通道维度上进行拼接，获得局部拼接特征。

对于提取出来的三维点云，可以采用点云提取网络对其进行特征提取，点云提取网络包括PointNet但不限于PointNet，可以得到n x 64维度的三维点特征，然后将三维点特征与图像特征在通道维度上进行拼接，可以得到n x 128维度的局部拼接特征，所述三维坐标预测结果以及图像特征均为所述目标物体的某一可见部分的三维坐标预测和图像特征，因此将物体局部融合特征模块的输出称为物体局部融合特征。

6)物体局部特征融合模块用于对所述物体局部拼接特征进行融合，输出物体局部融合特征。在融合特征的一种可能的实现中，可以采用多层感知机对物体局部拼接特征进行处理，获得物体局部融合特征。特征提取模块也可以采用类似于PointNet结构提取特征，并且采用最大池化层将特征维度进行压缩，得到1x 1024维度的物体局部融合特征。

7)已知物体的完整三维点云，设物体三维点云中点的个数为m，m可以包括10000但不限于10000，可以为其他数值，保证点云尽可能的包含完整的物体模型。全局特征提取模块可以提取物体完整的三维点云特征，输出物体全局特征；全局特征提取模块的一个可能实现为类似于PointNet结构的点云特征提取网络，但是不限于PointNet结构，全局特征提取模块首先获得mx 64为特征，然后采用平均池化层获得1x 1024为特征，获得物体全局特征。因为所述物体全局特征为从物体完整三维点云提取的特征，因此称为物体全局特征；

8)局部-全局特征融合模块将所述物体局部融合特征、所述物体局部拼接特征以及所述物体全局特征进行局部-全局特征融合。所述局部-全局特征融合包括将所述物体局部融合特征、所述物体全局特征维度分别扩展至n x 1024维，然后将所述扩维后的物体局部融合特征、扩维后物体全局特征以及所述物体局部拼接特征在通道维度上进行拼接，得到n x 2176维度的特征，采用多层感知机对拼接后的特征进行处理，最终获得n x 3维的精确三维坐标预测结果。

如图5为本发明一实施例的完整网络结构图，其中MLP表示多层感知机，Avgpool表示平均池化操作。

Claims

1.一种融合三维模型信息的单张图像物体位姿估计方法，其特征在于，包括以下步骤：

7)提取目标物体完整的三维点云特征，输出物体全局特征；

2.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的目标所在区域是指包含目标物体的矩形框，以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。

3.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的三维坐标预测采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为三通道的坐标预测；三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标，三通道坐标表示目标物体在三维坐标系中三个维度的坐标值，分别为三维笛卡尔坐标系的x轴、y轴、z轴。

4.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的物体分割采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为一通道的物体像素分割图；物体像素分割图通过像素值指明属于物体的像素。

5.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的像素特征提取采用多层卷积神经网络结构，其输入维度符合图像特征维度，输出为多通道的像素特征。

6.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的提取目标物体图像中物体区域的三维坐标以及像素特征使用矩阵索引的方式。

7.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的物体局部融合特征采用多层感知机对物体局部拼接特征进行处理获得。

8.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法，其特征在于，所述的物体全局特征采用多层感知机对物体完整的三维点云进行特征提取获得。