CN110047101A

CN110047101A - 物体姿态估计方法、获得稠密深度图像的方法、相应装置

Info

Publication number: CN110047101A
Application number: CN201810036473.5A
Authority: CN
Inventors: 王再冉; 李炜明; 考月英; 王强; 安民修; 喻冬东; 洪性勋; 汪昊; 刘洋
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2019-07-23
Also published as: KR20190087258A

Abstract

提供一种物体姿态估计方法、获得稠密深度图像的方法、相应装置。所述物体姿态估计方法，包括：获取待估计物体对应的二维(2D)图像；提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行三维(3D)姿态估计。

Description

物体姿态估计方法、获得稠密深度图像的方法、相应装置

技术领域

本发明涉及图像处理技术领域，具体而言，本发明涉及物体姿态估计方法、获得稠密深度图像的方法、相应装置。

背景技术

在增强现实场景中，需要使用稠密深度图像来确定虚拟内容的位置、呈现方式，以便为用户提供更接近现实的增强现实场景。稠密指物体图像区域的每个像素都具有深度估计值。

获取稠密深度图像的一种方式是使用特定传感器(如深度传感器)来获取稠密深度图像。该方法的局限是需要特殊的硬件传感器，并且测量深度所需的结构光源需要消耗能量，降低了设备的使用时间。此外，由于结构光无法照射到远距离物体且受到太阳等强烈光线的影响，基于特定传感器的方法只适用于室内场景，使用场景非常局限。

获取稠密深度图像的另一种现有的方式是通过移动相机来获取多幅图像，利用多视角图像的信息融合计算深度图像。这种技术要求用户做出运动，操作繁琐，降低了用户体验。

由于上述问题，需要对现有方法进行改善，以更便捷的获得稠密深度图像。

发明内容

针对现有技术的问题，本发明提出了以下的解决方案：

本发明提出可以从单幅二维(2D，Two Dimensional)图像中提取全局视觉特征和/或局部几何特征，根据提取的特征估计物体的三维(3D，Three Dimensional)姿态，进而还可以根据物体3D姿态得到稠密深度图像。本发明提供的上述方法无需使用特定传感器(如深度传感器)，也无需用户移动相机获得多幅图像，只需使用容易获取的单幅2D图像即可获得稠密深度图像，极大提高了获得稠密深度图像的便捷性。

本发明还提出，可以使用深度学习网络提取全局视觉特征和/或局部几何特征。在训练深度学习网络时，不仅可以使用2D图像进行训练，还可以同时使用2D图像对应的深度信息或3D体素信息进行训练。训练得到的深度学习网络，由于利用了2D图像和深度信息(或3D体素信息)作为指导信息，因此提取出的特征的分辨性较高、鲁棒性更高。

通过在训练过程中使用特征逼近策略，训练得到的网络模型可以仅使用单幅2D图像估计物体的3D姿态信息，但是可以达到与同时使用2D图像和深度信息(或3D体素信息)相近的性能，提高了物体姿态估计的准确性。

本发明提出在估计物体3D姿态时，提取图像的全局视觉特征，根据全局视觉特征进行物体3D姿态的估计，并进一步获得稠密深度图像。

本发明提出在估计物体3D姿态时，提取图像的局部几何特征，根据局部几何特征进行物体3D姿态的估计，并进一步获得稠密深度图像。

本发明提出在估计物体3D姿态时，还可以同时提取全局视觉特征和局部的几何特征，结合这两个特征一起进行物体3D姿态的估计，并进一步获得稠密深度图像。

通过该方法可以从单幅图像中得到稠密深度图像，得到的稠密深度图像可用于增强现实应用场景中显示高真实感的虚拟图像，也可以用于自动驾驶等其他需要深度图像的应用。

具体地，根据本发明的一个方面，提供一种物体姿态估计方法，包括：获取待估计物体对应的2D图像；提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行3D姿态估计。

所述局部几何特征为表征物体局部关键部件或关键点的特征。

其中，提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征，包括：通过第一深度学习网络，提取待估计物体对应的2D图像的全局视觉特征；和/或通过第二深度学习网络，提取待估计物体对应的2D图像的局部几何特征。

其中，所述第一深度学习网络通过如下方式训练得到：根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络；根据输入的2D图像以及第三深度学习网络，通过第一特征逼近策略，训练得到第一深度学习网络。

其中，通过第一特征逼近策略，训练得到第一深度学习网络，包括：在损失函数中设定第一辅助损失项，所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数；通过所述第一辅助损失项，对第一深度学习网络进行训练，使第一深度学习网络的特征逼近第三深度学习网络的特征。

其中，所述第二深度学习网络通过如下方式训练得到：根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络；根据输入的2D图像以及第四深度学习网络，通过第二特征逼近策略，训练得到第二深度学习网络。

其中，通过第二特征逼近策略，训练得到第二深度学习网络，包括：在损失函数中设定第二辅助损失项，所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数；通过所述第二辅助损失项，对第二深度学习网络进行训练，使第二深度学习网络的特征逼近第四深度学习网络的特征。

其中，获取待估计物体对应的2D图像，包括：将待处理2D图像进行物体区域分割，得到待估计物体对应的2D图像。

根据本发明的另一个方面，提供一种通过上述物体姿态估计方法获得稠密深度图像的方法，包括：根据2D图像中待估计物体的3D姿态，确定所述待估计物体对应的稠密深度图像；根据待处理2D图像中各待估计物体对应的稠密深度图像，确定所述待处理2D图像对应的稠密深度图像。

根据本发明的另一个方面，提供一种物体姿态估计装置，包括：图像获取模块，用于获取待估计物体对应的二维2D图像；特征提取模块，用于提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；姿态估计模块，用于根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行三维3D姿态估计。

其中，所述局部几何特征为表征物体局部关键部件或关键点的特征。

其中，特征提取模块包括：通过第一深度学习网络提取待估计物体对应的2D图像的全局视觉特征的组件；和/或通过第二深度学习网络提取待估计物体对应的2D图像的局部几何特征的组件。

其中，所述第一深度学习网络通过如下组件训练得到：根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络的组件；根据输入的2D图像以及第三深度学习网络通过第一特征逼近策略训练得到第一深度学习网络的组件。

其中，通过第一特征逼近策略训练得到第一深度学习网络的组件包括：在损失函数中设定第一辅助损失项的组件，所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数；以及通过所述第一辅助损失项对第一深度学习网络进行训练使第一深度学习网络的特征逼近第三深度学习网络的特征的组件。

其中，所述第二深度学习网络通过如下组件训练得到：根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络的组件；根据输入的2D图像以及第四深度学习网络通过第二特征逼近策略训练得到第二深度学习网络的组件。

其中，通过第二特征逼近策略训练得到第二深度学习网络的组件包括：在损失函数中设定第二辅助损失项的组件，所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数；通过所述第二辅助损失项对第二深度学习网络进行训练使第二深度学习网络的特征逼近第四深度学习网络的特征的组件。

其中，图像获取模块包括：将待处理2D图像进行物体区域分割得到待估计物体对应的2D图像的组件。

根据本发明的另一个方面，提供一种通过上述物体姿态估计装置获得稠密深度图像的装置，包括：分图像确定模块，用于根据2D图像中待估计物体的3D姿态，确定所述待估计物体对应的稠密深度图像；总图像确定模块，用于根据待处理2D图像中各待估计物体对应的稠密深度图像，确定所述待处理2D图像对应的稠密深度图像。

附图说明

通过结合附图对示范性实施例的以下描述，上述和/或其他方面将变得明显且更加易于理解，其中：

图1是根据本发明的以第一深度学习网络为GAppNet、第二深度学习网络为LGeoNet为例的获得物体3D姿态的流程图；

图2是根据本发明的物体姿态估计的简略流程图；

图3是根据本发明的基于深度学习的全局视觉特征的训练流程，其中得到提取图像全局视觉特征的网络模型；

图4是根据本发明的基于深度学习的局部几何特征的训练流程，其中得到提取图像局部几何特征的网络模型；

图5是根据本发明的基于深度学习的训练GAppNet的流程(以VGG16模型为例)；

图6是根据本发明的基于深度学习的训练LGeoNet的流程图(以VGG16模型为例)；

图7是根据本发明的通过仅提取基于深度学习的全局视觉特征进行姿态估计的流程图(以VGG16模型为例)；

图8是根据本发明的通过仅提取基于深度学习的局部几何特征进行姿态估计的流程图(以VGG16模型为例)；

图9是根据本发明的通过结合基于深度学习的全局视觉特征和基于深度学习的局部几何特征进行姿态估计的流程图(以VGG16模型为例)；

图10是根据本发明的基于物体的3D姿态生成深度图像的流程图；

图11是根据本发明的物体姿态估计装置的框图；以及

图12是根据本发明的获得稠密深度图像的装置的框图。

具体实施方式

现将详细描述本发明的示例性实施例，所述实施例的示例在附图中示出，其中，相同的标号指示相同的部分。以下将通过参照附图来说明所述实施例，以便解释本发明。

针对背景技术部分说明的获取稠密深度图像的上述两种方式，本发明提出，可以不依靠特定传感器或多幅图像，只使用单幅2D图像作为输入，从单幅图像中估计出物体的3D姿态，然后根据物体的3D姿态进一步得到稠密深度图像。

物体的3D姿态估计是计算物体相对于相机或人的6个自由度的角度信息，可分解为平移矩阵T和旋转矩阵R。其中6个自由度分别为方位角a、仰角e、平面旋转角θ、深度d、以及物体的主点(u，v)。其中方位角a、仰角e、平面旋转角θ构成了旋转矩阵R，方位角a、仰角e、深度信息d构成了平移矩阵T。平移矩阵和旋转矩阵构成了相机的外部参数，物体主点(u，v)，焦距f，视窗大小α构成了相机的内部参数。

从单幅2D图像估计物体3D姿态存在若干难点，例如：同一物体的图像在视觉上可能有很大的差异性(从正面和背面看到的同一张椅子完全不同)。此外，物体在图像中有可能被其它物体所遮挡，也可能图像只包含物体的一部分(物体被图像截断)。如果能够解决上述问题，就可以得到更高精度的物体3D姿态，从而能够更加满足增强现实场景下的需求。

由于上述问题，需要对现有方法进行改善以获得更高准确度的物体3D姿态估计以及稠密深度图像。

以下，将参照附图详细描述本发明的改进方法及装置。

根据本发明的通过提取图像特征获得物体3D姿态的方法，可以通过仅提取全局视觉特征、仅提取局部几何特征或者提取全局视觉特征和局部几何特征二者来获得3D物体姿态。

所谓全局视觉特征是从整幅图像(彩色图像或灰度图像)中提取的特征，可以表示物体的整体特性。所谓局部几何特征，是指可以表征物体局部关键部件或关键点的特征，以汽车为例，包含有左前车轮、右前车轮、左后车轮、右后车轮、前照灯、车门等关键部件。局部几何特征可以区分物体在被遮挡或截断时的差异性。

由于在实际的图像中物体的不同姿态通常具有很大差异，且物体在图像中会出现遮挡或截断现象，全局视觉特征不能体现出物体的局部特征，因此当物体被遮挡、截断的情形下，局部几何特征能够更好地反映出物体的姿态，在该情形下，局部几何特征更鲁棒，能够有效地提高物体姿态估计的准确性。

如果将全局视觉特征和局部的几何特征结合起来进行姿态估计，不仅能反映出物体的整体特征，也能反映出物体局部特性，因此能够组合起来成为更鲁棒、更具区分性的特征，使得物体的3D姿态估计的准确性更高。

本发明提供一种物体姿态估计方法，包括如下步骤：

在步骤00，获取待估计物体对应的2D图像；

在步骤02，提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；

在步骤04，根据提取的全局视觉特征和/或局部几何特征，对待估计物体进行3D姿态估计。

其中，步骤00进一步包括：将待处理2D图像进行物体区域分割，得到待估计物体对应的2D图像。

其中，步骤02进一步包括：

通过第一深度学习网络，提取待估计物体对应的2D图像的全局视觉特征；和/或

通过第二深度学习网络，提取待估计物体对应的2D图像的局部几何特征。

在步骤04中，如果步骤02提取的特征为全局视觉特征和局部几何特征，则可以将提取的全局视觉特征和局部几何特征进行特征组合，得到组合后的图像特征，根据组合后的图像特征，对待估计物体进行3D姿态估计。其中，可以将组合后的图像特征输入到后续网络中，得到物体3D姿态。

在训练第一深度学习网络时，可以将2D图像和深度信息作为指导信息进行训练，具体地，可以先根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络，再根据输入的2D图像以及第三深度学习网络，通过第一特征逼近策略，训练得到第一深度学习网络。其中，可以在损失函数中加入第一辅助损失项，该第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数，通过加入第一辅助损失项，对第一深度学习网络进行训练，使第一深度学习网络的特征逼近第三深度学习网络的特征。

在训练第二深度学习网络时，可以将2D图像和3D体素信息作为指导信息进行训练，具体的，先根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络，根据输入的2D图像以及第四深度学习网络，通过第二特征逼近策略，训练得到第二深度学习网络。其中，可以在损失函数中加入第二辅助损失项，第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数，通过加入所述第二辅助损失项，对第二深度学习网络进行训练，使第二深度学习网络的特征逼近第四深度学习网络的特征。

通过上述方式训练得到的第一深度学习网络和第二深度学习网络，在实际在线测试过程中，可以仅使用单幅2D图像提取图像特征并估计物体的3D姿态信息，但是可以达到与同时使用2D图像和深度信息(或3D体素信息)相近的性能，提高了物体姿态估计的准确性。

图1是以第一深度学习网络为GAppNet、第二深度学习网络为LGeoNet为例的获得物体3D姿态的流程图。图1中示出了结合全局视觉特征和局部几何特征获取物体3D姿态的方法。

如图1所示，根据本发明的提取图像特征获得3D物体姿态的方法的具体步骤如下：

在步骤10，输入2D图像，经过深度学习网络GAppNet得到图像的全局视觉特征。2D图像可以为彩色图像或灰度图像。

在步骤12，输入2D图像，经过深度学习网络LGeoNet得到图像的局部几何特征。

在步骤14，将经过LGeoNet网络卷积后的局部几何特征和经过GAppNet网络卷积后的全局视觉特征结合起来，即进行特征组合，得到最终的图像特征f，作为后续网络的输入。

在步骤16，将得到的图像特征f作为后续网络的输入，即经过作为后续网络的一个或多个全连接层进行处理。

最后，在步骤18根据图像特征f输出最终的物体3D姿态。

通常，用于估计物体姿态的深度学习网络结构至少包括输入层、隐藏层和输出层，其中隐藏层的最后一层是一个全连接层，作为特征提取层。本发明的物体姿态估计的流程如图2所示，图2是根据本发明的物体姿态估计的简略流程图。

在图2中，在步骤20，输入彩色(或灰度)图像数据，如输入RGB图像，对应深度学习网络结构的输入层；

在步骤22，提取图像特征f，对应深度学习网络结构的隐藏层；

在步骤24，根据图像特征f估计出物体的3D姿态信息，对应深度学习网络结构的输出层。

深度学习是一种包含多个隐含层的感知器，它使用底层特征形成高层特征，并使用更加抽象的高层特征表示类别，从而最终提升分类或预测的准确性。卷积神经网络因其局部子采样、全局训练、共享权值等特点，已成功应用到手写字体识别、人脸检测等相关研究中，并表现出良好的抗干扰能力，对光线变化、前景遮挡均有较高的鲁棒性。为此，本发明同样采用深度学习方法进行特征的学习和提取。图3是根据本发明的提取全局视觉特征的深度学习网络(上述第一深度学习网络)的训练流程；图4是根据本发明的提取局部几何特征的深度学习网络(上述第二深度学习网络)的训练流程。其中通过图3训练获得的网络模型来提取图像的全局视觉特征，通过图4训练获得的网络模型来提取图像的局部几何特征，图3、4分别示出获取用于提取全局视觉特征和局部几何特征的网络模型的功能步骤组成。

如图3所示，在训练时，首先训练深度学习网络CDNet(对应上述第三深度学习网络)，输入为图像数据，图像数据既包含彩色(或灰度)通道(如RGB图像)，也包含深度通道(如深度图像)。其中，有关物体的图像数据与对应的深度数据要具有一致的姿态信息。在步骤30-1，图像数据经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作，然后在步骤32-1，再接入若干个全连接层，得到特征f_cd，最后在步骤34-1，输出物体的3D姿态信息，得到网络模型Model_cd。

然后训练深度学习网络网络GAppNet(对应上述第一深度学习网络)，输入的图像数据仅包含为彩色(或灰度)通道(即2D图像)，图像数据同样在步骤30-2经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作，得到经过卷积变换后的图像特征，然后经过卷积后的图像特征在步骤32-2再接入若干个全连接层，得到特征f_c，最后在步骤34-2输出物体的3D姿态信息，得到网络模型Model_GApp。

在深度学习网络GAppNet的训练过程中要采取特征逼近的策略，所谓特征逼近策略，指的是使一个网络输出的特征与另一个网络输出的特征尽可能的一致。在本发明GAppNet网络的训练中，特征逼近策略是使通过网络模型Model_GApp得到的特征尽可能与通过网络模型Model_cd得到特征一致。

具体而言，在深度网络GAppNet训练时，利用已经训练好的网络模型Model_cd监督GAppNet网络的训练过程，即在损失函数中添加一个辅助损失项：loss_cd＝f_c-f_cd。由此，通过网络模型Model_GApp得到的特征会不断地逼近通过网络模型Model_cd得到的特征。由于网络模型Model_cd用到了彩色和深度的双重数据，因此在加入辅助损失项loss_cd后，可以使网络模型Model_GApp隐性地学习深度信息，增加学习特征的分辩性和鲁棒性。

通过图4训练获取图像的局部几何特征的深度学习网络，与图3的训练方法类似，同样采取了特征逼近的策略。

如图4所示，首先训练深度学习网络VolNet(对应上述第四深度学习网络)，在步骤40-1输入从3D模型数据库生成的3D Voxel(体素)数据，3D体素数据是一种3D深度数据，然后在步骤42-1经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作，得到特征f_vol，然后在步骤44-1再接入若干个反卷积层，最后在步骤46-1输出物体的关键部件信息，得到网络模型Model_vol。

然后训练深度学习网络LGeoNet，在步骤40-2从3D模型数据库输入彩色或灰度图像(如RGB图像)，同样，在步骤42-2经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作，得到特征f_LGeo，然后在步骤44-2再接入若干个反卷积层，最后在步骤46-2输出物体的关键部件信息，得到网络模型Model_LGeo。

在LGeoNet网络的训练过程中同样要采取特征逼近的策略，即要参考已经训练好的网络模型Model_vol，使网络模型Model_LGeo得到的特征尽可能与网络模型Model_vol得到特征一致。

具体而言，在网络训练时，利用已经训练好的网络模型Model_vol监督LGeoNet网络的训练过程，即在损失函数中添加一个辅助损失项：loss_LGeo＝f_LGeo-f_vol。由此，网络模型Model_LGeo得到的特征会不断地逼近网络模型Model_vol得到的特征。由于网络模型Model_vol用到了作为3D深度数据的3D体素数据，因此在加入辅助损失项loss_LGeo后，可以使网络模型Model_LGeo隐性地学习深度信息，增加局部几何特征的表达能力。

通过已训练好的网络模型Model_GApp和网络模型Model_LGeo，输入有关物体的单幅图像，提取出图像的全局视觉特征和/或局部几何特征，通过全局视觉特征和/或局部几何特征进行物体的3D姿态估计。

本发明的实施例可以基于卷积神经网络对物体姿态进行分类或回归。输入信息包含彩色通道、深度通道和3D体素数据，并利用特征逼近的策略，增强彩色图像的特征表达能力。其中网络结构可以采用多种模型，本发明以VGG16模型(一种非常经典的深度学习网络结构)为例进行说明，VGG16模型包含16个隐含层，其中前面13个为卷积层，每个卷积层后连着一个激活函数层(未示出)和一个池化层(未示出)，后面三个为全连接层，其中前两个全连接层后面分别连着一个激活函数层(未示出)和一个Dropout层(未示出)，最后一个全连接层为输出层，输出估计出的物体3D姿态。

图5是根据本发明的基于深度学习的训练GAppNet的流程(以VGG16模型为例)；图6是根据本发明的基于深度学习的训练LGeoNet的流程图(以VGG16模型为例)。通过图5的方法来使用彩色信息和深度信息训练深度学习网络模型，用来估计物体的3D姿态。通过图6的方法来使用彩色信息和3D Voxel训练深度学习网络模型，分割物体的关键部件，用来估计物体的3D姿态。其中，通过图5训练的网络模型获得图像的全局视觉特征，通过图6训练的网络模型获得图像的局部几何特征，图5、6分别示出训练获取全局视觉特征和局部几何特征的网络模型的功能步骤组成。

如图5所示，首先训练CDNet，具体步骤如下：

在步骤50-1，图像的彩色和深度数据经过13层的卷积操作得到图像的卷积特征f_{cd_5_3}。其中，输入数据大小为[64,4,224,224]，其中64为批大小，4为通道数，含有红、绿、蓝、深度四个通道的数据，224为输入图像的高度和宽度。卷积核大小为3×3，步长设定为1，边缘扩充值为1，卷积核与输入数据进行卷积运算，输出的通道数为当前卷积核的神经元个数。由于进行了边缘扩充，卷积操作不改变特征图的大小。经过卷积操作后的特征图经过非线性激活函数relu函数处理，relu函数的计算公式为max(0,x)，使用relu函数可减少反向传播时误差梯度的计算量，同时可增加网络的稀疏行，减少参数的相互依存关系，缓解过拟合问题的发生。Relu层既不改变特征图大小也不改变特征图个数。池化层即为下采样层，设定池化窗口大小为2×2，池化步长为2，对图片进行无重叠的最大值池化操作，池化操作只改变特征图大小，不改变特征图个数，每经过一次池化操作，特征图变为原来的四分之一大小。分别在经过2次、4次、7次、10次、13层卷积操作时，进行池化操作，经过5次池化操作，特征图宽高变为输入图像的1/32大小。

在步骤52-1，经过卷积操作后的特征f_{cd_5_3}再进行两层的全连接层操作，两层全连接层操作后的特征图经非线性激活函数relu函数处理后进行dropout操作，丢弃数据概率设置为0.5，设置dropout层的主要作用是防止过拟合现象的出现。最后得到图像特征f_{cd_7}，图像特征f_{cd_7}对应图3中的f_cd。

在步骤54-1，图像特征f_{cd_7}再经过一层全连接层操作，输出最终的3D姿态信息。

如图5所示，接着训练GAppNet，具体步骤如下：

在步骤50-2，对彩色图像进行13层的卷积层操作，得到经过卷积操作后的图像特征f_{c_5_3}。其中，输入数据大小为[64,3,224,224]，其中64为批大小，3为通道数，含有红、绿、蓝三个通道的数据，224为输入图像的高度和宽度。卷积核大小为3×3，步长设定为1，边缘扩充值为1，卷积核与输入数据进行卷积运算，输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理，分别在经过2次、4次、7次、10次、13层卷积操作时，对特征图进行下采样，设定池化窗口大小为2×2，池化步长为2，对图片进行无重叠的最大值池化操作。

在步骤52-2，对步骤50-2中卷积得到的特征f_{c_5_3}进行两层的全连接层操作，全连接层操作后的特征图经非线性激活函数relu函数处理后进行dropout操作，丢弃数据概率设置为0.5。最后得到图像特征f_{c_7}，对应图3中的图像特征f_c。

在步骤54-2，图像特征f_{c_7}再经过一层全连接层操作，输出最终的3D姿态信息。

在网络GAppNet训练的过程中采取特征逼近的策略，即使网络结构GAppNet得到的图像特征f_{c_7}与网络结构CDNet得到的图像特征f_{cd_7}尽可能的一致。为此，在损失函数添加一个辅助损失项，loss_cd＝f_{c_7}-f_{cd_7}，使网络在训练时，图像特征f_{c_7}不断的逼近f_{cd_7}。在这步的训练过程中，网络模型Model_cd的参数是不变的，其仅用于辅助GAppNet网络的训练。

如图6所示，首先训练VolNet，具体步骤如下：

在步骤60-1，从3D模型数据库中生成3D Voxel数据。

在步骤62-1，对生成的3D Voxel数据进行13层的卷积操作，得到特征f_vol。其中，输入数据大小为[64,n,224,224]，其中64为批大小，n为3D voxel数据的通道数，224为输入数据的高度和宽度。卷积核大小为3×3，步长设定为1，边缘扩充值为1，卷积核与输入数据进行卷积运算，输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理，分别在经过2次、4次、7次、10次、13层卷积操作时，对特征图进行下采样，设定池化窗口大小为2×2，池化步长为2，对图片进行无重叠的最大值池化操作。

在步骤64-1，对特征f_vol进行若干反卷积操作，输出物体的关键部件信息。反卷积又被称为转置的卷积，利用反卷积可实现图像的上采样。经过反卷积操作，在步骤66-1输出与输入图像相同宽度和高度的物体关键部件信息。

如图6所示，接着训练LGeoNet，具体步骤如下：

在步骤60-2，从3D模型数据库中生成彩色图像数据，生成的彩色图像与对应的3DVoxel数据要具有一致的姿态信息。

在步骤62-2，对生成的彩色图像进行13层的卷积操作，得到图像局部几何特征f_LGeo。其中，输入数据大小为[64,3,224,224]，其中64为批大小，3为通道数，含有红、绿、蓝三个通道的数据，224为输入图像的高度和宽度。卷积核大小为3×3，步长设定为1，边缘扩充值为1，卷积核与输入数据进行卷积运算，输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理，分别在经过2次、4次、7次、10次、13层卷积操作时，对特征图进行下采样，设定池化窗口大小为2×2，池化步长为2，对图片进行无重叠的最大值池化操作。

在步骤64-2，对特征f_LGeo进行若干反卷积操作，在步骤66-2输出物体的关键部件信息。

在网络LGeoNet训练的过程中采取特征逼近的策略，即使网络结构LGeoNet得到的图像特征f_LGeo与网络结构VolNet得到的图像特征f_vol尽可能的一致。为此，在损失函数中添加一个辅助损失项，loss_LGeo＝f_LGeo-f_vol，使网络在训练时，图像特征f_LGeo不断的逼近f_vol。在这步的训练过程中，网络模型Model_vol的参数是不变的，其仅用于辅助LGeoNet网络的训练。

在实际应用中，针对网络的总体训练，可以仅使用基于深度学习的GAppNet网络提取图像的全局视觉特征，进行物体的3D姿态估计，也可以仅使用基于深度学习的LGeoNet网络提取图像的局部几何特征，进行物体的3D姿态估计，或者将两者结合起来进行物体的3D姿态估计。

仅使用基于深度学习的GAppNet网络进行物体姿态估计时，由于输出层即为物体的3D姿态，故不需要额外的训练。如图7所示，图7是根据本发明的仅基于深度学习提取的全局视觉特征进行姿态估计的流程图(以VGG16模型为例)，具体步骤如下：

在步骤70，输入彩色图像，根据已经训练好的基于深度学习的网络模型GAppNet得到全局视觉特征f_{c_7}，f_{c_7}作为后续网络的输入，即经过一个全连接层，输出物体的3D姿态。

仅使用基于深度学习的LGeoNet网络进行物体姿态估计时，由于网络结构的输出层为物体的关键部件或关键点，所以需要进一步的训练，以达到估计物体姿态的目的。如图8所示，图8是根据本发明的仅基于深度学习提取的局部几何特征进行姿态估计的流程图(以VGG16模型为例)，具体步骤如下：

在步骤80，输入彩色图像，通过13层的卷积操作训练基于深度学习的网络模型LGeoNet，并通过训练好的基于深度学习的网络模型LGeoNet得到局部几何特征f_LGeo。

在步骤82，局部几何特征f_LGeo作为后续网络的输入，即经过三个全连接层，最后在步骤84输出物体的3D姿态。

在此训练过程中，提取局部几何特征的网络结构的学习率为0，即网络参数不变，其仅用于辅助LGeoNet网络的训练。

结合基于深度学习提取的图像的全局视觉特征和局部几何特征进行物体的姿态估计时，由于需要将两种特征合成一种新的特征，故需要进一步的训练，以估计物体的3D姿态。如图9所示，图9是根据本发明的结合基于深度学习的全局视觉特征和基于深度学习的局部几何特征进行姿态估计的流程图(VGG16为例)具体步骤如下：

输入彩色图像，然后，分别在步骤90-1、90-2，通过13层的卷积操作训练基于深度学习的网络模型GAppNet和LGeoNet，根据已经训练好的基于深度学习的网络模型GAppNet和LGeoNet分别得到经过卷积操作后的全局视觉特征f_{c_5_3}和局部几何特征f_LGeo。

在步骤92，将经过卷积操作后的全局视觉特征f_{c_5_3}和局部几何特征f_LGeo相对应的位置的特征相加得到总特征f。

在步骤94，特征f作为后续网络的输入，即经过三个全连接层，最后在步骤96输出物体的3D姿态。

在此训练过程中，提取全局视觉特征和局部几何特征的网络结构卷积层的学习率为0，即网络参数不变，只改变后面三个全连接层的网络参数。

在实际应用中，针对网络在线测试，可以仅使用全局视觉特征，也可以仅使用局部几何特征，或者将两种特征结合起来，用于最终的物体3D姿态估计。

仅使用全局视觉特征进行姿态估计的流程如图7所示，上述步骤细化如下：

在步骤70，输入彩色图像，经过GAppNet得到图像特征f_{c_7}。其中，输入数据大小为[1,3,224,224]，其中1为批大小，3为通道数，含有红、绿、蓝三个通道的数据，224为输入图像的高度和宽度，即每次测试一幅图像。

在步骤72，根据特征f_{c_7}，经过一个全连接层，输出物体的3D姿态信息。

仅使用局部几何特征进行姿态估计的流程如图8所示，上述步骤细化如下：

在步骤80，输入彩色图像，经过LGeoNet得到图像特征f_LGeo。其中，输入数据大小为[1,3,224,224]，其中1为批大小，3为通道数，含有红、绿、蓝三个通道的数据，224为输入图像的高度和宽度，即每次测试一幅图像。

在步骤82、84，局部几何特征f_LGeo作为后续网络的输入，经过三个全连接层输出物体的3D姿态信息。

将全局视觉特征和局部几何特征结合起来进行姿态估计的流程如图9所示，上述步骤细化如下：

在步骤90-1、90-2，输入彩色图像，分别经过LGeoNet和GAppNet得到图像特征f_LGeo和f_{c_5_3}。其中，输入数据大小为[1,3,224,224]，其中1为批大小，3为通道数，含有红、绿、蓝三个通道的数据，224为输入图像的高度和宽度，即每次测试一幅图像。

在步骤94、96，将特征f作为后续网络的输入，最终输出物体的3D姿态信息。

通过本发明估计的物体3D姿态信息，可以计算出深度图像。具体的，可以根据2D图像中待估计物体的3D姿态，确定待估计物体对应的稠密深度图像；根据待处理2D图像中各待估计物体对应的稠密深度图像，确定该待处理2D图像对应的稠密深度图像。

图10是根据本发明的基于物体的3D姿态生成深度图像的流程图，具体步骤如下：

针对获取到的第t帧2D图像：

在步骤1000，在第t帧执行图像分割，将图像分割为不同的物体区域。即，将待处理2D图像进行物体区域分割，形成待估计物体对应的2D图像。

在步骤1002，对每个分割的物体进行3D姿态估计。

在步骤1004，对每一个物体，根据对应的3D模型和估计姿态信息生成稠密的深度图像。

在步骤1006，集合图像中的所有物体的深度图，生成当前图像的稠密深度值。

第t+dt1帧：

在步骤1010，得到相机6个自由度的运动参数。

在步骤1012，检测相机是否运动，如果没有运动，则图像深度图不变，跳转到步骤1019；若有相机运动，则执行步骤1014。

在步骤1014，根据两个视角的三角剖分更新物体的距离。

在步骤1016，得到相机从第t帧到第t+dt1帧的6个自由度的运动参数。

在步骤1018，根据第t帧的物体姿态信息和相机的运动参数，计算当前帧的物体姿态信息。

在步骤1019，根据当前帧的物体姿态，得到当前第t+dt1帧的稠密深度值，生成当前第t+dt1帧的深度图。

第t+dt2帧：

执行步骤1020、1022、1026、1028、1029，对应于步骤1010、1012、1016、1018、1019。

由此可以得到深度图像。

本发明可以使用在增强现实、自动驾驶，家庭智能机器人等领域。根据估计到的3D姿态信息，将对应的3D模型反投影到图像上，获取稠密的深度图像。

图11是根据本发明的物体姿态估计装置的框图。如图11所示，根据本发明的物体姿态估计装置包括图像获取模块1101、特征提取模块1103、姿态估计模块1105。

在图像获取模块1101，获取待估计物体对应的二维(2D)图像；在特征提取模块1103，提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；在姿态估计模块1105，根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行3D姿态估计。

图12是根据本发明的获得稠密深度图像的装置的框图。如图12所示，根据本发明的获得稠密深度图像的装置包括分图像确定模块1201，总图像确定模块1203。

分图像确定模块1201根据通过图11的物体姿态估计装置而得到的2D图像中待估计物体的3D姿态，确定所述待估计物体对应的稠密深度图像；总图像确定模块1203，根据待处理2D图像中各待估计物体对应的稠密深度图像，确定所述待处理2D图像对应的稠密深度图像。

通过特征逼近学习的策略，可以使深度学习网络GAppNet学习到类似于网络结构CDNet的特征，使深度学习网络LGeoNet学习到类似于网络结构VolNet的特征。由于网络模型CDNet和VolNet使用了图像的深度信息(或3D体素信息)，故该方法隐性地学习了图像的深度特征，使学习到的特征更鲁棒、更具有区分性。而网络结构GAppNet和LGeoNet均是以彩色(或灰度)图像作为输入，所以在实际预测时，使用本发明的技术，可以从单幅图像中估计出物体的3D姿态信息，且可以达到与同时使用图像和深度数据相近的结果。另外，在实际测试时，既可以将两种特征组合起来，也可以两种特征单独使用，用于物体的3D姿态估计。

为了便于理解示范性实施例，已经描述并在附图中示出根据本发明的基于单幅彩色(或灰度)图像得到物体的姿态及稠密深度图像的方法的某些示范性实施例。然而，应当理解，这些示范性实施例仅仅意在例示示范性实施例，而非限制示范性实施例。还应当理解，示范性实施例不限于图示和描述的示范性实施例。本领域普通技术人员可以对示范性实施例进行各种修改。

Claims

1.一种物体姿态估计方法，包括：

获取待估计物体对应的二维2D图像；

提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；

根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行三维3D姿态估计。

2.如权利要求1所述的方法，所述局部几何特征为表征物体局部关键部件或关键点的特征。

3.如权利要求1或2所述的方法，提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征，包括：

4.如权利要求3所述的方法，所述第一深度学习网络通过如下方式训练得到：

根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络；

根据输入的2D图像以及第三深度学习网络，通过第一特征逼近策略，训练得到第一深度学习网络。

5.如权利要求4所述的方法，通过第一特征逼近策略，训练得到第一深度学习网络，包括：

在损失函数中设定第一辅助损失项，所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数；

通过所述第一辅助损失项，对第一深度学习网络进行训练，使第一深度学习网络的特征逼近第三深度学习网络的特征。

6.如权利要求3所述的方法，所述第二深度学习网络通过如下方式训练得到：

根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络；

根据输入的2D图像以及第四深度学习网络，通过第二特征逼近策略，训练得到第二深度学习网络。

7.如权利要求6所述的方法，通过第二特征逼近策略，训练得到第二深度学习网络，包括：

在损失函数中设定第二辅助损失项，所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数；

通过所述第二辅助损失项，对第二深度学习网络进行训练，使第二深度学习网络的特征逼近第四深度学习网络的特征。

8.如权利要求1-7中任一项所述的方法，获取待估计物体对应的2D图像，包括：

将待处理2D图像进行物体区域分割，得到待估计物体对应的2D图像。

9.一种通过权利要求1-8任一项的物体姿态估计方法获得稠密深度图像的方法，包括：

根据2D图像中待估计物体的3D姿态，确定所述待估计物体对应的稠密深度图像；

根据待处理2D图像中各待估计物体对应的稠密深度图像，确定所述待处理2D图像对应的稠密深度图像。

10.一种物体姿态估计装置，包括：

图像获取模块，用于获取待估计物体对应的二维2D图像；

特征提取模块，用于提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征；

姿态估计模块，用于根据提取的所述全局视觉特征和/或局部几何特征，对所述待估计物体进行三维3D姿态估计。

11.一种通过权利要求10的物体姿态估计装置获得稠密深度图像的装置，包括：

分图像确定模块，用于根据2D图像中待估计物体的3D姿态，确定所述待估计物体对应的稠密深度图像；

总图像确定模块，用于根据待处理2D图像中各待估计物体对应的稠密深度图像，确定所述待处理2D图像对应的稠密深度图像。