CN111968235A

CN111968235A - 一种物体姿态估计方法、装置、系统和计算机设备

Info

Publication number: CN111968235A
Application number: CN202010650263.2A
Authority: CN
Inventors: 陈志国; 冯俊涛; 丛林
Original assignee: Hangzhou Yixian Advanced Technology Co ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-20
Anticipated expiration: 2040-07-08
Also published as: CN111968235B

Abstract

本申请涉及一种物体姿态估计方法、装置、系统和计算机设备，其中，该物体姿态估计方法包括：通过获取目标物体的二维图像，将所述二维图像输入神经网络模型，获得所述目标物体的姿态，其中，采用训练物体的二维图像训练所述神经网络模型，且采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型，并根据所述训练物体的实际尺寸预设三维包围框，根据所述三维包围框对所述三维模型进行标注，解决了相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，提高了目标物体的6D姿态估计精确度。

Description

一种物体姿态估计方法、装置、系统和计算机设备

技术领域

本申请涉及神经网络技术领域，特别是涉及一种物体姿态估计方法、装置、系统和计算机设备。

背景技术

姿态估计问题就是确定某一三维目标物体的方位指向问题，姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用，物体的姿态也称为6D信息，即位置信息x、y、z和角度信息Pitch、Roll、Yaw，其中，pitch是围绕X轴旋转，也叫做俯仰角，yaw是围绕Y轴旋转，也叫偏航角，roll是围绕Z轴旋转，也叫翻滚角。

在相关技术中，基于热力图的物体姿态估计方法通过区域生成网络(RegionProposal Network，简称RPN网络)提取多个目标物体的候选框，通过全卷积网络(FullyConvolutional Networks，简称FCN网络)提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，然后再通过使用迭代法(Perspective-n-Point，简称PnP)计算目标物体的6D姿态估计，并通过使用3D形状数据集也就是ShapeNet作为CAD模型库来合成大量的训练数据，但是由于三维包围盒的点在目标物体的外面，使得三维包围盒的点并不能真实反映目标物体的位置，进而存在目标物体的6D姿态估计不精确的情形。

目前针对相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种物体姿态估计方法、装置、系统和计算机设备，以至少解决相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题。

第一方面，本申请实施例提供了一种物体姿态估计方法，所述方法包括：

获取目标物体的二维图像；

将所述二维图像输入神经网络模型，获得所述目标物体的姿态，其中，采用训练物体的二维图像训练所述神经网络模型，且采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型，并根据所述训练物体的实际尺寸预设三维包围框，根据所述三维包围框对所述三维模型进行标注。

在其中一些实施例中，所述采用训练物体的二维图像训练所述神经网络模型包括：

对所述三维模型做掩膜处理，确定所述训练物体的掩膜图像和三维坐标图；

将所述二维图像作为训练数据，所述掩膜图像和所述三维坐标图作为监督数据，训练所述神经网络模型。

在其中一些实施例中，将所述二维图像作为训练数据，所述掩膜图像和所述三维坐标图作为监督数据，训练所述神经网络模型包括：

建立基于物体检测算法、映射关系和PnP算法的所述神经网络模型，其中，采用物体检测算法确定所述二维图像中所述训练物体的检测框，并将所述检测框切出来生成用于训练所述映射关系的所述二维图像，通过编解码网络拟合所述二维图像到所述三维坐标图的所述映射关系，并通过所述映射关系处理所述二维图像，以获得与所述二维图像对应的预测三维坐标图，且通过所述PnP算法处理所述预测三维图，以确定与所述二维图像相对应的位姿；

根据所述二维图像训练所述物体检测算法，其中，所述掩膜图像作为监督数据；

基于所述检测框生成的所述二维图像训练所述映射关系，其中，所述三维坐标图作为监督数据。

在其中一些实施例中，确定置信度的情况下，通过所述PnP算法处理所述预测三维图，以确定与所述二维图像相对应的位姿之前，所述方法还包括：

根据所述置信度和所述掩膜图像，筛选所述预测三维坐标图，其中，用筛选后的所述预测三维坐标图通过所述PnP算法处理，以确定与所述二维图像相对应的位姿。

在其中一些实施例中，采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型包括：

将所述二维图像和所述深度图像对齐；

根据对齐后的所述二维图像和所述深度图像，利用三维重建算法重建所述二维图像中的物体模型；

根据所述训练物体修剪所述物体模型，生成所述训练物体的三维模型。

第二方面，本申请实施例提供了一种物体姿态估计装置，所述装置包括：图像获取模块和姿态生成模块；

所述图像获取模块，用于获取目标物体的二维图像；

所述姿态生成模块，用于将所述二维图像输入神经网络模型，获得所述目标物体的姿态，其中，采用训练物体的二维图像训练所述神经网络模型，且采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型，并根据所述训练物体的实际尺寸预设三维包围框，根据所述三维包围框对所述三维模型进行标注。

第三方面，本申请实施例提供了一种物体姿态估计系统，所述系统包括：中央处理器和相机；

所述相机，用于获取目标物体的二维图像；

所述中央处理器，用于将所述二维图像输入神经网络模型，获得所述目标物体的姿态，其中，采用训练物体的二维图像训练所述神经网络模型，且采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型，并根据所述训练物体的实际尺寸预设三维包围框，根据所述三维包围框对所述三维模型进行标注。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种物体姿态估计。

第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种物体姿态估计。

相比于相关技术，本申请实施例提供的物体姿态估计方法，通过获取目标物体的二维图像，将所述二维图像输入神经网络模型，获得所述目标物体的姿态，其中，采用训练物体的二维图像训练所述神经网络模型，且采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型，并根据所述训练物体的实际尺寸预设三维包围框，根据所述三维包围框对所述三维模型进行标注，解决了相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，提高了目标物体的6D姿态估计精确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a是根据本申请实施例的物体姿态估计方法的流程图；

图1b是根据本申请实施例的三维包围框的示意图；

图2是根据本申请实施例的采用训练物体的二维图像训练神经网络模型方法的流程图一；

图3是根据本申请实施例的采用训练物体的二维图像训练神经网络模型方法的流程图二；

图4是根据本申请实施例的采用二维图像和训练物体的深度图像确定训练物体的三维模型方法的流程图；

图5是根据本申请实施例的物体姿态估计装置的结构框图；

图6是根据本申请实施例的物体姿态估计系统的结构框图；

图7是根据本申请实施例的计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的物体姿态估计方法，通过将二维图像作为输入得到目标物体的6D姿态信息，可以适用大部分不对称不透明的物体位姿估计，本申请通过获取目标物体的二维图像，将二维图像输入神经网络模型，获得目标物体的姿态，其中，采用训练物体的二维图像和深度图像训练神经网络模型，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对训练物体的三维图像进行标注。

本实施例提供了一种物体姿态估计方法，图1a是根据本申请实施例的物体姿态估计方法的流程图，如图1a所示，该方法包括如下步骤：

步骤S101，获取目标物体的二维图像；需要说明的是，目标物体的二维图像是通过围绕目标物体拍摄视频所获得的，且二维图像是指目标物体的RGB图像，也可以称为像素图像；

步骤S102，将二维图像输入神经网络模型，获得目标物体的姿态，其中，采用训练物体的二维图像训练神经网络模型，且采用二维图像和训练物体的深度图像确定训练物体的三维模型，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对三维模型进行标注；

需要说明的是，深度图像是一种图像或图像通道，其中包含与目标物体的表面到视点的距离有关的信息，可以用于模拟的3D形状或重建目标物体，且深度图像可以通过深度相机获得，需要进一步说明的是，在训练神经网络模型的过程中，是通过二维图像和深度图像重建训练物体，由于在扫描重建的过程中不可避免的会出现训练物体的模型有缺损的情况，而且重建训练物体的位置在世界坐标系下都不一致，为了保证获得标注数据的一致性，通过根据训练物体的实际尺寸预设三维包围框，且可以手工移动三维包围框的位置，使三维包围框正好将物体包围住，进而可以适当根据三维包围框补充训练物体模型的缺损位置，而且对同一个物体的不同模型，框的朝向和物体的对应位置是一致的，这样就有了统一的标注参考；图1b是根据本申请实施例的三维包围框的示意图，如图1b所示，训练物体为人体鞋子，长方体包围框根据人体鞋子的实际尺寸预设三维包围框；

通过步骤S101至步骤S102，将二维图像输入神经网络模型，得到目标物体的6D姿态信息，且神经网络模型的训练数据是基于深度相机获取的大量二维图像和深度图像，二维图像和深度图像进行训练物体的三维模型重建，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对训练物体的三维图像进行标注，进而可以得到大量的真实的训练数据，避免了相关技术中带有标注的真实数据比较少的情况，解决了相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，提高了目标物体的6D姿态估计精确度。

在其中一些实施例中，图2是根据本申请实施例的采用训练物体的二维图像训练神经网络模型方法的流程图一，如图2所示，该方法包括如下步骤：

步骤S201，对三维模型做掩膜处理，确定训练物体的掩膜图像和三维坐标图；需要说明的是，掩模图像是由0和1组成的一个二进制图像，当在某一功能中应用掩模时，1值对应区域被处理，被屏蔽的0值对应区域不被包括在计算中，通过指定的数据值、数据范围、有限或无限值、感兴趣区和注释文件来定义图像掩模，也可以应用上述选项的任意组合作为输入来建立掩模已获得掩膜图像，掩膜也可以称为mask；

步骤S202，将二维图像作为训练数据，掩膜图像和三维坐标图作为监督数据，训练神经网络模型；

通过步骤S201至步骤S202，在训练神经网络模型中，先根据训练物体的深度图像和二维图像重建三维模型，然后对该三维模型做图像掩膜处理，以获得训练物体的掩膜图像和三维坐标图，最后将大量二维图像作为训练数据，大量掩膜图像和大量三维坐标图作为监督数据，训练神经网络模型，提高神经网络模型的精度。

在其中一些实施例中，图3是根据本申请实施例的采用训练物体的二维图像训练神经网络模型方法的流程图二，如图3所示，将二维图像作为训练数据，掩膜图像和三维坐标图作为监督数据，训练神经网络模型的情况下，该方法还包括如下步骤：

步骤S301，建立基于物体检测算法、映射关系和PnP算法的神经网络模型，其中，采用物体检测算法确定二维图像中训练物体的检测框，并将检测框切出来生成用于训练映射关系的二维图像，通过编解码网络拟合二维图像到三维坐标图的映射关系，并通过映射关系处理二维图像，以获得与二维图像对应的预测三维坐标图，且通过PnP算法处理预测三维图，以确定与二维图像相对应的位姿；

需要说明的是，编解码网络也就是encode-decode的网络，通过encode-decode的网络来拟合RGB图像到三维坐标图的变换，其中，编码部分也就是encode的部分可以采用残差网络(Residual Network，简称Resnet)或者高分辨率网络(High-ResoultionNet，简称HRnet)，解码部分也就是decode的部分可以采用上采样加卷积的形式，而且还可以加入特征金字塔网络((FeaturePyramidNetworks，简称FPN)利用多尺度的信息；

需要进一步说明的是，PnP算法，就是已知的n个空间3D点与图像2D点对应的点对，计算相机位姿、或者目标物体位姿，相机位姿和目标物体二者是等价的，因此通过神经网络模型得知了相机的位姿便是得知了目标物体的位姿；

步骤S302，根据二维图像训练物体检测算法，其中，掩膜图像作为监督数据；

需要说明的是，例如在物体姿态为人体鞋子姿态的情况下，可以使用物体检测算法也就是yolov3的方法进行脚部2D检测，以获得脚部的检测框，且可根据掩膜图像的最小包围框，得到2D脚部检测的包围框，因此可将通过掩膜图像得到的脚部包围框作为监督数据，为了减小运算量，神经网络模型的骨干网络可以采用可分离卷积也就是mobilenet系列，利用可分离卷积代替传统的卷积，可以减少参数量，为了增加神经网络模型的检测效果，在神经网络模型的最后采用多尺度的物体检测算法(Feature Pyramid Networks，简称FPN)的结构，以充分利用多尺度的信息，经过脚部的检测后，可以得到2D框，通过增加短边的长度，可以得到一个正方形的检测框，之后可将脚部图像切出来，这样参与训练的三维图像便变小，并且背景的干扰也减弱了；

步骤S303，基于检测框生成的二维图像训练映射关系，其中，三维坐标图作为监督数据；需要进一步说明的是，神经网络模型的输入为彩色的RGB图像，输出为5通道的特征图，其中前三个通道为三维坐标图，第四个通道是mask信息，第五个通道是预测三维坐标图的置信度，学习三维坐标图的损失函数为L2损失，且L2损失的收敛速度要比L1损失快得多，mask损失采用交叉熵，置信度通道也采用的L2损失，其中置信度学习的是预测三维坐标图和真实三维坐标图(监督数据中的三维坐标图)的一致性，其公式为预测三维坐标图和真实坐标图的欧式距离的平均值；

通过步骤S301至步骤S303，建立基于物体检测算法、映射关系和PnP算法的神经网络模型，并通过编解码网络拟合二维图像到三维坐标图的映射关系，也就是学习RGB图像到三维坐标图的映射，通过PnP算法计算三维坐标图到相机位姿的关系，也就是计算三维坐标图到相机位姿的映射，进而使得神经网络模型在基于二维图像的情况下得知精确的目标物体位姿。

在其中一些实施例中，根据预测三维坐标图和二维图像，确定置信度的情况下，通过PnP算法处理预测三维图，以确定与二维图像相对应的位姿之前，该方法还包括根据置信度和掩膜图像，筛选预测三维坐标图，其中，用筛选后的预测三维坐标图通过PnP算法处理，以确定与二维图像相对应的位姿；需要说明的是，采用编解码的网络形式，学习RGB图像到三维坐标图的映射，同步学习mask和预测三维坐标图的置信度，以便于通过mask和置信度筛选预测三维坐标图中质量比较高的点参与PnP算法的计算；

通过PnP算法处理预测三维图，以确定与二维图像相对应的位姿之前，通过mask和置信度筛选预测三维坐标图中质量比较高的点参与PnP算法的计算，增加姿态估计的稳定性和速度。

在其中一些实施例中，图4是根据本申请实施例的采用二维图像和训练物体的深度图像确定训练物体的三维模型方法的流程图，如图4所示，该方法包括如下步骤：

步骤S401，将二维图像和深度图像对齐；需要说明的是，由于RGB图像数据与深度图像数据的空间坐标系是不同的，前者的原点是RGB摄像头，后者的原点是红外摄像头，因此两者会有相应的误差，进而为了确保通过二维图像和深度图像所建立3D模型的准确度，需对该二维图像和三维图像对齐；

步骤S402，根据对齐后的二维图像和深度图像，利用三维重建算法重建二维图像中的物体模型；根据对齐后的二维图像和深度图像，采用三维重建(Structure FromMotion，简称SFM)的方法进行二维图像中物体的3D重建，进而得到物体的三维模型；

步骤S403，根据训练物体修剪物体模型，生成训练物体的三维模型；需要说明的是，由于根据对齐后的二维图像和深度图像，采用三维重建进行二维图像中物体的3D重建，进而得到物体的三维模型，使得三维模型中包含有除了训练物体之外的背景物体，因此在得到重建的物体模型后，会首先使用meshlab对模型进行修剪，去掉背景的点云数据，只保留待检测的物体；

通过步骤S401至步骤S403，将二维图像和深度图像对齐，进而可以消除两者之间的误差，提高通过二维图像和深度图像所建立3D模型的准确度，根据训练物体修剪物体模型，以生成训练物体的三维模型，进而可去掉背景的点云数据，只保留待检测的物体，降低背景物体数据的干扰。

在其中一些实施例中，通过根据训练物体的实际尺寸预设三维包围框，且可以手工移动三维包围框的位置，使三维包围框正好将物体包围住之后，可以首先在三维包围框内将训练物体的三维坐标进行归一化，每个轴的坐标都归一化到[-1，1]，然后对物体的三维模型烘焙得到物体的坐标图形式，这个坐标图是物体点云的另一种表示，其次可通过模拟录制数据时的相机内外参(在根据二维图像和深度图像基于三维重建(Structure FromMotion，简称SFM)的方法重建训练物体的三维模型时，记录每帧参与重建的RGB图像和其对应的相机姿态)，对烘焙的三维模型进行渲染，就可以获得很稠密的二维图像和三维坐标图的对应关系，进而可获得大量带有标注的训练数据。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种物体姿态估计装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的物体姿态估计装置的结构框图，如图5所示，该装置包括：图像获取模块50和姿态生成模块51；

图像获取模块50，用于获取目标物体的二维图像；

姿态生成模块51，用于将二维图像输入神经网络模型，获得目标物体的姿态，其中，采用训练物体的二维图像训练神经网络模型，且采用二维图像和训练物体的深度图像确定训练物体的三维模型，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对三维模型进行标注；

通过上述的物体姿态估计装置，将二维图像输入神经网络模型，得到目标物体的6D姿态信息，且神经网络模型的训练数据是基于深度相机获取的大量二维图像和深度图像，二维图像和深度图像进行训练物体的三维模型重建，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对训练物体的三维图像进行标注，进而可以得到大量的真实的训练数据，避免了相关技术中带有标注的真实数据比较少的情况，解决了相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，提高了目标物体的6D姿态估计精确度。

在一些实施例中，姿态生成模块51执行时可实现上述各实施例提供的物体姿态估计方法中的步骤，在这里不再赘述。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本申请还提供了一种物体姿态估计系统，图6是根据本申请实施例的物体姿态估计系统的结构框图，如图6所示，该系统包括中央处理器60和相机61；

相机61，用于获取目标物体的二维图像；

中央处理器60，用于将二维图像输入神经网络模型，获得目标物体的姿态，其中，采用训练物体的二维图像训练神经网络模型，且采用二维图像和训练物体的深度图像确定训练物体的三维模型，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对三维模型进行标注；

通过上述的物体姿态估计系统，将二维图像输入神经网络模型，得到目标物体的6D姿态信息，且神经网络模型的训练数据是基于深度相机获取的大量二维图像和深度图像，二维图像和深度图像进行训练物体的三维模型重建，并根据训练物体的实际尺寸预设三维包围框，根据三维包围框对训练物体的三维图像进行标注，进而可以得到大量的真实的训练数据，避免了相关技术中带有标注的真实数据比较少的情况，解决了相关技术中使用全卷积网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图，再通过使用PnP的方法计算目标物体的6D姿态估计，存在目标物体的6D姿态估计不精确的问题，提高了目标物体的6D姿态估计精确度。

在一些实施例中，采用训练物体的二维图像训练神经网络模型包括：

对三维模型做掩膜处理，确定训练物体的掩膜图像和三维坐标图；

将二维图像作为训练数据，掩膜图像和三维坐标图作为监督数据，训练神经网络模型。

在一些实施例中，中央处理器60执行时可实现上述各实施例提供的物体姿态估计方法中的步骤，在这里不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物体姿态估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图7是根据本申请实施例的计算机设备的内部结构示意图，如图7所示，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物体姿态估计方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例提供的物体姿态估计方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例提供的物体姿态估计方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种物体姿态估计方法，其特征在于，所述方法包括：

获取目标物体的二维图像；

2.根据权利要求1所述的方法，其特征在于，所述采用训练物体的二维图像训练所述神经网络模型包括：

3.根据权利要求2所述的方法，其特征在于，将所述二维图像作为训练数据，所述掩膜图像和所述三维坐标图作为监督数据，训练所述神经网络模型包括：

4.根据权利要求3所述的方法，其特征在于，确定置信度的情况下，通过所述PnP算法处理所述预测三维图，以确定与所述二维图像相对应的位姿之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，采用所述二维图像和所述训练物体的深度图像确定所述训练物体的三维模型包括：

将所述二维图像和所述深度图像对齐；

6.一种物体姿态估计装置，其特征在于，所述装置包括：图像获取模块和姿态生成模块；

所述图像获取模块，用于获取目标物体的二维图像；

7.一种物体姿态估计系统，其特征在于，所述系统包括：中央处理器和相机；

所述相机，用于获取目标物体的二维图像；

8.根据权利要求7所述的系统，其特征在于，所述采用训练物体的二维图像训练所述神经网络模型包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的一种物体姿态估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的一种物体姿态估计方法。