CN111161349B

CN111161349B - 物体姿态估计方法、装置与设备

Info

Publication number: CN111161349B
Application number: CN201911274158.7A
Authority: CN
Inventors: 张能波; 王磊; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2023-12-12
Anticipated expiration: 2039-12-12
Also published as: CN111161349A

Abstract

本发明提供一种物体姿态估计方法、装置与设备，涉及计算机视觉技术领域，用于提高物体姿态估计的鲁棒性。其中该方法包括：采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息；然后根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系，其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标。

Description

物体姿态估计方法、装置与设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种物体姿态估计方法、装置与设备。

背景技术

随着信息技术与人工智能的发展，社会对自动化和智能化等要求日益强烈，虚拟现实、自动驾驶和机器人等技术也越来越被重视。其中，基于单目视觉的物体姿态估计技术可以解决摄像机相对于物体的姿态信息，依据该姿态信息可以构建出物体周围的空间形状，因此在虚拟现实、自动驾驶和机器人等技术中扮演着重要地位。

目前基于单目视觉的物体姿态估计方法主要分为两类：第一类是针对弱纹理物体的姿态估计方法，第二类是针对点云数据的物体姿态估计方法。其中，第一类方法的主要思路是首先通过卷积神经网络提取物体的关键点信息，然后对关键点信息构建物体三维姿态框，通过姿态框中的关键点集合坐标和物体模型中已知物体的姿态点坐标进行EPNP算法解算，解算出物体相对于相机的旋转矩阵R和偏移矩阵t，由R和t构成的转换矩阵就是物体姿态信息。

第二类方法的主要流程是通过设计的点云卷积等一系列的深度学习算法对点云数据进行特征抽取，获得物体特征信息；然后对不同区域的特征打上不同的标签；再利用上述具有标签的物体特征信息对网络模型进行训练，采用训练获得的网络模型对点云数据进行坐标轴预测；最后通过获得的预测点和原物体模型进行对比分析，得到目标物体相对于摄像机的姿态信息。

然而，目前的物体姿态估计方法都只考虑了如何融合多种信息，这些方法对于有远近变化的单目相机来说，估计物体姿态信息较为困难，因而鲁棒性较低。

发明内容

有鉴于此，本发明提供一种物体姿态估计方法、装置与设备，用于提高物体姿态估计的鲁棒性。

为了实现上述目的，第一方面，本发明实施例提供一种物体姿态估计方法，包括：

采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到所述目标物体的关键点坐标信息；其中，所述多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对所述目标特征图进行姿态回归预测，得到所述三维物体的关键点在所述二维图像上的投影坐标；所述目标物体的关键点坐标信息包括所述目标物体的关键点在所述目标图像上的投影坐标；

根据所述目标物体的关键点坐标信息和所述目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系。

作为本发明实施例一种可选的实施方式，在所述采用预先训练的多层次特征提取网络模型对目标物体的二维图像进行预测之前，所述方法还包括：

对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集，所述目标样本图像集中包括多个所述样本物体的多个目标样本图像；

根据所述目标样本图像集和获取的样本图像对应的标签数据，生成样本集，所述样本集中的样本包括样本物体的目标样本图像和所述样本物体的多个关键点在所述样本物体的目标样本图像上的投影坐标；

采用所述样本集训练初始多层次特征提取网络模型，得到所述多层次特征提取网络模型。

作为本发明实施例一种可选的实施方式，所述对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集，包括：

对于每个样本物体的每个样本图像，根据所述样本物体的所述样本图像和所述样本物体的掩码图像提取出所述样本物体在所述样本图像中对应的目标图像区域；

将所述目标图像区域与目标背景图像进行融合，生成所述样本物体的预处理图像；

对各所述样本物体的预处理图像进行数据增强处理，生成各所述样本物体的目标样本图像。

作为本发明实施例一种可选的实施方式，训练所述多层次特征提取网络模型采用的损失函数是根据所述各层特征提取网络的特征损失和特征融合损失确定的。

作为本发明实施例一种可选的实施方式，所述多层次特征提取网络模型的损失函数的计算公式如下：

其中，Loss表示多层次特征提取网络模型的损失函数，n表示特征提取网络的层数，F_i表示第i层特征提取网络的输出特征图，F_o表示目标特征图，L表示特征图的损失函数，L的计算公式如下：

其中，L(F)表示特征图F的损失函数，(x′_Fj,y′_Fj)表示特征图F的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标，(x_j,y_j)表示第j个关键点在输入的二维图像上的投影坐标真值，m表示关键点数量。

作为本发明实施例一种可选的实施方式，所述多层次特征提取网络模型采用如下公式对各层特征提取网络的输出特征图进行特征融合得到目标特征图：

其中，F_o表示目标特征图，α_i表示第i层特征提取网络的输出特征图的注意力系数，n表示特征提取网络的层数，F_i表示第i层特征提取网络的输出特征图，Φ(F_i)表示第i层特征提取网络的输出特征图的处理函数，Φ(F_i)的计算公式如下：

其中，C表示滤波器的数量，W_c表示第c个滤波器，F_ic表示第i层特征提取网络的第c个通道的输出特征图。

作为本发明实施例一种可选的实施方式，所述三维物体的关键点包括：所述三维物体对应的三维边界框的顶点和中心点；所述多层次特征提取网络模型采用如下公式对目标特征图进行姿态回归预测：

P＝F_o*w^1x1+c(x,y)

其中，P表示姿态回归预测结果，F_o表示目标特征图，w^1x1表示1×1的卷积核，c(x,y)表示三维物体的中心点对应的投影点坐标。

第二方面，本发明实施例提供一种物体姿态估计装置，包括：

预测模块，用于采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到所述目标物体的关键点坐标信息；其中，所述多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对所述目标特征图进行姿态回归预测，得到所述三维物体的关键点在所述二维图像上的投影坐标；所述目标物体的关键点坐标信息包括所述目标物体的关键点在所述目标图像上的投影坐标；

确定模块，用于根据所述目标物体的关键点坐标信息和所述目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系。

作为本发明实施例一种可选的实施方式，所述装置还包括：

预处理模块，用于在所述预测模块采用预先训练的多层次特征提取网络模型对目标物体的二维图像进行预测之前，对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集，所述目标样本图像集中包括多个所述样本物体的多个目标样本图像；

生成模块，用于根据所述目标样本图像集和获取的样本图像对应的标签数据，生成样本集，所述样本集中的样本包括样本物体的目标样本图像和所述样本物体的多个关键点在所述样本物体的目标样本图像上的投影坐标；

训练模块，用于采用所述样本集训练初始多层次特征提取网络模型，得到所述多层次特征提取网络模型。

作为本发明实施例一种可选的实施方式，所述预处理模块具体用于：

作为本发明实施例一种可选的实施方式，所述训练模块训练所述多层次特征提取网络模型采用的损失函数是根据所述各层特征提取网络的特征损失和特征融合损失确定的。

P＝F_o*w^1x1+c(x,y)

第三方面，本发明实施例提供一种物体姿态估计设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在调用计算机程序时执行上述第一方面或第一方面的任一实施方式所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式所述的方法。

本发明实施例提供的物体姿态估计方法、装置与设备，采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息；然后根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系，其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标；目标物体的关键点坐标信息包括目标物体的关键点在目标图像上的投影坐标。由于本发明实施例通过对不同层次的特征进行融合来进行物体姿态估计，因而可以解决相机在远近变化情况下的姿态估计问题，进而可以提高物体姿态估计的鲁棒性。

附图说明

图1为本发明实施例提供的训练多层次特征提取网络模型的方法流程示意图；

图2为本发明实施例提供的样本图像处理方法的流程示意图；

图3为本发明实施例提供的多层次特征提取网络模型的结构示意图；

图4为本发明实施例提供的物体姿态估计方法的流程示意图；

图5为本发明实施例提供的物体姿态估计装置的结构示意图；

图6为本发明实施例提供的物体姿态估计设备的结构示意图。

具体实施方式

目前的物体姿态估计方法都只考虑了如何融合多种信息，而未考虑相机尺度变化问题，而对于有远近变化的单目相机来说，相机对于物体发生了尺度和角度的变化，因而这些方法对于有远近变化的单目相机来说，估计物体姿态信息较为困难，导致鲁棒性较低。

针对上述技术问题，本发明实施例提供一种物体姿态估计方法、装置与设备，该方法采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息；然后根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系，其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标；目标物体的关键点坐标信息包括目标物体的关键点在目标图像上的投影坐标。本发明实施例通过融合不同层次的特征进行物体姿态估计，来解决相机在远近变化情况下的姿态估计问题，以提高物体姿态估计的鲁棒性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

为了便于理解，下面先对本发明实施例所述的多层次特征提取网络模型的构建训练过程进行描述。

图1为本发明实施例提供的训练多层次特征提取网络模型的方法流程示意图，如图1所示，本实施例提供的方法可以包括如下步骤：

S110、对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集。

一般情况下，训练网络模型需要大量的样本数据，然而人力采集数据费时费力，因此，为了节省人力和时间，本实施例中，在训练多层次特征提取网络模型前，先对样本数据进行一些预处理和数据增强处理，得到包括多个样本物体的多个目标样本图像的目标样本图像集。

具体的，本实施例中，采集的一份样本数据中包括某样本物体的样本图像和该样本物体的多个关键点在该样本物体的样本图像上的投影坐标(即标签数据)，其中，样本物体的关键点可以包括样本物体对应的三维边界框的八个顶点和中心点。

在采集样本数据时，可以采集多个样本物体的多个样本图像，对于这些样本图像，本实施例中，可以采用图2所示的方法进行图像处理，得到目标样本图像集。图2为本发明实施例提供的样本图像处理方法的流程示意图，如图2所示，该方法可以包括如下步骤：

S111、对于每个样本物体的每个样本图像，根据样本物体的样本图像和样本物体的掩码图像提取出样本物体在样本图像中对应的目标图像区域。

本实施例中，为了增加训练样本的多样性，在对样本图像进行数据增强处理前，可以先将样本图像中样本物体对应的目标图像区域映射到不同的背景图像中。

具体实现时，对于每个样本图像，可以先确定出该样本图像对应的样本物体的掩码图像，将掩码图像与样本图像进行与运算，获得该样本物体的掩码信息，即提取出该样本物体在该样本图像中对应的目标图像区域。

具体可以采用如下公式表示：

其中，表示只有目标图像区域，/>表示包含目标图像区域的样本图像，I_mask表示样本物体的掩码图像(即目标图像区域的掩码图像)。

本实施例中，样本图像具体可以是RGB图像，公式中即以RGB图像为例进行示例性说明，当然，样本图像也可以是其他格式的二维图像，本实施例对此不做特别限定。

S112、将目标图像区域与目标背景图像进行融合，生成样本物体的预处理图像。

具体的，在提取出样本物体在样本图像中对应的目标图像区域后，本实施例中，可以将目标图像区域与不同的目标背景图像进行融合，生成样本物体的预处理图像。

具体实现时，为了获取真实的背景图像，可以将目标背景图像中目标图像区域对应的图像去除，具体可以如公式(2)所示的通过目标背景图像减去样本物体的掩码图像获取背景区域图像。

其中，表示目标背景图像，I^b表示背景区域图像。

然后可以通过将背景区域图像和目标区域图像相加得到最终的预处理图像I^t。

本实施例中，目标背景图像可以从公开的室外图像数据库中获得，对于每个样本图像，其对应的目标背景图像可以是多个，即每个样本图像对应多个预处理图像，以增加训练样本的多样性；也可以是一个，即每个样本图像对应一个预处理图像，以剔除样本图像中的非目标物体。

S113、对各样本物体的预处理图像进行数据增强处理，生成各样本物体的目标样本图像。

为了适应物体形变等情况，本实施例中，对每个预处理图像I^t可以进行裁剪和旋转等数据增强处理。具体的，裁剪主要从预处理图像的上、右、下和/或左进行不同大小的裁剪，同时保证裁剪位置不涉及目标区域图像；然后可以对裁剪后的图像进行旋转增强，其中，图像旋转处理的计算可以如公式(4)所示：

其中，I^T表示旋转后的图像，即目标样本图像。

本实施例中，可以对图像进行其他数据增强处理，具体实现时可以根据需要选择，本实施例对此不做特别限定。

本实施例中，对各个样本物体的预处理图像进行数据增强处理后，就可以生成各个样本物体的多个目标样本图像，得到目标样本图像集。

需要说明的是，上述步骤S111-S113之间没有严格的时序执行关系，在具体实现时，可以对一个样本图像依次执行完步骤S111-S113后，再对下一个样本图像依次执行完步骤S111-S113；也可以对一个样本图像依次执行完步骤S111和S112后，再对下一个样本图像依次执行完步骤S111和S112，然后在对最后一个样本图像执行完步骤S111和S112后，再对所有的样本图像分别执行步骤S113，具体的执行顺序本实施例不做特别限定。

S120、根据目标样本图像集和获取的样本图像对应的标签数据，生成样本集。

其中，样本集中的样本包括样本物体的目标样本图像和样本物体的多个关键点在样本物体的目标样本图像上的投影坐标。

具体的，在获取样本图像时，会同时获取样本图像对应的标签数据，对于某个样本图像，在根据该样本图像得到对应的目标样本图像后，对于每个目标样本图像，可以基于该样本图像对应的标签数据确定出目标样本图像对应的标签数据，即该样本图像对应的样本物体的多个关键点在该目标样本图像上的投影坐标。每个目标样本图像和其对应的标签数据组合在一起可以形成一个样本，各样本组合在一起即形成样本集。

S130、采用样本集训练初始多层次特征提取网络模型，得到多层次特征提取网络模型。

在生成样本集后，就可以采用样本集训练初始多层次特征提取网络模型，得到多层次特征提取网络模型。

图3为本发明实施例提供的多层次特征提取网络模型的结构示意图，如图3所示，本实施例中，多层次特征提取网络模型包括多层特征提取网络，图中以包含三层特征提取网络为例进行示例性说明，其分别为：浅层特征提取网络、中层特征提取网络和深层特征提取网络，其中，前一层特征提取网络的输出是后一层特征提取网络的输入。多层次特征提取网络模型对输入的三维物体的二维图像依次采用多层特征提取网络进行特征提取后，再通过多层次特征融合层对各层特征提取网络的输出特征图(图中的浅层特征、中层特征和深层特征)进行特征融合得到目标特征图；最后再通过回归预测层对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标。该多层次特征提取网络模型融合多层次的网络特征进行姿态估计，因而可以解决相机在远近变化情况下的姿态估计问题，从而提高物体姿态估计的鲁棒性。

其中，特征提取网络层具体可以采用卷积网络层实现，其数量可以根据需要设定，本实施例中以三层特征提取网络层为例进行示例性说明。

本实施例中，多层次特征提取网络模型可以采用如下公式对各层特征提取网络的输出特征图进行特征融合得到目标特征图：

其中，F_o表示目标特征图，α_i表示第i层特征提取网络的输出特征图的注意力系数，n表示特征提取网络的层数，F_i表示第i层特征提取网络的输出特征图，Φ(F_i)表示第i层特征提取网络的输出特征图的处理函数，Φ(F_i)的计算公式可以如下所示：

由于不同层次的输出特征图的特征矩阵不同，通过公式(6)可以得到相同通道数和大小的特征图，使各层次特征的数据维度相同，以便进行特征融合。

另外，本实施例中，多层次特征提取网络模型可以采用如下公式对目标特征图进行姿态回归预测：

P＝F_o*w^1x1+c(x,y) (7)

在构建出上述网络模型(称为初始多层次特征提取网络模型)后，将样本集分为训练集和测试集，将训练集中的样本输入该初始多层次特征提取网络模型进行训练，即可建立一个初步的多层次特征提取网络模型；然后采用测试集和预设的损失函数对初步建立的多层次特征提取网络模型进行模型评估，根据评估结果修改多层次特征提取网络模型的网络参数，重复上述评估步骤，直至修改后的多层次特征提取网络模型符合评估要求为止，该符合评估要求的多层次特征提取网络模型即为最终建立的多层次特征提取网络模型。

其中，损失函数用来估量模型的预测值与真实值的不一致程度，损失函数值越小，模型的鲁棒性就越好。因此，损失函数的设计也十分重要。本实施例中，为了提高多层次特征提取网络模型的鲁棒性，训练多层次特征提取网络模型采用的损失函数是根据各层特征提取网络的特征损失和特征融合损失确定的。

其中，多层次特征提取网络模型的损失函数的计算公式可以如下所示：

其中，L(F)表示特征图F的损失函数，(x′_Fj,y′_Fj)表示特征图F的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标，可通过替换公式(7)中的F_o计算得到；(x_j,y_j)表示第j个关键点在输入的二维图像上的投影坐标真值，其为三维物体的边界点相对于中心点的偏移坐标；m表示关键点数量，当三维物体的关键点包括三维物体对应的三维边界框的八个顶点和中心点时，m＝9。

以特征提取网络层为三层，m＝9为例，损失函数则为：

Loss＝L(F₁)+L(F₂)+L(F₃)+L(F_o) (10)

对应的，浅层特征损失则为：

中层特征损失则为：

深层特征损失则为：

融合特征损失则为：

其中，(x′_1j,y′_1j)表示浅层特征图F₁的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标；(x′_2j,y′_2j)表示中层特征图F₂的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标；(x′_3j,y′_3j)表示深层特征图F₃的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标；(x′_oj,y′_oj)表示融合特征图F_o的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标。

在训练完多层次特征提取网络模型后，就可以采用多层次特征提取网络模型对目标物体进行姿态预测，求得相机相对于物体的坐标转换关系。

图4为本发明实施例提供的物体姿态估计方法的流程示意图，如图4所示，本实施例提供的方法可以包括如下步骤：

S210、采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息。

其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标；目标物体的关键点坐标信息包括目标物体的关键点在目标图像上的投影坐标。

具体的，可以将目标物体的目标图像输入训练好的多层次特征提取网络模型，则可以得到目标物体的关键点在目标图像上的投影坐标。

S220、根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系。

具体的，在得到目标物体的关键点坐标信息后，可以根据这些关键点坐标信息、目标物体的关键点的空间位置关系和相机内参数，采用EPNP算法求解出相机相对于目标物体的坐标转换关系，即旋转矩阵R和偏移矩阵t，也即物体姿态信息。

本实施例提供的物体姿态估计方法，采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息；然后根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系，其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标；目标物体的关键点坐标信息包括目标物体的关键点在目标图像上的投影坐标。由于本实施例通过对不同层次的特征进行融合来进行物体姿态估计，因而可以解决相机在远近变化情况下的姿态估计问题，进而可以提高物体姿态估计的鲁棒性。

基于同一发明构思，作为对上述方法的实现，本发明实施例提供了一种物体姿态估计装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图5为本发明实施例提供的物体姿态估计装置的结构示意图，如图5所示，本实施例提供的装置包括：

预测模块110，用于采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到目标物体的关键点坐标信息；其中，多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对目标特征图进行姿态回归预测，得到三维物体的关键点在二维图像上的投影坐标；目标物体的关键点坐标信息包括目标物体的关键点在目标图像上的投影坐标；

确定模块120，用于根据目标物体的关键点坐标信息和目标物体的关键点的空间位置关系，确定相机相对于物体的坐标转换关系。

作为本发明实施例一种可选的实施方式，装置还包括：

预处理模块130，用于在预测模块110采用预先训练的多层次特征提取网络模型对目标物体的二维图像进行预测之前，对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集，目标样本图像集中包括多个样本物体的多个目标样本图像；

生成模块140，用于根据目标样本图像集和获取的样本图像对应的标签数据，生成样本集，样本集中的样本包括样本物体的目标样本图像和样本物体的多个关键点在样本物体的目标样本图像上的投影坐标；

训练模块150，用于采用样本集训练初始多层次特征提取网络模型，得到多层次特征提取网络模型。

作为本发明实施例一种可选的实施方式，预处理模块130具体用于：

对于每个样本物体的每个样本图像，根据样本物体的样本图像和样本物体的掩码图像提取出样本物体在样本图像中对应的目标图像区域；

将目标图像区域与目标背景图像进行融合，生成样本物体的预处理图像；

对各样本物体的预处理图像进行数据增强处理，生成各样本物体的目标样本图像。

作为本发明实施例一种可选的实施方式，训练模块150训练多层次特征提取网络模型采用的损失函数是根据各层特征提取网络的特征损失和特征融合损失确定的。

作为本发明实施例一种可选的实施方式，多层次特征提取网络模型的损失函数的计算公式如下：

作为本发明实施例一种可选的实施方式，多层次特征提取网络模型采用如下公式对各层特征提取网络的输出特征图进行特征融合得到目标特征图：

作为本发明实施例一种可选的实施方式，三维物体的关键点包括：三维物体对应的三维边界框的顶点和中心点；多层次特征提取网络模型采用如下公式对目标特征图进行姿态回归预测：

P＝F_o*w^1x1+c(x,y)

本实施例提供的物体姿态估计装置可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

基于同一发明构思，本发明实施例还提供了一种物体姿态估计设备。图6为本发明实施例提供的物体姿态估计设备的结构示意图，如图6所示，本实施例提供的物体姿态估计设备包括：存储器210和处理器220，存储器210用于存储计算机程序；处理器220用于在调用计算机程序时执行上述方法实施例所述的方法。

本实施例提供的物体姿态估计设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例所述的方法。

本领域技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种物体姿态估计方法，其特征在于，包括：

采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到所述目标物体的关键点坐标信息；其中，所述多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对所述目标特征图进行姿态回归预测，得到所述三维物体的关键点在所述二维图像上的投影坐标；所述目标物体的关键点坐标信息包括所述目标物体的关键点在所述目标图像上的投影坐标；所述目标图像是相机针对所述目标物体采集的图像，训练所述多层次特征提取网络模型采用的损失函数是根据所述各层特征提取网络的特征损失和特征融合损失确定的；

根据所述目标物体的关键点坐标信息和所述目标物体的关键点的空间位置关系，确定相机相对于目标物体的坐标转换关系。

2.根据权利要求1所述的方法，其特征在于，在所述采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对获取的多个样本物体的各样本图像进行图像预处理和数据增强处理，得到目标样本图像集，包括：

4.根据权利要求1所述的方法，其特征在于，所述多层次特征提取网络模型的损失函数的计算公式如下：

，

其中，Loss表示多层次特征提取网络模型的损失函数，n表示特征提取网络的层数，F _i表示第i层特征提取网络的输出特征图，F _o表示目标特征图，L表示特征图的损失函数，L的计算公式如下：

，

其中，L(F)表示特征图F的损失函数，（,/>）表示特征图F的姿态回归预测结果中第j个关键点在输入的二维图像上的投影坐标，（x_j,y_j）表示第j个关键点在输入的二维图像上的投影坐标真值，m表示关键点数量。

5.根据权利要求1所述的方法，其特征在于，所述多层次特征提取网络模型采用如下公式对各层特征提取网络的输出特征图进行特征融合得到目标特征图：

，

其中，F _o表示目标特征图，表示第i层特征提取网络的输出特征图的注意力系数，n表示特征提取网络的层数，F _i表示第i层特征提取网络的输出特征图，/>表示第i层特征提取网络的输出特征图的处理函数，/>的计算公式如下：

，

其中，C表示滤波器的数量，W _c表示第c个滤波器，F _ic表示第i层特征提取网络的第c个通道的输出特征图。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述三维物体的关键点包括：所述三维物体对应的三维边界框的顶点和中心点；所述多层次特征提取网络模型采用如下公式对目标特征图进行姿态回归预测：

，

其中，P表示姿态回归预测结果，F _o表示目标特征图，表示1×1的卷积核，c(x,y)表示三维物体的中心点对应的投影点坐标。

7.一种物体姿态估计装置，其特征在于，包括：

预测模块，用于采用预先训练的多层次特征提取网络模型对目标物体的目标图像进行预测，得到所述目标物体的关键点坐标信息；其中，所述多层次特征提取网络模型用于对三维物体的二维图像采用多层特征提取网络进行特征提取后，对各层特征提取网络的输出特征图进行特征融合得到目标特征图，然后对所述目标特征图进行姿态回归预测，得到所述三维物体的关键点在所述二维图像上的投影坐标；所述目标物体的关键点坐标信息包括所述目标物体的关键点在所述目标图像上的投影坐标；所述目标图像是相机针对所述目标物体采集的图像，训练所述多层次特征提取网络模型采用的损失函数是根据所述各层特征提取网络的特征损失和特征融合损失确定的；

确定模块，用于根据所述目标物体的关键点坐标信息和所述目标物体的关键点的空间位置关系，确定相机相对于目标物体的坐标转换关系。

8.一种物体姿态估计设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序；所述处理器用于在调用所述计算机程序时执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。