CN112509036A

CN112509036A - 位姿估计网络训练及定位方法、装置、设备、存储介质

Info

Publication number: CN112509036A
Application number: CN202011387363.7A
Authority: CN
Inventors: 李甲; 韩轲鑫; 赵一凡; 谷大鑫; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16
Anticipated expiration: 2040-12-01
Also published as: CN112509036B

Abstract

本发明提供一种位姿估计网络训练及定位方法、装置、设备、存储介质。方法包括：以真实样本图像为基准，对各真实样本图像中的样本对象的目标检测结果进行随机采样，获取各真实样本图像中的样本对象的至少一个随机采样样本图像；基于各真实样本图像中的样本对象的置信度图、在标准坐标系下的坐标图、在相机坐标系下的深度图，以及，样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络；在网络训练阶段，位姿估计网络用于基于输入的图像，估计所输入的对象的置信度图、所输入的对象在标准坐标系下的坐标图，以及，所输入的对象在相机坐标系下的深度图。本发明提出的方法提高了位姿估计网络的鲁棒性。

Description

位姿估计网络训练及定位方法、装置、设备、存储介质

技术领域

本发明涉及计算机视觉技术，尤其涉及一种位姿估计网络训练及定位方法、装置、设备、存储介质。

背景技术

在机器人操控技术领域中，可以通过获取机器人操控的物体的六自由度姿态信息，来提高机器人操控的准确性。其中，物体的六自由度指的是物体在三维空间中的六个自由度，该六个自由度分别为物体在空间直角坐标系沿x、y、z三个直角坐标轴方向的移动自由度，以及，绕这三个坐标轴的转动自由度。即物体的六自由度姿态信息包括物体在三维空间中的位置以及姿态(简称位姿)。

目前，对于现有的获取物体的六自由度姿态信息的方法，主要是在实例级上进行的研究。然而基于实例级方法只能获取特定的一个或者几个物体的六自由度姿态信息，即使用实例级方法获取物体六自由度姿态信息的局限性较大。因此，一些方案在实例级方法的基础上，提出了类别级方法。使用类别级方法获取物体的六自由度姿态信息时，可以获取预设类别内的所有物体的六自由度姿态信息。然而，该类别级方法在面对不同类别的待测物体时的鲁棒性较差。

发明内容

本发明提供一种位姿估计网络训练及定位方法、装置、设备、存储介质，以提高位姿估计网络的鲁棒性。

第一方面，本发明提供一种位姿估计网络训练方法，所述方法包括：

获取样本图像集；其中，所述样本图像集中的真实样本图像包括预设类别的样本对象，所述真实样本图像为对所述样本对象所属的原始图像进行目标检测得到的；

以各所述真实样本图像为基准，对各所述真实样本图像中的所述样本对象的目标检测结果进行随机采样，获取各所述真实样本图像中的所述样本对象的至少一个随机采样样本图像；

基于各所述真实样本图像中的所述样本对象的置信度图、在标准坐标系下的坐标图、在相机坐标系下的深度图，以及，所述样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络；其中，所述标准坐标系为基于所述样本对象在所述真实样本图像中的位置和朝向建立的坐标系；所述位姿估计网络用于基于输入的图像，估计所输入的对象的置信度图、所输入的对象在标准坐标系下的坐标图，以及，所输入的对象在相机坐标系下的深度图。

可选的，所述以各所述真实样本图像为基准，对各所述真实样本图像中的所述样本对象的目标检测结果进行随机采样，获取各所述真实样本图像中的所述样本对象的至少一个随机采样样本图像，包括：

获取所述真实样本图像的中心点的二维坐标，以及，所述真实样本图像的长与宽，所述二维坐标包括所述中心点在x轴上的第一取值和在y轴上的第二取值；

从所述第一取值的概率分布中随机采样第一采样值，从所述第二取值的概率分布中随机采样第二采样值，并从第三取值的概率分布中随机采样第三采样值；其中，所述第三取值为所述长与所述宽中的最大值；

以所述第三采样值作为所述样本对象的随机采样检测框，所述第一采样值作为所述随机采样检测框的中心点在x轴上的取值，所述第二采样值作为所述随机采样检测框的中心点在y轴上的取值，得到初始随机采样样本图像；

将所述初始随机采样样本图像缩放至预设尺寸，得到所述随机采样样本图像。

可选的，所述初始随机采样样本图像的边界超出所述真实样本图像的边界的部分使用预设像素值填充。

可选的，所述坐标图的损失函数包括用于计算对称结构的样本对象的坐标图的损失函数、用于计算非对称结构的样本对象的坐标图的损失函数；

若所述样本对象在所述真实样本图像中为对称结构，则所述坐标图的损失函数为所述样本对象的第二坐标图与所述样本对象的多个第一坐标图之间的损失函数的最小值；所述多个第一坐标图为对所述样本对象的基准坐标图进行旋转得到，各所述第一坐标图的旋转角度不同，所述样本对象的基准坐标图为所述样本对象在标准坐标系下旋转角度为0的第一坐标图。

可选的，所述坐标图的损失函数与所述第一置信度图相关；所述第一置信度图表示样本对象的真实置信度图。

第二方面，本发明提供一种位姿定位方法，所述方法包括：

获取待检测的原始图像和待检测对象在相机坐标系下的深度图，所述原始图像包括所述待检测对象，所述待检测对象属于预设类别的对象；

对所述原始图像进行目标检测，得到所述待检测对象的图像；

将所述待检测对象的图像输入至训练好的位姿估计网络中，得到所述待检测对象的置信度图和所述待检测对象在标准坐标系下的坐标图；其中，所述训练好的位姿估计网络为采用如第一方面任一项所述的方法训练得到的位姿估计网络，所述标准坐标系为基于所述待检测对象在所述待检测对象的图像中的位置和朝向建立的坐标系；

以所述待检测对象的置信度图作为约束条件，将所述待检测对象的坐标图与所述待检测对象在相机坐标系下的深度图对齐，以获取所述坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量；

将所述旋转矩阵的变化量累加至所述坐标图的旋转矩阵，并将所述位移矩阵的变化量累加至所述坐标图的位移矩阵，得到所述待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵；所述更新后的旋转矩阵和所述更新后的位移矩阵用于表征所述待检测对象的位姿。

第三方面，本发明提供一种位姿估计网络训练装置，所述装置包括：

获取模块，用于获取样本图像集；其中，所述样本图像集中的真实样本图像包括预设类别的样本对象，所述真实样本图像为对所述样本对象所属的原始图像进行目标检测得到的；

采样模块，用于以各所述真实样本图像为基准，对各所述真实样本图像中的所述样本对象的目标检测结果进行随机采样，获取各所述真实样本图像中的所述样本对象的至少一个随机采样样本图像；

训练模块，用于基于各所述真实样本图像中的所述样本对象的置信度图、在标准坐标系下的坐标图、在相机坐标系下的深度图，以及，所述样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络；其中，所述标准坐标系为基于所述样本对象在所述真实样本图像中的位置和朝向建立的坐标系；所述位姿估计网络用于基于输入的图像，估计所输入的对象的置信度图、所输入的对象在标准坐标系下的坐标图，以及，所输入的对象在相机坐标系下的深度图。

第四方面，本发明提供一种位姿定位装置，所述装置包括：

获取模块，用于获取待检测的原始图像和待检测对象在相机坐标系下的深度图，所述原始图像包括所述待检测对象，所述待检测对象属于预设类别的对象；

检测模块，用于对所述原始图像进行目标检测，得到所述待检测对象的图像；

处理模块，用于将所述待检测对象的图像输入至训练好的位姿估计网络中，得到所述待检测对象的置信度图和所述待检测对象在标准坐标系下的坐标图；以所述待检测对象的置信度图作为约束条件，将所述待检测对象的坐标图与所述待检测对象在相机坐标系下的深度图对齐，以获取所述坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量；将所述旋转矩阵的变化量累加至所述坐标图的旋转矩阵，并将所述位移矩阵的变化量累加至所述坐标图的位移矩阵，得到所述待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵；其中，所述训练好的位姿估计网络为采用如第一方面任一项所述的方法训练得到的位姿估计网络，所述标准坐标系为基于所述待检测对象在所述待检测对象的图像中的位置和朝向建立的坐标系；所述更新后的旋转矩阵和所述更新后的位移矩阵用于表征所述待检测对象的位姿。

第五方面，本发明提供一种电子设备，包括：至少一个处理器、存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行第一方面或第二方面任一项所述的方法。

第六方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现第一方面或第二方面任一项所述的方法。

本发明提供的位姿估计网络训练及定位方法、装置、设备、存储介质，通过对各真实样本图像中的样本对象的目标检测结果进行随机采样，获取真实样本图像中的样本对象的随机采样样本图像，增加了样本图像的随机性。然后使用上述随机性更强的随机采样样本图像，以及真实样本图像对应的第一坐标图、第一置信度图和第一深度图对位姿估计网络进行训练，降低了训练过程的难度，提升了训练好的位姿估计网络的鲁棒性。此外，电子设备针对每一个真实样本图像中的样本对象的目标检测结果进行随机采样获取至少一个随机采样样本图像，即随机采样样本图像的数量多于真实样本图像。因此，增加了用于训练位姿估计网络的数据量，进而能够提高训练好的位姿估计网络的准确度。进一步的，在位姿估计网络的训练过程中，本发明采用置信度图的损失函数、深度图的损失函数、坐标图的损失函数来判断位姿估计网络是否训练完成，提高了训练过程的准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为物体的六自由度概念示意图；

图2为本发明提供的一种位姿估计网络训练方法的流程示意图；

图3为本发明提供的一种原始图像的示例；

图4为样本对象(以该样本对象为相机为例)在标准坐标系中的示意图；

图5为本发明提供的一种获取随机采样样本图像的方法的流程示意图；

图6为本发明提供的一种位姿定位方法的流程示意图；

图7为本发明提供的一种位姿估计网络训练装置的结构示意图；

图8为本发明提供的一种位姿定位装置的结构示意图；

图9为本发明提供的一种电子设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以机器人操控技术领域为例，当机器人抓取一个物体时，机器人可以基于该物体的朝向计算机器人抓取该物体时的运动路径，以实现准确的抓取。例如，假设上述物体为一个杯子。杯子可能是杯口朝上垂直放置在桌面上，或者，杯口朝右水平放置在桌面上，或者，杯口朝左水平放置在桌面上等。针对不同姿态的杯子，机器人抓取杯子时的运动路径不同。因此，机器人不仅需要获取杯子的位置信息，还需要获取杯子的姿态信息。即，机器人需要获取物体的位姿信息，以实现准确的抓取杯子。

物体的六自由度姿态信息可以用于表示物体的位姿信息。图1为物体的六自由度概念示意图。如图1所示，物体的六自由度姿态信息指的是物体在空间直角坐标系OXYZ中可以有3个平移运动和3个转动。其中，3个平移运动分别是物体沿X轴方向上的平移运动、沿Y轴方向上的平移运动，以及，沿Z轴方向上的平移运动。3个转动分别是物体绕X轴的转动、绕Y轴的转动，以及，绕Z轴的转动。上述物体的6个运动称为物体的六自由度。

物体的六自由度姿态信息可以用偏移矩阵和旋转矩阵表示。其中偏移矩阵(或者叫做位移矩阵)用于表示物体沿X、Y、Z轴方向上的平移运动信息，旋转矩阵用于表示物体绕X、Y、Z轴的转动信息。即，获取物体的六自由度姿态信息可以实现物体的位姿定位。

目前，现有的实现物体的位姿定位的方法主要是实例级方法。其中，实例级方法又分为直接法和间接法。

直接法是指直接利用神经网络，实现物体的位姿定位。在使用直接法实现物体的位姿定位时，因为神经网络对非线性变量的预测能力较差，而物体的旋转矩阵为非线性矩阵，因此，通过直接法实现物体的位姿定位的准确度较差。

间接法是指首先获取物体的三维模型；然后对物体的三维模型进行预先标注；再根据标注结果，利用神经网络获取标注信息的二维投影；然后根据二维投影与三维空间信息的映射关系，实现物体的位姿定位。在使用间接法实现物体的位姿定位时，首先需要获取物体的三维模型，然后对物体的三维模型进行预先标注，之后才能实现物体的位姿定位。因此，间接法使用的灵活性较差且速率较慢。

此外，上述直接法和间接法均是实例级的基础上对物体的位姿进行研究，即上述直接法和间接法均是只能针对特定的一个或者几个物体进行研究。在使用实例级方法实现物体的位姿定位时，对实例级位姿估计网络进行训练的过程，以及，测试的过程，使用的是同一个或几个物体。即，通过一个实例级位姿估计网络只能实现特定的一个或者几个物体的位姿定位，局限性较大。

考虑到上述物体的位姿定位的局限性较大的问题，还有一些方案提出了类别级的位姿定位。类别级指的是对一类物体进行研究，例如，杯子M和杯子N属于同一类别。使用杯子M和杯子N的相关数据对类别级位姿估计网络进行训练之后，类别级位姿估计网络不仅能实现杯子M和杯子N的位姿定位，还能够实现类别级位姿估计网络从未见过的杯子K的位姿定位。即，在使用类别级方法实现物体的位姿定位时，能够实现一类物体的位姿定位。

具体的，在使用现有的类别级方法实现物体的位姿定位时，首先需要通过对同一类别中的所有待测物体进行目标检测，获取待测物体的特征向量，然后将该特征向量作为位姿估计网络的输入。位姿估计网络用于根据待测物体的特征向量，实现待测物体的位姿定位。

然而，不同目标检测算法的检测精度可能不同，例如有的目标检测算法可能适用于检测体积较大的物体(例如人、汽车等)，有的目标检测算法可能适用于检测体积较小的物体(例如剪刀、镊子等)。因此，通过不同的目标检测算法获取的待测物体的特征向量可能存在例如大小和格式等差异。因此，在现有的类别级方法中，位姿估计网络需要与特定的目标检测算法相匹配，才能确保其精度，使得现有的类别级方法的物体目标检测与物体位姿估计耦合性较高，导致位姿估计的鲁棒性较差。

考虑到现有的类别级方法中物体位姿估计过程的鲁棒性较差的原因是目标检测过程与物体姿态估计耦合性较高，本发明提出一种类别级位姿估计网络训练方法，在训练位姿估计网络之前，对用于训练位姿估计网络的数据进行预处理，增加用于训练位姿估计网络的数据的随机性，从而降低训练位姿估计网络的难度，进而降低目标检测过程与物体姿态估计过程的耦合性，进而达到提高位姿估计网络的鲁棒性的效果。上述方法例如可以应用于任一需要获取物体的位姿信息的场景，例如，机器人操控、自动驾驶等技术领域。示例性的，当上述方法应用于自动驾驶技术领域时，通过上述方法获取车辆本身或者其他车辆等物体的位姿信息。在具体实现时，上述方法可由电子设备执行，该电子设备可以是服务器、终端等具有处理功能的设备。

下面利用具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明提供的一种位姿估计网络训练方法的流程示意图。如图2所示，该方法包括以下步骤：

S101、获取样本图像集；其中，样本图像集中的真实样本图像包括预设类别的样本对象，真实样本图像为对样本对象所属的原始图像进行目标检测得到的。

图3为本发明提供的一种原始图像的示例。如图3所示，原始图像中包括了碗、电脑、相机、杯子、易拉罐这几种样本对象。其中碗、电脑、相机、杯子、易拉罐分别属于不同类别。

可选的，电子设备可以获取含有样本对象的原始图像，然后使用目标检测算法对原始图像进行目标检测，然后获取检测框(Bounding Box)区域内的图像作为真实样本图像。电子设备可以对多个含有同一类别的对象的原始图像进行检测，然后获取多个含有同一类别的对象的真实样本图像，该多个含有同一类别的对象的真实样本图像可以构成样本图像集。即，该样本图像集中的真实样本图像包括预设类别的样本对象(例如与图3中所示的电脑可以是同一类别的的其他任何款式的电脑)。

可选的，上述目标检测算法例如可以根据样本对象的体积大小决定。例如，假如上述样本对象为打火机、钉子等物体时，该目标检测算法可以选用端到端边缘增强的对抗神经网络(Enhanced Super-Resolution Generative Adversarial Networks，ESRGAN)，或者，快速区域卷积神经网络(Fast region convolutional neural networking，Fast R-CNN)等。若上述样本对象为电脑、手机、人等，该目标检测算法可以选用你只看一次(YouOnly Look Once，YOLO)检测算法。其中，不同目标检测算法的速度不同，检测精度较高的目标检测算法速度可能慢于检测精度较低的目标检测算法。

可选的，电子设备还可以直接获取已经预先处理好的样本图像集。例如，电子设备可以接收用户输入的样本图像集，或者，通过访问外部数据库获取存储在其上的样本图像集。

应当理解的是，图3仅是示例性的展示本发明所提到的原始图像、真实样本图像、样本对象所指示的具体含义。具体实现时，样本对象还可以是任何其他类别的物体。本发明对样本对象所包括的物体的类别不做限定。

S102、以各真实样本图像为基准，对各真实样本图像中的样本对象的目标检测结果进行随机采样，获取各真实样本图像中的样本对象的至少一个随机采样样本图像。

电子设备在获取样本图像集之后，可以获取各真实样本图像中的样本对象的至少一个随机采样样本图像。该随机采样样本图像是以真实样本图像为基准获取的，以在真实样本图像的基础上增加干扰，进而增强真实样本图像的随机性。

示例性的，电子设备例如可以以真实样本图像在原始图像中的位置，以及，真实样本图像的形状为基准，在原始图像中进行随机采样，获取随机采样样本图像。

S103、基于各真实样本图像中的样本对象的置信度图、在标准坐标系下的坐标图、在相机坐标系下的深度图，以及，样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络。

其中，在电子设备对位姿估计网络进行训练时，该位姿估计网络可以用于基于输入的图像，估计所输入的对象的置信度图、所输入的对象在标准坐标系下的坐标图，以及，所输入的对象在相机坐标系下的深度图。

其中，置信度图用于衡量真实样本图像中的每一个像素属于样本对象的概率，即置信度图可以用于表示样本对象所在的区域。

标准坐标系指的是基于样本对象在真实样本图像中的位置和朝向建立的坐标系。图4为样本对象(以该样本对象为相机为例)在标准坐标系中的示意图。上述标准坐标系还可以称为归一化对象坐标空间(Normalized Object Coordinate Space，NOCS)。NOCS指的是包含在单位立方体中的三维空间，又称为标准坐标空间。上述基于样本对象在真实样本图像中的位置和朝向建立坐标系，指的是针对每一个样本对象，将该样本对象的朝向作为每个样本对象所在的NOCS的X轴的正方向，并使得上述样本图像完全的处于NOCS中。如图4所示，上述NOCS为一个单位立方体中的三维空间，NOCS的原点可以是上述单位立方体的任何一个顶点。如图4所示，这些不同款式的相机属于同一类样本对象。通过给同一类样本对象定义一个共享的标准坐标系，可以为从未见过的属于该类的样本对象定义位姿和尺寸。坐标图指的是样本对象在上述标准坐标系中，样本对象表面每一个像素的坐标值构成的集合。

相机坐标系指的是以相机的聚焦中心为原点，以相机的光轴为Z轴，以相机拍摄的图像所在的平面为X轴和Y轴所在平面，建立的三维空间坐标系。深度图指的是样本对象表面每一个像素距离相机坐标系的原点的距离值的集合。

电子设备可以基于上述真实样本图像中的样本对象的第一置信度图、在标准坐标系下的第一坐标图、在相机坐标系下的第一深度图，以及，样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络。其中，第一置信度图指的是样本对象的真实置信度图。第一坐标图指的是样本对象在标准坐标系下的真实坐标图。第一深度图指的是样本对象在相机坐标系下的真实深度图。可选的，该位姿估计网络例如可以是深度残差网络(deep residual network，ResNet)、像素投票网络(Pixel-wise VotingNetwork，PVNet)等。

在对位姿估计网络进行训练过程中，位姿估计网络基于随机采样样本图像，获取样本对象的第二置信度图、在标准坐标系下的第二坐标图，以及，样本对象在相机坐标系下的第二深度图。若位姿估计网络的坐标图的损失函数低于第一预设阈值，且，置信度图的损失函数低于第二预设阈值，且，深度图的损失函数低于第三预设阈值，说明位姿估计网络获取的样本对象的第二坐标图、第二深度图、第二置信度图与对应的样本对象的实际值(即第一坐标图、第一深度图、第一置信度图)的误差在允许范围内，则电子设备可以确定位姿估计网络训练完成。

若电子设备判断位姿估计网络不同时满足位姿估计网络的坐标图的损失函数低于第一预设阈值、置信度图的损失函数低于第二预设阈值、深度图的损失函数低于第三预设阈值，这三个条件，则可以确定位姿估计网络训练未完成。示例性的，在电子设备确定位姿估计网络训练未完成之后，电子设备可以继续按照上述方法对位姿估计网络进行训练，或者，电子设备还可以判断此时是否已经到达最大训练次数。若达到最大训练次数，则停止训练位姿估计网络；若小于训练次数，则继续训练位姿估计网络。

可选的，电子设备例如可以基于上述样本对象的第二置信度图与样本对象的第一置信度图构建置信度图的损失函数。作为一种可能的实现方式，电子设备例如可以通过公式(1)获取上述置信度图的损失函数。

其中，L_cnof表示置信度图的损失函数，M_conf表示样本对象的第一置信度图，

表示样本对象的第二置信度图，L表示任何一种现有的损失函数，例如，Smooth L1损失函数、交叉熵损失函数、Smooth L2损失函数等。其中，Smooth L1损失函数的具体实现方式如公式(2)所示：

其中，a表示Smooth L1损失函数的自变量，例如上述公式(1)中的

的值。

可选的，电子设备例如可以基于上述样本对象的第二深度图与样本对象的第一深度图构建深度图的损失函数。作为一种可能的实现方式，电子设备例如可以通过公式(3)获取上述深度图的损失函数。

其中，L_depth表示深度图的损失函数，M_depth表示样本对象的第一深度图，

表示样本对象的第二深度图，L表示任何一种现有的损失函数，例如公式(2)中所示的SmoothL1损失函数。

可选的，电子设备例如可以基于上述样本对象的第二坐标图与样本对象的第一坐标图构建的坐标图的损失函数。作为一种可能的实现方式，电子设备例如可以通过公式(4)获取上述坐标图的损失函数。

其中，L_coord表示坐标图的损失函数，M_coord表示样本对象的第一坐标图，

表示样本对象的第二坐标图，L表示任何一种现有的损失函数，例如公式(2)中所示的SmoothL1损失函数。

可选的，上述位姿估计网络的坐标图的损失函数还可以包括用于计算对称结构的样本对象的坐标图的损失函数和用于计算非对称结构的样本对象的坐标图的损失函数。

若上述样本对象在真实样本图像中为对称结构(例如图3中所示的易拉罐)，那么将该样本对象旋转得到的图像可能与旋转之前的样本对象在标准坐标系中的坐标图不变。因此，电子设备还可以通过公式(4)、和/或，下述公式(5)获取坐标图的损失函数，以提高损失函数的准确性，进而提高对位姿估计网络训练的准确性。其中，若样本对象在真实样本图像中为非对称结构，电子设备可以使用公式(4)作为坐标图的损失函数，若样本对象在真实样本图像中为对称结构，电子设备可以使用公式(5)作为坐标图的损失函数。

其中，L_{coord_sym}表示样本对象在真实样本图像中为对称结构时，坐标图的损失函数。M_coord表示样本对象的基准坐标图(样本对象在标准坐标系下旋转角度为0的第一坐标图)，

基准坐标图的旋转角度，

表示样本对象的基准坐标图以

的角度进行旋转得到多个第一坐标图。

表示样本对象的第二坐标图。L表示任何一种现有的损失函数，例如公式(2)中所示的Smooth L1损失函数。

表示取样本对象的第二坐标图与样本对象的多个第一坐标图之间的损失函数的最小值。

进一步的，上述位姿估计网络的坐标图的损失函数还可以与第一置信度图相关。示例性的，电子设备可以通过公式(6)和公式(7)获取与第一置信度图相关的位姿估计网络的坐标图的损失函数。

其中，公式(6)为样本对象在真实样本图像中为对称结构时，坐标图的损失函数。公式(7)为样本对象在真实样本图像中为非对称结构时，坐标图的损失函数。M_conf表示第一置信度图。公式(6)和公式(7)中其他参数的含义与上述各个公式相同，在此不做赘述。因为置信度图可以用于表示样本对象所在区域，即能够区分真实样本图像的前景(样本对象所在区域)和背景(除样本对象所在区域以外的区域)。而样本对象的坐标图指的是样本对象在标准坐标系中的坐标，即不需要真实样本图像的背景信息，所以，使坐标图的损失函数还可以与第一置信度图相关，能够降低真实样本图像的背景信息对样本对象的坐标图的影响。

在本实施例中，通过对各真实样本图像中的样本对象的目标检测结果进行随机采样，获取真实样本图像中的样本对象的随机采样样本图像，增加了样本图像的随机性。然后使用上述随机性更强的随机采样样本图像，以及真实样本图像对应的第一坐标图、第一置信度图和第一深度图对位姿估计网络进行训练，降低了训练过程的难度，提升了训练好的位姿估计网络的鲁棒性。此外，电子设备针对每一个真实样本图像中的样本对象的目标检测结果进行随机采样获取至少一个随机采样样本图像，即随机采样样本图像的数量多于真实样本图像。因此，增加了用于训练位姿估计网络的数据量，进而能够提高训练好的位姿估计网络的准确度。进一步的，在位姿估计网络的训练过程中，本发明采用置信度图的损失函数、深度图的损失函数、坐标图的损失函数来判断位姿估计网络是否训练完成，提高了训练过程的准确度。

作为一种可能的实现方式，针对上述步骤S102中所说的以各真实样本图像为基准，获取各真实样本图像中的样本对象的至少一个随机采样样本图像。图5为本发明提供的一种获取随机采样样本图像的方法的流程示意图。如图5所示，该方法包括以下步骤：

S1021、获取真实样本图像的中心点的二维坐标，以及，真实样本图像的长与宽，二维坐标包括中心点在x轴上的第一取值和在y轴上的第二取值。

可选的，上述以各真实样本图像为基准可以是以各真实样本图像的位置和形状为基准。对于真实样本图像的形状，电子设备可以通过获取真实样本图像的长与宽，来获取真实样本图像的形状。

对于真实样本图像的位置，电子设备可以通过获取真实样本图像的中心点的二维坐标，作为真实样本图像的位置。该二维坐标所在的坐标系是图像坐标系。以如图3中所示的原始图像为例，该原始图像的左上角为图像坐标系的原点O。原始图像左面的一条边为图像坐标系的x轴，x轴的正方向为垂直向下。原始图像上面的一条边为图像坐标系的y轴，y轴的正方向为水平向右。即，真实样本图像的中心点的二维坐标包括中心点在x轴上的第一取值和在y轴上的第二取值。

示例性的，电子设备在获取如图3中所示的检测框之后，可以先获取检测框左上角的顶点和检测框右下角的顶点在该图像坐标系下的坐标。然后根据这两个坐标获取真实样本图像的中心点的二维坐标。

S1022、从第一取值的概率分布中随机采样第一采样值，从第二取值的概率分布中随机采样第二采样值，并从第三取值的概率分布中随机采样第三采样值；其中，第三取值为长与宽中的最大值。

示例性的，在电子设备获取真实样本图像的中心点的二维坐标，以及，真实样本图像的长与宽之后，电子设备可以根据公式(8)、公式(9)以及公式(10)分别获取第一取值的概率分布、第二取值的概率分布，以及第三取值的概率分布。

其中，x表示第一取值，f_x表示第一取值的概率分布(x的概率分布可以用于表示x的可能取值)，

表示第一采样值，

表示

服从第一取值的概率分布，即

为从第一取值的概率分布中随机采样获取的采样值。w表示真实样本图像沿图像坐标系x轴方向上的宽度(即上述真实样本图像的宽)。σ_x和α均为可以调整取值的参数，例如σ_x可以取值为1，α可以取值为0.25。

其中，y表示第二取值，f_y表示第二取值的概率分布(y的概率分布可以用于表示y的可能取值)，

表示第二采样值，

表示

服从第二取值的概率分布，即

为从第二取值的概率分布中随机采样获取的采样值。h表示真实样本图像沿图像坐标系y轴方向上的长度(即上述真实样本图像的长)。σ_y和β均为可以调整取值的参数，例如σ_y可以取值为1，β可以取值为0.24。

其中，s表示第三取值，也就是真实样本图像的长与宽中的最大值。f_s表示第三取值的概率分布(s的概率分布可以用于表示s的可能取值)，

表示第三采样值，

表示

服从第三取值的概率分布，即

为从第三取值的概率分布中随机采样获取的采样值。σ_s、γ，以及ρ均为可以调整取值的参数，例如σ_s可以取值为1，γ可以取值为0.24，ρ可以取值为1.5。其中，采用ρ作为第三取值的概率分布的系数，能够增大

的采样范围，进而增加采样结果的随机性。

S1023、以第三采样值作为样本对象的随机采样检测框，第一采样值作为随机采样检测框的中心点在x轴上的取值，第二采样值作为随机采样检测框的中心点在y轴上的取值，得到初始随机采样样本图像。

电子设备在获取第一采样值、第二采样值，以及，第三采样值之后，将第三采样值作为样本对象的随机采样检测框。因为第三采样值是从第三取值的概率分布中随机采样获取的，且第三取值为真实样本图像的长与宽中的最大值，因此样本对象的随机采样检测框能够包括完整的样本对象，即避免了初始随机采样样本图像中样本对象的信息不完整。

进一步的，因为第三取值为真实样本图像的长与宽中的最大值，所以初始随机采样样本图像的边界会超出真实样本图像的边界。可选的，对于初始随机采样样本图像超出真实样本图像的边界的部分，可以使用预设像素值(例如0、1等像素值)对超出的部分进行填充。

电子设备将第一采样值作为随机采样检测框的中心点在x轴上的取值，第二采样值作为随机采样检测框的中心点在y轴上的取值，即初始随机采样样本图像中心点的坐标为

S1024、将初始随机采样样本图像缩放至预设尺寸，得到随机采样样本图像。

电子设备获取的初始随机采样样本图像是边长为

的正方形图片，但是不同样本对象对应的初始随机采样样本图像的边长不同，即各初始随机采样样本图像的尺寸可能不同。因此，需要将初始随机采样样本图像缩放至预设尺寸，以得到尺寸相同的随机采样样本。然后使用该尺寸相同的随机采样样本训练位姿估计网络，以使对位姿估计网络进行训练时的时间能够预测。

可选的，上述预设尺寸可以是正方形尺寸，也可以是长方形的尺寸。即，电子设备可以将初始随机采样样本图像缩放成尺寸相同的正方形随机采样样本图像，或者，尺寸相同的长方形随机采样样本图像。

以上述预设尺寸为正方形尺寸为例，电子设备只需获取一个预设尺寸大小的相关值便可以获取预设尺寸的大小，因此能够简化计算过程，降低运算复杂度。上述预设尺寸可以是预先存储在电子设备中的。或者，电子设备还可以在获取初始随机采样样本图像之后，对所有初始随机采样样本图像的边长进行统计。然后将所有初始随机采样样本图像的边长的平均值作为该预设尺寸，或者，将所有初始随机采样样本图像的边长的最大值作为该预设尺寸，或者将所有初始随机采样样本图像的边长的最大值乘以一定系数(例如0.95、0.9等)之后作为该预设尺寸。

应当理解的是，本发明对电子设备如何获取上述预设尺寸、预设尺寸的大小不进行限定。上述获取预设尺寸以及预设尺寸的大小方法，仅是本发明提供的可能的实现方式。具体实现时，电子设备还可以通过其他方式获取该预设尺寸。

示例性的，电子设备例如可以使用双线性插值的方法，将初始随机采样样本图像缩放至预设尺寸。应当理解的是，本发明对电子设备如何将初始随机采样样本图像缩放至预设尺寸不进行限定。

应理解，上述步骤1024是可选的步骤，若电子设备不执行该步骤，则可以将上述初始随机采样样本图像直接作为随机采样样本图像。

在本实施例中，通过从第一取值、第二取值、第三取值的概率分布中获取第一采样取值、第二采样取值、第三采样取值，构成初始随机采样样本图像。该随机采样策略较为宽松，因此得到的初始随机采样样本图像的随机性更强，使用该随机性较强的数据训练位姿估计网络，能够进一步提升了训练好的位姿估计网络的鲁棒性。然后将所有的初始随机采样样本图像，缩放到预设尺寸的随机采样样本图像，以使使用随机采样样本图像对位姿估计网络进行训练时的时间能够预测。

在采用前述任一方式得到训练好的位姿估计网络之后，电子设备可以使用该训练好的位姿估计网络，得到待检测对象的位姿。图6为本发明提供的一种位姿定位方法的流程示意图。如图6所示，该方法包括以下步骤：

S201、获取待检测的原始图像，原始图像包括预设类别的待检测对象。

示例性的，电子设备可以通过应用程序接口(application program interface，API)或者图形用户界面(graphical user interface，GUI)获取待检测的原始图像。该原始图像包括预设类别的待检测对象。该预设类别指的是训练位姿估计网络时，所用的样本图像集中的真实样本图像的预设类别中的至少一项。

S202、对原始图像进行目标检测，得到待检测对象的图像。

S203、将待检测对象的图像输入至训练好的位姿估计网络中，得到待检测对象的置信度图和待检测对象在标准坐标系下的坐标图。

电子设备在获取待检测的原始图像之后，可以使用目标检测算法对原始图像进行目标检测，以获取待检测对象的图像。因为在上述训练位姿估计网络时，采用随机采样样本图像对位姿估计网络进行的训练，提升了训练好的位姿估计网络的鲁棒性。因此，在使用目标检测算法对原始图像进行目标检测时，可以选取在检测速度上更具优势的目标检测算法，而不是检测精度更具优势的目标检测算法(一般检测精度更具优势的目标检测算法的检测速度较慢)，进而能够提高电子设备获取待检测对象的置信度图和待检测对象在标准坐标系下的坐标图的速度。

S204、以待检测对象的置信度图作为约束条件，将待检测对象的坐标图与待检测对象在相机坐标系下的深度图对齐，以获取坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量。

示例性的，电子设备在获取待检测对象的置信度图与待检测对象在标准坐标系下的坐标图之后，例如可以通过随机采样一致算法(Random Sample Consensus，RANSAC)、均匀分布采样算法等将待检测对象的坐标图与待检测对象在相机坐标系下的深度图对齐。因为，上述对齐过程指的是将标准坐标系下的待检测对象的坐标图与相机坐标系下的待检测对象的深度图进行对齐，即只针对待检测对象记性研究。而待检测对象的置信度图可以用于表示待检测对象在待检测对象的图像中的区域，因此，在对齐过程中，以待检测对象的置信度图作为约束条件，以达到提高对齐过程的准确度。

示例性的，在待检测对象的坐标图与待检测对象在相机坐标系下的深度图对齐之后，电子设备例如可以通过Umeyama算法、最小二乘估计法等获取坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量。

应当理解的是，本发明对电子设备如何将待检测对象的坐标图与待检测对象在相机坐标系下的深度图进行对齐，以及，如何获取坐标图的旋转矩阵的变化量与位移矩阵的变化量不进行限定。上述对齐方式，以及，获取旋转矩阵与位移矩阵变化量的方式，仅是本发明提出的一种可能的实现方式。具体实现时，电子设备还可以通过其他方式实现待检测对象的坐标图与待检测对象在相机坐标系下的深度图的对齐，以及，获取坐标图的旋转矩阵的变化量与位移矩阵的变化量。

S205、将旋转矩阵的变化量累加至坐标图的旋转矩阵，并将位移矩阵的变化量累加至坐标图的位移矩阵，得到待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵；更新后的旋转矩阵和更新后的位移矩阵用于表征待检测对象的位姿。

示例性的，电子设备在获取坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量之后，可以通过将坐标图的旋转矩阵乘以旋转矩阵的变化量，将坐标图的位移矩阵乘以位移矩阵的变化量，获取待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵。该更新后的旋转矩阵和更新后的位移矩阵用于表征待检测对象的六自由度姿态信息(即待检测对象的位姿)。

应理解，该方法的执行主体与前述位姿估计网络训练方法的执行主体可以是同一个电子设备。或者，该方法的执行主体与前述位姿估计网络训练方法的执行主体也可以是不同的电子设备。示例性的，前述位姿估计网络训练方法例如可以由服务器执行，在获取训练好的位姿估计网络之后，该位姿定位方法可以由用户侧的终端设备(终端设备可以获取训练好的位姿估计网络)执行。

在本实施例中，通过使用前述训练好的具有较高鲁棒性的位姿估计网络，可以降低对原始图像进行目标检测时，所用目标检测算法的精度的要求，即可以选取在检测速度上更具优势的目标检测算法，进而能够提高对待检测对像进行位姿定位的速度。进一步的，还可以根据待检测对象的种类，选取不同的目标检测算法，提高了位姿定位方法使用的灵活性和可扩展性。

图7为本发明提供的一种位姿估计网络训练装置的结构示意图。如图7所示，该装置包括：

获取模块301，用于获取样本图像集；其中，所述样本图像集中的真实样本图像包括预设类别的样本对象，所述真实样本图像为对所述样本对象所属的原始图像进行目标检测得到的。

采样模块302，用于以各所述真实样本图像为基准，对各所述真实样本图像中的所述样本对象的目标检测结果进行随机采样，获取各所述真实样本图像中的所述样本对象的至少一个随机采样样本图像。

训练模块303，用于基于各所述真实样本图像中的所述样本对象的置信度图、在标准坐标系下的坐标图、在相机坐标系下的深度图，以及，所述样本对象的至少一个随机采样样本图像对位姿估计网络进行训练，得到训练好的位姿估计网络；其中，所述标准坐标系为基于所述样本对象在所述真实样本图像中的位置和朝向建立的坐标系；所述位姿估计网络用于基于输入的图像，估计所输入的对象的置信度图、所输入的对象在标准坐标系下的坐标图，以及，所输入的对象在相机坐标系下的深度图。

可选的，采样模块302具体用于获取所述真实样本图像的中心点的二维坐标，以及，所述真实样本图像的长与宽；从所述第一取值的概率分布中随机采样第一采样值，从所述第二取值的概率分布中随机采样第二采样值，并从第三取值的概率分布中随机采样第三采样值；以所述第三采样值作为所述样本对象的随机采样检测框，所述第一采样值作为所述随机采样检测框的中心点在x轴上的取值，所述第二采样值作为所述随机采样检测框的中心点在y轴上的取值，得到初始随机采样样本图像；将所述初始随机采样样本图像缩放至预设尺寸，得到所述随机采样样本图像。其中，所述二维坐标包括所述中心点在x轴上的第一取值和在y轴上的第二取值；所述第三取值为所述长与所述宽中的最大值。

可选的，所述坐标图的损失函数与所述第一置信度图相关；其中，所述第一置信度图表示样本对象的真实置信度图。

本发明提供的位姿估计网络训练装置，用于执行前述位姿估计网络训练方法实施例，其实现原理与技术效果类似，对此不再赘述。

图8为本发明提供的一种位姿定位装置的结构示意图。如图8所示，该装置包括：

获取模块401，用于获取待检测的原始图像和待检测对象在相机坐标系下的深度图，所述原始图像包括所述待检测对象，所述待检测对象属于预设类别的对象。

检测模块402，用于对所述原始图像进行目标检测，得到所述待检测对象的图像。

处理模块403，用于将所述待检测对象的图像输入至训练好的位姿估计网络中，得到所述待检测对象的置信度图和所述待检测对象在标准坐标系下的坐标图；以所述待检测对象的置信度图作为约束条件，将所述待检测对象的坐标图与所述待检测对象在相机坐标系下的深度图对齐，以获取所述坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量；将所述旋转矩阵的变化量累加至所述坐标图的旋转矩阵，并将所述位移矩阵的变化量累加至所述坐标图的位移矩阵，得到所述待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵；其中，所述训练好的位姿估计网络为采用如前述任一项所述的方法训练得到的位姿估计网络，所述标准坐标系为基于所述待检测对象在所述待检测对象的图像中的位置和朝向建立的坐标系；所述更新后的旋转矩阵和所述更新后的位移矩阵用于表征所述待检测对象的位姿。

本发明提供的位姿定位装置，用于执行前述位姿定位方法实施例，其实现原理与技术效果类似，对此不再赘述。

图9为本发明提供的一种电子设备结构示意图。如图9所示，该电子设备500可以包括：至少一个处理器501和存储器502。

存储器502，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器502可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器501用于执行存储器502存储的计算机执行指令，以实现前述方法实施例所描述的位姿估计网络训练方法或位姿定位方法。其中，处理器501可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application SpecificIntegrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

可选的，该电子设备500还可以包括通信接口503。在具体实现上，如果通信接口503、存储器502和处理器501独立实现，则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口503、存储器502和处理器501集成在一块芯片上实现，则通信接口503、存储器502和处理器501可以通过内部接口完成通信。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述实施例中的方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的位姿估计网络训练方法或位姿定位方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种位姿估计网络训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述以各所述真实样本图像为基准，对各所述真实样本图像中的所述样本对象的目标检测结果进行随机采样，获取各所述真实样本图像中的所述样本对象的至少一个随机采样样本图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述初始随机采样样本图像的边界超出所述真实样本图像的边界的部分使用预设像素值填充。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述坐标图的损失函数包括用于计算对称结构的样本对象的坐标图的损失函数、用于计算非对称结构的样本对象的坐标图的损失函数；

5.根据权利要求4所述的方法，其特征在于，所述坐标图的损失函数与所述第一置信度图相关；所述第一置信度图表示样本对象的真实置信度图。

6.一种位姿定位方法，其特征在于，所述方法包括：

将所述待检测对象的图像输入至训练好的位姿估计网络中，得到所述待检测对象的置信度图和所述待检测对象在标准坐标系下的坐标图；其中，所述训练好的位姿估计网络为采用如权里要求1-5任一项所述的方法训练得到的位姿估计网络，所述标准坐标系为基于所述待检测对象在所述待检测对象的图像中的位置和朝向建立的坐标系；

7.一种位姿估计网络训练装置，其特征在于，所述装置包括：

8.一种位姿定位装置，其特征在于，所述装置包括：

处理模块，用于将所述待检测对象的图像输入至训练好的位姿估计网络中，得到所述待检测对象的置信度图和所述待检测对象在标准坐标系下的坐标图；以所述待检测对象的置信度图作为约束条件，将所述待检测对象的坐标图与所述待检测对象在相机坐标系下的深度图对齐，以获取所述坐标图的旋转矩阵的变化量，以及，位移矩阵的变化量；将所述旋转矩阵的变化量累加至所述坐标图的旋转矩阵，并将所述位移矩阵的变化量累加至所述坐标图的位移矩阵，得到所述待检测对象更新后的旋转矩阵，以及，更新后的位移矩阵；其中，所述训练好的位姿估计网络为采用如权里要求1-5任一项所述的方法训练得到的位姿估计网络，所述标准坐标系为基于所述待检测对象在所述待检测对象的图像中的位置和朝向建立的坐标系；所述更新后的旋转矩阵和所述更新后的位移矩阵用于表征所述待检测对象的位姿。

9.一种电子设备，其特征在于，包括：至少一个处理器、存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-6任一项所述的方法。