CN112528831A

CN112528831A - 多目标姿态估计方法、多目标姿态估计装置及终端设备

Info

Publication number: CN112528831A
Application number: CN202011418068.3A
Authority: CN
Inventors: 郭渺辰; 程骏; 张惊涛; 邵池; 汤志超; 林灿然; 钱程浩; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-19
Anticipated expiration: 2040-12-07
Also published as: CN112528831B

Abstract

本申请适用于计算机视觉技术领域，提供了一种多目标姿态估计方法、多目标姿态估计装置及终端设备，包括：通过拍摄装置获取待检测图像，待检测图像中包括多个目标对象；确定待检测图像中每个目标对象在各自对应的目标坐标系下的初始三维姿态，其中，目标对象对应的目标坐标系为以目标对象上的第一关键点为原点的坐标系；确定待检测图像中每个目标对象在相机坐标系下的绝对位置，其中，相机坐标系为以拍摄装置的光心为原点的坐标系；根据每个目标对象的初始三维姿态和所述绝对位置，确定待检测图像中每个目标对象在相机坐标系下的最终三维姿态。通过上述方法，可以提高多人姿态估计结果的准确度。

Description

多目标姿态估计方法、多目标姿态估计装置及终端设备

技术领域

本申请属于计算机视觉技术领域，尤其涉及一种多目标姿态估计方法、多目标姿态估计装置及终端设备。

背景技术

人体姿态估计是一项定位人体关键点(如关节点等)位置的技术，常应用于人体运动轨迹的描述和人体行为预测等领域。人体姿态估计可分为二维姿态估计和三维姿态估计。其中，二维姿态估计指确定人体关键点的平面坐标信息，三维姿态估计指确定出人体关键点的三维坐标信息(即平面坐标信息和深度坐标信息)。由于三维姿态估计比二维姿态估计多了深度坐标信息，因此，三维姿态估计对于人机交互具有重要意义。

现有的人体姿态估计方法，首先从待检测图像中检测出每个人体的单人图像，然后将每张单人图像分别输入三维姿态估计模型，获得每个人体的单人关键点的三维坐标信息。由于三维坐标信息是基于单人图像确定的，而非基于整张待检测图像得到的。因此，当待检测图像中包含多个人体时，利用现有的人体姿态估计方法，无法获得各个人体之间的相对位置，最终得到的多人姿态的估计结果是不准确的。

发明内容

本申请实施例提供了一种多目标姿态估计方法、多目标姿态估计装置及终端设备，可以提高多人姿态估计结果的准确度。

第一方面，本申请实施例提供了一种多目标姿态估计方法，包括：

通过拍摄装置获取待检测图像，所述待检测图像中包括多个目标对象；

确定所述待检测图像中每个所述目标对象在各自对应的目标坐标系下的初始三维姿态，其中，所述目标对象对应的目标坐标系为以所述目标对象上的第一关键点为原点的坐标系；

确定所述待检测图像中每个所述目标对象在相机坐标系下的绝对位置，其中，所述相机坐标系为以所述拍摄装置的光心为原点的坐标系；

根据每个所述目标对象的所述初始三维姿态和所述绝对位置，确定所述待检测图像中每个所述目标对象在所述相机坐标系下的最终三维姿态。

本申请实施例中，需要确定出待检测图像中每个目标对象在相机坐标系下的绝对位置，相当于以相机坐标系为参考，确定了待检测图像中各个目标对象之间的相对位置关系。然后根据各个目标对象在其各自对应的目标坐标系下的初始三维姿态、以及各个目标对象在相机坐标系下的相对位置关系，能够确定出各个目标对象在相机坐标系下的最终三维姿态。通过上述方法确定出的目标对象的最终三维姿态，不仅能够表征每个目标对象自身的三维姿态，还能够表征各目标对象之间的相对位置关系，有效提高了多目标姿态估计结果的准确性。

在第一方面的一种可能的实现方式中，所述确定所述待检测图像中每个所述目标对象在各自对应的目标坐标系下的初始三维姿态，包括：

检测所述待检测图像中的所述目标对象，获得每个所述目标对象的检测框；

根据所述检测框获取所述待检测图像中每个所述目标对象的局部图像；

确定每张所述局部图像中包含的所述目标对象在各自对应的所述目标坐标系下的所述初始三维姿态。

在第一方面的一种可能的实现方式中，所述确定每张所述局部图像中包含的所述目标对象在各自对应的所述目标坐标系下的所述初始三维姿态，包括：

对于每张所述局部图像，将所述局部图像的中心确定为所述局部图像中包含的所述目标对象上的所述第一关键点；

检测所述局部图像中包含的所述目标对象上的第二关键点；

确定所述第二关键点相对于所述第一关键点的相对三维坐标；

将所述相对三维坐标确定为所述目标对象在对应的所述目标坐标系下的所述初始三维姿态。

在第一方面的一种可能的实现方式中，所述确定所述待检测图像中每个所述目标对象在相机坐标系下的绝对位置，包括：

确定所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标；

将所述绝对三维坐标确定为各自对应的所述目标对象在所述相机坐标系下的绝对位置。

在第一方面的一种可能的实现方式中，所述确定所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标，包括：

获取所述拍摄装置的内参数据，以及所述第一关键点在所述待检测图像中的图像坐标；

将所述内参数据、所述图像坐标和所述待检测图像输入到预设的绝对位置检测模型中，输出所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标。

在第一方面的一种可能的实现方式中，所述绝对位置检测模型包括：

特征提取子网络，用于提取所述待检测图像中的特征信息；

第一回归子网络，用于对提取的所述特征信息进行二维回归分析，确定出所述第一关键点在所述相机坐标系下的二维坐标；

第二回归子网络，用于对提取的所述特征信息进行深度回归分析，确定出所述第一关键点在所述相机坐标系下的深度坐标。

在第一方面的一种可能的实现方式中，所述根据每个所述目标对象的初始三维姿态和绝对位置，确定所述待检测图像中每个所述目标对象在所述相机坐标系下的最终三维姿态，包括：

对于每个所述目标对象，确定所述目标对象上的所述第一关键点的参考坐标和所述绝对三维坐标之间的转换关系，其中，所述第一关键点的参考坐标为所述目标对象对应的所述目标坐标系中所述第一关键点的坐标；

根据所述转换关系，将所述目标对象上的所述初始三维姿态映射到所述相机坐标系下，获得所述目标对象在所述相机坐标系下的所述最终三维姿态。

第二方面，本申请实施例提供了一种多目标姿态估计装置，包括：

图像获取单元，用于通过拍摄装置获取待检测图像，所述待检测图像中包括多个目标对象；

初始姿态确定单元，用于确定所述待检测图像中每个所述目标对象在各自对应的目标坐标系下的初始三维姿态，其中，所述目标对象对应的目标坐标系为以所述目标对象上的第一关键点为原点的坐标系；

位置确定单元，用于确定所述待检测图像中每个所述目标对象在相机坐标系下的绝对位置，其中，所述相机坐标系为以所述拍摄装置的光心为原点的坐标系；

最终姿态确定单元，用于根据每个所述目标对象的所述初始三维姿态和所述绝对位置，确定所述待检测图像中每个所述目标对象在所述相机坐标系下的最终三维姿态。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的多目标姿态估计方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的多目标姿态估计方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的多目标姿态估计方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的应用场景的示意图；

图2是本申请实施例提供的多目标姿态估计方法的流程示意图；

图3是本申请实施例提供的多目标姿态估计的场景图；

图4是本申请实施例提供的绝对位置检测模型的示意图；

图5是本申请实施例提供的多目标姿态估计装置的结构框图；

图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

首先以目标为人体作为示例，介绍现有的多目标姿态估计方法的一个应用场景。参见图1，是本申请实施例提供的应用场景的示意图。如图1中的(a)所示，三维空间中有三个人物，在这个应用场景中，多目标姿态估计的任务是，定位出三维空间中每个人物在空间中的位置，以进行后续的人机交互等操作。首先，需要通过拍摄装置(例如：安装于机器人上的摄像头等)获取三维空间中的多个人物的图像，得到一张包含三个人物的RGB图像(即本申请实施例中的待检测图像)。然后对RGB图像进行目标检测，得到RGB图像中每个人物对应的检测框，如图1中的(b)所示。最后分别确定每个检测框中的人物的三维姿态，如图1中的(c)所示。

从上述示例可以看出，现有的多目标姿态估计方法估计得到到三维姿态是基于单个目标的，即将多个目标划分为单个目标，然后分别确定每个目标的三维姿态。如图1中的(c)所示，得到的是每个人物各自的三维姿态，但是无法得到三个人物之间的相对位置关系。这将导致机器人无法获取每个人物在空间中的具体位置，进而导致无法进行后续的人机交互操作。

为了解决上述问题，本申请实施例提供了一种多目标姿态估计方法。参见图2，是本申请实施例提供的多目标姿态估计方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

S201，通过拍摄装置获取待检测图像，待检测图像中包括多个目标对象。

继续以目标为人体作为示例，参见图3，是本申请实施例提供的多目标姿态估计的场景图。首先通过拍摄装置获取空间内多个人物的拍摄图像(如图3中的RGB图像所示)，将拍摄图像作为待检测图像。

拍摄装置可以是安装于机器人上的具有拍照功能的装置，如摄像头、相机等。示例性的，在一个应用场景中，机器人需要将水杯递给人物A，但是空间中有A、B、C三个人物。机器人的处理器首先需要通过安装于机器人上的相机拍摄包含三个人物的待检测图像，然后通过后续的步骤根据待检测图像估计三个人物的空间位置和姿态，进而判断出人物A的具体空间位置和姿态；之后处理器根据人物A的具体空间位置和姿态控制机器人的机械臂将水杯递给人物A。

由于每个人物在空间中对应的物体坐标系不同，为了对坐标系进行统一，本申请实施例中可以统一采用相机坐标系。即以拍摄装置的光心为原点建立的坐标系。

S202，确定待检测图像中每个目标对象在各自对应的目标坐标系下的初始三维姿态。

其中，目标对象对应的目标坐标系为以目标对象上的第一关键点为原点的坐标系。以目标对象为人体为例，第一关键点可以是人体上具有参照性的某个点。例如：人体重心通常位于胯部中心，那么可以将胯部中心作为人体的第一关键点。相应的，以胯部中心为原点建立的坐标系即为人体对应的目标坐标系。

如图3所示场景中，有三个人物，通过S202中的方法，可以得到第一个人物对应的目标坐标系I(以第一个人物的跨部中心为原点)、第二个人物对应的目标坐标系II(以第二个人物的跨部中心为原点)和第三个人物对应的目标坐标系III(以第三个人物的跨部中心为原点)。并获得第一个人物相对于目标坐标系I的初始三维姿态、第二个人物相对于目标坐标系II的初始三维姿态和第三个人物相对于目标坐标系III的初始三维姿态。由于目标坐标系I、II、III是相互独立的，因此三个人物的初始三维姿态之间也是相互独立的，无法体现三个人物之间的相互位置关系。

步骤S202相当于确定出的是每个目标的三维姿态，即单目标三维姿态。对单目标进行三维姿态估计，首先需要从待检测图像中分离出各个目标(如图3中的人体ROI所示，即表示每个人体对应的检测框)。在本申请实施例中，步骤S202的一种实现方式为：

检测待检测图像中的目标对象，获得每个目标对象的检测框；根据检测框获取待检测图像中每个目标对象的局部图像；确定每张局部图像中包含的目标对象在各自对应的目标坐标系下的初始三维姿态。

可以通过目标检测模型检测待检测图像中的目标对象。目标检测模型可以为训练好的神经网络模型。示例性的，将待检测图像输入到训练好的目标检测模型中，输出检测框信息。其中，检测框信息可以包括检测框左上角的图像像素坐标、检测框的宽度和长度。然后根据检测框信息从待检测图像中截取出每个目标对象的局部图像。最后根据局部图像确定每个目标的初始三维姿态。

对于单目标三维姿态估计可以采用two－stage方法或one－stage方法。

其中，two－stage方法指：对局部图像中的目标对象进行二维姿态估计，得到目标对象中各个第二关键点的二维坐标(x，y)；然后利用神经网络模型预测二维坐标在相机坐标系下的三维坐标(x，y，z)。

two－stage方法中确定关键点二维坐标的方法主要有两种：一种是自上而下的策略，即先获得检测框，然后定位每个检测框中的关键点；这类方法的计算量会随着目标对象的增加而线性增长。另一种是自下而上的策略，即先检测出待检测图像中所有的关键点，然后根据匹配算法将关键点分配给每个目标对象；这种方法精度较低。

one－stage方法为，定位局部图像中目标对象上的每个第二关键点的三维坐标(x，y，z)。

对比可知，one－stage方法比two－stage方法相比，省去了二维坐标估计的环节，步骤更为简洁。

可选的，利用one－stage方法确定每张局部图像中包含的目标对象在各自对应的目标坐标系下的初始三维姿态的一种方式包括：

对于每张局部图像，将局部图像的中心确定为局部图像中包含的目标对象上的第一关键点；检测局部图像中包含的目标对象上的第二关键点；确定第二关键点相对于第一关键点的相对三维坐标；将相对三维坐标确定为目标对象在对应的目标坐标系下的初始三维姿态。

其中，由于局部图像是根据检测框截取的，局部图像的中心近似于目标对象的中心。因此，可以通过局部图像的中心确定目标对象的中心，即第一关键点。

其中，确定各个第二关键点的相对三维坐标的方法可以为：将局部图像输入到训练好的单目标姿态估计模型中，输出各个第二关键点的相对三维坐标。

单目标姿态估计模型可以是神经网络模型。

示例性的，以第一关键点建立目标坐标系，则将第一关键点的坐标确定为(0，0，0)，第二关键点相对于第一关键点的相对三维坐标为(x1，y1，z1)。将局部图像输入训练好的单目标姿态估计模型中，输出(x1，y1，z1)。

但是基于神经网络模型的one－stage方法容易存在正负样本比例严重失衡的问题，进而导致one－stage方法的估计精度低于two－stage方法。为了解决该问题，可选的，训练目标检测模型时的损失函数可以由focal loss作为分类损失函数、由IoU loss作为定位损失函数。focal loss可以通过减少易分类样本的权重(负样本)，使得模型在分类时更专注于难分类的样本(正样本)；IoU loss能够将位置信息作为一个整体进行训练。因此，两者结合组成的损失函数，能够保证训练后的目标检测模型具有较高的检测精度，进而提高了one－stage方法的估计精度。

S203，确定待检测图像中每个目标对象在相机坐标系下的绝对位置。

其中，相机坐标系为以拍摄装置的光心为原点的坐标系。

可选的，可以分别在每个目标对象上确定一个目标点，然后确定各个目标点在相机坐标系下的绝对位置。

由于上述实施例中，是以目标对象上的第一关键点为基准建立的目标坐标系，且目标对象上的第二关键点的初始三维坐标均是以第一关键点为参照的。因此，为了方便找到对应关系，可以将每个目标对象上的第一关键点作为目标的。在一个实施例中，步骤S203的一种实现方式为：

确定待检测图像中每个目标对象上的第一关键点在相机坐标系下的绝对三维坐标；将绝对三维坐标确定为各自对应的目标对象在相机坐标系下的绝对位置。

如图3中的“人体中心定位”图所示，通过上述方法，可以确定出每个人物的中心之间的相互位置关系。

为了提高姿态估计的效率，可选的，绝对三维坐标的确定方式可以包括：

获取拍摄装置的内参数据，以及第一关键点在待检测图像中的图像坐标；将内参数据、图像坐标和待检测图像输入到预设的绝对位置检测模型中，输出待检测图像中每个目标对象上的第一关键点在相机坐标系下的绝对三维坐标。

预先训练好绝对位置检测模型，在实际姿态估计过程中，只需将内参数据、图像坐标和待检测图像输入到预设的绝对位置检测模型中，即可输出目标对象上的第一关键点在相机坐标系下的绝对三维坐标，大大节约了姿态估计的时间。

可选的，绝对位置检测模型可以为神经网络模型。参见图4，是本申请实施例提供的绝对位置检测模型的示意图。如图4所示，绝对位置检测模型可以包括：

特征提取子网络，用于提取待检测图像中的特征信息。

第一回归子网络，用于对提取的特征信息进行二维回归分析，确定出第一关键点在相机坐标系下的二维坐标。

第二回归子网络，用于对提取的特征信息进行深度回归分析，确定出第一关键点在相机坐标系下的深度坐标。

S204，根据每个目标对象的初始三维姿态和绝对位置，确定待检测图像中每个目标对象在相机坐标系下的最终三维姿态。

可选的，最终三维姿态的确定方式为：

对于每个目标对象，确定目标对象上的第一关键点的参考坐标和绝对三维坐标之间的转换关系，其中，第一关键点的参考坐标为目标对象对应的目标坐标系中第一关键点的坐标；根据转换关系，将目标对象上的初始三维姿态映射到相机坐标系下，获得目标对象在相机坐标系下的最终三维姿态。

示例性的，由于是以第一关键点建立的目标坐标系，因此，通常将第一关键点的参考坐标定义为(0，0，0)。

假设第一个目标对象A上的第一关键点a1在相机坐标系下的绝对三维坐标为(1，1，1)，A上的第二关键点a2相对于a1的相对三维坐标为(2，3，4)；第二个目标对象B上的第一关键点b1在相机坐标系下的绝对三维坐标为(2，2，2)，B上的第二关键点b2相对于b1的相对三维坐标为(2，3，4)。

确定出A上的a2在相机坐标系下的最终三维姿态为(1+2，1+3，1+4)＝(3，4，5)。确定出的B上的b2在相机坐标系下的最终三维姿态为(2+2，2+3，2+4)＝(4，5，6)。

如图3中的“多人3D”图所示，根据上述方法，可以确定出多个人物在空间内的相对位置和姿态。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的多目标姿态估计方法，图5是本申请实施例提供的多目标姿态估计装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图5，该装置包括：

图像获取单元51，用于通过拍摄装置获取待检测图像，所述待检测图像中包括多个目标对象。

初始姿态确定单元52，用于确定所述待检测图像中每个所述目标对象在各自对应的目标坐标系下的初始三维姿态，其中，所述目标对象对应的目标坐标系为以所述目标对象上的第一关键点为原点的坐标系。

位置确定单元53，用于确定所述待检测图像中每个所述目标对象在相机坐标系下的绝对位置，其中，所述相机坐标系为以所述拍摄装置的光心为原点的坐标系。

最终姿态确定单元54，用于根据每个所述目标对象的所述初始三维姿态和所述绝对位置，确定所述待检测图像中每个所述目标对象在所述相机坐标系下的最终三维姿态。

可选的，初始姿态确定单元52还用于：

检测所述待检测图像中的所述目标对象，获得每个所述目标对象的检测框；根据所述检测框获取所述待检测图像中每个所述目标对象的局部图像；确定每张所述局部图像中包含的所述目标对象在各自对应的所述目标坐标系下的所述初始三维姿态。

可选的，初始姿态确定单元52还用于：

对于每张所述局部图像，将所述局部图像的中心确定为所述局部图像中包含的所述目标对象上的所述第一关键点；检测所述局部图像中包含的所述目标对象上的第二关键点；确定所述第二关键点相对于所述第一关键点的相对三维坐标；将所述相对三维坐标确定为所述目标对象在对应的所述目标坐标系下的所述初始三维姿态。

可选的，位置确定单元53还用于：

确定所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标；将所述绝对三维坐标确定为各自对应的所述目标对象在所述相机坐标系下的绝对位置。

可选的，位置确定单元53还用于：

获取所述拍摄装置的内参数据，以及所述第一关键点在所述待检测图像中的图像坐标；将所述内参数据、所述图像坐标和所述待检测图像输入到预设的绝对位置检测模型中，输出所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标。

可选的，绝对位置检测模型包括：

特征提取子网络，用于提取所述待检测图像中的特征信息；

可选的，最终姿态确定单元54还用于：

对于每个所述目标对象，确定所述目标对象上的所述第一关键点的参考坐标和所述绝对三维坐标之间的转换关系，其中，所述第一关键点的参考坐标为所述目标对象对应的所述目标坐标系中所述第一关键点的坐标；根据所述转换关系，将所述目标对象上的所述初始三维姿态映射到所述相机坐标系下，获得所述目标对象在所述相机坐标系下的所述最终三维姿态。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图5所示的多目标姿态估计装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图6是本申请实施例提供的终端设备的结构示意图。如图6所示，该实施例的终端设备6包括：至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62，所述处理器60执行所述计算机程序62时实现上述任意各个多目标姿态估计方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图6仅仅是终端设备6的举例，并不构成对终端设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，该处理器60还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种多目标姿态估计方法，其特征在于，包括：

2.如权利要求1所述的多目标姿态估计方法，其特征在于，所述确定所述待检测图像中每个所述目标对象在各自对应的目标坐标系下的初始三维姿态，包括：

3.如权利要求2所述的多目标姿态估计方法，其特征在于，所述确定每张所述局部图像中包含的所述目标对象在各自对应的所述目标坐标系下的所述初始三维姿态，包括：

检测所述局部图像中包含的所述目标对象上的第二关键点；

4.如权利要求1至3任一项所述的多目标姿态估计方法，其特征在于，所述确定所述待检测图像中每个所述目标对象在相机坐标系下的绝对位置，包括：

5.如权利要求4所述的多目标姿态估计方法，其特征在于，所述确定所述待检测图像中每个所述目标对象上的所述第一关键点在所述相机坐标系下的绝对三维坐标，包括：

6.如权利要求5所述的多目标姿态估计方法，其特征在于，所述绝对位置检测模型包括：

特征提取子网络，用于提取所述待检测图像中的特征信息；

7.如权利要求4所述的多目标姿态估计方法，其特征在于，所述根据每个所述目标对象的初始三维姿态和绝对位置，确定所述待检测图像中每个所述目标对象在所述相机坐标系下的最终三维姿态，包括：

8.一种多目标姿态估计装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。