CN115115699A

CN115115699A - 姿态估计方法、装置、相关设备和计算机产品

Info

Publication number: CN115115699A
Application number: CN202210459965.1A
Authority: CN
Inventors: 林诗峰; 王尊冉; 凌永根
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-09-27

Abstract

本公开提供一种姿态估计方法、装置、电子设备、计算机可读存储介质和计算机产品，涉及人工智能技术领域，该方法包括：获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；获取包括目标对象的目标图像；对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置；根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值；将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值；根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

Description

姿态估计方法、装置、相关设备和计算机产品

技术领域

本公开涉及人工智能技术领域，尤其涉及一种姿态估计方法、装置、电子设备、计算机可读存储介质和计算机产品。

背景技术

姿态估计问题在人机交互、虚拟现实、自动驾驶、物流分类等技术领域具有广大的应用范围和很强的实用价值。然而，现有姿态估计的研究面临许多问题，如姿态估计准确率低和姿态朝向无法确定等。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种姿态估计方法、装置、电子设备、计算机可读存储介质以及计算机产品，能够在确定目标端对象的位置和朝向的同时提高姿态估计的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

本公开实施例提供了一种姿态估计方法，包括：获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；获取目标图像，所述目标图像是对所述目标对象进行图像采集后获得的；对所述目标图像进行关键点偏置预测，确定所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，所述预测关键点是在所述相机坐标系下为所述目标对象预测的关键点，所述预测关键点与所述模型关键点一一对应；根据所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定所述预测关键点在所述相机坐标系下的相机坐标值；将所述模型关键点的模型坐标值与所述预测关键点的相机坐标值进行拼接，获得融合坐标值；根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

本公开实施例提供了一种姿态估计装置，包括：模型坐标值获取模块、目标图像获取模块、偏置预测模块、相机坐标值预测模块、融合坐标确定模块、和姿态预测模块。

其中，所述模型坐标值获取模块用于获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；所述目标图像获取模块用于获取目标图像，所述目标图像是对所述目标对象进行图像采集后获得的；所述偏置预测模块用于对所述目标图像进行关键点偏置预测，确定所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，所述预测关键点是在所述相机坐标系下为所述目标对象预测的关键点，所述预测关键点与所述模型关键点一一对应；所述相机坐标值预测模块用于根据所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定所述预测关键点在所述相机坐标系下的相机坐标值；所述融合坐标确定模块用于将所述模型关键点的模型坐标值与所述预测关键点的相机坐标值进行拼接，获得融合坐标值；所述姿态预测模块用于根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

在一些实施例中，所述相机坐标值预测模块包括：语义分割子模块、位置偏置预测子模块、候选相机坐标值确定子模块、和相机坐标值预测子模块。

其中，所述语义分割子模块用于对所述目标图像进行语义分割，以在所述目标图像中的各个点中确定用于对所述目标对象进行描述的多个目标点；所述位置偏置预测子模块用于根据所述各个点相对于所述预测关键点的位置偏置确定各个目标点相对于所述预测关键点的位置偏置；所述候选相机坐标值确定子模块用于根据所述各个目标点相对于所述预测关键点的位置偏置确定所述预测关键点的多个候选相机坐标值；所述相机坐标值预测子模块用于根据所述多个候选相机坐标值确定所述预测关键点在所述相机坐标系下的相机坐标值。

在一些实施例中，所述相机坐标值预测子模块用于包括：方差确定单元、高斯标准化单元、剔除单元、和相机坐标值确定单元。

其中，所述方差确定单元用于确定所述多个候选相机坐标值对应的坐标值均值和坐标值方差；所述高斯标准化单元用于根据所述坐标值均值和所述坐标值方差对各个候选相机坐标值分别进行高斯标准化，以便根据高斯标准化结果确定各个候选相机坐标值的收敛置信度；所述剔除单元用于将收敛置信度大于目标阈值的候选相机坐标值剔除，以获得收敛相机坐标值；所述相机坐标值确定单元用于根据所述收敛相机坐标值以及所述收敛相机坐标值的收敛置信度确定所述预测关键点在所述相机坐标系下的相机坐标值。

在一些实施例中，所述相机坐标值确定单元包括：加权求和子单元。

其中，所述加权求和子单元用于以所述收敛置信度为权重对各个收敛相机坐标值进行加权求和处理，以确定所述预测关键点在所述相机坐标系下的相机坐标值。

在一些实施例中，所述相机坐标值预测子模块用于包括：均值确定单元或聚类单元。

其中，所述均值确定单元用于根据所述多个候选相机坐标值确定坐标值均值，并将所述坐标值均值作为所述预测关键点在所述相机坐标系下的相机坐标值；所述聚类单元用于对所述多个候选相机坐标值进行聚类处理，并将聚类中心对应的坐标值作为所述预测关键点在所述相机坐标系下的相机坐标值。

在一些实施例中，所述目标图像是目标图像采集设备采集的，所述相机坐标系是根据所述目标图像采集设备构建的坐标系；其中，所述候选相机坐标值确定子模块包括：内参获取单元、点坐标确定单元、和相机坐标值确定单元。

其中，所述内参获取单元用于获取所述目标图像采集设备的内参信息；所述点坐标确定单元用于通过所述图像采集设备的内参信息对所述目标图像进行处理，以确定所述各个目标点在所述相机坐标系下的坐标值；所述相机坐标值确定单元用于根据所述各个目标点在所述相机坐标系下的坐标值和所述各个目标点相对于所述预测关键点的位置偏置，确定所述预测关键点的所述多个候选相机坐标值。

在一些实施例中，所述目标图像是包括目标深度图信息和目标色彩图信息的色彩深度图；其中，所述偏置预测模块包括：色彩特征获取子模块、深度特征获取子模块、特征融合子模块、和关键点偏置预测子模块。

其中，所述色彩特征获取子模块用于对所述目标色彩图信息进行特征提取以获得色彩特征；所述深度特征获取子模块用于对所述目标深度图信息进行特征提取以获得深度特征；所述特征融合子模块用于将所述色彩特征与所述深度特征进行特征融合，获得色彩深度融合特征；所述关键点偏置预测子模块用于对所述色彩深度融合特征进行关键点偏置预测，以确定所述目标图像中的各个点相对于所述预测关键点的位置偏置。

在一些实施例中，所述姿态预测模块包括：预测旋转平移矩阵确定子模块和姿态预测子模块。

其中，所述预测旋转平移矩阵确定子模块用于根据所述融合坐标值确定所述模型关键点和所述预测关键点之间的预测旋转平移矩阵；所述姿态预测子模块用于根据所述预测旋转平移矩阵对所述目标对象的模型进行旋转平移，确定所述目标对象在所述相机坐标系下的姿态。

在一些实施例中，所述预测旋转平移矩阵确定子模块包括：特征提取单元和预测处理单元。

其中，所述特征提取单元用于通过目标卷积结构对所述融合坐标值进行特征提取以获得融合坐标特征；所述预测处理单元用于通过目标分类器对所述融合坐标特征进行预测处理，以确定所述预测旋转平移矩阵。

在一些实施例中，所述预测旋转平移矩阵包括旋转矩阵，所述旋转矩阵包括第一旋转方向、第二旋转方向以及第三旋转方向；其中，所述预测处理单元包括：第一旋转数据预测子单元、第一归一化子单元、第二归一化子单元、和第二旋转数据预测子单元。

其中，所述第一旋转数据预测子单元用于通过目标分类器对所述融合坐标特征进行预测处理，确定所述旋转矩阵在所述第一旋转方向上的第一旋转数据和在所述第二旋转方向上的第二旋转数据；所述第一归一化子单元用于对所述第一旋转数据进行归一化处理，以获得第一旋转归一化数据；所述第二归一化子单元用于将所述第一旋转归一化数据和所述第二旋转数据进行叉乘、并对叉乘后结果进行归一化处理，获得所述旋转矩阵在所述第三旋转方向上的第三旋转归一化数据；所述第二旋转数据预测子单元用于将所述第一旋转归一化数据和所述第三旋转归一化数据进行叉乘，获得所述旋转矩阵在所述第二旋转方向上的第二旋转归一化数据。

在一些实施例中，所述姿态估计方法由目标网络模型执行；其中，所述姿态估计装置还包括：实际旋转平移矩阵获取模块、目标损失值确定模块、和训练模块。

其中，所述实际旋转平移矩阵获取模块用于获取所述模型关键点和实际关键点之间的实际旋转平移矩阵，其中所述实际关键点是所述目标图像中的所述目标对象在所述相机坐标系下的实际姿态上的关键点，所述模型关键点和所述实际关键点一一对应；所述目标损失值确定模块用于根据所述预测旋转平移矩阵和所述实际旋转平移矩阵确定目标损失值；所述训练模块用于根据所述目标损失值对所述目标网络模型进行训练。

本公开实施例提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的姿态估计方法。

本公开实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的姿态估计方法。

本公开实施例提出一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述姿态估计方法。

本公开实施例提供的姿态估计方法、装置、电子设备、计算机可读存储介质和计算机产品，一方面通过融合坐标值和目标对象的模型确定目标对象在相机坐标系下的姿态，可以在确定目标对象在相机坐标系下的位置的同时，根据目标对象的关键点确定目标对象的朝向，同时还可以通过模型避免姿态估计中由目标图像中多目标遮挡带来的姿态估计不准确的问题；另一方面，本公开在对预测关键点进行确定时，首先预测了目标图像中各个点相对于预测关键点的位置偏置，然后进一步根据位置偏置确定了预测关键点的位置，由于位置偏置是一个有限范围的数据，因此本公开预测位置偏置可以避免直接预测关键点位置所产生的数据发散问题，从而提高关键点位置的预测的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用于本公开实施例的姿态估计方法或姿态估计装置的示例性系统架构的示意图。

图2是根据一示例性实施例示出的一种姿态估计方法的流程图。

图3是根据一示例性实施例示出的一种目标对象的模型。

图4是根据一示例性实施例示出的一种目标图像的示意图。

图5是根据一示例性实施例示出的一种目标对象的点云图的示意图。

图6是根据一示例性实施例示出的一种根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置确定预测关键点的相机坐标值的方法的流程图。

图7是根据一示例性实施例示出的一种通过高斯标准投票法确定相机坐标值的方法的流程图。

图8是根据一示例性实施例示出的一种位置偏置预测方法。

图9是根据一示例性实施例示出的一种预测旋转平移矩阵确定方法的流程图。

图10是根据一示例性实施例示出的一种姿态估计方法。

图11是根据一示例性示出的一种姿态估计结构示意图。

图12是根据一示例性实施例示出的一种姿态估计对比结果示意图。

图13是根据一示例性实施例示出的一种姿态估计对比结果示意图。

图14是根据一示例性实施例示出的一种姿态估计对比结果示意图。

图15是根据一示例性实施例示出的一种姿态估计装置的框图。

图16示出了适于用来实现本公开实施例的的电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本公开所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图仅为本公开的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在本公开的描述中，除非另有说明，“/”表示“或”的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。此外，“至少一个”是指一个或多个，“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同；词语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

下面首先对本公开实施例涉及的部分名词进行解释说明，以便于本领域技术人员理解。

前文介绍了本公开实施例所涉及到的一些名词概念，下面介绍本公开实施例涉及的技术特征。

FFB6D：一种用于点云和RGB(Red，红；Green,绿；Blue，蓝)信息双向融合的网络。

PSPnet:一种利用图像金字塔结构用于语义分割的网络。

Resnet：一种图像卷积网络骨架。

本公开公开的技术方案通过了人工智能(Artificial Intelligence,AI)技术领域中的计算机视觉(Computer Vision,CV)技术基于目标对象的模型和包含目标对象的图像对目标对象在相机坐标系下的姿态进行预测。

其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而，计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensions，3维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本公开提高的技术方案，结合计算机视觉对目标图像进行处理，以预测目标图像中的各个点相对于预测关键点的位置偏置；然后基于位置偏置确定预测关键点在相机坐标系下的位置；接着，将目标对象的模型关键点与预测关键点进行拼接以预测模型关键点和预测关键点之间的预测旋转平移矩阵，以便于根据该预测旋转平移矩阵对目标对象的模型进行旋转平移以确定目标对象在相机坐标系下的姿态。

下面结合附图对本公开示例实施方式进行详细说明。

现有的基于深度学习的姿态估计的主要有2类：

1.基于深度学习的分类的方法。具体的策略为：对空间进行一定间隔的划分，将姿态估计问题建模为无区别的多分类问题。在经过特征提取后，输出为物体姿态所属的空间位置的类别。

2.基于深度学习的直接回归的方法。具体的策略为：利用卷积网络提取rgb特征或者点云特征后，直接利用相对应的特征回归物体的6D姿态。其中，6D是指6个自由度，代表了3个自由度的位移(也叫平移(Translation))，以及3个自由度的空间旋转(Rotation)。

然而，上述第一种方法将6D姿态估计问题视为分类问题，由于难以细化到整个空间，姿态估计精度较差。第二种方法中利用特征直接回归，由于只监督物体的姿态信息，缺少对物体几何结构信息的进一步挖掘，其姿态估计的精度也很差。

本公开设计了合适的策略以及网络结构，在提高了姿态估计的准确度的前提下，实现了从图像到姿态估计的端到端的训练和预测。

如图1所示，系统架构100可以包括图像采集设备101、102，终端设备103、104，网络105和服务器106。网络105用以在采集设备101、102，终端设备103、104，和服务器106之间提供通信链路的介质。网络105可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用图像采集设备101、102对目标对象进行图像采集，并将采集结果通过网络105或者其他数据传输设备(如USB)发送给终端设备103、104或者服务器106。其中，图像采集设备可以是2维图像采集设备，也可以是3维图像采集设备(如点云图像采集设备，或者RGBD图像采集设备)，而上述2维图像采集设备可以是色彩图像采集设备或者黑白图像采集设备，本公开对此不做限制，上述3维图像采集设备可以是点云图像采集设备，也可以是RGBD图像采集设备，本公开对此也不做限制。

在一些实施例中，上述图像采集设备可以是如101所示的彩色相机，也可以是如102所示的深度相机(如kinect)，上述图像采集设备还可以是手机、电脑等任意可以进行图像采集的设备，本公开对此不做限制。

在一些实施例中，用户可以使用终端设备103、104通过网络105与服务器106进行交互，以接收或发送消息等。

例如，用户可以使用终端设备103、104接收图像采集设备采集到的目标图像；用户还可以使用终端设备103、104对目标图像进行图像采集；用户还可以通过终端103、104构建和现实目标对象的模型；用户还可以通过终端103、104将获得的目标图像发送给服务器进行目标对象的姿态估计；用户还可以使用终端103、104进行目标端对象的姿态估计。

在一些实施例中，用户终端103、104可例如通过以下过程实现目标对象的姿态估计：获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；获取目标图像，目标图像是对目标对象进行图像采集后获得的；对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点，预测关键点与模型关键点一一对应；根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值；将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值；根据融合坐标值确定模型关键点和预测关键点之间的预测旋转平移矩阵，以便根据目标对象的模型和预测旋转平移矩阵确定目标对象在相机坐标系下的姿态。

其中，终端设备103、104可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。

服务器106可以是提供各种服务的服务器，例如对用户利用终端设备103、104所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器等，本公开对此不做限制。

服务器106可例如获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；服务器106可例如获取目标图像，目标图像是对目标对象进行图像采集后获得的；服务器106可例如对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点，预测关键点与模型关键点一一对应；服务器106可例如根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值；服务器106可例如将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值；服务器106可例如根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

应该理解，图1中的图像采集设备、终端设备、网络和服务器的数目仅仅是示意性的，服务器106可以是一个实体的服务器，还可以为多个服务器组成，根据实际需要，可以具有任意数目的图像采集设备、终端设备、网络和服务器。

在上述系统架构下，本公开实施例中提供了一种姿态估计方法，该方法可以由任意具备计算处理能力的电子设备执行，例如该方法可以由上述图1实施例中的服务器或终端设备来执行，也可以由服务器和终端设备共同执行，在下面的实施例中，以服务器为执行主体为例进行举例说明，但本公开并不限定于此。

参照图2，本公开实施例提供的姿态估计方法可以包括以下步骤。

步骤S202，获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值。

其中，目标对象可以指的是任意一种可以备图像采集的对象，可以是快递、玩具(如玩具狗、玩具猫)、纸盒、椅子、桌子、机器人等。

在一些实施例中，目标对象的大小、比例、各个关键点之间的位置偏移可以是固定不变的。

目标对象的模型可以指的是预先为目标的对象搭建的模型，该模型可以是2D(Dimension，维度)模型，也可以是3D模型，本公开对此不做限制。

在一些实施例中，该目标对象的模型与目标的对象大小(和形态)可以相同、也可以不同，本领域技术人员可以根据自身需求进行调整，本公开对此不做限制。

图3是根据一示例性实施例示出的一种目标对象的3D模型。

其中，该目标对象可以是玩具猫。

在一些实施例中，可以根据该目标对象的模型构建模型坐标系，例如可以以目标对象的中心位置为原点，以任意三个相互垂直的方向(或者两个垂直方向)为坐标轴，构建该模型坐标系，本公开对模型坐标系的搭建方法不做限制，本领域技术人员可以根据自身需求进行构建。可以理解的是，目标对象的模型在模型坐标系中的坐标始终保持不变。

在一些实施例中，可以在目标对象的模型中设定模型关键点(如图3中黑点)，该模型关键点可以对目标对象的关键位置进行标注，通过该模型关键的可以突出该目标对象的特性信息(如朝向信息、体型信息、长相信息等)，本领域技术人员可以根据自身需求在目标对象的模型中设定模型关键点，本公开对此不做限制。

可以理解的是，上述模型关键点可以包括至少4个。

如图3所示，可以在玩具猫的模型中的两个耳朵尖、嘴巴、后脑勺、脚尖等位置处指定至少一个模型关键点。

在一些实施例中，在设定目标对象的模型关键点后，还可以获得该模型关键点在模型坐标系下的坐标值(即模型坐标值)。

步骤S204，获取目标图像，目标图像是对目标对象进行图像采集后获得的。

在一些实施例中，可以对目标对象进行图像采集以获得该目标图像。

其中，目标对象可以处于任意一种场景的任意姿态下。例如，该目标对象可以处于快递分拣场景的某种姿态下，本公开对目标图像中的目标对象的朝向、位置等不做限制。

在一些实施例中，目标图像可以是色彩图(如RGB图)、黑白图、深度图(如RGBD)等，本公开对此不做限制。

在一些实施例中，可以通过图像采集设备对目标对象进行采集，以获得该目标图像。在一些实施例中，通过图像采集设备对目标对象(例如玩具猫)进行图像采集可以获得如图4或图5所示的图像，该图像中可以包括该目标对象(如图4中方框中的玩具猫，又如图5中通过点云示出的玩具猫)。

其中，该图像采集设备可以是手机、电脑、摄像头、相机、Kinect摄像头(一种深度摄像头)等任意一种可以进行图像采集的设备，本公开对此不做限制。

在一些实施例中，可以以目标图像的图像采集设备为基准构建相机坐标系，也可以以目标图像的图像采集设备所在环境为基准构建相机坐标系，可以理解的是只有目标图像的图像采集设备在构建出来的坐标系下的坐标值不发生改变，那么该坐标系就可以是本申请中的相机坐标系。例如可以以该图像采集设备的最底部为圆心，以任意三个相互垂直的方向为坐标轴，构建相机坐标系，本公开对相机坐标系的构建方法不做限制。

在一些实施例中，模型坐标系与相机坐标系可以相同，也可以不同，本公开对此不做限制。

步骤S206，对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点。

在一些实施例中，上述位置偏置可以包括位移偏置和方向偏置。

在一些实施例中，上述预测关键点可以指的是在相机坐标系下为目标对象预测的关键点，该预测关键点可以与模型关键点一一对应，该一一对应关系可以包括关键点个数的相同，也可以包括关键点位置的相同(如在目标对象的模型中指定耳尖位置处为关键点，那么在目标对象的耳尖位置处也可以预测出来一预测关键点)。

在一些实施例中，可以对目标图像进行处理，以预测目标图像中的各个点(可以是目标图像中的像素点或者点云)在相机坐标系下相对于各个预测关键点的位置偏置。

例如，假设预测关键点包括第一预测关键点和第二预测关键点，那么可以预测目标图像中的各个点相对于第一预测关键点的位置偏置，还可以预测目标图像中各个点相对于第二预测关键点的位置偏置。

在一些实施例中，可以通过目标网络模型中的偏置预测结构对目标图像进行处理，以预测目标图像中的各个点(可以是目标图像中的像素点或者点云)在相机坐标系下相对于各个预测关键点的位置偏置。其中，上述偏置预测结构可以是任意一种神经网络结构，例如可以是由卷积层、全连接层、分类器构成的网络结构。总之，任意可以对各个点相对于预测关键点的位置偏置进行预测的网络结构均在本公开的保护范围内。

步骤S208，根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，可以首先确定目标图像中的各个点在相机坐标系下的坐标值，然后根据各个点相对于预测关键点的位置偏置为该预测关键点确定多个候选相机坐标值，最后再根据该多个候选相机坐标值确定预测关键点的相机坐标值。

其中，本领域技术人员可以根据相关技术确定目标图像中的各个点在相机坐标系下的坐标值，本实施例不再赘述。

在一些实施例中，上述目标网络模型还可以包括相机坐标值确定结构，上述相机坐标值确定结构可以根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值。本公开对上述相机坐标值确定结构中的具体网络结构不做限制，任意可以实现上述相机坐标值预测过程的网络结构均在本公开的保护范围内。

步骤S210，将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值。

在一些实施例中，可以将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接以获得融合坐标值；还可以对模型关键点的模型坐标值和对预测关键点的相机坐标值进行特征提取，然后将提取后的特征拼接，直接获得融合特征。

在一些实施例中，上述目标网络模型还包括拼接结构，上述拼接结构可以将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接以获得融合坐标值；还可以对模型关键点的模型坐标值和对预测关键点的相机坐标值进行特征提取，然后将提取后的特征拼接，直接获得融合特征。

本公开对上述拼接结构中的具体网络结构不做限制，任意可以实现上述拼接过程的网络结构均在本公开的保护范围内。

步骤S212，根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

在一些实施例中，可以根据融合坐标值(或者融合特征)确定模型关键点和预测关键点之间的预测旋转平移矩阵。

在一些实施例中，上述目标网络模型还可以包括旋转平移矩阵预测结构，那么可以通过上述旋转平移矩阵预测结构对融合坐标值进行处理，以确定模型关键点和预测关键点之间的预测旋转平移矩阵。

在一些实施例中，上述旋转平移矩阵预测结构可以包括一个全连接层和两个一维卷积层。同样，本公开对上述旋转平移矩阵预测结构中的具体网络结构不做限制，任意可以实现上述旋转平移矩阵预测过程的网络结构均在本公开的保护范围内。

在一些实施例中，在获得上述预测旋转平移矩阵后，可以通过该预测旋转平移矩阵对目标对象的模型进行旋转平移，以确定目标对象在相机坐标系下的姿态。

通过上述实施例，一方面通过对目标对象的模型进行旋转平移以确定目标对象在相机坐标系下的姿态，可以避免因为目标图像中的多目标遮挡导致无法在相机坐标系下确定目标对象的姿态的问题；另一方面，目标对象的模型的模型关键点对应的预测关键点的位置是已知的，那么可以根据模型关键的对应的预测关键点确定目标对象在相机坐标系下的位置和朝向(如已知目标对象的耳朵上的第一预测关键点的位置和尾巴上第二预测关键点的位置，那么目标对象的朝向是已知的，可以根据该朝向对目标对象进行抓取或者其它操作)；另外，本公开在对目标对象的预测关键点进行预测时先预测了目标图像中各个点相对于预测关键点的位置偏置(包括方向偏置和位置偏置)，然后再根据位置偏置确定预测关键点的位置，由于位置偏置中的方向偏置是在一定的预设范围内，因此方向偏置的预测不存在发散问题，相比于直接确定预测关键点的位置可能带来的发散问题，本公开能够提高预测关键点位置预测的准确度，进而提高了目标姿态估计的准确度。

参考图6，上述相机坐标值确定方法可以包括以下步骤。

步骤S602，对目标图像进行语义分割，以在目标图像中的各个点中确定用于对目标对象进行描述的多个目标点,。

其中，上述目标点可以用于对目标对象进行描述，例如可以是目标对象本体上的点，例如可以是目标对象本体及本体周边的点，本公开对此不做限制。

在一些实施例中，可以对目标图像进行语义分割，以在目标图像中确定一包括目标对象的图像块。

如图4所示，若目标图像是一二维图像，可以通过语义分割在目标图像中确定如图4方框中示出的图像块，该图像块中可以包括目标对象，该图像块中包括的点就可以是上述多个目标点。

在一些实施例中，若目标图像是一深度图像，那么可以通过语义分割在目标图像中确定如图5所示的图像块，该图像块中包括目标对象，该图像块中包括的点就可以是上述多个目标点。

在另外一些实施例中，若目标图像是一RGBD图像，该RGBD图像可以包括深度图和色彩图，那么可以对目标图像的色彩图进行语义分割一获得一包括目标对象在内的检测框，然后将检测框内的色彩图与深度图进行融合，最后对融合后的色彩深度图进行语义分割，以在融合后的色彩深度图中确定一包括目标对象的区域，并将该区域中的点作为本实施例中的目标点。

在另外一些实施例中，若目标图像是一RGBD图像，那么可以通过以下方法对目标图像进行语义分割：对目标色彩图信息进行特征提取以获得色彩特征。对目标深度图信息进行特征提取以获得深度特征。将色彩特征与深度特征进行特征融合，获得色彩深度融合特征；对色彩深度融合特征进行语义分割处理，以在目标图像中确定用于描述目标对象的多个目标点。

需要注意的是，本公开对目标点的确定方法不做限制，

步骤S604，根据各个点相对于预测关键点的位置偏置确定各个目标点相对于预测关键点的位置偏置。

在一些实施例中，可以从各个点相对于预测关键点的位置偏置中筛选出各个目标点相对于预测关键的位置偏置。

步骤S606，根据各个目标点相对于预测关键点的位置偏置确定预测关键点的多个候选相机坐标值。

在一些实施例中，上述目标图像可以是目标图像采集设备采集的，相机坐标系可以是根据目标图像采集设备构建的坐标系。那么，可以获取目标图像采集设备的内参信息，然后通过图像采集设备的内参信息对目标图像进行处理，以确定各个目标点(或者目标图像中的各个点)在相机坐标系下的坐标值。

在一些实施例中，已知各个目标点在相机坐标系下的坐标值，那么结合各个目标点相对于预测关键点的位置偏置(包括方向偏置和位移偏置)，那么就可以确定预测关键点的多个候选相机坐标值(即一个目标点可以对应一个候选相机坐标值，一个预测关键点可以对应多个候选相机坐标值)。

步骤S608，根据多个候选相机坐标值确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，可以通过以下方法确定预测关键点在相机坐标系下的相机坐标值：根据多个候选相机坐标值确定一坐标值均值，并将该坐标值均值作为预测关键点在相机坐标系下的相机坐标值；或者，对多个候选相机坐标值进行聚类处理，并将聚类中心对应的坐标值作为预测关键点在相机坐标系下的相机坐标值。

在另外一些实施例中，可以通过关键点投票对上述多个候选相机坐标值进行投票处理，以确定预测关键点在相机坐标系下的相机坐标值。上述关键点投票可以包括：高斯标准投票法、meanshift(均值移位)聚类法、霍夫投票等，本公开对上述投票方法不做限制。

本实施例提供的技术方案，通过语义分割从目标图像中确定目标对象对应的目标点，然后根据目标点对应的位置偏置对预测关键点的多个候选相机坐标值进行预测，进而对预测关键点的相机坐标值进行预测。本实施例在对预测关键点的相机坐标值进行预测时，通过语义分割聚焦于与目标对象关系最为密切的目标点，然后基于目标点的位置偏置进行预测关键点预测，提高了预测关键点的预测准确度，进而能够提高目标对象的姿态估计准确度。

参考图7，上述相机坐标值预测方法可以包括以下步骤。

在一些实施例中，目标对象可以包括M个预测关键点，M为大于或者等于1的整数。

步骤S702，确定多个候选相机坐标值对应的坐标值均值和坐标值方差。

在一些实施例中，可以通过

确定第j个预测关键点的多个候选相机坐标的坐标均值，其中

代表第j个预测关键点的第i个候选相机坐标，i为大于或者等于1的整数，j为大于或者等于1、小于等于M的整数，mean()是一种求取均值的函数。

在一些实施例中，可以通过

确定第j个预测关键点的多个候选相机坐标的坐标方差，std()是一种求取方差的函数。

步骤S704，根据坐标值均值和坐标值方差对各个候选相机坐标值分别进行高斯标准化，以便根据高斯标准化结果确定各个候选相机坐标值的收敛置信度。

在一些实施例中，可以将候选相机坐标值分别减去坐标值均值，然后将结果与坐标值方差求比值(即高斯标准化值)，最后根据该比值确定该候选相机坐标值对应的收敛置信度。

在一些实施例中，可以通过公式(1)对第j个预测关键点进行高斯标准化处理，以获得该第j个关键点对应的高斯标准化值。

步骤S706，将收敛置信度大于目标阈值的候选相机坐标值剔除，以获得收敛相机坐标值。

在一些实施例中，可以认为高斯标准化值大于某个阈值的候选相机坐标值分布的比较离散，对预测关键点的位置的预测贡献不大，可以将其删除。

那么，如公式(2)所示，可以将高斯标准化值大于或者等于某个阈值(例如θ＝0.6)的收敛置信度置为0，以便在候选将其对应的候选相机坐标值

删除，将高斯标准化值小于该阈值的候选相机坐标对应的收敛置信度设置为1。

步骤S708，根据收敛相机坐标值以及收敛相机坐标值的收敛置信度确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，如公式(3)所示，可以以收敛置信度

为权重对各个收敛相机坐标值

进行加权求和处理，以确定第j个预测关键点在相机坐标系下的相机坐标值^ck_j。

本实施例提供的技术方案，根据所有候选相机坐标值的均值和方差对各个候选相机坐标值进行高斯标准化处理，然后将高斯标准化后的值大于某个阈值的候选相机坐标踢除，以剔除分布较为离散的候选相机坐标，从而提高预测关键点的位置的预测准确度。

图8是根据一示例性实施例示出的一种位置偏置预测方法。

在一些实施例中，上述目标图像可以是一种包括目标深度图信息和目标色彩图信息的色彩深度图。

那么参考图8，可以根据以下方法确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置。

步骤S802，对目标色彩图信息进行特征提取以获得色彩特征。

步骤S804，对目标深度图信息进行特征提取以获得深度特征。

步骤S806，将色彩特征与深度特征进行特征融合，获得色彩深度融合特征。

步骤S808，对色彩深度融合特征进行关键点偏置预测，以确定目标图像中的各个点相对于预测关键点的位置偏置。

在一些实施例中，可以通过目标卷积结构对融合坐标值进行特征提取以获得融合坐标特征，然后通过目标分类器对融合坐标特征进行预测处理，以确定预测旋转平移矩阵。

本实施例提高的技术方案，在进行位置偏置预测时既结合了目标对象的彩色信息也结合了目标对象的深度信息(即几何信息)，从而提高了位置偏置预测的准确度。

在一些实施例中，预测旋转平移矩阵可以包括旋转矩阵和平移矩阵。

在下面的实施例中，将以旋转矩阵的确定方法为例进行说明，平移矩阵的确定方法可以参考旋转矩阵的确定方法，本实施例不再赘述。

在一些实施例中，旋转矩阵可以包括第一旋转方向、第二旋转方向以及第三旋转方向。

参考图9，可以通过以下方法确定预测旋转平移矩阵。

步骤S902，通过目标分类器对融合坐标特征进行预测处理，确定旋转矩阵在第一旋转方向上的第一旋转数据和在第二旋转方向上的第二旋转数据。

在一些实施例中，可以通过目标网络模型中的分类器对融合坐标特征进行处理，以确定旋转平移矩阵在第一旋转方向(例如x方向)上的第一旋转数据r₁和旋转矩阵在第二旋转方向上的第二旋转数据r₂。

步骤S904，对第一旋转数据进行归一化处理，以获得第一旋转归一化数据。

在一些实施例中，可以通过公式φ(r₁)对第一旋转数据r₁进行归一化处理，以获得第一旋转归一化数据R₁。其中，φ()是归一化函数。

步骤S906，将第一旋转归一化数据和第二旋转数据进行叉乘、并对叉乘后结果进行归一化处理，获得旋转矩阵在第三旋转方向上的第三旋转归一化数据。

在一些实施例中，可以通过公式φ(R₁×r₂)将第一旋转归一化数据R₁和第二旋转数据r₂进行叉乘、并对叉乘后结果进行归一化处理，获得旋转矩阵在第三旋转方向上的第三旋转归一化数据R₃。

步骤S908，将第一旋转归一化数据和第三旋转归一化数据进行叉乘，获得旋转矩阵在第二旋转方向上的第二旋转归一化数据。

在一些实施例中，可以通过公式R₃×R₁将第一旋转归一化数据R₁和第三旋转归一化数据R₃进行叉乘，获得旋转矩阵在第二旋转方向上的第二旋转归一化数据R₂。

本实施例提供的技术方案，可以先预测旋转矩阵中两个旋转方向上的数据，然后再根据前两个旋转方向上的数据预测第三个方向上的数据，可以使得预测出来的三个方向是完全垂直的，与三个垂直方向的实际情况下是一致的。

图10是根据一示例性实施例示出的一种姿态估计方法。

在一些实施例中，上述姿态估计方法由目标网络模型执行。

那么，参考图10，上述姿态估计方法可以包括以下步骤。

步骤S1002，获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值。

步骤S1004，获取目标图像，目标图像是对目标对象进行图像采集后获得的。

步骤S1006，通过目标网络模型的偏置预测结构对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点。

步骤S1008，目标网络模型的相机坐标值确定结构根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值。

步骤S1010，目标网络模型的拼接结构将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值。

步骤S1012，目标网络模型的旋转平移矩阵预测结构根据融合坐标值确定模型关键点和预测关键点之间的预测旋转平移矩阵，以便根据目标对象的模型和预测旋转平移矩阵确定目标对象在相机坐标系下的姿态。

在另外一些实施例中，还可以根据一一对应的模型关键点和预测关键点求出多个旋转平移矩阵，然后使用最小二乘法求出一最优旋转平移矩阵，最后根据该最优的旋转平移矩阵确定目标对象在相机坐标系下的姿态。

但是上述最小二乘法是一种迭代法，计算量大、准确度低。

而上述将模型关键点与预测关键点进行拼接，然后使用旋转平移矩阵预测结构对拼接后结果直接进行预测的方法，使用的是机器学习模型，一次计算直接给出结果，参数量少、计算速度快、并且准确度高。

步骤S1014，获取模型关键点和实际关键点之间的实际旋转平移矩阵，其中实际关键点是目标图像中的目标对象在相机坐标系下的实际姿态上的关键点。

步骤S1016，根据预测旋转平移矩阵和实际旋转平移矩阵确定目标损失值。

步骤S1018，根据目标损失值对目标网络模型进行训练。

本实施例提供的技术方案，在目标网络模型的训练过程中对旋转平移矩阵直接进行监督，而非对旋转平移矩阵的中间变量进行监督。而旋转平移矩阵的误差能够直接反应姿态估计的误差，因此本实施例提供的姿态估计方法能够提供姿态估计的准确性。

图11是根据一示例性示出的一种姿态估计结构示意图。

在一些实施例中，本实施例提供的姿态估计方法可以应用于机械臂抓取，AR等产品。

本实施例主要介绍了如何通过包括RGB图和深度图在内的目标图像精确识别已知物体模型的物体在相机坐标系下的姿态。这里的RGB图和深度图主要由RGBD相机对目标对象进行图像采集后获得。

在一些实施例中，可以将RGB图像通过第一特征提取模块进行特征提取以获取色彩特征，其中第一特征提取模块可以是一种以resnet(一种残差网络)为骨架，以pspnet(一种利用图像金字塔结构用于语义分割的网络)为head(头部)的深度网络。

在一些实施例中，可以通过深度图生成点云，然后将其通过第二特征提取模块进行特征提取，以获得深度特征。

其中，第二特征提取模块可以是一种点云网络Randla-net(一种针对大场景语义分割的方法)。

在一些实施例中，可以在RGB和点云网络每层编码器和解码器处进行两种模态信息的交互，然后将RGB和点云的逐点特征通过特征融合模块拼接在一起，最后进行逐点的关键点偏置估计以及语义分割估计。

其中，关键点偏置估计是对目标图像中的各个点在相机坐标系下相对于预测关键点的偏置(包括方向偏置和唯一偏置)进行估计。

语义分割可以是指从目标图像中识别出包括目标对象的图像块。

在一些实施例中，可以首先利用目标检测网络(如YOLOv3)检测物体所在的RGB图像位置，并取出对应目标检测框内的深度图，并转化为点云。之后，进行深度特征和色彩特征的提取，并完成逐点的语义分割以及关键点偏置预测任务。在完成关键点偏置预测后，根据语义分割的结果，可以得到每个预测关键点的候选点集。然后利用高斯标准化对候选关键点集进行投票(具体投票过程可以参考公式(1)～公式(3)对应部分，本实施例不再赘述)，并将投票后得到的关键点与物体模型上的关键点进行拼接，并利用该信息最终回归物体的姿态。

通过上述方法得到预测关键点之后，可以聚合物体坐标系的模型关键点以及相机坐标系下预测得到的预测关键点，然后将聚合后结果通过回归网络，从而得到物体的6D姿态，具体过程可以参考公式(4)。

(R,t)＝G(cat{(^ck₁,^mk₁),…,(^ck_j,^mk_j)},Θ) (4)

其中，^ck_j标识预测关键点在相机坐标系下的坐标值，^mk_j表示模型关键点在模型坐标系的坐标值。对于函数G，可以利用一个带有全连接层的两个一维卷积层(具体可参考图11中虚线框中的网络结构)来实现。

在一些实施例中，对于物体位姿的监督，可以利用旋转矩阵的前两列作为物体的旋转信息的监督。具体可以参考图9所示实施例来实现预测旋转平移矩阵的预测。

在一些实施例中，可以利用物体点云的平均距离L_pose作为监督信息。

其中，

和

分别预测的结果(即预测旋转矩阵

和预测的平移矩阵

和真实标注(即真实旋转平移矩阵中的旋转矩阵

和平移矩阵

x∈M表示物体坐标系下的物体点云表示。

本实施例提供的技术方案，提高了物体的姿态估计效果，并且实现了端到端的姿态估计，进一步可以应用到姿态估计的自监督任务中去。

本实施例可以采用物体姿态估计的ADD距离以及ADD AUC衡量姿态估计的准确性。其中，ADD距离定义如下。

其中，

和

分别预测的结果和真实标注。v∈O表示物体坐标系下的物体点云表示。对于对称物体，我们使用ADD-S作为评价标准。ADD-s定义如下。

通过图像信息识别物体的6D姿态后，就可以得到物体完整的位置信息，进而可以利用物体模型的先验信息对物体进行操作。例子一：在物体的抓取或者分拣场景中，该方法可以准确定位物体的朝向及其在三维空间中的位置，机械臂基于这些视觉信息可以准确夹取目标物体。同时，机械臂还可以将这类物体放置到真实场景的指定位置，控制放置后物体的姿态，避免物体与环境中其他物体的碰撞等等。例子二：在一些AR应用中，识别出已知物体的姿态后，可以根据物体姿态调整相对应的特效的位置和姿态。

本公开实施例阐述了一种基于关键点预测的端到端的姿态估计的深度学习的方法。该方法通过预测物体的关键点偏置作为中间变量，并利用标准化筛选出高置信度的关键点信息并将其送入姿态估计网络。该方法在保证端到端运算的前提下保证了姿态估计识别的准确和高效。

本实施例提供的技术方案，在物体姿态估计数据集Linemod(线模)，LinemodOcculusion以及YCB-V上，我们都取得了较好的效果。具体可以参考图12～图14所示结果。

通过图12～图14所示的对比结构可以发现，本实施例提供的技术方案在不同的目标对象的姿态估计过程中，相较于其它不同的姿态估计方案，姿态估计准确率更高一些。

其中，表格中涉及多个专有名词，现提供该专有名词的中英文对照表。

在线模数据集上的实验：EXPERIMENT ON LINEMOD OCCULUSION DATASET。

用于6D位姿估计的卷积神经网络：POseCNN。

用于6DoF姿势估计的像素投票网络：Pixel-wise Voting Network for6DoF PoseEstimation，PvNet。

基于坐标的分离姿势网络：Coordinates-Based Disentangled Pose Networkfor Real-Time RGB-Based 6-DoF Object Pose，CDPN。

6D姿势对象检测器和精简器:6D pose object detector and refiner，DPOD。

点融合网络：PointFusion。

6D姿态估计网络：Dense-fusion。

全球到本地网络，用于具有嵌入矢量特征的实时6D姿势估计：Global to LocalNetwork for Real-time 6D Pose Estimation with Embedding Vector Features，G2L-Net。

用于6DoF姿势的深度点数3D关键点投票网络：A Deep Point-wise 3D KeypointsVoting Network for 6DoF Pose，PVN3D。

在线模掩星数据集上的实验：EXPERIMENT ON LINEMOD OCCULUSION DATASET。

混合表示下的6D对象姿态估计：HybridPose。

单级网络：Single-stage。

用于6D姿势估计的对象的像素坐标回归：Pix2Pose:Pixel-Wise CoordinateRegression of Objects for 6D Pose Estimation。

在YCB-V数据集上的实验：PERIMENT ON THE YCB-V DATASET。

耶鲁-CMU-伯克利对象和模型集：Yale-CMU-Berkeley(YCB)Object and Modelset，YCB。

模型点平均距离，Average Distance of Model Points,ADD。

最近点平均距离，Average Closest Point Distance,ADD-S。

用于多传感器3D物体检测的深度连续融合:Deep continuous fusion formulti-sensor 3d object detection,DCF。

基于同一发明构思，本公开实施例中还提供了一种姿态估计装置，如下面的实施例。由于该装置实施例解决问题的原理与上述方法实施例相似，因此该装置实施例的实施可以参见上述方法实施例的实施，重复之处不再赘述。

图15是根据一示例性实施例示出的一种姿态估计装置的框图。参照图15，本公开实施例提供的姿态估计装置1500可以包括：模型坐标值获取模块1501、目标图像获取模块1502、偏置预测模块1503、相机坐标值预测模块1504、融合坐标确定模块1505、和姿态预测模块1506。

其中，模型坐标值获取模块1501可以用于获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；目标图像获取模块1502可以用于获取目标图像，目标图像是对目标对象进行图像采集后获得的；偏置预测模块1503可以用于对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点，预测关键点与模型关键点一一对应；相机坐标值预测模块1504可以用于根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值；融合坐标确定模块1505可以用于将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值；姿态预测模块1506可以用于根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

此处需要说明的是，上述模型坐标值获取模块1501、目标图像获取模块1502、偏置预测模块1503、相机坐标值预测模块1504、融合坐标确定模块1505、和姿态预测模块1506对应于方法实施例中的S202～S212，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在一些实施例中，相机坐标值预测模块1504可以包括：语义分割子模块、位置偏置预测子模块、候选相机坐标值确定子模块、和相机坐标值预测子模块。

其中，语义分割子模块可以用于对目标图像进行语义分割，以在目标图像中的各个点中确定用于对目标对象进行描述的多个目标点；位置偏置预测子模块可以用于根据各个点相对于预测关键点的位置偏置确定各个目标点相对于预测关键点的位置偏置；候选相机坐标值确定子模块可以用于根据各个目标点相对于预测关键点的位置偏置确定预测关键点的多个候选相机坐标值；相机坐标值预测子模块可以用于根据多个候选相机坐标值确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，相机坐标值预测子模块可以用于包括：方差确定单元、高斯标准化单元、剔除单元、和相机坐标值确定单元。

其中，方差确定单元可以用于确定多个候选相机坐标值对应的坐标值均值和坐标值方差；高斯标准化单元可以用于根据坐标值均值和坐标值方差对各个候选相机坐标值分别进行高斯标准化，以便根据高斯标准化结果确定各个候选相机坐标值的收敛置信度；剔除单元可以用于将收敛置信度大于目标阈值的候选相机坐标值剔除，以获得收敛相机坐标值；相机坐标值确定单元可以用于根据收敛相机坐标值以及收敛相机坐标值的收敛置信度确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，相机坐标值确定单元可以包括：加权求和子单元。

其中，加权求和子单元可以用于以收敛置信度为权重对各个收敛相机坐标值进行加权求和处理，以确定预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，相机坐标值预测子模块可以用于包括：均值确定单元或聚类单元。

其中，均值确定单元可以用于根据多个候选相机坐标值确定坐标值均值，并将坐标值均值作为预测关键点在相机坐标系下的相机坐标值；聚类单元可以用于对多个候选相机坐标值进行聚类处理，并将聚类中心对应的坐标值作为预测关键点在相机坐标系下的相机坐标值。

在一些实施例中，目标图像是目标图像采集设备采集的，相机坐标系是根据目标图像采集设备构建的坐标系；其中，候选相机坐标值确定子模块可以包括：内参获取单元、点坐标确定单元、和相机坐标值确定单元。

其中，内参获取单元可以用于获取目标图像采集设备的内参信息；点坐标确定单元可以用于通过图像采集设备的内参信息对目标图像进行处理，以确定各个目标点在相机坐标系下的坐标值；相机坐标值确定单元可以用于根据各个目标点在相机坐标系下的坐标值和各个目标点相对于预测关键点的位置偏置，确定预测关键点的多个候选相机坐标值。

在一些实施例中，目标图像是包括目标深度图信息和目标色彩图信息的色彩深度图；其中，偏置预测模块1503可以包括：色彩特征获取子模块、深度特征获取子模块、特征融合子模块、和关键点偏置预测子模块。

其中，色彩特征获取子模块可以用于对目标色彩图信息进行特征提取以获得色彩特征；深度特征获取子模块可以用于对目标深度图信息进行特征提取以获得深度特征；特征融合子模块可以用于将色彩特征与深度特征进行特征融合，获得色彩深度融合特征；关键点偏置预测子模块可以用于对色彩深度融合特征进行关键点偏置预测，以确定目标图像中的各个点相对于预测关键点的位置偏置。

在一些实施例中，所述姿态预测模块1506包括：预测旋转平移矩阵确定子模块和姿态预测子模块。

在一些实施例中，姿态估计方法由目标网络模型执行；其中，姿态估计装置还可以包括：实际旋转平移矩阵获取模块、目标损失值确定模块、和训练模块。

其中，实际旋转平移矩阵获取模块可以用于获取模型关键点和实际关键点之间的实际旋转平移矩阵，其中实际关键点是目标图像中的目标对象在相机坐标系下的实际姿态上的关键点，模型关键点和实际关键点一一对应；目标损失值确定模块可以用于根据预测旋转平移矩阵和实际旋转平移矩阵确定目标损失值；训练模块可以用于根据目标损失值对目标网络模型进行训练。

由于装置1500的各功能已在其对应的方法实施例中予以详细说明，本公开于此不再赘述。

描述于本公开实施例中所涉及到的模块和/或子模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块和/或子模块和/或单元也可以设置在处理器中。其中，这些模块和/或子模块和/或单元的名称在某种情况下并不构成对该模块和/或子模块和/或单元本身的限定。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

图16示出了适于用来实现本公开实施例的的电子设备的结构示意图。需要说明的是，图16示出的电子设备1600仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图16所示，电子设备1600包括中央处理单元(CPU)1601，其可以根据存储在只读存储器(ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(RAM)1603中的程序而执行各种适当的动作和处理。在RAM 1603中，还存储有电子设备1600操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607；包括硬盘等的储存部分1608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入储存部分1608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备可实现功能包括：获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；获取目标图像，目标图像是对目标对象进行图像采集后获得的；对目标图像进行关键点偏置预测，确定目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，预测关键点是在相机坐标系下为目标对象预测的关键点，预测关键点与模型关键点一一对应；根据目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定预测关键点在相机坐标系下的相机坐标值；将模型关键点的模型坐标值与预测关键点的相机坐标值进行拼接，获得融合坐标值；根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

根据本公开的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例的各种可选实现方式中提供的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法，例如图2、图6、图7、图8、图9或图10中的一个或多个所示的步骤。

本领域技术人员在考虑说明书及实践在这里公开的公开后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不限于这里已经示出的详细结构、附图方式或实现方法，相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种姿态估计方法，其特征在于，包括：

获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；

获取目标图像，所述目标图像是对所述目标对象进行图像采集后获得的；

对所述目标图像进行关键点偏置预测，确定所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，所述预测关键点是在所述相机坐标系下为所述目标对象预测的关键点；

根据所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定所述预测关键点在所述相机坐标系下的相机坐标值；

将所述模型关键点的模型坐标值与所述预测关键点的相机坐标值进行拼接，获得融合坐标值；

根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

2.根据权利要求1所述方法，其特征在于，根据所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定所述预测关键点在所述相机坐标系下的相机坐标值，包括：

对所述目标图像进行语义分割，以在所述目标图像中的各个点中确定用于对所述目标对象进行描述的多个目标点；

根据所述各个点相对于所述预测关键点的位置偏置确定各个目标点相对于所述预测关键点的位置偏置；

根据所述各个目标点相对于所述预测关键点的位置偏置确定所述预测关键点的多个候选相机坐标值；

根据所述多个候选相机坐标值确定所述预测关键点在所述相机坐标系下的相机坐标值。

3.根据权利要求2所述方法，其特征在于，根据所述多个候选相机坐标值确定所述预测关键点在所述相机坐标系下的相机坐标值，包括：

确定所述多个候选相机坐标值对应的坐标值均值和坐标值方差；

根据所述坐标值均值和所述坐标值方差对各个候选相机坐标值分别进行高斯标准化，以便根据高斯标准化结果确定各个候选相机坐标值的收敛置信度；

将收敛置信度大于目标阈值的候选相机坐标值剔除，以获得收敛相机坐标值；

根据所述收敛相机坐标值以及所述收敛相机坐标值的收敛置信度确定所述预测关键点在所述相机坐标系下的相机坐标值。

4.根据权利要求3所述方法，其特征在于，根据所述收敛相机坐标值以及所述收敛相机坐标值的收敛置信度确定所述预测关键点在所述相机坐标系下的相机坐标值，包括：

以所述收敛置信度为权重对各个收敛相机坐标值进行加权求和处理，以确定所述预测关键点在所述相机坐标系下的相机坐标值。

5.根据权利要求2所述方法，其特征在于，根据所述多个候选相机坐标值确定所述预测关键点在所述相机坐标系下的相机坐标值，包括：

根据所述多个候选相机坐标值确定坐标值均值，并将所述坐标值均值作为所述预测关键点在所述相机坐标系下的相机坐标值；或者，

对所述多个候选相机坐标值进行聚类处理，并将聚类中心对应的坐标值作为所述预测关键点在所述相机坐标系下的相机坐标值。

6.根据权利要求2所述方法，其特征在于，所述目标图像是目标图像采集设备采集的，所述相机坐标系是根据所述目标图像采集设备构建的坐标系；其中，根据所述各个目标点相对于所述预测关键点的位置偏置确定所述预测关键点的多个候选相机坐标值，包括：

获取所述目标图像采集设备的内参信息；

通过所述图像采集设备的内参信息对所述目标图像进行处理，以确定所述各个目标点在所述相机坐标系下的坐标值；

根据所述各个目标点在所述相机坐标系下的坐标值和所述各个目标点相对于所述预测关键点的位置偏置，确定所述预测关键点的所述多个候选相机坐标值。

7.根据权利要求1所述方法，其特征在于，所述目标图像是包括目标深度图信息和目标色彩图信息的色彩深度图；其中，对所述目标图像进行关键点偏置预测，确定所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，包括：

对所述目标色彩图信息进行特征提取以获得色彩特征；

对所述目标深度图信息进行特征提取以获得深度特征；

将所述色彩特征与所述深度特征进行特征融合，获得色彩深度融合特征；

对所述色彩深度融合特征进行关键点偏置预测，以确定所述目标图像中的各个点相对于所述预测关键点的位置偏置。

8.根据权利要求1所述方法，其特征在于，根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态，包括：

根据所述融合坐标值确定所述模型关键点和所述预测关键点之间的预测旋转平移矩阵；

根据所述预测旋转平移矩阵对所述目标对象的模型进行旋转平移，确定所述目标对象在所述相机坐标系下的姿态。

9.根据权利要求1所述方法，其特征在于，根据所述融合坐标值确定所述模型关键点和所述预测关键点之间的预测旋转平移矩阵，包括：

通过目标卷积结构对所述融合坐标值进行特征提取以获得融合坐标特征；

通过目标分类器对所述融合坐标特征进行预测处理，以确定所述预测旋转平移矩阵。

10.根据权利要求9所述方法，其特征在于，所述预测旋转平移矩阵包括旋转矩阵，所述旋转矩阵包括第一旋转方向、第二旋转方向以及第三旋转方向；其中，通过目标分类器对所述融合坐标特征进行预测处理，以确定所述预测旋转平移矩阵，包括：

通过目标分类器对所述融合坐标特征进行预测处理，确定所述旋转矩阵在所述第一旋转方向上的第一旋转数据和在所述第二旋转方向上的第二旋转数据；

对所述第一旋转数据进行归一化处理，以获得第一旋转归一化数据；

将所述第一旋转归一化数据和所述第二旋转数据进行叉乘、并对叉乘后结果进行归一化处理，获得所述旋转矩阵在所述第三旋转方向上的第三旋转归一化数据；

将所述第一旋转归一化数据和所述第三旋转归一化数据进行叉乘，获得所述旋转矩阵在所述第二旋转方向上的第二旋转归一化数据。

11.根据权利要求1所述方法，其特征在于，所述姿态估计方法由目标网络模型执行；其中，所述姿态估计方法还包括：

获取所述模型关键点和实际关键点之间的实际旋转平移矩阵，其中所述实际关键点是所述目标图像中的所述目标对象在所述相机坐标系下的实际姿态上的关键点；

根据所述预测旋转平移矩阵和所述实际旋转平移矩阵确定目标损失值；

根据所述目标损失值对所述目标网络模型进行训练。

12.一种姿态估计装置，其特征在于，包括：

模型坐标值获取模块，用于获取目标对象的模型上的模型关键点在模型坐标系下的模型坐标值；

目标图像获取模块，用于获取目标图像，所述目标图像是对所述目标对象进行图像采集后获得的；

偏置预测模块，用于对所述目标图像进行关键点偏置预测，确定所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，所述预测关键点是在所述相机坐标系下为所述目标对象预测的关键点；

相机坐标值预测模块，用于根据所述目标图像中的各个点在相机坐标系下相对于预测关键点的位置偏置，确定所述预测关键点在所述相机坐标系下的相机坐标值；

融合坐标确定模块，用于将所述模型关键点的模型坐标值与所述预测关键点的相机坐标值进行拼接，获得融合坐标值；

姿态预测模块，用于根据所述融合坐标值和所述目标对象的模型确定所述目标对象在所述相机坐标系下的姿态。

13.一种电子设备，其特征在于，包括：

存储器；以及

耦合到所述存储器的处理器，所述处理器被用于基于存储在所述存储器中的指令，执行如权利要求1-11任一项所述的姿态估计方法。

14.一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如权利要求1-11任一项所述的姿态估计方法。

15.一种计算机程序产品，包括计算机指令，所述计算机指令存储在计算机可读存储介质中，其特征在于，所述计算机指令被处理器执行时实现权利要求1-11任一项所述方法。