CN111179419B

CN111179419B - 三维关键点预测及深度学习模型训练方法、装置及设备

Info

Publication number: CN111179419B
Application number: CN201911414537.1A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-09-05
Anticipated expiration: 2039-12-31
Also published as: CN111179419A

Abstract

本申请实施例提供了三维关键点预测及深度学习模型训练方法、装置及设备，该方法包括：获取包含待检测对象的RGB图像及深度图像；基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像；利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。利用深度学习模型对待检测对象的RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，相比于仅对二维关键点信息进行分析，能够从RGB图像、热度图像及深度图像中获取除二维关键点信息外的其他用于预测三维关键点信息的数据，从而能够提高三维关键点信息预测的准确性。

Description

三维关键点预测及深度学习模型训练方法、装置及设备

技术领域

本申请涉及计算机技术领域，特别是涉及三维关键点预测及深度学习模型训练方法、装置及设备。

背景技术

随着计算机视觉技术的发展，特别是深度学习算法的出现，基于图像的人工智能技术快速崛起。

3D(Dimension，维度)关键点的识别是计算机视觉领域中的一个分支算法，可用于人体意图识别，人体3D重建，人体动作捕捉等应用。随着深度学习算法的发展，2D关键点算法逐渐成熟，但在预测人体的3D关键点任务上，仍存在很多问题。

现有利用2D图像提取3D关键点的技术中，首先对2D图像进行分析获取2D关键点，然后通过将2D关键点的坐标信息输入到预先训练的深度学习算法中去预测3D关键点的位置坐标，但是因为2D关键点本身包含的信息有限，导致3D关键点信息的预测准确性差。

发明内容

本申请实施例的目的在于提供一种三维关键点预测及深度学习模型训练方法、装置及设备，以实现提高3D关键点信息预测的准确度。具体技术方案如下：

第一方面，本申请实施例提供了一种三维关键点预测方法，所述方法包括：

获取包含待检测对象的RGB图像及深度图像；

基于所述RGB图像，得到所述待检测对象的二维关键点信息及每个二维关键点对应的热度图像；

利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值。

在一种可能的实施方式中，所述利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值，包括：

利用预先训练的深度学习模型，对所述RGB图像的矩阵及所述热度图像的矩阵进行拼接，得到目标拼接矩阵；

对所述目标拼接矩阵进行特征提取，得到初始图像特征；

对所述初始图像特征进行维度变换，得到目标图像特征；

根据所述深度图像及所述二维关键点信息，获取所述二维关键点信息中各关键点的深度信息，并对各所述关键点的深度信息进行特征提取，得到目标深度特征；

对所述二维关键点信息进行特征提取，得到目标关键点特征；

对所述目标图像特征、所述目标深度特征及所述目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到所述待检测对象的三维关键点信息的预测值。

第二方面，本申请实施例提供了一种深度学习模型训练方法，所述方法包括：

获取待训练的深度学习模型；

在预设样本集合中选取一组样本图像组，其中，所述样本图像组包括样本RGB图像、样本深度图像、样本二维关键点信息、每个样本二维关键点对应的样本热度图像及真值三维关键点信息，所述样本二维关键点信息通过对所述样本RGB图像进行二维关键点检测得到；

利用所述深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息；

根据所述真值三维关键点信息及所述预设三维关键点信息，计算所述深度学习模型的当前损失；

在所述深度学习模型的当前损失未收敛时，按照所述当前损失，调整所述深度学习模型的参数，并在所述预设样本集合中选取一组样本图像组继续训练，直至所述深度学习模型的损失收敛，得到训练好的深度学习模型。

在一种可能的实施方式中，所述利用所述深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息，包括：

利用预先训练的深度学习模型，对所述样本RGB图像的矩阵及所述样本热度图像的矩阵进行拼接，得到样本拼接矩阵；

对所述样本拼接矩阵进行特征提取，得到初始样本图像特征；

对所述初始样本图像特征进行维度变换，得到目标样本图像特征；

根据所述样本深度图像及所述样本二维关键点信息，获取所述样本二维关键点信息中各关键点的深度信息，并对各所述关键点的深度信息进行特征提取，得到目标样本深度特征；

对所述样本二维关键点信息进行特征提取，得到目标样本关键点特征；

对所述目标样本图像特征、所述目标样本深度特征及所述目标样本关键点特征进行拼接，并利用拼接后的特征进行预测，得到预测三维关键点信息。

在一种可能的实施方式中，所述根据所述真值三维关键点信息及所述预设三维关键点信息，计算所述深度学习模型的当前损失，包括：

对所述预测三维关键点信息进行投影，得到预测二维关键点信息；

基于所述样本二维关键点信息及所述预测二维关键点信息，计算二维关键点损失；

基于所述真值三维关键点信息及所述预测三维关键点信息，计算三维关键点损失；

基于所述二维关键点损失及所述三维关键点损失，计算所述深度学习模型的当前损失。

在一种可能的实施方式中，所述基于所述二维关键点损失及所述三维关键点损失，计算所述深度学习模型的当前损失，包括：

利用预设二维关键点权重乘以所述二维关键点损失，利用预设三维关键点权重乘以所述三维关键点损失，并对得到的乘积求和，得到所述深度学习模型的当前损失。

第三方面，本申请实施例提供了一种三维关键点预测装置，所述装置包括：

图像数据获取单元，用于获取包含待检测对象的RGB图像及深度图像；

图像数据转换单元，用于基于所述RGB图像，得到所述待检测对象的二维关键点信息及每个二维关键点对应的热度图像；

三维关键点预测单元，用于利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值。

在一种可能的实施方式中，所述三维关键点预测单元，具体用于：利用预先训练的深度学习模型，对所述RGB图像的矩阵及所述热度图像的矩阵进行拼接，得到目标拼接矩阵；对所述目标拼接矩阵进行特征提取，得到初始图像特征；对所述初始图像特征进行维度变换，得到目标图像特征；根据所述深度图像及所述二维关键点信息，获取所述二维关键点信息中各关键点的深度信息，并对各所述关键点的深度信息进行特征提取，得到目标深度特征；对所述二维关键点信息进行特征提取，得到目标关键点特征；对所述目标图像特征、所述目标深度特征及所述目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到所述待检测对象的三维关键点信息的预测值。

第四方面，本申请实施例提供了一种深度学习模型训练装置，所述装置包括：

初始模型获取单元，用于获取待训练的深度学习模型；

样本图像组获取单元，用于在预设样本集合中选取一组样本图像组，其中，所述样本图像组包括样本RGB图像、样本深度图像、样本二维关键点信息、每个样本二维关键点对应的样本热度图像及真值三维关键点信息，所述样本二维关键点信息通过对所述样本RGB图像进行二维关键点检测得到；

关键点信息预测单元，用于利用所述深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息；

模型损失计算单元，用于根据所述真值三维关键点信息及所述预设三维关键点信息，计算所述深度学习模型的当前损失；

深度学习模型获取单元，用于在所述深度学习模型的当前损失未收敛时，按照所述当前损失，调整所述深度学习模型的参数，并在所述预设样本集合中选取一组样本图像组继续训练，直至所述深度学习模型的损失收敛，得到训练好的深度学习模型。

在一种可能的实施方式中，所述关键点信息预测单元，具体用于：利用预先训练的深度学习模型，对所述样本RGB图像的矩阵及所述样本热度图像的矩阵进行拼接，得到样本拼接矩阵；对所述样本拼接矩阵进行特征提取，得到初始样本图像特征；对所述初始样本图像特征进行维度变换，得到目标样本图像特征；根据所述样本深度图像及所述样本二维关键点信息，获取所述样本二维关键点信息中各关键点的深度信息，并对各所述关键点的深度信息进行特征提取，得到目标样本深度特征；对所述样本二维关键点信息进行特征提取，得到目标样本关键点特征；对所述目标样本图像特征、所述目标样本深度特征及所述目标样本关键点特征进行拼接，并利用拼接后的特征进行预测，得到预测三维关键点信息。

在一种可能的实施方式中，所述模型损失计算单元，包括：

关键点投影子单元，用于对所述预测三维关键点信息进行投影，得到预测二维关键点信息；

二维损失计算子单元，用于基于所述样本二维关键点信息及所述预测二维关键点信息，计算二维关键点损失；

三维损失计算子单元，用于基于所述真值三维关键点信息及所述预测三维关键点信息，计算三维关键点损失；

模型损失计算子单元，用于基于所述二维关键点损失及所述三维关键点损失，计算所述深度学习模型的当前损失。

在一种可能的实施方式中，所述模型损失计算子单元，具体用于：利用预设二维关键点权重乘以所述二维关键点损失，利用预设三维关键点权重乘以所述三维关键点损失，并对得到的乘积求和，得到所述深度学习模型的当前损失。

第五方面，本申请实施例提供了一种电子设备，包括处理器及存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的三维关键点预测方法。

第六方面，本申请实施例提供了一种电子设备，包括处理器及存储器；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的深度学习模型训练方法。

在本申请实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的三维关键点预测方法。

在本申请实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的度学习模型训练方法。

在本申请实施例的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的三维关键点预测方法。

在本申请实施例的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的度学习模型训练方法。

本申请实施例提供的三维关键点预测及深度学习模型训练方法、装置及设备，获取包含待检测对象的RGB图像及深度图像；基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像；利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。利用预先训练的深度学习模型对待检测对象的RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，相比于仅对二维关键点信息进行分析，能够从RGB图像、热度图像及深度图像中获取除二维关键点信息外的其他用于预测三维关键点信息的数据，从而能够提高三维关键点信息预测的准确性。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的三维关键点预测方法的第一种示意图；

图2为本申请实施例的三维关键点预测方法的第二种示意图；

图3为本申请实施例的三维关键点预测方法的第三种示意图；

图4为本申请实施例的预测三维关键点信息的方法的一种示意图；

图5为本申请实施例的深度学习模型训练方法的第一种示意图；

图6为本申请实施例的深度学习模型的一种示意图；

图7为本申请实施例的预测三维关键点信息的方法的另一种示意图；

图8为本申请实施例的计算深度学习模型当前损失的一种示意图；

图9为本申请实施例的深度学习模型训练方法的第二种示意图；

图10为本申请实施例的三维关键点预测装置的第一种示意图；

图11为本申请实施例的深度学习模型训练装置的一种示意图；

图12为本申请实施例的模型损失计算单元的一种示意图；

图13为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高预测的3D关键点信息的准确度，本申请实施例提供了一种三维关键点预测方法，该方法包括：获取包含待检测对象的RGB图像及深度图像；基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像；利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。

在本申请实施例中，利用预先训练的深度学习模型对待检测对象的RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，相比于仅对二维关键点信息进行分析，能够从RGB图像、热度图像及深度图像中获取除二维关键点信息外的其他用于预测三维关键点信息的数据，从而能够提高三维关键点信息预测的准确性。

下面进行具体说明：

参见图1，图1为本申请实施例的一种三维关键点预测方法的示意图，该方法包括：

S11，获取包含待检测对象的RGB图像及深度图像。

本申请实施例的三维关键点预测方法可以通过电子设备实现，具体的，该电子设备可以为服务器、个人计算机或智能手机等。

待检测对象为需要预测三维关键点的对象，例如待检测对象可以为人体、动物或车辆等。深度图像表示待检测对象的深度信息。待检测对象在RGB图像及深度图像中的姿势及位置均相同，为了保证待检测对象在RGB图像及深度图像中的位置及姿态均相同，可以在同一位置及角度，同时采集待检测对象的RGB图像及深度图像。本领域技术人员可以理解的是，因为图像采集设备体积的关系，两个设备的光轴不会完全重合，可以通过相关坐标计算方法，将RGB图像及深度图像转化到同一采集位置即可。

S12，基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像。

通过预设二维关键点检测技术对RGB图像进行分析，得到待检测对象的二维关键点信息。预设二维关键点检测技术可以为CPM(Convolutional Pose Machines，卷积姿态机)，CPN(Cascaded Pyramid Network，级联金字塔网络)，PoseNet，OpenPose等二维关键点识别技术。根据二维关键点信息，利用相关的热度图像转换技术，例如，采用高斯热度图的生成方式等，得到各二维关键点对应的热度图像。

S13，利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。

利用预先训练的深度学习模型对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，结合RGB图像中待检测对象的光学信息、二维关键点信息中待检测对象的二维关键点信息、深度图像中待检测对象的深度信息及热度图像中待检测对象的热度信息，预测待检测对象的三维关键点信息。具体的，待检测对象的三维关键点信息可以为待检测对象关键点的三维坐标，或待检测对象的三维关键点图像等。

预先训练的深度学习模型的架构可以根据实际情况进行设定，例如该深度学习模型可以包括四个特征提取网络及一个预测网络，四个特征提取网络分别提取RGB图像、二维关键点信息、深度图像及热度图像的特征，预测网络对提取的四个特征进行融合分析，从而得到待检测对象的三维关键点信息。

考虑到采用四个特征提取网络会导致深度学习模型的复杂度高，数据量及计算量大，本申请实施例中的深度学习模型可以采用三个特征提取网络，即图像特征提取网络、二维关键点特征提取网络、深度特征提取网络。

在一种可能的实施方式中，参见图2，上述利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值，包括：

S131，对RGB图像及热度图像进行关联分析，得到目标图像特征。

图像特征提取网络可以包括卷积层及池化层，利用深度学习模型的图像特征提取网络，提取RGB图像及热度图像中的目标图像特征。

S132，根据深度图像及二维关键点信息，获取二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标深度特征。

深度特征提取网络可以包括一个全连接网络，该全连接网络由多个全连接层组成，利用深度学习模型的深度特征提取网络，根据深度图像及二维关键点信息，获取各关键点深度信息，并对各关键点深度信息进行特征提取，得到目标深度特征。

S133，对二维关键点信息进行特征提取，得到目标关键点特征。

二维关键点特征提取网络具体可以为一个全连接网络，由多个全连接层组成，利用深度学习模型的二维关键点特征提取网络，提取二维关键点信息的目标关键点特征。例如，二维关键点信息的维度为2×K，经过全连接网络，输出维度为1×1×chs2目标关键点特征，其中，K表示二维关键点信息的通道数为K，即二维关键点的个数，chs2为目标关键点特征的通道数。

S134，对目标图像特征、目标深度特征及目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到待检测对象的三维关键点信息的预测值。

三维关键点信息输出网络可以包括多个全连接层，利用深度学习模型的三维关键点信息输出网络，基于目标图像特征、目标深度特征及目标关键点特征，得到待检测对象的三维关键点信息。

目标图像特征既包括RGB图像中待检测对象的光学信息，又包括热度图像中待检测对象的热度信息。目标深度特征包括各关键点的深度信息。目标关键点特征包括二维关键点信息中待检测对象的二维关键点信息。结合待检测对象的光学信息、热度信息、各关键点的深度信息及二维关键点信息，预测得到待检测对象的三维关键点信息。

在本申请实施例中，利用深度学习模型的图像特征提取网络对RGB图像及热度图像进行关联分析，得到目标图像特征，相比于利用两个特征提取网络分别提取RGB图像及热度图像的图像特征，能够减少计算复杂度，节约计算资源，并且能够减少深度学习模型的复杂程度。

在一种可能的实施方式中，参见图3，上述对RGB图像及热度图像进行关联分析，得到目标图像特征，包括：

S1311，利用预先训练的深度学习模型，对RGB图像的矩阵及热度图像的矩阵进行拼接，得到目标拼接矩阵。

深度学习模型的图像特征提取网络可以包括图像拼模块、特征提取模块及特征变换模块；利用图像特征提取网络的图像拼模块，将RGB图像及热度图像均调整为指定的分辨率大小，指定的分辨率大小与深度学习模型训练过程中使用的样本RGB图像及样本热度图像的分辨率大小相同。当RGB图像与热度图像分辨率大小相同时，可以直接对RGB图像及热度图像进行拼接，得到目标拼接矩阵。

例如，指定的分辨率大小为W×H，则RGB图像的矩阵可以表示为W×H×3，热度图像的矩阵可以表示为W×H×K，其中，3表示RGB图像的通道数为3，即R(Red，红)、G(Green，绿)、B(Blue，蓝)三个通道，K表示热度图像的通道数为K，即二维关键点的个数，则目标拼接矩阵可以为W×H×(3+K)。

S1312，对目标拼接矩阵进行特征提取，得到初始图像特征。

特征提取模块具体可以为特征提取网络，可以由多个卷积层组成。将目标拼接矩阵输入到图像特征提取网络的特征提取模块，特征提取模块的输出强化了二维关键点信息的初始图像特征，其维度为其中s为特征提取模块的Stride参数，chs1为提取的初始图像特征的通道数。

S1313，对初始图像特征进行维度变换，得到目标图像特征。

特征变换模块具体可以为池化层。将初始图像特征输入到图像特征提取网络的特征变换模块，得到维度为1×1×chs2的目标图像特征，其中，chs2为目标图像特征的通道数。

在一种可能的实施方式中，参见图4，上述对目标图像特征、目标深度特征及目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到待检测对象的三维关键点信息的预测值，包括：

S1341，将目标图像特征、目标深度特征及目标关键点特征进行拼接，得到目标拼接特征。

三维关键点信息输出网络可以包括特征拼模块及全连接层模块；目标深度特征及目标关键点特征的维度数均可以为1×1×chs2，利用三维关键点信息输出网络的特征拼模块，将目标图像特征、目标深度特征及目标关键点特征进行拼接，得到维度为1×1×(chs2×3)的目标拼接特征。

S1342，对目标拼接特征进行处理，得到待检测对象的三维关键点信息的预测值。

全连接层模块可以为一个全连接网络，由多个全连接层组成，利用三维关键点信息输出网络的全连接层模块，对拼接特征进行分析，得到待检测对象的三维关键点信息的预测值。

本申请实施例还提供了一种深度学习模型训练方法，参见图5，该方法包括：

S51，获取待训练的深度学习模型。

本申请实施例的深度学习模型训练方法可以通过电子设备实现，具体的，该电子设备可以为服务器或个人电脑等。

深度学习模型可以包括图像特征提取网络、二维关键点特征提取网络、深度特征提取网络及三维关键点信息输出网络；特征提取网络用于对输入的RGB图像及热度图像进行关联分析，输出目标图像特征；二维关键点特征提取网络用于对输入的二维关键点信息进行分析，输出目标关键点特征；深度特征提取网络用于对输入的二维关键点信息及深度图像进行关联分析，输出目标深度特征；三维关键点信息输出网络用于对输入的目标图像特征、目标深度特征及目标关键点特征进行关联分析，输出三维关键点信息。

S52，在预设样本集合中选取一组样本图像组，其中，样本图像组包括样本RGB图像、样本深度图像、样本二维关键点信息、每个样本二维关键点对应的样本热度图像及真值三维关键点信息，样本二维关键点信息通过对样本RGB图像进行二维关键点检测得到。

样本RGB图像中包括样本对象，样本对象为希望预测三维关键点信息的对象，例如，可以为人体、动物或汽车等。同一样本图像组中样本二维关键点信息是基于该组中的样本RGB图像得到的。具体的，可以根据样本RGB图像利用二维关键点检测技术得到样本二维关键点信息，采用高斯热度图的生成方式得到样本二维关键点信息中的各样本二维关键点对应的样本热度图像。当然样本二维关键点信息也可以由真值三维关键点信息投影得到。同一样本图像组中，同一样本图像组中，真值三维关键点信息、样本深度图像与样本RGB图像相对于样本对象的采集位置及视角均相同，样本对象在样本RGB图像、真值三维关键点信息及样本深度图像中的位置及姿态均相同。

S53，利用深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息。

将样本RGB图像及样本热度图像输入到图像特征提取网络中，将样本二维关键点信息输入到二维关键点特征提取网络中，将样本二维关键点信息及样本深度图像输入到深度特征提取网络中，通过三维关键点信息输出网络，得到预测三维关键点信息。

S54，根据真值三维关键点信息及预设三维关键点信息，计算深度学习模型的当前损失。

可以利用相关技术中三维关键点损失的计算方法，计算三维关键点损失，例如，可以计算真值三维关键点信息及预测三维关键点信息中各相对应的三维关键点差异的期望，作为三维关键点损失。

S55，在深度学习模型的当前损失未收敛时，按照当前损失，调整深度学习模型的参数，并在预设样本集合中选取一组样本图像组继续训练，直至深度学习模型的损失收敛，得到训练好的深度学习模型。

在深度学习模型的当前损失未收敛时，将当前损失反向传导至网络，以减少当前损失为调整目标，对深度学习模型的参数进行更新，然后选取下一组样本图像组继续训练。具体的，可以通过反向传播算法求当前损失对深度学习模型中各参数的导数，然后通过随机梯度下降算法更新深度学习模型的中各参数。在深度学习模型的损失收敛时，则得到训练好的深度学习模型。

本申请实施例中，给出了深度学习模型的训练方法，利用深度学习模型对样本RGB图像、样本热度图像、样本深度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息，能够从RGB图像、深度图像及热度图像中获取除二维关键点信息外的其他用于预测三维关键点信息的数据，从而能够提高三维关键点信息预测的准确性。

在一种可能的实施方式中，本申请实施例的深度学习模型具体可以如图6所示，图像特征提取网络(图中为示出)包括图像拼模块、特征提取模块及特征变换模块，深度特征提取网络(图中为示出)包括关键点深度提取模块及全连接模块1，二维关键点特征提取网络(图中为示出)包括全连接模块2，三维关键点信息输出网络(图中为示出)包括特征拼模块及全连接层模块3。

图像拼模块用于对RGB图像及热度图像进行拼接，得到拼接矩阵。特征提取模块具体可以为特征提取网络，可以由多个卷积层组成。特征提取模块用于对拼接矩阵进行特征提取，得到初始图像特征。特征变换模块具体可以为池化层用于初始图像特征进行变换，得到目标图像特征。关键点深度提取模块用于根据二维关键点信息及深度图像，获取各二维关键点的深度信息。全连接模块1具体可以为全连接网络，由多个全连接层构成，用于对输入的二维关键点的深度信息进行分析，得到并输出目标深度特征。全连接模块2具体可以为全连接网络，由多个全连接层构成，用于对输入的二维关键点信息进行分析，得到并输出关键点特征。特征拼模块用于将目标图像特征及关键点特征进行拼接，得到拼接特征。全连接层模块3具体可以为全连接网络，由多个全连接层构成，用于对拼接特征进行处理，得到并输出上预测三维关键点信息。

本申请实施例中，给出了深度学习模型的训练方法，利用深度学习模型的图像特征提取网络对RGB图像及热度图像进行关联分析，得到目标图像特征，相比于利用两个特征提取网络分别提取RGB图像及热度图像的图像特征，能够减少计算复杂度，节约计算资源，并且能够减少深度学习模型的复杂程度。

在一种可能的实施方式中，参见图7，上述利用深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息，包括：

S531，利用预先训练的深度学习模型，对样本RGB图像的矩阵及样本热度图像的矩阵进行拼接，得到样本拼接矩阵。

S532，对样本拼接矩阵进行特征提取，得到初始样本图像特征。

S533，对初始样本图像特征进行维度变换，得到目标样本图像特征。

S534，根据样本深度图像及样本二维关键点信息，获取样本二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标样本深度特征。

S535，对样本二维关键点信息进行特征提取，得到目标样本关键点特征。

S536，对目标样本图像特征、目标样本深度特征及目标样本关键点特征进行拼接，并利用拼接后的特征进行预测，得到预测三维关键点信息。

在一种可能的实施方式中，参见图8，上述根据真值三维关键点信息及预设三维关键点信息，计算深度学习模型的当前损失，包括：

S541，对预测三维关键点信息进行投影，得到预测二维关键点信息。

例如图9所示，可以利用样本RGB图像得到样本二维关键点信息，当然样本二维关键点信息也可以由真值三维关键点信息投影得到，然后由样本二维关键点信息可以变换得到样本热度图像。将样本RGB图像、样本热度图像及样本二维关键点信息输入的到深度学习模型中，得到预测三维关键点信息。将预测三维关键点信息进行二维投影，例如，提取预测三维关键点信息中各关键点的X、Y坐标，得到预测二维关键点信息。

S542，基于样本二维关键点信息及预测二维关键点信息，计算二维关键点损失。

样本二维关键点信息中二维关键点信息与预测二维关键点信息之间的差异越大，表示二维关键点损失越大。例如图9所示，可以利用相关技术中二维关键点损失的计算方法，计算二维关键点损失，例如，可以计算样本二维关键点信息各关键点与预测二维关键点信息中相应关键点差异的期望，作为二维关键点损失。

S543，基于真值三维关键点信息及预测三维关键点信息，计算三维关键点损失。

真值三维关键点信息与预测三维关键点信息之间的差异越大三维关键点损失越大。例如图9所示，可以利用相关技术中三维关键点损失的计算方法，计算三维关键点损失，例如，可以计算真值三维关键点信息及预测三维关键点信息中各相对应的三维关键点差异的期望，作为三维关键点损失。

S544，基于二维关键点损失及三维关键点损失，计算深度学习模型的当前损失。

深度学习模型的当前损失由例如二维关键点损失及三维关键点损失共同表示，在计算得到深度学习模型的当前损失后，例如图9所示，将深度学习模型的当前损失反向传导至网络，以减少当前损失为调整目标，对深度学习模型参数的进行更新。

在本申请实施例中，结合二维关键点损失及三维关键点损失得到当前损失，利用当前损失指导深度学习模型的参数调整，能够增强相机视角的推理能，让用户感受更直观，能够减少Z轴预测对X、Y轴结果的影响。

在一种可能的实施方式中，上述基于二维关键点损失及三维关键点损失，计算深度学习模型的当前损失，包括：

利用预设二维关键点权重乘以二维关键点损失，利用预设三维关键点权重乘以三维关键点损失，并对得到的乘积求和，得到深度学习模型的当前损失。

例如，当前损失可以表示为Loss_total＝α×Loss_2d+β×Loss_3d，其中，α及β分别为预设二维关键点权重及预设三维关键点权重，Loss_2d为二维关键点损失，Loss_3d为三维关键点损失，Loss_total为当前损失。

在可选的，预设二维关键点权重大于预设三维关键点权重，即α>β。经过发明人的研究发现，在预设二维关键点权重大于预设三维关键点权重时，预测三维关键点信息转化为三维关键点图像后，其视觉效果与真实视觉效果更加接近。

本申请实施例还提供了一种三维关键点预测装置，参见图10，该装置包括：

图像数据获取单元701，用于获取包含待检测对象的RGB图像及深度图像。

图像数据转换单元702，用于基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像。

三维关键点预测单元703，用于利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。

在一种可能的实施方式中，三维关键点预测单元703，具体用于：利用预先训练的深度学习模型，对RGB图像的矩阵及热度图像的矩阵进行拼接，得到目标拼接矩阵；对目标拼接矩阵进行特征提取，得到初始图像特征；对初始图像特征进行维度变换，得到目标图像特征；根据深度图像及二维关键点信息，获取二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标深度特征；对二维关键点信息进行特征提取，得到目标关键点特征；对目标图像特征、目标深度特征及目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到待检测对象的三维关键点信息的预测值。

本申请实施例还提供了一种深度学习模型训练装置，参见图11，该装置包括：

初始模型获取单元801，用于获取待训练的深度学习模型；

样本图像组获取单元802，用于在预设样本集合中选取一组样本图像组，其中，样本图像组包括样本RGB图像、样本深度图像、样本二维关键点信息、每个样本二维关键点对应的样本热度图像及真值三维关键点信息，样本二维关键点信息通过对样本RGB图像进行二维关键点检测得到；

关键点信息预测单元803，用于利用深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息；

模型损失计算单元804，用于根据真值三维关键点信息及预设三维关键点信息，计算深度学习模型的当前损失；

深度学习模型获取单元805，用于在深度学习模型的当前损失未收敛时，按照当前损失，调整深度学习模型的参数，并在预设样本集合中选取一组样本图像组继续训练，直至深度学习模型的损失收敛，得到训练好的深度学习模型。

在一种可能的实施方式中，关键点信息预测单元803，具体用于：利用预先训练的深度学习模型，对样本RGB图像的矩阵及样本热度图像的矩阵进行拼接，得到样本拼接矩阵；对样本拼接矩阵进行特征提取，得到初始样本图像特征；对初始样本图像特征进行维度变换，得到目标样本图像特征；根据样本深度图像及样本二维关键点信息，获取样本二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标样本深度特征；对样本二维关键点信息进行特征提取，得到目标样本关键点特征；对目标样本图像特征、目标样本深度特征及目标样本关键点特征进行拼接，并利用拼接后的特征进行预测，得到预测三维关键点信息。

在一种可能的实施方式中，参见图12，模型损失计算单元804，包括：

关键点投影子单元8041，用于对预测三维关键点信息进行投影，得到预测二维关键点信息；

二维损失计算子单元8042，用于基于样本二维关键点信息及预测二维关键点信息，计算二维关键点损失；

三维损失计算子单元8043，用于基于真值三维关键点信息及预测三维关键点信息，计算三维关键点损失；

模型损失计算子单元8044，用于基于二维关键点损失及三维关键点损失，计算深度学习模型的当前损失。

在一种可能的实施方式中，模型损失计算子单元8044，具体用于：利用预设二维关键点权重乘以二维关键点损失，利用预设三维关键点权重乘以三维关键点损失，并对得到的乘积求和，得到深度学习模型的当前损失。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；上述存储器，用于存放计算机程序；上述处理器用于执行上述存储器存放的计算机程序时，实现如下步骤：

获取包含待检测对象的RGB图像及深度图像；基于RGB图像，得到待检测对象的二维关键点信息及每个二维关键点对应的热度图像；利用预先训练的深度学习模型，对RGB图像、二维关键点信息、深度图像及热度图像进行关联分析，得到待检测对象的三维关键点信息的预测值。

可选的，参见图13，本申请实施例的电子设备还包括通信接口902和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

可选的，上述处理器用于执行上述存储器存放的计算机程序时，还能够实现上述任一三维关键点预测方法。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；上述存储器，用于存放计算机程序；上述处理器用于执行上述存储器存放的计算机程序时，实现上述任一深度学习模型训练方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一三维关键点预测方法。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一深度学习模型训练方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的三维关键点预测方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的度学习模型训练方法。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种三维关键点预测方法，其特征在于，所述方法包括：

获取包含待检测对象的RGB图像及深度图像；

利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值；

所述利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值，包括：

对所述目标拼接矩阵进行特征提取，得到初始图像特征；

对所述初始图像特征进行维度变换，得到目标图像特征；

2.一种深度学习模型训练方法，其特征在于，所述方法包括：

获取待训练的深度学习模型；

根据所述真值三维关键点信息及所述预测三维关键点信息，计算所述深度学习模型的当前损失；

在所述深度学习模型的当前损失未收敛时，按照所述当前损失，调整所述深度学习模型的参数，并在所述预设样本集合中选取一组样本图像组继续训练，直至所述深度学习模型的损失收敛，得到训练好的深度学习模型；

所述利用所述深度学习模型，对当前选取的样本RGB图像、样本深度图像、样本热度图像及样本二维关键点信息进行关联分析，得到预测三维关键点信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述真值三维关键点信息及所述预测三维关键点信息，计算所述深度学习模型的当前损失，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述二维关键点损失及所述三维关键点损失，计算所述深度学习模型的当前损失，包括：

5.一种三维关键点预测装置，其特征在于，所述装置包括：

三维关键点预测单元，用于利用预先训练的深度学习模型，对所述RGB图像、所述二维关键点信息、所述深度图像及所述热度图像进行关联分析，得到所述待检测对象的三维关键点信息的预测值；

所述三维关键点预测单元，具体用于：利用预先训练的深度学习模型，对RGB图像的矩阵及热度图像的矩阵进行拼接，得到目标拼接矩阵；对目标拼接矩阵进行特征提取，得到初始图像特征；对初始图像特征进行维度变换，得到目标图像特征；根据深度图像及二维关键点信息，获取二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标深度特征；对二维关键点信息进行特征提取，得到目标关键点特征；对目标图像特征、目标深度特征及目标关键点特征进行拼接，并利用拼接后的特征进行预测，得到待检测对象的三维关键点信息的预测值。

6.一种深度学习模型训练装置，其特征在于，所述装置包括：

初始模型获取单元，用于获取待训练的深度学习模型；

模型损失计算单元，用于根据所述真值三维关键点信息及所述预测三维关键点信息，计算所述深度学习模型的当前损失；

深度学习模型获取单元，用于在所述深度学习模型的当前损失未收敛时，按照所述当前损失，调整所述深度学习模型的参数，并在所述预设样本集合中选取一组样本图像组继续训练，直至所述深度学习模型的损失收敛，得到训练好的深度学习模型；

所述关键点信息预测单元，具体用于：利用预先训练的深度学习模型，对样本RGB图像的矩阵及样本热度图像的矩阵进行拼接，得到样本拼接矩阵；对样本拼接矩阵进行特征提取，得到初始样本图像特征；对初始样本图像特征进行维度变换，得到目标样本图像特征；根据样本深度图像及样本二维关键点信息，获取样本二维关键点信息中各关键点的深度信息，并对各关键点的深度信息进行特征提取，得到目标样本深度特征；对样本二维关键点信息进行特征提取，得到目标样本关键点特征；对目标样本图像特征、目标样本深度特征及目标样本关键点特征进行拼接，并利用拼接后的特征进行预测，得到预测三维关键点信息。

7.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1所述的三维关键点预测方法。

8.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求2-4任一所述的深度学习模型训练方法。