CN116453222A

CN116453222A - 目标对象姿态确定方法、训练方法、装置以及存储介质

Info

Publication number: CN116453222A
Application number: CN202310423104.2A
Authority: CN
Inventors: 吕以豪; 卢飞翔; 李龙腾; 张良俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-18

Abstract

本公开提供了目标对象姿态确定方法、训练方法、装置以及存储介质，涉及图像处理技术领域，尤其涉计算机视觉技术领域和深度学习技术领域。该目标对象姿态确定方法的具体实现方案为：检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置；根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置；以及根据关键点像素位置，确定目标对象的目标对象姿态。

Description

目标对象姿态确定方法、训练方法、装置以及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉计算机视觉技术领域和深度学习技术领域。

背景技术

随着科技的发展，在运动康复评估、运动训练效果评估等应用场景中，可以基于图像处理技术对康复人员或运动员等目标对象的动作姿态图像进行处理，以便于根据检测到的人体动作姿态，评估康复人员的恢复情况，或者评估运动员的训练效果。

发明内容

本公开提供了一种目标对象姿态确定方法、训练方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种目标对象姿态确定方法，包括：检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置；根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置；以及根据关键点像素位置，确定目标对象的目标对象姿态。

根据本公开的另一方面，提供了一种深度学习模型的训练方法，包括：获取训练样本，训练样本包括与样本目标对象相关的样本初始图像、与样本初始图像对应的标签，以及样本虚拟装置属性参数，标签包括标签第一关键点位置和标签关键点像素位置；将样本初始图像输入初始深度学习模型，输出样本第一关键点位置，样本第一关键点位置表征样本目标对象的关键点在三维空间中的位置；根据样本虚拟装置属性参数和样本第一关键点位置，确定与关键点对应的样本关键点像素位置；以及根据样本关键点像素位置、样本第一关键点位置、标签第一关键点位置和标签关键点像素位置，训练初始深度学习模型，得到训练后的深度学习模型。

根据本公开的另一方面，提供了一种目标对象姿态确定装置，包括：第一关键点位置获得模块，用于检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置；关键点像素位置确定模块，用于根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置；以及目标对象姿态确定模块，用于根据关键点像素位置，确定目标对象的目标对象姿态。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：训练样本获取模块，用于获取训练样本，训练样本包括与样本目标对象相关的样本初始图像、与样本初始图像对应的标签，以及样本虚拟装置属性参数，标签包括标签第一关键点位置和标签关键点像素位置；样本第一关键点位置获得模块，用于将样本初始图像输入初始深度学习模型，输出样本第一关键点位置，样本第一关键点位置表征样本目标对象的关键点在三维空间中的位置；样本关键点像素位置确定模块，用于根据样本虚拟装置属性参数和样本第一关键点位置，确定与关键点对应的样本关键点像素位置；以及训练模块，用于根据样本关键点像素位置、样本第一关键点位置、标签第一关键点位置和标签关键点像素位置，训练初始深度学习模型，得到训练后的深度学习模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据本公开实施例提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开实施例提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用目标对象姿态确定方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的目标对象姿态确定方法的流程图；

图3示意性示出了根据本公开实施例的目标对象姿态确定方法的原理图；

图4示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图；

图5示意性示出了根据本公开实施例的目标对象姿态确定装置的框图；

图6示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；以及

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

通常的人体姿态估计算法可以回归得到人体的三维关键点或者人体的二维关键点热力图，但是难以准确地在二维空间中表征人体姿态，导致人体姿态检测的效率较低。

本公开的实施例提供了目标对象姿态确定方法、训练方法、装置、电子设备、存储介质以及计算机程序产品。该目标对象姿态确定方法包括：检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置；根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置；以及根据关键点像素位置，确定目标对象的目标对象姿态。

根据本公开的实施例，通过根据表征目标对象在三维空间中的关键点的第一关键点位置，来生成对应的关键点像素位置，可以使关键点像素位置对应的像素准确地表征目标对象的关键点位置，从而可以根据关键点像素位置对应的像素来精确地表征目标对象姿态，提升二维图像表征目标对象姿态的准确程度。这样可以使用户通过基于关键点像素位置生成的目标对象姿态来便捷地进行姿态分析，同时降低渲染得到目标对象姿态展示结果的计算开销，便于用户通过算力较低的电子设备查看展示结果，提升用户查看或分析展示结果的便捷性。

图1示意性示出了根据本公开实施例的可以应用目标对象姿态确定方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用目标对象姿态确定方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的目标对象姿态确定方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的目标对象姿态确定方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的目标对象姿态确定装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的目标对象姿态确定方法一般也可以由服务器105执行。相应地，本公开实施例所提供的目标对象姿态确定装置一般可以设置于服务器105中。本公开实施例所提供的目标对象姿态确定方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的目标对象姿态确定装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的目标对象姿态确定方法的流程图。

如图2所示，该目标对象姿态确定方法包括操作S210～S230。

在操作S210，检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置。

在操作S220，根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置。

在操作S230，根据关键点像素位置，确定目标对象的目标对象姿态。

根据本公开的实施例，可以基于目标姿态检测模型来检测初始图像，得到第一关键点位置。例如，可以基于卷积神经网络算法构建得到的目标姿态检测模型来得到第一关键点位置。但不仅限于此，还可以基于其他类型的算法来构建得到的目标姿态检测模型，本公开的实施例对检测初始图像的具体算法类型不做限定。

根据本公开的实施例，初始图像可以是与目标对象相关的图像，例如可以是利用图像采集装置，对运动中的目标对象进行图像采集后得到的图像。目标对象可以包括任意类型的生物体，例如人类、猫、狗等哺乳类动物，但不仅限于此，还可以包括鸟类等其他类型的生物体，本公开的实施例对目标对象的具体类型不做限定，本领域技术人员可以根据实际需求进行选择。

根据本公开的实施例，虚拟装置属性参数可以是预设的虚拟图像采集装置的虚拟焦距、虚拟装置内参(也称虚拟相机内参)、虚拟装置外参(也称虚拟相机外参)等属性参数。可以通过虚拟装置属性参数来对第一关键点位置进行坐标位置转换，进而确定与目标对象的关键点对应的关键点像素位置。

应该理解的是，关键点像素位置为虚拟像素坐标系中的像素位置，虚拟像素坐标系为与虚拟装置坐标系对应的像素坐标系，虚拟装置坐标系可以是与虚拟图像采集装置相对应的相机坐标系(虚拟装置坐标系)。

需要说明的是，虚拟图像装置可以是区别于采集到初始图像的图像装置的装置，可以通过任意的方式得到预设的虚拟图像采集装置的虚拟装置属性参数，本公开的实施例对得到虚拟装置属性参数的具体方式不做限定，只要能够满足将第一关键点位置转换为预设的关键点像素位置即可。

根据本公开的实施例，关键点像素位置可以在二维空间中准确地表征目标对象关键点，进而根据一个或多个关键点像素位置生成的像素可以至少在二维空间中准确地表征目标对象姿态。

下面结合具体实施例，并参考图3和图4对图2所示的方法做进一步说明。

根据本公开的实施例，检测与目标对象相关的初始图像，得到第一关键点位置包括：提取初始图像的图像特征；以及根据图像特征，确定第一关键点位置。

根据本公开的实施例，可以基于Faster RCNN(Regions with CNN features)模型来提取初始图像的图像特征，并基于多层感知器(Multi-Layer Perception)处理图像特征，得到第一关键点位置。

需要说明的是，本公开的实施例对第一关键点位置的数量不做限定，例如可以是24个，但不仅限于此，第一关键点位置的数量还可以是其他任意数量，本领域技术人员可以基于实际需求进行选择。

根据本公开的实施例，根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置可以包括：基于预设更新规则更新第一关键点位置，得到第二关键点位置，其中，第二关键点位置为虚拟装置坐标系中的坐标位置，虚拟装置坐标系为与虚拟装置属性参数关联的坐标系；以及根据虚拟装置属性参数和第二关键点位置，确定关键点像素位置。

根据本公开的实施例，基于预设更新规则更新第一关键点位置，可以是将第一关键点位置移动至虚拟装置坐标系中，从而使更新得到的第二关键点位置可以与虚拟装置坐标系相匹配，进而可以在不针对采集得到初始图像的图像采集装置进行标定的情况下，利用虚拟装置属性参数来处理第二关键点位置，生成能够准确表征目标对象的关键点的关键点像素位置，这样可以减少生成关键点像素位置的条件限制，提升检测目标对象姿态的检测效率和适应性。

例如，在目标对象为人体，且在第一关键点位置包括多个的情况下，可以设定表征人体腰部中心的第一关键点位置设定为位于图像采集装置坐标系的原点。相应地，除了表征人体腰部中心之外其他位置的第一关键点位置可以确定为(x_i，y_i，z_i)。将多个第一关键点位置均沿着同一位移方向移动(t_x，t_y，t_z)，即将第一关键点位置与(t_x，t_y，t_z)相加，可以得到与每个第一关键点位置相对应的第二关键点位置(x′_i，y′_i，z′_i)。在得到虚拟装置属性参数的情况下，例如确定虚拟装置焦距为f，的情况下，根据虚拟装置属性参数中的虚拟装置内参矩阵即可以将第二关键点位置转换为对应的关键点像素位置(u_i，v_i)。应该理解的是，第一关键点位置的数量可以是M，M为正整数。i可以大于等于0，且小于等于M。i＝0时，(x₀，y₀，z₀)可以是表征人体腰部中心的第一关键点位置。

根据本公开的实施例，目标对象姿态确定方法还可以包括：根据从初始图像提取出的图像特征，确定与虚拟装置属性参数对应的虚拟位移信息。

根据本公开的实施例，基于预设更新规则更新第一关键点位置，得到第二关键点位置可以包括：根据虚拟位移信息更新第一关键点位置，得到第二关键点位置。

图3示意性示出了根据本公开实施例的目标对象姿态确定方法的原理图。

如图3所示，检测与目标对象相关的初始图像，得到第一关键点位置，例如可以将初始图像310输入至目标姿态检测模型320，输出第一关键点位置331至第一关键点位置33M。可以理解的是，可以设定目标对象的目标对象关键点的数量为M，M可以是大于1的整数。

目标姿态检测模型320可以包括图像特征提取层321、关键点检测层322和虚拟位移检测层323。

在本实施例中，图像特征提取层321可以是基于神经体适应(Neural BodyFitting，NBF)网络模型来构建图像特征提取层321，可以基于多层感知器来构建关键点检测层322。关键点检测层322可以包括关键点位置检测子层3221至关键点位置检测子层322M，即关键点检测层322可以包括M个关键点位置检测子层。每个关键点位置检测子层均可以基于多层感知器来构建得到。

如图3所示，将初始图像310输入图像特征提取层321，可以分别输入至关键点位置检测子层3221至关键点位置检测子层322M，输出第一关键点位置331至第一关键点位置33M。应该理解，第一关键点位置331至第一关键点位置33M可以表征目标对象在三维空间中各个关键点的空间位置。

如图3所示，图像特征提取层321输出的图像特征还可以输入虚拟位移检测层323，输出虚拟位置信息341。虚拟位移检测层323可以是基于多层感知器算法构建得到的。将虚拟位置信息341，以及第一关键点位置331至第一关键点位置33M输入关键点像素位置检测模型350，可以输出关键点像素位置361至关键点像素位置36M。

例如，关键点像素位置检测模型350可以根据虚拟位置信息341来更新第一关键点位置331，得到与第一关键点位置331对应的第二关键点位置。并根据虚拟装置属性参数(例如虚拟装置焦距、虚拟装置内参等)，处理与第一关键点位置331对应的第二关键点位置，得到与第一关键点位置331对应的关键点像素位置361。

又例如，关键点像素位置检测模型350可以根据虚拟位置信息341来更新第一关键点位置33M，得到与第一关键点位置33M对应的第二关键点位置。并根据虚拟装置属性参数(例如虚拟装置焦距、虚拟装置内参等)，处理与第一关键点位置33M对应的第二关键点位置，得到与第一关键点位置33M对应的关键点像素位置36M。

应该理解的是，M可以是大于1的任意整数，例如在M等于24的情况下，关键点像素位置检测模型350可以输出24个关键点像素位置。

根据本公开的实施例，初始图像为图像采集装置在图像采集时刻采集到的，图像采集时刻包括N个，N为大于1的整数，初始图像与关键点像素位置通过图像采集时刻相关联。

其中，根据关键点像素位置，确定目标对象的目标对象姿态包括：根据N个图像采集时刻各自对应的关键点像素位置，确定N个图像采集时刻各自对应的二维姿态图像；根据N个图像采集时刻各自的时间属性信息，处理N个二维姿态图像，得到适用于动态展示目标对象姿态的目标对象姿态展示结果。

根据本公开的实施例，图像采集装置可以是单目图像采集装置，例如单目照相机、单目摄像机等。图像采集装置可以在连续的N个图像采集时刻采集到时序上连续的N个初始图像。例如，可以通过单目摄像机来对运动中的目标对象进行拍摄，拍摄到的视频信息包含有时序上连续的N个视频帧(即N个初始图像)，每个视频帧对应的图像采集时刻可以与该单目摄像机相关联。

根据本公开的实施例，与图像采集时刻对应的关键点像素位置，可以是根据在该图像采集时刻采集到的初始图像，生成的与该初始图像对应的关键点像素位置。相应地，图像采集时刻对应的二维姿态图像，可以是根据与图像采集时刻对应的关键点像素位置，生成与关键点像素位置对应的关键点像素，通过关键点像素来构建得到二维姿态图像。应该理解的是，二维姿态图像中可以通过与背景像素值相差较大的像素值来表征关键点像素，从而可以通过二维姿态图像中的关键点像素来表征目标对象的关键点的位置，实现通过二维姿态图像来表征在对应的图像采集时刻，目标对象的目标对象姿态。

根据本公开的实施例，根据N个图像采集时刻各自的时间属性信息，处理N个二维姿态图像，可以是按照N个图像采集时刻彼此之间的时序关系来排列N个二维姿态图像，从而得到时序上连续的N个二维姿态图像，进而可以根据时序上连续的N个二维姿态图像，生成表征目标对象在N个图像采集时刻构成的时间段中，目标对象姿态的动态展示结果，即生成目标对象姿态展示结果。

需要说明的是，目标对象姿态展示结果可以包括能够展示目标对象姿态的动态变化过程的信息，例如GIF(Graphics Interchange Format，图像互换格式)图像、动画视频等等。本公开的实施例对目标对象姿态展示结果的具体信息类型不做限定，本领域技术人员可以根据实际需求进行选择。

根据本公开的实施例，目标对象可以是执行运动动作的运动员，例如执行转体运动动作的跳水运动员。根据本公开实施例提供的目标对象姿态确定方法来生成关键点像素位置，并根据关键点像素位置生成二维的GIF图像等目标对象姿态展示结果，可以使用户便捷地查看跳水运动员在执行转体运动动作中的姿态发展过程，还可以便捷地根据图像采集时刻来细粒度地选择运动员在任意时刻的动作姿态提升用户查看或分析展示结果的便捷性。同时，根据本公开实施例提供的目标对象姿态确定方法，可以降低渲染得到目标对象姿态展示结果的计算开销，便于用户通过算力较低的电子设备查看展示结果，进一步提升用户分析目标对象姿态的便捷程度。

图4示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。

如图4所示，该深度学习模型的训练方法包括操作S410～S440。

在操作S410，获取训练样本，训练样本包括与样本目标对象相关的样本初始图像、与样本初始图像对应的标签，以及样本虚拟装置属性参数，标签包括标签第一关键点位置和标签关键点像素位置。

在操作S420，将样本初始图像输入初始深度学习模型，输出样本第一关键点位置，样本第一关键点位置表征样本目标对象的关键点在三维空间中的位置。

在操作S430，根据样本虚拟装置属性参数和样本第一关键点位置，确定与关键点对应的样本关键点像素位置。

在操作S440，根据样本关键点像素位置、样本第一关键点位置、标签第一关键点位置和标签关键点像素位置，训练初始深度学习模型，得到训练后的深度学习模型。

根据本公开的实施例，可以基于卷积神经网络算法构建得到初始深度学习模型，但不仅限于此，还可以基于其他类型的算法来构建得到的初始深度学习模型，本公开的实施例对构建初始深度学习模型的具体算法类型不做限定。

根据本公开的实施例，样本初始图像可以是与样本目标对象相关的图像，例如可以是利用图像采集装置，对运动中的样本目标对象进行图像采集后得到的图像。样本目标对象可以包括任意类型的生物体，例如人类、猫、狗等哺乳类动物，但不仅限于此，还可以包括鸟类等其他类型的生物体，本公开的实施例对样本目标对象的具体类型不做限定，本领域技术人员可以根据实际需求进行选择。

根据本公开的实施例，样本虚拟装置属性参数可以是预设的虚拟图像采集装置的虚拟焦距、虚拟装置内参(也称虚拟相机内参)、虚拟装置外参(也称虚拟相机外参)等属性参数。可以通过样本虚拟装置属性参数来对样本第一关键点位置进行坐标位置转换，进而确定与样本目标对象的关键点对应的样本关键点像素位置。

根据本公开的实施例，标签关键点像素位置可以表征样本目标对象在二维空间中关键点的位置，进而根据一个或多个标签关键点像素位置生成的像素可以至少在二维空间中准确地表征样本目标对象的样本目标对象姿态。标签第一关键点位置可以是针对样本初始图像标注的目标对象的关键点在三维空间中的关键点位置。

根据本公开的实施例，可以根据标签关键点像素位置对生成的样本关键点像素位置进行监督，并根据标签第一关键点位置对样本第一关键点位置进行监督，从而从多个层面监督初始深度学习的训练，使训练得到的深度学习模型可以输出高精度的第一关键点位置，进而提升深度学习模型在三维空间中对目标对象的关键点位置的检测精度，实现提升针对目标对象姿态检测精度的效果。

根据本公开的实施例，根据样本关键点像素位置、样本第一关键点位置、标签第一关键点位置和标签关键点像素位置，训练深度学习模型包括：根据第一损失函数处理样本第一关键点位置和标签第一关键点位置，得到第一损失值；根据第二损失函数处理样本关键点像素位置和标签关键点像素位置，得到第二损失值；以及根据第一损失值和第二损失值调整初始深度学习模型的参数，得到训练后的深度学习模型。

在本公开的一个实施例中，可以基于如下公式(1)和公式(2)来计算得到第一损失值和第二损失值。

公式(1)和公式(2)中，K_i表示样本第一关键点位置，K′_i表示标签第一关键点位置，L1()表示第一损失函数，L1′可以表示第一损失值。J_i表示样本关键点像素位置，J′_i表示标签关键点像素位置；，L2()表示第二损失函数，L2′可以表示第二损失值，m可以表示标签第一关键点位置的数量。

根据本公开的实施例，通过第一损失值和第二损失值相结合来训练得到深度学习模型，可以对深度学习模型增加二维空间中的标签关键点像素位置的约束条件，进而提升深度学习模型的鲁棒性与检测精度，提升针对三维空间中的第一关键点位置的检测精度。

根据本公开的实施例，根据样本虚拟装置属性参数和样本第一关键点位置，确定与关键点对应的样本关键点像素位置包括：基于预设更新规则更新样本第一关键点位置，得到样本第二关键点位置；以及根据样本虚拟装置属性参数和第二关键点位置，确定样本关键点像素位置。

根据本公开的实施例，基于预设更新规则更新样本第一关键点位置，可以是将样本第一关键点位置移动至样本虚拟装置坐标系中，从而使更新得到的样本第二关键点位置可以与样本虚拟装置坐标系相匹配，进而可以在不针对采集得到样本初始图像的图像采集装置进行标定的情况下，利用样本虚拟装置属性参数来处理样本第二关键点位置，生成能够准确表征样本目标对象的关键点的样本关键点像素位置，这样可以减少生成样本关键点像素位置的条件限制，使训练得到的深度学习模型可以提升检测目标对象姿态的检测效率和适应性。

根据本公开的实施例，初始深度学习模型包括图像特征提取层和虚拟位移检测层，图像特征提取层适用于提取样本初始图像的图像特征。

深度学习模型的训练方法还包括：将样本初始图像的图像特征输入虚拟位移检测层，输出样本虚拟位移信息。

根据本公开的实施例，基于预设更新规则更新样本第一关键点位置，得到样本第二关键点位置包括：根据样本虚拟位移信息更新样本第一关键点位置，得到样本第二关键点位置。

需要说明的是，本公开实施例提供的深度学习模型的训练方法中所涉及的技术术语(例如样本第一关键点位置)，可以与上述实施例中提供的目标对象姿态确定方法中相同或相应的技术术语(例如第一关键点位置)表示相同或相应的技术属性，本公开的实施例不再赘述。

图5示意性示出了根据本公开实施例的目标对象姿态确定装置的框图。

如图5所示，目标对象姿态确定装置500包括：第一关键点位置获得模块510、关键点像素位置确定模块520和目标对象姿态确定模块530。

第一关键点位置获得模510，用于检测与目标对象相关的初始图像，得到第一关键点位置，第一关键点位置表征目标对象的关键点在三维空间中的位置。

关键点像素位置确定模块520，用于根据虚拟装置属性参数和第一关键点位置，确定与关键点对应的关键点像素位置。

目标对象姿态确定模块530，用于根据关键点像素位置，确定目标对象的目标对象姿态。

根据本公开的实施例，关键点像素位置确定模块包括：第二关键点位置获得单元和关键点像素位置确定单元。

第二关键点位置获得单元，用于基于预设更新规则更新第一关键点位置，得到第二关键点位置，其中，第二关键点位置为虚拟装置坐标系中的坐标位置，虚拟装置坐标系为与虚拟装置属性参数关联的坐标系。

关键点像素位置确定单元，用于根据虚拟装置属性参数和第二关键点位置，确定关键点像素位置。

根据本公开的实施例，目标对象姿态确定装置500还包括虚拟位移信息确定模块。

虚拟位移信息确定模块，用于根据从初始图像提取出的图像特征，确定与虚拟装置属性参数对应的虚拟位移信息。

其中，第二关键点位置获得单元包括第二关键点位置获得子单元。

第二关键点位置获得子单元，用于根据虚拟位移信息更新第一关键点位置，得到第二关键点位置。

根据本公开的实施例，第一关键点位置获得模块包括：图像特征提取单元和第一关键点位置确定单元。

图像特征提取单元，用于提取初始图像的图像特征。

第一关键点位置确定单元，用于根据图像特征，确定第一关键点位置。

根据本公开的实施例，初始图像为图像采集装置在图像采集时刻采集到的，图像采集时刻包括N个，N为大于1的整数，初始图像与述关键点像素位置通过图像采集时刻相关联。

其中，目标对象姿态确定模块包括：二维姿态图像确定单元和目标对象姿态展示结果获得单元。

二维姿态图像确定单元，用于根据N个图像采集时刻各自对应的关键点像素位置，确定N个图像采集时刻各自对应的二维姿态图像。

目标对象姿态展示结果获得单元，用于根据N个图像采集时刻各自的时间属性信息，处理N个二维姿态图像，得到适用于动态展示目标对象姿态的目标对象姿态展示结果。

图6示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

如图6所示，深度学习模型的训练装置600包括：训练样本获取模块610、样本第一关键点位置获得模块620、样本关键点像素位置确定模块630和训练模块640。

训练样本获取模块610，用于获取训练样本，训练样本包括与样本目标对象相关的样本初始图像、与样本初始图像对应的标签，以及样本虚拟装置属性参数，标签包括标签第一关键点位置和标签关键点像素位置。

样本第一关键点位置获得模块620，用于将样本初始图像输入初始深度学习模型，输出样本第一关键点位置，样本第一关键点位置表征样本目标对象的关键点在三维空间中的位置。

样本关键点像素位置确定模块630，用于根据样本虚拟装置属性参数和样本第一关键点位置，确定与关键点对应的样本关键点像素位置。

训练模块640，用于根据样本关键点像素位置、样本第一关键点位置、标签第一关键点位置和标签关键点像素位置，训练初始深度学习模型，得到训练后的深度学习模型。

根据本公开的实施例，训练模块包括：第一损失值获得单元、第二损失值获得单元和深度学习模型获得单元。

第一损失值获得单元，用于根据第一损失函数处理样本第一关键点位置和标签第一关键点位置，得到第一损失值。

第二损失值获得单元，用于根据第二损失函数处理样本关键点像素位置和标签关键点像素位置，得到第二损失值。

深度学习模型获得单元，用于根据第一损失值和第二损失值调整初始深度学习模型的参数，得到训练后的深度学习模型。

根据本公开的实施例，样本关键点像素位置确定模块包括样本第二关键点位置获得单元和样本关键点像素位置获得单元。

样本第二关键点位置获得单元，用于基于预设更新规则更新样本第一关键点位置，得到样本第二关键点位置。

样本关键点像素位置获得单元，用于根据样本虚拟装置属性参数和第二关键点位置，确定样本关键点像素位置。

深度学习模型的训练装置还包括样本虚拟位移信息获得模块。

样本虚拟位移信息获得模块，用于将样本初始图像的图像特征输入虚拟位移检测层，输出样本虚拟位移信息。

其中，样本第二关键点位置获得单元包括样本第二关键点位置获得子单元。

样本第二关键点位置获得子单元，用于根据样本虚拟位移信息更新样本第一关键点位置，得到样本第二关键点位置。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如目标对象姿态确定方法、或深度学习模型的训练方法。例如，在一些实施例中，目标对象姿态确定方法、或深度学习模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时，可以执行上文描述的目标对象姿态确定方法、或深度学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标对象姿态确定方法、或深度学习模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标对象姿态确定方法，包括：

检测与目标对象相关的初始图像，得到第一关键点位置，所述第一关键点位置表征所述目标对象的关键点在三维空间中的位置；

根据虚拟装置属性参数和所述第一关键点位置，确定与所述关键点对应的关键点像素位置；以及

根据所述关键点像素位置，确定所述目标对象的目标对象姿态。

2.根据权利要求1所述的方法，其中，所述根据虚拟装置属性参数和所述第一关键点位置，确定与所述关键点对应的关键点像素位置包括：

基于预设更新规则更新所述第一关键点位置，得到第二关键点位置，其中，所述第二关键点位置为虚拟装置坐标系中的坐标位置，所述虚拟装置坐标系为与所述虚拟装置属性参数关联的坐标系；以及

根据所述虚拟装置属性参数和所述第二关键点位置，确定所述关键点像素位置。

3.根据权利要求2所述的方法，还包括：

根据从所述初始图像提取出的图像特征，确定与所述虚拟装置属性参数对应的虚拟位移信息；

其中，所述基于预设更新规则更新所述第一关键点位置，得到第二关键点位置包括：

根据所述虚拟位移信息更新所述第一关键点位置，得到所述第二关键点位置。

4.根据权利要求1所述的方法，其中，所述检测与目标对象相关的初始图像，得到第一关键点位置包括：

提取所述初始图像的图像特征；以及

根据所述图像特征，确定所述第一关键点位置。

5.根据权利要求1所述的方法，其中，所述初始图像为图像采集装置在图像采集时刻采集到的，所述图像采集时刻包括N个，N为大于1的整数，所述初始图像与所述关键点像素位置通过所述图像采集时刻相关联；

其中，所述根据所述关键点像素位置，确定所述目标对象的目标对象姿态包括：

根据N个所述图像采集时刻各自对应的关键点像素位置，确定N个所述图像采集时刻各自对应的二维姿态图像；

根据N个所述图像采集时刻各自的时间属性信息，处理N个所述二维姿态图像，得到适用于动态展示所述目标对象姿态的目标对象姿态展示结果。

6.一种深度学习模型的训练方法，包括：

获取训练样本，所述训练样本包括与样本目标对象相关的样本初始图像、与所述样本初始图像对应的标签，以及样本虚拟装置属性参数，所述标签包括标签第一关键点位置和标签关键点像素位置；

将所述样本初始图像输入初始深度学习模型，输出样本第一关键点位置，所述样本第一关键点位置表征所述样本目标对象的关键点在三维空间中的位置；

根据所述样本虚拟装置属性参数和所述样本第一关键点位置，确定与所述关键点对应的样本关键点像素位置；以及

根据所述样本关键点像素位置、所述样本第一关键点位置、所述标签第一关键点位置和所述标签关键点像素位置，训练所述初始深度学习模型，得到训练后的深度学习模型。

7.根据权利要求6所述的方法，其中，所述根据所述样本关键点像素位置、所述样本第一关键点位置、所述标签第一关键点位置和所述标签关键点像素位置，训练所述深度学习模型包括：

根据第一损失函数处理所述样本第一关键点位置和所述标签第一关键点位置，得到第一损失值；

根据第二损失函数处理所述样本关键点像素位置和所述标签关键点像素位置，得到第二损失值；以及

根据所述第一损失值和所述第二损失值调整所述初始深度学习模型的参数，得到训练后的所述深度学习模型。

8.根据权利要求6所述的方法，其中，所述根据所述样本虚拟装置属性参数和所述样本第一关键点位置，确定与所述关键点对应的样本关键点像素位置包括：

基于预设更新规则更新所述样本第一关键点位置，得到样本第二关键点位置；以及

根据所述样本虚拟装置属性参数和所述第二关键点位置，确定所述样本关键点像素位置。

9.根据权利要求8所述的方法，其中，所述初始深度学习模型包括图像特征提取层和虚拟位移检测层，所述图像特征提取层适用于提取所述样本初始图像的图像特征；

所述深度学习模型的训练方法还包括：

将所述样本初始图像的图像特征输入所述虚拟位移检测层，输出样本虚拟位移信息；

其中，所述基于预设更新规则更新所述样本第一关键点位置，得到样本第二关键点位置包括：

根据所述样本虚拟位移信息更新所述样本第一关键点位置，得到所述样本第二关键点位置。

10.一种目标对象姿态确定装置，包括：

第一关键点位置获得模块，用于检测与目标对象相关的初始图像，得到第一关键点位置，所述第一关键点位置表征所述目标对象的关键点在三维空间中的位置；

关键点像素位置确定模块，用于根据虚拟装置属性参数和所述第一关键点位置，确定与所述关键点对应的关键点像素位置；以及

目标对象姿态确定模块，用于根据所述关键点像素位置，确定所述目标对象的目标对象姿态。

11.根据权利要求10所述的装置，其中，所述关键点像素位置确定模块包括：

第二关键点位置获得单元，用于基于预设更新规则更新所述第一关键点位置，得到第二关键点位置，其中，所述第二关键点位置为虚拟装置坐标系中的坐标位置，所述虚拟装置坐标系为与所述虚拟装置属性参数关联的坐标系；以及

关键点像素位置确定单元，用于根据所述虚拟装置属性参数和所述第二关键点位置，确定所述关键点像素位置。

12.根据权利要求11所述的装置，还包括：

虚拟位移信息确定模块，用于根据从所述初始图像提取出的图像特征，确定与所述虚拟装置属性参数对应的虚拟位移信息；

其中，所述第二关键点位置获得单元包括：

第二关键点位置获得子单元，用于根据所述虚拟位移信息更新所述第一关键点位置，得到所述第二关键点位置。

13.根据权利要求1所述的装置，其中，所述初始图像为图像采集装置在图像采集时刻采集到的，所述图像采集时刻包括N个，N为大于1的整数，所述初始图像与所述述关键点像素位置通过所述图像采集时刻相关联；

其中，所述目标对象姿态确定模块包括：

二维姿态图像确定单元，用于根据N个所述图像采集时刻各自对应的关键点像素位置，确定N个所述图像采集时刻各自对应的二维姿态图像；

目标对象姿态展示结果获得单元，用于根据N个所述图像采集时刻各自的时间属性信息，处理N个所述二维姿态图像，得到适用于动态展示所述目标对象姿态的目标对象姿态展示结果。

14.一种深度学习模型的训练装置，包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括与样本目标对象相关的样本初始图像、与所述样本初始图像对应的标签，以及样本虚拟装置属性参数，所述标签包括标签第一关键点位置和标签关键点像素位置；

样本第一关键点位置获得模块，用于将所述样本初始图像输入初始深度学习模型，输出样本第一关键点位置，所述样本第一关键点位置表征所述样本目标对象的关键点在三维空间中的位置；

样本关键点像素位置确定模块，用于根据所述样本虚拟装置属性参数和所述样本第一关键点位置，确定与所述关键点对应的样本关键点像素位置；以及

训练模块，用于根据所述样本关键点像素位置、所述样本第一关键点位置、所述标签第一关键点位置和所述标签关键点像素位置，训练所述初始深度学习模型，得到训练后的深度学习模型。

15.根据权利要求14所述的装置，其中，所述训练模块包括：

第一损失值获得单元，用于根据第一损失函数处理所述样本第一关键点位置和所述标签第一关键点位置，得到第一损失值；

第二损失值获得单元，用于根据第二损失函数处理所述样本关键点像素位置和所述标签关键点像素位置，得到第二损失值；以及

深度学习模型获得单元，用于根据所述第一损失值和所述第二损失值调整所述初始深度学习模型的参数，得到训练后的所述深度学习模型。

16.根据权利要求14所述的装置，其中，所述样本关键点像素位置确定模块包括：

样本第二关键点位置获得单元，用于基于预设更新规则更新所述样本第一关键点位置，得到样本第二关键点位置；以及

样本关键点像素位置获得单元，用于根据所述样本虚拟装置属性参数和所述第二关键点位置，确定所述样本关键点像素位置。

17.根据权利要求16所述的装置，其中，所述初始深度学习模型包括图像特征提取层和虚拟位移检测层，所述图像特征提取层适用于提取所述样本初始图像的图像特征；

所述深度学习模型的训练装置还包括：

样本虚拟位移信息获得模块，用于将所述样本初始图像的图像特征输入所述虚拟位移检测层，输出样本虚拟位移信息；

其中，所述样本第二关键点位置获得单元包括：

样本第二关键点位置获得子单元，用于根据所述样本虚拟位移信息更新所述样本第一关键点位置，得到所述样本第二关键点位置。

18.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

19.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。