CN114494334A

CN114494334A - 调整三维姿态的方法、装置、电子设备及存储介质

Info

Publication number: CN114494334A
Application number: CN202210108845.7A
Authority: CN
Inventors: 陈冠英; 叶晓青; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13
Anticipated expiration: 2042-01-28
Also published as: JP2023110913A; JP7417772B2; CN114494334B; KR20230116735A; US20230245339A1

Abstract

本公开提供了一种调整三维姿态的方法、装置、电子设备及存储介质，涉及人工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于三维视觉和人体驱动场景下。具体实现方案为：获取当前录制的视频；基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果；通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

Description

调整三维姿态的方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉和深度学习技术，具体可用于三维视觉和人体驱动场景下，尤其涉及调整三维姿态的方法、装置、电子设备及存储介质。

背景技术

在人工智能领域中，经常需要获取人体的三维姿态。由于传统的估计人体三维姿态的方法需要使用复杂的动作捕获设备，例如动捕服、光捕设备等，因此，设备要求较简单的基于单目视频的动作捕捉技术得到广泛应用。对此，本领域的技术人员不断尝试各种基于单目视频估计人体三维姿态的算法。

现有方案中，基于单目视频估计人体三维姿态的算法中，并没有针对人体脚部接地效果的约束模型进行优化，也就是说，该算法准确度较低，这导致了该算法估计所得的人体三维姿态存在抖动情况，人体脚部动作存在明显的漂浮感。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本公开提供了调整三维姿态的方法、装置、电子设备及存储介质，以至少解决现有技术中由于算法中没有针对人体脚部接地效果的约束模型进行优化，导致对人体三维姿态估计不准确，人体脚部动作存在明显的漂浮感的技术问题。

根据本公开其中一实施例，提供了一种调整三维姿态的方法，包括：获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

根据本公开其中一实施例，还提供了一种调整三维姿态的的装置，包括：获取模块，用于获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；估计模块，用于基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；检测模块，用于利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；确定模块，用于通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；调整模块，用于采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

根据本公开其中一实施例，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的调整三维姿态的方法。

根据本公开其中一实施例，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的调整三维姿态的方法。

根据本公开其中一实施例，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的调整三维姿态的方法。

本公开的实施例中，获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；通过获取基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；并且利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；采用通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点的方法，基于多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态，达到了对基于单目视频估计人体三维姿态的算法进行改进的目的，实现了通过在基于单目视频估计人体三维姿态的算法中加入接地约束以提高人体脚部动作稳定性的技术效果，解决了现有技术中由于算法中没有针对人体脚部接地效果的约束模型进行优化，导致对人体三维姿态估计不准确，人体脚部动作存在明显的漂浮感的技术问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种用于实现调整三维姿态的方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本公开实施例提供的一种调整三维姿态的方法的流程图

图3是根据本公开实施例的一种可选的调整三维姿态的方法进行人体站立姿态脚部动作估计的结果示意图；

图4是根据本公开实施例的一种可选的调整三维姿态的方法进行人体行走姿态脚部动作估计的结果示意图；

图5是根据本公开实施例的提供的一种调整三维姿态的装置的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本公开实施例，提供了一种调整三维姿态的方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现调整三维姿态的方法的计算机终端(或移动设备)的硬件结构框图。

如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序，来执行各种适当的动作和处理。在RAM 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

计算机终端100中的多个部件连接至I/O接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的调整三维姿态的方法。例如，在一些实施例中，调整三维姿态的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时，可以执行本文描述的定位故障硬盘的方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行定位故障硬盘的方法。

本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。

在上述运行环境下，本公开提供了如图2所示的调整三维姿态的方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种调整三维姿态的方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S20，获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；

上述当前录制的视频可以是由一个静止相机录制的单目视频，该当前录制的视频可以包括多个图像帧，其中，每个图像帧中均显示有虚拟三维模型。上述虚拟三维模型可以是虚拟人体模型。也就是说，上述当前录制的视频为显示虚拟人体模型运动状态的视频。

例如，对于给定的一段单目人体运动视频，记为Video1，该视频包含T个图像帧，其中，每个图像帧均显示有该人体模型。根据本公开实施例，可以基于Video1估计并优化调整得到稳定的人体三维姿态。

步骤S22，基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；

上述多个二维关键点可以是在二维视频中该虚拟三维模型的显示区域内选取的用于研究的点。对当前录制的视频中的多个图像帧进行估计，可以得到上述虚拟三维模型的多个二维关键点和模型三维姿态，将该估计所得的模型三维姿态视为初始三维姿态。

仍然以基于Video1进行人体三维姿态调整为例，基于Video1中的T个图像帧，可以估计得到该虚拟人体模型在T个图像帧中的每个图像帧中的二维关键点2DP*和初始三维姿态3DS*，其中，初始三维姿态3DS*可以由相关姿态参数表示。

步骤S24，利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；

上述多个二维关键点可以是在在二维视频中该虚拟三维模型目标部位的显示区域内选取的用于研究的点。利用该多个二维关键点对该虚拟三维模型的该目标部位进行接触检测，可以得到上述检测结果。其中，接触检测用于检测该虚拟三维模型的目标部位与上述三维空间的目标接触面间的接触情况，检测结果用于表明该目标部位与该虚拟三维模型所在三维空间内的目标接触面之间是否发生接触。

仍然以基于Video1进行人体三维姿态调整为例，选取该虚拟人体模型的左右脚的脚尖和脚跟作为目标部位，该目标部位分别对应4个二维关键点：A点对应左脚脚尖、B点对应左脚脚跟、C点对应右脚脚尖、D点对应右脚脚跟；选取该虚拟人体模型所在的三维空间点额地面作为目标接触面。通过检测上述A、B、C、D四个关键点与上述地面之间的位置关系，可以判断上述左右脚的脚尖和脚跟与上述地面之间是否发生接触，并将该左右脚的脚尖和脚跟与地面之间接触情况保存为检测结果，记为R{A，B，C，D}。

步骤S26，通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；

上述初始三维关键点为上述初始三维姿态对应的多个关键点，通过该虚拟三维模型的目标部位与上述三维空间的目标接触面间接触情况的检测结果和该多个初始三维关键点，可以确定多个目标三维关键点。

仍然以基于Video1进行人体三维姿态调整为例，上述初始三维姿态3DS*可以对应多个该虚拟人体模型的多个三维关键点的位置，记为初始三维关键点J_3D；基于该初始三维关键点J_3D，通过上述检测结果R{A，B，C，D}，可以确定多个目标三维关键点，记为

步骤S28，采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

基于上述多个初始三维关键点和上述多个目标三维关键点，可以将上述初始三维姿态调整为上述目标三维姿态。该初始三维关键点对应上述虚拟三维模型的初始三维姿态，该目标三维关键点为由该初始三维关键点根据上述检测结果变换得到的。

通过检测该虚拟三维模型的目标部位与上述三维空间的目标接触面间的接触情况，将该虚拟三维模型的初始三维姿态变换为目标三维姿态，实现了对该虚拟三维模型的三维姿态优化操作。

仍然以基于Video1进行人体三维姿态调整为例，通过Video1中T个图像帧的每个图像帧中的多个初始三维关键点J_3D和多个目标三维关键点

可以将该虚拟人体模型的初始三维姿态3DS*调整为目标三维姿态，记为#3DS*。

图3是根据本公开实施例的一种可选的调整三维姿态的方法进行人体站立姿态脚部动作估计的结果示意图；图4是根据本公开实施例的一种可选的调整三维姿态的方法进行人体行走姿态脚部动作估计的结果示意图。如图3和图4所示，与改进前的算法估计所得的人体脚部动作对应本公开实施例中的初始三维姿态3DS*，通过本公开实施例进行改进后的算法估计所得的人体脚部动作对应目标三维姿态#3DS*。与该初始三维姿态3DS*相比，目标三维姿态#3DS*呈现的人体脚部动作漂浮感减轻，更加稳定，虚拟人体的三维姿态更加真实。

根据本公开实施例的调整三维姿态的方法，基于给定的单目视频，可以估计出脚部接地动作稳定的人体三维姿态，本公开实施例的应用场景包括：虚拟人，人体驱动、增强现实、混合现实等。

根据本公开上述步骤S20至步骤S28，获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；通过获取基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；并且利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；采用通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点的方法，基于多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态，达到了对基于单目视频估计人体三维姿态的算法进行改进的目的，实现了通过在基于单目视频估计人体三维姿态的算法中加入接地约束以提高人体脚部动作稳定性的技术效果，解决了现有技术中由于算法中没有针对人体脚部接地效果的约束模型进行优化，导致对人体三维姿态估计不准确，人体脚部动作存在明显的漂浮感的技术问题。

下面对该实施例的上述方法进行进一步介绍。

作为一种可选的实施方式，在步骤S22，基于多个图像帧估计得到多个二维关键点和初始三维姿态包括：

步骤S221，从多个图像帧的每个图像帧中检测目标区域，其中，目标区域包含有虚拟三维模型；

步骤S222，对目标区域进行裁剪处理，得到多个目标图片块；

步骤S223，基于多个目标图片块估计得到多个二维关键点和初始三维姿态。

上述多个图像帧可以是由上述当前录制的视频进行分帧操作得到的，该多个图像帧的每个图像帧都包含上述虚拟三维模型。上述从多个图像帧的每个图像帧中检测目标区域的过程可以是对该每个图像帧进行检测，将该图像帧中属于该虚拟三维模型的多个像素标记为目标区域。

根据上述多个图像帧的每个图像帧对应的目标区域，对该多个图像帧的每个图像帧进行剪裁处理，得到多个目标图片块。根据该多个目标图片快，可以使用估计算法得到初始三维姿态，该初始三维姿态可以是由初始三维姿态参数表示的。

仍然以基于Video1进行人体三维姿态调整为例，Video1中T个图像帧的每个图像帧均显示有上述虚拟人体模型，将该虚拟人体模型作为目标区域，通过人体图像分割模型对Video1中T个图像帧的每个图像帧进行人体图像分割，即识别图像帧中属于该目标区域的像素，并裁剪出以该虚拟人体模型为中心的图片块，记为Pt。通过对该图片块Pt进行估计，可以得到多个二维关键点2DP*和初始三维姿态3DS*。

可选地，上述人体图像分割模型可以是快速区域卷积神经网络模型(FasterRegion-Convolutional Neural Network，简称Faster R-CNN)，或者，该人体图像分割模型还可以是在Faster R-CNN的基础上添加了一个预测分割面部的分支的面部区域卷积神经网络模型(Mask Region-Convolutional Neural Network，简称Mask R-CNN)。

作为一种可选的实施方式，在步骤S223，基于多个目标图片块估计得到多个二维关键点和初始三维姿态包括：

步骤S2231，采用预设二维估计方式从多个目标图片块中估计得到第一估计结果；

步骤S2232，采用预设三维估计方式从多个目标图片块中估计得到第二估计结果；

步骤S2233，对第一估计结果进行平滑处理，得到多个二维关键点，以及对第二估计结果进行平滑处理，得到初始三维姿态。

上述预设二维估计方式可以基于上述多个目标图片块估计得到上述第一估计结果，其中，该第一估计结果可以用于得到上述虚拟三维模型的二维关键点。

上述预设三维估计方式可以基于上述多个目标图片块估计得到上述第二估计结果，其中，该第二估计结果可以用于得到上述虚拟三维模型的初始三维姿态。

基于上述第一估计结果，经平滑处理可以得到上述虚拟三维模型的多个二维关键点；基于上述第二估计结果，经平滑处理可以得到上述虚拟三维模型的初始三维姿态，其中，该初始三维姿态可以是由初始三维姿态参数表示的。

仍然以基于Video1进行人体三维姿态调整为例，使用上述图片块Pt，通过基于部分关联字段的多人二维姿态实时估计(Realtime Multi-Person2D Pose Estimationusing Part Affinity Fields)方法，估计得到虚拟人体模型的原始二维关键点，记为2DP。

使用上述人体图片块，通过基于模型循环拟合的重建人体三维形态的学习训练(Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in theLoop)方法，估计得到虚拟人体模型的原始三维姿态，记为3DS，并将该原始三维姿态3DS通过蒙皮复合人体线性模型(A Skinned Multi-Person Linear Model，简称为SMPL模型)表示为原始三维姿态参数θ。

对上述虚拟人体模型的原始二维关键点2DP进行平滑处理，可以得到二维关键点2DP*。对上述原始三维姿态参数θ进行平滑处理，可以得到三维姿态参数θ'，该三维姿态参数θ'用于表示上述初始三维姿态。该平滑处理可以提高上述二维关键点和人体三维姿态参数的数据质量，进而提高后续计算的准确度。

可选地，上述平滑处理可以使用低通滤波器(Low-pass filter)实现。低通滤波器是一种过滤方式，容许低频信号通过，但减弱或减少频率高于截止频率的信号通过。在图像处理领域中，低通滤波器可用于图像平滑滤波，实现图像去噪、图像增强、图像融合等效果。

作为一种可选的实施方式，在步骤S24，利用多个二维关键点对目标部位进行接触检测，得到检测结果包括：

步骤S241，采用预设神经网络模型对多个二维关键点进行分析，得到目标部位对应的二维关键点的检测标签，其中，预设神经网络模型使用多组数据通过机器学习训练得到，多组数据中的每组数据均包括：带有检测标签的二维关键点，检测标签用于表示目标部位对应的二维关键点与目标接触面之间是否发生接触。

上述检测标签可以作为对该虚拟三维模型的目标部位与其所在三维空间内的目标接触面之间接触情况的检测结果。基于上述多个二维关键点，使用上述预设神经网络模型分析得到该虚拟三维模型的目标部位对应的二维关键点的该检测标签。

上述预设神经网络模型可以基于多组数据通过机器学习训练得到，该多组数据中的每组数据都包括带有检测标签的二维关键点，其中，检测标签用于表示上述目标部位对应的二维关键点与上述目标接触面之间是否发生接触。

仍然以基于Video1进行人体三维姿态调整为例，训练一个接地检测神经网络模型，使用该接地检测神经网络模型对通过Video1中T个图像帧得到的多个二维关键点2DP*进行分析，可以得到该虚拟人体模型的左右脚的脚尖和脚跟对应的二维关键点A、B、C、D的检测标签r(A)、r(B)、r(C)、r(D)。

可选地，上述接地检测神经网络模型的训练过程如下：用于训练的初始神经网络是一个三维结构的卷积神经网络，使用二分类交叉熵损失函数对该初始神经网络进行训练，其中，训练使用的数据可以是手工标注接地标签的该虚拟人体模型的多个二维关键点，也可以是带有接地标签的该虚拟人体模型的多个二维关键点合成的数据集。

可选地，上述接地检测神经网络模型对Video1中T个图像帧的第n个图像帧中的4个二维关键点A、B、C、D进行分析的过程如下：获取第n个图像帧，同时获取该图像帧的前后各5个相邻的图像帧，即获取第n-5个图像帧到第n+5个图像帧共计11个相邻的图像帧，该11个相邻的图像帧的中间图像帧为第n个图像帧；将该11个相邻的图像帧输入该接地检测神经网络模型；经过该接地检测神经网络模型计算，输出第n个图像帧内该虚拟人体模型的脚部接地检测标签，记为r(A)、r(B)、r(C)、r(D)。

上述检测标签用于表示该虚拟人体模型的脚部是否与地面发生接触。例如：二维关键点A对应该虚拟人体模型的左脚脚尖，则检测标签r(A)表示该虚拟人体模型的左脚脚尖与地面接触的概率。上述虚拟人体模型的多个二维关键点对应的检测标签即为上述检测结果R{A，B，C，D}。

作为一种可选的实施方式，调整三维姿态的方法还包括：

步骤S30，利用初始三维姿态的第一姿态参数，确定多个初始三维关键点的初始值。

上述第一姿态参数可以是上述虚拟三维模型的初始三维姿态参数，通过该第一姿态参数，可以确定上述多个初始三维关键点的初始值，该初始值可以为该初始三维关键点的位置坐标。

仍然以基于Video1进行人体三维姿态调整为例，根据上述初始三维姿态参数θ'，可以得到人体的初始三维关键点的初始位置，记为J_3D。将该初始三维关键点的初始位置J_3D作为该初始三维关键点的初始值。

作为一种可选的实施方式，在步骤S26，通过检测结果和多个初始三维关键点，确定多个目标三维关键点包括：

步骤S261，采用多个初始三维关键点的初始值对多个目标三维关键点进行初始化，得到多个目标三维关键点的初始值；

步骤S262，获取目标部位对应的三维关键点在多个图像帧的每个图像帧中的显示位置以及显示位置对应的检测标签；

步骤S263，基于显示位置对应的检测标签，从多个目标三维关键点中选取部分三维关键点，其中，选取部分三维关键点与目标接触面之间发生接触；

步骤S264，对选取部分三维关键点的显示位置进行均值计算，得到待更新位置；

步骤S265，按照待更新位置对多个目标三维关键点的初始值进行更新，得到多个目标三维关键点的目标值。

获取上述多个初始三维关键点的初始值，使用该初始值对多个目标三维关键点进行对应的初始化，可以得到该多个目标三维关键点的初始值。其中，一次初始化操作可以是将某个初始三维关键点的初始值赋值给该初始三维关键点对应的目标三维关键点。

对于上述虚拟三维模型的目标部位，可以存在对应的目标三维关键点，获取该目标三维关键点在当前录制的视频中的多个图像帧的每个图像帧中的显示位置，该显示位置可以用该目标三维关键点在对应图像帧中的位置坐标表示；同时获取该显示位置对应的检测标签，该检测标签用于表示该显示位置上该目标部位对应的目标三维关键点与上述目标接触面之间是否发生接触。

通过上述多个显示位置对应的多个检测标签，可以得到上述多个目标三维关键点与上述目标接触面之间是否接触，进而从该多个目标三维关键点中选取与该目标接触面接触的部分三维关键点，并获取该部分三维关键点的显示位置，该显示位置可以用该部分三维关键点在对应图像帧中的位置坐标表示。

对上述部分三维关键点的显示位置进行均值计算，将计算所得的平均值赋值给对应的目标三维关键点，作为该目标三维关键点的目标值。通过前述操作对多个目标三维关键点对应的位置进行更新。

仍然以基于Video1进行人体三维姿态调整为例，获取上述多个初始三维关键点的初始值J_3D，将该多个初始三维关键点的初始值J_3D赋值给对应的多个目标三维关键点

即采用多个初始三维关键点的初始值J_3D对多个目标三维关键点

进行初始化。

对上述虚拟人体模型的左右脚的脚尖和脚跟上的4个二维关键点A、B、C、D依次进行如下操作：获取该二维关键点在Video1中T个图像帧的每个图像帧中的三维位置坐标，同时获取该二维关键点在Video1中T个图像帧的每个图像帧中所在三维位置的接地检测标签；根据该接地检测标签，可以从上述多个目标三维关键点

中筛选出与地面接触的部分目标三维关键点，记为

计算上述与地面接触的部分目标三维关键点在Video1中T个图像帧的每个图像帧中对应的位置坐标的均值，记为

将计算所得的均值

赋值给对应的目标三维关键点，即覆盖上述与地面接触的部分目标三维关键点的初始值，得到更新后的多个目标三维关键点的目标值

作为一种可选的实施方式，在步骤S28，采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态包括：

步骤S281，采用多个初始三维关键点的初始值与多个目标三维关键点的目标值，对第一姿态参数进行优化，得到第二姿态参数；

步骤S282，基于第二姿态参数将初始三维姿态调整为目标三维姿态。

基于上述多个初始三维关键点的初始值与上述多个目标三维关键点的目标值，对该第一姿态参数进行优化可以得到该第二姿态参数。上述第一姿态参数可以是上述虚拟三维模型的初始三维姿态参数，上述第二姿态参数可以是上述虚拟三维模型的目标三维姿态参数。由此，可以根据第二姿态参数，将上述虚拟三维模型的初始三维姿态调整为目标三维姿态，即实现该虚拟三维模型的三维姿态优化。

仍然以基于Video1进行人体三维姿态调整为例，基于上述多个初始三维关键点的初始值J_3D与上述多个目标三维关键点的目标值

可以将上述初始三维姿态参数θ'优化为目标三维姿态参数θ*，该优化过程的目标函数如以下公式(1)所示：

根据优化后的目标三维姿态参数，可以对该虚拟人体模型的左右脚的脚尖和脚跟的姿态进行调整和优化，使最终呈现的该虚拟人体模型的脚步动作减少抖动，减轻漂浮感，进而使基于Video1估计所得的人体三维姿态更加真实。

特别地，上述优化过程使用的优化方法可以是随机优化方法(A Method forStochastic Optimization，简称ADAM)或者有限记忆BFGS法(Limited-memory BFGS)，其中，BFGS方法是由柏罗登(C.G.Broyden)、弗莱彻(R.Fletcher)、戈德福布(D.Goldfarb)以及生纳(D.F.Shanno)所研究，故得名。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。

在本公开中还提供了一种调整三维姿态的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本公开实施例的提供的一种调整三维姿态的装置的结构框图，如图5所示，调整三维姿态的装置500包括：获取模块501，估计模块502，检测模块503，确定模块504，调整模块505。

获取模块501，用于获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；估计模块502，用于基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；检测模块503，用于利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；确定模块504，用于通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；调整模块505，用于采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

可选地，估计模块502，还用于：从多个图像帧的每个图像帧中检测目标区域，其中，目标区域包含有虚拟三维模型；对目标区域进行裁剪处理，得到多个目标图片块；基于多个目标图片块估计得到多个二维关键点和初始三维姿态。

可选地，估计模块502，还用于：采用预设二维估计方式从多个目标图片块中估计得到第一估计结果；采用预设三维估计方式从多个目标图片块中估计得到第二估计结果；对第一估计结果进行平滑处理，得到多个二维关键点，以及对第二估计结果进行平滑处理，得到初始三维姿态。

可选地，检测模块503，还用于：采用预设神经网络模型对多个二维关键点进行分析，得到目标部位对应的二维关键点的检测标签，其中，预设神经网络模型使用多组数据通过机器学习训练得到，多组数据中的每组数据均包括：带有检测标签的二维关键点，检测标签用于表示目标部位对应的二维关键点与目标接触面之间是否发生接触。

可选地，调整三维姿态的装置500，还包括：初始化模块506(图中未画出)，用于利用初始三维姿态的第一姿态参数，确定多个初始三维关键点的初始值。

可选地，确定模块504，还用于：采用多个初始三维关键点的初始值对多个目标三维关键点进行初始化，得到多个目标三维关键点的初始值；获取目标部位对应的三维关键点在多个图像帧的每个图像帧中的显示位置以及显示位置对应的检测标签；基于显示位置对应的检测标签，从多个目标三维关键点中选取部分三维关键点，其中，选取部分三维关键点与目标接触面之间发生接触；对选取部分三维关键点的显示位置进行均值计算，得到待更新位置；按照待更新位置对多个目标三维关键点的初始值进行更新，得到多个目标三维关键点的目标值。

可选地，调整模块505，还用于：采用多个初始三维关键点的初始值与多个目标三维关键点的目标值，对第一姿态参数进行优化，得到第二姿态参数；基于第二姿态参数将初始三维姿态调整为目标三维姿态。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。

可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，获取当前录制的视频，其中，视频包括：多个图像帧，多个图像帧的每个图像帧中均显示有虚拟三维模型；

步骤S2，基于多个图像帧估计得到虚拟三维模型的多个二维关键点和初始三维姿态；

步骤S3，利用多个二维关键点对虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，检测结果用于表明目标部位与虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；

步骤S4，通过检测结果和初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；

步骤S5，采用多个初始三维关键点和多个目标三维关键点将初始三维姿态调整为目标三维姿态。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的调整三维姿态的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

1.一种调整三维姿态的方法，包括：

获取当前录制的视频，其中，所述视频包括：多个图像帧，所述多个图像帧的每个图像帧中均显示有虚拟三维模型；

基于所述多个图像帧估计得到所述虚拟三维模型的多个二维关键点和初始三维姿态；

利用所述多个二维关键点对所述虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，所述检测结果用于表明所述目标部位与所述虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；

通过所述检测结果和所述初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；

采用所述多个初始三维关键点和所述多个目标三维关键点将所述初始三维姿态调整为目标三维姿态。

2.根据权利要求1所述的方法，其中，基于所述多个图像帧估计得到所述多个二维关键点和所述初始三维姿态包括：

从所述多个图像帧的每个图像帧中检测目标区域，其中，所述目标区域包含有所述虚拟三维模型；

对所述目标区域进行裁剪处理，得到多个目标图片块；

基于所述多个目标图片块估计得到所述多个二维关键点和所述初始三维姿态。

3.根据权利要求2所述的方法，其中，基于所述多个目标图片块估计得到所述多个二维关键点和所述初始三维姿态包括：

采用预设二维估计方式从所述多个目标图片块中估计得到第一估计结果；

采用预设三维估计方式从所述多个目标图片块中估计得到第二估计结果；

对所述第一估计结果进行平滑处理，得到所述多个二维关键点，以及对所述第二估计结果进行平滑处理，得到所述初始三维姿态。

4.根据权利要求1所述的方法，其中，利用所述多个二维关键点对所述目标部位进行接触检测，得到所述检测结果包括：

采用预设神经网络模型对所述多个二维关键点进行分析，得到所述目标部位对应的二维关键点的检测标签，其中，所述预设神经网络模型使用多组数据通过机器学习训练得到，所述多组数据中的每组数据均包括：带有所述检测标签的二维关键点，所述检测标签用于表示所述目标部位对应的二维关键点与所述目标接触面之间是否发生接触。

5.根据权利要求4所述的方法，其中，所述方法还包括：

利用所述初始三维姿态的第一姿态参数，确定所述多个初始三维关键点的初始值。

6.根据权利要求5所述的方法，其中，通过所述检测结果和所述多个初始三维关键点，确定所述多个目标三维关键点包括：

采用所述多个初始三维关键点的初始值对所述多个目标三维关键点进行初始化，得到所述多个目标三维关键点的初始值；

获取所述目标部位对应的三维关键点在所述多个图像帧的每个图像帧中的显示位置以及所述显示位置对应的检测标签；

基于所述显示位置对应的检测标签，从所述多个目标三维关键点中选取部分三维关键点，其中，所述选取部分三维关键点与所述目标接触面之间发生接触；

对所述选取部分三维关键点的显示位置进行均值计算，得到待更新位置；

按照所述待更新位置对所述多个目标三维关键点的初始值进行更新，得到所述多个目标三维关键点的目标值。

7.根据权利要求6所述的方法，其中，采用所述多个初始三维关键点和所述多个目标三维关键点将所述初始三维姿态调整为所述目标三维姿态包括：

采用所述多个初始三维关键点的初始值与所述多个目标三维关键点的目标值，对所述第一姿态参数进行优化，得到第二姿态参数；

基于所述第二姿态参数将所述初始三维姿态调整为所述目标三维姿态。

8.一种调整三维姿态的装置，包括：

获取模块，用于获取当前录制的视频，其中，所述视频包括：多个图像帧，所述多个图像帧的每个图像帧中均显示有虚拟三维模型；

估计模块，用于基于所述多个图像帧估计得到所述虚拟三维模型的多个二维关键点和初始三维姿态；

检测模块，用于利用所述多个二维关键点对所述虚拟三维模型的目标部位进行接触检测，得到检测结果，其中，所述检测结果用于表明所述目标部位与所述虚拟三维模型所在三维空间内的目标接触面之间是否发生接触；

确定模块，用于通过所述检测结果和所述初始三维姿态对应的多个初始三维关键点，确定多个目标三维关键点；

调整模块，用于采用所述多个初始三维关键点和所述多个目标三维关键点将所述初始三维姿态调整为目标三维姿态。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。