CN115035238A

CN115035238A - 人体重建插帧方法及相关产品

Info

Publication number: CN115035238A
Application number: CN202210436478.3A
Authority: CN
Inventors: 冯悠扬; 崔秀芬; 凌霄
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-09-09
Anticipated expiration: 2042-04-25
Also published as: CN115035238B

Abstract

本申请实施例公开了一种人体重建插帧方法及相关产品，方法包括：获取处理帧队列中的第m帧图像，第m帧图像的拍摄时刻为第k时刻；将第m帧图像输入实时人体重建网络模型中，得到第m帧图像对应的实时人体重建结果，并确定计算出实时人体重建结果的时刻为第k+n时刻；将第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；在第k+n时刻送显实时人体重建结果和第m帧图像；获取处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；根据第m+1帧图像和预测人体重建结果，在第k+n+1时刻进行插帧处理，并送显预测人体重建结果和第m+1帧图像。采用本申请实施例有利于提高人体重建的实时渲染帧率。

Description

人体重建插帧方法及相关产品

技术领域

本申请涉及电子技术领域，具体涉及一种人体重建插帧方法及相关产品。

背景技术

通过单目摄像模块捕获人体的运动状态，由于设备要求不高因此有较为广泛的应用场景，例如远程会议、VR/AR游戏角色驱动等。由于移动端嵌入式设备计算能力的限制，即使经过模型压缩和多线程加速处理后单帧图像的人体重建时间只能在70ms-100ms，而相机的实时帧率一般会维持在30Hz，导致人体重建模型无法实时处理相机推送的图像，容易造成显示图像卡顿。

发明内容

本申请实施例提供了一种人体重建插帧方法及相关产品，可通过插帧的方式，根据上一帧对下一帧的人体重建结果进行预测，有利于提高人体重建的实时渲染帧率，从而避免显示图像的卡顿现象的发生。

第一方面，本申请实施例提供一种人体重建插帧方法，所述方法包括：

获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；

将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；

将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；

在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；

获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；

根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。

第二方面，本申请实施例提供一种人体重建插帧装置，所述装置包括：获取单元、输入单元、送显单元和插帧单元，其中，

所述获取单元，用于获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k 时刻，k、m均为正整数；

所述输入单元，用于将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n 为正整数；

所述输入单元，还用于将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；

所述送显单元，用于在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m 帧图像；

所述获取单元，还用于获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；

所述插帧单元，用于根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1 时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，可获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。如此，可通过处理帧队列的方式，减少不同模型工作或者算法实现环节的阻塞等待时间，为后续的插帧过程提供算法空间。并且通过插帧的方式，根据上一帧对下一帧的人体重建结果进行预测，有利于提高人体重建的实时渲染帧率，从而避免显示图像的卡顿现象的发生。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种人体重建插帧方法的场景示意图；

图1B是本申请实施例提供的一种人体关节点的结构示意图；

图2是本申请实施例提供的一种人体重建插帧方法的流程示意图；

图3是本申请实施例提供的一种多视角人体重建网络的工作原理示意图；

图4是本申请实施例提供的一种人体重建插帧方法的时序示意图；

图5是本申请实施例提供的一种人体重建插帧方法的流程示意图；

图6是本申请实施例提供的一种关节点提取网络模型的架构示意图；

图7是本申请实施例提供的一种关节点提取网络模型的架构示意图；

图8是本申请实施例提供的一种电子设备的结构示意图；

图9A是本申请实施例提供的一种人体重建插帧装置的功能单元组成框图

图9B是本申请实施例提供的一种人体重建插帧装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

电子设备可以是还包含其它功能诸如个人数字助理和/或音乐播放器功能的便携式电子设备，诸如手机、平板电脑、具备无线通讯功能的可穿戴电子设备(如智能手表)等。便携式电子设备的示例性实施例包括但不限于搭载IOS系统、Android系统、Microsoft系统或者其它操作系统的便携式电子设备。上述便携式电子设备也可以是其它便携式电子设备，诸如膝上型计算机(Laptop)等。还应当理解的是，在其他一些实施例中，上述电子设备也可以不是便携式电子设备，而是台式计算机。

第一部分，本申请实施例所公开的示例应用场景介绍如下。

图1A示出了本申请所适用的人体重建插帧方法的场景示意图，如图1A所示，该场景为摄像模块捕获人体虚拟形象场景，在该场景中，可通过摄像机捕获目标用户对应的人体的图像帧数据，并根据该人体图像重建出带有语义信息的人体模型，用户开通过图1A所示的个性化重建界面，根据上述人体模型生成虚拟形象，该虚拟形象可指对该人体模型中的衣服、嘴唇形状、肩宽、脖子长短等个性化设置得到的一个全新的虚拟形象，可根据该虚拟形象得到目标人体模型。具体可通过该编辑界面获取该目标用户不同关节点(脖子、腰部、肩部等关节部位对应的关节点)的相关参数，如图1B所示，为一种人体关节点的示意图，可包括由摄像传感器捕获得到人体的图像帧数据；该人体图像中包括多个关节点(如图人体中白点所示)，每一关节点可对应人体中的一个关节。图1A所示的编辑界面包括控件脖子、肩宽、肩高、胳膊、肚子、腰部、胸、腰长、臀部、嘴唇、衣服、模型，当点击控件脖子时，获取脖子参数获取窗口，当点击控件肩宽时，获取肩宽的参数获取窗口，最终，基于用户的编辑操作调整目标人体模型。

需要说明的是，在本申请中，也可以由用户初始设置虚拟形象中相关衣物或者肩宽等参数，在虚拟形象的实际应用中，上述目标人体模型所对应的虚拟形象也可以根据摄像头机实时获取的相机图像实时更新该虚拟形象对应的相关参数，并得到一个实时的全新的虚拟形象，具体的应用方式在此不作限定。

在具体场景中，可根据上述目标人体模型中关节点的位置和姿态来驱动虚拟衣物，以使得虚拟衣物与人体之前贴合。

第二部分，本申请实施例所公开的权要保护范围介绍如下。

请参阅图2，图2是本申请实施例提供了一种人体重建插帧方法的流程示意图，应用于电子设备，如图所示，本人体重建插帧方法包括以下操作。

S201、获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数。

其中，电子设备可提前设置处理帧队列，该处理帧队列中可放置多帧由摄像模块拍摄得到的图像帧。具体的，电子设备可从摄像模块传感器中获取上述图像帧，并压入该处理帧队列中，用于人体重建的图形处理器(graphics processing unit，GPU)可获取该处理帧队列中的最新一帧图像，并通过实时人体重建网络模型进行实时人体重建，并将没时间处理的其他帧压入姿态预测网络模型中，由姿态预测网络模型完成人体重建结果的预测。

S202、将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数。

其中，由于GPU在通过实时人体重建网络模型实时得到实时人体重建结果时，可能需要一定的计算时间，例如该计算时间对应的时间持续时长可以是100ms，即1s仅可处理10帧图像，而摄像机的帧率一般为30hz，即每秒最多可拍摄30帧图像，因此，该GPU在1s无法实现处理30帧图像，也就是说，处理30帧图像的速度是大于摄像机拍摄得到30帧图像所需时长的。

其中，上述k和n的单位是同一层级，即若k的时间单位为ms，n的时间单位也为ms。

其中，在本申请中，可将通过GPU实时处理任意两帧图像之间的处理时长设定为n。

其中，上述实时人体重建网络模型可由电子设备系统默认或者用户提前设置，在此不作限定。该实时人体重建网络模型可用于对单帧图像实现实时人体重建。

其中，上述实时人体重建结果可包括第m帧图像中，目标用户对应的目标人体模型(如图1A所示的目标人体模型)在第k时刻所对应的人体关节点所对应的关节点位置信息和姿态参数。

其中，目标人体模型用于表征目标用户的虚拟形象；关节点位置参数和姿态参数可用于综合表征目标人体模型的运动状态以及该运动状态下的动作。

具体实现中，可通过如下图3所示的实时人体重建网络模型得到该目标用户的目标人体模型，该目标人体模型由该目标用户的关节点位置信息和姿态参数确定；进而，可基于上述实时人体重建网络模型，可获取队列中的最新的一帧图像，即摄像机采集得到的目标用户在第k时刻的相机图像，确定该目标人体模型在第k时刻的关节点位置信息和姿态参数，进而，有利于确定该目标人体模型对应的实时动作。

示例的，如图3所示，为一种实时人体重建网络的工作原理示意图，上述实时人体重建网络模型可由用户自行设置或者系统默认，在此不作限定；该实时人体重建网络模型包括多层网络结构，该实时人体重建网络模型包括ResNet网络、两个5层CNN网络、两个2层全连接网络、5层CNN网络、2层全连接网络、三个Encode_fc3网络。

具体实现中，可事先采集的该目标用户的单帧图像对应的人体框图像(由后续关节点提取网络模型得到)导入实时人体重建网络模型，首先通过ResNet网络得到目标人体模型的模型特征向量，再将模型特征向量依次导入一个5层CNN网络和一个2层全连接网络得到目标人体模型的关节点连接关系，再将关节点连接关系依次导入一个5层CNN网络和一个2层全连接网络，得到关节点置信图，将关节点置信图通过三个Encode_fc3网络迭代优化得到关节点位置参数、姿态参数、人体掩模mask信息和关节点位置信息等等实时人体重建结果，图中 w3包括关节点位置参数、姿态参数、人体掩模mask信息和关节点位置信息。

其中，上述Encode_fc3网络由三个全连接层构成，在训练网络的过程中全连接层之间增加Dropout层以增强网络的泛化能力。

需要说明的是，具体的实时人体重建网络模型的网络架构也可以由其他模型组成，在此不作限定；例如，上述ResNet网络也可以替换为VGG网络、MobileNet网络和EfficientNet 网络等等，在输出端，本申请采用三个连续的增量式fc3网络实现，同时可以替换为非迭代的fc3网络实现。

其中，上述关节点位置参数可包括目标用户每一关节点对应的关节点位置参数，具体可包括关节点位置坐标；姿态参数包括每一关节点对应的姿态矩阵、全局姿态矩阵等参数。上述姿态参数可用于表征该目标用户全身姿态，上述姿态矩阵可用于表征每个关节点的局部旋转和全局位置等信息。

S203、将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果。

其中，上述姿态预测网络模型可为用户自行设置或者系统默认，在此不作限定。该姿态预测网络模型可用于根据第k时刻对应的第m帧图像，预测得到在第k+1时刻该目标用户对应的预测人体重建结果，即关节点位置信息和姿态参数，以实现对第k+1时刻上述目标用户的动作或者姿态的预测。

S204、在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像。

其中，在第k时刻到第k+n时刻之间，GPU正在实时人体重建，是没有时间处理其他帧的，因此，可将其他图像帧送入姿态预测网络模型，根据上一帧图像的状态参数对目标用户的姿态进行预测，得到预测的人体重建结果。最后，可在显示屏上交替显示的是由实际人体重建结果和预测人体重建结果驱动目标人体模型得到的画面。

需要说明的是，在具体实现中，可向显示屏送显第m帧图像和实时人体重建结果，进而，电子设备或者虚拟形象输出设备可首先根据第m帧图像去实时更新该虚拟形象的相关形象参数(例如，身高、肩宽、脖子长度等等)，得到目标人体模型，进而，根据上述实时人体重建结果驱动该目标人体模型中的各个关节点，以得到一个全新的实时变化的虚拟形象，并在显示屏中显示该全新的虚拟形象。

S205、获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像。

其中，摄像模块是实时的跟拍目标用户的人体图像的，并直接输入该处理帧队列中，可在GPU处理第m帧图像时，同时获取第k+1时刻拍摄得到的第m+1帧图像。

S206、根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。

其中，上述预测人体重建结果为预测的在第k+1时刻的第m+1帧图像对应的目标用户的姿态的预测。由于第m帧图像对应的实时人体重建结果是在第k+n时刻重建得到，进而，在第k+n+1时刻可进行插帧处理，并显示第m+1帧图像和预测人体重建结果。如此，在用户层级，不影响用户的人体图像，并可根据预测人体重建结果得到该目标用户的姿态，有利于提高用户体验；相对于图像层面的插帧技术更加符合实际的运动规律。

需要说明的是，虽然送显的是第k+1时刻通过姿态预测网络模型预测得到的预测人体重建结果和第m+1帧图像；但是，在具体实现中，电子设备或者虚拟形象输出设备可根据送显第m+1帧图像实时更新虚拟形象中的相关形象参数(例如，身高、肩宽、脖子长度等等)，得到目标人体模型，进而，根据上述第k+1时刻对应的预测人体重建结果驱动该目标人体模型中的各个关节点，以得到一个全新的实时变化的虚拟形象。

其中，上述需要预测或者插帧的图像帧对应时刻或者图像帧的数量可根据GPU通过实时人体重建模型处理第m帧图像到下一帧图像的间隔时间n确定。

举例来说，如图4所示，为一种人体重建插帧方法的时序示意图，如图所示，其中，虚线圆圈表示电子设备中摄像模块实时拍摄并由摄像机传感器采集得到的相机图像的序列， k1-k7为对应时间序号。与虚线圆圈竖直方向上的黑色实心圆圈表示这一帧相机图像(第m 帧图像)被送入到了实时人体重建网络模型中。在本示例中，假设n为3个单位时间(该单位时间可根据摄像机的帧率和实时人体重建网络模型处理一帧图像所需时间确定)，在第k4 时刻得到该相机图像的实时人体重建结果。与实心圆圈连线的虚线圆圈表示k1时刻的相机图像推送到实时人体重建网络模型中，在k4时刻才能够推理得到实时人体重建结果。k2时刻和k3时刻是需要根据前一帧相机图像进行预测的人体重建结果，并根据预测人体重建结果分别进行插帧，例如，在k3时刻，电子设备可根据k2时刻由摄像机拍摄得到的相机图像通过姿态预测网络模型预测得到k3时刻的预测人体重建结果，并根据该预测人体重建结果在后续的时刻进行插帧处理。例如，虚线圆圈之间使用曲线相连表示在k5时刻送显的是k2时刻的由摄像头机拍摄得到的相机图像(第m+1帧图像)和k2时刻通过姿态预测网络模型预测得到的预测人体重建结果，在k6时刻送显的是k3时刻的由摄像头机拍摄得到的相机图像(第 m+2帧图像)和k3时刻由k2时刻拍摄得到的相机图像通过姿态预测网络模型预测得到的预测人体重建结果。如此，采用本申请实施例所提出的人体重建插帧方法能够保证送显图像只有100ms的延迟，实时送显帧率能够达到30Hz。

在一个可能的示例中，所述实时人体重建结果用于驱动所述第m帧图像中的人体关节点，所述预测人体重建结果用于驱动所述第m+1帧图像中的人体关节点；如此，可实现目标人体模型的驱动。

例如，可基于第k+1时刻所对应的预测人体重建结果，即姿态参数和关节点位置信息去更新上一次送显的相关人体重建结果(在本申请中可以是预测人体重建结果，也可以是实时人体重建结果)中所包括的姿态参数和关节点位置信息，从而使得上述目标人体模型移动或者变化起来，以实现对于目标人体模型中各个关节点的驱动。

可以看出，本申请实施例所描述的人体重建插帧方法，可获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。如此，可通过处理帧队列的方式，减少不同模型工作或者算法实现环节的阻塞等待时间，为后续的插帧过程提供算法空间。并且通过插帧的方式，根据上一帧对下一帧的人体重建结果进行预测，有利于提高人体重建的实时渲染帧率，从而避免显示图像的卡顿现象的发生。

在一种可能的示例中，在所述获取处理帧队列中的第m帧图像的同时，上述方法还可包括如下步骤：分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标，其中，每一人体关节点对应一个像素坐标；将所述每一帧图像和所述每一帧图像对应的人体框和所述像素坐标逐个输入到所述处理帧队列。

其中，由于摄像模块始终在实时拍摄目标用户的人体图像，因此，可在通过电子设备的 GPU获取处理帧队列中的第m帧图像的同时，通过另一线程实时的将拍摄得到的图像帧压到处理帧队列中，以便于GPU在处理完第m帧图像以后，实时的获取下一个帧图像。

需要说明的是，下一帧用于实时人体重建的图像帧可能不是第m+1帧图像，下一帧用于实时人体重建的图像可根据GPU实时处理第m帧图像的处理时间n以及当前摄像机对应的帧率确定。例如，当n＝100ms，帧率为30hz，即每秒拍摄得到30帧相机图像时，每100ms 可通过摄像机拍摄得到3帧相机图像，实时人体重建网络模型每100ms处理1帧相机图像，因此，若将第1帧相机图像输入实时人体重建网络模型，可将第2帧相机图像和第3帧相机图像同步输入姿态预测网络模型，那么，下一帧用于实时人体重建，即需要输入实时人体重建网络模型的图像即为第4帧相机图像。

可见，本示例中，可事先对每一帧图像进行处理，并得到用于实时人体重建或者预测人体重建的相关参数或者数据，有利于提高后续人体重建的效率。

举例来说，如图5所示，为一种人体重建插帧方法的流程示意图，可通过摄像模块传感器采集实时拍摄的多帧图像中的单帧图像，并对每一帧图像进行人体框检测和人体关节点提取，并得到人体关节点对应的像素坐标以及人体框，并将其压入到处理帧队列中。进一步地， GPU可从处理帧队列中取出最新的当前帧，并将当前帧输入实时人体重建网络模型中，对当前帧的下的其他帧(预测帧)输入姿态预测网络模型中，以预测得到对应的人体重建结果。最后，可在显示屏插帧并交替显示由实时人体重建结果和预测人体重建结果分别所得到的目标人体模型。例如，若n＝100ms，可在第400ms显示由实时人体重建结果对应的目标人体模型，在第500ms、第600ms显示的是由预测人体重建结果对应的目标人体模型，在第700ms 显示的是由实时人体重建结果对应的目标人体模型，如此，可交替显示不同人体重建结果所对应的目标人体模型，以完成对于上述虚拟形象的驱动。

在一种可能的示例中，所述分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标，包括：将所述每一帧图像输入预先训练好的关节点提取网络模型中的第三网络模块，得到所述人体关节点对应的特征向量；将所述特征向量输入所述预先训练好的关节点提取网络模型中的第四网络模型，估算得到每一所述人体关节点对应的像素坐标；根据所述每一人体关节点对应的像素坐标，确定所述人体框。

其中，上述关节点提取网络模型可为用户自行设置或者系统默认，在此不作限定；如图6所示，为一种关节点提取网络模型的架构示意图；可包括第三网络模块，即多维度混合的模型(EfficientNet)，和第四网络模块，即热力图(Heatmap)模型。

具体实现中，可将每一帧图像输入预习训练好的第二网络模型中，通过该EfficientNet 输出得到人体关节的特征向量，然后将特征向量输入到Heatmap中估计得到每一帧图像中人体关节点的像素坐标。进一步地，还可根据人体关节点的像素坐标计算得到人体框，该人体框可用于输入如图3所示的网络模型中，以确定关节点位置参数和姿态参数等信息。

可见，本申请中，可通过上述方法快速识别并确定图像帧中人体关节点的像素坐标，从而为后续人体重建做准备。

在一个可能的示例中，所述实时人体重建网络模型包括：第一网络模块和第二网络模块；所述将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，可包括如下步骤：将所述第m帧图像和所述第m帧图像对应的人体关节点对应的像素坐标输入所述第一网络模块中，得到所述第m帧图像对应的关节点位置信息；将所述关节点位置信息和预处理以后的第m帧图像输入所述第二网络模块中，得到所述第m帧图像中每一人体关节点对应的姿态参数；将所述关节点位置信息和所述每一关节点对应的姿态参数作为所述人体重建结果。

其中，上述实时人体重建网络模型可为用户自行设置或者系统默认，在此不作限定；如图7所示，为一种关节点提取网络模型的架构示意图；可包括第一网络模块，即Skeleton网络，和第二网络模块，即Mesh网络。将第m帧图像和第m帧图像对应的人体关节点对应的像素坐标导入Skeleton网络，得到3D的关节点位置信息；将得到的3D的关节点位置信息和预处理后的第m帧图像导入Mesh网络，得到第m帧图像中每一人体关节点对应的姿态参数，并通过Mesh网络将要回归的参数空间细分成有限个区间，最终的输出结果为对各个区间的置信结果，即heat map，选择置信度最高的区间作为每一关节点对应的姿态参数，该姿态参数可包括每一关节点对应的位姿参数和人体体型等信息。

在一个可能的示例中，所述将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果，上述方法可包括如下步骤：将所述第m帧图像对应的人体关节点的像素坐标输入所述姿态预测网络模型，得到在所述第m帧图像中人体关节点对应的姿态矩阵和所述姿态矩阵对应的角速度；确定所述第m帧图像和所述第m+1帧图像之间的时间差；根据所述姿态矩阵、角速度和时间差，确定在所述第m+1帧图像中所述人体关节点对应的姿态参数；确定所述第m帧图像中人体关节点对应的线速度和关节点位置；根据所述时间差、所述线速度和所述关节点位置，确定在所述第m+1帧图像中所述人体关节点对应的关节点位置信息，并将所述第m+1帧图像中所述人体关节点对应的姿态参数和所述关节点位置信息确定为所述预测人体重建结果。

其中，上述姿态预测网络模型可为用户自行设置或者系统默认，在此不作限定。

具体实现中，可将第m帧图像对应的人体关节点的像素坐标输入姿态预测网络模型，得到在第m帧图像中人体关节点对应的姿态矩阵

其中，q₀、q₁、q₂为第m帧图像中不同关节点全局姿态四元数；以及姿态矩阵对应的角速度w_n：

其中，

为四元数对时间的导数，i＝1，2，3…。

进一步地，确定第m帧图像和第m+1帧图像之间的时间差Δt；根据上述姿态矩阵、角速度w和时间差Δt，确定在第m+1帧图像中人体关节点对应的姿态参数：

q_n+1＝q_n*q(w_nΔt)；

再进一步地，可确定第m帧图像中人体关节点对应的线速度v_n和关节点位置p_n；根据所述时间差Δt、所述线速度v_n和所述关节点位置p_n，确定在所述第m+1帧图像中所述人体关节点对应的关节点位置信息p_n+1：

p_n+1＝p_n+Δt*v_n；

并将所述第m+1帧图像中所述人体关节点对应的姿态参数和所述关节点位置信息确定为所述预测人体重建结果。

可见，本示例中，可通过上述方法确定第k+1时刻的关节点位置和姿态信息，以用来驱动第k+n+1时刻该目标用户对应的目标人体模型，即虚拟形象。

请参阅图8，图8是本申请实施例提供的一种电子设备的结构示意图，如图所示，该电子设备包括处理器、存储器、通信接口以及一个或多个程序，该电子设备可包括终端设备或标签设备，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；

可以看出，本申请实施例中所描述的电子设备，可获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。如此，可通过处理帧队列的方式，减少不同模型工作或者算法实现环节的阻塞等待时间，为后续的插帧过程提供算法空间。并且通过插帧的方式，根据上一帧对下一帧的人体重建结果进行预测，有利于提高人体重建的实时渲染帧率，从而避免显示图像的卡顿现象的发生。

在一种可能的示例中，上述程序还包括用于执行以下步骤的指令：

分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标，其中，每一人体关节点对应一个像素坐标；

将所述每一帧图像和所述每一帧图像对应的人体框和所述像素坐标逐个输入到所述处理帧队列。

在一种可能的示例中，所述实时人体重建结果用于驱动所述第m帧图像中的人体关节点，所述预测人体重建结果用于驱动所述第m+1帧图像中的人体关节点。

在一种可能的示例中，所述实时人体重建网络模型包括：第一网络模块和第二网络模块；

在所述将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果方面，上述程序包括用于执行以下步骤的指令：

将所述第m帧图像和所述第m帧图像对应的人体关节点对应的像素坐标输入所述第一网络模块中，得到所述第m帧图像对应的关节点位置信息；

将所述关节点位置信息和预处理以后的第m帧图像输入所述第二网络模块中，得到所述第m帧图像中每一人体关节点对应的姿态参数；将所述关节点位置信息和所述每一关节点对应的姿态参数作为所述人体重建结果。

在一种可能的示例中，在所述分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标方面，上述程序包括用于执行以下步骤的指令：

将所述每一帧图像输入预先训练好的关节点提取网络模型中的第三网络模块，得到所述人体关节点对应的特征向量；

将所述特征向量输入所述预先训练好的关节点提取网络模型中的第四网络模型，估算得到每一所述人体关节点对应的像素坐标；

根据所述每一人体关节点对应的像素坐标，确定所述人体框。

在一种可能的示例中，在所述将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果方面，上述程序包括用于执行以下步骤的指令：

将所述第m帧图像对应的人体关节点的像素坐标输入所述姿态预测网络模型，得到在所述第m帧图像中人体关节点对应的姿态矩阵和所述姿态矩阵对应的角速度；

确定所述第m帧图像和所述第m+1帧图像之间的时间差；

根据所述姿态矩阵、角速度和时间差，确定在所述第m+1帧图像中所述人体关节点对应的姿态参数；

确定所述第m帧图像中人体关节点对应的线速度和关节点位置；

根据所述时间差、所述线速度和所述关节点位置，确定在所述第m+1帧图像中所述人体关节点对应的关节点位置信息，并将所述第m+1帧图像中所述人体关节点对应的姿态参数和所述关节点位置信息确定为所述预测人体重建结果。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图9A示出了人体重建插帧装置的示意图，如图9A所示，该人体重建插帧装置900应用于电子设备，该人体重建插帧装置900可以包括：获取单元901、输入单元902、送显单元903和插帧单元904，其中，

所述获取单元901，用于获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；

所述输入单元902，用于将所述第m帧图像输入实时人体重建网络模型中，得到所述第 m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；

所述输入单元902，还用于将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；

所述送显单元903，用于在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；

所述获取单元901，还用于获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；

所述插帧单元904，用于根据所述第m+1帧图像和所述预测人体重建结果，在所述第 k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。

可见，在本申请实施例提供的人体重建插帧装置，可获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果；在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。如此，可通过处理帧队列的方式，减少不同模型工作或者算法实现环节的阻塞等待时间，为后续的插帧过程提供算法空间。并且通过插帧的方式，根据上一帧对下一帧的人体重建结果进行预测，有利于提高人体重建的实时渲染帧率，从而避免显示图像的卡顿现象的发生。

在一种可能的示例中，图9B示出了人体重建插帧装置的示意图，如图9B所示，该人体重建插帧装置900还可以包括：关节点提取单元905，用于分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标，其中，每一人体关节点对应一个像素坐标；将所述每一帧图像和所述每一帧图像对应的人体框和所述像素坐标逐个输入到所述处理帧队列。

在所述将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果方面，上述输入单元902具体用于：

在一种可能的示例中，在所述分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标方面，上述关节点提取单元905具体用于：

在一种可能的示例中，在所述将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果方面，上述输入单元902具体用于：

确定所述第m帧图像和所述第m+1帧图像之间的时间差；

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备，用于执行上述人体重建插帧方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备的动作进行控制管理，例如，可以用于支持电子设备执行上述获取单元901、输入单元902、送显单元903、插帧单元904和关节点提取单元905执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块，可以用于支持电子设备与其他设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器、随机存取器、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人体重建插帧方法，其特征在于，包括：

获取所述处理帧队列中第k+1时刻拍摄得到的第m+1帧图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述实时人体重建结果用于驱动所述第m帧图像中的人体关节点，所述预测人体重建结果用于驱动所述第m+1帧图像中的人体关节点。

4.根据权利要求3所述的方法，其特征在于，所述实时人体重建网络模型包括：第一网络模块和第二网络模块；

所述将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述分别对所述多帧图像中每一帧图像进行人体框检测和人体关节点提取，得到每一帧图像对应的人体框和人体关节点对应的像素坐标，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第m帧图像输入姿态预测网络模型，得到第k+1时刻对应的预测人体重建结果，包括：

确定所述第m帧图像和所述第m+1帧图像之间的时间差；

7.一种人体重建插帧装置，其特征在于，所述装置包括：获取单元、输入单元、送显单元和插帧单元，其中，

所述获取单元，用于获取处理帧队列中的第m帧图像，其中，所述处理帧队列中包括按照时间顺序排列的由摄像模块实时拍摄得到的多帧图像，所述第m帧图像的拍摄时刻为第k时刻，k、m均为正整数；

所述输入单元，用于将所述第m帧图像输入实时人体重建网络模型中，得到所述第m帧图像对应的实时人体重建结果，并确定计算出所述实时人体重建结果的时刻为第k+n时刻，n为正整数；

所述送显单元，用于在所述第k+n时刻向显示屏送显所述实时人体重建结果和所述第m帧图像；

所述插帧单元，用于根据所述第m+1帧图像和所述预测人体重建结果，在所述第k+n+1时刻进行插帧处理，并向所述显示屏送显所述预测人体重建结果和所述第m+1帧图像。

8.一种电子设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。

10.一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如权利要求1-6任一项所描述的方法。