CN114866857A

CN114866857A - 一种显示方法、装置、直播系统、设备及存储介质

Info

Publication number: CN114866857A
Application number: CN202210406648.3A
Authority: CN
Inventors: 钱立辉; 韩欣彤
Original assignee: Foshan Huya Huxin Technology Co ltd
Current assignee: Foshan Huya Huxin Technology Co ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-08-05

Abstract

本申请提供一种显示方法、装置、直播系统、设备及存储介质。显示方法包括：响应于特效生成指令，获取待处理的视频帧中的人体关键点数据；特效生成指令包括指定的特效物体以及特效物体待绑定的人体关节；人体关键点数据包括各个关键点在视频帧中的位置信息；根据人体关键点数据生成人体三维模型；以及，根据人体关键点数据中与待绑定的人体关节相关的目标关键点数据，确定特效物体的物体三维模型相对于人体三维模型的位姿；根据位置信息以及位姿，对人体三维模型和物体三维模型进行渲染，生成特效图像；将特效图像和视频帧进行叠加显示；位置信息用于使人体三维模型和视频帧中的人体在叠加后重合。本实施例实现特效物体跟随绑定关节运动的效果。

Description

一种显示方法、装置、直播系统、设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种显示方法、装置、直播系统、设备及存储介质。

背景技术

随着技术的发展，越来越多的用户通过终端设备拍摄相应的视频。为了进一步提高视频内容的趣味性，通常会为视频中的用户添加相应的特效。

相关技术中，为视频中的用户添加相应的特效，更多在于对用户脸部或者头部添加特效，比如将预先设定好的脸部贴图叠加到视频帧中的用户脸部。特效的添加方式较为局限，无法满足用户的多样性需求。

发明内容

有鉴于此，本申请提供一种显示方法、装置、直播系统、设备及存储介质。

具体地，本申请是通过如下技术方案实现的：

第一方面，本申请实施例提供了一种显示方法，包括：

响应于特效生成指令，获取待处理的视频帧中的人体关键点数据；所述特效生成指令包括指定的特效物体以及所述特效物体待绑定的人体关节；所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息；

根据所述人体关键点数据生成人体三维模型；以及，根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿；

根据所述位置信息以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像；

将所述特效图像和所述视频帧进行叠加显示；其中，所述位置信息用于使所述人体三维模型和所述视频帧中的人体在叠加后重合。

第二方面，本申请实施例提供了一种显示装置，包括：

数据获取模块，用于响应于特效生成指令，获取待处理的视频帧中的人体关键点数据；所述特效生成指令包括指定的特效物体以及所述特效物体待绑定的人体关节；所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息；

模型确定模块，用于根据所述人体关键点数据生成人体三维模型；以及，根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿；

模型渲染模块，用于根据所述位置信息以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像；

显示模块，用于将所述特效图像和所述视频帧进行叠加显示；其中，所述位置信息用于使所述人体三维模型和所述视频帧中的人体在叠加后重合。

第三方面，本申请实施例提供了一种直播系统，包括主播端、服务端和观众端；

所述主播端用于执行第一方面所述的方法；以及将已叠加特效图像的视频帧发送给所述服务端；

所述服务端用于将所述已叠加特效图像的视频帧分发给与所述主播端处于同一直播频道中的观众端；

所述观众端用于显示所述已叠加特效图像的视频帧。

第四方面，本申请实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述可执行指令时实现第一方面所述方法中的步骤。

第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述方法的步骤。

本实施例提供了一种显示方法，用户可以根据实际需要指定待添加的特效物体、以及该特效物体待绑定的人体关节，实现用户可以基于不同需求将特效物体添加到任意的人体关节上，满足用户对于特效添加的多样性和个性化需求。

在每一帧视频帧的特效生成过程中，根据人体关键点数据中与待绑定的人体关节相关的目标关键点数据，确定特效物体的物体三维模型相对于人体三维模型的位姿，使得物体三维模型的位置和姿态可以根据所述特效物体待绑定的人体关节的运动而相应变化，从而在播放视频帧序列时能够产生特效物体跟随绑定人体关节运动的效果。

在显示过程中，本实施例通过所述位姿来定位物体三维模型相对于人体三维模型的显示位置，通过所述位置信息来定位人体三维模型的显示位置，使所述人体三维模型和所述视频帧中的人体在叠加后重合，从而有利于保证特效物体能够在视频帧中人体的绑定关节处准确显示，使得特效物体自然融入画面中。

附图说明

图1是本申请一示例性实施例示出的一种直播架构的示意图。

图2是本申请一示例性实施例示出的交互界面的示意图。

图3是本申请一示例性实施例示出的一种显示方法的示意图。

图4是本申请一示例性实施例示出的一种参数预测模型的结构示意图。

图5是本申请一示例性实施例示出的将标准人体模型调整成视频帧对应的人体三维模型的示意图。

图6是本申请一示例性实施例示出的确定初始位姿的示意图。

图7是本申请一示例性实施例示出的物体三维模型和人体三维模型叠加效果图。

图8是本申请一示例性实施例示出的叠加特效图像和视频帧的示意图。

图9A是本申请一示例性实施例示出的特效图像的示意图。

图9B是本申请一示例性实施例示出的叠加了特效物体的视频帧的示意图。

图10是本申请一示例性实施例示出的另一种参数预测模型的结构示意图。

图11是本申请一示例性实施例示出的一种显示装置的结构示意图。

图12是本申请一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着技术的发展，越来越多的用户通过终端设备拍摄相应的视频。为了进一步提高视频内容的趣味性，通常会为视频中的用户添加相应的特效。相关技术中，为视频中的用户添加相应的特效，更多在于对用户脸部或者头部添加特效，比如将预先设定好的脸部贴图叠加到视频帧中的用户脸部。特效的添加方式较为局限，无法满足用户的多样性需求。

基于相关技术中的问题，本申请实施例提供了一种显示方法，用户可以根据实际需要指定待添加的特效物体、以及该特效物体待绑定的人体关节，实现用户可以基于不同需求将特效物体添加到任意的人体关节上，满足用户对于特效添加的多样性和个性化需求。

在每一帧视频帧的特效生成过程中，在根据视频帧中的人体关键点数据生成人体三维模型之后，根据人体关键点数据中与待绑定的人体关节相关的目标关键点数据，确定特效物体的物体三维模型相对于人体三维模型的位姿；即是说，所述物体三维模型的位置和姿态需要基于所述特效物体待绑定的人体关节来确定，使得物体三维模型的位置和姿态可以根据所述特效物体待绑定的人体关节的运动而相应变化，从而在播放视频帧序列时能够产生特效物体跟随绑定人体关节运动的效果。

并且，所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息，在生成特效图像时，能够根据所述位置信息以及所述位姿对所述人体三维模型和所述物体三维模型进行渲染，使得在将特效图像和所述视频帧叠加显示之后，所述人体三维模型和所述视频帧中的人体可以在叠加后重合，所述物体三维模型相对于所述视频帧中的人体的待绑定人体关节显示，本实施例通过所述位置信息来定位人体三维模型的显示位置，通过所述位姿来定位物体三维模型相对于人体三维模型的显示位置，所述人体三维模型和所述视频帧中的人体在叠加后重合，从而有利于保证特效物体能够在视频帧中人体的绑定关节处准确显示，使得特效物体自然融入画面中。

在一些实施例中，本申请实施例提供的显示方法可以由电子设备来执行，所述电子设备包括但不限于计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理或者服务器等具有数据处理能力的设备。示例性的，所述电子设备包括有存储器和处理器，所述存储器上存储有所述显示方法的可执行指令，以便处理器在执行所述可执行指令时能够实现所述分配任务处理方法。示例性的，所述显示方法可以封装成一计算机程序产品，并集成在所述电子设备中。

在一示例性的应用场景中，所述显示方法可以应用于直播场景中，比如可以在直播过程中为直播视频实时添加特效。为了更好地理解本申请所公开的显示方法，这里先对直播网络结构进行示例性说明，如图1所示，图1是本申请根据一示例性实施例示出的一种直播网络架构示意图。该直播网络架构可以包括服务端10及多个终端20。其中，服务端10可以称为后台服务器、组件服务器等，用于提供网络直播的后台服务。服务端10可以包括服务器、服务器集群或者云平台，也可以是执行服务的程序。终端20可以是具有网络直播功能的智能终端，例如，智能终端可以是智能手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、多媒体播放器、可穿戴设备等等。

在直播网络结构中，终端20可以分为主播终端21和观众终端22。主播终端21内安装有主播客户端，观众终端22中安装有观众客户端。主播客户端和观众客户端可以是同一种视频直播应用程序，即视频直播应用程序既具有直播模式，又具有观众模式，例如“虎牙直播”；主播客户端和观众客户端也可以是不同种视频直播应用程序。针对主播客户端和观众客户端为同一种视频直播应用程序的情况，当视频直播应用程序进入主播模式时，可以将视频直播应用程序称为主播客户端(以下简称为“主播端”)；当视频直播应用程序进入观众模式时，可以将视频直播应用程序称为观众客户端(以下简称“观众端”)。安装有观众客户端的观众终端可以观看主播客户端上传的直播视频。主播终端和观众终端可以通过有线网络、无线网络或数据传输线等方式与服务端连接。

在直播网络架构中，观众可以通过观众终端21上的观众客户端登录直播网络架构的服务端，主播可以通过主播终端22上的主播客户端登录直播网络架构的服务端，且观众和主播进入同一直播频道。主播客户端向服务端上传在线直播内容，由服务端将该在线直播内容发送给登录进入该在线直播频道的观众客户端，供观众客户端的观众观看。观众客户端的观众不仅可以观看主播客户端上传的直播内容，还可以通过服务端与该直播频道的主播或其他观众进行交互。

为了使直播视频的显示效果更加丰富，进一步提升主播和观众之间的互动性，在直播过程中，直播用户可以对直播视频添加特效。如图2所示，比如可以在直播界面中设置有特效添加控件，主播端可以响应于主播用户对特效添加控件的触发操作，显示特效添加界面，所述特效添加界面中显示有多个特效物体以及人体关节绑定选项。主播用户可以根据实际需要指定待添加的特效物体，以及在人体关节绑定选项中指定待添加的特效物体即将绑定的人体关节，比如可以选择第一个特效物体，并选择该特效物体待绑定的人体关节为肩部。

主播用户在确定指定的特效物体和所述特效物体待绑定的人体关节无误之后，可以触发“确定”控件，进而主播端可以根据主播用户在特效添加界面中指定的特效物体和所述特效物体待绑定的人体关节生成特效生成指令，以及响应于所述特效生成指令，执行本申请实施例提供的显示方法，显示叠加了特效图像的视频帧。主播端还可以将该叠加了特效图像的视频帧发送给服务端，由服务端将叠加了特效图像的视频帧分发给与所述主播端处于同一直播频道中的观众端，以使所述观众端显示叠加了特效图像的视频帧。另外，主播用户在不想添加特效的情况下也可以触发“取消”控件，主播端可以返回直播界面。

当然，也可以由服务端来执行所述显示方法，比如主播端将生成的特效生成指令和直播视频帧发送给服务端，由服务端响应于所述特效生成指令，执行本申请实施例提供的显示方法，获取显示叠加了特效图像的视频帧，并将其发送给主播端和观众端，以便在主播端和观众端中分别显示叠加了特效图像的视频帧。其中，由主播端来执行本申请实施例提供的显示方法，减少了将相关信息发送给服务端的传输时延，可以满足主播用户对于叠加了特效图像的视频帧的实时性显示要求。

接下来对本申请实施例提供的显示方法进行说明：请参阅图3，图3为本申请实施例提供的一种显示方法的流程示意图，所述方法可以由电子设备来执行。所述方法包括：

在步骤S101中，响应于特效生成指令，获取待处理的视频帧中的人体关键点数据；所述特效生成指令包括指定的特效物体以及所述特效物体待绑定的人体关节；所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息。

在步骤S102中，根据所述人体关键点数据生成人体三维模型；以及，根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿。

在步骤S103中，根据所述位置信息以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像。

在步骤S104中，将所述特效图像和所述视频帧进行叠加显示；其中，所述位置信息用于使所述人体三维模型和所述视频帧中的人体在叠加后重合。

在一些实施例中，如图2所示，可以提供一特效添加界面，以供用户根据实际需要在特效添加界面中指定特效物体和指定特效物体待绑定的人体关节，在确定无误之后触发“确定”控件，以使得所述电子设备生成所述特效生成指令。

示例性的，所述特效物体可以绑定的人体关节包括但不限于人体的可动关节(比如头部、颈部、肩部、肘部、腕部、胯部、膝部、踝部等)、与肢体轮廓相关的关节(比如头顶、指尖或趾尖等)、或者与人体躯干相关的关节(比如胸部、腹部、背部、胯部等)。

响应于所述特效生成指令，所述电子设备获取待处理的视频帧。其中，所述视频帧可以是实时拍摄得到的，比如在直播场景中，所述视频帧可以是直播终端的相机实时拍摄得到的直播视频帧，安装于直播终端中的主播端(主播客户端)可以响应于所述特效生成指令，实时获取所述直播视频帧，并进行进一步处理；或者，所述视频帧也可以是从已拍摄完成的视频帧序列中获取，比如用户想要对已拍摄好的视频添加特效。

在获取待处理的视频帧之后，电子设备可以对所述视频帧进行人体关键点检测，获取人体关键点数据；所述人体关键点数据包括有人体各个关节对应的关键点、以及人体各个关节对应的关键点在所述视频帧中的位置信息(如二维坐标信息)。示例性的，人体各个关节对应的关键点包括以下24个：0)'Pelvis'(骨盆)、1)'L_Hip'(左臀)、2)'R_Hip'(右臀)、3)'Spine1'(脊柱1)、4)'L_Knee'(左膝)、5)'R_Knee'(右膝)、6)'Spine2'(脊柱2)、7)'L_Ankle'(左脚踝)、8)'R_Ankle'(右脚踝)、9)'Spine3'(脊柱3)、10)'L_Foot'(左脚)、11)'R_Foot'(右脚)、12)'Neck'(颈部)、13)'L_Collar'(左锁骨)、14)'R_Collar'(右锁骨)、15)'Head'(头部)、16)'L_Shoulder'(左肩)、17)'R_Shoulder'(右肩)、18)'L_Elbow'(左肘)、19)'R_Elbow'(右肘)、20)'L_Wrist'(左手腕)、21)'R_Wrist'(右手腕)、22)'L_Hand'(左手)、23)'R_Hand'(右手)。当然，上述关键点的数量以及部位仅为示例说明，还可以包含其他部位，本实施例对此不做任何限制。

可以理解的是，所述视频帧中可能不包含人体，也可能包含一个或多个人体。在所述视频帧不包含人体的情况下，则对所述视频帧进行人体关键点检测后获得的结果为空，则所述电子设备可以跳过该视频帧，并继续对下一帧视频帧进行处理。在所述视频帧包含有多个人体的情况下，在对所述视频帧进行人体关键点检测后，可以获得多个人体分别对应的人体关键点数据，可以依据实际应用场景的需求，只对其中一个人体的人体关键点数据进行进一步处理，将特效物体叠加到该人体上，比如随机选择其中一个人体，或者依据预设的人脸进行人体选择；也可以对多个人体的人体关键点数据均进行进一步处理，在多个人体中的每个人体上均叠加特效物体，本实施例对此不做任何限制。

对于步骤S102，在获取待处理的视频帧中的人体关键点数据之后，所述电子设备可以根据所述人体关键点数据生成人体三维模型。示例性的，所述电子设备可以根据所述人体关键点数据确定视频帧中显示的人体(人体关键点数据指示的人体)的形状参数和姿态参数，进而根据所述形状参数和所述姿态参数对预设的标准人体模型进行调整，获取所述人体三维模型。其中，所述形状参数可以描述一个人的形状，所述形状参数包括有一个或多个维度的数据，每个维度的数据可以理解为人体形状的某个指标，比如高矮、胖瘦等；所述姿态参数可以描述某个时刻人体的动作姿态，如上述例子的24个关键点均有对应的姿态参数，每个关键点对应的姿态参数描述了该关键点在多达六个自由度上的偏移量，比如描述了该关键点在预设三维坐标系上分别在x/y/z轴上的平移量以及分别绕x/y/z轴旋转的旋转量。

在一些可能的实现方式中，可以采用ResNet50网络对所述人体关键点数据进行特征提取，再使用循环神经网络(RNN)对提取的特征进行预测，获取所述形状参数和所述姿态参数。

在另一些可能的实现方式中，考虑到ResNet50网络和循环神经网络(RNN)的网络结构比较复杂，使用ResNet50网络和循环神经网络(RNN)的计算量比较大，整个处理过程延迟较高，可能无法满足某些场景如直播场景下的实时性需求。基于此，本申请实施例预先训练有一轻量化的参数预测模型，如图4所示，所述参数预测模型包括有第一神经网络层11、第二神经网络层12、形状参数预测网络13和姿态参数预测网络14；所述第一神经网络层11用于从所述人体关键点数据中提取低维度特征，低维度特征为可以从人体关键点数据中直接提取的数据，比如各个关键点的位置信息；所述第二神经网络层12用于从所述低维度特征中提取高维度特征，高维度特征为需要进一步处理得到的数据，比如关键点之间的旋转关系、平移关系等等；所述形状参数预测网络13用于对所述高维度特征进行处理，获取所述形状参数；所述姿态参数预测网络14用于对所述高维度特征进行处理，获取与人体各个关节相关的姿态参数。

示例性的，所述第一神经网络层11和所述第二神经网络层12可以是全连接层或者卷积层。所述形状参数预测网络13包括至少一层全连接层和/或卷积层，所述姿态参数预测网络14包括至少一层全连接层和/或卷积层。

所述参数预测模型基于携带有形状标签和姿态标签的人体关键点样本数据进行多任务学习得到。在训练过程中，所述电子设备可以将人体关键点样本数据输入如图4所示的模型中，获取预测形状参数和预测姿态参数；然后根据预测形状参数和所述形状标签之间的差异、以及预测姿态参数和所述姿态标签之间的差异调整模型的参数，从而获得训练好的参数预测模型。该参数预测模型的结构简单，相较于使用ResNet50网络和循环神经网络(RNN)的计算量更少，整个处理过程延迟较低，从而能够满足某些场景如直播场景下的实时性需求。

则在获取待处理的视频帧中的人体关键点数据之后，所述电子设备可以将所述人体关键点数据输入所述参数预测模型中，获取所述参数预测模型对所述人体关键点数据进行处理后输出的形状参数和姿态参数，请参阅图5，所述电子设备可以根据所述形状参数对预设的标准人体模型的形状进行调整、以及根据所述姿态参数对标准人体模型的姿态进行调整，获取所述人体三维模型。

示例性的，所述预设的标准人体模型可以是SMPL(Skinned Multi-PersonLinear)模型指示的人体模型。或者，考虑到某些场景如直播场景下的实时性需求，所述预设的标准人体模型也可以是对SMPL模型指示的人体模型进行降采样处理后得到的，降采样处理即合并所述SMPL模型指示的人体模型中相邻的三维网格点得到新三维网格点；降采样处理后得到的标准人体模型包括的三维网格点数量少于SMPL模型指示的人体模型包括的三维网格点数量，从而有利于提高计算效率。

在一些实施例中，考虑到不同电子设备的运行资源有所不同，不同场景下的实时性要求也有所不同，则为了适应于不同电子设备和/或不同场景的实时性要求，所述标准人体模型包括的三维网格点的数量可以根据所述电子设备的运行资源和/或所述特效图像的预设处理时长来确定。

示例性的，所述标准人体模型包括的三维网格点的数量与所述电子设备的运行资源和/或所述特效图像的预设处理时长成正相关关系。所述电子设备的运行资源越多，表示所述电子设备兼顾计算效率和模型渲染效果的能力越高，则所述标准人体模型包括的三维网格点的数量可以越多；反之，所述电子设备的运行资源越少，所述标准人体模型包括的三维网格点的数量越少。所述特效图像的预设处理时长越短，表示对实时性的要求越高，为了提高处理效率，则所述标准人体模型包括的三维网格点的数量越少；反之，所述特效图像的预设处理时长越长，为了提高模型渲染效果，在预设处理时长允许范围内，所述标准人体模型包括的三维网格点的数量可以越多。本实施例有利于实现兼顾计算效率和模型渲染效果，在两者间取得平衡。

在一示例性的实施例中，可以预设一参考人体模型，且该参考人体模型指示有参考运行资源和/或参考处理时长。作为例子，比如该参考人体模型可以是SMPL模型指示的人体模型。在实际应用过程中，如果执行本申请实施例提供的显示方法的电子设备的运行资源小于参考人体模型指示的参考运行资源，则可以对所述参考人体模型进行降采样处理，合并所述参考人体模型中相邻的三维网格点，减少所述参考人体模型中三维网格点的数量，得到所述电子设备使用的标准人体模型；其中，合并的三维网格点的数量可以根据所述电子设备的运行资源和参考运行资源之间的差异来确定，差异越大，则需要合并的三维网格点的数量越多，标准人体模型包括的三维网格点数量越少。本实施例中，标准人体模型包括的三维网格点数量可以基于电子设备的运行资源进行适应性变化，从而在计算效率和模型渲染效果之间取得平衡。

在不同的应用场景中，可以根据实际需要对特效生成过程的处理时长进行设置，比如在直播场景中，由于对实时性要求较高，要求特效生成过程的处理时长尽可能短。在实际应用过程中，如果所述特效图像的预设处理时长小于所述参考人体模型指示的参考处理时长，可以对所述参考人体模型进行降采样处理，合并所述参考人体模型中相邻的三维网格点，减少所述参考人体模型中三维网格点的数量，得到所述电子设备使用的标准人体模型；其中，合并的三维网格点的数量可以根据所述特效图像的预设处理时长和参考处理时长之间的差异来确定，差异越大，则需要合并的三维网格点的数量越多，标准人体模型包括的三维网格点数量越少。本实施例中，标准人体模型包括的三维网格点数量可以基于不同场景的实时性需求进行适应性变化，从而在计算效率和模型渲染效果之间取得平衡。

在步骤S102中，在获取人体三维模型之后，所述电子设备可以根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿。本实施例中，确定物体三维模型相对于所述人体三维模型的位姿，能够使得物体三维模型的位置和姿态可以根据所述特效物体待绑定的人体关节的运动而相应变化，从而在播放视频帧序列时能够产生特效物体跟随绑定人体关节运动的效果。

示例性的，所述电子设备可以根据所述特效物体待绑定的人体关节，确定所述特效物体的物体三维模型相对于标准人体模型的初始位姿，如图6所示，假设特效物体待绑定的人体关节为人体右肩，则可以得到如图6所示的物体三维模型相对于标准人体模型的初始位姿，即为P；其中，所述标准人体模型与上述的标准人体模型属于同一个。以及，电子设备可以从所述人体关键点数据对应的姿态参数中获取所述目标关键点数据对应的姿态参数，有上述描述可知，所述人体关键点数据对应的姿态参数可以基于预先建立的参数预测模型对所述人体关键点数据进行处理得到。进而，电子设备可以根据所述目标关键点数据对应的姿态参数对所述初始位姿进行调整，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿；作为例子，假设目标关键点数据对应的姿态参数为Ri，物体三维模型相对于人体三维模型的位姿为P_new，则P_new＝R_i*P。

对于步骤S103以及步骤S104中，在确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿之后，可以根据所述位姿确定人体三维模型和物体三维模型叠加后的效果，如图7示出了特效物体的物体三维模型叠加在人体三维模型右肩上的效果。电子设备可以根据人体各个关节对应的关键点在所述视频帧中的位置信息和所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像；进而将所述特效图像和所述视频帧叠加显示在电子设备的显示界面中，其中，所述位置信息决定了所述人体三维模型在特效图像中的显示位置，以使得所述人体三维模型和所述视频帧中的人体在叠加后重合。本实施例中，所述位姿决定了所述物体三维模型相对于所述人体三维模型的显示位置，使得物体三维模型的位置和姿态可以根据所述特效物体待绑定的人体关节的运动而相应变化，从而在播放视频帧序列时能够产生特效物体跟随绑定人体关节运动的效果。并且通过所述位置信息来定位人体三维模型的显示位置，使得所述人体三维模型和所述视频帧中的人体在叠加后重合，从而有利于保证特效物体能够在视频帧中人体的绑定关节处准确显示，使得特效物体自然融入画面中。

在一些实施例中，在渲染过程中，所述人体三维模型使用透明色渲染，所述物体三维模型使用非透明色渲染，使得在特效图像和所述视频帧叠加时可以把视频帧中的人体内容展示出来。在一个例子中，请参阅图8，所述人体三维模型使用透明色渲染，可以看到图8中显示的特效图像中仅显示有物体三维模型，在将特效图像和视频帧进行叠加之后，可以得到图8右侧所示的叠加了特效物体的视频帧。

其中，本申请实施例在生成特效图像的过程中也需要渲染人体三维模型，是为了保证物体三维模型的正确显示，随着用户的运动可能存在遮挡到特效物体的情况，在未渲染人体三维模型的情况下，特效物体对应的物体三维模型在人体运动过程中可能出现错误显示情况，比如随着用户的运动可能出现用户的手臂遮挡到特效物体，在正常情况下特效物体被遮挡部分是看不见的(即不显示的)，但是在未渲染人体三维模型的情况下，特效物体仍然显示了被遮挡部分，不符合视觉显示原理，因此，需要对人体三维模型也进行渲染，从而保证物体三维模型的显示准确性，比如请参阅图9A，随着用户身体出现了转动，物体三维模型的部分被人体三维模型所遮挡，从而出现如图9A所示的特效图像，在将特效图像叠加到视频帧后，可以得到如图9B所示的叠加了特效物体的视频帧。

另外，考虑到人体三维模型最后是无需显示的，则对于人体三维模型的渲染效果要求相对较低，因此上述相关的标准人体模型所包括的三维网格点数量可以设置得少一些，从而有利于提高计算效率。

当然，在有些应用场景中，所述人体三维模型也可以使用非透明色渲染，本实施例对此不做任何限制。

在一些实施例中，所述特效图像和所述视频帧的分辨率和/或尺寸相同，从而使得所述特征图像和所述视频帧能够在叠加后重合。

在一些实施例中，所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息，电子设备可以根据所述人体关键点数据来获取相机拍摄所述视频帧时的相机外参(或者说相机位姿)，该相机外参可以指示所述人体关键点数据对应的人体在视频帧中的相对显示位置，进而所述电子设备利用所述相机外参以及所述位姿对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像，由于相机外参相同，可以使得所述人体三维模型在特效图像中的相对显示位置与视频帧中的人体在视频帧中的相对显示位置相同，从而在将所述特效图像和所述视频帧进行叠加显示时，所述人体三维模型和所述视频帧中的人体重合。

在一种可能的实现方式中，电子设备可以对所述人体关键点数据进行特征提取，进而基于提取的特征来确定所述视频帧对应的相机外参。

在另一种可能的实现方式中，考虑到上述的参数预测模型在获取形状参数和姿态参数时也需要先从人体关键点数据提取特征，则可以复用上述参数预测模型中的第一神经网络层11和第二神经网络层12，进而在所述参数预测模型中增加用于预测相机外参的相机参数预测网络15，使得所述参数预测模型还用于对所述人体关键点数据进行处理后输出相机外参，从而有利于提高计算效率。

请参阅图10，所述参数预测模型包括第一神经网络层11、第二神经网络层12、形状参数预测网络13、姿态参数预测网络14和相机参数预测网络15；所述第一神经网络层11用于从所述人体关键点数据中提取低维度特征，比如各个关键点的位置信息；所述第二神经网络层12用于从所述低维度特征中提取高维度特征，比如各个关键点之间的旋转关系、相对位移等等；所述形状参数预测网络13用于对所述高维度特征进行处理，获取所述形状参数；所述姿态参数预测网络14用于对所述高维度特征进行处理，获取与人体各个关节相关的姿态参数；所述相机参数预测网络15用于对所述高维度特征进行处理，获取所述相机外参。示例性的，所述相机参数预测网络15包括至少一层全连接层和/或卷积层。

所述参数预测模型基于携带有形状标签、姿态标签和外参标签的人体关键点样本数据进行多任务学习得到。在训练过程中，所述电子设备可以将人体关键点样本数据输入如图10所示的模型中，获取预测形状参数、预测姿态参数和预测相机外参；然后根据预测形状参数和所述形状标签之间的差异、预测姿态参数和所述姿态标签之间的差异、以及预测相机外参和所述外参标签之间的差异调整模型的参数，从而获得训练好的参数预测模型。该参数预测模型的结构简单，且通过对第一神经网络层11和第二神经网络层12的复用，能够减少预测过程中的计算量，提高计算效率。

相应的，请参阅图11，本申请实施例还提供了一种显示装置，包括：

数据获取模块201，用于响应于特效生成指令，获取待处理的视频帧中的人体关键点数据；所述特效生成指令包括指定的特效物体以及所述特效物体待绑定的人体关节；所述人体关键点数据包括人体各个关节对应的关键点在所述视频帧中的位置信息；

模型确定模块202，用于根据所述人体关键点数据生成人体三维模型；以及，根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿；

模型渲染模块203，用于根据所述位置信息以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，生成特效图像；

显示模块204，用于将所述特效图像和所述视频帧进行叠加显示；其中，所述位置信息用于使所述人体三维模型和所述视频帧中的人体在叠加后重合。

在一些实施例中，所述模型确定模块202包括：

参数获取单元，用于将所述人体关键点数据输入预先建立的参数预测模型中，获取所述参数预测模型对所述人体关键点数据进行处理后输出的形状参数和姿态参数；

模型调整单元，用于根据所述形状参数和所述姿态参数对预设的标准人体模型进行调整，获取所述人体三维模型。

在一些实施例中，所述显示方法应用于电子设备；所述标准人体模型包括的三维网格点的数量与所述电子设备的运行资源和/或所述特效图像的预设处理时长成正相关关系。

在一些实施例中，若所述电子设备的运行资源小于参考人体模型指示的参考运行资源、和/或所述特效图像的预设处理时长小于所述参考人体模型指示的参考处理时长，所述标准人体模型为合并所述参考人体模型中相邻的三维网格点得到。

在一些实施例中，所述参数预测模型还用于对所述人体关键点数据进行处理后输出相机外参；所述相机外参用于指示所述人体关键点数据对应的人体在视频帧中的相对显示位置；所述模型渲染模块203具体用于根据所述相机外参以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染；所述相机外参用于使所述人体三维模型和所述人体关键点数据对应的人体在叠加后重合。

在一些实施例中，所述参数预测模型包括第一神经网络层、第二神经网络层、形状参数预测网络、姿态参数预测网络和相机参数预测网络；所述第一神经网络层用于从所述人体关键点数据中提取低维度特征；所述第二神经网络层用于从所述低维度特征中提取高维度特征；所述形状参数预测网络用于对所述高维度特征进行处理，获取所述形状参数；所述姿态参数预测网络用于对所述高维度特征进行处理，获取与人体各个关节相关的姿态参数；所述相机参数预测网络用于对所述高维度特征进行处理，获取所述相机外参。

在一些实施例中，所述参数预测模型基于携带有形状标签、姿态标签和外参标签的人体关键点样本数据进行多任务学习得到。

在一些实施例中，所述模型确定模块202包括：

初始位姿确定单元，用于根据所述特效物体待绑定的人体关节，确定所述特效物体的物体三维模型相对于标准人体模型的初始位姿；

参数获取单元，用于获取所述目标关键点数据对应的姿态参数；

相对位姿确定单元，用于根据所述目标关键点数据对应的姿态参数对所述初始位姿进行调整，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿。

在一些实施例中，所述人体三维模型使用透明色渲染；所述特效图像和所述视频帧的分辨率和/或尺寸相同。

在一些实施例中，所述视频帧包括直播视频帧，所述直播视频帧为主播端响应于特效生成指令，在直播过程中实时获取的。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应地，请参阅图12，本申请实施例还提供了一种电子设备300，包括：存储器302、处理器301及存储在存储器302上并可在处理器301上运行的可执行指令，所述处理器301执行所述可执行指令时实现上述所述方法中的步骤。

所述处理器301执行所述存储器302中包括的可执行指令，所述处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器302存储显示方法的可执行指令，所述存储器302可以包括至少一种类型的存储介质，存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，设备可以与通过网络连接执行存储器的存储功能的网络存储装置协作。存储器302可以是设备300的内部存储单元，例如设备300的硬盘或内存。存储器302也可以是设备300的外部存储设备，例如设备300上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器302还可以既包括设备300的内部存储单元也包括外部存储设备。存储器302用于存储可执行指令以及设备所需的其他程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

这里描述的各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器中并且由控制器执行。

电子设备300可以是桌上型计算机、笔记本、掌上电脑、服务器、云服务器及手机等计算设备。设备可包括，但不仅限于，处理器301、存储器302。本领域技术人员可以理解，图12仅仅是电子设备300的示例，并不构成对电子设备300的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如设备还可以包括输入输出设备、网络接入设备、总线等。

上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当存储介质中的指令由终端的处理器执行时，使得终端能够执行上述方法。

在一些实施例中，本申请实施例还提供了一种直播系统，包括主播端、服务端和观众端。

所述主播端用于执行上述方法；以及将已叠加特效图像的视频帧发送给所述服务端。

所述服务端用于将所述已叠加特效图像的视频帧分发给与所述主播端处于同一直播频道中的观众端。

所述观众端用于显示所述已叠加特效图像的视频帧。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种显示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述人体关键点数据生成人体三维模型，包括：

将所述人体关键点数据输入预先建立的参数预测模型中，获取所述参数预测模型对所述人体关键点数据进行处理后输出的形状参数和姿态参数；

根据所述形状参数和所述姿态参数对预设的标准人体模型进行调整，获取所述人体三维模型。

3.根据权利要求2所述的方法，其特征在于，所述显示方法应用于电子设备；

所述标准人体模型包括的三维网格点的数量与所述电子设备的运行资源和/或所述特效图像的预设处理时长成正相关关系。

4.根据权利要求3所述的方法，其特征在于，若所述电子设备的运行资源小于参考人体模型指示的参考运行资源、和/或所述特效图像的预设处理时长小于所述参考人体模型指示的参考处理时长，所述标准人体模型为合并所述参考人体模型中相邻的三维网格点得到。

5.根据权利要求2所述的方法，其特征在于，所述参数预测模型还用于对所述人体关键点数据进行处理后输出相机外参；所述相机外参用于指示所述人体关键点数据对应的人体在视频帧中的相对显示位置；

所述根据所述位置信息以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染，包括：

根据所述相机外参以及所述位姿，对所述人体三维模型和所述物体三维模型进行渲染；所述相机外参用于使所述人体三维模型和所述人体关键点数据对应的人体在叠加后重合。

6.根据权利要求5所述的方法，其特征在于，所述参数预测模型包括第一神经网络层、第二神经网络层、形状参数预测网络、姿态参数预测网络和相机参数预测网络；

所述第一神经网络层用于从所述人体关键点数据中提取低维度特征；

所述第二神经网络层用于从所述低维度特征中提取高维度特征；

所述形状参数预测网络用于对所述高维度特征进行处理，获取所述形状参数；

所述姿态参数预测网络用于对所述高维度特征进行处理，获取与人体各个关节相关的姿态参数；

所述相机参数预测网络用于对所述高维度特征进行处理，获取所述相机外参。

7.根据权利要求6所述的方法，其特征在于，所述参数预测模型基于携带有形状标签、姿态标签和外参标签的人体关键点样本数据进行多任务学习得到。

8.根据权利要求1或2所述的方法，其特征在于，所述根据所述人体关键点数据中与所述待绑定的人体关节相关的目标关键点数据，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿，包括：

根据所述特效物体待绑定的人体关节，确定所述特效物体的物体三维模型相对于标准人体模型的初始位姿；

获取所述目标关键点数据对应的姿态参数；

根据所述目标关键点数据对应的姿态参数对所述初始位姿进行调整，确定所述特效物体的物体三维模型相对于所述人体三维模型的位姿。

9.根据权利要求1至7任意一项所述的方法，其特征在于，所述人体三维模型使用透明色渲染；

所述特效图像和所述视频帧的分辨率和/或尺寸相同。

10.根据权利要求1至7任意一项所述的方法，其特征在于，所述视频帧包括直播视频帧，所述直播视频帧为主播端响应于特效生成指令，在直播过程中实时获取的。

11.一种显示装置，其特征在于，包括：

12.一种直播系统，其特征在于，包括主播端、服务端和观众端；

所述主播端用于执行权利要求1至10任意一项所述的方法；以及将已叠加特效图像的视频帧发送给所述服务端；

所述观众端用于显示所述已叠加特效图像的视频帧。

13.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令，所述处理器执行所述可执行指令时实现如权利要求1至10任意一项所述方法中的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10任意一项所述方法的步骤。