CN113034652A

CN113034652A - 虚拟形象驱动方法、装置、设备及存储介质

Info

Publication number: CN113034652A
Application number: CN202110419205.3A
Authority: CN
Inventors: 钱立辉; 韩欣彤; 董浩业; 王法强
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-06-25

Abstract

本发明实施例公开了一种虚拟形象驱动方法、装置、设备及存储介质。该方法包括：获取目标视频帧，并将所述目标视频帧输入虚拟形象驱动模型；所述目标视频帧中包括与目标虚拟形象对应的目标对象；通过所述虚拟形象驱动模型，提取与所述目标视频帧对应的图像特征和人体关键点特征，并将所述图像特征与所述人体关键点特征进行特征融合；获取所述虚拟形象驱动模型根据融合特征预测出的驱动信号；根据所述驱动信号，驱动所述目标虚拟形象做出与所述目标视频帧中的目标对象相同的动作。本发明实施例的技术方案，通过融合图像特征与人体关键点特征来驱动虚拟形象，在满足实时性的同时提高虚拟形象的驱动准确度。

Description

虚拟形象驱动方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能和计算机视觉技术领域，尤其涉及一种虚拟形象驱动方法、装置、设备及存储介质。

背景技术

近年来，随着基于人工智能的计算机视觉技术得到快速发展，根据图像驱动虚拟形象进行相应动作，在体感游戏、虚拟现实、安防、监控等多个领域都有较大的应用前景。目前，在根据图像驱动虚拟形象时，如果使用计算量较大的模型，则会有较长的延迟时间，较难应用到用户客户端中；如果使用计算量较小的驱动模型则较难训练收敛，且驱动效果较差。

发明内容

本发明实施例提供一种虚拟形象驱动方法、装置、设备及存储介质，以通过融合图像特征与人体关键点特征来驱动虚拟形象，在满足实时性的同时提高虚拟形象的驱动准确度。

第一方面，本发明实施例提供了一种虚拟形象驱动方法，包括：

获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型；目标视频帧中包括与目标虚拟形象对应的目标对象；

通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合；

获取虚拟形象驱动模型根据融合特征预测出的驱动信号；

根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

可选的，通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，包括：

通过虚拟形象驱动模型中的第一特征提取网络，提取与目标视频帧对应的图像特征；

通过虚拟形象驱动模型中的解码器网络，获取与图像特征对应的二维人体关键点坐标；

通过虚拟形象驱动模型中的第二特征提取网络，对二维人体关键点坐标进行特征提取，得到人体关键点特征。

可选的，第一特征提取网络为MobileNet V3网络；第二特征提取网络为六层的全连接神经网络。

可选的，获取虚拟形象驱动模型根据融合特征预测出的驱动信号，包括：

通过虚拟形象驱动模型中的全连接层，将所述融合特征与各全连接层的加权矩阵做乘积运算，以将融合特征映射为六维空间数据；

将六维空间数据转换为四元数，得到与目标视频帧对应的驱动信号。

可选的，在获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型之前，还包括：

使用数据集COCO对虚拟形象驱动模型中的第一特征提取网络进行人体关键点检测任务预训练。

定义虚拟形象驱动模型的损失函数为驱动信号的损失函数和人体关键点坐标的损失函数之和；

其中，驱动信号的损失函数为投影二维人体关键点的误差以及预测的驱动信号与真实驱动信号的误差之和；

人体关键点坐标的损失函数为各预测的二维人体关键点坐标与真实的二维人体关键点坐标之间的均方误差；

驱动信号的损失函数与人体关键点坐标的损失函数互相独立。

可选的，根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作，包括：

根据驱动信号，确定各人体关键点的目标姿态数据；

将目标虚拟形象的各人体关键点的姿态数据更新为相应的目标姿态数据，以驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

第二方面，本发明实施例还提供了一种虚拟形象驱动装置，包括：

模型输入模块，用于获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型；目标视频帧中包括与目标虚拟形象对应的目标对象；

特征融合模块，用于通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合；

预测模块，用于获取虚拟形象驱动模型根据融合特征预测出的驱动信号；

驱动模块，用于根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

第三方面，本发明实施例还提供了一种电子设备，设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明任意实施例提供的虚拟形象驱动方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的虚拟形象驱动方法。

本发明实施例中，通过获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型；目标视频帧中包括与目标虚拟形象对应的目标对象；通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合；获取虚拟形象驱动模型根据融合特征预测出的驱动信号；根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作，解决了现有技术中驱动虚拟形象时不能兼顾延迟时间和驱动效果的问题，通过融合图像特征与人体关键点特征来驱动虚拟形象，在满足实时性的同时提高虚拟形象的驱动准确度。

附图说明

图1是本发明实施例一中的一种虚拟形象驱动方法的流程图；

图2a是本发明实施例二中的一种虚拟形象驱动方法的流程图；

图2b是本发明实施例二中的一种虚拟形象驱动模型的网络架构；

图3是本发明实施例三中的一种虚拟形象驱动装置的结构示意图；

图4是本发明实施例四中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种虚拟形象驱动方法的流程图，本实施例可适用于根据视频帧驱动虚拟形象做出相应动作的情况，该方法可以由虚拟形象驱动装置来执行，该装置可以由硬件和/或软件来实现，并一般可以集成在提供虚拟形象驱动服务的电子设备中。如图1所示，该方法包括：

步骤110、获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型；目标视频帧中包括与目标虚拟形象对应的目标对象。

本实施例中，目标视频帧可以是直播视频或者某个指定视频中截取的一张图片，可以是从网络上下载的图片，或者是摄像头实时采集的图片等。目标对象可以是目标视频帧中出现的任意一个人，例如直播视频帧中的主播，赛事图中的运动员等等，目标虚拟对象可以是与目标对象对应的二次元人物形象。

本实施例中，在获取目标视频帧之后，可以将目标视频帧输入到虚拟形象驱动模型中，以通过虚拟形象驱动模型识别目标视频帧中的目标对象，并确定目标对象的当前姿态。

步骤120、通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合。

本实施例中，为了可以通过较少的计算量获得准确度较高的驱动信号，在将目标视频帧输入虚拟形象驱动模型之后，可以通过虚拟形象驱动模型从目标视频帧中提取图像特征，进而根据图像特征获取与目标对象对应的人体关键点特征。然后将图像特征与人体关键点特征进行融合，即，对图像特征和人体关键点特征进行特征数据拼接，得到融合特征。

其中，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。颜色特征和纹理特征都是全局特征，描述了图像或图像区域所对应的景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。人体关键点特征可以是人体上有一定自由度的关节的特征，比如颈、肩、肘、腕、腰、膝、踝等。

本实施例中，通过将图像特征与人体关键点特征进行融合，可以在获取到图像特征提供的二义性、前后景等丰富特征信息的同时，将人体关键点特征作为对感兴趣区域(肢体区域而不是背景区域)的描述，使模型着重学习感兴趣区域的特征信息，以避免因为小计算量网络造成的性能降低。

步骤130、获取虚拟形象驱动模型根据融合特征预测出的驱动信号。

本实施例中，虚拟形象驱动模型在融合图像特征与人体关键点特征之后，通过模型中的全连接层将融合特征映射生成反映目标对象当前肢体姿态的驱动信号。驱动信号实际上包括的是各个人体关键点的旋转角度，例如，肘关节点的旋转角度，膝关节点的旋转角度等。通过确定各个人体关键点的旋转角度可以进一步确定人体的肢体姿态，例如，跑步时四肢摆动的姿势等。

步骤140、根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

本实施例中，在获取虚拟形象驱动模型输出的驱动信号之后，根据驱动信号驱动目标虚拟形象从初始姿态变成与目标对象相同的姿态。例如，目标虚拟形象从双手平举的站立姿势变为与目标对象相同的跑步姿势。其中，初始姿态可以是预先为目标虚拟形象设置的固定姿势，也可以是目标虚拟形象上一次被驱动做出的姿势。

可选的，根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作，可以包括：根据驱动信号，确定各人体关键点的目标姿态数据；将目标虚拟形象的各人体关键点的姿态数据更新为相应的目标姿态数据，以驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

本实施例中，目标姿态数据是从驱动信号中获取的各人体关键点的旋转角度。可以根据各关键点的旋转角度对应调整目标虚拟形象中的人体关键点，从而当目标虚拟形象的所有人体关键点的旋转角度都调整到与驱动信号一致时，目标虚拟形象就从预设的双手平举的站立姿势变为目标对象在目标视频帧中的姿势，实现对目标虚拟形象的驱动。

实施例二

图2a是本发明实施例二中的一种虚拟形象驱动方法的流程图，本实施例在上述实施例的基础上进一步细化，提供了通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合的具体步骤。下面结合图2a对本实施例提供的一种虚拟形象驱动方法进行说明，包括以下步骤：

步骤210、对预设的机器学习模型进行训练，得到虚拟形象驱动模型。

本实施例中，为了使用较少的计算量，就能根据视频帧生成相应的驱动信号，以驱动虚拟形象进行姿势变换，可以采集已标注的视频帧作为训练集和验证集，使用训练集对预设的机器学习模型进行迭代学习训练，使用验证集对训练的模型进行验证。可以将模型输出结果代入预先定义的模型损失函数计算对应的模型损失值，使用Adam优化器，根据模型损失值对模型参数进行调整，并对调整后的模型继续训练，直至模型在验证集上达到最优，得到虚拟形象驱动模型。

其中，可以使用Adam优化器，训练50轮迭代，每轮迭代随机筛选数据训练1000步，取在验证集结果最优的模型作为最终的虚拟形象驱动模型。虚拟形象驱动模型包括第一特征提取网络、解码器网络、第二特征提取网络、全连接层等。

可选的，使用数据集COCO对虚拟形象驱动模型中的第一特征提取网络进行人体关键点检测任务预训练。

本实施例中，第一特征提取网络由于是小网络模型，计算量较少，不容易实现网络收敛，因此，可以使用数据集COCO对第一特征提取网络进行人体关键点检测任务预训练，以使第一特征提取网络能快速收敛，并且使第一特征提取网络提取得到的特征可以具有一定程度的肢体感受能力。

其中，COCO(Common Objects in Context)数据集是由微软研究院提出的大规模计算机视觉数据集，致力于对常见视觉任务进行分析与评测，包括目标检测、实例分割、人体关键点检测、全景分割等任务。

可选的，定义虚拟形象驱动模型的损失函数为驱动信号的损失函数和人体关键点坐标的损失函数之和；其中，驱动信号的损失函数为投影二维人体关键点的误差以及预测的驱动信号与真实驱动信号的误差之和；人体关键点坐标的损失函数为各预测的二维人体关键点坐标与真实的二维人体关键点坐标之间的均方误差；驱动信号的损失函数与人体关键点坐标的损失函数互相独立。

本实施例中，根据虚拟形象驱动模型生成驱动信号的过程，可以设置虚拟形象驱动模型的损失函数由两方面损失组成，一方面是驱动信号的预测损失，一方面是人体关键点坐标的预测损失。对于驱动信号的预测损失Loss_drive，包括投影二维人体关键点来提取人体关键点特征时产生的误差，以及预测的驱动信号与真实驱动信号之间的误差。对于人体关键点坐标的预测损失Loss_kp，包括各预测的二维人体关键点坐标与真实的二维人体关键点坐标之间的均方误差。其中，驱动信号的预测损失与人体关键点坐标的预测损失互不相关，即，对于驱动信号的预测损失，计算其梯度时不用传递到解码器网络。最终，虚拟形象驱动模型的损失函数可以表示为：Loss＝Loss_drive+Loss_kp。

本实施例中，人体关键点坐标的预测损失Loss_kp可以表示为：

其中，N_2D为二维人体关键点个数，K_2d ^G为真实的二维人体关键点坐标，K_2d ^p为预测的二维人体关键点的坐标。

步骤220、获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型。

其中，目标视频帧中包括与目标虚拟形象对应的目标对象。目标视频帧可以是直播视频或者某个指定视频中截取的一张图片，可以是从网络上下载的图片，或者是摄像头实时采集的图片等。目标对象可以是目标视频帧中出现的任意一个人，例如直播视频帧中的主播，赛事图中的运动员等等，目标虚拟对象可以是与目标对象对应的二次元人物形象。

步骤230、通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合。

本实施例中，由于图像特征中包括背景特征和人物特征，而人体关键点特征可以准确反映人物肢体关键点的特征，因此，可以通过将两者结合，达到准确定位人物在背景中的位置以及确定人物当前姿态的目的，避免因为小计算量网络造成性能降低。

可选的，通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，可以包括：通过虚拟形象驱动模型中的第一特征提取网络，提取与目标视频帧对应的图像特征；通过虚拟形象驱动模型中的解码器网络，获取与图像特征对应的二维人体关键点坐标；通过虚拟形象驱动模型中的第二特征提取网络，对二维人体关键点坐标进行特征提取，得到人体关键点特征。

本实施例中，如图2b所示，将目标视频帧输入虚拟形象驱动模型后，可以经过第一特征提取网络获取与目标视频帧对应的图像特征。对于图像特征，不同于以往的图像驱动算法直接预测驱动信号，而是分为两支路。其中一个支路经过一个解码器网络，预测二维人体关键点坐标，并通过第二特征提取网络，对二维人体关键点坐标进行特征提取得到人体关键点特征。然后将得到的人体关键点特征与另一支路的图像特征进行特征数据拼接，得到融合特征的特征图谱。

本实施例中，为了兼顾计算量和网络性能，选择MobileNet V3网络作为第一特征提取网络，用于输入图片，输出特征图谱。其中，MobileNet V3网络具体可以分为三个部分：起始部分包括1个卷积层，通过3x3的卷积，提取特征；中间部分包括多个卷积块；最后部分包括512个1*1的卷积核。示例性的，如果将第一样本数的224*224分辨率、三通道的图片输入第一特征提取网络，可以获取到第一特征提取网络输出第一样本数*512个特征图谱。

本实施例中，解码器网络实际上相当于反卷积网络模块。示例性的，如果将第一特征网络输出的7*7分辨率、160通道的特征图谱输入解码器网络，则通过三层反卷积网络，输出分辨率为224*224的关键点热力图。关键点热力图可以通过取最大响应值的坐标快速求得关键点的坐标。

其中，解码器网络可以根据预测的关键点坐标以及真实的关键点坐标，计算关键点坐标的预测损失Loss_kp，并根据Loss_kp不断训练，使得解码器网络预测的关键点热力图越来越准确。

示例性的，对于第二特征提取网络，如果解码器网络输出的是COCO模式的25个二维人体关键点的坐标，则在将第一样本数*50维的人体关键点坐标输入第二特征提取网络后，可以通过第二特征提取网络中的四层全连接网络，即输入50维输出128维、输入128维输出256维、输入256维输出256维、输入256维输出256维共四层，最终得到第一样本数*256的二维人体关键点特征。

随后，将第一样本数*256的二维人体关键点特征和第一样本数*512的特征图谱进行特征融合，生成第一样本数*768的特征图谱。

步骤240、获取虚拟形象驱动模型根据融合特征预测出的驱动信号。

示例性的，在生成第一样本数*768的特征图谱后，可以使用全连接网络对融合特征图谱进行映射，生成并输出第一样本数*144的驱动信号。

可选的，获取虚拟形象驱动模型根据融合特征预测出的驱动信号，可以包括：通过虚拟形象驱动模型中的全连接层，将所述融合特征与各全连接层的加权矩阵做乘积运算，以将融合特征映射为六维空间数据；将六维空间数据转换为四元数，得到与目标视频帧对应的驱动信号。

其中，常见的驱动信号为四元数(相当于四维空间数据)，而本实施例采用的是三维空间的人体关键点的旋转角度，当使用三维空间的旋转角度时，至少要五维空间向量才可以连续的表示驱动信号，即需要将融合特征至少映射为五维空间数据。基于此情况，考虑到六维空间数据与四元数的数据转换更方便，并且使用六维空间数据可以使实际网络性能更好，因此，可以将融合特征映射为六维空间数据。

本实施例中，可以将第一样本数*768的特征图谱作为输入向量输入全连接层，与各全连接层的加权矩阵做乘积运算，以将融合特征的特征图谱映射生成第一样本数*144的六维空间数据。其中，全连接层包括：输入768维输出512维、输入512维输出256维、输入256维输出144维共三层全连接层。然后将六维空间数据转为转换矩阵，例如，对六维空间数据进行规范化处理得到第一向量，对六维空间数据进行正交化处理得到第二向量，将第一向量与第二向量的向量积作为旋转矩阵。然后根据现有的旋转矩阵与四元数的转换方式，例如，对旋转矩阵元素进行相乘、相除、反三角函数等操作，从旋转矩阵中提取出四元数，得到网络模型输出的驱动信号。

本实施例中，全连接层的输入和输出都是向量，本地保存有训练得到的加权矩阵，全连接层实际上是将存储的加权矩阵乘以输入的向量，得到输出的结果，本质就是由一个特征空间线性变换到另一个特征空间，将有用的信息提取整合。其中，全连接层通过训练不断改善加权矩阵的数值，使得加权矩阵与输入向量的乘积结果更逼近期望的真实值。

步骤250、根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

需要说明的是，通过实验发现，对比只使用图像特征驱动虚拟形象的方案，本实施例的技术方案在网络性能上提升了5.1％，而延时仅增加2ms，满足实时性要求。此外，对比只使用关键点预测的虚拟形象驱动方案，本实施例在驱动信号的二义性上有明显提升。

实施例三

图3是本发明实施例三中的一种虚拟形象驱动装置的结构示意图，本实施例可适用于根据视频帧驱动虚拟形象做出相应动作的情况，该装置可以由硬件和/或软件来实现，并一般可以集成在提供虚拟形象驱动服务的电子设备中。如图3所示，该装置包括：模型输入模块310，特征融合模块320，预测模块330以及驱动模块340；

模型输入模块310，用于获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型；目标视频帧中包括与目标虚拟形象对应的目标对象；

特征融合模块320，用于通过虚拟形象驱动模型，提取与目标视频帧对应的图像特征和人体关键点特征，并将图像特征与人体关键点特征进行特征融合；

预测模块330，用于获取虚拟形象驱动模型根据融合特征预测出的驱动信号；

驱动模块340，用于根据驱动信号，驱动目标虚拟形象做出与目标视频帧中的目标对象相同的动作。

可选的，特征融合模块320，用于：

可选的，预测模块330，用于：

通过虚拟形象驱动模型中的全连接层，将所述融合特征与各全连接层的加权矩阵做乘积运算，以将融合特征映射为六维空间数据；将六维空间数据转换为四元数，得到与目标视频帧对应的驱动信号。

可选的，还包括：预训练模块，用于在获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型之前，使用数据集COCO对虚拟形象驱动模型中的第一特征提取网络进行人体关键点检测任务预训练。

可选的，还包括：损失函数定义模块，用于在获取目标视频帧，并将目标视频帧输入虚拟形象驱动模型之前，定义虚拟形象驱动模型的损失函数为驱动信号的损失函数和人体关键点坐标的损失函数之和；

可选的，驱动模块340，用于：

根据驱动信号，确定各人体关键点的目标姿态数据；

本发明实施例所提供的虚拟形象驱动装置可执行本发明任意实施例所提供的虚拟形象驱动方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四中的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备12的框图。图4显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的虚拟形象驱动方法。

也即：实现一种虚拟形象驱动方法，包括：

获取虚拟形象驱动模型根据融合特征预测出的驱动信号；

实施例五

本发明实施例五还公开了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种虚拟形象驱动方法，包括：

获取虚拟形象驱动模型根据融合特征预测出的驱动信号；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种虚拟形象驱动方法，其特征在于，包括：

获取目标视频帧，并将所述目标视频帧输入虚拟形象驱动模型；所述目标视频帧中包括与目标虚拟形象对应的目标对象；

通过所述虚拟形象驱动模型，提取与所述目标视频帧对应的图像特征和人体关键点特征，并将所述图像特征与所述人体关键点特征进行特征融合；

获取所述虚拟形象驱动模型根据融合特征预测出的驱动信号；

根据所述驱动信号，驱动所述目标虚拟形象做出与所述目标视频帧中的目标对象相同的动作。

2.根据权利要求1所述的方法，其特征在于，通过所述虚拟形象驱动模型，提取与所述目标视频帧对应的图像特征和人体关键点特征，包括：

通过所述虚拟形象驱动模型中的第一特征提取网络，提取与所述目标视频帧对应的图像特征；

通过所述虚拟形象驱动模型中的解码器网络，获取与所述图像特征对应的二维人体关键点坐标；

通过所述虚拟形象驱动模型中的第二特征提取网络，对所述二维人体关键点坐标进行特征提取，得到人体关键点特征。

3.根据权利要求2所述的方法，其特征在于，所述第一特征提取网络为MobileNet V3网络；所述第二特征提取网络为六层的全连接神经网络。

4.根据权利要求1所述的方法，其特征在于，获取所述虚拟形象驱动模型根据融合特征预测出的驱动信号，包括：

通过所述虚拟形象驱动模型中的全连接层，将所述融合特征与各全连接层的加权矩阵做乘积运算，以将融合特征映射为六维空间数据；

将所述六维空间数据转换为四元数，得到与所述目标视频帧对应的驱动信号。

5.根据权利要求3所述的方法，其特征在于，在获取目标视频帧，并将所述目标视频帧输入虚拟形象驱动模型之前，还包括：

6.根据权利要求1所述的方法，其特征在于，在获取目标视频帧，并将所述目标视频帧输入虚拟形象驱动模型之前，还包括：

定义所述虚拟形象驱动模型的损失函数为驱动信号的损失函数和人体关键点坐标的损失函数之和；

其中，所述驱动信号的损失函数为投影二维人体关键点的误差以及预测的驱动信号与真实驱动信号的误差之和；

所述人体关键点坐标的损失函数为各预测的二维人体关键点坐标与真实的二维人体关键点坐标之间的均方误差；

所述驱动信号的损失函数与所述人体关键点坐标的损失函数互相独立。

7.根据权利要求1所述的方法，其特征在于，根据所述驱动信号，驱动所述目标虚拟形象做出与所述目标视频帧中的目标对象相同的动作，包括：

根据所述驱动信号，确定各人体关键点的目标姿态数据；

将所述目标虚拟形象的各人体关键点的姿态数据更新为相应的目标姿态数据，以驱动所述目标虚拟形象做出与所述目标视频帧中的目标对象相同的动作。

8.一种虚拟形象驱动装置，其特征在于，包括：

模型输入模块，用于获取目标视频帧，并将所述目标视频帧输入虚拟形象驱动模型；所述目标视频帧中包括与目标虚拟形象对应的目标对象；

特征融合模块，用于通过所述虚拟形象驱动模型，提取与所述目标视频帧对应的图像特征和人体关键点特征，并将所述图像特征与所述人体关键点特征进行特征融合；

预测模块，用于获取所述虚拟形象驱动模型根据融合特征预测出的驱动信号；

驱动模块，用于根据所述驱动信号，驱动所述目标虚拟形象做出与所述目标视频帧中的目标对象相同的动作。

9.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的虚拟形象驱动方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的虚拟形象驱动方法。