CN113903067A

CN113903067A - 虚拟对象视频的生成方法、装置、设备及介质

Info

Publication number: CN113903067A
Application number: CN202111212304.0A
Authority: CN
Inventors: 王鑫宇; 常向月; 刘炫鹏; 杨国基; 刘致远; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-07

Abstract

本申请涉及一种虚拟对象视频的生成方法、装置、设备及介质，涉及计算机技术领域，该虚拟对象视频的生成方法包括：获取输入信息；依据所述输入信息生成虚拟对象的脸部关键点信息，并确定所述输入信息对应的目标动作标签和目标播放时长；依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列；依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。本申请提升虚拟对象的生成效果，满足多模态交互虚拟对象生成需求。

Description

虚拟对象视频的生成方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种虚拟对象视频的生成方法、装置、设备及介质。

背景技术

多模态交互是现在人机交互发展的趋势之一。现在多模态交互虚拟对象生成是一个热门的研究方向。

在多模态交互过程中，交互虚拟对象需要做出与语义匹配的动作姿态。具体而言，在人与人的交流过程中，肢体姿态的运用在交流过程起到非常重要的作用，如方便意图理解、情感表达等。因此，交互虚拟对象根据不同语义做出与语义匹配的动作姿态是非常有必要的。

发明内容

有鉴于此，本申请提供了一种虚拟对象视频的生成方法、装置、设备及介质，以提升虚拟对象的生成效果，满足多模态交互虚拟对象生成需求。

第一方面，本申请实施例提供了一种虚拟对象视频的生成方法，包括：

获取输入信息；

依据所述输入信息生成虚拟对象的脸部关键点信息，并确定所述输入信息对应的目标动作标签和目标播放时长；

依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列；

依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。

可选的，所述依据所述输入信息生成虚拟对象的脸部关键点信息，包括：

基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息；

将所述人脸关键点信息确定为所述虚拟对象的脸部关键点信息。

可选的，所述基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息，包括：

若所述输入信息为输入文本信息，则将所述输入文本信息转换为语音信息，并将所述语音信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息；

若所述输入信息为输入语音信息，则提取所述输入语音信息对应的语音特征信息，并将所述语音特征信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息。

可选的，所述确定所述输入信息对应的目标动作标签和目标播放时长，包括：

若所述输入信息为输入语音信息，则将所述输入语音信息转换为文本信息，并依据所述文本信息进行分类，得到所述目标动作标签，以及，将所述输入语音信息对应的音频时长确定为所述目标播放时长；

若所述输入信息为输入文本信息，则将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长，以及，将所述输入文本信息对应的动作标签确定为所述目标动作标签。

可选的，所述将所述输入文本信息对应的动作标签确定为所述目标动作标签之前，还包括：

确定所述输入文本信息对应的语义信息，并将所述语义信息对应预设的动作标签确定为所述输入文本信息对应的动作标签；或者，

将所述输入文本信息输入预先训练的文本分类模型，得到所述文本分类模型输出的所述文本信息对应的动作标签。

可选的，依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列，包括：

获取目标动作标签对应的动作视频；

基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，且所述动作视频帧序列的视频帧播放时长与所述目标播放时长相匹配。

可选的，所述基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，包括：

采用所述动作视频中所包含的所有视频帧，形成动作视频帧序列；

将所述目标播放时长作为所述动作视频帧序列的视频帧播放时长。

基于所述目标播放时长，对所述动作视频中的视频帧进行采样处理，得到采样视频帧，所述采样视频帧包含所述动作视频中的首帧视频帧；

将所述采样视频帧形成的序列确定为动作视频帧序列，且所述采样视频帧形成的序列对应的播放时长与所述目标播放时长相同。

可选的，所述获取目标动作标签对应的动作视频之前，还包括：

获取所述目标动作标签对应的骨骼图信息；

将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；

基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频。

可选的，所述基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频，包括：

针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；

依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；

将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作视频。

可选的，所述获取目标动作标签对应的动作视频，包括：

将所述目标动作标签与预设的动作库中的动作标签进行匹配；

从所述动作库中提取匹配的动作标签对应的动作视频，以作为所述目标动作标签对应的动作视频。

可选的，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还包括：

获取预设的动作标签对应的骨骼图像信息；

将所述骨骼图像信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；

依据预设的默认图像帧信息，对所述输出的动作图像帧序列中的目标图像帧进行平滑处理，得到所述动作标签对应的动作视频，并存储至所述动作库。

可选的，所述获取输入信息之前，还包括：

获取录制动作视频数据；

从所述录制动作视频数据中，提取动作骨骼图像信息；

依据所述动作骨骼图像信息进行模型训练，得到所述动作生成模型。

可选的，所述依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频，包括：

依据所述人脸关键点信息生成虚拟对象的头部图像信息；

依据所述虚拟对象的头部图像信息，对所述动作视频帧序列中各动作视频帧的头部图像信息进行更新处理，得到更新后的动作视频帧序列；

基于所述更新后的动作视频帧序列，生成所述输入信息对应的虚拟对象视频。

第二方面，本申请实施例提供了一种虚拟对象视频的生成装置，包括：

输入获取模块，用于获取输入信息；

脸部关键点模块，用于依据所述输入信息生成虚拟对象的脸部关键点信息；

信息确定模块，用于确定所述输入信息对应的目标动作标签和目标播放时长；

动作视频帧序列模块，用于依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列；

虚拟对象视频模块，用于依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面任一项所述的虚拟对象视频的生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的虚拟对象视频的生成方法的步骤。

本申请实施例通过获取输入信息，生成虚拟对象的脸部关键点信息，并确定输入信息对应的目标动作标签和目标播放时长，以依据目标播放时长和目标动作标签对应的动作视频生成动作视频帧序列，随后根据动作视频帧序列和脸部关键点信息生成虚拟对象视频，使得虚拟对象视频中的虚拟对象可以具有与输入信息的语义对应的肢体动作，实现了基于输入信息的语义驱动交互虚拟形象姿态的生成，使得虚拟形象在与人的交互过程中表现更加自然和人性化，更好表现出自己的意图和情感，提升虚拟对象的生成效果，满足多模态交互虚拟对象生成需求。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种虚拟对象视频的生成方法的步骤流程图；

图2为本申请一个可选实施例提供的一种虚拟对象视频的生成方法的步骤流程图；

图3为本申请实施例提供的一种虚拟对象视频的生成装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有相关的动作生成的实现方案实际上仅涉及动作生成过程，却并未将动作生成和可交互的虚拟数字人结合起来，以应用到实时可肢体交互的虚拟数字人产品上。

本申请实施例的核心构思之一在于，提出了一种虚拟对象视频的生成方法，通过根据输入信息推理生成虚拟对象的脸部关键点信息和目标动作标签，随后根据该目标动作标签对应的动作视频生成虚对象的动作视频帧序列，以根据动作视频帧序列和脸部关键点信息生成虚拟对象视频，使得虚拟对象视频中的虚拟对象可以具有与输入信息的语义对应的肢体动作，使得虚拟形象在与人的交互过程中表现更加自然和人性化，更好表现出自己的意图和情感，提升虚拟对象的生成效果，进而能够满足多模态交互虚拟对象生成需求。

参照图1，示出了本申请实施例提供的一种虚拟对象视频的生成方法的步骤流程图。具体的，本申请提供的虚拟对象视频的生成方法具体可以包括如下步骤：

步骤110，获取输入信息。

其中，输入信息可以包括用户输入的各种信息，如可以是用户输入的语音信息、文本信息等，本申请实施例对此不作具体限制。

步骤120，依据所述输入信息生成虚拟对象的脸部关键点信息，并确定所述输入信息对应的目标动作标签和目标播放时长。

具体的，本申请实施例在获取输入信息后，可以根据获取到的输入信息推理生成虚拟对象的脸部关键点信息。例如，在输入信息为用户输入的语音信息的情况下，可以将用户输入的语音信息输入到预先训练的关键点模型中，通过关键点模型推理生成人脸68个关键点信息，以作为虚拟对象的脸部关键点信息；又如，在输入信息为输入文本信息的情况下，可以通过语音转换方式，将该输入文本信息转换为语音信息，如基于从文本到语音(Text To Speech，TTS)模型，把输入文本信息转换生成语音信息，并且生成的语音信息经过预先训练的关键点模型，可以输出人脸68个关键点信息，以作为虚拟对象的脸部关键点信息。

此外，本申请实施例可根据获取到的输入信息推理出该输入信息的语义对应的动作标签，以作为目标动作标签；并且，可以将该输入信息对应的语音时长确定为目标播放时长。进一步而言，本申请实施例确定所述输入信息对应的目标动作标签，具体可以包括：确定所述输入信息对应的语义信息；提取语义信息对应预设的动作标签，以作为输入信息对应的目标动作标签。例如，可以从输入信息中提取出动作关键词，以作为输入信息对应的语义信息，随后可见该动作关键词对应预设的动作标签确定为目标动作标签。

步骤130，依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列。

具体的，本申请实施例在确定出目标动作标签和目标播放时长后，可以根据该目标动作标签生成或获取姿态动作图像帧序列，以将生成的或获取到的姿态动作图像帧序列作为目标动作标签对应的动作视频，随后可基于目标播放时长对该目标动作标签对应的动作视频进行动态调整，使得调整后的动作视频的视频帧播放时长与目标播放时长相匹配，以利用调整后的动作视频中的视频帧形成输入信息对应的动作视频帧序列。其中，动作视频的视频帧播放时长可以是指播放动作视频中所包含的所有视频帧所需要的时长。

在一个可选实施方式中，本申请实施例依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列，具体可以包括：获取目标动作标签对应的动作视频；基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，且所述动作视频帧序列的视频帧播放时长与所述目标播放时长相匹配。具体而言，本申请实施例可以预先将各种预设的动作标签对应的动作视频存储到动作库中，在根据输入信息推理确定出目标动作标签后，可以通过将目标动作标签与动作库中的动作标签进行匹配，从动作库中提取出与该目标动作标签匹配的动作标签对应的动作视频，以作为标动作标签对应的动作视频，随后可按照目标播放时长对动作视频做动态的删减，以利用动作视频中的视频帧形成动作视频帧序列，使得最终形成的动作视频帧序列的视频帧时长与目标播放时长相匹配，从而确保最终生成的动作视频帧序列与输入信息对应语音的时间一致性，实现了实时生成与输入信息相匹配的动作视频帧序列，以便后续可以根据该输入信息对应的动作视频帧序列生成虚拟交互对象的动作姿态视频，即执行步骤140。其中，动作视频帧序列的视频帧时长可以是指播放该动作视频帧序列中所包含的所有动作视频帧所需要的时长。动作库可以是指用于存储动动作标签和动作标签对应的动作视频的数据库。

步骤140，依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。

具体的，本申请实施例得到动作视频帧序列后，可以基于该动作视频帧序列和虚拟对象的脸部关键点信息，通过预设的网络模型，如可以通过条件生成对抗网络(Conditional Generative Adversarial Nets，CGAN)模型中的生成器CAN，生成可肢体交互的虚拟对象的动作姿态视频，以作为输入信息对应的虚拟对象视频。例如，可以裁掉动作视频帧序列中各个动作视频帧中虚拟对象的头部图像信息，保留其他部分信息，即保留动作视频帧序列中各个动作视频帧中虚拟对象的非头部图像信息，并可将虚拟对象的脸部关键点信息作为一个条件，基于优化条件生成对抗网络CGAN，生成可以肢体交互的虚拟对象视频，如生成可以肢体交互的虚拟数字人视频，达到生成可以肢体交互的虚拟形象的目的。

综上，本申请实施例在获取输入信息后，依据输入信息生成虚拟对象的脸部关键点信息，并确定输入信息对应的目标动作标签和目标播放时长，随后依据目标播放时长和目标动作标签对应的动作视频生成动作视频帧序列，以根据动作视频帧序列和脸部关键点信息生成虚拟对象视频，使得虚拟对象视频中的虚拟对象可以具有与输入信息的语义对应的肢体动作，实现了基于输入信息的语义驱动交互虚拟形象姿态的生成，使得虚拟形象在与人的交互过程中表现更加自然和人性化，更好表现出自己的意图和情感，提升虚拟对象的生成效果，满足多模态交互虚拟对象生成需求。

在实际处理中，本申请实施例在获取到输入信息后，可以利用预先训练好的关键点模型，推理生成虚拟对象的脸部关键点信息，如可以将输入信息输入预先训练的关键点模型，以通过关键点模型生成数字人的人脸关键点信息，以便后续可以根据推理生成的人脸关键点信息和输入信息对应的动作视频帧序列，生成一个基于语义的可交互姿态数字人视频，以作为输入信息对应的虚拟对象视频。可选的，在上述实施例的基础上，本申请实施例依据所述输入信息生成虚拟对象的脸部关键点信息，具体可以包括：基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息；将所述人脸关键点信息确定为所述虚拟对象的脸部关键点信息。

参照图2，示出了本申请一个可选实施例提供的一种虚拟对象视频的生成方法的步骤流程图。如图2所示，本申请实施例提供的虚拟对象视频的生成方法具体可以包括如下步骤

步骤201，获取输入信息。

步骤202，基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息，并将所述人脸关键点信息确定为虚拟对象的脸部关键点信息。

在实际处理中，本申请实施例可以预先采用视频数据训练一个关键点模型，以便后续在模型应用阶段可以利用训练好的关键点模型根据输入的语音信息推理生成对应的人脸关键点信息。其中，视频数据可以包括一个或多个视频帧数据，且每一个视频帧数据包含音频帧数据和图像帧数据。例如，在获取到用于模型训练的视频数据后，可以从所述视频数据中提取一个或多个音频帧数据和每一个音频帧数据对应的图像帧数据；随后，可依据每一个音频帧数据对应的图像帧数据，通过预设3D模型生成每一音频帧数据对应的目标3D信息，并可以从每一个音频帧数据对应的图像帧数据提取出对应的人脸关键点信息，以依据目标3D信息、音频帧数据以及人脸关键点信息进行模型训练，得到关键点模型，以便后续可以通过该关键点信息根据音推理生成对应的人脸关键点信息。需要说明的是，目标3D信息可以包含代表对象形状和纹理的主要成分信息，如在目标3D信息为人脸3D信息的情况下，该目标3D信息可以包含代表人脸形状和纹理的主成分信息，具体可以包括有：表情参数(expression)，形状参数(face_id/shape)，仿射参数(projection)，人脸纹理参数(texture)、姿态(pose)参数信息等，本实施例对此不作限制。

进一步而言，本申请实施例在获取输入信息后，可以确定该输入信息是否是输入语音信息或输入文本信息，以根据该输入语音信息或输入文本信息对应的语音信息，通过预先训练的关键点模型进行推理，生成人脸关键点信息，且该人脸关键点信息可以包含有嘴型关键点信息。可选的，本申请实施例基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息，具体可以包括：若所述输入信息为输入文本信息，则将所述输入文本信息转换为语音信息，并将所述语音信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息；若所述输入信息为输入语音信息，则提取所述输入语音信息对应的语音特征信息，并将所述语音特征信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息。具体的，当获取到的输入信息为输入文本信息时，可以通过语音转换方式，对该输入文本信息进行语音转换，如可以基于TTS模型，输入文本信息转换为语音信息，随后可将转换后的语音信息的输入到预先训练的关键点模型中，通过关键点模型推理生成人脸关键点信息，以作为虚拟对象的脸部关键点信息；而在输入信息为输入语音信息时，可以对输入语音信息进行特征提取得到输入语音信息对应的语音特征信息，随后可将输入语音信息对应的语音特征信息输入到预先训练的关键点模型中，以利用语音特征信息通过关键点模型进行推理，生成人脸关键点信息，以作为虚拟对象的脸部关键点信息。

步骤203，确定所述输入信息对应的目标动作标签和目标播放时长。

在实际处理中，本申请实施例可以根据输入信息进行文本分类，确定该输入信息对应的目标动作标签。例如，在输入信息为输入语音信息时，可以通过将该输入语音信息转换为文本信息，以利用转换后得到的文本信息进行分类，得到该文本信息对应的动作标签，并将该文本信息对应的动作标签确定为目标动作标签；又如，在输入信息为输入文本信息时，可以直接依据还输入文本信息进行分类，得到输入文本信息对应的动作标签，以作为目标动作标签。

进一步而言，本申请实施例确定所述输入信息对应的目标动作标签和目标播放时长，具体可以包括：若所述输入信息为输入语音信息，则将所述输入语音信息转换为文本信息，并依据所述文本信息进行分类，得到所述目标动作标签，以及，将所述输入语音信息对应的音频时长确定为所述目标播放时长；若所述输入信息为输入文本信息，则将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长，以及，将所述输入文本信息对应的动作标签确定为所述目标动作标签。

在一个可选实施方式中，本申请实施例在将所述输入文本信息对应的动作标签确定为所述目标动作标签之前，还可以包括：确定所述输入文本信息对应的语义信息，并将所述语义信息对应预设的动作标签确定为所述输入文本信息对应的动作标签；或者，将所述输入文本信息输入预先训练的文本分类模型，得到所述文本分类模型输出的所述文本信息对应的动作标签。其中，文本分类模型可以用于依据输入的文本信息输出对应的动作标签。例如，在Transformer模型作为预先训练好的文本分类模型的情况下，可以将输入文本信息或输入语音信息转换后的文本信息输入Transformer模型，以经过Transformer模型，输出对应动作标签，作为输入信息对应的目标动作标签。

在实际处理中，可以针对不同动作和不同动作对应的文本和情景，录制相应的动作视频数据，以利用录制的动作视频数据进行模型训练，以通过训练好的文本分类模型获取不同文本的语义和肢体动作的对应关系。

作为本申请的一个示例，可以首先抽取20常规动作和其对应的不同文本和情景，然后录制动作视频数据，如挥手动作可以对应“你好”，也可以对应“再见”；在录制不同语义对应的动作视频数据后，可以通过录制的动作视频数据，采用Transformer模型来训练每一短文本对应的唯一动作标签，从而可以在交互虚拟形象与人交互的时候，通过训练好的Transformer模型对获取到的输入信息进行文本分类任务，以获取文本对应的动作标签，作为输入信息对应的目标动作标签。

需要说明的是，文本分类模型不仅可以是Transformer模型，还可以是其他类型的模型，如还可以是Lstm模型或者Bert模型等，本申请实施例对用于进行分类任务的文本分类模型的类型步骤具体限制。

步骤204，获取目标动作标签对应的动作视频。

具体的，本申请实施例在确定输入信息对应的目标动作标签后，可以通过将目标动作标签与动作库中的动作标签进行匹配，以从动作库中提取出与该目标动作标签匹配的动作标签对应的预先生成的动作视频，作为目标动作标签对应的动作视频。

在一个可选实施方式中，本申请实施例获取目标动作标签对应的动作视频的步骤，具体可以包括：将所述目标动作标签与预设的动作库中的动作标签进行匹配；从所述动作库中提取匹配的动作标签对应的动作视频，以作为所述目标动作标签对应的动作视频。具体而言，本申请实施例在可以将目标动作标签与预设的动作库中存储的动作标签进行比较，以在动作库中查找出与该目标动作标签相同的动作标签，从而将查找到的与该目标动作标签相同的动作标签确定为与该目标动作标签匹配的动作标签，随后可从动作库中提取出匹配的动作标签对应的动作视频，以将匹配的动作标签对应的动作视频确定为目标动作标签对应的动作视频。

进一步而言，为保证动作视频的平稳和平滑的过渡，本申请实施例在生成动作标签对应的动作视频时，可以利用预先设置的默认动作的首帧视频帧对动作标签对应的动作图像帧序列中的目标图像帧进行平滑处理，得到动作标签对应的动作视频，并可将得到动作标签对应的动作视频保存到的动作库中，以便后续可以从该动作库中获取目标动作标签对应的动作视频。可选的，本申请实施例提供的虚拟对象视频的生成方法，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还可以包括：获取预设的动作标签对应的骨骼图像信息；将所述骨骼图像信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；依据预设的默认图像帧信息，对所述输出的动作图像帧序列中的目标图像帧进行平滑处理，得到所述动作标签对应的动作视频，并存储至所述动作库。其中，骨骼图信息可以包括动作姿态的骨骼点信息和/或深度图信息，本申请实施实施例对此不作限制；预设的默认图像帧信息可以是指预设的默认动作的一个视频帧图像，如可以是默认动作的首帧视频图像帧；动作图像帧序列中的目标图像帧可以是指动作图像帧序列中需要添加拼接帧所对应的图像帧，如可以是动作图像帧序列中的第一个图像帧，也可以是动作图像帧序列中的最后一个图像帧等，本实施例对此也不作限制。需要说明的是，动作姿态的骨骼点信息可以用于确定动作姿态的骨骼点，如可以是诸如数字人等虚拟对象在做某一个动作姿态时的骨骼点的坐标点信息；动作姿态的深度图信息可以是指数字人等虚拟对象在做某一个动作姿态时的深度图。

作为本申请的一个示例，可以在所有的动作标签中选择一个动作标签作为默认动作动作标签，以将择选择的一个动作标签所对应的动作设置默认动作，如可以在所有的动作标签中选择静止动作标签作为默认动作动作标签，即将择静止动作标签所对应的静止动作预设为默认动作，并可提取默认动作的首帧图像作为预设的默认图像帧信息，以便后续可以依据默认动作的首帧图像生成拼接帧，从而可以通过将拼接帧添加到动作标签对应的动作图像帧序列中，形成新的动作图像帧序列，以基于新的动作图像帧序列生成动作标签对应的动作视频，从而保证了动作视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题。具体的，在将动作标签对应的骨骼图像信息输入预先训练的动作生成模型后，可以通过该动作生成模型，生成并输出动作标签对应的动作图像帧序列，随后该动作标签对应的动作图像帧序列获取预设的默认图像帧信息，以依据默认图像帧信息对动作图像帧序列中的目标图像帧信息进行权重平滑处理，并将权重平滑处理后得到的拼接帧信息添加到动作图像帧序列中，实现在添加过程中做权重平滑处理，从而保证了动作视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题。

例如，可以所有的动作标签对应的骨骼点或者深度图的数据中，前后分别添加5张默认动作的首帧骨骼点或者深度图，并可在添加过程中做权重平滑处理，从而保证动作标签对应的动作视频的平稳和不同动作视频之间的平滑过渡。以OK动作为例，在OK动作标签对应的动作图像帧序列包含有100个图像帧的情况下，可以将该动作图像帧序列中的第一个图像帧作为目标图像帧信息，以按照权重平滑处理的方式，利用预设的默认图像帧信息分别对动作图像帧序列中的第一个图像帧进行权重平滑处理，得到第一个图像帧对应的拼接帧，并可将第一个图像帧对应的拼接帧添加到动作图像帧序列中，以在Ok动作开头添加5帧默认动作的首帧骨骼点或者深度图，形成OK动作标签对应的动作视频，如首先第一帧添加的拼接帧可以是默认动作的骨骼点或者深度图；第二帧添加的拼接帧可以是对静止动作和OK动作求和所得到的图像帧，其中，静止动作占图像帧中的动作的0.8倍，OK动作占图像帧中的动作的0.2倍；第三帧添加的拼接帧可以是静止动作占0.6倍，OK动作占0.4倍的图像帧；第四帧添加的拼接帧可以是静止动作占0.4倍，OK动作占0.6倍的图像帧；第五帧添加的拼接帧可以是静止动作占0.2倍，OK动作占0.8倍的图像帧。同理，也可以在Ok动作结尾也类似添加对应的5帧拼接帧，如可以按照OK动作的权重从1,0.8,0.6,0.4,0.2,0的方式生成动作图像帧序列中的最后一个图像帧对应的拼接帧，以在动作图像帧序列中的最后一个图像帧也插入5帧对应的拼接帧，从而使得OK动作视频可以和静止动作视频自如拼接，提高动作视频的生成效果。

当然，本申请实施例除了可以通过从动作库中获取目标动作标签对应的动作视频之外，还可以通过其他方式获取到目标动作视频对应的动作视频，如可以根据目标动作标签对应预设的骨骼图信息，实时产生对应的动作视频，以作为该目标动作标签对应的动作视频，本申请实施例对此不作具体限制。在另一个可选实施方式中，可以将目标动作标签对应预设的骨骼图信息输入到预先训练好的动作生成模型中，以通过动作生成模型，利用目标动作标签对应预设的骨骼图信息，推理生成姿态动作图像帧序列，随后可基于推理生成的姿态动作图像帧序列生成该目标动作标签对应的动作视频。

可选的，本申请实施例提供的虚拟对象视频的生成方法，在获取输入信息之前，还可以包括：获取录制动作视频数据；从所述录制动作视频数据中，提取动作骨骼图像信息；依据所述动作骨骼图像信息进行模型训练，得到所述动作生成模型。其中，录制动作视频数据可以是指针对动作标签录制的动作视频数据，如在需要20个动作标签对应的动作视频的情况下，可以录制至少20个动作的视频数据。当然，录制的视频数据除了可以包含着20个动作的视频数据之外，还可以包含其他动作的视频数据，录制时长可以大于或等于1个小时，本实施例对此不作限制。

需要说明的是，动作生成模型的输入可以是动作姿态的骨骼点信息和/或深度图信息，本申请实施例对此不作限制。具体而言，本申请实施例可以从录制动作视频数据中提取出身体骨骼点和对应的深度图，以作为动作骨骼图信息进行模型训练，得动作生成模型。例如，可以基于开源的OpenPose和DensePose模型，对录制动作视频数据进行提取，以提取身体骨骼点和对应的深度图，作为用于模型训练的动作骨骼图信息，随后基于生成对抗模型GAN，生成动作骨骼图信息对应的动作视频帧序列，然后可将动作视频帧序列与录制视频数据中的动作视频帧序列进行比较，以确定当前训练模型的损失是否符合预设模型收敛条件，从而可以在当前训练模型的损失符合预设模型收敛条件时确定模型收敛，并可将该模型作为动作生成模型，以便后续模型应用阶段可以利用该动作生成模型推理生成动作图像帧序列。在模型训练之后，可以根据输入信息对应的目标动作标签获取对应的骨骼图信息，以通过将目标动作标签对应的骨骼图信息输入训练好的动作生成模型，推理生成该目标动作标签对应的姿态动作图像帧序列，从而可以基于姿态动作图像帧序列生成目标动作标签对应的动作视频，进而可以利用目标动作标签对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

进一步而言，本申请实施例提供的虚拟对象视频的生成方法在获取目标动作标签对应的动作视频之前，还可以包括：获取所述目标动作标签对应的骨骼图信息；将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频。可选的，本申请实施例基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频，具体可以包括：针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作视频。

步骤205，基于所述目标播放时长，利用所述动作视频中的视频帧形成动作视频帧序列，且所述动作视频帧序列的视频帧播放时长与所述目标播放时长相匹配。

在一个可选实施方式中，本申请实施例基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，具体可以包括：采用所述动作视频中所包含的所有视频帧，形成动作视频帧序列；将所述目标播放时长作为所述动作视频帧序列的视频帧播放时长。例如，在输入信息为输入语音信息的情况下，目标播放时长为输入语音信息的音频时长，可以按照音频时长，采用FFMPEG工具对动作视频帧序列的视频帧的播放速度做加速或者慢速处理，以使得动作视频帧序列的视频帧播放时长匹配目标播放时长，即动作视频的视频帧的播放时长匹配语音的时长，得到动作标签最终对应的动动作视频帧序列，以便后续可以结合人脸轮廓线，输入数字人生成模型中，生成最终的可肢体交互的数字人，满足多模态交互虚拟数字人的生成需求。

在另一个可选实施方式中，本申请实施例基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，具体可以包括：基于所述目标播放时长，对所述动作视频中的视频帧进行采样处理，得到采样视频帧，所述采样视频帧包含所述动作视频中的首帧视频帧；将所述采样视频帧形成的序列确定为动作视频帧序列，且所述采样视频帧形成的序列对应的播放时长与所述目标播放时长相同。例如，可以基于输入语音信息的音频时长，对动作视频中的视频帧进行上采样或下采样，但不删除动作生成视频中的首帧，以得到采样视频帧序列，并可将采样视频帧序列作为输入语音信息对应的动作视频帧序列，确保音频和动作视频的时间一致性，以便后续可以依据输入语音信息对应的动作视频帧序列生成输入信息对应的虚拟对象视频。

步骤206，依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。

进一步而言，本申请实施例依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频，具体可以包括：依据所述人脸关键点信息生成虚拟对象的头部图像信息；依据所述虚拟对象的头部图像信息，对所述动作视频帧序列中各动作视频帧的头部图像信息进行更新处理，得到更新后的动作视频帧序列；基于所述更新后的动作视频帧序列，生成所述输入信息对应的虚拟对象视频。具体而言，本申请实施例中推理生成的人脸关键点信息可以包含有动作视频帧序列中各个动作视频帧对应的人脸关键点信息。在生成动作视频帧序列后，可采用每一动作视频帧对应的人脸关键点信息生成其对应的虚拟对象的头部图像信息，并可针对动作视频帧序列每一动作视频帧，采用动作视频帧对应的虚拟对象的头部图像信息对该动作视频帧中的头部图像信息进行更新处理，以将该动作视频帧对应的虚拟对象的头部图像信息与动作视频帧中的非头部图像信息进行合并，裁掉动作视频帧中原始的头部图像，生成对应的虚拟对象视频帧，从而可以利用生成的各个虚拟对象视频帧生成可肢体交互的虚拟对象视频，进而可以利用可肢体交互的虚拟对象视频与输入信息的用户进行实时交互，提高用户体验，满足多模态交互虚拟对象生成需求。

可见，本申请实施例在获取输入信息后，可以根据输入信息推理生成虚拟对象的脸部关键点信息和目标动作标签，随后根据该目标动作标签对应的动作视频生成虚对象的动作视频帧序列，以根据动作视频帧序列和脸部关键点信息生成虚拟对象视频，使得虚拟对象视频中的虚拟对象可以具有与输入信息的语义对应的肢体动作，使得虚拟形象在与人的交互过程中表现更加自然和人性化，更好表现出自己的意图和情感，提升虚拟对象的生成效果，满足多模态交互虚拟对象生成需求。

此外，本申请实施例在生成动作标签对应的动作视频的过程中，针对动作标签对应推理生成的动作图像帧序列，采用预设的默认图像帧信息进行权重平滑处理，即将拼接帧信息添加到动作图像帧序列中，并在添加过程中做权重平滑处理，从而保证了生成的动作视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题，保证可以不同动作之间切换不跳帧、不卡顿，提高动作视频的生成效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。

本申请实施例还提供了一种虚拟对象视频的生成装置。如图3所示，本申请实施例提供的虚拟对象视频的生成装置，包括如下模块：

输入获取模块310，用于获取输入信息；

脸部关键点模块320，用于依据所述输入信息生成虚拟对象的脸部关键点信息；

信息确定模块330，用于确定所述输入信息对应的目标动作标签和目标播放时长；

动作视频帧序列模块340，用于依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列；

虚拟对象视频模块350，用于依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频。

可选的，所述脸部关键点模块320具体包括：

生成子模块，用于基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息；

确定子模块，用于将所述人脸关键点信息确定为所述虚拟对象的脸部关键点信息。

可选的，所述生成子模块具体用于：在所述输入信息为输入文本信息时，将所述输入文本信息转换为语音信息，并将所述语音信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息；在所述输入信息为输入语音信息时，提取所述输入语音信息对应的语音特征信息，并将所述语音特征信息输入所述关键点模型，得到所述关键点模型生成的人脸关键点信息。

可选的，所述信息确定模块330包括：第一确定子模块和第二确定子模块。其中，第一确定子模块，用于在所述输入信息为输入语音信息时，将所述输入语音信息转换为文本信息，并依据所述文本信息进行分类，得到所述目标动作标签，以及，将所述输入语音信息对应的音频时长确定为所述目标播放时长；第二确定子模块用于在所述输入信息为输入文本信息时，将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长，以及，将所述输入文本信息对应的动作标签确定为所述目标动作标签。

可选的，所述虚拟对象视频的生成装置还包括：

动作标签确定模块，用于确定所述输入文本信息对应的语义信息，并将所述语义信息对应预设的动作标签确定为所述输入文本信息对应的动作标签；

动作标签生成模块，用于将所述输入文本信息输入预先训练的文本分类模型，得到所述文本分类模型输出的所述文本信息对应的动作标签。

可选的，动作视频帧序列模块340，包括：

动作视频获取子模块，用于获取目标动作标签对应的动作视频；

动作视频帧序列子模块，用于基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，且所述动作视频帧序列的视频帧播放时长与所述目标播放时长相匹配。

可选的，所述动作视频帧序列子模块，具体用于：采用所述动作视频中所包含的所有视频帧，形成动作视频帧序列；将所述目标播放时长作为所述动作视频帧序列的视频帧播放时长。

可选的，所述动作视频帧序列子模块，具体用于：基于所述目标播放时长，对所述动作视频中的视频帧进行采样处理，得到采样视频帧，所述采样视频帧包含所述动作视频中的首帧视频帧；将所述采样视频帧形成的序列确定为动作视频帧序列，且所述采样视频帧形成的序列对应的播放时长与所述目标播放时长相同。

可选的，所述虚拟对象视频的生成装置还包括：

骨骼图信息获取模块，用于获取所述目标动作标签对应的骨骼图信息；

姿态动作图像帧序列模块，用于将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；

动作视频生成模块，用于基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频。

可选的，所述动作视频生成模块包括：

默认图像帧信息子模块，用于针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；

权重平滑处理子模块，用于依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；

拼接帧信息添加子模块，用于将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作视频。

可选的，所述动作视频获取子模块包括：

匹配单元，用于将所述目标动作标签与预设的动作库中的动作标签进行匹配；

提取单元，用于从所述动作库中提取匹配的动作标签对应的动作视频，以作为所述目标动作标签对应的动作视频。

可选的，所述种虚拟对象视频的生成装置还包括：

骨骼图像信息模块，用于获取预设的动作标签对应的骨骼图像信息；

骨骼图像信息输入模块，用于将所述骨骼图像信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；

平滑处理模块，用于依据预设的默认图像帧信息，对所述输出的动作图像帧序列中的目标图像帧进行平滑处理，得到所述动作标签对应的动作视频，并存储至所述动作库。

可选的，所述虚拟对象视频的生成装置还包括：

录制动作视频数据模块，用于获取录制动作视频数据；

动作骨骼图像信息提取模块，用于从所述录制动作视频数据中，提取动作骨骼图像信息；

模型训练模块，用于依据所述动作骨骼图像信息进行模型训练，得到所述动作生成模型。

可选的，所述虚拟对象视频模块350包括：

头部图像生成子模块，用于依据所述人脸关键点信息生成虚拟对象的头部图像信息；

头部图像更新子模块，用于依据所述虚拟对象的头部图像信息，对所述动作视频帧序列中各动作视频帧的头部图像信息进行更新处理，得到更新后的动作视频帧序列；

虚拟对象视频生成子模块，用于基于所述更新后的动作视频帧序列，生成所述输入信息对应的虚拟对象视频。

需要说明的是，上述提供的虚拟对象视频的生成装置可执行本申请任意实施例所提供的虚拟对象视频的生成方法，具备执行方法相应的功能和有益效果。

进一步的，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的虚拟对象视频的生成方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的虚拟对象视频的生成方法步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟对象视频的生成方法，其特征在于，包括：

获取输入信息；

2.根据权利要求1所述的虚拟对象视频的生成方法，其特征在于，所述依据所述输入信息生成虚拟对象的脸部关键点信息，包括：

3.根据权利要求2所述的虚拟对象视频的生成方法，其特征在于，所述基于所述输入信息，通过预先训练的关键点模型生成人脸关键点信息，包括：

4.根据权利要求1所述的虚拟对象视频的生成方法，其特征在于，所述确定所述输入信息对应的目标动作标签和目标播放时长，包括：

5.根据权利要求4所述的虚拟对象视频的生成方法，其特征在于，所述将所述输入文本信息对应的动作标签确定为所述目标动作标签之前，还包括：

6.根据权利要求1所述的虚拟对象视频的生成方法，其特征在于，依据所述目标播放时长和所述目标动作标签对应的动作视频，生成动作视频帧序列，包括：

获取目标动作标签对应的动作视频；

7.根据权利要求6所述的虚拟对象视频的生成方法，其特征在于，所述基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，包括：

8.根据权利要求6所述的虚拟对象视频的生成方法，其特征在于，所述基于所述目标播放时长，利用所述动作视频中的视频帧形成所述动作视频帧序列，包括：

9.根据权利要求2所述的虚拟对象视频的生成方法，其特征在于，所述获取目标动作标签对应的动作视频之前，还包括：

获取所述目标动作标签对应的骨骼图信息；

10.根据权利要求9所述的虚拟对象视频的生成方法，其特征在于，所述基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作视频，包括：

11.根据权利要求2所述的虚拟对象视频的生成方法，其特征在于，所述获取目标动作标签对应的动作视频，包括：

12.根据权利要求11所述的虚拟对象视频的生成方法，其特征在于，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还包括：

获取预设的动作标签对应的骨骼图像信息；

13.根据权利要求9或12所述的虚拟对象视频的生成方法，其特征在于，所述获取输入信息之前，还包括：

获取录制动作视频数据；

从所述录制动作视频数据中，提取动作骨骼图像信息；

14.根据权利要求1至12任一所述的虚拟对象视频的生成方法，其特征在于，所述依据所述动作视频帧序列和所述脸部关键点信息，生成所述输入信息对应的虚拟对象视频，包括：

依据所述人脸关键点信息生成虚拟对象的头部图像信息；

15.一种虚拟对象视频的生成装置，其特征在于，包括：

输入获取模块，用于获取输入信息；

16.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-14任一项所述的虚拟对象视频的生成方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-14任一项所述的虚拟对象视频的生成方法的步骤。