CN113901267A

CN113901267A - 动作视频的生成方法、装置、设备及介质

Info

Publication number: CN113901267A
Application number: CN202111210723.0A
Authority: CN
Inventors: 王鑫宇; 常向月; 刘炫鹏; 杨国基; 刘致远; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-07

Abstract

本申请涉及一种动作视频的生成方法、装置、设备及介质，涉及计算机技术领域，该动作视频的生成方法包括：获取输入信息；依据所述输入信息确定目标动作标签和目标播放时长；依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配；将调整后的动作生成视频确定为所述输入信息对应的动作视频。本申请实施例实现实时生成与输入信息相匹配的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

Description

动作视频的生成方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种动作视频的生成方法、装置、设备及介质。

背景技术

多模态交互是现在人机交互发展的趋势之一。现在多模态交互虚拟对象生成是一个热门的研究方向。

在多模态交互过程中，交互虚拟对象需要做出与语义匹配的动作姿态。具体而言，在人与人的交流过程中，肢体姿态的运用在交流过程起到非常重要的作用，如方便意图理解、情感表达等。因此，交互虚拟对象根据不同语义做出与语义匹配的动作姿态是非常有必要的。

发明内容

有鉴于此，本申请提供了一种动作视频的生成方法、装置、设备及介质，以满足多模态交互虚拟对象生成需求。

第一方面，本申请实施例提供了一种动作视频的生成方法，包括：

获取输入信息；

依据所述输入信息确定目标动作标签和目标播放时长；

依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配；

将调整后的动作生成视频确定为所述输入信息对应的动作视频。

可选的，在依据所述目标播放时长和所述目标动作标签对应的动作生成视频，生成所述输入信息对应的动作视频之前，还包括：

获取所述目标动作标签对应的骨骼图信息；

将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；

基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频。

将所述目标动作标签与预设的动作库中的动作标签进行匹配；

基于匹配的动作标签对应的动作视频，确定姿态动作图像帧序列；

可选的，所述基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频，包括：

针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；

依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；

将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作生成视频。

可选的，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还包括：

获取预设的动作标签对应的骨骼图信息；

将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；

将所述输出的动作图像帧序列作为所述动作标签对应的动作视频，并存储至所述动作库。

可选的，所述获取输入信息之前，还包括：

获取录制动作视频数据；

从所述录制动作视频数据中，提取动作骨骼图信息；

依据所述动作骨骼图信息进行模型训练，得到所述动作生成模型。

可选的，所述依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，包括：

按照所述目标播放时长，对所述动作生成视频的播放帧率进行调整。

基于所述目标播放时长，对所述动作生成视频中的视频帧进行采样处理，得到采样视频帧序列，所述采样视频帧序列包含所述动作生成视频中的首帧视频帧，且所述采样视频帧序列的视频帧时长与所述目标播放时长相匹配。

可选的，依据所述输入信息确定目标播放时长，包括：

若所述输入信息为输入语音信息，则将所述输入语音信息对应的音频时长确定为所述目标播放时长；

若所述输入信息为输入文本信息，则将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长。

可选的，所述依据所述输入信息确定目标动作标签，包括：

确定所述输入信息对应的语义信息；

提取所述语义信息对应预设的动作标签；

将提取到的动作标签确定为所述目标动作标签。

第二方面，本申请实施例提供了一种动作视频的生成装置，包括：

输入获取模块，用于获取输入信息；

信息确定模块，用于依据所述输入信息确定目标动作标签和目标播放时长；

视频调整模块，用于依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配；

动作视频确定模块，用于将调整后的动作生成视频确定为所述输入信息对应的动作视频。

第三方面，本申请实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如第一方面任一项所述的动作视频的生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的动作视频的生成方法的步骤。

本申请实施例在获取输入信息后，通过根据输入信息确定出目标动作标签和目标播放时长，并基于目标播放时长对目标动作标签对应的动作生成视频进行动态调整，使得调整后的动作生成视频的视频帧播放时长与目标播放时长相匹配，使得最终生成的动作视频的视频帧时长与语音时长相匹配，从而可以将最终生成的动作视频作为输入信息对应的动作视频，实现实时生成与输入信息相匹配的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种动作视频的生成方法的步骤流程图；

图2为本申请一个可选实施例提供的一种动作视频的生成方法步骤流程图；

图3为本申请实施例提供的一种动作视频的生成装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请实施例提供的一种动作视频的生成方法的步骤流程图。具体的，本申请提供的动作视频的生成方法具体可以包括如下步骤：

步骤110，获取输入信息。

其中，输入信息可以包括用户输入的各种信息，如可以是用户输入的语音信息、文本信息等，本申请实施例对此不作具体限制。

步骤120，依据所述输入信息确定目标动作标签和目标播放时长。

具体的，本申请实施例在获取输入信息后，可以根据获取到的输入信息推理出该输入信息的语义对应的动作标签，以作为目标动作标签；并且，可以将该输入信息对应的语音时长确定为目标播放时长。

进一步而言，本申请实施例依据所述输入信息确定目标播放时长，具体可以包括：若所述输入信息为输入语音信息，则将所述输入语音信息对应的音频时长确定为所述目标播放时长；若所述输入信息为输入文本信息，则将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长。其中，输入语音信息对应的音频时长可以是指输入语音信息的语音时长，即是采用音频播放方式输出该输入语音信息所需要的时长；目标音频信息可以是指将输入文本信息进行语音转换后所得到的语音信息；目标音频信息对应的播放时长可以是指播放该目标音频信息所需要的时长。

具体而言，本申请实施例在获取输入信息后，可以确定该输入信息是否是输入语音信息或输入文本信息，以根据该输入语音信息或输入文本信息确定出目标播放时长。具体的，当输入信息为输入语音信息时，可以直接将输入语音信息对应的播放时长确定为目标播放时长；而在输入信息为输入文本信息时，可以通过语音转换方式，对该输入文本信息进行语音转换，如可以将输入文本信息输入从文本到语音(TextTo Speech，TTS)模型，以通过TTS模型把文本转换为语音，得到目标音频信息，随后可将目标音频信息对应的播放时长确定为目标播放时长，以便后续可以根据该目标播放时长对目标动作标签对应的动作生成视频进行动态调整，即执行步骤130。

步骤130，依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配。

其中，动作生成视频的视频帧播放时长可以是指播放该动作生成视频中所包含的所有视频帧所需要的时长。

步骤140，将调整后的动作生成视频确定为所述输入信息对应的动作视频。

具体的，本申请实施例在确定出目标动作标签和目标播放时长后，可以根据该目标动作标签生成或获取对应的姿态动作图像帧序列，以将生成的或获取到的姿态动作图像帧序列作为目标动作标签对应的动作生成视频，并可基于目标播放时长对该目标动作标签对应的动作生成视频进行动态调整，使得调整后的动作生成视频的视频帧播放时长与目标播放时长相匹配，如基于目标播放时长对动作生成视频做动态的删减，即基于输入信息对应的语音时长对动作生成视频做动态的删减，使得最终生成的动作视频的视频帧时长与语音时长相匹配，从而可以将最终生成的动作视频作为输入信息对应的动作视频，实现实时生成与输入信息相匹配的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

可见，本申请实施例在获取输入信息后，可以根据输入信息确定出目标动作标签和目标播放时长，并可基于目标播放时长对目标动作标签对应的动作生成视频进行动态调整，使得调整后的动作生成视频的视频帧播放时长与目标播放时长相匹配，使得最终生成的动作视频的视频帧时长与语音时长相匹配，从而可以将最终生成的动作视频作为输入信息对应的动作视频，实现实时生成与输入信息相匹配的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

在实际处理中，本申请实施例在确定出输入信息对应的目标动作标签后，可以根据该目标动作标签，实时产生对应的动作视频，以作为该目标动作标签对应的动作生成视频。在一个可选实施方式中，可以将目标动作标签对应预设的骨骼图信息输入到预先训练好的动作生成模型中，以通过动作生成模型，利用目标动作标签对应预设的骨骼点信息或深度图信息推理生成姿态动作图像帧序列，随后可基于推理生成的姿态动作图像帧序列生成该目标动作标签对应的动作生成视频。进一步而言，本申请实施例提供的动作视频的生成方法，在依据所述目标播放时长和所述目标动作标签对应的动作生成视频，生成所述输入信息对应的动作视频之前，还可以包括：获取所述目标动作标签对应的骨骼图信息；将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频。其中，骨骼图信息可以包括动作姿态的骨骼点信息和/或深度图信息，本申请实施实施例对此不作限制。需要说明的是，动作姿态的骨骼点信息可以用于确定动作姿态的骨骼点，如可以是诸如数字人等虚拟对象在做某一个动作姿态时的骨骼点的坐标点信息；动作姿态的深度图信息可以是指数字人等虚拟对象在做某一个动作姿态时的深度图。

当然，本申请实施例也可以通过其他方式，确定目标动作标签对应的动作生成视频，如在将各种预设的动作标签对应的动作视频存储到数据库后，可以通过目标动作标签与动作库中的动作标签进行匹配，以基于匹配的动作标签对应的动作视频中所包含的动作视频帧生成目标动作标签对应的动作生成视频，如可以将匹配到的动作标签对应的动作视频确定为目标动作标签对应的动作生成视频等，本申请实施例对此不作具体限制。

在另一个可选实施方式中，本申请实施例提供的动作视频的生成方法，在依据所述目标播放时长和所述目标动作标签对应的动作生成视频，生成所述输入信息对应的动作视频之前，还可以包括：将所述目标动作标签与预设的动作库中的动作标签进行匹配；基于匹配的动作标签对应的动作视频，确定姿态动作图像帧序列；基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频。具体而言，本申请实施例在根据输入信息确定出目标动作标签后，可以将目标动作标签与预设的动作库中存储的动作标签进行比较，以在动作库中查找出与该目标动作标签相同的动作标签，从而将查找到的与该目标动作标签相同的动作标签确定为与该目标动作标签匹配的动作标签，随后可从动作库中提取出匹配的动作标签对应的动作视频，以采用匹配的动作标签对应的动作视频中的视频帧生成目标动作标签对应的姿态动作图像帧序列，随后可采用该姿态动作图像帧序列中所包含的姿态动作视频帧生成对应的姿态动作视频，以作为目标动作标签对应的动作生成视频。例如，可以将匹配到的动作标签对应的动作视频中的视频帧作为目标动作标签对应的姿态动作图像帧，以采用匹配到的动作标签对应的动作视频中所包含的各个视频帧形成一个序列，并将形成的序列作为目标动作标签对应的姿态动作图像帧序列，随后可采用该姿态动作图像帧序列中所包含的各个姿态动作视频帧生成目标动作标签对应的动作生成视频。

在具体实现中，为保证动作视频的平稳和平滑的过渡，本申请实施例在得到目标动作标签对应的姿态动作图像帧序列后，可以利用预先设置的默认动作的首帧视频帧在该目标姿态动作图像帧序列中添加对应的拼接帧，形成新的姿态动作图像帧序列，以作为目标动作标签对应的动作生成视频。可选的，本申请实施例述基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频，具体可以包括：针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作生成视频。其中，预设的默认图像帧信息可以是指预设的默认动作的一个视频帧图像，如可以是默认动作的首帧视频图像帧；姿态动作图像帧序列中的目标图像帧信息可以是指姿态动作图像帧序列中需要添加拼接帧所对应的图像帧，如可以是姿态动作图像帧序列中的第一个图像帧，也可以是姿态动作图像帧序列中的最后一个图像帧等，本实施例对此不作限制。

具体而言，本申请实施例可以在所有的动作标签中选择一个动作标签作为默认动作动作标签，以将择选择的一个动作标签所对应的动作设置默认动作，如可以在所有的动作标签中选择静止动作标签作为默认动作动作标签，即将择静止动作标签所对应的静止动作预设为默认动作，并可提取默认动作的首帧图像作为预设的默认图像帧信息，以便后续可以依据默认动作的首帧图像生成拼接帧，从而可以通过将拼接帧添加到姿态动作图像帧序列中，形成目标动作标签对应的动作生成视频，从而保证了动作生成视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题。

具体的，本申请实施例在得到姿态动作图像帧序列后，可以针对该姿态动作图像帧序列获取预设的默认图像帧信息，以依据默认图像帧信息对姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，并将权重平滑处理后得到的拼接帧信息添加到姿态动作图像帧序列中，实现在添加过程中做权重平滑处理，从而保证了动作生成视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题。

作为本申请的一个示例，可以所有的动作标签对应的骨骼点或者深度图的数据中，前后分别添加5张默认动作的首帧骨骼点或者深度图，并可在添加过程中做权重平滑处理，从而保证动作标签对应的动作生成视频的平稳和不同动作视频之间的平滑过渡。以OK动作为例，在OK动作标签对应的姿态动作图像帧序列包含有100个图像帧的情况下，可以将该姿态动作图像帧序列中的第一个图像帧作为姿态动作图像帧序列中的目标图像帧信息，以按照权重平滑处理的方式，利用预设的默认图像帧信息分别对姿态动作图像帧序列中的第一个图像帧进行权重平滑处理，得到第一个图像帧对应的拼接帧，并可将第一个图像帧对应的拼接帧添加到姿态动作图像帧序列中，以在Ok动作开头添加5帧默认动作的首帧骨骼点或者深度图，形成OK动作标签对应的动作生成视频，如首先第一帧添加的拼接帧可以是默认动作的骨骼点或者深度图；第二帧添加的拼接帧可以是对静止动作和OK动作求和所得到的图像帧，其中，静止动作占图像帧中的动作的0.8倍，OK动作占图像帧中的动作的0.2倍；第三帧添加的拼接帧可以是静止动作占0.6倍，OK动作占0.4倍的图像帧；第四帧添加的拼接帧可以是静止动作占0.4倍，OK动作占0.6倍的图像帧；第五帧添加的拼接帧可以是静止动作占0.2倍，OK动作占0.8倍的图像帧。同理，也可以在Ok动作结尾也类似添加对应的5帧拼接帧，如可以按照OK动作的权重从1,0.8,0.6,0.4,0.2,0的方式生成姿态动作图像帧序列中的最后一个图像帧对应的拼接帧，以在姿态动作图像帧序列中的最后一个图像帧也插入5帧对应的拼接帧，从而使得OK动作视频可以和静止动作视频自如拼接，提高动作视频的生成效果。

在具体实现中，本申请实施例可以将动作标签对应生成的动作视频存储在动作库中，以便后续可以从该动作库中提取输入信息对应的目标动作标签对应的动作视频。进一步而言，本申请实施例提供的动作视频的生成方法，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还可以包括：获取预设的动作标签对应的骨骼图信息；将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；将所述输出的动作图像帧序列作为所述动作标签对应的动作视频，并存储至所述动作库。

在实际处理中，动作标签可以提前获知，并可根据该动作标签通过线下生成方式，利用需要训练好的一个动作模型，推理生成该动作标签对应的动作视频，然后在线上部署，得到新的线上可实时交互的动作库，以便后续可以从新的线上可实时交互动作库，获取从输入信息推理得到的目标动作标签对应的动作视频。进一步而言，本申请实施例在获取输入信息之前，可以预先利用录制的动作视频数据训练一个动作生成模型，以便后续可以通过该动作生成模型生成动作图像帧序列，从而可以基于该动作生成模型生成输出的动作图像帧序列生成动作标签对应的动作视频。

可选的，本申请实施例在获取输入信息之前，还可以包括：获取录制动作视频数据；从所述录制动作视频数据中，提取动作骨骼图信息；依据所述动作骨骼图信息进行模型训练，得到所述动作生成模型。其中，录制动作视频数据可以是指针对动作标签录制的动作视频数据，如在需要20个动作标签对应的动作视频的情况下，可以录制至少20个动作的视频数据。当然，录制的视频数据除了可以包含着20个动作的视频数据之外，还可以包含其他动作的视频数据，录制时长可以大于或等于1个小时，本示例对此不作限制。

需要说明的是，动作生成模型的输入可以是动作姿态的骨骼点信息和/或深度图信息，本申请实施例对此不作限制。具体而言，本申请实施例可以从录制动作视频数据中提取出身体骨骼点和对应的深度图，以作为动作骨骼图信息进行模型训练，得动作生成模型。例如，可以基于开源的OpenPose和DensePose模型，对录制动作视频数据进行提取，以提取身体骨骼点和对应的深度图，作为用于模型训练的动作骨骼图信息，随后基于生成对抗模型GAN，生成动作骨骼图信息对应的动作视频帧序列，然后可将动作视频帧序列与录制视频数据中的动作视频帧序列进行比较，以确定当前训练模型的损失是否符合预设模型收敛条件，从而可以在当前训练模型的损失符合预设模型收敛条件时确定模型收敛，并可将该模型作为动作生成模型，以便后续模型应用阶段可以利用该动作生成模型推理生成动作图像帧序列。

具体的，在模型训练之后，可以根据输入信息对应的目标动作标签获取对应的骨骼图信息，以通过将目标动作标签对应的骨骼图信息输入训练好的动作生成模型，推理生成该目标动作标签对应的姿态动作图像帧序列，从而可以基于姿态动作图像帧序列生成目标动作标签对应的动作生成视频，进而可以利用目标动作标签对应的动作生成视频生成输入信息对应的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

参照图2，示出了本申请一个可选实施例提供的一种动作视频的生成方法步骤流程图。具体的，本申请提供的动作视频的生成方法具体可以包括如下步骤：

步骤201，获取录制动作视频数据；

步骤202，从所述录制动作视频数据中，提取动作骨骼图信息；

步骤203，依据所述动作骨骼图信息进行模型训练，得到动作生成模型。

步骤204，获取输入信息。

步骤205，依据所述输入信息确定目标动作标签和目标播放时长。

进一步而言，本申请实施例依据所述输入信息确定目标动作标签，具体可以包括：确定所述输入信息对应的语义信息；提取所述语义信息对应预设的动作标签；将提取到的动作标签确定为所述目标动作标签。例如，可以从输入信息中提取出动作关键词，以作为输入信息对应的语义信息，随后可见该动作关键词对应预设的动作标签确定为目标动作标签，以便后续可以根据该目标动作标签获取动作对应的骨骼图信息。

步骤206，获取所述目标动作标签对应的骨骼图信息。

步骤207，将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列。

步骤208，基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频。

步骤209，依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配；

步骤210，将调整后的动作生成视频确定为所述输入信息对应的动作视频。

可见，本申请实施例在获取到输入信息后，可以根据输入信息确定目标动作标签，如可以将从输入的声音或者文本推理得到的动作标签确定为目标动作标签，随后可将目标动作标签对应的骨骼图信输入动作生成模型，得到动作生成模型输出的姿态动作图像帧序列，从而可以基于姿态动作图像帧序列生成该目标动作标签对应的动作生成视频，并可基于目标播放时长对目标动作标签对应的动作生成视频进行动态的删减，使得视频帧的时长匹配语音的时长，得到输入信息对应的动作视频。

在一个可选实施方式中，本申请实施例依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，具体可以包括：按照所述目标播放时长，对所述动作生成视频的播放帧率进行调整。例如，在输入信息为输入语音信息的情况下，目标播放时长可以是输入语音信息的音频时长，可以按照音频时长，采用FFMPEG工具对视频做加速或者慢速处理，以调整动作生成视频的播放帧率，使得视频帧的时长匹配语音的时长，得到输入信息最终对应的动作视频，以便后续可以结合人脸轮廓线，输入数字人生成模型中，生成最终的可肢体交互的数字人，满足多模态交互虚拟数字人的生成需求。

在另一个可选实施方式中，本申请实施例依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，具体可以包括：基于所述目标播放时长，对所述动作生成视频中的视频帧进行采样处理，得到采样视频帧序列，所述采样视频帧序列包含所述动作生成视频中的首帧视频帧，且所述采样视频帧序列的视频帧时长与所述目标播放时长相匹配。例如，可以基于输入语音信息的音频时长，对动作生成视频中的视频帧进行上采样或下采样，但不删除动作生成视频中的首帧，以得到采样视频帧序列，从而可以利用采样视频帧序列形成输入语音信息对应的动作视频，确保音频和动作视频的时间一致性。

当然，本申请实施例还可以采用其他方式，对目标动作标签对应的动作生成视频进行动态调整，以得到输入信息对应的动作视频，本申请实施例对此不作具体限制。

综上，本申请实施例在获取输入信息后，可以根据输入信息的语音或语义确定出目标动作标签，从而可以根据该目标动作标签对应的骨骼图信息，推理生成对应的姿态动作图像帧序列，然后可基于姿态动作图像帧序列，生成目标动作标签对应的动作生成视频，即实时生成动作标签对应的动作视频，随后基于根据输入信息确定的目标播放时长对动作生成视频进行动态调整，使得最终生成的动作视频的视频帧时长与语音时长相匹配，得到输入信息对应的动作视频，实现实时生成与输入信息相匹配的动作视频，以便后续可以根据该输入信息对应的动作视频生成虚拟交互对象的动作姿态视频，满足多模态交互虚拟对象生成需求。

此外，本申请实施例在生成动作标签对应的动作视频的过程中，针对动作标签对应推理生成的该姿态动作图像帧序列，采用预设的默认图像帧信息进行权重平滑处理，即将拼接帧信息添加到姿态动作图像帧序列中，以在添加过程中做权重平滑处理，从而保证了动作生成视频的平稳和平滑的过渡，解决了原始的动作视频的不同动作之间拼接会跳动帧的问题，保证可以不同动作之间切换不跳帧、不卡顿，提高输入信息对应的动作视频的生成效果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。

本申请实施例还提供了一种动作视频的生成装置。如图3所示，本申请实施例提供的动作视频的生成装置300包括如下模块：

输入获取模块310，用于获取输入信息；

信息确定模块320，用于依据所述输入信息确定目标动作标签和目标播放时长；

视频调整模块330，用于依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，直到调整后的动作生成视频的视频帧播放时长与所述目标播放时长相匹配；

动作视频确定模块340，用于将调整后的动作生成视频确定为所述输入信息对应的动作视频。

可选的，本申请实施例的动作视频的生成装置，还包括如下模块：

骨骼图信息获取模块，用于获取所述目标动作标签对应的骨骼图信息；

骨骼图信息输入模块，用于将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的姿态动作图像帧序列；

动作生成视频模块，用于基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频。

动作标签匹配模块，用于将所述目标动作标签与预设的动作库中的动作标签进行匹配；

姿态动作图像帧序列确定模块，用于基于匹配的动作标签对应的动作视频，确定姿态动作图像帧序列；

可选的，动作生成视频模块包括如下子模块：

获取子模块，用于针对所述姿态动作图像帧序列，获取预设的默认图像帧信息；

权重平滑处理子模块，用于依据所述默认图像帧信息，对所述姿态动作图像帧序列中的目标图像帧信息进行权重平滑处理，得到目标图像帧信息对应的拼接帧信息；

动作生成视频形成子模块，用于将所述目标图像帧信息对应的拼接帧信息添加到所述姿态动作图像帧序列中，形成所述目标动作标签对应的动作生成视频。

图信息获取模块，用于获取预设的动作标签对应的骨骼图信息；

图信息输入模块，用于将所述骨骼图信息输入预先训练的动作生成模型，得到所述动作生成模型输出的动作图像帧序列；

存储模块，用于将所述输出的动作图像帧序列作为所述动作标签对应的动作视频，并存储至所述动作库。

录制数据获取模块，用于获取录制动作视频数据；

骨骼图提取模块，用于从所述录制动作视频数据中，提取动作骨骼图信息；

模型训练模块，用于依据所述动作骨骼图信息进行模型训练，得到所述动作生成模型。

可选的，视频调整模块330包含播放帧率调整子模块。该播放帧率调整子模块用于按照所述目标播放时长，对所述动作生成视频的播放帧率进行调整。

可选的，视频调整模块330包含采样子模块。采样子模块用于基于所述目标播放时长，对所述动作生成视频中的视频帧进行采样处理，得到采样视频帧序列；所述采样视频帧序列包含所述动作生成视频中的首帧视频帧，且所述采样视频帧序列的视频帧时长与所述目标播放时长相匹配。

可选的，信息确定模块320包括：目标播放时长确定子模块。该目标播放时长确定子模块用于在所述输入信息为输入语音信息时，将所述输入语音信息对应的音频时长确定为所述目标播放时长；在所述输入信息为输入文本信息时，将所述输入文本信息转换为目标音频信息，并将所述目标音频信息对应的播放时长确定为所述目标播放时长。

可选的，信息确定模块320包括：目标动作标签确定子模块。目标动作标签确定子模块具体用于：确定所述输入信息对应的语义信息；并提取所述语义信息对应预设的动作标签；以及将提取到的动作标签确定为所述目标动作标签。

需要说明的是，上述提供的动作视频的生成装置可执行本申请任意实施例所提供的动作视频的生成方法，具备执行方法相应的功能和有益效果。

进一步的，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上述任意一个方法实施例所述的动作视频的生成方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例所述的动作视频的生成方法步骤。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置、设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种动作视频的生成方法，其特征在于，包括：

获取输入信息；

依据所述输入信息确定目标动作标签和目标播放时长；

2.根据权利要求1所述的动作视频的生成方法，其特征在于，在依据所述目标播放时长和所述目标动作标签对应的动作生成视频，生成所述输入信息对应的动作视频之前，还包括：

获取所述目标动作标签对应的骨骼图信息；

3.根据权利要求1所述的动作视频的生成方法，其特征在于，在依据所述目标播放时长和所述目标动作标签对应的动作生成视频，生成所述输入信息对应的动作视频之前，还包括：

4.根据权利要求2或3所述的动作视频的生成方法，其特征在于，所述基于所述姿态动作图像帧序列，生成所述目标动作标签对应的动作生成视频，包括：

5.根据权利要求3所述的动作视频的生成方法，其特征在于，在将所述目标动作标签与预设的动作库中的动作标签进行匹配之前，还包括：

获取预设的动作标签对应的骨骼图信息；

6.根据权利要求2或5所述的动作视频的生成方法，其特征在于，所述获取输入信息之前，还包括：

获取录制动作视频数据；

从所述录制动作视频数据中，提取动作骨骼图信息；

7.根据权利要求1至3任一所述的动作视频的生成方法，其特征在于，所述依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，包括：

8.根据权利要求1至3任一所述的动作视频的生成方法，其特征在于，所述依据所述目标播放时长，对所述目标动作标签对应的动作生成视频进行动态调整，包括：

9.根据权利要求1至3任一所述的动作视频的生成方法，其特征在于，依据所述输入信息确定目标播放时长，包括：

10.根据权利要求1至3任一所述的动作视频的生成方法，其特征在于，所述依据所述输入信息确定目标动作标签，包括：

确定所述输入信息对应的语义信息；

提取所述语义信息对应预设的动作标签；

将提取到的动作标签确定为所述目标动作标签。

11.一种动作视频的生成装置，其特征在于，包括：

输入获取模块，用于获取输入信息；

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一项所述的动作视频的生成方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-10任一项所述的动作视频的生成方法的步骤。