CN115631275A

CN115631275A - 多模态驱动的人体动作序列生成方法及装置

Info

Publication number: CN115631275A
Application number: CN202211443425.0A
Authority: CN
Inventors: 周子翔; 王宝元
Original assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Current assignee: Beijing Hongmian Xiaoice Technology Co Ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-01-20
Anticipated expiration: 2042-11-18
Also published as: CN115631275B

Abstract

本申请提供一种多模态驱动的人体动作序列生成方法及装置，涉及虚拟人体动作生成领域，该方法包括：获取目标输入信号；目标输入信号为文本信号或者音频信号；将目标输入信号输入到动作生成模型中，生成与目标输入信号对应的目标动作序列；其中，动作生成模型包括：文本编码器、音频编码器以及动作解码器；文本编码器与音频编码器输出的隐空间表示符合统一的概率分布；动作解码器用于将文本编码器，或者音频编码器输出的特征向量解码为动作序列。本申请提供的多模态驱动的人体动作序列生成方法及装置，用于实现支持多模态输入的动作生成模型，以提高动作生成模型的应用范围，降低虚拟人物的制作成本。

Description

多模态驱动的人体动作序列生成方法及装置

技术领域

本申请涉及虚拟人体动作生成领域，尤其涉及一种多模态驱动的人体动作序列生成方法及装置。

背景技术

虚拟人物的动作生成是虚拟人物制作的重要基础，当前的虚拟人物制作通常需要依赖大量的人力投入来制作动画，制作成本较高。在相关技术中，可以使用基于人工智能的虚拟人物动作生成模型来生成虚拟人物的动作。

然而，大部分动作生成模型仅支持脸部动作的生成，若要训练能够生成躯干部份的动作生成模型，则需要大量的样本数据。并且，相关技术中的动作生成模型通常只支持文本信号或者音频信号中的一种作为输入信号，使得虚拟人物的动作生成受限于特定的驱动信号，应用范围较小。

发明内容

本申请的目的是提供一种多模态驱动的人体动作序列生成方法及装置，用于实现支持多模态输入的动作生成模型，以提高动作生成模型的应用范围，降低虚拟人物的制作成本。

本申请提供一种多模态驱动的人体动作序列生成方法，包括：

获取目标输入信号；所述目标输入信号为文本信号或者音频信号；将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

可选地，在所述动作生成模型的训练阶段，所述动作生成模型还包括：动作编码器；所述动作生成模型为基于以下步骤训练得到的：构建训练样本集；所述训练样本集中的每个训练样本均包括两个输入信号：动作序列信号，以及以下任一项：文本信号，音频信号；基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，使得任一训练样本中两个输入信号之间的相关部分经过对应的编码器编码后得到的特征向量之间的距离靠近，两个输入信号之间的无关部分经过对应的编码器编码后得到的特征向量之间的距离远离；将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数。

可选地，所述基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，包括：在输入到所述动作生成模型中的目标训练样本包含文本信号以及动作序列信号的情况下，将所述目标训练样本中的目标文本信号输入到所述文本编码器中进行特征提取，得到所述目标文本信号对应的文本特征向量；将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量；基于所述文本特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述文本编码器的模型参数；其中，所述文本特征向量为所述目标文本信号经过所述文本编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

可选地，所述基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，包括：在输入到所述动作生成模型中的目标训练样本包含音频信号以及动作序列信号的情况下，将所述目标训练样本中的目标音频信号输入到所述音频编码器中进行特征提取，得到所述目标音频信号对应的音频特征向量；将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量；基于所述音频特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述音频编码器的模型参数；其中，所述音频特征向量为所述目标音频信号经过所述音频编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

可选地，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：将所述文本编码器输出的文本特征向量输入所述动作解码器中，得到所述文本特征向量对应的第一动作序列；将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第二动作序列；基于所述第一动作序列与所述第二动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

可选地，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：将所述音频编码器输出的音频特征向量输入所述动作解码器中，得到所述音频特征向量对应的第三动作序列；将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第四动作序列；基于所述第三动作序列与所述第四动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的音频信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

可选地，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数之前，所述方法还包括：以目标编码器输出的第一特征向量为中心，构建所述第一特征向量的高斯分布；对所述第一特征向量的高斯分布进行随机采样，得到第二特征向量；所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：将所述第二特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数；其中，所述目标编码器为以下任一项：所述文本编码器，所述音频编码器，所述动作编码器。

本申请还提供一种多模态驱动的人体动作序列生成装置，包括：

获取模块，用于获取目标输入信号；所述目标输入信号为文本信号或者音频信号；动作生成模块，用于将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

可选地，在所述动作生成模型的训练阶段，所述动作生成模型还包括：动作编码器；所述装置还包括：构建模块和训练模块；所述构建模块，用于构建训练样本集；所述训练样本集中的每个训练样本均包括两个输入信号：动作序列信号，以及以下任一项：文本信号，音频信号；所述训练模块，用于基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，使得任一训练样本中两个输入信号之间的相关部分经过对应的编码器编码后得到的特征向量之间的距离靠近，两个输入信号之间的无关部分经过对应的编码器编码后得到的特征向量之间的距离远离；所述训练模块，还用于将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数。

可选地，所述装置还包括：特征提取模块；所述特征提取模块，用于在输入到所述动作生成模型中的目标训练样本包含文本信号以及动作序列信号的情况下，将所述目标训练样本中的目标文本信号输入到所述文本编码器中进行特征提取，得到所述目标文本信号对应的文本特征向量；所述特征提取模块，还用于将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量；所述训练模块，具体用于基于所述文本特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述文本编码器的模型参数；其中，所述文本特征向量为所述目标文本信号经过所述文本编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

可选地，所述特征提取模块，用于在输入到所述动作生成模型中的目标训练样本包含音频信号以及动作序列信号的情况下，将所述目标训练样本中的目标音频信号输入到所述音频编码器中进行特征提取，得到所述目标音频信号对应的音频特征向量；所述特征提取模块，还用于将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量；所述训练模块，具体用于基于所述音频特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述音频编码器的模型参数；其中，所述音频特征向量为所述目标音频信号经过所述音频编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

可选地，所述装置还包括：动作生成模块；所述动作生成模块，用于将所述文本编码器输出的文本特征向量输入所述动作解码器中，得到所述文本特征向量对应的第一动作序列；所述动作生成模块，还用于将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第二动作序列；所述训练模块，具体用于基于所述第一动作序列与所述第二动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

可选地，所述动作生成模块，用于将所述音频编码器输出的音频特征向量输入所述动作解码器中，得到所述音频特征向量对应的第三动作序列；所述动作生成模块，还用于将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第四动作序列；所述训练模块，具体用于基于所述第三动作序列与所述第四动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的音频信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

可选地，所述构建模块，还用于以目标编码器输出的第一特征向量为中心，构建所述第一特征向量的高斯分布；所述特征提取模块，还用于对所述第一特征向量的高斯分布进行随机采样，得到第二特征向量；所述训练模块，具体用于将所述第二特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数；其中，所述目标编码器为以下任一项：所述文本编码器，所述音频编码器，所述动作编码器。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上述任一种所述多模态驱动的人体动作序列生成方法的步骤。

本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多模态驱动的人体动作序列生成方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多模态驱动的人体动作序列生成方法的步骤。

本申请提供的多模态驱动的人体动作序列生成方法及装置，将获取到的文本信号或者音频信号中的任一目标输入信号输入到本申请提供的支持多模态驱动的动作生成模型中，便可以生成与所述目标输入信号对应的目标动作序列，不仅提高了生成的虚拟动作的质量，还极大地降低虚拟人物的制作成本。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的多模态驱动的人体动作序列生成方法的流程示意图；

图2是本申请提供的动作生成模型的结构示意图之一；

图3是本申请提供的动作生成模型的结构示意图之二；

图4是本申请提供的动作生成模型的结构示意图之三；

图5是本申请提供的多模态驱动的人体动作序列生成装置的结构示意图；

图6是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

在相关技术中，动作生成模型通常只支持文本信号或者音频信号中的一种作为输入信号，输入模式单一，使得虚拟人物的动作生成受限于特定的驱动信号，应用范围较小。若想要支持多种类型的输入信号，则需要训练多个不同的动作生成模型，虚拟人物的制作成本较高。

为了能够解决相关技术中存在的上述技术问题，本申请实施例提供了一种多模态驱动的人体动作序列生成方法，能够将不同类型的输入信号转化为对应的动作序列，不仅提高了生成的虚拟动作的质量，还极大地降低虚拟人物的制作成本，具有较为广泛的应用。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的多模态驱动的人体动作序列生成方法进行详细地说明。

如图1所示，本申请实施例提供的一种多模态驱动的人体动作序列生成方法，该方法可以包括下述步骤101和步骤102：

步骤101、获取目标输入信号。

其中，所述目标输入信号为文本信号或者音频信号。

示例性地，上述目标输入信号可以为文本信号或者音频信号中的任一种。

需要说明的是，本申请实施例提供的动作生成模型，并能够同时处理文本信号和音频信号，而是能够将文本信号或者音频信号转化为动作序列。该动作序列可以包括至少一个肢体动作。

步骤102、将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列。

其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

示例性地，将上述目标输入信号输入到本申请实施例提供的动作生成模型中，该动作生成模型便可以根据该目标输入信号，输出一段对应的动作序列。

举例说明，以上述目标输入信号为文本信号为例，该目标输入信号可以为：“a manis jumping”，将该目标输入信号输入到动作生成模型之后，便可以得到一段跳跃的动作序列。

示例性地，区别于相关技术中的动作生成模型，如图2所示，本申请实施例提供的动作生成模型，包括：文本编码器、音频编码器以及动作解码器。

示例性地，上述文本编码器以及音频编码器，可以使用长短期记忆网络（Longshort-term memory，LSTM），一维卷积神经网络模型1D-CNN，Transformer等神经网络来实现。

示例性地，在上述目标输入信号为文本信号的情况下，上述动作生成模型通过对应的文本编码器对文本进行编码；在上述目标输入信号为音频信号的情况下，上述动作生成模型通过对应的音频编码器对音频进行编码。

示例性地，为了能够对生成的动作序列进行编辑和控制，本申请实施例提供的动作生成模型的文本编码器与音频编码器采用统一的隐空间表示以及统一的动作解码器生成动作序列，即上述文本编码器与音频编码器输出的隐空间表示符合统一的概率分布。

需要说明的是，隐空间（Latent Space）是压缩数据的一个表示。隐空间的作用是为了找到模式（pattern）而学习数据特征，并且简化数据表示。数据压缩是指用比原来表示更少的比特对信息进行编码。例如，将一个十九维的数据降到九维。

数据压缩的目的是学习数据中较重要的信息。以编码器-解码器网络为例，首先使用神编码器提取输入数据的特征，将特征提取过程中对数据的降维看作一种有损压缩。之后，使用编码器将压缩后的数据进行重建（reconstruct）。

由于解码器需要重建数据，因此，编码器必须学习在进行数据压缩时，如何保留所有关键信息，并忽略噪声信息。所以数据压缩的目的在于去除输入数据中的多余信息。这种经过编码器压缩后得到的特征向量就是输入数据的隐空间表示。即上述编码器（包括：文本编码器、音频编码器）可以将输入信号转化为经过数据压缩后的特征向量，也可以称之为输入信号对应的隐空间向量。

可选地，在本申请实施例中，上述动作生成模型可以通过以下方法经过训练后得到。

示例性地，如图3所示，上述动作生成模型的训练过程引入了一个动作编码器，并通过对比学习方法训练上述文本编码器以及音频编码器。即在所述动作生成模型的训练阶段，所述动作生成模型还包括：动作编码器。

本申请实施例提供的动作生成模型的文本编码器、音频编码器与动作编码器采用统一的隐空间表示，即文本编码器、音频编码器与动作编码器输出的隐空间表示符合统一的概率分布。

示例性地，本申请实施例提供的多模态驱动的人体动作序列生成方法，还可以包括以下步骤201至步骤203：

步骤201、构建训练样本集。

其中，所述训练样本集中的每个训练样本均包括两个输入信号：动作序列信号，以及以下任一项：文本信号，音频信号。

示例性地，上述训练样本集中包含正样本和负样本，在样本包含文本信号和动作序列信号的情况下，若文本信号与动作序列信号所描述的动作一致，则该样本问正样本；反之，则该样本为负样本。同理，在样本包含音频信号和动作序列信号的情况下，若音频信号与动作序列信号所描述的动作一致，则该样本问正样本；反之，则该样本为负样本。

可以理解的是，以样本包含文本信号和动作序列信号为例，借助对比学习的方法，文本编码器和动作编码器会分别将文本信号和动作序列信号编码成对应的高维向量。对于正样本，两个高维向量之间的距离要求尽量靠近，对于负样本，两个向高维量之间的距离要尽量远离。

步骤202、基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，使得任一训练样本中两个输入信号之间的相关部分经过对应的编码器编码后得到的特征向量之间的距离靠近，两个输入信号之间的无关部分经过对应的编码器编码后得到的特征向量之间的距离远离。

步骤203、将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数。

需要说明的是，在训练过程中，编码器（包括文本编码器和音频编码器）得到的隐变量（即上述编码器输出的特征向量），再通过动作解码器得到与输入信号相对应的动作序列，根据训练数据集中的真实动作序列（即训练样本中的动作序列信号）和解码得到的动作序列之差（可以用L2-loss表示），作为监督信号来优化编码器和解码器的训练，使得编码器能够学到有语义信息的隐变量。

示例性地，为了能够对如图3所示的动作生成模型进行训练，需要构建训练样本集。区别于相关技术中的训练样本集，本申请实施例中的训练样本可以分为两类，第一类为包含文本信号和动作序列信号的训练样本，第二类是包含音频信号和动作序列信号的样本。

示例性地，针对上述第一类训练样本，对于同一训练样本中的文本信号与动作序列信号相似的部分，对比学习的目的是为了使文本信号经过文本编码器编码后得到的隐空间向量E _T与动作序列信号经过动作编码器编码后得到的隐空间向量E _M尽量靠近；反之，对于同一训练样本中的文本信号与动作序列信号不相似的部分，对比学习的目的是为了使文本信号经过文本编码器编码后得到的隐空间向量E _T与动作序列信号经过动作编码器编码后得到的隐空间向量E _M尽量远离。

示例性地，针对上述第二类训练样本，对于同一训练样本中的音频信号与动作序列信号相似的部分，对比学习的目的是为了使音频信号经过音频编码器编码后得到的隐空间向量E _A与动作序列信号经过动作编码器编码后得到的隐空间向量E _M尽量靠近；反之，对于同一训练样本中的音频信号与动作序列信号不相似的部分，对比学习的目的是为了使音频信号经过音频编码器编码后得到的隐空间向量E _A与动作序列信号经过动作编码器编码后得到的隐空间向量E _M尽量远离。

具体地，这对上述第一类训练样本，上述步骤202，可以包括以下步骤202a1至步骤202a3：

步骤202a1、在输入到所述动作生成模型中的目标训练样本包含文本信号以及动作序列信号的情况下，将所述目标训练样本中的目标文本信号输入到所述文本编码器中进行特征提取，得到所述目标文本信号对应的文本特征向量。

步骤202a2、将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量。

步骤202a3、基于所述文本特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述文本编码器的模型参数。

其中，所述文本特征向量为所述目标文本信号经过所述文本编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

具体地，这对上述第二类训练样本，上述步骤202，可以包括以下步骤202b1至步骤202b3：

步骤202b1、在输入到所述动作生成模型中的目标训练样本包含音频信号以及动作序列信号的情况下，将所述目标训练样本中的目标音频信号输入到所述音频编码器中进行特征提取，得到所述目标音频信号对应的音频特征向量。

步骤202b2、将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量。

步骤202b3、基于所述音频特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述音频编码器的模型参数。

其中，所述音频特征向量为所述目标音频信号经过所述音频编码器进行特征提取后得到的隐空间表示；所述动作特征向量为所述目标动作序列信号经过所述动作编码器进行特征提取后得到的隐空间表示。

示例性地，文本信号对应文本解码器，音频信号对应音频解码器。以上述第一类训练样本（包含文本信号和动作序列信号）训练动作生成模型的训练过程为例（第二类训练样本的训练过程可以参照第一类训练样本的训练过程），文本编码器将文本信号编码后得到文本信号对应的隐空间表示，即上述文本特征向量；动作编码器将动作序列信号编码后得到动作序列信号对应的隐空间表示，即上述动作特征向量。

之后，计算文本特征向量和动作特征向量的对比损失值，并通过反向传播的方式调整文本编码器以及动作编码器的模型参数。

示例性地，上述文本编码器输出的文本特征向量与动作编码器输出的动作特征向量在隐空间中的距离的计算方式，可以采用欧氏距离、曼哈顿距离或者契比雪夫距离中的任一项，或者，可以采用其他更加合适的向量距离计算方法。

需要说明的是，文本信号可以分割为多个子文本，每个子文本经过动作生成模型处理后均可以得到对应动作或者动作序列。不同的子文本也可以生成相同的动作或动作序列。

具体地，针对上述第一类训练样本，上述步骤203中动作解码器的训练，可以包括以下步骤203a1至步骤203a3：

步骤203a1、将所述文本编码器输出的文本特征向量输入所述动作解码器中，得到所述文本特征向量对应的第一动作序列。

步骤203a2、将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第二动作序列。

步骤203a3、基于所述第一动作序列与所述第二动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

具体地，针对上述第二类训练样本，上述步骤203中动作解码器的训练，可以包括以下步骤203b1至步骤203b3：

步骤203b1、将所述音频编码器输出的音频特征向量输入所述动作解码器中，得到所述音频特征向量对应的第三动作序列。

步骤203b2、将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第四动作序列。

步骤203b3、基于所述第三动作序列与所述第四动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的音频信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

示例性地，如图3所示，上述文本编码器、音频编码器以及动作编码器，在有对应的输入信号的情况下，均可以输出一个特征向量，受限于训练样本所包含的输入信号，输入到动作解码器中的特征向量有且只有两种组合：文本特征向量与动作特征向量，音频特征向量与动作特征向量。

示例性地，以上述第一类训练样本的训练过程为例，动作解码器可以将输入的文本特征向量转化为文本信号对应的动作序列，即上述第一动作序列；以及将输入的动作特征向量转化为动作序列信号对应的动作序列，即上述第二动作序列。

示例性地，在得到上述第一动作序列以及第二动作序列之后，便可以根据第一动作序列与第二动作序列的比较结果，调整解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

举例说明，如图3所示，以包含文本信号和动作序列信号的第一类训练样本的训练过程为例，文本信号经过文本编码器编码后得到文本特征向量E _T；动作序列信号经过动作编码器编码后得到动作特征向量E _M。文本特征向量E _T经过动作解码器解码后，得到包含n个动作（动作t1至动作tn）的动作序列；动作特征向量E _M经过动作解码器解码后得到包含k个动作（动作m1至动作mk）的动作序列。

可选地，在本申请实施例中，为了增加解码器生成动作的多样性，可以以编码器输出的隐空间向量为中心，得到该隐空间向量的高斯分布，并从该隐空间向量的高斯分布中进行采样，将采样后的向量输入到动作解码器中。

示例性地，上述步骤203之前，本申请实施例提供的多模态驱动的人体动作序列生成方法，还可以包括以下步骤204和步骤205：

步骤204、以目标编码器输出的第一特征向量为中心，构建所述第一特征向量的高斯分布。

步骤205、对所述第一特征向量的高斯分布进行随机采样，得到第二特征向量。

示例性地，基于上述步骤204和步骤205，上述步骤203还可以包括以下步骤203c：

步骤203c、将所述第二特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数。

其中，所述目标编码器为以下任一项：所述文本编码器，所述音频编码器，所述动作编码器。

举例说明，结合图3，如图4所示，在得到文本编码器或者音频编码器输出的特征向量之后，可以首先对其进行高斯分布采样，并得到采样后的特征向量，再将采样后的特征向量输入到动作解码器中，以增加动作解码器输出的动作序列的多样性。

示例性地，将编码器输出的特征向量经过高斯分布采样后再输入到动作解码器中的步骤，也可以应用到动作生成模型的应用过程（即上述步骤102）中。

本申请实施例提供的多模态驱动的人体动作序列生成方法，将获取到的文本信号或者音频信号中的任一目标输入信号输入到本申请提供的支持多模态驱动的动作生成模型中，便可以生成与所述目标输入信号对应的目标动作序列，不仅提高了生成的虚拟动作的质量，还极大地降低虚拟人物的制作成本。

需要说明的是，本申请实施例提供的多模态驱动的人体动作序列生成方法，执行主体可以为多模态驱动的人体动作序列生成装置，或者该多模态驱动的人体动作序列生成装置中的用于执行多模态驱动的人体动作序列生成方法的控制模块。本申请实施例中以多模态驱动的人体动作序列生成装置执行多模态驱动的人体动作序列生成方法为例，说明本申请实施例提供的多模态驱动的人体动作序列生成装置。

需要说明的是，本申请实施例中，上述各个方法附图所示的。多模态驱动的人体动作序列生成方法均是以结合本申请实施例中的一个附图为例示例性的说明的。具体实现时，上述各个方法附图所示的多模态驱动的人体动作序列生成方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

下面对本申请提供的多模态驱动的人体动作序列生成装置进行描述，下文描述的与上文描述的多模态驱动的人体动作序列生成方法可相互对应参照。

图5为本申请一实施例提供的多模态驱动的人体动作序列生成装置的结构示意图，如图5所示，具体包括：

获取模块501，用于获取目标输入信号；所述目标输入信号为文本信号或者音频信号；动作生成模块502，用于将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

可选地，所述装置还包括：动作生成模块502；所述动作生成模块502，用于将所述文本编码器输出的文本特征向量输入所述动作解码器中，得到所述文本特征向量对应的第一动作序列；所述动作生成模块502，还用于将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第二动作序列；所述训练模块，具体用于基于所述第一动作序列与所述第二动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

可选地，所述动作生成模块502，用于将所述音频编码器输出的音频特征向量输入所述动作解码器中，得到所述音频特征向量对应的第三动作序列；所述动作生成模块502，还用于将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第四动作序列；所述训练模块，具体用于基于所述第三动作序列与所述第四动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的音频信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

本申请提供的多模态驱动的人体动作序列生成装置，将获取到的文本信号或者音频信号中的任一目标输入信号输入到本申请提供的支持多模态驱动的动作生成模型中，便可以生成与所述目标输入信号对应的目标动作序列，不仅提高了生成的虚拟动作的质量，还极大地降低虚拟人物的制作成本。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行多模态驱动的人体动作序列生成方法，该方法包括：获取目标输入信号；所述目标输入信号为文本信号或者音频信号；将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多模态驱动的人体动作序列生成方法，该方法包括：获取目标输入信号；所述目标输入信号为文本信号或者音频信号；将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

又一方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的多模态驱动的人体动作序列生成方法，该方法包括：获取目标输入信号；所述目标输入信号为文本信号或者音频信号；将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；其中，所述动作生成模型包括：文本编码器、音频编码器以及动作解码器；所述文本编码器用于对文本信号进行编码；所述音频编码器用于对音频信号进行编码；所述文本编码器与所述音频编码器输出的隐空间表示符合统一的概率分布；所述动作解码器用于将所述文本编码器，或者所述音频编码器输出的特征向量解码为动作序列。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多模态驱动的人体动作序列生成方法，其特征在于，包括：

获取目标输入信号；所述目标输入信号为文本信号或者音频信号；

将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；

2.根据权利要求1所述的方法，其特征在于，在所述动作生成模型的训练阶段，所述动作生成模型还包括：动作编码器；

所述动作生成模型为基于以下步骤训练得到的：

构建训练样本集；所述训练样本集中的每个训练样本均包括两个输入信号：动作序列信号，以及以下任一项：文本信号，音频信号；

基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，使得任一训练样本中两个输入信号之间的相关部分经过对应的编码器编码后得到的特征向量之间的距离靠近，两个输入信号之间的无关部分经过对应的编码器编码后得到的特征向量之间的距离远离；

将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数。

3.根据权利要求2所述的方法，其特征在于，所述基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，包括：

在输入到所述动作生成模型中的目标训练样本包含文本信号以及动作序列信号的情况下，将所述目标训练样本中的目标文本信号输入到所述文本编码器中进行特征提取，得到所述目标文本信号对应的文本特征向量；

将所述目标训练样本中的目标动作序列信号输入到上述动作编码器中进行特征提取，得到所述目标动作序列信号对应的动作特征向量；

基于所述文本特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述文本编码器的模型参数；

4.根据权利要求2所述的方法，其特征在于，所述基于对比学习方法，使用所述训练样本集中的训练样本约束训练所述文本编码器以及所述音频编码器，包括：

在输入到所述动作生成模型中的目标训练样本包含音频信号以及动作序列信号的情况下，将所述目标训练样本中的目标音频信号输入到所述音频编码器中进行特征提取，得到所述目标音频信号对应的音频特征向量；

基于所述音频特征向量以及所述动作特征向量计算对比学习损失，并通过反向传播调整所述音频编码器的模型参数；

5.根据权利要求3所述的方法，其特征在于，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：

将所述文本编码器输出的文本特征向量输入所述动作解码器中，得到所述文本特征向量对应的第一动作序列；

将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第二动作序列；

基于所述第一动作序列与所述第二动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的文本信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

6.根据权利要求4所述的方法，其特征在于，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：

将所述音频编码器输出的音频特征向量输入所述动作解码器中，得到所述音频特征向量对应的第三动作序列；

将所述动作编码器输出的动作特征向量输入所述动作解码器中，得到所述动作特征向量对应的第四动作序列；

基于所述第三动作序列与所述第四动作序列的比较结果，调整所述动作解码器的模型参数，以提高输入的音频信号与输入的动作序列信号之间相关部分对应的动作序列之间的相似度。

7.根据权利要求5或6所述的方法，其特征在于，所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数之前，所述方法还包括：

以目标编码器输出的第一特征向量为中心，构建所述第一特征向量的高斯分布；

对所述第一特征向量的高斯分布进行随机采样，得到第二特征向量；

所述将与训练样本中输入信号对应的编码器输出的特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数，包括：

将所述第二特征向量输入所述动作解码器中，并基于所述动作解码器输出的动作序列调整所述动作解码器的模型参数；

8.一种多模态驱动的人体动作序列生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标输入信号；所述目标输入信号为文本信号或者音频信号；

动作生成模块，用于将所述目标输入信号输入到动作生成模型中，生成与所述目标输入信号对应的目标动作序列；

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述多模态驱动的人体动作序列生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述多模态驱动的人体动作序列生成方法的步骤。