CN116485962A

CN116485962A - 一种基于对比学习的动画生成方法及系统

Info

Publication number: CN116485962A
Application number: CN202310502954.1A
Authority: CN
Inventors: 宋文凤; 张欣宇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-25

Abstract

本发明公开了一种基于对比学习的动画生成方法及系统，涉及人体动画生成技术领域，包括：对比学习利用具有强特征语义的元动画，编码了跨模式语义、信息性几何特征和姿势中的运动原理；通过带有时空表征的VAE对潜在空间进行参数化，在没有监督的情况下生成连贯性动画的转换。本发明通过相邻帧的上下文相关线索将网状动画与连续的语义标签相匹配，通过强几何先验，指导语义和网格动画之间的对齐。通过一个语义指导的编码器提取特征，提高动画的类内紧凑性和类间可分离性。通过学习隐空间分布以同时表示动画中的空间和时间线索，在时空语义控制下产生具有高度灵活性的现实动画。

Description

一种基于对比学习的动画生成方法及系统

技术领域

本发明涉及人体动画生成技术领域，特别涉及一种基于对比学习的动画生成方法及系统。

背景技术

动画合成是计算机图形学和计算机动画中一项长期的任务。特别是，生成具有姿势和形状的语义控制序列是一项极具挑战性的任务。近年来，通过大量的研究工作发现，动画的表现形式有四种，包括部分姿势序列、网格(SMPL)、固定人体模型和隐含函数。网格由于顶点的尺度受限，网格的表现力是有限的。隐含函数需要高额的成本计算。虽然固定人体模型方法能够以灵活的顶点比例合成衣着的人。但是，这些方法在数据集中生成动画方面的概括能力较低。使用原始的数值分析对人体运动进行建模，然后通过模型对三维人体运动进行跟踪，这类方法很难产生多种动作。网络流学习丰富多变的潜空间来编码运动，但这些方法并不直接适用于学习可控生成模型。扩散模型的前沿研究同样具有生成模型的能力。这些技术可以提供质量更高的样本，但是，它们在计算时间和潜伏代码的高维度方面不灵活并且不能按照用户的要求主动编辑和控制。

因此，如何提供一种能够由语义控制生成人体动画，且生成具有时空表征的人体动画生成方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提出了一种基于对比学习的动画生成方法及系统，通过对比学习框架近似于语义和动画之间的连续映射函数，能够由语义控制生成人体动画，且生成具有时空表征的人体动画，为了实现上述目的，本发明采用如下技术方案：

一种基于对比学习的动画生成方法，包括：

步骤(1)：获取输入文本，通过文本编码器获得文本特征；获取输入的元动画，通过几何编码器获得几何特征；获取人体运动的关节点信息，通过运动编码器获得运动特征；

步骤(2)：将获得的文本特征、几何特征和运动特征进行拼接，通过语义指导的编码器提取特征；

步骤(3)：将步骤(2)中提取的特征输入位置编码与GRU联系的新型时间位置编码器，保留与高频率动作线索相关的语义；

步骤(4)：通过带有时空表征的VAE对潜在空间进行参数化，在没有监督的情况下生成连贯的动画转换。

可选的，步骤(1)中，所述文本编码器通过设置可学习的语义嵌入向量，用标签作为索引来寻找相应的动作。

可选的，步骤(1)中，所述几何编码器包括，通过一个非线性的映射函数R()将元动画转换成一个特征向量，将元动画的顶点信息编码为一个张量，将网格运动转换为特征空间，与语义标签对齐；

其中，为LSTM长短期记忆神经网络，V表示元动画的顶点，ψ(V)为张量，/>为V点的函数值，/>表示元动画的SMPL参数，Ω表示骨骼绑定的权重，(β,θ)为姿势。

可选的，步骤(1)中，通过运动编码器提取人类骨骼的运动特征，包括运动树、关节坐标和顶点坐标，通过MLP网络将姿势(β,θ)编码到特征空间，并控制动画的生成，通过修改身体关键点的尺寸P来编码连续的姿势φ(P)；

其中，为姿势函数。

可选的，步骤(2)中提取特征的步骤包括，通过将拼接后的信息输入至编码模块网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律。

可选的，步骤(3)中，所述新型时间位置编码器包括通过周期性正弦函数的位置编码对动画的时间顺序线索进行编码，首先为新型时间位置编码器提供跨模式的数据流，包括姿势、语义和元动画，之后在几何-运动学融合层和动画编码器层之间处理位置编码模块，计算从以前的位置编码中计算出的扩展，使时间上平滑带有语义标签的帧。

可选的，步骤(3)中包括对比学习的损失函数构建为：

其中，sim表示两个特征点积的余弦相似度，P表示骨骼关键点信息，M表示网格的几何信息，符号τ是一个网络参数。

可选的，步骤(4)中，所述时空表征通过多语义条件下的长期运动生成，将空间语义和时间语义进行融合，利用空间语义来控制同时生成多个动作，将时间语义细化为多个动作。

可选的，一种基于对比学习的动画生成系统，包括：

获取模块：获取多模态的信息；

信息获取模块：获取文本信息，元动画信息，关节点信息；

第一构建模块：用于构建编码模块；

第一训练模块：通过将多模态的信息输入至编码模块网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律；

第一处理模块：将从多模态的信息中提取的特征拼接后输入位置编码与GRU联系的新型时间位置编码器，保留与高频率动作线索相关的语义；

第二构建模块：用于构建人体动作的模型；

第二训练模块：用于多语义条件下的长期运动生成，将空间语义和时间语义进行融合，利用空间语义来控制同时生成多个动作，将时间语义细化为多个动作，完善了多种语义之间的转换；

人体动画生成模块：由信息的潜在变量生成人与物体之间的交互，生成具有语义上合理和物理上合理的变形和运动学的动画。

经由上述的技术方案可知，与现有技术相比，本发明提出了一种基于对比学习的动画生成方法及系统。本发明通过将多模态的信息输入至编码模块网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律，在多语义条件下的长期运动生成。为了生成语义连贯的动画，利用了空间语义和时间语义的融合，也就是说，利用空间语义来控制同时生成多个动作，而时间语义则细化为一个个动作，完善了多种语义之间的转换。

利用语义信息来提高动画的保真度，以达到模仿真实人类行为的目的。为了填补动画和语义之间的沟壑，提出一种新的数据驱动范式：基于对比学习的时空表征。整个方法可以分解为两个子任务：跨模式对比学习和时空表征。其中跨模式对比学习通过相邻帧的上下文相关线索将网状动画与连续的语义标签相匹配。为了加强几何细节，设计了一系列元动画作为强几何先验以指导语义和网格动画之间的对齐。

本发明为了保持跨模式特征(包括姿势、几何细节和语义)的高鉴别能力，通过一个由语义指导的编码器提取特征，从而提高动画的类内紧凑性和类间可分离性，通过学习隐空间分布可以同时表示动画中的空间和时间线索。实现了在时空语义控制下产生具有高灵活性的现实动画，同时还能够生成数据集中没有的新类别的动画。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程示意图。

图2为本发明的人体生成动画示意图。

图3为本发明的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1公开了一种基于对比学习的动画生成方法，如图1所示，包括：

步骤(1)：获取输入文本，通过文本编码器获得文本信息；提出了一个可学习的语义嵌入向量，用标签作为索引来寻找相应的动作。因此，可以控制不同类别行动的产生。

步骤(2)：获取输入的元动画，通过几何编码器获得几何信息；所述几何编码包括：提出了一个几何编码器，通过非线性的方式将元动画转换成特征向量。通过一个非线性的映射函数R()将元动画转换成一个特征向量。为了获得网格动画的特征，将元动画的顶点V信息编码为一个张量。

其中，采用了长短期记忆(LSTM)神经网络网格运动被进一步转换为特征空间，以适应性地与语义标签对齐。V表示元动画的顶点，/>表示元动画的SMPL参数，Ω表示骨骼绑定的权重。

步骤(3)：获取人体运动的关节点信息，通过运动编码器获得运动信息；提出了一个运动学编码器来提取人类骨骼的运动特征，包括运动树、关节坐标和顶点坐标。与几何编码器类似，通过MLP网络将姿势(β,θ)编码到特征空间，并控制动画的生成。为了获得运动学特征，修改身体关键点的尺寸P来编码连续的姿势φ(P)：

其中通过应用姿势函数得到人体关键点信息。

步骤(4)：将得到的文本特征、几何特征、运动特征进行拼接，通过一个语义指导的编码器提取特征。所述新型时间位置编码器包括通过周期性正弦函数的位置编码对动画的时间顺序线索进行编码。目的是保留动画的语义表达部分。首先为新型时间位置编码器提供跨模式的数据流，包括姿势、语义和元动画。此外，为了在时间维度上保持语义的流畅性，建议在时间上平滑带有语义标签的帧。具体来说，在几何-运动学融合层和动画编码器层之间处理位置编码模块计算从以前的位置编码中计算出的扩展。

在对动作序列进行编码时，引入一个新型时间位置编码器。顺序线索是表达动作序列的关键，通过周期性正弦函数的位置编码对动画的时序线索进行编码，从而保留动画的语义表达成分。首先给时间位置编码器提供跨模式的数据流，包括姿势P、语义S和元动画中的顶点V。同时为了保持语义在时间维度上的流畅性，通过选择在时间上平滑带有语义标签的帧。即在几何-运动学融合层和动画编码器层之间处理位置编码模块，将位置编码扩展为：

G_t(x_t)＝ξ(q·[x_t-1,x_t]),；

其中，ξ(,)表示sigmoid函数，q表示时间编码器的权重，[,]表示向量连接操作，G_t(,)表示GRU中的遗忘门，x_t表示从跨模态的位置编码中初始化。通过这种方式，可以从全局范围内获得语义相关的时间特征和连贯的动画。通过时间位置编码器网络引导潜伏空间对动画的时间和空间线索进行编码，这可以充分保留动画语义相关的高频细节。

步骤(5)：将提取的特征输入位置编码与GRU联系的新型时间位置编码器，以保留与高频率动作线索有关的语义。其中对比学习的损失函数构建为：

步骤(6)：同时为了生成连贯的动画，通过带有时空表征的VAE对潜在空间进行参数化，从而在没有监督的情况下生成连贯的动画转换。时空表征是多语义条件下的长期运动生成。为了生成语义连贯的动画，同时利用了空间语义和时间语义的融合。也就是说，利用空间语义来控制同时生成多个动作，而时间语义则细化为一个个动作，语义则完善了多种语义之间的转换

为了以定量的方式将采用的方法与其他高性能人体形状估计方法进行比较，展示了最先进方法的性能：Motion CLIP、Actor和Avatar CLIP，数据和结果见表1。

表1动画顶点的误差比较结果

方法	FID	Acc	Div	Multimodal
					MotionCLIP	0.13	95.1	6.78	2.54
Actor	0.13	94.9	6.83	2.56
					AvatarCLIP	0.10	96.0	4.83	1.46
Ours	0.10	96.1	6.85	6.85

本发明实施例2公开了一种基于对比学习的动画生成系统，如图3所示，包括：

获取模块：获取多模态的信息。

信息获取模块：获取文本信息，几何信息，运动信息。

第一构建模块：用于构建编码模块。

第一训练模块：通过将多模态的信息输入至编码模块网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律。

第一处理模块：将从多模态的信息中提取的特征输入位置编码与GRU联系的新型时间位置编码器，保留与高频率动作线索相关的语义。

第二构建模块：用于构建人体动作的模型。

第二训练模块：用于多语义条件下的长期运动生成。为了生成语义连贯的动画，同时利用了空间语义和时间语义的融合。也就是说，利用空间语义来控制同时生成多个动作，而时间语义则细化为一个个动作。语义则完善了多种语义之间的转换。

人体动画生成模块：由信息的潜在变量生成人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。

本发明实施例3公开了一种计算机可存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述人体动画生成方法的步骤。

本发明实施例公开了一种基于对比学习的动画生成方法及系统。本发明通过对比学习框架近似于语义和动画之间的连续映射函数。所述对比学习利用具有强特征语义的元动画，它编码了跨模式语义、信息性几何特征和姿势中的运动原理；同时为了生成连贯性动画，通过带有时空表征的VAE对潜在空间进行参数化，它在没有监督的情况下生成连贯性动画的转换。本发明通过相邻帧的上下文相关线索将网状动画与连续的语义标签相匹配。为了加强几何细节，设计了一系列元动画作为强几何先验，以指导语义和网格动画之间的对齐。此外，为了保持跨模式特征(包括姿势、几何细节和语义)的高鉴别能力，提出了一个新的时空特征表示方法，即通过一个语义指导的编码器提取特征，来提高动画的类内紧凑性和类间可分离性。该模型通过学习隐空间分布以同时表示动画中的空间和时间线索，以在时空语义控制下产生具有高度灵活性的现实动画。通过充分的实验结果和综合评估表明，所述方法可以在时空语义控制下产生具有高灵活性的现实动画。而且，同时还能够生成数据集中没有的新类别的动画。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于对比学习的动画生成方法，其特征在于，包括：

步骤(2)：将获得的文本特征、几何特征和运动特征进行合并，通过语义指导的编码器提取特征；

2.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(1)中，所述文本编码器通过设置可学习的语义嵌入向量，用标签作为索引来寻找相应的动作。

3.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(1)中，所述几何编码器包括，通过一个非线性的映射函数R()将元动画转换成一个特征向量，将元动画的顶点信息编码为一个张量，将网格运动转换为特征空间，与语义标签对齐；

4.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(1)中，通过运动编码器提取人类骨骼的运动特征，包括运动树、关节坐标和顶点坐标，通过MLP网络将姿势(β,θ)编码到特征空间，并控制动画的生成，通过修改身体关键点的尺寸P来编码连续的姿势φ(P)；

其中，为姿势函数。

5.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(2)中提取特征的步骤包括，将合并后的信息输入至编码模块网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律。

6.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(3)中，所述新型时间位置编码器包括通过周期性正弦函数的位置编码对动画的时间顺序线索进行编码，首先为新型时间位置编码器提供跨模式的数据流，包括姿势、语义和元动画，之后在几何-运动学融合层和动画编码器层之间处理位置编码模块，计算从以前的位置编码中计算出的扩展，使时间上平滑带有语义标签的帧。

7.根据权利要求6所述的一种基于对比学习的动画生成方法，其特征在于，步骤(3)中包括对比学习的损失函数构建为：

8.根据权利要求1所述的一种基于对比学习的动画生成方法，其特征在于，步骤(4)中，所述时空表征通过多语义条件下的长期运动生成，将空间语义和时间语义进行融合，利用空间语义来控制同时生成多个动作，将时间语义细化为多个动作。

9.一种基于对比学习的动画生成系统，其特征在于，包括：

获取模块：获取多模态的信息；

信息获取模块：获取文本信息，元动画信息，关节点信息；

第一构建模块：用于构建编码模块；

第一处理模块：将从多模态的信息中提取的特征进行合并后输入位置编码与GRU联系的新型时间位置编码器，保留与高频率动作线索相关的语义；

第二构建模块：用于构建人体动作的模型；