CN115170704B

CN115170704B - 一种三维场景动画自动生成方法、系统

Info

Publication number: CN115170704B
Application number: CN202210788594.1A
Authority: CN
Inventors: 宋文凤; 张欣宇
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2024-04-02
Anticipated expiration: 2042-07-06
Also published as: CN115170704A

Abstract

本发明公开了一种三维场景动画自动生成方法、系统，应用于知识图谱、图像处理技术领域，包括：获取输入图像的上下文信息，分解编码为分层图结构，输入至由卷积神经网络构成的语义解析组件得到特征节点，构建DKG，输入至动作识别卷积网络和人‑物交互检测网络进行训练至收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律，将其与输入图像输入至包含联系约束的条件变分自编码网络进行编码和解码训练，生成变形和运动学的动画。本发明通过求取基于DKG的具有交互关系的语义对象的时间变化规律以及构建包含联系约束的条件变分自编码网络，实现了图像中交互关系的准确预测以及生成变形和动画的语义及物理合理。

Description

一种三维场景动画自动生成方法、系统

技术领域

本发明涉及知识图谱、图像处理技术领域，特别涉及一种三维场景动画自动生成方法、系统。

背景技术

尽管新颖的3D动画技术可以通过多种深度学习方法得到提升，但在3D计算机视觉中仍然很少研究灵活自动3D应用程序(涉及动画人物，如人类和低龄动物)。这是由于缺乏任意3D数据采集环境，尤其是那些涉及人口稠密场景的环境。给定单个图像，由上下文推断辅助的3D动画仍然受到有限重建线索的困扰，而没有与已识别图形/对象和/或它们可能的关系的先验知识。

通过单个图像生成场景图，从而可以提供图像内容的抽象、结构化表示。应用图结构来抽象场景信息，通过消息传递改进了场景图以生成新图像。基于场景图表示，许多作品试图从图像中生成更准确的场景图。考虑了图像中的全局上下文来表示场景图。然而，很少有作品研究如何将单个图像链接到动态场景。这受到将单个图像映射到动作的模糊性错误的阻碍。为了更进一步，利用单个图像中的动作和交互线索。最近，一些作品专注于人与物体的交互，这对于理解以人为中心的运动至关重要。提出了几个大型数据集，例如V-COCO、HICODET，用于人类对象交互(HOI)检测。通过使用图卷积网络预测HOI，将其转化为图推理问题。最先进的HOI检测方法可以很好地预测交互的类别。

计算机图形学中基于知识的优化技术可以称为对象特定方法，因为它们假设有关特定对象的知识可以用于推理动画。现有大规模的人体动作模型数据集AMASS，可以为动画提供精确的人体网格模型。给定人体的参数模型，能够很好地适应特定图像场景的人体3D网格，通常是2D关节位置。这些方法在对象表示上有很强的先验性。SMPLify-X可以从单个图像生成具有表现力的面部和手部姿势的详细人体模型。

大多数方法通过两种主要范式来解决这个动画成问题：数据驱动的深度学习方法和知识先验引导的3D建模方法。数据驱动方法探索深度学习技术来学习和利用强大的对象表示，但它们主要限于手动注释负担，例如语义解析图像、检测对象等。动画数据集很难收集，因为特定动画的每个关键点安装传感器是不可行的。通过几种源自生成对抗网络和条件变分自动编码器的方法来生成图像和3D模型。然而这种类型的模型通常会导致未对齐对象的动画质量较差。

为此，如何提供一种能够准确推断人类和临近物体的最大可能接触交互，且生成具有语义合理和物理合理的变形和动画的三维场景动画自动生成方法、系统是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提出了一种三维场景动画自动生成方法、系统。本发明通过将输入图像的上下文信息分解编码为分层图结构，输入至由卷积神经网络构成的语义解析组件，得到特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点，由此构建DKG；将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，添加了与动画相关的时间节点，使得空间DKG扩展到时间维度，得到具有交互关系的语义对象的时间变化规律，使动画可以在类似的场景条件下灵活地从一个可见对象转移到另一个不可见对象，在不利用大量3D动画数据集的情况下，从任意图像生成各种动画，并使得本发明能够准确推断人类和临近物体的最大可能接触交互；将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的由双向GRU组成的时间编码器和时间解码器进行编码和解码训练，编码为具有高斯后验分布的潜在代码，解码输出包含从过去和未来帧合并的信息的潜在变量，生成人与物体之间的交互，语义上合理且物理上合理的变形和运动学的动画。本发明通过上述方案能够通过一张图像最终得到能够准确推断人类和临近物体的最大可能接触交互，且生成人与物体之间的交互，具有语义合理和物理合理的变形和运动学的动画。并且，DKG网络不需要直接监督空间和时间域中交互式动画的制作，这一优势保证了系统训练无需对现有数据集进行任何额外的成对注释工作。广泛的实验结果和综合评估证实了DKG在3D图形和视觉应用中对新动画制作的表示和建模能力。

为了实现上述目的，本发明采用如下技术方案：

一种三维场景动画自动生成方法，包括：

步骤(1)：获取输入图像的上下文信息，分解编码为分层图结构。

步骤(2)：将分层图结构输入至由卷积神经网络构成的语义解析组件，得到特征节点，构建DKG。

步骤(3)：将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律。

步骤(4)：将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有联系约束条件的条件变分自编码网络进行编码和解码训练，生成人与物体之间的交互，语义上合理且物理上合理的变形和运动学的动画。

可选的，步骤(1)中，通过将输入图像输入至YOLOV3得到输入图像的上下文信息，分解编码为分层图结构。

可选的，步骤(1)中，上下文信息包括：图像中每个对象的标签以及整个图像中的粗略布局结构。

可选的，步骤(2)中，特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点。

可选的，步骤(2)中，DKG的构建函数为：

G_l+1(n_i(A，k))＝C(G_l(n_i(A，k)))；

其中，C表示Resnet50卷积操作；n_i表示原节点；A表示动作行为；k表示人体关节点信息；G_l+1表示得到图像的节点信息。

可选的，步骤(4)中，联系约束条件为浮动和穿透联系约束，如下式：

Dist(min(V_j∈M₁，V_k∈M₂))；

其中，Dist是欧几里得距离；V_j，V_k是对象网络M_i的顶点。

可选的，步骤(4)中，条件变分自编码网络为一个由双向GRU组成的时间编码器和时间解码器。

可选的，步骤(4)中，编码和解码训练输出包含从过去和未来帧合并的信息的潜在变量，根据过去和未来帧合并的信息的潜在变量生成人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。

本发明还提供一种三维场景动画自动生成系统，包括：

获取模块：用于获取输入图像。

信息获取模块：获取输入图像的上下文信息，分解编码为分层图结构。

第一构建模块：用于构建DKG。

第一训练模块：通过将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律。

第二构建模块：用于构建三维场景生成模型。

第二训练模块：用于将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的双向GRU组成的时间编码器和时间解码器进行编码和解码训练，输出包含从过去和未来帧合并的信息的潜在变量。

生成模块：由信息的潜在变量生成人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。

经由上述的技术方案可知，与现有技术相比，提出了一种三维场景动画自动生成方法、系统。本发明通过将输入图像的上下文信息分解编码为分层图结构，输入至由卷积神经网络构成的语义解析组件，得到特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点，由此构建DKG；将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，添加了与动画相关的时间节点，使得空间DKG扩展到时间维度，得到具有交互关系的语义对象的时间变化规律，使动画可以在类似的场景条件下灵活地从一个可见对象转移到另一个不可见对象，在不利用大量3D动画数据集的情况下，从任意图像生成各种动画，并使得本发明能够准确推断人类和临近物体的最大可能接触交互；将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的由双向GRU组成的时间编码器和时间解码器进行编码和解码训练，编码为具有高斯后验分布的潜在代码，解码输出包含从过去和未来帧合并的信息的潜在变量，生成人与物体之间的交互，语义上合理且物理上合理的变形和运动学的动画。本发明通过上述方案能够通过一张图像最终得到能够准确推断人类和临近物体的最大可能接触交互，且生成人与物体之间的交互，具有语义合理和物理合理的变形和运动学的动画。并且，DKG网络不需要直接监督空间和时间域中交互式动画的制作，这一优势保证了系统训练无需对现有数据集进行任何额外的成对注释工作。广泛的实验结果和综合评估证实了DKG在3D图形和视觉应用中对新动画制作的表示和建模能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程示意图。

图2为本发明的DKG生成动画示意图。

图3为本发明的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例1公开了一种三维场景动画自动生成方法，如图1所示，包括：

步骤(1)：为了将输入图像扩展为时间动态知识，首先定义层次知识图谱的元素和起源风格，将输入图像输入至YOLOV3得到输入图像的上下文信息包括：图像中每个对象的标签以及整个图像中的粗略布局结构，并根据每个对象标签的位置布局信息，分解编码为分层图结构。

步骤(2)：将分层图结构输入至由卷积神经网络构成的语义解析组件，得到特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点，构建DKG，DKG的构建函数如下：

G_l+1(n_i(A，k))＝C(G_l(n_i(A，k)))；

步骤(3)：为了将空间DKG扩展到时间维度，添加了与动画相关的时空节点，该节点被视为语义对象节点的子节点，因此每个对象在特定场景中都应该具有特定的动画，受益于DKG结构的灵活表示能力，将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律，使动画可以在类似的场景条件下灵活地从一个可见对象转移到另一个不可见对象。在不利用大量3D动画数据集的情况下，从任意图像生成各种动画。

步骤(4)：使用从运动相关数据集(用于人体姿势的SMPL)中预先提取的先验DKG来预测可能的动画。在引擎方面，通过各种场景中视频的每个动画的所有运动动态序列，并将其存储在DKG数据集中，以供类似场景进一步参考。给定一张静态图像，在图像的上下文中推断场景图。基于语义关系线索，同时通过DKG将不同的图像和视频与3D骨架驱动的动画序列联系起来。具体来说，在引用过程中，使用一个消息传递连接，以弥合不同层次的分层知识图结构之间的差距。事实上，语义解析对象是下游任务的基础，例如关系检测和运动识别。为了预测单个图像之外的可能动画序列，从动画序列中提取的DKG。基于先前帧中的3D动画序列，通过时间序列双向门控循环单元(GRU)进一步预测下一个语义相关动画，该单元对当前帧的语义特征进行编码。DKG知识先验被编码在GRU网络中，其中从DKG推断出的动作标签作为输入。为了进一步将DKG嵌入到SMPL的特征提取器中，使用MLP来提取特征嵌入的动作，这些动作在训练阶段存储为元运动。

进一步的，联系约束条件，合理分割接触界面。直接使用DKG而不考虑人与世界的交互可能会导致物理浮动表面或穿透不同物体的表面，给定来自DKG的位置信息，首先将对象放在它们的位置，这里可能会出现浮动和穿透表面。因此计算两个网格之间的距离：

Dist(min(V_j∈M₁，V_k∈M₂))；

其中，Dist是欧几里得距离；V_j，V_k是对象网络M_i的顶点。为了利用这一点，使用从上下文线索推断出的DKG的交互关系以及不同对象之间的位置细化。通过交互的上下文线索，推断出人体表面和物体区域的重叠区域是最有可能相互接触的部分。当这样的身体表面靠近物体表面并且具有相同的相机视图时，它们很可能发生接触。另一方面，为了避免3D对象周围的自我穿透或物体穿透，制定了一个术语来指代这种接触启发式，合理地生成交互表面。然后进行局部推理。具体来说，我们首先使用边界体积层次检测碰撞网格三角形的列表，并计算局部圆锥3D距离场。然后根据距离的深度对穿透进行惩罚。

将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的由双向GRU组成的时间编码器和时间解码器构成的条件变分自编码网络进行编码和解码训练，编码为具有高斯后验分布的潜在代码，解码输出包含从过去和未来帧合并的信息的潜在变量，根据过去和未来帧合并的信息的潜在变量生成人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。

为了以定量的方式将我们的方法与其他高性能人体形状估计方法进行比较，我们展示了最先进方法的性能：SPIN和VIBE，数据和结果见表1。

表1动画顶点的误差比较结果

方法	PA-MPJPE	MPJPE	ACCEL	ACC_ERR
					SPIN	144.1	163.8	62.2	69.4
VIBE	119.2	148.6	64.1	65.1
					Ours	97.3	98.1	56.5	59.7

本发明实施例2公开了一种三维场景动画自动生成系统，如图3所示，包括：

获取模块：用于获取输入图像。

第一构建模块：用于构建DKG。

第二构建模块：用于构建三维场景生成模型。

本发明实施例公开了一种三维场景动画自动生成方法、系统。本发明通过将输入图像的上下文信息分解编码为分层图结构，输入至由卷积神经网络构成的语义解析组件，得到特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点，由此构建DKG；将DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，添加了与动画相关的时间节点，使得空间DKG扩展到时间维度，得到具有交互关系的语义对象的时间变化规律，使动画可以在类似的场景条件下灵活地从一个可见对象转移到另一个不可见对象，在不利用大量3D动画数据集的情况下，从任意图像生成各种动画，并使得本发明能够准确推断人类和临近物体的最大可能接触交互；将输入图像与具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的由双向GRU组成的时间编码器和时间解码器进行编码和解码训练，编码为具有高斯后验分布的潜在代码，解码输出包含从过去和未来帧合并的信息的潜在变量，生成人与物体之间的交互，语义上合理且物理上合理的变形和运动学的动画。本发明通过上述方案能够通过一张图像最终得到能够准确推断人类和临近物体的最大可能接触交互，且生成人与物体之间的交互，具有语义合理和物理合理的变形和运动学的动画。并且，DKG网络不需要直接监督空间和时间域中交互式动画的制作，这一优势保证了系统训练无需对现有数据集进行任何额外的成对注释工作。广泛的实验结果和综合评估证实了DKG在3D图形和视觉应用中对新动画制作的表示和建模能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种三维场景动画自动生成方法，其特征在于，包括：

步骤(1)：获取输入图像的上下文信息，分解编码为分层图结构；

步骤(2)：将所述分层图结构输入至由卷积神经网络构成的语义解析组件，得到特征节点，构建DKG；

步骤(3)：将所述DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至训练收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律；

步骤(4)：将所述输入图像与所述具有交互关系的语义对象的时间变化规律输入至包含联系约束条件的条件变分自编码网络进行编码和解码训练，生成人与物体之间的交互，语义上合理且物理上合理的变形和运动学的动画；

步骤(2)中，所述DKG的构建函数为：

G_l+1(n_i(A，k))＝C(G_l(n_i(A，k)))；

2.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(1)中，通过将所述输入图像输入至YOLOV3得到所述输入图像的上下文信息，分解编码为分层图结构。

3.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(1)中，所述上下文信息包括：图像中每个对象的标签以及整个图像中的粗略布局结构。

4.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(2)中，特征节点包括：具有场景布局结构的全局场景节点、语义实体节点和交互节点。

5.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(4)中，所述联系约束条件为浮动和穿透联系约束，如下式：

Dist(min(Vj∈M₁,V_k∈M₂))；

其中，Dist是欧几里得距离；V_j，V_k是对象网络M_i的顶点。

6.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(4)中，所述条件变分自编码网络为一个由双向GRU组成的时间编码器和时间解码器。

7.根据权利要求1所述的一种三维场景动画自动生成方法，其特征在于，步骤(4)中，所述编码和解码训练输出包含从过去和未来帧合并的信息的潜在变量，根据所述过去和未来帧合并的信息的潜在变量生成所述人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。

8.一种利用权利要求1-7中任一所述的一种三维场景动画自动生成方法的三维场景动画自动生成系统，其特征在于，包括：

获取模块：用于获取输入图像；

信息获取模块：获取所述输入图像的上下文信息，分解编码为分层图结构；

第一构建模块：用于构建DKG；

第一训练模块：通过将所述DKG输入至动作识别卷积网络和人-物交互检测网络进行训练，直至模型收敛，分解为语义流和动画流，得到具有交互关系的语义对象的时间变化规律；

第二构建模块：用于构建三维场景生成模型；

第二训练模块：用于将所述输入图像与所述具有交互关系的语义对象的时间变化规律输入至包含有浮动和穿透联系约束条件的双向GRU组成的时间编码器和时间解码器进行编码和解码训练，输出包含从过去和未来帧合并的信息的潜在变量；

生成模块：由所述信息的潜在变量生成人与物体之间的交互，具有语义上合理和物理上合理的变形和运动学的动画。