CN114283228A

CN114283228A - 一种基于单目彩色相机的虚拟人物驱动方法及系统

Info

Publication number: CN114283228A
Application number: CN202111358131.3A
Authority: CN
Inventors: 徐枫; 周玉枭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-04-05

Abstract

本发明涉及一种基于单目彩色相机的虚拟人物驱动方法及系统，所述方法包括：获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。本发明提供的技术方案，能够准确、迅速地估计输入视频中的人体动作，并实时的将其迁移到虚拟人物上，使得用户方便快捷地创作更加丰富多样的数字媒体内容且计算量小。

Description

一种基于单目彩色相机的虚拟人物驱动方法及系统

技术领域

本发明涉及计算机图形学领域，具体涉及一种基于单目彩色相机的虚拟人物驱动方法及系统。

背景技术

实时人体动作的捕捉与迁移是计算机视觉与计算机图形学领域中一个重要且基础的问题，它在虚拟现实及混合现实等领域有着非常广泛的应用。例如，在混合现实中，通过引入虚拟角色模型，再利用实时获得的人体运动进行驱动，可以获得更丰富的交互体验。正是由于人的运动在日常生活中无处不在，人体运动的捕捉具有极高的科研和应用价值。

目前，随着虚拟现实、增强现实技术的发展，其市场应用也越来越广泛。与此同时，人们对虚拟/增强现实的产品提出了更高的要求。人们已不仅仅满足于被动地接收传统虚拟现实和增强现实中提供的内容输出，而是期望能够自主生成数字虚拟内容。另一方面，虚拟人物受到了越来越多人的欢迎，如何实时地准确的驱动虚拟人物的动作成为了一个当下的需求。

发明内容

本申请提供一种基于单目彩色相机的虚拟人物驱动方法及系统，以至少解决相关技术中如何准确且实时地驱动虚拟人物的动作的技术问题。

本申请第一方面实施例提出一种基于单目彩色相机的虚拟人物驱动方法，所述方法包括：

获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；

基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；

根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；

将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。

本申请第二方面实施例提出一种基于单目彩色相机的虚拟人物驱动系统，所述系统包括：

获取模块，用于获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；

第一确定模块，用于基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；

第二确定模块，用于根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；

驱动模块，用于将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。

本申请第三方面实施例提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如本申请第一方面的预测方法。

本申请第四方面实施例提出一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本申请第一方面的预测方法。

本申请的实施例提供的技术方案至少带来以下有益效果：

本发明提供的本发明涉及一种基于单目彩色相机的虚拟人物驱动方法及系统，所述方法包括：获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。本发明提供的技术方案，能够准确、迅速地估计输入视频中的人体动作，并实时的将其迁移到虚拟人物上，使得用户方便快捷地创作更加丰富多样的数字媒体内容且计算量小。

本申请附加的方面以及优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面以及优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请一个实施例提供的一种基于单目彩色相机的虚拟人物驱动方法的流程图；

图2是根据本申请一个实施例提供的一种基于单目彩色相机的虚拟人物驱动系统的结构图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请提出的本发明涉及一种基于单目彩色相机的虚拟人物驱动方法及系统，所述方法包括：获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。本发明提供的技术方案，能够准确、迅速地估计输入视频中的人体动作，并实时的将其迁移到虚拟人物上，使得用户方便快捷地创作更加丰富多样的数字媒体内容且计算量小。

实施例1

图1为本公开实施例提供的一种基于单目彩色相机的虚拟人物驱动方法的流程图，如图1所示，所述方法包括：

步骤1：获取单个人物主体的彩色视频帧序列和预先定义的虚拟人物三维模型；

步骤2：基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标；

在本公开实施例中，所述基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标，包括：

将获取的单个人物主体的彩色视频帧序列输入预先训练好的深度卷积神经网络模型中，得到各帧视频对应的三维关键点坐标；

其中，所述预先训练好的深度卷积神经网络模型是以获取的历史时段内单个人物主体的彩色视频帧序列为初始深度卷积神经网络的输入，以所述各帧彩色视频的三维关键点坐标为初始深度卷积神经网络的输出，进行训练得到的。

所述预先训练好的深度卷积神经网络模型借助于大量数据来训练，最终得到的模型具有良好的鲁棒性与泛化能力，对于日常生活中多样的光照条件、用户穿着、环境背景、人体动作都能正确地处理，给出较为精确的关键点位置的估计。

需要说明的是，所述预先训练好的深度卷积神经网络模型包括：深度残差网络层和四层卷积神经网络层；

具体的，使用深度残差网络提取图像特征，而后使用四层卷积神经网络来预测输入图像中人体关键点的三维关键点坐标。

需要说明的是，考虑到单目彩色相机数据天然存在的尺度-距离歧义性，这一步的输出为各个关键点相对于人体根关键点的相对三维坐标，而非相对于相机的全局三维坐标。这种形式能够有效地减轻单目相机的空间歧义性对于精度的负面影响。

步骤3：根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息；

在本公开实施例中，所述根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息，包括：

将所述各帧视频对应的三维关键点坐标输入预先训练好的深度全连接神经网络模型中，得到各帧视频对应的三维关节旋转信息；

其中，所述预先训练好的深度全连接神经网络模型是以获取的历史时段内各帧视频对应的三维关键点坐标为初始深度全连接神经网络的输入，以所述各帧视频对应的三维关节旋转信息为初始深度全连接神经网络的输出，进行训练得到的。

需要说明的是，使用真实人物的动作来驱动虚拟人物，根本上需要得知人体骨骼树中每个关节在三维空间中的旋转信息。由有限的三维关键点位置推导相应的关节旋转，数学上是一个欠定的问题，具有无穷多个可行解。另一方面，由于人体的运动并不是完全自由的，而会受到关节构造的限制与人类运动习惯的约束，在无穷的可行解中，存在着一个从概率角度最可能的解，即：存在一组关节的三维旋转，其既和人体当前的关键点的位置一致，又符合人类的运动习惯。本方法提出使用深度全连接神经网络来回归求解上述问题。具体而言，在这一步骤中，本公开实施例设计了一个具有6层深度、每层具有1024个隐藏神经元的全连接神经网络，其输入为33个人体关键点的位置，输出为21个关节的三维旋转，并使用大量的动作捕捉数据来训练这个神经网络。在使用时，本方法借助这个神经网络来根据预测得到的三维关键点坐标进一步估计对应的三维关节旋转信息。

步骤4：将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。

在本公开实施例中，我们需要用户预先提供需要被驱动的虚拟人物模型。这个三维虚拟人物模型不需要和用户完全一致，但应当符合正常人类的体型，并已经绑定好了骨架。我们使用骨架中每个关节的三维旋转信息，应用到这个骨架中，从骨架的根节点开始进行正向动力学计算与线性蒙皮，最后使用OpenGL将结果渲染到显示器中。

综上所述，本公开实施例实现了一种基于单目彩色相机的虚拟人物驱动方法，对网络直播、混合现实交互过程的内容生成具有较大意义。本方法首先处理彩色数据，使用基于卷积神经网络的深度学习模型根据数据的视觉特征预测图像中人物的三维关键点的相对位置。然后结合人体运动的先验分布知识来根据关键点位置推测三维空间下的人体关节旋转。最后，将得到人体关节旋转重新应用于预先给定的三维虚拟人物模型上。该方法能够准确、迅速地估计输入视频中的人体动作，并实时的将其迁移到虚拟人物上，使得用户方便快捷地创作更加丰富多样的数字媒体内容且计算量小。

实施例2

图2为本公开实施例提供的一种基于单目彩色相机的虚拟人物驱动系统的结构图，如图2所示，所述系统包括：

在本公开实施例中，所述第一确定模块具体用于：

需要说明的是，所述预先训练好的深度卷积神经网络模型包括：深度残差网络层和卷积神经网络层；

所述深度残差网络层用于提取各帧视频图像的图像特征；

所述卷积神经网络层用于预测输入图像中人体关键点的三维坐标。

需要说明的是，所述三维关键点坐标为相对于人体跟关键点的相对三维坐标。

在本公开实施例中，所述第二确定模块具体用于：

在本公开实施例中，所述驱动模块具体用于：

从骨架的根节点开始利用正向动力学计算与线性蒙皮将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物。

综上所述，本发明提供的本发明涉及一种基于单目彩色相机的虚拟人物驱动系统，能够准确、迅速地估计输入视频中的人体动作，并实时的将其迁移到虚拟人物上，使得用户方便快捷地创作更加丰富多样的数字媒体内容且计算量小。

实施例3

为了实现上述实施例，本公开还提出一种计算机设备。

本实施例提供的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现实施例1中的方法。

实施例4

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质。

本实施例提供的计算机设备，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1中的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于单目彩色相机的虚拟人物驱动方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于获取的单个人物主体的彩色视频帧序列确定各帧视频对应的三维关键点坐标，包括：

3.如权利要求2所述的方法，其特征在于，所述预先训练好的深度卷积神经网络模型包括：深度残差网络层和卷积神经网络层；

所述深度残差网络层用于提取各帧视频图像的图像特征；

4.如权利要求2所述的方法，其特征在于，所述三维关键点坐标为相对于人体跟关键点的相对三维坐标。

5.如权利要求1所述的方法，其特征在于，所述根据所述各帧视频对应的三维关键点坐标确定所述各帧视频对应的三维关节旋转信息，包括：

6.如权利要求1所述的方法，其特征在于，所述将各帧视频对应的三维关节旋转信息应用于虚拟人物三维模型中驱动虚拟人物，包括：

7.一种基于单目彩色相机的虚拟人物驱动系统，其特征在于，所述系统包括：

8.如权利要求7所述的系统，其特征在于，驱动模块具体用于：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。