CN113743283A

CN113743283A - 网状拓扑结构获取方法、装置、电子设备及存储介质

Info

Publication number: CN113743283A
Application number: CN202111004900.XA
Authority: CN
Inventors: 韩英; 刘宇; 胡海; 覃小春
Original assignee: Chengdu Digital Sky Technology Co ltd
Current assignee: Chengdu Digital Sky Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-03
Also published as: CN114663983A

Abstract

本申请提供一种网状拓扑结构获取方法、装置、电子设备及存储介质，用于改善视角遮挡的歧义性导致获得的网状拓扑结构的精度和实时性不高的问题。该方法包括：获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的；对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据；使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据；获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。

Description

网状拓扑结构获取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉和计算机图形学的技术领域，具体而言，涉及一种网状拓扑结构获取方法、装置、电子设备及存储介质。

背景技术

动作捕捉(Motion Capture)，又称为动态捕捉，是指记录并处理人或其他物体动作的技术。在电影制作和电子游戏开发领域，动作捕捉通常是记录人类演员的动作，并将其转换为数字模型的动作，并生成二维或三维的计算机动画。

目前使用动作捕捉技术来获取网状拓扑结构方法大都是，利用单视角彩色图像来获取网状拓扑结构；然而在具体的实践过程中发现，使用传统拟合迭代优化方式来制作网状拓扑结构，仅仅只能做到以11秒每帧的速度获取参数化人体模型对应的网状拓扑结构。当单视角彩色图像中存在多个演员时，多个演员的动作肢体会相互遮挡，单个演员自己的肢体有时候也有视角遮挡。

发明内容

本申请实施例的目的在于提供一种网状拓扑结构获取方法、装置、电子设备及存储介质，用于改善视角遮挡的歧义性导致获得的网状拓扑结构的精度和实时性不高的问题。

本申请实施例提供了一种网状拓扑结构获取方法，包括：获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的；对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据；使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据；获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。在上述的实现过程中，通过获取从不同的视角对人体区域进行拍摄的多个人体图像，并对多个人体图像进行关键点检测和多视角重构，从而使得参数化人体模型的制作过程中无需人为参与标注，通过自动化制作流程提高了制作网状拓扑结构的实时性，且有效地改善单视角拍照时演员的动作存在歧义性问题；进一步地，通过预测出重构后的三维关键点数据对应的三维旋转数据，并使用拟合后的参数化人体模型加载三维旋转数据，获得参数化人体模型的网状拓扑结构，从而利用多视角拟合的方式获得更加准确的参数化人体模型的身体姿态和尺寸，有效地提高了参数化人体模型的网状拓扑结构的精度。

可选地，在本申请实施例中，对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据，包括：对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点；根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，获得重构后的三维关键点数据。在上述的实现过程中，通过对多个人体图像中的每个人体图像进行关键点检测，并根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，从而利用多视角拟合的方式获得更加准确的参数化人体模型的身体姿态和尺寸，有效地提高了参数化人体模型的网状拓扑结构的精度。

可选地，在本申请实施例中，对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点，包括：针对多个人体图像中的每个人体图像，对人体图像中的人体区域进行定位目标检测，获得人体区域图像；对人体区域图像进行关键点检测，获得一组二维关键点。在上述的实现过程中，通过先对人体图像中的人体区域进行定位目标检测，然后才对人体区域图像进行关键点检测，从而避免了人体图像中的人体区域占比不大时导致关键点检测效果差的问题，事先提取出人体图像中的人体区域图像，再对人体区域图像进行关键点检测，提高了人体图像的关键点检测效果。

可选地，在本申请实施例中，获取拟合后的参数化人体模型，包括：获取未拟合人体模型，并将未拟合人体模型中的多个三维关键点投影至人体区域图像，获得投影后的多个二维关键点数据；将重构后的三维关键点数据投影到人体区域图像，获得重构后的多个二维关键点数据，并根据重构后的多个二维关键点数据对投影后的多个二维关键点数据进行修正，获得修正后的多个二维关键点；最小化拟合未拟合人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差，获得参数化人体模型。在上述的实现过程中，通过最小化拟合未拟合人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差，从而避免了使用未拟合人体模型来处理数据的问题，能够获得更加准确的参数化人体模型的身体姿态和尺寸，有效地提高了参数化人体模型的网状拓扑结构的精度。

可选地，在本申请实施例中，深度学习网络模型包括：特征提取网络和迭代误差反馈网络；使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据，包括：使用特征提取网络对三维关键点数据进行特征提取，获得姿态特征和尺度特征；使用迭代误差反馈网络对姿态特征和尺度特征进行旋转预测，获得三维旋转数据。

可选地，在本申请实施例中，在使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测之前，还包括：获取多个三维关键点数据；获取多个三维关键点数据中的每个三维关键点数据对应的三维旋转数据；以三维关键点数据为训练数据，以三维旋转数据为训练标签，对深度学习神经网络进行训练，获得深度学习网络模型。

可选地，在本申请实施例中，对深度学习神经网络进行训练，获得深度学习网络模型，包括：使用深度学习神经网络对三维关键点数据进行预测，获得预测旋转数据；分别计算预测旋转数据和三维旋转数据之间的旋转误差、关键点位置误差和尺度因子误差；对旋转误差、关键点位置误差和尺度因子误差进行计算，获得总损失值；根据总损失值对深度学习神经网络进行训练，获得深度学习网络模型。在上述的实现过程中，通过根据旋转误差、关键点位置误差和尺度因子误差计算出的总损失值来对深度学习网络模型进行训练，从而避免了只使用其中一个误差来训练深度学习网络模型的问题，有效地提高了深度学习网络模型预测三维旋转数据的准确率。

本申请实施例还提供了一种网状拓扑结构获取装置，包括：人体图像获取模块，用于获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的；重构数据获得模块，用于对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据；旋转数据获得模块，用于使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据；网状拓扑获得模块，用于获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。

可选地，在本申请实施例中，重构数据获得模块，包括：二维关键点检测模块，用于对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点；二维多视角重构模块，用于根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，获得重构后的三维关键点数据。

可选地，在本申请实施例中，二维关键点检测模块，包括：区域图像检测模块，用于针对多个人体图像中的每个人体图像，对人体图像中的人体区域进行定位目标检测，获得人体区域图像；二维关键点获得模块，用于对人体区域图像进行关键点检测，获得一组二维关键点。

可选地，在本申请实施例中，网状拓扑获得模块，包括：三维关键点投影模块，用于获取未拟合人体模型，并将未拟合人体模型中的多个三维关键点投影至人体区域图像，获得投影后的多个二维关键点数据；关键点数据修正模块，用于将重构后的三维关键点数据投影到人体区域图像，获得重构后的多个二维关键点数据，并根据重构后的多个二维关键点数据对投影后的多个二维关键点数据进行修正，获得修正后的多个二维关键点；参数化模型获得模块，用于最小化拟合未拟合人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差，获得参数化人体模型。

可选地，在本申请实施例中，深度学习网络模型包括：特征提取网络和迭代误差反馈网络；旋转数据获得模块，包括：数据特征提取模块，用于使用特征提取网络对三维关键点数据进行特征提取，获得姿态特征和尺度特征；旋转数据预测模块，用于使用迭代误差反馈网络对姿态特征和尺度特征进行旋转预测，获得三维旋转数据。

可选地，在本申请实施例中，网状拓扑结构获取装置，还包括：关键点数据获取模块，用于获取多个三维关键点数据；旋转数据获取模块，用于获取多个三维关键点数据中的每个三维关键点数据对应的三维旋转数据；网络模型获得模块，用于以三维关键点数据为训练数据，以三维旋转数据为训练标签，对深度学习神经网络进行训练，获得深度学习网络模型。

可选地，在本申请实施例中，网络模型获得模块，包括：关键点数据预测模块，用于使用深度学习神经网络对三维关键点数据进行预测，获得预测旋转数据；数据误差计算模块，用于分别计算预测旋转数据和三维旋转数据之间的旋转误差、关键点位置误差和尺度因子误差；总损失值获得模块，用于对旋转误差、关键点位置误差和尺度因子误差进行计算，获得总损失值；神经网络训练模块，用于根据总损失值对深度学习神经网络进行训练，获得深度学习网络模型。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的网状拓扑结构获取方法的流程示意图；

图2示出的本申请实施例提供的使用相机矩阵从不同的视角拍摄的示意图；

图3示出的本申请实施例提供的训练深度学习模型的流程示意图；

图4示出的本申请实施例提供的人体关键点的示意图；

图5示出的本申请实施例提供的深度学习神经网络的网络结构示意图；

图6示出的本申请实施例提供的迭代误差反馈(IEF)层的网络结构示意图；

图7示出的本申请实施例提供的网状拓扑结构获取装置的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请实施例的实施例的详细描述并非旨在限制要求保护的本申请实施例的范围，而是仅仅表示本申请实施例的选定实施例。基于本申请实施例的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

在介绍本申请实施例提供的网状拓扑结构获取方法之前，先介绍本申请实施例中所涉及的一些概念：

深度学习(Deep Learning)，是机器学习中一种基于对数据进行表征学习的算法，深度学习是机器学习的分支，也是一种以人工神经网络为架构，对数据进行表征学习的算法。

目标检测网络，是指对图像中的目标对象进行检测的神经网络，即检测出图像中的目标对象，并给出目标对象在图像中的位置范围、分类和概率，位置范围具体可以为检测框的形式标注，分类是指目标对象的具体类别，概率是指检测框中的目标对象为具体类别的概率。

需要说明的是，本申请实施例提供的网状拓扑结构获取方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。

下面介绍该网状拓扑结构获取方法适用的应用场景，这里的应用场景包括但不限于：在对人体动作进行捕捉获得人体图像之后，可以使用该网状拓扑结构获取方法对人体图像进行计算，从而获取参数化人体模型的网状拓扑结构，提高参数化人体模型的网状拓扑结构的精度等。

请参见图1示出的本申请实施例提供的网状拓扑结构获取方法的流程示意图；该网状拓扑结构获取方法的主要思路是，通过获取从不同的视角对人体区域进行拍摄的多个人体图像，并对多个人体图像进行关键点检测和多视角重构，从而使得参数化人体模型的制作过程中无需人为参与标注，通过自动化制作流程提高了制作网状拓扑结构的实时性，且有效地改善单视角拍照时演员的动作存在歧义性问题；进一步地，通过预测出重构后的三维关键点数据对应的三维旋转数据，并使用拟合后的参数化人体模型加载三维旋转数据，获得参数化人体模型的网状拓扑结构，从而利用多视角拟合的方式获得更加准确的参数化人体模型的身体姿态和尺寸，有效地提高了参数化人体模型的网状拓扑结构的精度；上述的网状拓扑结构获取方法可以包括：

步骤S110：获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的。

请参见图2示出的本申请实施例提供的使用相机矩阵从不同的视角拍摄的示意图；图中细线条的直线是墙沿，粗线条直线是框架(可以是铁制的或者钢制的)，框架上安装有多个相机，此处的多个相机可以组成一个相机矩阵，从而最大程度的拍摄到相机矩阵覆盖范围内的所有角落，实现多个不同视角拍摄的功能。上述的人体图像的获得方式包括：第一种获得方式，使用opencv或matlab自带的相机标定工具箱算法对摄像机、录像机或彩色照相机等组成的相机矩阵进行标定，可以获得该相机矩阵中的每个相机的内部参数和外部参数，然后，可以使用该相机矩阵从不同的视角对人体区域进行拍摄，获得多个人体图像；然后该终端设备向电子设备发送多个人体图像，然后电子设备接收并存储终端设备发送的多个人体图像；第二种获得方式，获取预先存储的多个人体图像，具体例如：从文件系统中获取多个人体图像，或者从数据库中获取多个人体图像，或者从移动存储设备中获取多个人体图像；第三种获得方式，使用浏览器等软件获取互联网上的多个人体图像，或者使用其它应用程序访问互联网获得多个人体图像。

步骤S120：对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据。

在一些实施方式中，如果人体图像的质量足够好(即人体图像大部分都是人体区域，人体图像中的人体区域长和宽占人体图像的大部分，例如90％)，那么就可以直接对人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据。由于此处的关键点检测和多视角重构的过程非常复杂，因此，其详细过程将在下面详细的描述。

在另一些实施方式中，通常人体图像的质量不够好，需要对人体图像进行定位目标检测，获得人体区域框，并根据人体区域框对人体图像进行裁剪，获得人体区域图像，最后，再对人体区域图像进行关键点检测和多视角重构，获得重构后的三维关键点数据。

步骤S130：使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据。

深度学习网络模型是一个输入三维关键点数据，且输出三维旋转数据的神经网络模型；该深度学习网络模型可以预测出三维关键点数据对应的三维旋转数据。可以理解的是，在使用深度学习网络模型之前，还需要对深度学习网络模型进行训练，由于训练深度学习网络模型的实施方式比较复杂，因此，深度学习网络模型的训练过程放在后面详细地描述，深度学习网络模型的具体网络结果也在训练过程完后详细的介绍。

步骤S140：获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。

在上述步骤S110至步骤S140的实现过程中发现，传统拟合迭代优化方式仅仅只能做到以11秒每帧的速度获取参数化人体模型对应的网状拓扑结构。然而，本申请实施例可以通过预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，并将预测出来的三维旋转数据输入参数化人体模型，能够达到以1000每秒传输帧数(Frames PerSecond，FPS)的速度获取参数化人体模型对应的网状拓扑结构。因此，相比于传统拟合迭代优化方式来获取参数化人体模型对应的网状拓扑结构，本申请实施例中的深度学习方式获取参数化人体模型对应的网状拓扑结构的实时性有了明显地提高。

在上述的实现过程中，通过获取从不同的视角对人体区域进行拍摄的多个人体图像，并对多个人体图像进行关键点检测和多视角重构，从而使得参数化人体模型的制作过程中无需人为参与标注，通过自动化制作流程提高了制作网状拓扑结构的实时性，且有效地改善单视角拍照时演员的动作存在歧义性问题；进一步地，通过预测出重构后的三维关键点数据对应的三维旋转数据，并使用拟合后的参数化人体模型加载三维旋转数据，获得参数化人体模型的网状拓扑结构，从而利用多视角拟合的方式获得更加准确的参数化人体模型的身体姿态和尺寸，有效地提高了参数化人体模型的网状拓扑结构的精度。

请参见图3示出的本申请实施例提供的训练深度学习模型的流程示意图；可选地，在使用深度学习网络模型之前，还可以对深度学习网络模型进行训练，也可以在上面直接获取已经训练过的深度学习模型，下面介绍训练深度学习模型的过程，该过程可以包括：

步骤S210：获取多个三维关键点数据。

上述步骤S210的实施方式可以包括如下：

步骤S211：获取多个人体图像，并对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点。

请参见图4示出的本申请实施例提供的人体关键点的示意图；上述步骤S321的实施方式例如：针对多个人体图像中的每个人体图像，使用目标检测网络模型对人体图像中的人体区域进行定位目标检测，获得人体区域图像；其中，可以使用的目标检测网络模型包括：特征融合单点多盒检测器(Feature Fusion Single Shot multi-box Detector，FSSD)、YOLO网络模型、RCNN、fast RCNN和faster RCNN系列的网络模型。使用目标检测框架以及人体关键点检测算法(例如openpose)对人体区域图像进行关键点检测，获得一组二维关键点，此处的二维关键点是人体关键点的图像坐标。

可选地，在获取多个人体图像的过程中，可以从头开始制作多个人体图像的训练数据，具体例如：让演员朝着同一个方向表演动作，那么可以使用图2中的相机矩阵对演员进行拍照或者录制视频，获取多个人体图像的训练数据。也可以在已经获得一些人体图像的基础上，对这些人体图像进行图像增强，从而获得更多的人体图像，具体例如：向这些人体图像中添加随机噪声，从而扩充更多的训练数据，并且能够有效缓解神经网络模型的过拟合问题。同理地，这些随机噪声也可以增加到二维关键点、三维关键点和/或下面的三维旋转数据中，从而有效地扩充训练数据集，且改善深度学习神经网络对方向的依赖性(即过拟合问题)。因此，通过增加随机噪声能够有效地减少训练数据集的制作时间，以及减少深度学习神经网络的训练时间。

步骤S212：根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，获得重构后的三维关键点数据。

上述的步骤S212的实施方式例如：上述的参数包括：相机矩阵中的每个相机的内部参数和外部参数；使用上面相机标定后获得的内部参数和外部参数，以及人体关键点的图像坐标，对人体区域图像中的二维关键点进行三维重建，获得人体关键点在世界坐标系下的三维(3D)坐标，此处的三维坐标可以记作detect_3d∈R^21×3，此处的人体关键点在世界坐标系下的三维坐标就是重构后的三维关键点数据。

在步骤S210之后，执行步骤S220：获取多个三维关键点数据中的每个三维关键点数据对应的三维旋转数据。

上述步骤S220的实施方式例如：使用参数化人体模型对三维关键点数据进行罗德里格斯变换，获得每个三维关键点数据对应的三维旋转数据，此处的三维旋转数据就是每个关节的局部旋转矩阵，局部旋转矩阵可以表示为M^24×3×3。其中，上述的参数化人体模型具体可以采用蒙皮多人线性模型(Skinned Multi-Person Linear Model-eXpressive，SMPL-X)模型，SMPL-X模型可以表示为body(θ,β)，其中，θ∈R³²为姿态参数，β∈R¹⁰为形状参数，两个参数均为向量。通过改变(θ,β)，函数body(θ,β)，可以输出不同姿态和形状的人体模型即网状拓扑(mesh)的顶点3D位置信息，记为V，也可以得到对应模型下的3D关键点的位置信息，记为key_points∈R^24×3。

在步骤S220之后，执行步骤S230：以三维关键点数据为训练数据，以三维旋转数据为训练标签，对深度学习神经网络进行训练，获得深度学习网络模型。

可以理解的是，三维关键点数据与三维旋转数据是一一对应的监督数据集，可以表示为{X|xi＝(detect_3d，M)}；其中，detect_3d表示三维关键点数据，M表示三维旋转数据，X表示监督数据集，xi表示监督数据集中的一对三维关键点数据和三维旋转数据。

上述步骤S230的实施方式可以包括：

步骤S231：使用深度学习神经网络对三维关键点数据进行预测，获得预测旋转数据。

请参见图5示出的本申请实施例提供的深度学习神经网络的网络结构示意图；深度学习神经网络是可以预测出三维关键点数据对应的三维旋转数据的神经网络模型，其中，该深度学习网络模型包括：特征提取网络和迭代误差反馈网络，各个网络结构和网络层级的连接关系如图所示。特征提取网络包括：初始化姿态(init pose)、初始化尺度(initscale)、三维关键点位置信息J、骨骼方向以及层级结构D、参考关键点位置信息J_ref、参考骨骼方向及层级结构D_ref、全连接层(Fully Connected Layer，FC)和特征(Feature)层。迭代误差反馈网络包括：迭代误差反馈(Iteration Error Feedback，IEF)层、姿态预测(predpose)层、尺度预测(scale)层和正向动力(Forward Kinetic，FK)层；其中，初始化姿态(init pose)其实是一个均值姿态，可以通过所有样本的姿态参数求均值得到。

请参见图6示出的本申请实施例提供的迭代误差反馈(IEF)层的网络结构示意图；上述的迭代误差反馈(IEF)层可以包括：第一剔除(dropout)层、第二全连接(FC)层(1024)、第二剔除(dropout)层、第三全连接(FC)层(24*6)和第四全连接(FC)层；其中，各个网络结构之间的连接关系如图5和图6所示。

上述步骤S231的实施方式例如：假设三维关键点数据中的第k个三维关键点坐标表示为bk，k的取值范围可以是0≤k≤24；该深度学习神经网络的输入是I＝[J,D,J_ref,D_ref]∈R^4×B×3，其中，B代表人体模型中的关节点数量，J是相对于根部节点且进行尺度归一化的三维关键点位置信息，D代表的骨骼方向以及层级结构，J_ref和D_ref则分别是从姿态模板(Template pose，Tpose)的关键点转化得到的参考关键点位置信息和参考骨骼方向及层级结构。如果只是输入关键点的话，对于深度学习网络模型来说就只有一堆离散的点，而缺少了这些点的结构信息，网络很难训练得到预期的结果。如果使用子节点相对于父节点的位置则可表示出这种层级结构和方向，具体例如：假设第k关节点的父节点标号用parent_k表示，则

将姿态参数θ置为全零向量后得到的人体网状拓扑(mesh)为姿态模板(Tpose)，此时的关键点可以记为key_pointsTpose，得到姿态模板(Tpose)的网状拓扑(mesh)和关键点位置。

上述的深度学习神经网络在输入初始化姿态(init pose)、初始化尺度(initscale)、三维关键点位置信息J、骨骼方向以及层级结构D、参考关键点位置信息J_ref和参考骨骼方向及层级结构D_ref之后，该深度学习神经网络的输出是对应于SMPL-X模型中每个关节点的局部旋转信息

以及为标量的尺度因子

由于通常三维旋转信息是使用四元数、欧拉角或者3×3的旋转矩阵来表示的，需要注意的是，上面的表示方式在深度学习神经网络训练过程中的3D表达不是连续的，导致深度学习神经网络难以收敛，因此，可以将三维旋转信息转换为连续的6D表达形式。转换的过程使用公式来表达例如：可以使用公式

将3×3的旋转矩阵转为6D表达式，然后再使用公式

和

将6D表达式转到3×3的旋转矩阵。其中，N(·)表示归一化函数，N(q)＝q/||q||。将网络输出的6D旋转信息

转为每个关节的3×3的局部旋转矩阵得到

步骤S232：分别计算预测旋转数据和三维旋转数据之间的旋转误差、关键点位置误差和尺度因子误差。

需要注意的是，上述的尺度因子scale表征了SMPL模型骨架与检测得到的3D点构成的骨架之间的缩放关系，也要作为损失值(loss)的一部分，否则网络训练得到的结果会出现镜像问题。因此，在构建损失函数计算总损失值时，将尺度因子scale作为损失值(loss)的一部分加入进来。

上述步骤S232的实施方式包括：在获取预测旋转数据和三维旋转数据之后，可以使用公式

计算预测旋转数据和三维旋转数据之间的旋转误差；其中，loss_M表示旋转误差，

表示三维旋转数据中的局部旋转矩阵，M_kij表示预测旋转数据中的局部旋转矩阵。还可以使用公式

计算预测旋转数据和三维旋转数据之间的关键点位置误差；其中，loss_xyz表示关键点位置误差，

表示三维旋转数据中的人体姿态的关键点估计位置，key_points_posed,ki表示预测旋转数据中的人体姿态的关键点估计位置。还可以使用公式

计算预测旋转数据和三维旋转数据之间的尺度因子误差；其中，loss_scale表示尺度因子误差，

表示三维旋转数据中的人体姿态的尺度因子，scale表示预测旋转数据中的人体姿态的尺度因子。

步骤S233：对旋转误差、关键点位置误差和尺度因子误差进行计算，获得总损失值。

上述的步骤S233的实施方式例如：使用公式total_loss＝λ_Mloss_M+λ_XYZloss_xyz+λ_scaleloss_scale对旋转误差、关键点位置误差和尺度因子误差进行加权求和，获得总损失值；其中，total_loss表示总损失值，loss_M表示旋转误差，λ_M表示旋转误差的权重因子，loss_xyz表示关键点位置误差，λ_XYZ表示关键点位置误差的权重因子，loss_scale表示尺度因子误差，λ_scale代表尺度因子误差的权重因子。

步骤S234：根据总损失值对深度学习神经网络进行训练，获得深度学习网络模型。

上述的步骤S234的实施方式例如：在根据总损失值对深度学习神经网络进行训练的过程中，可以采用随机梯度下降法，直至总损失值(即整个loss)收敛时，即可获得训练好的获得深度学习网络模型。

在上述的实现过程中，通过根据旋转误差、关键点位置误差和尺度因子误差计算出的总损失值来对深度学习网络模型进行训练，从而避免了只使用其中一个误差来训练深度学习网络模型的问题，有效地提高了深度学习网络模型预测三维旋转数据的准确率。

步骤S310：获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的。

其中，该步骤S310的实施原理和实施方式与步骤S110的实施原理和实施方式是类似的，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S110的描述。

在步骤S310之后，执行步骤S320：对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据。

上述步骤S320的实施方式可以包括：

步骤S321：对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点。

步骤S322：根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，获得重构后的三维关键点数据。

其中，该步骤S321至步骤S322的实施原理和实施方式与步骤S211至S212的实施原理和实施方式是类似的，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S211至S212的描述。

在步骤S320之后，执行步骤S330：使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据。

上述步骤S330的实施方式可以包括：可以理解的是，深度学习网络模型包括：特征提取网络和迭代误差反馈(IEF)网络；可以使用特征提取网络对三维关键点数据进行特征提取，获得姿态特征和尺度特征。使用迭代误差反馈(IEF)网络对姿态特征和尺度特征进行旋转预测，获得三维旋转数据。

其中，该步骤S330的实施原理和实施方式与步骤S231的实施原理和实施方式是类似的，区别仅在于深度学习网络模型的输入和输出不同，因此，这里不再说明其实施原理和实施方式，如有不清楚的地方，可以参考对步骤S231的描述。

在步骤S330之后，执行步骤S340：获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。

上述步骤S340中的获取拟合后的参数化人体模型的实施方式可以包括：

步骤S341：获取未拟合人体模型，并将未拟合人体模型中的多个三维关键点投影至人体区域图像，获得投影后的多个二维关键点数据。

上述步骤S341的实施方式例如：可以接收其它设备发送的未拟合人体模型，或者，从网上下载未拟合人体模型，或者，从头开始制作工程拟合优化得到参数化的人体模型，并将未拟合人体模型中的多个三维关键点投影至人体区域图像，获得投影后的多个二维关键点数据；其中，上述的未拟合人体模型具体可以采用未拟合的SMPL-X模型。

步骤S342：将重构后的三维关键点数据投影到人体区域图像，获得重构后的多个二维关键点数据，并根据重构后的多个二维关键点数据对投影后的多个二维关键点数据进行修正，获得修正后的多个二维关键点。

步骤S343：最小化拟合未拟合人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差，获得参数化人体模型。

上述步骤S343的实施方式例如：在上述对SMPL-X模型进行最小化拟合的过程中，形状参数β可以是固定的，可以优化SMPL-X模型中的姿态参数θ和尺度因子scale，以及全局位移量t，以使得人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差最小化。

上述步骤S340中的将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构的实施方式包括：假设经过上面的步骤得到的三维旋转数据表示为J(即旋转后的3D关键点位置信息)，将三维旋转数据J输入参数化人体模型，获得参数化人体模型的网状拓扑(mesh)结构，并输出obj文件。在具体的实践过程中，该过程可以达到100fps，足以达到实时获取人体模型的网状拓扑结构的技术效果。

请参见图7示出的本申请实施例提供的网状拓扑结构获取装置的结构示意图。本申请实施例提供了一种网状拓扑结构获取装置300，包括：

人体图像获取模块310，用于获取多个人体图像，多个人体图像是从不同的视角对人体区域进行拍摄的。

重构数据获得模块320，用于对多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据。

旋转数据获得模块330，用于使用预先训练的深度学习网络模型对重构后的三维关键点数据进行旋转预测，获得三维旋转数据。

网状拓扑获得模块340，用于获取拟合后的参数化人体模型，并将三维旋转数据输入参数化人体模型，获得参数化人体模型的网状拓扑结构。

可选地，在本申请实施例中，重构数据获得模块，包括：

二维关键点检测模块，用于对多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点。

二维多视角重构模块，用于根据相机阵标定的参数对多组二维关键点中的每组二维关键点进行多视角重构，获得重构后的三维关键点数据。

可选地，在本申请实施例中，二维关键点检测模块，包括：

区域图像检测模块，用于针对多个人体图像中的每个人体图像，对人体图像中的人体区域进行定位目标检测，获得人体区域图像。

二维关键点获得模块，用于对人体区域图像进行关键点检测，获得一组二维关键点。

可选地，在本申请实施例中，网状拓扑获得模块，包括：

三维关键点投影模块，用于获取未拟合人体模型，并将未拟合人体模型中的多个三维关键点投影至人体区域图像，获得投影后的多个二维关键点数据。

关键点数据修正模块，用于将重构后的三维关键点数据投影到人体区域图像，获得重构后的多个二维关键点数据，并根据重构后的多个二维关键点数据对投影后的多个二维关键点数据进行修正，获得修正后的多个二维关键点。

参数化模型获得模块，用于最小化拟合未拟合人体模型中的多个二维关键点与修正后的多个二维关键点之间的误差，获得参数化人体模型。

可选地，在本申请实施例中，深度学习网络模型包括：特征提取网络和迭代误差反馈网络；旋转数据获得模块，包括：

数据特征提取模块，用于使用特征提取网络对三维关键点数据进行特征提取，获得姿态特征和尺度特征。

旋转数据预测模块，用于使用迭代误差反馈网络对姿态特征和尺度特征进行旋转预测，获得三维旋转数据。

可选地，在本申请实施例中，网状拓扑结构获取装置，还包括：

关键点数据获取模块，用于获取多个三维关键点数据。

旋转数据获取模块，用于获取多个三维关键点数据中的每个三维关键点数据对应的三维旋转数据。

网络模型获得模块，用于以三维关键点数据为训练数据，以三维旋转数据为训练标签，对深度学习神经网络进行训练，获得深度学习网络模型。

可选地，在本申请实施例中，网络模型获得模块，包括：

关键点数据预测模块，用于使用深度学习神经网络对三维关键点数据进行预测，获得预测旋转数据。

数据误差计算模块，用于分别计算预测旋转数据和三维旋转数据之间的旋转误差、关键点位置误差和尺度因子误差。

总损失值获得模块，用于对旋转误差、关键点位置误差和尺度因子误差进行计算，获得总损失值。

神经网络训练模块，用于根据总损失值对深度学习神经网络进行训练，获得深度学习网络模型。

应理解的是，该装置与上述的网状拓扑结构获取方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

本申请实施例提供的一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上的方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上的方法。其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Read-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种网状拓扑结构获取方法，其特征在于，包括：

获取多个人体图像，所述多个人体图像是从不同的视角对人体区域进行拍摄的；

对所述多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据；

使用预先训练的深度学习网络模型对所述重构后的三维关键点数据进行旋转预测，获得三维旋转数据；

获取拟合后的参数化人体模型，并将所述三维旋转数据输入所述参数化人体模型，获得所述参数化人体模型的网状拓扑结构。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据，包括：

对所述多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点；

根据相机阵标定的参数对所述多组二维关键点中的每组二维关键点进行多视角重构，获得所述重构后的三维关键点数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个人体图像中的每个人体图像进行关键点检测，获得多组二维关键点，包括：

针对所述多个人体图像中的每个人体图像，对所述人体图像中的人体区域进行定位目标检测，获得人体区域图像；

对所述人体区域图像进行关键点检测，获得一组所述二维关键点。

4.根据权利要求3所述的方法，其特征在于，所述获取拟合后的参数化人体模型，包括：

获取未拟合人体模型，并将所述未拟合人体模型中的多个三维关键点投影至所述人体区域图像，获得投影后的多个二维关键点数据；

将所述重构后的三维关键点数据投影到所述人体区域图像，获得重构后的多个二维关键点数据，并根据所述重构后的多个二维关键点数据对所述投影后的多个二维关键点数据进行修正，获得修正后的多个二维关键点；

最小化拟合所述未拟合人体模型中的多个二维关键点与所述修正后的多个二维关键点之间的误差，获得所述参数化人体模型。

5.根据权利要求1所述的方法，其特征在于，所述深度学习网络模型包括：特征提取网络和迭代误差反馈网络；所述使用预先训练的深度学习网络模型对所述重构后的三维关键点数据进行旋转预测，获得三维旋转数据，包括：

使用所述特征提取网络对所述三维关键点数据进行特征提取，获得姿态特征和尺度特征；

使用所述迭代误差反馈网络对所述姿态特征和所述尺度特征进行旋转预测，获得所述三维旋转数据。

6.根据权利要求1所述的方法，其特征在于，在所述使用预先训练的深度学习网络模型对所述重构后的三维关键点数据进行旋转预测之前，还包括：

获取多个三维关键点数据；

获取所述多个三维关键点数据中的每个三维关键点数据对应的三维旋转数据；

以所述三维关键点数据为训练数据，以所述三维旋转数据为训练标签，对深度学习神经网络进行训练，获得所述深度学习网络模型。

7.根据权利要求6所述的方法，其特征在于，所述对深度学习神经网络进行训练，获得所述深度学习网络模型，包括：

使用所述深度学习神经网络对所述三维关键点数据进行预测，获得预测旋转数据；

分别计算所述预测旋转数据和所述三维旋转数据之间的旋转误差、关键点位置误差和尺度因子误差；

对所述旋转误差、所述关键点位置误差和所述尺度因子误差进行计算，获得总损失值；

根据所述总损失值对深度学习神经网络进行训练，获得所述深度学习网络模型。

8.一种网状拓扑结构获取装置，其特征在于，包括：

人体图像获取模块，用于获取多个人体图像，所述多个人体图像是从不同的视角对人体区域进行拍摄的；

重构数据获得模块，用于对所述多个人体图像进行关键点检测和多视角重构，获得重构后的三维关键点数据；

旋转数据获得模块，用于使用预先训练的深度学习网络模型对所述重构后的三维关键点数据进行旋转预测，获得三维旋转数据；

网状拓扑获得模块，用于获取拟合后的参数化人体模型，并将所述三维旋转数据输入所述参数化人体模型，获得所述参数化人体模型的网状拓扑结构。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。