CN110827342B

CN110827342B - 三维人体模型重建方法及存储设备、控制设备

Info

Publication number: CN110827342B
Application number: CN201910999200.5A
Authority: CN
Inventors: 孙哲南; 张鸿文; 欧阳万里; 曹杰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2023-06-02
Anticipated expiration: 2039-10-21
Also published as: WO2021077295A1; CN110827342A; US11436745B1; US20220262024A1

Abstract

本发明涉及人体模型重建技术领域，具体涉及一种三维人体模型重建方法及存储设备、控制设备，旨在解决三维模型重建结果与二维图像不对齐等问题。本发明的重建方法包括：根据人体图像，采用预训练的全卷积网络模块获取人体部件的全局UVI图和局部UVI图；基于全局UVI图，利用第一神经网络估计相机参数及人体模型的形状参数；基于局部UVI图，利用第二神经网络提取人体各关节点的旋转特征；基于人体各关节点的旋转特征，利用基于位置辅助的特征改良策略对旋转特征进行改良，得到改良的旋转特征；根据改良的旋转特征，利用第三神经网络估计人体模型的姿态参数。本发明能够能更为准确、高效地进行人体模型重建，并提高了姿态估计的鲁棒性。

Description

三维人体模型重建方法及存储设备、控制设备

技术领域

本发明涉及人体模型重建技术领域，具体涉及一种三维人体模型重建方法及存储设备、控制设备。

背景技术

三维人体模型重建是三维计算机视觉的重要任务之一，其旨在快速、准确地从人体图像中重建出三维人体参数化模型，其中包括模型的形状参数及姿态参数。

在现有的三维人体模型重建技术中，传统的基于模型拟合方法通常将三维人体模型迭代形变，使得模型重投影后与二维图像信息如关节点位置或人体轮廓相匹配，这些方法通常较为耗时且对模型参数的初始值敏感。而新兴的基于学习的方法，利用神经网络直接从图像中提取特征并估计模型参数，这些方法一定程度上提高了模型的形状及姿态估计的精度，但仍然存在三维模型重建结果与二维图像不对齐等问题。其原因主要有两点：(1)图像和模型参数之间存在高度非线性的映射关系；(2)三维人体模型的姿态通常以关节点的相对旋转量表示，从而导致模型重建结果重投影在二维图像上容易存在位置偏差。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种三维人体模型重建方法及存储设备、控制设备，提高了模型重建的准确性和效率。

本发明的一方面，提出一种三维人体模型重建方法，所述方法包括：

根据人体图像，采用预训练的全卷积网络模块获取人体部件的全局UVI图和局部UVI图；

基于所述全局UVI图，利用第一神经网络估计相机参数及人体模型的形状参数；

基于所述局部UVI图，利用第二神经网络提取人体各关节点的旋转特征；

基于所述人体各关节点的旋转特征，利用基于位置辅助的特征改良策略对旋转特征进行改良，得到改良的旋转特征；

根据所述改良的旋转特征，利用第三神经网络估计人体模型的姿态参数。

优选地，所述UVI图包括：U坐标图、V坐标图和I索引图；

其中，U坐标和V坐标分别表示三维人体模型在U、V纹理空间的坐标，I索引表示人体各部件的索引。

优选地，所述全卷积网络模块包括：第一全卷积网络、第二全卷积网络、第三全卷积网络和第四全卷积网络；

相应地，“根据人体图像，采用预训练的全卷积网络模块获取人体部件的全局UVI图和局部UVI图”包括以下步骤：

根据所述人体图像，利用所述第一全卷积网络提取全局特征图；

根据所述全局特征图，利用所述第二全卷积网络预测出对应的全局UVI图；

根据所述全局特征图，利用所述第三全卷积网络生成人体各关节点的位置热力图，进而得到各关节点的位置；

根据所述各关节点的位置，计算各关节点对应的仿射变换参数；

根据所述各关节点的仿射变换参数，对所述全局特征图进行仿射变换得到各关节点的局部特征图；

根据所述局部特征图，利用所述第四全卷积网络预测出对应的局部UVI图。

优选地，“根据所述各关节点的位置，计算各关节点对应的仿射变换参数”的步骤具体为：根据下式计算各关节点对应的仿射变换参数：

s_k＝αmax(|j_p(k)-j_k|₂，|j_p(k)-j_c(k)|₂)

c_k＝j_k

其中，第k个关节点的仿射变换参数包括：尺度参数s_k、旋转参数r_k及平移参数c_k；α表示预设的常量，e_⊥表示垂直向下的单位向量，j_k表示第k个关节点的位置坐标，p(k)函数用于返回第k个关节点的父关节点索引，c(k)函数用于返回第k个关节点的子关节点索引。

优选地，“基于所述人体各关节点的旋转特征，利用基于位置辅助的特征改良策略对旋转特征进行改良，得到改良的旋转特征”的步骤包括：

利用第一图卷积网络沿着人体运动链收集所述人体各关节点的旋转特征，并将所述人体各关节点的旋转特征转换到位置特征空间，得到位置特征；

根据不同关节点间的空间结构信息，利用第二图卷积网络对所述位置特征进行精调，得到改良的位置特征；

利用第三图卷积网络收集所述改良的位置特征，并将所述改良的位置特征转换到旋转特征空间，得到改良的旋转特征。

优选地，在训练时，神经网络从所述位置特征及所述改良的位置特征中回归人体模型各关节点的位置坐标，从所述旋转特征及所述改良的旋转特征中回归人体模型各关节点的姿态参数。

优选地，所述第一图卷积网络的邻接矩阵A¹的构造方式为：

若第j个关节点属于第i个关节点的祖先节点之一，则

否则，/>

其中，/>

表示所述邻接矩阵A¹中位于第i行第j列的元素。

优选地，所述第二图卷积网络的邻接矩阵A²的构造方式为：

若第i个关节点和第j个关节点相连接或i＝j，则

否则/>

其中，

表示所述邻接矩阵A²中位于第i行第j列的元素。

优选地，所述第三图卷积网络的邻接矩阵A³的构造方式为：

若第j个关节点属于第i个关节点的父关节点或子关节点或i＝j，则

否则，/>

其中，/>

表示所述邻接矩阵A³中位于第i行第j列的元素。

优选地，所述人体模型是一个参数化的形变模型，其参数包括形状参数和姿态参数；

其中，形状参数表述的是人体模型的形状信息，姿态参数表述的是人体模型各关节点相对其父关节点的旋转量。

优选地，所述方法还包括：

根据所述相机参数、所述人体模型的形状参数和所述人体模型的姿态参数重建三维人体模型。

优选地，所述人体模型包括预设数量的关节点；

所述第二神经网络包括所述预设数量的支路网络，分别对应所述预设数量的关节点，每个所述支路网络用于提取对应关节点的旋转特征。

本发明的第二方面，提出一种存储设备，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的三维人体模型重建方法。

本发明的第三方面，提出一种控制设备，包括：处理器和存储器。其中，处理器适于加载程序，存储器适于存储所述程序；所述程序适于由所述处理器加载并执行，以实现上面所述的三维人体模型重建方法。

与最接近的现有技术相比，本发明具有如下有益效果：

(1)本发明利用UVI图作为中间表达，有效辅助神经网络对图像和模型间非线性映射关系的学习。UVI图为二维图像和三维模型之间建立了稠密的关联关系，其保留了人体形状和姿态的相关信息，而剔除背景、衣着、光照变化等无关信息，因而使得神经网络能更为高效地进行人体模型重建。

(2)本发明采取全局和局部的解耦设计，使得预测任务更为高效准确。三维人体模型的参数分为形状参数和姿态参数，其中形状参数描述人体模型的身高、胖瘦等全局信息，而姿态参数描述的是人体各关节点的相对旋转状态。本发明针对不同关节点的旋转特征采用第二神经网络中不同的支路网络进行预测，极大地提高了模型重建的准确性。

(3)本发明采用基于位置辅助的旋转特征改良策略，使得模型的姿态估计更为鲁棒。三维人体模型采用基于旋转的方式表达姿态，使得模型重建结果在位置上容易出现偏差，本发明采用基于位置辅助的旋转特征改良策略，有效地利用人体关节点间的空间结构关系，从而提高了姿态估计的鲁棒性。

附图说明

图1是本发明的三维人体模型重建方法实施例的主要步骤示意图；

图2是本发明实施例中人体图像、人体轮廓、人体部件分割图及全局UVI图的对比示意图；

图3是本发明实施例中人体图像、全局UVI图和局部UVI图的对比示例；其中，图3(a)、图3(b)和图3(c)分别为人体图像、全局UVI图和局部UVI图；

图4是本发明实施例中对人体图像、特征图及UVI图进行仿射变换操作前后的示例；

图5是本发明实施例中人体模型各关节点组成的树结构示意图；

图6是本发明实施例中图卷积网络的邻接矩阵构成示意图；其中，图6(a)、图6(b)和图6(c)分别为第一图卷积网络、第二图卷积网络和第三图卷积网络的邻接矩阵构成示意图；

图7是本发明实施例中对输入人体图像进行重建后的效果图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅仅是为了便于描述，而不是指示或暗示所述装置、元件或参数的相对重要性，因此不能理解为对本发明的限制。

人体模型是一个参数化的形变模型，其参数包括形状参数和姿态参数。其中，形状参数表述的是人体模型的形状信息(如身高、胖瘦等)，姿态参数表述的是人体模型各关节点的的姿态状态，即各关节点相对其父关节点的旋转量。三维人体模型重建的任务就是要估计出模型参数(包括形状参数和姿态参数)和相机参数。

图1是本发明的三维人体模型重建方法实施例的主要步骤示意图。如图1所示，本实施例的三维人体模型重建方法包括步骤S1-S6：

步骤S1，根据人体图像，采用全卷积网络模块获取人体部件的全局UVI图和局部UVI图。其中，全卷积网络模块包括：第一全卷积网络、第二全卷积网络、第三全卷积网络和第四全卷积网络。该步骤可以具体包括步骤S11-S16：

步骤S11，根据人体图像，利用第一全卷积网络提取全局特征图。

步骤S12，根据全局特征图，利用第二全卷积网络预测出对应的全局UVI图。

步骤S13，根据全局特征图，利用第三全卷积网络生成人体各关节点的位置热力图，进而得到各关节点的位置。

步骤S14，根据各关节点的位置，计算各关节点对应的仿射变换参数，本实施例中如公式(1)-(3)所示：

s_k＝αmax(|j_p(k)-j_k|₂，|j_p(k)-j_c(k)|₂) (1)

c_k＝j_k (3)

具体地，平移参数使得局部UVI图的中心位于各关节点；旋转参数使得局部UVI图中关节点及其父关节点连线的朝向一致；尺度参数使得局部UVI图的缩放能根据人体不同部件的大小作调整。

上述仿射变换操作能使得网络对人体不同部位的姿态估计采用不同大小的感受野，使得各部位的姿态感知可以根据部件的大小而自适应地作调整，从而有着更为准确的姿态估计。

步骤S15，根据各关节点的仿射变换参数，对全局特征图进行仿射变换得到各关节点的局部特征图。

步骤S16，根据局部特征图，利用第四全卷积网络预测出对应的局部UVI图。

本发明实施例中所提到的UVI图包括：U坐标图、V坐标图和I索引图。其中，U坐标和V坐标分别表示三维人体模型在U、V纹理空间的坐标，I索引表示人体各部件的索引。UVI图为二维图像和三维模型之间建立了稠密的关联关系，其保留了人体形状和姿态的相关信息，剔除了背景、衣着、光照变化等无关信息，从而有效辅助网络对模型参数的估计任务。

图2是本实施例中人体图像、人体轮廓、人体部件分割图及全局UVI图的对比示意图。如图2所示，4张图片从左至右依次表示：人体图像、人体轮廓、人体部件分割图和全局UVI图。可以看出，UVI图对人体形状和姿态的反映非常直观。

需要说明的是，上述全局UVI图在上采样后和输入图像语义对齐，而局部UVI图的中心点为人体的关节点位置。图3是本实施例中人体图像、全局UVI图和局部UVI图的对比示例。如图3所示，图3(a)是一张人体图像的示例，图3(b)是图3(a)中人体图像对应的全局UVI图示例，图3(c)是图3(a)中人体图像对应的局部UVI图示例。

图4是本实施例中对人体图像、特征图及UVI图进行仿射变换操作前后的示例。如图4所示，本实施例中的仿射变换操作可以利用空间变换网络(Spatial TransformerNetworks，STNs)完成。图4中上方的人体图像、全局特征图和全局UVI图，均为仿射变换操作前的图像，下方的人体部件图像、局部特征图和局部UVI图均为仿射变换后的图像，分别对应于上方的人体图像、全局特征图和全局UVI图中正方形框内的图像(膝关节及周边的图像)。上方左起第一个图像中标出了人体图像中膝关节点及其父关节(髋关节)点和子关节(踝关节)点的位置，在该图的正下方示出了公式(1)-(3)中各参数代表的含义。其中，正方形框代表人体图像中画出的用于截取膝关节附近图像的正方形框，正方形的中心点表示膝关节点(即c_k和j_k)，位于该点左上方的点j_p(k)表示髋关节点，位于该点左下方的点j_c(k)表示踝关节点。r_k为髋关节与膝关节连线相对于垂直向上线的旋转量，s_k为正方形的边长，e_⊥表示垂直向下的单位向量。基于关节点j_p(k)，j_k和j_c(k)通过公式(1)-(3)计算出仿射变换参数c_k、s_k和r_k后，空间变换网络根据仿射变换参数对图4上方的人体图像、全局特征图和全局UVI图进行变换即得到图4下方的人体部件图像、局部特征图和局部UVI图。需要说明的是，图4中对人体图像进行仿射变换仅作为可视化示例以便于理解，而非本发明涉及的方法步骤；图4中的全局UVI图和局部UVI图均为真实值而非由网络预测得到，由空间变换网络得到的局部UVI图将对网络预测的局部UVI图进行监督训练。

需要说明的是，在本实施例中，步骤S1用于预测全局及局部UVI图的全卷积网络在训练时可先进行预训练操作，再和后续步骤的其他网络进行混合训练。这样可以使得后续步骤的其他网络在训练开始时能得到较为理想的UVI图作为输入，从而使得训练过程更为稳定。

步骤S2，基于全局UVI图，利用第一神经网络估计相机参数及人体模型的形状参数。

步骤S3，基于局部UVI图，利用第二神经网络提取人体各关节点的旋转特征。

人体模型包括预设数量的关节点(如24个)，相应地，第二神经网络包括预设数量的支路网络，分别对应预设数量的关节点，每个支路网络用于提取对应关节点的旋转特征。图5是本实施例中人体模型各关节点组成的树结构示意图。如图5所示，本实施例中需要提取人体的24个关节点，相应地，第二神经网络包括24个不同的支路网络，分别对应24个不同的关节点。针对不同关节点的旋转特征采用不同的支路网络进行预测，极大地提高了模型重建的准确性。

步骤S4，基于人体各关节点的旋转特征，利用基于位置辅助的特征改良策略对旋转特征进行改良，得到改良的旋转特征。该步骤可以具体包括步骤S41-S43：

步骤S41，利用第一图卷积网络沿着人体运动链收集所述人体各关节点的旋转特征，并将人体各关节点的旋转特征转换到位置特征空间，得到位置特征。

步骤S42，根据不同关节点间的空间结构信息，利用第二图卷积网络对位置特征进行精调，得到改良的位置特征。

步骤S43，利用第三图卷积网络收集改良的位置特征，并将改良的位置特征转换到旋转特征空间，得到改良的旋转特征。

具体地，训练时神经网络从上述位置特征及改良的位置特征中回归人体模型各关节点的位置坐标。

具体地，训练时神经网络从上述旋转特征及改良的旋转特征中回归人体模型各关节点的姿态参数，即相对旋转量。

图6为本实施例中图卷积网络的邻接矩阵构成示意图。其中，图6(a)、图6(b)和图6(c)分别为第一图卷积网络、第二图卷积网络和第三图卷积网络的邻接矩阵构成示意图。

具体地，第一图卷积网络的表达式可以如公式(4)所示：

其中，Z_in和Z_out分别是输入和输出特征，

是图的归一化邻接矩阵，W¹是可学习的卷积核权重，σ(·)表示激活函数。如图6(a)所示，第一图卷积网络的邻接矩阵A¹的构造方式为：若第j个关节点属于第i个关节点的祖先节点之一，则/>

否则，/>

其中，

表示邻接矩阵A¹中位于第i行第j列的元素。

具体地，第二图卷积网络的表达式可以如公式(5)所示：

其中，Z_in和Z_out分别是输入和输出特征，

是图的归一化邻接矩阵，W²是可学习的卷积核权重，σ(·)表示激活函数。如图6(b)所示，第二图卷积网络的邻接矩阵A²的构造方式为：若第i个关节点和第j个关节点相连接或i＝j，则/>

否则/>

其中，/>

表示邻接矩阵A²中位于第i行第j列的元素。

具体地，第三图卷积网络的表达式可以如公式(6)所示：

其中，Z_in和Z_out是输入和输出特征，

是图的归一化邻接矩阵，W³是可学习的卷积核权重，σ(·)表示激活函数。如图6(c)所示，第三图卷积网络的邻接矩阵A³的构造方式为：若第j个关节点属于第i个关节点的父关节点或子关节点或i＝j，则/>

否则，/>

其中，/>

表示邻接矩阵A³中位于第i行第j列的元素。

步骤S5，根据改良的旋转特征，利用第三神经网络估计人体模型的姿态参数。

图7为本实施例中对输入人体图像进行重建后的效果图。其中，上方5张图片为输入的人体图像，下方5张图片分别与其正上方的人体图像对应，是5张人体图像的三维人体模型重建结果。从图7中可看出，本实施例对现实场景中人体姿态变化、衣着差异及遮挡严重等情况表现良好。

综上，本实施例提出的三维人体模型重建方法，其优点来源于以下三点：利用稠密UVI图作为中间表达、全局和局部的解耦设计以及基于位置辅助的旋转特征改良策略，与其他三维人体模型重建方法相比，本实施例提出的方法对现实场景下的图像中人体的姿态、衣着、光照及遮挡引起的变化情况表现更为鲁棒、准确。

在一种可选的实施例中，三维人体模型重建方法除了包括步骤S1-S5之外，还可以包括：

步骤S6，根据相机参数、人体模型的形状参数和人体模型姿态参数重建三维人体模型。上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

基于上面的三维人体重建方法的实施例，本发明还提供了一种存储设备的实施例，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的三维人体模型重建方法。

进一步地，本发明还提供了一种控制设备，包括处理器和存储器。其中，处理器适于加载程序，存储器适于存储所述程序。所述程序适于由所述处理器加载并执行，以实现上面所述的三维人体模型重建方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。