CN117808700A

CN117808700A - 三维人体重建方法、装置、设备及存储介质

Info

Publication number: CN117808700A
Application number: CN202311858003.4A
Authority: CN
Inventors: 张镇; 李林; 何山; 周良; 殷兵; 刘聪
Original assignee: iFlytek Co Ltd; Iflytek Suzhou Technology Co Ltd
Current assignee: iFlytek Co Ltd; Iflytek Suzhou Technology Co Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-02

Abstract

本申请实施例公开了一种三维人体重建方法、装置、设备及存储介质，在获取从不同视角采集的同一人体的图像后，对各张图像进行特征提取，得到各张图像的特征信息；基于各张图像的特征信息，对各张图像的前景和背景分别进行预测，得到各个像素的预测信息，其中，任一像素的预测信息包括：任一像素属于前景的概率，对应前景的该任一像素的深度符合的第一概率分布函数，以及对应背景的该任一像素的深度符合的第二概率分布函数。基于各张图像的像素的预测信息确定各张图像的深度图像，将各张深度图像融合，得到人体的三维点云。本申请减少了人体非参数化模型的边缘的噪声。

Description

三维人体重建方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，更具体地说，涉及一种三维人体重建方法、装置、设备及存储介质。

背景技术

人体非参数化重建，旨在利用多个视角的图片重建出人体的非参数化模型(比如点云、网格等)。在得到非参数化的人体模型后，可以利用非刚性注册等方法得到可以驱动的更真实的参数化模型。

目前的人体非参数化重建方案重建出来的非参数化模型在身体边缘处有明显的点云噪声，因此，如何减少人体非参数化模型边缘的点云噪声成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供了一种三维人体重建方法、装置、设备及存储介质，以减少人体非参数化模型边缘的点云噪声。

为了实现上述目的，现提出的方案如下：

一种三维人体重建方法，包括：

对图像集中的各张图像进行特征提取，得到各张图像的特征信息；所述图像集中的不同图像是在不同视角采集的同一人体的图像；

对于任一张图像，基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息，任一像素的预测信息包括：所述任一像素属于前景的概率，对应前景的所述任一像素的深度符合的第一概率分布函数，以及对应背景的所述任一像素的深度符合的第二概率分布函数；

基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像；

将各张图像的深度图融合，得到所述人体的三维点云。

上述方法，可选的，对各张图像进行特征提取的过程，包括：

对各帧图像进行人体稀疏重建，得到各帧图像对应的稀疏人体点云和相机参数；

基于各张图像的稀疏人体点云确定每个视角的相邻视角，以及每个视角的深度范围；

对于任一张图像，基于所述任一张图像及其深度范围和相机参数，所述任一张图像的各相邻视角的图像及其深度范围和相机参数，确定所述任一张图像的匹配代价，作为所述任一张图像的特征信息。

上述方法，可选的，所述基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像，包括：

基于所述任一像素属于前景的概率、第一候选深度值、所述第一概率分布函数和所述第二概率分布函数，确定所述任一像素的深度值为所述第一候选深度值的第一概率密度；所述第一候选深度值是使得所述第一概率分布函数的取值最大的深度值；

基于所述任一像素属于前景的概率、第二候选深度值、所述第一概率分布函数和所述第二概率分布函数，确定所述任一像素的深度值为所述第二候选深度值的第二概率密度；所述第二候选深度值是使得所述第二概率分布函数的取值最大的深度值；

将所述第一概率密度和所述第二概率密度中的较大值对应的候选深度值确定为所述任一像素的目标深度值。

上述方法，可选的，确定所述第一概率密度的过程，包括：

基于所述第一候选深度值以及所述第一概率分布函数，确定所述任一像素值对应所述第一概率分布函数的第一子概率密度；

基于所述第一候选深度值以及所述第二概率分布函数，确定所述任一像素值对应所述第二概率分布函数的第二子概率密度；

将所述第一子概率密度和所述第二子概率密度加权求和，得到所述第一概率密度；

所述第一子概率密度的权重为所述任一像素属于前景的概率，所述第二子概率密度的权重与所述第一概率密度的权重之和为1。

上述方法，可选的，所述将各张图像的深度图融合，得到所述人体的三维点云，包括：

对各张图像分别进行人体分割，以确定各张图像的人体掩膜图像；

对于任一张图像，基于所述任一张图像的人体掩膜图像对所述任一张图像的深度图进行处理，得到目标深度图；

将各张目标深度图融合，得到所述人体的三维点云。

上述方法，可选的，对各张图像进行特征提取，基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息的过程基于深度预测模型实现，所述深度预测模型通过如下方式训练得到：

将目标样本图像及其深度范围和相机参数，目标样本图像的各相邻视角的样本图像及其深度范围和相机参数输入所述深度预测模型，得到所述深度预测模型输出的所述目标样本图像的各个像素样本的预测信息，任一像素样本的预测信息包括所述任一像素样本属于前景的概率，对应前景的所述任一像素样本的深度符合的第一概率分布函数，以及对应背景的所述任一像素样本的深度符合的第二概率分布函数；

基于所述目标样本图像的各个像素样本的预测信息确定所述目标样本图像的深度图像；

以确定的深度图像趋近于所述目标样本图像的真实深度图，基于各像素样本的预测信息确定的各像素样本的概率分布函数的极大似然概率最大化为目标，对所述深度预测模型的参数进行更新；所述任一像素样本的概率分布函数为所述第一概率分布函数和所述第二概率分布函数的加权和；所述第一概率分布函数的权重为所述任一像素样本属于前景的概率，所述第二概率分布函数的权重与所述第一概率分布函数的权重之和为1。

上述方法，可选的，对所述深度预测模型的参数进行更新的过程，包括：

对确定的深度图和所述真实深度图像分别进行边缘提取，得到人体边缘区域；

计算所述确定的深度图的边缘区域与所述真实深度图的边缘区域的第一子损失，以及所述确定的深度图的非边缘区域与所述真实深度图的非边缘区域的第二子损失；将所述第一子损失和所述第二子损失加权求和，得到第一损失；所述第一子损失的权重大于所述第二子损失的权重；

对各像素样本的概率分布函数分别取负对数，得到各像素样本的第二损失；

将所述第一损失和各个第二损失求和，得到综合损失；

以所述综合损失越来越小为目标，对所述深度预测模型的参数进行更新。

一种三维人体重建装置，包括：

特征提取模块，用于对图像集中的各张图像进行特征提取，得到各张图像的特征信息；所述图像集中的不同图像是在不同视角采集的同一人体的图像；

预测模块，用于对于任一张图像，基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息，任一像素的预测信息包括：所述任一像素属于前景的概率，对应前景的所述任一像素的深度符合的第一概率分布函数，以及对应背景的所述任一像素的深度符合的第二概率分布函数；

确定模块，用于基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像；

融合模块，用于将各张图像的深度图融合，得到所述人体的三维点云。

一种三维人体重建设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的三维人体重建方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的三维人体重建方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的三维人体重建方法、装置、设备及存储介质，在获取从不同视角采集的同一人体的图像后，对各张图像进行特征提取，得到各张图像的特征信息；基于各张图像的特征信息，对各张图像的前景和背景分别进行预测，得到各个像素的预测信息，其中，任一像素的预测信息包括：任一像素属于前景的概率，对应前景的该任一像素的深度符合的第一概率分布函数，以及对应背景的该任一像素的深度符合的第二概率分布函数。基于各张图像的像素的预测信息确定各张图像的深度图像，将各张深度图像融合，得到人体的三维点云。本申请通过对前背景的深度分别进行概率分布函数建模来确定每个视角的前背景深度，从而有效的区分前背景的点云，进而减少了人体非参数化模型的边缘的噪声。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的三维人体重建方法的一种实现流程图；

图2为本申请实施例公开的对各张图像进行特征提取的一种实现流程图；

图3为本申请实施例公开的基于任一张图像的各个像素的预测信息确定上述任一张图像的深度图像的一种实现流程图；

图4为本申请实施例公开的基于任一像素属于前景的概率、第一候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第一候选深度值的第一概率密度的一种实现流程图；

图5为本申请实施例公开的基于任一像素属于前景的概率、第二候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第二候选深度值的第二概率密度的一种实现流程图；

图6为本申请实施例公开的将各张图像的深度融合的一种实现流程图；

图7为本申请实施例公开的深度预测模型的一种结构示意图；

图8为本申请实施例公开的三维人体重建装置的一种结构示意图；

图9为本申请实施例公开的三维人体重建设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统的三维人体重建方案通常的流程是：首先通过稀疏重建方法(StructureFrom Motion，SFM)对输入的多视角图片进行稀疏重建得到相机位姿和稀疏的点云，然后基于得到的相机位姿和稀疏点云，通过半全局匹配算法(SGBM)或者PatchMatch算法来估计出多个视角的人体深度图，最后再通过多视角的几何一致性和光度一致性来对多视角的深度图进行筛选融合，得到最终融合后的点云。

上述三维人体重建方法得到的三维点云在人体边缘存在明显的点云噪声，具体体现为以下两个方面：

1.手部点云和身体的点云粘连，即手部和身体的边界存在明显的点云噪声。

2.人体点云边缘噪声大，即人体和环境背景的边界存在明显的点云噪声。

为了至少部分地解决传统的三维人体重建方案存在的问题，提出本申请方案。

如图1所示，为本申请实施例提供的三维人体重建方法的一种实现流程图，可以包括：

步骤S101：对图像集中的各张图像进行特征提取，得到各张图像的特征信息。图像集中的不同图像是在不同视角采集的同一人体的图像。

可选的，对于任一张图像，可以基于该任一张图像与该任一张图像的相邻视角的图像的关联关系对该任一张图像进行特征提取，因此，该任一张图像的特征信息体现了该任一张图像与其相邻视角的图像的关联关系。

其中，图像集中图像的数量可以为几十张，也可以为上百张。作为示例，图像集中有122张图像，即对同一人体从122个视角分别进行图像采集，得到122张从不同视角采集的同一人体的图像。图像集中图像越多，构建的三维人体点云的稠密度越高。

步骤S102：对于任一张图像，基于该任一张图像的特征信息，获得该任一张图像的各个像素的预测信息，任一像素的预测信息包括：该任一像素属于前景的概率、对应前景的该任一像素的深度符合的第一概率分布函数、对应背景的该任一像素的深度符合的第二概率分布函数。

对于任一张图像，本申请不是直接预测该任一张图像中各个像素的深度值，而是预测各个像素属于前景的概率，以及各个像素关联的第一概率分布函数和第二概率分布函数。其中，任一像素关联的第一概率分布用于在该任一像素是前景的情况下，确定该任一像素的深度，该任一像素关联的第二概率分布用于在该任一像素是背景的情况下，确定该任一像素的深度。

作为示例，第一概率分布函数和第二概率分布函数可以均是拉普拉斯分布函数，或者，第一概率分布函数和第二概率分布函数可以均是高斯分布函数等。

这里的前景和背景是指人体上具有深度跳变的不同部分，比如，手部为前景，身体为背景；或者，脸部为前景，身体为背景等。

步骤S103：基于任一张图像的各个像素的预测信息确定该任一张图像的深度图像。

其中，任一像素的预测信息用于确定该任一像素的深度值。

步骤S104：将各张图像的深度图融合，得到人体的三维点云。

可选的，可以直接将各张图像的深度图融合，得到人体的三维点云。

可选的，为了筛除掉部分视角的点云噪声，可以基于光度一致性约束和几何一致性约束对深度图进行融合。具体的，

对应光度一致性约束：本申请可以在获得该任一张图像的各个像素的预测信息的同时，输出预测信息的置信度，这里只保留置信度大于第一指定阈值的像素。

对应几何一致性约束：对于任一张深度图，将该任一张深度图的各个相邻视角的深度图映射到该任一张深度图对应的视角下，计算各相邻视角的深度在该任一张深度对应视角下的深度图与该任一张深度图的各个像素的绝对误差，对于该任一张深度图中的任一像素，如果该任一像素对应的多个绝对误差均小于第二指定阈值，保留该任一像素的深度值，否则，将该任一像素的深度值置零。

经过光度一致性约束和几何一致性约束后，基于不同视角的深度图像中保留的像素对深度图融合，得到最终融合后的点云，作为最终的三维人体重建结果。

本申请实施例提供的三维人体重建方法，在获取从不同视角采集的同一人体的图像后，对各张图像进行特征提取，得到各张图像的特征信息；基于各张图像的特征信息，对各张图像的前景和背景分别进行预测，得到各个像素的预测信息，其中，任一像素的预测信息包括：任一像素属于前景的概率、对应前景的该任一像素的深度符合的第一概率分布函数、对应背景的该任一像素的深度符合的第二概率分布函数。基于各张图像的像素的预测信息确定各张图像的深度图像，将各张深度图像融合，得到人体的三维点云。本申请通过对前背景的深度分别进行概率分布函数建模来确定每个视角的前背景深度，从而有效的区分前背景的点云，减少了身体和手部点云的粘连，从而减少了人体非参数化模型的边缘的噪声。

在一可选的实施例中，上述各张图像的特征信息可以是各张图像的匹配代价(cost volume)。基于此，上述对各张图像进行特征提取的一种实现流程图如图2所示，可以包括：

步骤S201：对各张图像进行人体稀疏重建，得到各张图像对应的稀疏人体点云和相机参数。

可选的，可以使用特征提取算法检测关键点，并计算每个关键点的特征描述子。对于每对图像，使用匹配算法比较特征描述子来匹配关键点。

对于任一对图像，使用匹配的关建点对来估计采集该一对图像的两个相机的初始参数，相机的参数包括内部参数(如，焦距、畸变等)和外部参数(如，位置、方向等)。作为示例，可以通过解决基础矩阵估计问题或本质矩阵估计问题来实现。

使用匹配的关建点对和相机的初始参数对匹配的关建点对进行三角化，以将各个二维关建点转换为三维点云，即稀疏人体点云。

使用稀疏人体点云和相机的初始参数，通过优化算法(如，非线性优化)对相机参数(包括外部参数和内部参数)进行优化，得到相机最终的参数。

上述特征提取算法可以包括但不限于：尺度不变特征变换(Scale-invariantfeature transform，SIFT)算法；SURF(Speeded Up Robust Features)算法，SURF是对SIFT的改进；ORB(Oriented Fast and Rotated Brief)等。

步骤S202：基于各张图像的稀疏人体点云确定每个视角的相邻视角，以及每个视角的深度范围。

任一视角的深度范围是指该任一视角下的图像的最小深度值和最大深度值。

步骤S203：对于任一张图像，基于该任一张图像及其深度范围和相机参数，该任一张图像的各相邻视角的图像及其深度范围和相机参数，确定该任一张图像的匹配代价，作为该任一张图像的特征信息。

可选的，可以在该任一张图像对应的最小深度值和最大深度值之间均匀采样n-2个深度值，该n-2个深度值与最小深度值和最大深度值，构成n个深度值，也就是说，每个视角下均匀采样n个深度值。

对各张图像分别进行特征图提取，得到各张图像的特征图。

对于任一张图像，以及该任一张图像的第i(i＝1，2，……，I；I为该任一张图像的所有相邻视角的数量)个相邻视角的图像，对于该任一张图像对应的n个深度值中的第j(j＝1，2，……，n)个深度值，根据该第j个深度值，采集该任一张图像的相机的参数以及采集该任一相邻视角的图像的相机的参数，计算第j个深度值对应的单应性矩阵，利用该单应性矩阵将该第i个相邻视角的图像的特征图变换为该任一张图像的视角下的对应第j个深度值的特征图(为便于叙述和区分，记为相邻视角变换后特征图)。

对于每张图像对应的每个深度值，均得到I个相邻视角变换后特征图，则对于每张图像，共得到n×I个相邻视角变换后特征图。

对于任一张图像对应的第j个深度值，计算第j个深度值对应的各相邻视角变换后特征图与该任一张图像的特征图的方差，基于该方差计算该任一张图像的各个像素对应第j个深度值的匹配代价。该任一张图像中各个像素对应n个深度值的n个匹配代价构成该任一张图像的初始匹配代价。

通过3D卷积来处理该任一张图像的初始匹配代价，以对每个像素周围的像素的匹配代价进行聚合，得到最后聚合后的各个像素的匹配概率，作为该任一张图像的最终的匹配代价。

在一可选的实施例中，上述基于任一张图像的各个像素的预测信息确定上述任一张图像的深度图像的一种实现流程图如图3所示，可以包括：

步骤S301：基于任一像素属于前景的概率、第一候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第一候选深度值的第一概率密度。第一候选深度值是使得第一概率分布函数的取值最大的深度值。

以任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，其中，α是该任一像素属于前景的概率，μ₁和b₁是第一拉普拉斯分布函数的参数，μ₂和b₂是第二拉普拉斯分布函数的参数。

第一拉普拉斯分布函数为：

第二拉普拉斯分布函数为：

其中，d表示该任一像素的深度。显然，该任一像素的深度d＝μ₁时，第一拉普拉斯分布函数的取值最大，因此，第一候选深度为μ₁。

步骤S302：基于任一像素属于前景的概率、第二候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第二候选深度值的第二概率密度。第二候选深度值是使得第二概率分布函数的取值最大的深度值。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，该任一像素的深度d＝μ₂时，第二拉普拉斯分布函数的取值最大，因此，第二候选深度为μ₂。

本申请对步骤S302和步骤S301的执行顺序不做限定，可以先执行步骤S301，再执行步骤S302，或者，可以先执行步骤S302，再执行步骤S301，或者，步骤S301和步骤S302同时执行。

步骤S303：将第一概率密度和第二概率密度中的较大值对应的候选深度值确定为任一像素的目标深度值。

即，如果第一概率密度大于第二概率密度，则将第一候选深度值确定为该任一像素的目标深度。

如果第二概率密度大于第一概率密度，这将第二候选深度值确定为该任一像素的目标深度。

如果第一概率密度大于第二概率密度，可以第一候选深度值和第二候选深度值中得任一候选深度值作为目标深度值，或者，可以将第一候选深度值和第二候选深度值的平均值作为目标深度值。

在一可选的实施例中，上述基于任一像素属于前景的概率、第一候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第一候选深度值的第一概率密度的一种实现流程图如图4所示，可以包括：

步骤S401：基于第一候选深度值以及第一概率分布函数，确定任一像素值对应第一概率分布函数的概率密度(为便于叙述和区分，记为第一子概率密度)。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里将d＝μ₁代入第一拉普拉斯分布函数，得到的p₁(μ₁)即为第一子概率密度。

步骤S402：基于第一候选深度值以及第二概率分布函数，确定任一像素值对应第二概率分布函数的概率密度(为便于叙述和区分，记为第二子概率密度)。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里将d＝μ₁代入第二拉普拉斯分布函数，得到的p₂(μ₁)即为第二子概率密度。

本申请对步骤S402和步骤S401的执行顺序不做限定，可以先执行步骤S401，再执行步骤S402，或者，可以先执行步骤S402，再执行步骤S401，或者，步骤S401和步骤S402同时执行。

步骤S403：将第一子概率密度和第二子概率密度加权求和，得到第一概率密度。

第一子概率密度的权重为任一像素属于前景的概率，第二子概率密度的权重与第一概率密度的权重之和为1。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里得到的第一概率密度p₁(d)为：

p₁(d)＝α*p₁(μ₁)+(1-α)*p₂(μ₁)

在一可选的实施例中，上述基于任一像素属于前景的概率、第二候选深度值、第一概率分布函数和第二概率分布函数，确定任一像素的深度值为第二候选深度值的第二概率密度的一种实现流程图如图5所示，可以包括：

步骤S501：基于第二候选深度值以及第一概率分布函数，确定任一像素值对应第一概率分布函数的概率密度(为便于叙述和区分，记为第三子概率密度)。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里将d＝μ₂代入第一拉普拉斯分布函数，得到的p₁(μ₂)即为第三子概率密度。

步骤S502：基于第二候选深度值以及第二概率分布函数，确定任一像素值对应第二概率分布函数的概率密度(为便于叙述和区分，记为第四子概率密度)。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里将d＝μ₂代入第二拉普拉斯分布函数，得到的p₂(μ₂)即为第四子概率密度。

本申请对步骤S502和步骤S501的执行顺序不做限定，可以先执行步骤S501，再执行步骤S502，或者，可以先执行步骤S502，再执行步骤S501，或者，步骤S501和步骤S502同时执行。

步骤S503：将第三子概率密度和第四子概率密度加权求和，得到第二概率密度。

第三子概率密度的权重为任一像素属于前景的概率，第四子概率密度的权重与第一概率密度的权重之和为1。

还以上述任一像素的预测信息为(α，μ₁，b₁，μ₂，b₂)为例，这里得到的第二概率密度p₂(d)为：

p₂(d)＝α*p₁(μ₂)+(1-α)*p₂(μ₂)

如果p₁(d)>p₂(d)，则将μ₁作为该任一像素的目标深度值，如果p₁(d)<p₂(d)，则将μ₂作为该任一像素的目标深度值，如果p₁(d)＝p₂(d)，则可以将μ₁和μ₂中的任一值作为目标深度值，或者，可以将μ₁和μ₂的均值作为目标深度值。

在一可选的实施例中，为了进一步去除人体与环境背景之间的点云噪声，上述将各张图像的深度融合的一种实现流程图如图6所示，可以包括：

步骤S601：对各张图像分别进行人体分割，以确定各张图像的人体掩膜图像。

可选的，可以利用预先训练好的分割网络对各张图像进行人体分割，以确定各张图像的人体区域。

可选的，分割网络可以包括但不限于：Unet网络。

步骤S602：对于任一张图像，基于该任一张图像的人体掩膜图像对该任一张图像的深度图进行处理，得到目标深度图。

其中，目标深度图中属于人体的像素点与人体掩膜图像中属于人体的像素点相同。目标深度图中属于非人体的像素点与人体掩膜图像中属于非人体的像素点相同。

步骤S603：将各张目标深度图融合，得到人体的三维点云。

可以直接将各张目标深度图融合，也可以基于光度一致性约束和几何一致性约束对深度图进行融合。

在一可选的实施例中，上述对各张图像进行特征提取，以及基于任一张图像的特征信息，获得该任一张图像的各个像素的预测信息的过程基于深度模型实现，该深度预测模型的一种结构示意图如图7所示，可以包括：

第一特征提取网络701，第二特征提取网络702和输出网络703；其中，

第一特征提取网络701用于对输入的各张图像进行特征图提取，得到各张图像的特征图。

第二特征提取网络701用于基于各张图像的特征图，该任一张图像的深度范围和相机参数，该任一张图像的各相邻视角的深度范围和相机参数，确定该任一张图像的匹配代价，作为该任一张图像的特征信息。

输出网络层703用于对各张图像的特征信息进行处理，得到每张图像中的各个像素的预测信息。

可选的，输出网络703包括：

输出层7031：用于对各张图像的特征信息进行处理，得到各张图像的初始深度图和各个像素属于前景的概率。

三层MLP(Multilayer Perceptron，多层感知机)7032：用于对各张图像的初始深度图进行处理，得到每张图像中各个像素的第一概率分布函数和第二概率分布函数。

在一可选的实施例中，上述深度预测模型可以通过如下方式训练得到：

将目标样本图像及其深度范围和相机参数，目标样本图像的各相邻视角的样本图像及其的深度范围和相机参数输入所述深度预测模型，得到所述深度预测模型输出的所述目标样本图像的各个像素(为便于叙述和区分，记为像素样本)的预测信息，任一像素样本的预测信息包括所述任一像素样本属于前景的概率，对应前景的所述任一像素样本的深度符合的第一概率分布函数，以及对应背景的所述任一像素样本的深度符合的第二概率分布函数。

其中，目标样本图像是针对同一人体进行多视角采集的多个张图像中的任一张图像。比如，针对同一人体在122个视角进行图像采集，得到122张图像，目标样本图像是122张图像中的任一张图像。

目标样本图像的深度范围和对应的相机参数，以及目标样本图像对应视角的相邻视角的确定可以参考前述实施例，这里不再赘述。

基于所述目标样本图像的各个像素样本的预测信息确定所述样本图像的深度图像。

基于各像素样本的预测信息确定目标样本图像的深度图像的具体实现过程可以参看前述实施例，这里不再赘述。

以确定的深度图像趋近于目标样本图像的真实深度图，基于各像素样本的预测信息确定的各像素样本的概率分布函数的极大似然概率最大化为目标，对深度预测模型的参数进行更新；其中，任一像素样本的概率分布函数为该任一像素样本的第一概率分布函数和第二概率分布函数的加权和；第一概率分布函数的权重为该任一像素样本属于前景的概率，第二概率分布函数的权重与第一概率分布函数的权重之和为1。

可选的，对深度预测模型的参数进行更新的过程可以包括：

对确定的深度图和真实深度图像分别进行边缘提取，得到人体边缘区域。

可选的，可以对确定的深度图和真实深度图像分别进行边缘检测，得到确定的深度图中的第一初始边缘区域和真实深度图像中的第二初始边缘区域；对第一初始边缘区域和第二初始边缘区域分别进行膨胀处理，得到确定的深度图中的膨胀后的人体边缘区域和真实深度图像中的膨胀后的人体边缘区域作为提取的人体边缘区域。

作为示例，可以使用固定尺寸的卷积核对边缘区域进行膨胀。作为示例，卷积核的尺寸可以为如下任一种：3×3，5×5，7×7等，其中，优选卷积核尺寸为7×7。

计算确定的深度图的边缘区域与真实深度图的边缘区域的第一子损失，以及确定的深度图的非边缘区域与真实深度图的非边缘区域的第二子损失；将第一子损失和第二子损失加权求和，得到第一损失。

第一子损失的权重大于第二子损失的权重。作为示例，第一子损失与第二子损失的比值为目标值。作为示例，目标值可以为10。

本申请将边缘区域和非边缘区域分开计算损失，且便于区域的损失权重大于非便于区域的损失权重，使得深度预测模型可以更偏向于学习比较难学习的深度图边缘。

对各像素样本的概率分布函数分别取负对数，得到各像素样本的第第二损失。

对概率分布函数取负对数是指对概率分布函数取对数后，对得到的对数结果取反，得到负对数。

将第一损失和各个第二损失求和，得到综合损失。

以综合损失越来越小为目标，对深度预测模型的参数进行更新。

与方法实施例相对应，本申请还提供一种三维人体重建装置，本申请实施例提供的三维人体重建装置的一种结构示意图如图8所示，可以包括：

特征提取模块801，预测模块802，确定模块803和融合模块804；其中，

特征提取模块801用于对图像集中的各张图像进行特征提取，得到各张图像的特征信息；所述图像集中的不同图像是在不同视角采集的同一人体的图像；

预测模块802用于对于任一张图像，基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息，任一像素的预测信息包括：所述任一像素属于前景的概率，对应前景的所述任一像素的深度符合的第一概率分布函数，以及对应背景的所述任一像素的深度符合的第二概率分布函数；

确定模块803用于基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像；

融合模块804用于将各张图像的深度图融合，得到所述人体的三维点云。

本申请实施例提供的三维人体重建装置，在获取从不同视角采集的同一人体的图像后，对各张图像进行特征提取，得到各张图像的特征信息；基于各张图像的特征信息，对各张图像的前景和背景分别进行预测，得到各个像素的预测信息，其中，任一像素的预测信息包括：任一像素属于前景的概率、对应前景的该任一像素的深度符合的第一概率分布函数、对应背景的该任一像素的深度符合的第二概率分布函数。基于各张图像的像素的预测信息确定各张图像的深度图像，将各张深度图像融合，得到人体的三维点云。本申请通过对前背景的深度分别进行概率分布函数建模来确定每个视角的前背景深度，从而有效的区分前背景的点云，减少了身体和手部点云的粘连，从而减少了人体非参数化模型的边缘的噪声。

在一可选的实施例中，所述特征提取模块801对各张图像进行特征提取时，用于：

在一可选的实施例中，所述确定模块803基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像时，用于：

在一可选的实施例中，所述确定模块803基于所述任一像素属于前景的概率、第一候选深度值、所述第一概率分布函数和所述第二概率分布函数，确定所述任一像素的深度值为所述第一候选深度值的第一概率密度时，用于：

在一可选的实施例中，所述融合模块804将各张图像的深度图融合时，用于：

将各张目标深度图融合，得到所述人体的三维点云。

在一可选的实施例中，所述特征提取模块801基于深度预测模型对各张图像进行特征提取，所述预测模块802基于深度预测模型基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息；所述三维人体重建装置包括训练模块，用于：

在一可选的实施例中，所述训练模块对所述深度预测模型的参数进行时，用于：

将所述第一损失和各个第二损失求和，得到综合损失；

本申请实施例提供的三维人体重建装置可应用于三维人体重建设备，如PC终端、云平台、服务器及服务器集群等。可选的，图9示出了三维人体重建设备的硬件结构框图，参照图9，三维人体重建设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

将各张图像的深度图融合，得到所述人体的三维点云。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

将各张图像的深度图融合，得到所述人体的三维点云。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种三维人体重建方法，其特征在于，包括：

将各张图像的深度图融合，得到所述人体的三维点云。

2.根据权利要求1所述的方法，其特征在于，对各张图像进行特征提取的过程，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述任一张图像的各个像素的预测信息确定所述任一张图像的深度图像，包括：

4.根据权利要求3所述的方法，其特征在于，确定所述第一概率密度的过程，包括：

5.根据权利要求1所述的方法，其特征在于，所述将各张图像的深度图融合，得到所述人体的三维点云，包括：

将各张目标深度图融合，得到所述人体的三维点云。

6.根据权利要求2-5任一项所述的方法，其特征在于，对各张图像进行特征提取，基于所述任一张图像的特征信息，获得所述任一张图像的各个像素的预测信息的过程基于深度预测模型实现，所述深度预测模型通过如下方式训练得到：

7.根据权利要求6所述的方法，其特征在于，对所述深度预测模型的参数进行更新的过程，包括：

将所述第一损失和各个第二损失求和，得到综合损失；

8.一种三维人体重建装置，其特征在于，包括：

9.一种三维人体重建设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-7中任一项所述的三维人体重建方法的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的三维人体重建方法的各个步骤。