CN112907736A

CN112907736A - 基于隐式场的十亿像素场景人群三维重建方法和装置

Info

Publication number: CN112907736A
Application number: CN202110265313.XA
Authority: CN
Inventors: 刘烨斌; 邵睿智; 于涛; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-04
Anticipated expiration: 2041-03-11
Also published as: CN112907736B

Abstract

本发明提出一种基于隐式场的十亿像素场景人群三维重建方法和装置，其中，方法包括：获取十亿像素场景图像；检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并估计出人的形状和姿态；使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据；训练遮挡情况下的人体重建；使用基于可见性的重要性采样，对三维人体可见部分加强采样点密度并提高权重，加强模型的细节。使用卷积神经网络提取训练图片的特征，并使用注意力机制关联三维人体先验与隐式场模型，在遮挡情况下完成对人体的高精度重建。将十亿像素场景中得到的三维人体与隐式场模型结合，生成高分辨率的人群三维重建模型。

Description

基于隐式场的十亿像素场景人群三维重建方法和装置

技术领域

本发明涉及计算机视觉中的三维重建技术领域，尤其涉及一种基于隐式场的十亿像素场景人群三维重建方法和装置。

背景技术

近年来随着计算机视觉技术的发展与计算硬件性能的提高，计算机视觉中三维重建领域发展迅速，其中人体三维重建是一个研究热点。高精度准确的人体三维重建在智能通讯、安防监控、娱乐服务等领域有着重大应用价值。

随着隐式场的提出与深度学习的发展，单RGB图片人体三维重建技术已取得了重大进步。然而隐式场方法的精确性受到分辨率的限制，对于多人、密集人群场景等也难以应用，在不同光照环境下也难以得到稳定的重建结果，存在很多局限性。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于隐式场的十亿像素场景人群三维重建方法，以实现系统采用长焦和短焦相机阵列，长焦相机用于获取局部细节图像，短焦相机用于获取全局图像。在此基础上使用跨分辨率拼接技术将局部细节与全局图像进行拼接，最终得到十亿像素场景图像。

本发明的第二个目的在于提出一种基于隐式场的十亿像素场景人群三维重建装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于隐式场的十亿像素场景人群三维重建方法，包括：利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；

分割所述场景图像中的人体区域；

获取所述人体区域的形状和姿态参数；

根据预设的卷积神经网络提取所述人体区域的几何特征；

根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。

为达上述目的，本发明第二方面实施例提出了一种基于隐式场的十亿像素场景人群三维重建装置，包括：第一获取模块，用于利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；

分割模块，用于分割所述场景图像中的人体区域；

第二获取模块，用于获取所述人体区域的形状和姿态参数；

提取模块，用于根据预设的卷积神经网络提取所述人体区域的几何特征；

模型构建模块，用于根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的基于隐式场的十亿像素场景人群三维重建方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于隐式场的十亿像素场景人群三维重建方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述第一方面实施例所述的基于隐式场的十亿像素场景人群三维重建方法。

本发明的实施例，至少具有如下的技术效果：

利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素场景图像；利用自校正的多尺度人体检测和分割模型检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并利用迭代求解在遮挡情况下估计出人的形状和姿态；使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据；采用随机简单图形遮挡与人体随机组合遮挡加强数据，训练遮挡情况下的人体重建；使用基于可见性的重要性采样，对三维人体可见部分加强采样点密度并提高权重，加强模型的细节。使用卷积神经网络提取训练图片的特征，并使用注意力机制关联三维人体先验与隐式场模型，在遮挡情况下完成对人体的高精度重建。将十亿像素场景中得到的三维人体与隐式场模型结合，生成高分辨率的人群三维重建模型。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于隐式场的十亿像素场景人群三维重建方法的流程示意图；

图2为本发明实施例所提供的一种基于隐式场的十亿像素场景人群三维重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于隐式场的十亿像素场景人群三维重建方法和装置。

图1为本发明实施例所提供的一种基于隐式场的十亿像素场景人群三维重建方法的流程示意图。如图1所示，该方法包括：

步骤101，利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像。

步骤102，分割所述场景图像中的人体区域。

步骤103，获取所述人体区域的形状和姿态参数。

步骤104，根据预设的卷积神经网络提取所述人体区域的几何特征。

步骤105，根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。

在本实施例中，利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素场景图像；利用人体检测和分割模型检测出十亿像素场景中的人并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，遮挡情况下估计出人的形状和姿态；使用卷积神经网络提取训练十亿像素图片中每个人的几何特征，在遮挡情况下完成对人群的高精度重建。

并且，利用自校正的多尺度人体检测和分割模型检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并利用迭代求解在遮挡情况下估计出人的形状和姿态；使用注意力机制关联三维人体先验与隐式场模型，兼顾隐式场的高精度和人体先验的鲁棒性。

在本发明的一个实施例中，通过十亿像素系统获取高分辨率的人群图像，利用检测与分割网络对人群当中的每个人进行检测与分割，之后使用迭代优化的策略基于输入图像估计人体的三维模型，然后基于注意力机制结合三维人体先验和隐式场实现高精度的人群三维重建。

该方法应用于十亿场景人群三维重建时，具体包括以下步骤

通过长焦和短焦阵列相机组成十亿像素系统获取高分辨率的人群图像。

利用检测和基于自校正的分割网络对于人群当中的每个人进行检测与分割。

使用基于迭代优化的方法来估计图像中人体的姿态与形状。

数据集处理，利用高精度扫描的人体模型，渲染出不同视角、不同光照的二维图像结果，并加入随机噪声作为训练数据。

将训练数据针对遮挡情况进行加强，加入随机简单图形遮挡和随机人体遮挡。

使用基于可见性的重要性采样，对于可见部分采样更多的点并赋值更高的权重。

提取图像特征，并使用注意力机制将隐式场特征与三维人体先验结合，生成高精度的三维人体重建结果。

将得到的人体模型按照深度渲染到十亿像素图像上，完成十亿像素场景下的人群三维重建。

上述步骤重建了人体三维模型的几何表面，模型表面的纹理推断步骤与之类似，只是隐函数预测的值转换为空间点对应的RGB颜色。

在本发明的一个实施例中，基于隐式场的十亿像素场景人群三维重建技术对的一个实施例的说明如下：

步骤S101，使用长焦相机和短焦相机阵列获取十亿像素图像，其中长焦焦距为135mm，短焦为25mm。

步骤S102，使用人体检测与分割网络对图像中的人群进行检测与分割，并使用Self-Correction技术矫正分割结果，得到精细分割。

步骤S103，使用迭代优化技术对人体模型的形状和姿态进行估计。

步骤S104，训练集数据准备。数据集来源于商业公司(TwinDom Inc)，训练集共包含500个高质量人体三维模型，每个模型渲染360个不同视点，共有180000张二维图像，训练网络输入图像分辨率为512×512,包含RGB三个通道。

步骤S105，将得到的二维图像进行数据加强，其中随机简单图形遮挡包括三角形、矩形、椭圆，人体随机遮挡则随意选取另一个扫描模型，并将它随机地放到当前模型的周围进行遮挡。

步骤S106，使用Hourglass提取图像特征。并将三维人体先验利用注意力机制和图像特征进行结合。其中注意力模型使用Transformer。

步骤S107，使用基于可见性的重要性采样方法对空间点进行采样，对于可见的部分，采用的随机采样半径为0.005，随机采样数量为5000，权重为4。对于不可见部分，采用的随机采样半径为0.02，随机采样数量为5000，权重为1。

步骤S108，训练收敛后，使用深度神经网络重建遮挡情况下的每个人，同时融合得到最终的人群重建结果。

综上，本发明实施例的基于隐式场的十亿像素场景人群三维重建方法，利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素场景图像；利用自校正的多尺度人体检测和分割模型检测出十亿像素场景中的人和并将其分割出来；对于分割出的场景图片，使用深度神经网络进行特征提取，并利用迭代求解在遮挡情况下估计出人的形状和姿态；使用高精度扫描的人体模型渲染出观察人体不同视角的图片作为训练数据；采用随机简单图形遮挡与人体随机组合遮挡加强数据，训练遮挡情况下的人体重建；使用基于可见性的重要性采样，对三维人体可见部分加强采样点密度并提高权重，加强模型的细节。使用卷积神经网络提取训练图片的特征，并使用注意力机制关联三维人体先验与隐式场模型，在遮挡情况下完成对人体的高精度重建。将十亿像素场景中得到的三维人体与隐式场模型结合，生成高分辨率的人群三维重建模型。

为了实现上述实施例，本发明还提出一种基于隐式场的十亿像素场景人群三维重建装置。

图2为本发明实施例提供的一种基于隐式场的十亿像素场景人群三维重建装置的结构示意图。

如图2所示，该基于隐式场的十亿像素场景人群三维重建装置包括：第一获取模块210、分割模块220、第二获取模块230、提取模块240和模型构建模块250。

其中，第一获取模块210，用于利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；

分割模块220，用于分割所述场景图像中的人体区域；

第二获取模块230，用于获取所述人体区域的形状和姿态参数；

提取模块240，用于根据预设的卷积神经网络提取所述人体区域的几何特征；

模型构建模块250，用于根据所述形状和姿态参数、所述几何特征构建所述场景图像对应的人群三维模型。

需要说明的是，前述对基于隐式场的十亿像素场景人群三维重建方法实施例的解释说明也适用于该实施例的基于隐式场的十亿像素场景人群三维重建装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所描述的基于隐式场的十亿像素场景人群三维重建方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所描述的基于隐式场的十亿像素场景人群三维重建方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于隐式场的十亿像素场景人群三维重建方法，其特征在于，包括以下步骤：

利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；

分割所述场景图像中的人体区域；

获取所述人体区域的形状和姿态参数；

根据预设的卷积神经网络提取所述人体区域的几何特征；

2.如权利要求1所述的方法，其特征在于，所述分割所述场景图像中的人体区域，包括：

利用人体检测和分割模型检测出所述场景图像中的人体区域。

3.如权利要求1所述的方法，其特征在于，

所述长焦局部相机的长焦焦距为135mm，所述短焦全局相机的短焦为25mm。

4.如权利要求1所述的方法，其特征在于，所述获取所述人体区域的形状和姿态参数，包括：

根据迭代求解算法获取所述人体区域的形状和姿态参数。

5.一种基于隐式场的十亿像素场景人群三维重建装置，其特征在于，包括：

第一获取模块，用于利用长焦局部相机和短焦全局相机构成的相机阵列获取十亿像素的场景图像；

分割模块，用于分割所述场景图像中的人体区域；

第二获取模块，用于获取所述人体区域的形状和姿态参数；

6.如权利要求5所述的装置，其特征在于，所述分割模块，用于：

7.如权利要求5所述的装置，其特征在于，所述长焦局部相机的长焦焦距为135mm，所述短焦全局相机的短焦为25mm。

8.如权利要求5所述的装置，其特征在于，所述第二获取模块，具体用于：

根据迭代求解算法获取所述人体区域的形状和姿态参数。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-4中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的方法。