CN117173330A

CN117173330A - 针对无约束图像数据的三维重建方法、系统、装置及介质

Info

Publication number: CN117173330A
Application number: CN202310962344.XA
Authority: CN
Inventors: 谭明奎; 杨逸凡; 张书海; 黄子雄
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-12-05

Abstract

本发明公开了一种针对无约束图像数据的三维重建方法、系统、装置及介质，属于三维重建技术领域。其中方法包括：获取无约束的图片I_a，提取m条相机光线使用多层感知机从相机光线中提取出多光线特征提取无约束的图片I_a的风格特征根据多光线特征和风格特征获取风格转换后的跨光线特征将跨光线特征输入渲染器，重建相机光线对应的图片像素的颜色，实现图像的三维重建。本发明提出用一个新的交叉射线特征来表示多条射线，然后通过融合全局统计数据，即射线的特征协方差和图像外观来恢复外观。

Description

针对无约束图像数据的三维重建方法、系统、装置及介质

技术领域

本发明涉及三维重建技术领域，尤其涉及一种针对无约束图像数据的三维重建方法、系统、装置及介质。

背景技术

新视角合成是计算机视觉中一个长期存在的问题，为虚拟现实和数字人类等应用提供了基础。近期，神经辐射场的出现推动了该领域的发展，因为它在重建三维几何形状和从多视角图像集中恢复外观方面表现出了出色的性能。然而，神经辐射场假设图像没有可变的外观和移动的物体(即静态场景假设)，这导致在大规模互联网图像集上的性能下降。为了扩展神经辐射场的应用范围，我们的目标是利用这些图像集，提供一个3D的沉浸式体验，通过该体验可以从不同角度和时间参观国际地标，例如勃兰登堡门和特雷维喷泉。

为了实现这一目标，我们解决了从无约束图像集中恢复外观可控且抗排斥的神经辐射场的问题。换句话说，通过重构神经辐射场表示，我们可以根据不同光度条件下的照片控制场景的外观，并消除图像造成的遮挡。然而，使用这些图像重建神经辐射场面临以下两个挑战：1)不同的外观：在同一地点拍摄的两张照片可能在拍摄时间、天气(如晴天、雨天和雾天)以及相机设置(如光圈、快门和ISO)等条件下有很大差异，这导致它们看起来截然不同。2)瞬时遮挡：即使外观是恒定的，瞬时出现的物体(如汽车和行人)可能会遮挡场景。由于这些物体通常只被一个摄影师拍到，因此实现高质量的物体重建通常是不现实的。这些挑战与神经辐射场的静态场景假设相冲突，导致重建结果不准确，出现过度平滑和重影伪影的问题。

最近，研究者们提出NeRF-W和Ha-NeRF来解决上述挑战。NeRF-W和Ha-NeRF利用单射线方式，其中单个相机射线(即从相机延伸的光束通过图像平面上的像素进入3D场景)作为输入。这种方式涉及考虑外观和遮挡因素，然后独立合成新视图的每种颜色的像素。这种方式的一个潜在问题是它依赖于每条光线的局部信息(例如，单个图像像素的信息)来识别外观和瞬态物体。相比之下，人类倾向于利用全局信息(例如，跨多个图像像素的信息)，这种方式可以更全面地了解对象以观察其外观并处理遮挡。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种针对无约束图像数据的三维重建方法、系统、装置及介质。

本发明所采用的技术方案是：

一种针对无约束图像数据的三维重建方法，包括以下步骤：

获取无约束的图片I_a，根据神经辐射场原理及网格采样算法，提取m条相机光线其中，m条相机光线/>对应m个图片像素/>

使用多层感知机从相机光线中提取出多光线特征/>

提取无约束的图片I_a的风格特征

根据多光线特征和风格特征/>获取风格转换后的跨光线特征/>

将跨光线特征输入渲染器，重建相机光线/>对应的图片像素/>的颜色，实现图像的三维重建。

进一步地，所述使用多层感知机从相机光线中提取出多光线特征/>包括：

使用多层感知机模型MLP和体渲染算法VR提取多光线特征表达式如下：

其中，m*n是光线的个数，x_ij是光线中点的坐标，d_ij是光线的方向向量；σ_ij是光线中点的密度，θ₁是MLP的参数，δ_ij是相邻点的距离。

进一步地，所述提取无约束的图片I_a的风格特征包括：

使用编码器提取输入图像I_a的风格特征/>表达式如下：

进一步地，所述根据多光线特征和风格特征/>获取风格转换后的跨光线特征/>包括：

对多光线特征和风格特征/>的协方差矩阵相乘，获得风格转换后的跨光线特征/>表达式如下：

其中φ₁，φ₂，φ₃均表示非线性矩阵映射操作。

进一步地，所述三维重建方法还包括以下步骤：

利用外观损失约束重建的像素颜色的风格特征和原图的像素风格特征一致；

外观损失的表达式为：

其中，表示编码器，/>为，/>为L2范数。

进一步地，所述三维重建方法还包括以下步骤：

利用掩码预测器，对无约束的图片I_a进行提取，获得可见图掩码M_a；

利用网格采样算法对可见图掩码M_a进行采样，使可见图掩码M_a与相机光线配对，得到瞬时物体可见图M，表达式如下：

其中，GS为网格采样操作，为分割网络。

进一步地，所述三维重建方法还包括以下步骤：

利用损失函数将瞬时物体可见图M与相机光线/>重建的颜色相乘，约束重建的像素颜色和原图的像素颜色一致，表达式如下：

其中，为，⊙为，||||₁为L1范数。

本发明所采用的另一技术方案是：

一种针对无约束图像数据的三维重建系统，包括：

光线提取模块，用于获取无约束的图片I_a，提取m条相机光线其中，m条相机光线/>对应m个图片像素/>

第一特征提取模块，用于使用多层感知机从相机光线中提取出多光线特征/>

第二特征提取模块，用于提取无约束的图片I_a的风格特征

特征融合模块，用于根据多光线特征和风格特征/>获取风格转换后的跨光线特征/>

图像重建模块，用于将跨光线特征输入渲染器，重建相机光线/>对应的图片像素/>的颜色，实现图像的三维重建。

本发明所采用的另一技术方案是：

一种针对无约束图像数据的三维重建装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明提出用一个新的交叉射线特征来表示多条射线，然后通过融合全局统计数据，即射线的特征协方差和图像外观来恢复外观。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种针对无约束图像数据三维重建的方法的示意图；

图2是本发明实施例中交叉光线范式与先前范式的比较示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

基于现有的技术问题，本发明公开了一种本发明提出了一种针对无约束图像数据的三维重建算法。本算法利用神经辐射场来合成新视角，神经辐射场是一种革命性的应用，通过对每个像素的单一光线进行采样来渲染场景，它在静态场景图像的新视角合成中表现出令人印象深刻的能力。然而，在实践中，我们通常需要从非静态的图像集中恢复神经辐射场，这带来了两个挑战：1)由于拍摄时间和相机设置的不同，图像在外观上经常有动态变化；2)图像可能包含瞬时的物体，如人类和汽车，导致遮挡和重影伪像。传统的方法试图通过局部利用单一光线来合成一个像素的颜色来解决这些挑战。与此相反，人类通常通过全局性地利用多个像素的信息来感知外观和目标。为了模仿人类的感知过程，我们提出了跨光线神经辐射场技术，该方法包括以下步骤：(a)本发明首先提出用一个新的交叉射线特征来表示多条射线，然后通过融合全局统计数据，即射线的特征协方差和图像外观来恢复外观。(b)为了避免由瞬时物体引入的遮挡，本发明提出了一个瞬时物体处理程序，并引入了一个网格采样策略来遮挡瞬时物体。我们在理论上发现，利用多条射线的相关性可以促进捕获更多的全局信息。此外，在大型真实世界数据集上的大量实验结果验证了我们方法的有效性。

如图1和图2所示，本实施例提供一种针对无约束图像数据的三维重建方法，该方法使用交叉射线范式(如图2所示)，来处理变化的外观和瞬态物体。首先，我们利用来自多条射线的全局信息来恢复外观并处理瞬态物体。随后，我们同时合成了一个新视图的区域。该方法具体包括以下步骤：

步骤1：使用多层感知机提取多光线特征。

使用多层感知机模型MLP和体渲染算法(VR)提取多光线特征

其中m*n是光线的个数，d_ij是光线的方向向量。

步骤2：提取输入图像的风格特征。

具体地，使用编码器提取输入图像I_a的风格特征/>即/>

步骤3：融合图像的风格特征和多光线特征。

利用协方差矩阵相乘操作T，融合图像的风格特征和多光线特征，从而迁移三维场景的风格的跨光线特征

其中φ₁，φ₂，φ₃均表示非线性矩阵映射操作。

步骤4：渲染图像像素颜色。

利用解码器将/>渲染成多光线对应的图像像素颜色/>

步骤5：风格一致性损失。

为约束的风格与I_a一致，构建风格一致性损失：

步骤6：预测瞬时物体可见图。

利用掩码预测器，预测I_a的瞬时物体可见图其中GS为网格采样操作。

步骤7：像素颜色一致损失。

利用M筛出瞬时物体后，构建像素级别颜色一致性监督损失

综上所述，本申请方法相对于现有技术，至少具有如下优点及有益效果：

(1)本申请提出了交叉光线特征，能够更全面的表征场景的三维信息。

(2)本申请引入了风格迁移模块，使用全局统计量，即协方差，来进行风格迁移。

(3)本申请将瞬时物体预测问题重构为了分割问题。

本实施例还提供一种针对无约束图像数据的三维重建系统，包括：

第一特征提取模块，用于使用多层感知机从相机光线中提取出多光线特征

第二特征提取模块，用于提取无约束的图片I_a的风格特征

本实施例的一种针对无约束图像数据的三维重建系统，可执行本发明方法实施例所提供的一种针对无约束图像数据的三维重建方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种针对无约束图像数据的三维重建装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图1所示方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种针对无约束图像数据的三维重建方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种针对无约束图像数据的三维重建方法，其特征在于，包括以下步骤：

获取无约束的图片I_a，提取m条相机光线其中，m条相机光线/>对应m个图片像素

使用多层感知机从相机光线中提取出多光线特征/>

提取无约束的图片I_a的风格特征

根据多光线特征和风格特征/>获取风格转换后的跨光线特征/>

2.根据权利要求1所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述使用多层感知机从相机光线中提取出多光线特征/>包括：

3.根据权利要求1所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述提取无约束的图片I_a的风格特征包括：

使用编码器提取输入图像I_a的风格特征/>表达式如下：

4.根据权利要求1所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述根据多光线特征和风格特征/>获取风格转换后的跨光线特征/>包括：

对多光线特征和风格特征/>的协方差矩阵相乘，获得风格转换后的跨光线特征表达式如下：

其中φ₁，φ₂，φ₃均表示非线性矩阵映射操作。

5.根据权利要求1所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述三维重建方法还包括以下步骤：

外观损失的表达式为：

其中，表示编码器，/>为，/>为L2范数。

6.根据权利要求1所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述三维重建方法还包括以下步骤：

其中，GS为网格采样操作，为分割网络。

7.根据权利要求6所述的一种针对无约束图像数据的三维重建方法，其特征在于，所述三维重建方法还包括以下步骤：

其中，为，⊙为，||||₁为L1范数。

8.一种针对无约束图像数据的三维重建系统，其特征在于，包括：

第二特征提取模块，用于提取无约束的图片I_a的风格特征

特征融合模块，用于根据多光线特征和风格特征/>获取风格转换后的跨光线特征

9.一种针对无约束图像数据的三维重建装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。