CN115330930A

CN115330930A - 基于稀疏到稠密特征匹配网络的三维重建方法和系统

Info

Publication number: CN115330930A
Application number: CN202210675654.9A
Authority: CN
Inventors: 孟子尧; 盛斌; 任然
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-11-11

Abstract

本发明提供了一种基于稀疏到稠密特征匹配网络的三维重建方法和系统，包括：步骤1：使用可变形卷积网络提取多级特征图；步骤2：在每个卷积层之后加入批归一化层；步骤3：通过多个特征提取块，经过卷积和批归一化得到多级特征图，以特征图金字塔的形式形成多级加权融合的输入；步骤4：融合多层次特征，为不同层次的特征图分配不同的权重，从而平衡注意力，得到属于不同层次的具有强语义信息的特征，以及图像对的对应匹配关系，并基于匹配关系进行二维到三维的映射，从而实现三维重建。本发明采用可变形卷积网络以关注局部形状信息，同时通过一个多级加权融合模块以实现多级特征提取，进而实现鲁棒和准确的三维重建。

Description

基于稀疏到稠密特征匹配网络的三维重建方法和系统

技术领域

本发明涉及三维重建技术领域，具体地，涉及一种基于稀疏到稠密特征匹配网络的三维重建方法和系统。

背景技术

三维重建的目的是从一组图像中获得一个物体或场景的几何结构和结构，如何提取鲁棒、准确和充分的图像对应关系是三维重建的关键问题。

专利文献CN114067051A(申请号：CN202111355721.0)公开一种三维重建处理方法、装置、电子设备以及存储介质，涉及计算机视觉技术领域，尤其涉及计算机图形学技术领域。具体实现方案为：获取目标图像，其中，上述目标图像中包含：待重建目标；基于上述待重建目标获取上述目标图像的背景蒙版图像；基于上述背景蒙版图像对上述待重建目标进行三维重建处理，得到三维重建处理结果。

现有的三维重建及图像匹配方法在提取准确的图像对应关系和关注场景局部形状信息等方面存在不足。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于稀疏到稠密特征匹配网络的三维重建方法和系统。

根据本发明提供的基于稀疏到稠密特征匹配网络的三维重建方法，包括：

步骤1：使用可变形卷积网络提取多级特征图，采用轻量级L2-Net作为主干网络，并将最后一个卷积层替换为可变形卷积层，使用步长为2的卷积实现特征图的下采样；

步骤2：在每个卷积层之后加入批归一化层，在训练期间分别将批归一化层的权重和偏差参数固定为1和0；

步骤3：通过多个特征提取块，经过卷积和批归一化得到多级特征图，以特征图金字塔的形式形成多级加权融合的输入；

步骤4：融合多层次特征，为不同层次的特征图分配不同的权重，从而平衡注意力，得到属于不同层次的具有强语义信息的特征，以及图像对的对应匹配关系，并基于匹配关系进行二维到三维的映射，从而实现三维重建。

优选的，通过额外的卷积层从先验特征图中学习得到偏移量，在标准二维卷积中常规网格采样位置添加二维偏移，以局部、稠密和自适应方式的输入特征为条件，利用规则网格R定义感受野大小和空洞，对于输出特征图y上的每个位置p₀，则有：

其中，w(p_n)表示位置p_n上由w加权的采样值；x(p₀+p_n)表示输入特征图x上对应p₀+p_n位置的值；p₀表示输出特征图y上的位置；p_n表示输入特征图x上由规则网格R采样位置的枚举；

在可变形卷积中，通过规则网格R增加偏移量{Δp_n|n＝1,…,N}，其中N＝|R|，得到：

优选的，由于偏移量Δp_n是小数，通过双线性插值得到：

G(q,p)表示对q和p的双线性插值；p表示任意位置，p＝p₀+p_n+Δp_n；q表示特征图x中的所有积分空间位置的枚举；G是双线性插值核。

优选的，对于要匹配的图像对(I_A,I_B)，使用关键点检测器来获得图像I_A的关键点集K_A，特征匹配过程即稀疏到密集的超列匹配问题，对图像I_A中的每个关键点

在图像I_B中找到对应的关键点

关键点分类分布为：

其中，

表示图像I_B每个关键点

的稠密对应；q表示I_B的像素点；C_n[q]表示I_B像素点q的稠密对应；C_n表示稠密对应图，Ω表示I_B的像素，θ是网络参数。

优选的，将图像I_A和图像I_B进行可变形特征提取，得到特征图

和

其中，

表示图像I_A在级别L的特征图，

表示图像I_B在级别L的特征图，多级对应映射{S^l|l＝1,…,L}的计算方式为：

其中，

代表将关键点

下采样到

＊表示1×1卷积；

应用加权融合，稠密对应图C_n最终被计算为：

其中，μ()表示上采样算子，ω_l表示第l级的权重；

通过可变形特征提取和加权融合，获得图像对(I_A,I_B)的对应匹配关系，记为

其中，N_AB表示I_A和I_B之间的特征匹配数。

根据本发明提供的基于稀疏到稠密特征匹配网络的三维重建系统，包括：

模块M1：使用可变形卷积网络提取多级特征图，采用轻量级L2-Net作为主干网络，并将最后一个卷积层替换为可变形卷积层，使用步长为2的卷积实现特征图的下采样；

模块M2：在每个卷积层之后加入批归一化层，在训练期间分别将批归一化层的权重和偏差参数固定为1和0；

模块M3：通过多个特征提取块，经过卷积和批归一化得到多级特征图，以特征图金字塔的形式形成多级加权融合的输入；

模块M4：融合多层次特征，为不同层次的特征图分配不同的权重，从而平衡注意力，得到属于不同层次的具有强语义信息的特征，以及图像对的对应匹配关系，并基于匹配关系进行二维到三维的映射，从而实现三维重建。

优选的，由于偏移量Δp_n是小数，通过双线性插值得到：

在图像I_B中找到对应的关键点

关键点分类分布为：

其中，

表示图像I_B每个关键点

和

其中，

表示图像I_A在级别L的特征图，

表示图像I_B在级别L的特征图，多级对应映射{S¹|l＝1,…,L}的计算方式为：

其中，

代表将关键点

下采样到

＊表示1×1卷积；

应用加权融合，稠密对应图C_n最终被计算为：

其中，μ()表示上采样算子，ω_l表示第l级的权重；

其中，N_AB表示I_A和I_B之间的特征匹配数。

与现有技术相比，本发明具有如下的有益效果：

本发明通过提出一种可形变的稀疏-稠密特征匹配算法，采用可变形卷积网络以关注局部形状信息，同时通过一个多级加权融合模块以实现多级特征提取，进而实现鲁棒，准确的三维重建。本发明还可用于大规模场景的三维重建，包括应用于导航领域的重建，建筑物的重建等。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

图像匹配是三维重建过程的关键一环，本发明设计了一种基于稀疏到稠密特征匹配的神经网络结构以实现图像匹配，该网络包括了一个可变形特征提取模块用于提取多级特征图，一个多级加权融合模块用于加权融合多级特征图并预测对应匹配的关键点。

本发明提供了一种基于稀疏到稠密特征匹配网络的三维重建系统，包括：可变形特征提取模块和多级加权融合模块。

可变性卷积在标准二维卷积中常规网格采样位置添加了二维偏移，这使采样网格能够自由变形。偏移量则通过额外的卷积层从前面的特征图中学习。这种变形以局部、稠密和自适应方式的输入特征为条件。二维卷积包含两个步骤：1)在输入特征图x上利用规则网格R进行采样；2)计算由w加权的采样值的加和。这一过程中，规则网格R定义了感受野大小和空洞。对于输出特征图y上的每个位置p₀，有：

w(p_n)表示位置p_n上由w加权的采样值；x(p₀+p_n)表示输入特征图x上对应p₀+p_n位置的值；p₀表示输出特征图y上的位置；p_n表示输入特征图x上由规则网格R采样位置的枚举。

其中，p_n枚举了规则网格R中的位置，在可变形卷积中，规则网格R增加了偏移量{Δp_n|n＝1,…,N}，其中N＝|R|。代入式(1)：

Δp_n表示规则网格R上增加的偏移量。

这样，采样将会在具有不规则和偏移p_n+Δp_n的位置上进行。由于偏移量Δp_n通常是小数，可以通过通过双线性插值将式(2)实现为：

G(q,p)表示对q和p的双线性插值；p表示任意位置，p＝p₀+p_n+Δp_n；q表示特征图x中的所有积分空间位置的枚举。

其中，p(p＝p₀+p_n+Δp_n)表示任意位置(通常以分数形式)，而q枚举出特征图x中的所有积分空间位置，G是双线性插值核。偏移量通过在相同的输入特征图上应用卷积层来获得。卷积核通常具有与当前卷积层相同的空间分辨率和空洞。输出偏移与输入特征图具有相同的空间分辨率。通道维度2N对应N个二维偏移。训练时需要同时学习用于生成输出特征的卷积核和偏移量。学习偏移量的过程中，梯度通过式(3)进行反向传播。

如图1，本发明使用可变形卷积网络来提取多级特征图，采用轻量级L2-Net作为主干网络，并将最后一个卷积层替换为可变形卷积层，使用步长为2的卷积来实现特征图的下采样。在每个卷积层之后加入批归一化层，批归一化层的权重和偏差参数不做更新，在训练期间分别固定为1和0。可变形特征提取模块包含几个特征提取块和一个可变形特征提取块。对于输入图像，通过一个特征提取块，经过卷积和批归一化得到特征图。经过几个特征提取块后，获得多级特征图，以特征图金字塔的形式形成多级加权融合模块的输入。

对于要匹配的图像对(I_A,I_B)，首先使用关键点检测器来获得图像I_A的关键点集K_A。特征匹配过程即稀疏到密集的超列匹配问题，主要目标为对图像I_A中的每个关键点

在图像I_B中找到对应的关键点

关键点分类分布可以写成：

表示图像I_B每个关键点

将图像I_A和图像I_B通过可变形特征提取模块，得到特征图

和

其中，

表示图像I_A在级别L的特征图，

表示图像I_B在级别L的特征图。多级对应映射{S^l|l＝1,…,L}的计算方式为：

其中，

代表将关键点

下采样到

＊表示1×1卷积。应用加权融合，稠密对应图C_n最终被计算为：

其中，μ()表示上采样算子，ω_l表示第l级的权重。加权融合模块可以融合多层次的特征，并为不同层次的特征图分配不同的权重，从而平衡注意力，得到属于不同层次的具有强语义信息的特征。通过可变形特征提取模块和加权融合模块，即可获得图像对(I_A,I_B)的对应匹配关系，记为

其中，N_AB表示I_A和I_B之间的特征匹配数。

根据本发明提供的基于稀疏到稠密特征匹配网络的三维重建系统，包括：模块M1：使用可变形卷积网络提取多级特征图，采用轻量级L2-Net作为主干网络，并将最后一个卷积层替换为可变形卷积层，使用步长为2的卷积实现特征图的下采样；模块M2：在每个卷积层之后加入批归一化层，在训练期间分别将批归一化层的权重和偏差参数固定为1和0；模块M3：通过多个特征提取块，经过卷积和批归一化得到多级特征图，以特征图金字塔的形式形成多级加权融合的输入；模块M4：融合多层次特征，为不同层次的特征图分配不同的权重，从而平衡注意力，得到属于不同层次的具有强语义信息的特征，以及图像对的对应匹配关系，并基于匹配关系进行二维到三维的映射，从而实现三维重建。

通过额外的卷积层从先验特征图中学习得到偏移量，在标准二维卷积中常规网格采样位置添加二维偏移，以局部、稠密和自适应方式的输入特征为条件，利用规则网格R定义感受野大小和空洞，对于输出特征图y上的每个位置p₀，则有：

其中，w(p_n)表示位置p_n上由w加权的采样值；x(p₀+p_n)表示输入特征图x上对应p₀+p_n位置的值；p₀表示输出特征图y上的位置；p_n表示输入特征图x上由规则网格R采样位置的枚举；在可变形卷积中，通过规则网格R增加偏移量{Δp_n|n＝1,…,N}，其中N＝|R|，得到：

由于偏移量Δp_n是小数，通过双线性插值得到：

对于要匹配的图像对(I_A,I_B)，使用关键点检测器来获得图像I_A的关键点集K_A，特征匹配过程即稀疏到密集的超列匹配问题，对图像I_A中的每个关键点

在图像I_B中找到对应的关键点

关键点分类分布为：

其中，

表示图像I_B每个关键点

将图像I_A和图像I_B进行可变形特征提取，得到特征图

和

其中，

表示图像I_A在级别L的特征图，

其中，

代表将关键点

下采样到

＊表示1×1卷积；

应用加权融合，稠密对应图C_n最终被计算为：

其中，μ()表示上采样算子，ω_l表示第l级的权重；

其中，N_AB表示I_A和I_B之间的特征匹配数。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。