CN116958437A

CN116958437A - 融合注意力机制的多视图重建方法及系统

Info

Publication number: CN116958437A
Application number: CN202310930347.5A
Authority: CN
Inventors: 刘骥; 李志杰
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-10-27

Abstract

本发明属于三维重建技术领域，具体公开了一种融合注意力机制的多视图重建方法及系统，该方法将预处理后的图像集合输入特征提取模块，获取图像组中各个视图在不同分辨率下的特征图和各个邻域图所对应的特征体，计算参考图与每个邻域图之间的代价体，并为每个图像间的代价体分别计算一个权重图；对图像间的代价体进行加权整合，得到最终的匹配代价体，计算概率体和深度图每个像素的深度估计值及置信度，得到高分辨率参考图的深度图，直至生成与原始分辨率大小相同的深度图并进行过滤；融合过滤后的深度图，得到最终稠密的点云模型，完成多视图重建。采用本技术方案，生成更高质量和更紧凑的点云模型，提高多视图三维重建的完整性。

Description

融合注意力机制的多视图重建方法及系统

技术领域

本发明属于三维重建技术领域，涉及一种融合注意力机制的多视图重建方法及系统。

背景技术

三维重建旨在从表征物体或场景的输入数据中重构出相应的数字三维模型，从而便于在计算机环境下进行处理、操作和分析。近年来，随着虚拟现实和增强现实等科学技术的快速发展，高质量且逼真的三维模型在工业生产和日常生活中的需求日益增加，三维重建技术也得到了广泛的关注和深入的研究。

目前，三维重建技术已经涵盖了多种应用领域，在影像娱乐方面，三维重建技术可以用于电影或游戏中人物和物品的建立，在提高效率的同时也能够促进真实感的提升。在医学治疗方面，对内脏器官进行三维重建可以提供更直观和丰富的病灶信息，有助于医疗人员对病情进行更全面的分析和精确的诊断。在文化遗产保护方面，三维重建技术可以将文物和遗迹进行数字化存储，在保留其风貌的同时也便于游客进行无接触式地全方位观赏。在自动驾驶方面，对道路环境进行实时和准确的三维重建有助于无人车识别障碍物，做出合理的路径规划。

国内外相关研究工作主要将多视图三维重建任务分为恢复相机参数和重建目标对象两个阶段。第一个阶段通常采用运动恢复结构(Structure From Motion,SFM)算法来实现。第二个阶段则采用多视角立体视觉(Multiple View Stereo,MVS)技术，其以前一阶段估计得到的相机参数和对应的多视角图像作为输入，输出三维模型。而目前的大部分多视图深度估计网络在提取特征时缺乏对全局信息的关注，从而难以在弱纹理以及非朗伯区域，如镜面反射区域和高光区域，提取出更具判别性的特征。此外，这些方法大多也只局限于图像内部自身进行特征的提取，而忽略了图像间的联系，存在对输入信息利用不充分的问题。同时，目前通用的由粗到细的深度估计策略中，在构建特征金字塔时还存在特征对齐的问题。

发明内容

本发明的目的在于提供一种融合注意力机制的多视图重建方法及系统，生成更高质量和更紧凑的点云模型，提高多视图三维重建的完整性。

为了达到上述目的，本发明的基础方案为：一种融合注意力机制的多视图重建方法，包括如下步骤：

获取在不同视角拍摄同一目标对象所得到的图像集合，并进行预处理；

将预处理后的图像集合输入特征提取模块，获取图像组中各个视图在不同分辨率下对应的特征图；

在初始的深度搜索范围内采样多个深度平面，并根据相机参数通过单应变换，获取图像组中各个邻域图所对应的特征体；

基于获取的特征体，计算参考图与每个邻域图之间的代价体，并为每个图像间的代价体分别计算一个权重图；

根据权重图，对图像间的代价体进行加权整合，得到最终的匹配代价体；

使用3D卷积神经网络对匹配代价体进行正则化，并利用Softmax函数计算得到概率体；

将多个假设的深度值与相应的概率值进行加权求和，得到低分辨率参考图所对应的深度图，计算深度图每个像素的深度估计值及置信度；

在低分辨率参考图所对应的深度图上缩小深度搜索范围采样深度值，得到高分辨率参考图的深度图，直至生成与原始分辨率大小相同的深度图；

结合光度一致性和几何一致性，对深度图进行过滤；

融合过滤后的深度图，得到最终稠密的点云模型，完成多视图重建。

本基础方案的工作原理和有益效果在于：本技术方案利用特征提取模块提取相应特征信息，基于可形变卷积神经网络，在深度值变化不连续的边界区域，获取更准确的深度图，结合光度一致性和几何一致性，对深度图进行过滤，剔除错误的外点，提升重建结果的质量，获取完整性更高的点云模型。

进一步，对图像集合进行预处理的方法为：

使用张氏相机标定法对图像进行矫正，并计算出相机的内参；

基于增量式运动恢复结构算法，通过SIFT算子提取出每幅图像的特征点，采用最近邻次近邻匹配法挑选出图像间的匹配点，并使用RANSAC方法过滤其误匹配；

在两幅图像间建立一条边，构建以输入图像作为节点的场景图G；

从场景图G中挑选存在边连接的两幅图像作为初始图像对，并求解出它们之间的基础矩阵，结合相机内参，分解得到对应的相机位姿；

采用三角化技术，计算初始图像对间匹配点所对应的三维空间点；

利用直接线性变换法，计算图像集合中除初始图像以外的其他图像的相机位姿，并通过三角化技术得到新的三维点；

使用光束平差法，对相机位姿和三维点坐标进行优化，得到稀疏点云和所有图像对应的相机位姿；

确定稀疏点云中的最小深度值和最大深度值，得到初始的深度搜索范围；

对于参考图I_i，遍历场景图G中其他与其存在边连接关系的图像I_j，计算I_i与I_j的匹配分数score(I_i,I_j)：

score(I_i,I_j)＝∑_p G(θ_ij(p))

其中，p是重建的稀疏点云中，图像I_i与I_j都具有相应投影点的三维点，也被称为图像I_i与I_j的共视点；θ_ij(p)和G(·)定义为：

θ_ij(p)＝(180/π)arccos((c_i-p)·(c_j-p))

其中，c_i和c_j分别是图像I_i和I_j对应的相机光心位置，θ_ij(p)计算的是点p的基线夹角，G(·)则是分段高斯函数；σ₂，σ₁，θ，θ₀为预设常数；

选取得分较高的前n张图像作为参考图I_i的邻域图，构建得到I_i的图像组；

将每张图像都作为参考图并为其选择邻域图，得到最终的图像组集合。

获取后续深度估计所需要的相机内、外参数，初始深度搜索范围以及图像组集合，利于后续使用。

进一步，所述特征提取模块包括特征金字塔网络和多个特征增强模块；

所述特征金字塔网络包括8层卷积层，用于提取出图像集合中各个视图在不同分辨率下的局部特征，其中第3层和第6层的卷积核步长为2，进行下采样减少图像的分辨率大小；

所述特征增强模块依次顺序连接，将局部特征中最低分辨率的特征图输入特征增强模块的首端，特征增强模块包括全局信息提取模块和特征融合模块；

所述全局信息提取模块基于自注意力机制，用于捕获图像内部的全局信息；

所述特征融合模块利用跨视图注意力机制，将参考图的特征融入邻域图的特征中，在获取图像间关联的同时引入空间的3D信息，并提高邻域图与参考图之间的一致性。

使用改进的特征金字塔网络(Feature Pyramid Network，FPN)提取出图像组中各个视图在不同分辨率下的局部特征，利于使用。全局信息提取模块以捕获图像内部的长距离依赖，从而增强弱纹理以及非朗伯区域特征的有效性。特征融合模块融合参考图中一些对应像素点的特征以捕获不同视角间潜在的相关性，从而在提取的2D特征图上引入空间的3D信息，丰富包括弱纹理以及非朗伯区域在内的特征的语义信息，提升重建结果的质量。

进一步，全局信息提取模块的提取步骤为：

输入图像组由一张参考图I_ref和N-1张邻域图组成，每张图像的分辨率均为H×W，其中H和W分别表示图像的高、宽；

对于每张图像，特征金字塔网络最终会输出三种不同尺度的特征图每个尺度下的特征图分辨率大小为H/2^l×W/2^l，特征通道数则为8×2^l；

对于输入的特征图F∈R^{H′×W′×C′}，全局信息提取模块将其展开成一个序列X∈R^H ^{′W′×C′}，基于线性注意力机制计算得到输出特征图F_global：

Q＝Linear(X),K＝Linear(X),V＝Linear(X)

X′＝LN(Linear(MSA_linear(Q,K,V))+X)

F_global＝LN(FFN(X′)+X′)

其中，Linear表示线性投影层，MSA_linear表示线性的多头注意力，LN是层归一化操作，FFN表示由两个全连接层组成的前馈神经网络；Q是自注意力机制中的查询向量，用于计算与其他位置的相关性，K是用于计算查询向量与其他位置之间相关性的键向量，V是自注意力机制中用于生成加权输出的值向量，X′是输入数据，通常是经过线性投影后的数据；

将输出的特征图F_global还原成初始的维度R^{H′×W′×C′}，得到混合全局信息的特征，增强弱纹理以及非朗伯等区域的特征的可判别性；

特征融合模块的融合步骤为：

对于每个引入了全局信息的邻域图特征采用极线Transformer为其中的每个像素点进行跨视图的注意力计算；

对于邻域图上的像素点p_i,计算其在参考图I_ref上的对应极线l：

其中，M_ref和分别表示参考图I_ref和邻域图/>所对应的相机投影矩阵，/>是邻域图/>相机光心的位置；/>是/>的伪逆矩阵，[·]_×代表反对称矩阵；获取到像素点p_i在参考图I_ref上对应的极线l后，就在其上均匀的采样n_c个像素点/>

计算q_i，k_j，v_j：

其中，q_i为p_i对应的q值，k_j是参考图上均匀采样后得到的特征值后计算的k值，v_j是参考图上均匀采样后得到的特征值后计算的v值；Conv_1×1表示1×1的2D卷积，和/>分别表示经过全局信息提取模块后邻域图/>上像素点p_i和参考图I_ref上像素点p′_j的特征；由于n_c相对较小，利用Softmax多头注意力的思想将/>的特征融入p_i中：

其中，C′是特征通道数，h是设置的注意力头数；head_k为第k个头的特征，第k个头的q值，/>第k个头的k值，/>第k个头的v值；/>为连接后的总特征，Concat为连接操作，/>为融合了参考特征与源特征的值；/>为源特征；

对于邻域图上的每个像素点都执行特征融合操作，将参考图I_ref的特征引入邻域图/>中。

将参考图的特征融入邻域图的特征中，从而在获取图像间关联的同时引入空间的3D信息，并提高邻域图与参考图之间的一致性。

进一步，获取图像组中各个视图在不同分辨率下对应的特征图的方法如下：

对于特征金字塔网络输出的参考图和邻域图最低分辨率的特征图其中的每个元素F_i代表的是对应像素的特征向量；

采用Sinusoidal位置编码为其中的每个像素引入位置信息P＝[P₁,P₂,…,P_n]:

其中，P_i,2k和P_i,2k+1分别表示位置i的编码向量的第2k和2k+1个分量，C′是特征向量的维度；

将位置信息P加入到中得到编码后的特征图/>

将作为多个串联的特征增强模块的输入，得到最终整合了图像内和图像间信息的低分辨率参考图特征和邻域图特征/>

通过一个1×1的卷积操作，将低分辨率特征图的通道维度变为当前阶段的值，然后再对其执行插值操作；利用特征对齐模块对插值后的特征图进行卷积，最后将特征对齐模块输出的特征图与特征金字塔网络中对应分辨率的局部特征/>相加，经过一个3×3的卷积操作进行平滑处理，获得当前尺度下整合了图像内部及图像间信息的特征

在局部特征中融入全局信息，从而增强所提取特征的可判别性，通过顺序堆叠多个特征增强模块的方式即可充分整合图像内部和图像之间的信息，获取到更高质量的特征图。

进一步，获取特征体及代价体的方法为：

对于参考图中的像素点p_i，在其深度搜索范围内沿着参考图相机坐标系的主光轴方向均匀地选取M个深度平面，计算每个深度平面所对应的采样深度值d_i,k：

其中，d_i,min，d_i,max分别表示像素点p_i对应深度搜索范围中的最小值和最大值；i＝0…n-1,k＝0…M-1,n是参考图中像素点的总个数；

利用单应变换将邻域图的特征变换到参考图的相机坐标系下，得到对应的特征体/>对于参考图中的像素点p_i，在其采样深度值为d_i,k时，通过可微的单应矩阵确定其在邻域图/>上的对应像素点p_i′：

其中，{K_ref,R_ref,t_ref}和分别表示参考图I_ref和邻域图/>的相机内参，旋转矩阵以及平移向量；n_ref表示参考图相机的主光轴，I是单位矩阵；

遍历参考图中的每一像素点，并根据其不同的采样深度值分别确定该像素点在邻域图中的对应像素点，然后将邻域图/>中对应像素点的特征放置在参考图的像素位置处即可得到特征体/>其维度为H′×W′×M×C′；

在空间分辨率上，特征体中的每个元素表示在不同的采样深度值下，参考图上相应位置处的像素在邻域图/>上对应像素点的特征；

假设F_ref是参考图的特征，是参考图中的所有像素在第k个采样深度值{d_*,k}处所对应的邻域图特征，即/>中沿深度方向的第k个特征图，将F_ref和/>分别沿特征通道均匀地划分为G组，计算F_ref和/>每组特征间的相似度/>

其中，g＝0…G-1，分别是/>和F_ref第g组的特征，<·,·>表示点积；

将每一组的特征相似度堆叠，即可得到第k个采样深度值{d_*,k}处参考图特征与变换后的邻域图特征之间的相似度图/>其维度为H′×W′×G；将所有采样深度值所对应的相似度图/>堆叠，构成邻域图/>与参考图I_ref间的代价体不同于特征体/>中的每个元素在空间分辨率上表示参考图中的像素点在其不同的采样深度值下与邻域图/>上对应像素点间的特征相似度；

已知每个邻域图与参考图I_ref间的代价体/>后，以/>作为输入，采用一个轻量级的卷积神经网络为其预测出一个权重图/>获取每个/>所对应的权重图/>计算参考图中像素点p_i在采样深度值d_i,k处的匹配代价C(p_i,k)：

其中，为权重函数，是与像素点p_i相关的权重值，由领域图s_j控制；/>是一个与像素点p_i和采样深度k相关的匹配代价函数，由邻域图s_j控制；

将参考图中所有像素点在第k个采样深度值{d_*,k}处的匹配代价组合，得到参考图在第k个采样深度值{d_*,k}处的代价图C(k)∈R^{H′×W′×G}；将所有的代价图沿深度方向堆叠，得到最终的代价体C∈R^{H′×W′×M×G}。

构建代价体来表示匹配代价，并对构建得到的代价体进行正则化以尽可能去除噪声的影响并生成概率体用于后续的深度值估计，利于使用。

进一步，计算深度图每个像素的深度估计值的方法如下：

对于参考图中的像素点p_i，其深度估计值D(p_i)计算为：

其中，M为深度平面的个数，k＝0，…，M-1；d_i,k是像素点p_i对应的采样深度值，P(p_i,d_i,k)是概率体中像素点p_i在采样深度值d_i,k处的概率；

在初始阶段l＝2时，参考图中每个像素点的深度搜索范围都是相同的，即具有同样的最小边界和最大边界；每一阶段的像素点深度搜索范围则基于前一阶段相应的深度估计值为：

其中，D_l(p_i)_min和D_l(p_i)_max分别表示当前阶段参考图中像素点p_i的最小和最大深度值采样边界；是对前一阶段生成的深度图D_l+1进行上采样得到的，/>则表示前一阶段像素点p_i的深度估计值；M_l和I_l分别表示当前阶段为每个像素点采样的深度值个数以及采样间隔；M_l和I_l满足以下条件：

M_l<M_l+1,I_l<I_l+1

即当前阶段采样的深度值个数和采样间隔均小于前一阶段，得到最终的深度图D₀∈R^H×W。

采用回归的方式来实现深度值的预测，其本质是沿着深度方向计算采样深度值的期望，运算简单，便于使用。

进一步，还包括损失函数：

采用L₁损失函数对网络进行训练，中间尺度的深度图加入到损失函数中，最终的损失函数Loss为：

其中，Loss_l表示阶段l中估计深度图与真实深度图之间的L₁损失：

其中，表示当前阶段已知真实深度值的有效像素点集合，D_l(p)和/>则分别表示当前阶段像素点p的深度估计值和真实深度值；λ_l表示每一阶段损失所对应的权重。

采用L₁损失函数对网络进行训练，该函数计算了深度估计值与真实值间的平均绝对误差，可用于衡量深度估计值的准确性，提升网络的性能。

进一步，得到最终稠密的点云模型的方法如下：

对于参考图上的像素点p_i，根据其深度估计值D_ref(p_i)和对应的相机参数将其投影到邻域图上得到对应的像素点p_proj；

根据p_proj的深度估计值将p_proj投影回参考图并得到对应的像素点p_reproj，其在参考图上的深度估计值记为D_ref(p_reproj)；

如果像素点p_i满足定义的约束条件，就认为其深度估计值D_ref(p_i)在两个视图中是一致的：

‖p_i-p_reproj‖₂<σ₁

‖D_ref(p_i)-D_ref(p_reproj)‖₁/D_ref(p_i)<σ₂

像素点p_i和重投影像素点p_reproj间的距离需小于阈值σ₁，同时它们对应的深度估计值D_ref(p_i)和D_ref(p_reproj)间的相对误差也需小于阈值σ₂；并且像素点p_i至少在3张邻域图上满足上述约束才会被保留，否则也将被视为外点并加以剔除；

在获得每个图像组中参考图所对应的经过后处理的深度图后，保留的每个像素点p_i最终的深度值，定义为参考图在该点处的深度估计值D_ref(p_i)与所有在像素点p_i处满足一致性约束的邻域图所对应的重投影深度估计值D_ref(p_reproj)加和的平均；

利用求得的最终深度值和参考图对应的相机参数，将该参考图投影回三维空间得到部分点云，再将所有的参考图投影回三维空间即融合得到一个统一的稠密三维点云模型。

将所有的参考图投影回三维空间即可融合得到一个统一的稠密三维点云模型，实现多视图三维重建，重建完整性好。

本发明还提供一种融合注意力机制的多视图重建系统，包括处理模块，所述处理模块执行本发明所述方法，进行多视图重建。

利用该系统实现多视图重建，操作简单，利于使用。

附图说明

图1是本发明融合注意力机制的多视图重建方法的流程示意图；

图2是本发明融合注意力机制的多视图重建方法的增量式运动恢复结构算法的流程示意图；

图3是本发明融合注意力机制的多视图重建方法的特征提取模块的流程示意图；

图4是本发明融合注意力机制的多视图重建方法的特征金字塔网络的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了一种融合注意力机制的多视图重建方法，如图1所示，包括如下步骤：

获取在不同视角拍摄同一目标对象所得到的图像集合(这些图像彼此间在内容上具有一定的重叠性)，并进行预处理；

结合光度一致性和几何一致性，对深度图进行过滤，基于点云归一化、降采样、去噪和重采样的优化处理方案，生成更高质量和更紧凑的点云模型；

本发明的一种优选方案中，由于透镜制作工艺和组装的问题，真实世界中的相机并不完全满足理想的针孔相机模型，其拍摄的图像会存在畸变。而畸变的存在会导致图像内容失真，不利于后续的深度预测。对图像集合进行预处理的方法为：

使用张氏相机标定法对图像进行畸变矫正，并计算出相机的内参，相机内参也可直接从图像的EXIF(图像文件信息)信息中获取；

如图2所示，基于增量式运动恢复结构算法来完成相机位姿的计算，并重建出稀疏点云以确定初始的深度搜索范围。通过SIFT(Scale-Invariant Feature Transform，是一种图像的局部描述子)算子提取出每幅图像的特征点，采用最近邻次近邻匹配法挑选出图像间的匹配点，并使用RANSAC(Random Sample Consensus，是根据一组包含异常数据的样本数据集，计算出数据的数学模型参数，得到有效样本数据的算法)方法过滤其误匹配；

当两幅图像间有足够多的匹配点数量时，在两幅图像间建立一条边，构建以输入图像作为节点的场景图G；

完成初始化后，继续从剩下的图像中挑选出新的图像，利用直接线性变换法(Direct Linear Transform,DLT)，计算图像集合中除初始图像以外的其他图像的相机位姿，并通过三角化技术得到新的三维点；

使用光束平差法(Bundle Adjustment,BA)，对相机位姿和三维点坐标进行优化，得到稀疏点云和所有图像对应的相机位姿，以避免误差累积；

在获取到相机参数和初始的深度搜索范围后，就可以为每张图像选取多张邻域图以构成图像组，从而用于后续的深度图估计。

θ_ij(p)＝(180/π)arccos((c_i-p)·(c_j-p))

其中，c_i和c_j分别是图像I_i和I_j对应的相机光心位置，θ_ij(p)计算的是点p的基线夹角，G(·)则是分段高斯函数；σ₂，σ₁，θ，θ₀为预设常数，如分别设置为4,5,1,10；

本发明的一种优选方案中，如图3所示，特征提取模块包括特征金字塔网络(Feature Pyramid Network，FPN)和多个特征增强模块。

如图4所示，特征金字塔网络包括8层卷积层，用于提取出图像集合中各个视图在不同分辨率下的局部特征，其中第3层和第6层的卷积核步长为2，进行下采样减少图像的分辨率大小。针对深度估计时由粗到细构建特征金字塔而导致的特征对齐问题，引入特征对齐模块进行处理，以获得更为准确的深度值，尤其是在深度值变化不连续的边界区域。对输入图像进行筛选，以选取出合适的图像为其计算深度图，从而减少为内容高度相似的图像再次进行深度值估计所带来的计算开销。

特征金字塔网络上层的特征图在经过简单的插值后就直接与下层的特征图进行了相加，这里会引入一个特征对齐的问题，也即插值后的上层特征图和下层特征图在对应位置处表示的并不是同一对象的特征。在深度值变化不连续的区域周围往往会产生许多伪影，伪影指的是被拍摄场景中本不存在却出现在图像上的各种形态的影像。伪影的存在会使得边界区域模糊，不利于后续深度值的估计，从而影响深度图的准确性。

引入特征对齐模块(Feature Alignment Module，FAM)，该模块首先将插值后的上层特征图与下层特征图/>沿着特征通道维度拼接在一起，然后通过卷积神经网络学习到两者之间空间位置的偏移量Δi，最后根据这个偏移量对上层特征图进行卷积。该过程由可形变卷积实现，卷积后的上层特征图可与下层特征图直接相加，而不必担心特征对齐的问题。

特征增强模块依次顺序连接，将局部特征中最低分辨率的特征图输入特征增强模块的首端，特征增强模块包括全局信息提取模块和特征融合模块；

全局信息提取模块基于自注意力机制，用于捕获图像内部的全局信息，获取距离的依赖关系，从而在弱纹理以及非朗伯等区域获得区分度更高的特征；

特征融合模块利用跨视图注意力机制，将参考图的特征融入邻域图的特征中，在获取图像间关联的同时引入空间的3D信息，并提高邻域图与参考图之间的一致性，丰富包括弱纹理以及非朗伯区域在内的特征的语义信息，提升重建结果的质量。

本发明的一种优选方案中，全局信息提取模块的提取步骤为：

对于输入的特征图F∈R^{H′×W′×C′}，全局信息提取模块将其展开成一个序列X∈R^H ^{′W′×C′}，基于线性注意力(Linear Attention)机制计算得到输出特征图F_global：

Q＝Linear(X),K＝Linear(X),V＝Linear(X)

X′＝LN(Linear(MSA_linear(Q,K,V))+X)

F_global＝LN(FFN(X′)+X′)

其中，Linear表示线性投影层，MSA_linear表示线性的多头注意力，LN是层归一化(Layer Normalization)操作，FFN表示由两个全连接层组成的前馈神经网络；Q是自注意力机制中的查询向量，用于计算与其他位置的相关性，K是用于计算查询向量与其他位置之间相关性的键向量，V是自注意力机制中用于生成加权输出的值向量，X′是输入数据，通常是经过线性投影后的数据；

特征融合模块的融合步骤为：

为加强图像间的信息利用，基于跨视图的注意力机制实现了一个特征融合模块，以将参考图的特征融入邻域图中，从而更好地指导邻域图的特征生成。相比于全局信息提取模块在整个图像范围内进行注意力计算，由上文可知不同视图间的对应像素点存在极线约束。

计算q_i，k_j，v_j：

其中，q_i为p_i对应的q值，k_j是参考图上均匀采样后得到的特征值后计算的k值，v_j是参考图上均匀采样后得到的特征值后计算的v值；Conv_1×1表示1×1的2D卷积，和/>分别表示经过全局信息提取模块后邻域图/>上像素点p_i和参考图I_ref上像素点/>的特征；由于n_c相对较小，利用Softmax多头注意力的思想将/>的特征融入p_i中：

沿极线进行注意力计算并融合特征的方式，一方面可以减少计算量，另一方面则可以引入额外的参考视角的特征信息，从而在提取的2D特征图上引入空间的3D信息，得到语义更为丰富的邻域图特征。此外，通过为邻域图中的每个像素引入参考图中对应极线上像素点的信息，还可以增强邻域图和参考图之间的几何一致性。

本发明的一种优选方案中，获取图像组中各个视图在不同分辨率下对应的特征图的方法如下：

将位置信息P加入到中得到编码后的特征图/>

将作为多个串联的特征增强模块的输入，得到最终整合了图像内和图像间信息的低分辨率参考图特征和邻域图特征/>考虑到计算量的问题，高分辨率的特征图则基于前一阶段获取到的低分辨率特征图获得。

在经过完整的特征提取模块后，可以获得参考图和邻域图在不同尺度下增强的特征。这些特征既包含了细粒度的局部信息，又涵盖了全局和图像间的语义信息，为后续的匹配计算提供了更准确的数据支撑。

本发明的一种优选方案中，获取特征体及代价体的方法为：

以初始阶段l＝2为例进行说明,并令该阶段特征图的维度为H′×W′×C′,其中H′＝H/4，W′＝W/4，C′＝32。为参考图中的每个像素点在深度搜索范围内分别采样M个深度值，然后基于采样的深度值利用单应变换将每个邻域图所对应的特征转换到参考图的相机坐标系下，得到N-1个特征体。

已知每个邻域图与参考图I_ref间的代价体/>后，需要对这N-1个图像间的代价体/>进行聚合，以生成最终的代价体C。目前大部分方法所采用的基于方差的聚合方式以相同的权重同等的处理每一个/>但由于不同视角拍摄的图像在内容上存在一定的差异，参考图上记录的像素点在邻域图中不一定存在，因此基于方差的方式会错误的聚合一些不可见点的信息，从而引入较多的噪声，影响后续深度值的预测。

以作为输入，采用一个轻量级的卷积神经网络为其预测出一个权重图/>采用三个1×1×1的3D卷积操作将输入通道数从G逐步变换到16，8和1，然后通过一个Sigmoid函数将值映射到(0,1)区间以得到每个采样深度值所对应的概率，最后沿深度方向选择最大的概率值作为/>当前位置处的权值，得到的/>的维度为H′×W′×1。对于参考图中的每一像素点，如果在邻域图上存在与其足够相似的对应点，那么就认为该点在邻域图中很可能也是可见的，从而在/>的相应位置处赋予较大的权重，反之则赋予较小的权重，以此减少不可见点所带来的误差。只在低分辨率阶段计算权重图，后续高分辨率的权重图则对其进行插值获得。

获取每个所对应的权重图/>计算参考图中像素点p_i在采样深度值d_i,k处的匹配代价C(p_i,k)：

其中，为权重函数，是与像素点p_i相关的权重值，由领域图s_j控制，/>是一个与像素点p_i和采样深度k相关的匹配代价函数，由邻域图s_j控制；

代价体C反映了参考图中的每一像素点在其不同的采样深度值下与其他邻域图中对应像素点的特征相似度。相似度越高，说明该采样深度值越可能接近参考图中这一像素点的真实深度，即可基于代价体C来判断参考图中每一像素点处的采样深度值与真实值的接近程度。

本发明的一种优选方案中，计算深度图每个像素的深度估计值的方法如下：

沿深度方向对正则化后的代价体C_r执行Softmax操作可得到概率体P∈R^{H′×W′×M}。在空间分辨率上，概率体P中的每个元素表明了当前像素的真实深度值为不同采样深度值的概率。

采用回归的方式来实现深度值的预测，其本质是沿着深度方向计算采样深度值的期望。对于参考图中的像素点p_i，其深度估计值D(p_i)计算为：

在由粗到细的深度估计策略中，当前阶段的深度图D_l是基于前一阶段估计得到的深度图D_l+1生成的。具体来说，对于当前阶段参考图中的每个像素，首先需要为其重新确定深度搜索范围，而这个深度搜索范围则是基于前一阶段该像素的深度估计值获得的。在确定好每个像素新的深度搜索范围后，进行深度值的重采样。随后基于重采样的深度值依次执行代价体的构建、正则化以及深度值估计即可获得当前阶段的深度图。

M_l<M_l+1,I_l<I_l+1

即当前阶段采样的深度值个数和采样间隔均小于前一阶段，逐步细化采样深度值并不断逼近真实的深度，得到最终的深度图D₀∈R^H×W。

在高分辨率阶段采样的深度值个数较少，所构建的代价体在深度方向上的维度就会明显降低。而低分辨率阶段所对应的代价体则具有更高的深度维度和更小的空间分辨率，使得整体上占用的存储空间更少，从而能够适用于高分辨率图像的深度估计。

更优选的，还包括损失函数：

采用L₁损失函数对网络进行训练，考虑到除了最终生成的深度图外，其余的每一阶段均输出了相应尺度的深度图，将中间尺度的深度图加入到损失函数中，以提升网络的性能。最终的损失函数Loss为：

本发明的一种优选方案中，得到最终稠密的点云模型的方法如下：

根据p_proj的深度估计值将p_proj投影回参考图并得到对应的像素点p_reproj，其在参考图上的深度估计值记为D_ref(p_reproj)；/>

‖p_i-p_reproj‖₂<σ₁

‖D_ref(p_i)-D_ref(p_reproj)‖₁/D_ref(p_i)<σ₂

像素点p_i和重投影像素点p_reproj间的距离需小于阈值σ₁，同时它们对应的深度估计值D_ref(p_i)和D_ref(p_reproj)间的相对误差也需小于阈值σ₂；优选，将σ₁设为1，σ₂设为0.01。并且像素点p_i至少在3张邻域图上满足上述约束才会被保留，否则也将被视为外点并加以剔除；

本发明还提供一种融合注意力机制的多视图重建系统，包括处理模块，处理模块执行本发明所述方法，进行多视图重建。利用该系统实现多视图重建，操作简单，利于使用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种融合注意力机制的多视图重建方法，其特征在于，包括如下步骤：

结合光度一致性和几何一致性，对深度图进行过滤；

2.如权利要求1所述的融合注意力机制的多视图重建方法，其特征在于，对图像集合进行预处理的方法为：

score(I_i,I_j)＝∑_pG(θ_ij(p))

θ_ij(p)＝(180/π)arccos((c_i-p)·(c_j-p))

3.如权利要求1所述的融合注意力机制的多视图重建方法，其特征在于，所述特征提取模块包括特征金字塔网络和多个特征增强模块；

4.如权利要求3所述的融合注意力机制的多视图重建方法，其特征在于，

全局信息提取模块的提取步骤为：

对于输入的特征图F∈R^{H′×W′×C′}，全局信息提取模块将其展开成一个序列X∈R^{H′W′×C′}，基于线性注意力机制计算得到输出特征图F_global：

Q＝Linear(X),K＝Linear(X),V＝Linear(X)

X′＝LN(Linear(MSA_linear(Q,K,V))+X)

F_global＝LN(FFN(X′)+X′)

特征融合模块的融合步骤为：

其中，M_ref和分别表示参考图I_ref和邻域图/>所对应的相机投影矩阵，/>是邻域图相机光心的位置；/>是/>的伪逆矩阵，[·]_×代表反对称矩阵；获取到像素点p_i在参考图I_ref上对应的极线l后，就在其上均匀的采样n_c个像素点/>

计算q_i，k_j，v_j；

其中，q_i为p_i对应的q值，k_j是参考图上均匀采样后得到的特征值后计算的k值，v_j是参考图上均匀采样后得到的特征值后计算的v值；Conv_1×1表示1×1的2D卷积，和分别表示经过全局信息提取模块后邻域图/>上像素点p_i和参考图I_ref上像素点p′_j的特征；由于n_c相对较小，利用Softmax多头注意力的思想将/>的特征融入p_i中：

对于邻域图上的每个像素点都执行特征融合操作，将参考图I_ref的特征引入邻域图中。

5.如权利要求4所述的融合注意力机制的多视图重建方法，其特征在于，获取图像组中各个视图在不同分辨率下对应的特征图的方法如下：

将位置信息P加入到中得到编码后的特征图/>

通过一个1×1的卷积操作，将低分辨率特征图的通道维度变为当前阶段的值，然后再对其执行插值操作；利用特征对齐模块对插值后的特征图进行卷积，最后将特征对齐模块输出的特征图与特征金字塔网络中对应分辨率的局部特征/>相加，经过一个3×3的卷积操作进行平滑处理，获得当前尺度下整合了图像内部及图像间信息的特征/>

6.如权利要求1所述的融合注意力机制的多视图重建方法，其特征在于，获取特征体及代价体的方法为：

利用单应变换将邻域图的特征变换到参考图的相机坐标系下，得到对应的特征体对于参考图中的像素点p_i，在其采样深度值为d_i,k时，通过可微的单应矩阵/>确定其在邻域图/>上的对应像素点p_i′：

将每一组的特征相似度堆叠，即可得到第k个采样深度值{d_*,k}处参考图特征与变换后的邻域图特征之间的相似度图/>其维度为H′×W′×G；将所有采样深度值所对应的相似度图/>堆叠，构成邻域图/>与参考图I_ref间的代价体不同于特征体/> 中的每个元素在空间分辨率上表示参考图中的像素点在其不同的采样深度值下与邻域图/>上对应像素点间的特征相似度；

7.如权利要求1所述的融合注意力机制的多视图重建方法，其特征在于，计算深度图每个像素的深度估计值的方法如下：

对于参考图中的像素点p_i，其深度估计值D(p_i)计算为：

M_l<M_l+1,I_l<I_l+1

即当前阶段采样的深度值个数和采样间隔均小于前一阶段，得到最终的深度图D₀∈R^H ^×W。

8.如权利要求7所述的融合注意力机制的多视图重建方法，其特征在于，还包括损失函数：

9.如权利要求1所述的融合注意力机制的多视图重建方法，其特征在于，得到最终稠密的点云模型的方法如下：

‖p_i-p_reproj‖₂<σ₁

‖D_ref(p_i)-D_ref(p_reproj)‖₁/D_ref(p_i)<σ₂

10.一种融合注意力机制的多视图重建系统，其特征在于，包括处理模块，所述处理模块执行权利要求1-9之一所述方法，进行多视图重建。