CN115937465A

CN115937465A - 一种顾及像素区域预测的深度图融合算法

Info

Publication number: CN115937465A
Application number: CN202310041006.2A
Authority: CN
Inventors: 刘振东; 蔡昊琳; 洪志远; 屈文虎; 张帅哲
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-04-07

Abstract

本发明公开了一种顾及像素区域预测的深度图融合算法，包括S1、图像组合的计算：计算图像组合，为场景中每张参考图像选出一组邻居候选图像集；S2、像素区域的预测：构建粗略尺度的物方体素及测度估计，并提出了由粗略尺度引导的精细尺度上融合像素区域的推断策略和纠正器；S3、深度值融合：以精细尺度上已推断的像素区域作为像方约束进行深度值的融合。优点是：在融合过程中加入预测的思想，将场景中的图像像素进行二元分类，后续步骤中只对有效像素区域进行深度图融合，可消除冗余计算，显著提高融合效率。

Description

一种顾及像素区域预测的深度图融合算法

技术领域

本发明涉及深度图融合技术领域，尤其涉及一种顾及像素区域预测的深度图融合算法。

背景技术

多视立体重建技术可生成精细且真实的三维模型，目前该技术在大比例尺测图、三维模型纹理采集和数字城市快速三维建模等方面得到了广泛的应用。一般包括运动恢复结构(SfM)、密集匹配、深度图融合、网格构建和纹理重建等主要环节。多视立体三维重建的图像(简称多视图像)一般可通过倾斜航空摄影技术获取，即通过从五个不同的视角(一个垂直和四个倾斜)同步采集图像，获取到丰富的建筑物顶面及侧视的高分辨率纹理。倾斜航空摄影方式采集的图像(简称为倾斜图像)具有高重叠的特点，可用于保证复杂地物的重建质量，一般情况下，同一航向连续图像间的重叠度约为80％，相邻航向图像间重叠度约为60％。然而，随着重建区域的增大以及重建精度的不断提高，倾斜图像的高重叠特点给多视立体重建带来了愈加严重的冗余计算，导致重建处理的效率较低。而多视立体重建的冗余计算问题主要体现在了深度图融合环节，因此，降低深度图融合中的冗余计算是提升多视立体重建效率的有效途径。

深度图融合是指将不同视角的深度图融合到统一的坐标框架下并进行表面计算，以产生整个场景的密集点云。目前，国内外学者在这一领域取得了卓有成效的进展，算法大致分为三类：基于体素的融合算法、基于特征点扩散的融合算法和基于深度图的融合算法。深度图融合的重点研究主要集中在融合质量和融合效率两个方面，现有算法在融合质量方面较为成熟，但在融合效率方面还存在大量的冗余信息计算问题，导致融合算法效率较低。基于深度图的融合算法能够适应不同方式获取的深度图，计算复杂度较低且鲁棒性较高。因此，该类方法成为最常用的深度图融合算法.

基于深度图的融合算法是以多视角深度图及其相机的内外参数作为输入，借助参考图像与邻居图像之间的几何信息、物体光度特征以及物体在多视角间的可视性等因素作为融合条件，从而生成用于还原真实地物的三维点云。学者们不断地对基于深度图的融合算法开展相关研究，重点关注融合质量和冗余计算消除两个方面。

Tola等人从特征提取的角度出发，通过DASIY特征过滤掉噪声点，再根据相邻视图的一致性检查，对产生的冗余点进行筛选合并；Schops在检查多视点之间的冗余计算时，利用单应性矩阵确定对应点之间的联系，再借助深度图算出三维空间中点的法向量，并对比法向量排除差异较大的点；Hernández通过多视角深度图统计出3D空间中每个点在不同视角下可见性的概率情况，通过图割区分出物体的前景和背景部分后在对不同区域深度图进行融合。Merrell P等人使用两种实时性的基于视角间可见性的点云融合方法，分别是基于稳定性的方法和基于置信度的方法，实现深度图的融合。Liu等人采用了多尺度下的迭代方法(MSS)进一步优化原始的深度图，再通过阈值方法，对冲突点进行筛选。

M等人对于新计算出的每个三维点，计算这个点的协方差误差椭圆，如果这个点的协方差误差椭圆与其他点的协方差误差椭圆相交，则将这些点进行融合。Liu等人通过定义有限数量的虚拟视角，尽可能地减少冗余并覆盖全部场景，在虚拟视角上融合深度图并实现三维重建，但算法仅对五个镜头的倾斜图像有效。Shen等人为了消除直接合并深度图所带来的大量冗余，通过相邻图像的深度图测试并合并满足深度值足够接近的点；Galliani S等人在此基础上进一步完善，首先将每张图像作为融合的参考图，然后在弱纹理和遮挡区域进行一致性检测，同时根据不同的应用需求，平衡了三维点云的准确性和完整性。

现有的基于深度图的融合算法一般通过设置相对深度差、法线角度和重投影误差等一致性约束作为融合条件，保证融合生成的三维点云质量；但在冗余计算消除方面只关注了三维点云的密度而忽略了重复计算。当场景所包含的图像之间重叠度越高，即可以看到同一地物的像素数越多，则深度图融合时的冗余计算愈加严重。具体原因分析如下：

(1)参考图像逐像素的融合判定：

在融合过程中，现有基于深度图的融合算法需要对像素计算一致性约束的值，满足条件的像素被称为可接受像素，也称有效像素；不满足条件的像素被称为不可接受像素，也称为无效像素。图像中所有有效像素组合成的凸包被称为有效像素区；图像中剩余区域被称为无效像素区，如图1(a)和1(b)所示。现有基于深度图的融合算法，不区分有效像素区和无效像素区，需对图像中全部像素计算一致性约束值。因此，图像中无效像素区的融合判定造成了不必要的冗余信息计算。

(2)场景中所有图像均需转换为参考图像：

密集匹配阶段(一般包括深度图的估计和过滤)生成的深度图通常存在重叠度高、由弱纹理区域产生的噪声和表面起伏等特点。为了避免因直接合并深度图而产生具有大量噪声的三维点云，现有基于深度图的融合算法通常会将场景中的全部图像转换为参考图像并进行融合。但场景的所有图像中会存在一部分的无效图像，即图像中不存在任何有效像素区，这些图像无需进行融合判定及生成三维点云。因此，无效图像中像素的一致性约束值计算也是冗余的。

发明内容

本发明的目的在于提供一种顾及像素区域预测的深度图融合算法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种顾及像素区域预测的深度图融合算法，包括如下步骤，

S1、图像组合的计算：

利用SfM重建的共享特征点的数量作为主要度量指标，结合角度权重函数和尺度权重函数，联合构建全局视图选择的得分函数，为场景中每张参考图像选出一组候选邻居图像集合，并基于候选邻居图像集合中的每个图像的全局得分计算获取图像得分之和；

S2、像素区域的预测：

构建粗略尺度上的物方体素，并为每个物方体素选出聚合图像子集及附属信息；以粗略尺度为引导，推断精细尺度上的有效像素区域，并基于精细尺度纠正器纠正来自粗略尺度上物方体素的错误估计；

S3、深度值融合：

以精细尺度上已推断的像素区域作为像方约束，判定并筛选得到有效像素，将有效像素深度值对应的三维点和法向量估计的三维点平均为一个统一的三维点。

优选的，步骤S1具体包括如下内容，

S11、构建全局得分函数：以场景中参考图像R共享的特征点数量作为加权并构建全局得分函数g_R，以计算候选邻居图像集合N中的每个图像V的全局得分；

其中，F_V和F_R分别为图像V和参考图像R的特征点集合；w_N(f)和w_s(f)分别为角度权重函数和尺度权重函数；所述候选邻居集合N中包括参考图像R；

将角度权重函数w_N(f)定义为N中所有匹配对的乘积，

其中，w_α(f，V_i，V_j)＝min((α/a_max)²，1)；V_i，V_j分别为第i个图像和第j个图像；α为从V_i和V_j到特征点f的视线之间的夹角；α_max为夹角α的最大值；

计算参考图像R的s_R(f)，并基于比率r＝s_R(f)/s_V(f)定义尺度权重w_s(f)，

其中，s_R(f)为参考图像R中以特征点f为中心的球体的直径；s_V(f)为图像V中以特征点f为中心的球体的直径；

S12、计算图像得分之和：利用贪心方法迭代地将当前最高得分的图像V逐个添加到最佳邻居图像集合中，直到最佳邻居图像集合的数量等于给定大小|N|，获取图像得分之和∑_V∈N′g_R(v)。

优选的，步骤S2具体包括如下内容，

S21、粗略尺度的物方体素测度：借助已恢复场景中的相机内参、图像外参、连接点、深度图以及图像组合，将场景中部分图像对应的深度图反投影计算并采样生成物方空间的半密集点云以构建物方体素，并利用像方可见性测度和物方相交性测度估计物方体素测度；所述连接点即为SfM重建的共享特征点；

S22、精细尺寸纠正器：基于像方可见性测度和物方相交性测度构建精细尺度纠正公式，并基于精细尺寸纠正公式获取物方体素相对于视图的有效体素，对有效体素的像素范围进行合并，获取图像的有效像素区域。

优选的，步骤S21具体包括如下内容，

S211、根据连接点数量选出覆盖所有地物且图像之间的重叠度小的图像集合，即体素图像子集IRV；并利用完备率约束η使IRV在保证覆盖整个场景地物的前提下，尽可能剔除重叠度高的图像；

其中，∑_j ImageTiePoint为IRV包含的所有图像的连接点总数；|SceneTiePoint|为IR包含的所有图像的连接点总数；IR为场景包含的所有图像组成的集合；

S212、对深度图做降采样处理，利用公式(5)反投影计算出三维点，并存储到半密集点云SemiPC中；

其中，X为图像的世界坐标系下的三维点；λ为深度值；

是相机u的旋转矩阵的转置；

为相机u的内参矩阵的逆；C_u为相机u的平移分量；p为图像的像素坐标；

S213、利用八叉树结构对SemiPC进行三维空间划分，八叉树中的叶节点即代表物方体素SceneVoxels；

S214、利用像方可见性测度和物方相交性测度两个定量度量指标估计体素测度。

优选的，步骤S214具体包括如下内容，

S2141、对SceneVoxels三角剖分形成物方体素网格SceneMesh，场景中物方体素网格与三角面片之间的映射关系表示为，

SceneMesh＝{TrkFace_vt|v＝1，...，n，t＝1，...，12} (6)

其中，k为体素的索引号，体素总数为n；t为三角面片的索引号，一个体素会被剖分为12个三角面片；

S2142、根据场景中相机内参、图像外参和图像分辨率构建视图l的投影矩阵，如公式(7)，将体素v的三角面片投影到视图l的图像空间；

其中，其中，M₁为内参矩阵，M₂为外参矩阵；X、Y分别为视图图像坐标系下x轴坐标值和y轴坐标值；Z_c为相机坐标系z轴坐标值；f′为相机焦距；μ₀、v₀分别为中心像素坐标；R_c为3×3旋转矩阵，即相机坐标系相对于世界坐标系的旋转；T_c为3×1的平移向量，即相机坐标系相对于世界坐标系的偏移；O_1×3为1×3的零向量；X_w、Y_w、Z_w分别为世界坐标系下在x轴、y轴和z轴的分量；

对投影后的三角面片进行光栅化并获取该面片范围内的像素集合，即为像方可见性测度，该值用于衡量物方体素v在视图l中的可见程度；

VP(v，l)＝(P₁(x₁，y₂，z₁)，...，P_n(x_n，y_n，z_n)} (8)

其中，VP(v，l)为像方可见性测度；x_n和y_n为像素坐标；Z_n为投影后光线方向的深度值；VP(v，l)越大，体素v投影到视图l中的可见范围越大，表明视图l对体素v范围内密集点云的融合贡献是积极的，反之，融合贡献是消极的；

搜集VP(v，l)值大于0的视图，用于初始化物方体素v的聚合图像子集IA(v)；

S2143、利用体素中包含的经由VP(v，l)反投影计算得出的三维点集的数量和密度构造物方相交性测度，

其中，VF(v，l)为物方相交性测度；VPNum为每个体素中三维点集的数量；VPNum/max(VPNum)表示数量的归一化值；V为体素v的体积；α、β为权重因子；

删除聚合图像子集IA(v)中VF(v，l)接近于0的视图。

优选的，步骤S22具体包括如下内容，

S221、利用像方可见性测度VP(v，l)以及像方相交性测度VF(v，l)构建精细尺度纠正公式，即公式(10)，以筛选出质量合格的物方体素；

其中，VCorrect(v，l)为两个值的差异程度；VCorrect(v，l)越小，表明VP(v，l)和VF(v，l)越接近，认为视图l对于体素v而言，融合贡献是积极的；

S222、根据精细尺度纠正公式计算物方体素v的聚合图像子集IA(v)中每个视图的评分值，并按照评分值升序排序，取前m个视图作为体素v在精细尺度上具有融合贡献的视图，即有效视图FusionViews(v)＝{l₁，l₂，...，l_m}，每个视图上包含了该体素所对应的像素范围，该体素相对于该视图称为有效体素；

S223、合并每个视图中所有有效体素的像素范围，组成图像的有效像素区域。

优选的，根据像素区域的预测结果，将场景中的图像分为两类，一类图像中存在用于融合的有效像素，即为无效图像；另一类图像中存在用于融合的有效像素，即为有效图像；步骤S3具体包括如下内容，

S31、参考图像转换：只将有效图像转换为参考图像，并且仅将参考图像中的有效像素区内的像素对应的深度值转换为世界坐标系中的3D点，并将其投影到邻居视图以获取相应的匹配；

S32、像素融合判断：设置深度融合条件，计算有效像素区内像素的一致性约束值，并判断其是否满足融合条件；若存在至少两个相邻视图的相应匹配满足上述融合条件，则已估计深度值将被接受；

S33、三维点融合：将被接受的深度值对应的三维点和法向量估计的三维点平均为一个统一的三维点。

优选的，步骤S32中的融合条件包括相对深度差的一致匹配小于等于匹配阈值、法线之间的角度小于等于角度阈值以及重投影误差小于等于误差阈值。

本发明的有益效果是：1、本发明算法在融合过程中加入预测的思想，将场景中的图像像素进行二元分类，后续步骤中只对有效像素区域进行深度图融合，可消除冗余计算，显著提高融合效率。2、本发明算法在深度图融合中首次引入了多尺度概念，提出了由粗略尺度物方体素引导的精细尺度上有效像素区域的推断策略。避免了逐参考图像逐像素对应的深度值都必须计算和判断其是否满足融合条件的问题，消除了大量的冗余计算。3、本发明算法提出了一种精细尺度纠正器，用于纠正来自粗略尺度上物方体素的错误估计。有效去除因物方体素遮挡错误或已估计深度图噪声引起的像方歧义投影范围。4、本发明算法首次提出了像方可见性测度和物方相交性测度概念，分别从物方和像方两个角度综合评定体素可用于融合时的有效性。

附图说明

图1是图像的像素分区示意图；(a)有效图像：白色像素为可接受像素，黑色像素为不可接受像素；框内像素区域为有效像素区，框外像素区域为无效像素区；(b)无效图像，图中的所有像素均为不可接受像素；

图2是本发明实施例中深度图融合算法的原理示意图；

图3是本发明实施例中粗略尺寸的物方体素构建的示意图；(a)场景的半密集点云SemiPC，其中包含了一定数量的噪声或异常值；(b)对SemiPC进行八叉树空间划分得到的物方体素结果。(c)物方体素的三角化剖分结果。其中，v1、v2、v3分别表示三个不同的物方体素；视锥体l1...ln为场景中的视图(即图像、相机内参和图像外参的组合)；

图4是本发明实施例中物方相交性测度示意图；(a)中v1、v2、v3、l1在物方空间中yoz坐标面上的剖面图；(b)v’1、v’2、v’3分别是v1、v2、v3在l1像方的投影；(c)图中分别表示物方体素网格v1、v2、v3与l1深度值属于空间相交关系的分布及数量；

图5是本发明实施例中某图像的预测及融合示意图；(a)矩形框内的区域为该图像的有效像素区域，矩形框外的为无效像素区域；(b)矩形框内深色像素为有效像素，真实用于估计并生成三维点；浅色像素为无效像素，不能用于生成三维点；

图6是本发明实施例中Courtyard数据融合生成的点云结果；(a)是ETH3D提供的地面激光点云；(b)是COLMAP方法生成的点云；(c)是OPENMVS方法生成的点云；(d)是Gipuma方法生成的点云；(e)是ACMP方法生成的点云；(f)是ACMP-PF生成的点云，其他区域到框内区域表示了点云精度逐渐降低；

图7是本发明实施例中Dortmund实验数据有效像素区域的预测准确度分析示意图；左上图表示三维重建模型；右上图的四张图是不同图像的有效像素区域，矩形框为本发明算法预测的有效像素区域，图中白色标记的像素为有效像素，黑色标记的像素为无效像素；底部为预测准确度的散点图；

图8是本发明实施例中Garden实验数据有效像素区域的预测准确度分析示意图；左上图表示三维重建模型；右上图的四张图是不同图像的有效像素区域，矩形框为本发明算法预测的有效像素区域，图中白色标记的像素为有效像素，黑色标记的像素为无效像素；底部为预测准确度的散点图；

图9是本发明实施例中Central-Urban实验数据有效像素区域的预测准确度分析示意图；左上图表示三维重建模型；右上图的四张图是不同图像的有效像素区域，矩形框为本发明算法预测的有效像素区域，图中白色标记的像素为有效像素，黑色标记的像素为无效像素；底部为预测准确度的散点图；

图10是本发明实施例中本发明方法与对比方法的时间消耗统计直方图；每五个柱状线从左到右依次代表COLMAP、OPENMVS、Gipuma、ACMP、Ours(本发明方法)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

实施例一

本实施例中，提供了一种顾及像素区域预测的深度图融合算法，包括三部分内容，分别是图像组合的计算、像素区域的预测和深度值的融合。下面分别针对这三部分内容进行详细说明。

为了方便本发明算法的描述，将场景包含的所有图像组成的集合称为IR＝{image₀……image_i}；由相机内方位元素(简称内参)、图像外方位元素(简称外参)以及图像构成的视图集合称为LR＝{l₀……l_i}。

一、图像组合的计算

该部分的技术路线为：利用SfM重建的共享特征点的数量作为主要度量指标，结合角度权重函数和尺度权重函数，联合构建全局视图选择的得分函数，为场景中每张参考图像选出一组候选邻居图像集合，并基于候选邻居图像集合中的每个图像的全局得分计算获取图像得分之和。

图像组合的计算是为每张参考图像选出一组邻居候选图像集合，便于在像素区域预测和深度值融合等后续步骤中使用。该部分具体包括如下内容，

1、构建全局得分函数：

以场景中参考图像R共享的特征点数量作为加权并构建全局得分函数g_R，以计算候选邻居图像集合N(包括参考图像R)中的每个图像V的全局得分；

其中，F_V和F_R分别为图像V和参考图像R的特征点集合，w_N(f)和w_s(f)分别为角度权重函数和尺度权重函数；所述候选邻居集合N中包括参考图像R；

为了避免邻域图像与参考图像组成的匹配对出现较短基线的情况，保证匹配对有较好的视差范围，将角度权重函数w_N(f)定义为N中所有匹配对的乘积，

其中，w_α(f，V_i，V_j)＝min((α/α_max)²，1)；V_i，V_j分别为第i个图像和第j个图像；α为从V_i和V_j到特征点f的视线之间的夹角，α_max为夹角α的最大值；二次加权函数用于抵消随着角度减小而出现的更多共享特征点的趋势，同时也可以避免选择过大角度的匹配对。

加权函数w_s(f)用于衡量图像R和V在特征点f处的分辨率相似性。为了估计特征点f附近的V的3D采样率，我们计算以f为中心的球体的直径s_V(f)，该球体的投影直径等于V的像素间距。同理，计算参考图像R的s_R(f)，并基于比率r＝s_R(f)/s_V(f)定义尺度权重w_s(f)，

其中，s_R(f)为参考图像R中以特征点f为中心的球体的直径，s_V(f)为图像V中以特征点f为中心的球体的直径。该权重函数倾向于选择分辨率等于或高于参考图像的邻居图像。

2、计算图像得分之和

定义全局得分函数后，我们可以得到给定大小(通常|N|＝10)的最佳邻居图像集合，即图像得分之和∑_V∈Ng_R(v)。为了提高计算得分效率，利用贪心方法迭代地将当前最高得分的图像V逐个添加到最佳邻居图像集合中，直到最佳邻居图像集合的数量等于给定大小|N|，获取图像得分之和∑_V∈N′g_R(v)。

二、像素区域的预测

该部分的技术路线为：构建粗略尺度上的物方体素，并为每个物方体素选出聚合图像子集及附属信息；以粗略尺度为引导，推断精细尺度上的有效像素区域，并基于精细尺度纠正器纠正来自粗略尺度上物方体素的错误估计。

像素区域的预测主要是指以多尺度传播可靠测度估计、物方到像方变换等策略，准确地推断精细尺度上的有效像素区，可有效解决现有方法存在的逐图像逐像素计算一致性约束值而导致的冗余计算问题。该部分在粗略尺度上构建物方体素并为其选出聚合图像子集及计算测度估计；然后以粗略尺度上的测度信息为引导，推断精细尺度(单张图像)上可以用于融合的有效像素区，并且提出了一种精细尺度纠正器纠正来自粗略尺度上物方体素的错误估计。

该部分具体包括如下内容，

1、粗略尺度的物方体素测度：借助已恢复场景中的相机内参、图像外参、连接点、深度图以及图像组合，将场景中部分图像对应的深度图反投影计算并采样生成物方空间的半密集点云以构建物方体素，并利用像方可见性测度和物方相交性测度估计物方体素测度；所述连接点即为SfM重建的共享特征点。

具体包括如下几个小部分内容，

1.1、构建体素图像子集IRV：场景中图像之间的连接点数量是其相关性程度的度量指标，连接点数量越多则表明参考图像与相邻图像间的相关性越强(重叠度越高)。因此，根据连接点数量选出覆盖所有地物且图像之间的重叠度小的图像集合，即体素图像子集IRV；并利用完备率约束η，使IRV在保证覆盖整个场景地物的前提下，尽可能剔除重叠度高的图像；

其中，∑_jImageTiePoint为IRV包含的所有图像的连接点总数，|SceneTiePoint|为IR包含的所有图像的连接点总数，经实验验证，一般设置为0.85；IR为场景包含的所有图像组成的集合；

1.2、计算半密集点云：半密集点云是将IRV中图像对应的深度图反投影计算得到的三维点集，以下简称SemiPC。由于SemiPC主要用于构建物方体素，而物方体素的尺度一般是图像原始分辨率的十几倍甚至几十倍不等，因此，对深度图做降采样处理，利用公式(5)反投影计算出三维点，并存储到半密集点云SemiPC中，如图3(a)所示；

其中，X为图像的世界坐标系下的三维点；λ为深度值；

是相机u的旋转矩阵的转置，

为相机u的内参矩阵的逆，C_u为相机u的平移分量；p为图像的像素坐标。

1.3、创建物方体素：首先，确定物方体素的尺寸。由于物方体素尺寸的大小会对后续精细尺度纠正器中的错误估计去除及效率产生一定的影响，因此其尺寸不应过大也不宜过小，一般可将其设置为图像原始分辨率的十几倍到几十倍不等；利用八叉树结构对SemiPC进行三维空间划分，八叉树中的叶节点即代表物方体素，，如图3(b)，用SceneVoxels。

1.4、体素测度估计及其聚合图像子集：为了衡量体素的融合可用程度即有效像素区域的预测准确度，本发明提出了体素测度估计，包括像方可见性测度和物方相交性测度两个定量度量指标。

在计算两个体素测度时，会将SceneVoxels投影到场景的视图集合LR中。为了得到精确的投影结果，需要对SceneVoxels三角剖分形成物方体素网格SceneMesh，如图3(c)所示。场景中物方体素网格与三角面片之间的映射关系可表示为：

SceneMesh＝{TrkFace_vt|v＝1,…,n,t＝1,…,12} (6)

其中，k表示体素的索引号，体素总数为n；t表示三角面片的索引号，一个体素会被剖分为12个三角面片；

(1)像方可见性测度：根据场景中相机内参、图像外参和图像分辨率构建视图l的投影矩阵，如公式(7)，将体素v的三角面片投影到视图l的图像空间，如图4(b)所示。

VP(v，l)＝(P₁(x₁，y₂，Z₁)，...，P_n(x_n，y_n，Z_n)} (8)

其中，VP(v，l)为像方可见性测度，x_n和y_n为像素坐标，Z_n为投影后光线方向的深度值；VP(v，l)越大，体素v投影到视图l中的可见范围越大，表明视图l对体素v范围内密集点云的融合贡献是积极的，反之，融合贡献是消极的；

(2)、物方相交性测度：仅通过像方可见性测度作为粗略尺度的体素测度估计，并不能很好的预测有效像素区域。如图4(a)所示，体素v₁和v₃的像方可见性测度VP(v₁，l₁)和VP(v₃，l₃)较大，但v₁中大约一半的三维空间不与视图l₁相交，也就是说这部分空间不包含l₁中的任何深度值，为无效空间；v₃均为无效空间。因此，有必要提出物方相交性测度的概念，利用体素中包含的经由VP(v，l)反投影计算得出的三维点集的数量和密度构造物方相交性测度，

其中，VF(v，l)表示物方相交性测度；VPNum为每个体素中三维点集的数量；VPNum/max(VPNum)表示数量的归一化值；V为体素v的体积；α、β为权重因子；该公式分为数据项和密度项，数据项为α*(VPNum/max(VPNum))，密度项为

数据项与三维点集的数量成正比；密度项反映了三维点集在体素v中的空间分布情况。α、β为权重因子，一般情况下，α的值较大，本发明选取α＝0.65，β的值较小，本发明选取β＝0.35。

VF(v，l)越小，体素v包含的三维点数量越少或空间分布(密度)越不理想，噪声或异常值的可能性越大，该值对融合的贡献越消极。如图4(c)所示，在视图l1中，物方体素v1的有效可见深度数量较少，则v1为无效体素的可能性较大。当VF(v，l)接近0时，表明体素v包含视图l的三维点或二者相交部分极小。如图4(c)所示，在视图l1中，物方体素v3的有效可见深度数量为0，则v3为无效体素。

删除聚合图像子集IA(v)中VF(v，l)接近于0的视图。

2、精细尺寸纠正器：基于像方可见性测度和物方相交性测度构建精细尺度纠正公式，并基于精细尺寸纠正公式获取物方体素相对于视图的有效体素，对有效体素的像素范围进行合并，获取图像的有效像素区域。

粗略尺度的物方体素测度估计有助于推断精细尺度下图像中的有效像素区域，但它只是近似解算出物方体素与视图的可见关系以及与深度图的相交关系，在这些关系中仍然存在一定程度的错误估计。这些错误的测度估计主要包含两类：一是物方体素之间的遮挡问题，二是由半密集点云中的噪点或异常点导致的无效物方体素。为了准确预测精细尺度上有效像素区域，还需执行精细纠正器。

具体包括如下几个小部分内容，

2.1、利用像方可见性测度VP(v，l)以及像方相交性测度VF(v，l)构建精细尺度纠正公式，即公式(10)，以筛选出质量合格的物方体素；

其中，VCorrect(v，l)表示的是两个值的差异程度；VCorrect(v，l)越小，表明VP(v，l)和VF(v，l)越接近，认为视图l对于体素v而言，融合贡献是积极的；因此，体素v可用于视图l的有效像素区域预测。经实验验证，当VCorrect(v，l)的值大于0.7时，认为视图l对体素v不具有融合贡献。

2.2、根据精细尺度纠正公式计算物方体素v的聚合图像子集IA(v)中每个视图的评分值，并按照评分值升序排序，取前m个视图作为体素v在精细尺度上具有融合贡献的视图，即有效视图FusionViews(v)＝{l₁，l₂，...，l_m}，每个视图上包含了该体素所对应的像素范围，该体素相对于该视图称为有效体素；

2.3、合并每个视图中所有有效体素的像素范围，组成图像的有效像素区域。结果如图5(a)所示。

三、深度值融合

该部分的技术路线为：以精细尺度上已推断的像素区域作为像方约束，判定并筛选得到有效像素，将有效像素深度值对应的三维点和法向量估计的三维点平均为一个统一的三维点。

根据像素区域的预测结果，将场景中的图像分为两类，一类图像中存在用于融合的有效像素，即为无效图像；另一类图像中存在用于融合的有效像素，即为有效图像。像素区域预测后，将有效图像融合为完整的点云。

该部分具体包括如下内容，

1、参考图像转换：

只将有效图像转换为参考图像，并且仅将参考图像中的有效像素区内的像素(即图5(a)矩形框内的像素)对应的深度值转换为世界坐标系中的3D点，并将其投影到邻居视图以获取相应的匹配；

2、像素融合判断：

设置深度融合条件，计算有效像素区内像素的一致性约束值，并判断其是否满足融合条件；若存在至少两个相邻视图的相应匹配满足上述融合条件，则已估计深度值将被接受；

融合条件包括相对深度差的一致匹配小于等于匹配阈值、法线之间的角度小于等于角度阈值以及重投影误差小于等于误差阈值。具体为，相对深度差的一致匹配∈≤0.01，法线之间的角度θ≤30°和重投影误差ψ≤2。

3、三维点融合：

将被接受的深度值对应的三维点和法向量估计的三维点平均为一个统一的三维点。

本发明方法与ACMP方法相比，仅对已预测的像素区域内的像素执行上述计算和判断，消除了大量的冗余信息计算，如图5(b)所示。

实施例二

本实施例中，从融合点云质量、消除冗余计算以及融合效率等方面验证本发明算法的有效性。

1、实现数据与环境

实验数据包括：(1)公开基准数据集ETH3D，主要由Courtyard、facade和terrace三个不同的场景组成，图像数量分别为38、76和23张。三组数据均是分辨率为6048×4032的高分辨率多视立体数据集。此外，该类数据集包含了图像数据集和真实地面激光点云。(2)ISPRS提供的公开数据集Dortmund，该数据集由一个五镜头倾斜成像系统(IGI PentaCam)捕获，图像数量为584张，分辨率为8176×6132。(3)实地采集的倾斜摄影数据集，主要由Garden及Central-Urban两个不同的场景组成，图像数量分别为162和566张，分辨率分别为5472×3648和4864×3648，涵盖的主要地物类型包括：建筑、植被、道路、水面等，对实验验证具有普遍意义。

实验运行环境为一台工作站，Windows 10 64-bit操作系统，Intel Core(TM)i9-10900X CPU(主频为3.70GHz)，128GB内存。

2、点云质量分析

依据公认衡量标准，本实施例将利用ETH3D公开基准数据集从精度、完整度和F1得分等三个方面进行定量分析点云质量。为了充分验证本发明算法融合的点云质量，将与COLMAP(

J L,Zheng E,Frahm J M,et al.Pixelwise view selection forunstructured multi-view stereo)、Shen(Shen S.Accurate multiple view 3dreconstruction using patch-based stereo for large-scale scenes)、Gipuma(Galliani S,Lasinger K,Schindler K.Massively parallel multiview stereopsis bysurface normal diffusion)和ACMP(Xu Q,Tao W.Multi-scale geometric consistencyguided multi-view stereo)等几个当前较为经典的方法进行对比分析。其中，Shen方法已集成到开源库OPENMVS中。

表1列出了COLMAP、OPENMVS、Gipuma和ACMP融合点云的精度、完整度和F1得分。所有方法在精度上显示出了类似的结果。本发明算法在精度、完整度和F1得分方面均与ACMP方法最接近，这主要是由于本发明提出的基于深度图的融合算法与性能优异的ACMP密集匹配方法进行了组合，形成了一条新的三维重建管线(以下简称ACMP-PF)，因此，本发明算法在融合时使用的深度图由ACMP方法提供。由于本发明算法仅对预测的有效像素区域内的像素进行融合计算，若预测得到的有效像素区域不能完全包含图像内的全部有效像素，会导致融合生成的点云精度以及完整性降低，F1得分也随之降低。因此，本发明算法生成的点云质量可能会略差于ACMP方法。

表1ETH3D基准数据集的点云质量评估。

展示了不同阈值(包括2cm和10cm)下的精度、完整性和F1分数(％)。

图6展示了COLMAP、OPENMVS、Gipuma、ACMP以及本发明融合算法生成点云的定性结果。可以观察到，ACMP-PF生成的点云几乎全是浅色，表明该方法生成的点云精度较高、噪点较少；完整性方面的表现稍差但与ACMP方法接近。

3、预测准确度分析

准确度是有效像素区内的有效像素数量占图像内的有效像素总数的比例，它表征了本发明算法预测的有效像素区的准确性。计算公式如下：

Accuracy(i)＝B_w/I_w (11)

其中，i是场景中图像的编号，B_w是有效像素区内的有效像素数量，I_w是图像内的有效像素总数。

依据现有主流密集匹配方法的性能表现，我们将本发明算法集成到较为先进的ACMP重建管线中，替换其基于深度图的融合算法。首先，执行改进前的融合算法，将能够生成点云的图像像素进行标记并统计数量(I_w)；然后，执行改进后的融合算法，将有效像素区内能够生成点云的图像像素进行标记并统计数量(B_w)；最后，计算每张图像的Accuracy(i)值。

由于计算机内存限制，无法一次性处理规模较大的数据集。因此，本节从Dortmund、Garden和Central-Urban数据集中分别选取DortmundSub、GardenSub和Central-UrbanSub作为实验数据，图像数量分别为135、296和162。图7～10展示了三组场景的重建模型、预测的有效像素区域和预测准确度的散点图。

从图7～图9可以看出，DortmundSub、GardenSub和Central-UrbanSub三组实验数据的准确度较高。具体表现为：准确度大于0.9的占比分别达到了81.1％，70.0％和100％，准确度大于0.8的占比分别达到了87.1％，80.1％和100％。

当图像的有效像素分布在图像边缘且数量较少时，本发明算法的预测准确度较低，如图7(d)和图8(d)所示。除此之外，本发明算法的预测准确度均在0.9以上，如图7(a)(b)(c)、图8(a)(b)(c)和图9(a)(b)(c)(d)所示。GardenSub中有效像素分布在图像边缘且数量较少的图像较多，因此，该数据的预测准确度最低。而Central-UrbanSub中所有图像的有效像素均充满整张图像，因此，该数据预测准确度均大于0.9。

虽然本发明算法对位于图像边缘且像素数量较少的有效像素区域预测准确性不高，但并不影响点云融合的质量。主要原因包括以下两个方面：(1)该类有效像素区域基本上位于图像的边或角处，区域内的像素经密集匹配产生深度值一般质量不高。因此，即使这些像素能够满足融合条件，融合生成的点云质量也可能不高。(2)由于影像之间存在重叠，则图像间的有效像素区也会存在重叠。因此，该类有效像素区域内的有效像素生成的三维点，有可能会由其他图像中有效像素区域经过深度值融合后生成。因此，即便本发明算法没有融合生成该部分点云，也不会对点云的整体质量和数量造成较大影响。另外，为了验证该类位于图像边缘且像素数量较少的有效像素区域预测准确性对点云质量的影响程度，我们将对本发明算法生成的点云做质量分析。由于三组实验数据没有激光点云，因此以ACMP方法生成的点云作为真值，评估本发明算法生成的点云质量，如表2所示，可以看出本发明算法生成的点云与ACMP方法生成的点云几乎完全一致。

表2点云质量评估

4、融合效率分析

从Dortmund、Garden和Central-Urban数据集中分别选取9组不同规模的图像子集作为实验数据，统计COLMAP、OPENMVS、Gipuma、ACMP和本发明算法的融合时间，如表3所示。时间统计的柱状图如图10所示。

从图10可以看出，随着图像数量的增加，各方法融合点云所需时间在不断地增大，COLMAP、OPENMVS、Gipuma和ACMP等四种方法融合时间基本接近，而本发明算法所需时间明显少于其他方法。上述四种方法的融合算法遵循逐图像逐像素的融合计算和判定思想，造成了大量的冗余信息计算，而本发明算法进行有效像素区域预测，将图像分为无效图像和有效图像，将有效图像进一步划分为有效像素区域和无效像素区域，减少不必要的计算。因此，图像数量越多，本发明提出的算法优势越明显。当图像张数为38时，本发明算法的时间较ACMP方法提升了32.2％；当图像张数为481时，本发明算法较ACMP方法提升了59.4％。

表3实验数据包含的图像数量以及各方法的时间(单位为秒)。

5、结论

本发明提出了一种顾及像素区域预测的深度图融合算法，用于消除融合过程中的冗余信息计算，达到提高融合效率的目的。首先，构建粗略尺度的物方体素及测度估计，首次引入了多尺度概念，提出了由粗略尺度物方体素引导的精细尺度上有效像素区域的推断策略和纠正器；然后以有效像素区域作为像方约束进行深度值的融合。利用公开数据集和实地采集的倾斜摄影数据集进行实验验证和分析，可得出的结论如下：(1)点云的质量方面：与COLMAP、OPENMVS、Gipuma和ACMP等主流方法比较，本发明融合算法与ACMP密集匹配方法组合的新重建流程(ACMP-PF)，生成的点云无论是精度完整度还是F1得分，均与ACMP方法最接近。(2)预测准确性方面：以DortmundSub、GardenSub和Central-UrbanSub作为三组实验数据，本发明算法预测有效像素的准确度非常高。比如，准确度大于0.8的占比分别达到了87.1％，80.1％和100％。另外，以ACMP方法生成的点云作为真值，计算出本发明算法的点云在精度、完整度和F1得分均达到99％以上。(3)融合效率方面：以选取9组不同规模的子图像集作为实验数据进行深度图融合并统计消耗时间，与COLMAP、OPENMVS、Gipuma和ACMP等主流方法相比，融合时间节省大约30％～60％。

本发明算法预测的有效像素区域中还有相当数量的像素为无效像素，可继续研究这些像素的识别和精细化预测，进一步提升融合效率。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种顾及像素区域预测的深度图融合算法，本发明算法在融合过程中加入预测的思想，将场景中的图像像素进行二元分类，后续步骤中只对有效像素区域进行深度图融合，可消除冗余计算，显著提高融合效率。本发明算法在深度图融合中首次引入了多尺度概念，提出了由粗略尺度物方体素引导的精细尺度上有效像素区域的推断策略。避免了逐参考图像逐像素对应的深度值都必须计算和判断其是否满足融合条件的问题，消除了大量的冗余计算。本发明算法提出了一种精细尺度纠正器，用于纠正来自粗略尺度上物方体素的错误估计。有效去除因物方体素遮挡错误或已估计深度图噪声引起的像方歧义投影范围。本发明算法首次提出了像方可见性测度和物方相交性测度概念，分别从物方和像方两个角度综合评定体素可用于融合时的有效性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种顾及像素区域预测的深度图融合算法，其特征在于：包括如下步骤，

S1、图像组合的计算：

S2、像素区域的预测：

S3、深度值融合：

2.根据权利要求1所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S1具体包括如下内容，

将角度权重函数w_N(f)定义为N中所有匹配对的乘积，

其中，w_α(f,V_i,V_j)＝min((α/α_max)²,1)；V_i,V_j分别为第i个图像和第j个图像；α为从V_i和V_j到特征点f的视线之间的夹角；α_max为夹角α的最大值；

3.根据权利要求1所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S2具体包括如下内容，

4.根据权利要求3所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S21具体包括如下内容，

其中，∑_jImageTiePoint为IRV包含的所有图像的连接点总数；|SceneTiePoint|为IR包含的所有图像的连接点总数；IR为场景包含的所有图像组成的集合；

其中，X为图像的世界坐标系下的三维点；λ为深度值；

是相机u的旋转矩阵的转置；

5.根据权利要求4所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S214具体包括如下内容，

SceneMesh＝{TrkFace_vt|v＝1,…,n,t＝1,…,12} (6)

VP(v,l)＝{P₁(x₁,y₂,Z₁),…,P_n(x_n,y_n,Z_n)} (8)

其中，VP(v,l)为像方可见性测度；x_n和y_n为像素坐标；Z_n为投影后光线方向的深度值；VP(v,l)越大，体素v投影到视图l中的可见范围越大，表明视图l对体素v范围内密集点云的融合贡献是积极的，反之，融合贡献是消极的；

搜集VP(v,l)值大于0的视图，用于初始化物方体素v的聚合图像子集IA(v)；

S2143、利用体素中包含的经由VP(v,l)反投影计算得出的三维点集的数量和密度构造物方相交性测度，

其中，VF(v,l)为物方相交性测度；VPNum为每个体素中三维点集的数量；VPNum/max(VPNum)表示数量的归一化值；V为体素v的体积；α、β为权重因子；

删除聚合图像子集IA(v)中VF(v,l)接近于0的视图。

6.根据权利要求5所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S22具体包括如下内容，

S221、利用像方可见性测度VP(v,l)以及像方相交性测度VF(v,l)构建精细尺度纠正公式，即公式(10)，以筛选出质量合格的物方体素；

其中，VCorrect(v,l)为两个值的差异程度；VCorrect(v,l)越小，表明VP(v,l)和VF(v,l)越接近，认为视图l对于体素v而言，融合贡献是积极的；

S222、根据精细尺度纠正公式计算物方体素v的聚合图像子集IA(v)中每个视图的评分值，并按照评分值升序排序，取前m个视图作为体素v在精细尺度上具有融合贡献的视图，即有效视图FusionViews(v)＝{l₁,l₂,…,l_m}，每个视图上包含了该体素所对应的像素范围，该体素相对于该视图称为有效体素；

7.根据权利要求1所述的顾及像素区域预测的深度图融合算法，其特征在于：根据像素区域的预测结果，将场景中的图像分为两类，一类图像中存在用于融合的有效像素，即为无效图像；另一类图像中存在用于融合的有效像素，即为有效图像；步骤S3具体包括如下内容，

8.根据权利要求7所述的顾及像素区域预测的深度图融合算法，其特征在于：步骤S32中的融合条件包括相对深度差的一致匹配小于等于匹配阈值、法线之间的角度小于等于角度阈值以及重投影误差小于等于误差阈值。