CN117576180A

CN117576180A - 基于自适应多尺度窗口的多视图深度估计方法及应用

Info

Publication number: CN117576180A
Application number: CN202410055336.1A
Authority: CN
Inventors: 严超; 叶飞; 龚烨飞; 刘继承; 朱培逸; 程艳花; 薛国强
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117576180B

Abstract

本发明提供一种基于自适应多尺度窗口的多视图深度估计方法及应用，所述方法包括：在图像集合中确定参考图像和匹配图像；计算参考图像的各个目标像素在参考窗口下的纹理系数，并将纹理系数与第二阈值进行比较；计算参考图像中的目标像素在匹配图像中的对应像素，计算第一匹配窗口和第二匹配窗口之间的第一匹配代价：根据第一匹配代价对参考图像的各个目标像素进行邻域优化，以获取各个目标像素的最优深度值；对各个目标像素的最优深度值进行随机优化，以获取各个目标像素的最终深度值；将参考图像的各个目标像素的参考窗口的尺度缩小，以对各个目标像素的最终深度值进行窗口优化。本发明的一个技术效果在于，实现了对场景深度的高效、准确的估计。

Description

基于自适应多尺度窗口的多视图深度估计方法及应用

技术领域

本发明属于三维重建技术领域，具体涉及一种基于自适应多尺度窗口的多视图深度估计方法及应用。

背景技术

多视图立体（Multi-view stereo，MVS）是指在一个场景中采集多个视角的图像，然后根据不同视角图像之间的几何关系计算每个图像的深度图，最终得到场景的三维模型表示的一类算法，其可以运用到绘制城市地图、创建文化遗产数字图书馆、机器人导航等领域。其中，块匹配算法（PatchMatch）由于其计算速度快、深度估计精度高等特点，成为多视图立体领域的代表性算法。块匹配算法分为四个步骤：深度图初始化、视图选择、深度传播和深度图融合。

现有多视图立体算法难以估计无纹理区域的深度，虽然目前出现很多方法采用多尺度深度估计方法能够提高无纹理区域深度估计的有效性，但更耗时。

例如，第一种观点将块匹配引入了多视图立体领域，并提出一种倾斜平面支持窗口代替平行平面窗口，这使得匹配过程更高效，因为在搜索匹配时，只需关注窗口内的一小部分像素，而不是整个窗口。这减少了计算的复杂性。在处理具有不同纹理属性的区域时表现良好，无论是纹理丰富区域还是低纹理区域，都能获得较好的匹配结果，但是视图选择和深度传播策略效果较差，其根据图像之间的共视关系进行视图选择，没有考虑到遮挡造成的影响。其深度传播策略采用从左向右的传播方式，传播的有效性较差。

第二种观点使用隐马尔可夫模型，联合光度和几何一致性改进了PatchMatch的视图选择策略，首次引入了像素级视图选择策略，根据每个像素的可见性和一致性来选择最适合的视图，这有助于减少不一致性和噪声引起的误差，从而提高了三维重建的质量。通过像素级视图选择，该方法提高多视图立体中的深度估计准确性，并减少伪影和误差。但是其视图选择需要对多个视图的数据进行详尽的分析，这导致较高的计算成本，尤其是在处理大规模数据集时。所提出的之字型深度传播策略，仍属于串行传播，难以在图像处理单元中并行传播，导致传播效率较低。

第三种观点提出了一种基于多假设联合和多尺度几何一致性的块匹配方法，先在粗糙尺度上计算可靠的深度图，然后指导精细尺度的深度图估计，更鲁棒地估计无纹理区域的深度。但在多个尺度上估计深度增加了块匹配算法的耗时，同时从粗糙尺度到精细尺度的深度图可能存在精度损失。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提供一种基于自适应多尺度窗口的多视图深度估计方法及应用的新技术方案。

根据本发明的第一方面，提供了一种基于自适应多尺度窗口的多视图深度估计方法，包括如下步骤：

步骤S100，在图像集合中确定参考图像和匹配图像；其中，通过计算参考图像与图像集合中其他图像共视的特征点数量，选取特征点数量大于第一阈值的图像作为匹配图像；

步骤S200，以参考图像的目标像素为中心建立参考窗口，计算参考图像的各个目标像素在参考窗口下的纹理系数，并将纹理系数与第二阈值进行比较；

步骤S300，当目标像素在参考窗口下的纹理系数大于等于第二阈值时，计算参考图像中的目标像素在匹配图像中的对应像素，并以参考图像中的目标像素为中心建立第一匹配窗口，以匹配图像的对应像素为中心建立第二匹配窗口，计算第一匹配窗口和第二匹配窗口之间的第一匹配代价；

步骤S400，根据第一匹配代价对参考图像的各个目标像素进行邻域优化，以获取各个目标像素的最优深度值；

步骤S500，对各个目标像素的最优深度值进行随机优化，以获取各个目标像素的最终深度值；

步骤S600，将参考图像的各个目标像素的参考窗口的尺度缩小，执行步骤S300至步骤S500，以对各个目标像素的最终深度值进行窗口优化。

可选地，将纹理系数与第二阈值进行比较之后，还包括：

当参考像素在参考窗口下的纹理系数小于第二阈值时，将当前窗口设置为原有窗口的两倍，重复步骤S200和步骤S300，直到纹理系数不小于第二阈值，执行后续步骤。

可选地，以参考图像的目标像素为中心建立参考窗口，计算参考图像的各个目标像素在参考窗口下的纹理系数，包括：

对于参考图像中的各个目标像素，以目标像素/>为中心建立一个N×N的参考窗口/>，计算参考窗口/>的纹理系数G：

其中，为领域像素，/>表示邻域像素的强度值，/>表示目标像素的强度值，/>为参考窗口/>内参与计算的目标像素数量。

可选地，计算参考图像中的目标像素在匹配图像中的对应像素，包括：

为参考图像中的每个目标像素生成一个随机的初始深度值和法向量/>；根据参考图像中的每个目标像素的深度值/>、法向量/>以及参考图像和匹配图像之间的内参数/>、旋转矩阵/>和平移矩阵t；/>为法向量/>的转置向量；

采用如下公式计算参考图像中的目标像素在匹配图像中的对应像素：

。

可选地，采用相关性匹配算法计算第一匹配窗口和第二匹配窗口之间的第一匹配代价。

可选地，根据第一匹配代价对参考图像的各个目标像素进行邻域优化，包括：

计算参考图像中的每个目标像素和其它图像之间的匹配代价，然后对于每个目标像素/>，在其邻域内选择匹配代价最小的邻域像素/>；根据邻域像素/>的深度值/>和法向量/>重新计算目标像素/>在匹配图像中的对应像素/>，然后计算第二匹配代价/>，如果满足，则将/>和/>赋值给目标像素/>的深度值/>和法向量/>。

可选地，对各个目标像素的最优深度值进行随机优化，包括：

对参考图像的每个目标像素进行随机优化，为参考图像中的每个目标像素的深度值和法向量添加一个高斯噪声，得到深度值和法向量/>，重新计算目标像素/>在匹配图像中的对应像素/>，然后计算第三匹配代价/>，如果满足/>，则将/>和赋值给目标像素/>的深度值/>和法向量/>。

可选地，将参考图像的各个目标像素的参考窗口的尺度缩小，再执行步骤S300至步骤S500，以对各个目标像素的最终深度值进行窗口优化，包括：

将参考图像的各个目标像素的参考窗口的尺度缩小为原来的二分之一，再执行步骤S300至步骤S500，重复上述过程两次，获取经过多尺度窗口优化的各个目标像素的深度值。

可选地，第二阈值为20。

根据本发明的第二方面，提供了一种基于自适应多尺度窗口的多视图深度估计方法的应用，包括：

根据窗口优化后的各个目标像素的最终深度值获取参考图像的深度图，将图像集合中每张图像都设为参考图像计算对应的深度图，以获取图像集合中各个图像的深度图；

将图像集合中各个图像的深度图的各个像素投影到公共的世界坐标系下获取三维点云模型。

本发明的一个技术效果在于：

在本申请实施例中，该基于自适应多尺度窗口的多视图深度估计方法及应用能够解决无纹理区域深度估计问题。由于参考窗口越大，则参考窗口内的纹理信息越丰富，因此，本发明先在大尺度的参考窗口上计算可靠的深度值；然后，逐步缩小窗口细化深度值估计的结果。通过调整采用窗口的大小，采用多个尺度的窗口优化深度估计结果，实现有效深度估计，并减少算法的运行时间。

附图说明

图1为本发明一实施例的一种基于自适应多尺度窗口的多视图深度估计方法的流程示意图；

图2为本发明一实施例的一种基于自适应多尺度窗口的多视图深度估计方法的自适应多尺度窗口的匹配过程示意图；

图3为本发明一实施例的一种基于自适应多尺度窗口的多视图深度估计方法的一种具体实施方式的流程示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

下面将详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

根据本发明的第一方面，参见图1，提供了一种基于自适应多尺度窗口的多视图深度估计方法，包括如下步骤：

步骤S100，在图像集合中确定参考图像和匹配图像；其中，通过计算参考图像与图像集合中其他图像共视的特征点数量，选取特征点数量大于第一阈值的图像作为匹配图像。

例如，为参考图像中的每个目标像素生成一个随机的初始深度值和法向量，以对参考图像进行随机初始化。

步骤S200，以参考图像的目标像素为中心建立参考窗口，计算参考图像的各个目标像素在参考窗口下的纹理系数，并将纹理系数与第二阈值进行比较。

通过计算参考图像的各个目标像素在参考窗口下的纹理系数，并将纹理系数与第二阈值进行比较，以通过纹理系数计算最佳参考窗口的大小。

步骤S300，当目标像素在参考窗口下的纹理系数大于等于第二阈值时，计算参考图像中的目标像素在匹配图像中的对应像素，并以参考图像中的目标像素为中心建立第一匹配窗口，以匹配图像的对应像素为中心建立第二匹配窗口，计算第一匹配窗口和第二匹配窗口之间的第一匹配代价。

步骤S400，根据第一匹配代价对参考图像的各个目标像素进行邻域优化，以获取各个目标像素的最优深度值。

步骤S500，对各个目标像素的最优深度值进行随机优化，以获取各个目标像素的最终深度值。

需要说明的是，由于大尺度的参考窗口在深度的初值误差很大的条件下也能估计出较高精度的深度值，而小尺度的参考窗口需要保证深度的初值在真值附近，才能可靠地估计深度，且深度估计的精度要高于大尺度窗口。因此，先在最大尺度窗口获取参考图像每个像素的粗略深度，然后将参考图像的各个目标像素的参考窗口的尺度缩小，在上一尺度窗口得到的最终深度值的基础上，再执行步骤S300至步骤S500，得到经过多尺度窗口优化的参考图像的每个像素深度值。

可选地，参见图2，将纹理系数与第二阈值进行比较之后，还包括：

在上述实施方式中，当参考像素在参考窗口下的纹理系数小于第二阈值时，采用扩大原有窗口的方式重新计算纹理系数，有助于准确获取最佳参考窗口的纹理系数，减少了运算时间。

。

在上述实施方式中，能够准确地计算参考图像中的目标像素在匹配图像中的对应像素，计算方式比较简单，计算结果比较准确。

可选地，采用相关性匹配算法（Normalization Cross-Correlation， NCC）计算第一匹配窗口和第二匹配窗口之间的第一匹配代价。这有助于准确地计算第一匹配窗口和第二匹配窗口之间的第一匹配代价。

在上述实施方式中，根据第一匹配代价对参考图像的各个目标像素进行邻域优化，以将参考图像的目标像素在邻域内进行优化，有助于获取参考图像的目标像素较优的深度值。

在上述实施方式中，通过赋值将参考图像的目标像素进行随机优化，有助于对各个目标像素的最优深度值进行进一步优化。

在上述实施方式中，通过对各个目标像素的最终深度值进行窗口优化，有助于保证经过多尺度窗口优化的各个目标像素的深度值的准确性。

可选地，第二阈值为20。

在上述实施方式中，第二阈值设置较为合理，有助于通过将纹理系数与第二阈值进行比较，快速获取最佳参考窗口的大小。

因此，在无纹理环境下，基于自适应多尺度窗口的多视图深度估计方法更准确。同时，其相较于其它多尺度方法，运行效率更高。

参考图3，在一个具体的实施方式中，首先，对为参考图像中的每个目标像素生成一个随机的初始深度值和法向量，以对参考图像进行随机初始化；然后，通过纹理系数计算最佳参考窗口的大小；再然后，计算参考图像和匹配图像的匹配代价；通过邻域优化和随机优化以对进行传播和优化，在进行窗口优化的过程中，判断是否达到窗口缩小次数，如果是，则获取参考图像的像素点的深度值，进而获得参考图像的深度图；如果否，则将参考窗口缩小为原先窗口的二分之一，重新计算参考图像和匹配图像的匹配代价。最后，根据参考图像的深度图以及各个图像的深度图获得三维点云模型。

将图像集合中各个图像的深度图的各个像素投影到公共的世界坐标系下获取三维点云模型，即待重建场景的三维点云模型。

在上述实施方式中，有助于准确、快速地获取场景的三维点云模型，并有效地减少了算法的运行时间。

一个具体的实施方式中，将图像集合中各个图像的深度图的各个像素投影到公共的世界坐标系下获取三维点云模型，包括：

通过图像之间的坐标系变换矩阵，将图像集合中各个图像的深度图的各个像素投影到其它深度图的对应像素处，如果当前像素的深度值和对应像素的深度值/>相对差异小于0.01，则认为当前像素的深度值/>可信，将其投影到公共的世界坐标系下，对所有深度图的每个像素进行同样的处理，最后得到公共的世界坐标系下的三维点云模型。

在本申请实施例中，基于自适应多尺度窗口的多视图深度估计方法及应用能够对场景中多个视图进行综合分析，并充分利用窗口的多尺度信息，实现对场景深度的高效、准确的估计。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于自适应多尺度窗口的多视图深度估计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，将纹理系数与第二阈值进行比较之后，还包括：

3.根据权利要求2所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，以参考图像的目标像素为中心建立参考窗口，计算参考图像的各个目标像素在参考窗口下的纹理系数，包括：

对于参考图像中的各个目标像素，以目标像素/>为中心建立一个N×N的参考窗口，计算参考窗口/>的纹理系数G：

4.根据权利要求3所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，计算参考图像中的目标像素在匹配图像中的对应像素，包括：

为参考图像中的每个目标像素生成一个随机的初始深度值和法向量/>；根据参考图像中的每个目标像素的深度值/>、法向量/>以及参考图像和匹配图像之间的内参数/>、旋转矩阵/>和平移矩阵t；/>为法向量/>的转置向量；采用如下公式计算参考图像中的目标像素在匹配图像中的对应像素/>：

。

5.根据权利要求4所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，采用相关性匹配算法计算第一匹配窗口和第二匹配窗口之间的第一匹配代价。

6.根据权利要求5所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，根据第一匹配代价对参考图像的各个目标像素进行邻域优化，包括：

7.根据权利要求6所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，对各个目标像素的最优深度值进行随机优化，包括：

对参考图像的每个目标像素进行随机优化，为参考图像中的每个目标像素的深度值和法向量添加一个高斯噪声，得到深度值和法向量/>，重新计算目标像素/>在匹配图像中的对应像素/>，然后计算第三匹配代价/>，如果满足/>，则将/>和/>赋值给目标像素/>的深度值/>和法向量/>。

8.根据权利要求7所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，将参考图像的各个目标像素的参考窗口的尺度缩小，再执行步骤S300至步骤S500，以对各个目标像素的最终深度值进行窗口优化，包括：

9.根据权利要求8所述的基于自适应多尺度窗口的多视图深度估计方法，其特征在于，第二阈值为20。

10.一种基于自适应多尺度窗口的多视图深度估计方法的应用，其特征在于，包括：