CN110197505B

CN110197505B - 基于深度网络及语义信息的遥感图像双目立体匹配方法

Info

Publication number: CN110197505B
Application number: CN201910460715.8A
Authority: CN
Inventors: 焦李成; 李晓童; 张若浛; 陈洁; 李玲玲; 冯志玺; 唐旭; 马文萍; 张丹
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2022-12-02
Anticipated expiration: 2039-05-30
Also published as: CN110197505A

Abstract

本发明公开了一种基于深度网络及语义信息的遥感图像双目立体匹配方法，主要解决现有遥感图像的立体匹配精度低的问题。其实现过程是：1)收集US3D数据集遥感图像；2)用训练语义分割网络模型获取遥感图像的语义先验；3)用深度网络模型对遥感图像进行立体匹配；4)用传统SGBM算法对遥感图像进行立体匹配；5)用语义先验对3)和4)这两次的匹配结果进行融合，得到融合后的视差图像；6)对融合后的视差图形进行去噪；7)用语义先验对6)去噪后的图形进行修正，得到双目立体匹配结果。本发明相比已有技术，提高了遥感图像双目立体匹配的精度，可用于遥感图像的三维空间立体重建。

Description

基于深度网络及语义信息的遥感图像双目立体匹配方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种双目立体匹配方法，可用于遥感图像的三维空间立体重建。

背景技术

随着遥感图像智能解译技术的发展，遥感图像的立体匹配技术已经在遥感图像处理领域引起重视。

双目立体匹配是立体视觉研究中的关键部分，其基本原理是使用两个固定的平行摄像机获取同一场景不同视角下的两张图片，称为左视图与右视图，利用立体匹配算法求出对应匹配点的视差，进而得到深度信息，实现三维空间立体重建。

传统的双目立体匹配的方法有基于局部的立体匹配、基于全局的立体匹配、基于半全局的立体匹配、基于区域的立体匹配、基于特征的立体匹配、基于图割的立体匹配等。传统立体匹配算法通常包含匹配代价计算、匹配代价聚合、视差获取、视差细化等四个步骤。但是对于遥感图像目标尺度小和视角多变的图像特征，单独的传统立体匹配方法很难能估计出准确的视差。

随着人工智能领域深度学习的发展，另外一类利用深度学习中的卷积神经网络结构进行立体匹配的方法也有很大进展。基于数据驱动的深度卷积网络模型在自然图像处理领域明显优于大多数传统立体匹配算法。针对语义分割任务，多种深度网络结构如FPN、U-Net、PSPNet、LinkNet等结构都能达到很高的准确率。针对立体匹配任务，最近提出的小结构实时网络DenseMapNet、迭代残差预测网络iResNet、端到端几何与背景回归网络GCNet、金字塔立体匹配网络PSMNet等都在双目立体匹配任务中表现出非凡的性能。

虽然现有的深度网络方法可以在自然图像上达到较高精度的立体匹配，但是由于遥感图像具有图像尺寸大、目标尺度小、视角多变、易受光照变化和季节变化等特性，目前已有方法对遥感图像不能达到满意的匹配效果。

发明内容

本发明的目的是针对已有技术的不足，提出基于深度网络及语义信息的遥感图像双目立体匹配方法，以提高遥感图像在目标尺度小，视角、光照多变复杂场景下的立体匹配精确度。

本发明的技术方案是：先利用分割网络LinkNet得到遥感图像的语义先验，再结合传统SGBM方法与深度网络PSMNet对遥感图像进行双目立体匹配，最后利用语义先验对匹配结果进行评估修正，完成对遥感图像的准确双目立体匹配，其实现步骤包括如下：

(1)收集遥感数据集中带有语义类别标签的训练集图像，送入深度语义分割模型LinkNet中进行训练：

1a)取N张1024px×1024px的遥感图像和语义标签图像，将每张图像分别沿x轴、y轴方向平均裁剪成2段，得到4N张分辨率为512px×512px的遥感图像和标签，N>4000；

1b)取4N张遥感图像的20％作为训练集，80％作为验证集，并将训练集和验证集送入语义分割网络LinkNet中，采用交叉验证的方式训练60余迭代，得到语义分割模型Mf；

(2)将待测遥感图像按1a)所述方式裁剪成512px×512px大小的图块，用语义分割模型Mf把待测图块分割成地、建筑、植被、高架桥和水五种类别，再把分割结果拼接成原始尺寸1024px×1024px，得到语义先验类别P；

(3)取2N张遥感图像，将其中80％作为训练集，20％作为验证集，送入深度立体匹配网络PSMNet中，采用交叉验证的方式训练90余代，得到立体匹配模型Mp，用Mp对待测图像进行立体匹配，得到第一次的立体匹配视差结果D1；

(4)对待测图像用边缘对称方式在水平方向进行补全，然后用半全局匹配算法SGBM对全图进行立体匹配，得到第二次的立体匹配视差结果D2；

(5)利用语义先验类别P融合第一次和第二次的立体匹配视差结果D1和D2，得到融合后的结果D3：

5a)对第一次的立体匹配视差结果D1和第二次的立体匹配视差结果D2，计算任一像素点k处的视差D1_k与D2_k之差的绝对值ΔD_k＝|D1_k-D2_k|，若ΔD_k小于3个像素，则k处像素点的融合视差D3_k＝D1_k，否则，执行5b)；

5b)判断像素点k处的语义先验类别P_k：若P_k的类别是建筑、高架桥或地面，则k处像素点的融合视差D3_k＝D2_k，若P_k的对应类别为植被，则k处像素点的融合视差D3_k＝D1_k；

5c)重复5a)-5b)逐像素融合两次的立体匹配结果D1和D2，得到融合视差结果D3；

(6)运用中值滤波对融合视差结果D3去噪，得到去噪后的立体匹配视差结果D4；

(7)利用语义先验类别P修正去噪后的立体匹配视差结果D4，得到最终的立体匹配视差结果D5：

7a)将去噪后的立体匹配视差结果D4中任一像素点j处的语义先验记为P_j，视差记为D4_j，收集该像素点的128×128邻域中语义先验表现为P_j的像素集合，记为Ω_j；

7b)统计像素集合Ω_j中分布最多的前三个视差值，从多到少依次记为D4_j1，D4_j2，D4_j3；

7c)计算D4_j与D4_j1之差的绝对值ΔD4_j＝|D4_j-D4_j1|，若ΔD4_j小于3个像素，则像素点j处的视差值保持原来的值ΔD4_j不变，否则，执行7d)；

7d)将原来的视差值ΔD4_j替换为D4_j'，D4_j'＝a1×D4_j1+a2×D4_j2+a3×D4_j3，其中a1，a2，a3为超参数，且同时满足a1+a2+a3＝1，a1×a2×a3≥0；

7e)重复7a)-7d)逐像素修正去噪后的立体匹配结果D4，得到最终的立体匹配视差结果D5。

本发明与现有的技术相比具有以下优点：

第一，本发明利用人工智能领域深度学习技术，把用于自然图像的语义分割网络和双目立体匹配网络用于遥感图像上，并针对遥感图像尺寸大、目标尺度小、视角多变、易受光照变化和季节变化的特性，采用有效的预处理手段，实现了在遥感图像上高精度的双目立体匹配。

第二，本发明将传统的SGBM算法和深度学习模型PSMNet相结合，既利用了传统算法对轮廓清晰、几何形状简单的建筑物、高架桥等目标匹配准确的特性，又利用了深度学习模型对轮廓模糊、细节丰富的植被等目标匹配准确的特性，提高了遥感图像的立体匹配精度。

第三，本发明利用深度语义先验信息，把传统方法的立体匹配视差结果和深度方法的立体匹配视差结果有机地融合起来，再进行评估修正，实现了基于语义信息的遥感图像双目立体匹配。

附图说明

图1为本发明的实现总流程图；

图2为本发明中数据集中的遥感图像示例；

图3为本发明中使用的语义分割网络LinkNet结构图；

图4为本发明中使用的立体匹配网络PSMNet结构图；

图5为本发明中的语义分割结果图；

图6为用本发明进行视差融合后的立体匹配结果图；

图7为本发明利用语义信息融合视差前后的3D效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图对本发明做进一步的描述。

参照图1，对本发明的实现的步骤如下:

步骤1，收集遥感数据集。

收集公共遥感数据集US3D中的遥感图像，包含4342对卫星遥感图像及对应的4342张语义分割与立体匹配视差标签，每对图像由同一场景的左视图和右视图组成，且左右视图已经极化矫正，其中语义标签将图像分割成地面、建筑、植被、高架桥和水等五类，视差标签值是区间[-128，128]内的整数。每幅遥感图像的分辨率为1024px×1024px，格式为tif三通道彩色图像；语义标签和视差标签文件分辨率同样是1024px×1024px，格式为tif单通道灰度图像，遥感数据集示例图像对如图2所示。

步骤2，训练语义分割深度网络模型LinkNet。

(2.1)数据集预处理：

将遥感图像数据集中的4342张1024px×1024px的左视图和4342张对应的语义标签图像统一进行裁剪，每张图像分别沿x轴、y轴方向平均裁剪成2段，得到分辨率大小均为512px×512px的三通道的遥感图像和对应的单通道标签图像，共4342×4＝17368张；

(2.2)交叉验证法训练分割模型：

将预处理后的17368张遥感图像送入随机初始化的LinkNet深度神经网络中进行训练，每代训练中随机选取20％作为训练集、80％作为测试集，每个批次包含24个图像块，共训练60余代，得到语义分割模型Mf；

参照图3，所述深度神经网络模型LinkNet，是一种以编码器-解码器结构为核心的高效语义分割神经网络，网络头部是一个卷积层和一个池化层，网络主干由四组编码器-解码器构成，每个编码器包含两个两层的残差卷积模块，每个解码器包含两个卷积层和一个全连接层，每个编码器与解码器互相连通，编码器的输入连接至对应解码器的输出，网络尾部包含两个全连接层和一个卷积层。

步骤3，预测待测图像语义信息。

用训练得到的语义分割模型在待测图像上进行前向传播，把待测图块分割成地、建筑、植被、高架桥和水五种类别，预测得到大小为512px×512px的分割结果图；

再按照裁剪时的方式将这些分割结果拼接成原始尺寸1024px×1024px，得到语义先验类别P。

步骤4，用深度网络模型PSMNet进行立体匹配。

将遥感图像数据集中的4342对遥感图像，送入深度立体匹配网络PSMNet中进行训练，在输入过程中将数据集的80％作为训练集，20％作为验证集，采用交叉验证的方式进行训练，经90余代训练得到模型Mp，用训练好的模型Mp对测试集中的n张遥感图像进行立体匹配，得到第一次的立体匹配视差结果D1。

参照图4，所述深度立体匹配网络模型PSMNet，是一种具有金字塔结构的双分支3D卷积神经网络，整个网络包含四个模块，第一个模块包括四个卷积层，第二个模块是由四级不同步长的池化层构成的空间金字塔，前两个模块都具有并行的两个分支，且两个分支之间权值共享，第三个模块聚合两个分支的交叉损失，第四个模块是三组不同尺度的3D卷积-反卷积层。

步骤5，用半全局匹配算法SGBM进行立体匹配。

由于SGBM半全局匹配算法不能对全图进行完整的匹配估计，匹配时会在图片左右边缘出现128像素的空白，因此首先用边缘对称的方式对遥感图像测试集图片左右两边各补充128像素，再进行SGBM立体匹配，预测得到待测图像的第二次的立体匹配视差结果D2。本实例中，设SGBM算法的参数是：窗口大小为7×7，最大视差为128，最小视差为-128，散斑窗尺寸为50，唯一性比率为15。

步骤6，用语义先验融合两次匹配的视差结果。

(6.1)对第一次的立体匹配视差结果D1和第二次的立体匹配视差结果D2，计算任一像素点k处的视差D1_k与D2_k之差的绝对值ΔD_k＝|D1_k-D2_k|，并对ΔD_k的值进行判断：

若ΔD_k小于3个像素，则k处像素点的融合视差D3_k＝D1_k，否则，执行(6.2)；

(6.2)判断像素点k处的语义先验类别P_k：

若P_k的类别是建筑、高架桥或地面，则k处像素点的融合视差D3_k＝D2_k，

若P_k的对应类别为植被，则k处像素点的融合视差D3_k＝D1_k；

(6.3)重复(6.1)至(6.2)，逐像素融合两次的立体匹配结果D1和D2，得到融合视差结果D3。

步骤7，对融合后的视差结果去噪。

用8×8大小的十字形二维滑动模板在D3上滑动，滑动到任一像素点i处时，将板内像素按照视差值大小进行排序，生成单调上升的二维数据序列，再用该二维数据序列的中值代替像素点i处的视差值，从而消除孤立的噪声点，得到去噪后的立体匹配视差结果D4。

步骤8，用语义先验修正去噪后的立体匹配视差结果D4。

(8.1)将去噪后的立体匹配视差结果D4中任一像素点j处的语义先验记为P_j，视差记为D4_j，收集该像素点的128×128邻域中语义先验表现为P_j的像素集合，记为Ω_j；

(8.2)统计像素集合Ω_j中分布最多的前三个视差值，先记录像素集合Ω_j中出现的m个不重复的视差值{d₁，d₂，…d_t，…d_m}，统计每个视差值对应的个数记作序列{n₁，n₂，…n_t，…n_m}；再将序列按照从大到小的降序排列，取前三个对应下标的视差值依次记为D4_j1，D4_j2，D4_j3；

(8.3)计算D4_j与D4_j1之差的绝对值ΔD4_j＝|D4_j-D4_j1|，并对ΔD4_j的值进行判断：

若ΔD4_j小于3个像素，则像素点j处的视差值保持原来的值D4_j不变，否则，执行(8.4)；

(8.4)将原来的视差值D4_j替换为D4_j'，D4_j'＝a1×D4_j1+a2×D4_j2+a3×D4_j3，其中a1，a2，a3为三个数值不同的超参数，且同时满足a1+a2+a3＝1，a1×a2×a3≥0，本实例取a1＝0.7，a2＝0.2，a3＝0.1；

(8.5)重复(8.1)至(8.4)，逐像素修正去噪后的立体匹配结果D4，得到最终的立体匹配视差结果D5。

本发明的成果可以通过下述实验加以说明：

(1)实验条件：

本发明在16GB内存、图形计算器为GTX 1080ti的Ubuntu-16.14系统上运行。采用软件平台为Pycharm和Tensorflow。

(2)实验内容与结果：

实验1，用深度语义分割模型LinkNet对图2所示的遥感图像对进行分割，分割结果如图5所示。

实验2，根据图5所示的分割结果，用本发明方法对图2所示的遥感图像对进行双目立体匹配，匹配结果如图6所示。

实验3，用本发明的语义先验融合视差方法和没有语义先验融合视差的方法对图2所示的遥感图像对进行立体匹配，匹配结果如图7所示，其中图7(a)为没有语义先验融合视差的方法的立体匹配结果，图7(b)为本发明的语义先验融合视差方法的匹配结果。从图7可以看出利用本发明语义先验融合后的立体匹配视差结果图，噪点明显减少，高架桥和建筑的轮廓变清晰，光线投下的阴影处匹配错误率有所下降，说明本发明的基于深度网络及语义信息的遥感图像双目立体匹配方法有良好的效果。

Claims

1.一种基于深度网络及语义信息的遥感图像双目匹配方法，其特征在于：包括以下步骤：

(1)收集遥感数据集中带有语义类别标签的训练集图像，送入到深度语义分割模型LinkNet中进行训练：

1b)取4N张遥感图像的20％作为训练集，80％作为验证集，并将训练集和验证集送入语义分割网络LinkNet中，采用交叉验证的方式训练60余次，得到语义分割模型Mf；

(3)取2N张遥感图像，将其中80％作为训练集，20％作为验证集，送入深度立体匹配网络PSMNet中，采用交叉验证的方式训练90余次，得到立体匹配模型Mp，用Mp对待测图像进行立体匹配，得到第一次的立体匹配视差结果D1；

7d)将原来的视差值D4_j替换为D4_j'，D4_j'＝a1×D4_j1+a2×D4_j2+a3×D4_j3，其中a1，a2，a3为超参数，且同时满足a1+a2+a3＝1，a1×a2×a3≥0；

2.根据权利要求1所述的方法，其中(1)中的深度语义分割模型LinkNet，是一种以编码器-解码器结构为核心的高效语义分割神经网络，网络头部是一个卷积层和一个池化层，网络主干由四组编码器-解码器构成，每个编码器包含两个两层的残差卷积模块，每个解码器包含两个卷积层和一个全连接层，每个编码器与解码器互相连通，编码器的输入连接至对应解码器的输出，网络尾部包含两个全连接层和一个卷积层。

3.根据权利要求1所述的方法，其中(3)中的深度立体匹配模型PSMNet，是一种具有金字塔结构的双分支3D卷积神经网络，整个网络包含四个模块，第一个模块包括四个卷积层，第二个模块是由四级不同步长的池化层构成的空间金字塔，前两个模块都具有并行的两个分支，且两个分支之间权值共享，第三个模块聚合两个分支的交叉损失，第四个模块是三组不同尺度的3D卷积-反卷积层。

4.根据权利要求1所述的方法，其中(6)运用中值滤波对融合视差结果D3去噪，是用8×8大小的十字形二维滑动模板在D3上滑动，滑动到任一像素点i处时，将板内像素按照视差值大小进行排序，生成单调上升的二维数据序列，再用该二维数据序列的中值代替像素点i处的视差值，从而消除孤立的噪声点。

5.根据权利要求1所述的方法，其中7b)统计像素集合Ω_j中的视差，是先记录像素集合Ω_j中出现的m个不重复的视差值{d₁，d₂，…d_t，…d_m}，统计每个视差值对应的个数记作序列{n₁，n₂，…n_t，…n_m}，再将序列按照从大到小的降序排列，取前三个对应下标的视差值记为D4_j1，D4_j2，D4_j3。