CN110110682A

CN110110682A - 遥感图像的语义立体重构方法

Info

Publication number: CN110110682A
Application number: CN201910398433.XA
Authority: CN
Inventors: 焦李成; 冯志玺; 马睿妍; 高艳洁; 杨育婷; 张丹; 李玲玲; 郭雨薇
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2019-08-09
Anticipated expiration: 2039-05-14
Also published as: CN110110682B

Abstract

本发明公开了一种遥感图像的语义立体重构方法，主要解决现有技术中由于忽略语义分割与视差估计的相关信息导致的语义立体重构精度低的问题。其实现方案是：首先对实验数据进行预处理；使用其中训练数据训练语义分割网络与视差估计网络；将训练好的网络对测试图像进行测试，将不同频段信息的测试结果相融合，得到融合后的语义分割结果与视差结果；再使其相互辅助，将对方的错误部分修正；再由视差信息计算得到高度信息，将语义分割结果与高度信息结合得到图像的语义立体重构结果。本发明提升了小样本的占比，平衡了数据对网络的影响，并通过将语义信息与视差结果相互融合，提高了遥感图像的语义立体重构的准确度，可用于城市场景三维重构。

Description

遥感图像的语义立体重构方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种遥感图像的语义立体重构方法，可用于城市场景三维重构。

背景技术

由于对物体三维结构的感知有助于提高对真实场景的理解能力，立体重构在计算机视觉领域受到越来越多的关注。视差估计是立体视觉中的基本问题，视差估计用来获得图像深度信息。图像特征提取的有效性将直接影响视差预测结果的准确性，因此深度学习的方法在此方面的研究越来越多。遥感数据的应用越来越广泛，然而，由于遥感图像对季节变化具有显著的外观差异，所以成对图像的立体匹配仍是一个具有挑战性的问题。同时，语义分割对遥感图像进行像素级别的分类，将同一语义信息的物体分为同一颜色相同的区域，可以提取遥感图像数据的信息特征，且同一语义信息的像素点视差范围也接近，因此，将这两方面的信息融合成为遥感图像立体重构的新研究点。

哈尔滨工业大学在其申请的专利“一种双源遥感数据语义分割方法”(申请号：201810463076.6，公布号：CN108681706A)中提出将遥感数据与LiDAR DSM数据进行融合，利用LiDAR DSM数据丰富的高度信息，通过将卷积神经网络提取高层次特征，对分割精度产生很大的提升。但是该方法所述的双源遥感图像数据，必须通过以下两个操作来保证：一是要求有遥感图像对应的LiDAR系统获取的点云数据得到数字表面模型；二是要利用预训练模型分别训练两个单源数据网络，提取图像信息特征。因此，一旦上述任意条件无法满足，会影响遥感数据语义分割的训练难度和精准度。

电子科技大学在其申请的专利“一种基于三维卷积的双目视差估计方法”(申请号：201811011545.7，公布号：CN109308719A)中提出了一种全局视差估计方法和系统，其主要特征在于：在进行匹配空间计算时，根据预设规则在图像上选取采样点，再根据约束条件进行第一匹配空间和第二匹配空间的计算。其中，采用的约束条件包括线性约束条件和基于采样点的空间线束条件，所述线性约束条件为当前像素点与搜索点之间在颜色上的欧氏距离的约束，所述空间约束条件为搜索点与采样点之间在颜色上的欧氏距离的约束。同时采用了上述两个约束条件，使得计算出的匹配空间更加接近图像中物体的边缘，保证最终视差计算的准确度。但该方法对于图像不同目标的颜色差异要求大，因此针对于遥感数据的不同类别，如树和草地、高架桥和公路等，该方法并不适用。

发明内容

本发明的目的在于针对上述已有技术的不足，提供一种针对于遥感图像的语义立体重构方法，以简化语义分割与视差估计的步骤，提高图像语义分割的速度与精度，提升视差估计的精度。

本发明的技术方案是：利用卷积神经网络对遥感数据进行语义分割以及视差估计，同时利用语义分割结果与视差估计结果相互辅助，提高两者的速度与精度，其实现步骤包括如下：

(1)获取遥感图像数据集US3D，该遥感图像数据集包含遥感图像及其语义分割标签，遥感图像分辨率大小为1024×1024，图像类型包含彩色RGB图像以及八通道多光谱图像MSI，每种类型遥感图像都包含极线校正过的左右图像对，语义分割标签包含：建筑、地面、高植被、高架路和水这五类；

(2)对遥感图像依次进行去除标签噪声、图像筛选、数据增强、MSI通道拆分重组的数据预处理；

(3)将数据预处理后的遥感图像按照0.95：0.05的比例划分为训练图像与测试图像。

(4)结合训练图像多通道的不同特征对语义分割网络进行训练，得到训练好的语义分割网络；

(5)利用训练好的语义分割网络对测试图像进行语义分割，得到语义分割结果；

(6)利用训练图像中的RGB图像对视差估计网络进行训练，得到训练好的视差估计网络；

(7)利用训练好的视差估计网络对测试图像进行视差估计，得到视差估计结果；

(8)利用视差估计结果对错误的语义分割结果进行修正，得到修正后的语义分割结果；

(9)对视差估计结果先进行左右一致性检测，得到错误匹配点与正确匹配点，并从修正后的语义分割结果中挑选出与错误匹配点语义分割结果为同类的正确匹配点，将这些正确匹配点的视差值取平均值，再用该平均值修正错误匹配点的视差值，得到修正后的视差估计结果。

本发明与现有技术相比具有如下优点：

第一，本发明利用了多种数据预处理方法，平衡了遥感数据类别、提升了小分割目标的占比、增强了特殊场景的图像数量，进一步提高训练网络的语义分割精度。

第二，本发明利用了多种语义分割训练策略，充分利用不同类别的差异特性，组合不同尺度、不同频段的图像信息，将多种语义分割结果融合，提高了语义分割精度。

第三，本发明充分考虑到视差估计因图像角度造成的错误匹配问题，利用多角度输入图像对进行视差估计，有利于解决输入图像的错误匹配问题，提高视差估计的准确度。

第四，本发明利用视差信息提升语义分割精度，根据同一区域的视差估计结果与语义分割结果具有对应关系，将语义分割的错误分割部分进行校正，提高了图像语义分割的准确性。

第五，本发明利用语义信息提升视差精度，将语义信息结合到视差估计中，减小了误匹配点的数量，提升视差估计准确度，进一步提升了立体重构精度。

附图说明

图1为本发明的实现流程图；

图2为本发明中语义信息修正视差结果子流程图；

图3为本发明语义分割与视差估计结果可视化图；

具体实施方式

本实例的语义分割网络框架为Tensorflow-gpu1.4.0，视差估计网络框架为Pythorch0.4.1。

以下结合附图对本发明进行详细介绍：

参照图1，本发明的实现步骤如下：

步骤1：获取遥感图像数据集US3D。

该遥感图像数据集包含遥感图像及其语义分割标签，遥感图像分辨率大小为1024×1024，图像类型包含彩色RGB图像，如图3中的(a)所示，以及八通道多光谱图像MSI，每种类型遥感图像都包含极线校正过的左右图像对，语义分割标签包含：建筑、地面、高植被、高架路和水这五类。

步骤2：对遥感图像依次数据预处理。

(2.1)对对遥感图像进行去除标签噪声处理，即去除在遥感图像语义分割标签中明显错误标注的图像，留下语义分割标签正确的图像，避免错误标注对语义分割网络产生错误训练；

(2.2)对去除标签噪声后的遥感图像进行图像筛选，即通过设置阈值的方式进行数据筛选，筛选出类别多样性好的图像以及场景特殊但样本数量少的图像：

设置类别阈值为2，留下图像中类别>＝2的图像；

设置场景阈值为10，对场景图像数<＝10的图像进行保留，对场景图像数>＝100的图像进行随机删除，直到该场景图像数至剩余100张；

(2.3)对数据筛选后的图像进行数据增强，即将每张图像以概率p>＝0.5先进行随机角度90°—270°的旋转，再进行上下、左右翻转，以增强网络对场景角度、形态变化的鲁棒性；

(2.4)将增强后的图像进行MSI图像多频段拆分重组，将MSI图像8个通道中第2、第4、第6这三个通道组合在一起，制作高植被类二分类数据集T1，将MSI图像8个通道中第4，第6，第7三个通道组合在一起，制作水类二分类数据集W1。

步骤3：将数据预处理后的遥感图像按照0.95：0.05的比例划分为训练图像与测试图像。

步骤4：结合训练图像多通道的不同特征对语义分割网络进行训练，得到训练好的语义分割网络。

(4.1)设置训练参数如下：

训练迭代次数为2000，学习率为10^-4，批处理参数为8，损失函数为其中，N为分类类别数，t_i为网络输出类别值，y_i为语义分割标签值；

(4.2)使用RGB图像训练五分类语义分割网络，得到训练好的语义分割网络F1；

(4.3)使用MSI图像训练五分类语义分割网络，得到训练好的语义分割网络F2；

(4.4)使用RGB图像对建筑、高植被、高架路、水每一类别分别训练二分类语义分割网络，对应得到训练好的语义分割网络F3、语义分割网络F4、语义分割网络F5、语义分割网络F6；

(4.5)使用高植被二分类数据集T1训练高植被类别的二分类网络，得到训练好的语义分割网络F7；

(4.6)使用水类二分类数据集W1训练水类别的二分类网络，得到训练好的语义分割网络F8。

上述(4.2)—(4.6)的训练方式为：将训练图像送入对应语义分割网络，迭代次数从1开始，每当将训练图像全部送入一次，迭代次数加1，再将训练图像送入语义分割网络，如此循环，不断使损失函数值逐渐减小，直至迭代次数达到2000，停止训练，得到训练好的语义分割网络。

步骤5：利用训练好的语义分割网络对测试图像进行语义分割，得到语义分割结果y1。

(5.1)分别利用步骤4训练好的语义分割网络F1,F2,F3,F4,F5,F6,F7,F8对测试图像进行语义分割，对应得到语义分割结果f1,f2,f3,f4,f5,f6,f7,f8，其中：

f1为RGB测试图像五分类语义分割结果，如图3中的(b)所示，

f2为MSI测试图像五分类语义分割结果，如图3中的(c)所示，

f3为RGB测试图像建筑类二分类语义分割结果，

f4为RGB测试图像高植被类二分类语义分割结果，

f5为RGB测试图像高架路类二分类语义分割结果，

f6为RGB测试图像水类二分类语义分割结果，

f7为MSI测试图像中第2，4，6三通道组合图像的高植被类二分类语义分割结果，f8

为MSI测试图像中第4，6，7三通道组合图像的水二分类语义分割结果；

(5.2)对上述语义分割结果f1-f8进行投票融合，得到融合后的语义分割结果y1，详细步骤为：

(5.2a)对语义分割结果f1,f2,f3中建筑类进行投票融合，得到融合后的建筑类语义分割结果；

(5.2b)对语义分割结果f1,f2,f4,f7中高植被类进行投票融合,得到融合后的高植被类语义分割结果；

(5.2c)对语义分割结果f1,f2,f5中高架桥类进行投票融合，得到融合后的高架桥类语义分割结果；

(5.2d)对语义分割结果f1,f2,f6,f8中水类进行投票融合,得到融合后的水类语义分割结果；

(5.2e)将上述融合后的建筑类，高植被类，高架桥类和水类语义分割结果组合生成得到融合后的语义分割结果y1，如图3中的(d)所示，并将y1中剩余未被分类的像素点置为地面类。

步骤6：利用训练图像中的RGB图像对视差估计网络进行训练，得到训练好的视差估计网络。

(6.1)设置训练参数如下：

训练迭代次数为2000，学习率为10^-4，批处理参数为8，损失函数为其中N为批处理样本数，d为视差标签，d’为视差网络输出值；

(6.2)将训练图像中的RGB图像送入视差估计网络，迭代次数从1开始，每当将训练图像全部送入一次，迭代次数加1，再将训练图像送入视差估计网络，如此循环，不断使损失函数值逐渐减小，直至迭代次数达到2000，停止训练，得到训练好的视差估计网络。

步骤7：利用训练好的视差估计网络对测试图像进行视差估计，得到视差估计结果；

(7.1)利用训练好的视差估计网络对原始图像对进行视差估计，得到第一视差结果s1，如图3中的(f)所示；

(7.2)对原始图像对进行上下翻转，利用训练好的视差估计网络对翻转后的图像对进行视差估计，将得到的视差结果再上下翻转，得到第二视差结果s2；

(7.3)对原始图像对进行左右翻转，利用训练好的视差估计网络对左右翻转后的图像对进行视差估计，将得到的视差结果再左右翻转后取相反数，得到第三视差结果s3；

(7.4)对上数三个视差结果s1、s2、s3通过取中位数的方式进行融合，得到第四视差结果s4，如图3中的(g)所示；

(7.5)对第四视差结果s4进行越界处理，得到第五视差结果s5，如图3中的(h)所示；

(7.5a)将左图中像素点的水平坐标p，加上视差结果s4中的视差值d，计算得到对应匹配点在右图中水平坐标：q＝p+d；

(7.5b)将q值小于0或q大于1024的像素点判定该像素点匹配越界，此时视差结果s4中该像素点的视差值修正为0-p或1024-p，得到第五视差结果s5。

步骤8：利用视差估计结果对错误的语义分割结果进行修正。

先计算桥类视差值的平均值a1，取图像中视差值为a1±1范围内的像素点；再将这些像素点在融合后的语义分割结果y1中为地面类的像素点类别修正为桥类，得到修正后的语义分割结果y2，如图3中的(e)所示。

步骤9：利用修正后的语义分割结果对视差估计结果进行修正。

参照图2，本步骤的具体实现如下：

(9.1)以原始图像对的左图为基准，送入训练好的视差网络进行视差计算，得到左视差图disp_left；

以原始图像对中的右图为基准，送入训练好的视差网络进行视差计算，得到右视差图disp_right；

对于原始图像对的左图中一点P，其水平坐标为c，加上该点在左视差图disp_left中的视差值d2，计算得到匹配点Q在右图中水平坐标为e，e＝c+d2，如图2中的(a)所述；

对于右图中点Q，其水平坐标为e，加上该点在右视差图disp_right中的视差值d3，计算得到匹配点N在左图中水平坐标为g，g＝e+d2＝c+d2+d3，如图2中的(a)所述；

设置正确匹配阈值t1<1.5，错误匹配阈值t2>2.5，并计算误差距离s＝|d2+d3|；

若s≤t1，则点P标记为正确匹配点；

若s≥t2，则点P标记为错误匹配点；

否则点P不做标记；

(9.2)选取左图中一个错误匹配点X，点X在修正后的语义分割结果y2中为M类，取点X周围半径r在100<r<200区域内语义分割结果为M类的正确匹配点，计算这些正确匹配点的视差平均值a2，用该平均值a2修正错误匹配点X的视差值，直至所有错误匹配点视差结果修正完毕，得到修正后的视差结果s6，如图2中的(b)、图3中的(i)所示。

步骤10：视差信息转化为高度信息。

(10.1)由于数据集中遥感图像左右图像对为已经校正后达到极线平行的图像，故可根据公式计算图像立体重构的深度值Z，其中f为焦距，b为左右相机间距离，d为P点视差值；

(10.2)根据数字表面模型将图像立体重构的深度值Z转换得到图像高度值。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明的内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种遥感图像的语义立体重构方法，是要获得语义分割结果与视差估计结果，其特征在于，实现步骤包括如下：

2.根据权利要求1所述的方法，其特征在于，(1)对遥感图像进行去除标签噪声处理，是去除在遥感图像语义分割标签中明显错误标注的图像，留下语义分割标签正确的图像，避免错误标注对语义分割网络产生错误训练。

3.根据权利要求1所述的方法，其特征在于，(1)中对去除标签噪声后的遥感图像进行图像筛选，是通过设置阈值的方式进行数据筛选，筛选出类别多样性好的图像以及场景特殊但样本数量少的图像，即设置类别阈值为2，留下图像中类别>＝2的图像；设置场景阈值为10，对场景图像数<＝10的图像进行保留，对场景图像数>＝100的图像进行随机删除，直到该场景图像数至剩余100张。

4.根据权利要求1所述的方法，其特征在于，(1)中对数据筛选后的图像依次进行数据增强以及MSI图像多频段拆分重组，其实现如下：

数据增强：是将每张图像以概率p>＝0.5先进行随机角度90°—270°的旋转，再进行上下、左右翻转，以增强网络对场景角度、形态变化的鲁棒性；

MSI图像多频段拆分重组：是将MSI图像8个通道中第2，第4，第6三个通道组合在一起，

制作高植被类二分类数据集T1，将MSI图像8个通道中第4，第6，第7三个通道组合在一起，制作水类二分类数据集W1。

5.根据权利要求1所述的方法，其特征在于，(4)中结合训练图像多通道的不同特征对语义分割网络进行训练，实现步骤如下：

(4a)使用RGB图像训练五分类语义分割网络，得到训练好的语义分割网络F1；

(4b)使用MSI图像训练五分类语义分割网络，得到训练好的语义分割网络F2；

(4c)使用RGB图像对建筑、高植被、高架路、水每一类别分别训练二分类语义分割网络，对应得到训练好的语义分割网络F3、语义分割网络F4、语义分割网络F5、语义分割网络F6；

(4d)使用高植被二分类数据集T1训练高植被类别的二分类网络，得到训练好的语义分割网络F7；

(4e)使用水类二分类数据集W1训练水类别的二分类网络，得到训练好的语义分割网络F8。

6.根据权利要求1或6所述的方法，其特征在于，(5)中利用训练好的语义分割网络对测试图像进行语义分割，实现步骤如下：

(5a)分别利用训练好的语义分割网络F1,F2,F3,F4,F5,F6,F7,F8对测试图像进行语义分割，对应得到语义分割结果f1,f2,f3,f4,f5,f6,f7,f8，其中：

f1为RGB测试图像五分类语义分割结果，

f2为MSI测试图像五分类语义分割结果，

f3为RGB测试图像建筑类二分类语义分割结果，

f4为RGB测试图像高植被类二分类语义分割结果，

f5为RGB测试图像高架路类二分类语义分割结果，

f6为RGB测试图像水类二分类语义分割结果，

f7为MSI测试图像中第2，4，6三通道组合图像的高植被类二分类语义分割结果，

f8为MSI测试图像中第4，6，7三通道组合图像的水二分类语义分割结果；

(5b)对语义分割结果f1-f8进行投票融合，得到融合后的语义分割结果y1：

对语义分割结果f1,f2,f3中建筑类进行投票融合，得到融合后的建筑类语义分割结果；

对语义分割结果f1,f2,f4,f7中高植被类进行投票融合,得到融合后的高植被类语义分割结果；

对语义分割结果f1,f2,f5中高架桥类进行投票融合，得到融合后的高架桥类语义分割结果；

对语义分割结果f1,f2,f6,f8中水类进行投票融合,得到融合后的水类语义分割结果；

将上述融合后的建筑类，高植被类，高架桥类和水类语义分割结果组合生成得到融合后的语义分割结果y1，并将y1中剩余未被分类的像素点置为地面类。

7.根据权利要求1所述的方法，其特征在于，(6)中利用训练图像中的RGB图像对视差估计网络进行训练，其实现如下：

(6a)设置训练参数如下：

(6b)使用训练图像中的RGB图像送入视差估计网络，迭代次数从1开始，每当将训练图像全部送入一次，迭代次数加1，再将训练图像送入视差估计网络，如此循环，不断使损失函数值逐渐减小，直至迭代次数达到2000，停止训练，得到训练好的视差估计网络。

8.根据权利要求1所述的方法，其特征在于，(7)中利用训练好的视差估计网络对测试图像进行视差估计，其实现如下：

(7a)利用训练好的视差估计网络对原始图像对进行视差估计，得到第一视差结果s1；

(7b)对原始图像对进行上下翻转，利用训练好的视差估计网络对翻转后的图像对进行视差估计，将得到的视差结果再上下翻转，得到第二视差结果s2；

(7c)对原始图像对进行左右翻转，利用训练好的视差估计网络对左右翻转后的图像对进行视差估计，将得到的视差结果再左右翻转后取相反数，得到第三视差结果s3；

(7d)对上数三个视差结果s1、s2、s3通过取中位数的方式进行融合，得到第四视差结果s4；

(7e)对第四视差结果s4进行越界处理，得到第五视差结果s5：

将左图中像素点的水平坐标p，加上视差结果s4中的视差值d，计算得到对应匹配点在右图中水平坐标：q＝p+d；

将q值小于0或q大于1024的像素点判定该像素点匹配越界，此时视差结果s4中该像素点的视差值修正为0-p或1024-p，得到第五视差结果s5。

9.根据权利要求1所述的方法，其特征在于，(8)中利用视差估计结果对错误的语义分割结果进行修正，是先计算桥类视差值的平均值a1，取图像中视差值为a1±1范围内的像素点，再将这些像素点在融合后的语义分割结果y1中为地面类的像素点类别修正为桥类，得到修正后的语义分割结果y2。

10.根据权利要求1所述的方法，其特征在于，(9)利用修正后的语义分割结果对错误的视差估计结果进行修正，实现步骤如下：

(9a)对视差图进行左右一致性检测：

以原始图像对的左图为基准，送入训练好的视差网络进行视差计算，得到左视差图disp_left；

对于原始图像对的左图中一点P，其水平坐标为c，加上该点在左视差图disp_left中的视差值d2，计算得到匹配点Q在右图中水平坐标为e，e＝c+d2；

对于右图中点Q，其水平坐标为e，加上该点在右视差图disp_right中的视差值d3，计算得到匹配点N在左图中水平坐标为g，g＝e+d2＝c+d2+d3；

若s≤t1，则点P标记为正确匹配点；

若s≥t2，则点P标记为错误匹配点；

否则点P不做标记；

(9b)选取左图中一个错误匹配点X，点X在修正后的语义分割结果y2中为M类，取点X周围半径r在100<r<200区域内语义分割结果为M类的正确匹配点，计算这些正确匹配点的视差平均值a2，用该平均值a2修正错误匹配点X的视差值，直至所有错误匹配点视差结果修正完毕，得到修正后的视差结果s6。