CN113034506A - 遥感图像语义分割方法、装置、计算机设备和存储介质 - Google Patents
遥感图像语义分割方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113034506A CN113034506A CN202110562979.1A CN202110562979A CN113034506A CN 113034506 A CN113034506 A CN 113034506A CN 202110562979 A CN202110562979 A CN 202110562979A CN 113034506 A CN113034506 A CN 113034506A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- layer
- input
- aligned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种遥感图像语义分割方法、装置、计算机设备和存储介质,包括:获取预处理后的遥感图像,基于特征提取网络层对预处理后的遥感图像进行高频纹理特征和低频语义特征提取作为输入特征集;将低频语义特征引入空间金字塔池化模块进行多尺度池化,得到聚合文本特征;将输入特征集和聚合文本特征引入特征引导对齐模块,根据输入特征集与聚合文本特征的差异得到对齐后的输入特征集;将对齐后的输入特征集和聚合文本特征引入门控特征选择模块进行选择融合,得到对齐融合后的补充特征集;根据补充特征集与聚合文本特征进行拼接融合生成特征,基于预设的功能函数对特征进行处理并对处理后的特征进行预测分类得到最终特征层。有效提高分割精度。
Description
技术领域
本发明涉及航天遥感技术领域,尤其涉及一种遥感图像语义分割方法、装置、计算机设备和存储介质。
背景技术
语义分割是指对图像中的每个像素点进行分类,并将属于同类别的像素标记为同一种记号。语义分割作为计算机视觉中的一项核心研究领域是图像解译的基础。近年来随着深度学习的快速发展,语义分割在高分辨率遥感图像中也有着十分巨大的应用背景,如:土地利用制图、城市规划、农业保险等。
目前在遥感图像分割领域中的研究算法可以分为两大类:传统的基于手工特征刻画的方法,以及基于卷积神经网络(CNN)的深度学习方法。传统的方法主要包括简单线性迭代聚类(SLIC)算法和迭代图裁剪算法(GrabCut),需要根据先验知识来手工设计特征描述符以辅助生成最优的分割结果,因此对不同数据的可迁移能力不强。而基于CNN的方法可以自主的学习提取特征,从大量数据中学习到高维语义表征,因此是当前遥感图像分割领域的研究主流。早期基于CNN的语义分割方法主要以patch为基础,对每个patch进行分类。然而该方法限制了图片中的全局上下文建模,且具有较大的计算冗余。为了解决此问题,全卷积网络(FCN)被提出,它以整块图像作为输入,是第一个端到端的训练构架,在此基础上发展出了基于概率图模型的后处理方法、基于多尺度聚合的全局上下文建模方法、基于注意力机制的逐像素语义建模方法。尽管这些方法可以有效的提升分割结果,但在遥感图像语义分割中依旧存在一些局限性:1) 深层语义特征所包含的高频纹理信息较少,在经过全局上下文聚合模块后,损失了更多的高频信息,因此对细小物体以及边缘的分割效果较差。2)全局上下文聚合模块在大尺度遥感图像中的判别能力有限,因此最终的分割结果中会存在因为缺失上下文信息而导致的空间碎片化预测。通常的解决方案(如:Deeplabv3+算法)是将特征层与上下文聚合后的深层特征直接融合,来增强其中的高低频信息。然而,特征提取层中不同特征层之间受到一系列的卷积、池化的影响会存在特征难以对齐的现象,影响特征融合的准确度。与此同时,不同特征之间也存在特征冗余,直接将两个不同属性的特征拼接融合的方式所获得性能并不立项。因此,针对以上问题,如何有效融合特征是提升遥感图像语义分割精度的关键。
发明内容
针对现有技术遥感图像语义分割中存在特征对不齐以及特征冗余的难题,本发明提供一种遥感图像语义分割方法、装置、计算机设备和存储介质。
在一个实施例中,遥感图像语义分割方法,方法基于预设的网络模型实现,预设的网络模型包括特征提取网络层、空间金字塔池化模块、特征引导对齐模块和门控特征选择模块,方法包括以下步骤:
步骤S200:获取预处理后的遥感图像,基于特征提取网络层对预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;
步骤S300:将低频语义特征引入空间金字塔池化模块进行多尺度池化,得到聚合文本特征;
步骤S400:高频纹理特征和低频语义特征作为输入特征集,将输入特征集和聚合文本特征引入特征引导对齐模块,根据输入特征集与聚合文本特征的差异得到对齐后的输入特征集;
步骤S500:将对齐后的输入特征集和聚合文本特征引入门控特征选择模块进行选择融合,得到对齐融合后的补充特征集;
步骤S600:根据补充特征集与聚合文本特征进行拼接融合生成特征,基于预设的功能函数对特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
优选地,步骤S200之前还包括:
步骤S100:构建初始网络模型,获取训练数据集和测试数据集,根据训练数据集和测试数据集对初始网络模型进行训练和测试并更新权重得到更新后的网络模型,作为预设的网络模型。
优选地,特征提取网络层包括预设数量的用于学习参数的卷积层,步骤S200包括:
步骤S220:从第一组block和第二组block最末的输出特征层中引出高频纹理特征,从第四组block最末的输出特征层中引出低频语义特征。
优选地,步骤S300包括:
步骤S310:将第四组block最末的输出特征层引入4个不同尺寸的池化层中进行全局平均池化,分别生成第一尺寸的特征图、第二尺寸的特征图、第三尺寸的特征图和第四尺寸的特征图;
步骤S320:通过4个卷积层将所述第一至第四尺寸的特征图的通道维数降维至预设维度,在对应的通道维数上将降维后的第一至第四尺度的特征图拼接起来得到拼接特征,并将所述拼接特征依次通过卷积层,批归一化层、激活层进行融合降维,生成维度为预设维度的包含多尺度信息的聚合文本特征。
优选地,步骤S400包括:
步骤S410:高频纹理特征和低频语义特征作为输入特征集,将输入特征集中的特征层进行上采样和通道转换;
步骤S420:通过特征层逐元素相减计算聚合文本特征与输入特征集之间的特征差异;
步骤S430:将特征差异导入特征引导对齐模块的第一可变形卷积中来引导聚合文本特征与输入特征集对齐,得到初步对齐的特征以及第一可变形卷积中卷积核内每个元素在X与Y两个方向上的第一偏置层;
步骤S440:将第一偏置层导入特征提取网络层中的残差单元内进行特征融合,将进行完特征融合后的第一偏置层导入特征引导对齐模块的第二可变形卷积中生成第二偏置层以在不同尺度对齐输入特征集,得到更新后的输入特征集;
步骤S450:通过在H和W维度上对聚合文本特征进行全局平均池化操作来获得一维全局特征;
步骤S460:基于sigmoid函数将一维全局特征数值归一化,并将归一化之后的一维全局特征与更新后的输入特征集对应通道维度上逐元素相乘后,与更新后的输入特征集相加得到对齐后的输入特征集。
优选地,步骤S500包括:
步骤S510:将对齐后的输入特征集输入至入门控特征选择模块的高斯滤波模块后得到对齐增强后的输入特征集;
步骤S520:将对齐增强后的输入特征集与聚合文本特征拼接,生成得到拼接后的特征;
步骤S530:将拼接后的特征引入入门控特征选择模块的压缩激励模块进行自相关融合以建立全局激励,得到激励后的特征;
步骤S540:运用Sigmoid函数约束激励后的特征,将激励后的特征值限制在预设范围内,并基于预设函数分别生成属于聚合文本特征的第一权值矩阵和属于对齐增强后的输入特征集的第二权值矩阵;
步骤S550:聚合文本特征与第一权值矩阵逐元素相乘得到第一结果,对齐增强后的输入特征集与第二权值矩阵逐元素相乘得到第二结果,根据第一结果和第二结果中对应逐元素相加,得到对齐融合后的补充特征集。
优选地,步骤S550中所述对齐融合后的补充特征集具体为:
在一个实施例中,遥感图像语义分割装置,装置包括:
特征提取网络层,用于获取预处理后的遥感图像,对预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;
空间金字塔池化模块,用于获取低频语义特征,对低频语义特征进行多尺度池化,得到聚合文本特征;
特征引导对齐模块,将高频纹理特征和低频语义特征作为输入特征集,获取输入特征集和聚合文本特征,根据输入特征集与聚合文本特征的差异引导输入特征对齐,得到对齐后的输入特征集和聚合文本特征;
入门控特征选择模块,用于获取对齐后的输入特征集和聚合文本特征进行选择融合,得到对齐融合后的补充特征集;
拼接融合模块,用于根据补充特征集与聚合文本特征进行拼接融合生成特征,基于预设的功能函数对特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
在一个实施例中,一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
上述遥感图像语义分割方法、装置、计算机设备和存储介质,采用特征提取网络作为编码器提取特征并采用空间金字塔池化模块(PPM)构造全局上下文信息以生成聚合文本特征。首先分别将特征提取层的高频纹理特征以及低频语义特征引入特征引导对齐模块,通过学习特征之间的偏差来引导其与聚合文本特征对齐得到对齐后的输入特征集,消除输入特征与聚合文本特征之间的语义鸿沟;然后将对齐后的输入特征集引入门控特征选择模块,并通过门控机制来选择性的融合特征得到对齐融合后的补充特征集,通过与聚合文本特征进行拼接组合以补充聚合文本特征中缺失的高频纹理特征和低频语义特征,能有效的提升特征融合效率,显著提升遥感图像语义分割的精度,在实际多分辨率遥感图像应用中具有重要的价值。
附图说明
图1为本发明第一种实施例提供的遥感图像语义分割方法的流程图;
图2为本发明一实施例提供的网络总体流程图;
图3为本发明第二种实施例提供的遥感图像语义分割方法的流程图;
图4为本发明一实施例提供的遥感图像语义分割方法的网络处理流程示意图;
图5为本发明一实施例提供的特征引导对齐模块网络结构示意图;
图6为本发明一实施例提供的门控特征选择模块网络结构示意图;
图7为本发明一实施例提供的语义分割结果对比示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
在一个实施例中,如图1、2所示,一种遥感图像语义分割方法,基于预设的网络模型实现,预设的网络模型包括特征提取网络层、空间金字塔池化模块、特征引导对齐模块和门控特征选择模块,方法包括以下步骤:
步骤S200:获取预处理后的遥感图像,基于特征提取网络层对预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;
步骤S300:将低频语义特征引入空间金字塔池化模块进行多尺度池化,得到聚合文本特征;
步骤S400:高频纹理特征和低频语义特征作为输入特征集,将输入特征集和聚合文本特征引入特征引导对齐模块,根据输入特征集与聚合文本特征的差异得到对齐后的输入特征集;
步骤S500:将对齐后的输入特征集和聚合文本特征引入门控特征选择模块进行选择融合,得到对齐融合后的补充特征集;
步骤S600:根据补充特征集与聚合文本特征进行拼接融合生成特征,基于预设的功能函数对特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
具体地,在遥感图像分割领域,融合不同尺度的特征可以补充其中的高频纹理信息以及低频语义信息以此增加对细小物体的预测精度以及减少由虚警现象所导致的空间碎片化预测,这是提升遥感图像分割解译精度的关键。本发明中的特征引导对齐模块能够根据特征差异的大小消除语义差异,而门控特征选择模块能够根据输入特征来自适应的选择有价值的特征。进一步地,本发明采用ResNet系列作为编码器提取特征并采用空间金字塔池化模块(PPM)构造全局上下文信息以生成聚合文本特征。首先分别将特征提取层的浅层特征(对应高频纹理特征)以及深层特征(对应低频语义特征)引入特征引导对齐模块,通过学习特征之间的偏差来引导其与聚合文本特征对齐;然后将对齐后的深层及浅层特征分别引入门控特征选择模块进行特征选择挖掘出有价值的特征信息;最后与原始聚合文本特征进行拼接组合来补充增强其中的高频纹理信息和低频语义信息。本发明能够消除不同特征提取层之间存在的巨大的语义差异,在融合的过程中消除特征差异并选择有价值的特征,在仅增加少量模型参数的情况下显著提升遥感图像语义分割的精度,在实际遥感图像应用中具有重要的价值。
在一个实施例中,如图3所示,步骤S200之前还包括:
步骤S100:构建初始网络模型,获取训练数据集和测试数据集,根据训练数据集和测试数据集对初始网络模型进行训练和测试并更新权重得到更新后的网络模型,作为预设的网络模型。
具体地,将数据集构建好后,并设定好网络的超参数后,将处理后的数据投喂入网络模型中进行训练预测,具体来说包括以下步骤:1)按照窗口大小为512,步长为384的滑动切割方式分别对属于训练集以及测试集的大尺度遥感图像从左上至右下进行切割,生成大小为512*512的切块图片,将训练集中的遥感影像按照8:2的方式划分为训练集和验证集。2)从切割好的训练集中随机选取图片,并通过数据增强后与标签图片同时输入初始网络模型中进行训练;3)设定初始网络模型的一系列超参数,包括学习率、训练轮数、batchsize(批次大小)大小、正则化系数等,保存训练精度最高的模型;4)加载保存的精度最优的模型,将测试集中的图片归一化后投喂至模型中进行预测可直接得到预测的结果;进一步地,数据增强包括的参数有图像随机缩放系数、图像随机裁剪系数、图像随机亮度系数和随机高斯噪声系数。
进一步地,在具体的实施例中,采用随机缩放0.75倍~1.25倍、随机裁剪大小300~512、随机亮度变化0.75倍~1.5倍、随机高斯噪声、随机旋转90度对输入图片在线数据增强;设定网络初始学习率为0.0001,训练epoch迭代数为150,指数衰减速率为(0.9,0.99),正则化系数为0.0002,每批次大小为8,损失函数设定为普通的交叉熵损失函数。
在一个实施例中,特征提取网络层包括预设数量的用于学习参数的卷积层,步骤S200包括:
步骤S220:从第一组block和第二组block最末的输出特征层中引出高频纹理特征,从第四组block最末的输出特征层中引出低频语义特征。
具体地,在本实施例中,特征提取网络为ResNet 50网络,ResNet特征提取过程为:将经过数据预处理的图像送入ResNet50中进行特征提取;该网络包含49个可以学习参数的卷积层,除首层为卷积层外,其余部分可分为4组block(块),每组分别包含3,4,6,3个bottleneck块。首层及各组最末的输出特征层分别记为F 0 、F 1 、F 2 、F 3 、F 4 ,如图2所示。其中网络深度越深包含的高维语义信息越丰富,低维纹理信息越稀释,因此本发明分别从特征层F 1 、F 2 中引出高频纹理特征生成高频纹理流,从F 4 中引出低频语义特征生成低频语义流来补充聚合文本特征F agg 。
在一个实施例中,步骤S300包括:
步骤S310:将第四组block最末的输出特征层引入4个不同尺寸的池化层中进行全局平均池化,分别生成第一尺寸的特征图、第二尺寸的特征图、第三尺寸的特征图和第四尺寸的特征图;
步骤S320:通过4个卷积层将第一至第四尺寸的特征图的通道维数降维至预设维度,在对应的通道维数上将降维后的第一至第四尺度的特征图拼接起来得到拼接特征,并将拼接特征依次通过卷积层,批归一化层、激活层进行融合降维,生成维度为预设维度的包含多尺度信息的聚合文本特征。
具体地,空间金字塔池化的过程为:将深层特征F 4 引入4个不同尺度的池化层中,以聚合不同尺度的全局上下文信息并生成聚合文本特征F agg 。进一步地,的空间金字塔池化的过程中多尺度池化具体实现步骤为:1)将输入特征层F 4 通过4个不同尺度的全局平均池化分别生成尺度大小为的特征图;2)通过4个卷积层将这4个不同尺度的特征图的通道数从2048降至预设维度256维;3)按照通道维度将上述四个通道降维后的多尺度特征图拼接起来,同时为了节约计算资源,对该拼接特征依次使用卷积层,批归一化层、激活层来融合降维,最终得到维度为256维的包含多尺度信息的聚合文本特征F agg 。
在一个实施例中,步骤S400包括:
步骤S410:高频纹理特征和低频语义特征作为输入特征集,将输入特征集中的特征层进行上采样和通道转换;
步骤S420:通过特征层逐元素相减计算聚合文本特征与输入特征集之间的特征差异;
步骤S430:将特征差异导入特征引导对齐模块的第一可变形卷积中来引导聚合文本特征与输入特征集对齐,得到初步对齐的特征以及第一可变形卷积中卷积核内每个元素在X与Y两个方向上的第一偏置层;
步骤S440:将第一偏置层导入特征提取网络层中的BasicBlock残差单元内进行特征融合,将进行完特征融合后的第一偏置层导入特征引导对齐模块的第二可变形卷积中生成第二偏置层以在不同尺度对齐输入特征集,得到更新后的输入特征集;
步骤S450:通过在H和W维度上对聚合文本特征进行全局平均池化操作来获得一维全局特征;
步骤S460:基于sigmoid函数将一维全局特征数值归一化,并将归一化之后的一维全局特征与更新后的输入特征集对应通道维度上逐元素相乘后,与更新后的输入特征集相加得到对齐后的输入特征集。
具体地,特征引导对齐的过程为:首先将输入特征集{ F 1, F 2, F 4 }中的各个特征层在H和W两个维度上进行上采样至输入图像的1/4大小并在通道维度C上进行通道转换,统一生成至128维;然后将输入特征集特征F i , i∈{1,2,4}与聚合文本特征F agg 同时引入特征引导对齐模块中,通过学习特征F i 与F agg 之间的差异来引导输入特征F i 与F agg 对齐。进一步地,上采样及通道转换过程为:将输入特征集特征F i , i∈{1,2,4},通过双线性上采样层后依次经过卷积层、批归一化层、激活层进行尺度扩展以及通道缩减,进行上采样和通道转换的目的是为了方便后续的特征选择。
进一步地,如图4、5所示,特征引导对齐的过程中,特征引导对齐模块的具体实现步骤为:1)首先通过特征层逐元素相减计算两个输入的特征层F agg 与, i∈{1,2,4}之间的特征差异F dif_i ,也就是说F dif_i =F agg -F i ;2)将特征差异F dif_i 导入第一可变形卷积(扩张率为1,卷积核大小为的可变形卷积DConv1)中来引导特征F i 与F agg 对齐,得到初步对齐的特征以及DConv1中卷积核内每个元素在X与Y两个方向上的第一偏置层offset1;3)将第一偏移层offset1导入ResNet网络中的BasicBlock残差单元内进行特征融合后引入第二可变形卷积(扩张率为3,卷积核大小为的可变形卷积DConv2)中来生成第二偏置层offset2以在不同尺度对齐输入特征F i ,得到更新后的输入特征集即进一步对齐的特征。函数表达式为:
在一个实施例中,步骤S500包括:
步骤S510:将对齐后的输入特征集输入至入门控特征选择模块的高斯滤波模块后得到对齐增强后的输入特征集;
步骤S520:将对齐增强后的输入特征集与聚合文本特征拼接,生成得到拼接后的特征;
步骤S530:将拼接后的特征引入入门控特征选择模块的压缩激励模块进行自相关融合以建立全局激励,得到激励后的特征;
步骤S540:运用Sigmoid函数约束激励后的特征,将激励后的特征值限制在预设范围内,并基于预设函数分别生成属于聚合文本特征的第一权值矩阵和属于对齐增强后的输入特征集的第二权值矩阵;
步骤S550:聚合文本特征与第一权值矩阵逐元素相乘得到第一结果,对齐增强后的输入特征集与第二权值矩阵逐元素相乘得到第二结果,根据第一结果和第二结果中对应逐元素相加,得到对齐融合后的补充特征集。
具体地,门控特征选择的过程为:将对齐后的特征F i 与F agg 同时引入门控特征选择模块进行选择融合,生成用于补充的特征F outi 。
进一步地,如图4、6所示,门控特征选择的过程中,门控特征选择模块的具体实现步骤为:1)首先将引导对齐后的输入特征集 outi 送入高斯滤波模块后得到增强的特征 gaouti ;具体实现时可以选用一组Groups=C,卷积核kernel=7的不可导的深度分离卷积来对特征层 outi 的每层进行高斯滤波。其中对于卷积核k中的任意一个位置的权值K ij {i,j|-3≤i,j≤3}可通过如下公式获得:
2)为了使门控特征选择模块的最终输出考虑到所有输入特征的属性,将对齐增强后的特征 gaouti 与聚合文本特征F agg 拼接起来,生成特征= gaouti || F agg ,以该特征来分别生成输入特征的权值;3)将特征通过压缩激励模块(GE),进行自相关融合以建立全局激励,使拼接后的特征充分融合;4)运用Sigmoid函数约束激励后的特征,将其值限制在0~1范围内,并通过以下函数表达式分别生成属于F agg 以及 gaouti 的权值矩阵,其中,来控制选择每个空间点特征的值;
在一个实施例中,步骤S600中特征融合与预测的过程为:首先将对齐融合后的特征集{F out1 、F out2 、F out4 }中的每层特征与F agg 进行拼接融合生成特征F all ,也就是说该特征是在聚合了全局上下文信息后的特征F agg 的基础上补充高频语义流与低频纹理流得到的,随后通过功能函数将特征F all 上采样至原图的尺寸大小并缩小通道数至Numclass(分类类别数),对通道转换和上采样后的特征F all 进行预测,从分类类别里选择概率最大的类别,得到最终的特征层F final ;进一步地,特征融合与预测的过程,预设的功能函数包括:卷积层、批归一化层、激活层、1x1卷积层和4倍双线性上采样层,通过两个连续的卷积层将特征F all 通道数减少到分类类别数并4倍双线性上采样至原图大小。
在一个详细的实施例中,本实施例采用国际摄影测量与遥感学会的遥感影像2D语义分割竞赛的数据集Vaihingen,该数据集为航空影像,其中16张在训练集,17张在测试集。每幅影像有近红外、红、绿3个波段,总共分为6类,包括非渗透地表(白255,255,255)、建筑(蓝 0,0,255)、低矮植被(浅蓝 0,255,255)、树木(绿 0,255,0)、车辆(黄 255,255,0)、杂物(红 255,0,0),且具有逐像素标注的真值图,用于语义分割结果的精度评价。采用的评价指标包括总体像素精度OA、平均F1指数以及平均交并比mIoU,其中数值越高代表模型表现越好。
在17张测试集中,将本发明的方法与一系列最先进的上下文建模方法在mIoU,OA,F1指数等三个指标上进行了综合比较。对比的方法中包括经典的编码-解码Encoder-Decoder结构模型U-Net、SegNet,OS=8的基础模型Dilated FCN,全局多尺度上下文聚合模型Deeplabv3+、PSPNet、Denseaspp,局部与全局语义关系注意力上下文模型PSANet、DANet、CCNet。值得注意的是,所有的方法均采用相同的实验配置。实验结果如下表所示:
从表中可以看出,本方法相比基础模型PSPNet在Mean F1、mIoU和OA上分别提升了1.81%、2.67%、0.76%。相比其他先进的模型在各类指标上也都达到了最优,特别是汽车类以及不透水地面类F1 Score分别达到了83.33%,92.05%,这证明了我们提出的特征引导对齐模块、门控特征选择模块以及网络架构的有效性。
视觉整体效果如图7所示,给出了一些在Vaihingen测试集上的分割样本。从前两行可以看到,受到阴影以及地表外貌相似的影响,模型错误的将房屋分为不透水地面,将阴影下的道路预测成背景类,造成物体内部出现空洞等假阳性现象。本发明的方法通过补充文本信息,有效的增强了上下文的判别能力,避免了上述情况的发生。第三行表明,多尺度文本聚合模型缺少了判别孤立细小物体的能力,将密集的小车预测成了整体的一块。而我们的方法在补充了高频信息后,能精准的预测出来每辆汽车,并取得了比注意力机制整体更好的效果。最后一行原始图片中Low vegetation与Tree相互混杂,而本方法能够较好的区分出来,这说明我们的模型具有较好的视觉判别能力。
在一个实施例中,一种遥感图像语义分割装置,装置包括特征提取网络层、空间金字塔池化模块、特征引导对齐模块、门控特征选择模块和拼接融合模块,特征提取网络层,用于获取预处理后的遥感图像,对预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;空间金字塔池化模块,用于获取低频语义特征,对低频语义特征进行多尺度池化,得到聚合文本特征;特征引导对齐模块,将高频纹理特征和低频语义特征作为输入特征集,获取输入特征集和聚合文本特征,根据输入特征集与聚合文本特征的差异得到对齐后的输入特征集和聚合文本特征;入门控特征选择模块,用于获取对齐后的输入特征集和聚合文本特征进行选择融合,得到对齐融合后的补充特征集;拼接融合模块,用于根据补充特征集与聚合文本特征进行拼接融合生成特征,基于预设的功能函数对特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
关于遥感图像语义分割装置的具体限定可以参见上文中对于遥感图像语义分割方法的限定,在此不再赘述。上述遥感图像语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,本实施例还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现遥感图像语义分割方法的步骤。
在一个实施例中,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现遥感图像语义分割方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上对本发明所提供的遥感图像语义分割方法、装置、计算机设备和存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.遥感图像语义分割方法,其特征在于,所述方法基于预设的网络模型实现,所述预设的网络模型包括特征提取网络层、空间金字塔池化模块、特征引导对齐模块和门控特征选择模块,所述方法包括以下步骤:
步骤S200:获取预处理后的遥感图像,基于所述特征提取网络层对所述预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;
步骤S300:将低频语义特征引入所述空间金字塔池化模块进行多尺度池化,得到聚合文本特征;
步骤S400:所述高频纹理特征和所述低频语义特征作为输入特征集,将所述输入特征集和所述聚合文本特征引入所述特征引导对齐模块,根据所述输入特征集与所述聚合文本特征的差异得到对齐后的输入特征集;
步骤S500:将所述对齐后的输入特征集和所述聚合文本特征引入所述门控特征选择模块进行选择融合,得到对齐融合后的补充特征集;
步骤S600:根据所述补充特征集与所述聚合文本特征进行拼接融合生成特征,基于预设的功能函数对所述特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
2.根据权利要求1所述的方法,其特征在于,步骤S200之前还包括:
步骤S100:构建初始网络模型,获取训练数据集和测试数据集,根据所述训练数据集和测试数据集对所述初始网络模型进行训练和测试并更新权重得到更新后的网络模型,作为预设的网络模型。
5.根据权利要求1所述的方法,其特征在于,步骤S400包括:
步骤S410:所述高频纹理特征和所述低频语义特征作为输入特征集,将所述输入特征集中的特征层进行上采样和通道转换;
步骤S420:通过特征层逐元素相减计算所述聚合文本特征与所述输入特征集之间的特征差异;
步骤S430:将所述特征差异导入所述特征引导对齐模块的第一可变形卷积中来引导所述聚合文本特征与所述输入特征集对齐,得到初步对齐的特征以及第一可变形卷积中卷积核内每个元素在X与Y两个方向上的第一偏置层;
步骤S440:将所述第一偏置层导入所述特征提取网络层中的残差单元内进行特征融合,将进行完特征融合后的第一偏置层导入所述特征引导对齐模块的第二可变形卷积中生成第二偏置层以在不同尺度对齐所述输入特征集,得到更新后的输入特征集;
步骤S450:通过在H和W维度上对所述聚合文本特征进行全局平均池化操作来获得一维全局特征;
步骤S460:基于sigmoid函数将所述一维全局特征数值归一化,并将归一化之后的一维全局特征与所述更新后的输入特征集对应通道维度上逐元素相乘后,与所述更新后的输入特征集相加得到对齐后的输入特征集。
6.根据权利要求5所述的方法,其特征在于,步骤S500包括:
步骤S510:将所述对齐后的输入特征集输入至所述入门控特征选择模块的高斯滤波模块后得到对齐增强后的输入特征集;
步骤S520:将所述对齐增强后的输入特征集与所述聚合文本特征拼接,生成得到拼接后的特征;
步骤S530:将所述拼接后的特征引入所述入门控特征选择模块的压缩激励模块进行自相关融合以建立全局激励,得到激励后的特征;
步骤S540:运用Sigmoid函数约束所述激励后的特征,将所述激励后的特征值限制在预设范围内,并基于预设函数分别生成属于所述聚合文本特征的第一权值矩阵和属于所述对齐增强后的输入特征集的第二权值矩阵;
步骤S550:所述聚合文本特征与所述第一权值矩阵逐元素相乘得到第一结果,所述对齐增强后的输入特征集与所述第二权值矩阵逐元素相乘得到第二结果,根据所述第一结果和所述第二结果中对应逐元素相加,得到对齐融合后的补充特征集。
8.遥感图像语义分割装置,其特征在于,所述装置包括:
特征提取网络层,用于获取预处理后的遥感图像,对所述预处理后的遥感图像进行高频纹理特征提取和低频语义特征提取;
空间金字塔池化模块,用于获取所述低频语义特征,对所述低频语义特征进行多尺度池化,得到聚合文本特征;
特征引导对齐模块,将所述高频纹理特征和所述低频语义特征作为输入特征集,获取所述输入特征集和所述聚合文本特征,根据所述输入特征集与所述聚合文本特征的差异得到对齐后的输入特征集;
入门控特征选择模块,用于获取所述对齐后的输入特征集和聚合文本特征进行选择融合,得到对齐融合后的补充特征集;
拼接融合模块,用于根据所述补充特征集与所述聚合文本特征进行拼接融合生成特征,基于预设的功能函数对所述特征进行处理并对处理后的特征进行预测分类得到最终特征层,完成语义分割。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562979.1A CN113034506B (zh) | 2021-05-24 | 2021-05-24 | 遥感图像语义分割方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110562979.1A CN113034506B (zh) | 2021-05-24 | 2021-05-24 | 遥感图像语义分割方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113034506A true CN113034506A (zh) | 2021-06-25 |
CN113034506B CN113034506B (zh) | 2021-08-06 |
Family
ID=76455672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110562979.1A Active CN113034506B (zh) | 2021-05-24 | 2021-05-24 | 遥感图像语义分割方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113034506B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449808A (zh) * | 2021-07-13 | 2021-09-28 | 广州华多网络科技有限公司 | 多源图文信息分类方法及其相应的装置、设备、介质 |
CN113569724A (zh) * | 2021-07-27 | 2021-10-29 | 中国科学院地理科学与资源研究所 | 基于注意力机制和扩张卷积的道路提取方法及系统 |
CN113673562A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种特征增强的方法、目标分割方法、装置和存储介质 |
CN113723486A (zh) * | 2021-08-23 | 2021-11-30 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种离心泵多模态监测数据清洗及建模方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335305A (zh) * | 2018-02-09 | 2018-07-27 | 北京市商汤科技开发有限公司 | 图像分割方法和装置、电子设备、程序和介质 |
US20190026956A1 (en) * | 2012-02-24 | 2019-01-24 | Matterport, Inc. | Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications |
CN110689061A (zh) * | 2019-09-19 | 2020-01-14 | 深动科技(北京)有限公司 | 一种基于对齐特征金字塔网络的图像处理方法、装置及系统 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
US20200285911A1 (en) * | 2019-03-06 | 2020-09-10 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Image Recognition Method, Electronic Apparatus and Readable Storage Medium |
WO2021041719A1 (en) * | 2019-08-28 | 2021-03-04 | Hover Inc. | Image analysis |
-
2021
- 2021-05-24 CN CN202110562979.1A patent/CN113034506B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190026956A1 (en) * | 2012-02-24 | 2019-01-24 | Matterport, Inc. | Employing three-dimensional (3d) data predicted from two-dimensional (2d) images using neural networks for 3d modeling applications and other applications |
CN108335305A (zh) * | 2018-02-09 | 2018-07-27 | 北京市商汤科技开发有限公司 | 图像分割方法和装置、电子设备、程序和介质 |
US20200285911A1 (en) * | 2019-03-06 | 2020-09-10 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Image Recognition Method, Electronic Apparatus and Readable Storage Medium |
WO2021041719A1 (en) * | 2019-08-28 | 2021-03-04 | Hover Inc. | Image analysis |
CN110689061A (zh) * | 2019-09-19 | 2020-01-14 | 深动科技(北京)有限公司 | 一种基于对齐特征金字塔网络的图像处理方法、装置及系统 |
CN111210443A (zh) * | 2020-01-03 | 2020-05-29 | 吉林大学 | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449808A (zh) * | 2021-07-13 | 2021-09-28 | 广州华多网络科技有限公司 | 多源图文信息分类方法及其相应的装置、设备、介质 |
CN113673562A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种特征增强的方法、目标分割方法、装置和存储介质 |
CN113569724A (zh) * | 2021-07-27 | 2021-10-29 | 中国科学院地理科学与资源研究所 | 基于注意力机制和扩张卷积的道路提取方法及系统 |
CN113723486A (zh) * | 2021-08-23 | 2021-11-30 | 水利部交通运输部国家能源局南京水利科学研究院 | 一种离心泵多模态监测数据清洗及建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113034506B (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113034506B (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN112541503B (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN111275107A (zh) | 一种基于迁移学习的多标签场景图像分类方法及装置 | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN113743417B (zh) | 语义分割方法和语义分割装置 | |
CN113269224B (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN111860683A (zh) | 一种基于特征融合的目标检测方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN113496221B (zh) | 基于深度双边滤波的点监督遥感图像语义分割方法及系统 | |
CN115222750A (zh) | 基于多尺度融合注意力的遥感图像分割方法及系统 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
US20240161531A1 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN112329647A (zh) | 基于U-Net神经网络的土地利用类型识别方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |