CN111783782A - 融合改进UNet和SegNet的遥感图像语义分割方法 - Google Patents

融合改进UNet和SegNet的遥感图像语义分割方法 Download PDF

Info

Publication number
CN111783782A
CN111783782A CN202010475602.8A CN202010475602A CN111783782A CN 111783782 A CN111783782 A CN 111783782A CN 202010475602 A CN202010475602 A CN 202010475602A CN 111783782 A CN111783782 A CN 111783782A
Authority
CN
China
Prior art keywords
segnet
neural network
improved
remote sensing
unet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010475602.8A
Other languages
English (en)
Other versions
CN111783782B (zh
Inventor
王鑫
戴慧凤
吕国芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010475602.8A priority Critical patent/CN111783782B/zh
Publication of CN111783782A publication Critical patent/CN111783782A/zh
Application granted granted Critical
Publication of CN111783782B publication Critical patent/CN111783782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合改进UNet和SegNet的遥感图像语义分割方法,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络,融合改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,进行语义分割,以提高针对遥感图像进行语义分割的效果。

Description

融合改进UNet和SegNet的遥感图像语义分割方法
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种融合改进UNet和SegNet的遥感图像语义分割方法。
背景技术
遥感技术是衡量一个国家的科技水平和综合国力的重要标志之一,在军事和民用的诸多领域都有着广泛的应用。遥感技术的本质,就是需要从繁杂的遥感图像中,提取到更多的有效信息。高分辨率遥感图像就是遥感技术的重要分析对象。通常情况下,遥感图像的智能语义分割都需要庞大的数据集和极为精确的数据标注才能训练,对数据集的要求极高,而标注不精确,或者样本较小的数据集则无法取得令人满意的结果。因此,对于小样本且标注不精确的高分遥感图像的语义分割处理问题依然需要进一步的研究和探讨。
公开号CN110059772A的高分遥感图像语义分割方法,该方法时以VGG网络为原型,将网络结构分为编码和解码两部分,通过反池化路径、反卷积路径将编码信息分辨率扩大一倍,将其与空洞卷积的结果进行通道连接,通过反卷积上采样将特征图像恢复到原始尺寸,再将输出标签图输入PPB模块进行多尺度聚合处理。该方法可以有效的对遥感图像实施分割,但是其对标签标注要求较高,并不能在标注不精确的高分遥感图像数据集上取得满意的结果。
公开号为CN109948517A的高分遥感图像语义分割方法,该方法首先结合近些年在图像分类领域取得优异成绩的深度卷积神经网络,利用密集网络对全卷积神经网络模型的特征提取部分进行改进,有效地利用了各个网络层产生的特征图信息;接着对上采样部分进行了优化,先通过两次2倍上采样的合并,再通过8倍上采样实现图像分辨率大小的恢复;最后采用预训练模型进行密集全卷积网络的参数初始化。该方法可以有效的对高分遥感图像进行语义分割,但是其需要大量的数据集进行训练才可以达到良好的分割精度,对于小数据集而言,并不适用。
还有文献提出了使用大规模且公开的标签进行培训,采用经典的卷积神经网络FCN,并且对FCN架构进行了一定程度的改进,然后对建筑和道路进行了分割。该方法可以在标注不精确噪声较大的情况下对遥感图像中的道路和建筑进行分割,但是需要超大规模的数据集作为支撑,无法在小数据集上发挥良好的作用。
总之,现有的高分遥感图像语义分割方法,其存在的诸多局限性主要表现在:需要大规模的数据作为支撑,对小数据集的分割效果不甚理想;需要精确的人工标注作为基础,对标注不精确的数据集效果不甚理想。可见传统的高分遥感图像语义分割方案容易发生分割效果差的问题。
发明内容
针对以上问题,本发明提出一种融合改进UNet和SegNet的遥感图像语义分割方法。
为实现本发明的目的,提供一种融合改进UNet和SegNet的遥感图像语义分割方法,包括如下步骤:
S10,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,以得到改进UNet神经网络;
S20,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少 SegNet的部分网络层数,得到改进SegNet神经网络;
S30,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,采用所述遥感图像语义分割模型对遥感图像进行语义分割。
在一个实施例中,所述ReLU激活函数包括:
Figure RE-GDA0002598449280000021
其中,x表示输入量。
在一个实施例中,所述ELU激活函数包括:
Figure RE-GDA0002598449280000022
其中,x表示输入量,a表示随机参数。
在一个实施例中,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet 神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络包括:
为了提高位置信息的保留度,引入短路链接,在SegNet神经网络的pool1、pool2和pool3后引入前面设定层(inputs,pool)的输出进行合并,分别将前面设定层的输入直接连接到后面的SegNet神经网络中一起训练;
SegNet神经网络的编码过程分为四个部分,均由两个3×3的卷积层和一个2×2的池化层组成,解码过程同样也分为四个部分,由一个2×2的反卷积层和两个3×3的卷积层组成,之后在SegNet神经网络的末端加入了一个卷积操作,再连接一个softmax分类器,使该SegNet神经网络共有9次卷积操作和8次反卷积操作,所有的卷积以及反卷积均采用3×3的卷积核,滑动步长为1,池化操作均采用max池化的方法,采用2×2的滑动窗口,步长为2,以得到改进SegNet神经网络。
在一个实施例中,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型包括:
在分别对改进UNet神经网络和改进SegNet神经网络进行训练以后,将其训练结果进行连接,加入一个softmax分类器,形成一个新的分割模型,得到遥感图像语义分割模型。
上述融合改进UNet和SegNet的遥感图像语义分割方法,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,以得到改进UNet神经网络,在SegNet神经网络的编码过程中,在最大池化操作后,引入 SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络,融合改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,采用所述遥感图像语义分割模型对遥感图像进行语义分割,可以提高针对遥感图像进行语义分割的效果。
附图说明
图1是一个实施例的融合改进UNet和SegNet的遥感图像语义分割方法流程图;
图2是另一个实施例的融合改进UNet和SegNet的遥感图像语义分割方案示意图;
图3是一个实施例的改进UNet神经网络示意图;
图4是一个实施例的改进SegNet神经网络示意图;
图5是一个实施例的遥感图像语义分割混淆矩阵对比结果示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
遥感图像语义分割是遥感图像应用的一个重要环节。通常情况下,遥感图像的智能语义分割都需要庞大的数据集和极为精确的数据标注才能训练,对数据集的要求极高,而标注不精确,或者样本较小的数据集则无法取得令人满意的结果。针对小样本且标注不精确的数据集,本发明提出了一种融合改进UNet和SegNet的遥感图像语义分割方法,在分别对UNet和SegNet进行改进的基础上,将其融合。实验结果表明,该方法对小样本且标注不精确的高分遥感图像展现了良好的分割效果。
参考图1所示,图1为一个实施例的融合改进UNet和SegNet的遥感图像语义分割方法流程图,包括如下步骤:
S10,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,以得到改进UNet神经网络。
在一个实施例中,所述ReLU激活函数包括:
Figure RE-GDA0002598449280000041
其中,x表示输入量。
在一个实施例中,所述ELU激活函数包括:
Figure RE-GDA0002598449280000042
其中,x表示输入量,a表示随机参数。具体地,a是一个参数,可以随机调整,取值一般在(0,1)之间,且可以取值为零点几。
具体地,批处理规范化(Batch Normalization)是一种数据处理的规范手段,实质是将网络结构输出的数据拉回到标准正态分布中,也就是均值为0方差为1。当数据分布于标准的正态分布时,其进入激活函数后所产生的非线性变换就更加灵敏,使得激活函数可以发挥出更大的非线性能力,可以有效的避免梯度消,同时也可以加快收敛速度,加速训练。批处理规范化首先,要对所得数据进行归一化,如下公式所示,m表示 batch_size,μB表示均值,
Figure RE-GDA0002598449280000051
表示方差,将输入的值归一化到正太分布的范围内。
Figure RE-GDA0002598449280000052
Figure RE-GDA0002598449280000053
Figure RE-GDA0002598449280000054
其次,要进行尺度变换和转移。如下公式所示。
Figure RE-GDA0002598449280000055
Figure RE-GDA0002598449280000056
乘以γ调整数值大小,再加上β增加偏移后得到yi,这里的γ是尺度因子,β是平移因子。这是由于归一化以后的
Figure RE-GDA0002598449280000057
分布均为标准的正太分布,这些数据输入网络以后其所能表达的层次化内容有所下降,所以才引入了两个新的参数:γ和β。γ和β是在训练时网络自己学习得到的。由于γ和β是可训练的,那么意味着神经网络会随着训练过程自己挑选一个最适合的分布,这使得网络更加的因地制宜,有更好的表现效果。
进一步地,激活函数提供了网络的非线性建模能力,定义了输入输出之间的映射关系,在很大程度上决定了神经网络的能力。ReLU激活函数如下公式所示:
Figure RE-GDA0002598449280000058
ELU激活函数如下公式所示。
Figure RE-GDA0002598449280000059
可以从函数中直观的看到,ReLU函数在x≤0时,输出的结果均为0,会导致神经元的死亡;ELU函数在x≤0时,输出的函数为负,并且随着|x|的增大缓慢下降,有效得解决了神经元死亡的问题,提升了激活函数的抗噪声性能。当然,ReLU函数的计算相较于ELU函数较为简单,但是由于样本较小,我们期望在小数据集上取得不错的精度,因此选择了计算较复杂但是能有效避免神经元死亡的ELU激活函数。
UNet网络本身在二分类的模型中可以取得非常不错的分割效果,为了充分应用这一优势,在实际的训练中,我们将每一类的地物单独拿出来,作为一个类别进行训练,也就是只有该类别和“其他”两个类别的二分类模型。在这样的训练方式下,就可以忽略各个地物分布不均匀所导致的训练模型偏好。这样的话,就可以充分的利用UNet网络在二分类中的优势,并且解决了遥感图像分布不均匀导致的样本各类别不平衡的问题。值的注意的是,对于“其他类”这一类别的模型,我们并没有将他单独的拿出来作为一个类别的模型进行训练,这是由于其并不具有统一的特征可供训练。例如,针对植被(标记1)进行训练,那么就只单独训练标记为1的label,其他的类别均标记为0,其他地物以此类推。
在整合二分类模型所产生的子图时,本实施例提出了一种投票的合并策略,即对于其中的一个像素点,当不同的二分类所得到的结果出现偏差时,整合二分类模型中以预测像素点为中心的3×3的感受野,以待预测像素点周围的四个像素点的票数为准,最终得到的结果是该感受野中像素点类别最多的那一类。如下公式所示,(v,u)为待预测的像素点,分别对不同的label票数进行统计,票数最多的那一类就是最终的类别。
Figure RE-GDA0002598449280000061
S20,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少 SegNet的部分网络层数,得到改进SegNet神经网络。
上述步骤,改进了SegNet神经网络,其特征在于在编码过程中,在最大池化操作后,引入前几层的结果进行卷积操作,进行了阶跃短路连接;并且为了减少了label标注不精确对于实验精度的影响,减少了SegNet的部分网络层数。
在一个实施例中,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet 神经网络中前面设定层(前几层)的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络包括:
为了提高位置信息的保留度,引入短路链接,在SegNet神经网络的pool1、pool2和pool3后引入前面设定层(inputs,pool)的输出进行合并,分别将前面设定层的输入直接连接到后面的SegNet神经网络中一起训练;
SegNet神经网络的编码过程分为四个部分,均由两个3×3的卷积层和一个2×2的池化层组成,解码过程同样也分为四个部分,由一个2×2的反卷积层和两个3×3的卷积层组成,之后在SegNet神经网络的末端加入了一个卷积操作,再连接一个softmax分类器,使该SegNet神经网络共有9次卷积操作和8次反卷积操作,所有的卷积以及反卷积均采用3×3的卷积核,滑动步长为1,池化操作均采用max池化的方法,采用2×2的滑动窗口,步长为2,以得到改进SegNet神经网络。
本实施例中,首先,为了提高位置信息的保留度,引入短路链接,在pool1、pool2和pool3后引入前几层(inputs,pool)的输出进行合并,分别将前几层的输入直接连接到后面的网络中一起训练。网络训练中通常会产生Degradation的问题,即随着网络层数的增加,准确率会先上升,达到饱和状态后,如果神经网络层数继续增加,准确率会下降,这是由于在分割的过程中,每进行一次采样,原始图像的位置信息就会随之流失一部分。因此,保留原始图像的位置信息对于图像像素的分割精度非常重要。短路连接就可以很好对高维特征图中的位置信息进行补充,通过建立前面的层与后面的层的短路连接,将原始图像中像素点的位置情况与高维特征图中的特征相结合,达到特征和位置双管齐下的作用,有助于训练过程中的反向传播,可以很好的提升遥感图像语义分割的准确性。其次,改进的SegNet网络还调整了部分的网络结构,其减少了部分网络层数,并在最后一层增加了一次卷及操作和softmax分类器。编码过程分为四个部分,均由两个3×3的卷积层和一个2×2的池化层组成,解码过程同样也分为四个部分,由一个2×2 的反卷积层和两个3×3的卷积层组成,之后在网络的末端加入了一个卷积操作,再连接一个softmax分类器。该网络共有9次卷积操作和8次反卷积操作。所有的卷积以及反卷积均采用3×3的卷积核,滑动步长为1。池化操作均采用max池化的方法,采用2×2 的滑动窗口,步长为2。
这样的调整主要考虑了两个方面的问题,其一,实验证明调整网络层数以后训练过程收敛加快,在相同的epoach下可以得到更好的实验精度,这对于小数据集来说非常重要,训练数据较少的情况下,收敛越快的网络无疑就可以在小样本的数据集中占得优势,得到更好的实验精度;其二,网络层数越高,就可以得到维度越高的高维特征,而高维特征会更加明显地暴露label标注不精确地问题,因此对于标注不太精确的数据集而言,减少部分网络层数就相当于较少了标注不精确对于地物分割精度的影响,可以有效的提高标注不精确数据集的分割精度。
S30,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,采用所述遥感图像语义分割模型对遥感图像进行语义分割。
上述步骤融合了SegNet神经网络和UNet神经网络,并引入形态学的方式处理分割结果,可以提高分割精度。
在一个实施例中,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型包括:
在分别对改进UNet神经网络和改进SegNet神经网络进行训练以后,将其训练结果进行连接,加入一个softmax分类器,形成一个新的分割模型,得到遥感图像语义分割模型。
本实施例中,首先在分别对改进以后的UNet模型和SegNet模型进行训练以后,将其训练结果进行连接,然后加入一个softmax分类器,形成一个新的分割模型,其过程如下公式所示:
Figure RE-GDA0002598449280000081
其中,z=concat(mod elUNet+mod elSegNet),C=5表示5个类别的分割结果。考虑到该算法是在标注不精确的小样本上进行训练,因此依然采用投票策略,融合三个五分类的模型,得到最终的预测结果,然后采用形态学的闭运算对输出的结果进行处理,消除噪声。
所谓投票策略,就是在图像的预测中,当不同的模型训练所得到的结果出现偏差时,整合三个模型中以预测像素点为中心的3×3的感受野,以待预测像素点周围的四个像素点的票数为准,最终得到的结果是该感受野中像素点类别最多的那一类。具体的如下公式所示,(v,u)为待预测的像素点,分别对三个模型所产生的票数进行统计,这种策略与二分类中的投票策略思想相同,可以有效避免标注结果不精确对分割结果产生的影响,也可以有效的减少由于分割结果不精确所产生的噪声。
Figure RE-GDA0002598449280000091
形态学处理方法常用于消除图像的噪声,提取图像中的有用信息。因此,采用形态学的方法对最终的输出的结果进行处理,优化输出的结果,提高整体的分割精度。常用的形态学处理方法有膨胀,腐蚀、闭运算,开运算。膨胀或者腐蚀操作就是将图像与核进行卷积,膨胀是求局部最大值,实现裂缝的连接,腐蚀与膨胀相反,是求局部最小值,清晰较小的纹理特征。开运算就是先腐蚀再膨胀,闭运算就是先膨胀再腐蚀,均可用来消除噪声。在遥感图像分割中,由于label为0的类别相对于其他类别特征不太明显,受噪声影响较大,因为采用闭运算对结果进行处理,偏向于去除其他类别特征中的低谷噪声。
上述融合改进UNet和SegNet的遥感图像语义分割方法,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,以得到改进UNet神经网络,在SegNet神经网络的编码过程中,在最大池化操作后,引入 SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络,融合改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,采用所述遥感图像语义分割模型对遥感图像进行语义分割,可以提高针对遥感图像进行语义分割的效果。
在一个实施例中,上述融合改进UNet和SegNet的遥感图像语义分割方法还可以参考图2所示,具体包括如下步骤:
第一,改进UNet网络,如图3所示,引入了批处理规范化,将其加在卷积层和激活层中间;并且使用了实际效果更好的ELU激活函数代替ReLU激活函数;采用训练二分类的方式分别训练每一个类别,再将许多个二分类模型进行合并。
批处理规范化(Batch Normalization)是一种数据处理的规范手段,实质是将网络结构输出的数据拉回到标准正态分布中,也就是均值为0方差为1。当数据分布于标准的正态分布时,其进入激活函数后所产生的非线性变换就更加灵敏,使得激活函数可以发挥出更大的非线性能力,可以有效的避免梯度消,同时也可以加快收敛速度,加速训练。批处理规范化首先,要对所得数据进行归一化,如下公式所示,m表示batch_size,μB表示均值,
Figure RE-GDA0002598449280000101
表示方差,将输入的值归一化到正太分布的范围内。
Figure RE-GDA0002598449280000102
Figure RE-GDA0002598449280000103
Figure RE-GDA0002598449280000104
其次,要进行尺度变换和转移。如下公式所示。
Figure RE-GDA0002598449280000105
Figure RE-GDA0002598449280000106
乘以γ调整数值大小,再加上β增加偏移后得到yi,这里的γ是尺度因子,β是平移因子。这是由于归一化以后的
Figure RE-GDA0002598449280000107
分布均为标准的正太分布,这些数据输入网络以后其所能表达的层次化内容有所下降,所以才引入了两个新的参数:γ和β。γ和β是在训练时网络自己学习得到的。由于γ和β是可训练的,那么意味着神经网络会随着训练过程自己挑选一个最适合的分布,这使得网络更加的因地制宜,有更好的表现效果。
激活函数提供了网络的非线性建模能力,定义了输入输出之间的映射关系,在很大程度上决定了神经网络的能力。ReLU激活函数如下公式所示
Figure RE-GDA0002598449280000108
ELU激活函数如下公式所示。
Figure RE-GDA0002598449280000109
可以从函数中直观的看到,ReLU函数在x≤0时,输出的结果均为0,会导致神经元的死亡;ELU函数在x≤0时,输出的函数为负,并且随着|x|的增大缓慢下降,有效得解决了神经元死亡的问题,提升了激活函数的抗噪声性能。当然,ReLU函数的计算相较于ELU函数较为简单,但是由于样本较小,我们期望在小数据集上取得不错的精度,因此选择了计算较复杂但是能有效避免神经元死亡的ELU激活函数。
UNet网络本身在二分类的模型中可以取得非常不错的分割效果,为了充分应用这一优势,在实际的训练中,我们将每一类的地物单独拿出来,作为一个类别进行训练,也就是只有该类别和“其他”两个类别的二分类模型。在这样的训练方式下,就可以忽略各个地物分布不均匀所导致的训练模型偏好。这样的话,就可以充分的利用UNet网络在二分类中的优势,并且解决了遥感图像分布不均匀导致的样本各类别不平衡的问题。值的注意的是,对于“其他类”这一类别的模型,我们并没有将他单独的拿出来作为一个类别的模型进行训练,这是由于其并不具有统一的特征可供训练。例如,针对植被(标记1)进行训练,那么就只单独训练标记为1的label,其他的类别均标记为0,其他地物以此类推。
在整合二分类模型所产生的子图时,我们提出了一种投票的合并策略,即对于其中的一个像素点,当不同的二分类所得到的结果出现偏差时,整合二分类模型中以预测像素点为中心的3×3的感受野,以待预测像素点周围的四个像素点的票数为准,最终得到的结果是该感受野中像素点类别最多的那一类。如下公式所示,(v,u)为待预测的像素点,分别对不同的label票数进行统计,票数最多的那一类就是最终的类别。
Figure RE-GDA0002598449280000111
第二,改进了SegNet神经网络,如图4所示,在编码过程中,在最大池化操作后,引入前几层的结果进行卷积操作,进行了阶跃短路连接;并且为了减少了label标注不精确对于实验精度的影响,减少了SegNet的部分网络层数。
首先,为了提高位置信息的保留度,引入短路链接,在pool1、pool2和pool3后引入前几层(inputs,pool)的输出进行合并,分别将前几层的输入直接连接到后面的网络中一起训练。网络训练中通常会产生Degradation的问题,即随着网络层数的增加,准确率会先上升,达到饱和状态后,如果神经网络层数继续增加,准确率会下降,这是由于在分割的过程中,每进行一次采样,原始图像的位置信息就会随之流失一部分。因此,保留原始图像的位置信息对于图像像素的分割精度非常重要。短路连接就可以很好对高维特征图中的位置信息进行补充,通过建立前面的层与后面的层的短路连接,将原始图像中像素点的位置情况与高维特征图中的特征相结合,达到特征和位置双管齐下的作用,有助于训练过程中的反向传播,可以很好的提升遥感图像语义分割的准确性。
其次,改进的SegNet网络还调整了部分的网络结构,其减少了部分网络层数,并在最后一层增加了一次卷及操作和softmax分类器。编码过程分为四个部分,均由两个 3×3的卷积层和一个2×2的池化层组成,解码过程同样也分为四个部分,由一个2×2的反卷积层和两个3×3的卷积层组成,之后在网络的末端加入了一个卷积操作,再连接一个softmax分类器。该网络共有9次卷积操作和8次反卷积操作。所有的卷积以及反卷积均采用3×3的卷积核,滑动步长为1。池化操作均采用max池化的方法,采用2×2的滑动窗口,步长为2。
这样的调整主要考虑了两个方面的问题,其一,实验证明调整网络层数以后训练过程收敛加快,在相同的epoach下可以得到更好的实验精度,这对于小数据集来说非常重要,训练数据较少的情况下,收敛越快的网络无疑就可以在小样本的数据集中占得优势,得到更好的实验精度;其二,网络层数越高,就可以得到维度越高的高维特征,而高维特征会更加明显地暴露label标注不精确地问题,因此对于标注不太精确的数据集而言,减少部分网络层数就相当于较少了标注不精确对于地物分割精度的影响,可以有效的提高标注不精确数据集的分割精度。
第三,融合了SegNet神经网络和UNet神经网络,并引入形态学的方式处理分割结果。
首先,在分别对改进以后的UNet模型和SegNet模型进行训练以后,将其训练结果进行连接,然后加入一个softmax分类器,形成一个新的分割模型,其过程如下公式所示:
Figure RE-GDA0002598449280000131
其中,z=concat(mod elUNet+mod elSegNet),C=5表示5个类别的分割结果。考虑到该算法是在标注不精确的小样本上进行训练,因此依然采用投票策略,融合三个五分类的模型,得到最终的预测结果,然后采用形态学的闭运算对输出的结果进行处理,消除噪声。
所谓投票策略,就是在图像的预测中,当不同的模型训练所得到的结果出现偏差时,整合三个模型中以预测像素点为中心的3×3的感受野,以待预测像素点周围的四个像素点的票数为准,最终得到的结果是该感受野中像素点类别最多的那一类。具体的如下公式所示,(v,u)为待预测的像素点,分别对三个模型所产生的票数进行统计,这种策略与二分类中的投票策略思想相同,可以有效避免标注结果不精确对分割结果产生的影响,也可以有效的减少由于分割结果不精确所产生的噪声。
Figure RE-GDA0002598449280000132
形态学处理方法常用于消除图像的噪声,提取图像中的有用信息。因此,采用形态学的方法对最终的输出的结果进行处理,优化输出的结果,提高整体的分割精度。常用的形态学处理方法有膨胀,腐蚀、闭运算,开运算。膨胀或者腐蚀操作就是将图像与核进行卷积,膨胀是求局部最大值,实现裂缝的连接,腐蚀与膨胀相反,是求局部最小值,清晰较小的纹理特征。开运算就是先腐蚀再膨胀,闭运算就是先膨胀再腐蚀,均可用来消除噪声。在遥感图像分割中,由于label为0的类别相对于其他类别特征不太明显,受噪声影响较大,因为采用闭运算对结果进行处理,偏向于去除其他类别特征中的低谷噪声。
为了验证本发明提出方法,采用CCF大数据比赛(CCF Big Data&ComputationalIntelligence Contest)“卫星影像的AI分类与识别”提供的数据进行实验。同时,选用现有UNet神经网络、SegNet神经网络与本发明提出的方法进行对比。图5为遥感图像语义分割混淆矩阵对比结果,由该图可见,改进的UNet相对于UNet除建筑分割精度有些许下降之外,其他分类的分割均精度有一定程度的提升。改进的SegNet相对于SegNet 在建筑和道路的分割中,有明显的提高,但是对于水体的分割精度却有所下滑。而最终本发明提出的算法取长补短,除水域分割精度不甚理想之外,其他分类的分割均精度有一定程度的提升。
表1中详细展示了本发明提出的算法与其他算法的分割质量评价,通过准确率、Kappa系数、Jaccard系数定量分析实验效果。本发明对比了FCN-8s、FCN-16s、UNet、SegNet、改进的UNet、改进的SegNet的预测结果。其中,FCN-16s和FCN-8s由效果最不理想;改进的UNet发挥了UNet在二分类中的优势,并且激活函数和BN算法更多的校正了网络的梯度,因此相较于UNet,改进的UNet在准确率和Jaccard系数有一定程度的提升;改进的SegNet引入的短路连接保留了更多的位置信息,并且由于网络层数的调整,收敛更快,在相同的epoach上表现更优,因此相较于SegNet的实验精度有了较大幅度的提高。可以看到的是,本发明提出的算法得到的结果结合了改进以后的算法的优势,总的来说优于其他几种方法,准确率可以达到0.85,Kappa系数和Jaccard 系数也有所提高。
表1遥感图像语义分割质量评价
Figure RE-GDA0002598449280000141
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种融合改进UNet和SegNet的遥感图像语义分割方法,其特征在于,包括如下步骤:
S10,将批处理规范化加在UNet神经网络的卷积层和激活层中间,采用ELU激活函数代替ReLU激活函数,采用训练二分类的方式分别训练每一个语义分割类别,将各个二分类训练的模型进行合并,以得到改进UNet神经网络;
S20,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络;
S30,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型,采用所述遥感图像语义分割模型对遥感图像进行语义分割。
2.根据权利要求1所述的融合改进UNet和SegNet的遥感图像语义分割方法,其特征在于,所述ReLU激活函数包括:
Figure FDA0002515722930000011
其中,x表示输入量。
3.根据权利要求1所述的融合改进UNet和SegNet的遥感图像语义分割方法,其特征在于,所述ELU激活函数包括:
Figure FDA0002515722930000012
其中,x表示输入量,a表示随机参数。
4.根据权利要求1所述的融合改进UNet和SegNet的遥感图像语义分割方法,其特征在于,在SegNet神经网络的编码过程中,在最大池化操作后,引入SegNet神经网络中前面设定层的结果进行卷积操作,对卷积操作的结果进行阶跃短路连接,以减少SegNet的部分网络层数,得到改进SegNet神经网络包括:
为了提高位置信息的保留度,引入短路链接,在SegNet神经网络的pool1、pool2和pool3后引入前面设定层(inputs,pool)的输出进行合并,分别将前面设定层的输入直接连接到后面的SegNet神经网络中一起训练;
SegNet神经网络的编码过程分为四个部分,均由两个3×3的卷积层和一个2×2的池化层组成,解码过程同样也分为四个部分,由一个2×2的反卷积层和两个3×3的卷积层组成,之后在SegNet神经网络的末端加入了一个卷积操作,再连接一个softmax分类器,使该SegNet神经网络共有9次卷积操作和8次反卷积操作,所有的卷积以及反卷积均采用3×3的卷积核,滑动步长为1,池化操作均采用max池化的方法,采用2×2的滑动窗口,步长为2,以得到改进SegNet神经网络。
5.根据权利要求1所述的融合改进UNet和SegNet的遥感图像语义分割方法,其特征在于,融合所述改进UNet神经网络和改进SegNet神经网络,得到遥感图像语义分割模型包括:
在分别对改进UNet神经网络和改进SegNet神经网络进行训练以后,将其训练结果进行连接,加入一个softmax分类器,形成一个新的分割模型,得到遥感图像语义分割模型。
CN202010475602.8A 2020-05-29 2020-05-29 融合改进UNet和SegNet的遥感图像语义分割方法 Active CN111783782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010475602.8A CN111783782B (zh) 2020-05-29 2020-05-29 融合改进UNet和SegNet的遥感图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010475602.8A CN111783782B (zh) 2020-05-29 2020-05-29 融合改进UNet和SegNet的遥感图像语义分割方法

Publications (2)

Publication Number Publication Date
CN111783782A true CN111783782A (zh) 2020-10-16
CN111783782B CN111783782B (zh) 2022-08-05

Family

ID=72753929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010475602.8A Active CN111783782B (zh) 2020-05-29 2020-05-29 融合改进UNet和SegNet的遥感图像语义分割方法

Country Status (1)

Country Link
CN (1) CN111783782B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508031A (zh) * 2020-12-22 2021-03-16 北京航空航天大学 一种从虚拟到现实的无监督遥感图像语义分割方法及模型
CN112560719A (zh) * 2020-12-21 2021-03-26 南京信息工程大学 基于多尺度卷积-多核池化的高分辨率影像水体提取方法
CN112580484A (zh) * 2020-12-14 2021-03-30 中国农业大学 基于深度学习的遥感影像玉米秸秆覆盖识别方法及装置
CN112651364A (zh) * 2020-12-31 2021-04-13 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN112733756A (zh) * 2021-01-15 2021-04-30 成都大学 一种基于w散度对抗网络的遥感图像语义分割方法
CN112927254A (zh) * 2021-02-26 2021-06-08 华南理工大学 一种单字碑帖图像二值化方法、系统、装置及存储介质
CN113435271A (zh) * 2021-06-10 2021-09-24 中国电子科技集团公司第三十八研究所 一种基于目标检测和实例分割模型的融合方法
CN113449594A (zh) * 2021-05-25 2021-09-28 湖南省国土资源规划院 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN113486762A (zh) * 2021-06-30 2021-10-08 中南大学 基于SegNet-SL网络的小障碍物检测方法
CN113516084A (zh) * 2021-07-20 2021-10-19 海南长光卫星信息技术有限公司 高分辨率遥感影像半监督分类方法、装置、设备及介质
CN113792742A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 遥感图像的语义分割方法和语义分割模型的训练方法
CN113838083A (zh) * 2020-10-19 2021-12-24 南京航空航天大学 多尺度增强UNet被动式太赫兹图像固定背景扣除方法
CN113920421A (zh) * 2021-07-03 2022-01-11 桂林理工大学 一种快速分类的全卷积神经网络模型
CN113945862A (zh) * 2021-10-18 2022-01-18 广东电网有限责任公司东莞供电局 一种配电网高阻接地故障识别方法、装置及设备
CN115205300A (zh) * 2022-09-19 2022-10-18 华东交通大学 基于空洞卷积和语义融合的眼底血管图像分割方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019222936A1 (zh) * 2018-05-23 2019-11-28 富士通株式会社 用于语义分割的分类神经网络的训练方法及装置、电子设备
CN110796105A (zh) * 2019-11-04 2020-02-14 中国矿业大学 一种基于多模态数据融合的遥感图像语义分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019222936A1 (zh) * 2018-05-23 2019-11-28 富士通株式会社 用于语义分割的分类神经网络的训练方法及装置、电子设备
CN110796105A (zh) * 2019-11-04 2020-02-14 中国矿业大学 一种基于多模态数据融合的遥感图像语义分割方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838083B (zh) * 2020-10-19 2024-04-05 南京航空航天大学 多尺度增强UNet被动式太赫兹图像固定背景扣除方法
CN113838083A (zh) * 2020-10-19 2021-12-24 南京航空航天大学 多尺度增强UNet被动式太赫兹图像固定背景扣除方法
CN112580484A (zh) * 2020-12-14 2021-03-30 中国农业大学 基于深度学习的遥感影像玉米秸秆覆盖识别方法及装置
CN112580484B (zh) * 2020-12-14 2024-03-29 中国农业大学 基于深度学习的遥感影像玉米秸秆覆盖识别方法及装置
CN112560719B (zh) * 2020-12-21 2023-07-04 南京信息工程大学 基于多尺度卷积-多核池化的高分辨率影像水体提取方法
CN112560719A (zh) * 2020-12-21 2021-03-26 南京信息工程大学 基于多尺度卷积-多核池化的高分辨率影像水体提取方法
CN112508031B (zh) * 2020-12-22 2022-09-02 北京航空航天大学 一种从虚拟到现实的无监督遥感图像语义分割方法及模型
CN112508031A (zh) * 2020-12-22 2021-03-16 北京航空航天大学 一种从虚拟到现实的无监督遥感图像语义分割方法及模型
CN112651364A (zh) * 2020-12-31 2021-04-13 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN112733756B (zh) * 2021-01-15 2023-01-20 成都大学 一种基于w散度对抗网络的遥感图像语义分割方法
CN112733756A (zh) * 2021-01-15 2021-04-30 成都大学 一种基于w散度对抗网络的遥感图像语义分割方法
CN112927254A (zh) * 2021-02-26 2021-06-08 华南理工大学 一种单字碑帖图像二值化方法、系统、装置及存储介质
CN113449594A (zh) * 2021-05-25 2021-09-28 湖南省国土资源规划院 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN113449594B (zh) * 2021-05-25 2022-11-11 湖南省国土资源规划院 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN113435271A (zh) * 2021-06-10 2021-09-24 中国电子科技集团公司第三十八研究所 一种基于目标检测和实例分割模型的融合方法
CN113486762A (zh) * 2021-06-30 2021-10-08 中南大学 基于SegNet-SL网络的小障碍物检测方法
CN113920421A (zh) * 2021-07-03 2022-01-11 桂林理工大学 一种快速分类的全卷积神经网络模型
CN113516084A (zh) * 2021-07-20 2021-10-19 海南长光卫星信息技术有限公司 高分辨率遥感影像半监督分类方法、装置、设备及介质
CN113792742A (zh) * 2021-09-17 2021-12-14 北京百度网讯科技有限公司 遥感图像的语义分割方法和语义分割模型的训练方法
CN113945862A (zh) * 2021-10-18 2022-01-18 广东电网有限责任公司东莞供电局 一种配电网高阻接地故障识别方法、装置及设备
CN115205300B (zh) * 2022-09-19 2022-12-09 华东交通大学 基于空洞卷积和语义融合的眼底血管图像分割方法与系统
CN115205300A (zh) * 2022-09-19 2022-10-18 华东交通大学 基于空洞卷积和语义融合的眼底血管图像分割方法与系统

Also Published As

Publication number Publication date
CN111783782B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN111783782B (zh) 融合改进UNet和SegNet的遥感图像语义分割方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN107316307B (zh) 一种基于深度卷积神经网络的中医舌图像自动分割方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN103955702B (zh) 基于深度rbf网络的sar图像地物分类方法
CN107862261A (zh) 基于多尺度卷积神经网络的图像人群计数方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN109886161B (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN107122776A (zh) 一种基于卷积神经网络的交通标志检测与识别方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN111814611B (zh) 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN111368935B (zh) 一种基于生成对抗网络的sar时敏目标样本增广方法
CN110717921B (zh) 改进型编码解码结构的全卷积神经网络语义分割方法
CN111553438A (zh) 一种基于卷积神经网络的图像识别方法
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN110517272B (zh) 基于深度学习的血细胞分割方法
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN113627240B (zh) 一种基于改进ssd学习模型的无人机树木种类识别方法
CN114972753A (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
Wang et al. High-resolution remote sensing images semantic segmentation using improved UNet and SegNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant