CN113807356B - 一种端到端的低能见度图像语义分割方法 - Google Patents
一种端到端的低能见度图像语义分割方法 Download PDFInfo
- Publication number
- CN113807356B CN113807356B CN202111011127.XA CN202111011127A CN113807356B CN 113807356 B CN113807356 B CN 113807356B CN 202111011127 A CN202111011127 A CN 202111011127A CN 113807356 B CN113807356 B CN 113807356B
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- image
- module
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种端到端的低能见度图像语义分割方法,本发明将模型分为低能见度图像清晰化和图像语义分割两个部分,其中,图像语义分割部分是将清晰化后的低能见度图像进行语义分割,将边缘信息设计为一个单独的处理分支,该分支与传统特征提取分支并行处理信息,以提高轮廓处的分割精度。最后,合理设计多个损失函数,对网络参数进行优化,除了均方差损失函数和CE损失函数,还加入了感知损失、GAN损失等其他损失函数优化,根据每个损失函数的作用与贡献设置不同损失函数的权重,从而更有效的优化模型,以达到更好的分割效果。
Description
技术领域
本发明涉及图像语义分割领域,具体涉及一种端到端低能见度图像语义分割方法,属于计算机视觉领域。
背景技术
近年来,随着深度学习的快速发展,端到端的网络模型在不同的任务中被采用,并取得了不错的效果。端到端模型是指输入端由原始数据输入,输出端输出结果,从输入端到输出端之间的神经网络自成一体。端到端模型的优点之一是仅使用一个模型、一个目标函数,避免了非端到端模型固有的缺陷;另一个优点是简化了工程的复杂度,所有步骤在一个网络中解决。
低能见度图像由于受到尘雾、水雾的影响,图像质量下降,导致其应用在计算机视觉任务中精度受到影响,所以在对其进行分割、检测等任务之前要先进行清晰化处理操作,提高图像的对比度,使图像变成更易于人眼和计算机识别的形式。低能见度图像清晰化算法大都基于低能见度图像的成像机理设计不同的模型,来学习低能见度图像和清晰图像之间的映射关系,将学习到的知识用来指导低能见度图像的复原。大多数模型采用均方误差(Microsoft Security Essentials,MSE)损失函数,还有的采用了生成式对抗网络(Generative Adversarial Networks,GAN)来计算损失,模型的客观评价指标基本上采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(StructuralSimilarity,SSIM)。语义分割算法是细粒度的场景识别算法,对图像上的每个像素点进行分类,常用的网络结构有编解码结构,并添加各种功能模块以提高分割的精度。大多数模型采用交叉熵损失(Cross Entropy Loss,CE)损失函数,模型的客观评价指标基本上采用mIoU。由此可见,低能见度图像清晰化任务和语义分割任务的损失函数与想要达到的客观指标都不同,因此现有算法基本上都是采用非端到端的形式实现对低能见度图像的语义分割场景理解。但是非端到端模型两个任务无法得到关联,而清晰化的效果又大大影响后续语义分割的精度,如果能够使得语义分割的结果也能调整清晰化模型的参数,那么语义分割的精度会得到提升。
目前语义分割算法在低能见度图像上适用性不足、分割精度低的问题,在深度学习的理论和方法的基础上,提出一种端到端的低能见度图像语义分割模型,该模型能够实现语义分割算法在低能见度图像上准确地分割目标物体,并为更多需要场景理解的低能见度条件提供一种新的实现思路。
发明内容
为了克服上述问题,本发明构建基于特征融合的低能见度图像清晰化模型,得到了低能见度尘雾图像清晰化效果。本发明在低能见度尘雾图像的语义分割上效果更好,且具有良好的通用性。
本发明的技术方案具体为:
一种图像语义分割方法,其核心包括:1)将低能见度图像清晰化:该部分提出一种基于特征融合的低能见度图像清晰化模型,提出的网络主要由特征编码、特征融合、特征解码三部分组成,在特征编码之后进行了特征融合,采用的结构是一个并行高分辨率的多尺度融合模块,在结构内部进行密集的多尺度特征融合,最后进行特征解码,获得清晰化处理后的图像;2)对清晰化后的图像进行图像语义分割:采用一种用于语义分割的两分支CNN网络结构,将边缘信息设计为一个单独的处理分支,与传统特征提取分支并行处理信息,利用门控卷积层(Gated Convolution Layer,GCL)连接两种分支,采用Canny算子对图像边缘进行检测,将检测到的边缘信息与边缘分支的输出进行融合,并与常规特征提取分支的输出一起输入解码器中,得到分割结果;3)对端到端低能见度图像语义分割模型进行优化:采用四种不同的损失函数,包括CE、均方差、GAN和感知损失,将这些损失函数加在一起得到端到端模型的损失函数,共同优化模型。
具体来说,本发明的方法包括下列步骤:
A.制作数据集:
本发明根据实际拍摄到的井下煤矿图像对相应的类别进行语义标注,制作煤矿低能见度图像语义分割数据集,分成训练集和测试集;
B.将低能见度图像清晰化部分,该部分包括三个步骤:
B1.将低能见度图像进行特征编码:
低能见度图像特征编码部分由7个编码层组成,7个编码层中均包含实例归一化层和ReLU非线性激活层,7个编码层包括两个卷积模块,一个卷积模块+注意力机制模块,四个平滑空洞卷积残差模块+注意力机制模块;具体实现如下:
B1.1第1个和第2个编码层只采用卷积模块对图像的特征信息进行提取,卷积模块中采用3×3的卷积核,通道数为64个;
B1.2将B1.1的结果输入到第3个编码层中,采用卷积模块和轻量化注意力机制模块对图像的特征信息进行提取,轻量化注意力机制模块提高信息处理的敏感性,将更多的注意力集中在有价值的神经元或特征上,将卷积的步长参数设置为2,特征图的分辨率大小变为原来的一半;
B1.3将B1.2中结果依次第4个到第7个编码层中,均采用的是平滑空洞卷积残差模块和轻量化注意力机制模块组合的形式对图像的特征信息进行提取,残差模块中采用平滑空洞卷积提取上下文信息,平滑空洞卷积消除原始空洞卷积的网络伪影效应,空洞率分别设置为2,2,2,4,通道数均为64,特征图的分辨率大小不变;残差模块采用ResNet网络中的结构,在生成更复杂的特征同时更易于优化训练。
B1.4轻量化注意力机制模块的设计是由Fn推断出的注意力特征图F′n,通过模拟神经元之间的相互依赖性和相互影响,每组Fn经过式1中的特征重新分配后,通过学习收集跨通道信息,补充特征图的全局信息,具体实现如下:
B1.4.1将前一模块输出的特征图F∈Rm×h×w作为轻量化注意力机制模块输入,其中m为输入特征图的通道数,h和w为输入特征图的空间维度,对特征图F进行深度卷积,将输入特征图的空间信息进行融合;
B1.4.2将B1.4.1的输出应用简单的ReLU激活来实现非线性特性提取;
B1.4.3将B1.4.2的输出进行点卷积,对输入特征图的通道信息进行融合,降低特征图的通道数,其卷积核大小为1×1,其深度表示输入的特征图数量;
B1.4.4将B1.4.3的输出应用Sigmoid激活函数得到最终校正后的特征图F′n
B1.4.5将F′n与Fn应用式2得到最终的输出图,其中是逐像素相乘操作,/>是逐像素相加操作。
F′n=Sigmoid(PW1(ReLU(DW1×1(Fn)))) (式1)
式1中,ReLU和Sigmoid都为激活函数,DW1×1是核大小为1×1的深度卷积,PW1代表只有一个卷积核的点卷积。
B2.进行多尺度特征融合,该部分包括三个步骤:
B2.1对特征编码输出的特征图进行下采样操作,将特征图缩小到原来的二分之一;
B2.2将B2.1中结果和特征编码输出的特征图共同输入多尺度融合模块中进行特征融合,本发明共设计3个多尺度融合模块,其中以第1个模块为例,具体实现如下:
B2.2.1两个输入分支分别经过各自的平滑空洞卷积残差模块提取复杂特征,
B2.2.2进行特征融合操作,每个支路的特征信息都融合了另一条支路的特征信息,遇到特征图大小不匹配的情况,按照图1中C1、C2、C3和C4的方式操作,C1和C4代表不进行任何操作,C2将第2条支路的输出上采样到与第1条支路输出相同的大小,C3将第1条支路的输出下采样到与第2条支路输出相同的大小;
B2.2.3将B2.2.2中结果里最小的特征图进行B2.2.1操作,将结果和前一多尺度融合模块的输出共同输入到下一多尺度融合模块中;
B2.2.4对经过3个多尺度融合模块的输出特征图进行上采样操作,将这些支路输出的最终特征图大小统一到与主干网络的特征图大小一致;
B2.2.5把所有特征提取支路的特征图信息融合;
B3.对特征图进行特征解码:
将特征图输入到反卷积模块中,恢复特征图分辨率,获得清晰化处理后的图像。
C.对清晰化后的图像进行图像语义分割处理
C1.对清晰化后图像进行特征编码,本发明采用的基线模型是Light-WeightRefineNet网络,将边缘信息设计为一个单独的处理分支,即边缘分支,该分支与传统特征提取分支并行处理信息,常规特征提取分支的主干网络是标准分割网络,选取前馈全卷积特征提取网络,本发明使用ResNet相似的体系结构,具有参数θ,输出像素特征,表示为其中m是常规特征提取分支的步长,具体实现如下:
C1.1输入高度H和宽度W的图像I∈R3×H×W到常规特征提取分支Rθ(I)的第一个卷积层进行特征提取,得到1/4特征图;
C1.2将C1.1中结果输入到常规特征提取分支Rθ(I)的第二个卷积层进行特征提取,得到1/8特征图,将1/4特征图和1/8特征图分别输入到边缘分支的卷积层进行归一化处理;
C1.3将归一化处理后的1/4特征图输入到残差模块中,将结果和1/8特征图共同输入到门控卷积模块,GCL禁止常规特征提取分支中包含的更高级别的信息认为是无关的特性激活,帮助边缘分支只关注相关部分,可以更有效地处理图像,具体实现如下:
C1.3.1将常规流特征图rt和边缘流特征图st连接;
C1.3.2将C1.3.1结果通过归一化的1×1卷积层C1×1和Sigmoid函数δ,得到注意力图αt∈RH×W,αt可以看作是一种用边界信息加权重要区域的注意力图,表达式如式3所示;
αt=δ(C1×1(st||rt)) (式3)
其中,║为特征图的串联。
C1.3.3给定注意力图αt,将GCL作为具有注意图αt的元素方式乘积应用于st;
C1.3.4进行残差连接并使用核wt进行通道方式加权,在每个像素(i,j)上,GCL的计算如式4所示;
C1.3.5将输入到边缘分支中的下一层继续处理;
C1.4将1/8特征图输入到常规特征提取分支Rθ(I)的第三个卷积层进行特征提取得到1/16特征图后,输入到卷积层进行归一化处理,将结果与C1.3中结果通过残差模块的输出一起输入到门控卷积模块;
C1.5将1/16特征图输入到常规特征提取分支Rθ(I)的第四个卷积层进行特征提取得到1/32特征图后,输入到卷积层进行归一化处理,将结果与C1.4中结果通过残差模块的输出一起输入到门控卷积模块;
C1.6采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与C1.5的输出进行融合,并与常规特征提取分支经过四层卷积后的输出一起作为解码器的输入;
C2.对特征图进行解码操作
解码器部分采用基线模型Light-Weight RefineNet中的多路径优化的网络结构,由链式残差池化模块和融合模块构成,链式残差池化模块从较大的图像区域捕获背景上下文信息并提取高级语义特征,残差连接在整个语义分割网络内部形成了短距离连接的同时,还与特征提取网络ResNet形成了长距离的连接,融合模块利用多尺度信息补充图像的全局和局部信息,具体实现如下:
C2.1将上步骤的结果输入到链式残差池化模块,链式残差池化模块由一系列的池化层与卷积层构成,以残差的形式排列;
C2.2将链式残差池化模块的输出通过融合模块,融合模块对两路数据分别执行3×3卷积并上采样后求和;
C2.3将C2.2中结果重复C2.1中操作,再将结果重复C2.2中操作,将此两个过程进行两次;
C2.4将C2.3中结果输入链式残差池化模块,得到最终的分割结果;
D.利用损失函数对端到端低能见度图像语义分割模型进行训练
本发明提出的端到端低能见度图像语义分割模型中采用了四种不同的损失函数,包括CE、均方差、GAN和感知损失,将这些损失函数加在一起得到端到端模型的损失函数;
根据每个损失函数对目标函数的贡献程度不同,应用参数λi以线性组合加权相对影响,损失函数如公式5所示,具体实现如下:
Lgenerator=LGAN+λ1Lreconstruction+λ2Lperceptual+λ3Lsegmentation (式5)
D.1利用GAN损失函数优化模型,条件生成对抗网络(Conditional GenerativeAdversarial Nets,CGAN)可学习从观察到的图像x和随机噪声矢量z到y映射,G:{x,z}→y,经过对抗训练的鉴别器D训练生成器G,使之产生无法与真实图像区分开的输出,训练鉴别器D以尽可能准确地检测出生成器生成的图像,CGAN的目标函数如式6所示:
LcGAN(G,D)=Ex,y[logD(x,y)]+Ex,z[log(1-D(x,G(x,z))] (式6)
其中,G尝试将这个目标最小化,而判别器D则尝试将其最大化,即G*=argminGmaxDLcGAN(G,D),
使用常规损失函数和GAN损失函数共同训练使模型达到更好的优化效果,其中判别器仍然用于区分生成器的输出和标签图像,生成器除了要让判别器尽可能无法区分两个输入,还需保证两个图像的常规损失函数求解的误差最小,本发明探索了如式7所示的损失函数,使用L1损失函数以减少图像的模糊,
LL1(G)=Ex,y,z[||y-G(x,z)||1] (式7)
本发明最终采用的GAN目标函数如式8所示:
D.2使用MSE损失函数作为重建损失,即L2损失函数,它计算预测值与目标值之间差值的平方和,提高训练的网络准确率,计算如式9所示:
D.3利用感知损失函数优化低能见度图像清晰化模型的特征重建部分,在计算低层的特征损失(像素颜色,边缘等)的基础上,将生成图片卷积得到的特征图与真实图片卷积得到的特征图作比较,并计算损失,使得高层信息(内容和全局结构)接近,从高维度生成更接近人的思维的层次感知图像,使用的损失网络是16层的VGG网络模型,经过ImageNet的预训练,使用φ来表示损失网络,定义感知损失来分别度量风格与内容的感知不同,实现最优化得到训练模型,相关的损失函数如式10所示:
其中,Cj,Hj,Wj为特征图的通道数和长宽,j表示网络的第j层。式10计算的是生成器生成的图像和目标图像通过φ处理后的欧氏距离(平方加标准化)。
D.4用Lsegmentation分量评估低能见度清晰化对语义分割性能的影响,度量两个概率分布间的差异性信息,用于评价语义分割网络,使用时用p代表标签的分布,用q代表网络输出的分割结果的分布,用CE求出p与q的差距,来判断两个分布的接近程度;
CE方法基于信息论中CE的概念,反映预测概率分布和真实概率分布的差别。多分类模型下,基于CE的损失函数如式11所示:
往往每个样例的真实概率分布为one-hot型,即每个样例都属于某类,表达式如式12示。
式11可以变成如式13所示:
其中ki为第i个样例的类别。
在二分类模型中,即类别是1和0,模型的预测值/>是样例为1类的预测概率,二分类模型表达式如式14所示:
不论ki是0还是1,表达式可以变成如式15所示的形式。
由此,基于CE的损失函数如式16所示。
与现有技术相比,本发明具有以下技术优势:
(1)构建基于特征融合的低能见度图像清晰化模型,在结构中进行密集的多尺度特征融合,保障图像上下文信息参与到图像全局和局部信息的提取;对神经元之间的跨信道和全局性进行建模,来自适应地重新校准神经元特征响应,有助于特征编码阶段在提取特征信息时将更多的注意力集中在有价值的神经元或特征上面;在注意力机制模块中采用深度卷积和点卷积来降低模型的参数,以保证清晰化精度的前提下适当地实现模型的轻量化设计;
(2)将边缘信息设计为一个单独的处理分支,该分支与传统特征提取分支并行处理信息,以提高轮廓处的分割精度;采用Canny边缘检测算子提取物体的边缘信息,将信息添加到边缘分支输出的特征图中,辅助轮廓的学习;
(3)连接基于注意力机制和特征融合的低能见度图像清晰化模型和基于融合边缘优化模块的语义分割模型在一个网络架构中,提出一个端到端低能见度图像语义分割模型,合理设计多个损失函数,对网络参数进行优化,除了均方差损失函数和CE损失函数,还加入了感知损失、GAN损失等其他损失函数优化,根据每个损失函数的作用与贡献设置不同损失函数的权重,从而更有效的优化模型,以达到更好的分割效果。
附图说明
图1:特征融合层信息融合部分两个输入分支的多尺度融合模块结构图;
图2:端到端低能见度图像语义分割模型结构图;
图中,1-卷积模块;2-卷积模块+注意力机制模块;3-平滑空洞卷积残差模块+注意力机制模块;4-下采样模块;5-多尺度特征融合模块;6-上采样模块;7-反卷积模块;8-平滑空洞卷积残差模块;9-门控卷积模块;10-对图像边缘进行检测;11-融合模块;12-链式残差池化模块。
图3:煤矿低能见度图像语义分割数据集语义分割结果图;其中图(a)为原始图像,图(b)为采用非端到端算法的结果,图(c)为采用本发明的结果。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本文提出了一种端到端的低能见度图像语义分割模型方法。网络实现了将基于注意力机制和特征融合的低能见度图像清晰化模型和融合边缘优化模块的语义分割模型设计在一个端到端网络架构中,并使用多个损失函数解决低能见度图像语义分割算法两个任务分开优化导致分割精度不高的问题,最终得到了更好的低能见度尘雾图像清晰化效果。图2是本发明的实现整体流程图。
以下实施例针对本发明制作的煤矿低能见度图像语义分割数据集,进行本发明所提的端到端低能见度图像语义分割方法;具体包括如下步骤:
A.将实际拍摄到的井下煤矿图像对相应的类别进行语义标注,制作煤矿低能见度图像语义分割数据集。考虑到尘雾水平的不一致,针对每幅采集到的煤矿图像分别生成3张不同尘雾程度的低能见度仿真图像。最终,构建的煤矿低能见度图像语义分割数据集共包括1800幅图像,其中1000幅作为训练集,800幅作为测试集,其中包含4个语义分割的类标签。
B.将煤矿低能见度图像先输入到端到端低能见度图像语义分割方法。默认情况下,使用Adam算法实现对网络的优化。
C.本发明对整个网络进行300个时期的训练,默认的编码器初始学习率设置为0.0005,默认的解码器初始学习率设置为0.005,所有实验均在1个GPU上使用默认的批处理大小训练为6。在100和200个epochs之后,将学习率降低了一半,并持续训练直到300个时代,或者直到更早收敛为止。
D.对端到端模型参数优化过程,根据语义分割结果的计算误差来调节清晰化子网络的参数,在式5中设置λ1、λ2和λ3为分别为10、10和5。
本发明将提出的算法用在煤矿低能见度图像语义分割数据集上面进行了语义分割实验,表1为语义分割各算法的客观指标评价结果,表中的本发明算法特指本节提出的端到端低能见度图像语义分割模型,非端到端算法特指端到端结构中低能见度图像清晰化部分中晰化模型和端到端结构中图像语义分割部分中图像语义分割模型构成的两步非端到端方法。
表1煤矿低能见度图像语义分割数据集客观指标评价结果
从表1中可以看出,本发明提出的端到端低能见度图像语义分割算法在煤矿低能见度图像语义分割数据集上mIoU客观指标取得了比非端到端方法高的分数,煤矿低能见度图像语义分割数据集上的评价结果表明本发明提出的端到端算法具有一定的有效性,比非端到端算法效果更好,并且如果考虑到将模型部署在嵌入式端使用,端到端模型更易于部署。
表2煤矿低能见度图像语义分割数据集各类别客观指标评价结果
从表2中可以看出,本发明提出的端到端低能见度图像语义分割算法在煤矿低能见度图像语义分割数据集上的各个类别上面mIoU客观指标取得了比非端到端方法高的分数,表明了本发明提出的端到端低能见度图像语义分割算法在煤矿井下中的多个物体的语义分割上面都能取得较好的结果,且本发明设计的端到端结构对不同物体的分割结果均有不同程度的提升,进一步证明了本发明提出的模型结构更适用于低能见度图像语义分割任务。
将本发明提出的端到端低能见度图像语义分割算法用在煤矿低能见度图像语义分割数据集上的主观评价结果如图3所示,由图中可以看出,本发明提出的端到端低能见度图像语义分割模型能够有效分割煤矿井下中的不同物体,且与非端到端模型相比分割效果更准确。
Claims (9)
1.一种图像语义分割方法,包括如下步骤:
A.制作数据集,分成训练集和测试集;
B.图像清晰化,包括三个步骤:
B1.将低能见度图像进行特征编码:图像特征编码部分由7个编码层组成,7个编码层中均包含实例归一化层和ReLU非线性激活层,七个编码层包括两个卷积模块,一个卷积模块+注意力机制模块,四个平滑空洞卷积残差模块+注意力机制模块;
B2.进行多尺度特征融合,该部分包括三个步骤:
B2.1对特征编码输出的特征图进行下采样操作,将特征图缩小到原来的二分之一;
B2.2将B2.1中结果和特征编码输出的特征图共同输入多尺度融合模块中进行特征融合,具体实现如下:
B2.2.1两个输入分支分别经过各自的平滑空洞卷积残差模块提取复杂特征,
B2.2.2进行特征融合操作,每个支路的特征信息都融合了另一条支路的特征信息;
B2.2.3将B2.2.2中结果里最小的特征图进行B2.2.1操作,将结果和前一多尺度融合模块的输出共同输入到下一多尺度融合模块中;
B2.2.4对经过3个多尺度融合模块的输出特征图进行上采样操作,将这些支路输出的最终特征图大小统一到与主干网络的特征图大小一致;
B2.2.5把所有特征提取支路的特征图信息融合;
B3.对特征图进行特征解码:将特征图输入到反卷积模块中,恢复特征图分辨率,获得清晰化处理后的图像;
C.对清晰化后的图像进行图像语义分割处理:
C1.对清晰化后图像进行特征编码,采用的基线模型是Light-Weight RefineNet网络,将边缘信息设计为一个单独的处理分支,即边缘分支,该分支与传统特征提取分支并行处理信息,常规特征提取分支的主干网络是标准分割网络,选取前馈全卷积特征提取网络,使用ResNet相似的体系结构,具有参数θ,输出像素特征,表示为其中m是常规特征提取分支的步长,具体实现如下:
C1.1输入高度H和宽度W的图像I∈R3×H×W到常规特征提取分支Rθ(I)的第一个卷积层进行特征提取,得到1/4特征图;
C1.2将C1.1中结果输入到常规特征提取分支Rθ(I)的第二个卷积层进行特征提取,得到1/8特征图,将1/4特征图和1/8特征图分别输入到边缘分支的卷积层进行归一化处理;
C1.3将归一化处理后的1/4特征图输入到残差模块中,将结果和1/8特征图共同输入到门控卷积模块;
C1.4将1/8特征图输入到常规特征提取分支Rθ(I)的第三个卷积层进行特征提取得到1/16特征图后,输入到卷积层进行归一化处理,将结果与C1.3中结果通过残差模块的输出一起输入到门控卷积模块;
C1.5将1/16特征图输入到常规特征提取分支Rθ(I)的第四个卷积层进行特征提取得到1/32特征图后,输入到卷积层进行归一化处理,将结果与C1.4中结果通过残差模块的输出一起输入到门控卷积模块;
C1.6采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与C1.5的输出进行融合,并与常规特征提取分支经过四层卷积后的输出一起作为解码器的输入;
C2.对特征图进行解码操作,解码器部分采用基线模型Light-Weight RefineNet中的多路径优化的网络结构,由链式残差池化模块和融合模块构成,具体实现如下:
C2.1将上步骤的结果输入到链式残差池化模块,链式残差池化模块由一系列的池化层与卷积层构成,以残差的形式排列;
C2.2将链式残差池化模块的输出通过融合模块,融合模块对两路数据分别执行3×3卷积并上采样后求和;
C2.3将C2.2中结果重复C2.1中操作,再将结果重复C2.2中操作,将此两个过程进行两次;
C2.4将C2.3中结果输入链式残差池化模块,得到最终的分割结果;
D.利用CE、均方差、GAN和感知损失四种损失函数以线性组合加权相对影响加在一起得到的端到端模型的损失函数对端到端低能见度图像语义分割模型进行训练,损失函数如公式1所示,具体实现如下:
Lgenerator=LGAN+λ1Lreconstruction+λ2Lperceptual+λ3Lsegmentation (1)
D.1利用GAN损失函数优化模型,采用的GAN目标函数如式2所示:
D.2使用MSE损失函数作为重建损失,即L2损失函数,它计算预测值与目标值之间差值的平方和,提高训练的网络准确率,计算如式3所示:
D.3利用感知损失函数优化低能见度图像清晰化模型的特征重建部分,在计算低层的特征损失的基础上,将生成图片卷积得到的特征图与真实图片卷积得到的特征图作比较,并计算损失,使用的损失网络是16层的VGG网络模型,经过ImageNet的预训练,使用φ来表示损失网络,相关的损失函数如式4所示:
其中,Cj,Hj,Wj为特征图的通道数和长宽,j表示网络的第j层;
D.4用Lsegmentation分量评估低能见度清晰化对语义分割性能的影响,度量两个概率分布间的差异性信息,基于CE的损失函数如式5所示;
2.如权利要求1所述图像语义分割方法,其特征是,步骤A中,将图像数据集分成训练集、测试集;图像数据集使用根据实际拍摄到的井下煤矿图像对相应的类别进行语义标注,制作煤矿低能见度图像语义分割数据集,具体为:
针对每幅采集到的煤矿图像分别生成3张不同尘雾程度的低能见度仿真图像,构建的煤矿低能见度图像语义分割数据集共包括1800幅图像,其中1000幅作为训练集,800幅作为测试集,包含4个语义分割的类标签。
3.如权利要求1所述图像语义分割方法,其特征是,步骤B1中的特征编码部分的操作中,设置编码层结构,卷积模块的卷积层输入特征图通道数、卷积核大小、输出特征图通道数、填充的取值,具体为:
第1个和第2个编码层只采用卷积模块,卷积模块中采用3×3的卷积核,通道数为64个;
第3个编码层采用卷积模块和轻量化注意力机制模块,卷积的步长参数设置为2,特征图的分辨率大小变为原来的一半;
第4个到第7个编码层均采用的是平滑空洞卷积残差模块和轻量化注意力机制模块组合的形式,空洞率分别设置为2,2,2,4,通道数均为64,特征图的分辨率大小不变,残差模块采用ResNet网络中的结构。
4.如权利要求1所述图像语义分割方法,其特征是,步骤B1中的轻量化注意力机制模块设计,具体实现如下:
B1.4.1将前一模块输出的特征图F∈Rm×h×w作为轻量化注意力机制模块输入,其中m为输入特征图的通道数,h和w为输入特征图的空间维度,对特征图F进行深度卷积,将输入特征图的空间信息进行融合;
B1.4.2将B1.4.1的输出应用简单的ReLU激活来实现非线性特性提取;
B1.4.3将B1.4.2的输出进行点卷积,对输入特征图的通道信息进行融合,降低特征图的通道数,其卷积核大小为1×1,其深度表示输入的特征图数量;
B1.4.4将B1.4.3的输出应用Sigmoid激活函数得到最终校正后的特征图F′n;
B1.4.5将F′n与Fn应用式2得到最终的输出图,其中是逐像素相乘操作,/>是逐像素相加操作。
5.如权利要求1所述图像语义分割方法,其特征是,步骤B2中的多尺度特征融合模块,具体地,特征提取分支叫做高分辨率子网,经过第一个多尺度融合模块时,会在高分辨率子网中产生一个低分辨率子网,形成一个新的特征提取支路,以后每经过一个多尺度融合模块时,都会产生一个新的低分辨率子网,新的子网特征图分辨率都会减小一半,子网之间独立的提取特征,最后一个子网特征分辨率大小是第一个子网的1/8,整个网络都保持着高分辨率的特征,在每个子网内部特征的分辨率不会改变。
6.如权利要求1所述图像语义分割方法,其特征是,步骤C1中的特征编码,在原有常规特征提取分支上并行添加了一个边缘分支共同提取特征,具体实现如下:
C1.1输入高度H和宽度W的图像I∈R3×H×W到常规特征提取分支Rθ(I)的第一个卷积层进行特征提取,得到1/4特征图;
C1.2将C1.1中结果输入到常规特征提取分支Rθ(I)的第二个卷积层进行特征提取,得到1/8特征图,将1/4特征图和1/8特征图分别输入到边缘分支的卷积层进行归一化处理;
C1.3将归一化处理后的1/4特征图输入到残差模块中,将结果和1/8特征图共同输入到门控卷积模块;
C1.4将1/8特征图输入到常规特征提取分支Rθ(I)的第三个卷积层进行特征提取得到1/16特征图后,输入到卷积层进行归一化处理,将结果与C1.3中结果通过残差模块的输出一起输入到门控卷积模块;
C1.5将1/16特征图输入到常规特征提取分支Rθ(I)的第四个卷积层进行特征提取得到1/32特征图后,输入到卷积层进行归一化处理,将结果与C1.4中结果通过残差模块的输出一起输入到门控卷积模块;
C1.6采用Canny算子计算图像的梯度,对图像边缘进行检测,将检测到的边缘信息与C1.5的输出进行融合,并与常规特征提取分支经过四层卷积后的输出一起作为解码器的输入。
7.如权利要求6所述图像语义分割方法,其特征是,步骤C1.3中的门控卷积层,常规特征提取分支和边缘分支之间用GCL进行连接,具体实现如下:
C1.3.1将常规流特征图rt和边缘流特征图st连接;
C1.3.2将C1.3.1结果通过归一化的1×1卷积层C1×1和Sigmoid函数δ,得到注意力图αt∈RH×W,αt可以看作是一种用边界信息加权重要区域的注意力图,表达式如式6所示;
αt=δ(C1×1(st||rt)) (6)
其中,║为特征图的串联;
C1.3.3给定注意力图αt,将GCL作为具有注意图αt的元素方式乘积应用于st;
C1.3.4进行残差连接并使用核wt进行通道方式加权,在每个像素(i,j)上,GCL的计算如式7所示;
C1.3.5将输入到边缘分支中的下一层继续处理。
8.如权利要求1所述图像语义分割方法,其特征是,步骤D中的损失函数构建,具体地,端到端低能见度图像语义分割模型的损失函数采用了CE、均方差、GAN和感知损失四种损失函数,将这些损失函数加在一起得到端到端模型的损失函数,根据每个损失函数对目标函数的贡献程度不同,应用参数λi以线性组合加权相对影响,设置λ1、λ2和λ3为分别为10、10和5。
9.如权利要求1所述图像语义分割方法,其特征是,步骤D中利用损失函数训练,具体地,使用Adam算法实现对网络的优化,对整个网络进行300个时期的训练,默认的编码器初始学习率设置为0.0005,默认的解码器初始学习率设置为0.005,所有实验均在1个GPU上使用默认的批处理大小训练为6。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021108627213 | 2021-07-29 | ||
CN202110862721 | 2021-07-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807356A CN113807356A (zh) | 2021-12-17 |
CN113807356B true CN113807356B (zh) | 2023-07-25 |
Family
ID=78942127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111011127.XA Active CN113807356B (zh) | 2021-07-29 | 2021-08-31 | 一种端到端的低能见度图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807356B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445436A (zh) * | 2021-12-28 | 2022-05-06 | 厦门市美亚柏科信息股份有限公司 | 一种目标检测的方法、装置以及存储介质 |
CN115393596B (zh) * | 2022-10-28 | 2023-02-21 | 武汉纺织大学 | 一种基于人工智能的服装图像分割方法 |
CN116385467B (zh) * | 2023-05-29 | 2023-09-12 | 中国科学院自动化研究所 | 基于自监督学习的脑血管分割方法及相关设备 |
CN117809294B (zh) * | 2023-12-29 | 2024-07-19 | 天津大学 | 一种基于特征校正和差异指导注意力的文本检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298841A (zh) * | 2019-05-17 | 2019-10-01 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110363770A (zh) * | 2019-07-12 | 2019-10-22 | 安徽大学 | 一种边缘引导式红外语义分割模型的训练方法及装置 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN112101363A (zh) * | 2020-09-02 | 2020-12-18 | 河海大学 | 基于空洞残差和注意力机制的全卷积语义分割系统及方法 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112541503A (zh) * | 2020-12-11 | 2021-03-23 | 南京邮电大学 | 基于上下文注意力机制和信息融合的实时语义分割方法 |
CN113160234A (zh) * | 2021-05-14 | 2021-07-23 | 太原理工大学 | 基于超分辨率和域自适应的无监督遥感图像语义分割方法 |
CN113159202A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11443165B2 (en) * | 2018-10-18 | 2022-09-13 | Deepnorth Inc. | Foreground attentive feature learning for person re-identification |
-
2021
- 2021-08-31 CN CN202111011127.XA patent/CN113807356B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298841A (zh) * | 2019-05-17 | 2019-10-01 | 同济大学 | 一种基于融合网络的图像多尺度语义分割方法及装置 |
CN110363770A (zh) * | 2019-07-12 | 2019-10-22 | 安徽大学 | 一种边缘引导式红外语义分割模型的训练方法及装置 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN112101363A (zh) * | 2020-09-02 | 2020-12-18 | 河海大学 | 基于空洞残差和注意力机制的全卷积语义分割系统及方法 |
CN112396607A (zh) * | 2020-11-18 | 2021-02-23 | 北京工商大学 | 一种可变形卷积融合增强的街景图像语义分割方法 |
CN112541503A (zh) * | 2020-12-11 | 2021-03-23 | 南京邮电大学 | 基于上下文注意力机制和信息融合的实时语义分割方法 |
CN113159202A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN113160234A (zh) * | 2021-05-14 | 2021-07-23 | 太原理工大学 | 基于超分辨率和域自适应的无监督遥感图像语义分割方法 |
Non-Patent Citations (4)
Title |
---|
A-PSPNet:一种融合注意力机制的PSPNet图像语义分割模型;高丹;陈建英;谢盈;;中国电子科学研究院学报(第06期);全文 * |
图像标签传播标注算法的研究;孙沁瑶;谢涛;于重重;马萌;;计算机仿真(第08期);全文 * |
基于通道注意力机制的RGB-D图像语义分割网络;吴子涵;周大可;杨欣;;电子设计工程(第13期);全文 * |
融合ASPP-Attention和上下文的复杂场景语义分割;杨鑫;于重重;王鑫;陈秀新;;计算机仿真(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113807356A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537742B (zh) | 一种基于生成对抗网络的遥感图像全色锐化方法 | |
CN113807356B (zh) | 一种端到端的低能见度图像语义分割方法 | |
CN110992275B (zh) | 一种基于生成对抗网络的细化单幅图像去雨方法 | |
CN110084794B (zh) | 一种基于注意力卷积神经网络的皮肤癌图片识别方法 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN110929736B (zh) | 多特征级联rgb-d显著性目标检测方法 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN110826596A (zh) | 一种基于多尺度可变形卷积的语义分割方法 | |
CN107506761A (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN110598600A (zh) | 一种基于unet神经网络的遥感图像云检测方法 | |
CN110363215A (zh) | 基于生成式对抗网络的sar图像转化为光学图像的方法 | |
CN112017192B (zh) | 基于改进U-Net网络的腺体细胞图像分割方法及系统 | |
CN114511798B (zh) | 基于transformer的驾驶员分心检测方法及装置 | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
JP6830742B2 (ja) | 画素に基づく画像セグメンテーション用のプログラム | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
Wen et al. | GCD-DDPM: A generative change detection model based on difference-feature guided DDPM | |
CN111008570B (zh) | 一种基于压缩-激励伪三维网络的视频理解方法 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
Zhou et al. | Attention transfer network for nature image matting | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
Tolie et al. | DICAM: Deep Inception and Channel-wise Attention Modules for underwater image enhancement | |
CN115511882A (zh) | 一种基于病变权重特征图的黑色素瘤识别方法 | |
Nakao et al. | Selective super-resolution for scene text images | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |