CN115496764A - 一种基于密集特征融合的有雾图像语义分割方法 - Google Patents
一种基于密集特征融合的有雾图像语义分割方法 Download PDFInfo
- Publication number
- CN115496764A CN115496764A CN202211005997.0A CN202211005997A CN115496764A CN 115496764 A CN115496764 A CN 115496764A CN 202211005997 A CN202211005997 A CN 202211005997A CN 115496764 A CN115496764 A CN 115496764A
- Authority
- CN
- China
- Prior art keywords
- stage
- image
- decoder
- encoder
- feature fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 15
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000001629 suppression Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 206010040736 Sinoatrial block Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 239000003595 mist Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005489 elastic deformation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一个基于U型卷积神经网络模型的雾天图像语义分割方法,通过密集特征融合方法和注意力机制,使网络在有雾的图像上可以更好地提取目标特征,从而完成对雾天图像的语义分割。本发明设计U型网络来结合密集特征融合和注意力机制方法,有效的对有雾图像完成雾噪声的抑制与语义特征的分割。本发明适用于场景广泛,例如雾天的自动驾驶、人机交互和监控探查等实际应用场景。
Description
技术领域
本发明属于图像处理分割技术领域,尤其涉及一种在U型网络架构的基础上利用密集特征融合技术和注意力机制提取雾天图像特征的语义分割方法。
背景技术
雾天图像恢复在计算机视觉的图像增强领域也是一个重要的研究问题。传统的去雾方法大多基于大气散射模型理论,大气散射模型将雾天场景看做是光被空气中的微粒散射形成的,其模型主要由传输图、全局大气光等参数组成,通过求解精确的传输图获得清晰图像。何凯明提出暗通道先验算法来估算大气散射模型中的透射率,但对于一些特定图像(含有白色景物和天空区域等)失效,在大气散射模型失效时也同时失效。随着深度学习的兴起,基于卷积神经网络的图像去雾模型在近年来也被广泛研究。Cai等人提出了基于深度学习架构的去雾算法DehazeNet。DehazeNet通过设计深度学习架构来学习雾图与传输图之间的映射关系,结合大气散射模型与暗通道先验等多种先验原理,实现了较为轻量级的图像去雾。Ren等人提出了一种多尺度卷积神经网络去雾模型,作者运用大气散射模型生成的雾图进行训练,使用粗尺度网络与细尺度网络的特征图进行特征合并,达到了多尺度特征补充的效果,完成了较为精确的深度估计。Li等人设计了一种由雾图直接得到清晰图像的AOD-Net(All-in-one Dehazing Network,端到端去雾的网络)。作者研究注重模型端到端的特性,将所有去雾的细节统一在一个一体化模型当中以便于与其他高级任务网络模型对接。然而AOD-Net对于浓雾图像的处理效果较差,其处理后的浓雾图像效果对后续任务提升有限。Son等人设计了一种面向目标检测的URIE(Universal Image Enhancement,轻量级图像恢复网络)。作者在网络中设计了SEM(Selective Enhancement Module,选择性增强模块),模块通过串行的方式进行图像恢复,并通过模块内的注意力机制选择某一种退化方式进行增强,并在增强模型内设计恢复模块的多次串联成倍提升增强的效果。但是,雾天图像分割任务中,简单的模块堆叠不仅增加了网络模型的参数量和计算速度,而且经过去雾模块处理后的图像特征并不一定适用于图像语义分割。
语义分割就是对图像进行像素级分类,预测每个像素属于的类别,是当今计算机视觉领域的关键问题之一。随着CNN(Convolutional Neural Network,卷积神经网络)和深度学习在计算机视觉领域展现出优异的性能后,越来越多的研究倾向于利用CNN和深度学习方法来构建图像识别模型。并在大规模数据集的开发后,图像语义分割任务也得到了突飞猛进的发展,分割效果也逐步达到了SOTA水平,并且在自动驾驶、人机交互等实际应用领域得到广泛地使用。Long等将分类网络改造成FCN(Fully Convolutional networks,全卷积网络)结构,FCN可以对图像进行像素级的分类,从而解决了语义级别的图像分割问题。Ronneberger等提出了用于医学图像分割网络模型UNet,使用了编码-解码的网络架构,使用弹性形变进行数据增强,使用少量的数据进行训练的情况下获得精确的分割结果。Chen等提出了一种基于空间特征金字塔的上下文信息聚合语义分割网络Deeplab,对于分辨率大幅下降的降采样问题使用膨胀卷积来获取上下文信息。Vijay等提出了SegNet语义分割网络模型,该网络同样使用编码器-解码器结构,具有提升边缘刻画度,减少训练的参数等优势。
但是当前的图像语义分割任务研究和应用仅针对光线强度正常、天气晴朗等条件下的普通图像。在特殊环境下,例如雾天等天气因素导致图像中物体不能清晰辨别,若使用目前语义分割方法对其直接进行语义分割,其分割准确性和平均交并比(MeanIntersection Over Union,mIOU)将大大降低。
发明内容
本发明的目的在于克服现有技术中的不足,提出了一种基于密集特征融合的有雾图像语义分割方法,使用U型网络的编码器-解码器结构,在编码器与解码器之间的跳连接中增加特征目的是将去雾任务与语义分割任务有效的融合进一个网络中,增强了该分割算法对有雾天气的适应性和鲁棒性,从而完成在雾图中更好的提取物体特征。
本发明的一种密集特征融合的有雾图像语义分割方法,包括如下步骤:
步骤1,获取有雾图像的训练数据集
步骤2:构建密集特征融合的雾天图像语义分割网络模型,所述深度学习的网络模型是基于密集特征融合方法与自注意力机制的U型网络;
步骤3:设置合适该任务网络的损失函数;
步骤4,利用步骤1中的数据集对步骤2中构建的深度学习网络模型进行训练,获得训练好的雾天图像语义分割网络模型参数;
步骤5:将待分割的雾天图像输入到训练好模型参数的网络模型中,输出雾天图像的分割结果图。
进一步的,步骤1中,将有雾图像和边界真值图像的训练集以及验证集,并进行预处理。
进一步的,步骤2中,所述密集特征融合的雾天图像语义分割网络模型包括编码器、跳连接模块、残差组模块和解码器,编码器、跳连接、残差组模块和解码器构成U型网络;
所述编码器分为四个阶段,包括依次连接的编码器第一阶段、编码器第二阶段、编码器第三阶段和编码器第四阶段;
所述解码器分为四个阶段,包括依次连接的解码器第一阶段、解码器第二阶段、解码器第三阶段和解码器第四阶段;
编码器第三阶段与解码器第二阶段之间、编码器第二阶段与解码器第三阶段之间、编码器第一阶段与解码器第四阶段之间、分别通过跳连接模块连接。编码器第四阶段经过两个残差组模块后与解码器第一阶段连接。
所述残差组模块包括三个残差结构连接而成。
进一步的,所述编码器第一阶段包括一个卷积层和一个残差组模块,卷积层后还有一个ReLU激活层,输入有雾图像经卷积层和ReLU激活层后,提取浅层特征,再送入残差组模块进一步特征提取,再经过步长为2的卷积层下采样后送入编码器的第二阶段。
编码器第二阶段和第三阶段均包括依次连接的密集特征融合模块(DenseFeature Fusion Block,DFF-block)、残差组模块,再经过步长为2的卷积层下采样后送入编码器的下一个阶段;
编码器第四阶段包括依次连接的残差组模块和密集特征融合模块;特征图在经过第四阶段的密集特征融合模块后获取深层特征,再经过底层两个残差组模块将深层特征传入到解码器。
编码器中每个阶段增强的DFF-block输出直接连接到以后编码器所有阶段的DFF-block输入,以进行特征融合。
同时编码器第一、第二、第三个阶段的残差组模块输出,均保留阶段性特征,传入对应连接的跳连接模块中。
进一步的,所述跳连接模块包括特征过渡模块,区别于U-Net的直接跳连接操作的,本发明在跳连接模块中加入特征过渡模块。在继承跳连接的优点同时,也强化物体边缘特征,既完成了编码器与解码器的特征过渡,又使去雾后图片特征更适合语义分割任务。
所述特征过渡模块包括有两个卷积层,第一个卷积层后是ReLU激活函数,第二个卷积层之后是sigmoid激活函数,再与输入特征逐像素相乘,逐像素相加。特征过渡模块的输入特征x,则输出特征O(x)表示为:
O(x)=σ[Conv(γ[Conv(x)])]*x+x,
式中,Conv为卷积操作,γ[·]为ReLU激活函数,σ[·]为Sigmod激活函数。
进一步的,解码器模块第一阶段获取深层特征后进行反卷积上采样;输入到解码器的第二阶段;
解码器第二阶段和第三阶段均包括基于增强机制的SOS(Strengthen-Operate-Subtract)提升策略结构和反卷积上采样组成。解码器第四阶段包括基于增强机制的SOS提升策略结构,
解码器第一阶段、第二阶段和第三阶段在上采样前,均通相同像素的上采样后拼接,再通过Squeeze-and-attention注意力机制模块(SA-block)后输出预测结果。
SOS提升策略结构替代了U-Net,在解码器中每阶段上采样后与跳连接直接拼接的操作;
进一步的,步骤3中,语义分割作为该网络的目标任务,因此选用预测结果与边界真值图像的交叉熵损失(Cross Entropy Loss,CE)作为网络的损失函数,记为LCE:
进一步的,步骤4中,训练时采用可变的学习率方法,在每次迭代中调节不同的学习率。在每次迭代中去调整学习率的值是另一种很好的学习率自适应方法。此类方法的基本思路是当你离最优值越远,你需要朝最优值移动的就越多,即学习率就应该越大,反之亦反。
进一步的,在步骤4中,将步骤1预处理后的有雾图像图像的训练图像和验证图像输入到步骤2中构建的网络模型中进行边界预测,得到输出结果后,按照步骤3中的设定,计算输出预测结果与边界真值图像之间的交叉熵损失函数值,将所得损失反馈给网络,更新网络模型权重。
进一步的,特征融合过程通过以下方式定义:
式中:表示将逐步上采样到与相同尺寸的投影算子,其中n∈{0,1,...,4},t∈{0,1,...,n-1},表示在第n阶段特征融合过程中t-1次迭代后增强的特征;表示编码器中第t阶段经过特征融合后增强的特征;
与现有分割技术相比,本发明所达到如下技术效果:
针对传统语义分割网络在雾天分割准确性和mIOU将大大降低的缺点,本发明公开了一种基于密集特征融合的有雾图像语义分割方法,使用U型网络架构结合密集特征融合方法与注意力机制等增强算法,针对雾天图像中目标模糊的特性,通过使用均方误差损失函数与交叉熵损失函数结合的训练方法,得到有效提取有雾图像语义特征的网络模型,增强了该分割方法对有雾天气的适应性和鲁棒性。
附图说明
图1是本发明实施例中构建的有雾图的语义分割网络模型示意图;
图2是本发明实施例中密集特征融合模块的示意图;
图3是本发明实施例中跳连接中特征过渡模块的示意图;
图4是U-Net中的拼接操作与本发明实施例中SOS机制的对比图;
图5是本发明实施例中SA-block注意力机制的示意图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
本发明总体结构如图1所示,本发明实施例提供的基于密集特征融合和注意力机制的有雾图像语义分割方法包括如下步骤:
步骤1:获取有雾的图像训练数据集
为了检验本方法在有雾且复杂环境下的效果,本发明采用的训练数据集为加雾的CitySpaces数据集——Foggy Cityscapes数据集。Cityscapes是一个由车载相机采集的真实城市道路图像数据集,拍摄范围覆盖了德国及其附近国家的50个城市。该数据集共包含5000张分割标注好的图像样本,其中训练集2975张,验证集500张,测试集1525张。数据集中共有34个不同的分类,本实验使用了19种较为普遍的种类作为分割类别。而FoggyCityscapes数据集是在Cityscapes数据集上合成雾噪声。在合成过程中使用了标准的光学模型,表示为:
I(x)=R(x)t(x)+(1-t(x))*L,
式中,I(x)是像素x处观测到的雾图像,R(x)是无雾图像的像素,L是大气光,t表示传输函数,t(x)表示光在散射介质中传输经过衰减等作用能够到达探测系统的那一部分的光的传输量。在均匀介质的情况下,传输量t(x)取决于从摄像机到图片场景的距离l(x),表示为:
t(x)=exp(-β*l(x)),
式中,β表示衰减系数,能有效地控制雾的厚度,β值越大则产生的雾越重。MOR(Meteorological optical range,气象光学距离),又称为能见度,是描述雾严重程度的常用指标,通常t(x)>=0.05,此时的能见度为l=2.996/β。根据气象标准,雾天的能见度要低于1公里。因此,衰减系数的取值范围确定为:
β>2.996*10-3
根据上式,原始图像可被合成为轻雾、中雾和重雾三种类型,对应的衰减系数分别为0.005,0.01和0.02,合成雾后的数据集由原来的5000张图像扩充到15000张。在数据集输入网络前,会对数据进行缩放、裁剪等数据预处理操作。
步骤2:构建密集特征融合的有雾图像语义分割网络模型。
如图1所示,本发明构建的网络包括编码器、跳连接、残差组模块和解码器,编码器、跳连接、残差组模块和解码器构成了U型网络。其中,残差组模块是由三个残差块组成。编码器中的三个步长为2的卷积层作为下采样操作,卷积核大小均为3*3,输入通道数量分别为{64,128,256},输出通道数分别为{128,256,512}。解码器中的,以三个反卷积层做上采样操作,卷积核大小均为3*3,步长为2,输入通道数量分别为{512,256,128},输出通道数分别为{256,128,64}。
步骤2.1,在编码器模块中,共分为四个阶段。
所述编码器第一阶段,首先对输入有雾图像进行卷积核大小为3*3,步长为1,通道数量为64的卷积操作并通过ReLU函数激活,提取浅层特征。然后送入残差组模块进一步特征提取。最后经过步长为2卷积层下采样操作。
所述编码器第二和第三阶段均是由DFF-block、残差组模块和步长为2卷积层下采样操作构成;编码器第四阶段只包括DFF-block和残差组模块,没有下采样操作。U型网络架构在几个方面具有固有的局限性,例如,在编码器的降采样过程中缺少空间信息,以及来自非相邻级别的特征之间缺乏足够的连接。针对此问题,本发明在编码器中使用了基于反投影算法的密集特征融合方法来有效地弥补缺失的信息和利用非相邻层次的特征。编码器中增强的DFF-block输出直接连接到以下所有阶段的DFF-block,以进行特征融合。如图2所示,为第n阶段DFF-block,定义为:
式中:fn为第n-1阶段下采样后得到的特征,为第n阶段通过特征融合后而增强的特征,而且是编码器中所有前n-1阶段经过特征融合后增强的特征,为进入残差模块前的特征,Dn为第n阶段的DFF操作。在DFF-block中,采用了一个渐进的过程来增强特性fn,每次给出一个增强的特征表示在第n阶段特征融合过程中t次迭代后增强的特征,其中t∈{0,1,...,n-1},则特征融合过程通过以下方式定义:
与其他采样和串联融合方法相比,该模块由于其反馈机制,可以更好地从之前层的高分辨率特征中提取高频信息。通过逐步将这些差异融合回降采样的潜在特征中,可以弥补缺失的空间信息。另一方面,该模块可以利用之前所有的高级特征,作为一种纠错反馈机制来改进增强的特征,以获得更好的结果。编码器第四阶段中,图片特征经过DFF-bolck增强后,通过两个残差组模块后传输到解码器模块中。
步骤2.2:在网络模型的跳连接中,引入特征过渡模块
与传统的U型网络不同,本发明主要目的是完成在有雾图像上的语义分割,因此编码器与解码器之间的跳连接中添加了特征过渡模块,既完成了编码器与解码器的特征过渡,又使去雾后图片特征更适合语义分割任务。如图3所示,特征过度模块有两个卷积核大小为3*3、步长为1卷积层,第一个卷积层后是ReLU激活函数,第二个卷积层之后是sigmoid激活函数,再与输入特征逐像素相乘,逐像素相加。输入特征x,则输出特征O(x)表示为:
O(x)=σ[Conv(y[Conv(x)])I*x+x,
式中,Conv为卷积操作,γ[·]为ReLU激活函数,σ[·]为Sigmod激活函数。
步骤2.3:在解码器器模块中,同样分为四个阶段
所述所述解码器的第一阶段,获取编码器提取的深层特征后进行反卷积上采样,进入解码器到的第二阶段。
所述解码器的第二、第三和第四阶段均由基于增强机制的SOS提升策略结构和反卷积层上采样组成。其中,SOS提升策略结构如图4中的(b)所示,在解码器的第n阶段的SOS提升模块中,我们对上一级的特征jn+1进行上采样,利用编码器阶段且经过特征过渡模块的特征对其进行增强,并通过SOS提升策略结构中的细化单元生成增强的特征jn。所述细化单元是指图4(b)中的处理操作单元,SOS提升策略结构可表示为:
jn=Rn(in+(jn+1)↑2)-(jn+1)↑2,
式中,↑2表示比例因子为2的上采样算子,in表示由第n阶段的特征过渡模块处理后输入到解码器的特征,Rn表示解码器第n阶段的特征细化单元。本发明的SOS提升策略结构中的细化单元既是残差组模块。
我们使用原始U-Net中的解码器模块中的Concat结构,如图4中(a)所示,与SOS提升策略结构的增强策略对比分析。U-Net中的解码器将上采样的提升特征(jn+1)↑2和编码器模块中的浅层特征拼接起来后,再进行后续细化处理,可表示为:
jn=Rn(in,(jn+1)↑2),
由于编码器的浅层特征和底层上采样得到的特征可以被可学习的细化单元Rn吸收,因此U-Net的Concat结构可以通过适当的训练来模拟增强策略。但是,这种拼接操作并不能保证特征(jn+1)↑2和特征in隐式和无约束融合。通过评估分析得出,使用SOS增强策略的网络可以取到更好的结果。
所述解码器中,低分辨率的特征图具有更大的感受视野和全局信息,高分辨率的特征图具有更多的细节信息和局部特征。为了使分割算法适应不同分辨率图像,并提高不同尺度目标分割的精度,在每个阶段输出不同分辨率的特征图,在解码器第四阶段(输出层)采用多尺度融合方法进行特征拼接汇聚,具体过程如下:
C=concat(j1,j2,j3,j4),
式中:C表示为融合后特征图,concat(·)为特征图在通道方向叠加,j为不同阶段的输出特征图。如图1所示,为对齐低分辨率特征到输出分辨率,采用反卷积方式进行上采样。
为重点关注有利于分割的特征信息,弱化噪声等无关信息,各尺度特征融合后采用注意力机制进行非线性的特征通道筛选。注意力模块以SA-block为基础,如图5所示,通过一个同时考虑局部和全局方面的重新加权机制,来学习语义分割任务中更有代表性的特征。模块包含一个额外的路径来学习权重,该路径是用于重新校准输出特性映射Xout的通道,称之为注意力通道。在注意力通道中,首先使用了平均池化层来压缩特征,并依次通过两个卷积层、BN激活层和ReLU激活函数,最终通过双线性差值方法上采样,得到参数校正的特征Xatt,该特征最后依次与主干特征Xres对应像素相乘,再加Xatt,可表示为:
Xout=Xatt*Xres+Xatt,
其中:
Xatt=Up[Fattn(APool[Xin];Θattn,Ωattn)],
式中,Up[·]表示双线性上采样操作,APool[Xin]表示输入特征Xin经过平均池化操作APool[·],Fattn(·)表示注意力通道中由Θattn和Ωattn参数化的两个卷积操作。通过这种方式,保留了空间信息,注意通道Xatt的上采样输出在主通道上聚集了非局部提取的特征。
步骤3:设置合适该任务网络的损失函数。
语义分割作为该网络的目标任务,因此选用预测结果与边界真值图像的交叉熵损失(Cross Entropy Loss,CE)作为网络的损失函数。交叉熵衡量的是两个分布之间的距离,因此可以被用来刻画预测值和标签值的差异情况,记为LCE,公式如下:
步骤4:训练网络模型
通过所述步骤1,将有雾图像的数据集经过缩放、随机裁剪等操作预处理后,放入步骤2构建的网络模型中进行训练。训练过程中按照步骤3中的设定的损失函数,计算输出预测结果与边界真值图像之间的交叉熵损失函数值,将所得损失反馈给网络,更新网络模型权重。并且作为本发明的一种优选技术方案,训练时采用可变的学习率方法,在每次迭代中调节不同的学习率。在每次迭代中去调整学习率的值是另一种很好的学习率自适应方法。此类方法的基本思路是当你离最优值越远,你需要朝最优值移动的就越多,即学习率就应该越大,反之亦反。获得最终训练好的雾天图像语义分割网络模型参数。
步骤5:将待分割的雾天图像输入到训练好模型参数的网络模型中,输出雾天图像的分割结果图。
通过对Foggy Cityscapes数据集训练与验证,经过实际测算,本发明中的网络模型最终对复杂道路环境的雾图像分割精度最高能达到93.5%,mean IoU能达到67.9%。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于密集特征融合的有雾图像语义分割方法,其特征在于,包括如下步骤:
步骤1,获取有雾图像的训练数据集;
步骤2:构建密集特征融合的雾天图像语义分割网络模型;
步骤3:设置雾天图像语义分割网络的损失函数;
步骤4,利用步骤1中的数据集对步骤2中构建的网络模型进行训练,获得训练好的雾天图像语义分割网络模型参数;
步骤5:将待分割的雾天图像输入到训练好模型参数的网络模型中,输出雾天图像的分割结果图。
2.根据权利要求1所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,步骤1中,将有雾图像和边界真值图像的训练集以及验证集,并进行预处理。
3.根据权利要求1所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,步骤2中,所述密集特征融合的雾天图像语义分割网络模型包括编码器、跳连接模块、残差组模块和解码器;
所述编码器分为四个阶段,包括依次连接的编码器第一阶段、编码器第二阶段、编码器第三阶段和编码器第四阶段;
所述解码器分为四个阶段,包括依次连接的解码器第一阶段、解码器第二阶段、解码器第三阶段和解码器第四阶段;
编码器第一阶段与解码器第四阶段之间、编码器第二阶段与解码器第三阶段之间、编码器第三阶段与解码器第二阶段之间、分别通过跳连接模块连接;编码器第四阶段经过两个残差组模块后与解码器第一阶段连接;
所述残差组模块包括三个残差结构连接而成。
4.根据权利要求3所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,所述编码器第一阶段包括一个卷积层和一个残差组模块,卷积层后还有一个ReLU激活层,输入有雾图像经卷积层和ReLU激活层后,提取浅层特征,再送入残差组模块进一步特征提取,再经过步长为2的卷积层下采样后送入编码器的第二阶段;
编码器第二阶段和第三阶段均包括依次连接的密集特征融合模块DFF-block、残差组模块,再经过步长为2的卷积层下采样后送入编码器的下一个阶段;
编码器第四阶段包括依次连接的残差组模块和密集特征融合模块;特征图在经过第四阶段的密集特征融合模块后获取深层特征,再经过底层两个残差组模块将深层特征传入到解码器第一阶段;
编码器中每个阶段DFF-block输出直接连接到以后编码器所有阶段的DFF-block输入,以进行特征融合;
同时编码器第一、第二、第三个阶段的残差组模块输出,传入对应的跳连接模块中。
5.根据权利要求3所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,所述跳连接模块包括特征过渡模块;
所述特征过渡模块包括有两个卷积层,第一个卷积层后是ReLU激活函数,第二个卷积层之后是sigmoid激活函数,再与输入特征逐像素相乘,逐像素相加;
特征过渡模块的输入特征x,则输出特征O(x)表示为:
O(x)=σ[Conv(γ[Conv(x)])]*x+x,
式中,Conv为卷积操作,γ[·]为ReLU激活函数,σ[·]为Sigmod激活函数。
6.根据权利要求3所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,解码器模块第一阶段获取深层特征后进行反卷积上采样;输入到解码器的第二阶段;
解码器第二阶段和第三阶段均包括基于增强机制的SOS提升策略结构和反卷积上采样组成;解码器第四阶段包括基于增强机制的SOS提升策略结构。
解码器第一阶段、第二阶段和第三阶段在上采样前,均通相同像素的上采样后拼接,再通过SA注意力机制模块后输出预测结果;
SOS提升策略结构是由解码器每阶段上采样后特征图与经过跳连接操作后的特征图组成的一种增强特征的结构。
8.根据权利要求1所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,步骤4中,训练时采用可变的学习率方法,在每次迭代中调节不同的学习率。
9.根据权利要求1所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,步骤4具体为:将步骤1预处理后的有雾图像图像的训练图像和验证图像输入到步骤2中构建的网络模型中进行边界预测,得到输出结果后,按照步骤3中的设定,计算输出预测结果与边界真值图像之间的交叉熵损失函数值,将所得损失反馈给网络,更新网络模型权重。
10.根据权利要求4所述一种基于密集特征融合的有雾图像语义分割方法,其特征在于,特征融合过程通过以下方式定义:
式中:表示将逐步上采样到与相同尺寸的投影算子,其中n∈{0,1,...,4},t∈{0,1,...,n-1},表示在第n阶段特征融合过程中t-1次迭代后增强的特征;表示编码器中第t阶段经过特征融合后增强的特征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005997.0A CN115496764A (zh) | 2022-08-22 | 2022-08-22 | 一种基于密集特征融合的有雾图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211005997.0A CN115496764A (zh) | 2022-08-22 | 2022-08-22 | 一种基于密集特征融合的有雾图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115496764A true CN115496764A (zh) | 2022-12-20 |
Family
ID=84466166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211005997.0A Pending CN115496764A (zh) | 2022-08-22 | 2022-08-22 | 一种基于密集特征融合的有雾图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496764A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911282A (zh) * | 2024-03-19 | 2024-04-19 | 华中科技大学 | 一种图像去雾模型的构建方法及应用 |
-
2022
- 2022-08-22 CN CN202211005997.0A patent/CN115496764A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117911282A (zh) * | 2024-03-19 | 2024-04-19 | 华中科技大学 | 一种图像去雾模型的构建方法及应用 |
CN117911282B (zh) * | 2024-03-19 | 2024-05-28 | 华中科技大学 | 一种图像去雾模型的构建方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263706B (zh) | 一种雾霾天气车载视频动态目标检测和识别的方法 | |
CN112184577B (zh) | 基于多尺度自注意生成对抗网络的单幅图像去雾方法 | |
CN111126359B (zh) | 基于自编码器与yolo算法的高清图像小目标检测方法 | |
CN113888550B (zh) | 一种结合超分辨率和注意力机制的遥感图像道路分割方法 | |
CN110310241B (zh) | 一种融合深度区域分割的多大气光值交通图像去雾方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN111563909A (zh) | 一种复杂街景图像语义分割方法 | |
CN114092917B (zh) | 一种基于mr-ssd的被遮挡交通标志检测方法及系统 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN111611918B (zh) | 基于航拍数据和深度学习的交通流数据集采集及构建方法 | |
CN110807744B (zh) | 一种基于卷积神经网络的图像去雾方法 | |
CN114842216A (zh) | 一种基于小波变换的室内rgb-d图像语义分割方法 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN114913493A (zh) | 一种基于深度学习的车道线检测方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN106372597A (zh) | 基于自适应上下文信息的cnn交通检测方法 | |
CN113052776A (zh) | 基于多尺度深度图像先验的无监督图像去雾方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN115496764A (zh) | 一种基于密集特征融合的有雾图像语义分割方法 | |
CN117974497A (zh) | 一种雾霾场景驾驶视觉增强及目标检测方法 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN115995002B (zh) | 一种网络构建方法及城市场景实时语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |