CN117934845A - 一种结合曝光特征的夜晚图像语义分割模型 - Google Patents
一种结合曝光特征的夜晚图像语义分割模型 Download PDFInfo
- Publication number
- CN117934845A CN117934845A CN202410113642.6A CN202410113642A CN117934845A CN 117934845 A CN117934845 A CN 117934845A CN 202410113642 A CN202410113642 A CN 202410113642A CN 117934845 A CN117934845 A CN 117934845A
- Authority
- CN
- China
- Prior art keywords
- feature
- exposure
- target
- features
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000005286 illumination Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000011176 pooling Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000004438 eyesight Effects 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004313 glare Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种结合曝光特征的夜晚图像语义分割模型。该方法首先设计目标特征增强提取阶段,通过曝光特征提取模块和目标特征增强模块来学习夜晚光照特征,根据光照分布与目标损失程度的关系,对目标特征进行增强,使模型可以学习到更丰富的目标特征,减少夜晚场景带来的目标特征损失;其次,在上下文信息融合阶段,通过将上下文信息提取模块中提取到的语义特征图,加入到曝光注意力模块,对提取到的上下文信息进行加权,使模型可以在曝光问题区域更依赖上下文信息,学习到更有效的语义特征;最后,在解码阶段融合高层语义特征与低层特征,补充下采样过程中丢失的细节信息,提高语义分割精度。该方法可以捕捉到更多的夜晚图像特征,把握目标的边缘细节信息,有效地提升语义分割网络在夜晚场景的分割精度,实现更准确的语义分割。
Description
技术领域
本发明涉及一种结合曝光特征的夜晚图像语义分割模型,属于计算机视觉技术领域。
背景技术
图像语义分割是计算机视觉领域的经典任务之一,它的主要目标是将输入图像分割为具有语义类别标签的区域块,最终输出逐像素语义类别标注的结果图像。语义分割是许多高层次图像处理任务的基础,在自动驾驶、智能机器人、增强现实等领域也具有实用价值。
随着深度神经网络在计算机视觉领域的广泛应用,深度学习方法在图像语义分割任务上也得到了应用。图像语义分割网络能够自动学习图像中的特征并实现语义类别标签的预测,极大提升了语义分割的精确度。但是,现有的分割模型主要集中于解决白天场景下拍摄图像的语义分割,并没有成熟的夜晚图像的语义分割技术。夜晚场景下,图像整体光照较弱,对比度低,光照缺失可能造成图像整体特征的损失,同时,目标的颜色、纹理等浅层特征不明显;另一方面,夜晚街景场景相比白天存在更多光源,如路灯、车灯以及建筑内外灯光等,这些强光源形成的光晕会导致光晕附近目标的原有特征丧失,而光晕、眩光的产生,也会给正常的夜晚图像带来更多噪声。这些因素给夜晚图像的语义分割带来很大挑战。对于一个夜晚图像语义分割模型,其不仅要在特征提取阶段将被削弱的特征进行增强提取,还要利用上下文信息辅助那些特征损失的区域进行有效的特征补充,从而为特征损失严重目标的准确分割提供指导。而现有的图像语义分割模型往往在特征明显的白天数据集上训练,对于特征损失严重的目标分割精度差,不能满足夜晚场景下准确的图像语义分割的要求。
为了提升夜晚场景下图像语义分割精度,本发明提出一种结合曝光特征的夜晚图像语义分割模型。针对夜晚图像特征弱的问题,设计曝光特征提取模块与目标特征增强模块,提取图像的曝光特征并利用曝光特征增强图像特征;同时,设计曝光注意力模块和上下文信息提取模块,使用曝光特征控制上下文语义信息融合的程度;在模型解码阶段将高层语义特征与低层特征结合,补充损失的图像细节,提高目标边缘的语义分割精度。最终提升语义分割网络在夜晚场景下的分割精度。
发明内容
本发明的目的是提供一种结合曝光特征的夜晚图像语义分割模型。考虑到夜晚图像目标特征缺失、上下文信息利用不足、浅层特征不明显的问题,该模型设计了曝光特征提取模块和目标特征增强模块来学习夜晚图像特征,进一步引入曝光注意力矩阵对上下文特征图进行加权融合,并在模型解码阶段将高层语义特征与低层特征结合以补充损失的图像细节,最终得到准确的夜晚图像语义分割结果。
为实现上述目的,本发明采用的技术方案流程如下:
一种结合曝光特征的夜晚图像语义分割模型,其特征在于包括如下步骤:
分为三个阶段,分别是目标特征增强提取阶段、上下文信息融合阶段和解码阶段;首先,在目标特征增强提取阶段,图像经过目标特征增强模块得到目标增强特征图f,经过曝光特征提取模块得到曝光特征图fE;然后,在上下文信息融合阶段,目标增强特征图f输入到上下文信息提取模块进行多尺度池化,然后再降维拼接,得到包含上下文信息的语义特征图fI,同时将曝光特征图fE输入曝光注意力模块,计算出曝光注意力矩阵WE,利用曝光注意力矩阵WE对包含上下文信息的语义特征图fI进行加权,得到最终的加权上下文特征图f′I,再将加权上下文特征图f′I与目标特征增强提取阶段得到的目标增强特征图f进行拼接降维,获得上下文融合特征图fend用于解码;最后,在解码阶段,融合fend与目标特征增强模块中提取到的浅层特征利用浅层特征恢复高层语义信息中缺失的细节信息来进行语义分割,最终得到语义分割结果;
(1)目标特征增强提取:在目标特征增强提取阶段,网络模型包括目标特征增强模块、曝光特征提取模块;曝光特征提取模块的输入为一维的HSV空间的V通道图像,即原图像的光照强度图;在曝光特征提取模块中,V通道图像会输入到骨干网格ResNet50中,逐次通过骨干网络ResNet50的S1、S2、S3、S4阶段,S1阶段从图像中提取曝光特征再将/>输入到S2阶段,提取曝光特征/>以此类推,最后在S4阶段输出曝光特征图fE;目标特征增强模块的输入是RGB图像,输入的图像会逐次通过骨干网络ResNet50的S1、S2、S3、S4阶段;在目标特征增强模块中,S1阶段从RGB图像提取目标特征fS1,然后将fS1和曝光特征提取模块在S1阶段提取到的/>一起输入到目标特征增强结构G1中,对提取到的目标特征fS1进行增强,输出增强后的目标特征/>再将/>输入到S2阶段,提取目标特征fS2,进行同样的目标特征增强操作,最后将增强的目标特征输入到S3阶段中,进行目标特征提取之后再输入到S4阶段,最后输出目标增强特征图f;目标特征增强提取阶段分别输出目标增强特征图与曝光特征图,即f与fE;
(2)上下文信息融合:在上下文信息融合阶段,设计上下文信息提取模块,通过对目标增强特征图f进行不同尺度的池化操作得到多尺度上下文信息,然后将多尺度上下文信息通过一个卷积层进行降维,再将其通过上采样还原到原特征图大小,进行特征拼接、1×1的卷积层(conv)进行降维,得到包含上下文信息的语义特征图fI;同时,将曝光特征图fE输入到曝光注意力模块,计算出曝光注意力矩阵WE;利用曝光注意力矩阵对包含上下文信息的语义特征图fI进行加权,得到最终的加权上下文特征图f′I;然后将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再通过一个卷积层对通道维度进行降维,最终获得上下文融合特征图fend用于解码;
(3)解码阶段:在解码阶段,首先输入上下文融合特征图fend进行上采样,将上采样的输出作为高层语义信息fhigh,结合目标特征增强模块中G1阶段提取到的浅层特征来恢复高层语义信息中缺失的细节信息,然后通过一个卷积层进行特征融合,最后进行双线性插值上采样,并通过全连接层得到输出的语义分割结果。
如上所述的方法,其特征在于步骤(1)中曝光特征提取模块的具体处理过程为:将输入图片转换到HSV空间后,将V通道的一维图像输入到骨干网络ResNet50中,ResNet50的S0阶段的卷积层卷积核大小为W0×H0×D0,其中W0、H0和D0分别优选为7、7、1;在曝光特征提取模块的S1、S2阶段分别提取到曝光特征后,将曝光特征/>分别输入到目标特征增强结构G1、G2中对目标特征fS1、fS2进行增强;之后继续通过加入了扩张率为e1、e2的空洞卷积的S3、S4阶段提取曝光特征,其中e1和e2分别优选为2和4;将最后得到的下采样8倍的曝光特征图fE输入到曝光注意力模块。
如上所述的方法,其特征在于步骤(1)中目标特征增强模块的具体处理过程为:目标特征增强模块中,Si(即目标特征增强模块中S1阶段和S2阶段,此处统称为Si)提取到的目标特征fsi分别输入目标特征增强结构G1、G2,在曝光特征的引导下,对受到光照影响的区域的目标特征进行加权,计算公式为/>其中/>表示矩阵乘法,w1、w2是目标特征结合曝光特征的权重参数,Wr是通过公式/>计算得到的软空间注意力图,也称为权重系数矩阵,σ表示sigmoid激活函数,W、b为学习得到的参数。
如上所述的方法,其特征在于步骤(2)中上下文信息提取模块的具体处理过程为:采用PSPNet空间金字塔池化,将目标特征增强模块提取到的目标增强特征图f分别通过四个并行的、池化后尺寸大小为1×1、2×2、3×3、6×6的最大值池化层,得到不同空间范围的目标语义特征作为全局语义信息,即提取到的上下文信息;再通过1×1的卷积层(conv)对提取到的4个不同尺度的特征图进行降维,得到通道数是原特征图1/4的全局信息特征图,然后分别对分辨率不同的四个特征图采用相应尺度的双线性插值上采样变为原来的目标特征图大小,得到通道数与原来相等的上下文特征图;输入包含1×1的卷积层(conv)进行降维,将通道数缩减为原特征图的1/4,得到包含上下文信息的语义特征图fI;将fI输入到曝光注意力模块中,获得加权上下文特征图f′I,将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再输入到包含1×1的卷积层(conv),对通道维度进行降维,最终获得原分辨率大小,通道数为原来1/4的目标特征图fend用于解码。
如上所述的方法,其特征在于步骤(2)中曝光注意力模块的具体处理过程为:输入为曝光特征图fE,fE的维度为[c,h,w],分别通过在通道维度的最大值池化操作和平均值池化操作,得到两个维度为[1,h,w]的特征图;对两个特征图按元素进行如公式(1)所示的计算,并归一化后得到曝光注意力矩阵WE,其中c表示输入的曝光特征的通道维度数,n表示语义分割的类别数;将上下文信息提取模块输出的维度为[c/4,h,w]的语义特征图fI用曝光注意力矩阵WE进行加权,加权公式为得到包含了有效上下文信息的、维度为[c/4,h,w]的加权上下文特征图f′I;其中,f′I表示最终输出的加权上下文特征图,fI表示输入的包含上下文信息的语义特征图,w3、w4表示曝光特征权重学习的参数。
如上所述的方法,其特征在于步骤(3)中解码阶段的具体过程为:输入上下文融合特征图fend作为高层语义特征fhigh,将目标特征增强结构G1输出的特征图作为浅层特征flow;假设fhigh大小为W1×H1、维度为D1,flow大小为W2×H2、维度为D2,将fhigh双线性插值上采样,使得W1=W2,H1=H2;同时通过1×1卷积将flow的维度从D2降到D3,来减少浅层信息的比例;其中H1、H1和D1分别优选为60、60、512,W2、H2和D2分别优选为120、120、256,D3优选为128;将浅层特征flow与高层特征f咖h维度拼接,再通过包含3×3的卷积层进行卷积,实现浅层特征与高层特征融合;最后进行双线性插值上采样恢复成原始图像尺寸,并通过全连接层得到语义分割结果。
如上所述的方法,其特征在于步骤(1)对所述目标特征增强时,目标特征结合曝光特征的权重参数w1优选为1.0,w2优选为0.3。
与现有技术相比,本发明针对夜晚图像中目标特征损失、上下文信息无法有效利用、浅层特征不明显的问题,设计了曝光特征提取模块和目标特征增强模块,利用曝光特征对提取的目标特征进行增强,改善夜晚场景下因光照弱、光照不均导致的目标特征损失的问题;进一步,设计了曝光注意力模块,引入曝光注意力矩阵对上下文特征图进行加权融合,让模型学习到更有效的上下文信息;最后,在模型解码阶段将高层语义特征与低层特征结合以补充损失的图像细节,有效地提升了语义分割网络的性能。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
图1为本发明所述的结合曝光特征的夜晚图像语义分割模型的整体网络架构;
图2为目标特征增强结构的处理流程示意图;
图3为曝光注意力模块的处理流程示意图;
图4为解码阶段的处理流程示意图。
具体实施方式
前已述及,本发明提出一种结合曝光特征的夜晚图像语义分割模型,下面结合附图说明本发明的具体实施方式。
(1)整体框架
图1描述了本发明所述的结合曝光特征的夜晚图像语义分割模型的整体网络架构。网络模型分为三个处理阶段:(1)目标特征增强提取阶段;(2)上下文信息融合阶段;(3)解码阶段。
首先,在目标特征增强提取阶段,网络模型包括目标特征增强模块、曝光特征提取模块。曝光特征提取模块的输入为一维的HSV空间V通道图像,即原图像的光照强度图。在曝光特征提取模块中,V通道图像会输入到骨干网络ResNet50中,图中的S1到S4为骨干网络ResNet50的S1到S4阶段,S1阶段从图像中提取曝光特征再将/>输入到S2阶段,提取曝光特征/>以此类推,最后在S4阶段输出曝光特征图fE。目标特征增强模块的输入是RGB图像,输入的图像会逐次通过骨干网络ResNet50的S1、S2、S3、S4阶段。在目标特征增强模块中,S1阶段从RGB图像提取目标特征fS1,然后将fS1和曝光特征提取模块在S1阶段提取到的一起输入到目标特征增强结构G1中,对提取到的目标特征fS1进行增强,输出增强后的目标特征/>再将/>输入到S2阶段,提取目标特征fS2,进行同样的目标特征增强操作,最后将增强的目标特征输入到S3阶段中,进行正常的目标特征提取之后再输入到S4阶段,最后输出目标增强特征图f。目标特征增强提取阶段分别输出目标增强特征图与曝光特征图,即图1中f与fE。
在上下文信息融合阶段,设计上下文信息提取模块,通过对目标增强特征图f进行不同尺度的池化操作得到多尺度上下文信息,然后将多尺度上下文信息通过一个卷积层进行降维,然后再通过上采样将其还原到原特征图大小,进行特征拼接、1×1的卷积层(conv)进行降维,得到包含上下文信息的语义特征图fI。同时,将曝光特征图fE输入到曝光注意力模块,计算出曝光注意力矩阵WE。利用曝光注意力矩阵对包含上下文信息的语义特征图fI进行加权,得到最终的加权上下文特征图f′I。然后将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再通过一个卷积层对通道维度进行降维,最终获得上下文融合特征图fend用于解码。
最后,在解码阶段,首先输入上下文融合特征图fend进行上采样,将上采样的输出作为高层语义信息fhigh,结合目标特征增强模块中G1阶段提取到的浅层特征记为flow来恢复高层语义信息中缺失的细节信息,然后通过一个卷积层进行特征融合,最后进行双线性插值上采样,并通过全连接层得到输出的语义分割结果。
(2)目标特征增强提取阶段
目标特征增强提取阶段的关键是对曝光特征的提取,以及利用提取到的曝光特征对目标特征进行增强。
(2.1)曝光特征提取模块
夜晚图像中,由于整体光照亮度低,同时车灯、路灯等光源的光照范围有限,因此相对于白天场景图像,目标的特征会出现缺失或分布不均匀。为提高模型学习夜晚图像中目标特征的能力,本发明设计曝光特征提取模块,将原始RGB三通道的输入图像转换到HSV颜色空间,再将其中亮度通道V单独输入到曝光特征提取模块中,使用特征提取网络学习输入的亮度通道信息,排除目标颜色等信息的干扰。提取到的特征图可以表示图像对应区域的光照强度、变化率等特征,定义为曝光特征。
曝光特征提取模块的网络结构与目标特征增强模块基本相同,均使用ResNet50作为骨干网络。在曝光特征提取模块中,针对输入的V通道一维图像,首先输入到ResNet50中,同时将ResNet50的S0阶段的卷积层卷积核大小修改为W0×H0×D0,其中W0、H0和D0分别优选为7、7、1。在曝光特征提取模块的S1、S2阶段分别提取到曝光特征后,将曝光特征 分别输入到目标特征增强结构G1、G2中对目标特征fS1、fS2进行增强。在曝光特征提取模块中,之后继续通过加入了扩张率为e1、e2的空洞卷积的S3、S4阶段提取曝光特征,其中e1、e2分别优选为2、4,最终,将最后得到的下采样8倍的曝光特征图fE输入到曝光注意力模块,用来给上下文信息加权,引导特征图结合上下文信息的程度。
(2.2)目标特征增强模块
现有的语义分割模型大多使用在白天场景图像数据集上预训练的参数进行特征提取,如果直接用该模型提取夜晚图像的目标特征,会存在特征缺失或同一目标的特征分布不均匀等问题。因此,在目标特征增强提取阶段,本发明通过提取曝光特征对原目标特征进行增强,补充因光照影响导致的缺失或不连续的部分目标特征,使模型可以提取到更完整、分布更均匀的目标特征。
如图2所示,目标特征增强模块中,Si(即图1中目标特征增强模块中的S1阶段和S2阶段,此处统称为Si)提取到的目标特征fSi输入目标特征增强结构G(图1中目标特征增强模块中的G1和G2,此处统称为G,它们具有相同的结构),在曝光特征的引导下,对受到光照影响的区域的目标特征进行加权。图2上方的Si框为目标特征增强模块的S1或S2阶段,下方的Si框为曝光特征提取模块的对应阶段,G框为对应目标特征增强结构G。fSi表示目标特征提取的目标特征,/>表示曝光特征提取到的曝光特征,/>表示增强后的目标特征。
目标特征增强的计算公式为其中/>表示矩阵乘法,w1、w2是目标特征结合曝光特征的权重参数,Wr是通过公式/> 计算得到的软空间注意力图,也称为权重系数矩阵,σ表示sigmoid激活函数,W、为学习得到的参数。通过对曝光特征/>施加注意力,学习到要根据不同的曝光特征设置不同的加强权重,输出0到1范围的权重系数矩阵Wr,然后用得到的权重系数矩阵Wr与fSi按元素相乘,再根据权重参数w1、w2进行/>的运算,对目标特征fSi进行增强。
(3)上下文信息融合阶段
(3.1)上下文信息提取模块
本发明提出的夜晚图像语义分割模型在上下文信息提取模块采用PSPNet空间金字塔池化,将目标特征增强模块提取到的目标增强特征图f分别通过四个并行的、池化后尺寸大小为1×1、2×2、3×3、6×6的最大值池化层,得到不同空间范围的目标语义特征作为全局语义信息,即提取到的上下文信息。再通过l×l的卷积层(conv)对提取到的4个不同尺度的特征图进行降维,得到通道数是原特征图1/4的全局信息特征图,然后分别对分辨率不同的四个特征图采用相应尺度的双线性插值上采样变为原来的目标特征图大小,得到通道数与原来相等的上下文特征图。
之后输入包含1×1的卷积层(conv)进行降维,将通道数缩减为原特征图的1/4,得到包含上下文信息的语义特征图fI,然后将fI输入到曝光注意力模块中,对每个位置要结合的上下文信息进行加权,获得原分辨率大小、通道数为原来1/4的加权上下文特征图f′I。最后将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再输入到包含1×1的卷积层(conv),对通道维度进行降维,最终获得原分辨率大小、通道数为原来1/4的上下文融合特征图fend用于解码。
(3.2)曝光注意力模块
本发明设计的曝光注意力模块的处理流程如图3所示。输入为曝光特征图fE,fE的维度为[c,h,w],分别通过在通道维度的最大值池化操作和平均值池化操作,得到两个维度为[1,h,w]的特征图f1、f2。对两个特征图按元素进行如公式(1)所示的计算,得到曝光注意力矩阵WE。与此同时,将上下文信息提取模块输出的维度为[c/4,h,w]的语义特征图fI用曝光注意力矩阵WE进行加权,最终得到包含了有效上下文信息的、维度为[c/4,h,w]的加权上下文特征图f′I。
曝光注意力矩阵的计算如公式(1)所示,其中f1表示通道维度最大值池化操作得到的特征图,f2表示通道维度平均值池化得到的特征图,c表示输入的曝光特征的通道维度数,n表示语义分割的类别数。当f1对应的值大于等于时,即曝光特征图fE中,曝光特征集中在个别通道且这些通道存在较高的特征值,此时WE=f1,取最大池化的目的是为了让该位置的上下文信息得到增强,模型更偏向使用包含上下文信息的语义特征图fI来进行目标识别与分割;反之则表明该位置曝光特征不明显,此时WE=f2,在后续处理中要适当利用目标增强特征图f进行分割。最后将得到的曝光注意力矩阵进行归一化。
使用曝光注意力矩阵进行加权的计算过程如所示。其中,f′I表示最终输出的加权上下文特征图,fI表示输入的包含上下文信息的语义特征图,w3、w4表示曝光特征权重学习的参数。当图像中某区域受到曝光影响、曝光特征集中在个别通道时,该区域对应的WE权重较高,因此fI得到加强,在后续f′I与f融合中,会更倾向于利用包含上下文信息的语义特征图进行语义分割;而当曝光特征不明显时,WE中对应区域的权重较低,在后续f′I与f融合后中,会更多地利用目标增强特征图进行语义分割。
(4)解码阶段
在模型解码阶段,输入空间分辨率为输入图像1/8、通道数为512的上下文融合特征图fend,因此在解码过程中要将特征图上采样8倍。而在上采样过程中,常常恢复不了图像中原有的细节信息,导致边缘等细节的语义分割精度降低,因此在解码过程中结合目标特征增强模块中提取到的浅层特征,利用浅层特征恢复高层语义信息中缺失的细节信息来进行语义分割。
如图4所示,解码阶段将上下文融合特征图fend作为高层语义信息fhigh,将目标特征增强结构G1输出的特征图作为浅层特征flow,首先将大小为W1×H1、维度为D1的fhigh双线性上采样,同时将W2×H2、维度为D2的flow通过1×1卷积降到D3维,来减少浅层信息的比例,其中W1、H1和D1分别优选为60、60、512,W2、H2和D2分别优选为120、120、256,D3优选为128;之后将浅层信息与高层信息维度拼接,再通过包含3×3的卷积层进行特征融合;最后进行4倍双线性插值上采样,恢复成原始图像尺寸,并通过全连接层得到输出的语义分割结果。
以上公开的仅为本发明的具体实例,根据本发明提供的思想,本领域的技术人员能思及的变化,都应落入本发明的保护范围内。
Claims (7)
1.一种结合曝光特征的夜晚图像语义分割模型,其特征在于包括如下步骤:
分为三个阶段,分别是目标特征增强提取阶段、上下文信息融合阶段和解码阶段;首先,在目标特征增强提取阶段,图像经过目标特征增强模块得到目标增强特征图f,经过曝光特征提取模块得到曝光特征图fE;然后,在上下文信息融合阶段,目标增强特征图f输入到上下文信息提取模块进行多尺度池化,然后再降维拼接,得到包含上下文信息的语义特征图fI,同时将曝光特征图fE输入曝光注意力模块,计算出曝光注意力矩阵WE,利用曝光注意力矩阵WE对包含上下文信息的语义特征图fI进行加权,得到最终的加权上下文特征图f′I,再将加权上下文特征图f′I与目标特征增强提取阶段得到的目标增强特征图f进行拼接降维,获得上下文融合特征图fend用于解码;最后,在解码阶段,融合fend与目标特征增强模块中提取到的浅层特征利用浅层特征恢复高层语义信息中缺失的细节信息来进行语义分割,最终得到语义分割结果;
(1.1)目标特征增强提取:在目标特征增强提取阶段,网络模型包括目标特征增强模块、曝光特征提取模块;曝光特征提取模块的输入为一维的HSV空间的V通道图像,即原图像的光照强度图;在曝光特征提取模块中,V通道图像会输入到骨干网格ResNet50中,逐次通过骨干网络ResNet50的S1、S2、S3、S4阶段,S1阶段从图像中提取曝光特征再将/>输入到S2阶段,提取曝光特征/>以此类推,最后在S4阶段输出曝光特征图fE;目标特征增强模块的输入是RGB图像,输入的图像会逐次通过骨干网络ResNet50的S1、S2、S3、S4阶段;在目标特征增强模块中,S1阶段从RGB图像提取目标特征fS1,然后将fS1和曝光特征提取模块在S1阶段提取到的/>一起输入到目标特征增强结构G1中,对提取到的目标特征fS1进行增强,输出增强后的目标特征/>再将/>输入到S2阶段,提取目标特征fS2,进行同样的目标特征增强操作,最后将增强的目标特征输入到S3阶段中,进行目标特征提取之后再输入到S4阶段,最后输出目标增强特征图f;目标特征增强提取阶段分别输出目标增强特征图与曝光特征图,即f与fE;
(1.2)上下文信息融合:在上下文信息融合阶段,设计上下文信息提取模块,通过对目标增强特征图f进行不同尺度的池化操作得到多尺度上下文信息,然后将多尺度上下文信息通过一个卷积层进行降维,再将其通过上采样还原到原特征图大小,进行特征拼接、1×1的卷积层(conv)进行降维,得到包含上下文信息的语义特征图fI;同时,将曝光特征图fE输入到曝光注意力模块,计算出曝光注意力矩阵WE;利用曝光注意力矩阵对包含上下文信息的语义特征图fI进行加权,得到最终的加权上下文特征图f′I;然后将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再通过一个卷积层对通道维度进行降维,最终获得上下文融合特征图fend用于解码;
(1.3)解码阶段:在解码阶段,首先输入上下文融合特征图fend进行上采样,将上采样的输出作为高层语义信息fhigh,结合目标特征增强模块中G1阶段提取到的浅层特征来恢复高层语义信息中缺失的细节信息,然后通过一个卷积层进行特征融合,最后进行双线性插值上采样,并通过全连接层得到输出的语义分割结果。
2.如权利要求1所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于步骤(1.1)中曝光特征提取模块的具体处理过程为:
(2.1)将输入图片转换到HSV空间后,将V通道的一维图像输入到骨干网络ResNet50中,ResNet50的S0阶段的卷积层卷积核大小为W0×H0×D0,其中W0、H0和D0分别优选为7、7、1;
(2.2)在曝光特征提取模块的S1、S2阶段分别提取到曝光特征后,将曝光特征分别输入到目标特征增强结构G1、G2中对目标特征fS1、fS2进行增强;之后继续通过加入了扩张率为e1、e2的空洞卷积的S3、S4阶段提取曝光特征,其中e1和e2分别优选为2和4;
(2.3)将最后得到的下采样8倍的曝光特征图fE输入到曝光注意力模块。
3.如权利要求1所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于步骤(1.1)中目标特征增强模块的具体处理过程为:
目标特征增强模块中,Si(即目标特征增强模块中Si阶段和S2阶段,此处统称为Si)提取到的目标特征fsi分别输入目标特征增强结构G1、G2,在曝光特征的引导下,对受到光照影响的区域的目标特征进行加权,计算公式为/>其中/>表示矩阵乘法,w1、w2是目标特征结合曝光特征的权重参数,Wr是通过公式计算得到的软空间注意力图,也称为权重系数矩阵,σ表示sigmoid激活函数,W、b为学习得到的参数。
4.如权利要求1所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于步骤(1.2)中上下文信息提取模块的具体处理过程为:
(4.1)采用PSPNet空间金字塔池化,将目标特征增强模块提取到的目标增强特征图f分别通过四个并行的、池化后尺寸大小为1×1、2×2、3×3、6×6的最大值池化层,得到不同空间范围的目标语义特征作为全局语义信息,即提取到的上下文信息;
(4.2)再通过1×1的卷积层(conv)对提取到的4个不同尺度的特征图进行降维,得到通道数是原特征图1/4的全局信息特征图,然后分别对分辨率不同的四个特征图采用相应尺度的双线性插值上采样变为原来的目标特征图大小,得到通道数与原来相等的上下文特征图;
(4.3)输入包含1×1的卷积层(conv)进行降维,将通道数缩减为原特征图的1/4,得到包含上下文信息的语义特征图fI;
(4.4)将fI输入到曝光注意力模块中,获得加权上下文特征图f′I,将目标特征增强提取阶段得到的目标增强特征图f与加权上下文特征图f′I维度拼接,拼接后再输入到包含1×1的卷积层(conv),对通道维度进行降维,最终获得原分辨率大小,通道数为原来1/4的目标特征图fend用于解码。
5.如权利要求1所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于步骤(1.2)中曝光注意力模块的具体处理过程为:
(5.1)输入为曝光特征图fE,fE的维度为[c,h,w],分别通过在通道维度的最大值池化操作和平均值池化操作,得到两个维度为[1,h,w]的特征图;
(5.2)对两个特征图按元素进行如公式(1)所示的计算,并归一化后得到曝光注意力矩阵WE,其中c表示输入的曝光特征的通道维度数,n表示语义分割的类别数;
(5.3)将上下文信息提取模块输出的维度为[c/4,h,w]的语义特征图fI用曝光注意力矩阵WE进行加权,加权公式为得到包含了有效上下文信息的、维度为[c/4,h,w]的加权上下文特征图f′I;其中,f′I表示最终输出的加权上下文特征图,fI表示输入的包含上下文信息的语义特征图,w3、w4表示曝光特征权重学习的参数。
6.如权利要求1所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于步骤(1.3)中解码阶段的具体过程为:
(6.1)输入上下文融合特征图fend作为高层语义特征fhigh,将目标特征增强结构G1输出的特征图作为浅层特征flow;
(6.2)假设fhigh大小为W1×H1、维度为D1,flow大小为W2×H2、维度为D2,将fhigh双线性插值上采样,使得W1=W2,H1=H2;同时通过1×1卷积将flow的维度从D2降到D3,来减少浅层信息的比例;其中W1、H1和D1分别优选为60、60、512,W2、H2和D2分别优选为120、120、256,D3优选为128;
(6.3)将浅层特征flow与高层特征f咖h维度拼接,再通过包含3×3的卷积层进行卷积,实现浅层特征与高层特征融合;
(6.4)最后进行双线性插值上采样恢复成原始图像尺寸,并通过全连接层得到语义分割结果。
7.如权利要求3所述的一种结合曝光特征的夜晚图像语义分割模型,其特征在于:所述目标特征增强时,目标特征结合曝光特征的权重参数W1优选为1.0,w2优选为0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410113642.6A CN117934845A (zh) | 2024-01-26 | 2024-01-26 | 一种结合曝光特征的夜晚图像语义分割模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410113642.6A CN117934845A (zh) | 2024-01-26 | 2024-01-26 | 一种结合曝光特征的夜晚图像语义分割模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117934845A true CN117934845A (zh) | 2024-04-26 |
Family
ID=90759085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410113642.6A Pending CN117934845A (zh) | 2024-01-26 | 2024-01-26 | 一种结合曝光特征的夜晚图像语义分割模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117934845A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230174A (zh) * | 2024-05-22 | 2024-06-21 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于序列信息挖掘的遥感图像序列云检测方法及系统 |
-
2024
- 2024-01-26 CN CN202410113642.6A patent/CN117934845A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118230174A (zh) * | 2024-05-22 | 2024-06-21 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种基于序列信息挖掘的遥感图像序列云检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN112163449B (zh) | 一种轻量化的多分支特征跨层融合图像语义分割方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN112686207B (zh) | 一种基于区域信息增强的城市街道场景目标检测方法 | |
CN113902915A (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112801027B (zh) | 基于事件相机的车辆目标检测方法 | |
CN111652081B (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN117934845A (zh) | 一种结合曝光特征的夜晚图像语义分割模型 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN113505634B (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN114037833A (zh) | 一种苗族服饰图像语义分割方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN113850324A (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN114782298A (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN116229410A (zh) | 融合多维信息池化的轻量级神经网络道路场景检测方法 | |
CN115272438A (zh) | 一种面向三维场景重建的高精度单目深度估计系统及方法 | |
CN117952883A (zh) | 一种基于双边网格和显著性引导的逆光图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |