CN114972748B - 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 - Google Patents
一种可解释边缘注意力和灰度量化网络的红外语义分割方法 Download PDFInfo
- Publication number
- CN114972748B CN114972748B CN202210457833.5A CN202210457833A CN114972748B CN 114972748 B CN114972748 B CN 114972748B CN 202210457833 A CN202210457833 A CN 202210457833A CN 114972748 B CN114972748 B CN 114972748B
- Authority
- CN
- China
- Prior art keywords
- edge
- semantic
- segmentation
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 143
- 238000013139 quantization Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 25
- 238000000605 extraction Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000000007 visual effect Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000003709 image segmentation Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002060 circadian Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种可解释边缘注意力和灰度量化网络的红外语义分割方法,基本步骤如下:1)利用卷积神经网络提取多级语义特征和边缘特征;2)利用边缘注意力金字塔对各级语义特征进行边缘融合;3)利用灰度量化网络对初步分割结果进行纹理修正;4)构造边缘和纹理损失函数进行协同训练;5)用训练好的红外语义分割模型处理热红外图像。本发明基于卷积神经网络构造可解释网络模块,通过以注意力机制和多尺度结构为基础的边缘注意力金字塔融合边缘语义特征,并利用灰度量化网络引入灰度空间分布信息以修正纹理细节。本发明可与各类基于热红外图像和语义分割的应用系统相结合,帮助提升红外场景解析能力,具有广阔市场前景与应用价值。
Description
技术领域
本发明涉及一种可解释边缘注意力和灰度量化网络(IEGNet)的红外语义分割方法,属于数字图像处理、模式识别和计算机视觉领域,主要涉及热红外图像处理和语义分割技术。在各类基于热红外图像的应用系统中有广阔的应用前景。
背景技术
语义分割技术旨在对图像执行像素级分类任务,即获取图像基本信息后为每一个像素赋予一个类别标签,从而推断出场景中物体位置关系和更加抽象的语义信息。同时,语义分割也是解决场景理解和实例分割的关键技术,其重要性不言而喻。随着计算机视觉的迅猛发展,语义分割技术在自动驾驶、医学图像、人机交互等领域应用广泛,并且这类问题通过各种传统的计算机视觉和机器学习技术取得了较大进展。然而,这些问题的解决方法主要以可见光图像为基础,在黑夜、雾霾、阴雨天等光线较差、环境恶劣的情况下并不能有效完成任务。
红外成像技术利用物体发出辐射的强度和波长来探测物体表面温度,从而得到可以显示物体温度分布的热红外图像。因其不受光照限制、穿透云雾能力强、作用距离远等特点,热红外图像于军事、民用中应用极为广泛。例如,在医疗卫生、森林防火、工业检测、军事防卫等领域中,热红外图像可通过温度分布推断出更多有用的信息,发挥着不可或缺的作用。此外,其在诸多计算机视觉任务中也获得了较大的成功,如行人检测,目标跟踪和人再识别。然而,相比于可见光图像,热红外图像虽具有全天时、全天候的优势,却存在轮廓模糊、纹理信息不易表达、没有颜色信息、对比度低等严重缺陷。因此,热红外图像中可提取的有用特征比可见光图像少,这也是热红外图像处理领域一直面临的挑战。目前,针对热红外图像的许多技术仍处于目标分割等底层图像处理阶段,通过传统方法对其实现语义分割较为困难。
近年来,随着深度学习飞速发展,语义分割领域出现了大量基于深度学习的方法。Long等人首次提出全卷积神经网络并应用于图像语义分割任务(参见文献:朗等,全卷积语义分割网络.美国电气与电子工程师协会计算机视觉和模式识别学会,2015.(Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015:3431-3440.));Chen等人为弥补全卷积网络受限于局部感受野和短程上下文信息的缺陷,将空洞卷积技术引入分割模型并设计空洞卷积空间金字塔算法以实现多尺度目标的鲁棒分割(参见文献:陈良杰等,Deeplab:基于深度卷积网络、空洞卷积和全连接条件随机场的图像语义分割.美国电气与电子工程师协会模式分析与机器智能学报,2017,834-848.(Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation with deep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE Transactions on Pattern Analysis and MachineIntelligence,2017,40(4):834-848.));Badrinarayanan等人提出了一种基于编码-解码架构的语义分割模型,该方法通过编码器从输入图像中提取低分辨率特征图,再通过解码器利用池化索引进行非线性上采样,以输出分割结果(参见文献:巴德里纳拉亚南等,Segnet:一种用于图像分割的深度卷积编码-解码架构.美国电气与电子工程师协会模式分析与机器智能学报,2017,2481-2495.(Badrinarayanan V,Kendall A,Cipolla R.Segnet:Adeep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(12):2481-2495.));Huang等人引入注意力机制,通过循环交叉方式获取目标像素在水平和垂直方向上远距离上下文信息,从而提高模型分割性能(参见文献:黄子龙等,Ccnet:语义分割交叉注意力.美国电气与电子工程师协会国际计算机视觉学会,2019.(Huang Z,Wang X,Huang L,et al.Ccnet:Criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision.2019:603-612.))。然而,以上语义分割方法的研究对象均为可见光图像,虽然针对边缘模糊、纹理不清的热红外图像难以实现有效分割,但也为红外语义分割开辟了新的研究思路和解决途径。
随着可见光图像语义分割技术发展,各种基于深度学习的语义分割方法逐渐深入热红外图像处理领域。Sun等人基于编码-解码架构建立可见光-热红外融合网络,利用编码器分别提取可见光和热红外图像特征,再基于融合特征解码以优化分割性能(参见文献:孙玉祥等,Rtfnet:用于城市场景语义分割的可见光-热融合网络.美国电气与电子工程师协会机器人与自动化学报,2019,2576-2583.(Sun Y,Zuo W,Liu M.Rtfnet:Rgb-thermalfusion network for semantic segmentation of urban scenes[J].IEEE Robotics andAutomation Letters,2019,4(3):2576-2583.));Shivakumar等人为解决可见光-热红外相机标定问题,同样结合可见光和热红外图像信息提出了一种快速语义分割网络(参见文献:希瓦库马尔等,Pst900:可见光-热标定,数据集和分割网络.美国电气与电子工程师协会国际机器人与自动化学会,2020.(Shivakumar S S,Rodrigues N,Zhou A,et al.Pst900:Rgb-thermal calibration,dataset and segmentation network[C]//Proceedings ofthe IEEE International Conference on Robotics and Automation.2020:9441-9447.))。上述这些方法通常会面临可见光-热红外图像特征对齐问题,在实际应用场景中也会带来额外校准成本。为避免图像配准问题,Li等人基于热红外数据集设计了一种边缘条件卷积神经网络,利用门控特征变换层融合边缘先验知识,以提高网络对热红外图像的分割性能(参见文献:李成龙等,昼夜分割目标:用于热图像语义分割的边缘条件卷积神经网络.美国电气与电子工程师协会神经网络与学习系统学报,2020,3069-3082.(Li C,XiaW,Yan Y,et al.Segmenting objects in day and night:Edge-conditioned cnn forthermal image semantic segmentation[J].IEEE Transactions on Neural Networksand Learning Systems,2020,32(7):3069-3082.))。Xiong等人针对热红外图像提出一种包含多层注意模块和多层边缘增强模块的校正网络,通过多级结合精确的上下文信息和边缘先验知识,以修正最终分割结果(参见文献:熊海涛等,MCNet:用于夜间驾驶场景热图像语义分割的多级校正网络.红外物理与技术学报,2021,103628.(Xiong H,Cai W,LiuQ.MCNet:Multi-level correction network for thermal image semanticsegmentation of nighttime driving scene[J].Infrared Physics&Technology,2021,113:103628.))。虽然这两种方法都考虑了热红外图像边缘模糊问题,尝试引入边缘先验改善分割效果,但其边缘特征融合过程中易出现信息冗余问题,难以有效提高分割精度。
综上所述,目前红外语义分割方法大多难以处理边缘模糊和纹理细节不清等分割问题,未能有效利用热红外图像的边缘特征和灰度空间信息,导致分割精度极低。本发明认为图像边缘和灰度空间信息在热红外语义分割中极具利用价值,其中边缘先验在红外辐射潜热交换影响下对温度相近、类别不同的目标分割具有强约束作用,而灰度空间信息可通过反映物体红外辐射亮度分布对同类目标判断提供纹理细节参考。基于此,本发明提出了一种新型红外语义分割方法:可解释边缘注意力和灰度量化网络(IEGNet)的红外语义分割方法。在本发明中,先使用注意力机制引入边缘先验知识并剔除冗余信息,进而利用热红外灰度直方图构造量化映射机制,使得边缘融合特征弥补纹理细节,在利用模块公式化推导增强可解释性的同时有效提高了红外语义分割精度。
发明内容
1、目的:针对上述问题,本发明目的在于提供一种可解释边缘注意力和灰度量化网络(IEGNet)的红外语义分割方法,为有效利用边缘和灰度空间信息引导分割,在卷积神经网络(CNN)提取多级语义特征的基础上,使用注意力和灰度量化机制分别提供边缘先验约束和纹理细节参考,在增强模型可解释性的同时可有效提高红外语义分割性能。
2、技术方案:为了实现这个目的,本发明的技术方案整体思路是构造包含特征提取网络、边缘注意力金字塔、灰度量化网络的红外语义分割模型,首先基于卷积神经网络提取多级语义特征和边缘特征,进而构造可解释网络模块,利用以注意力机制和多尺度结构为基础的边缘注意力金字塔将边缘信息融入多级语义特征并获取初步分割结果,再利用灰度量化网络根据热红外图像灰度分布对初步结果进行纹理细节修正,使得分割精度进一步提升。本发明的算法技术思路主要体现在以下四个方面:
1)使用卷积神经网络分层输出拼接获取边缘特征,充分挖掘热红外图像边缘信息。
2)设计边缘注意力机制,在不同尺度语义特征图中有效嵌入边缘特征,提高语义特征图对边缘信息的关注程度。
3)设计量化映射机制,充分利用热红外图像灰度空间信息,实现纹理细节修正。
4)使用边缘和纹理损失协同训练方式,提高网络在边缘条件和纹理约束下的分割性能。
本发明涉及一种可解释边缘注意力和灰度量化网络的红外语义分割方法,该方法具体步骤如下:
步骤一:利用卷积神经网络ResNet101提取多级语义特征图和边缘特征图。首先使用残差网络ResNet101作为特征提取网络,对输入图像进行多级语义特征提取;再将第一残差层和第三残差层输出的语义特征进行拼接;随后对拼接特征进行卷积和上采样处理,得到与输入图像大小相同的边缘特征图;本步骤得到的边缘特征将在步骤四中进行边缘损失计算。
步骤二:利用边缘注意力金字塔对各级语义特征进行边缘融合。利用公式化推导构造可解释的边缘注意力模块,实现在空间和通道上有效增强边缘信息关注程度;采用边缘注意力模块分别对特征提取网络第一到第四残差层语义特征图与边缘特征图依次融合;对特征提取网络第五残差层语义特征图使用平均池化操作获取全局语义信息;对各级边缘融合特征与池化层输出特征进行拼接,并利用分割头对拼接特征图进行解析,获得初步分割结果。
步骤三:利用灰度量化网络对初步分割结果进行纹理细节修正。计算热红外图像的灰度直方图以获取灰度空间分布信息;采用可解释的量化映射模块对初步分割结果和热红外图像进行同步映射并计算量化概率以获取修正系数,进而弥补纹理细节;再次利用分割头对纹理修正图进行解析,获取最终分割结果;本步骤分割结果将在步骤四中进行纹理损失计算。
步骤四:构造边缘和纹理损失函数对红外语义分割模型进行协同训练。
输出:用训练好的红外语义分割模型处理热红外图像。在使用训练数据对红外语义分割模型进行充分迭代训练后,得到训练好的模型用于分割待处理的热红外图像。
其中,所述步骤二具体如下:
2.1:利用边缘注意力模块在空间和通道上融合各级语义特征和边缘特征。可解释的公式化推导过程如下:首先根据语义特征获取注意力图A,计算公式为:其中Qu为语义特征经过卷积层处理获得的特征图Q在位置u的特征向量;Ki,u表示语义特征经过另一个卷积层处理的特征图K中与位置u具有相同行或列的特征Ku的第i个元素,/>是Ki,u的转置向量;di,u表示向量Qu与向量Ki,u的相关程度,其结果D经过自然指数e的归一化映射后,得到注意力图A;其次,为使各级语义特征解析过程中在十字方向更注重边缘,利用卷积处理边缘特征图后获取边缘值图V,再与注意力图A进行乘法聚合操作:/>从而得到边缘十字注意力特征图F,其中Fu和Au分别表示特征图F和A在位置u处的特征向量,h和w分别为特征图的高和宽,Vi,u为特征图V中与位置u具有相同行或列的特征Vu的第i个元素。最后引入通道注意力,将特征图F依次输入全局平均池化和两层全连接层,归一化后得到各通道权重值并与原语义特征图对应通道二维矩阵相乘,从而使最终融合特征在空间和通道上同时增强对边缘信息的关注并削弱冗余信息的干扰。
2.2:利用金字塔结构进行多尺度特征拼接并获取初步分割结果。将各级语义特征输入边缘注意力模块以获取各级边缘融合特征图;将特征提取网络第五残差层语义特征输入全局平均池化层以获取全局特征图;对各级边缘融合特征图和全局特征图进行上采样以得到与输入图像大小相同的特征图,再进行通道拼接;利用分割头中三层卷积解析拼接特征图,获取初步分割结果。
其中,所述步骤三具体如下:
3.1:本发明构造灰度直方图函数:其中,x为待处理图像像素(如3.2中多通道图f′和m′的各个像素),量化函数为/>灰度间距为/>N为量化等级,fmax和fmin分别表示输入热红外图像的灰度最大值和最小值。
3.2:量化映射模块进行纹理细节修正。可解释的公式化推导过程如下:首先将热红外图像f和初步分割图m分别输入卷积层以获取多通道图f′和m′,然后进行同步映射并计算概率分布图:其中Xu、Yu、f′u、m′u分别表示对应图像在位置u的像素值,HFn和HMn分别表示多通道图f′和m′中灰度等级为n的像素数,而/>表示多通道图f′中灰度等级为P(f′u)的像素数,/>表示多通道图m′中灰度等级为P(m′u)的像素数,P(f′u)和P(m′u)分别表示灰度直方图函数对多通道图f′和m′位置u处像素计算得到的量化结果。其次,计算映射概率分布图X和Y的相似系数:/>h和w分别为概率图的高和宽,Xu和Yu分别表示X和Y在位置u的像素值,-α则表示遍历图X和Y所有位置像素值所得的负均方差值。依据相似系数-α,可计算修正图S=e-αY+(1-e-α)X。当初步分割图的量化概率分布越接近热红外图像,即纹理细节分类准确时,相似系数越大,修正图越接近于初步分割图;反之,相似系数越小,修正图越接近于热红外图像,从而弥补纹理灰度细节以作修正,具有较强的可解释性。最后,利用三层卷积结构的分割头对修正图进行解析,得到最终分割结果。
其中,所述步骤四具体如下:
4.1:构造边缘损失函数用于约束边缘特征图与标签真值边缘对齐。其中,loss1为均方差损失函数,XE为标签真值经过拉普拉斯算子和归一化处理所得的边缘真值,YE为特征提取网络所得边缘特征图,XEu和YEu为相应边缘图在位置u上的像素值,h和w分别为图像高和宽。
4.2:构造纹理损失函数用于约束具体像素与真值对齐,但不考虑物体边界和真实边界之间的空间距离。其中,loss2为交叉熵损失函数,C为像素总数,K为语义类别总数,Tc,k表示分割头网络预测第c个像素为第k个类别的概率。当真值标签图中第c个像素确实为第k个类别时,Lc,k取值为1,否则为0。
4.3:最终损失函数为边缘和纹理联合约束:loss=αloss1+βloss2。其中,α和β为约束系数,本发明取值分别为10和1。训练过程中红外语义分割模型采用SGD(StochasticGradient Descent,随机梯度下降)优化器更新参数,并通过梯度反向传播调整模型参数以降低损失,初始学习率设为lr0=5×10-4,后续学习率随迭代次数ep动态调整为lr=lr0×(1-epep_num)1.5,最大迭代次数ep_num=200。
一种可解释边缘注意力和灰度量化网络的红外语义分割系统,其基本结构框架如图1所示,其特征在于,包括:
特征提取网络,由残差网络ResNet101构成,用于提取多级语义特征和边缘特征;
边缘注意力金字塔,由多个可解释的边缘注意力模块以金字塔形式堆叠构成;所述的边缘注意力模块用于融合各级语义特征和边缘特征,从空间和通道上有效融入边缘信息;
灰度量化网络,由可解释的量化映射模块构成,用于初步分割结果的纹理细节修正;
分割头网络模块,由三层卷积构成,用于解析特征以获取分割结果;
损失函数计算模块,用于计算红外语义分割模型的边缘和纹理损失函数。
特征提取网络、边缘注意力金字塔、灰度量化网络和分割头网络模块共同构成红外语义分割网络。其中特征提取网络为基本骨架;边缘注意力金字塔和灰度量化网络为可解释模块,用于特征的边缘融合和纹理修正;分割头网络对特征图进行解析以获取分割结果。在红外语义分割网络基础上,利用损失函数计算模块对整体网络进行训练以获得性能最优的分割模型,最终构成完整的红外语义分割系统。
3、优点及功效:本发明提出一种可解释边缘注意力和灰度量化网络的红外语义分割方法,基于卷积神经网络提取多级语义特征和边缘特征,进而利用可解释的公式化推导构造边缘注意力金字塔和灰度量化网络;通过以注意力机制和多尺度结构为基础的边缘注意力金字塔融合边缘及语义特征,在空间和通道上有效利用边缘信息;通过灰度量化网络引入热红外图像灰度空间分布信息,结合量化映射机制修正纹理细节;通过边缘和纹理损失对模型进行训练,约束边缘像素、纹理细节像素分别与真值对齐,提高模型对热红外图像边缘和纹理的解析性能。本发明可与各类基于热红外图像和语义分割的应用系统相结合,帮助提升热红外场景解析能力,具有广阔市场前景与应用价值。
附图说明
图1是本发明提出的可解释边缘注意力和灰度量化网络(IEGNet)的基本结构框架。
图2是边缘注意力模块的基本结构。
图3是量化映射模块的基本结构。
图4是分割头网络模块的基本结构。
图5展示了边缘注意力模块的边缘语义融合效果。
图6展示了量化映射模块的纹理修正效果。
图7a-7c展示了模型在不同热红外场景下的分割效果。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述。
本发明涉及一种可解释边缘注意力和灰度量化网络的红外语义分割方法,其算法框架与网络结构如图1所示,各部分具体实施步骤如下:
步骤一:利用卷积神经网络ResNet101提取多级语义特征图和边缘特征图。
步骤二:利用边缘注意力金字塔对各级语义特征进行边缘融合,边缘注意力金字塔包含的边缘注意力模块结构如图2所示。
步骤三:利用灰度量化网络对初步分割结果进行纹理细节修正,灰度量化网络包含的量化映射模块结构如图3所示。
步骤四:构造边缘和纹理损失函数对红外语义分割模型进行协同训练。
输出:用训练好的红外语义分割模型处理热红外图像。在使用训练数据对红外语义分割模型进行充分迭代训练后,得到训练好的模型用于分割待处理的热红外图像。
其中,所述步骤二具体如下:
2.1:利用边缘注意力模块在空间和通道上融合各级语义特征和边缘特征。可解释的公式化推导过程如下:首先根据语义特征获取注意力图A,计算公式为:其中Qu为语义特征经过1×1卷积层处理获得的特征图Q在位置u的特征向量;Ki,u表示语义特征经过另一个卷积层处理的特征图K中与位置u具有相同行或列的特征Ku的第i个元素,/>是Ki,u的转置向量;di,u表示向量Qu与向量Ki,u的相关程度,其结果D经过自然指数e的归一化映射后,得到注意力图A;其次,为使各级语义特征解析过程中在十字方向更注重边缘,利用卷积处理边缘特征图后获取边缘值图V,再与注意力图A进行乘法聚合操作:/>从而得到边缘十字注意力特征图F,其中Fu和Au分别表示特征图F和A在位置u处的特征向量,h和w分别为特征图的高和宽,Vi,u为特征图V中与位置u具有相同行或列的特征Vu的第i个元素。最后引入通道注意力,将特征图F依次输入全局平均池化和两层全连接层,归一化后得到各通道权重值并与原语义特征图对应通道二维矩阵相乘,从而使最终融合特征在空间和通道上有效关注边缘信息。边缘注意力模块的基本结构如图2所示。
2.2:利用金字塔结构进行多尺度特征拼接并获取初步分割结果。将各级语义特征输入边缘注意力模块以获取各级边缘融合特征图;将特征提取网络第五残差层语义特征输入全局平均池化层以获取全局特征图;对各级边缘融合特征图和全局特征图进行上采样以得到与输入图像大小相同的特征图,再进行通道拼接;利用分割头中三层卷积解析拼接特征图,其卷积核大小依次为3×3、3×3、1×1。分割头的基本结构如图4所示。
其中,所述步骤三具体如下:
3.1:本发明构造灰度直方图方式为:其中,x为待处理图像像素(如3.2中多通道图f′和m′的各个像素),量化函数为灰度间距为/>N为量化等级,fmax和fmin分别表示输入热红外图像的灰度最大值和最小值。
3.2:量化映射模块进行纹理细节修正。可解释的公式化推导过程如下:首先将热红外图像f和初步分割图m分别输入3×3卷积块以获取多通道图f′和m′,然后进行同步映射并计算概率分布:其中Xu、Yu、f′u、m′u分别表示对应图像在位置u的像素值,HFn和HMn分别表示多通道图f′和m′中灰度等级为n的像素数,而/>表示多通道图f′中灰度等级为P(f′u)的像素数,/>表示多通道图m′中灰度等级为P(m′u)的像素数,P(f′u)和P(m′u)分别表示灰度直方图函数对多通道图f′和m′位置u处像素计算得到的量化结果。其次,计算映射概率分布图X和Y的相似系数:/>h和w分别为图像高和宽,Xu和Yu分别表示X和Y在位置u的像素值,-α则表示遍历图X和Y所有位置像素值所得的负均方差值。依据相似系数-α,可计算修正图S=e-αY+(1-e-α)X。最后,利用三层卷积结构的分割头对修正图进行解析,其卷积核大小依次为3×3、3×3、1×1。量化映射模块和分割头的基本结构分别如图3和图4所示。
其中,所述步骤四具体如下:
4.1:构造边缘损失函数用于约束边缘特征图与标签真值边缘对齐。其中,loss1为均方差损失函数,XE为标签真值经过拉普拉斯算子和归一化处理所得的边缘真值,YE为特征提取网络所得边缘特征图,XEu和YEu为相应边缘图在位置u上的像素值,h和w分别为图像高和宽。
4.2:构造纹理损失函数用于约束具体像素与真值对齐,但不考虑物体边界和真实边界之间的空间距离。其中,loss2为交叉熵损失函数,C为像素总数,K为语义类别总数,Tc,k表示分割头网络预测第c个像素为第k个类别的概率。当真值标签图中第c个像素确实为第k个类别时,Lc,k取值为1,否则为0。
4.3:最终损失函数为边缘和纹理联合约束:loss=αloss1+βloss2。其中,α和β为约束系数,本发明取值分别为10和1。训练过程中红外语义分割模型采用SGD(StochasticGradient Descent,随机梯度下降)优化器更新参数,并通过梯度反向传播调整模型参数以降低损失,初始学习率设为lr0=5×10-4,后续学习率随迭代次数ep动态调整为lr=lr0×(1-epep_num)1.5,最大迭代次数ep_num=200。
在本发明的图示实例中,如图1中热红外图像所示,该图为城市道路场景,包含天空、植物、建筑物、人类、人行道、草地和其他共七个语义类别。针对此图像,本发明处理城市道路场景下热红外语义分割问题的具体实施过程如下:
步骤一中,作为训练数据,图1中的热红外图像输入卷积神经网络提取了五级语义特征,结合第一级和第三级融合生成边缘特征,如图1中边缘特征图所示,各类语义边缘较为清晰,但冗余信息过多,不适合直接与其他语义特征通过拼接方式融合。
步骤二中,前四级语义特征分别通过边缘注意力模块与边缘特征图融合,其中第二级语义特征和边缘特征融合后可视化结果如图5所示,该图中可看出边缘注意力有效增强了人类、人行道的边界并剔除了图中部分冗余杂质,其可视化效果充分说明了边缘注意力的可解释性。此外,第五级语义特征经过全局平均池化后与前四级边缘语义融合特征通过上采样和拼接技术后输出最终融合特征,分割头网络进行特征解析后可得到初步分割结果。
步骤三中,灰度量化网络引入输入图像的灰度直方图,通过量化映射模块对初步分割结果进行纹理修正,其中量化映射模块对初步分割结果卷积图的修正效果如图6所示,该图中可看出量化映射模块在杆子、人体、草坪和人行道内部区域的可视化特征更加清晰,使得不同目标区域界限更加明显,同时增强了模型对大目标内部区域的解析性能,充分验证了模块的可解释性。最后,利用分割头网络解析纹理修正图可得到最终分割结果。
步骤四中,分别计算边缘特征图和分割结果与对应真值的损失,利用SGD优化器和梯度反向传播调整模型参数,开始下一轮训练,即处理下一张待训练的城市道路场景热红外图像。
完成训练后的模型可用于处理其他城市道路场景下的热红外图像,如图7所示,未参与训练的热红外图像经过训练好的模型处理后可实现高质量场景解析。对比真值标签和模型输出的分割结果,可看出本发明对不同城市道路场景下建筑物、人行道、道路、人类、机动车、非机动车、植物、天空等多个语义类别分割准确,从而可在黑夜、雾霾、阴雨天等光线较差、环境恶劣的情况下通过红外语义分割辅助自动驾驶系统对城市道路场景的安全有效理解。
以上所述仅为本发明的优选实施例,并不用于限制本发明在各种非城市道路场景下的热红外图像处理应用。基于不同场景和不同语义标签的训练数据,本发明通过卷积神经网络提取特征,结合可解释的边缘注意力金字塔和灰度量化网络分别实现边缘语义融合及纹理细节修正,实现高精度红外语义分割,可有效提升对应训练场景下语义解析能力,从而可应用于各类基于热红外图像和语义分割的应用系统中。
Claims (3)
1.一种可解释边缘注意力和灰度量化网络的红外语义分割方法,其特征在于,该方法具体步骤如下:
步骤一:利用卷积神经网络ResNet101提取多级语义特征图和边缘特征图;首先使用残差网络ResNet101作为特征提取网络,对输入图像进行多级语义特征提取;再将第一残差层和第三残差层输出的语义特征进行拼接;随后对拼接特征进行卷积和上采样处理,得到与输入图像大小相同的边缘特征图;
步骤二:利用边缘注意力金字塔对各级语义特征进行边缘融合;利用公式化推导构造可解释的边缘注意力模块,实现在空间和通道上有效增强边缘信息关注程度;采用边缘注意力模块分别对特征提取网络第一到第四残差层语义特征图与边缘特征图依次融合;对特征提取网络第五残差层语义特征图使用平均池化操作获取全局语义信息;对各级边缘融合特征与池化层输出特征进行拼接,并利用分割头对拼接特征图进行解析,获得初步分割结果;
步骤三:利用灰度量化网络对初步分割结果进行纹理细节修正;计算热红外图像的灰度直方图以获取灰度空间分布信息;采用可解释的量化映射模块对初步分割结果和热红外图像进行同步映射并计算量化概率以获取修正系数,进而弥补纹理细节;再次利用分割头对纹理修正图进行解析,获取最终分割结果;
步骤四:构造边缘和纹理损失函数对红外语义分割模型进行协同训练;
输出:用训练好的红外语义分割模型处理热红外图像;在使用训练数据对红外语义分割模型进行充分迭代训练后,得到训练好的模型用于分割待处理的热红外图像;
在步骤二中,具体如下:
S2.1:利用边缘注意力模块在空间和通道上融合各级语义特征和边缘特征;可解释的公式化推导过程如下:首先根据语义特征获取注意力图A,计算公式为:其中Qu为语义特征经过卷积层处理获得的特征图Q在位置u的特征向量;Ki,u表示语义特征经过另一个卷积层处理的特征图K中与位置u具有相同行或列的特征Ku的第i个元素,/>是Ki,的转置向量;di,u表示向量Qu与向量Ki,u的相关程度,其结果D经过自然指数e的归一化映射后,得到注意力图A;其次,为使各级语义特征解析过程中在十字方向更注重边缘,利用卷积处理边缘特征图后获取边缘值图V,再与注意力图A进行乘法聚合操作:/>从而得到边缘十字注意力特征图F,其中Fu和Au分别表示特征图F和A在位置u处的特征向量,h和w分别为特征图的高和宽,Vi,u为特征图V中与位置u具有相同行或列的特征Vu的第i个元素;最后引入通道注意力,将特征图F依次输入全局平均池化和两层全连接层,归一化后得到各通道权重值并与原语义特征图对应通道二维矩阵相乘,从而使最终融合特征在空间和通道上同时增强对边缘信息的关注并削弱冗余信息的干扰;
S2.2:利用金字塔结构进行多尺度特征拼接并获取初步分割结果;将各级语义特征输入边缘注意力模块以获取各级边缘融合特征图;将特征提取网络第五残差层语义特征输入全局平均池化层以获取全局特征图;对各级边缘融合特征图和全局特征图进行上采样以得到与输入图像大小相同的特征图,再进行通道拼接;利用分割头中三层卷积解析拼接特征图,获取初步分割结果;
在步骤三中,具体如下:
S3.1:构造灰度直方图函数:其中,x为待处理图像像素,量化函数为灰度间距为/>N为量化等级,fmax和fmin分别表示输入热红外图像的灰度最大值和最小值;
S3.2:量化映射模块进行纹理细节修正;可解释的公式化推导过程如下:首先将热红外图像f和初步分割图m分别输入卷积层以获取多通道图f′和m′,然后进行同步映射并计算概率分布图:其中Xu、Yu、f′u、m′u分别表示对应图像在位置u的像素值,HFn和HMn分别表示多通道图f′和m′中灰度等级为n的像素数,而/>表示多通道图f′中灰度等级为P(f′u)的像素数,/>表示多通道图m′中灰度等级为P(m′u)的像素数,P(f′u)和P(m′u)分别表示灰度直方图函数对多通道图f′和m′位置u处像素计算得到的量化结果;其次,计算映射概率分布图X和Y的相似系数:/>h和w分别为概率图的高和宽,Xu和Yu分别表示X和Y在位置u的像素值,-α则表示遍历图X和Y所有位置像素值所得的负均方差值;依据相似系数-α,计算修正图S=e-αY+(1-e-α)X;当初步分割图的量化概率分布越接近热红外图像,即纹理细节分类准确时,相似系数越大,修正图越接近于初步分割图;反之,相似系数越小,修正图越接近于热红外图像,从而弥补纹理灰度细节以作修正,具有较强的可解释性;最后,利用三层卷积结构的分割头对修正图进行解析,得到最终分割结果;
在步骤四中,具体如下:
S4.1:构造边缘损失函数用于约束边缘特征图与标签真值边缘对齐;其中,loss1为均方差损失函数,XE为标签真值经过拉普拉斯算子和归一化处理所得的边缘真值,YE为特征提取网络所得边缘特征图,XEu和YEu为相应边缘图在位置u上的像素值,h和w分别为图像高和宽;
S4.2:构造纹理损失函数用于约束具体像素与真值对齐,但不考虑物体边界和真实边界之间的空间距离;其中,loss2为交叉熵损失函数,C为像素总数,K为语义类别总数,Tc,k表示分割头网络预测第c个像素为第k个类别的概率;当真值标签图中第c个像素确实为第k个类别时,Lc,k取值为1,否则为0;
S4.3:最终损失函数为边缘和纹理联合约束:loss=αloss1+βloss2;其中,α和β为约束系数,取值分别为10和1;训练过程中红外语义分割模型采用SGD优化器更新参数,并通过梯度反向传播调整模型参数以降低损失,初始学习率设为lr0=5×10-4,后续学习率随迭代次数ep动态调整为最大迭代次数ep_num=200。
2.一种用于实现权利要求1所述的可解释边缘注意力和灰度量化网络的红外语义分割方法的系统,其特征在于:
特征提取网络,由残差网络ResNet101构成,用于提取多级语义特征和边缘特征;
边缘注意力金字塔,由多个可解释的边缘注意力模块以金字塔形式堆叠构成;所述的边缘注意力模块用于融合各级语义特征和边缘特征,从空间和通道上有效融入边缘信息;
灰度量化网络,由可解释的量化映射模块构成,用于初步分割结果的纹理细节修正;
分割头网络模块,由三层卷积构成,用于解析特征以获取分割结果;
损失函数计算模块,用于计算红外语义分割模型的边缘和纹理损失函数。
3.根据权利要求2所述的系统,其特征在于:特征提取网络、边缘注意力金字塔、灰度量化网络和分割头网络模块共同构成红外语义分割网络;其中特征提取网络为基本骨架;边缘注意力金字塔和灰度量化网络为可解释模块,用于特征的边缘融合和纹理修正;分割头网络对特征图进行解析以获取分割结果;在红外语义分割网络基础上,利用损失函数计算模块对整体网络进行训练以获得性能最优的分割模型,最终构成完整的红外语义分割系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210457833.5A CN114972748B (zh) | 2022-04-28 | 2022-04-28 | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210457833.5A CN114972748B (zh) | 2022-04-28 | 2022-04-28 | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114972748A CN114972748A (zh) | 2022-08-30 |
CN114972748B true CN114972748B (zh) | 2024-05-28 |
Family
ID=82980079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210457833.5A Active CN114972748B (zh) | 2022-04-28 | 2022-04-28 | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972748B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205300B (zh) * | 2022-09-19 | 2022-12-09 | 华东交通大学 | 基于空洞卷积和语义融合的眼底血管图像分割方法与系统 |
CN115273154B (zh) * | 2022-09-26 | 2023-01-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于边缘重构的热红外行人检测方法、系统及存储介质 |
CN117692652B (zh) * | 2024-02-04 | 2024-04-26 | 中国矿业大学 | 一种基于深度学习的可见光与红外视频融合编码方法 |
CN118447338B (zh) * | 2024-07-08 | 2024-09-06 | 青岛山大齐鲁医院(山东大学齐鲁医院(青岛)) | 基于卷积神经网络的胃肠道病灶分析处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN111178432A (zh) * | 2019-12-30 | 2020-05-19 | 武汉科技大学 | 多分支神经网络模型的弱监督细粒度图像分类方法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN113436094A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于多视角注意力机制的灰度图像自动上色方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909401B2 (en) * | 2018-05-29 | 2021-02-02 | Sri International | Attention-based explanations for artificial intelligence behavior |
US11694319B2 (en) * | 2020-04-10 | 2023-07-04 | Samsung Display Co., Ltd. | Image-based defects identification and semi-supervised localization |
-
2022
- 2022-04-28 CN CN202210457833.5A patent/CN114972748B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188817A (zh) * | 2019-05-28 | 2019-08-30 | 厦门大学 | 一种基于深度学习的实时高性能街景图像语义分割方法 |
CN111178432A (zh) * | 2019-12-30 | 2020-05-19 | 武汉科技大学 | 多分支神经网络模型的弱监督细粒度图像分类方法 |
CN111462126A (zh) * | 2020-04-08 | 2020-07-28 | 武汉大学 | 一种基于边缘增强的语义图像分割方法及系统 |
CN113436094A (zh) * | 2021-06-24 | 2021-09-24 | 湖南大学 | 一种基于多视角注意力机制的灰度图像自动上色方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114972748A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114972748B (zh) | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 | |
Tan et al. | YOLOv4_Drone: UAV image target detection based on an improved YOLOv4 algorithm | |
US20220044375A1 (en) | Saliency Map Enhancement-Based Infrared and Visible Light Fusion Method | |
CN113807187B (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
Zhou et al. | Embedded control gate fusion and attention residual learning for RGB–thermal urban scene parsing | |
CN111536970B (zh) | 一种用于低能见度大尺度场景的红外惯性组合导航方法 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN113486894B (zh) | 一种卫星图像特征部件语义分割方法 | |
CN112016478B (zh) | 一种基于多光谱图像融合的复杂场景识别方法及系统 | |
CN115359474A (zh) | 适用于移动端的轻量级三维目标检测方法、装置及介质 | |
CN113052106A (zh) | 一种基于PSPNet网络的飞机起降跑道识别方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
Wu et al. | Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN117952883A (zh) | 一种基于双边网格和显著性引导的逆光图像增强方法 | |
Tseng et al. | Semi-supervised image depth prediction with deep learning and binocular algorithms | |
CN111898671A (zh) | 激光成像仪和彩色相机编码融合目标识别方法及系统 | |
CN115082533B (zh) | 一种基于自监督的临近空间遥感图像配准方法 | |
CN116486352A (zh) | 基于道路约束的车道线鲁棒检测与提取方法 | |
CN115661451A (zh) | 一种深度学习单帧红外弱小目标高分辨率分割方法 | |
CN115100680A (zh) | 一种基于多源图像融合的行人检测方法 | |
Liu et al. | L2-LiteSeg: A Real-Time Semantic Segmentation Method for End-to-End Autonomous Driving | |
Yuyao et al. | The infrared-visible complementary recognition network based on context information | |
Li et al. | Image fusion with inverted residual densely connected directional differentiation and attention mechanisms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |