CN116912485A - 一种基于热感图像和可见光图像特征融合的场景语义分割方法 - Google Patents
一种基于热感图像和可见光图像特征融合的场景语义分割方法 Download PDFInfo
- Publication number
- CN116912485A CN116912485A CN202310549430.8A CN202310549430A CN116912485A CN 116912485 A CN116912485 A CN 116912485A CN 202310549430 A CN202310549430 A CN 202310549430A CN 116912485 A CN116912485 A CN 116912485A
- Authority
- CN
- China
- Prior art keywords
- feature
- module
- fusion
- visible light
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 71
- 230000004927 fusion Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000000750 progressive effect Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 17
- 102100021973 Carbonyl reductase [NADPH] 1 Human genes 0.000 claims description 12
- 101000896985 Homo sapiens Carbonyl reductase [NADPH] 1 Proteins 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 5
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000007670 refining Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于热感图像和可见光图像特征融合的场景语义分割方法,本发明方法将同一场景的可见光和热感图像成对输入到训练好的语义分割模型中得到图像中物体的分割结果,该分割模型包括:双分支主干特征提取网络Segfomer,用于对输入的数据进行全局特征的提取;辅助特征选择模块,用于对主干特征提取网络提取的层级特征进行两个模态之间相互补充特征信息;跨模态特征融合模块,进行模态间的特征进一步融合,得到一个丰富的语义信息特征;逐级特征融合解码器模块,实现解码器的精细化上采样;多损失监督模块,用于监督模型的学习。本发明能够有效地利用可见光图像和热感图像的特点,挖掘它们之间的互补特征,在保持模型较小参数量的同时,有效提高场景语义分割模型的分割精度和泛化能力。
Description
技术领域
本发明涉及基于深度学习语义分割技术领域,尤其涉及一种基于热感图像和可见光图像特征融合的场景语义分割方法。
背景技术
随着计算机视觉、机器人等技术的发展,以机器人、无人车为代表的无人系统在各个领域得到了广泛应用。为了实现无人系统的自主导航,环境感知是非常重要的环节,对于机器人与外界环境的理解、交互起重要的作用。环境感知主要有目标检测和语义分割两种方法,语义分割相比目标检测实现像素级的分割,能给出更多的语义信息,更有利帮助无人系统识别和理解周围环境的目标。在现有的语义分割方法中,针对现有的RGB图像数据集,其分割的结果往往是无法达到很好的效果,其鲁棒性差,在目标之间相互遮挡、光照条件差、天气气候不佳等环境下,分割性能往往不佳。
为了提高现有场景语义分割方法的鲁棒性,不少研究者将热感图像引入语义分割中,利用红外热成像相机与可见光相机成像机制不同,通过物体辐射的热量获取红外信息,可以增强对光线与天气变化的鲁棒性,热红外信息对于光照条件差产生的识别模糊非常有效,因此研究人员将关注转移到了多模态语义分割领域,利用具有丰富的纹理、颜色信息的可见光和稳定的热感图像特征,来提升语义分割的鲁棒性和精确度。
由于可见光图像和热感图像的特征融合会产生不可预测的噪声影响,简单的利用两个模态的特征会导致其分割精度不如单模态。2017年,Ha等人提出了MFNet网络和第一个RGB-T的城市街景的语义分割数据集,此网络采用了两个编码器分别提取RGB和热感图的特征和一个解码器结构,在编码器中部分上采样操作前融合两个模态的信息。2019年,Sun等人设计了RTFNet,采用的主干网络是resnet,在编码器中通过相加来连接两个模态的相应阶段的特征图,解码器设计了两个模块来逐步完成特征的提取和分辨率的恢复。2020年,Shivakumar等人设计了一个双路的神经网络结构,能够有效的融合RGB信息和RGB-T信息,同时提出了一种RGB-T数据集矫正的方法,通过Depth信息来校正RGB和RGB-T信息对齐,通过RGB-T到RGB图像的映射关系进行校正。2021年,Zhou等人提出了多级特征多标签学习网络,将编码器中提取的特征设计了相应的模块进行特征图处理,同时引入了三个标签对其网络进行监督。接着Liu等人提出了CMX模型,通过结合其他模态的特征,在空间和维度上来校准当前模态的特征。
在目前存在的研究方法中,分割精度仍然达不到满意的效果,无法兼顾精度和模型的参数量。如何有效地利用可见光图像和热感图像的特点,挖掘它们之间的互补特征,并降低由于成像机制不同而引入的噪声,以提高模型的泛化能力,这是一个重要的挑战。
发明内容
本发明针对上述已有方法存在的不足,发明了一种基于热感图像和可见光图像特征融合的场景语义分割方法,旨在对两个模态中进行选择性特征互补,进而充分的利用两个模态的特征优势实现模态间特征交互,结合一种跨模态特征融合方式和逐级特征融合解码器方法,同时使用多损失监督来定位、分割、细化目标边缘来提升复杂场景下语义分割精度。
根据上述思路,实现本发明采取的技术方案为:
一种基于热感图像和可见光图像特征融合的场景语义分割方法,分割模型包括:
主干特征提取网络,用于对输入的可见光图像和热感图像提取不同层次的特征;
辅助特征选择模块,用于对主干特征提取网络提取的多层级特征在两个模态之间进行相互补充特征信息,随后输入到主干网络进行进一步特征提取;
跨模态特征融合模块,对经过互补特征选择模块的特征进行特征的融合,得到一个富含两个模态的语义信息特征;
逐级特征融合解码器模块,用于融合跨模态特征密集融合模块中的特征图和上采样的特征图,实现解码器的精细化上采样;
多损失监督模块,得到前景分割预测、语义分割预测、轮廓分割预测用于来定位、分割、细化目标边缘。
可选地,所述主干特征提取网络为Segformer网络,所述Segformer网络的编码器是一种无位置编码的分层Transfomer编码器,可以适应任意的测试分辨率,不影响分割的性能,同时分层Transfomer解码器能够生成高分辨率的精细特征和低分辨率的粗特征,生成多尺度特征;
可选地,所述辅助特征选择模块包括拼接模块、通道注意力模块、空间注意力模块和辅助特征融合模块;所述拼接模块用于将输入特征Pmain和另一个输入特征Passist在通道维度上进行拼接处理,得到特征P1;特征P1并行输入到通道注意力模块和空间注意力模块分别得到两个特征输出PC和PS;将特征Pmain、PC和PS输入到辅助特征融合模块得到最后的输出特征Fout,Fout会输入到主干网络和跨模态特征融合模块。
可选地,所述跨模态特征融合模块包括1×1卷积模块、分组卷积模块、密集级联语义信息模块以及残差连接。所述1×1卷积模块用于对由第1个输入特征和第2个输入特征/>拼接后的特征/>进行特征通道信息的学习,得到特征/> 经过分组卷积模块、密集级联语义信息模块得到特征/>和/>通过残差连接将特征 和/>采取特征元素相加的方式进行融合得到的输出特征为/>
可选地,所述分组卷积模块输入一个尺度大小为2C×H×W的特征特征会经过1×1卷积模块对通道变换学习、经过3×3的分组卷积、通过激活函数Relu进行非线性学习,然后再经过1×1卷积,此时特征大小为C×H×W的特征,最后对其进行正则化处理得到特征/>
可选地,密集级联语义信息模块是一个密集特征连接结构,卷积核使用的是3×3,填充和扩张率分别为3,5,7,该模块构成特征内密集连接,输入特征为输出特征为
可选地,所述逐级特征融合解码器模块包含1×1卷积操作,进行一个通道的语义信息卷积,这个卷积是为后面融合相应融合跨模态特征融合模块中的特征图设置的,此时得到特征FCBR1×1,特征FCBR1×1经过3×3卷积、转置卷积得到第一个精细化上采样特征特征FCBR1×1经过转置卷积得到第二个精细化上采样特征/>特征/>和特征/>采取特征元素相加的方式进行融合得到输出特征/>
可选地,多损失监督模块这模块得到前景分割预测、语义分割预测、轮廓分割预测,同时使用三个交叉熵损失函数对三个分割预测计算相应的损失,将三个损失相加得到整个网络损失输出;
本发明具有如下优点:
1.本发明对复杂的场景下目标的分割精度显著提升,同时模型的参数量较小,便于在嵌入式设备上的部署。
2.本发明能够有效的融合两个模态特征,探究了两个模态之间特征的有效性和互补性,模型具有较强的泛化能力。
附图说明
图1为本发明一种基于热感图像和可见光图像特征融合的场景语义分割方法的网络结构示意图。
图2为本发明提出的辅助特征选择模块示意图。
图3为本发明提出的跨模态特征融合模块示意图。
图4为本发明提出的密集级联语义信息模块示意图。
图5为本发明提出的逐级特征融合解码器模块示意图。
图6为本发明提出的多损失监督模块示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。下面将结合附图和具体实施例,对本发明进行详细说明。
典型的可见光图像为RGB图像,典型的热感图像可由红外热像仪获取,记为T图像,训练网络中基于深度学习模型的Pytorch框架实现,输入的同一场景的RGB图像和T图像的大小相同,记为(B,C,H,W),其中B为图像批处理大小,C是通道数,H是图像的高,W是图像的宽。本实施例提供一种基于热感图像和可见光图像特征融合的场景语义分割方法,如图1所示,该语义分割模型包括:
主干特征提取网络,用于对输入的可见光图像和热感图像提取不同层次的特征;
辅助特征选择模块,用于对主干特征提取网络提取的层级特征进行两个模态之间相互补充特征信息;
跨模态特征融合模块,对经过互补特征选择模块的特征进行特征的融合,得到一个富含两个模态的语义信息特征;
逐级特征融合解码器模块,用于逐级融合跨模态特征融合模块中的输出特征和上级解码器的输出特征,实现解码器的精细化上采样;
多损失监督模块,得到前景分割预测、语义分割预测、轮廓分割预测用于来定位、分割、细化目标边缘。
主干特征提取网络用于实现多个层次的特征提取,其可以根据需要采用现有的主干特征提取网络。作为一种可选的实施方式,如图1所示,在本实施例中是双分支主干特征网络,主干特征提取网络A和主干特征提取网络B都采用Segformer网络分别用于对输入的可见光图像和热感图像提取不同层级的特征,Segformer网络的编码器是一种无位置编码的分层Transfomer编码器,可以适应任意的测试分辨率,不影响分割的性能,同时分层Transfomer编码器能够生成高分辨率的精细特征和低分辨率的粗特征,生成多尺度的特征。主干特征提取网络A和主干特征提取网络B均包含了四层特征提取编码器,分别记为LayerAi(i=1,2,3,4)、LayerBi(i=1,2,3,4),对应所提取的特征有四个层级,记为和/>
所述辅助特征选择模块AFSM(Auxiliary Feature Selection Module)用于对主干特征提取网络提取的层级特征进行两个模态之间特征信息相互补充,主干网络A所在的支路中有4个辅助特征选择模块,记为主干网络B所在的支路中有4个辅助特征选择模块,记为/>所有的辅助特征选择模块的结构相同,如图2所示,输入为Pmain和Passist。在双分支主干网络中,在RGB图像支路上,由主干网络A提取的特征/> 为辅助特征选择模块/>中的特征Pmain输入,主干网络B提取的特征/>为辅助特征选择模块/>中的特征Passist输入;在T图像支路上,经过主干网络B提取的特征/>为辅助特征选择模块中的特征Pmain输入,主干网络A提取的特征/>为辅助特征选择模块/> 中的特征Passist输入。以RGB图像支路的第一个辅助特征选择模块/>为例说明该辅助特征选择模块的内部对数据处理的过程,特征/>为/>的输入特征Pmain,特征/>为/>的另一个输入特征Passist,将两个输入特征Pmain和Passist在通道维度上拼接起来得到特征P1,特征P1经过自适应最大池化、自适应平均池化得到两个维度大小为(B,2C,1,1)的通道特征图,将这两个通道特征图在通道上拼接起来,然后通过一个多层感知机(MLP)得到一个维度为(B,C,1,1)的通道权重Cweight1;特征P1通过一个多层感知机(MLP)得到一个维度为(B,1,H,W)的空间权重Sweight1,最后RGB分支上的输出特征为 同样在T图像支路上,以第一个辅助特征选择模块/>为例说明该辅助特征选择模块的内部对数据处理的过程,特征/>为/>的输入特征Pmain,特征/>为/>的另一个输入特征Passist,将两个输入特征Pmain和Passist在通道维度上拼接起来得到特征P1,特征P1经过自适应最大池化、自适应平均池化得到两个维度大小为(B,2C,1,1)的通道特征图,将这两个通道特征图在通道上拼接起来,然后通过一个多层感知机(MLP)得到一个维度为(B,C,1,1)的通道权重Cweight2;特征P1通过一个多层感知机(MLP)得到一个维度为(B,1,H,W)的空间权重Sweight2,最后T图像分支上的输出特征为 经过特征辅助模块得到的输出,继续输入后面的主干网络和跨模态特征融合模块。
所述跨模态特征融合模块CMFFM(Cross-module Feature Fusion Module)用于对两个主干网络中的互补特征选择模块的输出特征进行特征融合,得到两个模态之间的融合特征输入到模型的逐级特征融合解码器中。一共有四个跨模态特征融合模块,记为CMFFMi(i=1,2,3,4),所有的跨模态特征融合模块的内部结构相同,如图3所示,其输入为和/>。经过主干网络A上的辅助特征选择模块/>的输出特征作为跨模态特征融合模块中输入特征/>经过主干网络B上的辅助特征选择模块/> 的输出特征/>为跨模态特征融合模块中特征输入。四个跨模态特征融合模块的输出分别为/>以第一个跨模态特征融合模块CMFFM1为例说明该跨模态特征融合模块的内部对数据处理的过程,首先利用1×1卷积模块将特征/>特征/>在通道上拼接后的特征/>进行特征通道信息的学习得到第一个大小为(B,C,H,W)的特征/> 经过1×1卷积模块的进行通道维数变化,接着输入到3×3分组卷积模块、激活函数、1×1卷积、正则化层得到输出大小为(B,C,H,W)的特征/>特征/>经过密集级联语义信息模块得到特征为/>跨模态特征融合模块使用残差连接采用特征元素相加融合得到最终的输出为
所述逐级特征融合解码器模块SFFDM(Stepwise Feature Fusion DecoerModule)用于逐级融合跨模态特征融合模块中的输出特征和上一级解码器的输出特征,实现解码器的精细化上采样,如图5所示,图(a)表示第四个解码器,图(b)表示前三个解码器示意图,一共有四层解码器,记为SFFDMi(i=1,2,3,4),第四个解码器不同于前面三个,区别在解码器的输入,其SFFDM4的输入为输出为/>SFFDMi(i=1,2,3)的输入为和/>特征相加融合,输出为/>下面以第四个逐级特征融合解码器模块SFFDM4和第三个逐级特征融合解码器模块SFFDM3为例说明该逐级特征融合解码器模块的内部对数据处理的过程,第四个解码器中输入特征/>直接输入1×1卷积模块,得到特征FCBR1×1,接着特征FCBR1×1分别输入两路,首先一路分支输入3×3卷积模块进行特征学习,接着输入转置卷积此时得到特征图大小上采样的特征/>另外一路分支特征特征FCBR1×1经过转置卷积对特征图进行上采样得到特征/>最后模块的输出为 第三个解码器的输入为/>和第四个的解码器的输出特征/>特征相加融合,再输入1×1卷积模块,得到特征FCBR1×1,接着特征FCBR1×1分别输入两路,首先一路分支输入3×3卷积模块进行特征学习,接着输入转置卷积,此时得到特征图大小上采样的特征/>另外一路分支特征特征FCBR1×1经过转置卷积对特征图进行上采样得到特征/>最后模块的输出为/>逐级特征融合解码器模块得到的输出特征/>将输入到多损失监督模块。
所述多损失监督模块(Multi-Loss Monitoring Module)用于得到前景分割预测、语义分割预测、轮廓分割预测来实现定位、分割、细化目标边缘,如图6所示,在逐级特征融合解码器模块得到的输出特征特征/>输入到1×1卷积模块、正则化函数、激活函数,然后输入到一个输出通道数为2的1×1卷积模块得到特征F',特征F'进行插值上采样得到原始图像大小一样的前景分割预测结果Fbin;特征F'进行卷积操作可得到一个单通道的特征图,接着通过Sigmoid激活函数得到特征F'的权重系。特征/>与特征F'的权重系数进行相乘操作接着输入到1×1卷积模块、正则化函数、激活函数得到特征F”,然后输入到一个通道数为9的1×1卷积模块、进行插值上采样得到原始图像大小一样的语义分割预测结果Fsem;将特征/>与特征特征F”在通道上进行特征拼接操作得到维度为(B,2C,H,W)的特征图,输入到1×1卷积模块、正则化函数、激活函数得到大小为(B,2C,H,W)的特征图,最后输入到一个通道数为2的1×1卷积模块、进行插值上采样得到原始图像大小一样的轮廓分割预测结果Fboud。使用交叉熵损失函数lbin、lsem、lboud对其三个预测结果Fbin、Fsem、Fboud进行训练监督,其中lbin、lboud是二分类交叉熵损失函数;lsem是多分类交叉熵损失函数,模型训练总损失为S,S=lbin+lsem+lboud。该模型结构中,前景分割预测Fbin用于确定图片中的目标所在位置,语义分割预测Fsem分割图片中每个目标,轮廓分割预测Fboud细化边缘特征,从而实现定位图片目标、分割图片中各类的目标、细化边缘特征。
实施本发明,采用公开的多模态语义分割数据集MFNet和PST900作为验证数据,以此为例说明具体实施过程。
对比实验结果分析:将测试集输入到训练好的网络模型中,使用的是mAcc、mIou来衡量测试模型的检测精度,mAcc表示所有类别的平均准确率、mIou表示平均交并比。表1给出了本发明在rtfnet数据集上与其他先进算法的比较结果,rtfnet数据集有9个类:汽车、人、自行车、曲线、车站、护栏、警戒线、凸起和未标标签,对比结果,本发明方法带来性能提升显著在mAcc、mIou达到75.4%和59.1%的检测精度。表2中给出了在白天和黑夜的分割结果,同样其指标的精度优于其他主流的语义分割模型。值的注意的是,本发明方法没有增加主干网络的深度以及宽度。
表1:本发明在rtfnet数据集上与其他算法对比实验结果
表2:本发明在rtfnet数据集上白天和黑夜对比实验结果
泛化性实验结果对比:表3给出了在PST900数据集上,本方法与其他先进算法的比较结果,该数据集有5个类:灭火器,背包,手钻,幸存者和未标标签。可以看到本发明提出的语义分割网络模型在其他多模态数据集上同样具有较好的性能,验证了所提模型的泛化性;
表3:本发明方法在PST900与其他算法对比实验结果
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围。
Claims (5)
1.一种基于热感图像和可见光图像特征融合的场景语义分割方法,其特征在于,热感图像和可见光图像输入到训练好的语义分割模型,得到图像中每一类目标的分割结果,所述基于热感图像和可见光图像特征融合的场景语义分割方法包括:
主干特征提取网络A,采用Segformer网络用于对输入的可见光图像提取不同层级的特征,其中,Segformer网络是层次化的Transformer编码器,包含了四层特征提取编码器,记为LayerAi(i=1,2,3,4),对应所提取的特征有四个层级,记为
主干特征提取网络B,采用Segformer网络用于对输入的热感图像提取不同层级的特征,记为LayerBi(i=1,2,3,4),对应所提取的特征有四个层级,记为
辅助特征选择模块,放置于主干特征提取网络A的每一层特征提取编码器之后,记为放置于主干特征提取网络B的每一层特征提取编码器之后,记为的输入为/>和/>输出为/>的输入为/>和/>输出为/>
跨模态特征融合模块,一共有四个,记为CMFFMi(i=1,2,3,4),其输入为和/>输出为/>
逐级特征融合解码器模块,一共有四层解码器,记为SFFDMi(i=1,2,3,4);SFFDM4的输入为输出为/>SFFDMi(i=1,2,3)的输入是/>和输出为/>
多损失监督模块,监督前景分割预测、语义分割预测、轮廓分割预测用于实现定位、分割、细化边缘目标。
2.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法,其特征在于,所述辅助特征选择模块包括拼接模块、通道注意力模块、空间注意力模块和辅助特征融合模块;所述拼接模块用于将输入特征Pmain和另一个输入特征Passist在通道维度上进行拼接处理,得到特征P1;特征P1并行输入到通道注意力模块和空间注意力模块分别得到两个特征输出PC和Ps;将特征Pmain、PC和Ps输入到辅助特征融合模块得到最后的输出特征Fout。
3.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法,其特征在于,所述跨模态特征融合模块包括1×1卷积模块、分组卷积模块、密集级联语义信息模块和残差连接;所述1×1卷积模块用于对由第1个输入特征和第2个输入特征拼接后的特征/>进行特征通道信息的学习,得到特征/> 经过分组卷积模块、密集级联语义信息模块得到特征/>和/>通过残差连接将特征/> 和/>采取特征元素相加的方式进行融合得到输出特征为
4.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法,其特征在于,所述逐级特征融合解码器模块包含1×1卷积模块、3×3卷积模块和转置卷积模块;所述1×1卷积模块对输入特征进行一个通道的语义信息卷积,得到特征FCBR1×1;特征FCBR1×1经过3×3卷积、转置卷积得到第一个精细化上采样特征特征FCBR1×1经过转置卷积得到第二个精细化上采样特征/>特征/>和特征/>采取特征元素相加的方式进行融合得到输出特征/>
5.根据权利要求1所述的基于热感图像和可见光图像特征融合的场景语义分割方法,其特征在于,所述多损失监督模块是评估前景分割预测、语义分割预测、轮廓分割预测与它们对应的三个真实标签之间的误差,帮助网络模型进行学习,使用交叉熵损失函数lbin、lsem、lboud对其三个分割预测输出Fbin、Fsem、Fboud进行训练监督:
其中,lbin、lboud均采用二分类交叉熵损失函数,定义为:
式中,N为样本数量,yi表示样本i的标签,正类为1,负类为0,pi表示样本为i预测为正类的概率;
lsem是多分类交叉熵损失函数,定义为:
式中,M为类别的数量,yic符号函数(0或1),如果样本i的真实类别等于c取1,否则取0,Pic观测样本i属于类别c的预测概率;
模型训练总损失为S:
S=lbin+lsem+lboud。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310549430.8A CN116912485A (zh) | 2023-05-16 | 2023-05-16 | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310549430.8A CN116912485A (zh) | 2023-05-16 | 2023-05-16 | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912485A true CN116912485A (zh) | 2023-10-20 |
Family
ID=88353845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310549430.8A Pending CN116912485A (zh) | 2023-05-16 | 2023-05-16 | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912485A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576404A (zh) * | 2024-01-15 | 2024-02-20 | 之江实验室 | 基于图像大模型微调策略的语义分割系统、方法及装置 |
CN118097362A (zh) * | 2024-04-26 | 2024-05-28 | 西北工业大学 | 一种基于语义感知学习的多模态图像融合方法 |
CN118172556A (zh) * | 2024-05-09 | 2024-06-11 | 深圳先进技术研究院 | 火焰地理分割方法、装置、计算机设备及存储介质 |
CN118279868A (zh) * | 2024-03-25 | 2024-07-02 | 云南省交通投资建设集团有限公司 | 未配准红外可见光图像融合与车辆目标检测互促进方法 |
CN118470333A (zh) * | 2024-07-15 | 2024-08-09 | 烟台大学 | 一种基于遥感图像的地理环境语义分割方法及系统 |
CN118485835A (zh) * | 2024-07-16 | 2024-08-13 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
-
2023
- 2023-05-16 CN CN202310549430.8A patent/CN116912485A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576404A (zh) * | 2024-01-15 | 2024-02-20 | 之江实验室 | 基于图像大模型微调策略的语义分割系统、方法及装置 |
CN118279868A (zh) * | 2024-03-25 | 2024-07-02 | 云南省交通投资建设集团有限公司 | 未配准红外可见光图像融合与车辆目标检测互促进方法 |
CN118279868B (zh) * | 2024-03-25 | 2024-09-24 | 云南省交通投资建设集团有限公司 | 未配准红外可见光图像融合与车辆目标检测互促进方法 |
CN118097362A (zh) * | 2024-04-26 | 2024-05-28 | 西北工业大学 | 一种基于语义感知学习的多模态图像融合方法 |
CN118172556A (zh) * | 2024-05-09 | 2024-06-11 | 深圳先进技术研究院 | 火焰地理分割方法、装置、计算机设备及存储介质 |
CN118470333A (zh) * | 2024-07-15 | 2024-08-09 | 烟台大学 | 一种基于遥感图像的地理环境语义分割方法及系统 |
CN118470333B (zh) * | 2024-07-15 | 2024-10-01 | 烟台大学 | 一种基于遥感图像的地理环境语义分割方法及系统 |
CN118485835A (zh) * | 2024-07-16 | 2024-08-13 | 杭州电子科技大学 | 基于模态分歧差异融合的多光谱图像语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN111563909B (zh) | 一种复杂街景图像语义分割方法 | |
Zhang et al. | Transfer beyond the field of view: Dense panoramic semantic segmentation via unsupervised domain adaptation | |
CN108520238B (zh) | 一种基于深度预测编码网络的夜视图像的场景预测方法 | |
WO2023019875A1 (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
Li et al. | Implementation of deep-learning algorithm for obstacle detection and collision avoidance for robotic harvester | |
CN113723377B (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
Tseng et al. | A fast instance segmentation with one-stage multi-task deep neural network for autonomous driving | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN112651423A (zh) | 一种智能视觉系统 | |
Zhou et al. | Graph attention guidance network with knowledge distillation for semantic segmentation of remote sensing images | |
CN117157679A (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
CN116311254B (zh) | 一种恶劣天气情况下的图像目标检测方法、系统及设备 | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
Van Quyen et al. | Feature pyramid network with multi-scale prediction fusion for real-time semantic segmentation | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN114596548A (zh) | 目标检测方法、装置、计算机设备及计算机可读存储介质 | |
Zhang et al. | Object-Centric Masked Image Modeling-Based Self-Supervised Pretraining for Remote Sensing Object Detection | |
CN117830786A (zh) | 目标和语义感知的图像融合模型、训练方法及使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |