CN115620010A - 一种rgb-t双模态特征融合的语义分割方法 - Google Patents

一种rgb-t双模态特征融合的语义分割方法 Download PDF

Info

Publication number
CN115620010A
CN115620010A CN202211144937.7A CN202211144937A CN115620010A CN 115620010 A CN115620010 A CN 115620010A CN 202211144937 A CN202211144937 A CN 202211144937A CN 115620010 A CN115620010 A CN 115620010A
Authority
CN
China
Prior art keywords
convolution block
convolution
semantic segmentation
network
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211144937.7A
Other languages
English (en)
Inventor
葛微
李金龙
郝子强
陈婷婷
郭金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202211144937.7A priority Critical patent/CN115620010A/zh
Publication of CN115620010A publication Critical patent/CN115620010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于语义分割技术领域,尤其为一种RGB‑T双模态特征融合的语义分割方法,包括如下步骤:步骤1,构建网络模型:整个网络主要由双分支编码器和解码器、注意力融合模块两部分组成;步骤2,准备数据集:对整个卷积网络先用语义分割数据集进行训练;步骤3,训练网络模型:将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练。本发明在提取红外特征和可见光图像特征信息时,逐层将输出特征图传入注意力机制双模态融合模块,通过给定输入模型,通过注意力机制丰富了空间和通道特征,然后跳跃连接为解码器网络提供更多的浅层细节信息,去除冗余特征信息,得到优异的语义分割性能,分割效果和精度更好。

Description

一种RGB-T双模态特征融合的语义分割方法
技术领域
本发明涉及语义分割技术领域,具体为一种RGB-T双模态特征融合的语义分割方法。
背景技术
图像语义分割是对图像中的每个像素点,给出该像素点的语义类别值,对图像进行语义分割可以获取图像的语义信息,更好的理解图像的高层次内容和代表的信息,然而图像语义分割任务的复杂性,导致网络有着巨大的空间复杂度和计算复杂度,为了最大限度地发挥多数据组的特征互补优点,减少数据融合的困难,基于深度学习的特征融合方法被提出;目前,基于深度学习的RGB图像分割中取得了良好的效果,然而在复杂场景中,由于物体种类多、光线变化大、易遮挡等因素,导致RGB图像语义分割任务存在较严重的边界模糊、类内误识别以及小目标物体丢失等问题。
中国专利公开号为“CN107564025B”,名称为“一种基于深度神经网络的电力设备红外图像语义分割方法”,该方法首先输入红外图像;接着通过卷积模块操作提取输入图像的特征,再通过空间金字塔池模块进行多尺度特征提取;然后,采用上采样模块进行特征恢复;最后,选择使用全连接的条件随机场进行后处理,对最终语义分割结果图进行平滑和边缘的优化输出得到语义分割结果,该方法得到的语义分割图像分割精度不高,模型参数复杂,图像特征信息不够丰富。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种RGB-T双模态特征融合的语义分割方法,解决了现有的图像特征信息不够丰富、分割精度不高和模型参数复杂的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种RGB-T双模态特征融合的语义分割方法,包括如下步骤:
步骤1,构建网络模型:整个网络主要由双分支编码器和解码器、注意力融合模块两部分组成;
步骤2,准备数据集:对整个卷积网络先用语义分割数据集进行训练;
步骤3,训练网络模型:将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选取最佳损失函数和最优评价指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;最优评估指标选择像素准确率,平均交并比,参数大小和推理速度,能够评估算法的精度与实时性,衡量网络语义分割的作用;
步骤5,微调模型:用红外与可见光图像对模型进行训练和微调,得到稳定可用的模型参数,最终使得模型参数,进一步提高模型的可见光与红外图像语义分割能力;最终使得模型对图像分割的效果更准确;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行可见光与红外图像语义分割时,直接将图像输入到网络中即可得到最终的语义分割图像。
进一步地,所述步骤1中可见光图像编码器中卷积块一激活函数使用线性激活函数,卷积块二、卷积块三、卷积块四和卷积块五激活函数使用S型函数,红外图像编码器中卷积块六激活函数使用线性整流函数,卷积块七,卷积块八、卷积块九和卷积块十激活函数使用S型函数,卷积块十一、卷积块十二、卷积块十三、卷积块十四、卷积块十五和卷积块十六激活函数使用线性激活函数;注意力融合模块激活函数使用S型函数,所有卷积块中卷积核的大小统一为n×n;所有特征图的大小与输入图像大小保持一致。
进一步地,所述步骤1中双分支编码器为可见光图像编码器和红外图像编码器,注意力融合模块分为注意力机制和融合模块两部分组成;可见光图像编码的卷积块一对输入的可见光图片进行初级特征提取,卷积块二、卷积块三、卷积块四和卷积块五对可见光图像中高级特征进行提取;红外图像编码的卷积块六对输入的红外图片进行初级特征提取,卷积块七,卷积块八、卷积块九和卷积块十对红外图像中高级特征进行提取,双模态特征信息分别进入空间金字塔池层一和空间金字塔池层二进行多尺度信息的处理,输出至卷积块十一进行解码操作,并且卷积块二、卷积块三、卷积块四和卷积块五的可见光特征信息与卷积块七,卷积块八、卷积块九和卷积块十的红外图像中特征信息分别输入到注意力融合模块进行特征信息互补融合后,分别输出到卷积块十二、卷积块十三、卷积块十四和卷积块十五与解码器进行跳跃连接,最终通过卷积块十六进行分类分割得到最终语义分割结果图。
进一步地,所述步骤3中在预训练过程中语义分割数据集使用MFNet数据集;通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像,选取场景复杂、细节多样和类别齐全的图像作为训练样本,其余图像作为测试集样本,将可见光图像与红外图像分别作为输入网络进行训练。
进一步地,所述步骤4中在训练过程中损失函数选择交叉熵损失函数;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量。
进一步地,所述步骤5中在微调模型参数过程中使用SODA数据集。
(三)有益效果
与现有技术相比,本发明提供了一种RGB-T双模态特征融合的语义分割方法,具备以下有益效果:
本发明,在提取红外特征和可见光图像特征信息时,逐层将输出特征图传入注意力机制双模态融合模块,通过给定输入模型,通过注意力机制丰富了空间和通道特征,然后跳跃连接为解码器网络提供更多的浅层细节信息,去除冗余特征信息,得到优异的语义分割性能,分割效果和精度更好。
本发明,在编码器骨干网络中使用卷积块二到卷积块五和卷积块七到卷积块十进行扩张卷积,使得感受野变大,减少网络参数,使得网络的深度变浅,最终使得整个网络实现结构简单,提高分割效率,空间金字塔池模块,设计用于处理多尺度上的对象分割问题。
本发明,网络使用双模态特征融合,有可见光和红外双流提取特征信息使得特征信息更加丰富,在通过注意力融合模块使得特征信息互补融合得到更深,更准确,丰富的语义信息。
附图说明
图1为本发明语义分割方法流程图;
图2为本发明语义分割方法网络结构图;
图3为本发明注意力模块的具体组成图;
图4为本发明注意力融合模块的具体组成图;
图5为本发明解码单元的具体组成图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
实施例一:如图1-5所示,本发明一个实施例提出的一种RGB-T双模态特征融合的语义分割方法,包括如下步骤:
步骤1,构建网络模型:整个网络主要由双分支编码器和解码器、注意力融合模块两部分组成;
双分支编码器为可见光图像编码器和红外图像编码器,注意力融合模块分为注意力机制和融合模块两部分组成;可见光图像编码的卷积块一对输入的可见光图片进行初级特征提取,卷积块二、卷积块三、卷积块四和卷积块五对可见光图像中高级特征进行提取;红外图像编码的卷积块六对输入的红外图片进行初级特征提取,卷积块七,卷积块八、卷积块九和卷积块十对红外图像中高级特征进行提取,双模态特征信息分别进入空间金字塔池层一和空间金字塔池层二进行多尺度信息的处理,输出至卷积块十一进行解码操作,并且卷积块二、卷积块三、卷积块四和卷积块五的可见光特征信息与卷积块七,卷积块八、卷积块九和卷积块十的红外图像中特征信息分别输入到注意力融合模块进行特征信息互补融合后,分别输出到卷积块十二、卷积块十三、卷积块十四和卷积块十五与解码器进行跳跃连接,最终通过卷积块十六进行分类分割得到最终语义分割结果图;
所述步骤1中可见光图像编码器中卷积块一激活函数使用线性激活函数,卷积块二、卷积块三、卷积块四和卷积块五激活函数使用S型函数,红外图像编码器中卷积块六激活函数使用线性整流函数,卷积块七,卷积块八、卷积块九和卷积块十激活函数使用S型函数,卷积块十一、卷积块十二、卷积块十三、卷积块十四、卷积块十五和卷积块十六激活函数使用线性激活函数;注意力融合模块激活函数使用S型函数,所有卷积块中卷积核的大小统一为n×n;所有特征图的大小与输入图像大小保持一致。
步骤2,准备数据集:对整个卷积网络先用语义分割数据集进行训练;
在预训练过程中语义分割数据集使用MFNet数据集;通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像,选取场景复杂、细节多样和类别齐全的图像作为训练样本,其余图像作为测试集样本,将可见光图像与红外图像分别作为输入网络进行训练;
步骤3,训练网络模型:将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选取最佳损失函数和最优评价指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;同时选择最优评估指标来衡量算法的精度,评估系统的性能;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量;最优评估指标选择像素准确率,平均交并比,参数大小和推理速度,能够评估算法的精度与实时性,衡量网络语义分割的作用;
步骤5,微调模型:用红外与可见光图像对模型进行训练和微调,使得模型对融合的效果更好;在微调模型参数过程中使用SODA数据集,得到稳定可用的模型参数;最终使得模型参数,进一步提高模型的可见光与红外图像语义分割能力;最终使得模型对图像分割的效果更准确;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行可见光与红外图像语义分割时,直接将图像输入到网络中即可得到最终的语义分割图像。
如图1所示,在一些实施例中,所述步骤1中可见光图像编码器中卷积块一激活函数使用线性激活函数,卷积块二、卷积块三、卷积块四和卷积块五激活函数使用S型函数,红外图像编码器中卷积块六激活函数使用线性整流函数,卷积块七,卷积块八、卷积块九和卷积块十激活函数使用S型函数,卷积块十一、卷积块十二、卷积块十三、卷积块十四、卷积块十五和卷积块十六激活函数使用线性激活函数;注意力融合模块激活函数使用S型函数,所有卷积块中卷积核的大小统一为n×n;所有特征图的大小与输入图像大小保持一致。
如图1和2所示,在一些实施例中,所述步骤1中双分支编码器为可见光图像编码器和红外图像编码器,注意力融合模块分为注意力机制和融合模块两部分组成;可见光图像编码的卷积块一对输入的可见光图片进行初级特征提取,卷积块二、卷积块三、卷积块四和卷积块五对可见光图像中高级特征进行提取;红外图像编码的卷积块六对输入的红外图片进行初级特征提取,卷积块七,卷积块八、卷积块九和卷积块十对红外图像中高级特征进行提取,双模态特征信息分别进入空间金字塔池层一和空间金字塔池层二进行多尺度信息的处理,输出至卷积块十一进行解码操作,并且卷积块二、卷积块三、卷积块四和卷积块五的可见光特征信息与卷积块七,卷积块八、卷积块九和卷积块十的红外图像中特征信息分别输入到注意力融合模块进行特征信息互补融合后,分别输出到卷积块十二、卷积块十三、卷积块十四和卷积块十五与解码器进行跳跃连接,最终通过卷积块十六进行分类分割得到最终语义分割结果图。
如图1和3所示,在一些实施例中,所述步骤3中在预训练过程中语义分割数据集使用MFNet数据集;通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像,选取场景复杂、细节多样和类别齐全的图像作为训练样本,其余图像作为测试集样本,将可见光图像与红外图像分别作为输入网络进行训练。
如图1和4所示,在一些实施例中,所述步骤4中在训练过程中损失函数选择交叉熵损失函数;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量。
如图1和5所示,在一些实施例中,所述步骤5中在微调模型参数过程中使用SODA数据集。
实施例二:所述步骤1中网络模型结构如图2所示,网络模型总共包括16个卷积块,注意力融合模块,空间金字塔池层,卷积块一和卷积块六由一层卷积和线性整流函数组成,卷积核大小为3×3,步长和填充均为1,卷积块二、卷积块三、卷积块四、卷积块五、卷积块七、卷积块八、卷积块九和卷积块十的组成都相同,其中包含两层卷积和两次激活,卷积核大小为3×3,步长和填充均为1,卷积块二、卷积块三、卷积块四、卷积块五的扩张率分别为6、12、18、24,卷积块七、卷积块八、卷积块九和卷积块十的扩张率分别为6、12、18、24,激活函数选择Sigmoid函数,因为Sigmoid函数可以将特征图的输出限制在[0,1]之间,会让网络的边缘和内容重构能力变强,融合出质量更高的图像,卷积块一和卷积块六只有一层卷积,卷积核大小为3×3,步长和填充均为1,线性整流函数和S型函数定义如下所示:
Figure BDA0003855225750000091
Figure BDA0003855225750000092
其中,所述注意机制模块如图3中(a)所示空间注意模块采用平均池化层一和最大池化层一对输入特征图进行池化保证特征提取在足够的接受域,同时保留图像的背景语义信息,然后拼接合并后的结果按照相同维数进行融合,得到空间注意权值,然后通过卷积层一和sigmoid归一化运算,卷积核为7×7,得到空间注意特征图,通道注意模块结构如图3中(b)所示,通道注意模块采用平均池化层二和最大池化层二并行处理图像,然后通过卷积层二和卷积层三增加其网络深度,卷积核为1×1,然后通过平均池化层三和最大池化层三进行特征信息处理后拼接融合特征信息,通过激活函数sigmoid得到通道上的注意权值,最后将空间注意力特征信息与通道注意力特征信息求和运算得到最终的注意力模块权值。
其中,所述注意特征融合模块如图4中所示,使用交叉相乘的方式,可见光图像特征信息经注意力模块一处理后的模态特征乘未经注意力模块处理的红外图像模态特征,红外图像特征信息经注意力模块二处理后的模态特征乘未经注意力模块处理的可见光图像模态特征,增强两种模态之间特征信息的互补性,最后将两种模态信息相乘的结果通过相加和的方式进行特征融合。
其中,所述解码器由六个相同的解码器单元组成,如图5所示,每个解码器单元的卷积块由卷积层和上采样操作组成;卷积层包括卷积+BN层和S型激活函数,解码单元首先经过卷积层一,卷积核为1×1;再通过卷积层二,卷积核为3×1;之后通过卷积层三,卷积核为1×3;并在经过卷积层一之前的特征信息与卷积层三的处理结果跳跃连接加和操作,最后进行上采样,上采样采用双线性插值方法,经过上采样操作后图像分辨率恢复到输入大小得到语义分割图像。
所述步骤2中图像数据集使用MFNet数据集;数据集包含1569对RGB和红外图像,其中820幅为白天拍摄,749幅为夜间拍摄,有9个手动标记的语义类,包括在真实背景中未标记的背景类,数据集的图像分辨率为480×640;训练集由50%的白天图像和50%的夜间图像组成,验证集由25%的白天图像和25%的夜间图像组成,其他图像用于测试。
所述步骤3中对数据集的图片进行图像增强,将同一张图片中进行随机衍射变换,并且裁剪到输入图片的大小,作为整个网络的输入,将数据集中做好标注的图片作为标签,其中随机大小和位置通过软件算法可以实现,其中使用数据集中做好标注的图片作为标签是为了让网络学习更好的特征提取能力,最终达到更好的分割效果。
所述步骤4中网络的输出与标签计算损失函数,通过最小化损失函数达到更好的融合效果,损失函数选择选择交叉熵损失函数,交叉熵损失函数计算公式如下所示:
Figure BDA0003855225750000101
其中,C表示代价,x表示样本,y表示实际值,a表示输出值,n表示样本的总数,像素准确率是指预测正确的像素占总像素的比例,平均交并比是指计算两个集合的交集和并集之比,这两个集合为真实值和预测值,像素准确率和平均交并比计算公式如下所示:
Figure BDA0003855225750000111
Figure BDA0003855225750000112
其中,k表示像素类的数目,pii表示像素正确的数量,pij和pji表示像素假正和假负的数量。
设定训练次数为150,每次输入到网络图片数量大小为8-16左右,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量越大越好,使网络更加稳定,训练过程的学习率设置为0.0001,既能保证网络快速拟合,而不会导致网络过拟合,网络参数优化器选择Adam优化器,它的优点主要在于实现简单,计算高效,对内存需求少,参数的更新不受梯度的伸缩变换影响,使得参数比较平稳,损失函数函数值阈值设定为0.0005左右,小于0.0005就可以认为整个网络的训练已基本完成。
所述步骤5中使用图像数据集对整个网络模型参数进行微调,其中数据集为soda数据集。
所述步骤6中将网络训练完成后,需要将网络中所有参数保存,之后用将要分割红外和可见光图像输入到网络中就可以得到分割好的图像,该网络对两张输入图像大小没有要求,任意尺寸均可,但是必须保证两张图像的尺寸一致。
其中,卷积、激活函数、拼接操作、扩张卷积和空间金字塔池的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种RGB-T双模态特征融合的语义分割网络,可以将图像直接生成分割图像,不再经过中间其他步骤,避免了人工手动设计相关分割规则。在相同条件下,通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性,现有技术和本发明提出方法的相关指标对比如表1所示:
表1现有技术和本发明提出方法的相关指标对比
Figure BDA0003855225750000121
从表中可知,本发明提出的方法比现有方法拥有更高的图像像素准确率和平均交并比,这些指标也进一步说明了本发明提出的方法具有更好的分割图像精度。
现有技术和本发明提出方法的参数和运行时间如表2所示:
表2现有技术和本发明提出方法的参数和运行时间对比
Figure BDA0003855225750000122
从表中可知,本发明提出方法的运行时间比现有技术缩短了26毫秒,训练参数比现有方法更少,这也进一步说明了本发明提出的方法具有更高的分割效率。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种RGB-T双模态特征融合的语义分割方法,其特征在于:包括如下步骤:
步骤1,构建网络模型:整个网络主要由双分支编码器和解码器、注意力融合模块两部分组成;
步骤2,准备数据集:对整个卷积网络先用语义分割数据集进行训练;
步骤3,训练网络模型:将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练;
步骤4,选取最佳损失函数和最优评价指标:通过最小化网络输出图像与标签的损失函数,直到训练次数达到设定阈值或损失函数的值到达设定范围内即可认为模型参数已预训练完成,保存模型参数;最优评估指标选择像素准确率,平均交并比,参数大小和推理速度,能够评估算法的精度与实时性,衡量网络语义分割的作用。
步骤5,微调模型:用红外与可见光图像对模型进行训练和微调,得到稳定可用的模型参数,最终使得模型参数,进一步提高模型的可见光与红外图像语义分割能力;最终使得模型对图像分割的效果更准确;
步骤6,保存模型:将最终确定的模型参数进行固化,之后需要进行可见光与红外图像语义分割时,直接将图像输入到网络中即可得到最终的语义分割图像。
2.根据权利要求1所述的一种RGB-T双模态特征融合的语义分割方法,其特征在于:所述步骤1中可见光图像编码器中卷积块一激活函数使用线性激活函数,卷积块二、卷积块三、卷积块四和卷积块五激活函数使用S型函数,红外图像编码器中卷积块六激活函数使用线性整流函数,卷积块七,卷积块八、卷积块九和卷积块十激活函数使用S型函数,卷积块十一、卷积块十二、卷积块十三、卷积块十四、卷积块十五和卷积块十六激活函数使用线性激活函数;注意力融合模块激活函数使用S型函数,所有卷积块中卷积核的大小统一为n×n;所有特征图的大小与输入图像大小保持一致。
3.根据权利要求1所述的一种RGB-T双模态特征融合的语义分割方法,其特征在于:所述步骤1中双分支编码器为可见光图像编码器和红外图像编码器,注意力融合模块分为注意力机制和融合模块两部分组成;可见光图像编码的卷积块一对输入的可见光图片进行初级特征提取,卷积块二、卷积块三、卷积块四和卷积块五对可见光图像中高级特征进行提取;红外图像编码的卷积块六对输入的红外图片进行初级特征提取,卷积块七,卷积块八、卷积块九和卷积块十对红外图像中高级特征进行提取,双模态特征信息分别进入空间金字塔池层一和空间金字塔池层二进行多尺度信息的处理,输出至卷积块十一进行解码操作,并且卷积块二、卷积块三、卷积块四和卷积块五的可见光特征信息与卷积块七,卷积块八、卷积块九和卷积块十的红外图像中特征信息分别输入到注意力融合模块进行特征信息互补融合后,分别输出到卷积块十二、卷积块十三、卷积块十四和卷积块十五与解码器进行跳跃连接,最终通过卷积块十六进行分类分割得到最终语义分割结果图。
4.根据权利要求1所述的一种RGB-T双模态特征融合的语义分割方法,其特征在于:所述步骤3中在预训练过程中语义分割数据集使用MFNet数据集;通过对数据集四通道图片通道分离得到可见光彩色图像和红外图像,选取场景复杂、细节多样和类别齐全的图像作为训练样本,其余图像作为测试集样本,将可见光图像与红外图像分别作为输入网络进行训练。
5.根据权利要求1所述的一种RGB-T双模态特征融合的语义分割方法,其特征在于:所述步骤4中在训练过程中损失函数选择交叉熵损失函数;损失函数的选择影响着模型的好坏,能够真实地体现出预测值与真值差异,并且能够正确地反馈模型的质量。
6.根据权利要求1所述的一种RGB-T双模态特征融合的语义分割方法,其特征在于:所述步骤5中在微调模型参数过程中使用SODA数据集。
CN202211144937.7A 2022-09-20 2022-09-20 一种rgb-t双模态特征融合的语义分割方法 Pending CN115620010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211144937.7A CN115620010A (zh) 2022-09-20 2022-09-20 一种rgb-t双模态特征融合的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211144937.7A CN115620010A (zh) 2022-09-20 2022-09-20 一种rgb-t双模态特征融合的语义分割方法

Publications (1)

Publication Number Publication Date
CN115620010A true CN115620010A (zh) 2023-01-17

Family

ID=84858315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211144937.7A Pending CN115620010A (zh) 2022-09-20 2022-09-20 一种rgb-t双模态特征融合的语义分割方法

Country Status (1)

Country Link
CN (1) CN115620010A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116369959A (zh) * 2023-06-05 2023-07-04 杭州医策科技有限公司 基于双模态ct的甲状旁腺术前定位方法和装置
CN116645696A (zh) * 2023-05-31 2023-08-25 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN116757988A (zh) * 2023-08-17 2023-09-15 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法
CN116843588A (zh) * 2023-06-20 2023-10-03 大连理工大学 目标语义层级挖掘的红外与可见光图像融合方法
CN117115442A (zh) * 2023-08-17 2023-11-24 浙江航天润博测控技术有限公司 一种基于可见光-红外光电侦察图像融合的语义分割方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116645696A (zh) * 2023-05-31 2023-08-25 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN116645696B (zh) * 2023-05-31 2024-02-02 长春理工大学重庆研究院 一种用于多模态行人检测的轮廓信息引导特征检测方法
CN116369959A (zh) * 2023-06-05 2023-07-04 杭州医策科技有限公司 基于双模态ct的甲状旁腺术前定位方法和装置
CN116369959B (zh) * 2023-06-05 2023-08-11 杭州医策科技有限公司 基于双模态ct的甲状旁腺术前定位方法和装置
CN116843588A (zh) * 2023-06-20 2023-10-03 大连理工大学 目标语义层级挖掘的红外与可见光图像融合方法
CN116843588B (zh) * 2023-06-20 2024-02-06 大连理工大学 目标语义层级挖掘的红外与可见光图像融合方法
CN116757988A (zh) * 2023-08-17 2023-09-15 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法
CN117115442A (zh) * 2023-08-17 2023-11-24 浙江航天润博测控技术有限公司 一种基于可见光-红外光电侦察图像融合的语义分割方法
CN116757988B (zh) * 2023-08-17 2023-12-22 齐鲁工业大学(山东省科学院) 基于语义丰富和分割任务的红外与可见光图像融合方法

Similar Documents

Publication Publication Date Title
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN115049936A (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN111898439B (zh) 基于深度学习的交通场景联合目标检测和语义分割方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN113807355A (zh) 一种基于编解码结构的图像语义分割方法
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN114820579A (zh) 一种基于语义分割的图像复合缺陷的检测方法及系统
CN115205672A (zh) 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114565770A (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及系统
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN115311194A (zh) 一种基于transformer和SE块的CT自动肝脏图像分割方法
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及系统
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
Zhou et al. Attention transfer network for nature image matting
CN113888505B (zh) 一种基于语义分割的自然场景文本检测方法
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN116363361A (zh) 基于实时语义分割网络的自动驾驶方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination