CN117132759A - 基于多波段视觉图像感知与融合的显著性目标检测方法 - Google Patents
基于多波段视觉图像感知与融合的显著性目标检测方法 Download PDFInfo
- Publication number
- CN117132759A CN117132759A CN202310969057.1A CN202310969057A CN117132759A CN 117132759 A CN117132759 A CN 117132759A CN 202310969057 A CN202310969057 A CN 202310969057A CN 117132759 A CN117132759 A CN 117132759A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- feature map
- visible light
- thermal infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000008447 perception Effects 0.000 title claims abstract description 7
- 238000010586 diagram Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 37
- 239000002356 single layer Substances 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000000903 blocking effect Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000016776 visual perception Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多波段视觉图像感知与融合的显著性目标检测方法,其包含:步骤1:构建多波段视觉图像训练样本集,对扩充后的训练样本集进行标注;步骤2:构建孪生骨干网络模型,提取多层级特征信息;步骤3:构建多尺度特征提取网络模块,对各层级特征信息提取多尺度特征信息;步骤4:构建注意力机制模块,输出可见光注意力特征图和热红外注意力特征图;步骤5:构建特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,通过加法、乘法和顺序拼接操作将其融合,形成预测输出的目标特征图,完成显著性目标的检测。本发明充分利用多波段视觉图像信息,可以实现多波段视觉图像中的目标识别,还可提高识别的精度。
Description
技术领域
本发明属于图像处理、模式识别领域,具体涉及一种基于多波段视觉图像感知与融合的显著性目标检测方法。
背景技术
视觉感知与图像处理技术,作为人工智能理论与应用的关键组成部分,已广泛的应用于航空航天、智慧机器人、智能驾驶等领域,在航天器空间对接、月球车视觉导航、无人驾驶汽车等重要应用中发挥了关键作用。
视觉感知应用技术很多都是建立在背景环境简单、光线条件良好的前提之下,这时视觉感知器获取到的图像大多背景简单、像素较高、光照干扰信息较少,这就为后续的图像处理减少了大量麻烦。然而在现实生活中,以上各种应用领域的工作场景大都比较复杂,都会面临复杂光照环境影响这一共性问题,产生该问题的主要原因包括:白天与夜间光照的变化、夜间灯光等光源强弱的变化、环境场景转换过程中光强的差异变化、光照阴影的干扰等几个方面。复杂光照环境影响下的视觉感知问题对可见光视觉识别提出了严峻的挑战,并严重影响了检测的精度和识别的准确性。
针对单模态图像数据所获得的信息无法完全表示事物信息,导致最终识别性能指标难以满足实际应用的需求这一难题,多模态信息融合应运而生。多模态信息融合采用一定的方式将不同光谱波段传感器获取的图像中呈现的不同特征信息进行有效融合,可以最大程度的利用不同模态图像数据的互补信息,去除冗余信息,从而获得对事物更多元更全面表征,提升识别性能。
发明内容
本发明的目的是从多波段视觉感知融合的角度出发,利用多波段图像信息的互补性及其耦合识别机理,提出了一种基于多波段视觉图像感知与融合的显著性目标检测方法,以解决单一波段图像不能同时有效解决多方面原因产生的复杂光照变化影响问题,进而提高目标检测的准确性。
为实现上述目的,本发明提供一种基于多波段视觉图像感知与融合的显著性目标检测方法,其包含:步骤1:构建多波段视觉图像训练样本集,采用数据增强技术对训练样本集进行扩充,对扩充后的训练样本集进行标注;步骤2:构建孪生骨干网络模型,分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象,提取多层级特征信息;步骤3:构建多尺度特征提取网络模块,以步骤2输出的多层级特征信息作为输入,分别对各层级特征信息提取多尺度特征信息;步骤4:构建注意力机制模块,注意力机制模块包括通道注意力和空间注意力;以步骤3获取的各层级多尺度特征信息作为输入,计算可见光和热红外分别对应的空间注意力特征和通道注意力特征;将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图,并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘,输出可见光注意力特征图和热红外注意力特征图;步骤5:构建特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,通过加法、乘法和顺序拼接操作将其融合,形成最终作为预测输出的目标特征图,完成显著性目标的检测。
优选地,所述步骤1具体包括:步骤1.1:通过多源相机采集成对的可见光图像和热红外图像,形成所述训练样本集;步骤1.2:采用数据增强技术对采集到的训练样本集进行扩充,并对扩充后的训练样本集进行像素级标注。
优选地,步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型;所述第一骨干网络模型接收可见光图像Xr∈RW×H×3作为输入,提取可见光多层级特征信息第二骨干网络模型接收热红外图像Xt∈RW×H×3作为输入,提取热红外多层级特征信息/>其中,W和H分别表示输入图像的宽和高,N表示骨干网络模型输出的特征层级。
优选地,每个所述骨干网络模型包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络模块,用于提取多层级特征信息;所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块,并输入线性嵌入层;所述线性嵌入层将每一个图像块做线性变换,并输出线性特征图;将所述线性数据作为输入,开始每层级的特征信息提取;每层级进行特征信息提取前,通过所述图像块合并层对输入线性特征图进行将采样,缩小线性特征图分辨率,调整通道维度,形成层次化特征图;将调整后的层次化特征图输入到深度自注意力变换网络模块进行特征表征,获得每一层级的特征信息。
优选地,步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d=1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。
优选地,将可见光多层级特征信息和热红外多层级特征信息/>输入所述多尺度特征提取网络模块,在每一层级输出的多尺度特征图上获取可见光多尺度特征信息/>和热红外多尺度特征信息/>其中,CAT表示顺序拼接。
优选地,所述步骤4包括:
步骤4.1:通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息/>展开,以此生成通道特征向量/>和/>采用两个全连接层(fc1,fc2)对通道特征向量/>和/>进行编码;通过高斯激活函数将通道特征向量/>和/>的每一个值映射到区间[0,1],生成通道权重;将生成的通道权重分别与对应的输入可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光通道注意力特征/>和热红外通道注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,fc表示全连接层,W表示权重,b表示偏置,表示特征图对应元素相乘;
步骤4.2:采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息/>进行加权,以此细化特征信息,生成细化特征图;通过1×1卷积核与所述细化特征图进行加权,获取细化特征图内每个单元的空间位置信息,并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1],产生空间位置权重;将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光空间注意力特征和热红外空间注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,ReLU表示非线性激活函数,W表示权重,表示特征图对应元素相乘;
步骤4.3:将得到的和/>相乘获得所述第一乘积特征图,实现空间对齐;将所述第一乘积特征图分别与/>和/>相乘,输出可见光注意力特征图/>和热红外注意力特征图/>实现通道校准;其/>和/>的表达式分别为:
其中,表示特征图对应元素相乘。
优选地,所述步骤5包括:步骤5.1:单层级多模态特征信息融合,其包括:
步骤5.1.1:通过逐像素相加的方式将和/>二者融合,形成第一融合特征图;
步骤5.1.2:将第一融合特征图分别与和/>逐像素相乘,形成第二乘积特征图和第三乘积特征图;
步骤5.1.3:采用顺序拼接的方式将相乘得到的第二乘积特征图和第三乘积特征图进行再次融合,得到最终的各层级输出的单层特征图Mi;其中,单层特征图Mi表示为:
其中,表示逐像素相加,/>表示逐像素相乘,Concat表示顺序拼接;
步骤5.2:逐层级特征信息融合,对于步骤5.1得到的各层级的单层特征图Mi,从高维单层特征图逐步向低维单层特征图融合;其包括:
步骤5.2.1:将高维单层特征图二倍上采样;
步骤5.2.2:采用1×1卷积核改变高维单层特征图的通道数,使得二倍上采样后得到的高维特征图与相邻低维特征图的维度相同;
步骤5.2.3:将相邻层特征图进行逐像素相加融合,形成目标特征图;具体为:
其中,表示逐像素相加,conv表示带参数的1×1卷积核,UP表示二倍上采样。
本方法还包括步骤6:构建混合函数作为整体网络模型优化的损失函数,所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块;通过随机梯度下降算法优化网络模型;所述混合函数的表达式为:
Lloss=αLbce+βLiou+γLssim
其中Lbce,Liou,Lssim,分别表示交叉熵损失函数,交并比损失函数和结构相似性指标损失函数;α,β,γ表示平衡参数。
优选地,所述采用随机梯度下降算法优化整体网络模型包括:每次输入网络的批量大小为16,动量系数为0.9,权重衰减系数为0.0005;网络初始学习速率为5e-5,每训练10个批次,学习速率降低1/10,总共训练300个批次。
综上所述,与现有技术相比,本发明提供的一种基于多波段视觉图像感知与融合的显著性目标检测方法具有以下有益效果:
(1)采用Swin Transformer作为骨干神经网络,可以提取更加鲁棒和丰富的层级特征。
(2)多尺度特征提取模块采用多条并行的类残差的空洞卷积形式,在保留原始信息以及不增加参数的同时,提升了网络模型对目标多尺度变化的感知能力;
(3)注意力机制充分融合了不同模态下的目标信息,使得模型聚焦于目标本身,提高了网络模型对目标的综合感知能力,提升了识别准确率;
(4)混合损失函数使得模型对目标样本特征表现更加紧凑,同时增强目标与背景的可分离性,加速网络模型的优化,提升了识别准确率。
附图说明
图1为本发明所述方法的整体流程示意图;
图2为本发明中用于多波段视觉图像特征提取的孪生骨干神经网络结构图;
图3为本发明中多尺度特征提取模块的示意图;
图4为本发明中注意力机制模块的示意图;
图5为本发明中特征融合模块的示意图。
具体实施方式
以下将结合本发明实施例中的附图1~附图5,对本发明实施例中的技术方案、构造特征、所达成目的及功效予以详细说明。
需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括明确列出的要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本发明提供了一种基于多波段视觉图像感知与融合的显著性目标检测方法,如图1所示,该显著性目标检测方法包括:
步骤1:构建多波段视觉图像训练样本集,采用数据增强技术对训练样本集进行扩充,对扩充后的训练样本集进行标注;
步骤2:构建孪生骨干网络模型,分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象,提取多层级特征信息;
步骤3:构建多尺度特征提取网络模块,以步骤2输出的多层级特征信息作为输入,分别对各层级特征信息提取多尺度特征信息;
步骤4:构建注意力机制模块,注意力机制模块包括通道注意力和空间注意力;以步骤3获取的各层级多尺度特征信息作为输入,计算可见光和热红外分别对应的空间注意力特征和通道注意力特征;将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图,并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘,输出可见光注意力特征图和热红外注意力特征图;
步骤5:构建特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,通过加法、乘法和顺序拼接操作将其融合,形成最终作为预测输出的目标特征图,完成显著性目标的检测。
其中,所述步骤1具体包括:步骤1.1:通过多源相机采集成对的可见光图像和热红外图像,形成所述训练样本集;所述训练样本集包含不同光照强度以及多样化背景;步骤1.2:采用数据增强技术对采集到的训练样本集进行扩充,并采用Labelme开源软件对扩充后的训练样本集进行像素级标注。
进一步,如图2所示,步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型,分别用于对可见光图像和热红外图像的特征表征,且二者之间参数共享;每个所述骨干网络模型主要基于自注意力(Self-Attention)机制进行构建,其结构主要包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络(Swin Transformer,SwinT)模块,用于提取多层级特征信息。所述骨干网络模型包括四个阶段:第一阶段由图像分块层、线性嵌入层以及深度自注意力变换网络模块组成,具体地,将输入图像切分成一个个图像块,该操作类似于降采样,目的是降低输入图像的分辨率,减少计算量。然后将一个个图像块输入到线性嵌入层,对每一个图像块做线性变换,输出线性特征。最后,将线性特征输入深度自注意力变换网络模块,通过自注意力机制以及多头部学习机制提取丰富的语义特征,同时保证图像块的数量,获得每一层级的特征信息。第二、三、四阶段结构相似,主要由图像合并层和深度自注意力变换网络模块组成,通过图像块合并层对输入的特征进行将采样,缩小特征图分辨率,调整通道维度,形成层次化特征图,然后通过深度自注意力变换网络模块,通过自注意力机制以及多头部学习机制提取丰富的语义特征,获得层级的特征信息。以可见光图像为例,各个层的详细作用如下:
(1)所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块,并输入线性嵌入层;在一实施例中,所述图像分块层通过大小为4×4×48,步长为4的卷积核将输入图像Xr∈RW×H×3分割成大小为4×4像素的图像块,并且各个图像块之间没有交集,得到
(2)线性嵌入层:所述将每一个图像块做线性变换,并输出线性特征图;将所述线性数据作为输入,开始每层级的特征信息提取;具体的,在一实施例中,将图像分块层输出的结果通过线性嵌入层对每个像素的通道数据做线性变换,由48变成C,得到
(3)图像块合并层:每个层级进行特征信息提取前,通过所述图像块合并层对输入线性特征图进行将采样,缩小线性特征图分辨率,调整通道维度,形成层次化特征图;具体的,在一实施例中,图像块合并层按位置间隔2选取元素,拼接成4个像素的新图块,再把所有的新图块都拼接起来作为一整个张量展开,之后通过一个全连接层调整通道维度为原来的2倍,即获得所述层次化特征图;
(4)深度自注意力变换网络(Swin Transformer,SwinT)模块:将图像块合并层输出的层次化特征图输入到SwinT模块进行特征表征,通过自注意力机制以及多头部学习机制提取丰富的语义特征,同时保证图像块的数量,获得每一层级的特征信息。
具体的,在本实施例中,步骤2构建上述的孪生骨干网络模型,其包括两路相同的第一骨干网络模型和第二骨干网络模型;所述第一骨干网络模型接收可见光图像Xr∈RW ×H×3作为输入,提取可见光多层级特征信息第二骨干网络模型接收热红外图像Xt∈RW×H×3作为输入,提取热红外多层级特征信息/>其中,W和H分别表示输入图像的宽和高,N表示骨干网络模型输出的特征层级;优选地,N=4。
如图3所示,步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d=1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。在本实施例中,每一空洞卷积层输出的通道维度为64,采用类残差连接的方式将输入与输出短连接,在保留原始信息的同时减少计算量,将每一卷积层输出的特征进行批量正则化和非线性激活。进一步,采用顺序拼接的方式将不同空洞卷积率输出的特征进行融合,通过1×1大小卷积核将融合的特征图通道维度降低为64,通过非线性激活函数将其激活。
进一步,所述多尺度特征提取网络模块分别作用于可见光多层级特征信息和热红外多层级特征信息/>具体的,将可见光多层级特征信息/>和热红外多层级特征信息/>输入所述多尺度特征提取网络模块,在每一层级输出的多尺度特征图上获取各层级高维可见光多尺度特征信息/>和高维热红外多尺度特征信息/>其中,/>CAT表示顺序拼接。
如图4所示,构建注意力机制模块,注意力机制模块包括通道注意力和空间注意力;步骤4所述的输出可见光注意力特征图和热红外注意力特征图具体包括步骤4.1、步骤4.2和步骤4.3。
其中,步骤4.1基于所述通道注意力实施,所述通道注意力由全局平均池化,两个全连接层和一个高斯激活函数层组成。通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息/>展开,以此生成通道特征向量/>和/>采用两个全连接层(fc1,fc2)对通道特征向量/>和/>进行编码;通过高斯激活函数将通道特征向量/>和/>的每一个值映射到区间[0,1],生成通道权重;将生成的通道权重分别与对应的输入可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光通道注意力特征/>和热红外通道注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,fc表示全连接层,W表示权重,b表示偏置,表示特征图对应元素相乘;
进一步,步骤4.2基于所述空间注意力实施,所述空间注意力由一个3×3卷积层,一个1×1卷积层和一个高斯激活函数层组成。采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息/>进行加权,以此细化特征信息,生成细化特征图;通过1×1卷积核与所述细化特征图进行加权,获取细化特征图内每个单元的空间位置信息,并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1],产生空间位置权重;将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光空间注意力特征/>和热红外空间注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,ReLU表示非线性激活函数,W表示权重,b表示偏置,表示特征图对应元素相乘;
再进一步,步骤4.3包括:将得到的和/>相乘获得所述第一乘积特征图,实现空间对齐;将所述第一乘积特征图分别与/>和/>相乘,输出可见光注意力特征图/>和热红外注意力特征图/>实现通道校准;其/>和/>的表达式分别为:
其中,表示特征图对应元素相乘。
如图5所示,图5为特征融合模块示意图,基于该特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,步骤5包含:步骤5.1:单层级多模态特征信息融合,和步骤5.2:逐层级特征信息融合;通过步骤5.1和步骤5.2形成目标特征图,完成显著性目标的检测。
具体的,所述步骤5.1包括如下步骤:
步骤5.1.1:通过逐像素相加的方式将和/>二者融合,形成第一融合特征图;
步骤5.1.2:将第一融合特征图分别与和/>逐像素相乘,形成第二乘积特征图和第三乘积特征图;
步骤5.1.3:采用顺序拼接的方式将相乘得到的第二乘积特征图和第三乘积特征图进行再次融合,得到最终的各层级输出的单层特征图Mi;其中,单层特征图Mi表示为:
其中,表示逐像素相加,/>表示逐像素相乘,Concat表示顺序拼接。
具体的,步骤5.2所述的逐层级特征信息融合是对于步骤5.1得到的各层级的单层特征图Mi,从高维单层特征图逐步向低维单层特征图融合;其包括:
步骤5.2.1:将高维单层特征图二倍上采样;
步骤5.2.2:采用1×1卷积核改变高维单层特征图的通道数,使得二倍上采样后得到的高维特征图与相邻低维特征图的维度相同;
步骤5.2.3:将相邻层特征图进行逐像素相加融合,形成目标特征图,具体为:
其中,表示逐像素相加,conv表示带参数的1×1卷积核,UP表示二倍上采样。
为了得到鲁棒性及泛化性更强的模型,本发明提供的显著性目标检测方法还包括:步骤6:构建混合函数作为整体网络模型优化的损失函数,所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块;通过随机梯度下降算法优化网络模型;所述混合函数的表达式为:
Lloss=αLbce+βLiou+γLssim
其中Lbce,Liou,Lssim,分别表示交叉熵损失函数,交并比损失函数和结构相似性指标损失函数;α,β,γ表示平衡参数。
所述交叉熵损失函数BCE用来反映预测值和真值之间的概率分布差异,具体为:
Lbce=-∑TrlogPr-∑(1-Tr)log(1-Pr)
所述交并比损失IoU用于测量两个集合的相似性,具体为:
其中,Tr∈{0,1}表示像素r的真实值,Pr∈{0,1}表示像素r被预测为目标的概率值。
所述结构相似性指标SSIM能够捕获图像中的结构信息,指导网络模型学习显著目标的真值结构信息。假设p={pi:i=1,···,N2}和t={ti:i=1,···,N2}分别是从预测概率图P和真实值T裁剪的两个对应大小(大小:N×N)的图像区域的像素集合,p和t的SSIM被表示为:
其中vp、vt和分别是p和t的均值和方差,σpt是相应的协方差;C1和C2分别被设为0.012和0.03以避免被零除。
进一步,以设计的混合函数作为损失函数,所述采用随机梯度下降算法优化整体网络模型包括:每次输入网络的批量大小为16,动量系数为0.9,权重衰减系数为0.0005;网络初始学习速率为5e-5,每训练10个批次,学习速率降低1/10,总共训练300个批次,以实现网络模型的优化。
综上所述,与现有技术相比,本发明所提供的基于多波段视觉图像感知与融合的显著性目标检测方法充分利用多波段视觉图像信息,不仅实现了多波段视觉图像中的目标识别,还提高了识别的精度。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,包括:
步骤1:构建多波段视觉图像训练样本集,采用数据增强技术对训练样本集进行扩充,对扩充后的训练样本集进行标注;
步骤2:构建孪生骨干网络模型,分别以扩充后的训练样本集中的可见光图像和热红外图像作为输入对象,提取多层级特征信息;
步骤3:构建多尺度特征提取网络模块,以步骤2输出的多层级特征信息作为输入,分别对各层级特征信息提取多尺度特征信息;
步骤4:构建注意力机制模块,注意力机制模块包括通道注意力和空间注意力;以步骤3获取的各层级多尺度特征信息作为输入,计算可见光和热红外分别对应的空间注意力特征和通道注意力特征;将可见光的空间注意力特征和热红外的空间注意力特征相乘获得第一乘积特征图,并将该第一乘积特征图分别与可见光的通道注意力特征和热红外的通道注意力特征相乘,输出可见光注意力特征图和热红外注意力特征图;
步骤5:构建特征融合模块,以步骤4输出的可见光注意力特征图和热红外注意力特征图作为输入,通过加法、乘法和顺序拼接操作将其融合,形成最终作为预测输出的目标特征图,完成显著性目标的检测。
2.如权利要求1所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:通过多源相机采集成对的可见光图像和热红外图像,形成所述训练样本集;
步骤1.2:采用数据增强技术对采集到的训练样本集进行扩充,并对扩充后的训练样本集进行像素级标注。
3.如权利要求2所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,步骤2构建的孪生骨干网络模型包括两路相同的第一骨干网络模型和第二骨干网络模型;所述第一骨干网络模型接收可见光图像Xr∈RW×H×3作为输入,提取可见光多层级特征信息第二骨干网络模型接收热红外图像Xt∈RW×H×3作为输入,提取热红外多层级特征信息/>
其中,W和H分别表示输入图像的宽和高,N表示骨干网络模型输出的特征层级。
4.如权利要求3所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,每个所述骨干网络模型包括图像分块层、线性嵌入层、图像块合并层、以及多个深度自注意力变换网络模块,用于提取多层级特征信息;
所述图像分块层将输入的可见光图像或热红外图像切成一个个图像块,并输入线性嵌入层;
所述线性嵌入层将每一个图像块做线性变换,并输出线性特征图;将所述线性数据作为输入,开始每层级的特征信息提取;
每层级进行特征信息提取前,通过所述图像块合并层对输入线性特征图进行将采样,缩小线性特征图分辨率,调整通道维度,形成层次化特征图;
将调整后的层次化特征图输入到深度自注意力变换网络模块进行特征表征,获得每一层级的特征信息。
5.如权利要求3所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,步骤3构建的多尺度特征提取网络模块包括4个并行排列的带有不同空洞卷积率(d=1,3,5,7)的卷积层每一个空洞卷积层采用3×3卷积核并结合不同空洞卷积率d获取多尺度特征信息。
6.如权利要求5所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,将可见光多层级特征信息和热红外多层级特征信息/>输入所述多尺度特征提取网络模块,在每一层级输出的多尺度特征图上获取可见光多尺度特征信息和热红外多尺度特征信息/>其中,CAT表示顺序拼接。
7.如权利要求6所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,所述步骤4包括:
步骤4.1:通过全局平均池化将可见光多尺度特征信息和热红外多尺度特征信息/>展开,以此生成通道特征向量/>和/>采用两个全连接层(fc1,fc2)对通道特征向量/>和/>进行编码;通过高斯激活函数将通道特征向量/>和/>的每一个值映射到区间[0,1],生成通道权重;将生成的通道权重分别与对应的输入可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光通道注意力特征/>和热红外通道注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,fc表示全连接层,W表示权重,b表示偏置,表示特征图对应元素相乘;
步骤4.2:采用3×3卷积核分别与可见光多尺度特征信息和热红外多尺度特征信息进行加权,以此细化特征信息,生成细化特征图;通过1×1卷积核与所述细化特征图进行加权,获取细化特征图内每个单元的空间位置信息,并采用高斯激活函数将细化特征图内的每个特征值映射到区间[0,1],产生空间位置权重;将空间位置权重与输入的可见光多尺度特征信息/>和热红外多尺度特征信息/>进行加权,得到可见光空间注意力特征/>和热红外空间注意力特征/>其表达式为:
其中,sigmoid表示高斯激活函数,ReLU表示非线性激活函数,W表示权重,表示特征图对应元素相乘;
步骤4.3:将得到的和/>相乘获得所述第一乘积特征图,实现空间对齐;将所述第一乘积特征图分别与/>和/>相乘,输出可见光注意力特征图/>和热红外注意力特征图实现通道校准;其/>和/>的表达式分别为:
其中,表示特征图对应元素相乘。
8.如权利要求7所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,所述步骤5包括:
步骤5.1:单层级多模态特征信息融合,其包括:
步骤5.1.1:通过逐像素相加的方式将和/>二者融合,形成第一融合特征图;
步骤5.1.2:将第一融合特征图分别与和/>逐像素相乘,形成第二乘积特征图和第三乘积特征图;
步骤5.1.3:采用顺序拼接的方式将相乘得到的第二乘积特征图和第三乘积特征图进行再次融合,得到最终的各层级输出的单层特征图Mi;其中,单层特征图Mi表示为:
其中,表示逐像素相加,/>表示逐像素相乘,Concat表示顺序拼接;
步骤5.2:逐层级特征信息融合,对于步骤5.1得到的各层级的单层特征图Mi,从高维单层特征图逐步向低维单层特征图融合;其包括:
步骤5.2.1:将高维单层特征图二倍上采样;
步骤5.2.2:采用1×1卷积核改变高维单层特征图的通道数,使得二倍上采样后得到的高维特征图与相邻低维特征图的维度相同;
步骤5.2.3:将相邻层特征图进行逐像素相加融合,形成目标特征图;具体为:
其中,表示逐像素相加,conv表示带参数的1×1卷积核,UP表示二倍上采样。
9.如权利要求1所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,还包括:步骤6:构建混合函数作为整体网络模型优化的损失函数,所述整体网络模型包括所述孪生骨干网络模型、所述多尺度特征提取网络模块、所述注意力机制模块以及所述特征融合模块;通过随机梯度下降算法优化网络模型;所述混合函数的表达式为:
Lloss=αLbce+βLiou+γLssim
其中Lbce,Liou,Lssim,分别表示交叉熵损失函数,交并比损失函数和结构相似性指标损失函数;α,β,γ表示平衡参数。
10.如权利要求9所述的基于多波段视觉图像感知与融合的显著性目标检测方法,其特征在于,所述采用随机梯度下降算法优化整体网络模型包括:每次输入网络的批量大小为16,动量系数为0.9,权重衰减系数为0.0005;网络初始学习速率为5e-5,每训练10个批次,学习速率降低1/10,总共训练300个批次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969057.1A CN117132759A (zh) | 2023-08-02 | 2023-08-02 | 基于多波段视觉图像感知与融合的显著性目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969057.1A CN117132759A (zh) | 2023-08-02 | 2023-08-02 | 基于多波段视觉图像感知与融合的显著性目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117132759A true CN117132759A (zh) | 2023-11-28 |
Family
ID=88857472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310969057.1A Pending CN117132759A (zh) | 2023-08-02 | 2023-08-02 | 基于多波段视觉图像感知与融合的显著性目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132759A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671472A (zh) * | 2024-01-31 | 2024-03-08 | 吉林大学 | 一种基于动态视觉传感器的水下多目标群体识别方法 |
CN117690161A (zh) * | 2023-12-12 | 2024-03-12 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117690161B (zh) * | 2023-12-12 | 2024-06-04 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
-
2023
- 2023-08-02 CN CN202310969057.1A patent/CN117132759A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690161A (zh) * | 2023-12-12 | 2024-03-12 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117690161B (zh) * | 2023-12-12 | 2024-06-04 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117671472A (zh) * | 2024-01-31 | 2024-03-08 | 吉林大学 | 一种基于动态视觉传感器的水下多目标群体识别方法 |
CN117671472B (zh) * | 2024-01-31 | 2024-05-14 | 吉林大学 | 一种基于动态视觉传感器的水下多目标群体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191736B (zh) | 基于深度特征交叉融合的高光谱图像分类方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN117132759A (zh) | 基于多波段视觉图像感知与融合的显著性目标检测方法 | |
CN115984349A (zh) | 一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法 | |
CN115019145A (zh) | 一种青藏高原公路路表沉降变形监测方法 | |
CN116310916A (zh) | 一种高分辨率遥感城市图像语义分割方法及系统 | |
Lowphansirikul et al. | 3D Semantic segmentation of large-scale point-clouds in urban areas using deep learning | |
Zhang et al. | Unsupervised remote sensing image segmentation based on a dual autoencoder | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115222754A (zh) | 一种基于知识蒸馏和对抗学习的镜面图像分割方法 | |
CN114445816A (zh) | 一种基于二维图像和三维点云的花粉分类方法 | |
CN114170154A (zh) | 基于Transformer的遥感VHR图像变化检测方法 | |
Guo et al. | Fully convolutional DenseNet with adversarial training for semantic segmentation of high-resolution remote sensing images | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117351363A (zh) | 基于Transformer的遥感影像建筑物提取方法 | |
CN111666988A (zh) | 一种基于多层信息融合的目标检测算法 | |
Cao et al. | An Improved YOLOv4 Lightweight Traffic Sign Detection Algorithm | |
CN113688946B (zh) | 基于空间关联的多标签图像识别方法 | |
Zhang et al. | Semantic Segmentation of Traffic Scene Based on DeepLabv3+ and Attention Mechanism | |
CN116188981A (zh) | 一种高光谱高空间分辨率遥感影像分类方法及装置 | |
CN114549958A (zh) | 基于上下文信息感知机理的夜间和伪装目标检测方法 | |
Oh et al. | Local selective vision transformer for depth estimation using a compound eye camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |