CN117853856A - 一种基于多模态图像融合的微光夜视场景理解方法 - Google Patents
一种基于多模态图像融合的微光夜视场景理解方法 Download PDFInfo
- Publication number
- CN117853856A CN117853856A CN202410031296.7A CN202410031296A CN117853856A CN 117853856 A CN117853856 A CN 117853856A CN 202410031296 A CN202410031296 A CN 202410031296A CN 117853856 A CN117853856 A CN 117853856A
- Authority
- CN
- China
- Prior art keywords
- features
- visible light
- shallow
- feature
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004927 fusion Effects 0.000 title claims abstract description 56
- 230000004297 night vision Effects 0.000 title claims abstract description 29
- 230000002776 aggregation Effects 0.000 claims abstract description 62
- 238000004220 aggregation Methods 0.000 claims abstract description 62
- 230000004931 aggregating effect Effects 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims abstract description 6
- 230000000295 complement effect Effects 0.000 claims abstract description 3
- 108091006146 Channels Proteins 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 16
- 238000005192 partition Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- IZUPBVBPLAPZRR-UHFFFAOYSA-N pentachlorophenol Chemical compound OC1=C(Cl)C(Cl)=C(Cl)C(Cl)=C1Cl IZUPBVBPLAPZRR-UHFFFAOYSA-N 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 239000012014 frustrated Lewis pair Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态图像融合的微光夜视场景理解方法,属于人工智能技术,根据层级多模态特征信息的特点,构建不同特征校准和特征聚合模块以增强多模态特征信息的联合表示学习;构建跨模态全局特征描述模块以减少模态间的信息差异,实现多模态特征信息的校准;构建多模态交错稀疏自注意力模块来保证浅层网络层中多模态空间特征信息的聚合;构建对称金字塔池化交叉注意力模块与多模态跨通道通信模块用于聚合深层特征的空间层信息和通道层信息。本发明能够充分利用多模态特征信息互补优势,避免单一模态信息导致微光夜视场景理解能力不足,能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于多模态图像融合的微光夜视场景理解方法。
背景技术
随着人工智能技术的快速发展,无人系统对于复杂场景感知和理解方面的要求也越来越高,尤其是自动驾驶汽车、智能机器人、无人机等无人系统在微光夜视环境的实际应用中,如夜间城市道路场景或无人地下空间等,需要提供可靠的环境感知能力。而单一可见光图像视觉传感器容易受到微光夜视环境中缺乏照明的限制,因此结合热图像传感器以弥补可见光图像传感器在的不足,确保无人系统在白天和夜间以及恶劣天气条件下具备相同的感知能力。可见光图像可以提供丰富的语义信息,热图像则可以提供稳定的场景图像,研究可见光图像与热图像的高效融合方法,可以有效地提高无人系统在微光夜视条件下进行场景理解的稳定性。
Zhao等人在《Mitigating Modality Discrepancies for RGB-T SemanticSegmentation》一文中提出一种桥接后进行融合的策略,可缓解跨模态特征融合前模态之间存在的差异。具体来说,作者设计了一个减少模态差异的子网络提取多模态特征并减少模态间的差异,提出了通道加权融合模块自适应地选择和集成可见光图像和热图像语义分割的判别多模态特征。此外,为有效地捕获上下文信息,作者提出了一个多尺度空间上下文模块和一个多尺度通道上下文模块。虽然该方法取得了优异的语义分割性能,但却忽略多模态多级特征信息的特点,所提出的融合方法不能有效利用每个阶段的多模态特征信息,一定程度上限制了多模态语义分割的性能,此外还存在参数冗余与运算量增加的现象,不利于在无人系统设备上进行部署。
发明内容
本发明的目的在于提供一种基于多模态图像融合的微光夜视场景理解方法,高效地利用层级多模态特征信息的特点,采用不同的融合策略构建了高效的多模态联合表示网络,解决了多模态特性信息利用不足、融合效率低下的问题,同时避免了网络模块低效带来的参数量冗余与计算量增加的现象。本发明提供基于多模态图像融合的微光夜视场景理解方法,其能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。
实现本发明目的的技术解决方案为:一种基于多模态图像融合的微光夜视场景理解方法,包括以下步骤:
步骤1、对MFNet数据集1569幅图像进行归一化处理,将像素大小统一为H×W,H表示长度,W表示宽度;将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2。
步骤2、构建一种基于多模态图像融合的微光夜视场景理解方法,该网络主要包含:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中:可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL-MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建,转入步骤3。
步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:
S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32。
S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;转入S33。
S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为H/4×W/4的浅层解码特征,转入S34。
S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,转入S35。
S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络模型,转入步骤4。
步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率。
所述的基于多模态图像融合的微光夜视场景理解方法能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。
与现有技术相比,本发明优点在于:
(1)与现有的多模态分割网络相比,本发明所述的一种基于多模态图像融合的微光夜视场景理解方法,可以高效地利用层级多模态特征信息的特点,并采用不同的融合策略构建了高效的多模态联合表示网络,解决了多模态特性信息利用不足、融合效率低下的问题,同时避免了网络模块低效带来的参数量冗余与计算量增加的现象,具有稳定的分割性能且可以在边缘设备进行部署。
(2)本发明构建了跨模态全局特征描述模块来校准多模态信息,可以实现不同层次的多模态特征信息之间的有效交互与联合表示以减少模态信息之间的差异。
(3)为了有效地聚合多模态特征信息,本发明构建了多模态交错稀疏自注意力模块应用于浅层多模态信息聚合,同时为了有效地利用深层特征丰富的语义信息,构建了对称金字塔池化交叉注意力模块和多模态跨通道通信模块,有效地实现不同层次的多模态特征信息的高效聚合。
附图说明
图1为一种基于多模态图像融合的微光夜视场景理解方法的模型图。
图2为MFNet数据集的城市道路场景实验结果图。
图3为PST900数据集的地下空间场景实验结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述:
结合图1,一种基于多模态图像融合的微光夜视场景理解方法,包括以下步骤:
步骤1、对MFNet数据集1569幅图像(包含傍晚以及夜间城市道路的微光夜视场景图像)进行归一化处理,将像素大小统一为H×W,H表示长度,W表示宽度;将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2。
步骤2、构建一种基于多模态图像融合的微光夜视场景理解方法,该网络主要包含:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中:可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL-MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建,转入步骤3。
步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:
S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32。
S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;具体如下:
首先,构建一个局部多头关系聚合器LocalMHRA:每个头包含一个乘法器,将每组通道的通过线性变换生成上下文的序列块Vb和序列块亲和力关系进行相乘,再通过Concat操作将每个头的信息进行拼接,公式表示如下:
式中,b为通道组数,Xi为锚序列块,Xj为局部邻域Ωi的任一序列块,为可学参数矩阵,(i-j)为第i个节点和第j个节点的相对位置。
然后,将可见光编码网络的前三个阶段中第d(d={1、2、3})个阶段的浅层可见光特征drgb输入到局部多头关系聚合器LocalMHRA中得到可见光局部描述特征MHRA(drgb);将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征dthermal输入到局部多头关系聚合器LocalMHRA中得到热图像局部描述特征MHRA(dthermal);将浅层可见光局部描述特征MHRA(drgb)和浅层热图像局部描述特征MHRA(dthermal)拼接得到浅层多模态局部描述特征Ms,将Ms压缩得到跨模态通道描述Sr,t:
式中,K表示特征数量,Np表示第p个特征的空间维度;2c表示通道数量,nK表示第K个特征。
将跨模态通道描述Sr,t输入到多层感知机得到可见光图像特征的预测zrgb和热图像特征的预测zthermal,利用这两种预测对可见光模态的第d个阶段的浅层可见光特征drgb和热图像模态的第d个阶段的浅层热图像特征dthermal重新校准,得到第d个阶段浅层可见光校准特征和浅层热图像校准特征/>公式表示如下:
式中δ(·)表示Sigmod函数,⊙表示逐通道相乘操作。
最后,将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加,并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完;相应地,将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加,并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完。
同理,将第四个阶段的深层可见光图像特征和深层热图像特征,输入到局部多头关系聚合器LocalMHRA,分别得到深层可见光局部描述特征MHRA(frgb)和深层热图像局部描述特征MHRA(fthermal),将其进行拼接得到深层多模态局部描述特征Mf,再通过压缩、重新校准,得到深层校准可见光图像特征和深层校准热图像特征/>
S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,具体如下:
S33-A、利用多模态交错稀疏自注意力模块,提取交错稀疏自注意力特征Z:首先利用步骤3中的浅层多模态局部描述特征M,并使用排列函数Permute对浅层融合特征M进行交错排列,得到交错排列特征Mp=Permute(M);然后,将Mp划分为N个分区,且每个分区大小相等,独立地将自注意力应用于每个分区并获得更新的分区特征;最后,合并所有更新后的分区特征,得到交错稀疏自注意力特征Z。
S33-B、将交错稀疏自注意力输出特征Z通过卷积操作和批归一化层获得可见光模态与热图像模态的串联特征MCBN:
MCBN=Conv(BN(Z))
式中Conv表示卷积操作,BN表示正则化操作。
利用Sobel卷积计算可见光模态的第d个阶段的浅层可见光特征drgb的可见光梯度幅值Rgra和热图像模态的第d个阶段的浅层热图像特征dthermal的热图像梯度幅值Tgra,用公式表示如下:
式中代表水平方向上梯度信息,/>表示垂直方向上的梯度信息;
S33-C、利用串联特征MCBN可见光梯度幅值Rgra以及热图像梯度幅值Tgra得到第d个阶段中使用浅层特征聚合模块的输出特征,即浅层聚合特征Skipd:
Skipd=MCBN+Rgra+Tgra
S33-D、将浅层聚合特征Skipd通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征。
S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为H/4×W/4的深层解码特征,具体如下:
S34-A、利用对称金字塔交错注意力机制提取多模态对称交错注意力融合特征:将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)进行不同尺度的平均池化操作,分别生成a张可见光金字塔特征图和a张热图像金字塔特征图,表达式如下:
式中AvgPoo;表示平均池化层,表示a张不同尺度的可见光金字塔特征图,/>表示a张不同尺度的热图像金字塔特征图;再将不同尺度可见光金字塔特征图的特征向量进行拼接,通过线性变换获得可见光模态的键和值;将不同尺度热图像金字塔特征图的特征向量进行拼接,通过线性变换获得热图像模态的键和值,表达式如下:
式中KR,VR表示可见光图像的Key向量和Value向量,KT,VT表示热图像的Key向量和Value向量;最后直接从输入的深层可见光图像描述特征MHRA(frgb)的特征图得到可见光图像查询QR,从深层热图像描述特征MHRA(fthermal)的特征图中得到热图像查询QT,利用KR、VR、KT、VT、QR、QT,进行交错注意力计算,构成对称金字塔交错注意力模块,输出可见光对称交错注意力特征Orgb、热图像对称交错注意力特征Othermal,公式表达如下:
OS=concat(Orgb,Othermal)
式中,T表示转置,dk表示缩放因子,k表示通道维度,Softmax为指数归一化操作,OS表示可见光图像模态和热图像模态对称交错注意力融合特征。
S34-B、利用多模态跨通道交流机制得到多模态通道交互通信特征:首先将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)分别进行展平操作得到可见光模态的特征向量图节点和热图像模态的特征向量图节点/>
score(i,j)=softmax(sr,t)
式中,i,j表示不同节点,分别表示不同节点特征信息的平均输出,是/>和/>每个模态特征映射中展平向量的第ele个元素,h表示第h个像素在高度维度的位置,w表示第w个像素在宽度维度的位置,sr,t表示负平方距离,以避免每个模态节点与其他节点进行过多的通信,使模态特征信息更加多样化和互补,score(i,j)表示注意力响应分数,将节点的最终计算输出定义为:
式中,表示消息传递模块的通道输出,n表示节点数量。
将通道输出特征进行全连接操作,将其大小转换为和对称交错注意力融合特征OS相同的大小,转换后的通道输出特征记为Ofc。
S34-C、将对称金字塔交错注意力模块的输出特征对称交错注意力融合特征OS和多模态跨通道交流模块的输出特征Ofc的模块进行相加,经过卷积操作和批归一化处理与深层可见光输出特征和深层热图像特征/>进行相加,得到深层聚合模块的深层聚合特征,用公式表示如下:
S34-D、将深层聚合特征Skip4传输到解码器网络并进行上采样操作,得到像素大小为H/4×W/4的深层解码特征。
S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络模型,具体如下:
式中为模型输出的样本预测值,y为标签值,l表示第l个样本,L为样本总数,v为类别,V表示类别总数。
转入步骤4。
步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率。
实施例1
本发明所述的一种基于多模态图像融合的微光夜视场景理解方法,步骤如下:
步骤1、对MFNet数据集1569幅图像进行归一化处理,将像素大小统一为H×W(设为480×640),H表示长度,W表示宽度;将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2。
步骤2、构建一种基于多模态图像融合的微光夜视场景理解方法,该网络主要包含:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中:可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL-MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建;转入步骤3。
步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:
S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32。
S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;转入S33。
S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,转入S34。
S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,转入S35。
S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络模型,转入步骤4。
步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率。
本发明方法在配置为i7 CPU和NVIDIA V100 GPU计算机上采用Python编程语言和Pytorch深度学习框架搭建的网络进行相关实验。在训练过程中,批量大小设置为8,优化器使用权重衰减为0.01的AdamW优化器,学习率调整方法采用多边形学习速率调整方法,初始学习速率为0.00006。在训练样本集上训练多个批次得到本发明所述的基于多模态图像融合的微光夜视场景理解方法。可视化实验结果如图2和图3所示。
为了展示本发明的优越性能,本发明选取了最近比较先进的多模态语义分割方法作为对比模型,对比实验结果如表1所示,在MFNet数据集上对模型的参数量、计算量和分割准确率进行评估,其输入为可见光图像(480×640×3)和热图像(480×640×3)。
表1在MFNet数据库上的不同方法的对比实验结果
从实验结果可以看出,本发明的方法获得了59.5%的分割准确率,其计算量FLOPs下降到66.2G,参数量Params下降到56.75M,并且所述的基于多模态图像融合的微光夜视场景理解方法能够在夜间城市道路自动驾驶和地下空间暗弱无人导航系统中应用。
Claims (7)
1.一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,步骤如下:
步骤1、对MFNet数据集中1569幅图像进行归一化处理,将像素大小统一为H×W,H表示长度,W表示宽度;将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2;
步骤2、构建多模态高效融合网络:
所述多模态高效融合网络包括:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中,可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL-MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建;转入步骤3;
步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:
S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/32),将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32;
S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;转入S33;
S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,转入S34;
S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,转入S35;
S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络,转入步骤4;
步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率。
2.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,S32中,将S31中前三个阶段不同尺度的可见光特征和热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将S32中第四个阶段得到的深层可见光特征与深层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到深层校准可见光图像特征和深层校准热图像特征,具体如下:
首先,构建一个局部多头关系聚合器LocalMHRA:每个头包含一个乘法器,将每组通道的通过线性变换生成上下文的序列块Vb和序列块亲和力关系进行相乘,再通过Concat操作将每个头的信息进行拼接,公式表示如下:
式中,b为通道组数,Xi为锚序列块,Xj为局部邻域Ωi的任一序列块,为可学参数矩阵,(i-j)为第i个节点和第j个节点的相对位置;
然后,将可见光编码网络的前三个阶段中第d个阶段的浅层可见光特征drgb输入到局部多头关系聚合器LocalMHRA中得到可见光局部描述特征MHRA(drgb);将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征dthermal输入到局部多头关系聚合器LocalMHRA中得到热图像局部描述特征MGRA(dthermal);将浅层可见光局部描述特征MHRA(drgb)和浅层热图像局部描述特征MHRA(dthermal)拼接得到浅层多模态局部描述特征Ms,将Ms压缩得到跨模态通道描述Sr,t:
式中,K表示特征数量,Np表示第p个特征的空间维度;2c表示通道数量,nK表示第K个特征;
将跨模态通道描述Sr,t输入到多层感知机,得到可见光图像特征的预测zrgb和热图像特征的预测zthermal,利用这两种预测对可见光模态的第d个阶段的浅层可见光特征drgb和热图像模态的第d个阶段的浅层热图像特征dthermal重新校准,得到第d个阶段浅层可见光校准特征和浅层热图像校准特征/>公式表示如下:
式中δ(·)表示Sigmod函数,⊙表示逐通道相乘操作;
最后,将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加,并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完;相应地,将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加,并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完;
同理,将第四个阶段的深层可见光图像特征和深层热图像特征,输入到局部多头关系聚合器LocalMHRA,分别得到深层可见光局部描述特征MHRA(frgb)和深层热图像局部描述特征MHRA(fthermal),将其进行拼接得到深层多模态局部描述特征Mf,再通过压缩、重新校准,得到深层校准可见光图像特征和深层校准热图像特征/>
3.根据权利要求2所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,S33中,将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,具体如下:
S33-A、利用多模态交错稀疏自注意力模块,提取交错稀疏自注意力特征Z:首先利用步骤3中的浅层多模态局部描述特征M,并使用排列函数Permute对浅层融合特征M进行交错排列,得到交错排列特征Mp=Permute(M);然后,将Mp划分为N个分区,且每个分区大小相等,独立地将自注意力应用于每个分区并获得更新的分区特征;最后,合并所有更新后的分区特征,得到交错稀疏自注意力特征Z;
S33-B、将交错稀疏自注意力输出特征Z通过卷积操作和批归一化层获得可见光模态与热图像模态的串联特征MCBN:
MCBN=Conv(BN(Z))
式中Conv表示卷积操作,BN表示正则化操作;
利用Sobel卷积计算可见光模态的第d个阶段的浅层可见光特征drgb的可见光梯度幅值Rgra和热图像模态的第d个阶段的浅层热图像特征dthermal的热图像梯度幅值Tgra,用公式表示如下:
式中代表水平方向上梯度信息,/>表示垂直方向上的梯度信息;
S33-C、利用串联特征MCBN可见光梯度幅值Rgra以及热图像梯度幅值Tgra得到第d个阶段中使用浅层特征聚合模块的输出特征,即浅层聚合特征Skipd:
Skipd=MCBN+Rgra+Tgra
S33-D、将浅层聚合特征Skipd通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征。
4.根据权利要求3所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,S34中,将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和步骤4中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,具体如下:
S34-A、利用对称金字塔交错注意力机制提取多模态对称交错注意力融合特征:将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)进行不同尺度的平均池化操作,分别生成a张可见光金字塔特征图和a张热图像金字塔特征图,表达式如下:
式中AvgPool表示平均池化层,表示a张不同尺度的可见光金字塔特征图,表示a张不同尺度的热图像金字塔特征图;再将不同尺度可见光金字塔特征图的特征向量进行拼接,通过线性变换获得可见光模态的键和值;将不同尺度热图像金字塔特征图的特征向量进行拼接,通过线性变换获得热图像模态的键和值,表达式如下:
式中KR,VR表示可见光图像的Key向量和Value向量,KT,VT表示热图像的Key向量和Value向量;最后直接从输入的深层可见光图像描述特征MHRA(frgb)的特征图得到可见光图像查询QR,从深层热图像描述特征MHRA(fthermal)的特征图中得到热图像查询QT,利用KR、VR、KT、VT、QR、QT,进行交错注意力计算,构成对称金字塔交错注意力模块,输出可见光对称交错注意力特征Orgb、热图像对称交错注意力特征Othermal,公式表达如下:
OS=concat(Orgb,Othermal)
式中,T表示转置,dk表示缩放因子,k表示通道维度,Softmax为指数归一化操作,OS表示可见光图像模态和热图像模态对称交错注意力融合特征;
S34-B、利用多模态跨通道交流机制得到多模态通道交互通信特征:首先将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)分别进行展平操作得到可见光模态的特征向量图节点和热图像模态的特征向量图节点/>
score(i,j)=softmax(sr,t)
式中,i,j表示不同节点,分别表示不同节点特征信息的平均输出,/>是/>和/>每个模态特征映射中展平向量的第ele个元素,n表示节点数,h表示第h个像素在高度维度的位置,w表示第w个像素在宽度维度的位置,sr,t表示负平方距离,以避免每个模态节点与其他节点进行过多的通信,使模态特征信息更加多样化和互补,score(i,j)表示注意力响应分数,将节点的最终计算输出定义为:
式中,表示消息传递模块的通道输出;
将通道输出特征进行全连接操作,将其大小转换为和对称交错注意力融合特征OS相同的大小,转换后的通道输出特征记为Ofc;
S34-C、将对称金字塔交错注意力模块的输出特征对称交错注意力融合特征OS和多模态跨通道交流模块的输出特征Ofc的模块进行相加,经过卷积操作和批归一化处理与深层可见光输出特征和深层热图像特征/>进行相加,得到深层聚合模块的深层聚合特征,用公式表示如下:
S34-D、将深层聚合特征Skip4传输到解码器网络并进行上采样操作,得到像素大小为(H/4)×(W/4)的深层解码特征。
5.根据权利要求4所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于:a=4。
6.根据权利要求4所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,S35中,将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络,具体如下:
式中为模型输出的样本预测值,y为标签值,l表示第l个样本,L为样本总数,v为类别,V表示类别总数。
7.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于:d={1、2、3}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410031296.7A CN117853856A (zh) | 2024-01-09 | 2024-01-09 | 一种基于多模态图像融合的微光夜视场景理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410031296.7A CN117853856A (zh) | 2024-01-09 | 2024-01-09 | 一种基于多模态图像融合的微光夜视场景理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117853856A true CN117853856A (zh) | 2024-04-09 |
Family
ID=90534244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410031296.7A Pending CN117853856A (zh) | 2024-01-09 | 2024-01-09 | 一种基于多模态图像融合的微光夜视场景理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853856A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182954A (zh) * | 2014-08-27 | 2014-12-03 | 中国科学技术大学 | 一种实时的多模态医学图像融合方法 |
CN114565816A (zh) * | 2022-03-03 | 2022-05-31 | 中国科学技术大学 | 一种基于全局信息融合的多模态医学图像融合方法 |
-
2024
- 2024-01-09 CN CN202410031296.7A patent/CN117853856A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182954A (zh) * | 2014-08-27 | 2014-12-03 | 中国科学技术大学 | 一种实时的多模态医学图像融合方法 |
CN114565816A (zh) * | 2022-03-03 | 2022-05-31 | 中国科学技术大学 | 一种基于全局信息融合的多模态医学图像融合方法 |
Non-Patent Citations (2)
Title |
---|
ZHENGWEN SHEN等: "《Cross Attention-guided Dense Network for Images Fusion》", 《SPRINGER NATURE 2021 LATEX TEMPLATE》, 14 April 2022 (2022-04-14), pages 1 - 17 * |
ZHENGWEN SHEN等: "《CTFusion: Convolutions Integrate with Transformers for Multi-modal Image Fusion》", 《 2022 5TH CHINESE CONFERENCEPATTERN RECOGNITION AND COMPUTER VISION》, 7 November 2022 (2022-11-07), pages 488 - 498 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN111915619A (zh) | 一种双特征提取与融合的全卷积网络语义分割方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
Yang et al. | Spatio-temporal domain awareness for multi-agent collaborative perception | |
CN114549439A (zh) | 一种基于多模态特征融合的rgb-d图像语义分割方法 | |
CN111401379A (zh) | 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
CN115631513B (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN114266938A (zh) | 一种基于多模态信息和全局注意力机制的场景识别方法 | |
CN116630824A (zh) | 一种面向电力巡检机制的卫星遥感图像边界感知语义分割模型 | |
CN112819080A (zh) | 一种高精度通用的三维点云识别方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN116703947A (zh) | 一种基于注意力机制和知识蒸馏的图像语义分割方法 | |
CN117132759A (zh) | 基于多波段视觉图像感知与融合的显著性目标检测方法 | |
CN114926636A (zh) | 一种点云语义分割方法、装置、设备及存储介质 | |
CN116109920A (zh) | 一种基于Transformer的遥感图像建筑物提取方法 | |
CN114359902B (zh) | 基于多尺度特征融合的三维点云语义分割方法 | |
CN113869396A (zh) | 基于高效注意力机制的pc屏幕语义分割方法 | |
Xing et al. | MABNet: a lightweight stereo network based on multibranch adjustable bottleneck module | |
CN117853856A (zh) | 一种基于多模态图像融合的微光夜视场景理解方法 | |
CN116935178A (zh) | 一种基于多尺度空洞注意力的跨模态图像融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |