CN116385326A - 一种基于多目标分割的多光谱图像融合方法、装置及设备 - Google Patents
一种基于多目标分割的多光谱图像融合方法、装置及设备 Download PDFInfo
- Publication number
- CN116385326A CN116385326A CN202310327471.2A CN202310327471A CN116385326A CN 116385326 A CN116385326 A CN 116385326A CN 202310327471 A CN202310327471 A CN 202310327471A CN 116385326 A CN116385326 A CN 116385326A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- feature
- visible light
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 120
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 232
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000002401 inhibitory effect Effects 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 2
- 230000016776 visual perception Effects 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241001274197 Scatophagus argus Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000149 penetrating effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种基于多目标分割的多光谱图像融合方法、装置及设备,涉及图像处理技术领域,根据多目标分割的类别在特征域对不同目标采用不同的融合方式,产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。所述方法包括:采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像;基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于多目标分割的多光谱图像融合方法、装置及设备。
背景技术
基于多光谱图像融合技术在遥感探测、智能驾驶、医疗诊断等领域起着重要作用。发明专利CN113033630A公开了一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法。通过构建多尺度深度网络提取两类图像深度特征,融合层利用空间和通道的双非局部注意力模型对提取的深度特征进行增强和合并,并通过特征重构获得融合图像。该方法虽然考虑到了红外和可见光图像特征的显著性,但是获得的融合图像仍然无法突出显著目标,且无法根据目标类别选择不同的融合策略。因此,行业内亟需一种图像融合方法以生成高质量的融合图像。
发明内容
有鉴于此,本申请提供了一种于多目标分割的多光谱图像融合方法、装置及设备,主要目的在于解决目前融合图像无法突出显著目标,且无法根据目标类别选择不同的融合策略的问题。
依据本申请第一方面,提供了一种基于多目标分割的多光谱图像融合方法,该方法包括:
采集可见光图像和红外图像,对所述可见光图像和所述红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;
采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,所述多目标分割图像包含至少一个目标子集,所述至少一个目标子集用于指示至少一个显著目标类对应的像素区域;
基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像。
可选地,所述采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,包括:
将所述目标可见光图像和所述目标红外图像输入至所述多目标分割网络,所述多目标分割网络包括编码子网络和解码子网络,其中,所述编码子网络包括可见光图像编码流和红外图像编码流;
采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征;
将每个尺度的可见光图像特征按照尺度标识与对应尺度的红外图像特征进行相加融合,得到多个尺度的融合特征,以及将每个尺度的融合特征通过跳跃连接和通道合并的方式,添加至对应尺度的解码卷积块中,所述解码卷积块位于所述解码子网络;
所述解码子网络包括多个尺度的解码卷积块,每个尺度的解码卷积块依据接收到的融合特征和前一尺度的解码卷积块传递的重建特征进行特征重建,得到待约束特征,以及采用交叉熵损失函数对所述待约束特征进行约束,得到目标重建特征,将所述目标重建特征传递至下一尺度解码卷积块,直至最后一个尺度的解码卷积块输出特征图;
使用预设激活函数对所述特征图进行激活,将所述特征图中的预测值转换为概率值,并生成预测的类别,得到所述多目标分割图像。
可选地,所述采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,包括:
可选地,所述采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,包括:
所述可见光图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;
采用第一尺度的编码卷积模块对所述目标可见光图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的可见光图像特征,并将所述第一尺度的可见光图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的可见光图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的可见光图像特征;
确定每个尺度的注意力增强模块输出的可见光图像特征,得到所述多个尺度的可见光图像特征。
可选地,所述采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征,包括:
所述红外图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;
采用第一尺度的编码卷积模块对所述目标红外图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的红外图像特征,并将所述第一尺度的红外图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的红外图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的红外图像特征;
确定每个尺度的注意力增强模块输出的红外图像特征,得到所述多个尺度的红外图像特征。
可选地,所述基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像,包括:
将所述目标可见光图像和所述目标红外图像输入至所述多光谱图像融合网络的编码子网络,通过所述编码子网络对所述目标可见光图像和所述目标红外图像进行特征抽取,得到所述第一深度特征和所述第二深度特征;
将所述第一深度特征、所述第二深度特征和所述多目标分割图像传递至所述多光谱图像融合网络的融合层,通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征;
采用所述多光谱图像融合网络的解码子网络对所述融合特征进行特征重建,得到目标图像。
可选地,所述通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征,包括:
采用所述多目标增强特征融合模块,按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征;
将所述背景特征、所述次要显著目标特征和所述主要显著目标特征相加,得到所述融合特征。
可选地,所述按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征,包括:
当所述显著目标类为背景类时,依据所述多目标分割图像对应的所述目标子集,确定所述背景类的像素区域,采用所述像素区域对应的背景二值掩膜和所述第一深度特征进行特征融合,得到所述背景特征;
当所述显著目标类为次要显著目标类时,依据所述目标子集,确定次要显著目标类的像素区域,采用所述像素区域对应的次要显著目标二值掩膜和所述第一深度特征进行特征融合,得到所述次要显著目标特征;
当所述显著目标类为主要显著目标类时,依据所述目标子集,确定主要显著目标类的像素区域,采用所述像素区域对应的主要显著目标二值掩膜和所述第一深度特征确定所述主要显著目标类的第一像素区域,以及采用所述主要显著目标二值掩膜和所述第二深度特征确定所述主要显著目标类的第二像素区域,根据所述第一像素区域和所述第二像素区域进行特征融合,得到所述主要显著目标特征。
依据本申请第二方面,提供了一种基于多目标分割的多光谱图像融合装置,该装置包括:
采集模块,用于采集可见光图像和红外图像,对所述可见光图像和所述红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;
分割模块,用于采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,所述多目标分割图像包含至少一个目标子集,所述至少一个目标子集用于指示至少一个显著目标类对应的像素区域;
融合模块,用于基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像。
可选地,所述分割模块,用于将所述目标可见光图像和所述目标红外图像输入至所述多目标分割网络,所述多目标分割网络包括编码子网络和解码子网络,其中,所述编码子网络包括可见光图像编码流和红外图像编码流;采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征;将每个尺度的可见光图像特征按照尺度标识与对应尺度的红外图像特征进行相加融合,得到多个尺度的融合特征,以及将每个尺度的融合特征通过跳跃连接和通道合并的方式,添加至对应尺度的解码卷积块中,所述解码卷积块位于所述解码子网络;所述解码子网络包括多个尺度的解码卷积块,每个尺度的解码卷积块依据接收到的融合特征和前一尺度的解码卷积块传递的重建特征进行特征重建,得到待约束特征,以及采用交叉熵损失函数对所述待约束特征进行约束,得到目标重建特征,将所述目标重建特征传递至下一尺度解码卷积块,直至最后一个尺度的解码卷积块输出特征图;使用预设激活函数对所述特征图进行激活,将所述特征图中的预测值转换为概率值,并生成预测的类别,得到所述多目标分割图像。
可选地,所述分割模块,用于所述可见光图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;采用第一尺度的编码卷积模块对所述目标可见光图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的可见光图像特征,并将所述第一尺度的可见光图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的可见光图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的可见光图像特征;确定每个尺度的注意力增强模块输出的可见光图像特征,得到所述多个尺度的可见光图像特征。
可选地,所述分割模块,用于所述红外图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;采用第一尺度的编码卷积模块对所述目标红外图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的红外图像特征,并将所述第一尺度的红外图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的红外图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的红外图像特征;确定每个尺度的注意力增强模块输出的红外图像特征,得到所述多个尺度的红外图像特征。
可选地,所述融合模块,用于将所述目标可见光图像和所述目标红外图像输入至所述多光谱图像融合网络的编码子网络,通过所述编码子网络对所述目标可见光图像和所述目标红外图像进行特征抽取,得到所述第一深度特征和所述第二深度特征;将所述第一深度特征、所述第二深度特征和所述多目标分割图像传递至所述多光谱图像融合网络的融合层,通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征;采用所述多光谱图像融合网络的解码子网络对所述融合特征进行特征重建,得到目标图像。
可选地,所述融合模块,用于采用所述多目标增强特征融合模块,按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征;将所述背景特征、所述次要显著目标特征和所述主要显著目标特征相加,得到所述融合特征。
可选地,所述融合模块,用于当所述显著目标类为背景类时,依据所述多目标分割图像对应的所述目标子集,确定所述背景类的像素区域,采用所述像素区域对应的背景二值掩膜和所述第一深度特征进行特征融合,得到所述背景特征;当所述显著目标类为次要显著目标类时,依据所述目标子集,确定次要显著目标类的像素区域,采用所述像素区域对应的次要显著目标二值掩膜和所述第一深度特征进行特征融合,得到所述次要显著目标特征;当所述显著目标类为主要显著目标类时,依据所述目标子集,确定主要显著目标类的像素区域,采用所述像素区域对应的主要显著目标二值掩膜和所述第一深度特征确定所述主要显著目标类的第一像素区域,以及采用所述主要显著目标二值掩膜和所述第二深度特征确定所述主要显著目标类的第二像素区域,根据所述第一像素区域和所述第二像素区域进行特征融合,得到所述主要显著目标特征。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
借由上述技术方案,本申请提供的一种基于多目标分割的多光谱图像融合方法、装置及设备,本申请首先采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。随后,采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。最后,基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。本申请中的多目标分割网络从多个尺度对目标可见光图像和目标红外图像进行特征提取和融合,生成边缘锐利的高质量多目标分割图像。多光谱图像融合网络通过提出的多目标增强的特征融合模块对多目标类别进行自适应融合,依据融合后的特征重建生成最终的融合图像。根据多目标分割的类别在特征域对不同目标采用不同的融合方式,使生成的目标融合图像在拥有可见光图像的自然模态观感、产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法流程示意图;
图2A示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法流程示意图;
图2B示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法的分割过程示意图;
图2C示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法的特征增强示意图;
图2D示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法的融合过程示意图;
图2E示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合方法的融合结果示意图;
图3示出了本申请实施例提供的一种基于多目标分割的多光谱图像融合装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
基于多光谱图像融合技术在遥感探测、智能驾驶、医疗诊断等领域起着重要作用。可见光传感器描述纹理细节丰富,但易受光线影响,在黑暗、弱光、有雾环境下噪声大且难以捕捉有用的特征信息。红外传感器对细节纹理的描述能力差但穿透能力强,可以在黑暗、有雾等环境下捕捉到潜在目标的特征信息。因此基于可见光传感器和红外传感器的融合技术可以弥补各单一传感器的缺陷,为后续视觉感知提供高质量的输入图像,产生更准确、可靠和全面的决策。发明专利CN113033630A公开了一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法。通过构建多尺度深度网络提取两类图像深度特征,融合层利用空间和通道的双非局部注意力模型对提取的深度特征进行增强和合并,并通过特征重构获得融合图像。该方法虽然考虑到了红外和可见光图像特征的显著性,但是获得的融合图像仍然无法突出显著目标,且无法根据目标类别选择不同的融合策略。发明专利CN111539902A公开了一种图像处理方法、系统、设备及计算机可读存储介质。所述方法首先将可见光图像与其低通滤波后的图像相除并与1做差得到可见光图像细节信息,采用窗口的标准差计算得到可见光的细节强度,对细节强度取倒数得到细节增益,利用细节增益把可见光细节强度加权到红外图像上生成融合图像。该方法设计的计算过程复杂,且生成的融合图像质量较差,无法突出显著目标。行业内亟需一种图像融合方法以生成高质量的融合图像。因此,本申请提供了一种基于多目标分割的多光谱图像融合方法,本申请首先采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。随后,采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。最后,基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。本申请中的多目标分割网络从多个尺度对目标可见光图像和目标红外图像进行特征提取和融合,生成边缘锐利的高质量多目标分割图像。多光谱图像融合网络通过提出的多目标增强的特征融合模块对多目标类别进行自适应融合,依据融合后的特征重建生成最终的融合图像。根据多目标分割的类别在特征域对不同目标采用不同的融合方式,使生成的目标融合图像在拥有可见光图像的自然模态观感、产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。
本申请实施例提供了一种基于多目标分割的多光谱图像融合方法,如图1所示,该方法包括:
101、采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。
其中,可见光为人眼看得见的波长范围,可见光图像即为可见光范围拍摄摄的照片。红外图像,又称为热像,是由热红外扫描器接收和记录目标物发射的热辐射能而形成的图像。可见光图像描述纹理细节丰富,但易受光线影响,在黑暗、弱光、有雾环境下噪声大且难以捕捉有用的特征信息。红外传感器对细节纹理的描述能力差但穿透能力强,可以在黑暗、有雾等环境下捕捉到潜在目标的特征信息。
具体地,获取双目相机采集到的可见光图像的红外图像。考虑到双目相机位置不同、视角不同,直接采集获得的可见光图像的红外图像存在较大视差,因此,需要对直接采集获得的可见光图像的红外图像进行初步的图像配准处理,以减小两张图像中显著目标类所在像素的位置误差,进而提高后续特征提取的准确率以及特征融合的成功率。
102、采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。
其中,多目标分割网络即多目标分割的深度网络,包括编码子网络和解码子网络,编码子网络由两个相同且权重共享的编码流(可见光图像编码流和红外图像编码流),用以提取目标可见光图像和目标红外图像在不同分辨率下的图像特征,也就是多个尺度的可见光图像特征和多个尺度的红外图像特征。解码子网络通过多个串联的解码卷积块来生成多目标分割图像。
103、基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。
其中,多光谱图像融合网络包括编码子网络、融合层子网络和解码子网络。
具体地,编码子网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征。随后,融合层子网络用于将提取出的第一深度特征、第二深度特征与多目标分割图像中的特征进行融合,得到融合特征。最终,解码子网络用于对融合的特征进行特征重建,生成目标融合图像。
本申请实施例提供的方法,首先采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。随后,采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。最后,基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。本申请中的多目标分割网络从多个尺度对目标可见光图像和目标红外图像进行特征提取和融合,生成边缘锐利的高质量多目标分割图像。多光谱图像融合网络通过提出的多目标增强的特征融合模块对多目标类别进行自适应融合,依据融合后的特征重建生成最终的融合图像。根据多目标分割的类别在特征域对不同目标采用不同的融合方式,使生成的目标融合图像在拥有可见光图像的自然模态观感、产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。
本申请实施例提供了一种基于多目标分割的多光谱图像融合方法,如图2A所示,该方法包括:
201、采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。
具体地,获取双目相机采集到的可见光图像的红外图像。考虑到双目相机位置不同、视角不同,直接采集获得的可见光图像的红外图像存在较大视差,因此,需要对直接采集获得的可见光图像的红外图像进行初步的图像配准处理,以减小两张图像中显著目标类所在像素的位置误差,进而提高后续特征提取的准确率以及特征融合的成功率。
具体地,可以通过对相机进行标定的方法进行图像配准,在本申请实施例中,可以使用黑白标定棋盘格通过棋盘格标定法对双目相机进行标定,并获得透射变换矩阵。进而采用该透射变换矩阵对采集的红外图像进行透射变换,使之与可见光图像初步配准。
202、采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像。
其中,多目标分割网络即多目标分割的深度网络,包括编码子网络和解码子网络,编码子网络由两个相同且权重共享的编码流(可见光图像编码流和红外图像编码流),用以提取目标可见光图像和目标红外图像在不同分辨率下的图像特征。由于存在分辨率的变化,因此存在多个尺度,不同分辨率下的图像特征也就是多个尺度的可见光图像特征和多个尺度的红外图像特征。解码子网络通过多个串联的解码卷积块来生成多目标分割图像。
一、编码子网络
如图2B所示,编码子网络包括可见光图像编码流和红外图像编码流,二者均采用多个编码卷积块的ResNet(Residual Network,残差网络)作为骨架。本申请以5个编码卷积块为例进行说明,5个编码卷积块称之为其中,i用于标识编码流,i=vis或i=ir,vis为可见光图像编码流,ir为红外图像编码流;j=1,2,3,4,5,表述为编码流中的第j个卷积块;在/>每个卷积块后紧跟一个注意力增强模块。通常情况下,ResNet是为了抽取三通道的RGB图像特征而设计的,而本发明采用的可见光图像和红外图像均为单通道灰度图像,因此修改了编码网络的第一个卷积层使得输入图像的通道数由之前的三通道变为单通道,以便目标可见光图像和目标红外图像可以输入进网络中。
本申请考虑到受光照、天气等环境影响,目标可见光图像IVIS和目标红外图像IIR的特征图显著性应该是不同的。因此,5个编码卷积块中每个尺度的编码卷积块后都紧跟一个注意力增强模块,如图2C所示,注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一。进一步地,由于编码卷积块提取的特征具有较大的分辨率,因此具有丰富的空间特征。随着网络的深入,特征图像的分辨率逐渐变小,他们的空间不断被压缩,但通道数不断增加,因此通道注意力机制就被用在/>后进行特征增强。具体地,在/>后使用空间注意力增强模块SAT增强特征,在/>后使用空间和通道注意力增强模块SCAT,在/>后使用通道注意力增强模块,具体如下述公式1所示:
在本申请实施例中,可见光图像编码流和红外图像编码流均串联多个尺度的编码卷积模块,每个尺度的编码卷积模块连接有一个注意力增强模块,注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,编码卷积模块用于进行特征提取,注意力增强模块用于进行特征增强,抑制冗余特征。目标可见光图像和目标红外图像输入至多目标分割网络后,先通过编码子网络进行特征提取。具体地,采用可见光图像编码流对目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,采用红外图像编码流对目标红外图像进行特征提取,得到多个尺度的红外图像特征。
也就是说,对于可见光图像编码流,采用第一尺度的编码卷积模块对目标可见光图像进行特征提取,采用第一尺度的注意力增强模块SAT进行加权特征增强,得到第一尺度的可见光图像特征。接下来,将第一尺度的可见光图像特征输入至第二尺度的编码卷积模块/>和第二尺度的注意力增强模块SAT,生成第二尺度的可见光图像特征。将第二尺度的可见光图像特征输入至第三尺度的编码卷积模块/>和第三尺度的注意力增强模块SCAT,生成第三尺度的可见光图像特征。将第三尺度的可见光图像特征输入至第四尺度的编码卷积模块/>和第四尺度的注意力增强模块CAT,生成第四尺度的可见光图像特征。直至将第四尺度的可见光图像特征输入至第五尺度的编码卷积模块/>和第五尺度的注意力增强模块CAT,最后一个尺度的注意力增强模块生成第五尺度的可见光图像特征并输出。通过确定每个尺度的注意力增强模块输出的可见光图像特征,得到多个尺度的可见光图像特征。
对于红外图像编码流,采用第一尺度的编码卷积模块对目标红外图像进行特征提取,采用第一尺度的注意力增强模块SAT进行加权特征增强,得到第一尺度的红外图像特征。接下来,将第一尺度的红外图像特征输入至第二尺度的编码卷积模块/>和第二尺度的注意力增强模块SAT,生成第二尺度的红外图像特征。将第二尺度的红外图像特征输入至第三尺度的编码卷积模块/>和第三尺度的注意力增强模块SCAT,生成第三尺度的红外图像特征。将第三尺度的红外图像特征输入至第四尺度的编码卷积模块/>和第四尺度的注意力增强模块CAT,生成第四尺度的红外图像特征。直至将第四尺度的红外图像特征输入至第五尺度的编码卷积模块/>和第五尺度的注意力增强模块CAT,最后一个尺度的注意力增强模块生成第五尺度的红外图像特征并输出。通过确定每个尺度的注意力增强模块输出的红外图像特征,得到多个尺度的红外图像特征。需要说明的是,可见光图像编码流和红外图像编码流在经过每个注意力增强模块后通过加权的方式进行特征增强,并将增强后的特征送入各自编码流的下一尺度的。此处的加权的权重是指注意力增强模块通过学习得到的参数。注意力模块会通过神经网络不断收敛学习得到权重,可见光图像编码流或红外图像编码流在经过该注意力增强模块的时候与会学习得到的权重加权进行特征增强。
在实际运行过程中,如图2B所示,可见光图像经第一尺度的V1-SAT至第二尺度的V2-SAT至第三尺度的V3-SCAT至第四尺度的V4-CAT至第五尺度的V5-CAT得到多个尺度的可见光图像特征。红外图像经第一尺度的T1-SAT至第二尺度的T2-SAT至第三尺度的T3-SCAT至第四尺度的T4-CAT至第五尺度的T5-CAT得到多个尺度的红外图像特征。
进一步地,将每个尺度的可见光图像特征按照尺度标识与对应尺度的红外图像特征进行相加融合,得到多个尺度的融合特征。为了补充解码网络造成的空间信息损失,将每个尺度的融合特征通过跳跃连接和通道合并的方式,添加至对应尺度的解码卷积块中,跳跃连接是深度学习中一个专用名词,英文表述“skip connection”,是一种特征连接方式,指某一尺度的特征跳过中间的某些模块直接连接到另一尺度的特征中。连接方式为concat(专用名词,即此处的通道合并/特征拼接)。特征拼接/通道合并的方式如特征A为256*256*3(宽*高*通道数),特征B为256*256*5(宽*高*通道数),通道合并是指在通道维度上进行拼接,将A连接到特征B后拼接得到特征C,为256*256*8(8为拼接得到的通道数,即上述维度5+3)。具体如图2B所示,将可见光编码流V2-SAT后的特征与红外编码流T2-SAT的特征通过相加的方式融合,然后再以通道拼接的方式连接到D4解码模块中,后面的三个跳跃连接同上述描述。
二、解码子网络
如图2B所示,解码子网络包括多个尺度的解码卷积块Di,i用于标识第i个解码卷积块,本申请以5个串联的性能好且简洁的解码卷积块D1~D5为例进行说明。需要说明的是,Di的结构如图2B所示,对于任意一个Di包含转置卷积层和卷积层,通过使用转置卷积层进一步抽取特征,避免了上采样过程中空间信息的过度丢失,在保持通道数量不变将特征图分辨率提高2倍。紧接着执行普通卷积以进一步细化特征,避免预测结果中的棋盘格效应。通过普通卷积保持特征分辨率不变,并将特征通道数量减少2倍。需要注意的是,最后一个解码器层的输出通道数设置为语义类别的数量,在本发明中,使用的数据集是MFNet提供的开源数据集,因而本发明的类别数n设置为9。在实际运行过程中,如在某个场景中想更加关注“人、车”两个目标类别,则可以将目标类别数设置为3(多一个背景类),此处的类别数是指需要去凸显的类别,可以根据场景是否含有或者主观意愿去修改。例如在此处的9类是指城市街道常见的9个类别:背景类、人、汽车、自行车、停车牌、栏杆、车道线、马路两侧的崖子、路障。编码结束的可见光图像特征和红外图像特征以相加的方进行式融合,得到编码的融合特征并放入第一尺度的解码卷积块D1,融合特征经过D1-D2-D3-D4-D5完成解码,并通过激活函数sigmoid激活后输出预测图Ipred。
进一步地,每个尺度的解码卷积块依据接收到的融合特征和前一尺度的解码卷积块传递的重建特征进行特征重建,得到待约束特征。以及采用交叉熵损失函数对待约束特征进行约束,得到目标重建特征,将目标重建特征传递至下一尺度解码卷积块,直至最后一个尺度的解码卷积块输出特征图,损失函数具体如下述公式2所示:
其中,α、β、γ、δ分别为损失函数权重系数,LCE代表交叉熵损失,LDice代表Dice损失,Ok是特征重建中第k层特征通过预测得到的分割结果,解码网络中由右向左k值逐渐增大。Gk是真值标签进行下采样k倍的结果。
经过解码网络后,对9xHxW的特征图使用激活函数sigmoid进行激活将预测值转换为概率值,并通过argmax生成预测的类别,得到多目标分割图像。多目标分割图像Ipred表示为下述公式3:
公式3:IPred=argmax(sigmoid(O5))。
多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。比如设定的类别数有9类(人、车、路障等),但是可能一张图里边没有人,只有一辆车,那这样预测结果Ipred就只有一个显著目标类即“车”这一类,因此是只含有其中的一个目标子集。
203、基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。
在本申请实施例中,如图2D所示,多光谱图像融合网络包括编码子网络、融合层子网络和解码子网络,其中,编码子网络用于提取目标可见光图像和目标红外图像的深度特征。融合层子网络用于将提取出的深度特征与多目标分割图像中的特征进行融合。解码子网络用于对融合的特征进行特征重建,生成目标融合图像。
一、编码子网络
编码子网络同样有两个相同且权重共享的分支网络,每个分支都由一层普通的卷积网络C1和三紧密连接的特征抽取网络DC1~DC3组成。将目标可见光图像和目标红外图像输入至多光谱图像融合网络的编码子网络,通过编码子网络的两个分支网络分别对目标可见光图像和目标红外图像进行特征抽取,得到目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征。
二、融合层子网络
多光谱图像融合的融合层引入多目标分割图像,考虑到观察是具有目标类别偏向性的,比如本发明总是首先关注周围的行人,然后观察路上的移动的车辆,再试图观察周围的环境像旁边高楼的广告。因为在本发明观察时潜意识提醒本发明不同类别的目标是需要区别对待的,无论是从注意力还是显著性,这也很好的可以迁移到图像融合领域。现有的融合思路大都忽略了目标类别的作用,在特征融合时将所有空间像素视为等同的一个“类”,并通过设计各种模块或机制来确定此一个“类”下的像素显著性。这种融合方式没有目标类别的概念,导致在很多场景下缺乏特征的解释性。但如果预先知道某一特征点的所属类别,比如人或车等,那么本发明可以在融合时脱离单一的特征域,以一个“上帝视角”根据类别先验产生更好的、具有可解释性的权重信息,因而本发明提出了基于多目标分类的融合方法,表现为不同类别应采取自适应的融合策略,并提出了一种多目标增强的特征融合模块MTFM。
需要说明的是,由于通过多目标分割任务已经精准的将网络的注意力由全局特征定位到本发明感兴趣的目标类别特征上。因而本发明的多目标增强的特征融合模块无需使用空间注意力机制。基于多目标增强的特征融合模块可以表述为以下过程:
将第一深度特征、第二深度特征和多目标分割图像传递至多光谱图像融合网络的融合层,通过融合层中的多目标增强特征融合模块对第一深度特征、第二深度特征和多目标分割图像进行融合,得到融合特征。也就是采用多目标增强特征融合模块,按照显著目标类对第一深度特征、第二深度特征和多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征。最终将背景特征、次要显著目标特征和主要显著目标特征相加,得到融合特征。
具体地,使用MTFM模块进行分类别融合,将编码网络输出的第一深度特征表示为ΦVIS,将第二深度特征表示为ΦIR,其中ΦVIS∈RC×H×W,ΦIR∈RC×H×W。多目标分割图像IPred∈RH×W,可以含有目标为{T0,T1,T2…Tn}的任一目标子集,其中,n为显著目标类的类别数,Ti为Ipred分割出的第i类显著目标类对应的像素区域,Ipred与Ti的关系如下述公式4所示:
其中,n为Ipred含有的显著目标类的类别数且n≤9。
进一步地,分策略对Ti进行融合。
具体地,当显著目标类为背景类T0时,依据多目标分割图像对应的目标子集,确定背景类的像素区域,采用像素区域对应的背景二值掩膜和第一深度特征进行特征融合,得到背景特征。对于背景类T0,本申请考虑到融合图像应尽量符合人眼视觉观感,因而整体模态应尽量与可见光图像相同,T0融合策略设计如下述公式5所示:
公式5:F0=M0×ΦVIS
其中,F0∈RC×H×W,为融合后的背景特征;M0为Ipred对应背景T0像素区域的二值掩膜,更充分的,M0可表述为下述公式6:
除背景类外,对于剩余八类目标中的车道线,栏杆等低热度目标,称之为次要显著目标,此类目标可以被可见光图像较好的捕获而在红外图像中具有极少的信息。因而对于分割出的此类目标,本发明仍然采用将可见光图像的特征作为融合特征,而不加入红外图像对应区域的特征信息。
具体地,当显著目标类为次要显著目标类时,依据目标子集,确定次要显著目标类的像素区域,采用像素区域对应的次要显著目标二值掩膜和第一深度特征进行特征融合,得到次要显著目标特征。次要显著目标类Tk融合策略设计如下述公式7所示:
其中,F1∈RC×H×W,为融合后的次要显著目标特征。k为次要显著目标对应的类别,Mk为Ipred对应Tk像素区域的二值掩膜。本申请提出的次要显著目标的融合方式可以最大程度保留可见光图像的目标纹理信息,减少融合图像中的信息损失。
对于剩余的人、车等目标,也是本发明所关注的重要目标,称之为主要显著目标。此类目标在可见光图像和红外图像中均会被较好的表现,因而对于分割出的此类显著目标,本发明采用基于通道注意力增强的加权融合策略。
具体地,当显著目标类为主要显著目标类时,依据目标子集,确定主要显著目标类的像素区域,采用像素区域对应的主要显著目标二值掩膜和第一深度特征确定主要显著目标类的第一像素区域,以及采用主要显著目标二值掩膜和第二深度特征确定主要显著目标类的第二像素区域,根据第一像素区域和第二像素区域进行特征融合,得到主要显著目标特征,主要显著目标类Ts融合策略设计如下述公式8所示:
其中,Φ′VIS∈RC×H×W,Φ′IR∈RC×H×W,分别为可见光特征和红外特征对应主要显著目标的像素区域。s为主要显著目标对应的类别,Ms为Ipred对应Ts像素区域的二值掩膜。本申请对提取出的Φ′VIS和Φ′IR进行CAT模块特征增强,具体基于下述公式9实现:
其中,CAT模块,具体如下述公式10所示:
其中,Avgpool2d代表二维图像的全局平均池化操作并使用ReLu作为激活函数,Linear1、Linear2代表两层全连接,Linear1层神经元数为12,Linear2层神经元数等于Φ′VIS的通道数9,代表哈达玛积,表述为对应特征矩阵的点乘操作。进一步地,对于特征增强后的Φ″VIS、Φ″IR进行加权融合,具体如下述公式11所示:
融合后的主要显著目标特征F2=W(Φ″VIS)×Φ″VIS+W(Φ″IR)×Φ″IR
最终的融合特征Fout由背景特征F0、次要显著目标特征F1、主要显著目标特征F2相加,即Fout=F0+F1+F2
三、解码子网络
采用多光谱图像融合网络的解码子网络对融合特征进行特征重建,得到目标图像。具体地,将经过MTFM模块的融合特征Fout送入解码网络进行特征重建,得到最后的融合结果IFuse,融合结果对比如图2E所示,图2E为四组融合结果对比,其中第一行到第四行分别为可见光图像、红外图像、发明专利CN113033630A融合网络的结果以及本发明的融合结果。
另外,关于数据集的选定,对于多目标分割网络,本发明采用用于城市街道场景分割的数据集MFdataset,该类数据集包含了城市道路上人、车等9类常见的红外图像和可见光图像对,同时给出了人工分割的GroundTruth,数据集存在较小的非对齐现象。对于多光谱图像融合网络,本发明则采用采用coco数据集训练预先训练好编码、融合层、解码网络,融合层使用真值标签代替预测的分割图像进行CAT模块的全连接层权重学习。进一步地,关于损失函数的选择,对于多目标分割网络的损失函数,本发明采用交叉熵损失和Dice系数损失加权,表示为L=Lce+αLDice,通过实验确定α=1.5。对于融合网络的损失函数,总的损失函数由结构相似度和均方误差构成,表示为L=LMSE+βLSSIM,其中结构相似度损失函数可以进一步表述为LSSIM=1-SSIM(IFuse,IVIS),并通过实验确定β=10。最后,关于训练参数的设定,分割网络的学习率初始设置为0.03,采用SGD随机梯度下降法进行优化,动量设置为0.09,权重衰减为0.0005。融合网络学习率初始设置为0.01,采用Adam作为优化器,剩余参数默认。两种训练网络的batchsize均设置为5,输入图像的分辨率均为480x640。
本申请实施例提供的方法,首先采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。随后,采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。最后,基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。本申请中的多目标分割网络从多个尺度对目标可见光图像和目标红外图像进行特征提取和融合,生成边缘锐利的高质量多目标分割图像。多光谱图像融合网络通过提出的多目标增强的特征融合模块对多目标类别进行自适应融合,依据融合后的特征重建生成最终的融合图像。根据多目标分割的类别在特征域对不同目标采用不同的融合方式,使生成的目标融合图像在拥有可见光图像的自然模态观感、产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种基于多目标分割的多光谱图像融合装置,如图3所示,所述装置包括:采集模块301、分割模块302、融合模块303。
该采集模块301,用于采集可见光图像和红外图像,对所述可见光图像和所述红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;
该分割模块302,用于采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,所述多目标分割图像包含至少一个目标子集,所述至少一个目标子集用于指示至少一个显著目标类对应的像素区域;
该融合模块303,用于基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像。
在具体的应用场景中,该分割模块302,用于将所述目标可见光图像和所述目标红外图像输入至所述多目标分割网络,所述多目标分割网络包括编码子网络和解码子网络,其中,所述编码子网络包括可见光图像编码流和红外图像编码流;采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征;将每个尺度的可见光图像特征按照尺度标识与对应尺度的红外图像特征进行相加融合,得到多个尺度的融合特征,以及将每个尺度的融合特征通过跳跃连接和通道合并的方式,添加至对应尺度的解码卷积块中,所述解码卷积块位于所述解码子网络;所述解码子网络包括多个尺度的解码卷积块,每个尺度的解码卷积块依据接收到的融合特征和前一尺度的解码卷积块传递的重建特征进行特征重建,得到待约束特征,以及采用交叉熵损失函数对所述待约束特征进行约束,得到目标重建特征,将所述目标重建特征传递至下一尺度解码卷积块,直至最后一个尺度的解码卷积块输出特征图;使用预设激活函数对所述特征图进行激活,将所述特征图中的预测值转换为概率值,并生成预测的类别,得到所述多目标分割图像。
在具体的应用场景中,该分割模块302,用于所述可见光图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;采用第一尺度的编码卷积模块对所述目标可见光图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的可见光图像特征,并将所述第一尺度的可见光图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的可见光图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的可见光图像特征;确定每个尺度的注意力增强模块输出的可见光图像特征,得到所述多个尺度的可见光图像特征。
在具体的应用场景中,该分割模块302,用于所述红外图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;采用第一尺度的编码卷积模块对所述目标红外图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的红外图像特征,并将所述第一尺度的红外图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的红外图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的红外图像特征;确定每个尺度的注意力增强模块输出的红外图像特征,得到所述多个尺度的红外图像特征。
在具体的应用场景中,该融合模块303,用于将所述目标可见光图像和所述目标红外图像输入至所述多光谱图像融合网络的编码子网络,通过所述编码子网络对所述目标可见光图像和所述目标红外图像进行特征抽取,得到所述第一深度特征和所述第二深度特征;将所述第一深度特征、所述第二深度特征和所述多目标分割图像传递至所述多光谱图像融合网络的融合层,通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征;采用所述多光谱图像融合网络的解码子网络对所述融合特征进行特征重建,得到目标图像。
在具体的应用场景中,该融合模块303,用于采用所述多目标增强特征融合模块,按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征;将所述背景特征、所述次要显著目标特征和所述主要显著目标特征相加,得到所述融合特征。
在具体的应用场景中,该融合模块303,用于当所述显著目标类为背景类时,依据所述多目标分割图像对应的所述目标子集,确定所述背景类的像素区域,采用所述像素区域对应的背景二值掩膜和所述第一深度特征进行特征融合,得到所述背景特征;当所述显著目标类为次要显著目标类时,依据所述目标子集,确定次要显著目标类的像素区域,采用所述像素区域对应的次要显著目标二值掩膜和所述第一深度特征进行特征融合,得到所述次要显著目标特征;当所述显著目标类为主要显著目标类时,依据所述目标子集,确定主要显著目标类的像素区域,采用所述像素区域对应的主要显著目标二值掩膜和所述第一深度特征确定所述主要显著目标类的第一像素区域,以及采用所述主要显著目标二值掩膜和所述第二深度特征确定所述主要显著目标类的第二像素区域,根据所述第一像素区域和所述第二像素区域进行特征融合,得到所述主要显著目标特征。
本申请实施例提供的装置,首先采集可见光图像和红外图像,对可见光图像和红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像。随后,采用多目标分割网络对目标可见光图像和目标红外图像进行多目标语义分割,生成多目标分割图像,多目标分割图像包含至少一个目标子集,至少一个目标子集用于指示至少一个显著目标类对应的像素区域。最后,基于多光谱图像融合网络提取目标可见光图像对应的第一深度特征和目标红外图像对应的第二深度特征,通过融合第一深度特征、第二深度特征和多目标分割图像,生成目标融合图像。本申请中的多目标分割网络从多个尺度对目标可见光图像和目标红外图像进行特征提取和融合,生成边缘锐利的高质量多目标分割图像。多光谱图像融合网络通过提出的多目标增强的特征融合模块对多目标类别进行自适应融合,依据融合后的特征重建生成最终的融合图像。根据多目标分割的类别在特征域对不同目标采用不同的融合方式,使生成的目标融合图像在拥有可见光图像的自然模态观感、产生符合人眼视觉感知图像的同时,有效突出红外图像中的显著目标。
需要说明的是,本申请实施例提供的一种基于多目标分割的多光谱图像融合装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备包括通信总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的基于多目标分割的多光谱图像融合方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于多目标分割的多光谱图像融合方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于多目标分割的多光谱图像融合方法,其特征在于,包括:
采集可见光图像和红外图像,对所述可见光图像和所述红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;
采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,所述多目标分割图像包含至少一个目标子集,所述至少一个目标子集用于指示至少一个显著目标类对应的像素区域;
基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像。
2.根据权利要求1所述的方法,其特征在于,所述采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,包括:
将所述目标可见光图像和所述目标红外图像输入至所述多目标分割网络,所述多目标分割网络包括编码子网络和解码子网络,其中,所述编码子网络包括可见光图像编码流和红外图像编码流;
采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征;
将每个尺度的可见光图像特征按照尺度标识与对应尺度的红外图像特征进行相加融合,得到多个尺度的融合特征,以及将每个尺度的融合特征通过跳跃连接和通道合并的方式,添加至对应尺度的解码卷积块中,所述解码卷积块位于所述解码子网络;
所述解码子网络包括多个尺度的解码卷积块,每个尺度的解码卷积块依据接收到的融合特征和前一尺度的解码卷积块传递的重建特征进行特征重建,得到待约束特征,以及采用交叉熵损失函数对所述待约束特征进行约束,得到目标重建特征,将所述目标重建特征传递至下一尺度解码卷积块,直至最后一个尺度的解码卷积块输出特征图;
使用预设激活函数对所述特征图进行激活,将所述特征图中的预测值转换为概率值,并生成预测的类别,得到所述多目标分割图像。
3.根据权利要求2所述的方法,其特征在于,所述采用所述可见光图像编码流对所述目标可见光图像进行特征提取,得到多个尺度的可见光图像特征,包括:
所述可见光图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;
采用第一尺度的编码卷积模块对所述目标可见光图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的可见光图像特征,并将所述第一尺度的可见光图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的可见光图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的可见光图像特征;
确定每个尺度的注意力增强模块输出的可见光图像特征,得到所述多个尺度的可见光图像特征。
4.根据权利要求2所述的方法,其特征在于,所述采用所述红外图像编码流对所述目标红外图像进行特征提取,得到多个尺度的红外图像特征,包括:
所述红外图像编码流串联多个尺度的编码卷积模块,每个尺度的所述编码卷积模块连接有一个注意力增强模块,所述注意力增强模块为空间注意力增强模块、空间和通道注意力增强模块、通道注意力增强模块其中之一,所述编码卷积模块用于进行特征提取,所述注意力增强模块用于进行特征增强,抑制冗余特征;
采用第一尺度的编码卷积模块对所述目标红外图像进行特征提取,采用第一尺度的注意力增强模块进行加权特征增强,得到第一尺度的红外图像特征,并将所述第一尺度的红外图像特征输入至第二尺度的编码卷积模块和第二尺度的注意力增强模块,生成第二尺度的红外图像特征,直至最后一个尺度的注意力增强模块输出最后一个尺度的红外图像特征;
确定每个尺度的注意力增强模块输出的红外图像特征,得到所述多个尺度的红外图像特征。
5.根据权利要求1所述的方法,其特征在于,所述基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像,包括:
将所述目标可见光图像和所述目标红外图像输入至所述多光谱图像融合网络的编码子网络,通过所述编码子网络对所述目标可见光图像和所述目标红外图像进行特征抽取,得到所述第一深度特征和所述第二深度特征;
将所述第一深度特征、所述第二深度特征和所述多目标分割图像传递至所述多光谱图像融合网络的融合层,通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征;
采用所述多光谱图像融合网络的解码子网络对所述融合特征进行特征重建,得到目标图像。
6.根据权利要求5所述的方法,其特征在于,所述通过所述融合层中的多目标增强特征融合模块对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行融合,得到融合特征,包括:
采用所述多目标增强特征融合模块,按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征;
将所述背景特征、所述次要显著目标特征和所述主要显著目标特征相加,得到所述融合特征。
7.根据权利要求6所述的方法,其特征在于,所述按照所述显著目标类对所述第一深度特征、所述第二深度特征和所述多目标分割图像进行特征融合,得到背景特征、次要显著目标特征和主要显著目标特征,包括:
当所述显著目标类为背景类时,依据所述多目标分割图像对应的所述目标子集,确定所述背景类的像素区域,采用所述像素区域对应的背景二值掩膜和所述第一深度特征进行特征融合,得到所述背景特征;
当所述显著目标类为次要显著目标类时,依据所述目标子集,确定次要显著目标类的像素区域,采用所述像素区域对应的次要显著目标二值掩膜和所述第一深度特征进行特征融合,得到所述次要显著目标特征;
当所述显著目标类为主要显著目标类时,依据所述目标子集,确定主要显著目标类的像素区域,采用所述像素区域对应的主要显著目标二值掩膜和所述第一深度特征确定所述主要显著目标类的第一像素区域,以及采用所述主要显著目标二值掩膜和所述第二深度特征确定所述主要显著目标类的第二像素区域,根据所述第一像素区域和所述第二像素区域进行特征融合,得到所述主要显著目标特征。
8.一种基于多目标分割的多光谱图像融合装置,其特征在于,包括:
采集模块,用于采集可见光图像和红外图像,对所述可见光图像和所述红外图像进行图像配准处理,得到已配准的目标可见光图像和目标红外图像;
分割模块,用于采用多目标分割网络对所述目标可见光图像和所述目标红外图像进行多目标语义分割,生成多目标分割图像,所述多目标分割图像包含至少一个目标子集,所述至少一个目标子集用于指示至少一个显著目标类对应的像素区域;
融合模块,用于基于多光谱图像融合网络提取所述目标可见光图像对应的第一深度特征和所述目标红外图像对应的第二深度特征,通过融合所述第一深度特征、所述第二深度特征和所述多目标分割图像,生成目标融合图像。
9.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327471.2A CN116385326A (zh) | 2023-03-24 | 2023-03-24 | 一种基于多目标分割的多光谱图像融合方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327471.2A CN116385326A (zh) | 2023-03-24 | 2023-03-24 | 一种基于多目标分割的多光谱图像融合方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385326A true CN116385326A (zh) | 2023-07-04 |
Family
ID=86965075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310327471.2A Pending CN116385326A (zh) | 2023-03-24 | 2023-03-24 | 一种基于多目标分割的多光谱图像融合方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385326A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778293A (zh) * | 2023-08-24 | 2023-09-19 | 齐鲁工业大学(山东省科学院) | 一种基于掩膜的图像融合方法 |
CN116994338A (zh) * | 2023-09-25 | 2023-11-03 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
CN117876836A (zh) * | 2024-03-11 | 2024-04-12 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
-
2023
- 2023-03-24 CN CN202310327471.2A patent/CN116385326A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778293A (zh) * | 2023-08-24 | 2023-09-19 | 齐鲁工业大学(山东省科学院) | 一种基于掩膜的图像融合方法 |
CN116778293B (zh) * | 2023-08-24 | 2023-12-22 | 齐鲁工业大学(山东省科学院) | 一种基于掩膜的图像融合方法 |
CN116994338A (zh) * | 2023-09-25 | 2023-11-03 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
CN116994338B (zh) * | 2023-09-25 | 2024-01-12 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
CN117876836A (zh) * | 2024-03-11 | 2024-04-12 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
CN117876836B (zh) * | 2024-03-11 | 2024-05-24 | 齐鲁工业大学(山东省科学院) | 基于多尺度特征提取和目标重建的图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN110674688B (zh) | 用于视频监控场景的人脸识别模型获取方法、系统和介质 | |
CN116385326A (zh) | 一种基于多目标分割的多光谱图像融合方法、装置及设备 | |
CN109886090A (zh) | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 | |
CN111754446A (zh) | 一种基于生成对抗网络的图像融合方法、系统及存储介质 | |
CN108549895A (zh) | 一种基于对抗网络的半监督语义分割方法 | |
CN112767466A (zh) | 一种基于多模态信息的光场深度估计方法 | |
CN116311254B (zh) | 一种恶劣天气情况下的图像目标检测方法、系统及设备 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
CN112446835A (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN114926382A (zh) | 用于融合图像的生成对抗网络、图像融合方法及终端设备 | |
CN113487530A (zh) | 一种基于深度学习的红外与可见光融合成像方法 | |
CN111274988B (zh) | 一种基于多光谱的车辆重识别方法及装置 | |
CN117496319A (zh) | 基于未配准双模态图像融合的全天候目标检测系统及方法 | |
CN115601723A (zh) | 基于改进ResNet的夜间热红外图像语义分割增强方法 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
Xing et al. | Multi-level adaptive perception guidance based infrared and visible image fusion | |
CN111898671B (zh) | 激光成像仪和彩色相机编码融合目标识别方法及系统 | |
CN117974497A (zh) | 一种雾霾场景驾驶视觉增强及目标检测方法 | |
CN110705564B (zh) | 图像识别的方法和装置 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN113887470B (zh) | 基于多任务注意力机制的高分辨率遥感图像地物提取方法 | |
CN113920455B (zh) | 一种基于深度神经网络的夜间视频着色方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |