CN117036893A - 一种基于局部跨阶段和快速下采样的图像融合方法 - Google Patents
一种基于局部跨阶段和快速下采样的图像融合方法 Download PDFInfo
- Publication number
- CN117036893A CN117036893A CN202311286733.1A CN202311286733A CN117036893A CN 117036893 A CN117036893 A CN 117036893A CN 202311286733 A CN202311286733 A CN 202311286733A CN 117036893 A CN117036893 A CN 117036893A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- feature map
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 17
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 64
- 238000012360 testing method Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100099821 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cbs-1 gene Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于局部跨阶段和快速下采样的图像融合方法。该算法是一种基于深度学习的图像融合算法,融合算法由编码器、特征融合器和解码器组成;编码器采用局部跨阶段和快速下采样方法对输入的可见光图像和SAR图像进行特征提取,并输出提取的特征图;特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征,对特征图进行增强及融合,输出融合后的特征图;解码器用以对融合后的特征图进行解码和重构,获得最终的融合图像。本发明相较于其他的融合网络,可以生成包含更多信息的优质融合图像,提高对目标的识别和分析能力,增强了语义信息的集成效果。
Description
技术领域
本发明涉及图像融合技术领域,具体涉及一种基于局部跨阶段和快速下采样的图像融合方法。
背景技术
随着现代遥感技术不断发展,合成孔径雷达(Synthetic Aperture Radar,SAR)图像和可见光图像融合已经成为一个热门研究领域。SAR图像有良好的穿透性和不受天气限制的优点,但分辨率较低,难以识别细小目标;可见光图像有高空间分辨率和色彩信息,但易受天气和光照的限制。因此,将SAR图像和可见光图像融合,可以综合两种图像的优势,既突出显著目标,又展现丰富的细节信息,提高目标识别和定位能力。
目前主流图像融合方法和技术,包括像素级融合、特征级融合和决策级融合等传统方法。此外,还有些基于深度学习的融合方法,如基于自编码器(AE)框架、卷积神经网络(CNN)框架和生成对抗网络(GAN)框架等,这些框架能自动学习SAR和可见光图像间的关系,得到更准确的融合结果。
传统图像融合算法包括拉普拉斯金字塔、离散小波、剪切波、非抽样轮廓波和潜在低秩表示等,也会用稀疏表示和子空间等方法。但传统方法采用复杂变换和手工规则限制算法实时性和语义信息的集成,限制了在高级视觉任务的应用。
自编码器是种常用的融合模型。传统自编码器融合法需要手动设计融合规则,限制融合性能。基于分类显著性自编码器融合框架,提高了融合精度和鲁棒性,但存在分类器过拟合和训练数据不足的问题。
基于卷积神经网络(CNN)的融合框架成为图像融合领域的研究热点。这方法通过设计损失函数,实现隐式特征提取、聚合和图像重建。但这些方法存在真值缺失问题,限制性能发挥。且需要手动设计规则或使用显著性掩模,限制了融合性能。
生成对抗网络(GAN)是种无监督学习方法,用于图像转换和图像融合等。在图像融合领域,引入双鉴别器生成对抗网络和多尺度注意机制,提高鲁棒性。但当前的融合算法忽视高层次视觉任务需求,要增强融合图像的语义信息并整合源图像互补信息。一些深度学习算法尝试使用感知损失或显著目标掩模来增强语义信息,但效果有限。
尽管最近基于深度学习图像融合算法可以生成令人满意的融合图像,但SAR和可见光图像融合仍面临着一些挑战。一方面,由于SAR图像和可见光图像特点不同,因此需要选择合适的融合方法综合两种图像信息。另一方面,融合结果评价难度大,难用简单定量指标评价,需要考虑多种因素,如目标识别能力、信息保留程度、色彩还原等。
发明内容
本发明的目的是针对现有技术存在的不足,提供一种基于局部跨阶段和快速下采样的图像融合方法。
为实现上述目的,本发明提供了一种基于局部跨阶段和快速下采样的图像融合方法,基于训练合格的网络模型实现,所述网络模型包括编码器、特征融合器和解码器;
所述编码器用以对输入的可见光图像和SAR图像进行特征提取,并输出提取的特征图;
所述特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征,对特征图增强并融合,其中,采用空间注意力机制得到的增强的特征图为:
其中,、/>分别为可见光图像和SAR图像调整后的特征图,(i,j)表示每个像素的坐标索引,
k={1,2},为调整前的特征图,/>、/>分别为特征图的横向和纵向注意力权重,
采用通道注意力机制得到增强的特征图像为:
其中,、/>分别为从可见光特征图和SAR特征图,n为深度特征的通道索引,/>、/>分别为可见光图像和SAR图像的最终的深度特征权重;
并采用加法融合规则进行特征融合,得到最终的融合特征图为:
其中,+为矩阵加法操作;
所述解码器用以对融合特征图进行解码和重构,最后采用Swish激活函数获得最终融合图像。
进一步的,所述编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取,以获得通道数为32的特征图,然后将特征图分别输入细节分支和语义分支中;
所述细节分支部分由7部分组成,第1、3、5、7层为卷积-池化-激活模块,第2、4、6层为局部跨阶段残差块,在局部跨阶段残差块中,特征图一部分进入1×1的卷积块,另一部分依次进入3×3的卷积块、三个相连的残差块,每个残差块由一个1×1的卷积块和一个3×3的卷积块以及相加操作组成,之后将两部分拼接,通过1×1的卷积-池化-激活模块统一通道数;
所述语义分支采用快速下采样网络结构,经过三个级联的卷积层对输入的特征图进行快速下采样操作,依次获得通道数为64、128、64的特征图,然后利用双线性插值法对经过快速下采样获得的特征图进行上采样,以使得上采样后的特征图与网络最初输入的特征图保持相同的大小;
最后将细节分支的输出特征图和语义分支的输出特征图进行通道维度上的连接,获得通道数为128的特征图。
进一步的,所述网络模型通过以下方式训练至合格:
获取配准好的可见光图像和SAR图像的数据集;
对所述数据集中的图片尺寸进行预处理,并进行分割,从分割后的图像中选取部分作为训练集,其余作为测试集;
将训练集中的图像输入至编码器中进行提取和拼接,以获得通道数为128的特征图;
然后将通道数为128的特征图输入至特征融合器中进行特征融合,得到通道数为512的融合特征图;
将融合特征图输入至解码器中,以获得最后的融合图像;
调试以上步骤的网络结构超参数,并设置网络模型参数,其中,网络训练次数epochs设置为300轮,初始学习率设置为0.001,一次训练所选取的样本数bath size设置为32,经过300轮的训练后得到最终的训练模型;
将所述测试集输入至训练模型中,以获得可见光图像和SAR图像融合的测试结果,若所述测试结果符合要求,则将当前训练模型作为训练合格的网络模型,否则重新进行训练。
进一步的,分割后的图像为2310对128×128大小的图像,并从中随机选取1980对图像数据作为训练集,其余的330对图像数据作为测试集。
进一步的,在每轮训练得到训练模型后,计算训练模型的总体损失为:
其中,为结构相似性损失,/>为强度损失,/>为梯度损失,/>、/>、/>均为权重系数,/>、/>分别为输入的可见光图像和SAR图像,/>为获得的融合图像,/>为对矩阵•计算1范数,/>为元素的最大选择,SSIM为图像结构相似性算法,/>为测量图像纹理信息的梯度算子;
若本轮训练后的训练模型的总体损失小于前一轮训练后的训练模型的总体损失,则保留本轮训练的网络模型迭代结果,否则放弃,在经过300轮训练后,判断最终的训练模型的总体损失/>是否收敛,若总体损失/>收敛,再利用测试集进行测试,否则重新训练。
进一步的,所述、/>分别采用注意力机制及soft-max操作获得,具体如下:
为sigmoid函数,/>为使用1×1卷积进行变换,/>、/>分别为在横向和纵向上对空间信息进行编码的中间特征图,
r为降维比,用以缩减通道数,R为实数,C为通道数,H为特征图的长度,W为特征图的宽度,为在空间维度上进行拼接,/>为非线性激活函数,/>、/>为横向和纵向的特征,
为提取的特征图。
进一步的,所述、/>分别采用平均池化机制及soft-max操作获得,具体如下:
为初始的特征权重,/>、/>分别为可见光图像和SAR图像的初始的特征权重,
P(•)表示全局平均池化。
有益效果:1、通过局部跨阶段和快速下采样算法,有效地提取可见光图像和SAR图像中的特征信息,并通过采用无监督卷积网络进行融合,获得具有更丰富信息的融合图像,提高对目标的识别和分析能力;
2、设计了局部跨阶段残差块(CSR),保留了残差网络的特征重用的优点,又通过分割梯度抑制过多的重复信息,通过增加梯度路径,减少了计算量,增强了CNN网络的学习能力;
3、采用快速下采样方法降低网络的计算量,提升模型稳定性,防止过拟合,增强特征的不变性;
4、采用两种注意力机制相结合的图像融合方法,提取源图像特征在不同通道与不同空间位置上不同的重要性特征并进行融合,获得更加优秀的融合特征;
5、融合图像在一些关键指标上有明显的提升;
6、采用无监督卷积网络进行融合,实现过程简单,提高了实时性,并避免了复杂变换和手工规则,增强了语义信息的集成效果。
附图说明
图1是本发明实施例的网络模型的结构示意图;
图2是本发明实施例的编码器的原理图;
图3是本发明实施例的编码器的CBS模块的原理图;
图4是本发明实施例的编码器的CSR模块的原理图;
图5是本发明实施例的特征融合器的原理图;
图6是本发明实施例的解码器的原理图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
如图1至图6所示,本发明实施例提供了一种基于局部跨阶段和快速下采样的图像融合方法,基于训练合格的网络模型实现,该网络模型包括编码器(Encoder_Layer)、特征融合器(Fusion_Layer)和解码器(Decoder_Layer)。
编码器包括Encoder_Layer1和Encoder_Layer2两个,分别用以对输入的可见光图像和SAR图像进行特征提取,并输出提取的特征图。其中,由可见光图像进行特征提取后的特征图为,由SAR图像进行特征提取后的特征图为/>。
特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征,对特征图进行增强并融合,其中,采用空间注意力机制得到的增强的特征图为:
其中,、/>分别为可见光图像和SAR图像调整后的特征;
k={1,2},(i,j)表示每个像素的坐标索引,为调整前的特征图,/>、/>分别为特征图的横向和纵向注意力权重。上述/>、/>分别采用注意力机制及soft-max操作获得,具体如下:
为sigmoid函数,/>为使用1×1卷积进行变换,/>、/>分别为在横向和纵向上对空间信息进行编码的中间特征图;
r为降维比,用以缩减通道数,R为实数,C为通道数,H为特征图的长度,W为特征图的宽度,为在空间维度上进行拼接,/>为非线性激活函数,/>、/>为横向和纵向的特征;
为提取的特征。
采用通道注意力机制得到增强的特征图像为:
其中,、/>分别为从可见光特征图和SAR特征图,n为深度特征的通道索引,/>、/>分别为可见光图像和SAR图像的最终的深度特征权重。上述/>、/>分别采用平均池化机制及soft-max操作获得,具体如下:
为初始的特征权重,/>、/>分别为可见光图像和SAR图像的初始的特征权重;
P(•)表示全局平均池化。
并采用加法融合规则进行特征融合,得到最终的融合特征图为:
其中,+为矩阵加法操作。
参见图6,解码器用以对融合特征图进行解码和重构,获得最后的融合图像。上述解码器Conv_a2,Conv_a3,Conv_a4,Conv_a5四个大小为3×3,步长为1的卷积层和Swish激活函数进行特征重构。生成的融合图像具有与输入图像相同的分辨率,即保持了原始图像的高清晰度和细节信息。
参见图2至图4,编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取,以获得通道数为32的特征图,然后将特征图分别输入细节分支和语义分支中。细节分支部分由7部分组成,第1、3、5、7层为卷积(Conv)-池化(BN)-激活(Swish)模块(CBS模块),第2、4、6层为局部跨阶段残差块(CSR),在局部跨阶段残差块中,特征图一部分进入1×1的卷积块(CBS_1),另一部分依次进入3×3的卷积块(CBS_3)、三个相连的残差块,每个残差块由一个1×1的卷积块和一个3×3的卷积块以及相加操作组成,之后将两部分拼接,通过1×1的卷积-池化-激活模块统一通道数。语义分支采用快速下采样网络结构,包括Conv_b1,Conv_b2,Conv_b3三个大小为3×3,步长为1的卷积层,经过三个级联的卷积层对输入的特征图进行快速下采样操作,依次获得通道数为64、128、64的特征图,然后利用双线性插值法对经过快速下采样获得的特征图进行上采样,以使得上采样后的特征图与网络最初输入的特征图保持相同的大小。最后将细节分支的输出特征图和语义分支的输出特征图进行通道维度上的连接,获得通道数为128的特征图。
上述网络模型通过以下方式训练至合格:
获取配准好的可见光图像和SAR图像的数据集。可以通过下载目前已公开的配准好的可见光图像和SAR图像作为数据集。
对所述数据集中的图片尺寸进行预处理,并进行分割,从分割后的图像中选取部分作为训练集,其余作为测试集。例如,分割后的图像为2310对128×128大小的图像,并从中随机选取1980对图像数据作为训练集,其余的330对图像数据作为测试集。
将训练集中的图像输入至编码器中进行提取,以获得通道数为128的特征图。
然后将通道数为128的特征图输入至特征融合器中进行特征融合,得到通道数为512的融合特征图。
将融合特征图输入至解码器中,以获得最后的融合图像。
调试以上步骤的网络结构超参数,并设置网络模型参数,其中,网络训练次数epochs可设置为300轮,初始学习率可设置为0.001,一次训练所选取的样本数bath size可设置为32,经过300轮训练后得到最终的训练模型。
将所述测试集输入至训练模型中,以获得可见光图像和SAR图像融合的测试结果,若所述测试结果符合要求,则将当前训练模型作为训练合格的网络模型,否则重新进行训练。
还可在每轮训练得到训练模型后,计算训练模型的总体损失为:
其中,为结构相似性损失,/>为强度损失,/>为梯度损失,/>、/>、/>均为权重系数,/>、/>分别为输入的可见光图像和SAR图像,/>为获得的融合图像,/>为对矩阵•计算1范数,/>为元素的最大选择,SSIM为图像结构相似性算法,/>为测量图像纹理信息的梯度算子;
若本轮训练后的训练模型的总体损失小于前一轮训练后的训练模型的总体损失,则保留本轮训练的网络模型迭代结果,否则放弃,在经过300轮训练后,判断最终的训练模型的总体损失/>是否收敛,若总体损失/>收敛,再利用测试集进行测试,否则重新训练。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,基于训练合格的网络模型实现,所述网络模型包括编码器、特征融合器和解码器;
所述编码器用以对输入的可见光图像和SAR图像进行特征提取,并输出提取的特征图;
所述特征融合器用以采用空间注意力机制融合规则和通道注意力机制融合规则提取所述特征图在不同通道和不同空间位置上的不同重要性特征,然后对特征图进行增强并融合,其中,采用空间注意力机制得到的增强特征图为:
;
其中,、/>分别为可见光特征图和SAR特征图增强后的特征图,(i,j)表示每个像素的坐标索引,
;
k={1,2},为调整前的特征图,/>、/>分别为特征图在横向和纵向上的注意力权重,
采用通道注意力机制得到的增强特征图为:
;
其中,、/>分别为可见光特征图和SAR特征图,n为深度特征的通道索引,/>、分别为可见光图像和SAR图像的深度特征权重;
并采用加法融合规则进行特征融合,得到最终的融合特征图为:
;
其中,+为矩阵加法操作;
所述解码器用以对融合特征图进行解码和重构,以获得最终的融合图像。
2.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,所述编码器将输入的图像通过大小为3×3、步长为1的卷积核进行浅层特征提取,以获得通道数为32的特征图,然后将特征图分别输入细节分支和语义分支中;
所述细节分支部分由7部分组成,第1、3、5、7层为卷积-池化-激活模块,第2、4、6层为局部跨阶段残差块,在局部跨阶段残差块中,特征图一部分进入1×1的卷积块,另一部分依次进入3×3的卷积块、三个相连的残差块,每个残差块由一个1×1的卷积块和一个3×3的卷积块以及相加操作组成,之后将两部分拼接,通过1×1的卷积-池化-激活模块统一通道数;
所述语义分支采用快速下采样网络结构,经过三个级联的卷积层对输入的特征图进行快速下采样操作,依次获得通道数为64、128、64的特征图,然后利用双线性插值法对经过快速下采样获得的特征图进行上采样,以使得上采样后的特征图与网络最初输入的特征图保持相同的大小;
最后将细节分支的输出特征图和语义分支的输出特征图进行通道维度上的连接,获得通道数为128的特征图。
3.根据权利要求2所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,所述网络模型通过以下方式训练至合格:
获取配准好的可见光图像和SAR图像的数据集;
对所述数据集中的图片尺寸进行预处理,并进行分割,从分割后的图像中选取部分作为训练集,其余作为测试集;
将训练集中的图像输入至编码器中进行提取,以获得通道数为128的特征图;
然后将通道数为128的特征图输入至特征融合器中进行特征融合,得到通道数为512的融合特征图;
将融合特征图输入至解码器中,以获得最后的融合图像;
调试以上步骤的网络结构超参数,并设置网络模型参数,其中,网络训练次数epochs设置为300轮,初始学习率设置为0.001,一次训练所选取的样本数bath size设置为32,经过300轮训练后得到最终的训练模型;
将所述测试集输入至训练模型中,以获得可见光图像和SAR图像融合的测试结果,若所述测试结果符合要求,则将当前训练模型作为训练合格的网络模型,否则重新进行训练。
4.根据权利要求3所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,分割后的图像为2310对128×128大小的图像,并从中随机选取1980对图像数据作为训练集,其余的330对图像数据作为测试集。
5.根据权利要求3所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,在每轮训练得到训练模型后,计算训练模型的总体损失为:
;
;
;
;
其中,为结构相似性损失,/>为强度损失,/>为梯度损失,/>、/>、/>均为权重系数,/>、/>分别为输入的可见光图像和SAR图像,/>为获得的融合图像,/>为对矩阵•计算1范数,/>为元素的最大选择,SSIM为图像结构相似性算法,/>为测量图像纹理信息的梯度算子;
若本轮训练后的训练模型的总体损失小于前一轮训练后的训练模型的总体损失,则保留本轮训练的网络模型迭代结果,否则放弃,在经过300轮训练后,判断最终的训练模型的总体损失/>是否收敛,若总体损失/>收敛,再利用测试集进行测试,否则重新训练。
6.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,所述、/>分别采用注意力机制及soft-max操作获得,具体如下:
;
;
为sigmoid函数,/>为使用1×1卷积进行变换,/>、/>分别为在横向和纵向上对空间信息进行编码的中间特征图,
;
;
r为降维比,用以缩减通道数,R为实数,C为通道数,H为特征图的长度,W为特征图的宽度,为在空间维度上进行拼接,/>为非线性激活函数,/>、/>为横向和纵向的特征,
;
;
为提取的特征图。
7.根据权利要求1所述的一种基于局部跨阶段和快速下采样的图像融合方法,其特征在于,所述、/>分别采用平均池化机制及soft-max操作获得,具体如下:
;
为初始的特征权重,/>、/>分别为可见光图像和SAR图像的初始的特征权重,
;
P(•)表示全局平均池化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286733.1A CN117036893B (zh) | 2023-10-08 | 2023-10-08 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286733.1A CN117036893B (zh) | 2023-10-08 | 2023-10-08 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117036893A true CN117036893A (zh) | 2023-11-10 |
CN117036893B CN117036893B (zh) | 2023-12-15 |
Family
ID=88641424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311286733.1A Active CN117036893B (zh) | 2023-10-08 | 2023-10-08 | 一种基于局部跨阶段和快速下采样的图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036893B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809649A (zh) * | 2016-03-03 | 2016-07-27 | 西安电子科技大学 | 基于变分多尺度分解的sar图像与可见光图像融合方法 |
CN111199530A (zh) * | 2019-12-27 | 2020-05-26 | 南京航空航天大学 | Sar图像与可见光图像的融合方法 |
US20200380294A1 (en) * | 2019-05-30 | 2020-12-03 | Wuyi University | Method and apparatus for sar image recognition based on multi-scale features and broad learning |
WO2021028650A1 (en) * | 2019-08-13 | 2021-02-18 | University Of Hertfordshire Higher Education Corporation | Predicting visible/infrared band images using radar reflectance/backscatter images of a terrestrial region |
CN112800980A (zh) * | 2021-02-01 | 2021-05-14 | 南京航空航天大学 | 一种基于多层次特征的sar目标识别方法 |
CN113159143A (zh) * | 2021-04-06 | 2021-07-23 | 中国人民解放军国防科技大学 | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 |
CN114782265A (zh) * | 2022-04-15 | 2022-07-22 | 南京信息工程大学 | 基于对抗多尺度与残差多通道空间注意力的图像修复方法 |
CN114821261A (zh) * | 2022-05-20 | 2022-07-29 | 合肥工业大学 | 一种图像融合的算法 |
CN115034959A (zh) * | 2022-06-20 | 2022-09-09 | 重庆大学 | 一种基于跨通道融合空间注意力机制的高清图像翻译方法 |
CN115147720A (zh) * | 2022-06-23 | 2022-10-04 | 北京理工大学重庆创新中心 | 基于坐标注意力和长短距上下文的sar舰船检测方法 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115965862A (zh) * | 2022-12-07 | 2023-04-14 | 西安电子科技大学 | 基于掩码网络融合图像特征的sar舰船目标检测方法 |
CN116363034A (zh) * | 2023-03-31 | 2023-06-30 | 徐州鑫达房地产土地评估有限公司 | 轻量级红外与可见光图像融合方法、系统、设备和介质 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
CN116524376A (zh) * | 2023-03-03 | 2023-08-01 | 西安电子科技大学青岛计算技术研究院 | 一种遥感目标检测方法、系统、介质、设备及终端 |
CN116630209A (zh) * | 2023-03-01 | 2023-08-22 | 合肥工业大学 | 基于交叉混合注意力的sar与可见光图像融合方法 |
CN116757978A (zh) * | 2023-05-31 | 2023-09-15 | 内蒙古智诚物联股份有限公司 | 一种红外与可见光图像自适应融合方法、系统和电子设备 |
CN116757986A (zh) * | 2023-07-05 | 2023-09-15 | 南京信息工程大学 | 一种红外与可见光图像融合方法及装置 |
-
2023
- 2023-10-08 CN CN202311286733.1A patent/CN117036893B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105809649A (zh) * | 2016-03-03 | 2016-07-27 | 西安电子科技大学 | 基于变分多尺度分解的sar图像与可见光图像融合方法 |
US20200380294A1 (en) * | 2019-05-30 | 2020-12-03 | Wuyi University | Method and apparatus for sar image recognition based on multi-scale features and broad learning |
WO2021028650A1 (en) * | 2019-08-13 | 2021-02-18 | University Of Hertfordshire Higher Education Corporation | Predicting visible/infrared band images using radar reflectance/backscatter images of a terrestrial region |
CN111199530A (zh) * | 2019-12-27 | 2020-05-26 | 南京航空航天大学 | Sar图像与可见光图像的融合方法 |
CN112800980A (zh) * | 2021-02-01 | 2021-05-14 | 南京航空航天大学 | 一种基于多层次特征的sar目标识别方法 |
CN113159143A (zh) * | 2021-04-06 | 2021-07-23 | 中国人民解放军国防科技大学 | 基于跳跃连接卷积层的红外与可见光图像融合方法和装置 |
CN114782265A (zh) * | 2022-04-15 | 2022-07-22 | 南京信息工程大学 | 基于对抗多尺度与残差多通道空间注意力的图像修复方法 |
CN114821261A (zh) * | 2022-05-20 | 2022-07-29 | 合肥工业大学 | 一种图像融合的算法 |
CN115034959A (zh) * | 2022-06-20 | 2022-09-09 | 重庆大学 | 一种基于跨通道融合空间注意力机制的高清图像翻译方法 |
CN115147720A (zh) * | 2022-06-23 | 2022-10-04 | 北京理工大学重庆创新中心 | 基于坐标注意力和长短距上下文的sar舰船检测方法 |
CN115170915A (zh) * | 2022-08-10 | 2022-10-11 | 上海理工大学 | 一种基于端到端注意力网络的红外与可见光图像融合方法 |
CN115965862A (zh) * | 2022-12-07 | 2023-04-14 | 西安电子科技大学 | 基于掩码网络融合图像特征的sar舰船目标检测方法 |
CN116630209A (zh) * | 2023-03-01 | 2023-08-22 | 合肥工业大学 | 基于交叉混合注意力的sar与可见光图像融合方法 |
CN116524376A (zh) * | 2023-03-03 | 2023-08-01 | 西安电子科技大学青岛计算技术研究院 | 一种遥感目标检测方法、系统、介质、设备及终端 |
CN116363034A (zh) * | 2023-03-31 | 2023-06-30 | 徐州鑫达房地产土地评估有限公司 | 轻量级红外与可见光图像融合方法、系统、设备和介质 |
CN116503703A (zh) * | 2023-04-28 | 2023-07-28 | 大连大学 | 一种基于分流注意力Transformer的红外光和可见光图像融合系统 |
CN116757978A (zh) * | 2023-05-31 | 2023-09-15 | 内蒙古智诚物联股份有限公司 | 一种红外与可见光图像自适应融合方法、系统和电子设备 |
CN116757986A (zh) * | 2023-07-05 | 2023-09-15 | 南京信息工程大学 | 一种红外与可见光图像融合方法及装置 |
Non-Patent Citations (6)
Title |
---|
LEI WANG 等: "Infrared and Visible Image Fusion via Attention-Based Adaptive Feature Fusion", 《ENTROPY》, vol. 25, no. 03, pages 1 - 21 * |
ZHEN LI 等: "A Super-Resolution Algorithm Based on Hybrid Network for Multi-Channel Remote Sensing Images", 《REMOTE SENSING》, vol. 15, no. 14, pages 1 - 23 * |
张演康: "基于深度卷积生成对抗网络的SAR与可见光融合技术研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 2021, pages 028 - 190 * |
徐英 等: "面向合成孔径雷达图像任意方向舰船检测的改进YOLOv3模型", 《兵工学报》, vol. 42, no. 08, pages 1698 - 1707 * |
李姚舜 等: "嵌入注意力机制的轻量级钢筋检测网络", 《计算机应用》, vol. 42, no. 09, pages 2900 - 2908 * |
高云龙: "基于深度网络的SAR图像舰船目标检测算法研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》, no. 2023, pages 036 - 7 * |
Also Published As
Publication number | Publication date |
---|---|
CN117036893B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN111242288B (zh) | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 | |
CN109035172B (zh) | 一种基于深度学习的非局部均值超声图像去噪方法 | |
CN109035267B (zh) | 一种基于深度学习的图像目标抠取方法 | |
CN111325165A (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN102915527A (zh) | 基于形态学成分分析的人脸图像超分辨率重建方法 | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN117409192B (zh) | 一种基于数据增强的红外小目标检测方法及装置 | |
Zhang et al. | Dense haze removal based on dynamic collaborative inference learning for remote sensing images | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
CN114638768B (zh) | 一种基于动态关联学习网络的图像去雨方法、系统及设备 | |
Zhang et al. | MSGAN: generative adversarial networks for image seasonal style transfer | |
Lu et al. | Underwater image enhancement method based on denoising diffusion probabilistic model | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN116740362A (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
Xing et al. | Digital rock resolution enhancement and detail recovery with multi attention neural network | |
Gao | A method for face image inpainting based on generative adversarial networks | |
Wang et al. | Super-resolution reconstruction of single image for latent features | |
Fang et al. | A New Method of Image Restoration Technology Based on WGAN. | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
Niu et al. | Underwater Waste Recognition and Localization Based on Improved YOLOv5. | |
CN117036893B (zh) | 一种基于局部跨阶段和快速下采样的图像融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |