CN116109538A - 一种基于简单门单元特征提取的图像融合方法 - Google Patents
一种基于简单门单元特征提取的图像融合方法 Download PDFInfo
- Publication number
- CN116109538A CN116109538A CN202310165244.4A CN202310165244A CN116109538A CN 116109538 A CN116109538 A CN 116109538A CN 202310165244 A CN202310165244 A CN 202310165244A CN 116109538 A CN116109538 A CN 116109538A
- Authority
- CN
- China
- Prior art keywords
- image
- fusion
- gate unit
- feature extraction
- simple gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 238000003384 imaging method Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims abstract 3
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000000750 progressive effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于图像融合领域,公开了一种基于简单门单元特征提取的图像融合方法,用于解决基于深度学习的图像融合方法对不同成像模式的相机拍摄的复杂多模态图像处理的网络复杂度高与融合效果欠佳的问题,本发明包括:将多模态图像A1、A2通过简单门单元特征提取网络进行特征提取,随后进行交叉注意融合,重复N次结构渐进式融合,分别提取出多模态特征X1、X2,将X1、X2在通道上进行拼接,融合多模态图像的特征,最后重构出融合图像C,计算融合图像C与多模态图像A1、A2的损失,更新网络模型参数。本发明能够有效实现复杂多模态图像的融合,具有特征信息提取较好、参数量少、推理速度快和鲁棒性较强等特点。
Description
技术领域:
本发明涉及一种图像融合方法,具体涉及一种基于简单门单元特征提取的图像融合方法。
背景技术:
随着时代的进步,单一源图像提供的信息无法满足人类视觉的需求或者对目标的识别探测需求,因此需要不同成像模式的相机拍摄多模态图像,并通过图像融合的手段获取更丰富细节信息的融合图像。
图像融合技术通过将不同传感器或者不同位置、时间、亮度等的同一场景的两幅或者多幅图像的所有信息叠加互补,整合到单幅融合图像中,以全面地表征成像场景并促进后续的视觉任务。相对于单一的源图像而言,融合图像可以更加清晰地获得目标所在的场景信息,对图像的质量和清晰度有着明显的改善。
传统的图像融合方法相对比较成熟,其需要人工设计复杂的融合规则,具有较高图像融合的人工成本以及计算成本。对于复杂多模态图像,高度依赖人工设计的特征,很难为其设计出通用特征提取方法。近年来随着深度学习的兴起,基于深度学习的图像融合方法也是涌现,为图像融合提供新的思路。然而现阶段基于深度学习的图像融合方法,网络复杂度高,计算量大,对于复杂多模态图像,还可能存在特征提取不准确,图像融合效果差等问题。
发明内容:
本发明的目的在于克服现有技术的不足,提供一种基于简单门单元特征提取的图像融合方法,所述图像融合方法可以实现对复杂多模态图像进行融合,具有特征信息提取较好、参数量少、推理速度快的特点。
本发明解决上述技术问题的技术方案是:
一种基于简单门单元特征提取的图像融合方法,包括以下步骤:
(S1)、利用不同成像模式相机拍摄出多模态图像,记为图像A1、A2;
(S2)、将多模态图像A1、A2作为网络的输入,分别经过基于简单门单元的卷积模块提取特征得Ae1、Ae2,并且将Ae1、Ae2经交叉注意融合模块进行特征交叉融合,分别得Af1,Af2,并重复此结构N次,渐进融合,分别得多模态特征X1,X2;
(S3)、将X1和X2在通道上进行拼接,得到多模态图像的融合特征,随后经过图像重构器重构出融合图像C;
(S4)、计算神经网络输出的融合图像与输入图像之间的损失函数值,并将损失函数值的梯度做反向传播以更新网络模型的参数,直至损失函数值收敛,则停止更新网络模型参数,得到一个训练完成的神经网络。
优选的,在步骤(S1)中,所述多模态图像包括但不限于可见光图像、短波红外图像、中波红外图像、长波红外图像、偏振图像。
优选的,在步骤(S2)中,模块重复的次数N的可取范围,3≤N≤6。
优选的,在步骤(S2)中,所述基于简单门单元的卷积模块采用残差连接,包括层标准化、卷积核大小为3*3的卷积层、简单的门单元、简化通道注意力模块、卷积核大小为1*1的卷积层。
优选的,所述的简单的门单元代替了激活函数,其将输入张量在通道的维度上平均分为两块,并做元素级乘法,即让两个矩阵对应位置元素进行乘积。
优选的,在步骤(S2)中,交叉注意融合模块所述的融合结果Af1,Af2的函数表达式为:
Af1=Ae2×αT+Ae1 (1)
Af2=Ae1×α+Ae2 (2)
上式中α为交叉权重,T为转置运算。
优选的,在步骤(S2)中,交叉注意融合模块中Ae1、Ae2、分别经过层标准化、卷积核大小为1*1的卷积层得X1、X2,X1与X2 T经过点积,再经归一化指数函数得到交叉权重α。
优选的,在步骤(S2)中,图像重构器包括卷积核大小为3*3的卷积层、卷积核大小为1*1的卷积层。
优选的,在步骤(S4)中,所述神经网络的损失函数所述损失函数Loss为SSIM损失与背景内容损失相结合,损失函数的表达式如下:
LSSIM=1-kSSIM(A1,C)-(1-k)SSIM(A2,C) (3)
Loss=δLSSIM+(1-δ)Lback (5)
本发明与现有技术相比具有以下的有益效果:
1、本发明的基于简单门单元特征提取的图像融合方法在基于残差结构与简单门单元的卷积模块和残差前馈网络的特征提取网络中,采用简单的门单元替代掉传统的非线性激活函数和采用简化通道注意力模块,旨在完成原有的功能下,有效减少计算量。简单的门单元将输入张量在通道的维度上平均分为两块,并做元素级乘法,即让两个矩阵对应位置元素进行乘积,既引入了非线性,也降低计算量。通道注意力模块可以动态调控各通道的权重,从而重新校准特征来提高网络的表示能力,同时简化的操作,也降低了计算量,有利于提高融合图像的质量。
2、本发明的基于简单门单元特征提取的图像融合方法采用边提取边融合的渐进式融合方法,这样可以实现在不同的特征层、不同的尺度实现特征融合,有利于提取复杂多模态图像特征,以便提高后续融合的效果。
3、本发明的基于简单门单元特征提取的图像融合方法采用交叉注意融合模块,来执行双向交叉特征交互,旨在用一种模态增强另一种模态,并且相互增强。考虑到不同模态特征间存在一定的联系,利用点积计算求得不同模态特征间的关系向量,即交叉权重,随后计算两特征间的双向交叉注意,以相互补充和增强特征。交叉注意有利于解决特征模态不平衡问题,有效地整合了复杂多模态图像间的特征,促进网络形态交互。
附图说明:
图1为本发明的基于简单门单元特征提取的图像融合方法的流程框图。
图2为本发明的基于简单门单元特征提取的图像融合方法的特征提取中基于简单门单元的卷积模块的结构简图。
图3为本发明的基于简单门单元特征提取的图像融合方法使用简化通道注意力模块的结构图。
图4为本发明的基于简单门单元特征提取的图像融合方法的使用的交叉注意融合模块的结构简图。
具体实施方式:
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1-图4,本发明的基于简单门单元特征提取的图像融合方法包括以下步骤:
(S1)、利用不同成像模式相机拍摄出多模态图像,记为图像A1、A2;
(S2)、将多模态图像A1、A2作为网络的输入,分别经过基于简单门单元的卷积模块提取特征得Ae1、Ae2,并且将Ae1、Ae2经交叉注意融合模块进行特征交叉融合,分别得Af1,Af2,并重复此结构N次,渐进融合,分别得多模态特征X1,X2;
(S3)、将X1和X2在通道上进行拼接,得到多模态图像的融合特征,随后经过图像重构器重构出融合图像C;
(S4)、计算神经网络输出的融合图像与输入图像之间的损失函数值,并将损失函数值的梯度做反向传播以更新网络模型的参数,直至损失函数值收敛到0.3,则停止更新网络模型参数,得到一个训练完成的神经网络。
参见图2-图3,在步骤(S2)中,所述基于简单门单元的卷积模块采用残差连接,包括层标准化、卷积核大小为3*3的卷积层、简单的门单元、简化通道注意力模块、卷积核大小为1*1的卷积层。
参见图4,交叉注意融合模块所述的融合结果Af1,Af2的函数表达式为:
Af1=Ae2×αT+Ae1 (1)
Af2=Ae1×α+Ae2 (2)
上式中α为交叉权重,T为转置运算。
参见图3,交叉注意融合模块中Ae1、Ae2、分别经过层标准化、卷积核大小为1*1的卷积层得X1、X2,X1与X2 T经过点积,再经归一化指数函数得到交叉权重α。
另外,本实施例中所述神经网络的损失函数所述损失函数Loss为SSIM损失与背景内容损失相结合,损失函数的表达式如下:
LSSIM=1-kSSIM(A1,C)-(1-k)SSIM(A2,C) (3)
Loss=δLSSIM+(1-δ)Lback (5)
另外,本实施例中所述多模态图像A1为可见光图像,A2为中波或长波红外图像,图像分辨率640*512。
另外,本实施例中所述的特征提取和交叉注意融合模块的重复的次数N可取4。
上述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于简单门单元特征提取的图像融合方法,其特征在于,包括以下步骤:
(S1)、利用不同成像模式相机拍摄出多模态图像,记为图像A1、A2;
(S2)、将多模态图像A1、A2作为网络的输入,分别经过基于简单门单元的卷积模块提取特征得Ae1、Ae2,并且将Ae1、Ae2经交叉注意融合模块进行特征交叉融合,分别得Af1,Af2,并重复此结构N次,渐进融合,分别得多模态特征X1,X2;
(S3)、将X1和X2在通道上进行拼接,得到多模态图像的融合特征,随后经过图像重构器重构出融合图像C;
(S4)、计算神经网络输出的融合图像与输入图像之间的损失函数值,并将损失函数值的梯度做反向传播以更新网络模型的参数,直至损失函数值收敛,则停止更新网络模型参数,得到一个训练完成的神经网络。
2.根据权利要求1所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S1)中,所述多模态图像包括但不限于可见光图像、短波红外图像、中波红外图像、长波红外图像、偏振图像。
3.根据权利要求1所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S2)中,模块重复的次数N的可取范围,3≤N≤6。
4.根据权利要求1所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S2)中,所述基于简单门单元的卷积模块采用残差连接,包括层标准化、卷积核大小为3*3的卷积层、简单的门单元、简化通道注意力模块、卷积核大小为1*1的卷积层。
5.根据权利要求4所述基于简单门单元特征提取的图像融合方法,其特征在于,所述的简单的门单元代替了激活函数,其将输入张量在通道的维度上平均分为两块,并做元素级乘法,即让两个矩阵对应位置元素进行乘积。
6.根据权利要求1所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S2)中,交叉注意融合模块所述的融合结果Af1,Af2的函数表达式为:
Af1=Ae2×αT+Ae1 (1)
Af2=Ae1×α+Ae2 (2)
上式中α为交叉权重,T为转置运算。
7.根据权利要求6所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S2)中,交叉注意融合模块中Ae1、Ae2、分别经过层标准化、卷积核大小为1*1的卷积层得X1、X2,X1与X2 T经过点积,再经归一化指数函数得到交叉权重α。
8.根据权利要求1所述的基于简单门单元特征提取的图像融合方法,其特征在于,在步骤(S2)中,图像重构器包括卷积核大小为3*3的卷积层、卷积核大小为1*1的卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165244.4A CN116109538A (zh) | 2023-03-23 | 2023-03-23 | 一种基于简单门单元特征提取的图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310165244.4A CN116109538A (zh) | 2023-03-23 | 2023-03-23 | 一种基于简单门单元特征提取的图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116109538A true CN116109538A (zh) | 2023-05-12 |
Family
ID=86254268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310165244.4A Pending CN116109538A (zh) | 2023-03-23 | 2023-03-23 | 一种基于简单门单元特征提取的图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109538A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342455A (zh) * | 2023-05-29 | 2023-06-27 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
-
2023
- 2023-03-23 CN CN202310165244.4A patent/CN116109538A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116342455A (zh) * | 2023-05-29 | 2023-06-27 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
CN116342455B (zh) * | 2023-05-29 | 2023-08-08 | 湖南大学 | 一种多源图像高效融合方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN108876735A (zh) | 一种基于深度残差网络的真实图像盲去噪方法 | |
Li et al. | DewaterNet: A fusion adversarial real underwater image enhancement network | |
CN111582397A (zh) | 一种基于注意力机制的cnn-rnn图像情感分析方法 | |
CN111882489A (zh) | 用于水下图像同时增强的超分辨率图形恢复方法 | |
CN112712481B (zh) | 一种针对弱光图像增强的结构-纹理感知方法 | |
CN112733929A (zh) | 一种改进Yolo水下图像小目标和遮挡目标的检测方法 | |
Li et al. | Hdrnet: Single-image-based hdr reconstruction using channel attention cnn | |
CN116109538A (zh) | 一种基于简单门单元特征提取的图像融合方法 | |
CN112163998A (zh) | 一种匹配自然降质条件的单图像超分辨率分析方法 | |
Zhang et al. | Hierarchical attention aggregation with multi-resolution feature learning for GAN-based underwater image enhancement | |
CN115731597A (zh) | 一种人脸口罩掩膜图像自动分割与修复管理平台及方法 | |
CN117351542A (zh) | 一种面部表情识别方法及系统 | |
CN113810683B (zh) | 一种客观评估水下视频质量的无参考评价方法 | |
Tan et al. | Low-light image enhancement with geometrical sparse representation | |
Zhang et al. | Deep joint neural model for single image haze removal and color correction | |
CN116309215A (zh) | 一种基于双解码器的图像融合方法 | |
Wang et al. | INSPIRATION: A reinforcement learning-based human visual perception-driven image enhancement paradigm for underwater scenes | |
Tang et al. | MPCFusion: Multi-scale parallel cross fusion for infrared and visible images via convolution and vision Transformer | |
CN114820395B (zh) | 一种基于多领域信息融合的水下图像增强方法 | |
Zhang et al. | Single image dehazing via reinforcement learning | |
Kumar et al. | Underwater image enhancement using deep learning | |
CN115457015A (zh) | 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置 | |
Tao et al. | MTIE-Net: Multi-technology fusion of low-light image enhancement network | |
Parihar et al. | UndarkGAN: Low-light Image Enhancement with Cycle-consistent Adversarial Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |