CN116863285A - 多尺度生成对抗网络的红外与可见光图像融合方法 - Google Patents
多尺度生成对抗网络的红外与可见光图像融合方法 Download PDFInfo
- Publication number
- CN116863285A CN116863285A CN202310836536.6A CN202310836536A CN116863285A CN 116863285 A CN116863285 A CN 116863285A CN 202310836536 A CN202310836536 A CN 202310836536A CN 116863285 A CN116863285 A CN 116863285A
- Authority
- CN
- China
- Prior art keywords
- image
- module
- generator
- fusion
- infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000011176 pooling Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 46
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本申请涉及交通流检测模技术领域,具体涉及多尺度生成对抗网络的红外与可见光图像融合方法。本方法包括基于传感器获取的源图像预处理,以及利用生成器模块对源图像多尺度池化操作及使用EncoderBlock模块特征提取,通过生成器获得具备多尺度特征的融合图像,利用双判别器模块对所述源图像和所述融合图像判别评估,以及基于更新的所述损失函数训练所述生成器模块和所述双判别器模块,更新优化训练模型。本方法能够获得边缘清晰、信息丰富的融合图像,相较于其他融合方法,在多项指标上表现良好。
Description
技术领域
本申请涉及交通流检测模技术领域,具体涉及多尺度生成对抗网络的红外与可见光图像融合方法。
背景技术
随着人工智能和深度学习的快速发展,国内外掀起了多传感器图像融合研究的新热潮,这里的多传感器指应用于同一场景但获得的图像具有各自特征的多类型多聚焦传感器。通过图像融合算法提取多传感器图像中的有用信息,融合为一幅新的图像,融合图像可以对场景有更全面更清晰的表述。其中红外与可见光图像融合利用红外图像的热辐射信息和可见光图像的细节纹理信息,获得边缘清晰、信息丰富的融合图像。基于神经网络的方法模拟人脑的感知行为来处理图像信息,具有良好的适应性、容错能力和抗噪声能力,基于卷积神经网络的图像融合方法利用神经网络强大的表征学习能力研究图像的内在规律和表示层次,提升了图像的边缘强度和平均梯度。因此,基于卷积神经网络的红外与可见光图像融合方法被广泛应用于安防领域、军事领域、智能交通领域、农业生产等领域。
红外与可见光图像融合具有实用性和可行性,目前研究人员主要从传统算法和深度学习算法两方面对其展开研究,传统算法通常依靠人工在水平方向提取特征参数、设计融合规则和重构融合图像,由于红外与可见光图像的成像机制不同,统一的特征变换可能导致融合方法不能同时适用于红外和可见光图像。与传统算法相比,深度学习算法使用多滤波器自适应的方法提取图像特征,并通过反向传播灵活调整算法参数,使得整个融合过程实现自主学习训练,并且获得的融合模型具有鲁棒性和泛化性。因此深度学习被认为是未来红外与可见光图像融合的发展方向。
为了有效提取和重建多尺度深度特征,使用编解码器结构进行图像融合,在卷积神经网络中加入密集块,将每一层的特征级联输入下一层,可以在不增加网络深度的情况下,提升特征的利用率,获得更多有用的特征。或使用U_Net作为基础网络,在编码器和解码器子网络中均采用密集跳跃连接,重用不同层和尺度的所有中间特征完成融合任务,提高模型局部特征、全局特征和深度特征表示能力,获得源图像多尺度特征和全局依赖性,但是该算法仅应用GAN限制融合图像获得更多可见光图像纹理细节,使得融合图像丢失部分红外图像信息;上述通过生成器和判别器之间的博弈,生成纹理细节丰富并且热目标显著的融合图像,但是生成器未充分提取源图像的局部特征和多尺度特征,导致融合图像存在纹理细节丢失和目标区域模糊的问题。因此,如何设计一个既能保留红外图像信息又能保留可见光图像信息的多尺度网络仍值得研究。
发明内容
有鉴于此,本申请提供了多尺度生成对抗网络的红外与可见光图像融合方法,能够获得边缘清晰、信息丰富的融合图像,相较于其他融合方法,在多项指标上表现良好。
第一方面,本申请提供多尺度生成对抗网络的红外与可见光图像融合方法,包括:基于传感器获取的源图像预处理,其中源图像包括红外图像和可见光图像;以及利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,通过生成器获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;以及利用双判别器模块对所述源图像和所述融合图像判别评估,其中,所述双判别器模块判别评估过程使用损失函数,其中,损失函数包括生成器损失函数和判别器损失函数;以及基于更新的所述损失函数训练所述生成器模块和所述双判别器模块,更新优化训练模型。
本方面利用不同尺度不同层次的网络提取图像特征,通过双判别器的目标引导函数,平衡红外图像的对比度信息和可见光图像的细节信息。
结合第一方面,在一种可能的实现方式中,所述源图像预处理包括:尺寸归一化处理,其中包括缩放、裁剪或填充方式;以及源图像坐标对齐处理,其中包括缩放比例和裁剪位置方式。
结合第一方面,在一种可能的实现方式中,所述生成器模块包括:所述生成器的多尺度池化操作将源图像分级为不同尺度子图像;以及所述生成器的Encoder Block模块对每个所述子图像特征提取,以及所述生成器将所述特征图上采样,生成融合图像。
结合第一方面,在一种可能的实现方式中,所述Encoder Block模块加入至生成器的同一下采样层中,包括:所述Encoder Block模块通过1×1卷积减少通道数;以及所述Encoder Block模块进行3×3卷积提升网络深度。
结合第一方面,在一种可能的实现方式中,所述瓶颈注意力模块通过通道和空间两条独立的路径获得注意力图,通过输入向量和权重向量的线性组合,实现特征图加权处理,计算过程如式(1)所示:
F'=(1+M(F))×F (1)
其中F为输入特征,F'为输出特征,M(F)为输入特征F经过空间注意力模块和通道注意力模块计算后获得的权重向量,获得权重向量过程如式(2)所示:
M(F)=sigmoid(Cattention+Sattention) (2)
其中Cattention为通道注意力模块,Sattention为空间注意力模块,sigmoid为激活函数,将输入值映射到0和1之间,具有概率意义;
Cattention和Sattention的具体计算过程如式(3)和(4)所示
Cattention=sigmoid(FC((Relu(FC(MaxPool(F)))))+FC((Relu(FC(AvgPool(F)))))) (3)
其中,MaxPool为最大池化,FC为全连接,Relu为激活函数,f表示先进行卷积操作,c为卷积操作。
结合第一方面,在一种可能的实现方式中,所述双判别器模块包括:所述源图像和所述融合图像分别通过两个判别器模块前向传播;以及根据所述双判别器的输出和真实标签计算判别器的损失函数;以及利用反向传播算法计算梯度并更新网络参数。
结合第一方面,在一种可能的实现方式中,所述生成器损失函数为:
Lgenerator=Ladv+Ldist+3Lssim (6)
所述判别器使用对抗性损失函数为:
用于衡量生成融合图像和输入可见光图像分布之间距离的损失函数,由式(8)可得:
Lssim损失函数作用是衡量融合图像和可见光图像的结构相似性,由式(9)可得:
其中:N表示一个迭代轮次(batch)中的样本数量,表示判别器网络对样本的输出,y表示生成器认为样本是真实数据的概率;表示生成器网络生成的融合图像输出,x表示源可见光图像
第二方面,本申请提供了一种多尺度生成对抗网络的红外与可见光图像融合系统,源图像预处理模块:配置为:源图像尺寸归一化处理和坐标对齐处理;生成器模块:配置为:基于改进的DeepSORT对所述目标检测模型检测的所述交通场景的目标做目标跟踪模型训练;双判别器模块:配置为:利用双判别器模块对所述源图像和所述融合图像判别评估。
第三方面,本申请提供了一种多尺度生成对抗网络的红外与可见光图像融合装置,所述多尺度生成对抗网络的红外与可见光图像融合装置具有红外与可见光图像融合功能,所述多尺度生成对抗网络的红外与可见光图像融合装置与权利要求8所述的一种多尺度生成对抗网络的红外与可见光图像融合系统连接。
第四方面,本申请提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时第一方面以及结合第一方面所述的方法。
与现有技术对比,本申请技术方案具备的有益效果为:
1)将双判别器生成对抗网络与多尺度网络相结合,设计生成器从纵向和横向两个角度进行多尺度特征提取。源图像通过下采样操作获得多尺度局部信息,在同分辨率的图像间利用密集连接网络实现横向多尺度卷积,提升模型的鲁棒性。
2)对同一源图像使用相同大小的卷积核进行卷积,设置其中一个输出与源图像通道数相同,可以避免源图像信息丢失。对获得的输出特征图进行合并,可以提升网络的特征提取能力。
3)在多尺度密集连接网络不同层特征图后引入瓶颈注意力机制,从空间和通道两方面提升整个输入中不同部分之间的相关性,加快网络收敛。
综上所述,本框架为多尺度双判别器生成对抗网络,生成器采用多尺度特征提取:纵向利用多尺度池化、横向利用不同数量EB代替多滤波器实现特征提取,同时,EB模块利用1×1卷积减少通道数量实现模型轻量化。加入BAM注意力机制使融合图像关注重要特征。利用损失函数约束生成图像的质量,更新模型参数。通过生成器和双判别器之间的不断对抗,直到模型收敛。通过对比实验,表明本文所提网络生成的融合图像表现良好,不仅克服了现有融合图像中红外图像或可见光图像信息缺失的问题,同时利用多尺度网络使模型的适用性更强,使得模型具有更广泛的应用。
附图说明
图1所示为本申请一实施例提供的多尺度生成对抗网络的红外与可见光图像融合方法总体结构图。
图2所示为本申请一实施例提供的多尺度生成对抗网络的红外与可见光图像融合方法生成器结构图。
图3所示为本申请一实施例提供的多尺度生成对抗网络的红外与可见光图像融合方法EB模块结构图。
图4所示为本申请一实施例提供的多尺度生成对抗网络的红外与可见光图像融合方法BAM网络结构图。
图5所示为本申请一实施例提供的多尺度生成对抗网络的红外与可见光图像融合方法双判别器结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
示例性多尺度生成对抗网络的红外与可见光图像融合方法,
如图1所示,包括:
步骤110、基于传感器获取的源图像预处理,其中源图像包括红外图像和可见光图像;
步骤120、利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;
步骤130、利用双判别器模块对所述源图像和所述融合图像判别评估,其中,所述双判别器模块判别评估过程为使用损失函数反向传播计算梯度,更新权重参数;其中,损失函数包括生成器损失函数和判别器损失函数;
步骤140基于更新的所述损失函数训练所述生成器模块和所述双判别器模块,更新优化训练模型。
在一实施例,步骤110中,所述源图像预处理包括:
步骤111、尺寸归一化处理,其中包括缩放、裁剪或填充方式;
步骤112、源图像坐标对齐处理,其中包括缩放比例和裁剪位置方式。
在本实施例中,具体包括:输入图像:接收来自不同传感器的图像作为输入。这些图像可能具有不同的尺寸和分辨率。尺寸归一化:首先,通过对输入图像进行尺寸归一化,将它们的大小调整为相同的尺寸。这可以通过缩放、裁剪或填充等操作来实现。常见的方法是将图像调整为固定的大小,例如将它们调整为相同的宽度和高度。坐标对齐:在进行尺寸归一化后,图像的坐标可能会发生变化。为了保证图像坐标的对齐,需要根据图像的缩放比例和裁剪位置来调整图像中的坐标。例如,如果进行了缩放操作,则需要将图像中的坐标按照相应的缩放比例进行调整。输出图像:处理完毕后,输出经过尺寸归一化和坐标对齐的图像。这些图像现在具有相同的尺寸,坐标也对齐,可以方便地进行后续的处理和分析。
本实施例通过使用图像预处理模块,可以有效地处理不同传感器图像尺寸不同的问题,使得输入图像具有一致的尺寸和对齐的坐标。这样可以方便地进行后续的图像处理和分析任务,例如图像融合、目标检测和图像配准等。
在一实施例,步骤120中,所述生成器模块结构如图2所示,包括:
步骤121、所述生成器的多尺度池化操作将源图像分级为不同尺度子图像;
在本步骤中,生成器首先对红外图像和可见光图像进行多尺度池化操作。多尺度池化可以将图像分解为不同尺度的子图像,每个子图像都包含不同尺度的信息。这样可以同时捕获图像的细节和全局信息。
步骤122、所述生成器的Encoder Block模块对每个所述子图像特征提取;其中,所述生成器在特征提取过程引入瓶颈注意力机制(Bottleneck Attention Mechanism,BAM);
在本步骤中,生成器使用多个滤波器对每个尺度的子图像进行特征提取。滤波器可以提取图像中的纹理、边缘和结构等特征。通过使用多个滤波器,可以捕获不同类型的特征,从而提高融合图像的质量,对空间和通道维度下的特征图加权。在特征提取的过程中,生成器引入了瓶颈注意力机制(Bottleneck Attention Mechanism,BAM)。瓶颈注意力机制能够在空间和通道维度下对特征图进行加权,以获取显著的特征。具体来说,BAM通过使用全局平均池化和全连接层来计算特征图的注意力权重。这些权重可以用来调整特征图中不同位置和通道的特征的重要性,从而提高融合图像的质量。
步骤123、所述生成器将所述特征图上采样,生成融合图像。
在本步骤中,生成器将经过特征提取和注意力机制处理的特征图进行上采样操作,将其恢复到原始图像的尺寸。这样可以生成融合图像,其中包含了红外图像和可见光图像的多尺度特征以及显著特征。
本实施例通过采用多尺度池化和Encoder Block模块方法以及瓶颈注意力机制,生成器能够有效地提取红外图像和可见光图像的特征,并生成高质量的融合图像。这种方法能够保留图像的细节和结构信息,同时提高融合图像的视觉效果。
在一实施例中,所述Encoder Block模块加入至生成器的同一下采样层中,包括:
所述Encoder Block模块通过1×1卷积减少通道数;
所述Encoder Block模块进行3×3卷积提升网络深度。
在本实施例中,在生成器同一下采样层中加入EB(Encoder Block)模块,如图3所示,该模块先通过1×1卷积减少通道数,后进行3×3卷积提升网络深度,通过先减少维度后特征提取的方式,使得网络聚焦重要特征,同时使模型更轻量化。在不同的下采样层中加入不同数量的EB模块,达到多滤波器的效果,使网络在多尺度下提取特征,同时通过加深网络深度,提取网络深度特征。
在一实施例中,如图4所示为瓶颈注意力模块结构图,所述瓶颈注意力模块通过通道和空间两条独立的路径获得注意力图,通过输入向量和权重向量的线性组合,实现特征图加权处理,计算过程如式(1)所示:
F'=(1+M(F))×F (1)
其中F为输入特征,F'为输出特征,M(F)为输入特征F经过空间注意力模块和通道注意力模块计算后获得的权重向量,获得权重向量过程如式(2)所示:
M(F)=sigmoid(Cattention+Sattention) (2)
其中Cattention为通道注意力模块,Sattention为空间注意力模块,sigmoid为激活函数,将输入值映射到0和1之间,具有概率意义;
Cattention和Sattention的具体计算过程如式(3)和(4)所示
Cattention=sigmoid(FC((Relu(FC(MaxPool(F)))))+FC((Relu(FC(AvgPool(F)))))) (3)
其中,MaxPool为最大池化,FC为全连接,Relu为激活函数,通道注意力模块关注不同通道间交互性,可以根据通道的重要程度分配合适的权重。f表示先进行卷积操作,后对输出结果进行批量归一化,再进行Relu激活函数获得非线性的输出结果,c为卷积操作,通过expand将输出扩张为与输入特征F相同的形状。
在一实施例,步骤130中,所述双判别器模块如图5所示,包括:
步骤131、所述源图像和所述融合图像分别通过两个判别器模块前向传播;
本步骤将源图像和融合图像分别通过两个判别器网络进行前向传播。判别器网络会提取输入图像的特征,并输出一个概率值,表示输入图像属于真实图像的概率。
步骤132、根据所述双判别器的输出和真实标签计算判别器的损失函数;
本步骤根据判别器网络的输出和真实标签,例如对于真实图像为1,对于生成的融合图像为0。计算判别器的损失函数。
步骤133、利用反向传播算法计算梯度并更新网络参数。
本步骤通过反向传播算法,计算判别器网络的梯度,并根据梯度更新判别器网络的参数,以提高对真实图像和生成的融合图像的区分能力。
在一实施例中,考虑到所使用生成对抗网络特点以及为了减小和原始图像的差异性,所述生成器损失函数为:
Lgenerator=Ladv+Ldist+3Lssim (6)
所述判别器使用对抗性损失函数为:
用于衡量生成融合图像和输入可见光图像分布之间距离的损失函数,由式(8)可得:
Lssim损失函数作用是衡量融合图像和可见光图像的结构相似性,由式(9)可得:
其中:N表示一个迭代轮次(batch)中的样本数量,表示判别器网络对样本的输出,y表示生成器认为样本是真实数据的概率;表示生成器网络生成的融合图像输出,x表示源可见光图像。
对上述实施例进行试验与结果分析,结论为:
本方案为双判别器生成对抗网络,生成器采用多尺度特征提取:纵向利用多尺度池化、横向利用不同数量Encoder Block代替Encoder Block模块实现特征提取,同时,Encoder Block模块利用1×1卷积减少通道数量实现模型轻量化。加入BAM注意力机制使融合图像关注重要特征。利用损失函数约束生成图像的质量,更新模型参数。通过生成器和双判别器之间的不断对抗,直到模型收敛。通过对比实验,表明本文所提网络生成的融合图像表现良好,不仅克服了现有融合图像中红外图像或可见光图像信息缺失的问题,同时利用多尺度网络使模型的适用性更强,使得模型具有更广泛的应用。
示例性一种多尺度生成对抗网络的红外与可见光图像融合系统;
包括:源图像预处理模块:配置为:源图像尺寸归一化处理和坐标对齐处理;生成器模块:配置为:利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;双判别器模块:配置为:利用双判别器模块对所述源图像和所述融合图像判别评估。
示例性一种多尺度生成对抗网络的红外与可见光图像融合装置,所述多尺度生成对抗网络的红外与可见光图像融合装置具有红外与可见光图像融合功能,所述多尺度生成对抗网络的红外与可见光图像融合装置与一种多尺度生成对抗网络的红外与可见光图像融合系统电连接。
示例性一种计算机可读介质;
其上存储有计算机程序,该程序被处理器执行时实现下述方法:
多尺度生成对抗网络的红外与可见光图像融合方法,包括:基于传感器获取的源图像预处理,其中源图像包括红外图像和可见光图像;以及利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;以及利用双判别器模块对所述源图像和所述融合图像判别评估,其中,所述双判别器模块判别评估过程生成损失函数,其中,损失函数包括生成器损失函数和判别器使用对抗性损失函数;基于更新的所述损失函数训练所述生成器模块和所述双判别器模块,更新优化训练模型。
所述源图像预处理包括:尺寸归一化处理,其中包括缩放、裁剪或填充方式;以及源图像坐标对齐处理,其中包括缩放比例和裁剪位置方式。
所述生成器模块包括:所述生成器的多尺度池化操作将源图像分级为不同尺度子图像;以及所述生成器的Encoder Block模块对每个所述子图像特征提取,以及所述生成器将所述特征图上采样,生成融合图像。
所述Encoder Block模块加入至生成器的同一下采样层中,包括:所述EncoderBlock模块通过1×1卷积减少通道数;以及所述Encoder Block模块进行3×3卷积提升网络深度。
所述瓶颈注意力模块通过通道和空间两条独立的路径获得注意力图,通过输入向量和权重向量的线性组合,实现特征图加权处理,计算过程如式(1)所示:
F'=(1+M(F))×F (1)
其中F为输入特征,F'为输出特征,M(F)为输入特征F经过空间注意力模块和通道注意力模块计算后获得的权重向量,获得权重向量过程如式(2)所示:
M(F)=sigmoid(Cattention+Sattention) (2)
其中Cattention为通道注意力模块,Sattention为空间注意力模块,sigmoid为激活函数,将输入值映射到0和1之间,具有概率意义;
Cattention和Sattention的具体计算过程如式(3)和(4)所示
Cattention=sigmoid(FC((Relu(FC(MaxPool(F)))))+FC((Relu(FC(AvgPool(F)))))) (3)
其中,MaxPool为最大池化,FC为全连接,Relu为激活函数,f表示先进行卷积操作,c为卷积操作。
所述双判别器模块包括:所述源图像和所述融合图像分别通过两个判别器模块前向传播;以及根据所述双判别器的输出和真实标签计算判别器的损失函数;以及利用反向传播算法计算梯度并更新网络参数。
所述生成器损失函数为:
Lgenerator=Ladv+Ldist+3Lssim (6)
所述判别器使用对抗性损失函数为:
用于衡量生成融合图像和输入可见光图像分布之间距离的损失函数,由式(8)可得:
Lssim损失函数作用是衡量融合图像和可见光图像的结构相似性,由式(9)可得:
其中:N表示一个迭代轮次(batch)中的样本数量,表示判别器网络对样本的输出,y表示生成器认为样本是真实数据的概率;表示生成器网络生成的融合图像输出,x表示源可见光图像。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此发明的原理和新颖的特征一致的最宽范围。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请的保护范围之内。
Claims (10)
1.多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,包括:
基于传感器获取的源图像预处理,其中源图像包括红外图像和可见光图像;以及
利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,通过生成器获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;以及
利用双判别器模块对所述源图像和所述融合图像判别评估,其中,所述双判别器模块判别评估过程为使用损失函数反向传播计算梯度,更新权重参数;其中,损失函数包括生成器损失函数和判别器损失函数;以及
基于更新的所述损失函数训练所述生成器模块和所述双判别器模块,更新优化训练模型。
2.根据权利要求1所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述源图像预处理包括:
尺寸归一化处理,其中包括缩放、裁剪或填充方式;以及
源图像坐标对齐处理,其中包括缩放比例和裁剪位置方式。
3.根据权利要求1所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述生成器模块包括:
所述生成器的多尺度池化操作将源图像分级为不同尺度子图像;
以及所述生成器的Encoder Block模块对每个所述子图像特征提取,以及
所述生成器将所述特征图上采样,生成融合图像。
4.根据权利要求3所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述Encoder Block模块加入至生成器的同一下采样层中,包括:
所述Encoder Block模块通过1×1卷积减少通道数;以及
所述Encoder Block模块进行3×3卷积提升网络深度。
5.根据权利要求4所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述瓶颈注意力模块通过通道和空间两条独立的路径获得注意力图,通过输入向量和权重向量的线性组合,实现特征图加权处理,计算过程如式(1)所示:
F′=(1+M(F))×F (1)
其中F为输入特征,F′为输出特征,M(F)为输入特征F经过空间注意力模块和通道注意力模块计算后获得的权重向量,获得权重向量过程如式(2)所示:
M(F)=sigmoid(Cattention+Sattention) (2)
其中Cattention为通道注意力模块,Sattention为空间注意力模块,sigmoid为激活函数,将输入值映射到0和1之间,具有概率意义;
Cattention和Sattention的具体计算过程如式(3)和(4)所示
Cattention=sigmoid(FC((Relu(FC(MaxPool(F)))))+FC((Relu(FC(AvgPool(F))))))(3)
其中,MaxPool为最大池化,FC为全连接,Relu为激活函数,f表示先进行卷积操作,后对输出结果进行批量归一化,再进行Relu激活函数获得非线性的输出结果,c为卷积操作。
6.根据权利要求1所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述双判别器模块包括:
所述源图像和所述融合图像分别通过两个判别器模块前向传播;以及
根据所述双判别器的输出和真实标签计算判别器的损失函数;以及
利用反向传播算法计算梯度并更新网络参数。
7.根据根据权利要求6所述的多尺度生成对抗网络的红外与可见光图像融合方法,其特征在于,所述生成器损失函数为:
Lgenerator=Ladv+Ldist+3Lssim
(6)
所述判别器使用对抗性损失函数为:
用于衡量生成融合图像和输入可见光图像分布之间距离的损失函数,由式(8)可得:
Lssim损失函数作用是衡量融合图像和可见光图像的结构相似性,由式(9)可得:
其中:N表示一个迭代轮次(batch)中的样本数量,表示判别器网络对样本的输出,表示判别器网络对样本的输出;y表示生成器认为样本是真实数据的概率;g表示生成器网络生成的融合图像输出,x表示源可见光图像。
8.一种多尺度生成对抗网络的红外与可见光图像融合系统,其特征在于,包括:
源图像预处理模块:配置为:源图像尺寸归一化处理和坐标对齐处理;
生成器模块:配置为:利用生成器模块对源图像多尺度池化操作及使用Encoder Block模块特征提取,通过生成器获得具备多尺度特征的融合图像,其中所述Encoder Block模块特征提取引入瓶颈注意力机制;
双判别器模块:配置为:利用双判别器模块对所述源图像和所述融合图像判别评估。
9.一种多尺度生成对抗网络的红外与可见光图像融合装置,其特征在于,
所述多尺度生成对抗网络的红外与可见光图像融合装置具有红外与可见光图像融合功能,所述多尺度生成对抗网络的红外与可见光图像融合装置与权利要求8所述的一种多尺度生成对抗网络的红外与可见光图像融合系统连接。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836536.6A CN116863285A (zh) | 2023-07-10 | 2023-07-10 | 多尺度生成对抗网络的红外与可见光图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310836536.6A CN116863285A (zh) | 2023-07-10 | 2023-07-10 | 多尺度生成对抗网络的红外与可见光图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863285A true CN116863285A (zh) | 2023-10-10 |
Family
ID=88235406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310836536.6A Pending CN116863285A (zh) | 2023-07-10 | 2023-07-10 | 多尺度生成对抗网络的红外与可见光图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863285A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726958A (zh) * | 2024-02-07 | 2024-03-19 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
-
2023
- 2023-07-10 CN CN202310836536.6A patent/CN116863285A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726958A (zh) * | 2024-02-07 | 2024-03-19 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
CN117726958B (zh) * | 2024-02-07 | 2024-05-10 | 国网湖北省电力有限公司 | 配电线路无人机巡检图像目标检测及隐患智能识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
CN112183788B (zh) | 一种域自适应设备运检系统和方法 | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN111062880A (zh) | 一种基于条件生成对抗网络的水下图像实时增强方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN114897728A (zh) | 图像增强方法、装置、终端设备以及存储介质 | |
CN116863285A (zh) | 多尺度生成对抗网络的红外与可见光图像融合方法 | |
CN112329764A (zh) | 一种基于tv-l1模型的红外弱小目标检测方法 | |
Almasri et al. | Rgb guided thermal super-resolution enhancement | |
CN114494594A (zh) | 基于深度学习的航天员操作设备状态识别方法 | |
CN116912675B (zh) | 一种基于特征迁移的水下目标检测方法及系统 | |
CN113034371A (zh) | 一种基于特征嵌入的红外与可见光图像融合方法 | |
Weligampola et al. | A retinex based gan pipeline to utilize paired and unpaired datasets for enhancing low light images | |
CN113971760B (zh) | 基于深度学习的高质量准稠密互补特征提取方法 | |
Zhou et al. | Dim and small target detection based on their living environment | |
CN116958800A (zh) | 基于层次注意力残差UNet++的遥感影像变化检测方法 | |
Chen et al. | Learning Transformations between Heterogeneous SAR and Optical Images for Change Detection | |
Liu et al. | Indirect domain shift for single image dehazing | |
Tahraoui et al. | Land change detection in sentinel-2 images using ir-mad and deep neural network | |
Patil et al. | Detection of abnormal activity to alert the nearby persons via M-DNN based surveillance system | |
CN116465827B (zh) | 视点路径规划方法、装置、电子设备及存储介质 | |
Chen et al. | An image denoising method of picking robot vision based on feature pyramid network | |
CN117474821A (zh) | 遥感数据实时增强方法 | |
Mudassar et al. | FocalNet-Foveal Attention for Post-processing DNN Outputs | |
CN117576483B (zh) | 基于多尺度卷积自编码器的多源数据融合地物分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |