CN111833282A - 一种基于改进的DDcGAN模型的图像融合方法 - Google Patents
一种基于改进的DDcGAN模型的图像融合方法 Download PDFInfo
- Publication number
- CN111833282A CN111833282A CN202010528747.XA CN202010528747A CN111833282A CN 111833282 A CN111833282 A CN 111833282A CN 202010528747 A CN202010528747 A CN 202010528747A CN 111833282 A CN111833282 A CN 111833282A
- Authority
- CN
- China
- Prior art keywords
- image
- visible light
- discriminator
- infrared
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 77
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 11
- 238000009825 accumulation Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 abstract description 6
- 230000005855 radiation Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000007499 fusion processing Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 239000000047 product Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 241000340127 Boloria sipora generator Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10052—Images from lightfield camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于改进的DDcGAN模型的图像融合方法,引入了残差图像作为生成器的输入,且增加了残差图像判别器,不断地对原始残差图像和融合图像进行判别,我们的融合过程更好的保留了红外和可见光图像有差异的部分,在融合图像中表现为:红外图像的热辐射信息得到了保留和增强,物体与背景之间的对比度高于红外图像中的原始对比度,这更有利于后续的目标检测;可见光图像中的纹理细节得到了更大程度的保留,这同样对后续的目标检测和识别精度的提高有很大益处;由于生成器的损失函数部分引入了感知损失以考虑感知相似度,可以同时提取到红外图像与可见光图像中的高级特征,这使得融合图像的自然结构不会被破坏。
Description
技术领域
本发明涉及图像融合技术领域,具体涉及一种基于改进的DDcGAN模型的图像融合方法。
背景技术
图像融合,目的是将更多自然环境中的信息呈现在同一幅图像中,尽可能地展现与物体固有真实情况相似的结果。红外与可见光图像融合的目的是,将红外传感器捕获到的红外辐射图像与可见光传感器捕获到的可见光图像相融合,生成稳健或信息丰富的图像,同时获取红外辐射信息和纹理特征信息。其中红外图像包含热辐射信息,而可见光图像包含反射光信息,两者都是物体固有的,又可互为补充,更好的表达真实的场景,大幅提高了图像的可理解度,即使在照明条件差的情况下,热目标也可以通过高对比度突出显示。因此,红外与可见光图像融合在军事和民用的视觉感知、图像处理、目标检测和识别等领域发挥着重要作用。
图像融合的关键是提取源图像中的重要信息并进行融合。为此,研究人员提出了多种特征提取策略和融合规则,如基于多尺度变换的方法、稀疏表示方法、子空间、显著性、混合方法等。这些工作虽然取得了良好的效果,但也存在一些不足之处:
1)在传统方法中,手工设计的规则使得方法越来越复杂。
2)基于深度学习的方法专注于特征的提取和保存,而没有考虑到特征在后续处理和应用中的增强。
3)由于硬件的限制,红外图像的分辨率往往较低。对可见光图像进行下采样或对红外图像进行上采样的方法会导致图像的辐射信息模糊或纹理细节丢失。
为了应对上述问题,DDcGAN(Dual Discriminators Conditional GenerativeAdversarial Network)应运而生,其是由马佳义等人于2020年正式提出的,发表于https://ieeexplore.ieee.org/document/9031751,然而,其所采用的对训练集图像随机的分块的方式很可能会破坏图像的特征,即连续的详细纹理信息和热辐射分布信息。而且,对于低分辨率的红外图像,这种方法依然会导致图像细节丢失。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于改进的DDcGAN模型的图像融合方法,该方法解决了现有技术存在的红外与可见光图像融合图像目标不够突出,纹理信息不够丰富的问题。
技术方案:本发明提出基于改进的DDcGAN模型的图像融合方法,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
(1)提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
(2)将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
(3)将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
(4)将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
(5)将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器,将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(6)将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(7)训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
进一步的,包括:
所述红外判别器、可见光判别器以及残差判别器的结构相同,均包括三个卷积层和批标准化层的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量。
进一步的,包括:
所述生成器包括编码器和解码器,所述编码器包括为5个卷积模块组成,每个卷积模块依次包括卷积层、批标准化层和线性整流单元,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器,解码器为四个卷积层、批标准化、线性整流单元这一结构的累积,将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构,最后输出融合图像。
进一步的,包括:
所述生成器的损失函数包括内容损失函数、对抗损失函数以及感知损失函数,表示为:
进一步的,包括:
所述各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i))为输入红外判别器的融合图像为真实红外图像的概率。
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
进一步的,包括:
所述原始红外图像和原始可见光图像的分辨率不同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率。
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
进一步的,包括:
所述原始可见光图像的分辨率与原始红外图像的分辨率不同具体是原始可见光图像的分辨率是红外图像的4×4倍。
有益效果:(1)本发明引入了残差图像作为生成器的输入,且增加了残差图像判别器,不断地对原始残差图像和融合图像进行判别,我们的融合过程更好的保留了红外和可见光图像有差异的部分,在融合图像中表现为:红外图像的热辐射信息得到了保留和增强,物体与背景之间的对比度高于红外图像中的原始对比度,这更有利于后续的目标检测;可见光图像中的纹理细节得到了更大程度的保留,这同样对后续的目标检测和识别精度的提高有很大益处;(2)由于生成器的损失函数部分引入了感知损失以考虑感知相似度,可以同时提取到红外图像与可见光图像中的高级特征,这使得融合图像的自然结构不会被破坏。
附图说明
图1是本方法所述的情况一时的融合方法流程图;
图2是本方法所述的生成器的结构示意图;
图3是本方法所述的判别器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于改进的DDcGAN模型的图像融合方法,包括训练阶段和测试阶段,训练阶段包括以下步骤:
步骤1、提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
步骤2、将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
步骤3、将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
步骤4、将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
步骤5、将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器。将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
步骤6、将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
步骤7、训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
本申请在利用DDcGAN进行红外与可见光图像融合的基础上,引入残差图像作为网络的输入,增加一个残差图像判别器,同时结合多个损失函数,不需要真值进行训练,就可以融合不同分辨率的红外与可见光图像。我们可以同时突出目标和保留纹理信息,增强红外图像和可见光图像的差异性部分,在融合图像中保留最有价值的信息,解决现有的红外与可见光图像融合图像目标不够突出,纹理信息不够丰富的问题,具体的,本申请将原始红外图像和原始可见光图像分辨率相同和不同进行区分,并分别介绍。
情况一:红外和可见光图像分辨率相同
a.整体流程
如图1所示,给定分辨率相同的红外图像i和可见光图像v,最终目标是学习以它们为条件的生成器G,并鼓励生成的图像G(v,i)足够实际和有用,以欺骗判别器。可见光图像和红外图像做像素差,生成二者的残差图像,将三者进行张量拼接后作为生成器的输入,张量拼接采用的是Pytorch框架中的torch.concat函数。
Dv经过训练以区分融合图像与原始可见光图像v,Di经过训练以区分融合图像与红外图像i,Dd则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡,将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断,其输出是标量,表示输入是原始数据不是生成器G生成的概率。
通过生成器G和三个判别器的对抗过程,PG和三个实际分布(即PV、PI、PD)之间的差异将同时变小,其中,PG是生成样本的概率分布,PV是可见图像的真实分布,PI是红外图像的分布,PD是残差图像的分布。当设定的损失函数小于某个值,或迭代次数达到某个值后,训练停止,取出生成器的输出即为我们需要的融合图像。
b.生成器结构
如图2所示,生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积,将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数,最后输出融合图像。编码器中执行的是特征的提取和融合过程,生成融合的特征图作为其输出。然后将特征图输入到解码器中进行重构,且其所生成的融合图像具有与可见光图像相同的分辨率。
c.判别器Dv结构
如图3所示,采用三个“卷积层—>批标准化”这一结构的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量,这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。
d.判别器Di结构
网络结构与判别器Di相同,tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是生成器生成的图像的概率。
e.判别器Dd结构
网络结构与判别器Dv、Di相同,tanh函数的输出标量代表输入此判别器的图像是真实残差图像而不是生成器生成的图像的概率。
f.损失函数
(1)生成器
①内容损失:
②对抗损失:
③感知损失:
④总损失:
其中,αβ均为设定的权重,μ为对抗损失对应的权重,λ为内容损失函数对应的权重。
(2)判别器
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i))为输入红外判别器的融合图像为真实红外图像的概率。
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
情况二:可见光图像分辨率是红外图像的4×4倍
a.整体流程
给定分辨率较小的的红外图像i和分辨率较大的可见光图像v,最终目标是学习以它们为条件的生成器G,并鼓励生成的图像G(v,i)足够实际和有用,以欺骗判别器。由于红外图像的分辨率较低,需要让其通过一个反卷积层,该层会生成具有相同分辨率的特征图,从而统一可见光与红外的分辨率。可见光图像和经过反卷积后与其同分辨率的红外图像做像素差,生成二者的残差图像,将三者进行张量拼接后作为生成器的输入。
Dv经过训练以区分融合图像与原始可见光图像v;Di经过训练以区分利用平均池化下采样后的融合图像与原始低分辨率红外图像i,下采样算符表示为ψ,由两个平均池化层实现,这两层的核尺寸为3×3,步长为2;Dd则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡,将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断。其输出是标量,表示输入是原始数据不是生成器G生成的概率。
通过生成器G和三个判别器的对抗过程,PG和三个实际分布(即PV、PI、PD)之间的差异将同时变小。其中,PG是生成样本的概率分布,PV是可见图像的真实分布,PI是红外图像的分布,PD是残差图像的分布。当设定的损失函数小于某个值,或迭代次数达到某个值后,训练停止,取出生成器的输出即为我们需要的融合图像。
b.生成器结构,与情况一相同
生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接后送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积,将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数,最后输出融合图像。编码器中执行的是特征的提取和融合过程,生成融合的特征图作为其输出。
c.判别器Dv结构,与情况一相同
采用三个“卷积层—>批标准化”这一结构的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量,这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。
d.判别器Di结构
网络结构与判别器Di相同,tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是经过下采样后的生成图像的概率。
e.判别器Dd结构,与情况一相同
网络结构与判别器Dv、Di相同,tanh函数的输出标量代表输入此判别器的图像是真实残差图像而不是生成器生成的图像的概率。
f.损失函数
(1)生成器
①内容损失:
②对抗损失:
③感知损失:
④总损失:
(2)判别器
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率。
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
针对上述两种情况进行训练,得到改进的DDcGAN模型,训练过程主要包括:
参数说明:
①G、Dv、Di、Dd的训练步数分别表示为IG、IDv、IDi;
②Imax为训练的最大步数,Imax=20;
③Lmax、Lmin、LGmax是停止训练的标志;
④Lmax、Lmin是G和D之间的对抗损失,LGmax是G的总损失;
⑤Lmax=1.3,Lmin=1.0,LGmax=0.8×LG。
初始化Dv、Di、Dd的参数θDv、θDi、θDd,初始化G的参数θG;
在每次训练迭代中:
训练判别器Dv、Di、Dd:
m张红外图像{v1,…,vm},以及对应的可见光图像{i1,…im}。
获得生成器生成的数据{G(v1,i1),…,G(vm,im)}。
当LDv>Lmax且IDv<Imax时重复步骤一,令IDv←IDv+1。
当LDi>Lmax且IDi<Imax时重复步骤二,令IDi←IDi+1。
当LDd>Lmax且IDd<Imax时重复步骤三,令IDd←IDd+1。
训练生成器G:
m张红外图像{v1,…,vm},以及对应的可见光图像{i1,…im}。
获得生成器生成的数据{G(v1,i1),…,G(vm,im)}。
通过RMSProp优化器最小化损失IG更新判别器参数θG;(步骤四)
当LG>LGmax且IG<Imax时重复步骤四,令IG←IG+1。
训练完成后的网络,即可用于同分辨率或不同分辨率的红外与可见光图像的融合。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于改进的DDcGAN模型的图像融合方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (7)
1.一种基于改进的DDcGAN模型的图像融合方法,其特征在于,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
(1)提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
(2)将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
(3)将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
(4)将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
(5)将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器,将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(6)将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(7)训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
2.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述红外判别器、可见光判别器以及残差判别器的结构相同,均包括三个卷积层和批标准化层的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量。
3.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述生成器包括编码器和解码器,所述编码器包括为5个卷积模块组成,每个卷积模块依次包括卷积层、批标准化层和线性整流单元,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器,解码器为四个卷积层、批标准化、线性整流单元这一结构的累积,将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构,最后输出融合图像。
5.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始红外图像和原始可见光图像的分辨率相同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i)为输入红外判别器的融合图像为真实红外图像的概率;
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
6.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始红外图像和原始可见光图像的分辨率不同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
红外判别器的损失函数:
其中,Di(i)为输入红外判别器的可红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率;
残差判别器的损失函数:
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
7.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始可见光图像的分辨率与原始红外图像的分辨率不同具体是原始可见光图像的分辨率是红外图像的4×4倍。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010528747.XA CN111833282B (zh) | 2020-06-11 | 2020-06-11 | 一种基于改进的DDcGAN模型的图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010528747.XA CN111833282B (zh) | 2020-06-11 | 2020-06-11 | 一种基于改进的DDcGAN模型的图像融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833282A true CN111833282A (zh) | 2020-10-27 |
CN111833282B CN111833282B (zh) | 2023-08-04 |
Family
ID=72899134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010528747.XA Active CN111833282B (zh) | 2020-06-11 | 2020-06-11 | 一种基于改进的DDcGAN模型的图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833282B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222879A (zh) * | 2021-07-08 | 2021-08-06 | 中国工程物理研究院流体物理研究所 | 一种用于红外与可见光图像融合的生成对抗网络 |
CN113393410A (zh) * | 2021-07-26 | 2021-09-14 | 浙江大华技术股份有限公司 | 一种图像融合方法、装置、电子设备及存储介质 |
CN113691747A (zh) * | 2021-07-19 | 2021-11-23 | 北京理工大学 | 无人驾驶中红外视频转换为可见光视频的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268847A (zh) * | 2014-09-23 | 2015-01-07 | 西安电子科技大学 | 一种基于交互非局部均值滤波的红外与可见光图像融合方法 |
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN108090888A (zh) * | 2018-01-04 | 2018-05-29 | 北京环境特性研究所 | 基于视觉注意模型的红外图像和可见光图像的融合检测方法 |
CN111145131A (zh) * | 2019-11-28 | 2020-05-12 | 中国矿业大学 | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 |
-
2020
- 2020-06-11 CN CN202010528747.XA patent/CN111833282B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268847A (zh) * | 2014-09-23 | 2015-01-07 | 西安电子科技大学 | 一种基于交互非局部均值滤波的红外与可见光图像融合方法 |
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN108090888A (zh) * | 2018-01-04 | 2018-05-29 | 北京环境特性研究所 | 基于视觉注意模型的红外图像和可见光图像的融合检测方法 |
CN111145131A (zh) * | 2019-11-28 | 2020-05-12 | 中国矿业大学 | 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法 |
Non-Patent Citations (1)
Title |
---|
冯鑫;张建华;胡开群;翟志芬;: "基于变分多尺度的红外与可见光图像融合", 电子学报 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222879A (zh) * | 2021-07-08 | 2021-08-06 | 中国工程物理研究院流体物理研究所 | 一种用于红外与可见光图像融合的生成对抗网络 |
CN113222879B (zh) * | 2021-07-08 | 2021-09-21 | 中国工程物理研究院流体物理研究所 | 一种用于红外与可见光图像融合的生成对抗网络 |
CN113691747A (zh) * | 2021-07-19 | 2021-11-23 | 北京理工大学 | 无人驾驶中红外视频转换为可见光视频的方法 |
CN113691747B (zh) * | 2021-07-19 | 2022-05-17 | 北京理工大学 | 无人驾驶中红外视频转换为可见光视频的方法 |
CN113393410A (zh) * | 2021-07-26 | 2021-09-14 | 浙江大华技术股份有限公司 | 一种图像融合方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111833282B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
CN111833282A (zh) | 一种基于改进的DDcGAN模型的图像融合方法 | |
CN111257341A (zh) | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN115205521B (zh) | 基于神经网络的厨余垃圾检测方法 | |
CN114882039B (zh) | 一种应用于pcb板自动分拣过程中的pcb板缺陷识别方法 | |
CN113870286A (zh) | 一种基于多级特征和掩码融合的前景分割方法 | |
Akopyan et al. | Text recognition on images from social media | |
CN117274760A (zh) | 一种基于多尺度混合变换器的红外与可见光图像融合方法 | |
CN116030018A (zh) | 用于门加工的来料合格检验系统及方法 | |
CN117409192A (zh) | 一种基于数据增强的红外小目标检测方法及装置 | |
CN110826534B (zh) | 一种基于局部主成分分析的人脸关键点检测方法及系统 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN117011274A (zh) | 自动化玻璃瓶检测系统及其方法 | |
CN110363830A (zh) | 元素图像生成方法、装置及系统 | |
CN114170422A (zh) | 一种煤矿井下图像语义分割方法 | |
CN112070181B (zh) | 一种基于图像流的协同检测方法及装置、存储介质 | |
CN113450297A (zh) | 红外图像和可见光图像的融合模型构建方法及系统 | |
CN116957921A (zh) | 图像渲染方法、装置、设备及存储介质 | |
CN111709442A (zh) | 一种面向图像分类任务的多层字典学习方法 | |
CN115565146A (zh) | 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 | |
CN114220145A (zh) | 人脸检测模型生成方法和装置、伪造人脸检测方法和装置 | |
CN117407557B (zh) | 零样本实例分割方法、系统、可读存储介质及计算机 | |
CN116152885B (zh) | 一种基于特征解耦的跨模态异质人脸识别和原型修复方法 | |
CN117312592B (zh) | 基于模态不变特征学习的文本-行人图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230809 Address after: 710072 No. 127 Youyi West Road, Shaanxi, Xi'an Patentee after: Northwestern Polytechnical University Address before: Room 9112, Shenjianyuan Community, No. 19, Changfeng West Street, Wanbailin District, Taiyuan City, Shanxi Province 030021 Patentee before: Mao Yaqi |