CN111833282A - 一种基于改进的DDcGAN模型的图像融合方法 - Google Patents

一种基于改进的DDcGAN模型的图像融合方法 Download PDF

Info

Publication number
CN111833282A
CN111833282A CN202010528747.XA CN202010528747A CN111833282A CN 111833282 A CN111833282 A CN 111833282A CN 202010528747 A CN202010528747 A CN 202010528747A CN 111833282 A CN111833282 A CN 111833282A
Authority
CN
China
Prior art keywords
image
visible light
discriminator
infrared
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010528747.XA
Other languages
English (en)
Other versions
CN111833282B (zh
Inventor
毛雅淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010528747.XA priority Critical patent/CN111833282B/zh
Publication of CN111833282A publication Critical patent/CN111833282A/zh
Application granted granted Critical
Publication of CN111833282B publication Critical patent/CN111833282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10052Images from lightfield camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于改进的DDcGAN模型的图像融合方法,引入了残差图像作为生成器的输入,且增加了残差图像判别器,不断地对原始残差图像和融合图像进行判别,我们的融合过程更好的保留了红外和可见光图像有差异的部分,在融合图像中表现为:红外图像的热辐射信息得到了保留和增强,物体与背景之间的对比度高于红外图像中的原始对比度,这更有利于后续的目标检测;可见光图像中的纹理细节得到了更大程度的保留,这同样对后续的目标检测和识别精度的提高有很大益处;由于生成器的损失函数部分引入了感知损失以考虑感知相似度,可以同时提取到红外图像与可见光图像中的高级特征,这使得融合图像的自然结构不会被破坏。

Description

一种基于改进的DDcGAN模型的图像融合方法
技术领域
本发明涉及图像融合技术领域,具体涉及一种基于改进的DDcGAN模型的图像融合方法。
背景技术
图像融合,目的是将更多自然环境中的信息呈现在同一幅图像中,尽可能地展现与物体固有真实情况相似的结果。红外与可见光图像融合的目的是,将红外传感器捕获到的红外辐射图像与可见光传感器捕获到的可见光图像相融合,生成稳健或信息丰富的图像,同时获取红外辐射信息和纹理特征信息。其中红外图像包含热辐射信息,而可见光图像包含反射光信息,两者都是物体固有的,又可互为补充,更好的表达真实的场景,大幅提高了图像的可理解度,即使在照明条件差的情况下,热目标也可以通过高对比度突出显示。因此,红外与可见光图像融合在军事和民用的视觉感知、图像处理、目标检测和识别等领域发挥着重要作用。
图像融合的关键是提取源图像中的重要信息并进行融合。为此,研究人员提出了多种特征提取策略和融合规则,如基于多尺度变换的方法、稀疏表示方法、子空间、显著性、混合方法等。这些工作虽然取得了良好的效果,但也存在一些不足之处:
1)在传统方法中,手工设计的规则使得方法越来越复杂。
2)基于深度学习的方法专注于特征的提取和保存,而没有考虑到特征在后续处理和应用中的增强。
3)由于硬件的限制,红外图像的分辨率往往较低。对可见光图像进行下采样或对红外图像进行上采样的方法会导致图像的辐射信息模糊或纹理细节丢失。
为了应对上述问题,DDcGAN(Dual Discriminators Conditional GenerativeAdversarial Network)应运而生,其是由马佳义等人于2020年正式提出的,发表于https://ieeexplore.ieee.org/document/9031751,然而,其所采用的对训练集图像随机的分块的方式很可能会破坏图像的特征,即连续的详细纹理信息和热辐射分布信息。而且,对于低分辨率的红外图像,这种方法依然会导致图像细节丢失。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于改进的DDcGAN模型的图像融合方法,该方法解决了现有技术存在的红外与可见光图像融合图像目标不够突出,纹理信息不够丰富的问题。
技术方案:本发明提出基于改进的DDcGAN模型的图像融合方法,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
(1)提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
(2)将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
(3)将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
(4)将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
(5)将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器,将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(6)将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(7)训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
进一步的,包括:
所述红外判别器、可见光判别器以及残差判别器的结构相同,均包括三个卷积层和批标准化层的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量。
进一步的,包括:
所述生成器包括编码器和解码器,所述编码器包括为5个卷积模块组成,每个卷积模块依次包括卷积层、批标准化层和线性整流单元,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器,解码器为四个卷积层、批标准化、线性整流单元这一结构的累积,将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构,最后输出融合图像。
进一步的,包括:
所述生成器的损失函数包括内容损失函数、对抗损失函数以及感知损失函数,表示为:
Figure BDA0002534609940000031
其中,
Figure BDA0002534609940000032
为对抗损失函数,Lcon为内容损失函数,LVGG为感知损失函数,μ为对抗损失对应的权重,λ为内容损失函数对应的权重。
进一步的,包括:
所述各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
Figure BDA0002534609940000033
其中,E[]为对括号中内容求期望值,
Figure BDA0002534609940000039
代表可见光图像的梯度,
Figure BDA0002534609940000034
代表融合图像的梯度,
Figure BDA0002534609940000035
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure BDA0002534609940000036
为输入可见光判别器的融合图像为真实可见光图像的概率。
红外判别器的损失函数:
Figure BDA0002534609940000037
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i))为输入红外判别器的融合图像为真实红外图像的概率。
残差判别器的损失函数:
Figure BDA0002534609940000038
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
进一步的,包括:
所述原始红外图像和原始可见光图像的分辨率不同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
Figure BDA0002534609940000041
其中,E[]为对括号中内容求期望值,
Figure BDA0002534609940000042
代表可见光图像的梯度,
Figure BDA0002534609940000043
代表融合图像的梯度,
Figure BDA0002534609940000044
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure BDA0002534609940000045
为输入可见光判别器的融合图像为真实可见光图像的概率。
红外判别器的损失函数:
Figure BDA0002534609940000046
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率。
残差判别器的损失函数:
Figure BDA0002534609940000047
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
进一步的,包括:
所述原始可见光图像的分辨率与原始红外图像的分辨率不同具体是原始可见光图像的分辨率是红外图像的4×4倍。
有益效果:(1)本发明引入了残差图像作为生成器的输入,且增加了残差图像判别器,不断地对原始残差图像和融合图像进行判别,我们的融合过程更好的保留了红外和可见光图像有差异的部分,在融合图像中表现为:红外图像的热辐射信息得到了保留和增强,物体与背景之间的对比度高于红外图像中的原始对比度,这更有利于后续的目标检测;可见光图像中的纹理细节得到了更大程度的保留,这同样对后续的目标检测和识别精度的提高有很大益处;(2)由于生成器的损失函数部分引入了感知损失以考虑感知相似度,可以同时提取到红外图像与可见光图像中的高级特征,这使得融合图像的自然结构不会被破坏。
附图说明
图1是本方法所述的情况一时的融合方法流程图;
图2是本方法所述的生成器的结构示意图;
图3是本方法所述的判别器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于改进的DDcGAN模型的图像融合方法,包括训练阶段和测试阶段,训练阶段包括以下步骤:
步骤1、提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
步骤2、将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
步骤3、将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
步骤4、将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
步骤5、将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器。将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
步骤6、将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
步骤7、训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
本申请在利用DDcGAN进行红外与可见光图像融合的基础上,引入残差图像作为网络的输入,增加一个残差图像判别器,同时结合多个损失函数,不需要真值进行训练,就可以融合不同分辨率的红外与可见光图像。我们可以同时突出目标和保留纹理信息,增强红外图像和可见光图像的差异性部分,在融合图像中保留最有价值的信息,解决现有的红外与可见光图像融合图像目标不够突出,纹理信息不够丰富的问题,具体的,本申请将原始红外图像和原始可见光图像分辨率相同和不同进行区分,并分别介绍。
情况一:红外和可见光图像分辨率相同
a.整体流程
如图1所示,给定分辨率相同的红外图像i和可见光图像v,最终目标是学习以它们为条件的生成器G,并鼓励生成的图像G(v,i)足够实际和有用,以欺骗判别器。可见光图像和红外图像做像素差,生成二者的残差图像,将三者进行张量拼接后作为生成器的输入,张量拼接采用的是Pytorch框架中的torch.concat函数。
Dv经过训练以区分融合图像与原始可见光图像v,Di经过训练以区分融合图像与红外图像i,Dd则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡,将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断,其输出是标量,表示输入是原始数据不是生成器G生成的概率。
通过生成器G和三个判别器的对抗过程,PG和三个实际分布(即PV、PI、PD)之间的差异将同时变小,其中,PG是生成样本的概率分布,PV是可见图像的真实分布,PI是红外图像的分布,PD是残差图像的分布。当设定的损失函数小于某个值,或迭代次数达到某个值后,训练停止,取出生成器的输出即为我们需要的融合图像。
b.生成器结构
如图2所示,生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积,将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数,最后输出融合图像。编码器中执行的是特征的提取和融合过程,生成融合的特征图作为其输出。然后将特征图输入到解码器中进行重构,且其所生成的融合图像具有与可见光图像相同的分辨率。
c.判别器Dv结构
如图3所示,采用三个“卷积层—>批标准化”这一结构的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量,这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。
d.判别器Di结构
网络结构与判别器Di相同,tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是生成器生成的图像的概率。
e.判别器Dd结构
网络结构与判别器Dv、Di相同,tanh函数的输出标量代表输入此判别器的图像是真实残差图像而不是生成器生成的图像的概率。
f.损失函数
(1)生成器
①内容损失:
Figure BDA0002534609940000071
②对抗损失:
Figure BDA0002534609940000072
③感知损失:
Figure BDA0002534609940000073
④总损失:
Figure BDA0002534609940000074
其中,αβ均为设定的权重,μ为对抗损失对应的权重,λ为内容损失函数对应的权重。
(2)判别器
可见光判别器的损失函数:
Figure BDA0002534609940000081
其中,E[]为对括号中内容求期望值,
Figure BDA0002534609940000082
代表可见光图像的梯度,
Figure BDA0002534609940000083
代表融合图像的梯度,
Figure BDA0002534609940000084
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure BDA0002534609940000085
为输入可见光判别器的融合图像为真实可见光图像的概率。
红外判别器的损失函数:
Figure BDA0002534609940000086
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i))为输入红外判别器的融合图像为真实红外图像的概率。
残差判别器的损失函数:
Figure BDA0002534609940000087
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
情况二:可见光图像分辨率是红外图像的4×4倍
a.整体流程
给定分辨率较小的的红外图像i和分辨率较大的可见光图像v,最终目标是学习以它们为条件的生成器G,并鼓励生成的图像G(v,i)足够实际和有用,以欺骗判别器。由于红外图像的分辨率较低,需要让其通过一个反卷积层,该层会生成具有相同分辨率的特征图,从而统一可见光与红外的分辨率。可见光图像和经过反卷积后与其同分辨率的红外图像做像素差,生成二者的残差图像,将三者进行张量拼接后作为生成器的输入。
Dv经过训练以区分融合图像与原始可见光图像v;Di经过训练以区分利用平均池化下采样后的融合图像与原始低分辨率红外图像i,下采样算符表示为ψ,由两个平均池化层实现,这两层的核尺寸为3×3,步长为2;Dd则经过训练以区分融合图像与原始残差图像d。为了在生成器和判别器之间保持平衡,将每个判别器的输入层设置为包含样本数据的单通道。交替对输入它的生成图像或原图像进行判断。其输出是标量,表示输入是原始数据不是生成器G生成的概率。
通过生成器G和三个判别器的对抗过程,PG和三个实际分布(即PV、PI、PD)之间的差异将同时变小。其中,PG是生成样本的概率分布,PV是可见图像的真实分布,PI是红外图像的分布,PD是残差图像的分布。当设定的损失函数小于某个值,或迭代次数达到某个值后,训练停止,取出生成器的输出即为我们需要的融合图像。
b.生成器结构,与情况一相同
生成器采用编解码器结构。将残差图像、红外图像、可见光图像进行张量拼接后送入编码器。编码器为五个“卷积层—>批标准化—>线性整流单元”这一结构的累积,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器。解码器为四个“卷积层—>批标准化—>线性整流单元”这一结构的累积,将最后一个线性整流函数的输出送入卷积层—>批标准化—>tanh函数,最后输出融合图像。编码器中执行的是特征的提取和融合过程,生成融合的特征图作为其输出。
c.判别器Dv结构,与情况一相同
采用三个“卷积层—>批标准化”这一结构的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量,这个标量代表输入此判别器的图像是真实可见光图像而不是生成器生成的图像的概率。
d.判别器Di结构
网络结构与判别器Di相同,tanh函数的输出标量代表输入此判别器的图像是真实红外图像而不是经过下采样后的生成图像的概率。
e.判别器Dd结构,与情况一相同
网络结构与判别器Dv、Di相同,tanh函数的输出标量代表输入此判别器的图像是真实残差图像而不是生成器生成的图像的概率。
f.损失函数
(1)生成器
①内容损失:
Figure BDA0002534609940000091
②对抗损失:
Figure BDA0002534609940000092
③感知损失:
Figure BDA0002534609940000093
Figure BDA0002534609940000101
④总损失:
Figure BDA0002534609940000102
(2)判别器
可见光判别器的损失函数:
Figure BDA0002534609940000103
其中,E[]为对括号中内容求期望值,
Figure BDA0002534609940000104
代表可见光图像的梯度,
Figure BDA0002534609940000105
代表融合图像的梯度,
Figure BDA0002534609940000106
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure BDA0002534609940000107
为输入可见光判别器的融合图像为真实可见光图像的概率。
红外判别器的损失函数:
Figure BDA0002534609940000108
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率。
残差判别器的损失函数:
Figure BDA0002534609940000109
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
针对上述两种情况进行训练,得到改进的DDcGAN模型,训练过程主要包括:
参数说明:
①G、Dv、Di、Dd的训练步数分别表示为IG、IDv、IDi
②Imax为训练的最大步数,Imax=20;
③Lmax、Lmin、LGmax是停止训练的标志;
④Lmax、Lmin是G和D之间的对抗损失,LGmax是G的总损失;
⑤Lmax=1.3,Lmin=1.0,LGmax=0.8×LG
初始化Dv、Di、Dd的参数θDv、θDi、θDd,初始化G的参数θG
在每次训练迭代中:
训练判别器Dv、Di、Dd
m张红外图像{v1,…,vm},以及对应的可见光图像{i1,…im}。
获得生成器生成的数据{G(v1,i1),…,G(vm,im)}。
通过SGD优化器最小化损失LDv更新判别器参数
Figure BDA0002534609940000111
(步骤一)
通过SGD优化器最小化损失LDi更新判别器参数
Figure BDA0002534609940000112
(步骤二)
通过SGD优化器最小化损失LDd更新判别器参数
Figure BDA0002534609940000113
(步骤三)
当LDv>Lmax且IDv<Imax时重复步骤一,令IDv←IDv+1。
当LDi>Lmax且IDi<Imax时重复步骤二,令IDi←IDi+1。
当LDd>Lmax且IDd<Imax时重复步骤三,令IDd←IDd+1。
训练生成器G:
m张红外图像{v1,…,vm},以及对应的可见光图像{i1,…im}。
获得生成器生成的数据{G(v1,i1),…,G(vm,im)}。
通过RMSProp优化器最小化损失IG更新判别器参数θG;(步骤四)
当LDv<Lmin或LDv<Lmin或LDd<Lmin,且IG<Imax时通过RMSProp优化器最小化损失
Figure BDA0002534609940000114
更新生成器参数θG,令IG←IG+1。
当LG>LGmax且IG<Imax时重复步骤四,令IG←IG+1。
训练完成后的网络,即可用于同分辨率或不同分辨率的红外与可见光图像的融合。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于改进的DDcGAN模型的图像融合方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (7)

1.一种基于改进的DDcGAN模型的图像融合方法,其特征在于,包括训练阶段和测试阶段,所述训练阶段包括以下步骤:
(1)提取训练数据集中各个待处理图片对应的原始红外图像和原始可见光图像,判断所述原始红外图像和原始可见光图像的分辨率是否相同,若相同,则直接进入步骤3,否则,进入步骤2;
(2)将所述原始红外图像经过一层反卷积层处理,得到使其与可见光图像分辨率相同的红外图像,将处理后的红外图像和可见光图像做像素差,得到对应数据的残差图像后,转到步骤4;
(3)将原始红外图像和可见光图像做像素差,得到对应数据的残差图像,转到步骤4后;
(4)将原始红外图像、原始可见光图像以及残差图像进行张量拼接,并将输出输入到生成器中得到融合图像;若待处理图片对应的红外图像和可见光图像的分辨率相同,则转到步骤6,否则,转到步骤5;
(5)将步骤4得到的融合图像利用平均池化层进行下采样操作,得到采样后的融合图像,与原始红外图像轮流输入至红外判别器,将未经过下采样的融合图像与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(6)将步骤4得到的融合图像与原始红外图像轮流输入至红外判别器、与原始可见光图像轮流输入至可见光判别器,与残差图像轮流输入至残差判别器;
(7)训练过程使生成器的损失函数、各个判别器的损失函数尽量小,迭代步骤1-6直至训练到设置的迭代次数,从而得到训练好的改进的DDcGAN网络模型;
测试阶段将测试集中的原始红外图像和原始可见光图像输入到改进的DDcGAN网络模型中,得到各个测试数据的融合图像。
2.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述红外判别器、可见光判别器以及残差判别器的结构相同,均包括三个卷积层和批标准化层的累积,最后一个批标准化层的输出作为全连接层的输入,全连接层的输出经过一个tanh激活函数,最终输出一个标量。
3.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述生成器包括编码器和解码器,所述编码器包括为5个卷积模块组成,每个卷积模块依次包括卷积层、批标准化层和线性整流单元,其中,每一个卷积层的输入,都是前面所有线性整流函数的输出的通道连接,最后,将五个线性整流单元的输出进行连接送入解码器,解码器为四个卷积层、批标准化、线性整流单元这一结构的累积,将最后一个线性整流函数的输出送入卷积层、批标准化和tanh函数这一结构,最后输出融合图像。
4.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述生成器的损失函数包括内容损失函数、对抗损失函数以及感知损失函数,表示为;
Figure FDA0002534609930000021
其中,
Figure FDA0002534609930000022
为对抗损失函数,Lcon为内容损失函数,LVGG为感知损失函数,μ为对抗损失对应的权重,λ为内容损失函数对应的权重。
5.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始红外图像和原始可见光图像的分辨率相同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
Figure FDA0002534609930000023
其中,E[]为对括号中内容求期望值,
Figure FDA0002534609930000024
代表可见光图像的梯度,
Figure FDA0002534609930000025
代表融合图像的梯度,
Figure FDA0002534609930000026
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure FDA0002534609930000027
为输入可见光判别器的融合图像为真实可见光图像的概率;
红外判别器的损失函数:
Figure FDA0002534609930000028
其中,Di(i)为输入红外判别器的红外图像为真实红外图像的概率,Di(G(v,i)为输入红外判别器的融合图像为真实红外图像的概率;
残差判别器的损失函数:
Figure FDA0002534609930000029
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
6.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始红外图像和原始可见光图像的分辨率不同时,各个判别器的损失函数分别表示为:
可见光判别器的损失函数:
Figure FDA0002534609930000031
其中,E[]为对括号中内容求期望值,
Figure FDA0002534609930000032
代表可见光图像的梯度,
Figure FDA0002534609930000033
代表融合图像的梯度,
Figure FDA0002534609930000034
为输入可见光判别器的可见光图像为真实可见光图像的概率,
Figure FDA0002534609930000035
为输入可见光判别器的融合图像为真实可见光图像的概率;
红外判别器的损失函数:
Figure FDA0002534609930000036
其中,Di(i)为输入红外判别器的可红外图像为真实红外图像的概率,Di(ψG(v,i))为输入红外判别器的下采样后的融合图像为真实红外图像的概率;
残差判别器的损失函数:
Figure FDA0002534609930000037
其中,Dd(d)为输入残差判别器的残差图像为真实残差图像的概率,Dd(G(v,i))为输入残差判别器的融合图像为真实残差图像的概率。
7.根据权利要求1所述的基于改进的DDcGAN模型的图像融合方法,其特征在于,所述原始可见光图像的分辨率与原始红外图像的分辨率不同具体是原始可见光图像的分辨率是红外图像的4×4倍。
CN202010528747.XA 2020-06-11 2020-06-11 一种基于改进的DDcGAN模型的图像融合方法 Active CN111833282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010528747.XA CN111833282B (zh) 2020-06-11 2020-06-11 一种基于改进的DDcGAN模型的图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010528747.XA CN111833282B (zh) 2020-06-11 2020-06-11 一种基于改进的DDcGAN模型的图像融合方法

Publications (2)

Publication Number Publication Date
CN111833282A true CN111833282A (zh) 2020-10-27
CN111833282B CN111833282B (zh) 2023-08-04

Family

ID=72899134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010528747.XA Active CN111833282B (zh) 2020-06-11 2020-06-11 一种基于改进的DDcGAN模型的图像融合方法

Country Status (1)

Country Link
CN (1) CN111833282B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222879A (zh) * 2021-07-08 2021-08-06 中国工程物理研究院流体物理研究所 一种用于红外与可见光图像融合的生成对抗网络
CN113393410A (zh) * 2021-07-26 2021-09-14 浙江大华技术股份有限公司 一种图像融合方法、装置、电子设备及存储介质
CN113691747A (zh) * 2021-07-19 2021-11-23 北京理工大学 无人驾驶中红外视频转换为可见光视频的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268847A (zh) * 2014-09-23 2015-01-07 西安电子科技大学 一种基于交互非局部均值滤波的红外与可见光图像融合方法
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
CN108090888A (zh) * 2018-01-04 2018-05-29 北京环境特性研究所 基于视觉注意模型的红外图像和可见光图像的融合检测方法
CN111145131A (zh) * 2019-11-28 2020-05-12 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268847A (zh) * 2014-09-23 2015-01-07 西安电子科技大学 一种基于交互非局部均值滤波的红外与可见光图像融合方法
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
CN108090888A (zh) * 2018-01-04 2018-05-29 北京环境特性研究所 基于视觉注意模型的红外图像和可见光图像的融合检测方法
CN111145131A (zh) * 2019-11-28 2020-05-12 中国矿业大学 一种基于多尺度生成式对抗网络的红外和可见光图像融合方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯鑫;张建华;胡开群;翟志芬;: "基于变分多尺度的红外与可见光图像融合", 电子学报 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222879A (zh) * 2021-07-08 2021-08-06 中国工程物理研究院流体物理研究所 一种用于红外与可见光图像融合的生成对抗网络
CN113222879B (zh) * 2021-07-08 2021-09-21 中国工程物理研究院流体物理研究所 一种用于红外与可见光图像融合的生成对抗网络
CN113691747A (zh) * 2021-07-19 2021-11-23 北京理工大学 无人驾驶中红外视频转换为可见光视频的方法
CN113691747B (zh) * 2021-07-19 2022-05-17 北京理工大学 无人驾驶中红外视频转换为可见光视频的方法
CN113393410A (zh) * 2021-07-26 2021-09-14 浙江大华技术股份有限公司 一种图像融合方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111833282B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
JP7193252B2 (ja) 画像の領域のキャプション付加
CN111833282A (zh) 一种基于改进的DDcGAN模型的图像融合方法
CN111257341A (zh) 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN115205521B (zh) 基于神经网络的厨余垃圾检测方法
CN114882039B (zh) 一种应用于pcb板自动分拣过程中的pcb板缺陷识别方法
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
Akopyan et al. Text recognition on images from social media
CN117274760A (zh) 一种基于多尺度混合变换器的红外与可见光图像融合方法
CN116030018A (zh) 用于门加工的来料合格检验系统及方法
CN117409192A (zh) 一种基于数据增强的红外小目标检测方法及装置
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN116757986A (zh) 一种红外与可见光图像融合方法及装置
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
CN110363830A (zh) 元素图像生成方法、装置及系统
CN114170422A (zh) 一种煤矿井下图像语义分割方法
CN112070181B (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN113450297A (zh) 红外图像和可见光图像的融合模型构建方法及系统
CN116957921A (zh) 图像渲染方法、装置、设备及存储介质
CN111709442A (zh) 一种面向图像分类任务的多层字典学习方法
CN115565146A (zh) 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统
CN114220145A (zh) 人脸检测模型生成方法和装置、伪造人脸检测方法和装置
CN117407557B (zh) 零样本实例分割方法、系统、可读存储介质及计算机
CN116152885B (zh) 一种基于特征解耦的跨模态异质人脸识别和原型修复方法
CN117312592B (zh) 基于模态不变特征学习的文本-行人图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230809

Address after: 710072 No. 127 Youyi West Road, Shaanxi, Xi'an

Patentee after: Northwestern Polytechnical University

Address before: Room 9112, Shenjianyuan Community, No. 19, Changfeng West Street, Wanbailin District, Taiyuan City, Shanxi Province 030021

Patentee before: Mao Yaqi