CN112967178B - 一种图像转换方法、装置、设备及存储介质 - Google Patents
一种图像转换方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112967178B CN112967178B CN202110249798.3A CN202110249798A CN112967178B CN 112967178 B CN112967178 B CN 112967178B CN 202110249798 A CN202110249798 A CN 202110249798A CN 112967178 B CN112967178 B CN 112967178B
- Authority
- CN
- China
- Prior art keywords
- image
- module
- visible light
- network
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000013507 mapping Methods 0.000 claims abstract description 35
- 230000008447 perception Effects 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 21
- 125000004122 cyclic group Chemical group 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 9
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000003331 infrared imaging Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请公开了一种图像转换方法、装置、设备及存储介质,包括:采集红外图像与可见光图像,并制作训练集;构建SFP‑CycleGAN网络;该网络包含两个生成器与两个判别器;生成器包括CSPdark模块;该模块包括1×1卷积分流模块和密连接模块,该模块通过两路1×1卷积分流得到两个特征图,一个特征图经过密连接模块后与另一个特征图在通道上进行拼接;密连接模块包括多个具有深度可分离卷积层的密连接层;建立感知损失与同一映射损失,调整网络的超参数;采用无监督训练方式依据训练集训练网络,导出网络模型;将待转换图像输入至模型中进行图像转换。这样可以解决配准样本构建困难、转换图像质量差、模型较大不利于应用的问题。
Description
技术领域
本发明涉及红外成像领域,特别是涉及一种图像转换方法、装置、设备及存储介质。
背景技术
随着高性能计算机、探测器和光源的发展,深度学习在计算成像领域得到了广泛的应用,并取得了令人瞩目的成果,成为该领域的研究热点。其中,可见光波段与红外波段因其各自独特的性质,其成像领域的应用也最为广泛。可见光所成图像具有较好的可视化效果和表征能力,相应的成像技术也趋于成熟,被广泛应用于日常生活中;红外成像技术具有优秀的制导精度和抗干扰能力,因此在监控系统、目标探测、制导等方面有着广泛的应用,在各领域具有极大的价值。
现有的诸多深度学习算法,例如目标检测、自动驾驶等都是基于可见光图像,并不适用于红外图像。但是在许多特殊环境下,例如在夜晚没有足够光照时,普通相机并不能有效成像,而红外成像却能很好地获取夜间物体的轮廓等信息。如果能够将红外图像转换成与之对应的可见光图像,不仅可以提升红外图像的可视化效果,还可以将许多成熟的可见光深度学习算法应用于红外领域,这对红外成像技术和深度学习的发展都具有十分重要的意义。
目前,国内外研究者对于深度学习人工智能领域的研究大都集中在目标检测、自然语言处理等领域,却很少有光电成像的跨信息域转换相关的研究。而传统的红外彩色夜视图像算法中,基于生物学和色彩转换算法的图像并不真实,基于硬件的方法又存在诸多限制。
因此,针对红外图像在表征能力以及算法上的局限性,如何利用深度学习网络实现红外图像与可见光图像的信息转换,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种图像转换方法、装置、设备及存储介质,无需配准配对和制作图像标签,网络模型小,转换图像质量高。其具体方案如下:
一种图像转换方法,包括:
采集红外图像与可见光图像,并制作训练集;
构建SFP-CycleGAN网络;所述SFP-CycleGAN网络包含两个生成器与两个判别器;所述生成器包括CSPdark模块;所述CSPdark模块包括1×1卷积分流模块和密连接模块;所述CSPdark模块的梯度分流是通过所述1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过所述密连接模块后,与另一个特征图在通道上进行拼接并输出;所述密连接模块包括多个密连接层;每个所述密连接层中的卷积层为深度可分离卷积层;
建立感知损失与同一映射损失,调整所述SFP-CycleGAN网络的超参数;
采用无监督训练方式依据所述训练集训练所述SFP-CycleGAN网络,导出训练好的网络模型;
将待转换图像输入至训练好的所述网络模型中进行红外域与可见光域之间的图像转换。
优选地,在本发明实施例提供的上述图像转换方法中,所述生成器包括用于将红外图像转化为可见光图像的第一生成器和用于将可见光图像转化为红外图像的第二生成器;
所述判别器包括用于对所述第一生成器生成的可见光图像进行判别的第一判别器和用于对所述第二生成器生成的红外图像进行判别的第二判别器。
优选地,在本发明实施例提供的上述图像转换方法中,采集红外图像与可见光图像,具体包括:
通过安装在车载设备上的双目摄像头获取不同场景下对应的红外视频与可见光视频;
对红外视频与可见光视频进行分帧和批量裁剪处理,得到每个场景下对应的红外图像与可见光图像;
对每个场景下对应的红外图像与可见光图像进行抽帧处理,将抽取出的红外图像与可见光图像分别整合至不同文件夹中。
优选地,在本发明实施例提供的上述图像转换方法中,建立感知损失与同一映射损失,调整所述SFP-CycleGAN网络的超参数,具体包括:
在循环一致损失函数的基础上,添加感知损失和同一映射损失,构成循环一致约束项;
通过所述同一映射损失约束所述生成器对生成的可见光图像或红外图像的改动;
通过所述感知损失增强所述SFP-CycleGAN网络的细节特征。
优选地,在本发明实施例提供的上述图像转换方法中,在循环一致损失函数的基础上,添加感知损失,具体包括:
在所述循环一致损失函数处加入预训练好的Vgg19网络;
将真实的可见光图像,与由生成的红外图像进行重构得到的可见光图像送入Vgg19网络;
在所述Vgg19网络中,通过抽取不同层的激活层,并进行加权计算得到感知损失。
优选地,在本发明实施例提供的上述图像转换方法中,在所述密连接模块中,去除池化层,每个所述密连接层采用密连接的方式进行连接。
优选地,在本发明实施例提供的上述图像转换方法中,在任一密连接层中,输入的特征图经过一次深度可分离卷积、批正则化和非线性激活函数后,送入与该密连接层连接的下一个密连接层中。
本发明实施例还提供了一种图像转换装置,包括:
数据采集模块,用于采集红外图像与可见光图像,并制作训练集;
网络构建模块,用于构建SFP-CycleGAN网络;所述SFP-CycleGAN网络包含两个生成器与两个判别器;所述生成器包括CSPdark模块;所述CSPdark模块包括1×1卷积分流模块和密连接模块;所述CSPdark模块的梯度分流是通过所述1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过所述密连接模块后,与另一个特征图在通道上进行拼接并输出;所述密连接模块包括多个密连接层;每个所述密连接层中的卷积层为深度可分离卷积层;
参数调整模块,用于建立感知损失与同一映射损失,调整所述SFP-CycleGAN网络的超参数;
模型训练模块,用于采用无监督训练方式依据所述训练集训练所述SFP-CycleGAN网络,导出训练好的网络模型;
图像转换模块,用于将待转换图像输入至训练好的所述网络模型中进行红外域与可见光域之间的图像转换。
本发明实施例还提供了一种图像转换设备,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述图像转换方法。
本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如本发明实施例提供的上述图像转换方法。
从上述技术方案可以看出,本发明所提供的一种图像转换方法,包括:采集红外图像与可见光图像,并制作训练集;构建SFP-CycleGAN网络;SFP-CycleGAN网络包含两个生成器与两个判别器;生成器包括CSPdark模块;CSPdark模块包括1×1卷积分流模块和密连接模块;CSPdark模块的梯度分流是通过1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过密连接模块后,与另一个特征图在通道上进行拼接并输出;密连接模块包括多个密连接层;每个密连接层中的卷积层为深度可分离卷积层;建立感知损失与同一映射损失,调整SFP-CycleGAN网络的超参数;采用无监督训练方式依据训练集训练SFP-CycleGAN网络,导出训练好的网络模型;将待转换图像输入至训练好的网络模型中进行红外域与可见光域之间的图像转换。
本发明提供的方法保留了CycleGAN循环一致性的核心思想,在构建样本数据时,无需严格地进行配准配对,两个域的图像的数量也可以不相同,并且采用无监督训练的方式训练网络,无需制作图像标签,网络就可以自主学习到红外图像与可见光图像之间的映射关系,极大地节省了人力,简化了样本的制作;另外,本发明设计了独特的生成器结构,提高了有效特征的利用率,很大程度上消除了冗余特征的传递,减少了参数量,能够满足模型实时性的应用需求,并在训练时引入了感知损失与同一映射损失,使得SFP-CycleGAN生成的图像质量更高,使用更小的模型就可以更好地实现红外图像与可见光图像之间的相互转换,解决配准样本构建困难、转换图像的质量差、模型较大不利于应用的问题。
此外,本发明还针对图像转换方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
附图说明
为了更清楚地说明本发明实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的图像转换方法的流程图;
图2为本发明实施例提供的SFP-CycleGAN的整体结构示意图;
图3为本发明实施例提供的SFP-CycleGAN生成器的结构示意图;
图4为本发明实施例提供的深度可分离卷积的原理示意图;
图5为本发明实施例提供的生成对抗损失的原理示意图;
图6为本发明实施例提供的图像转换装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种图像转换方法,如图1所示,包括以下步骤:
S101、采集红外图像与可见光图像,并制作训练集。
S102、构建SFP-CycleGAN网络;SFP-CycleGAN网络包含两个生成器与两个判别器;生成器包括CSPdark模块;CSPdark模块包括1×1卷积分流模块和密连接模块;CSPdark模块的梯度分流是通过1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过密连接模块后,与另一个特征图在通道上进行拼接并输出;密连接模块包括多个密连接层;每个密连接层中的卷积层为深度可分离卷积层。
需要说明的是,SFP(split-flowperception,分流感知)-CycleGAN(循环一致性生成对抗网络)保留了CycleGAN循环一致性的核心思想,无需配对的训练样本。在本实施例中,具体修改了原CycleGAN的主干网络部分,即生成器中的转换器(backbone)。本发明的生成器中的backbone可以由CSPdark模块(CSPdarknet的结构)构成,并结合深度可分离卷积以减小整体的参数量,这样能够兼顾网络浅层与深层的特征。本发明的判别器可以采用PatchGAN分类器,将输入分成若干N×N(如70×70)的小块,将所有小块判定结果的平均值作为图像的判定结果。另外,需要说明的是,上述CSPdark模块的个数可以根据实际情况而定,例如设置为五个;上述密连接层的个数,可以根据其增长率而定,例如当增长率为32时,密连接层可以设置为六层。
S103、建立感知损失与同一映射损失,调整SFP-CycleGAN网络的超参数。
S104、采用无监督训练方式依据训练集训练SFP-CycleGAN网络,导出训练好的网络模型。
S105、将待转换图像输入至训练好的网络模型中进行红外域与可见光域之间的图像转换。
在本发明实施例提供的上述图像转换方法中,保留了CycleGAN循环一致性的核心思想,在构建样本数据时,无需严格地进行配准配对,两个域的图像的数量也可以不相同,并且采用无监督训练的方式训练网络,无需制作图像标签,网络就可以自主学习到红外图像与可见光图像之间的映射关系,极大地节省了人力,简化了样本的制作;另外,本发明设计了独特的生成器结构,提高了有效特征的利用率,很大程度上消除了冗余特征的传递,减少了参数量,能够满足模型实时性的应用需求,并在训练时引入了感知损失与同一映射损失,使得SFP-CycleGAN生成的图像质量更高,使用更小的模型就可以更好地实现红外图像与可见光图像之间的相互转换,解决配准样本构建困难、转换图像的质量差、模型较大不利于应用的问题。
进一步地,在具体实施时,在本发明实施例提供的上述图像转换方法中,步骤S101采集红外图像与可见光图像,具体可以包括:通过安装在车载设备上的双目摄像头获取不同场景下对应的红外视频与可见光视频;对红外视频与可见光视频进行分帧和批量裁剪处理,得到每个场景下对应的红外图像(lwir)与可见光图像(visible);对每个场景下对应的红外图像与可见光图像进行抽帧处理,将抽取出的红外图像与可见光图像分别整合至不同文件夹中。
具体地,上述步骤S101的训练集可以是KAIST样本集和通过自主设备构建的lwir2visible样本集。
原始的KAIST样本集中包含了多个场景图像,每个场景的数据均含有两类图像:长波红外图像与可见光图像,其中每一类图像都是经过车载拍摄视频,然后经过分帧和批量裁剪处理得到的。由于帧间视频具有比较大的特征相似度,因此要对每个场景中的两类图像进行抽帧处理,降低单个场景中图像之间的相似性。将经过筛选后红外与可见光图像进行整合,把每个场景中的红外图像作为X域图像,放在trainA文件夹中,可见光图像作为Y域图像,整合后放在trainB文件夹中,X域与Y域的图像即可作为SFP-CycleGAN的训练样本。
而自主构建lwir2visible样本集时,为了得到匹配自主红外相机的模型,可使用双目红外可见光摄像头,并固定在车载设备上,在汽车行驶的过程中拍摄沿途的场景视频,获得同一场景下的红外与可见光视频。采用这样的方法拍摄多个场景,获取足够丰富度的最初样本。然后仿照KAIST的制作方法首先对双目摄像头拍摄的红外视频与可见光视频进行分帧处理,分别保存在两个文件夹下,该步骤对帧率没有严格要求,两个文件夹下的图像数量可以不同;然后对可见光图像进行批量裁剪,保证图像内容与红外图像一致;对每组样本的两个域图像进行抽帧处理,每隔10帧抽取一次保留为训练样本。
进一步地,在具体实施时,在本发明实施例提供的上述图像转换方法中,在步骤S102中,如图2所示,生成器包括用于将红外图像转化为可见光图像的第一生成器GX→Y和用于将可见光图像转化为红外图像的第二生成器GY→X;判别器包括用于对第一生成器GX→Y生成的可见光图像进行判别的第一判别器DX和用于对第二生成器GY→X生成的红外图像进行判别的第二判别器DY。图2中X-img表示输入的红外图像,Fake-Y表示生成的可见光图像,rec-X表示重构的红外图像;Y-img表示输入的真实可见光图像,Fake-X表示生成的红外图像,rec-Y表示重构的可见光图像。
需要说明的是,原始的CycleGAN生成器中,编码器由一个输入层和两个下采样卷积层组成,转换器由九个残差块构成,解码器由两个上采样层和一个输出层构成。编码器将输入图像通过卷积操作,提取图像的特征信息,并将其传递给转换器;转化器能够组合传递来的不同特征,确定如何将X域的特征向量转换成Y域的特征向量;解码器采用转置卷积的方式恢复图像的尺寸,将抽象的特征图逐渐还原为低级特征,并最终生成图像。本发明将转换器中的标准卷积替换为深度可分离卷积,大大降低了参数量和运算成本的同时还能达到与常规卷积相同的效果。
CycleGAN采用九个残差模块实现特征重组,为了更好地实现特征重利用,加强特征传递,防止梯度消失的发生,如图3和图4所示,本发明对CycleGAN生成器中的转换器进行了以下两个阶段的改进:
第一个阶段的改进是引入去除池化层的密连接模块(dense-block),转换器要求输出的特征图的尺寸与深度与输入相同,因此需要去除池化层,防止尺寸缩小。每个密连接模块中都有多个密连接层(denselayer),多个denselayer均采用密连接的方式进行连接,即每个denselayer的输入都是前面所有denselayer的输出的拼接。在每个denselayer中,输入的特征图经过一次深度可分离卷积,再经过批正则化batch_normalization,和非线性激活函数relu,送入下一个denselayer。
第二个阶段的改进是dense-block虽然能够很好的实现特征重利用,但是通过dense-block反向传播的权重更新方程,如式(1):
w′1=f(w1,g0)
w′2=f(w2,g0,g1)
w′3=f(w3,g0,g1,g2)
……
w′k=f(wk,g0,g1,g2,......,gk) (1)
其中f是权重更新函数,gi表示传播到第i个dense-block的梯度,wi表示第i个denselayer的权重值,w′i表示第i个denselayer的权重输出。
由其可以发现,有大量的梯度信息被重复更新不同dense-block的权重,这将导致不同的dense-block反复学习相同的梯度信息。如果能有效减少密连接层梯度信息的重复,网络的学习能力也将大大提高。本发明受梯度分流思想的启发,在密连接模块的基础上引入局部密连接模块(CSP-block),与原始的CSP思想不同的是,本发明不采用通道拆分的方法进行梯度分流,而是通过两路1×1卷积按照超参数part-ratio的比例将特征图进行transition。这里的part-ratio是指输入在进入CSP-block时,1×1卷积核的通道数与输入特征图通道数的比例;transition这里指过渡层,其实也是一层1×1的卷积层来修改输出特征图的通道数。具体地,SFP-CycleGAN网络中的CSPdark模块的梯度分流是通过两路1×1卷积得到两个特征图,其中一个特征图经过密连接模块后,与另一个特征图在通道上进行拼接并输出。这样的方法可以避免直接通过梯度拆分导致特征重用降低的问题,同时还能起到降低通道数的作用,提升主干网络整体的性能。
本发明与原始CycleGAN以及密连接CycleGAN的生成器参数量以及模型大小对比如下表一所示:
表一 模型与参数量对比
进一步地,在具体实施时,在本发明实施例提供的上述图像转换方法中,步骤S103建立感知损失与同一映射损失,调整SFP-CycleGAN网络的超参数,具体可以包括:在循环一致损失函数的基础上,添加感知损失和同一映射损失,构成循环一致约束项;通过循环一致约束项中的同一映射损失约束生成器对生成的可见光图像或红外图像的改动;通过循环一致约束项中的感知损失增强SFP-CycleGAN网络的细节特征。也就是说,利用同一映射损失可以完善网络体系,在循环一致损失处引入感知损失可以增强网络对细节的迁移效果。
需要说明的是,本发明中SFP-CycleGAN网络主要涉及四个损失:
第一个是生成对抗损失:如图5所示,SFP-CycleGAN与原始CycleGAN同样可以看作是由两个单向GAN(GX→Y与GY→X,记GX→Y的映射为G,GY→X的映射为F)网络构成的对偶网络。在每个单向GAN中由于交叉熵函数在训练时会导致部分特征失去作用,影响网络训练的稳定性。本发明的GAN-loss采用LSGAN(Least Squares Generative Adversarial Networks,最小二乘生成对抗网络)的最小二乘损失,惩罚原理决策边缘的样本,缓解梯度爆炸或梯度消失的问题。所以SFP-CycleGAN的生成对抗损失如式(2)所示:
第二个是循环一致损失:GAN-loss能够尽可能让生成器生成的数据分布接近真实的数据分布,但单独的GAN-loss不能保证损失函数能够把x图像映射到期望输入y。cycle-loss能够防止G与F互相矛盾,使得生成的假图像能够尽可能重构回原始图像,即:
X→G(x)→F(G(x))≈Y
Y→F(y)→G(F(y))≈X
本发明沿用了CycleGAN循环一致性的特点,同时训练两个生成器GX→Y和GY→X与两个判别器DX和DY,实现X与Y域图像之间的双向映射,保证网络训练的稳定性。原始的cycle-loss采用L1损失函数,如式(3)所示。虽然能够加强转换前后的相关性,避免A域中图像映射到B域中同一张图片的情况发生,但对于红外与可见光转换任务的特殊性,仅靠一范数不能有效保证生成图像的质量,无法保证细节特征的有效迁移,甚至由于样本相关性较差导致模式崩塌。本发明针对原始CycleGAN在红外转可见光任务上存在的不足,在原L1损失函数的基础上,增加感知损失与同一映射损失,提升模型训练稳定性,以及生成图像的纹理质量。
其中,Ex~pdata(x)与Ey~pdata(y) 是指X域与Y域的数据分布期望值,Lcyc(G,F)表示的是循环一致性损失函数(cycle-loss),下角标的1表示这里求两个向量之间距离的方法用的是一范数。
第三个是同一映射损失:红外与可见光图像蕴含的内容有很大差异,仅依靠前向和后向映射不能保证生成器能够完全遵从于目标域的纹理颜色细节。由于X域的红外图像经过生成器GX→Y生成Y域的可见光图像时,会迁移很多并不存在于红外图像中的信息,生成器可能自主修改图像的色调,导致生成的假可见光图像与真实样本存在较大差异。生成器G用来生成y风格图像,那么把y送入G,应该仍然生成y,只有这样才能证明G具有生成y风格的能力,因此G(y)和y应该尽可能接近,如果不加该loss,那么生成器可能会自主地修改图像的色调,使得整体的颜色产生变化。本发明针对样本的特殊性质,引入了同一映射损失,约束生成器对生成图像的改动,完善网络的整体一致性。该损失的定义如式(4)所示:
第四个是感知损失:原始的循环一直损失函数是在整幅图像上做一范数进行约束优化,这往往导致生成图像为了保持图像的整体风格而丢失部分细节特征。本发明受感知损失启发,在循环一直损失函数处加入预训练好的Vgg19网络,然后将真实的可见光图像,与由生成的红外图像进行重构得到的可见光图像送入Vgg19网络,即将X域的真实图像,与由生成Y域图像重构得到的X域图像送入Vgg19网络,最后在Vgg19网络中,通过抽取不同层的激活层,并进行加权计算作为感知损失。如式(5)所示:
其中,C、H、W分别代表特征图的深度和尺寸(高和宽),代表特征提取函数,其中提取内容包含特征图像的结构与风格,它们分别来自Vgg19的不同深度的ReLU激活层。利用感知损失增强图像细节的思想,可以使得SFP-CycleGAN生成的图像质量更高,更具有可观性,并且能够保留更多的细节信息,使图像看上去内容更加丰富自然。
综上,本发明SFP-CycleGAN的总损失为:
L(G,F,DX,DY)=LGAN(G,F,DX,DY)+λ1Lcyc(G,F)+λ2Lids(G,P)+λ3Lperceptual(G,F) (6)
其中,λ1、λ2、λ3分别代表L1损失、同一映射损失以及感知损失的权重系数,系数越大,代表该损失函数所占的权重越大,训练时,模型会更倾向其优化。
进一步地,在具体实施时,步骤S104采用无监督训练方式依据训练集训练SFP-CycleGAN网络,导出训练好的网络模型,具体可以包括:首先将构建的训练样本集进行预处理,预处理包括重构尺寸,可随机重复利用。重构尺寸保证输入网络的图像大小为256×256的固定尺寸;随机重复利用能够保证网络每次输入都有一个X域图像和一个Y域的图像;然后训练时,让判别器PatchGAN优先训练一定的次数,具体的次数取决于X域样本集的数量;同时训练生成器与判别器,使用adam优化器进行优化。网络大约在50-60个epoch时达到较好的可视化效果,此后再训练50个epoch,图像质量明显提升。之后再进行优化,生成图像的效果不再有明显提升。训练结束后,导出网络模型。本发明在KAIST样本集和lwir2visible样本集上均进行了实验。
进一步地,在具体实施时,在执行步骤S105之前,还包括:利用测试集测试模型转换效果,得到对应的结果。该测试集可以在步骤S101中制作成。具体地,将红外图像放入testA文件夹中,可见光图像放入testB文件夹中,使用KAIST测试集和lwir2visible测试集分别对其对应的模型进行测试。测试步骤分为:对testA和testB中的测试图像进行resize操作,使其变为256×256的固定尺寸;网络模型读取测试样本,得到转换后的生成图像。
需要说明的是,本发明不同于其他现有技术的单向网络思想,继承了CycleGAN闭环网络结构,同时训练两个生成器,一次训练就能够学习到红外图像和可见光图像之间的双向映射关系。因此该模型也可以将可见光图像转换成红外图像,可以应用于扩充红外图像样本的问题,解决红外图像获取困难的问题。
基于同一发明构思,本发明实施例还提供了一种图像转换装置,由于该装置解决问题的原理与前述一种图像转换方法相似,因此该装置的实施可以参见图像转换方法的实施,重复之处不再赘述。
在具体实施时,本发明实施例提供的图像转换装置,如图6所示,具体包括:
数据采集模块11,用于采集红外图像与可见光图像,并制作训练集;
网络构建模块12,用于构建SFP-CycleGAN网络;SFP-CycleGAN网络包含两个生成器与两个判别器;生成器包括CSPdark模块;CSPdark模块包括1×1卷积分流模块和密连接模块;CSPdark模块的梯度分流是通过1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过密连接模块后,与另一个特征图在通道上进行拼接并输出;密连接模块包括多个密连接层;每个密连接层中的卷积层为深度可分离卷积层;
参数调整模块13,用于建立感知损失与同一映射损失,调整SFP-CycleGAN网络的超参数;
模型训练模块14,用于采用无监督训练方式依据训练集训练SFP-CycleGAN网络,导出训练好的网络模型;
图像转换模块15,用于将待转换图像输入至训练好的网络模型中进行红外域与可见光域之间的图像转换。
在本发明实施例提供的上述图像转换装置中,可以通过上述五个模块的相互作用,在构建样本数据时,无需严格地进行配准配对,两个域的图像的数量也可以不相同,并且无需制作图像标签,网络就可以自主学习到红外图像与可见光图像之间的映射关系,极大地节省了人力,简化了样本的制作,构建的生成器结构提高了有效特征的利用率,很大程度上消除了冗余特征的传递,减少了参数量,能够满足模型实时性的应用需求,感知损失与同一映射损失的引入使得SFP-CycleGAN生成的图像质量更高,使用更小的模型就可以更好地实现红外图像与可见光图像之间的相互转换。
关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
相应地,本发明实施例还公开了一种图像转换设备,包括处理器和存储器;其中,处理器执行存储器中保存的计算机程序时实现前述实施例公开的图像转换方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步地,本发明还公开了一种计算机可读存储介质,用于存储计算机程序;计算机程序被处理器执行时实现前述公开的图像转换方法。
关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本发明实施例提供的一种图像转换方法,包括:采集红外图像与可见光图像,并制作训练集;构建SFP-CycleGAN网络;SFP-CycleGAN网络包含两个生成器与两个判别器;生成器包括CSPdark模块;CSPdark模块包括1×1卷积分流模块和密连接模块;CSPdark模块的梯度分流是通过1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过密连接模块后,与另一个特征图在通道上进行拼接并输出;密连接模块包括多个密连接层;每个密连接层中的卷积层为深度可分离卷积层;建立感知损失与同一映射损失,调整SFP-CycleGAN网络的超参数;采用无监督训练方式依据训练集训练SFP-CycleGAN网络,导出训练好的网络模型;将待转换图像输入至训练好的网络模型中进行红外域与可见光域之间的图像转换。上述方法保留了CycleGAN循环一致性的核心思想,在构建样本数据时,无需严格地进行配准配对,两个域的图像的数量也可以不相同。并且采用无监督训练的方式训练网络,无需制作图像标签,网络就可以自主学习到红外图像与可见光图像之间的映射关系,极大地节省了人力,简化了样本的制作;另外,本发明设计了独特的生成器结构,提高了有效特征的利用率,很大程度上消除了冗余特征的传递,减少了参数量,能够满足模型实时性的应用需求,并在训练时引入了感知损失与同一映射损失,使得SFP-CycleGAN生成的图像质量更高,使用更小的模型就可以更好地实现红外图像与可见光图像之间的相互转换,解决配准样本构建困难、转换图像的质量差、模型较大不利于应用的问题。此外,本发明还针对图像转换方法提供了相应的装置、设备及计算机可读存储介质,进一步使得上述方法更具有实用性,该装置、设备及计算机可读存储介质具有相应的优点。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的图像转换方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种图像转换方法,其特征在于,包括:
采集红外图像与可见光图像,并制作训练集;
构建SFP-CycleGAN网络;所述SFP-CycleGAN网络包含两个生成器与两个判别器;所述生成器包括CSPdark模块;所述CSPdark模块包括1×1卷积分流模块和密连接模块;所述CSPdark模块的梯度分流是通过所述1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过所述密连接模块后,与另一个特征图在通道上进行拼接并输出;所述密连接模块包括多个密连接层;每个所述密连接层中的卷积层为深度可分离卷积层;
建立感知损失与同一映射损失,调整所述SFP-CycleGAN网络的超参数,包括:在循环一致损失函数的基础上,添加感知损失和同一映射损失,构成循环一致约束项;通过所述同一映射损失约束所述生成器对生成的可见光图像或红外图像的改动;通过所述感知损失增强所述SFP-CycleGAN网络的细节特征;
采用无监督训练方式依据所述训练集训练所述SFP-CycleGAN网络,导出训练好的网络模型;
将待转换图像输入至训练好的所述网络模型中进行红外域与可见光域之间的图像转换。
2.根据权利要求1所述的图像转换方法,其特征在于,所述生成器包括用于将红外图像转化为可见光图像的第一生成器和用于将可见光图像转化为红外图像的第二生成器;
所述判别器包括用于对所述第一生成器生成的可见光图像进行判别的第一判别器和用于对所述第二生成器生成的红外图像进行判别的第二判别器。
3.根据权利要求2所述的图像转换方法,其特征在于,采集红外图像与可见光图像,具体包括:
通过安装在车载设备上的双目摄像头获取不同场景下对应的红外视频与可见光视频;
对红外视频与可见光视频进行分帧和批量裁剪处理,得到每个场景下对应的红外图像与可见光图像;
对每个场景下对应的红外图像与可见光图像进行抽帧处理,将抽取出的红外图像与可见光图像分别整合至不同文件夹中。
4.根据权利要求3所述的图像转换方法,其特征在于,在循环一致损失函数的基础上,添加感知损失,具体包括:
在所述循环一致损失函数处加入预训练好的Vgg19网络;
将真实的可见光图像,与由生成的红外图像进行重构得到的可见光图像送入Vgg19网络;
在所述Vgg19网络中,通过抽取不同层的激活层,并进行加权计算得到感知损失。
5.根据权利要求1所述的图像转换方法,其特征在于,在所述密连接模块中,去除池化层,每个所述密连接层采用密连接的方式进行连接。
6.根据权利要求5所述的图像转换方法,其特征在于,在任一密连接层中,输入的特征图经过一次深度可分离卷积、批正则化和非线性激活函数后,送入与该密连接层连接的下一个密连接层中。
7.一种图像转换装置,其特征在于,包括:
数据采集模块,用于采集红外图像与可见光图像,并制作训练集;
网络构建模块,用于构建SFP-CycleGAN网络;所述SFP-CycleGAN网络包含两个生成器与两个判别器;所述生成器包括CSPdark模块;所述CSPdark模块包括1×1卷积分流模块和密连接模块;所述CSPdark模块的梯度分流是通过所述1×1卷积分流模块的两路1×1卷积分流得到两个特征图,其中一个特征图经过所述密连接模块后,与另一个特征图在通道上进行拼接并输出;所述密连接模块包括多个密连接层;每个所述密连接层中的卷积层为深度可分离卷积层;
参数调整模块,用于建立感知损失与同一映射损失,调整所述SFP-CycleGAN网络的超参数,包括:在循环一致损失函数的基础上,添加感知损失和同一映射损失,构成循环一致约束项;通过所述同一映射损失约束所述生成器对生成的可见光图像或红外图像的改动;通过所述感知损失增强所述SFP-CycleGAN网络的细节特征;
模型训练模块,用于采用无监督训练方式依据所述训练集训练所述SFP-CycleGAN网络,导出训练好的网络模型;
图像转换模块,用于将待转换图像输入至训练好的所述网络模型中进行红外域与可见光域之间的图像转换。
8.一种图像转换设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至6任一项所述的图像转换方法。
9.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的图像转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110249798.3A CN112967178B (zh) | 2021-03-08 | 2021-03-08 | 一种图像转换方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110249798.3A CN112967178B (zh) | 2021-03-08 | 2021-03-08 | 一种图像转换方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112967178A CN112967178A (zh) | 2021-06-15 |
CN112967178B true CN112967178B (zh) | 2023-04-07 |
Family
ID=76276776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110249798.3A Active CN112967178B (zh) | 2021-03-08 | 2021-03-08 | 一种图像转换方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967178B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763441B (zh) * | 2021-08-25 | 2024-01-26 | 中国科学院苏州生物医学工程技术研究所 | 无监督学习的医学图像配准方法及系统 |
CN113850231A (zh) * | 2021-10-26 | 2021-12-28 | 烟台艾睿光电科技有限公司 | 一种红外图像的转换训练方法、装置、设备及存储介质 |
CN114266937A (zh) * | 2021-12-20 | 2022-04-01 | 北京百度网讯科技有限公司 | 模型训练、图像处理方法,装置,设备以及存储介质 |
CN114612618A (zh) * | 2022-03-15 | 2022-06-10 | 腾讯医疗健康(深圳)有限公司 | 图像生成方法、装置、设备、存储介质及计算机程序产品 |
CN115082299B (zh) * | 2022-07-21 | 2022-11-25 | 中国科学院自动化研究所 | 非严格对齐的小样本不同源图像转换方法、系统及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222837A (zh) * | 2019-04-28 | 2019-09-10 | 天津大学 | 一种基于CycleGAN的图片训练的网络结构ArcGAN及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102575104B1 (ko) * | 2016-10-25 | 2023-09-07 | 트리나미엑스 게엠베하 | 집적 필터를 가진 적외선 광학 검출기 |
CN110570431A (zh) * | 2019-09-18 | 2019-12-13 | 东北大学 | 一种基于改进的卷积神经网络的医学图像分割方法 |
CN111291885B (zh) * | 2020-01-20 | 2023-06-09 | 北京百度网讯科技有限公司 | 近红外图像的生成方法、生成网络的训练方法和装置 |
CN112347850B (zh) * | 2020-09-30 | 2024-04-23 | 新大陆数字技术股份有限公司 | 红外图像转换方法、活体检测方法、装置、可读存储介质 |
-
2021
- 2021-03-08 CN CN202110249798.3A patent/CN112967178B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222837A (zh) * | 2019-04-28 | 2019-09-10 | 天津大学 | 一种基于CycleGAN的图片训练的网络结构ArcGAN及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112967178A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112967178B (zh) | 一种图像转换方法、装置、设备及存储介质 | |
Li et al. | Coupled GAN with relativistic discriminators for infrared and visible images fusion | |
CN105741252B (zh) | 基于稀疏表示与字典学习的视频图像分级重建方法 | |
CN113313644B (zh) | 一种基于残差双注意力网络的水下图像增强方法 | |
CN113283444B (zh) | 一种基于生成对抗网络的异源图像迁移方法 | |
CN113516601B (zh) | 基于深度卷积神经网络与压缩感知的图像恢复方法 | |
CN111275638B (zh) | 基于多通道注意力选择生成对抗网络的人脸修复方法 | |
CN103971329A (zh) | 一种基于遗传优化细胞神经网络的多源图像融合方法 | |
CN112614070B (zh) | 一种基于DefogNet的单幅图像去雾方法 | |
Xu et al. | Infrared and visible image fusion using a deep unsupervised framework with perceptual loss | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
Jin et al. | Semisupervised remote sensing image fusion using multiscale conditional generative adversarial network with siamese structure | |
Qu et al. | Non-local representation based mutual affine-transfer network for photorealistic stylization | |
Zhang et al. | Fchp: Exploring the discriminative feature and feature correlation of feature maps for hierarchical dnn pruning and compression | |
CN112767277B (zh) | 一种基于参考图像的深度特征排序去模糊方法 | |
CN114387195A (zh) | 一种基于非全局预增强的红外图像与可见光图像融合方法 | |
CN111489405B (zh) | 基于条件增强生成对抗网络的人脸草图合成系统 | |
CN112766217A (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN115358927B (zh) | 一种结合空间自适应和纹理转换的图像超分辨重建方法 | |
Yu et al. | Conditional gan with effective attention for sar-to-optical image translation | |
CN116977455A (zh) | 基于深度双向学习的人脸素描图像生成系统及方法 | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
Cui et al. | Unsupervised infrared and visible image fusion with pixel self-attention | |
CN114331931A (zh) | 基于注意力机制的高动态范围多曝光图像融合模型及方法 | |
Wang et al. | APST-Flow: A Reversible Network-Based Artistic Painting Style Transfer Method. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |