一种面向图像翻译的端到端的并行生成器网络构建方法
技术领域
本发明涉及基于对抗生成网络GAN进行图像翻译、图像风格变换技术,尤其涉及一种面向基于对抗生成网络GAN的图像翻译方法中,如何利用两种不同结构的卷积神经网络,组成端到端的的并行生成器网络结构,以及GAN训练框架下其对应的判别器网络结构的设计方法。
背景技术
所谓图像翻译(转换),指从一副图像到另一副图像的转换。如语义分割图转换为真实街景图,灰色图转换为彩色图,白天转换为黑夜,照片转换为素描等。有效地在各类图像之间建立非线性映射关系,可以将不同种类的图像相互转换。该技术对工业、国防、刑侦的领域的应用提供着重要的技术支持。
目前,常见的方法是基于对抗生成网络(GAN)的图像变换方法,如Pix2pix、Cycle-GAN、MUNIT等。现有的方法常常局限于应用单一结构的生成图像网络,因此,图像转换的均方差MSE较高,同时结构相似度SSIM和灰度直方图拟合度较低。
发明内容
发明目的:为了解决上述问题,本发明的主要目的在于提供一种面向图像翻译的端到端的并行生成器网络构建方法,其先进性表现为:利用残差单元、稠密单元构建端到端的并行生成网络结构;将残差网络和稠密分支网络各自提取的特征进行融合、进而获取联合特征;然后,将该联合特征反卷积获取转换图像。实验表明,并行网络结构可以同时获取残差、稠密网络两种不同结构的优点、实现优势互补;在显著减少转换图像均方误差MSE的同时,增加结构相似度SSIM和灰度直方图拟合程度。
技术方案:为达到上述目的,本发明的技术方案是:一种面向图像翻译的端到端的并行生成器网络构建方法,包括如下步骤:
步骤1)利用残差、稠密单元搭建端到端的残差-稠密并行生成器网络;
步骤2)构建判别器网络,在对抗生成网络(GAN)的训练框架下,利用输入-输出训练数据对,训练获取残差-稠密并行生成器网络参数;
步骤3)利用训练完毕的“稠密-残差并行生成器网络”对待测的输入图像进行图像翻译。
进一步的,所述的步骤1)的具体内容为:
构建并行生成器网络,端到端的“稠密-残差并行生成器网络”由前、后两个部分组成:“基于残差、稠密单元的图像特征提取分支网络”和“基于联合特征的图像生成网络”;
“基于残差单元的图像特征提取分支网络”的结构如下两个部分组成:下采样模块、残差网络模块;其中,下采样模块包括三个卷积层:卷积层1、卷积层2、卷积层3;残差网络模块包括十个残差单元:残差单元1、残差单元2、…,残差单元10,其中,第n个残差单元结构包括如下三层:卷积层n-1、卷积层n、元素相加层;第n个残差单元输出为卷积层n-1与卷积层n的输出特征图按照元素相加的结果,“基于残差单元的图像特征提取分支网络”输出为64×64×256的残差特征图;
“基于稠密单元的图像特征提取分支网络”的结构如下两个部分组成:下采样模块、稠密网络模块;其中,下采样模块包括三个卷积层:卷积层1、卷积层2、卷积层3;稠密网络模块包括十个稠密单元:稠密单元1、稠密单元2、…,稠密单元10,其中,第n个稠密单元结构包括如下五层:卷积层n、向量拼接层1(concatenate)、卷积层n+1、向量拼接层2(concatenate)、过度层(卷积);“基于稠密单元的图像特征提取分支网络”输出为64×64×256的稠密特征图;
“基于联合特征的图像生成网络”的结构由如下两部分组成:特征融合、上采样;特征融合采用向量拼接(concatenate)将残差特征图和稠密特征图生成联合特征图;然后,经过上采样将特征图转换成图像;其中,上采样包括四层结构:卷积层1、反卷积层1、反卷积层2和卷积层2,最终生成256×256×3维的翻译图像。
进一步的,所述的步骤2)的具体内容为:
a首先,构建判别器网络结构,用于训练并行生成器网络的判别器网络结构如下10层构成:向量拼接层(concatenate)、卷积层1、Dropout层1、卷积层2、Dropout层2、卷积层3、Dropout层3、卷积层4、Dropout层4、卷积层5;
b然后,在对抗生成网络GAN的训练框架下,在输入-输出数据对的基础上,利用a中所描述的判别器网络对并行生成器网络进行训练,获取并行生成器网络的参数,具体过程如下:
b-1)在噪声数据分布中随机采样,输入并行生成器网络模型,得到一组图像转换图像,记为x;
b-2)在真实训练图像中随机采样,作为真实数据,记做y;
b-3)将前两步产生的数据(x,y)作为判别器网络的输入,判别器网络的输出值为该输入属于真实数据的概率:real为1,fake为0;然后,根据得到的概率值计算损失函数;
b-4)根据判别器网络模型和并行生成器网络模型的损失函数,利用反向传播算法,先更新判别器网络模型的参数;然后,通过再采样得到的噪声数据更新并行生成器网络模型的参数;
b-5)重复上述四步,直至满足最大迭代次数,保存此时的并行生成器网络模型的网络参数。
进一步的,所述的步骤3)的具体内容为:
将待转换的图像Iinput输入到训练好的并行生成器网络模型;然后,输入图像Iinput经过残差网络、稠密两个分支网络分别获取残差特征FRES和稠密特征FDEN;接着向量拼接(concatenate)层将此两种特征进行融合、得到联合特征FFusion;最后,联合特征FFusion通过上采样模块得到其对应的转换图像ITrans。
有益效果:本发明的方法能够有效融合残差网络和稠密网络的优点,增强转换图像在多种指标下的评价结果:并行生成器网络的转换图像,在显著减少图像转换的均方差MSE的同时,大幅度提高结构相似度SSIM和灰度直方图拟合度。
附图说明
图1为本并行生成器网络构建方法的流程示意图;
图2为本发明提出的端到端的“并行生成器网络”的结构示意图;
图3为本发明用于训练“并行生成器网络”的“判别器网络”结构示意图;
图4为本发明“并行生成网络”方法与其他单一结构生成器网络在图像模态变换均方误差MSE和结构相似度SSIM的性能比较实例示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,以使本领域的技术人员能够更好的理解本发明的优点和特征,从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种面向图像翻译的端到端的并行生成器网络构建方法,包括如下步骤:
步骤101:)利用残差、稠密单元搭建端到端的残差-稠密并行生成器网络;的具体内容为:
按照如下说明构建并行生成器网络,端到端的“稠密-残差并行生成器网络”由前、后两个部分组成:“基于残差、稠密单元的图像特征提取分支网络”、“基于联合特征的图像生成网络”;参见图2(并行生成器网络结构图)、表1“并行生成器网络”结构参数说明表。
表1“并行生成器网络”结构参数说明表
“基于残差单元的图像特征提取分支网络”的结构如下两个部分组成:下采样、残差网络。其中,下采样模块包括三个卷积层:卷积层1、卷积层2、卷积层3;残差网络模块包括十个残差单元:残差单元1、残差单元2、…,残差单元10,其中,第n个残差单元结构包括如下三层:卷积层n-1、卷积层n、元素相加层。第n个残差单元输出为卷积层n-1与卷积层n的输出特征图按照元素相加的结果。“基于残差单元的图像特征提取分支网络”输出为64×64×256的残差特征图;
“基于稠密单元的图像特征提取分支网络”的结构如下两个部分组成:下采样、稠密网络。其中,下采样模块包括三个卷积层:卷积层1、卷积层2、卷积层3;稠密网络模块包括十个稠密单元:稠密单元1、稠密单元2、…,稠密单元10,其中,第n个稠密单元结构包括如下五层:卷积层n、向量拼接层1(concatenate)、卷积层n+1、向量拼接层2(concatenate)、过度层(卷积)。“基于稠密单元的图像特征提取分支网络”输出为64×64×256的稠密特征图;
“基于联合特征的图像生成网络”的结构由如下两部分组成:特征融合、上采样。特征融合采用向量拼接(concatenate)将残差特征图和稠密特征图生成联合特征图;然后,经过上采样将特征图转换成图像。其中,上采样包括四层结构:卷积层1、反卷积层1、反卷积层2和卷积层2。最终生成256×256×3维的翻译图像。
步骤102:构建判别器网络,在对抗生成网络(GAN)的训练框架下,利用输入-输出训练数据对儿,训练获取残差-稠密并行生成器网络参数;的具体内容为:
a首先,按照如下说明构建判别器网络结构。用于训练并行生成器网络的判别器网络结构如下10层构成:向量拼接层(concatenate)、卷积层1、Dropout层1、卷积层2、Dropout层2、卷积层3、Dropout层3、卷积层4、Dropout层4、卷积层5。本发明提出的用于训练并行生成器网络模型的判别器网络结构如图3所示。表2给出了判别器网络结构的参数说明表。
表2“判别器网络网络”结构参数说明表
b然后,在对抗生成网络GAN的训练框架下,在输入-输出数据对的基础上,利用a中所描述的判别器网络对并行生成器网络进行训练,获取并行生成器网络的参数。具体过程如下:
b-1)在噪声数据分布中随机采样,输入并行生成器网络模型,得到一组图像转换图像,记为x;
b-2)在真实训练图像中随机采样,作为真实数据,记做y;
b-3)将前两步产生的数据(x,y)作为判别器网络的输入,判别器网络的输出值为该输入属于真实数据的概率(real为1,fake为0)。然后,根据得到的概率值计算损失函数;
b-4)根据判别器网络模型和并行生成器网络模型的损失函数,利用反向传播算法,先更新判别器网络模型的参数;然后,通过再采样得到的噪声数据更新并行生成器网络模型的参数;
b-5)重复上述四步,直至满足最大迭代次数,保存此时的并行生成器网络模型的网络参数。
步骤103:利用训练完毕的“稠密-残差并行生成器网络”对待测的输入图像进行图像翻译;的具体内容为:
将待转换的图像Iinput输入到训练好的并行生成器网络模型;然后,输入图像Iinput经过残差网络、稠密两个分支网络分别获取残差特征FRES和稠密特征FDEN;接着向量拼接(concatenate)层将此两种特征进行融合、得到联合特征FFusion;最后,联合特征FFusion通过上采样模块得到其对应的转换图像ITrans。
具体实施例
图4给出了本发明方法(并行网络)、和三种基于单一结构生成器网络的图像翻译方法(Pix2pix、Cycle-GAN、MUNIT)在红外-可见光图像翻译结果的性能比较实例。其中,第一行分别是红外输入图像及不同方法下的图像翻译结果。第二行是各个方法在随机选择的三个局部区域图像清晰度的比较结果。第三行是各个方法图像翻译结果的均方误差MSE、结构相似度SSIM、以及灰度直方图拟合程度的比较结果。
经过对比可以清楚的看出:本发明的并行网络方法在四种方法中取得了最低均方误差MSE(37.5)、最高结构相似度SSIM(0.749)、以及最佳灰度直方图拟合。三种评价指标均好于其他三种基于单一结构生成器网络的图像翻译方法。
本发明的技术内容及技术特征已揭示如上,然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰,因此,本发明保护范围应不限于实施例所揭示的内容,而应包括各种不背离本发明的替换及修饰,并为本专利申请权利要求所涵盖。