CN114359526A

CN114359526A - 基于语义gan的跨域图像风格迁移方法

Info

Publication number: CN114359526A
Application number: CN202111644348.0A
Authority: CN
Inventors: 毛凯; 杨猛; 李鹏飞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15
Anticipated expiration: 2041-12-29
Also published as: CN114359526B

Abstract

本发明针对现有技术的局限性，提出了一种基于语义GAN的跨域图像风格迁移方法，该方法针对当前跨域图像风格迁移方法需要大量训练数据，且经常出现语义不匹配的问题，提出并应用了一种新型的基于语义生成对抗网络的跨域图像风格迁移的模型——语义GAN；该模型框架充分利用GAN的强大功能，通过结合预训练语义分割网络，生成语义分割图引入到生成器以及判别器中，有效地探索了语义信息的引导作用，解决了现有技术中语义不匹配的问题；使得该方案在训练阶段、测试阶段和实际使用时都能利用到图像的语义信息，进而更好地完成图像风格迁移任务。

Description

基于语义GAN的跨域图像风格迁移方法

技术领域

本发明涉及人工智能计算机视觉领域，具体涉及图像处理、深度神经网络处理技术，更具体地，涉及一种基于语义GAN的跨域图像风格迁移方法。

背景技术

图像风格迁移是计算机视觉中图像翻译任务的子任务。图像风格迁移任务，即对于给定的一张内容图像x与一张风格图像y，根据风格图像y提供的风格，将内容图像x转换为与风格图像y风格一致、同时保留了自身内容的新的图像；也可以看作是内容图像x将风格属性A移除，并重新赋予新的风格属性B，图像风格迁移研究，就是寻找出一个映射关系，来完成这两个属性之间的迁移任务。

公开日为2021.07.13的中国发明申请：一种基于风格与内容解耦的图像风格迁移方法，其风格迁移神经网络是用于该任务的任意前馈网络，损失度量网络由风格特征提取模块和内容特征提取模块组成。训练步骤如下：将风格迁移结果图与原内容图送入损失度量网络的内容特征提取模块，计算内容重建损失；将风格迁移结果图与原风格图像送入损失度量网络的风格特征提取模块，计算风格损失；通过损失度量网络训练图像风格迁移网络，使其生成的图像保留原图内容，且具备特定风格图的风格特征。其旨在通过解耦风格和内容损失度量过程，使得所训练的风格迁移网络能够有效摒除来自风格图中内容的干扰。

但是，当前跨域图像风格迁移方法需要大量训练数据，这些数据在现实中获取的代价往往较为高昂；当前的方法也没有很好的解决输入图像和生成图像之间的语义对应问题，经常出现语义不匹配的现象。因此，现有技术仍有一定的局限性。

发明内容

针对现有技术的局限，本发明提出一种基于语义GAN的跨域图像风格迁移方法，本发明采用的技术方案是：

一种基于语义GAN的跨域图像风格迁移方法，包括以下步骤：

S1，获取待处理图像以及所述待处理图像的风格迁移任务；

S2，将所述待处理图像输入到基于语义GAN的模型框架训练得到的跨域图像风格迁移模型，所述跨域图像风格迁移模型根据所述风格迁移任务生成所述待处理图像的跨域图像风格迁移结果；

其中：所述语义GAN的模型框架中包括预训练语义分割网络S、编码器E_y、骨干网络N以及判别器D；所述骨干网络N包括编码器E_x、残差块ResBlocks以及生成器G；所述残差块ResBlocks分别连接所述预训练语义分割网络S、编码器E_y、编码器E_x以及生成器G；所述生成器G连接所述判别器D；在训练过程中：所述预训练语义分割网络S用于提取输入的风格图像的语义概率图；所述编码器E_y用于对输入的风格图像进行特征提取以及下采样操作；所述编码器E_x用于对输入的内容图像进行特征提取以及下采样操作；所述残差块ResBlocks用于根据输入的风格图像的语义概率图、特征以及输入的内容图像的特征，进行进一步的图像特征提取；所述生成器G用于根据所述残差块ResBlocks的特征提取结果，获得输入的内容图像的生成图像；所述判别器D用于对所述生成图像进行判别，计算风格特征损失。

相较于现有技术，本发明针对当前跨域图像风格迁移方法需要大量训练数据，且经常出现语义不匹配的问题，提出并应用了一种新型的基于语义生成对抗网络的跨域图像风格迁移的模型——语义GAN；该模型框架充分利用GAN的强大功能，通过结合预训练语义分割网络，生成语义分割图引入到生成器以及判别器中，有效地探索了语义信息的引导作用，解决了现有技术中语义不匹配的问题；使得该方案在训练阶段、测试阶段和实际使用时都能利用到图像的语义信息，进而更好地完成图像风格迁移任务。

作为一种优选方案，所述语义GAN的模型框架在训练过程中执行以下总损失函数

其中，

表示对抗损失，

表示内容一致性损失，

表示语义类别损失，

表示风格损失，

表示语义区域均值损失，λ₁，λ₂，λ₃，λ₄，λ₅分别表示对应的控制参数。

进一步的，所述对抗损失

按以下公式表示：

其中，E_x(x)表示输入的内容图像x的特征；S(y′)表示输入的风格图像y′的语义概率图；E_y(y′)表示输入的风格图像y′的特征；G(E_x(x)，S(y′)，E_y(y′))表示生成图像；y为用于对所述生成图像进行判别的真实图像。

更进一步的，所述内容一致性损失

按以下公式表示：

更进一步的，所述语义类别损失

按以下公式表示：

其中，M为数据集总语义数量，cⁱ表示第i个语义，

表示第i个语义的预测概率。

更进一步的，所述风格损失

按以下公式表示：

其中，m表示当前图像域的语义数量，f_y∈R^N1×D1表示真实图像y的特征图，

表示真实图像y的第k个语义的分割图，R表示实数，N1表示滤波器的数量，D1表示特征图的大小，f_G(E_x(x)，S(y′)，E_y(y′))表示生成图像的特征图。

更进一步的，所述语义区域均值损失

按以下公式表示：

表示真实图像y的第k个语义的分割图，R表示实数，N1表示滤波器的数量，D1表示特征图的大小，f-G(E_x(x)，S(y′)，E_y(y′))表示生成图像的特征图。

本发明还提供以下内容：

一种基于语义GAN的跨域图像风格迁移系统，包括数据获取模块(1)以及连接所述数据获取模块的图像处理模块；

数据获取模块用于获取待处理图像以及所述待处理图像的风格迁移任务；

图像处理模块用于将所述待处理图像输入到基于语义GAN的模型框架训练得到的跨域图像风格迁移模型，所述跨域图像风格迁移模型根据所述风格迁移任务生成所述待处理图像的跨域图像风格迁移结果；

一种介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现前述的基于语义GAN的跨域图像风格迁移方法的步骤。

一种计算机设备，包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现前述基于语义GAN的跨域图像风格迁移方法的步骤。

附图说明

图1为本发明实施例1提供的基于语义GAN的跨域图像风格迁移方法的步骤示意图；

图2为本发明实施例1提供的语义GAN的框架原理示意图；

图3为本发明实施例1提供的语义GAN在训练过程中的损失函数原理示意图；

图4为本发明实施例1仿真实验的比对图例；

图5本发明实施例2提供的基于语义GAN的跨域图像风格迁移系统示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。

为了解决现有技术的局限性，本实施例提供了一种技术方案，下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

请参考图1，一种基于语义GAN的跨域图像风格迁移方法，包括以下步骤：

S1，获取待处理图像以及所述待处理图像的风格迁移任务；

具体的，所述待处理图像的风格迁移任务指对所述待处理图像进行风格迁移所选择的图像风格，可以为所述跨域图像风格迁移模型在训练过程中训练集各图像域所代表的图像风格。

接下来以两个图像域X和Y为例进行说明：例如红外图像域和可见光图像域；x∈X是X域中任意一张图像，y′∈Y是Y域中任意一张与x类别相同的图像(例如，x是普通金字塔，y′就可以找一张类似的建筑图像——狮身人面像)。x与y′一起输入语义GAN之后，生成图像G(E_x(x)，S(y′)，E_y(y′))，该图像应该即保留x的内容特征，又包含y′的风格特征。本文提出的语义GAN模型框架如图2所示，包括一个语义分割网络S，一个编码器E_y，一个骨干网络N(包括编码器E_x，残差块ResBlocks，生成器G)，一个判别器D。语义分割网络S用于提取y′语义概率图，两个编码器分别用于提取风格图像和内容图像的特征，并完成下采样操作。生成器G用于生成风格迁移后的图像，判别器用于判别输入图像及对应的语义信息的真伪。

所述语义GAN可以视为上下两个部分：

上半部分为一个预训练好的语义分割网络S，在获取Y域中与内容图像x∈X相同类别的图像y′∈Y后，y′经过语义分割网络S，得到其语义概率输出S(y′)，并将语义概率输出S(y′)转换成语义分割蒙版mask(y′)(可以表示为M)。同时，输入y′通过编码器E_y，提取出特征E_y(y′)。

下半部分为实现图像风格迁移的生成对抗网络，内容图像x经过编码器E_x，得到提取的特征E_x(x)。语义分割子网得到的语义概率图S(y′)和提取出的y′特征E_y(y′)作为用于指导图像生成的先验语义信息，将与E_x(x)结合，一起输入到后面的特征生成网络G，此处的特征结合方式可以为concat或逐像素特征叠加的方式。特征与先验语义信息经过生成网络后，得到生成的Y域的图像G(x，y′)。在判别器D的处理中，Y域图像y′，生成的图像G(x，y′)将一同输入，用于判别其为真实图像还是生成图像。此外，还可以在该训练阶段引入真实图像y∈Y，将

和

作为D的输入，其中，M(y)是通过语义分割网络S生成的语义概率图转换而成的语义分割蒙版。在判别器的前三层，将对语义风格图进行下采样，以匹配沿神经网络下采样的特征图的大小，并将其用于提取特征图的风格特征损失计算。

作为一种优选实施例，所述语义分割网络S使用的是预训练好的deeplab模型，用于提取y′的语义概率图；所谓语义概率图，即对输入图像每个像素点的包含所有类别的概率预测。请参阅图3，对于输入图像，经过语义提取后得到各个语义在图中相应位置的激活(原图为彩图，为其中的高亮(黄色)部分)，然后根据该语义概率信息，取每个像素点中语义概率最大的一个类别作为该像素点的类别，即可得到语义分割蒙版mask。

在模型训练阶段，先固定判别器D的参数，训练编码器E_x、E_y和生成器G，随后，固定E_x、E_y和G的参数，训练D，不断重复这个过程，直到模型收敛。在测试阶段，只需要使用训练好的语义分割网络S，编码器E_x和E_y。

请参阅图3，在一种优选实施例中，所述述语义GAN的模型框架在训练过程中执行以下总损失函数

其中，

表示对抗损失，

表示内容一致性损失，

表示语义类别损失，

表示风格损失，

具体的，对抗损失用于计算生成图像G(E_x(x)，S(y′)，E_y(y′))与真实图像y的分布差异，通过不断地交换训练生成网络和判别网络，使两个分布的差异达到最小化，其中生成网络的目标是极小化对抗损失，而判别网络的目标则是极大化对抗损失。通过这种方式使生成器生成的样本无论在真实性上还是多样性上都更加接近真实样本。进一步的，所述对抗损失

按以下公式表示：

具体的，风格迁移任务的目标是把风格图像的风格迁移至内容图像中，即风格迁移前后图像的内容是相同的。虽然生成对抗网络通过生成对抗的博弈过程能够实现从迁移后图像的内容保持，但需要漫长的学习过程，效率较低，且因为没有有效的图像监督，迁移后图像的生成效果是十分有限的。同时在小样本数据的训练中，只使用对抗损失通常不能取得较好的实验结果。因此，在本实施例中，引入了

损失来计算生成图像G(E_x(x)，S(y′)，E_y(y′))与真实图像y的差别。进一步的，所述内容一致性损失

按以下公式表示：

具体的，为了提升和验证生成图像在语义层面的生成效果，本实施例提出语义类别损失项

加入训练。语义类别损失的作用是分别对生成图像G(E_x(x)，S(y′)，E_y(y′))与真实图像y计算语义分类的结果，并期望它们相同的语义结果分类是一致的，这样便能实现语义层面生成的正确性。在实际的操作中，通过将生成图像G(E_x(x)，S(y′)，E_y(y′))与真实图像y分别输入语义风格网络S，得到S(G(E_x(x)，S(y′)，E_y(y′)))和S(y)，衡量两者差异基于的是交叉熵损失，它是一个来自于信息论的度量工具，在信息熵的基础上计算两个概率分布之间的差异。因此我们借助交叉熵来构建语义类别损失，通过最小化真实值与预测结果之间的语义概率分布误差，达到控制语义生成的效果。使用该损失来衡量生成图像语义与真实图像语义的距离。进一步的，所述语义类别损失

按以下公式表示：

其中，M为数据集总语义数量，cⁱ表示第i个语义，

表示第i个语义的预测概率。

具体的，在图像风格迁移任务中，一个关键点是如何对图像中抽象的风格进行统计建模，因为风格建模的好坏决定着图像迁移的效果。Gram矩阵能够很好地表征图像抽象的风格，对于神经网络中某一个隐藏层输出的特征表达用Z∈R^N1×H×W表示，其中N1是当前特征通道数(由滤波器的数量决定)，该值等于特征个数，H×W为特征图Z的大小。然后将其维度转换为R^N1×(HW)，即把三维的特征空间转换为二维的特征矩阵，每一行代表一个特征，共有N1行。然后该特征矩阵Z∈R^N1×(HW)与其自身的转置Z^T进行矩阵运算即可得到Gram矩阵，计算公式为：gram＝Z·Z^T；进一步的，所述风格损失

按以下公式表示：

表示真实图像y的第k个语义的分割图，R表示实数，N1表示滤波器的数量，D1表示特征图的大小，f_G(E_x(x)，S(y′)，E_y(y′))表示生成图像的特征图。公式中“·”运算执行的是逐位置元素相乘乘法，右下角的F指示了该式子所求为Frobenius范数。

具体的，语义类别损失从分类的角度对语义类别作了一定的约束，更进一步的，本实施还从图像的空间角度出发，对空间中每个语义区域做一个均值损失计算，如果生成图像G(E_x(x)，S(y′)，E_y(y′))与真实图像y的语义相同，那么两者的语义区域均值应该相差无几。本实施例在训练过程中引入语义区域均值损失

用于更好地约束每个类别的语义信息。进一步的，所述语义区域均值损失

按以下公式表示：

表示真实图像y的第k个语义的分割图，R表示实数，N1表示滤波器的数量，D1表示特征图的大小，f_G(E_x(x)，S(y′)，E_y(y′))表示生成图像的特征图。公式中的mean操作表示在每个卷积通道上对语义区域求均值操作。

接下来本实施例将结合仿真实验的内容对本实施例所提供的方案做进一步的说明：

仿真实验中，采用RGB-NIR场景数据集来对语义GAN进行训练，从而得到跨域图像风格迁移模型。RGB-NIR场景数据集，包含了477对共9个不同语义场景类别的可见光和近红外图像。这些图像是分别使用可见光和近红外滤光片，在改进的SLR相机上通过曝光来捕获的。该数据集包含的场景类别为：乡村，田野，森林，室内，山脉，建筑，街道，城市和水。本仿真实验使用了除室内类别的其余8个类别的数据，共416组数据，再将其划分为360组训练数据和56组测试数据：

仿真实验的评估指标如下：

本实施例的仿真实验通过定性分析和定量分析两个方面对生成图像的质量进行评价；定性分析主要是从主观视觉效果上比对不同模型的图像生成效果；定量分析则采取的是3个广泛应用于的图像质量评价的指标，均方根误差(RMSE)，峰值信噪比(PSNR)及结构相似性指标度量(SSIM)，这三个客观的评价指标具有较低的复杂度和清晰的物理含义，从图像处理的角度对生成图像质量进行评价。此外，本实施例还采用两个用于评估生成对抗网络生成图像质量和多样性的指标：感知分数(IS)和Frechet感知距离分数(FID)；IS使用一个固定分类网络inception network来对生成的图像进行分类，假如该分类网络能够以较高的概率对图像中包含的物体进行正确分类，这就说明图片质量较高；FID则是通过inception network提取图像的特征，计算生成图像分布和真实图像分布之间的距离。上述指标中，RMSE和FID的值越低越好，PSNR、SSIM和IS的值越高越好。

仿真实验的实验结果如下：

定性分析。将近红外域图像风格迁移到可见光域(NIR2RGB)的部分结果如图4所示，其中，pix2pix、DINO、本实施例使用的语义GAN在训练的过程中使用了配对的真实图像作为监督，DSMAP、SemanticGAN、U-GAT-IT没有使用配对的真实图像进行训练。通过观察测试集的生成图像，可以发现，DSMAP方法能够很好的学习到可见光域的特征，但是生成的图像存在非常严重的语义不匹配现象，几乎可以认为其生成图像失败。这是因为DSMAP方法没有使用配对的真实图像在训练中进行约束，那么就需要大量的训练数据，来拟合真实图像的分布。Semantic GAN在判别器中引入了语义信息，生成的图像语义不匹配的现象比DSMAP少很多，但是仍然存在一定的语义不匹配现象，例如在图4第2列中，SemanticGAN生成的房屋的墙上出现了树，这是很明显的语义不匹配。此外，Semantic GAN对风格的学习不够到位，在一些光线不好的场景，学习到的风格特征不好，例如图4第4行第7列，生成的图像具有非常少的可见光特征。U-GAT-IT引入了注意力机制，比DSMAP生成的效果好，但是生成图像的边界非常模糊，例如图4第5行第5列，草坪、树木和房屋的分界非常模糊，彼此融合。pix2pix和DINO两种方法，生成的图像质量优于前面三种，但都存在语义不匹配现象：图4第6行第6列、第7列的建筑上都出现了树木的特征，图4第7行第2列、第3列的水中都出现了不应该出现的语义。此外，pix2pix生成的图像具有明显的摩尔纹现象，例如图4第6行第3列、第6列、第7列；DINO生成的图像非常模糊，缺少局部纹理细节。

定量分析。5种对比方案以及本实施例的方案的客观指标计算结果如表2所示，可以看到，本实施例使用的语义GAN，在RMSE、PSNR、SSIM、IS四个指标上均优于当前比较先进的图像风格迁移算法。在FID的得分上，比DSMAP和pix2pix差，但是优于其他3种方案，这是因为，FID是从两个域图像的分布这个角度去计算两者的距离，它不能完全反映出生成图像的质量，在实际应用中，通常要结合其他指标一起分析。在定性分析中，也可以观察到，DSMAP生成的图像质量并没有本实施例的方案好。综合5个指标的结果，可以得出结论，本实施例的方案优于5种对比方案。

实施例2

一种基于语义GAN的跨域图像风格迁移系统，请参阅图5，包括数据获取模块1以及连接所述数据获取模块1的图像处理模块2；

数据获取模块1用于获取待处理图像以及所述待处理图像的风格迁移任务；

图像处理模块2用于将所述待处理图像输入到基于语义GAN的模型框架训练得到的跨域图像风格迁移模型，所述跨域图像风格迁移模型根据所述风格迁移任务生成所述待处理图像的跨域图像风格迁移结果；

实施例3

一种介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于语义GAN的跨域图像风格迁移方法的步骤。

实施例4

一种计算机设备，包括介质、处理器以及储存在所述介质中并可被所述处理器执行的计算机程序，所述计算机程序被处理器执行时实现实施例1中的基于语义GAN的跨域图像风格迁移方法的步骤。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。