CN112837215A

CN112837215A - 一种基于生成对抗网络的图像形状变换方法

Info

Publication number: CN112837215A
Application number: CN202110347463.5A
Authority: CN
Inventors: 秦臻; 陈清雅; 丁熠; 庄添铭; 秦志光; 陶子寅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-05-25
Anticipated expiration: 2041-03-31
Also published as: CN112837215B; US20220318946A1

Abstract

本发明公开了一种基于生成对抗网络的图像形状变换方法，包括以下步骤：生成待变换图像的分割掩码；构建生成器和判别器，并通过生成器和判别器构建生成对抗网络；构建损失函数，根据损失函数并以梯度下降法训练生成对抗网络；将待变换图像的分割掩码输入至训练后的生成对抗网络，得到图形形状变换结果。本发明的复杂程度低，图像转换的效率高，可以高效地处理图片中的特定图像进行形状差异大的图形变换，可以运用在动画制作、海报设计等领域，既可以增强图形变换的真实度，也可以降低人工成本，减少工作量。

Description

一种基于生成对抗网络的图像形状变换方法

技术领域

本发明属于图像翻译领域，具体涉及一种基于生成对抗网络的图像形状变换方法。

背景技术

对抗神经网络模型在许多应用中都取得了显著成功，例如图像修复，语义分割，图像字幕，视频生成，样式转换等。图像翻译是计算机视觉中研究最多的领域之一，近年来，由于生成对抗网络的发展，图像翻译领域得到了很大程度的发展。对于给定的来自两个不同域的成对的训练数据，我们可以使用有条件的生成对抗网络以监督的方式训练模型。在没有成对数据集的情况下，我们也可以使用无监督的循环生成对抗网络并使用自洽性损失(self-consistency loss)来解决图像到图像的转换。

但该领域的大多数技术都专注于两个相似形状的风格之间的转换任务，例如季节转换、自拍到动漫，样式转换等，而在不同形状的物体之间的转换任务上没有较好的表现。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于生成对抗网络的图像形状变换方法解决了现有技术中存在的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于生成对抗网络的图像形状变换方法，包括以下步骤：

S1、生成待变换图像的分割掩码；

S2、构建生成器和判别器，并通过生成器和判别器构建生成对抗网络；

S3、构建损失函数；

S4、根据损失函数并以梯度下降法训练生成对抗网络；

S5、将待变换图像的分割掩码输入至训练后的生成对抗网络，得到图形形状变换结果。

进一步地，所述步骤S1具体为：对待变换图像生成关于原始域X的分割掩码m_x以及关于目标域Y的分割掩码m_y。

进一步地，所述步骤S2中生成器包括依次连接的下采样模块、第一Resnet残差网络模块、第二Resnet残差网络模块、第三Resnet残差网络模块、第四Resnet残差网络模块、第五Resnet残差网络模块、第六Resnet残差网络模块以及上采样模块；

所述下采样模块包括依次连接的第一填充层、第一卷积层、第一IN归一化层、第一激活层、第二卷积层、第二IN归一化层、第二激活层、第三卷积层、第三IN归一化层以及第三激活层；

每个所述Resnet残差网络模块均包括依次连接的第二填充层、第四卷积层、第四IN归一化层、第四激活层、第三填充层、第五卷积层以及第五IN归一化层；

所述上采样模块包括依次连接的第一反卷积层、第六IN归一化层、第五激活层、第二反卷积层、第七IN归一化层、第六激活层、第四填充层、第六卷积层以及第七激活层。

进一步地，所述步骤S2中判别器包括依次连接的第七卷积层、第一SN归一化层、第一最大激活层、第八卷积层、第二SN归一化层、第八IN归一化层、第二最大激活层、第八卷积层、第三SN归一化层、第九IN归一化层、第三最大激活层、第三反卷积层、第四SN归一化层、第十IN归一化层、第四最大激活层、第四反卷积层以及第五SN归一化层。

进一步地，所述步骤S2中通过生成器和判别器构建生成对抗网络的具体方法为：

S2.1、构建将原始域X的给定图像转换到目标域Y中图像的生成器G_XY，构建将目标域Y的给定图像转换到原始域X中图像的生成器G_YX；

S2.2、构建预测图像是否为目标域图像的判别器D_Y，构建预测图像是否为原始域图像的判别器D_X；

S2.3、将生成器G_XY和生成器G_YX相互连接，将生成器G_XY与判别器D_Y连接，将生成器G_YX与判别器D_X连接，构建生成对抗网络。

进一步地，所述步骤S2.3中生成对抗网络的一次循环生成过程包括原始域循环生成过程和目标域循环生成过程；

所述原始域循环生成过程具体为：

S2.3.1.1、将原始域图片x及其分割掩码m_x输入生成器G_XY，得到第一目标域生成图片y'及其分割掩码m'_y，记为G_XY(x,m_x)；

S2.3.1.2、将目标域生成图片y'及其掩码m'_y输入至生成器G_YX，得到第一原始域生成图片及其分割掩码G_YX(G_XY(x,m_x))；

S2.3.1.3、将第一目标域生成图片y'及其掩码m'_y与目标域图片y及其分割掩码m_y输入判别器D_Y进行判别，将第一原始域生成图片及其分割掩码G_YX(G_XY(x,m_x))输入判别器D_X进行判别，完成原始域循环生成过程；

所述目标域循环生成过程具体为：

S2.3.2.1、将目标域图片y及其分割掩码m_y输入生成器G_YX，得到第二原始域生成图片x'及其分割掩码m'_x，记为G_YX(y,m_y)；

S2.3.2.2、将第二原始域生成图片x'及其分割掩码m'_x输入生成器G_XY，得到第二目标域生成图像及其分割掩码G_XY(G_YX(y,m_y))；

S2.3.2.3、将第二原始域生成图片x'及其分割掩码m'_x与原始域图片x及其分割掩码m_x输入判别器D_X进行判别，将第二目标域生成图像及其分割掩码G_XY(G_YX(y,m_y))输入判别器D_Y进行判别，完成目标域循环生成过程。

进一步地，所述步骤S3中损失函数

具体为：

其中，

表示对抗损失函数，

表示循环一直性损失函数，

表示认证损失函数，

表示上下文保存损失函数，

表示特征相似度损失函数，λ_adv、λ_cyc、λ_idt、λ_ctx和λ_fs分别表示

和

在损失函数

中所占权重。

进一步地，所述对抗损失函数

具体为：

其中，D_X(x,m_x)表示判别器D_X对原始域图片x及其分割掩码m_x的判别输出，D_X(G_YX(y,m_y))表示判别器D_X对原始域生成图片及其分割掩码G_YX(y,m_y)的判别输出，G_YX(y,m_y)表示目标域图片y及其分割掩码m_y经过生成器G_YX生成的原始域生成图片及其掩码，D_Y(y,m_y)表示判别器D_Y对目标域图片y及其分割掩码m_y的判别输出，D_Y(G_XY(x,m_x))表示判别器D_Y对目标域生成图片及其分割掩码G_XY(x,m_x)的判别输出，G_XY(x,m_x)表示原始域图片x及其分割掩码m_x经生成器G_XY生成的目标域生成图片及其分割掩码；

所述循环一直性损失函数

具体为：

其中，G_YX(G_XY(x,m_x))表示G_XY(x,m_x)经过生成器G_YX生成的原始域生成图像及其分割掩码，G_XY(G_YX(y,m_y))表示G_YX(y,m_y)经过生成器G_XY生成的目标域生成图像及其分割掩码，||*||₁表示1-范数；

所述认证损失函数

具体为：

其中，G_XY(y,m_y)表示原始域图片x及其分割掩码m_x输入生成器G_XY后得到的第一目标域生成图片y的分割掩码，G_YX(x,m_x)表示目标域图片y及其分割掩码m_y输入生成器G_YX得到的第二原始域生成图片x'分割掩码；

所述上下文保存损失函数

具体为：

其中，ω(m_x,m'_y)表示通过分割掩码m_x和m'_y，使用一减去二进制表示的对象掩码中元素最小值；ω(m_y,m'_x)表示过分割掩码m_y和m'_x，使用一减去二进制表示的对象掩码中元素最小值；y'表示原始域图片x经生成器G_XY生成的目标域生成图片，x'表示目标域图片y及其分割掩码m_y经过生成器G_YX生成的原始域生成图片；

所述特征相似度损失函数

具体为：

其中，FS(y,y')表示图像y与图像y'之间的相似度，

表示与图像y'的特征j最相似的图像y的特征i；N表示图像y的特征总数，其与图像y'的特征总数相同；h表示带宽参数，

表示从距离d_ij移动到W_ij的指数化运算，d_ij表示归一化后的相似度距离，W_ij表示相似性，

表示归一化相似性，w_ik表示第k个W_ij的相似性值。

本发明的有益效果为：

(1)本发明提供了一种基于生成对抗网络的图像形状变换方法，实现了形状不同的物体图像之间的转换。

(2)本发明使用循环生成器和鉴别器来学习跨域映射，以目标实例为基础生成具有更接近基础分布的图像，并且可以有效地学习有关形状和位置的复杂分割指导属性。

(3)本发明提出了特征相似度损失函数，在源图像和目标图像之间明确制定相似度比较。

(4)本发明的复杂程度低，图像转换的效率高，可以高效地处理图片中的特定图像进行形状差异大的图形变换，可以运用在动画制作、海报设计等领域，既可以增强图形变换的真实度，也可以降低人工成本，减少工作量。

附图说明

图1为本发明提出的一种基于生成对抗网络的图像形状变换方法的流程图。

图2为本发明中生成器示意图。

图3为本发明中下采样模块示意图。

图4为发明中Resnet残差网络模块示意图。

图5为发明中上采样模块示意图。

图6为发明中判别器示意图。

图7为发明中生成对抗网络示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种基于生成对抗网络的图像形状变换方法，包括以下步骤：

S1、生成待变换图像的分割掩码；

S3、构建损失函数；

S4、根据损失函数并以梯度下降法训练生成对抗网络；

在本实施例中，本发明可应用于游戏设计、动画、平面设计、医学影像以及风格迁移。所述步骤S1中待变换图像可为待变换医学图像、动画设计时的待变换形状的动画图像、游戏设计时待变换形状的游戏人物或建筑图像以及平面设计中待变换的图像。

所述步骤S1具体为：对待变换图像生成关于原始域X的分割掩码m_x以及关于目标域Y的分割掩码m_y。

如图2所示，所述步骤S2中生成器包括依次连接的下采样模块、第一Resnet残差网络模块、第二Resnet残差网络模块、第三Resnet残差网络模块、第四Resnet残差网络模块、第五Resnet残差网络模块、第六Resnet残差网络模块以及上采样模块；

如图3所示，所述下采样模块包括依次连接的第一填充层ReflectionPad2d(3)、第一卷积层、第一IN归一化层、第一激活层ReLU、第二卷积层、第二IN归一化层、第二激活层ReLU、第三卷积层、第三IN归一化层以及第三激活层ReLU；

如图4所示，每个所述Resnet残差网络模块均包括依次连接的第二填充层ReflectionPad2d(1)、第四卷积层、第四IN归一化层、第四激活层ReLU、第三填充层ReflectionPad2d(1)、第五卷积层以及第五IN归一化层；

如图5所示，所述上采样模块包括依次连接的第一反卷积层、第六IN归一化层、第五激活层ReLU、第二反卷积层、第七IN归一化层、第六激活层ReLU、第四填充层ReflectionPad2d(3)、第六卷积层以及第七激活层ReLU。

如图6所示，所述步骤S2中判别器包括依次连接的第七卷积层、第一SN归一化层、第一最大激活层LeakyReLU、第八卷积层、第二SN归一化层、第八IN归一化层、第二最大激活层LeakyReLU、第八卷积层、第三SN归一化层、第九IN归一化层、第三最大激活层LeakyReLU、第三反卷积层、第四SN归一化层、第十IN归一化层、第四最大激活层LeakyReLU、第四反卷积层以及第五SN归一化层。

所述步骤S2中通过生成器和判别器构建生成对抗网络的具体方法为：

S2.3、如图7所示，将生成器G_XY和生成器G_YX相互连接，将生成器G_XY与判别器D_Y连接，将生成器G_YX与判别器D_X连接，构建生成对抗网络。

在本实施例中，生成器一共由三个模块组成：下采样模块、Resnet残差网络模块、上采样模块。

下采样模块通过4层的卷积操作将输入为(1,4,256,256)的特征向量转化成(1,256,64,64)的特征向量。Resnet残差网络模块一共由6个Block组成，输入输出的特征向量的纬度保持不变；上采样模块通过5层的卷积操作将输入为(1,512,64,64)的特征向量转化成(1,3,256,256)的特征向量。

判别器由2个模块组成，分别为下采样模块和分类器模块，下采样模块通过3层的卷积操作将输入为(1,3,256,256)的特征向量转化成(1,256,32,32)的特征向量。

所述步骤S2.3中生成对抗网络的一次循环生成过程包括原始域循环生成过程和目标域循环生成过程；

所述原始域循环生成过程具体为：

所述目标域循环生成过程具体为：

所述步骤S3中损失函数

具体为：

其中，

表示对抗损失函数，

表示循环一直性损失函数，

表示认证损失函数，

表示上下文保存损失函数，

和

在损失函数

中所占权重。

所述对抗损失函数

具体为：

所述循环一直性损失函数

具体为：

所述认证损失函数

具体为：

所述上下文保存损失函数

具体为：

所述特征相似度损失函数

具体为：

其中，FS(y,y')表示图像y与图像y'之间的相似度，

表示从距离d_ij移动到W_ij的指数化运算，d_ij表示归一化后的相似度距离，W_ij表示相似性，W_ij/∑_kw_ik表示归一化相似性，w_ik表示第k个W_ij的相似性值。

利用这些高级特征计算两幅图像之间的相似度FS(y,y')。具体来说，在正向过程中，每一层生成特征图，由真实训练数据得到的真实图像y’包含y_i特征，而合成图像y’包含y’_j特征，y’_j特征的内容属性和样式属性与真实域数据集一致，假设这两幅图像的特征数N相同，其中N＝|R|＝|F|。我们发现每个y’_j最相似的特征y_i，即

然后，将y’_j上的所有相似值相加，计算出两幅图像之间的上下文相似值，最后除以N得到平均相似度FS(y,y')。

本发明的有益效果为：

Claims

1.一种基于生成对抗网络的图像形状变换方法，其特征在于，包括以下步骤：

S1、生成待变换图像的分割掩码；

S3、构建损失函数；

S4、根据损失函数并以梯度下降法训练生成对抗网络；

2.根据权利要求1所述的基于生成对抗网络的图像形状变换方法，其特征在于，所述步骤S1具体为：对待变换图像生成关于原始域X的分割掩码m_x以及关于目标域Y的分割掩码m_y。

3.根据权利要求1所述的基于生成对抗网络的图像形状变换方法，其特征在于，所述步骤S2中生成器包括依次连接的下采样模块、第一Resnet残差网络模块、第二Resnet残差网络模块、第三Resnet残差网络模块、第四Resnet残差网络模块、第五Resnet残差网络模块、第六Resnet残差网络模块以及上采样模块；

4.根据权利要求1所述的基于生成对抗网络的图像形状变换方法，其特征在于，所述步骤S2中判别器包括依次连接的第七卷积层、第一SN归一化层、第一最大激活层、第八卷积层、第二SN归一化层、第八IN归一化层、第二最大激活层、第八卷积层、第三SN归一化层、第九IN归一化层、第三最大激活层、第三反卷积层、第四SN归一化层、第十IN归一化层、第四最大激活层、第四反卷积层以及第五SN归一化层。

5.根据权利要求1所述的基于生成对抗网络的图像形状变换方法，其特征在于，所述步骤S2中通过生成器和判别器构建生成对抗网络的具体方法为：