CN114917583A

CN114917583A - 一种基于生成对抗网络的动漫风格游戏背景生成方法及平台

Info

Publication number: CN114917583A
Application number: CN202210609683.5A
Authority: CN
Inventors: 刘全; 王逸勉; 朱斐
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-19

Abstract

本发明公开的一种基于生成对抗网络的动漫风格游戏背景生成方法及平台，包括构建游戏背景图像，通过游戏背景图像中获取数据集，构建用于生成色彩分割图的色彩迁移网络和用于重构动漫风格图的风格重构网络，在模型准备阶段使用Python语言创建用于动漫风格迁移的生成对抗网络，使用边缘提取算法生成训练图片对应的线条图片；使用色彩分割算法提取数据集中图片的色彩分割图像；使用Python编程语言建立色彩迁移阶段和风格重构阶段的网络模型G₁和G₂，生成目标动漫风格游戏背景图像C₂。

Description

一种基于生成对抗网络的动漫风格游戏背景生成方法及平台

技术领域

本发明涉及机器人控制领域，更具体的，涉及一种基于生成对抗网络的动漫风格游戏背景生成方法及平台。

背景技术

电子信息类产品开发中，作为一种娱乐形式基于数码设备的电子游戏普及程度越来越广，在全世界拥有着庞大的市场和受众。同时随着游戏的推广，也促进相关科学领域的研究，例如计算机视觉与人工智能领域。动漫风格的电子游戏，例如视觉小说、角色扮演游戏，在画面上，游戏的背景图通常会有不同的时间状态，通过剧情的推进，人物立绘与场景的切换，使玩家沉浸到游戏呈现的世界之中。在电子游戏开发中，高质量的背景绘制存在着如下的问题：

(1)创意受限。和其他文化产品一样，为了从众多游戏项目中脱颖而出，需要独到的创意和启发。

(2)资源不足。绘制一幅游戏背景图片从摄影，草图绘制，再到上色修正，往往需要耗费大量的人力物力资源。此外，培养可以绘制游戏背景的人才需要投入很多资源，耗费很长时间。

因此如何利用计算机技术的发展，解决上述不足成为迫切需要解决的问题。

现有技术并没有针对游戏使用的动漫图像进行风格迁移，例如中国发明专利申请CN113989106A公开了一种任意美学风格迁移方法，不足之处在于，需要提供的两张结构相似的图片，并且生成的图片无法保持清晰的边缘，在印象派和抽象派风格的风格迁移上有着很好的效果，但是用在动漫风格这样需要清晰边缘的风格迁移上效果则并不理想。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于生成对抗网络的动漫风格游戏背景生成方法及平台。

本发明第一方面提供了一种基于生成对抗网络的动漫风格游戏背景生成方法，包括如下步骤：

S1,构建游戏背景图像，通过游戏背景图像中获取数据集，数据集中每个动漫场景由三个不同时间节点的图像组成，对每张图像进行标记属性标签i；

S2,构建用于生成色彩分割图的色彩迁移网络和用于重构动漫风格图的风格重构网络，使用预训练的VGG网络和Gram矩阵构建损失函数，优化生成图像的结构和风格；

其中VGG网络由5层卷积层、3层全连接层、softmax输出层构成，所有隐层的激活单元都采用ReLU函数。使用Gram矩阵构建损失函数是指通过计算通道之间特征图的内积来表示图像的特征；

S3,在模型准备阶段使用Python语言创建用于动漫风格迁移的生成对抗网络，在输入阶段使用边缘检测算法和图像分割算法生成照片的线条图和色块图，与动漫风格图片结合进行非监督训练；使用条件式生成对抗网络对照片的色彩分割图进行色彩迁移，将色块图与目标时间节点标签结合输入生成器，生成不同时间节点图像；非监督式训练是指训练时使用非成对数据，好处是增加样本多样性；

S4，使用边缘提取算法生成训练图片对应的线条图片；

S5，使用色彩分割算法提取数据集中图片的色彩分割图像；

S6，使用Python编程语言建立色彩迁移阶段和风格重构阶段的网络模型G₁和G₂，通过收集到的数据集对G₁和G₂进行训练，将照片P与时间节点标签i输入生成器G₁生成与标签i相对应的色彩分割图像图C₁，再将C₁与P的边缘检测图像E(C₁)输入生成器G₂，生成目标动漫风格游戏背景图像C₂。

本发明一个较佳实施例中，步骤S1中属性签i取值为0、1、2，当属性标签取值为0时，代表该图所处的时间为白天，当属性标签取值为1时，代表该图所处的时间为黄昏，当属性标签取值为2时，表示该图所处的时间为夜晚。

本发明一个较佳实施例中，步骤S1中的数据集中比例为16∶9的图进行处理，处理方法如下；

数据集中比例为16∶9的图从中间裁剪开，得到两张9∶8的图，再将这两张图调整成512×512尺寸大小的图。最后对于得到512×512大小的图，以横纵坐标的二分之一为轴再次裁剪成四张256×256尺寸的图。

本发明一个较佳实施例中，步骤S4中使用边缘提取算法生成训练图片对应的线条图片的方法如下：游戏场景数据库中场景的总数目为M，C(x_t，i)代表第t个场景的i时间条件下的背景图，其中t取值范围为[1，M]，i的取值是0、1、2中的任意一个，对于每一个场景，挑选白天时间节点的图片作为基础图，生成与这个场景相对应的边缘检测图像，如果训练图为C(x_t，i)，那么与之对应的线条图则为E(C(x_t，i))。

本发明一个较佳实施例中，构建色彩迁移网络损失函数，它由两个部分组成：对抗损失函数

内容损失函数：

其中G₁是指色彩迁移阶段的生成器，D₁是指色彩迁移阶段的鉴别器。构建的对抗损失函数为：

式中的S为Felzenszwalb图像分割算法，log是指对数函数，E_y～M指的是从数据集M中抽样一张图片y，E_x～P指的是从数据集P中抽样一张图片x。构建的内容损失函数为：

其中动漫图片数据集为M，y是其中一张动漫图片，t是与之对应的时间节点标签，t的取值是0.0、0.5、1.0中的任一个，分别代表白天、黄昏、夜晚，设照片数据集为P，x是其中一张照片，S代表色彩分割算法，F_gray为视频工程界常用的色彩转换为灰度图的公式，||₁表示计算均方根误差，E_x～P指的是从数据集P中抽样一张图片x，VGG代表预训练的VGG网络，x_r、x_g、x_b分别为图像的红、绿、蓝通道，则有：

F_gray(x)＝0.299*x_r+0.588*x_g+0.144*x_b。

本发明一个较佳实施例中，构建风格重构网络的损失函数，包括对抗损失函数

内容损失函数

风格损失函数

与色彩分割损失函数

本发明一个较佳实施例中，对抗损失函数为：

其中，F_edge是拉普拉斯边缘提取算子，F_fel是Felzenszwalb图像分割算法G₂是指风格重构阶段的生成器，D₂是指风格重构阶段的鉴别器，X’是指色彩迁移阶段生成的图片，E_y～M指的是从数据集M中抽样一张图片y，E_x～P指的是从数据集P中抽样一张图片x。

构建的内容损失函数为：

其中，VGG是指预训练的VGG网络，F_gray是指色彩转换为灰度图的公式，||₁表示计算均方根误差。

构建的风格损失函数为：

构建的色彩分割损失函数为：

其中，Gram代表Gram矩阵。

本发明一个较佳实施例中，生成器G1和G2包括编码和解码两个部分。编码部分包括全连接层、下采样层与多个残差块，每个残差块均为跳跃连接，解码部分包括上采样层与全连接层，生成器的每次下采样，每个特征图的尺寸都会变为前一个特征图大小的二分之一，每次上采样特征图的尺寸都会变成前一个特征图尺寸的两倍。

本发明第二方面提供了一种基于生成对抗网络的动漫风格游戏背景生成平台，平台包括浏览器与服务器，服务器使用动漫风格游戏背景生成方法进行游戏背景的生成，用户使用时直接调用存放在服务器后台的训练模型对游戏背景进行训练，所述浏览器用于显示游戏背景。

本发明的上述技术方案相比现有技术具有以下优点：

1、随着互联网的普及，几乎每台电子设备上都有网页浏览器，并且大部分浏览器都支持运行JavaScript语言。用户不需要配置复杂的环境，只需要电脑有浏览器即可进行游戏背景的制作生成，操作灵活简便。

2、能够在保持清晰边缘的情况下有效地将输入图转换成动漫风格的电子游戏背景图，并生成不同时间条件下的差分图。

3、拥有友好的用户交互界面，网页平台应用基于用户熟悉的交互逻辑，使用户在模型的调用上不再存在障碍，此外本申请增加内容损失函数确保生成结果与输入图像的结构一致性，增加风格损失函数优化网络输出。

通过深度学习解决图像分割、图像分类任务，能够提取图像的高维特征，获得高质量输，通过生成对抗网络能从已有样本数据中训练生成新的图像数据，提高样本数据训练的快速性与精确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的一些附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明优选实施例中动漫风格游戏背景生成方法流程图；

图2为本发明优选实施例中使用FID和用户评价指标得到的评价比较表。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例一：

如图1-2所示，本发明提供了一种基于生成对抗网络的动漫风格游戏背景生成方法，包括两个生成对抗网络，由用于色彩迁移的生成器G₁，鉴别器D₁以及用于风格重构的生成器G₂与鉴别器D₂组成，G₁和D₁会先于G₂和D₂进行训练。

边缘检测算法被用于解决图像处理中的基础边缘检测问题，如使用传统滤波器的Canny算子与基于深度学习卷积网络的整体嵌套边缘检测。色彩分割算法用于将具有相似性质的像素点合并在一起，动漫图片一般拥有清晰的边缘和平滑的纹理，在手工绘图流程中也经常将绘图分为线稿阶段和底色阶段。改进条件式生成对抗网络的游戏背景风格化算法使用边缘检测算法与色彩分割算法提取图片的线条图与色彩分割图，用于模拟实际手工绘制的线稿与底色，使用输出的边缘拥有强弱细节的Laplacian边缘检测算子和基于聚类的Felzenszwalb算法对训练集数据进行预处理。

G₁用于将色彩分割图的色彩转换成特定的时间节点特征颜色，将照片x₁通过Felzenszwalb图像分割算法生成颜色分割图x′₁与时间标签t拼接在一起输入生成器G₁，G₁会输出一张色彩与标签t语义表示相符的输出y₁。鉴别器D₁用于判断输入分割图是否是动漫图片的色彩分割图，以及是否和特定的时间节点语义特征相符。G₂用于将输入的线条图与色彩分割图的特征编码并解码成一张完整的动漫图片，将照片x₂输入训练好的G₁得到一张拥有特定时间节点特征色彩的色块图，再将x₂通过边缘检测算法提取边缘生成线条图x′₂，与色彩图拼接在一起，输入G₂进行训练。D₂用于判断输入的图像是否是动漫图片。

色彩迁移网络损失函数的损失函数由两部分组成，分别是对抗损失、内容损失：

设

为生成器网络的最终权重，那么色彩迁移网络的目标是：

λ₁、λ₂代表对抗损失函数和内容损失函数的权重。将λ₁设置为10，λ₂设置为0.1可以取得相对好的效果。

对抗损失函数

应用于生成器和鉴别器，它的值可以表示G₁输出图像的色彩分割图有多接近动漫图片的色彩分割图，以及与时间节点标签的对应程度的大小。设动漫图片数据集为M，y是其中一张动漫图片，t是与之对应的时间节点标签，t的取值是0.0、0.5、1.0中的任一个，分别代表白天、黄昏、夜晚。设照片数据集为P，x是其中一张照片，S代表色彩分割算法，定义对抗损失函数

的表达式为：

仅使用对抗损失函数会使输出的色彩分割图失去原有的照片分割结构，本文方法使用结构损失函数，约束生成图像与输入图像在结构语义上的一致。在本方法中，使用一个预训练的VGG网络来提取图片的高维语义特征，计算生成图片与原照片在结构语义上的l₁损失函数。由于只需要确保结构与输入一致，不需要色彩与输入一致，所以需要将输出的色彩图转换为灰度图，设F_gray为视频工程界常用的色彩转换为灰度图的公式，x_r、x_g、x_b分别为图像的红、绿、蓝通道，则有：

F_gray(x)＝0.299*x_r+0.588*x_g+0.144*x_b

内容损失函数为：

风格重构网络的损失函数由4个部分组成，分别是对抗损失、内容损失、风格损失、色彩分割损失，表示如下

设

为生成器网络的最终权重，那么风格重构网络的目标为：

γ₁、γ₂、γ₃、γ₄代表对抗损失函数、内容损失函数、风格损失函数、色彩分割损失函数的权重。

的值表示输出图像有多接近动漫图片，x′是色彩迁移阶段训练好的生成器G₁转换的色彩分割图，F_edge是拉普拉斯边缘提取算子，F_fel是Felzenszwalb图像分割算法，则有：

内容损失函数用于使生成图像保持输入图像的结构，同样需要将输入和输出转换为灰度图：

内容损失函数用于使生成图像拥有动漫图像的风格，使用Gram矩阵构成了风格损失函数：

色彩分割损失用于使生成图像保持G₁阶段生成的色彩分割图的色彩，与输入G₁的时间节点标签语义保持一致：

构建一个标注了时间信息的动漫背景图像数据集，数据集中每个动漫场景由三个不同时间节点的图像组成，构建用于生成色彩分割图的色彩迁移网络和用于重构动漫风格图的风格重构网络，使用预训练的VGG网络和Gram矩阵构建损失函数，优化生成图像的结构和风格。

本发明的框架有两个生成对抗网络，由用于色彩迁移的生成器G₁，鉴别器D₁以及用于风格重构的生成器G₂与鉴别器D₂组成，G₁和D₁会先于G₂和D₂进行训练。G₁用于将色彩分割图的色彩转换成特定的时间节点特征颜色，将照片x₁通过Felzenszwalb图像分割算法生成颜色分割图x′₁，x′₁与时间标签t拼接在一起输入生成器G₁，G₁会输出一张色彩与标签t语义表示相符的输出y′₁。鉴别器D₁用于判断输入分割图是否是动漫图片的色彩分割图，以及是否和特定的时间节点语义特征相符。G₂用于将输入的线条图与色彩分割图的特征编码并解码成6张完整的动漫图片，将照片x₂输入训练好的G₁得到一张拥有特定时间节点特征色彩的色块图，再将x₂通过边缘检测算法提取边缘生成线条图x′₂与色彩图拼接在一起，输入G₂进行训练。D₂用于判断输入的图像是否是动漫图片。

本文两个对抗生成网络的生成器与鉴别器结构一致，图中的f表示每个卷积层输出的特征图数量，k表示卷积核的大小，s表示步长。输入G1的图像通道数是4，分别是色块图的红绿蓝三通道以及时间标签的词嵌入图层，输入G2的图像通道数也是4，分别是线条图通道以及G1输出色块图的红绿蓝三通道。生成器G1和G2分为编码和解码两个部分。编码部分由一个全连接层、两个下采样层、还有八个残差块组成。为了防止梯度消散，每个残差块都会做一次跳跃连接，解码部分则由两个上采样层，一个全连接层组成。生成器的每次下采样，每个特征图的尺寸都会变为前一个特征图大小的二分之一，每次上采样特征图的尺寸都会变成之前特征图大小的两倍。鉴别器D1和D2由两个全连接层和两个分布下采样层组成，最后一个全连接层会输出一个原图四分之一尺寸大小的单通道图，每个像素的值代表了一个感受野区域的判定值，最后会将所有像素点的值取平均，这是为了更好地从全局判定图片的真实性。在每个卷积层归一化操作之后，使用LeakyReLU作为激活函数，并将α值设为0.2。

图2公开了本发明与各方法生成效果的对比表，每组从上至下各行分别是白天、黄昏、夜晚标签下的输出。NST的输出结果中的每张图右下角是选取的风格图片，在风格图选取合适的情况下可以输出好的结果，但在实际应用中很难保证每张照片输入都有合适的风格图。CycleGAN的输出结果拥有了动漫图片的色彩，但纹理过于复杂，并且无法生成不同时间特征的图像。MUNIT可以实现生成不同时间特征的风格图片，但MUNIT生成的图片很大程度上丢失了原来的图像结构。在CartoonGAN的基础上加入时间条件输入，并将其命名为cCartoonGAN，它的输出图像拥有时间特征，但是色彩暗淡，纹理不够平滑。本发明输出拥有不同时间特征的色彩和平滑的纹理，路上的栅栏与树枝的线条变得平直，远景使用统一的氛围色彩进行填充，这是游戏原画作画中经常使用的手法。为了使评价更加客观，使用FID距离指标来评估生成图片的质量，如表1所示。FID被一种用于评价图片处理效果的指标，它用一个预训练的ImageNet模型提取图片的高级特征，从而计算出两个图片域的距离。在对不同时间特征的动漫图片域计算FID时，CycleGAN和CartoonGAN各自使用同一个输出域，其他方法则用各组特定时间标签的输出与相对应的动漫时间特征域配对进行计算，因此如图2所示，本发明不仅在动漫风格FID指标取得了最好的结果，而且在每个时间特征域的FID指标比较中也取得了最好的结果。

实施例二

为有效节省游戏开发者的资源与时间，并将模型配置在基于Tensorflow.js的网页平台上，使开发者专注于需要创意的部分，提高游戏作品的质量，程序会自动根据训练好的模型将模型生成为三种不同时间节点的动漫图像，弹出生成结果查看界面之后，可以通过选项面板切换时间节点，点击另存为会弹出文件保存对话框，用户可以将当前的图像保存在电脑硬盘中。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的上述实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，包括如下步骤：

S1，构建游戏背景图像，通过游戏背景图像中获取数据集，数据集中每个动漫场景由三个不同时间节点的图像组成，对每张图像进行标记属性标签i；

S2，构建用于生成色彩分割图的色彩迁移网络和用于重构动漫风格图的风格重构网络，使用预训练的VGG网络和Gram矩阵构建损失函数，优化生成图像的结构和风格；

S3，在模型准备阶段使用Python语言创建用于动漫风格迁移的生成对抗网络，在输入阶段使用边缘检测算法和图像分割算法生成照片的线条图和色块图，与动漫风格图片结合进行非监督训练；使用条件式生成对抗网络对照片的色彩分割图进行色彩迁移，将色块图与目标时间节点标签结合输入生成器，生成不同时间节点图像；

S4，使用边缘提取算法生成训练图片对应的线条图片；

S5，使用色彩分割算法提取数据集中图片的色彩分割图像；

2.根据权利要求1所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，步骤S1中属性签i取值为0、1、2，当属性标签取值为0时，代表该图所处的时间为白天，当属性标签取值为1时，代表该图所处的时间为黄昏，当属性标签取值为2时，表示该图所处的时间为夜晚。

3.根据权利要求1所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，步骤S1中的数据集中比例为16∶9的图进行处理，处理方法如下：

数据集中比例为16∶9的图从中间裁剪开，得到两张9∶8的图，再将这两张图调整成512×512尺寸大小的图，最后对于得到512×512大小的图，以横纵坐标的二分之一为轴再次裁剪成四张256×256尺寸的图。

4.根据权利要求1所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，步骤S4中使用边缘提取算法生成训练图片对应的线条图片的方法如下：游戏场景数据库中场景的总数目为M，C(x_t，i)代表第t个场景的i时间条件下的背景图，其中t取值范围为[1，M]，i的取值是0、1、2中的任意一个，对于每一个场景，挑选白天时间节点的图片作为基础图，生成与这个场景相对应的边缘检测图像，如果训练图为C(x_t，i)，那么与之对应的线条图则为E(C(x_t，i))。

5.根据权利要求4所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，构建色彩迁移网络损失函数，它由两个部分组成：对抗损失函数

内容损失函数：

其中G₁是指色彩迁移阶段的生成器，D₁是指色彩迁移阶段的鉴别器；构建的对抗损失函数为：

式中的S为Felzenszwalb图像分割算法，log是指对数函数，E_y～M指的是从数据集M中抽样一张图片y，E_x～P指的是从数据集P中抽样一张图片x；构建的内容损失函数为：

F_gray(x)＝0.299*x_r+0.588*x_g+0.144*x_b。

6.根据权利要求1所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，构建风格重构网络的损失函数，包括对抗损失函数

内容损失函数

风格损失函数

与色彩分割损失函数

7.根据权利要求6所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，对抗损失函数为：

其中，F_edge是拉普拉斯边缘提取算子，F_fel是Felzenszwalb图像分割算法G₂是指风格重构阶段的生成器，D₂是指风格重构阶段的鉴别器，X’是指色彩迁移阶段生成的图片，E_y～M指的是从数据集M中抽样一张图片y，E_x～P指的是从数据集P中抽样一张图片x；

构建的内容损失函数为：

其中，VGG是指预训练的VGG网络，F_gray是指色彩转换为灰度图的公式，||₁表示计算均方根误差；

构建的风格损失函数为：

构建的色彩分割损失函数为：

其中，Gram代表Gram矩阵。

8.根据权利要求1所述的一种基于生成对抗网络的动漫风格游戏背景生成方法，其特征在于，生成器G1和G2包括编码和解码两个部分。编码部分包括全连接层、下采样层与多个残差块，每个残差块均为跳跃连接，解码部分包括上采样层与全连接层，生成器的每次下采样，每个特征图的尺寸都会变为前一个特征图大小的二分之一，每次上采样特征图的尺寸都会变成前一个特征图尺寸的两倍。

9.一种基于生成对抗网络的动漫风格游戏背景生成平台，其特征在于：平台包括浏览器与服务器，服务器使用权利要求1-8中任一权利要求所述的动漫风格游戏背景生成方法进行游戏背景的生成，用户使用时直接调用存放在服务器后台的训练模型对游戏背景进行训练，所述浏览器用于显示游戏背景。