CN114419178A

CN114419178A - 一种基于深度学习的壁画对应线稿生成方法及设备

Info

Publication number: CN114419178A
Application number: CN202210061568.9A
Authority: CN
Inventors: 玄祖兴; 李航宇; 李佳洪; 庄晓
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-04-29

Abstract

本发明提供了一种基于深度学习的壁画对应线稿生成方法及设备，该方法包括：搜集壁画、线稿图像数据，并进行预处理，形成真实壁画图像I_RB、真实线稿图像I_RX；将真实壁画图像I_RB、真实线稿图像I_RX按照RGB通道依次分别作为壁画生成器、线稿生成器的输入；壁画生成器、线稿生成器分别生成像素级别对应的壁画、线稿，完成风格转化。本方案采用循环生成对抗网络的方式，实现非配对壁画图像和线稿图像之间的风格转化，且引入了残差尺度，防止训练深层网络的不稳定性，能够尽量避免信息的丢失，能够在转换较逼真风格图像的同时保持原本的纹理结构信息。

Description

一种基于深度学习的壁画对应线稿生成方法及设备

技术领域

本发明涉及图像处理领域，特别是图像风格转化相关技术，尤其涉及一种基于深度学习的壁画对应线稿生成的方法及设备。

背景技术

古代墓葬壁画作为不可再生资源，由于自身材料的稳定性、自然环境的变化以及后期的人为破坏等诸多原因，无可避免的会产生病害现象，对壁画进行研究和保护上都存在着较大困难。传统人工修复墓室壁画的方法是依靠科研工作者丰富的经验和绘画技术，但耗时较长并且对修复者有极高的要求。在对壁画进行数字修复和记录时，往往会先对壁画临摹出相对应的线稿。通过对线稿的补全上色等操作能更快更好的辅助数字壁画的修复。线稿视觉观感相对于墓室壁画原图更加简洁，没有冗余的信息，更加有利于展示壁画的纹理信息以及真实破损程度。然而，人为绘制的线稿存在主观性的问题，绘制线稿与墓室壁画可能存在偏差，难以得到像素级别对应的线稿，通过深度学习的方法对壁画图像进行风格转化能够获得近乎对应的线稿图像。

在以往的许多研究中需要用到配对的图像进行风格转化,在壁画风格转换的任务当中，寻找高度配对的线稿图象是困难的，但存在许多的局部配对或者非配对的线稿。因此，在壁画修复中，为便于壁画修复工作人员的研究工作，如何针对壁画风格特点，进行线稿的有效配对以及生成，亟待进一步改进和优化。

发明内容

有鉴于此，本发明提供了一种基于深度学习的壁画对应线稿生成方法及设备。它能够在非配对的数据下进行训练，生成像素级别对应的线稿和壁画。

具体而言，本发明提供了如下技术方案：

一方面，本发明提供了一种基于深度学习的壁画对应线稿生成方法，该方法包括：

步骤1、搜集壁画、线稿图像数据，并进行预处理，形成真实壁画图像I_RB、真实线稿图像I_RX；

步骤2、将真实壁画图像I_RB、真实线稿图像I_RX按照RGB通道依次分别作为壁画生成器、线稿生成器的输入；

步骤3、壁画生成器、线稿生成器分别生成像素级别对应的壁画、线稿，完成风格转化。

优选的，所述壁画生成器和/或所述线稿生成器的结构为：

由一个或多个密集链接残差块串接构成；所述密集链接残差块结构为：3×3的卷积块连接归一化层，归一化层连接RELU激活函数；

所述密集链接残差块中引入残差尺度，所述残差尺度乘以残差后，再添加至主路径中，所述残差尺度取值范围为(0,1)。

优选的，所述壁画生成器、线稿生成器在训练时，同时构建壁画判别器、线稿判别器；

真实壁画图像I_RB作为壁画生成器的输入，输出生成壁画图像I_FB；真实线稿图像I_RX作为线稿生成器的输入，输出生成线稿图像I_FX；

I_RB和生成壁画图像I_FB作为壁画判别器的输入，输出I_RB和I_FB为真实图像的概率；I_RX和生成线稿图像I_FX作为线稿判别器的输入，输出I_RX和I_FX为真实图像的概率。

优选的，所述判别器由一个或多个判别链接组串接构成，所述判别链接组由一个3×3卷积块、批归一化层和leaky RELU激活函数串联结构。

优选的，所述壁画生成器、线稿生成器、壁画判别器、线稿判别器在训练过程中，以对抗损失函数l_GAN、内容损失函数作为目标函数；

训练壁画判别器、线稿判别器时，固定对应的壁画生成器、线稿生成器，采用梯度上升的方式求l_GAN的最大值，梯度回传更新壁画判别器、线稿判别器参数，直至收敛完成训练；在训练壁画生成器、线稿生成器时，固定对应的壁画判别器、线稿判别器，采用梯度下降的方式求l_GAN的最小值，梯度回传更新生成器参数，直至收敛完成训练。

优选的，所述对抗损失函数为：

其中，D表示判别器的处理过程，G表示生成器的处理过程，I^F和I^R分别表示生成图像和真实图像；或者

所述对抗损失函数为最小二乘交叉熵函数或Wasserstein距离函数。

优选的，所述内容损失函数为：

其中，W和H分别为图像的宽和高，I_x,y为图像在x,y处的像素值，I^R表示真实图像，G_A是线稿生成器的处理过程，G_B表示壁画生成器的处理过程；或者

所述内容损失函数为壁画判别器/线稿判别器中特征图的均方误差。

优选的，所述壁画判别器和/或所述线稿判别器由一个或多个判别链接组串接构成；所述判别链接组由一个3×3卷积块、批归一化层和leaky RELU激活函数串联构成。

优选的，所述壁画判别器和/或线稿判别器为VGG16网络或RESNET18网络。

另一方面，本发明还提供了一种基于深度学习的壁画对应线稿生成设备，该设备至少包括：处理器及存储器，所述处理器可以调用存储于所述存储器中的指令，以执行如上所述的基于深度学习的壁画对应线稿生成方法。

又一方面，本发明还提供了一种基于深度学习的壁画对应线稿生成系统，该系统包括：

图像预处理模块，用于搜集壁画、线稿图像数据，并进行预处理，形成真实壁画图像I_RB、真实线稿图像I_RX；

壁画生成器，用于生成像素级别的壁画，完成风格转化；真实壁画图像I_RB按照RGB通道作为所述壁画生成器的输入；

线稿生成器，用于生成像素级别的线稿，完成风格转化；真实线稿图像I_RX按照RGB通道作为线稿生成器的输入。

优选的，所述壁画生成器、线稿生成器在训练时，所述系统还额外设置壁画判别器、线稿判别器。

优选的，真实壁画图像I_RB作为壁画生成器的输入，输出生成壁画图像I_FB；真实线稿图像I_RX作为线稿生成器的输入，输出生成线稿图像I_FX；

与现有技术相比，本发明的技术方案至少具有以下优点：本方案采用循环生成对抗网络的方式，实现非配对壁画图像和线稿图像之间的风格转化。为了防止训练深层网络的不稳定性，引入了残差尺度，通过在向主路径添加残差之前，将乘以一个0到1的常数来缩小残差。在此基础上通过密集链接保证纹理和风格的细节处理效果，尽量避免信息的丢失。同时通过对抗损失函数和内容损失函数控制网络能够在转换较逼真风格图像的同时保持原本的纹理结构信息。我们采用PSNR/SSIM衡量经过两次风格转化后的图像与原图像的相似程度，NIQE衡量一次风格转化后得到图像的观感。经过实验证明，本发明提出的方法在重建图像的精度(PSNR/SSIM)和风格转化后的观感(NIQE)上与其他现有的技术(PIXTOPIX、MUNIT、cyclegan)相比，具备较明显的优势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的系统结构图；

图2为本发明实施例的生成器网络的结构详图；

图3为本发明实施例的判别器网络的结构详图；

图4为本发明实施例与现有技术的试验结果对比例图；

图5为本发明实施例的风格转化流程图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

本发明提供一种基于生成对抗网络的壁画生成对应线稿的方法及系统，如图1、2和3所示，本发明中采用了一种密集链接残差块最为生成器的结构提取深度特征，以防止训练深层网络的不稳定性，避免纹理和细节信息的丢失。同时通过对抗损失函数和内容损失函数控制网络能够在转换较逼真风格图像的同时保持原本的结构信息。相比于其他现有的技术，提出的方法在重建图像的精度和风格转化后的观感上具有明显优势。以下对本发明技术方案的实现步骤进行详细阐述。

步骤1、搜集一定数量的壁画和线稿素材(可配对也可非配对)，对素材进行相同规格的裁剪、缩放、翻转处理丰富样本数据。本实施例中，数据集采用节愍太子墓壁画、唐新城公主墓壁画、懿德太子墓壁画扫描的数字图像，此外，将图像分割裁剪至512×512作为Ground truth，每次随机选取48×48区域大小的切片进行随机翻转、平移、旋转增强数据作为网络的输入。以下继续结合上述的实施例数据，对本发明的技术方案进行详细阐述。

步骤2、分别构建壁画判别器、线稿判别器，以及构建两个壁画生成器、线稿生成器，所述壁画生成器、壁画判别器用于壁画图像的生成与判别；所述线稿生成器、线稿判别器用于线稿图像的生成与判别。

其中真实的壁画图像I_RB作为壁画生成器的输入，真实的线稿图像I_RX作为线稿生成器的输入；I_RB和生成的壁画图像I_FB作为壁画判别器的输入，I_RX和生成的线稿图像I_FX作为线稿判别器的输入。

生成器通过构造密集链接残差块防止训练深层网络的不稳定性，引入了残差尺度，如图2中所示的常数α，通过在向主路径添加残差(将密集链接提取的特征加到主路径的特征上)之前，乘以一个0到1的参数α来缩小残差，这一过程是将密集链接提取的特征乘以该常数α，再返回至主路径，形成残差，此处的参数α在网络训练过程中被设置为一参数，在训练完成后的使用过程中，将固定为一具体的常数。在此基础上通过密集链接保证纹理和风格的细节处理效果，尽量避免信息的丢失。通过多个密集链接残差块提取并整合深度特征输出生成的线稿I_FX/壁画I_FB图像。

在判别器中，我们可以采用级联结构或者包含注意力机制的残差结构作为深度特征提取的方案。在一个更为优选的实施方式中，我们将I_RB和I_FB作为壁画判别器D_B的输入，通多一个或若干个判别链接组(3×3卷积块、批归一化层和leaky RELU激活函数组成的结构)深度提取特征，将深度特征扁平化处理后通过sigmoid函数输出I_RB和I_FB为真实图像的概率。同样I_RX和I_FX作为线稿判别器D_A的输入，输出I_RX和I_FX为真实图像的概率。当然，除了上述给出的优选的判别器的结构外，我们还可以采用例如VGG16、RESNET18等分类网络作为判别器。

本实施例中基于生成对抗网络的壁画生成对应线稿的方法的生成器和判别器具体的运行过程、详细步骤和运行机制如下：

将真实的壁画I_RB/线稿I_RX图像按照RGB通道作为线稿G_A/壁画G_B生成器的输入。在一个优选的实施方式中，壁画/线稿生成器的结构可以采用相同的结构，当然，也可以采用不同网络结构的网络来实现，仅以能够实现其相应的基本功能为限定。

在一个优选的实施方式中，生成器具体可由3×3的卷积块(即图2中Conv层)和RELU激活函数组成的密集链接残差块构成，中间包含批归一化层稳定网络训练，不包含池化层，防止像素级别的信息被去除。生成器的结构，结合图2，由一个或多个密集链接残差块构成，每个密集链接残差块结构为：3×3的卷积块连接归一化层，归一化层连接RELU激活函数。当存在多个密集链接残差块时，各个残差块之间形成串接。

生成器将I_RB/I_RX图像按照RGB三通道读入，首先通过卷积块转化为64通道，然后通过后续的一个或多个密集链接残差块对特征深度提取整合，密集链接残差块之间由密集链接的方式组成，多个密集链接残差块提取的特征利用残差的方式和主干上的特征相加(例如图2中为5个密集链接残差块)，在多次(例如图2中为3次操作)这样的操作后输出3通道(RGB)的I_FX/I_FB图像。

在一个优选的实施方式中，判别器是一个基于深度学习的二分类器，在一个优选的实施方式中，壁画/线稿判别器的结构可以采用相同的结构，当然，也可以采用不同网络结构的网络来实现，仅以能够实现其相应的基本功能为限定。

在一个更为优选的实施方式中，参考图3所示，判别器的结构可以采用由一个或多个判别链接组串接构成的结构。该判别链接组由一个3×3卷积块、批归一化层和leakyRELU激活函数串联构成。

将I_RX/I_RB和生成的I_FX/I_FB按照RGB三通道读入，通过若干个3×3卷积块、批归一化层和leaky RELU激活函数组成的串联结构深度提取特征，将深度特征扁平化处理后通过sigmoid函数输出线稿/壁画图像为真实的概率。线稿判别器和壁画判别器都只在训练期间使用，以辅助生成器的训练。在训练完成后，使用线稿生成器和壁画生成器做图像的风格转换。此处的扁平化处理，即将n个特征图通过池化后变为n个1×1的特征图，再将其拉升为n维向量表示。

步骤3、对构建的壁画生成器、线稿生成器、壁画判别器、线稿判别器进行训练。在训练生成器的过程中，要求生成的壁画图像尽可能被壁画判别器判断为真实图像，生成的线稿图像尽可能被线稿判别器判断为真实图像。同时要求生成的壁画/线稿作为输入再由线稿/壁画生成器得到的线稿/壁画与原始输入的I_RX/I_RB尽可能的接近。

在一个更为优选的实施方式中，在训练的过程中，我们采用两个损失函数作为我们的训练目标，即对抗损失函数和内容损失函数。

在训练过程中，判别器需要判断输入图像的真实性以辅助生成器的训练，在真实性判断中，在一个优选的实施方式中，利用对抗损失函数

衡量真实的图像分布和生成的图像分布之间的JS散度，其中D表示判别器的处理过程，G表示生成器的处理过程，I^F和I^R分别表示生成图像和真实图像，E表示期望。在训练判别器时，期望判别器将I^R判定为真(输出接近于1)，I^F判定为假(输出接近于0)，因此，训练判别器时，固定生成器，采用梯度上升的方式求l_GAN的最大值，梯度回传更新判别器参数；在训练生成器时，固定判别器，采用梯度下降的方式求l_GAN的最小值，梯度回传更新生成器参数。

此处，需要说明的是，除了本实施例中给出的优选的对抗损失函数之外，这里的损失函数还可以采用例如最小二乘交叉熵(LSGAN)、Wasserstein距离(WGAN)等。这些常规的替换均应当视为落入本发明的保护范围之内。

在生成器的训练中，将真实的壁画/线稿图像作为线稿/壁画生成器的输入，生成的线稿/壁画图像再作为壁画/线稿生成器的输入，其生成的壁画/线稿图像应与最初输入的真实的壁画/线稿图像尽可能的接近，以保证在风格转化的过程中减少信息的丢失。在一个更为优选的实施方式中，这一过程我们用图像像素级别的重建损失来衡量，内容损失函数

控制风格在循环转化的过程中减少信息的丢失。其中W和H分别图像的宽和高，I_x,y为图像在x,y处的像素值，I^R表示真实图像，G_A是线稿生成器的处理过程，G_B表示壁画生成器的处理过程。在l_MSE降低的同时，重建的图像越接近原图，表明风格转换的过程中信息丢失的越少。

此处，需要说明的是，除了本实施例中给出的优选的内容损失函数之外，还可以采用判别器中的特征图的均方误差等作为内容损失函数使用，这些常规的替换均应当视为落入本发明的保护范围之内。

在一个更为优选的实施方式中，对抗损失函数和内容损失函数的计算值比例为1：400。

步骤4、待判别器、生成器模型训练收敛后，可将壁画和线稿生成器用作风格转化，将真实的壁画/线稿作为输入，生成像素级别对应的线稿/壁画。在网络训练完毕后，两个判别器均不参与图像的生成和后续模型的使用，人为选取需要转换的图像作为线稿或壁画生成器的输入，输出所需对应风格的图像。

结合图5所示，当训练完毕后，在使用生成器进行图像的风格转化时，则不再使用判别器，此时的步骤流程则简化为：

在又一个具体的实施例中，本发明通过与现有技术的实验结果对比，进一步详细阐述本发明方案的内容。本次实施例中，实验的软硬件环境可以做如下设置：本实施例的软件环境为windos，在pytorch1.7中实现，CPU为10700k，频率3.8MHZ，运行内存大小为64GB，频率为3200MHZ，GPU为NVIDIA GeForce GTX3080(10GB)，硬盘为三星970EVOPlus NVMe M.2(1TB)。在实验中，采用动量参数为0.9的Adam优化器优化模型参数，学习率初始值设置为0.01，每50轮调整一次学习率。具体的实验内容为：

1、探寻不同的生成器结构对网络性能的影响，在非配对图像风格转化的训练中，保持一致的结构信息是一个具有挑战的问题，我们采用密集链接残差块在网络深度不断加深的过程中保持一致的结构信息。我们将密集链接残差块的数量从2开始不断增加至8，其循环风格转化后重建的图像质量(PSNR)也几乎从15.2db线性增长至25.7，在之后数量逐渐增加到16的过程中图像重建质量变化不大，而参数内存增长了83％，因此，在后续的对比实验中我们将密集链接残差块的数量锁定在8个。

2、与现有的先进方法(cyclegan、MUNIT、PIXTO PIX)进行比较如下表1所示:

表1

本发明提出的方法在图像重建质量(PSNR/SSIM)和观感(NIQE)上均取得了明显的优势，图4展示了不同方法在壁画转化线描风格任务下的表现。

在又一方面，本发明的技术方案还可以通过一种系统的方式来实现，该系统包括：

本方案在又一种实施方式下，可以通过设备的方式来实现，该设备可以包括执行上述各个实施方式中各个或几个步骤的相应模块。因此，可以由相应模块执行上述各个实施方式的每个步骤或几个步骤，并且该设备可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本方案的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本方案的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如，本方案中的方法实施方式可以被实现为软件程序，其被有形地包含于机器可读介质，例如存储器。在一些实施方式中，软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时，可以执行上文描述的方法中的一个或多个步骤。备选地，在其他实施方式中，处理器可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述方法之一。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，可以具体实现在任何可读存储介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度学习的壁画对应线稿生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述壁画生成器和/或所述线稿生成器的结构为：

3.根据权利要求1所述的方法，其特征在于，所述壁画生成器、线稿生成器在训练时，同时构建壁画判别器、线稿判别器；

4.根据权利要求3所述的方法，其特征在于，所述判别器由一个或多个判别链接组串接构成，所述判别链接组由一个3×3卷积块、批归一化层和leaky RELU激活函数串联结构。

5.根据权利要求3所述的方法，其特征在于，所述壁画生成器、线稿生成器、壁画判别器、线稿判别器在训练过程中，以对抗损失函数l_GAN、内容损失函数作为目标函数；

6.根据权利要求5所述的方法，其特征在于，所述对抗损失函数为：

7.根据权利要求5所述的方法，其特征在于，所述内容损失函数为：

8.根据权利要求5所述的方法，其特征在于，所述壁画判别器和/或所述线稿判别器由一个或多个判别链接组串接构成；所述判别链接组由一个3×3卷积块、批归一化层和leakyRELU激活函数串联构成。

9.根据权利要求5所述的方法，其特征在于，所述壁画判别器和/或线稿判别器为VGG16网络或RESNET18网络。

10.一种基于深度学习的壁画对应线稿生成设备，其特征在于，所述设备至少包括：处理器及存储器，所述处理器可以调用存储于所述存储器中的指令，以执行如权利要求1-9任一所述的基于深度学习的壁画对应线稿生成方法。