CN112132741A

CN112132741A - 一种人脸照片图像和素描图像的转换方法及系统

Info

Publication number: CN112132741A
Application number: CN202010831380.9A
Authority: CN
Inventors: 陈振学; 段树超; 刘成云; 卢丹; 闫星合; 朱凯; 黄景; 赵捷
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-12-25
Anticipated expiration: 2040-08-18
Also published as: CN112132741B

Abstract

本发明公开了一种人脸照片图像和素描图像的转换方法及系统，包括：获取带转换的人脸源域图像并进行预处理；将预处理后的图像输入至训练好的循环生成对抗网络，输出转换后的人脸目标域图像；其中，所述循环生成对抗网络以遵循U‑Net模型架构并且包含下采样器、自注意力残差转换器和上采样器的神经网络作为生成器，以由卷积层和池化层组成的神经网络作为判别器。本发明方法采用了自注意力机制，在图像转换过程中集中关注面部区域，加强了对面部特征的约束，对背景等因素的干扰具有更好的鲁棒性，进一步提高合成质量。

Description

一种人脸照片图像和素描图像的转换方法及系统

技术领域

本发明涉及计算机视觉图像技术领域，尤其涉及一种人脸照片图像和素描图像的转换方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

素描人脸合成技术，作为计算机视觉中的热点研究，最初是被作为实现素描人脸识别的一个步骤被提出来的。素描是一种快速粗略显示对象或场景主要特征的使用单一色彩表现明度变化的绘画方式。

近年来，素描人脸合成技术作为异质人脸转换的一个重要分支已经被广泛应用于数字娱乐和刑事侦查领域。在法律执法中，警察通常使用犯罪嫌疑人的照片在由罪犯人脸照片组成的数据库中自动检索，但是在多数情况下，犯罪嫌疑人的照片并不容易获得；因此，一幅法医素描画像对于追踪嫌犯而言是非常关键的。在这种情况下，专业的素描画师根据目击者的描述或视频监控捕捉到的低分辨率人脸照片绘制的法医素描画像常常被用作寻找嫌疑人的替代品，然后再使用素描合成算法将素描画像转换为照片图像或者将数据库中的照片图像转换为素描画像，接着使用现有的人脸识别算法进行匹配识别。尽管要最终确定犯罪嫌疑人有一定的困难，但是使用画师绘制的嫌疑人的人脸素描画像在罪犯人脸照片数据库中搜索是非常有用的。这不仅能帮助警察缩小潜在疑犯的搜索范围，而且还能帮助目击者和画师根据检索出来的相似画像来调整所绘制的素描画像。目前，素描人脸识别技术已成功应用到法律刑侦中，素描合成技术也在数字娱乐、漫画制作中占据了重要地位。

传统的基于示例的方法，尽管在合成素描画像上取得了不错的效果，但其泛化能力较差，当测试样本与训练样本分布差异较大时就很难得到令人满意的效果，很难应用到非受控环境下获得的照片图像到素描画像的转换中，而且合成图像往往过于平滑忽视一些纹理信息。随着卷积神经网络(CNNs)的发展，图像转换任务取得了较大的突破，基于CNNs等模型的方法能够解决非受控环境下的样本与训练样本分布不一致问题。

但是，发明人发现，目前现有基于模型的素描人脸合成方法受限于CNN的局部感受野不能很好地处理全局视野中各特征之间的关系，导致合成图像纹理细节丢失。另外，基于生成对抗网络(GAN)架构的模型在训练过程中会出现不稳定性，从而导致梯度消失或爆炸等问题，也会影响最终图像的合成质量。

发明内容

为了解决上述问题，本发明提出了一种人脸照片图像和素描图像的转换方法及系统，利用循环生成对抗网络(Cycle-GAN)框架实现照片域和素描域图像的相互转换；采用多尺度梯度技术在保证合成图像质量的同时，也解决了GAN训练过程中的不稳定性。

在一些实施方式中，采用如下技术方案：

一种人脸照片图像和素描图像的转换方法，包括：

获取带转换的人脸源域图像并进行预处理；

将预处理后的图像输入至训练好的循环生成对抗网络，输出转换后的人脸目标域图像；

其中，所述循环生成对抗网络以遵循U-Net模型架构并且包含下采样器、自注意力残差转换器和上采样器的神经网络作为生成器，以由卷积层和池化层组成的神经网络作为判别器。

在另一些实施方式中，采用如下技术方案：

一种人脸照片图像和素描图像的转换系统，包括：

数据预处理模块，用于获取带转换的人脸源域图像并进行预处理；

数据转换模块，用于将预处理后的图像输入至训练好的循环生成对抗网络，输出转换后的人脸目标域图像；

在另一些实施方式中，采用如下技术方案：

一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的任一种人脸照片图像和素描图像的转换方法。

与现有技术相比，本发明的有益效果是：

(1)相比于现有基于模型的方法，本发明方法采用了自注意力机制，在图像转换过程中集中关注面部区域，加强了对面部特征的约束，对背景等因素的干扰具有更好的鲁棒性，进一步提高合成质量。

(2)本发明采用了全局残差连接和局部残差连接，在自注意力机制有选择地加强特定信息特征的同时，原始特征的特性不会被破坏，避免了其他特征信息的丢失。

(3)本发明采用了多尺度梯度技术，能够缓解GAN训练中的不稳定性，避免因梯度消失或爆炸而影响模型性能。

(4)由于结合了Cyc l e-GAN的框架，本发明能够实现照片域图像和素描域图像的相互转换。

附图说明

图1是本发明实施例中人脸照片-素描转换方法流程图；

图2是本发明实施例中多尺度梯度残差学习网络框架示意图；

图3是本发明实施例中自注意力残差块示意图；

图4是本发明实施例中自注意力单元示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了一种人脸照片图像和素描图像的转换方法，参照图1，包括以下步骤：

步骤1：提供人脸照片-素描数据库中的照片域和对应的素描域图像，并对图像按双眼位置进行人脸对齐操作并缩放至指定尺寸，获取相应的预处理后的图像，将其组织为训练集和测试集。具体的，双眼位置为(75,125)和(125,125)，指定尺寸为256×256。

步骤2：构建遵循Cycle-GAN的基本结构的循环生成对抗网络，循环生成对抗网络包括由生成器G_p→s和判别器D_s组成的照片域转换为素描域的网络，以及由生成器G_s→p和判别器D_p组成的素描域转换为照片域的网络。

Cycle-GAN本质上是两个镜像对称的GAN网络，网络由两部分组成，p为照片域，s为素描域。以p→s的映射为例，如图2所示，输入一张待转换的照片域图像x，x进入生成器G_p→s。生成器G_p→s主要包含三部分：下采样器、自注意力残差转换器和上采样器。其中，

a)下采样器是卷积核大小均为3×3，步长分别为1、2、2、2的四个卷积块，每个卷积块的第一层是卷积层，卷积层后是Instance Norm层和PReLU层。这些卷积块从输入图像中提取特征并且最终压缩为32×32的特征向量。

b)自注意力残差转换器由四个自注意力残差块和一个卷积核大小为3×3、步长为1的卷积层组成，如图3所示。每个自注意力残差块具有如下结构：

1)包含一个全局残差单元和一个局部残差单元，且局部残差单元嵌入在全局残差单元中；

2)局部残差单元是一个基本的残差块，由两个卷积层和跳层连接组成，跳层连接均采用按元素求和的方式；

3)全局残差单元中还包含两个卷积核大小不同的卷积层和一个自注意力单元；具体为；一个卷积核大小为5×5、步长为1的卷积层、一个自注意力单元和一个卷积核大小为1×1、步长为1的卷积层。

输入在进入自注意力残差转换器后，通过组合网络中的集中关注的图像特征和其它不相近特征，将图像在照片域中的特征向量转换为素描域中的特征向量。

c)上采样器由三个上采样卷积块和一个卷积核大小为3×3、步长为1的卷积层组成。其中，每个上采样卷积块的第一层是放大系数为2的最近邻差值操作和一个卷积核大小为3×3、步长为1的卷积层的组合层，组合层后是I nstance Norm层和PReLU层。利用上采样卷积块从特征向量中还原出低级特征，在每个上采样卷积块之后，输出特征向量与下采样器中相应分辨率的输出特征向量执行按元素求和运算。最后一层为卷积核大小为3×3、步长为1的卷积层，从而得到生成图像。

上述自注意力单元的结构如图4所示，其自注意力分布函数的输入为自注意力残差块中其前面卷积层的输出，记为M，该自注意力分布函数由位置自注意力分布函数和通道自注意力分布函数组成，其具体操作为：

设自注意力单元的输入特征图的高、宽和通道数分别为h，w和c，本实施例中，h＝32，w＝32，c＝512。在位置自注意力分布函数中，M经过1×1卷积层将它转换为A，B和C；A和B被重塑为

通道数变为原来的1/8；C被重塑为R^C×N，且通道数不变；紧接着，将B的转置与A执行矩阵相乘得到位置特征图，记为P；随之，将P的转置与C执行矩阵相乘后，和M执行按元素求和运算得到新的位置特征图，记为E；

在通道自注意力分布函数中，M被重塑为R^C×N，M与M的转置执行矩阵相乘，得到通道特征图，记为X；接着，X与M的转置执行矩阵相乘后，和M执行按元素求和运算得到新的通道特征图，记为H；然后，H和E分别经过3×3卷积层后执行按元素求和运算得到总的自注意力分布特征图，记为D；最后，D经过1×1卷积层后，再与M按元素相加得到最终的特征图，记为N，N的高为h，即32，宽为w，即32，通道数为c，即512，即N为自注意力函数的输出。

判别器D_s其结构类似于Least Squares GAN的架构。判别器D_s网络主要由四个不同分辨率下的处理块组成，以判别器输入为合成的素描域图像为例，其结构如下：

a)在分辨率大小为256×256的处理块中，输入为合成的素描域图像；第一层为卷积核大小为1×1、步长为1的卷积层，其余依次为卷积核大小为3×3、步长为1的卷积层，卷积核大小为3×3、步长为2的卷积层和2×2的最大池化层。除第一层卷积层后为梯度为0.2的LeakyReLU层外，其余卷积层后均为I nstance Norm层和梯度为0.2的LeakyReLU层。

b)在分辨率大小为128×128的处理块中，输入为上一个处理块中的输出和生成器的上采样器中对应分辨率特征向量的输出；第一层为卷积核大小为3×3、步长为1的卷积层，其余依次为卷积核大小为3×3、步长为2的卷积层和2×2的最大池化层。第二个卷积层后为I nstance Norm层和梯度为0.2的LeakyReLU层。

c)在分辨率大小为64×64的处理块中，输入为上一个处理块中的输出和生成器的上采样器中对应分辨率特征向量的输出；第一层为卷积核大小为3×3、步长为1的卷积层，其余依次为卷积核大小为3×3、步长为2的卷积层和2×2的最大池化层。第二个卷积层后为I nstance Norm层和梯度为0.2的LeakyReLU层。

d)在分辨率大小为32×32的处理块中，输入为上一个处理块中的输出和生成器的上采样器中对应分辨率特征向量的输出；第一层为卷积核大小为3×3、步长为1的卷积层，其余依次为卷积核大小为3×3、步长为2的卷积层，卷积核大小为3×3、步长为2的卷积层和2×2的最大池化层。除第一层卷积层外，其余卷积层后均为Instance Norm层和梯度为0.2的LeakyReLU层。

和传统的判别器不同的是，最后一层不是Sigmoid层，而是卷积核大小为4×4、步长为2的卷积层。

步骤3：计算目标损失函数；

a)对抗损失，在GAN网络中，对于映射函数G_p→s:p→s和它的判别器网络D_s，其对抗损失可以表示为以下公式：

上式中，生成器G_p→s生成与素描域图像相似的图像G_p→s(x)，同时判别器D_s努力分辨生成的图像G_p→s(x)与素描域真值图像y。通过优化对抗损失能够将照片域图像的风格转换为素描域的图像风格。

b)循环一致性损失，其可以表示为以下公式：

如果在训练过程中只是用对抗损失，那么映射G_p→s完全可以将所有照片域图像都映射到素描域的同一张图像，使损失无效化。为此，本实施例引入循环一致性损失，通过G_p→s从照片域图像生成素描域图像，再通过G_s→p从素描域图像生成回照片域图像，期望得到x→G_p→s(x)→G_s→p(y)≈x。通过优化循环一致性损失保留输入图像的整体结构。

c)感知损失；使用L1损失或者L2损失会导致重建图像模糊，因此，本实施例采用了基于特征空间的感知损失。感知损失是简单的L2损失，但它是基于生成图像的CNN特征图和目标图像CNN特征图的差异，其表达式如下：

上式中，

是由预先训练好的VGG19网络的某个最大池化层所输出的特征图。在本文中选用的是VGG19网络的第2及第5个池化层，其中第2个池化层提取的是低级特征，第5个池化层提取的是高级特征，通过高级特征和低级特征的组合来保留原始图像的结构。

d)总变化损失；本实施例采用总变化损失来提升生成图像的平滑度，减少伪影，其表达式如下：

e)总的目标损失函数，其表达式如下：

上式中，

其他损失函数以同样的方式定义；在本实施例中，λ₁＝1，λ₂＝10，λ₃＝10^-4，λ₄＝10。

步骤4：利用预处理后的训练集，训练循环生成对抗网络。循环生成对抗网络的训练其实就是两个对称的生成对抗网络的训练，以p→s的映射为例。随机初始化网络中需要训练的参数，训练过程中，每输入一张训练用的人脸照片和对应的人脸素描真值图像为一次迭代。在每次迭代中，由生成器生成的图像训练判别器，将素描域真值图像和生成的图像分别输入到判别器中得到判别输出值，根据二者的判别输出值计算判别器损失来优化判别器，素描域真值图像为真样本，生成的图像为假样本；接着在此判别器下训练生成器，根据生成器损失、循环一致性损失、感知损失和总变化损失优化生成器的网络；接着生成器更新参数并生成新的样本，新的样本再被送到判别器中，再次根据判别器损失对判别器进行优化。将损失输入到优化器中，优化器将损失做最小化处理。交替训练判别器和生成器，直到损失函数不再下降网络才训练完成，保存网络参数。

步骤5：在测试阶段，只要将待转换的照片域图像缩放至指定尺寸，即256×256，输入到生成器G_p→s，此时网络中无训练过程，参数不可变更；生成器的输出即为合成的素描域图像。

本实施例中使用Adam优化器来训练模型，动量设置为β1＝0.5和β2＝0.999；Batchsize大小设置为1；学习率初始设置为10^-3，经过100轮迭代后以10^-1的系数递减直到10^-5，之后不再变化；本实施例基于PyTorch实现，在NVIDIA RTX2080Ti GPU上进行了训练。

实施例二

在一个或多个实施例中，公开了一种人脸照片图像和素描图像的转换系统，包括:

需要说明的是，上述模块的具体工作方法采用实施例一中公开的方法实现，具体不再赘述。

实施例三

在一个或多个实施例中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的人脸照片图像和素描图像的转换方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路AS I C，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的人脸照片图像和素描图像的转换方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种人脸照片图像和素描图像的转换方法，其特征在于，包括：

获取带转换的人脸源域图像并进行预处理；

2.如权利要求1所述的一种人脸照片图像和素描图像的转换方法，其特征在于，所述生成器的输入为设定尺寸的待转换或者待训练的源域图像；源域图像输入后经过下采样器进行特征提取，然后输入自注意力残差转换器根据自注意力分布得到自注意力特征图；将所述特征图输入到上采样器中，并在不同尺度下与下采样器中相应分辨率的输出通过跳层连接进行按元素求和；所述生成器的输出是与输入图像尺寸相同的目标域合成图像。

所述判别器通过分别计算目标域真值图像和目标域合成图像的判别输出值来判断二者的相似程度。

3.如权利要求1所述的一种人脸照片图像和素描图像的转换方法，其特征在于，所述自注意力残差转换器包括四个顺次连接的自注意力残差块和一个卷积层并且带有跳层连接；

所述自注意力残差块包含一个全局残差单元和一个局部残差单元，且局部残差单元嵌入在全局残差单元中，所述全局残差单元中还包括自注意力单元。

4.如权利要求3所述的一种人脸照片图像和素描图像的转换方法，其特征在于，所述自注意力单元中，自注意力分布函数的输入为自注意力残差块中其前面卷积层的输出M，所述自注意力分布函数由位置自注意力分布函数和通道自注意力分布函数组成；自注意力分布函数的输出为通过上述两个分布函数对输入M进行处理变换后得到的最终的特征图N。

5.如权利要求4所述的一种人脸照片图像和素描图像的转换方法，其特征在于，得到自注意力分布函数输出的具体过程包括：

在位置自注意力分布函数中，所述输出M经过卷积层转换为A，B和C；

A，B，C分别被重塑；将B的转置与A执行矩阵相乘得到位置特征图P；将P的转置与C执行矩阵相乘后，和M执行按元素求和运算得到新的位置特征图E；

在通道自注意力分布函数中，所述输出M被重塑后，M与M的转置执行矩阵相乘，得到通道特征图X；X与M的转置执行矩阵相乘后，和M执行按元素求和运算得到新的通道特征图H；H和E分别经过卷积层后执行按元素求和运算得到总的自注意力分布特征图D；D经过卷积层后，再与M按元素相加得到最终的特征图N，即为自注意力函数的输出。

6.如权利要求1所述的一种人脸照片图像和素描图像的转换方法，其特征在于，对于循环生成对抗网络的训练过程，具体包括：

由生成器生成的图像训练判别器，目标域真值图像和生成的图像分别被输入到判别器中得到判别输出值，根据二者的判别输出值计算判别器损失来优化判别器，目标域真值图像为真样本，生成的图像为假样本；

在此判别器下训练生成器，最小化目标损失函数用以优化生成器网络；

生成器更新参数并生成新的样本，新的样本再被送到判别器中，根据判别器损失对判别器再次进行优化；

按照上述过程依次交替训练判别器和生成器，直到损失函数不再下降，则网络训练完成。

7.如权利要求1所述的一种人脸照片图像和素描图像的转换方法，其特征在于，所述循环生成对抗网络采用Cycle-GAN的基本结构，包括由生成器G_p→s和判别器D_s组成的照片域转换为素描域的网络，以及由生成器G_s→p和判别器D_p组成的素描域转换为照片域的网络。

8.如权利要求1所述的一种人脸照片图像和素描图像的转换方法，其特征在于，当源域为照片域图像时，目标域为素描域图像；当源域为素描域图像时，目标域为照片域图像。

9.一种人脸照片图像和素描图像的转换系统，其特征在于，包括：

10.一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-8任一项所述的人脸照片图像和素描图像的转换方法。