CN108647560B

CN108647560B - 一种基于cnn的保持表情信息的人脸转移方法

Info

Publication number: CN108647560B
Application number: CN201810237576.8A
Authority: CN
Inventors: 曾坤; 潘文优; 陈湘萍
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2022-06-14
Anticipated expiration: 2038-03-22
Also published as: CN108647560A

Abstract

本发明公开了一种基于CNN的保持表情信息的人脸转移方法。该方法通过结合人脸识别网络和表情识别网络达到保存特征信息的脸部转换效果，可以把图片A的人脸转移到另外一张图片B人脸上，在转换的过程中，仍然保持图片B的表情信息和其余的非人脸信息。它解决了两个核心技术问题，一是人脸合成的过程中合成部分与原图部分不和谐的问题；第二个是合成部分和原图部分合成之后人脸信息丢失的问题，包括识别信息和表情信息丢失。实施本发明实施例，可以增加人们生活中对图像处理的需求，使得在人脸处理上又多一样应用；同时，能够使“拍照不适人群”通过图像合成的方式生成更多自己的图片。

Description

一种基于CNN的保持表情信息的人脸转移方法

技术领域

本发明涉及计算机视觉和人工智能领域，具体涉及一种基于CNN的保持表情信息的人脸转移方法。

背景技术

上世纪80年代Hinton和Rumelhart等人奠定和推广了用来训练多层神经网络的反向传播算法(back-propagation)，神经网络再次迎来了春天。通过反向传播算法，人们可以通过计算机巨量的计算之后，将计算机的学习过程进一步提高到以往的学习算法所不能企及的高度。DeepLearning是多伦多大学GeoffreyHinton教授提出的概念。由于传统的多层感知机很容易陷入局部最小，直接用反向传播算法(Back Propagation)求取的分类效果并不如意，原因一是特征是手工的，二就是局部最小问题。而DeepLearning引入了概率图模型里的生成模型，他可以直接自动的从训练集里提取所需要的特征，典型的模型为有限制玻尔兹曼机(Restricted Boltzmann Machines，简称RBM)，自动提取的特征解决了手工特征考虑不周的因素，而且很好的初始化了神经网络权重，接着可以采用反向传播算法进行分类，实验得出了很好的效果。

CNN是一种针对图像而特别发明的一种网络结构，它基于图像具有强烈位置相关性这样一个先验知识，通过对图像局部提取特征来提高网络的性能。上世纪80年代，LeCun利用BP算法来训练多层神经网络用于识别手写邮政编码，在这项工作中，首先用到了卷积核的概念。而真正代表CNN的被广泛认知的标志工作则是LeCun在1998年提出的LeNet。

2012年，Hinton的学生Alex Krizhevsky用GPU训练了一个DeepLearning模型，一举摘下了视觉领域竞赛ILSVRC 2012的桂冠，在百万量级的ImageNet数据集合上，效果大幅度超过传统的方法，从传统的70％多提升到80％多。从此，Deep Learning一发不可收，ILSVRC的最好成绩每年都不断被Deep Learning刷新。至此，CNN正式成为计算机视觉的各个领域第一工具。

图像生成和风格转移是计算机视觉的一个热门主题，其目标是将一张图的风格应用到另外一张图上。在神经网络之前，图像风格迁移的程序有一个共同的思路：分析某一种风格的图像，给那一种风格建立一个数学或者统计模型，再改变要做迁移的图像让它能更好的符合建立的模型。这样做出来效果尚可，但有一个很大的缺点：一个程序基本只能做某一种风格或者某一个场景。因此基于传统风格迁移研究的实际应用非常有限。2015年，Gatys发表了两篇论文将传统的风格转移工作完全转移到了CNN网络中，从此风格转移的算法就以CNN网络为主。

人脸修复是计算机图像处理上热门的话题。在日常生活中，拍照是我们最常见的生活方式。对于脸部的美化要求，就催生人脸修复的研究。传统的人脸修复是基于图像学或者信号学的算法。通常是采用一些滤波器进行卷积操作，对图像做平滑以达到去掉一些噪声和斑点的作用。2015年，Patrick Perez提出的Poisson Blending算法让图像修复和融合结果更佳的自然。随后，在2017年，Yijun Li小组发表的Generative Face Completion论文提出了使用CNN的算法做人脸修复，其效果能够直接修补人脸中缺失的区域，而不仅仅是对噪声点的填补。

人脸转移是建立在风格转移和人脸修复的基础上新提出的方向，利用CNN神经网络的优秀特性，使得两张图片的人脸转移变得可能。

人脸转移方法主要有：FaceU软件基于人脸特征点的面部转移技术。FaceU的面部技术是基于脸部特征点提取和图像拼接融合完成的，具体步骤为：1)人脸检测，检测到人脸的具体位置；2)人脸特征点提取，提取到人脸的关键特征点，比如脸部轮廓和五官等；3)人脸分割，把人脸区域分割出来；4)人脸区域互换，将两个人的人脸区域调换；5)图像融合，将调换后的两张人脸和图像其余位置融合。

基于特征点的面部转移的缺点在于：

1、身份辨认信息丢失。在脸部交换后，由于跟原图的融合存在大小上的差异，从而交换后的人脸并不像一个人，或者，从人脸识别的技术的角度上，合成后的人与原来的人不是同一个人。

2、表情信息同时转移，由于是整个面部的简单拼接，因此表情会随着脸部同时转移到第二张图上，并非单纯的信息特征转移。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于CNN的保持表情信息的人脸转移方法。本发明解决两个核心技术问题，一是人脸合成的过程中合成部分与原图部分不和谐的问题；第二个是合成部分和原图部分合成之后人脸信息丢失的问题，包括识别信息和表情信息丢失。

为了解决上述问题，本发明提出了一种基于CNN的保持表情信息的人脸转移方法，所述方法包括：

从网络以及人脸数据库中获取人脸图片，以及对人脸图片的表情分类的标记信息，组成照片库；

从照片库中选取两张照片作为一组样本，图片A作为身份信息图，图片B作为表情信息图；

将较高像素图片下采样到较低像素图片的大小，使二者等大小；

使用AdaBoost算法对图A和图B进行人脸区域检测与分割；

将图A和图B的人脸区域组合成组合通道，作为输入数据输入到生成式CNN网络中，通过前向传播生成一张合成人脸；

将合成人脸与图B非人脸区域进行泊松融合；

将合成人脸与图A人脸区域输入到FaceNet神经网络中，得到识别信息的损失L1；

将合成人脸与图B人脸区域输入到深度ConvNets中求出表情特征信息损失L2；

结合L1和L2的损失值，对生成式CNN网络进行反向传播，更新网络权重；

最后重复训练生成式CNN网络。

优选地，所述人脸区域组合成组合通道作为输入数据输入到生成式CNN网络，该网络具体包括：

编码器：编码器是一个特征提取以及下采样的过程。它分为卷积层和池化层。卷积核是一个n乘n的权重矩阵，它对图片中的感受野进行抽象，即对该区域的像素求线性和，并且通过ReLU激活函数得到该感受野的激活值。池化层是对一块区域进行下采样的过程，网络中全部采用2倍下采样，该方法具有位置不变的性质。编码器采用4个卷积层加一层全连接层，每一层卷积层后都会接一个下采样的池化层。从第1层到第4层的维度分别是(100，256，256，3)，(100，128，128，24)，(100，64，64，64)，(100，32，32，128)卷积核的大小为3乘3，维度与神经网络的维度一致。全连接层是把第四层的4维序列展开成2维，维度为(100，131072)。

在连接全连接网络之后，为drop-out层。该层作用在于训练时每一次前向传播都忽略掉部分连接参数，使得每一次训练时网络的数据流都不同，但又不改变网络的特征提取方向，从而避免网络过拟合。同时，由于训练时参数变少，可以节省部分计算资源。

解码器：解码器有上采样和反卷积的过程，上采样的过程采用插值法，通过获取低像素相邻的像素获得线性值。反卷积的过程就是正向卷积的镜像。

本发明可以增加人们生活中对图像处理的需求，使得在人脸处理上又多一样应用；同时，能够使“拍照不适人群”通过图像合成的方式生成更多自己的图片。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的人脸转移方法的流程图；

图2是本发明实施例的生成器的网络结构图；

图3是本发明实施例的表情识别器的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的人脸转移方法的流程图，如图1所示，该方法包括：

S1，从网络以及人脸数据库中获取人脸图片，以及对人脸图片的表情分类的标记信息，组成照片库；

S2，从照片库中选取两张照片作为一组样本，图片A作为身份信息图，图片B作为表情信息图；

S3，将较高像素图片下采样到较低像素图片的大小，使二者等大小；

S4，使用AdaBoost算法对图A和图B进行人脸区域检测与分割；

S5，将图A和图B的人脸区域组合成组合通道，作为输入数据输入到生成式CNN网络中，通过前向传播生成一张合成人脸；

S6，将合成人脸与图B非人脸区域进行泊松融合；

S7，将合成人脸与图A人脸区域输入到FaceNet神经网络中，得到识别信息的损失L1；

S8，将合成人脸与图B人脸区域输入到深度ConvNets中求出表情特征信息损失L2；

S9，结合L1和L2的损失值，对生成式CNN网络进行反向传播，更新网络权重；

最后重复训练生成式CNN网络。

步骤S1，具体如下：

S11，人脸数据库从开源的The Extended Cohn-Kanade Dataset库中获取，图像库包含593个人的表情变化图片序列。其中327个序列有明显的表情标识，标识总共有8个，每个符号代表如下：0-中性，1-愤怒，2-蔑视，3-厌恶，4-恐惧，5-高兴，6-悲伤，7-惊讶。

S12，把327个序列放入数据库中，取90％作为训练集，剩余10％作为测试集。在神经网络训练中，训练集是神经网络学习数据分布的来源，测试集用来测试模型有没有过拟合，防止模型拟合到一个非线性函数上。

步骤S2，从照片库中选取两张照片作为一组样本，图片A作为身份信息图，图片B作为表情信息图。身份信息图指的是合成图像生成后，生成的人像必须是能够被识别出跟身份信息图是同一个人，表情信息图用于判断生成的人像的表情能否被识别出跟表情信息图的表情一致。

步骤S3，具体如下：

S31，对于下采样到m*n大小的图片上每一个像素(a,b)，先通过线性放大找到M*N大小的图片中对应的像素(A,B)，A＝ka，B＝kb，k为放大系数。

S32，对像素(A,B)及其附近的3*3像素区域求平均值，作为(a,b)的像素值，完成一个点的下采样。

步骤S4，具体如下：

S41，初始化数据集权重分布；

S42，计算在训练集上的分类误差；

S43，更新权重分布；

S44，重复训练，并更新权重，得到最终分类器。

步骤S5的网络，如图2所示，具体包括：

S51，编码器：编码器是一个特征提取以及下采样的过程。它分为卷积层和池化层。卷积核是一个n乘n的权重矩阵，它对图片中的感受野进行抽象，即对该区域的像素求线性和，并且通过ReLU激活函数得到该感受野的激活值。池化层是对一块区域进行下采样的过程，网络中哦全部采用2倍下采样，该方法具有位置不变的性质。编码器采用4个卷积层加一层全连接层，每一层卷积层后都会接一个下采样的池化层。从第1层到第4层的维度分别是(100，256，256，3)，(100，128，128，24)，(100，64，64，64)，(100，32，32，128)卷积核的大小为3乘3，维度与神经网络的维度一致。全连接层是把第四层的4维序列展开成2维，维度为(100，131072)。

S52，在连接全连接网络之后，为drop-out层。该层作用在于训练时每一次前向传播都忽略掉部分连接参数，使得每一次训练时网络的数据流都不同，但又不改变网络的特征提取方向，从而避免网络过拟合。同时，由于训练时参数变少，可以节省部分计算资源。

S53，解码器：解码器有上采样和反卷积的过程，上采样的过程采用插值法，通过获取低像素相邻的像素获得线性值。反卷积的过程就是正向卷积的镜像。

步骤S6，具体如下：

S61，通过局部的图像编辑达到全局融合的效果，获取局部图片进行拼接。拼接的两个图像分别为生成人像图和图B。

S62，由于生成式网络采用编码解码方案，因此生成图像和图B的人脸区域是相同大小的，在融合之前，先把生成图像直接覆盖图B的人脸区域。

S63，图像融合外的区域全部保存，图像融合区域需要使得图片内的梯度最小。

S64，最小化局部的差别函数，即梯度，以达到拼接图片的平滑。

步骤S7，具体如下：

S71，FaceNet分为5个部分，读取图片部分，深度网络部分，L2标准化部分，三元组组合部分，以及损失函数Loss部分。

S72，读取图片部分必须2图成组，其中一张为生成图，第二张为图A人像图，通过FaceNet输出的欧氏距离值得出两张图片是否是同一个人。

S73，深度网络采用感知残差网络(Inception Res idual Network)，基础组成部分为一个残差块(Res idual Block)。它由4个1*1的卷积层和3个3*3卷积层组合，并且与上一个残差块的输出进行相加，从而得到新的输出，这样做的有益效果在于提高网络准确率，并且不会提高计算量。整个残差网络由20个残差块组合而成。

S74，将生成图片和图片A的人脸区域输入到感知残差网络做前向传播得到输出。

S75，对输出向量在128维超球面上的归一化处理。

S76，比较两个归一化的输出值，相减算出损失值L1。

步骤S8，具体如下：

S81，如图3所示，表情识别神经网络构造是一个卷积神经网络，共有5个卷积层5个池化层以及3个全连接层。前五层的卷积核维度分别是(1,5,5)，(64,3,3)，(64,3,3)，(128,3,3)，(128,3,3)。最后3层全连接层的维度是1024维，1024维和8维，最终的输出8维就是数据库中7种表情。网络中卷积核的大小全部是3乘3，步长为1，膨胀系数为1。

S82，将生成图片和图片B的人脸区域输入到表情识别网络EmoNet做前向传播得到Feature Map。

S83，将对应Feature Map通过求欧式距离得到MRFs loss function，作为L2。

步骤S9，具体如下：

结合L1和L2的损失值，对生成式CNN网络进行反向传播，更新网络权重，即所有神经网络都给予反向传播算法来训练网络权重，训练方法如下：

(1)定义损失函数；(2)求残差；(3)残差向后传播；(4)计算权重梯度；(5)计算偏置梯度。

最后，重复S2～S9步骤，重复训练生成式CNN网络。

实施本发明实施例，可以增加人们生活中对图像处理的需求，使得在人脸处理上又多一样应用；同时，能够使“拍照不适人群”通过图像合成的方式生成更多自己的图片。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于CNN的保持表情信息的人脸转移方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于CNN的保持表情信息的人脸转移方法，其特征在于，所述方法包括：

将较高像素图片下采样到较低像素图片的大小，使二者等大；

使用AdaBoost算法对图A和图B进行人脸区域检测与分割；

将合成人脸与图B非人脸区域进行泊松融合；

最后重复训练生成式CNN网络；

其中，所述人脸区域组合成组合通道作为输入数据输入到生成式CNN网络，该网络具体包括：

编码器：编码器是一个特征提取以及下采样的过程；它分为卷积层和池化层；卷积核是一个n乘n的权重矩阵，它对图片中的感受野进行抽象，即对该感受野的像素求线性和，并且通过ReLU激活函数得到该感受野的激活值；池化层是对一块区域进行下采样的过程，网络中全部采用2倍下采样，下采样方法具有位置不变的性质；编码器采用4个卷积层加一层全连接层，每一层卷积层后都会接一个下采样的池化层；从第1层到第4层的维度分别是(100，256，256，3)，(100，128，128，24)，(100，64，64，64)，(100，32，32，128)，卷积核的大小为3乘3，维度与神经网络的维度一致；全连接层是把第四层的4维序列展开成2维，维度为(100，131072)；

在连接全连接网络之后，为drop-out层；该层作用在于训练时每一次前向传播都忽略掉部分连接参数，使得每一次训练时网络的数据流都不同，但又不改变网络的特征提取方向，从而避免网络过拟合；同时，由于训练时参数变少，可以节省部分计算资源；

解码器：解码器有上采样和反卷积的过程，上采样的过程采用插值法，通过获取低像素相邻的像素获得线性值；反卷积的过程就是正向卷积的镜像。