CN113781376B

CN113781376B - 一种基于分治融合的高清人脸属性编辑方法

Info

Publication number: CN113781376B
Application number: CN202111085995.2A
Authority: CN
Inventors: 冯缘; 陈凯祥; 胡曜珺; 刘盛; 沈守枫
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2024-02-23
Anticipated expiration: 2041-09-16
Also published as: CN113781376A

Abstract

本发明公开了一种基于分治融合的高清人脸属性编辑方法，属于计算机视觉领域。该方法提出了一个包含低清人脸编辑网络与高清人脸图像融合网络的人脸属性编辑框架。先对原始高分辨率图像进行下采样后得到低分辨率的人脸图像，在低清人脸编辑网络中对低分辨率的人脸图像进行属性编辑后上采样至原大小；在高清人脸图像融合网络中对原始高分辨率图像与上采样的人脸图像进行切片，利用双通道编码器编码，再与属性差值向量融合，之后在解码器中解码得到结果切片，最后按位置拼接得到高清人脸图像。本发明提出的高清人脸属性编辑方法被验证具有较高的图像生成效率且生成的图像具有较高质量。

Description

一种基于分治融合的高清人脸属性编辑方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于分治融合的高清人脸属性编辑方法。

背景技术

人脸属性(如肤色，胡子，刘海)是人脸的一个的重要特征。人脸属性编辑的主要目的是用新属性更新替换人脸的旧属性，是一个很广的应用领域，不仅可以用于辅助其他诸如人脸识别等相关的任务，也可以独立成若干新的任务，在人机交互，娱乐社交领域有广泛应用，传统的人脸识别和人脸属性预测任务。不同于低分辨率人脸图像编辑的巨大成功，针对高分辨率的图像的人脸属性编辑研究的较少。

现有的人脸编辑方法如STGAN，随着图片分辨率的线性增加，其显存消耗的增长模式明显快于线性增长。此外，不同分辨率图像使用的框架往往是一样的，而在实际应用中，对于更高分辨率的图像来言更深的网络是不可或缺的，因此，显存消耗的增长实际上会更严重，甚至达到指数增长，因此在一些移动场景(如智能手机、AR/VR眼镜)中，由于计算和内存资源有限，往往导致编辑的效果的不理想甚至无法进行编辑。因此，开发一套适合高分辨率图片的属性编辑网络显得十分必要。

发明内容

本发明的目的在于针对现有技术中对于处理高分辨率人脸图片时计算和内存资源耗尽的问题，提供一种基于分治融合的高清人脸属性编辑方法。

本发明的目的是通过以下技术方案来实现的：

步骤一：利用低清人脸编辑网络对下采样后的原始高清人脸图像进行第一次人脸属性编辑，再将编辑后的人脸图像上采样恢复至原始尺寸；

步骤二：将原始高清人脸图像与步骤一获得的上采样后的低清人脸编辑后的图像做相同切片，将相同位置的切片差与低清人脸编辑后的图像切片输入高清人脸融合网络中进行第二次人脸属性编辑；

所述的高清人脸融合网络包括双通道多层编码器和单通道多层解码器，所述的相同位置的切片差与低清人脸编辑后的图像切片在双通道多层编码器中分别编码，编码结果按通道相加并与属性差值向量融合，再输入到单通道多层解码器中进行解码，得到第二次人脸属性编辑后的切片；所述的属性差值向量是由人脸图像的目标属性向量和源属性向量作差得到的；

步骤三、将高清人脸融合网络输出的切片结果按位置拼接，得到最终的含新属性的人脸图像。

本发明的有益效果是，解决了现有人脸属性编辑模型因尺寸过大而只能处理低分辨率人脸图像的问题，在大大降低显存消耗的同时，也保证了属性编辑后的人脸图像拥有高分辨率，有利于搭载至计算和内存资源有限的设备。

附图说明

图1是基于注意力机制的低清人脸编辑网络框架基本结构图。

图2是基于分治融合的高清人脸编辑网络框架基本结构图。

图3是加权平均融合方法的示意图。

图4是本方法的实际应用效果图

具体实施方式

下面根据附图详细说明本发明。

本发明提出一种基于分治融合的高清人脸属性编辑方法，基于一种新的人脸属性编辑框架实现，包含了如图2所示的低清人脸编辑网络与高清人脸图像融合网络的人脸属性编辑框架。先对原始高分辨率图像进行下采样后得到低分辨率的人脸图像，在低清人脸编辑网络中对低分辨率的人脸图像进行属性编辑后上采样至原大小；在高清人脸图像融合网络中对原始高分辨率图像与上采样的人脸图像进行切片，利用双通道编码器编码后再与属性差值向量融合，之后在解码器中解码得到结果切片，最后按位置拼接得到高清人脸图像。

如图2所示的框架结构，本发明的实施主要包括以下步骤：

下面分别对本发明提出的低清人脸编辑网络、高清人脸融合网络的结构、运算过程及训练过程进行介绍。

(一)低清人脸编辑网络

如图1所示，本发明提出一种ATGAN模型进行低清人脸编辑，对原始高清人脸图像X_i(下标i表示input)下采样至合适大小的低分辨率图像X′_i，将X′_i作为低清人脸编辑网络的输入进行属性编辑得到第一次人脸属性编辑后的图像X′_t(下标t表示temp):

其中，表示低清人脸编辑网络，/>表示低清人脸编辑网络中的编码器，表示低清人脸编辑网络中的解码器。A_d表示目标图像属性和原图像属性的差值：

其中，表示人脸图像的目标属性向量，/>表示原始高清人脸图像X_i的源属性向量。每张图片的属性由一个0/1向量表示，向量的某个位置表示某个具体属性，若有该属性，在该位置的值为1，反之为0。

在本发明的一项具体实施中，所述的低清人脸编辑网络的训练过程为：将所述的第一次人脸属性编辑后得到的人脸图像经过卷积处理后分别作为判别器和属性分类器的输入，利用多任务学习的方式对低清人脸编辑网络进行训练；所述的多任务损失包括重建损失、对抗损失、属性损失和分类器损失。具体为：

1、使用属性分类器C来约束生成的图像X'_t拥有所需的属性即计算公式如下：

其中，p_data和p_attr表示真实图像的分布和属性的分布，C_i(X′_t)表示第i属性的预测，是所有属性的二元交叉熵损失的总和，/>表示生成器分类损失，/>表示取期望，/>表示目标属性向量/>的第i属性，att_n表示属性数量。

2、解码器需要学习以原始属性为条件，通过解码潜在表示z来重建输入图像，学习目标为：

其中，表示重建损失，下角标1表示采取的损失表现形式为L1损失，/>表示低清人脸编辑网络中的编码器，/>表示低清人脸编辑网络中的解码器

3、还引入了生成器(包括编码器和解码器)和鉴别器之间的对抗学习，使生成的图像具有视觉真实感。鉴别器和生成器的对抗性损失公式如下：

对抗性损失通过WGAN-GP进行优化，表示生成器损失，/>表示鉴别器损失。D_L≤1表示判别器需要保证Lipschitz连续，且Lipschitz常数不超过1。

(二)高清人脸融合网络编码器

采用分而治之的思想，将上采样后的低清人脸编辑后图像X_t与原始高清人脸图像X_i进行切片，如图2中位于第二条虚线上方的部分，得到X_t和X_i两个图片集合：

{X_t[m,n]|m＝1,2,...k₁ n＝1,2,...,k₂}

{X_i[m,n]|m＝1,2,...k₁ n＝1,2,...,k₂}

其中，k₁,k₂分别表示需要裁剪的横向块数和列向块数，X_t[m,n]表示上采样后的第一次人脸属性编辑后的图像中的切片，X_i[m,n]表示原始高清人脸图像的切片。为从原始高清图像编码器中获取原始图像切片中的分辨率信息，在上采样图像编码器中获取对应位置的上采样图像切片中的属性信息，分别将X_t[m,n]和X_i[m,n]用不同的编码器编码(双通道编码器的参数不同)，即：

分别表示高清人脸融合网络中的第一通道编码器和第二通道编码器。

(三)高清人脸融合网络解码器

高清人脸融合网络中的解码器模型与ATGAN模型(图1)一致，X_o[m,n]为最终编辑的高清大图结果X_o的第m行块第n列块位置切片，即：

其中，表示高清人脸融合网络中的解码器，[…,…]表示按通道连接。

(四)加权平均融合方法

本发明提出一种加权平均融合的方法，如图3所示：将双通道多层编码器输出的编码后的切片图像采用加权平均法进行融合，假设两张需要融合的图片分别为image1、image2，如图3所示他们有一个公共的区域region2,区别在于颜色。现在需要将2张图片融合,对于融合的图片，只能存在一个，该region2某个点计算方式为:

其中，表示融合之后新的region2,/>和/>分别表示image1和image2的region2。

weight为权重，计算公式如下：

其中，x为切片在原始高清人脸图像中的坐标，k表示权重。。

最后通过将所有得到的切片图像集合{X_o[m,n]|m＝1,2,…k₁，n＝1,2,…,k₂}，按照上述融合方法依次融合，消除切片带来的网格效应。

(五)注意力单元ATU

如图2所示，解码器的相邻两层之间引入注意力单元，所述的注意力单元的输入为解码器第l层输出的特征向量与编码器第p-l层输出的特征向量，注意力单元的输出作为解码器第l+1层的输入，解码器最后一层的输出作为编辑后的人脸图像；p为编码器和解码器的层数。在多层解码器的每一层输入中均加入属性差值向量。

ATU的计算公式为：

将注意力单元的两个输入表示为f_enc∈R^W×H×C和f_dec∈R^W×H×C，其中f_enc为编码层输出的特征向量，f_dec为解码层输出的特征向量；

将f_enc和f_dec的维度变为(W×H)×C，其中W和H表示特征图的长和宽，C表示通道数量；

计算注意力机制中W×H个键值和查询值：

k_i＝W_k*f_enc

q_i＝W_q*f_dec

1≤i≤(W×H)

其中，k_i和q_i表示第i个键值和查询值，W_k和W_q表示1×1卷积核；

计算相似度矩阵α：

其中，W_t表示1×1卷积核，ReLU(.)表示relu激活函数，Sigmoid(.)表示sigmoid激活函数；α_ij是相似度矩阵α中的元素，表示编码层的第j个通道对解码层的第i个通道的影响程度；

计算注意力单元的输出PA：

PA＝α·f_enc

(六)高清人脸融合网络的损失函数

在本发明的一项具体实施中，所述的高清人脸融合网络的训练过程为：将步骤三得到的最终的含新属性的人脸图像经过卷积处理后分别作为判别器和属性分类器的输入，利用多任务学习的方式对高清人脸融合网络进行训练；所述的多任务损失包括重建损失、对抗损失、属性损失和分类器损失。其中属性分类损失、对抗损失与低清人脸属性编辑网络中的一致，重建损失学习的目标为：

其中，

这里本发明采用L1 loss来抑制模糊，X_o[m,n]₁表示高清人脸融合网络输出的切片结果，upsample(.)表示上采样。

图4展示了本实施例对512×512人脸图像的实施效果图，分别编辑了六种人脸属性，分别为变黑发、眉毛变厚、白皙、男性化、加八字胡、加刘海。可见在不同属性的编辑中均得到了高清、自然的效果，拥有高分辨率，有利于搭载至计算和内存资源有限的设备。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于分治融合的高清人脸属性编辑方法，其特征在于，包括以下步骤：

所述双通道多层编码器输出的编码后的切片图像采用加权平均法进行融合，首先确定双通道输出的切片图像image1,image2的公共区域region2，对公共区域的像素点重新进行计算：

其中，表示融合之后的新的公共区域，/>和/>分别表示image1和image2的原始公共区域；weight为权重，计算公式为：

其中，x为切片在原始高清人脸图像中的像素点坐标，k表示权重；

2.根据权利要求1所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的低清人脸编辑网络的训练过程为：将所述的第一次人脸属性编辑后得到的人脸图像经过卷积处理后分别作为判别器和属性分类器的输入，利用多任务学习的方式对低清人脸编辑网络进行训练；所述的多任务学习的损失包括重建损失、对抗损失、属性损失和分类器损失。

3.根据权利要求1所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的高清人脸融合网络的训练过程为：将步骤三得到的最终的含新属性的人脸图像经过卷积处理后分别作为判别器和属性分类器的输入，利用多任务学习的方式对高清人脸融合网络进行训练；所述的多任务学习的损失包括重建损失、对抗损失、属性损失和分类器损失。

4.根据权利要求1所述的基于分治融合的高清人脸属性编辑方法，其特征在于，在单通道多层解码器的相邻两层之间引入注意力单元，所述的注意力单元的输入为解码器第l层输出的特征向量与编码器第p-l层输出的特征向量，注意力单元的输出作为解码器第l+1层的输入，解码器最后一层的输出作为编辑后的人脸图像；p为编码器和解码器的层数。

5.根据权利要求4所述的基于分治融合的高清人脸属性编辑方法，其特征在于，在单通道多层解码器的每一层输入中均加入属性差值向量。

6.根据权利要求5所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的低清人脸编辑网络采用编码-解码网络，且解码器结构与高清人脸融合网络中的单通道多层解码器结构相同。

7.根据权利要求6所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的低清人脸编辑网络表示为：

其中，X′_t表示第一次人脸属性编辑后的图像，X′_i表示下采样后的原始高清人脸图像，A_d表示属性差值向量，表示人脸图像的目标属性向量，/>表示原始高清人脸图像X_i的源属性向量，/>表示低清人脸编辑网络，/>表示低清人脸编辑网络中的编码器，表示低清人脸编辑网络中的解码器。

8.根据权利要求4所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的高清人脸融合网络表示为：

{X_t[m,n]|m＝1,2,...k₁ n＝1,2,...,k₂}

{X_i[m,n]|m＝1,2,...k₁ n＝1,2,...,k₂}

其中，k₁,k₂分别表示切片后的横向块数和列向块数，X_t[m,n]表示上采样后的第一次人脸属性编辑后的图像中的切片，X_i[m,n]表示原始高清人脸图像的切片，表示编码器第一通道，/>表示编码器第二通道，[…,…]表示按通道连接，A_d表示属性差值向量，表示解码器，X_o[m,n]表示高清人脸融合网络输出的切片结果。

9.根据权利要求4所述的基于分治融合的高清人脸属性编辑方法，其特征在于，所述的注意力单元计算公式为：

将f_enc和f_dec的维度变为(W×H)×C，其中W和H表示特征图的长和宽，C表示通道数目；

计算注意力机制中W×H个键值和查询值：

k_i＝W_k*fe_enc

q_i＝W_q*f_dec

1≤i≤(W×H)

计算相似度矩阵α：

其中，W_t表示1×1卷积核，ReLU(.)表示R激活函数，Sigmoid(.)表示sigmoid激活函数；α_ij是相似度矩阵α中的元素，表示编码层的第j个通道对解码层的第i个通道的影响程度；

计算注意力单元的输出PA：

PA＝α·f_enc。