CN111368662B - 一种人脸图像属性编辑方法、装置、存储介质及设备 - Google Patents

一种人脸图像属性编辑方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111368662B
CN111368662B CN202010115542.9A CN202010115542A CN111368662B CN 111368662 B CN111368662 B CN 111368662B CN 202010115542 A CN202010115542 A CN 202010115542A CN 111368662 B CN111368662 B CN 111368662B
Authority
CN
China
Prior art keywords
face
image
attribute
encoder
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115542.9A
Other languages
English (en)
Other versions
CN111368662A (zh
Inventor
麦锐杰
邢晓芬
徐向民
郭锴凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010115542.9A priority Critical patent/CN111368662B/zh
Publication of CN111368662A publication Critical patent/CN111368662A/zh
Application granted granted Critical
Publication of CN111368662B publication Critical patent/CN111368662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种人脸图像属性编辑方法、装置、存储介质及设备;其中方法使用两个独立的人脸属性编码器和图像背景编码器在特征空间中解离属性和背景,在特征空间对属性向量进行编辑操作,并经由人脸向量解码器生成目标图像。人脸向量解码器在处理时采用跳跃连接的方式,并在跳跃连接操作中对特征图各个通道按照对结果的贡献度权重进行加权,增大贡献度大的特征图通道数值。人脸向量解码器得到的生成图再经过一次人脸属性编码器和图像背景编码器,使用均方误差损失约束编码过程中的属性向量和内容向量的前后一致性。本发明有效地避免了人脸多属性编辑时属性混叠的现象,提升了图像生成质量的清晰度和图像属性编辑时的可控性。

Description

一种人脸图像属性编辑方法、装置、存储介质及设备
技术领域
本发明公开了一种人脸图像属性编辑方法、装置、存储介质及设备,属于计算推算的技术领域。
背景技术
在过去的几十年中,许多与面部有关的流行研究主题在计算机视觉方向中得到了发展,人脸识别、人脸美化等人脸相关任务逐渐成为研究重点和热点。近年来,人脸研究已从人工的工程特征转变为使用深度学习方法。在这些方法中,数据起着核心作用,因为深度神经网络的性能在很大程度上取决于训练数据的数量和质量。本发明涉及的人脸图像属性编辑是指操纵面部图像的单个或者多个属性,即生成具有某种期望属性的新面部图像,同时保留原图像的身份信息和其他面部细节不变。常见的人脸属性包含性别、年龄、五官、发色、妆容等,每个人脸面部图像都有其明确的属性。本发明涉及的人脸图像属性编辑常见处理任务为单眼皮变为双眼皮、人脸衰老、性别转换等。
人脸图像属性编辑自2014年来,基于卷积神经网络的快速发展,已有多种属性编辑的方法问世,主要有属性分离表征和端到端网络映射两种类别。其中端到端网络映射利用一个循环生成对抗网络学习到某单个属性在高维流型空间的表征,进而将图像在高维流型空间进行映射操作,生成具有某种期望属性的图像,其缺点在于单个网络参数只能表征存储某单个属性的特征,无法扩展应用到多个属性的共同编辑中,在实际应用中存在较大的局限性。属性分离表征以DNA生成对抗网络为例,主要思想是讲人脸属性通过编码器生成特定的属性潜向量。近年来该方法逐渐成为了深度学习领域人脸图像属性编辑的主流。
现有的人脸图像属性转换方法有着明显的局限性,通常利用编码器将人脸属性编码的方法涉及到多个属性同步操纵,单一编码器编码的属性潜向量之间有一定的相关性,造成的多属性混叠现象会严重影响人脸图像生成的质量和可观度。
通常图像编辑需要借助自编码器结构,其损失函数为考虑全局像素的均方误差函数,在处理高分辨率图像中会造成严重的模糊现象。此外,自编码器编解码时在高维空间中的单一串联方式降低了低维特征图的权重,造成高低维特征的配比失衡,进一步影响到图像生成质量。因此研究一种可以克服上述缺点的人脸图像属性编辑方法具有重要的研究意义和实用价值。
发明内容
本发明的发明目的是针对上述背景技术的不足,提供了一种人脸图像属性编辑方法、装置、存储介质及设备,实现了针对多属性同步编辑和提升图像生成质量的人脸属性转换,有效地避免了人脸多属性编辑时属性混叠的现象,提升了图像生成质量的清晰度和图像属性编辑时的可控性。
本发明为实现上述发明目的采用如下技术方案:一种人脸图像属性编辑方法,其特征在于:包括如下步骤:
S1、构建注意力自编码器的网络结构,网络结构包括:
人脸属性编码器,用于将人脸图像编码为属性向量;
图像背景编码器,用于将无关属性的背景以及人脸五官信息向量;
人脸向量解码器,用于负责将向量还原为图像;
生成对抗网络的判别器,用于负责判定图像是否为真、假;
S2、准备训练数据集和测试数据集,对网络结构进行训练和测试;其中训练包括如下分步骤:
S21、对训练数据集进行预处理;
S22、输入训练数据集中两组具有对立人脸属性的人脸RGB原图;人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;
S23、将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;将两个编码器和一个解码器组合作为生成对抗网络的生成器,利用对数似然函数计算生成结果符合真实分布的概率值,用于更新生成器;
S24、将步骤S22生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;在网络的联合训练中,利用梯度下降方式约束使得损失量可以不断变小,约束两次向量生成的一致性,提升了两个编码器的表征能力;
S3、将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
优选地,所述步骤S1中,人脸属性编码器和图像背景编码器的结构完全相同;人脸向量解码器的卷积层使用上采样,卷积层数与人脸属性编码器和图像背景编码器相同。
优选地,所述步骤S2中,训练数据集和测试数据集均包括人脸图像及各人脸图形相应的属性标签和身份标签;人脸图形的人脸属性包括人种、五官特点、发色、背景。
优选地,所述步骤21中,预处理是指:在训练数据集的人脸RGB原图中识别人脸64个关键坐标点;根据关键坐标点计算相应的仿射矩阵;利用仿射矩阵对人脸RGB原图进行旋转,使人脸RGB原图中每个人脸处于相同偏向的正脸角度;根据关键坐标点计算固定比例,去除多余的背景,保证人脸RGB原图大部分区域处于有用的人脸区域范围。
优选地,所述步骤S22中,在人脸RGB原图经由人脸属性编码器前,先按照人脸属性编码器和图像背景编码器的预设尺寸去选取人脸RGB原图裁剪的比例。
一种人脸图像属性编辑装置,其特征在于:包括:
网络结构构建模块,包括用于将人脸图像编码为属性向量的人脸属性编码器、用于将无关属性的背景以及人脸五官信息向量的图像背景编码器、用于负责将向量还原为图像的人脸向量解码器以及用于负责判定图像是否为真假的生成对抗网络的判别器;
训练测试模块,包括训练子模块和测试子模块;其中,训练子模块用于对训练数据集进行预处理;输入训练数据集中任两组具有对立人脸属性的人脸RGB原图;人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;将生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;
编辑模块,用于将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述人脸图像属性编辑装置。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现上述人脸图像属性编辑装置。
本发明采用以上技术方案,具有以下有益效果:
首先,本发明不使用单一的编码器,而是使用人脸属性编码器和图像背景编码器对属性和背景进行独立的编码。将属性向量和背景向量的分布独立开,使用特定编码网络表征不同分布可以提升向量分布的拟合度,对生成图清晰度和属性编辑时的可控度有较大的提升;
其次,本发明通过跳跃连接的方式将图像背景向量的特征图作为解码器对应层的辅路输入,在这过程中利用注意力机制增大了贡献度大的特征图通道权重,避免了无关特征对解码器的干扰,既提高了图像生成的清晰度,又保证了属性编辑功能不受跳跃连接操作的削弱。
最后,本发明通过重新经过一次人脸属性编码器和图像背景编码器,计算向量循环对比损失量,使得在多属性同时编辑时,替换单个属性时其他属性向量不会受到干扰,提升各个属性向量的独立性,避免了多属性编辑时产生图像坍塌的人工痕迹,在实际应用中更加精确灵活。
附图说明
图1为本发明一种人脸图像属性编辑方法的流程图。
图2为基于注意力机制的跳跃连接方式技术实现图。
图3为人脸多属性编码交换某期望属性的技术实现图。
图4为本发明一种人脸图像属性编辑方法的实施过程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例一
如图1-图4所示,本实施例公开了一种人脸图像属性编辑方法,包括如下步骤:
S1、构建注意力自编码器的网络结构,网络结构包括:
人脸属性编码器,用于将人脸图像编码为属性向量;
图像背景编码器,用于将无关属性的背景以及人脸五官信息向量;
人脸向量解码器,用于负责将向量还原为图像;
生成对抗网络的判别器,用于负责判定图像是否为真、假。
人脸属性编码器和图像背景编码器的结构完全相同;人脸向量解码器的卷积层使用上采样,卷积层数与人脸属性编码器和图像背景编码器相同。
S2、准备训练数据集和测试数据集,对网络结构进行训练和测试;训练数据集和测试数据集均包括人脸图像及各人脸图形相应的属性标签和身份标签;人脸图形的人脸属性包括人种、五官特点、发色、背景。
其中训练包括如下分步骤:
S21、对训练数据集进行预处理;预处理是指:在训练数据集的人脸RGB原图中识别人脸64个关键坐标点;根据关键坐标点计算相应的仿射矩阵;利用仿射矩阵对人脸RGB原图进行旋转,使人脸RGB原图中每个人脸处于相同偏向的正脸角度;根据关键坐标点计算固定比例,去除多余的背景,保证人脸RGB原图大部分区域处于有用的人脸区域范围。
S22、输入训练数据集中任两组具有对立人脸属性的人脸RGB原图;先按照人脸属性编码器和图像背景编码器的预设尺寸去选取人脸RGB原图裁剪的比例;之后,裁剪后的人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;
S23、将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;
S24、将步骤S22生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;
S3、将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
下面以具体示例进行说明:
一种人脸图像属性编辑方法,包括如下步骤:
S1、构建注意力自编码器的网络结构。本实施例中,人脸属性编码器和图像背景编码器的输入均为3×128×128大小的RGB图像。人脸属性编码器和图像背景编码器的结构相同,设计如下:首先使用1个卷积核大小为3×3的卷积层对输入做预处理,将3通道的图像处理为64个相同长宽的特征图;接着使用4组带有下采样的卷积块将64个特征图进行处理,将特征图下采到128/16=8个像素点大小。卷积块的组成如下:1个卷积核大小为3×3,步长为2(进行1/2下采样)的卷积块、1个实例归一化层(InstanceNorm)、1个纠正线性单元(LeakyReLU),卷积块内3个子模块使用串联连接。
人脸向量解码器的结构如下:在本实施例中,人脸向量解码器输入为1024×8×8大小的特征图,表征了图像背景信息和人脸属性信息。人脸向量解码器的组成如下:使用4组带有上采样的卷积块将1024个通道的特征图进行通道压缩和尺寸放大。卷积块的组成如下:1个上采样因子为2的上采样层、1个卷积核大小为3×3,边界扩充量为1,步长为1的卷积块、1个实例归一化层(InstanceNorm)、1个纠正线性单元(LeakyReLU),卷积块内的4个子模块使用串联连接。数据经过卷积块处理后得到64×128×128大小的特征图,再使用1个卷积核为3×3大小的卷积层做处理,将通道压缩为RGB图像的3通道,使得输出符合RGB图像格式。
在本实施例中,生成对抗网络的判别器输入为3×128×128大小的RGB图像,真实属性标签为0或1的标量。在处理时将属性标签复制扩充为和输入RGB图像相同大小的三维向量,并与RGB图像拼接成6×128×128大小的向量输入到判别器中。判别器的结构如下:先使用1个卷积核大小为3×3的卷积层对输入做预处理,将6通道的图像处理为64个相同长宽的特征图;接着使用4组带有下采样的卷积块将64个特征图进行处理,将特征图下采到128/16=8个像素点大小,但是通道数扩增为512个,以保存高维信息。卷积块的组成如下:1个卷积核大小为3×3,步长为2(进行1/2下采样)的卷积块、1个批归一化层(BatchNorm)、1个纠正线性单元(LeakyReLU),卷积块内3个子模块使用串联连接。随后连接一个全局平均池化层(Global Average Pooling),将512×8×8大小的特征图压缩为512×1×1的大小。最后经由全连接层,将全局平均池化层输出的特征图映射为1维的概率值。
S2、准备人脸属性训练数据集和测试数据集。训练数据集和测试数据集包括各类人脸数据库,数据包含人脸图像和相应的属性标签和身份标签。在本发明实施例中,人脸数据库使用CelebA数据集,CelebA数据集中的每个图像有40多种人脸相关的属性,比如发色、性别等。在本实施例中,选出胡须、刘海、眼镜、肤色、微笑、发色、眉毛、性别等8个属性作为多属性人脸编辑的目标属性。本实施例使用的输入图像大小为3通道RGB图像,图像长和宽均为128个像素。
对网络结构进行训练和测试;其中训练包括如下分步骤:
S21、对训练数据集进行预处理:在本实施例中,我们通过已训练至收敛的公开人脸关键点定位算法,求出人脸左眼8个坐标点x0~x7,右眼8个坐标点y0~y7以及嘴巴10个坐标点z0~z7,计算出相应的中心点坐标:
Figure BDA0002391379870000071
获取仿射矩阵参数mij,并将原图像坐标左乘上矩阵,即可获得变换后的新坐标,齐次坐标矩阵表示形式为:
Figure BDA0002391379870000072
随后,以左右眼中心点与嘴唇中心点距离为基准,以其长度的1.5倍作为固定比例,以鼻尖坐标点为中心,选取长宽相同的人脸部分作为裁剪后的区域。
S22、将3×128×128大小的无属性atti原图输入A和有属性atti的原图输入B;原图输入A和原图输入B分别输入到人脸属性编码器和图像背景编码器中,得到属性编码AttA和AttB,背景编码BgA和BgB。其中属性编码AttA和AttB带有8个人脸属性的信息编码,每个属性占有512/8=64个通道,按照8个属性的顺序在属性编码中排列。将属性编码AttA和AttB的第i个属性编码进行替换,图2所示即为属性向量替换的过程:属性编码AttA变为带有属性atti,属性编码Att变为不带有属性atti,生成的属性编码设为AttC和AttD。将生成的4个属性编码AttA,B,C,D和2个背景编码BgA,B进行组合,生成带有新含义的人脸图像潜向量,送入人脸向量解码器进行处理。
人脸向量解码器在对图像背景向量处理时,一方面解码器第一个卷积模块的输入是1024×8×8的人脸图像潜向量。另一方面,通过跳跃连接的方式将图像背景编码器第i层的输出作为解码器中第i-1层的辅路输入,起到扩充低维特征的作用,如图3所示,conv1~conv4表征第1层~第4层卷积层。在跳跃连接操作中,使用通道注意力模块对特征图各个通道对结果的贡献度进行排序,增大了贡献度大的特征图通道权重。通道注意力模块将c×h×w的特征图先输入到全局平均池化层中,压缩长和宽使得输出为n×1×1,接着经过下采样1/16倍和上采样16倍的全连接层,输出n个通道各自对最终结果的贡献值αn,将αn与原大小为c×h×w的特征图进行点乘,得到带有贡献度权重的特征图,此特征图中贡献度大的通道数值得到放大,贡献度小的通道数值被压制。最终人脸向量解码器可以得到4个输出的图像:图像A1是输入图像A的重建图,图像B1是图像B的重建图,图像C是图像A但带有属性atti的生成图,图像D是图像B但是不带有属性atti的生成图。
S23、将属性标签复制扩充为和输入RGB图像相同大小的三维向量,将生成图A1、B1、C和D与真实标签atti进行组合,并与RGB图像拼接成6×128×128大小的向量输入到判别器中进行判定,利用对数似然函数作为判别器的损失函数,计算出生成图符合真实样本分布的概率值。
优化判别器时,需要使得判别器对输入为真实图像时判别为真,输入为生成图时判别为假:
lossD=log(D(x|c))+log(1-D(G(z)|c))
生成对抗网络中的生成器在本实施例中为人脸属性编码器、图像背景编码器和人脸向量解码器的组合,优化生成器时需要使得生成结果通过判别器为真:
lossG=log(D(G(z)|c))
对本发明中涉及的生成器和判别器的训练采用交替优化的方式进行。
S24、如图4所示,图像A和图像B是输入原图,即是需要进行某种属性编辑的人脸图像,图像A1和图像B1是希望得到的处理后人脸图像。而属性AttC′和属性AttD′是经由步骤S22处理后得到的带有某种属性的新属性向量,将其重新输入至参数共享的人脸属性编码器和图像背景编码器,得到新的属性编码AttC′、AttD′,与第一次编码时的编码向量进行对比,利用均方误差函数计算出两者间的差距:
losscycle=‖AttC′-AttB2+‖AttD′-AttA2
计算重构图A1、B1与输入原图A、B之间的重构损失,以均方误差函数来衡量:
lossrecon=‖A1-A‖2+‖B1-B‖2
将整个注意力自编码器利用以上损失函数的组合进行训练直至收敛。
S3、训练好的人脸属性编码器、图像背景编码器并联,与人脸向量解码器串联使用,即可作为最终的人脸图像属性编辑网络进行测试应用。
综上,本发明采用以上技术方案,具有以下有益效果:
本发明不使用单一的编码器,而是使用人脸属性编码器和图像背景编码器对属性和背景进行独立的编码。将属性向量和背景向量的分布独立开,使用特定编码网络表征不同分布可以提升向量分布的拟合度,对生成图清晰度和属性编辑时的可控度有较大的提升;
本发明通过跳跃连接的方式将图像背景向量的特征图作为解码器对应层的辅路输入,在这过程中利用注意力机制增大了贡献度大的特征图通道权重,避免了无关特征对解码器的干扰,既提高了图像生成的清晰度,又保证了属性编辑功能不受跳跃连接操作的削弱。
本发明通过重新经过一次人脸属性编码器和图像背景编码器,计算向量循环对比损失量,使得在多属性同时编辑时,替换单个属性时其他属性向量不会受到干扰,提升各个属性向量的独立性,避免了多属性编辑时产生图像坍塌的人工痕迹,在实际应用中更加精确灵活。
实施例二
为实现实施例一所述的人脸图像属性编辑方法,本实施例提供一种人脸图像属性编辑装置,包括:
网络结构构建模块,包括用于将人脸图像编码为属性向量的人脸属性编码器、用于将无关属性的背景以及人脸五官信息向量的图像背景编码器、用于负责将向量还原为图像的人脸向量解码器以及用于负责判定图像是否为真假的生成对抗网络的判别器;
训练测试模块,包括训练子模块和测试子模块;其中,训练子模块用于对训练数据集进行预处理;输入训练数据集中任两组具有对立人脸属性的人脸RGB原图;人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;将生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;
编辑模块,用于将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
实施例三
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的人脸图像属性编辑装置。
实施例四
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的人脸图像属性编辑装置。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种人脸图像属性编辑方法,其特征在于:包括如下步骤:
S1、构建注意力自编码器的网络结构,网络结构包括:
人脸属性编码器,用于将人脸图像编码为属性向量;
图像背景编码器,用于将无关属性的背景以及人脸五官信息向量;
人脸向量解码器,用于负责将向量还原为图像;
生成对抗网络的判别器,用于负责判定图像是否为真、假;
S2、准备训练数据集和测试数据集,对网络结构进行训练和测试;其中训练包括如下分步骤:
S21、对训练数据集进行预处理;
S22、输入训练数据集中两组具有对立人脸属性的人脸RGB原图;人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;
S23、将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;
S24、将步骤S22生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;
S3、将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
2.根据权利要求1所述的人脸图像属性编辑方法,其特征在于:所述步骤S1中,人脸属性编码器和图像背景编码器的结构完全相同;人脸向量解码器的卷积层使用上采样,卷积层数与人脸属性编码器和图像背景编码器相同。
3.根据权利要求1所述的人脸图像属性编辑方法,其特征在于:所述步骤S2中,训练数据集和测试数据集均包括人脸图像及各人脸图形相应的属性标签和身份标签;人脸图形的人脸属性包括人种、五官特点、发色、背景。
4.根据权利要求1所述的人脸图像属性编辑方法,其特征在于:所述步骤21中,预处理是指:在训练数据集的人脸RGB原图中识别人脸64个关键坐标点;根据关键坐标点计算相应的仿射矩阵;利用仿射矩阵对人脸RGB原图进行旋转,使人脸RGB原图中每个人脸处于相同偏向的正脸角度;根据关键坐标点计算固定比例,去除多余的背景,保证人脸RGB原图大部分区域处于有用的人脸区域范围。
5.根据权利要求1所述的人脸图像属性编辑方法,其特征在于:所述步骤S22中,在人脸RGB原图经由人脸属性编码器前,先按照人脸属性编码器和图像背景编码器的预设尺寸去选取人脸RGB原图裁剪的比例。
6.一种人脸图像属性编辑装置,其特征在于:包括:
网络结构构建模块,包括用于将人脸图像编码为属性向量的人脸属性编码器、用于将无关属性的背景以及人脸五官信息向量的图像背景编码器、用于负责将向量还原为图像的人脸向量解码器以及用于负责判定图像是否为真假的生成对抗网络的判别器;
训练测试模块,包括训练子模块和测试子模块;其中,训练子模块用于对训练数据集进行预处理;输入训练数据集中任两组具有对立人脸属性的人脸RGB原图;人脸RGB原图经由人脸属性编码器生成人脸属性向量,经由图像背景编码器生成图像背景向量,将两组人脸属性向量和图像背景向量两两组合后送入人脸向量解码器;人脸向量解码器在对图像背景向量处理过程中,通过跳跃连接的方式将各层卷积后的特征图作为人脸向量解码器中对应层的辅路输入,在跳跃连接操作中对特征图各个通道对结果的贡献度进行排序,增大贡献度大的特征图通道权重;人脸向量解码器生成两组一次图像:一组为更改了人脸属性的RGB图像,另一组是对人脸RGB原图进行重建后的RGB图像;将重建后的RGB图像与人脸RGB原图进行对比,计算均方误差作为重建结果的损失函数;将更改了人脸属性的RGB图像送经生成对抗网络的判别器,利用对数似然函数或铰链损失函数作为生成对抗网络的判别器的损失函数,计算出更改了人脸属性的RGB图像符合真实样本分布的概率值;将生成的两组一次图像重新经过一次人脸属性编码器和图像背景编码器,生成两组二次图像;利用均方误差损失函数计算出两组二次图像编码结果与两组一次图像编码结果的差距,作为向量循环对比损失量;利用梯度下降方式约束使得损失量不断变小;
编辑模块,用于将训练好的人脸属性编码器与图像背景编码器并联,之后与人脸向量解码器串联作为最终的人脸图像属性编辑网络,对人脸图形属性进行编辑。
7.一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-5中任一项所述的人脸图像属性编辑方法。
8.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-5中任一项所述的人脸图像属性编辑方法。
CN202010115542.9A 2020-02-25 2020-02-25 一种人脸图像属性编辑方法、装置、存储介质及设备 Active CN111368662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115542.9A CN111368662B (zh) 2020-02-25 2020-02-25 一种人脸图像属性编辑方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115542.9A CN111368662B (zh) 2020-02-25 2020-02-25 一种人脸图像属性编辑方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111368662A CN111368662A (zh) 2020-07-03
CN111368662B true CN111368662B (zh) 2023-03-21

Family

ID=71208236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115542.9A Active CN111368662B (zh) 2020-02-25 2020-02-25 一种人脸图像属性编辑方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN111368662B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111932444B (zh) * 2020-07-16 2023-09-19 中国石油大学(华东) 基于生成对抗网络的人脸属性编辑方法及信息处理终端
CN114078082A (zh) * 2020-08-10 2022-02-22 北京达佳互联信息技术有限公司 一种人物图像性别转换模型的训练、图像生成方法及装置
CN111951153B (zh) * 2020-08-12 2024-02-13 杭州电子科技大学 基于生成对抗网络隐空间解构的人脸属性精细化编辑方法
CN112560758A (zh) * 2020-12-24 2021-03-26 百果园技术(新加坡)有限公司 一种人脸属性编辑方法、系统、电子设备及存储介质
CN112651915B (zh) * 2020-12-25 2023-08-29 百果园技术(新加坡)有限公司 一种人脸图像合成方法、系统、电子设备及存储介质
CN112734873B (zh) * 2020-12-31 2023-10-03 北京慧美未来科技有限公司 对抗生成网络的图像属性编辑方法、装置、设备及介质
CN113096055B (zh) * 2021-03-24 2024-03-08 北京达佳互联信息技术有限公司 图像生成模型的训练方法、装置、电子设备及存储介质
CN112991160B (zh) * 2021-05-07 2021-08-20 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113724340B (zh) * 2021-07-09 2024-10-29 北京工业大学 基于跳跃连接注意力的引导式人脸图像编辑方法及系统
CN113269282A (zh) * 2021-07-21 2021-08-17 领伟创新智能系统(浙江)有限公司 一种基于自动编码器的无监督图像分类方法
CN113793254B (zh) * 2021-09-07 2024-05-10 中山大学 人脸图像属性编辑方法、系统、计算机设备及存储介质
CN113781376B (zh) * 2021-09-16 2024-02-23 浙江工业大学 一种基于分治融合的高清人脸属性编辑方法
CN114140349B (zh) * 2021-11-24 2024-09-06 支付宝(杭州)信息技术有限公司 干扰图像的生成方法和装置
CN114359034B (zh) * 2021-12-24 2023-08-08 北京航空航天大学 一种基于手绘的人脸图片生成方法及系统
CN115082292B (zh) * 2022-06-06 2024-07-19 华南理工大学 基于全局属性编辑方向的人脸多属性编辑方法
CN114782796B (zh) * 2022-06-17 2023-05-02 武汉北大高科软件股份有限公司 一种物品图像防伪的智能验证方法和装置
CN115713680B (zh) * 2022-11-18 2023-07-25 山东省人工智能研究院 一种基于语义引导的人脸图像身份合成方法
CN116884077B (zh) * 2023-09-04 2023-12-08 上海任意门科技有限公司 一种人脸图像类别确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN109147017A (zh) * 2018-08-28 2019-01-04 百度在线网络技术(北京)有限公司 动态图像生成方法、装置、设备及存储介质
CN109615582A (zh) * 2018-11-30 2019-04-12 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3818693A4 (en) * 2018-07-02 2021-10-13 Stowers Institute for Medical Research FACIAL IMAGE RECOGNITION USING PSEUDO-IMAGES

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679250A (zh) * 2017-11-01 2018-02-09 浙江工业大学 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN109147017A (zh) * 2018-08-28 2019-01-04 百度在线网络技术(北京)有限公司 动态图像生成方法、装置、设备及存储介质
CN109615582A (zh) * 2018-11-30 2019-04-12 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多层次深度卷积神经网络的图像情感分类;徐向民 等;《华南理工大学学报(自然科学版)》;20190630;第47卷(第6期);第39-50页 *

Also Published As

Publication number Publication date
CN111368662A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN111368662B (zh) 一种人脸图像属性编辑方法、装置、存储介质及设备
CN110390638B (zh) 一种高分辨率三维体素模型重建方法
CN113822437B (zh) 深度分层的变分自动编码器
CN110544297A (zh) 一种单幅图像的三维模型重建方法
CN111784602A (zh) 一种生成对抗网络用于图像修复的方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN111932445A (zh) 对风格迁移网络的压缩方法及风格迁移方法、装置和系统
CN113240792A (zh) 一种基于人脸重建的图像融合生成式换脸方法
CN112184582B (zh) 一种基于注意力机制的图像补全方法及装置
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN112686816A (zh) 一种基于内容注意力机制和掩码先验的图像补全方法
CN112819689B (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN112634438A (zh) 基于对抗网络的单帧深度图像三维模型重建方法及装置
CN114943656B (zh) 一种人脸图像修复方法及系统
CN112686817A (zh) 一种基于不确定性估计的图像补全方法
CN114648787A (zh) 人脸图像的处理方法及相关设备
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
CN111161405A (zh) 一种动物毛发三维重建方法
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN113129347B (zh) 一种自监督单视图三维发丝模型重建方法及系统
CN114694081A (zh) 一种基于多元属性合成的视频样本生成方法
CN110322548B (zh) 一种基于几何图像参数化的三维网格模型生成方法
CN116563524A (zh) 一种基于多视觉记忆单元的扫视路径预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant