CN112164125A - 一种监督可控的人脸多属性分离生成的方法 - Google Patents

一种监督可控的人脸多属性分离生成的方法 Download PDF

Info

Publication number
CN112164125A
CN112164125A CN202010964481.3A CN202010964481A CN112164125A CN 112164125 A CN112164125 A CN 112164125A CN 202010964481 A CN202010964481 A CN 202010964481A CN 112164125 A CN112164125 A CN 112164125A
Authority
CN
China
Prior art keywords
attribute
feature vector
neural network
mdcs
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010964481.3A
Other languages
English (en)
Other versions
CN112164125B (zh
Inventor
阮智辉
张见威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010964481.3A priority Critical patent/CN112164125B/zh
Publication of CN112164125A publication Critical patent/CN112164125A/zh
Application granted granted Critical
Publication of CN112164125B publication Critical patent/CN112164125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种监督可控的人脸多属性分离生成的方法,方法包括以下步骤:收集人脸数据集合作为神经网络训练数据集;设计监督可控的人脸多属性分离MDCS神经网络;将收集的训练数据集作为MDCS神经网络的训练数据集,对MDCS神经网络进行训练;将待提取属性的人脸图像输入训练完成的MDCS神经网络,生成指定属性的目标人脸图像。本发明利用设计的MDCS神经网络,其可以根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成,解决全监督人脸生成方法标记属性过程繁琐,降低标记人员的工作量;且无监督的人脸生成方法生成图像质量低,无法满足部分需要指定特定监督信息的应用场景的情况。

Description

一种监督可控的人脸多属性分离生成的方法
技术领域
本发明属于人脸生成技术领域,具体涉及一种监督可控的人脸多属性分离生成的方法。
背景技术
人脸生成技术,对于各个产业有着巨大的辅助作用。特别是人脸生成技术中指定目标条件的人脸生成方法,在各个行业中都用巨大的潜在利用价值:在医美行业中,其可以帮助客户快速客制化其理想的展示状态,使得客户经理得以快速了解客户需求;在美妆产业中,该技术可便捷地在客户的面孔上渲染客户所选择的产品,且尽可能地模拟真实场景以让客户感受商品与之的契合程度;在刑侦过程中,存在所涉摄像头没有清晰记录目标人员的正面肖像时,人脸生成技术还可以通过人脸侧面肖像还原人脸的正面肖像,这对于刑侦人员侦破案件具有重要的意义。与此同时,人脸生成技术还是突破人脸识别技术瓶颈的方式之一。
当前现有指定目标条件的人脸生成方法中,Lample G等人、Choi Y等人以及专利“一种可控制属性的人脸生成方法、装置、系统及介质”等提出的全监督人脸生成方法虽可以控制目标人脸的单个或多个属性控制生成,但对于每一个控制属性都需要进行标记,而对于图片中光照,遮挡这类的属性,没有一个清晰的标准和分类,这对于属性标记人员而言,工作量是相当巨大和困难的。
Higgins I等人、Kim H等人以及Hu Q等人提出的人脸生成方法虽不需要监督信息,但是生成图像质量较低,对于某些具有高级语义的属性,无监督的生成方法没有办法分离并控制,且在某些应用场景中,指定特定的监督信息是必须的。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种监督可控的人脸多属性分离生成的方法,该方法首先设计MDCS神经网络,利用MDCS神经网络根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成,解决全监督人脸生成方法标记属性过程繁琐的问题,降低标记人员的工作量。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种监督可控的人脸多属性分离生成的方法,包括以下步骤:
收集人脸数据集合作为神经网络训练数据集,所述人脸数据集合中每一实例由共同的属性因子组成,所述属性因子包括肤色、发型、刘海、眼睛、口罩以及光线的一种或多种;
设计监督可控的人脸多属性分离MDCS神经网络,所述MDCS神经网络为一个端到端的神经网络,包括四个子网络,分别为负责将输入高维人脸图像转换为低维特征向量的编码网络Encoder、负责将低维特征向量转换为高维人脸图像的解码网络Decoder、负责对抗训练和多属性分类的判别网络Discriminator以及负责辅助输入图像属性解耦的分类网络Classifier,四个子网络均包括卷积层、归一化层以及全连接层;
将收集的训练数据集作为MDCS神经网络的训练数据集,对MDCS神经网络进行训练,将多张人脸图像通过Encoder生成多个特征向量,特征向量混合,得到混合特征向量,混合特征向量恢复,得到与原始特征向量对应的生成人脸图像;将多张原始人脸图像与生成人脸图像输入Discriminator,将原始图像对以及生成人脸图像输入到Classifier,计算目标函数,循环优化并更新网络参数,直至目标函数收敛,保存训练完成的MDCS神经网络参数;
将待提取属性的人脸图像输入训练完成的MDCS神经网络,生成指定属性的目标人脸图像。
优选的,所述属性因子根据MDCS神经网络监督形式,通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构,特异因子结构与非特异因子结构统称为因子结构,特异因子结构在MDCS神经网络中表示被监督的属性因子,即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子;非特异因子结构在MDCS神经网络中表示无监督的属性因子,即在MDCS神经网络中需要通过数据自行监督分离的属性因子。
优选的,一个特征向量存在多个因子结构,当其中特异因子结构数量为0时,则全为非特异因子结构,表示MDCS神经网络将对所有属性因子无监督地分离及生成;当其中非特异因子结构数量为0时,则全为特异因子结构,表示MDCS神经网络将对所有属性因子完全监督地分离及生成;当特征向量中一部分为特异因子结构,一部分为非特异因子结构时,表示MDCS神经网络将对属性因子部分监督地分离及生成,其中的特异因子有监督地分离和生成,非特异因子无监督地分离和生成。
优选的,所述四个子网络的具体架构为:
Encoder与Decoder形成自动编码器结构,Encoder输入为数据集人脸图像,输出为由多个特异因子结构与非特异因子结构组成的特征向量;
Discriminator输入与Encoder相同,输出为长度为n+1维的向量,其中n维为n个Softmax激活函数的输出,剩余1维为Discriminator对抗生成结果,用于优化Encoder与Decoder的输出;
Decoder输入为Encoder输出的特征向量,输出为生成人脸图像,其图像大小与数据集人脸图像相同;
Classifier输入为三张人脸图像在RGB颜色通道维度拼接形成的通道矩阵,输出为长度为t维的向量,其中t维均为t个Sigmoid激活函数的输出;
其中t为特征向量中因子结构数量,n为特异因子结构数量。
优选的,所述对MDCS神经网络进行训练具体为:
将多张人脸图像通过Encoder映射生成多个特征向量,一个特征向量解码一个人脸图像,其中每一个特征向量均等分为多块,每块表示人脸的不同属性因子并分为特异因子结构与非特异因子结构;
从多个特征向量中随机抽取两个特征向量形成特征向量对,针对多个特征向量对使用特征向量混合机制,得到混合特征向量,将特征向量与混合特征向量依次输入至Decoder,得到多张生成人脸图像,每一个图像所表示的属性特征与特征向量以及混合特征向量中的各因子结构表达的属性因子一一对应;
使用混合特征向量恢复机制将混合特征向量恢复至特征向量对,对特征向量对进行解码,得到生成人脸图像,其与输入到Encoder网络的原始人脸图像所表现特征完全相同;
将多张人脸图像与生成人脸图像同时输入至Discriminator,优化对抗生成人脸图像的生成质量;同时,利用Discriminator对人脸图像根据特异属性因子进行分类,优化生成人脸图像所表达的特异属性因子与特异属性因子的人工标签保持一致;
从数据集中随机采样得到的两张人脸图像,使用Encoder映射得到两个特征向量,通过特征向量混合机制,混合该两个特征向量得到混合特征向量,通过Decoder解码该混合特征向量得到生成人脸图像,在图像通道上拼接两张人脸图像以及生成人脸图像并输入至Classifier,计算生成人脸图像表现的各个非特异属性因子来自于两张人脸图像的概率,优化非特异属性因子在生成人脸图像的表示;
计算目标函数,循环优化并更新网络参数,直至目标函数收敛,保存训练完成的MDCS神经网络参数。
优选的,所述特征向量混合机制具体为:
设Encoder编码输入图像所得到的特征向量分为t个因子结构,采样一个服从0-1分布的长度为t的向量v;
将随机采样的两个人脸图像编码得到的特征向量根据v中元素选择不同的因子结构,若为0,则从第一个特征向量中选择因子结构,若为1,则从第二个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和。
优选的,所述混合特征向量恢复机制具体为:
将混合特征向量输入Decoder,获得混合属性的生成人脸图像;
将混合属性的生成人脸图像输入Encoder,获得重构混合特征向量;
对混合特征向量构造所使用的服从0-1分布的长度为t的向量v按位取反,获得向量
Figure BDA0002681725590000051
利用重构混合特征向量以及构造其的第一个特征向量根据
Figure BDA0002681725590000052
中元素选择不同的因子结构;若为0,则从重构混合特征中选择因子结构,若为1,则从构造其的第一个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和;
将所选择因子结构按照特征向量对应位置进行拼接,得到重构第一个特征向量;
再次解码重构第一个特征向量,获取重构生成图像,其所表示的属性与其原始人脸图像相同。
优选的,所述目标函数包括:
基于自动编码器生成图像重构的目标函数,具体为:
Figure BDA0002681725590000061
其中,其中θEnc与θDec表示Encoder和Decoder的参数;
Figure BDA0002681725590000062
为输入人脸图像域x的重构图像域;x1为输入MDCS神经网络Encoder的人脸图像,该目标函数计算原始人脸图像x1以及通过Encoder和Decoder生成的与原始人脸图像一一对应的生成人脸图像的均方误差实现自动编码器的特征恢复过程;
通过混合特征向量恢复机制得到的重构生成图像与原始输入图像基于自动编码器的一致目标函数,具体为:
Figure BDA0002681725590000063
其中,x′1为通过混合特征向量恢复机制得到的重构生成图像,该目标函数计算原始输入图像x1以及x′1的均方误差以实现各个属性因子分离以及再融合生成的目的;
通过Discriminator计算的生成人脸图像与原始人脸图像的特异因子分类目标函数,具体为:
Figure BDA0002681725590000064
其中,θDis是MDCS神经网络的Discriminator的参数;S是被监督属性的标签集合,xmix是通过征向量混合机制获得的混合特征向量解码得到的生成人脸图像,其中xmix携带x1所有的特异因子结构,全部、部分或完全不携带x1的非特异因子结构;该目标函数同时分类输入原始人脸图像域以及生成人脸图像域,加速MDCS神经网络的收敛,保证生成指定属性因子的图像;
通过Discriminator计算的对抗生成目标函数:
Figure BDA0002681725590000065
其中,该目标函数旨在利用MDCS神经网络的Discriminator与Encoder和Decoder对抗训练,意在将生成图像域x对齐原始图像域
Figure BDA0002681725590000071
通过Classifier计算生成图像所属的二分类目标函数,具体为:
Figure BDA0002681725590000072
其中,θCls是MDCS神经网络的Classifier;
Figure BDA0002681725590000073
是对于xmix所表现的属性来源是x1还是x2的概率,t为特征向量中因子结构的个数。
优选的,所述MDCS神经网络的目标函数包括:
LtotalEncDecClsDis)=αLsc+βLadv+γLmix+δLcls+σLrecon,
其中,α,β,γ,δ,σ为各目标函数的权重。
优选的,所述生成指定属性的目标人脸图像具体包括以下步骤:
加载训练完成的MDCS神经网络参数;
将选择的目标属性的人脸图像依次输入至Encoder,得到对应特征向量集合;
针对特征向量中表示不同属性的因子结构,按照目标属性对应的因子结构进行拼接,形成融合特征向量;
将融合特征向量输入Decoder,获得目标属性人脸生成图像。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明利用设计的MDCS神经网络,根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成,与全监督人脸生成方法相比,MDCS神经网络可以适应全监督、部分监督、甚至无监督形式的学习任务;大大减少属性标记人员的工作量,且适用于更广泛的应用场景;与无监督的人脸生成方法相比,MDCS神经网络更为可控,对与特定的应用场景,且要求生成质量较高的情况下,MDCS神经网络可以依赖属性标签来生成,而剩余的图像属性MDCS神经网络还可以自动分离和生成,给用户更多选择的可能。
附图说明
图1是本发明方法的整体流程图;
图2是MDCS神经网络组件图;
图3为MDCS神经网络训练结构图;
图4为MDCS神经网络被监督属性分离生成部分训练结构图;
图5为MDCS神经网络无监督属性分离生成部分训练结构图;
图6为MDCS神经网络多属性分离人脸生成流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本发明针对现有的人脸生成方法中,无法灵活控制监督形式的问题,提出了一种监督可控的人脸多属性分离生成的方法,利用本发明设计的MDCS神经网络,其可以根据客户需要定制的目标和现有的数据标签集合来进行人脸属性的分离与生成。当学习任务存在部分目标属性标签时,MDCS神经网络可以完成部分监督的学习任务——对于具有标签的目标属性进行有监督的分离与生成,对于没有标签的属性进行无监督的分离和生成;当学习任务不存在任何属性标签时,MDCS神经网络可以对所有属性进行无监督的分离与生成;当学习任务对所有属性进行了标签时,MDCS神经网络对所有属性完全监督的分离与生成。
实施例
如图1所示,本发明提供的一种监督可控的人脸多属性分离生成的方法包括以下步骤:
S1、收集人脸数据集合作为神经网络训练数据集,所述人脸数据集合中每一实例由共同的属性因子组成,所述属性因子包括肤色、发型、刘海、眼睛、口罩以及光线等;
在本实施例中,采用公共人脸数据集CelebA作为实例;
所述属性因子根据MDCS神经网络监督形式,通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构,特异因子结构与非特异因子结构统称为因子结构,特异因子结构在MDCS神经网络中为被监督的属性因子,即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子;非特异因子结构在MDCS神经网络中为无监督的属性因子,即在MDCS神经网络中需要通过数据自行监督分离的属性因子。每个特征向量存在多个因子结构,当其中特异因子结构数量为0时,则全为非特异因子结构,表示MDCS神经网络将对所有属性因子无监督地分离及生成;当其中非特异因子结构数量为0时,则全为特异因子结构,表示MDCS神经网络将对所有属性因子完全监督地分离及生成;当特征向量中一部分为特异因子结构,一部分为非特异因子结构时,表示MDCS神经网络将对属性因子部分监督地分离及生成,其中的特异因子有监督地分离和生成,非特异因子无监督地分离和生成。
S2、设计监督可控的人脸多属性分离MDCS神经网络;
在本实施例中,如图2所示,所述MDCS神经网络为一个端到端的神经网络,包括四个子网络,分别为负责将输入高维人脸图像转换为低维特征向量的编码网络Encoder、负责将低维特征向量转换为高维人脸图像的解码网络Decoder、负责对抗训练和多属性分类的判别网络Discriminator以及负责辅助输入图像属性解耦的分类网络Classifier;四个子网络均由卷积层、归一化层以及全连接层组成。
Encoder与Decoder形成自动编码器结构,Encoder输入为数据集人脸图像,输出为由多个特异因子结构与非特异因子结构组成的特征向量;
Discriminator输入与Encoder相同,输出为长度为n+1维的向量,其中前n维为n个Softmax激活函数的输出,剩余1维为Discriminator对抗生成结果,用于优化Encoder与Decoder的输出;
Decoder输入为Encoder输出的特征向量,输出为生成人脸图像,其图像大小与数据集人脸图像的大小相同;
Classifier输入为三张人脸图像在RGB颜色通道维度拼接形成的通道矩阵,输入为长度为t维的向量,其中t维均为t个Sigmoid激活函数的输出;
其中t为特征向量中因子结构数量,n为特异因子结构数量。
S3、将收集的训练数据集作为MDCS神经网络的训练数据集,对MDCS神经网络进行训练,具体为:
将多张人脸图像通过Encoder映射生成多个特征向量,一个特征向量解码一个人脸图像,其中每一个特征向量均等分为多块,每块表示人脸的不同属性因子并分为特异因子结构与非特异因子结构;
从多个特征向量中随机抽取两个特征向量形成特征向量对,针对多个特征向量对使用特征向量混合机制,得到混合特征向量,将特征向量与混合特征向量依次输入至Decoder,得到多张生成人脸图像,每一个图像所表示的属性特征与特征向量以及混合特征向量中的各因子结构表达的属性因子一一对应;
使用混合特征向量恢复机制将混合特征向量恢复至特征向量对,对特征向量对进行解码,得到生成人脸图像,其与输入到Encoder网络的原始人脸图像所表现特征完全相同;
将多张人脸图像与生成人脸图像同时输入至Discriminator,优化对抗生成人脸图像的生成质量;同时,利用Discriminator对人脸图像根据特异属性因子进行分类,优化生成人脸图像所表达的特异属性因子与特异属性因子的人工标签保持一致;
从数据集中随机采样得到的两张人脸图像,使用Encoder映射得到两个特征向量,通过特征向量混合机制,混合该两个特征向量得到混合特征向量,通过Decoder解码该混合特征向量得到生成人脸图像,在图像通道上拼接两张人脸图像以及生成人脸图像并输入至Classifier,计算生成人脸图像表现的各个非特异属性因子来自于两张人脸图像的概率,优化非特异属性因子在生成人脸图像的表示;
计算目标函数,循环优化并更新网络参数,直至目标函数收敛,保存训练完成的MDCS神经网络参数。
所述特征向量混合机制具体为:
设Encoder编码输入图像所得到的特征向量分为t个因子结构,采样一个服从0-1分布的长度为t的向量v;
将随机采样的两个输入图像编码得到的特征向量根据v中元素选择不同的因子结构,若为0,则从第一个特征向量中选择因子结构,若为1,则从第二个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和。
所述混合特征向量恢复机制具体为:
将混合特征向量输入Decoder,获得混合属性生成人脸图像;
将混合属性生成人脸图像输入Encoder,获得重构混合特征向量;
对混合特征向量构造所使用的服从0-1分布的长度为t的向量v按位取反,获得向量
Figure BDA0002681725590000111
利用重构混合特征向量以及构造其的第一个特征向量根据
Figure BDA0002681725590000112
中元素选择不同的因子结构;若为0,则从重构混合特征中选择因子结构,若为1,则从构造其的第一个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和;
将所选择因子结构按照特征向量对应位置进行拼接,得到重构第一个特征向量;
再次解码重构第一个特征向量,获取重构生成图像,其所表示的属性与其原始人脸图像相同。
在本实施例中,如图3所示,x1和x2为从训练数据集随机采样的输入人脸图像,通过Encoder得到输入图像对应的特征向量,在本实施例中,假设特征向量均等分为6个因子结构,其中存在3个特异因子结构(图中黑色边框块)以及3个非特异因子结构(图中灰色边框块)。每个因子结构中的数字意在指示该结构是由x1编码得到还是由x2编码得到的。MDCS神经网络主要完成两个任务:特异因子分离生成与非特意因子分离生成。对于MDCS神经网络的训练过程,下文对所述实施例以MDCS神经网络的目标任务展开叙述:
S31、特异因子分离生成:
对于MDCS神经网络中特异因子分离生成部分训练结构如图4所示。将训练数据集随机采样的输入人脸图像x1和x2输入到Encoder中,获得与输入人脸图像对应的特征向量f1和f2;通过特征向量混合机制获得混合特征向量fmix,其中fmix中的特异因子结构都来自于f1,因此f1和fmix都应该表达x1的特异因子。通过Decoder解码fmix得到混合恢复图像xm x,将混合恢复图像xmix以及x1依次输入至Discriminator,对于每个特异因子,极大化在生成人脸图像产生的概率,概率记为
Figure BDA0002681725590000121
其中θDis是Discriminator的参数,S是特异因子的标签集合。因此,特异因子分离目标函数记为:
Figure BDA0002681725590000122
其中θEncDec是Encoder和Decoder的参数,s是x1和xmix的特异因子标签,
Figure BDA0002681725590000131
是生成图像采样从生成人脸图像域的结果。
此外,Discriminator还与自动编码器结构Encoder-Decoder进行对抗训练,对抗生成目标目标函数函数记为:
Figure BDA0002681725590000132
其中Dis是Discriminator输出的对抗结果,对抗训练为二分类损失函数,特异因子分离为多属性分类损失函数,因本实施例有3个特异因子,则Discriminator的输入为人脸图像,输出为1+3维长度的向量,其中1维为对抗训练输出结果,其余3维为被监督属性分离的输出结果。
S32、非特异因子分离生成:
对于MDCS神经网络中特异因子分离生成部分训练结构如图5所示。将训练数据集随机采样的输入人脸图像x1和x2输入到Encoder中,获得与输入人脸图像对应的特征向量f1和f2;通过特征向量混合机制获得混合特征向量fmix;通过Decoder解码fmix得到混合恢复图像xmix;再次对xmix进行编码得到重构的混合特征向量f′mix,其中的非特异因子结构的构造来源有属于f1的,也有属于f2的,通过混合编码恢复机制将重构的混合特征向量f′mix中来源是f2非特异因子结构的用f1对应位置的非特异因子结构替代,得到重构恢复的特征向量f′1;再对f′1进行解码,得到解混合重构恢复的x′1,其应当与输入图像x1相同,因此,混合目标函数记为:
Figure BDA0002681725590000133
为了加强各属性的分离与生成,将采样得到的输入人脸图像x1和x2与混合特征向量解码得到的xmix输入到Classifier中,本实施假设特征向量有6个因子结构,且对应不同属性,因此Classifier判断通过x1和x2的特征向量f1和f2混合生成的xmix的属性因子是来自x1还是x2的,分类目标函数记为:
Figure BDA0002681725590000141
其中,θCls是MDCS神经网络的Classifier,z是混合特征向量机制中采样的0-1分布长度为t的特征向量,t为因子结构个数,在本实施例中t=6;
Figure BDA0002681725590000142
是对于xmix所表现的属性来源是x1还是x2的概率。
此外,为了保证自动编码器结构的编码与解码能力,有重构目标函数:
Figure BDA0002681725590000143
MDCS神经网络的目标函数包括:
LtotalEncDecClsDis)=αLsc+βLadv+γLmix+δLcls+σLrecon,
其中,α,β,γ,δ,σ为各目标函数的权重。
在本实施例中,训练MDCS神经网络采用了RMSprop算法进行优化,学习率为0.0003,训练批为64,共训练200个周期。
在MDCS神经网络收敛后,保存网络参数,用于多属性分离人脸生成。
S4、将待提取属性的人脸图像输入训练完成的MDCS神经网络,生成指定属性的目标人脸图像,具体为:
在本实施例中,如图6所示,包括以下步骤:
加载训练完成的MDCS神经网络参数;
将选择的目标属性的人脸图像依次输入至Encoder,得到对应特征向量集合;
针对特征向量集合中表示不同属性的因子结构,按照目标属性对应的因子结构进行拼接,形成融合特征向量;
将融合特征向量输入Decoder,获得目标属性人脸生成图像。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种监督可控的人脸多属性分离生成的方法,其特征在于,包括以下步骤:
收集人脸数据集合作为神经网络训练数据集,所述人脸数据集合中每一实例由共同的属性因子组成,所述属性因子包括肤色、发型、刘海、眼睛、口罩以及光线的一种或多种;
设计监督可控的人脸多属性分离MDCS神经网络,所述MDCS神经网络为一个端到端的神经网络,包括四个子网络,分别为负责将输入高维人脸图像转换为低维特征向量的编码网络Encoder、负责将低维特征向量转换为高维人脸图像的解码网络Decoder、负责对抗训练和多属性分类的判别网络Discriminator以及负责辅助输入图像属性解耦的分类网络Classifier,四个子网络均包括卷积层、归一化层以及全连接层;
将收集的训练数据集作为MDCS神经网络的训练数据集,对MDCS神经网络进行训练,将多张人脸图像通过Encoder生成多个特征向量,特征向量混合,得到混合特征向量,混合特征向量恢复,得到与原始特征向量对应的生成人脸图像;将多张原始人脸图像与生成人脸图像输入Discriminator,将原始图像对以及生成人脸图像输入到Classifier,计算目标函数,循环优化并更新网络参数,直至目标函数收敛,保存训练完成的MDCS神经网络参数;
将待提取属性的人脸图像输入训练完成的MDCS神经网络,生成指定属性的目标人脸图像。
2.根据权利要求1所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述属性因子根据MDCS神经网络监督形式,通过Encoder处理输出的特征向量分割为特异因子结构和非特异因子结构,特异因子结构与非特异因子结构统称为因子结构,特异因子结构在MDCS神经网络中表示被监督的属性因子,即在MDCS神经网络中使用人工标记的标签进行监督控制的属性因子;非特异因子结构在MDCS神经网络中表示无监督的属性因子,即在MDCS神经网络中需要通过数据自行监督分离的属性因子。
3.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,一个特征向量存在多个因子结构,当其中特异因子结构数量为0时,则全为非特异因子结构,表示MDCS神经网络将对所有属性因子无监督地分离及生成;当其中非特异因子结构数量为0时,则全为特异因子结构,表示MDCS神经网络将对所有属性因子完全监督地分离及生成;当特征向量中一部分为特异因子结构,一部分为非特异因子结构时,表示MDCS神经网络将对属性因子部分监督地分离及生成,其中的特异因子有监督地分离和生成,非特异因子无监督地分离和生成。
4.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述四个子网络的具体架构为:
Encoder与Decoder形成自动编码器结构,Encoder输入为数据集人脸图像,输出为由多个特异因子结构与非特异因子结构组成的特征向量;
Discriminator输入与Encoder相同,输出为长度为n+1维的向量,其中n维为n个Softmax激活函数的输出,剩余1维为Discriminator对抗生成结果,用于优化Encoder与Decoder的输出;
Decoder输入为Encoder输出的特征向量,输出为生成人脸图像,其图像大小与数据集人脸图像相同;
Classifier输入为三张人脸图像在RGB颜色通道维度拼接形成的通道矩阵,输出为长度为t维的向量,其中t维均为t个Sigmoid激活函数的输出;
其中t为特征向量中因子结构数量,n为特异因子结构数量。
5.根据权利要求2所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述对MDCS神经网络进行训练具体为:
将多张人脸图像通过Encoder映射生成多个特征向量,一个特征向量解码一个人脸图像,其中每一个特征向量均等分为多块,每块表示人脸的不同属性因子并分为特异因子结构与非特异因子结构;
从多个特征向量中随机抽取两个特征向量形成特征向量对,针对多个特征向量对使用特征向量混合机制,得到混合特征向量,将特征向量与混合特征向量依次输入至Decoder,得到多张生成人脸图像,每一个图像所表示的属性特征与特征向量以及混合特征向量中的各因子结构表达的属性因子一一对应;
使用混合特征向量恢复机制将混合特征向量恢复至特征向量对,对特征向量对进行解码,得到生成人脸图像,其与输入到Encoder网络的原始人脸图像所表现特征完全相同;
将多张人脸图像与生成人脸图像同时输入至Discriminator,优化对抗生成人脸图像的生成质量;同时,利用Discriminator对人脸图像根据特异属性因子进行分类,优化生成人脸图像所表达的特异属性因子与特异属性因子的人工标签保持一致;
从数据集中随机采样得到的两张人脸图像,使用Encoder映射得到两个特征向量,通过特征向量混合机制,混合该两个特征向量得到混合特征向量,通过Decoder解码该混合特征向量得到生成人脸图像,在图像通道上拼接两张人脸图像以及生成人脸图像并输入至Classifier,计算生成人脸图像表现的各个非特异属性因子来自于两张人脸图像的概率,优化非特异属性因子在生成人脸图像的表示;
计算目标函数,循环优化并更新网络参数,直至目标函数收敛,保存训练完成的MDCS神经网络参数。
6.根据权利要求5所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述特征向量混合机制具体为:
设Encoder编码输入图像所得到的特征向量分为t个因子结构,采样一个服从0-1分布的长度为t的向量v;
将随机采样的两个人脸图像编码得到的特征向量根据v中元素选择不同的因子结构,若为0,则从第一个特征向量中选择因子结构,若为1,则从第二个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和。
7.根据权利要求5所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述混合特征向量恢复机制具体为:
将混合特征向量输入Decoder,获得混合属性的生成人脸图像;
将混合属性的生成人脸图像输入Encoder,获得重构混合特征向量;
对混合特征向量构造所使用的服从0-1分布的长度为t的向量v按位取反,获得向量
Figure FDA0002681725580000041
利用重构混合特征向量以及构造其的第一个特征向量根据
Figure FDA0002681725580000042
中元素选择不同的因子结构;若为0,则从重构混合特征中选择因子结构,若为1,则从构造其的第一个特征向量中选择因子结构,共选择t块,t为特征向量的因子结构个数之和;
将所选择因子结构按照特征向量对应位置进行拼接,得到重构第一个特征向量;
再次解码重构第一个特征向量,获取重构生成图像,其所表示的属性与其原始人脸图像相同。
8.根据权利要求5所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述目标函数包括:
基于自动编码器生成图像重构的目标函数,具体为:
Figure FDA0002681725580000043
其中,其中θEnc与θDec表示Encoder和Decoder的参数;
Figure FDA0002681725580000045
为输入人脸图像域x的重构图像域;x1为输入MDCS神经网络Encoder的人脸图像,该目标函数计算原始人脸图像x1以及通过Encoder和Decoder生成的与原始人脸图像一一对应的生成人脸图像的均方误差实现自动编码器的特征恢复过程;
通过混合特征向量恢复机制得到的重构生成图像与原始输入图像基于自动编码器的一致目标函数,具体为:
Figure FDA0002681725580000044
其中,x′1为通过混合特征向量恢复机制得到的重构生成图像,该目标函数计算原始输入图像x1以及x′1的均方误差以实现各个属性因子分离以及再融合生成的目的;
通过Discriminator计算的生成人脸图像与原始人脸图像的特异因子分类目标函数,具体为:
Figure FDA0002681725580000051
其中,θDis是MDCS神经网络的Discriminator的参数;S是被监督属性的标签集合,xmix是通过征向量混合机制获得的混合特征向量解码得到的生成人脸图像,其中xmix携带x1所有的特异因子结构,全部、部分或完全不携带x1的非特异因子结构;该目标函数同时分类输入原始人脸图像域以及生成人脸图像域,加速MDCS神经网络的收敛,保证生成指定属性因子的图像;
通过Discriminator计算的对抗生成目标函数:
Figure FDA0002681725580000052
其中,该目标函数旨在利用MDCS神经网络的Discriminator与Encoder和Decoder对抗训练,意在将生成图像域x对齐原始图像域
Figure FDA0002681725580000055
通过Classifier计算生成图像所属的二分类目标函数,具体为:
Figure FDA0002681725580000053
其中,θCls是MDCS神经网络的Classifier;
Figure FDA0002681725580000054
是对于xmix所表现的属性来源是x1还是x2的概率,t为特征向量中因子结构的个数。
9.根据权利要求8所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述MDCS神经网络的目标函数包括:
LtotalEnc,θDec,θCls,θDis)=αLSC+βLadv+γLmix+δLcls+σLrecon
其中,α,β,γ,δ,σ为各目标函数的权重。
10.根据权利要求1或2所述的一种监督可控的人脸多属性分离生成的方法,其特征在于,所述生成指定属性的目标人脸图像具体包括以下步骤:
加载训练完成的MDCS神经网络参数;
将选择的目标属性的人脸图像依次输入至Encoder,得到对应特征向量集合;
针对特征向量中表示不同属性的因子结构,按照目标属性对应的因子结构进行拼接,形成融合特征向量;
将融合特征向量输入Decoder,获得目标属性人脸生成图像。
CN202010964481.3A 2020-09-15 2020-09-15 一种监督可控的人脸多属性分离生成的方法 Active CN112164125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010964481.3A CN112164125B (zh) 2020-09-15 2020-09-15 一种监督可控的人脸多属性分离生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010964481.3A CN112164125B (zh) 2020-09-15 2020-09-15 一种监督可控的人脸多属性分离生成的方法

Publications (2)

Publication Number Publication Date
CN112164125A true CN112164125A (zh) 2021-01-01
CN112164125B CN112164125B (zh) 2022-07-26

Family

ID=73858745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010964481.3A Active CN112164125B (zh) 2020-09-15 2020-09-15 一种监督可控的人脸多属性分离生成的方法

Country Status (1)

Country Link
CN (1) CN112164125B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959286A (zh) * 2023-08-04 2023-10-27 张悦 基于大数据的智能安防方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN109117879A (zh) * 2018-08-03 2019-01-01 南京旷云科技有限公司 图像分类方法、装置及系统
CN109615582A (zh) * 2018-11-30 2019-04-12 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
US20190147333A1 (en) * 2017-11-15 2019-05-16 Palo Alto Research Center Incorporated System and method for semi-supervised conditional generative modeling using adversarial networks
US20190171908A1 (en) * 2017-12-01 2019-06-06 The University Of Chicago Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture
CN110209789A (zh) * 2019-05-29 2019-09-06 山东大学 一种用户注意力引导的多模态对话系统及方法
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN110598786A (zh) * 2019-09-09 2019-12-20 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置
US20200065563A1 (en) * 2018-08-21 2020-02-27 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
US20200167418A1 (en) * 2018-11-26 2020-05-28 Sap Se Adaptive semi-supervised learning for cross-domain sentiment classification

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147333A1 (en) * 2017-11-15 2019-05-16 Palo Alto Research Center Incorporated System and method for semi-supervised conditional generative modeling using adversarial networks
US20190171908A1 (en) * 2017-12-01 2019-06-06 The University Of Chicago Image Transformation with a Hybrid Autoencoder and Generative Adversarial Network Machine Learning Architecture
CN108364016A (zh) * 2018-01-12 2018-08-03 华南理工大学 基于多分类器的渐进式半监督分类方法
CN109117879A (zh) * 2018-08-03 2019-01-01 南京旷云科技有限公司 图像分类方法、装置及系统
US20200065563A1 (en) * 2018-08-21 2020-02-27 Software Ag Systems and/or methods for accelerating facial feature vector matching with supervised machine learning
US20200167418A1 (en) * 2018-11-26 2020-05-28 Sap Se Adaptive semi-supervised learning for cross-domain sentiment classification
CN109615582A (zh) * 2018-11-30 2019-04-12 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN110209789A (zh) * 2019-05-29 2019-09-06 山东大学 一种用户注意力引导的多模态对话系统及方法
CN110598786A (zh) * 2019-09-09 2019-12-20 京东方科技集团股份有限公司 神经网络的训练方法、语义分类方法、语义分类装置

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
J BIAN ET AL: "A Novel and Efficient CVAE-GAN-Based Approach With Informative Manifold for Semi-Supervised Anomaly Detection", 《IN IEEE ACCESS》 *
LAINE S ET AL: "Temporal Ensembling for Semi-Supervised Learning", 《ICLR 2017》 *
LIU Y ET AL: "Improved triple generative adversarial nets", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS IN TECHNOLOGY》 *
SHRIVASTAVA A ET AL: "Constrained semi-supervised learning using attributes and comparative attributes", 《SPRINGER》 *
SRICHARAN K ET AL: "Semi-supervised Conditional GAN", 《ARXIV PREPRINT ARXIV》 *
V F ABREVAYA ET AL: "Multilinear Autoencoder for 3D Face Model Learning", 《2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
X HUANG ET AL: "Multimodal unsupervised image-to-image translation", 《IN PROCEEDINGS OF THE EUROPEAN》 *
崔丰驿: "基于生成对抗网络的图像转换的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张芬: "视觉属性学习及其在图像检索中的应用研究", 《中国博士学位论文全文数据库 (信息科技辑)》 *
徐戈 等: "基于视觉误差与语义属性的零样本图像分类", 《计算机软件及计算机应用》 *
李波 等: "一种多属性约简支持向量机混合分类方法", 《昆明理工大学学报(理工版)》 *
鲍建敏: "基于生成对抗网络的图像合成", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116959286A (zh) * 2023-08-04 2023-10-27 张悦 基于大数据的智能安防方法及系统

Also Published As

Publication number Publication date
CN112164125B (zh) 2022-07-26

Similar Documents

Publication Publication Date Title
Li et al. Collaborative spatiotemporal feature learning for video action recognition
Nguyen et al. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
Liu et al. Multi-objective convolutional learning for face labeling
CN109615582A (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
Fernando et al. Exploiting human social cognition for the detection of fake and fraudulent faces via memory networks
Chen et al. Automated design of neural network architectures with reinforcement learning for detection of global manipulations
JPWO2018203549A1 (ja) 信号変更装置、方法、及びプログラム
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
JP2018018313A (ja) 画像判別装置及び画像判別方法
CN107967441B (zh) 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN111062899B (zh) 基于引导的生成对抗网络的眨眼视频生成方法
CN112164125B (zh) 一种监督可控的人脸多属性分离生成的方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
Shinagawa et al. Interactive image manipulation with natural language instruction commands
CN112766217B (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
Tran et al. Generalization of forgery detection with meta deepfake detection model
Jiang et al. DeepFakes detection: the DeeperForensics dataset and challenge
CN111160124A (zh) 一种基于知识重组的深度模型定制方法
Nguyen et al. An approach to pattern recognition based on hierarchical granular computing
CN114005468A (zh) 一种基于全局工作空间的可解释情绪识别方法和系统
Zhang Detect forgery video by performing transfer learning on deep neural network
CN110969109A (zh) 一种非受限条件下眨眼检测模型及其构建方法和应用
Seidler Information systems and data compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant