CN112767519A - 结合风格迁移的可控表情生成方法 - Google Patents

结合风格迁移的可控表情生成方法 Download PDF

Info

Publication number
CN112767519A
CN112767519A CN202011618332.8A CN202011618332A CN112767519A CN 112767519 A CN112767519 A CN 112767519A CN 202011618332 A CN202011618332 A CN 202011618332A CN 112767519 A CN112767519 A CN 112767519A
Authority
CN
China
Prior art keywords
style
image
expression
facial expression
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011618332.8A
Other languages
English (en)
Other versions
CN112767519B (zh
Inventor
姬艳丽
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011618332.8A priority Critical patent/CN112767519B/zh
Publication of CN112767519A publication Critical patent/CN112767519A/zh
Application granted granted Critical
Publication of CN112767519B publication Critical patent/CN112767519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合风格迁移的可控表情生成方法,获取真实人脸表情图像和动漫风格人脸表情图像,以及真实人脸表情图像的AU向量标签;首先随机选取真实人脸表情图像和动漫人脸表情图像训练风格迁移模块,然后使用已训练好的风格迁移模块生成的动漫风格人脸表情图像、该图像的AU向量标签和期望表情的AU向量,对由表情控制生成模块和判别器模块组成的可控表情生成对抗网络进行训练;将某真实人脸表情图像输入至风格迁移模块得到相同表情的动漫风格人脸表情图像,将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块,得到期望表情的动漫风格人脸表情图像。本发明可以在风格迁移的同时,对动漫风格人脸表情图像的表情类别进行控制。

Description

结合风格迁移的可控表情生成方法
技术领域
本发明属于图像表情控制技术领域,更为具体地讲,涉及一种结合风格迁移的可控表情生成方法。
背景技术
面部表情是人类传达情绪和意图的一种通用且重要的方式,因此通过AU向量控制源域风格人脸图像转换成目标风格人脸表情时的表情类别将为其他领域提供更加丰富的应用,如电影业、动漫制作、AR/VR、摄影技术和电子商务等。
随着深度学习在图像生成领域的研究不断深入,大量基于深度学习的风格迁移算法和表情控制算法被提出。目前实现表情类别可控的真实人脸表情图像到目标表情类别的动漫风格人脸表情图像生成过程需要经过多个步骤的处理,如跨风格图像生成模型,人脸表情编辑模型。
传统的可控表情生成方法是离散式的图像生成方式:先训练一个人脸表情编辑模型,实现对人脸表情的控制目的;然后使用跨风格图像生成模型将编辑后的人脸表情图像转换为动漫风格人脸表情图像。这种“模块式”的方法使得训练过程需要消耗大量的计算资源,封装性差,而且无法实现对生成表情的连续控制,生成的表情比较死板。
发明内容
本发明的目的在于克服现有技术的不足,提供一种结合风格迁移的可控表情生成方法,将风格迁移模块和表情控制生成模块结合,根据输入的真实人脸图像和AU向量,生成与输入AU向量表情类别一致的动漫风格人脸表情图像,实现对生成的动漫风格人脸表情图像的表情类别控制。
为了实现上述发明目的,本发明结合风格迁移的可控表情生成方法包括以下步骤:
S1:获取若干真实人脸表情图像和动漫风格人脸表情图像,对于每个真实人脸表情图像获取其对应的AU向量作为AU向量标签;
S2:构建和训练风格迁移模块,包括特征编码器1和风格迁移解码器,其中特征编码器1用于对真实人脸表情图像进行高维语义特征提取,风格迁移解码器用于对特征编码器1输出的特征进行解码得到动漫风格人脸表情图像并输出;
对步骤S1获取的真实人脸表情图像和动漫风格人脸表情图像进行随机配对作为训练样本,对风格迁移模块进行无监督训练;
S3:构建可控表情生成对抗网络,包括表情控制生成模块和判别器模块,其中:
表情控制生成模块包括特征编码器2、映射网络、自适应归一化层、表情控制解码器和掩码计算层;表情控制生成模块的输入为风格迁移模块所输出的动漫风格人脸表情图像以及期望表情的AU向量,生成与该AU向量表情类别一致的动漫风格人脸表情图像;其中:
特征编码器2用于提取动漫风格人脸表情图像的高维语义的人脸特征,输出至自适应归一化层;
映射网络用于对输入的AU向量进行解耦,将AU向量的长度调整至与特征编码器2输出的人脸特征通道数一致,将解耦后的AU向量输出至自适应归一化层;
自适应归一化层用于将特征编码器2输出的人脸特征和映射网络解耦后的AU向量结合,将得到的特征输出至表情控制解码器;
表情控制解码器用于对自适应归一化层输出的特征进行解码,输出注意力掩码图像A和颜色掩码图像C至掩码计算层;表情控制解码器包括上采样网络和两层卷积网络,其中上采样网络用于对输入的特征进行上采样,两层卷积网络分别对上采样网络得到的特征进行卷积后分别得到注意力掩码图像A和颜色掩码图像C输出至掩码计算层;
掩码计算层用于将表情控制解码器输出的注意力掩码图像A和颜色掩码图像C与输入的动漫风格人脸表情图像相结合,输出与给定AU向量一致的动漫风格人脸表情图像;掩码计算层采用如下公式计算,输出AU向量为yg的动漫风格人脸表情图像
Figure BDA0002871796240000023
Figure BDA0002871796240000021
其中,
Figure BDA0002871796240000022
表示表情控制生成模块输入的动漫风格人脸表情图像;
判别器模块包括AU预测器和风格判别器,其中:
AU预测器的输入为动漫风格人脸表情图像,对该动漫风格人脸表情图像的AU向量进行预测,目的是能够准确预测出动漫风格人脸表情图像具有的AU向量;
风格判别器的输入为动漫风格人脸表情图像,输出介于0和1之间真/伪值,目的是对动漫风格是否逼真进行判别;
S4:记步骤S1中真实人脸表情图像为
Figure BDA0002871796240000031
其AU向量标签为yo,将真实人脸表情图像
Figure BDA0002871796240000032
输入至步骤S2中训练好的风格迁移模块,生成AU向量为yo的动漫风格人脸表情图像
Figure BDA0002871796240000033
将动漫风格人脸表情图像
Figure BDA0002871796240000034
AU向量标签yo和预设的期望表情的AU向量yg作为训练样本,对可控表情生成对抗网络进行训练;在训练过程中,对判别器模块和表情控制生成模块进行交替训练,具体方法为:
判别器模块训练时,固定住表情控制生成模块的网络权重参数;每次训练包含两组输入:第一组为动漫风格人脸表情图像
Figure BDA0002871796240000035
和对应的AU向量标签yo,第二组为表情控制生成模块根据输入的动漫风格人脸表情图像
Figure BDA0002871796240000036
和AU向量yg生成的动漫风格人脸表情图像
Figure BDA0002871796240000037
及AU向量yg;输出为每组输入预测的AU向量和真/伪值;然后根据预设的损失函数L计算出损失值优化判别器模块网络参数。
表情控制生成模块训练时,固定住判别器模块的网络权重参数;每次训练包含两组输入:第一组输入为动漫风格人脸表情图像
Figure BDA0002871796240000038
和AU向量yg,输出生成的动漫风格人脸表情图像
Figure BDA0002871796240000039
将生成的动漫风格人脸表情图像
Figure BDA00028717962400000310
和AU向量yg输入到判别器模块中,预测真/伪值和AU向量;第二组输入为表情控制生成模块根据第一组输入而生成的AU向量为yg的动漫风格人脸表情图像
Figure BDA00028717962400000311
及AU向量标签yo,输出AU向量为yo的动漫风格人脸表情图像
Figure BDA00028717962400000312
然后根据预设的损失函数L计算出损失值优化表情控制生成模块网络参数。
S5:对于某真实人脸表情图像,当需要生成期望表情的动漫风格人脸表情图像时,将该真实人脸图像输入至风格迁移模块得到动漫风格人脸表情图像,将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块,得到期望表情的动漫风格人脸表情图像。
本发明结合风格迁移的可控表情生成方法,获取真实人脸表情图像对应的动漫风格人脸表情图像,以及真实人脸表情图像的AU向量标签;首先随机选取真实人脸表情图像和动漫人脸表情图像训练风格迁移模块,然后使用已训练好的风格迁移模块生成的动漫风格人脸表情图像、该图像的AU向量标签和期望表情的AU向量,对由表情控制生成模块和判别器模块组成的可控表情生成对抗网络进行训练;对于某真实人脸表情图像,当需要生成期望表情的动漫风格人脸表情图像时,将该真实人脸图像输入至风格迁移模块得到相同表情的动漫风格人脸表情图像,将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块,得到期望表情的动漫风格人脸表情图像。
本发明可根据输入的AU向量,在风格迁移的同时,对生成的动漫风格人脸表情图像的表情类别进行控制,并且可以通过AU向量中AU单元的不同激活幅度值产生不同幅度的表情,实现表情的连续控制。如给定一幅输入的真实人脸愤怒表情图像,在给定微笑表情的AU向量后将生成动漫风格的微笑表情图像;逐渐改变AU向量对应的微笑表情的不同激活幅度值,将产生不同幅度的微笑表情。
附图说明
图1是本发明结合风格迁移的可控表情生成方法的具体实施方式流程图;
图2是本发明结合风格迁移的可控表情生成方法的整体网络框图;
图3是本实施例中基于CycleGAN网络的风格迁移模块网络结构图;
图4是本发明中表情控制生成模块的网络结构图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明结合风格迁移的可控表情生成方法的具体实施方式流程图,如图1所示,本发明结合风格迁移的可控表情生成方法的具体步骤包括:
S101:获取训练样本:
获取若干真实人脸表情图像和动漫风格人脸表情图像,对于每个真实人脸表情图像获取其对应的AU(运动单元)向量作为AU向量标签。
FACS(Facial Action Coding System)是人脸国际标准组织定义的44种人脸运动单元(AU),这些运动单元可以组合表示人脸表情所有可能的表情(包含皱眉,抿嘴等)。由于离散表情类别和连续的人脸肌肉运动幅度存在本质的联系,因此可使用离散的特定面部肌肉运动单元组合来控制不同类别的人脸表情图像生成,通过改变运动单元的运动幅值可控制生成表情的幅度。为了得到有AU向量标签的真实人脸表情图片,本实施例在FlickrFaces HQ(FFHQ)数据集中选取了17790张真实的人脸表情图像,经过裁剪后使用openface工具获取每张真实人脸表情图像的AU向量作为AU向量标签。每一个表情都可以使用一系列AU编码yr=(y1,y2,…,yN)来表示,其中yn为标准化后介于0到1之间的实数值,表示第n个面部肌肉运动单元的幅度,n=1,2,…,N,本实施例中N=17。
为了获得相应的动漫风格人脸表情图像,本实施例通过photo2cartoon的方法将选取的真实人脸表情图像转换为对应的动漫风格人脸表情图像,该方法保留了人物的身份信息,对人脸进行较好的五官细节勾勒。
S102:构建并训练风格迁移模块:
为了在实现图像风格转换的同时对所生成的动漫风格人脸表情图像进行表情控制,本发明采用了结合风格迁移的可控表情生成方式。图2是本发明结合风格迁移的可控表情生成方法的整体网络框图。如图2所示,本发明结合风格迁移的可控表情生成方法的整体网络包括风格迁移模块以及由表情控制生成模块G和判别器模块D构成的可控表情生成对抗网络。
如图2所示,为了实现图像风格从真实到动漫风格的变换,本发明构建了风格迁移模块,其输入
Figure BDA0002871796240000051
表示AU信息为yo的真实人脸表情图像,其输出
Figure BDA0002871796240000052
表示
Figure BDA0002871796240000053
经风格迁移模块生成的动漫风格人脸表情图像,图像维度都为H×W×3。其中,H表示图像的高度,W表示图像的宽度。如图2所示,本发明中风格迁移模块包括特征编码器1和风格迁移解码器,其中特征编码器1用于对真实人脸表情图像进行高维语义特征提取,风格迁移解码器用于对特征编码器1输出的特征进行解码得到动漫风格人脸表情图像并进行输出。对步骤S101获取的真实人脸表情图像和动漫风格人脸表情图像进行随机配对作为训练样本,对风格迁移模块进行无监督训练。
本实施例中风格迁移模块采用CycleGAN网络。CycleGAN网络是一种典型的无监督的风格转换网络,在源域和目标域之间,无须建立训练数据间一对一的映射,就可有效实现风格迁移的目的。此外,CycleGAN还通过循环一致损失保证风格转换前后的图片内容尽量相似。因此,本实施例中选择CycleGAN网络作为人脸表情图像风格从真实到动漫风格转换的网络。
图3是本实施例中基于CycleGAN网络的风格迁移模块网络结构图。图3中矩形框所代表的是每一次操作过后的特征维度,输入AU信息为yo的真实人脸表情图像
Figure BDA0002871796240000061
输出为AU信息为yo的动漫风格人脸表情图像
Figure BDA0002871796240000062
Conv表示的是大小为4×4、步长为2、带填充(padding)的卷积核;Deconv表示的是大小为4×4、步长为2、带填充的反卷积核;激活函数有relu激活函数和tanh激活函数。IN为实例归一化(Instance Normalization)。
如图3所示,本实施例中特征编码器1由3层卷积网络和6个残差块构成,并且使用了实例归一化方法来保证图像之间的独立,加快模型的收敛速度。目的是实现对真实人脸表情图像特征的有效提取。风格迁移解码器的网络结构为两层卷积核大小为4×4、步长为2、带填充的反卷积层,将维度为(H/4)×(W/4)×256的特征变换成维度为H×W×64的特征,在这个过程中使用了实例归一化。之后使用一个卷积核大小为7×7、步长为1的卷积层,并使用tanh激活函数,将维度为H×W×64的特征变换为H×W×3的动漫风格人脸表情图像,实现图像风格从真实到动漫风格的变换。
S103:构建可控表情生成对抗网络:
为了实现对生成的动漫风格人脸表情图像进行表情控制,本发明构建了可控表情生成对抗网络。如图2所示,本发明中可控表情生成对抗网络包括表情生成模块G和判别器模块D,其中判别器模块包括风格判别器DI和AU预测器Dy。图1中
Figure BDA0002871796240000063
表示表情控制生成模块G根据动漫风格人脸表情图像
Figure BDA0002871796240000064
以及给定的AU向量yg,输出AU向量为yg的动漫风格人脸表情图像
Figure BDA0002871796240000065
下面分别对2个模块进行详细说明。
·表情控制生成模块
图4是本发明中表情控制生成模块的网络结构图。如图4所示,本发明中表情控制生成模块G包括特征编码器2、映射网络、自适应归一化层、表情控制解码器和掩码计算层,表情控制生成模块G的输入为风格迁移模块所输出的动漫风格人脸表情图像以及AU向量,生成与该AU向量表情一致的动漫风格人脸表情图像。
特征编码器2用于提取动漫风格人脸表情图像的高维语义的人脸特征,输出至自适应归一化层。本实施例中特征编码器2的网络结构和参数设置与特征编码器1的前三层卷积网络一致,目的是实现对动漫风格人脸表情图像特征的有效提取。
映射网络(MappingNet)用于对输入的AU向量进行解耦,即调整AU向量的长度与特征编码器2输出的人脸特征通道数一致,将解耦后的AU向量输出至自适应归一化层。本实施例中映射网络由6层全连接层构成,将AU向量长度从17变换到256。
自适应归一化层(AdaIN)用于将特征编码器2输出的人脸特征和映射网络解耦后的AU向量进行结合,将得到的特征输出至表情控制解码器。人脸特征与AU向量结合的具体做法为:将人脸特征的通道平均值和方差与映射网络解耦后的AU向量的均值和方差对齐。可以采用如下公式表示:
Figure BDA0002871796240000071
其中,x表示人脸特征,μ(x)、σ(x)分别表示人脸特征的通道平均值和方差,y表示解耦后的AU向量,μ(y)、σ(y)分别表示解耦后的AU向量的通道平均值和方差。
表情控制解码器用于对自适应归一化层输出的特征进行解码,输出注意力掩码图像A和颜色掩码图像C至掩码计算层。表情控制解码器的目的是将AU向量和人脸的肌肉运动对应起来,实现对动漫风格人脸表情图像的表情控制。
本实施例中,表情控制解码器由上采样网络和两层卷积网络构成。上采样网络用于对输入的特征进行上采样。本实施例中上采样网络包括6层残差块网络和2层反卷积网络,输入维度为(H/4)×(W/4)×256的特征,经过6层残差块网络和2层反卷积网络后,输出维度为H×W×64的特征。使用两层卷积网络分别对上采样网络得到的特征进行卷积后分别得到注意力掩码图像A和颜色掩码图像C,输出至掩码计算层;
掩码计算层用于将表情控制解码器输出的注意力掩码图像A和颜色掩码图像C与输入的动漫风格人脸表情图像相结合,输出与给定AU向量一致的动漫风格人脸表情图像。掩码计算层的目的是迫使表情控制解码器根据给定AU向量中的值调整人脸肌肉运动,避免对肤色、头发等属性的调整,实现对生成图像表情的精细控制。
掩码计算层采用如下公式计算,输出AU向量为yg的动漫风格人脸表情图像Id_yg
Figure BDA0002871796240000081
其中,
Figure BDA0002871796240000082
表示AU向量为yo动漫风格人脸表情图像。注意力掩码图像A的维度为H×W×1;颜色掩码图像C的维度为H×W×3。A中每个元素的数值介于0和1之间,表示C中每个像素点在输出的
Figure BDA0002871796240000083
中的贡献率。
·判别器模块
如图2所示,本发明中判别器模块包括AU预测器Dy和风格判别器DI,其中:
Dy的输入为有AU标签的动漫风格人脸表情图像,预测并输出该图像的AU向量,目的是能够准确预测动漫风格人脸表情图像的AU向量。在训练阶段,Dy应当准确预测输入图像
Figure BDA0002871796240000084
的AU向量标签yo
DI的输入为动漫风格人脸表情图像,输出介于0和1之间真/伪值,目的是对动漫风格是否逼真进行判别。在训练阶段,DI将对风格迁移模块生成的动漫风格人脸表情图像视为真,输出1;对表情控制生成模块生成的动漫风格人脸表情图像视为伪,输出0。
S104:训练可控表情生成对抗网络:
记步骤S1中真实人脸表情图像为
Figure BDA0002871796240000085
其AU向量标签为yo,将真实人脸表情图像
Figure BDA0002871796240000086
输入至步骤S2中训练好的风格迁移模块,生成AU向量为yo的动漫风格人脸表情图像
Figure BDA0002871796240000087
将动漫风格人脸表情图像
Figure BDA0002871796240000088
AU向量标签yo和预设的期望表情的AU向量yg作为训练样本,对可控表情生成对抗网络进行训练。在训练过程中,对判别器模块和表情控制生成模块进行交替训练,具体方法为:
判别器模块训练时,固定住表情控制生成模块的网络权重参数。每次训练包含两组输入:第一组为动漫风格人脸表情图像
Figure BDA0002871796240000091
和对应的AU向量标签yo,第二组为表情控制生成模块根据输入的
Figure BDA0002871796240000092
和AU向量yg生成的动漫风格人脸表情图像
Figure BDA0002871796240000093
及AU向量yg;输出为每组输入预测的AU向量和真/伪值。然后根据预设的损失函数L计算出损失值优化判别器模块网络参数。
表情控制生成模块训练时,固定住判别器模块的网络权重参数。每次训练包含两组输入:第一组输入为动漫风格人脸表情图像
Figure BDA0002871796240000094
和AU向量yg,输出生成的动漫风格人脸表情图像
Figure BDA0002871796240000095
将生成的
Figure BDA0002871796240000096
和AU向量yg输入到判别器模块中,预测真/伪值和AU向量;第二组输入为表情控制生成模块G根据第一组输入而生成的AU向量为yg的动漫风格人脸表情图像
Figure BDA0002871796240000097
及AU向量标签yo,输出AU向量为yo的动漫风格人脸表情图像
Figure BDA0002871796240000098
然后根据预设的损失函数L计算出损失值优化表情控制生成模块网络参数。
为了更好地实现可控表情生成对抗网络的训练,本实施例中对判别器模块和表情控制生成模块的损失值的计算进行了改进与优化。
本实例中定义的损失函数L包括四项:(1)图像真/伪对抗损失,该损失是为了调整可控表情生成对抗网络的生成图像的分布与风格迁移模块生成的动漫风格人脸表情图像的分布一致;(2)注意力掩码损失,该损失是为了使注意力掩码更加平滑并阻止注意力掩码饱和;(3)表情约束损失,该损失是为了约束可控表情生成对抗网络生成图像的表情与给定AU一致;(4)重建损失,该损失是为了保持人脸身份不变,即动漫风格人脸表情图像在表情改变后的人脸身份信息不改变。以下将对上述四项损失函数作具体描述:
(1)图像真/伪对抗损失
为了使得表情控制生成模块生成的动漫风格人脸表情图像与输入的动漫风格人脸表情图像在风格上不可区分,引入了图像真/伪对抗损失:
Figure BDA0002871796240000099
其中,E[]表示求取期望。
Figure BDA00028717962400000910
表示表情控制生成模块G根据输入的图像
Figure BDA00028717962400000911
和AU向量yg生成的AU向量为yg动漫风格人脸表情图像
Figure BDA00028717962400000912
DI是为了从风格上区分出表情控制生成模块G的输入和输出图像,其输出值DI()表示风格判别器DI根据动漫风格人脸表情图像所预测的真/伪值,DI()是0到1之间的概率值,越接近0则表示该图像的风格与输入的
Figure BDA0002871796240000101
越不相似。G的目标是最小化这项损失函数,然而风格判别器DI的目标是最大化这项损失函数。
(2)注意力掩码损失
由于训练表情控制生成模块时没有注意力掩码图像A的真实标签,A很容易出现饱和现象,即A中的每个元素值为1,这将导致
Figure BDA0002871796240000102
也就是表情控制生成模块失去了作用。为了避免这种情况的发生,本实施例中使用了一个L1范数来对注意力掩码图像A进行约束。另外,为了使输出的动漫风格的人脸表情图像的颜色更加平滑,还使用了一个全差分损失项来约束注意力掩码图像A。
生成动漫风格人脸表情图像
Figure BDA0002871796240000103
时的注意力掩码损失为
Figure BDA0002871796240000104
其计算公式如下:
Figure BDA0002871796240000105
其中,A表示表情控制生成模块G根据
Figure BDA0002871796240000106
和yg输出的注意力掩码图像,Ai,j表示A中像素点(i,j)的掩码值,i=1,2,…,H,j=1,2,…,W。第一项为全差分损失项,第二项为L1范数约束项。λTV是预设的全差分损失项的超参数,用于控制该项损失的相对重要性。
在训练时表情控制生成模块G还会根据动漫风格人脸表情图像
Figure BDA0002871796240000107
及AU向量标签yo,生成AU向量为yo的动漫风格人脸表情图像
Figure BDA0002871796240000108
此时会产生注意力掩码损失
Figure BDA0002871796240000109
(3)表情约束损失
表情控制生成模块不仅要学到生成风格逼真的动漫风格人脸表情图像,生成图像的面部表情也要与输入的AU向量一致,因此设置表情约束损失。该损失函数包括两个部分:第一部分表示Dy对表情控制生成模块G生成的动漫风格人脸表情图像
Figure BDA00028717962400001010
进行AU预测,输出预测的AU向量
Figure BDA00028717962400001011
并与期望yg作AU回归损失,以此来优化表情控制生成模块G;第二部分根据输入的
Figure BDA00028717962400001012
输出预测的AU向量
Figure BDA00028717962400001013
并与Id_yo的AU标签yo作AU回归损失,以此来优化AU预测器Dy。具体的损失函数设置如下:
Figure BDA0002871796240000111
其中,Dy()表示AU预测器根据动漫风格人脸表情图像输出的该图像的AU预测向量,|| ||2表示求取二范数。
(4)重建损失
通过上述的损失函数,表情控制生成模块可以生成逼真的动漫风格人脸表情图像,但是没有真实的监督信息来保证输入图像和生成图像身份信息一致。因此引入重建损失惩罚动漫风格人脸表情图像
Figure BDA0002871796240000112
Figure BDA0002871796240000113
的差异性,迫使表情控制生成模块在生成动漫风格人脸表情图像时保持人物的身份信息不变。该损失函数定义为:
Figure BDA0002871796240000114
其中,
Figure BDA0002871796240000115
表示根据动漫风格人脸表情图像
Figure BDA0002871796240000116
和AU向量标签yo生成的动漫风格人脸表情图像
Figure BDA0002871796240000117
为了生成目标图像
Figure BDA0002871796240000118
将以上4项损失线性组合,建立了一个损失函数L,其定义如下:
Figure BDA0002871796240000119
其中,λI、λA、λy、λrec是控制每部分损失相对重要程度的超参数。
最终,整个可控表情生成对抗网络的训练可定义为下述的最小化最大化问题:
Figure BDA00028717962400001110
其中,G*表示可控表情生成对抗网络,
Figure BDA00028717962400001111
表示以最小化损失值L为目标,优化表情控制生成模块G的网络参数;
Figure BDA00028717962400001112
表示以最大化损失值L为目标,优化判别器模块D的网络参数。
本实施例中采用表情控制生成模块和判别器模块训练次数为1比3的交替训练方式。具体为固定表情控制生成模块G的网络权重参数,以最大化损失值L为目标训练判别器模块3次;然后固定判别器模块的网络权重参数,以最小化损失值L为目标训练表情控制生成模块1次。经过实验选取的合理的超参数为:λI=0.5、λA=0.00001、λTV=10000、λy=1000、λrec=0.1。一个训练批次的图像数量为16,训练100个epoch。优化器为Adam,其设置为(beta1=0.5,beta2=0.999),前70个epoch的学习率为0.00001,后30个epoch,每个epoch的学习率为上一epoch学习率减去0.0000003。
S105:生成期望表情的动漫风格人脸表情图像:
对于某真实人脸表情图像,当需要生成期望表情的动漫风格人脸表情图像时,将该真实人脸图像输入至风格迁移模块得到动漫风格人脸表情图像,将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块,得到期望表情的动漫风格人脸表情图像。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种结合风格迁移的可控表情生成方法,其特征在于,包括以下步骤:
S1:获取若干真实人脸表情图像和动漫风格人脸表情图像,对于每个真实人脸表情图像获取其对应的AU向量作为AU向量标签;
S2:构建和训练风格迁移模块,包括特征编码器1和风格迁移解码器,其中特征编码器1用于对真实人脸表情图像进行高维语义特征提取,风格迁移解码器用于对特征编码器1输出的特征进行解码得到动漫风格人脸表情图像并输出;
对步骤S1获取的真实人脸表情图像和动漫风格人脸表情图像进行随机配对作为训练样本,对风格迁移模块进行无监督训练;
S3:构建可控表情生成对抗网络,包括表情控制生成模块和判别器模块,其中:
表情控制生成模块包括特征编码器2、映射网络、自适应归一化层、表情控制解码器和掩码计算层;表情控制生成模块的输入为风格迁移模块所输出的动漫风格人脸表情图像以及期望表情的AU向量,生成与该AU向量表情类别一致的动漫风格人脸表情图像;其中:
特征编码器2用于提取动漫风格人脸表情图像的高维语义的人脸特征,输出至自适应归一化层;
映射网络用于对输入的AU向量进行解耦,将AU向量的长度调整至与特征编码器2输出的人脸特征通道数一致,将解耦后的AU向量输出至自适应归一化层;
自适应归一化层用于将特征编码器2输出的人脸特征和映射网络解耦后的AU向量结合,将得到的特征输出至表情控制解码器;
表情控制解码器用于对自适应归一化层输出的特征进行解码,输出注意力掩码图像A和颜色掩码图像C至掩码计算层;表情控制解码器包括上采样网络和两层卷积网络,其中上采样网络用于对输入的特征进行上采样,两层卷积网络分别对上采样网络得到的特征进行卷积后分别得到注意力掩码图像A和颜色掩码图像C输出至掩码计算层;
掩码计算层用于将表情控制解码器输出的注意力掩码图像A和颜色掩码图像C与输入的动漫风格人脸表情图像相结合,输出与给定AU向量一致的动漫风格人脸表情图像;掩码计算层采用如下公式计算,输出AU向量为yg的动漫风格人脸表情图像
Figure FDA0002871796230000021
Figure FDA0002871796230000022
其中,
Figure FDA0002871796230000023
表示表情控制生成模块输入的动漫风格人脸表情图像;
判别器模块包括AU预测器和风格判别器,其中:
AU预测器的输入为动漫风格人脸表情图像,对该动漫风格人脸表情图像的AU向量进行预测,目的是能够准确预测出动漫风格人脸表情图像具有的AU向量;
风格判别器的输入为动漫风格人脸表情图像,输出介于0和1之间真/伪值,目的是对动漫风格是否逼真进行判别;
S4:记步骤S1中真实人脸表情图像为
Figure FDA0002871796230000024
其AU向量标签为yo,将真实人脸表情图像
Figure FDA0002871796230000025
输入至步骤S2中训练好的风格迁移模块,生成AU向量为yo的动漫风格人脸表情图像
Figure FDA0002871796230000026
将动漫风格人脸表情图像
Figure FDA0002871796230000027
AU向量标签yo和预设的期望表情的AU向量yg作为训练样本,对可控表情生成对抗网络进行训练;在训练过程中,对判别器模块和表情控制生成模块进行交替训练,具体方法为:
判别器模块训练时,固定住表情控制生成模块的网络权重参数;每次训练包含两组输入:第一组为动漫风格人脸表情图像
Figure FDA0002871796230000028
和对应的AU向量标签yo,第二组为表情控制生成模块根据输入的动漫风格人脸表情图像
Figure FDA0002871796230000029
和AU向量yg生成的动漫风格人脸表情图像
Figure FDA00028717962300000210
及AU向量yg;输出为每组输入预测的AU向量和真/伪值;然后根据预设的损失函数L计算出损失值优化判别器模块网络参数。
表情控制生成模块训练时,固定住判别器模块的网络权重参数;每次训练包含两组输入:第一组输入为动漫风格人脸表情图像
Figure FDA00028717962300000211
和AU向量yg,输出生成的动漫风格人脸表情图像
Figure FDA00028717962300000212
将生成的动漫风格人脸表情图像
Figure FDA00028717962300000213
和AU向量yg输入到判别器模块中,预测真/伪值和AU向量;第二组输入为表情控制生成模块根据第一组输入而生成的AU向量为yg的动漫风格人脸表情图像
Figure FDA00028717962300000214
及AU向量标签yo,输出AU向量为yo的动漫风格人脸表情图像
Figure FDA00028717962300000215
然后根据预设的损失函数L计算出损失值优化表情控制生成模块网络参数。
S5:对于某真实人脸表情图像,当需要生成期望表情的动漫风格人脸表情图像时,将该真实人脸图像输入至风格迁移模块得到动漫风格人脸表情图像,将该动漫风格人脸表情图像和期望表情的AU向量输入表情控制生成模块,得到期望表情的动漫风格人脸表情图像。
2.根据权利要求1所述的可控表情生成方法,其特征在于,所述步骤S2中风格迁移模块采用CycleGAN网络。
3.根据权利要求1所述的可控表情生成方法,其特征在于,所述步骤S4中可控表情生成对抗网络训练时所采用的损失函数为:
Figure FDA0002871796230000031
其中,
Figure FDA0002871796230000032
表示图像真/伪对抗损失,其计算公式如下:
Figure FDA0002871796230000033
其中,E[]表示求取期望,G是表情控制生成模块,DI指的是风格判别器;
Figure FDA0002871796230000034
是AU向量标签为yo的动漫风格人脸表情图像,yg指的是期望的AU向量。
Figure FDA0002871796230000035
表示表情控制生成模块G根据输入的图像
Figure FDA0002871796230000036
和AU向量yg生成的动漫风格人脸表情图像
Figure FDA0002871796230000037
DI是为了从风格上区分出表情控制生成模块G的输入和输出图像,其输出值DI()表示风格判别器DI根据动漫风格人脸表情图像所预测的真/伪值,DI()是0到1之间的概率值,越接近0则表示该图像的风格与输入的
Figure FDA0002871796230000038
越不相似;
Figure FDA0002871796230000039
表示生成动漫风格人脸表情图像
Figure FDA00028717962300000310
时的注意力掩码损失,根据动漫风格人脸表情图像
Figure FDA00028717962300000311
和AU向量yg生成动漫风格人脸表情图像
Figure FDA00028717962300000312
时所产生的注意力掩码图像A得到,其计算公式如下:
Figure FDA00028717962300000313
其中,A表示表情控制生成模块G根据
Figure FDA00028717962300000314
和yg输出的注意力掩码图像,Ai,j表示A中像素点(i,j)的掩码值,i=1,2,…,H,j=1,2,…,W;λTV是预设的超参数;
Figure FDA00028717962300000315
表示表情约束损失,其计算公式如下:
Figure FDA0002871796230000041
其中,Dy()表示AU预测器根据动漫风格人脸表情图像输出的该图像的AU预测向量,||||2表示求取二范数;
Figure FDA0002871796230000042
表示重建损失,其计算公式如下:
Figure FDA0002871796230000043
其中,
Figure FDA0002871796230000044
表示根据动漫风格人脸表情图像
Figure FDA0002871796230000045
和AU向量标签yo生成的动漫风格人脸表情图像
Figure FDA0002871796230000046
λI、λA、λy、λrec是控制每部分损失相对重要程度的超参数;
以最小化损失值L为目标,优化表情控制生成模块G的网络参数;以最大化损失值L为目标,优化判别器模块D的网络参数;从而完成可控表情生成对抗网络的训练。
CN202011618332.8A 2020-12-30 2020-12-30 结合风格迁移的可控表情生成方法 Active CN112767519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011618332.8A CN112767519B (zh) 2020-12-30 2020-12-30 结合风格迁移的可控表情生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011618332.8A CN112767519B (zh) 2020-12-30 2020-12-30 结合风格迁移的可控表情生成方法

Publications (2)

Publication Number Publication Date
CN112767519A true CN112767519A (zh) 2021-05-07
CN112767519B CN112767519B (zh) 2022-04-19

Family

ID=75698181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011618332.8A Active CN112767519B (zh) 2020-12-30 2020-12-30 结合风格迁移的可控表情生成方法

Country Status (1)

Country Link
CN (1) CN112767519B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205449A (zh) * 2021-05-21 2021-08-03 珠海金山网络游戏科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN114037600A (zh) * 2021-10-11 2022-02-11 长沙理工大学 一种基于新注意力机制的新CycleGAN风格迁移网络
CN115187706A (zh) * 2022-06-28 2022-10-14 北京汉仪创新科技股份有限公司 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备
CN115358917A (zh) * 2022-07-14 2022-11-18 北京汉仪创新科技股份有限公司 一种手绘风格非对齐人脸迁移方法、设备、介质和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法
CN109087380A (zh) * 2018-08-02 2018-12-25 咪咕文化科技有限公司 一种漫画动图生成方法、装置及存储介质
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
WO2020147796A1 (zh) * 2019-01-18 2020-07-23 北京市商汤科技开发有限公司 图像处理方法及装置、图像设备及存储介质
CN111652121A (zh) * 2020-06-01 2020-09-11 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN111667559A (zh) * 2020-05-27 2020-09-15 西北工业大学 一种基于深度迁移网络的多形态人脸情感生成方法
US20200311874A1 (en) * 2019-03-25 2020-10-01 Korea Advanced Institute Of Science And Technology Method of replacing missing image data by using neural network and apparatus thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182657A (zh) * 2018-01-26 2018-06-19 深圳市唯特视科技有限公司 一种基于循环生成对抗网络的面部图像转换方法
CN109087380A (zh) * 2018-08-02 2018-12-25 咪咕文化科技有限公司 一种漫画动图生成方法、装置及存储介质
WO2020147796A1 (zh) * 2019-01-18 2020-07-23 北京市商汤科技开发有限公司 图像处理方法及装置、图像设备及存储介质
US20200311874A1 (en) * 2019-03-25 2020-10-01 Korea Advanced Institute Of Science And Technology Method of replacing missing image data by using neural network and apparatus thereof
CN110084121A (zh) * 2019-03-27 2019-08-02 南京邮电大学 基于谱归一化的循环生成式对抗网络的人脸表情迁移的实现方法
CN111667559A (zh) * 2020-05-27 2020-09-15 西北工业大学 一种基于深度迁移网络的多形态人脸情感生成方法
CN111652121A (zh) * 2020-06-01 2020-09-11 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAO YANG 等: "Unconstrained Facial Expression Transfer using Style-based Generator", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
朱逸程: "基于生成对抗网络的多角度面部表情识别研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杜振龙 等: "基于改进CycleGAN的图像风格迁移", 《光学精密工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205449A (zh) * 2021-05-21 2021-08-03 珠海金山网络游戏科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN114037600A (zh) * 2021-10-11 2022-02-11 长沙理工大学 一种基于新注意力机制的新CycleGAN风格迁移网络
CN115187706A (zh) * 2022-06-28 2022-10-14 北京汉仪创新科技股份有限公司 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备
CN115187706B (zh) * 2022-06-28 2024-04-05 北京汉仪创新科技股份有限公司 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备
CN115358917A (zh) * 2022-07-14 2022-11-18 北京汉仪创新科技股份有限公司 一种手绘风格非对齐人脸迁移方法、设备、介质和系统
CN115358917B (zh) * 2022-07-14 2024-05-07 北京汉仪创新科技股份有限公司 一种手绘风格非对齐人脸迁移方法、设备、介质和系统

Also Published As

Publication number Publication date
CN112767519B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN112767519B (zh) 结合风格迁移的可控表情生成方法
CN111243066B (zh) 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
Goodfellow Nips 2016 tutorial: Generative adversarial networks
Morishima et al. A media conversion from speech to facial image for intelligent man-machine interface
Zhang et al. MU-GAN: Facial attribute editing based on multi-attention mechanism
Harashima et al. Model-Based Analysis Synthesis Coding of Videotelephone Images--Conception and Basic Study of Intelligent Image Coding--
CN111798369A (zh) 一种基于循环条件生成对抗网络的人脸衰老图像合成方法
CN116563399A (zh) 一种基于扩散模型和生成对抗网络的图像生成方法
Kavitha et al. Neural style transfer using vgg19 and alexnet
CN117593398A (zh) 一种基于扩散模型的遥感图像生成方法
CN117078539A (zh) 基于CNN-Transformer的局部全局交互式图像恢复方法
CN111667006A (zh) 一种基于AttGan模型生成家族字体的方法
US20230154088A1 (en) Disentangling latent representations for image reenactment
EP4164221A1 (en) Processing image data
CN115439904A (zh) 一种基于知识引导的人脸属性编辑方法
Roy Applying aging effect on facial image with multi-domain generative adversarial network
CN114445889A (zh) 基于双重注意力机制的轻量级人脸老化方法
CN112200816A (zh) 视频图像的区域分割及头发替换方法、装置及设备
Viswanathan et al. Text to image translation using generative adversarial networks
Tonchev et al. Semantic Communication System for 3D Video
Wang et al. APST-Flow: A Reversible Network-Based Artistic Painting Style Transfer Method.
CN116091668B (zh) 一种基于情绪特征指导的说话头视频生成方法
CN117036862B (zh) 基于高斯混合变分自编码器的图像生成方法
CN118247395A (zh) 基于生成对抗网络的动漫人物图像生成方法及系统
Donderici et al. Assembling Semantically-Disentangled Representations for Predictive-Generative Models via Adaptation from Synthetic Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant