CN111243066A - 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 - Google Patents
一种基于自监督学习与生成对抗机制的人脸表情迁移方法 Download PDFInfo
- Publication number
- CN111243066A CN111243066A CN202010020215.5A CN202010020215A CN111243066A CN 111243066 A CN111243066 A CN 111243066A CN 202010020215 A CN202010020215 A CN 202010020215A CN 111243066 A CN111243066 A CN 111243066A
- Authority
- CN
- China
- Prior art keywords
- image
- identity
- self
- face
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,包括:人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤;人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息,并估计出能够代表身份的人脸图像,该图像通常趋向于正面人脸,与姿态无关且保持身份信息;将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中,通过自监督方法解耦视频帧序列中的人脸身份与姿态信息,而无需使用有标注的数据集;同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸,实现人脸表情与姿态在个体间的迁移。
Description
技术领域
本发明涉及深度学习应用技术领域,具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法。
背景技术
随着深度学习与图像处理领域技术的快速发展,人脸表情合成与迁移应用于诸多领域,例如电影制作、游戏制作、虚拟现实、人脸识别等。目前,人脸表情迁移方法主要采用经典的基于模型的参数化建模方法,或者是端到端的数据驱动的生成方法。
现有技术中,前者局限于预先定义的模型及其参数,难以完全表示头部姿态与面部表情;后者一般需要大量而且精细的人脸关键点标注,时间与人工成本昂贵。对于人脸表情迁移领域,其最关键的问题是如何从二维的图像中提取并解耦出人脸的身份与姿态信息,同时将来自不同个体的信息进行融合并再生成高质量的人脸图像。针对这种问题,目前亟待针对这一问题,设计相应而且合理的深度学习网络框架与训练方式,并充分利用大规模的无标注数据集进行训练,进而使网络生成人眼难以辨别的表情迁移图像。
发明内容
本发明针对现有技术中需要大量标注且生成图像质量不佳的技术问题,提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,旨在通过自监督方法解耦视频帧序列中的人脸身份与姿态,无需使用有标注的数据集,同时使用生成对抗机制实现高质量人脸的合成,实现人脸表情与姿态从一个个体到另一个个体的迁移。
本发明的目的通过采取如下技术方案达到:
本发明提供一种基于自监督学习与生成对抗机制的人脸表情迁移方法,在只有演说者人脸视频数据的前提下,能够学习到使用目标视频内的表情与姿态来驱动源图像中的人脸;该生成方法包括:人脸身份与姿态自监督解耦网络设计步骤、生成对抗网络条件生成网络设计步骤、模型训练步骤以及整体框架预测步骤;人脸身份与姿态自监督解耦训练步骤使用一个多帧的形变自编码器来融合来自同一个视频序列的不同帧的人脸信息,并估计出能够代表身份的人脸图像,该图像通常趋向于正面人脸,与姿态无关且保持身份信息;同时使用一个多尺度的自编码器来捕捉同一视频序列中的每一帧的全局形变信息,通过重建图像来学习每一帧的姿态信息;生成对抗网络条件生成训练步骤使用一组生成对抗网络,支持条件输入的生成器G从源视频得到身份图像为输入,并以目标视频的姿态信息为条件,进行有条件的图像生成,多尺度的判别器D则根据生成图像与真实图像进行判别;模型训练步骤主要是利用已构建的数据集对所设计的网络进行训练,进而获得网络权重;整体框架预测步骤主要是由人脸身份自编码器提取身份图像,人脸姿态自编码器提取目标人脸姿态表示,生成对抗网络根据这两者生成带有迁移表情的人脸图像。
具体的,操作步骤如下:
S1、人脸身份与姿态自监督解耦网络设计步骤,主要是致力于通过网络学习到能代表这两者的相互独立的特征;该步骤中包含了一个多帧的人脸身份自编码器F来提取人脸身份,融合多张人脸图像生成对应人脸的身份图像同时,使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征并跟据与姿态信息重建输入图像,通过重建任务激励两个自编码器解耦信息;
S2、生成对抗网络设计步骤,主要是致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像;该步骤包含了一个带有条件的生成器G以人脸身份自编码器F生成的身份图像为输入,以人脸姿态自编码器提取到的姿态特征为条件,生成人脸表情迁移图像多尺度的判别器D则通过判别生成图像与真实图像,激励支持条件输入的生成器G生成逼真的人脸图像;
S3、模型训练步骤,利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络,以大规模、多模态的图像为输入,通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络,对输入图像进行重建,并将重建结果与输入图像进行判别,对网络模型进行优化与约束;
S4、整体框架预测步骤,给定一张提供人脸身份信息的源图像或视频与一张提供人脸姿态信息的目标图像或视频,由人脸身份自编码器F提取身份图像人脸姿态自编码器P提取目标人脸的姿态特征支持条件输入的生成器G分别以这两者为输入与条件,生成带有目标表情的人脸表情迁移图像
进一步地,步骤S1中,对人脸信息进行自监督解耦,分为人脸身份信息与人脸姿态信息两类;
步骤S1过程如下:
S11、本发明设计了人脸身份自编码器F,其接受多帧图像序列作为输入,生成对应每一帧的不完整的身份图像候选而后通过将其融合,得到具有完整人脸的身份图像其中,i表示输入视频序列序号,nview表示一次输入网络进行融合的图像数量,W与H分别代表了输入图像的宽度与高度。
对人脸身份图像的融合步骤具体如下:
S11B)、得到位移场T后,将输入图像中的所有像素Iu,v按照位移场T中的运动向量Tu,v的指示进行位移,得到形变图像fi t。经过网络的学习与训练,无论输入何种姿态的图像,其对应的形变图像fi t均趋向于正脸图像,只是根据原始输入图像的姿态有不同程度的细节缺失。
S12、本发明设计了人脸姿态自编码器P,其任务是以一帧图像作为输入,学习如何将从人脸身份自编码器得到的身份图像上的像素通过位移与形变的手段,重建输入图像。与此同时,其还需要学习到有意义的姿态特征用于后续的生成对抗网络中。
对人脸图像的中姿态信息的提取与重建步骤具体如下:
S12A)、该自编码器P先将输入图像进行编码,得到姿态特征而后进行解码;其最后三个网络层分别输出一个位移场T-1与两个残差响应图RL与RH;位移场T-1内含有姿态信息,用以将身份图像还原为带有姿态的图像;此处生成的位移场空间尺寸为H/4×W/4,而不是输入图像与身份图像的完整尺寸H×W;两个残差响应图主要是通过残差的方式提升图像的分辨率,并增加细节信息。
S12C)、低分辨率的重建图像经过差值扩大一倍后,与残差响应图RL相加,得到H/2×W/2分辨率的图像。
进一步地,所述的S2步骤中,所述的用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络。
步骤S2过程如下:
对表情迁移图像生成步骤具体如下:
S21B)、将编码表示送入中间部分Gmid与上采样部分Gup,并将与来自人脸姿态自编码器P的姿态特征作为条件输入网络,生成得到人脸表情迁移图像条件与输入的融合过程通过自适应实例归一化层实现,改层首先将来自上一层的输入经过实例归一化,使其在N与C空间维度上呈标准正态分布;而后将姿态表示经过一层共享的全连接层,而后经过各自另一层全连接层,分别得到之后使用的标准差γ与均值β;最后将经过归一化的输入,使用由条件信息得到的标准差γ与均值β进行反归一化,得到融合后的输出。
S22、本发明设计了一个多尺度的判别器D,使用了3个判别器D1、D2与D3,分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4;这些子判别器除了输入图像尺寸有所区别之外,其网络结构均相同;生成图像与真实图像首先在通道维度上进行连接,而后缩放到3个尺度上并送入对应的子判别器;子判别器则分别从不同尺度对输入图像进行判别,分辨真假;虽然3个子判别器的网络结构相同,但是D3由于其拥有最大的感受野,所以更倾向于捕捉全局的特征,并激励支持条件输入的生成器G生成在全局上与真实图像相同的生成图像;D1由于其拥有最小的感受野,所以更倾向于局部的细节,并激励支持条件输入的生成器G生成在细节上与真实图像相似的生成图像。
进一步地,所述的S3步骤中,模型训练通过优化网络损失函数,实现模型的收敛。其中,网络损失函数设计过程如下:
S31、使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P,具体表示如下:
整个人脸特征自监督解耦网络的损失函数如下:
S32、使用对抗损失、图像重建损失与特征匹配损失约束生成对抗网络中的支持条件输入的生成器G与多尺度的判别器D,具体表示如下:
整个人脸特征自监督解耦网络的损失函数如下:
网络训练步骤具体如下:
S33、首先使用大量的视频序列初始化人脸特征自监督解耦的两个网络人脸身份自编码器F与人脸姿态自编码器P,使其具备解耦人脸身份与人脸姿态的能力。
S35、最后,通过对4个网络F、P、G、D进行联合训练,优化所有损失函数,实现网络模型的收敛,获得生成人脸表情迁移图像的网络结构与权重。
本发明相对于现有技术,具有如下的优点及效果:
本发明将自监督学习与生成对抗机制应用到人脸表情与姿态迁移任务中,通过自监督方法解耦视频帧序列中的人脸身份与姿态信息,而无需使用有标注的数据集;同时使用生成对抗网络融合来自不同个体的身份与姿态信息并合成高质量人脸,实现人脸表情与姿态在个体间的迁移。
附图说明
图1是本发明实施例中整体网络框架示意图;
图2是本发明实施例中效果图,第一列为提供身份信息的源图像,第一行为提供姿态信息的驱动图像,中间为被驱动的人脸表情迁移图像;
图3是本发明实施例中人脸身份自编码器F结构示意图;
图4是本发明实施例中人脸姿态自编码器P结构示意图;
图5是本发明实施例中支持条件输入的生成器G结构示意图;
图6是本发明实施例中多尺度的判别器D结构示意图。
具体实施方式
本发明实施例提供的方案中,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例
本发明实施例公开了具体涉及一种基于自监督学习与生成对抗机制的人脸表情迁移方法,主要涉及以下几类技术:1)人脸身份与姿态自监督解耦网络:利用大规模无标注视频数据集与自监督学习方法,解耦人脸身份与姿态特征;2)含有条件的生成对抗网络:利用解耦后的身份信息与姿态信息,在同一个体内进行图像重建,或者在不同个体间进行表情迁移;3)模型训练;4)整体框架预测步骤。
本发明实施例公开的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,方法流程图如图1所示,主要过程包括模型训练和模型推断两个阶段。
在模型训练阶段:利用具有高计算能力的服务器对网络模型进行训练,通过降低网络损失函数来优化网络参数,直至网络收敛,获得基于自监督学习与生成对抗机制的人脸表情与姿态迁移网络权重;
在模型推断阶段:利用两个自编码器获得源图像的身份信息与目标图像的姿态信息,并送入生成对抗网络之中进行生成,得到表情迁移图像,如图2所示。
以下结合说明书附图对本发明实施例所提供的一种人脸表情迁移方法做进一步详细的说明,该方法具体实现方式可以包括以下步骤:
步骤1、整个自监督人脸信息解耦网络主要包含了两个子网络,分别对应人脸身份与人脸姿态。图3是人脸身份自编码器F的具体网络结构,图4是人脸姿态自编码器P的具体网络结构。该人脸信息解耦网络的具体实现方式可以包括以下处理步骤:
步骤101、人脸身份自编码器F接受nview张3通道RGB彩色图像同时输入。具体地,此处nview可以取8,图像大小可取256×256。当数据集中的一个视频序列长度大于nview时,将会从该序列中随机选取8张图像作为输入图像,并在每一轮训练时重新采样;当数据集中的一个视频序列长度小于nview且大于nview/2时,将会对序列中的图像进行数据增强,例如随机水平翻转、随机微小角度中心旋转、随机色彩抖动;当数据集中的一个视频序列小于nview/2时,不采用该视频序列。
人脸身份自编码器F自身是一个U形的自编码器网络,其先对输入进行逐层的下采样,得到中间表示,而后对中间表示进行相同层数的上采样操作,最终进行输出。具体地,下采样部分被称为编码器,上采样部分被称为解码器。这两个部分各有8个卷积模块,编码器中的卷积模块是“激活函数-卷积-归一化”的结构,解码器中的卷积模块是“激活函数-差值上采样-卷积-归一化”的结构。每个卷积模块中,激活函数使用ReLU函数,卷积核大小为4×4,步长为1,填充为1,归一化使用批归一化操作。同时,其网络有跳跃-连接结构,编码器中的各个卷积模块的输出,将会输入到解码器中对应层级的卷积模块的输入中。在最后一层,人脸身份自编码器F输出一个位移场T∈RH×W×2与一个注意力响应图A∈RH×W×1,通过位移场T将输入图像进行形变,产生形变图像通过注意力响应图A与形变图像进行点乘,得到身份图像候选
步骤102、人脸姿态自编码器P接受1张3通道RGB彩色图像作为输入。与人脸身份自编码器F的网络结构类似,该自编码器也是一个U形网络,并包含编码器与解码器两个部分。两者的不同之处在于,人脸姿态自编码器P没有使用跳跃-连接结构,并且其最后三层均作为输出层,分别输出H/4×W/4×2大小的位移图T-1、H/2×W/2×3大小的低分辨率残差图像RL以及H×W×3大小的高分辨率残差图像RH。
步骤2、整个含有条件的生成对抗网络主要包含了两个子网络,分别是支持条件输入的生成器G与多尺度的判别器D。图5是支持条件输入的生成器G的具体网络结构,图6是多尺度的判别器D的具体网络结构。
该含有条件的生成对抗网络的具体实现方式可以包括以下处理步骤:
步骤201、支持条件输入的生成器G由下采样部分Gdown、中间部分Gmid与上采样部分Gup组成。下采样部分Gdown由4个普通的残差网络模块组成,每个残差网络模块的主干路径是“卷积-归一化-激活函数-卷积-归一化”的结构,其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU;归一化方法为批归一化。中间部分Gmid与上采样部分Gup使用预激活顺序的条件残差网络模块,该模块的主干路径为“条件归一化-激活函数-卷积-条件归一化-激活函数-卷积”的结构,其中条件归一化方法使用自适应实例归一化层实现,全连接层的隐藏维度为256。其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU。中间部分Gmid使用了9个条件残差网络模块;上采样部分Gup使用了4个条件残差网络模块,并在此基础上增加了额外的差值上采样层。
步骤202、多尺度的判别器D所使用的三个子判别器,除了输入图像大小不同之外,其余网络结构均相同。该结构使用了5个卷积模块,每个模块是“卷积-归一化-激活函数”的结构。其中卷积的卷积核大小为3×3,步长为1,填充为1;激活函数为ReLU;归一化方法为批归一化。
多尺度的判别器D网络的输入为3通道RGB彩色的生成与真实图像,终得到输入图像真假的判别结果。
步骤3、模型训练,是在高性能的GPUs集群上进行的;学习率初始为0.001,后线性下降;优化器选用Adam方法,参数为0.9/0.9999;训练轮数数量总计为50;批尺寸为48组图像。
含有条件的生成对抗网络的总损失函数为LGAN=LADV+λRLR+λFMLFM,其中LADV代指对抗损失函数,且LR与LFM均取1。生成对抗网络采用双时间尺度更新法则,多尺度的判别器D的学习率设置为支持条件输入的生成器G的4倍,为0.004;在同一次迭代中,先更新的学习率设置为支持条件输入的生成器G,后更新多尺度的判别器D,每一次迭代均更新两者的参数。
训练过程中,先使用LEMB来初始化自监督人脸信息解耦网络,进行30轮;而后固定自监督人脸信息解耦网络的参数,使用LGAN初始化含有条件的生成对抗网络,进行1轮;最后同时使用LEMB与LGAN,针对4个网络F、P、G、D进行联合训练,直至其收敛。
步骤4、模型推断,通过人脸身份自编码器F提取源图像的身份图像通过人脸姿态自编码器P提取目标图像的姿态特征作为支持条件输入的生成器G的输入与条件,最后得到保持源图像身份且包含目标图像表情与姿态的人脸表情迁移图像
上述实施例是本发明较佳的实施方式,但是本发明的实施方式不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,包括下列步骤:
S1、人脸身份与姿态自监督解耦网络设计步骤,主要是致力于通过网络学习到能代表这两者的相互独立的特征;该步骤中包含了一个多帧的人脸身份自编码器F来提取人脸身份,融合多张人脸图像生成对应人脸的身份图像同时,使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征并跟据与姿态信息重建输入图像,通过重建任务激励两个自编码器解耦信息;
S2、生成对抗网络设计步骤,主要是致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像;该步骤包含了一个支持条件输入的生成器G以人脸身份自编码器F生成的身份图像为输入,以人脸姿态自编码器提取到的姿态特征为条件,生成人脸表情迁移图像一个多尺度的判别器D则通过判别生成图像与真实图像,激励支持条件输入的生成器G生成逼真的人脸图像;
S3、模型训练步骤,利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络,以大规模、多模态的图像为输入,通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络,对输入图像进行重建,并将重建结果与输入图像进行判别,对网络模型进行优化与约束;
2.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,所述的人脸身份自编码器F,其接受多帧图像序列作为输入,生成对应每一帧的不完整的身份图像候选而后通过将其融合,得到具有完整人脸的身份图像其中,i表示输入视频序列序号,nview表示一次输入网络进行融合的图像数量,W与H分别代表了输入图像的宽度与高度;
得到位移场T后,将输入图像中的所有像素Iu,v按照位移场T中的运动向量Tu,v的指示进行位移,得到形变图像fi t;经过网络的学习与训练,无论输入何种姿态的图像,其对应的形变图像fi t均趋向于正脸图像,只是根据原始输入图像的姿态有不同程度的细节缺失;
3.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,所述的人脸姿态自编码器P,其任务是以一帧图像作为输入,学习如何将从人脸身份自编码器得到的身份图像上的像素通过位移与形变的手段,重建输入图像;与此同时,其还需要学习到有意义的姿态特征用于后续的生成对抗网络中;
该自编码器P先将输入图像进行编码,得到姿态特征而后进行解码;其最后三个网络层分别输出一个位移场T-1与两个残差响应图RL与RH;位移场T-1内含有姿态信息,用以将身份图像还原为带有姿态的图像;此处生成的位移场空间尺寸为H/4×W/4,而不是输入图像与身份图像的完整尺寸H×W;两个残差响应图主要是通过残差的方式提升图像的分辨率,并增加细节信息;
4.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,所述的用以生成人脸表情迁移图像的生成对抗网络包含了支持条件输入的生成器G与多尺度的判别器D两个网络;
将编码表示送入中间部分Gmid与上采样部分Gup,并将与来自人脸姿态自编码器P的姿态特征作为条件输入网络,生成得到人脸表情迁移图像条件与输入的融合过程通过自适应实例归一化层实现,改层首先将来自上一层的输入经过实例归一化,使其在N与C空间维度上呈标准正态分布;而后将姿态表示经过一层共享的全连接层,而后经过各自另一层全连接层,分别得到之后使用的标准差γ与均值β;最后将经过归一化的输入,使用由条件信息得到的标准差γ与均值β进行反归一化,得到融合后的输出;
一个多尺度的判别器D,使用了3个子判别器D1、D2与D3,分别对应输入空间尺寸H×W、H/2×W/2与H/4×W/4;这些子判别器除了输入图像尺寸有所区别之外,其网络结构均相同;生成图像与真实图像首先在通道维度上进行连接,而后缩放到3个尺度上并送入对应的子判别器;子判别器则分别从不同尺度对输入图像进行判别,分辨真假;虽然3个子判别器的网络结构相同,但是D3由于其拥有最大的感受野,所以更倾向于捕捉全局的特征,并激励支持条件输入的生成器G生成在全局上与真实图像相同的生成图像;D1由于其拥有最小的感受野,所以更倾向于局部的细节,并激励支持条件输入的生成器G生成在细节上与真实图像相似的生成图像。
5.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,模型训练步骤通过优化网络损失函数,实现模型的收敛;
使用图像重建与平滑损失约束人脸身份自编码器F与人脸姿态自编码器P;图像重建损失使用L1距离度量作为真值的输入图像与姿态自编码器的重建图像 图像平滑损失使用总变差正则化,限制位移场T与T-1中在横向与纵向上的梯度变化,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020215.5A CN111243066B (zh) | 2020-01-09 | 2020-01-09 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020215.5A CN111243066B (zh) | 2020-01-09 | 2020-01-09 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243066A true CN111243066A (zh) | 2020-06-05 |
CN111243066B CN111243066B (zh) | 2022-03-22 |
Family
ID=70879947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010020215.5A Active CN111243066B (zh) | 2020-01-09 | 2020-01-09 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243066B (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783658A (zh) * | 2020-07-01 | 2020-10-16 | 河北工业大学 | 基于双生成对抗网络的两阶段表情动画生成方法 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112233012A (zh) * | 2020-08-10 | 2021-01-15 | 上海交通大学 | 一种人脸生成系统及方法 |
CN112418074A (zh) * | 2020-11-20 | 2021-02-26 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
CN112446317A (zh) * | 2020-11-23 | 2021-03-05 | 四川大学 | 一种基于特征解耦的异质人脸识别方法及装置 |
CN112489218A (zh) * | 2020-11-30 | 2021-03-12 | 江苏科技大学 | 一种基于半监督学习的单视图三维重建系统及其方法 |
CN112651916A (zh) * | 2020-12-25 | 2021-04-13 | 上海交通大学 | 自监督模型预训练方法、系统及介质 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112712460A (zh) * | 2020-12-09 | 2021-04-27 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
CN112766160A (zh) * | 2021-01-20 | 2021-05-07 | 西安电子科技大学 | 基于多级属性编码器和注意力机制的人脸替换方法 |
CN112802160A (zh) * | 2021-01-12 | 2021-05-14 | 西北大学 | 一种基于u-gat-it改进的秦腔角色卡通化风格迁移的方法 |
CN112800869A (zh) * | 2021-01-13 | 2021-05-14 | 网易(杭州)网络有限公司 | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 |
CN112800937A (zh) * | 2021-01-26 | 2021-05-14 | 华南理工大学 | 一种智能人脸识别方法 |
CN112861805A (zh) * | 2021-03-17 | 2021-05-28 | 中山大学 | 一种基于内容特征和风格特征的人脸图像生成方法 |
CN112949707A (zh) * | 2021-02-26 | 2021-06-11 | 西安电子科技大学 | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 |
CN113033511A (zh) * | 2021-05-21 | 2021-06-25 | 中国科学院自动化研究所 | 一种基于操控解耦身份表示的人脸匿名方法 |
CN113205449A (zh) * | 2021-05-21 | 2021-08-03 | 珠海金山网络游戏科技有限公司 | 表情迁移模型的训练方法及装置、表情迁移方法及装置 |
CN113223124A (zh) * | 2021-03-30 | 2021-08-06 | 华南理工大学 | 一种基于三维人体参数化模型的姿态迁移方法 |
CN113344777A (zh) * | 2021-08-02 | 2021-09-03 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
CN113592982A (zh) * | 2021-09-29 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 身份迁移模型构建方法、装置、电子设备及可读存储介质 |
CN113609960A (zh) * | 2021-08-03 | 2021-11-05 | 北京奇艺世纪科技有限公司 | 一种目标图片的人脸驱动方法及装置 |
CN113706650A (zh) * | 2021-08-27 | 2021-11-26 | 深圳龙岗智能视听研究院 | 一种基于注意力机制和流模型的图像生成方法 |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN113762022A (zh) * | 2021-02-09 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 人脸图像的融合方法和装置 |
CN113850152A (zh) * | 2021-09-03 | 2021-12-28 | 北京中科睿鉴科技有限公司 | 基于姿态分离生成对抗网络的人物识别方法 |
CN114022930A (zh) * | 2021-10-28 | 2022-02-08 | 天津大学 | 一种人像证件照自动生成方法 |
CN114119445A (zh) * | 2020-08-27 | 2022-03-01 | 北京晟易机器人科技有限公司 | 一种基于自动x射线成像的焊盘空洞率计算方法 |
CN114399829A (zh) * | 2022-03-25 | 2022-04-26 | 浙江壹体科技有限公司 | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 |
CN114742890A (zh) * | 2022-03-16 | 2022-07-12 | 西北大学 | 一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法 |
CN114760497A (zh) * | 2021-01-08 | 2022-07-15 | 阿里巴巴集团控股有限公司 | 视频生成方法、非易失性存储介质及电子设备 |
CN115050087A (zh) * | 2022-08-16 | 2022-09-13 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
CN115115676A (zh) * | 2022-04-29 | 2022-09-27 | 腾讯医疗健康(深圳)有限公司 | 图像配准方法、装置、设备和存储介质 |
CN115270997A (zh) * | 2022-09-20 | 2022-11-01 | 中国人民解放军32035部队 | 基于迁移学习的火箭目标姿态稳定判别方法及相关装置 |
CN115836846A (zh) * | 2022-12-14 | 2023-03-24 | 北京航空航天大学 | 一种基于自监督迁移学习的无创血压估计方法 |
CN116798103A (zh) * | 2023-08-29 | 2023-09-22 | 广州诚踏信息科技有限公司 | 基于人工智能的人脸图像处理方法及系统 |
EP4187479A4 (en) * | 2020-08-19 | 2024-01-24 | Beijing Bytedance Network Technology Co., Ltd. | EXPRESSION TRANSFORMATION METHOD AND APPARATUS, ELECTRONIC DEVICE AND COMPUTER-READABLE MEDIUM |
CN117993480A (zh) * | 2024-04-02 | 2024-05-07 | 湖南大学 | 面向设计师风格融合和隐私保护的aigc联邦学习方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292813A (zh) * | 2017-05-17 | 2017-10-24 | 浙江大学 | 一种基于生成对抗网络的多姿态人脸生成方法 |
CN108171770A (zh) * | 2018-01-18 | 2018-06-15 | 中科视拓(北京)科技有限公司 | 一种基于生成式对抗网络的人脸表情编辑方法 |
CN108268845A (zh) * | 2018-01-17 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种利用生成对抗网络合成人脸视频序列的动态转换系统 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
US10504268B1 (en) * | 2017-04-18 | 2019-12-10 | Educational Testing Service | Systems and methods for generating facial expressions in a user interface |
-
2020
- 2020-01-09 CN CN202010020215.5A patent/CN111243066B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10504268B1 (en) * | 2017-04-18 | 2019-12-10 | Educational Testing Service | Systems and methods for generating facial expressions in a user interface |
CN107292813A (zh) * | 2017-05-17 | 2017-10-24 | 浙江大学 | 一种基于生成对抗网络的多姿态人脸生成方法 |
CN108268845A (zh) * | 2018-01-17 | 2018-07-10 | 深圳市唯特视科技有限公司 | 一种利用生成对抗网络合成人脸视频序列的动态转换系统 |
CN108171770A (zh) * | 2018-01-18 | 2018-06-15 | 中科视拓(北京)科技有限公司 | 一种基于生成式对抗网络的人脸表情编辑方法 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
Non-Patent Citations (1)
Title |
---|
AYUSH TEWARI 等: "FML: Face Model Learning from Videos", 《ARXIV》 * |
Cited By (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783658B (zh) * | 2020-07-01 | 2023-08-25 | 河北工业大学 | 基于双生成对抗网络的两阶段表情动画生成方法 |
CN111783658A (zh) * | 2020-07-01 | 2020-10-16 | 河北工业大学 | 基于双生成对抗网络的两阶段表情动画生成方法 |
CN111915545A (zh) * | 2020-08-06 | 2020-11-10 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN111915545B (zh) * | 2020-08-06 | 2022-07-05 | 中北大学 | 一种多波段图像的自监督学习融合方法 |
CN112233012A (zh) * | 2020-08-10 | 2021-01-15 | 上海交通大学 | 一种人脸生成系统及方法 |
CN112233012B (zh) * | 2020-08-10 | 2023-10-31 | 上海交通大学 | 一种人脸生成系统及方法 |
EP4187479A4 (en) * | 2020-08-19 | 2024-01-24 | Beijing Bytedance Network Technology Co., Ltd. | EXPRESSION TRANSFORMATION METHOD AND APPARATUS, ELECTRONIC DEVICE AND COMPUTER-READABLE MEDIUM |
CN114119445A (zh) * | 2020-08-27 | 2022-03-01 | 北京晟易机器人科技有限公司 | 一种基于自动x射线成像的焊盘空洞率计算方法 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112418074A (zh) * | 2020-11-20 | 2021-02-26 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
CN112418074B (zh) * | 2020-11-20 | 2022-08-23 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
CN112446317A (zh) * | 2020-11-23 | 2021-03-05 | 四川大学 | 一种基于特征解耦的异质人脸识别方法及装置 |
CN112489218A (zh) * | 2020-11-30 | 2021-03-12 | 江苏科技大学 | 一种基于半监督学习的单视图三维重建系统及其方法 |
CN112489218B (zh) * | 2020-11-30 | 2024-03-19 | 江苏科技大学 | 一种基于半监督学习的单视图三维重建系统及其方法 |
CN112712460A (zh) * | 2020-12-09 | 2021-04-27 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
CN112712460B (zh) * | 2020-12-09 | 2024-05-24 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112712812B (zh) * | 2020-12-24 | 2024-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112651916A (zh) * | 2020-12-25 | 2021-04-13 | 上海交通大学 | 自监督模型预训练方法、系统及介质 |
CN114760497A (zh) * | 2021-01-08 | 2022-07-15 | 阿里巴巴集团控股有限公司 | 视频生成方法、非易失性存储介质及电子设备 |
CN112802160B (zh) * | 2021-01-12 | 2023-10-17 | 西北大学 | 一种基于u-gat-it改进的秦腔角色卡通化风格迁移的方法 |
CN112802160A (zh) * | 2021-01-12 | 2021-05-14 | 西北大学 | 一种基于u-gat-it改进的秦腔角色卡通化风格迁移的方法 |
CN112800869A (zh) * | 2021-01-13 | 2021-05-14 | 网易(杭州)网络有限公司 | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 |
CN112800869B (zh) * | 2021-01-13 | 2023-07-04 | 网易(杭州)网络有限公司 | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 |
CN112766160B (zh) * | 2021-01-20 | 2023-07-28 | 西安电子科技大学 | 基于多级属性编码器和注意力机制的人脸替换方法 |
CN112766160A (zh) * | 2021-01-20 | 2021-05-07 | 西安电子科技大学 | 基于多级属性编码器和注意力机制的人脸替换方法 |
CN112800937B (zh) * | 2021-01-26 | 2023-09-05 | 华南理工大学 | 一种智能人脸识别方法 |
CN112800937A (zh) * | 2021-01-26 | 2021-05-14 | 华南理工大学 | 一种智能人脸识别方法 |
CN113762022A (zh) * | 2021-02-09 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 人脸图像的融合方法和装置 |
CN112949707B (zh) * | 2021-02-26 | 2024-02-09 | 西安电子科技大学 | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 |
CN112949707A (zh) * | 2021-02-26 | 2021-06-11 | 西安电子科技大学 | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 |
CN112861805B (zh) * | 2021-03-17 | 2023-07-18 | 中山大学 | 一种基于内容特征和风格特征的人脸图像生成方法 |
CN112861805A (zh) * | 2021-03-17 | 2021-05-28 | 中山大学 | 一种基于内容特征和风格特征的人脸图像生成方法 |
CN113223124B (zh) * | 2021-03-30 | 2022-06-10 | 华南理工大学 | 一种基于三维人体参数化模型的姿态迁移方法 |
CN113223124A (zh) * | 2021-03-30 | 2021-08-06 | 华南理工大学 | 一种基于三维人体参数化模型的姿态迁移方法 |
CN113033511A (zh) * | 2021-05-21 | 2021-06-25 | 中国科学院自动化研究所 | 一种基于操控解耦身份表示的人脸匿名方法 |
CN113205449A (zh) * | 2021-05-21 | 2021-08-03 | 珠海金山网络游戏科技有限公司 | 表情迁移模型的训练方法及装置、表情迁移方法及装置 |
CN113344777A (zh) * | 2021-08-02 | 2021-09-03 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
CN113344777B (zh) * | 2021-08-02 | 2021-10-15 | 中国科学院自动化研究所 | 基于三维人脸分解的换脸与重演方法及装置 |
CN113609960A (zh) * | 2021-08-03 | 2021-11-05 | 北京奇艺世纪科技有限公司 | 一种目标图片的人脸驱动方法及装置 |
CN113706650A (zh) * | 2021-08-27 | 2021-11-26 | 深圳龙岗智能视听研究院 | 一种基于注意力机制和流模型的图像生成方法 |
CN113850152A (zh) * | 2021-09-03 | 2021-12-28 | 北京中科睿鉴科技有限公司 | 基于姿态分离生成对抗网络的人物识别方法 |
CN113762147A (zh) * | 2021-09-06 | 2021-12-07 | 网易(杭州)网络有限公司 | 人脸表情迁移方法、装置、电子设备及存储介质 |
CN113592982B (zh) * | 2021-09-29 | 2022-09-27 | 北京奇艺世纪科技有限公司 | 身份迁移模型构建方法、装置、电子设备及可读存储介质 |
CN113592982A (zh) * | 2021-09-29 | 2021-11-02 | 北京奇艺世纪科技有限公司 | 身份迁移模型构建方法、装置、电子设备及可读存储介质 |
CN114022930A (zh) * | 2021-10-28 | 2022-02-08 | 天津大学 | 一种人像证件照自动生成方法 |
CN114022930B (zh) * | 2021-10-28 | 2024-04-16 | 天津大学 | 一种人像证件照自动生成方法 |
CN114742890A (zh) * | 2022-03-16 | 2022-07-12 | 西北大学 | 一种基于图像内容和风格解耦的6d姿态估计数据集迁移方法 |
CN114399829A (zh) * | 2022-03-25 | 2022-04-26 | 浙江壹体科技有限公司 | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 |
CN114399829B (zh) * | 2022-03-25 | 2022-07-05 | 浙江壹体科技有限公司 | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 |
CN115115676A (zh) * | 2022-04-29 | 2022-09-27 | 腾讯医疗健康(深圳)有限公司 | 图像配准方法、装置、设备和存储介质 |
CN115050087B (zh) * | 2022-08-16 | 2022-11-18 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
CN115050087A (zh) * | 2022-08-16 | 2022-09-13 | 之江实验室 | 一种人脸关键点身份和表情解耦方法及装置 |
CN115270997A (zh) * | 2022-09-20 | 2022-11-01 | 中国人民解放军32035部队 | 基于迁移学习的火箭目标姿态稳定判别方法及相关装置 |
CN115836846A (zh) * | 2022-12-14 | 2023-03-24 | 北京航空航天大学 | 一种基于自监督迁移学习的无创血压估计方法 |
CN116798103A (zh) * | 2023-08-29 | 2023-09-22 | 广州诚踏信息科技有限公司 | 基于人工智能的人脸图像处理方法及系统 |
CN116798103B (zh) * | 2023-08-29 | 2023-12-01 | 广州诚踏信息科技有限公司 | 基于人工智能的人脸图像处理方法及系统 |
CN117993480A (zh) * | 2024-04-02 | 2024-05-07 | 湖南大学 | 面向设计师风格融合和隐私保护的aigc联邦学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111243066B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243066B (zh) | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 | |
US10593021B1 (en) | Motion deblurring using neural network architectures | |
US11481869B2 (en) | Cross-domain image translation | |
US11645835B2 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
Liu et al. | Robust single image super-resolution via deep networks with sparse prior | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN110163801A (zh) | 一种图像超分辨和着色方法、系统及电子设备 | |
CN116309232B (zh) | 一种结合物理先验与深度学习的水下图像增强方法 | |
CN112837224A (zh) | 一种基于卷积神经网络的超分辨率图像重建方法 | |
CN110853119B (zh) | 一种鲁棒的基于参考图片的妆容迁移方法 | |
US11915383B2 (en) | Methods and systems for high definition image manipulation with neural networks | |
Wen et al. | Encoder-free multi-axis physics-aware fusion network for remote sensing image dehazing | |
CN111931779A (zh) | 一种基于条件可预测参数的图像信息提取与生成方法 | |
CN114339409A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN114913083A (zh) | 一种基于上下文分解特征融合的水下图像增强方法 | |
CN113421186A (zh) | 使用生成对抗网络的非监督视频超分辨率的设备和方法 | |
CN113065417A (zh) | 基于生成对抗式风格迁移的场景文本识别方法 | |
CN113538254A (zh) | 图像恢复方法、装置、电子设备及计算机可读存储介质 | |
CN117058043A (zh) | 一种基于lstm的事件-图像去模糊方法 | |
CN117292017A (zh) | 一种草图到图片跨域合成方法、系统及设备 | |
CN110211059A (zh) | 一种基于深度学习的图像重建方法 | |
CN116266336A (zh) | 视频超分辨率重建方法、装置、计算设备及存储介质 | |
CN115511733A (zh) | 一种图像退化建模方法、神经网络训练方法和装置 | |
CN115131414A (zh) | 基于深度学习的无人机图像对齐方法、电子设备和存储介质 | |
CN111382845A (zh) | 一种基于自注意力机制的模板重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |