CN113343761A - 一种基于生成对抗的实时人脸表情迁移方法 - Google Patents
一种基于生成对抗的实时人脸表情迁移方法 Download PDFInfo
- Publication number
- CN113343761A CN113343761A CN202110491501.4A CN202110491501A CN113343761A CN 113343761 A CN113343761 A CN 113343761A CN 202110491501 A CN202110491501 A CN 202110491501A CN 113343761 A CN113343761 A CN 113343761A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- identity
- picture
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013508 migration Methods 0.000 title claims abstract description 23
- 230000005012 migration Effects 0.000 title claims abstract description 23
- 230000008921 facial expression Effects 0.000 title claims description 14
- 230000014509 gene expression Effects 0.000 claims abstract description 80
- 230000003287 optical effect Effects 0.000 claims abstract description 10
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000009286 beneficial effect Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 21
- 230000008447 perception Effects 0.000 claims description 18
- 230000001815 facial effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000037303 wrinkles Effects 0.000 claims description 3
- 230000036548 skin texture Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/42—Analysis of texture based on statistical description of texture using transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
本发明提供一种基于生成对抗的表情迁移方法,该方法的任务是将驱动人物的表情迁移至源人物面部,并且保持源人物的身份不变。该方法分为两个阶段,第一阶段中,在目标表情特征点的驱动下,使用生成对抗的思想生成粗略的带有驱动人物表情和源人物身份的人脸图像。第二阶段中,利用高通滤波器在图像频域中进行处理,得到包含人脸纹理细节的高频分量,再对该分量进行反傅里叶变换得到纹理图。根据光流场得到扭曲的纹理图,将该纹理图与粗略人物图像组合成最终的图像。本发明提出的纹理增强方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失等问题,有利于合成真实的细粒度图像。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于生成对抗的实时人脸表情迁移方法。
背景技术
人脸表情迁移是指将给定的驱动人脸图片的表情迁移到源人脸,新合成的人脸图像保持源图像的身份信息不变,但是其表情与驱动人脸一致。这项技术在远程呈现方面具有广泛应用,包括视频会议、虚拟游戏,以及影视特效领域。因此,人脸表情迁移方法在学术界和工业界均有着重要的研究价值。
传统的人脸表情合成方法通常采用计算机图形学方法或对人脸进行显式三维建模。图形学方法是将源人脸图像参数化,利用预估的光流来扭曲人脸图像,但是这种方法实现繁琐,而且生成效果不够自然逼真,尤其在人物大幅动作的情况下表现较差。在基于三维建模的方法中,驱动人脸和目标人脸的3DMM参数从单个图像中计算出来,并最终混合,通过这种方法生成的效果自然,但是会损失一些人物细节特征。
近年来,随着深度学习的迅速发展,图像生成领域涌现出大量的基于深度神经网络的人脸表情合成方法,这类方法首先利用卷积神经网络提取人脸特征,将图像从高维空间映射到低维空间,由此将目标人脸图像编码为仅包含身份信息的特征向量,然后结合输入的特定表情的特征点,利用深度神经网络合成目标人脸图像。虽然这类方法是有效的,但它们需要成对图像或大量视频的数据集,这可能很难获得,而且生成的图像中有关皮肤纹理等细节过于模糊。
发明内容
本发明的目的是为了解决上述背景技术存在的不足,提供一种基于生成对抗的实时人脸表情迁移方法。本发明主要包括两个阶段:第一阶段为表情迁移阶段,该阶段利用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像。第二阶段为纹理增强阶段,该阶段利用傅里叶变换以及高通滤波器得到纹理细节,并对第一阶段的图像进行细化。本发明方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失问题。
为了实现上述目的,本发明所采用的技术方案为:基于生成对抗的实时人脸表情迁移方法,该方法分为两个阶段,第一阶段为表情迁移阶段,在目标表情特征点的驱动下,使用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像;第二阶段为纹理增强阶段,利用高通滤波器在图像频域中进行处理,得到包含人脸纹理细节的高频分量,再对该分量进行反傅里叶变换得到纹理图,根据光流场得到扭曲的纹理图,将该扭曲的纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。
进一步的,表情迁移阶段的具体实现方式如下:
步骤一,对数据集中的每一帧图像进行数据预处理工作;
步骤二,构建生成网络,对预处理后的图像中的身份信息和表情信息进行特征编码,生成身份特征向量和表情特征向量:
所述生成网络由五个子网络构成:一个身份编码器Encoderid、一个表情编码器Encoderex、一个生成器G、一个姿态表情判别器D和一个人脸识别分类器I;
步骤三,利用身份特征向量和表情特征向量来生成粗略的人脸图像。
进一步的,步骤一中预处理的过程如下;
使用ffmpeg工具将数据集中的视频分解为图片序列,使用Dlib库对每一帧图片提取人脸若干个特征点,并连接各点绘制landmarks图像,以人脸中鼻尖特征点为中心,将图片裁剪至标准大小;
从数据集中随机选取同一人物的两张图片,其中一张图片作为源图像,将其裁剪后的图片记作xs,另一张图片作为驱动图像,将其裁剪后的图片记作xd,s表示源帧,d表示驱动帧;xs对应的landmarks图像记作ys,xd对应的landmarks图像记作yd。
进一步的,步骤二的具体实现方式如下;
进一步的,步骤三的具体实现方式如下;
将得到的源图像的身份特征向量和驱动图像的表情特征向量级联喂入生成器中,解码合成第一阶段的粗略图像,该人物图像含有驱动人物的表情,并保持源人物身份不变,将该图像记作xpre,生成图像xpre的公式表达为:
然后将生成图像xpre送入姿态表情判别器D和人脸识别分类器I中,姿态表情判别器D的输入是生成图片xpre、驱动图片xd及驱动图片的landmarks图片yd,该判别器负责约束生成图像与驱动图像的姿态、表情一致,人脸识别分类器I的输入是源图片xs和生成图片xpre,该分类器有利于约束生成图片和源图片的身份一致。
进一步的,所述身份编码器Encoderid、表情编码器Encoderex和人脸识别分类器I都使用预训练的VGG网络结构,由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成,层与层之间使用最大池化,池化步长为2,所有隐层的激活单元都采用ReLU函数;身份编码器Encoderid和人脸识别分类器I在训练阶段共享参数,生成器G使用倒置的VGG网络,判别器由4层5×5卷积核的卷积层和一个全连接层组成,使用LeakyReLU激活函数。
进一步的,表情迁移阶段中总的损失函数计算公式如下:
其中,公式(5)为总的损失函数,由生成对抗损失、身份特征匹配损失和感知损失加权求和得到的,λGAN、λid、及λper分别为生成对抗损失、身份特征匹配损失和感知损失的权重参数,公式(6)为生成对抗损失,用于生成器G和判别器D的对抗生成粗略人脸图像阶段,D(·,·)表示判别器判断图像和landmarks图像匹配的概率,公式(7)为身份特征匹配损失,令I(·)表示人脸分类器I输出的身份特征,通过不断缩小生成图片和源图片的身份特征的L2距离来保持身份信息不变,公式(8)为感知损失,利用VGG网络提取图像的感知特征,采用VGG网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,X表示VGG网络的层数,而Φi(·)表示第i层的特征。
进一步的,纹理增强阶段的具体实现方式如下:
步骤四,计算光流场:
使用opencv计算粗略图像xpre和源图像xs之间的光流场,记作Fsd;
步骤五,获取源人物初步纹理图:
使用opencv将源图像变换为灰度图像,将灰度图像表示为二维函数f(x,y),x和y表示空间坐标,(x,y)上的幅值f表示该点的灰度,使用opencv将源灰度图像f(x,y)经过傅里叶变换到频域,记作F(u,v),并得到频谱,公式如下:
其中公式(9)为二维离散傅里叶变换,图像尺寸为M×N,x,y表示时域变量,u,v表示频域变量,j2=-1;公式(10)为图片经过傅里叶变换后得到的频谱,I(u,v)是F(u,v)的虚部,R(u,v)是F(u,v)的实部;
然后使用高斯高通滤波器对F(u,v)进行频域处理,提取高频分量FH(u,v),公式如下:
FH(u,v)=H(u,v)F(u,v) (12)
其中,公式(11)为高斯高通滤波函数,D(u,v)表示从点(u,v)到频率矩形中心的距离,D0是截止频率,当D(u,v)大于D0时,对应的H(u,v)逐渐接近1,从而使得高频部分得以通过;而当D(u,v)小于D0时,H(u,v)逐渐接近0,实现低频部分过滤;D0为自行设置的常数,公式(12)为高频分量的计算公式;
最后通过反傅里叶变换将高频分量FH(u,v)从频域变换到空域,得到初步纹理图g(x,y),该初步纹理图包含源图像中人物皮肤皱纹、头发纹理细节,生成g(x,y)的公式如下:
步骤六,对初步纹理图进行扭曲变换并合成最终图片:
调用pytorch的grid_sample函数,对初步纹理图施加Fsd光流场,得到扭曲后的纹理图,并将其叠加至第一阶段生成的粗略图像进行纹理增强,公式如下:
至此,完成人脸表情迁移,并且保持源人物的身份不变,合成具有纹理细节的细粒度图片。
上述基于生成对抗的人脸表情迁移方法,其中的生成对抗网络模型英文缩写为GAN,全称为GenerativeAdversarial Networks,为本技术领域公知的算法,傅里叶变换是公知的信号分析方法,Dlib和opencv是开源的计算机视觉工具库。
与现有技术相比,本发明具有如下有益效果:
本发明方法基于PyTorch深度学习框架,利用驱动表情轮廓图指导网络学习驱动表情的表达,不局限于表情的种类限制,可生成用户需要的任意的表情图片。本发明使用生成对抗模型的思想生成粗略的人脸图像,并添加纹理增强阶段还原人物的皮肤、头发等纹理细节,本发明在纹理增强阶段采用的是图像频域处理方法,生成纹理图时间短、速度快,可以实时完成表情迁移。本发明在生成对抗原始模型的基础上,添加了人脸识别分类器监督训练,该人脸识别分类器的加入能够最大程度地保留源人物的身份信息,本发明方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失问题,使生成效果更加真实自然。
附图说明
图1为本发明的流程示意图。
图2为本发明中所述方法在训练阶段的网络结构图,其中源图片和驱动图片是同一人物不同表情的图片对。
图3为本发明中所述方法在纹理增强阶段采用的傅里叶变换流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
图1所示实施例表明,本发明基于生成对抗的实时表情迁移方法的流程如下:
基于生成对抗的人脸表情迁移方法,第一阶段中,在目标表情特征点的驱动下,使用GAN的思想生成粗略的带有目标表情和源人物身份的人脸图像。第二阶段中,利用高通滤波器在图像频域中进行处理,得到包含人脸纹理细节的高频分量,再对该分量进行反傅里叶变换得到纹理图。根据光流场得到扭曲的纹理图,将该纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。
实施例1
本实施例基于生成对抗的实时表情迁移方法,具体步骤如下:
第一阶段,表情迁移阶段,包括第一步到第三步:
第一步,对数据集中的每一帧图像进行数据预处理工作:
使用ffmpeg工具将数据集中的视频分解为图片序列,使用Dlib库对每一帧图片提取人脸68个特征点,并连接各点绘制landmarks图像,以人脸(鼻尖特征点)为中心,将图片裁剪至256×256标准大小。
从数据集中随机选取同一人物的两张图片,其中一张图片作为源图像,将其裁剪后的图片记作xs,另一张图片作为驱动图像,将其裁剪后的图片记作xd,s表示源帧,d表示驱动帧。xs对应的landmarks图像记作ys,xd对应的landmarks图像记作yd;任务目标是将驱动图像上人物的表情迁移至源图像人物面部,并且保持源图像人物的身份不变,在训练过程中源图像和驱动图像中的人物为同一身份,在测试过程中可以使用不同人物的图片。
第二步,对身份信息和表情信息进行特征编码:
生成网络利用身份特征向量和表情特征向量来生成粗略的人脸图像,生成网络由五个子网络构成:一个身份编码器Encoderid、一个表情编码器Encoderex、一个生成器G、一个姿态表情判别器D和一个人脸识别分类器I。其中身份编码器Encoderid、表情编码器Encoderex和人脸识别分类器I都使用预训练的VGG网络结构,由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成,层与层之间使用最大池化,池化步长为2,所有隐层的激活单元都采用ReLU函数。身份编码器Encoderid和人脸识别分类器I在训练阶段共享参数。生成器G使用倒置的VGG网络,判别器由4层5×5卷积核的卷积层和一个全连接层组成,使用LeakyReLU激活函数。VGG网络是本领域公知的经典网络结构,可用于特征提取。
第三步,合成粗略图像:
将得到的源图像的身份特征向量和驱动图像的表情特征向量级联喂入生成器G中,解码合成第一阶段的粗略图像,该人物图像含有驱动人物的表情,并保持源人物身份不变,将该图像记作xpre,生成图像xpre的公式表达为:
然后将生成图像xpre送入姿态表情判别器D和人脸识别分类器I中,姿态表情判别器D的输入是生成图片xpre、驱动图片xd及驱动图片的landmarks图片yd,该判别器负责约束生成图像与驱动图像的姿态、表情一致,人脸识别分类器I的输入是源图片xs和生成图片xpre,该分类器有利于约束生成图片和源图片的身份一致。
上述过程中涉及到的损失函数如下:
其中,公式(5)为总的损失函数,由生成对抗损失、身份特征匹配损失和感知损失加权求和得到的,λGAN、λid、及λper分别为生成对抗损失、身份特征匹配损失和感知损失的权重参数,公式(6)为生成对抗损失,用于生成器G和判别器D的对抗生成粗略人脸图像阶段,D(·,·)表示判别器判断图像和landmarks图像匹配的概率,公式(7)为身份特征匹配损失,令I(·)表示人脸分类器I输出的身份特征,通过不断缩小生成图片和源图片的身份特征的L2距离来保持身份信息不变,公式(8)为感知损失,利用VGG网络提取图像的感知特征,采用VGG网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,X表示VGG网络的层数,而Φi(·)表示第i层的特征。
第二阶段,纹理增强阶段,包括第四步到第六步:
第四步,计算光流场:
使用opencv计算粗略图像xpre和源图像xs之间的光流场(flow-field),记作Fsd;
第五步,获取源图像人物初步纹理图:
使用opencv将源图像变换为灰度图像,在数字图像处理中,可以将灰度图像表示为二维函数f(x,y),x和y表示空间坐标,(x,y)上的幅值f表示该点的灰度,使用opencv将源灰度图像f(x,y)经过傅里叶变换到频域,记作F(u,v),并得到频谱,公式如下:
其中公式(9)为二维离散傅里叶变换,图像尺寸为M×N,x,y表示时域变量,u,v表示频域变量,j2=-1。公式(10)为图片经过傅里叶变换后得到的频谱,I(u,v)是F(u,v)的虚部,R(u,v)是F(u,v)的实部。
然后使用高斯高通滤波器对F(u,v)进行频域处理,提取高频分量FH(u,v),公式如下:
FH(u,v)=H(u,v)F(u,v) (12),
其中,公式(11)为高斯高通滤波函数,D(u,v)表示从点(u,v)到频率矩形中心的距离,D0是截止频率,当D(u,v)大于D0时,对应的H(u,v)逐渐接近1,从而使得高频部分得以通过;而当D(u,v)小于D0时,H(u,v)逐渐接近0,实现低频部分过滤。D0为自行设置的常数,公式(12)为高频分量的计算公式。
最后通过反傅里叶变换将高频分量FH(u,v)从频域变换到空域,得到初步纹理图g(x,y),该初步纹理图包含源图像中人物皮肤皱纹、头发纹理等细节,生成g(x,y)的公式如下:
其中图像尺寸为M×N,x,y表示时域变量,u,v表示频域变量,j2=-1。
第六步,对初步纹理图进行扭曲变换并合成最终图片:
调用pytorch的grid_sample函数,对初步纹理图施加Fsd光流场得到扭曲后的纹理图,记作xg,公式如下:
第七步,将xg叠加至第一阶段生成的粗略图像进行纹理增强,公式如下:
至此,完成了人脸表情迁移的训练流程,将驱动人物的表情和姿态迁移到源人物面部,并且保持源人物的身份不变,合成具有纹理细节的细粒度图片。
本实施例中设置的参数如下:
应当理解的是,上述针对实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,本发明可以有各种更改和变化。在不脱离本发明权利要求所保护的范围。所作的任何修改、等同替换、改进等,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种基于生成对抗的实时表情迁移方法,其特征在于:该方法分为两个阶段,第一阶段为表情迁移阶段,在目标表情特征点的驱动下,使用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像;第二阶段为纹理增强阶段,利用高通滤波器在图像频域中进行处理,得到包含人脸纹理细节的高频分量,再对该分量进行反傅里叶变换得到纹理图,根据光流场得到扭曲的纹理图,将该扭曲的纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。
2.如权利要求1所述的一种基于生成对抗的实时表情迁移方法,其特征在于:表情迁移阶段的具体实现方式如下:
步骤一,对数据集中的每一帧图像进行数据预处理工作;
步骤二,构建生成网络,对预处理后的图像中的身份信息和表情信息进行特征编码,生成身份特征向量和表情特征向量:
所述生成网络由五个子网络构成:一个身份编码器Encoderid、一个表情编码器Encoderex、一个生成器G、一个姿态表情判别器D和一个人脸识别分类器I;
步骤三,利用身份特征向量和表情特征向量来生成粗略的人脸图像。
3.如权利要求2所述的一种基于生成对抗的实时表情迁移方法,其特征在于:步骤一中预处理的过程如下;
使用ffmpeg工具将数据集中的视频分解为图片序列,使用Dlib库对每一帧图片提取人脸若干个特征点,并连接各点绘制landmarks图像,以人脸中鼻尖特征点为中心,将图片裁剪至标准大小;
从数据集中随机选取同一人物的两张图片,其中一张图片作为源图像,将其裁剪后的图片记作xs,另一张图片作为驱动图像,将其裁剪后的图片记作xd,s表示源帧,d表示驱动帧;xs对应的landmarks图像记作ys,xd对应的landmarks图像记作yd。
5.如权利要求4所述的一种基于生成对抗的实时表情迁移方法,其特征在于:步骤三的具体实现方式如下;
将得到的源图像的身份特征向量和驱动图像的表情特征向量级联喂入生成器中,解码合成第一阶段的粗略图像,该人物图像含有驱动人物的表情,并保持源人物身份不变,将该图像记作xpre,生成图像xpre的公式表达为:
然后将生成图像xpre送入姿态表情判别器D和人脸识别分类器I中,姿态表情判别器D的输入是生成图片xpre、驱动图片xd及驱动图片的landmarks图片yd,该判别器负责约束生成图像与驱动图像的姿态、表情一致,人脸识别分类器I的输入是源图片xs和生成图片xpre,该分类器有利于约束生成图片和源图片的身份一致。
6.如权利要求5所述的一种基于生成对抗的实时表情迁移方法,其特征在于:所述身份编码器Encoderid、表情编码器Encoderex和人脸识别分类器I都使用预训练的VGG网络结构,由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成,层与层之间使用最大池化,池化步长为2,所有隐层的激活单元都采用ReLU函数;身份编码器Encoderid和人脸识别分类器I在训练阶段共享参数,生成器G使用倒置的VGG网络,判别器由4层5×5卷积核的卷积层和一个全连接层组成,使用LeakyReLU激活函数。
7.如权利要求6所述的一种基于生成对抗的实时表情迁移方法,其特征在于:表情迁移阶段中总的损失函数计算公式如下:
其中,公式(5)为总的损失函数,由生成对抗损失、身份特征匹配损失和感知损失加权求和得到的,λGAN、λid、及λper分别为生成对抗损失、身份特征匹配损失和感知损失的权重参数,公式(6)为生成对抗损失,用于生成器G和判别器D的对抗生成粗略人脸图像阶段,D(·,·)表示判别器判断图像和landmarks图像匹配的概率,公式(7)为身份特征匹配损失,令I(·)表示人脸分类器I输出的身份特征,通过不断缩小生成图片和源图片的身份特征的L2距离来保持身份信息不变,公式(8)为感知损失,利用VGG网络提取图像的感知特征,采用VGG网络中的最后一个卷积层输出的特征作为图像的感知特征,以此计算生成图像与真实图像之间的感知损失,X表示VGG网络的层数,而Φi(·)表示第i层的特征。
8.如权利要求1所述的一种基于生成对抗的实时表情迁移方法,其特征在于:纹理增强阶段的具体实现方式如下:
步骤四,计算光流场:
使用opencv计算粗略图像xpre和源图像xs之间的光流场,记作Fsd;
步骤五,获取源人物初步纹理图:
使用opencv将源图像变换为灰度图像,将灰度图像表示为二维函数f(x,y),x和y表示空间坐标,(x,y)上的幅值f表示该点的灰度,使用opencv将源灰度图像f(x,y)经过傅里叶变换到频域,记作F(u,v),并得到频谱,公式如下:
(u=0,1,2,……,M-1,v=0,1,2,……,N-1)
其中公式(9)为二维离散傅里叶变换,图像尺寸为M×N,x,y表示时域变量,u,v表示频域变量,j2=-1;公式(10)为图片经过傅里叶变换后得到的频谱,I(u,v)是F(u,v)的虚部,R(u,v)是F(u,v)的实部;
然后使用高斯高通滤波器对F(u,v)进行频域处理,提取高频分量FH(u,v),公式如下:
FH(u,v)=H(u,v)F(u,v) (12)
其中,公式(11)为高斯高通滤波函数,D(u,v)表示从点(u,v)到频率矩形中心的距离,D0是截止频率,当D(u,v)大于D0时,对应的H(u,v)逐渐接近1,从而使得高频部分得以通过;而当D(u,v)小于D0时,H(u,v)逐渐接近0,实现低频部分过滤;D0为自行设置的常数,公式(12)为高频分量的计算公式;
最后通过反傅里叶变换将高频分量FH(u,v)从频域变换到空域,得到初步纹理图g(x,y),该初步纹理图包含源图像中人物皮肤皱纹、头发纹理细节,生成g(x,y)的公式如下:
(x=0,1,2,……,M-1,y=0,1,2,……,N-1)
步骤六,对初步纹理图进行扭曲变换并合成最终图片:
调用pytorch的grid_sample函数,对初步纹理图施加Fsd光流场,得到扭曲后的纹理图,并将其叠加至第一阶段生成的粗略图像进行纹理增强,公式如下:
至此,完成人脸表情迁移,并且保持源人物的身份不变,合成具有纹理细节的细粒度图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110491501.4A CN113343761A (zh) | 2021-05-06 | 2021-05-06 | 一种基于生成对抗的实时人脸表情迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110491501.4A CN113343761A (zh) | 2021-05-06 | 2021-05-06 | 一种基于生成对抗的实时人脸表情迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343761A true CN113343761A (zh) | 2021-09-03 |
Family
ID=77469637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110491501.4A Pending CN113343761A (zh) | 2021-05-06 | 2021-05-06 | 一种基于生成对抗的实时人脸表情迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343761A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744129A (zh) * | 2021-09-08 | 2021-12-03 | 深圳龙岗智能视听研究院 | 一种基于语义神经渲染的人脸图像生成方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556196B1 (en) * | 1999-03-19 | 2003-04-29 | Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. | Method and apparatus for the processing of images |
CN1920886A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 基于视频流的三维动态人脸表情建模方法 |
US20150035825A1 (en) * | 2013-02-02 | 2015-02-05 | Zhejiang University | Method for real-time face animation based on single video camera |
CN105320950A (zh) * | 2015-11-23 | 2016-02-10 | 天津大学 | 一种视频人脸活体检测方法 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
CN111460981A (zh) * | 2020-03-30 | 2020-07-28 | 山东大学 | 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 |
CN111783658A (zh) * | 2020-07-01 | 2020-10-16 | 河北工业大学 | 基于双生成对抗网络的两阶段表情动画生成方法 |
-
2021
- 2021-05-06 CN CN202110491501.4A patent/CN113343761A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6556196B1 (en) * | 1999-03-19 | 2003-04-29 | Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. | Method and apparatus for the processing of images |
CN1920886A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 基于视频流的三维动态人脸表情建模方法 |
US20150035825A1 (en) * | 2013-02-02 | 2015-02-05 | Zhejiang University | Method for real-time face animation based on single video camera |
CN105320950A (zh) * | 2015-11-23 | 2016-02-10 | 天津大学 | 一种视频人脸活体检测方法 |
CN109934767A (zh) * | 2019-03-06 | 2019-06-25 | 中南大学 | 一种基于身份和表情特征转换的人脸表情转换方法 |
CN111460981A (zh) * | 2020-03-30 | 2020-07-28 | 山东大学 | 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 |
CN111783658A (zh) * | 2020-07-01 | 2020-10-16 | 河北工业大学 | 基于双生成对抗网络的两阶段表情动画生成方法 |
Non-Patent Citations (4)
Title |
---|
FEI YANG ET AL.: "Expression Flow for 3D-Aware Face Component Transfer", 《SIGGRAPH"11: ACM SIGGRAPH 2011 PAPERS》 * |
KYLE OLSZEWSKI ET AL.: "Realistic Dynamic Facial Textures from a Single Image using GANs", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
熊有伦等: "《机器人学 建模、控制与视觉》", 31 March 2018, 华中科技大学出版社 * |
王中坚: "基于生成对抗网络任意人脸替换算法设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744129A (zh) * | 2021-09-08 | 2021-12-03 | 深圳龙岗智能视听研究院 | 一种基于语义神经渲染的人脸图像生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378697B (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
US11276231B2 (en) | Semantic deep face models | |
He et al. | A powerful generative model using random weights for the deep image representation | |
CN111783566B (zh) | 一种基于唇语同步和神态适配效果增强的视频合成方法 | |
Zhao et al. | Invertible image decolorization | |
Tang et al. | Real-time neural radiance talking portrait synthesis via audio-spatial decomposition | |
CN112818764B (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及系统 | |
CN112686816A (zh) | 一种基于内容注意力机制和掩码先验的图像补全方法 | |
CN111783658A (zh) | 基于双生成对抗网络的两阶段表情动画生成方法 | |
CN111612687B (zh) | 一种人脸图像自动上妆方法 | |
CN114245215A (zh) | 说话视频的生成方法、装置、电子设备、介质及产品 | |
CN114093013B (zh) | 一种深度伪造人脸逆向溯源方法及系统 | |
Esfahani et al. | Image generation with gans-based techniques: A survey | |
CN112686817B (zh) | 一种基于不确定性估计的图像补全方法 | |
CN113343761A (zh) | 一种基于生成对抗的实时人脸表情迁移方法 | |
CN113542758A (zh) | 生成对抗神经网络辅助的视频压缩和广播 | |
CN111368734A (zh) | 一种基于正常表情辅助的微表情识别方法 | |
Roy | Applying aging effect on facial image with multi-domain generative adversarial network | |
CN114202460A (zh) | 面对不同损伤图像的超分辨率高清重建方法和系统及设备 | |
Yu et al. | Confies: Controllable neural face avatars | |
CN114331894A (zh) | 一种基于潜在特征重构和掩模感知的人脸图像修复方法 | |
Maniyar et al. | Persons facial image synthesis from audio with Generative Adversarial Networks | |
CN113542759A (zh) | 生成对抗神经网络辅助的视频重建 | |
CN114863527B (zh) | 一种基于fp-scgan模型的妆容风格迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |