CN115578298A - 一种基于内容感知的深度肖像视频合成方法 - Google Patents
一种基于内容感知的深度肖像视频合成方法 Download PDFInfo
- Publication number
- CN115578298A CN115578298A CN202211064320.4A CN202211064320A CN115578298A CN 115578298 A CN115578298 A CN 115578298A CN 202211064320 A CN202211064320 A CN 202211064320A CN 115578298 A CN115578298 A CN 115578298A
- Authority
- CN
- China
- Prior art keywords
- video
- portrait
- background
- estimation module
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 21
- 230000008447 perception Effects 0.000 title claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 23
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 23
- 230000033001 locomotion Effects 0.000 claims description 96
- 238000012549 training Methods 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 17
- 238000013508 migration Methods 0.000 claims description 13
- 230000005012 migration Effects 0.000 claims description 13
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000009877 rendering Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 6
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Graphics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及人脸图像与视频合成技术领域,公开了一种基于内容感知的深度肖像视频合成方法,通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。
Description
技术领域
本发明涉及人脸图像与视频的合成技术领域,特别是涉及一种基于内容感知的深度肖像视频合成方法。
背景技术
人脸作为身份认证信息的特殊属性,是众多计算机领域的研究对象。除人脸检测、识别以及活性检测等方向外,人脸合成领域同样具有很高的活跃度,且伴随着近年来深度学习技术的突破性进展,这一类技术也经历着飞速的发展,在隐私保护、影视动画、娱乐商用等各个领域得到了广泛的应用。相较于人脸检测与识别,人脸合成是一个更加开放的领域。这一领域不仅涉及到如建模、形变与渲染等诸多图形学技术,还涉及到深度学习中关于图像生成的革新技术。不同的人脸合成方法虽然可能具有类似的框架与技术路线,但在具体细节以及实现方法上可能千差万别。因此,人脸合成领域的研究与探索也在为技术本身的发展开拓空间。另外,利用人脸合成技术制作的图像或视频是多媒体篡改取证领域的重点关注对象。推动人脸合成技术发展,对数字取证领域的进步也将产生积极的推动作用。人脸重演技术,能够利用源人脸的动作来操纵目标人脸,使其做出相应的面部动作,实现实时操纵或者驱动动画角色的面部表情。基于内容感知的深度肖像视频合成方法能够将驱动人物动作完整地迁移到目标人物上,合成流畅且细节丰富的视频。
人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题,对话式头部视频重演旨在将整个头部运动从源身份转移到目标身份,并完全控制目标演员,在计算机视觉和机器学习研究中越来越受欢迎,并有望在电影后期制作、视觉配音和社交媒体等多种应用中得到应用。它可以分为主题不可知的方法和主题特定的方法。主题特定和主题不特定的区别在于目标演员是特定的人物还是非特定人物,也就是训练好的模型只能用于同一个人来进行视频重演和训练好的模型其他人都能用来进行视频重演的区别。受只使用目标演员的一幅或几幅图像的限制,不可知论方法通常难以合成高保真视频。相反,通常使用特定于主题的方法训练目标人物的视频。训练后,可以合成一段高质量的人物视频。
虽然对话式头部视频重演已经取得了令人印象深刻的结果,但要生成具有良好时间连贯性和泛化性的对话视频仍然是一个具有挑战性的问题。现有的大多数方法都使用参数化人脸模式或人脸标志来传递运动,然后通过神经网络将人脸标志或参数化人脸模型的合成渲染转化为真实的视频帧。由于参数化人脸模型和人脸标志只对人脸区域进行建模,因此用于合成最终图像的神经网络输入仅包含人脸区域。在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影。
现有技术公开了一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,包括以下步骤:采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数;利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数;合成人脸并对合成人脸进行渲染生成逼真人脸视频帧;利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络,所述渲染网络用于为每一帧的人脸图像生成背景;基于视频关键帧优化进行人脸背景渲染和视频合成。该专利在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影,导致合成视频不流畅且细节有瑕疵。
发明内容
本发明的目的是提供一种视频流畅且细节更丰富的基于内容感知的深度肖像视频合成方法。
为了实现上述目的,本发明提供了一种基于内容感知的深度肖像视频合成方法,包括:
S1、获取原始目标视频数据集,所述原始目标视频数据集的每个视频中的角色都不同于其他视频;
S2、对原始目标视频数据集进行预处理,将每个视频的帧分割为训练集和测试集;
S3、构建肖像视频合成模型,肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络,外貌特征捕捉模块与运动估计模块连接,运动估计模块和背景估计模块分别与全内容肖像视频网络相连接;外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征;运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动,生成肖像条件;背景估计模块用于捕捉背景信息,生成背景条件;全内容肖像视频网络用于将肖像条件和背景条件进行融合细化,并根据先前生成的帧合成视频;
S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练,利用测试集测试肖像视频合成模型的有效性,得到训练好的肖像视频合成模型;
S5、获取待合成的目标参考照片和驱动源视频,目标参考照片为给定目标演员的肖像,驱动源视频为源演员的动作视频;将目标参考照片和驱动源视频输入训练好的目标检测模型,输出给定目标演员的驱动视频,该视频模仿源演员的动作,同时保留目标演员的身份、外观和背景变化。
作为优选方案,运动估计模块生成肖像条件包括:
外貌特征捕捉模块从目标参考图片中提取外貌相关特征;
利用运动估计模块计算目标参考图片与驱动视频帧之间的运动,该运动包括脸部、肩部在内的各部分动作的映射;
运动估计模块将估计到的运动作用于外貌相关特征中,得到扭曲后的外貌相关特征,并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。
作为优选方案,在步骤S4中,对于运动估计模块的训练,在训练时,目标参考图片与驱动视频帧来自于同一段视频的不同帧,以一种自我重演的方式训练。
作为优选方案,在步骤S4中,对于运动估计模块的训练,在测试时,有标准和相对两种模式迁移动作:
在标准模式下,计算目标参考图片与驱动视频帧之间的运动,并作用到目标参考图片上,合成迁移动作后的图片;
在相对运动迁移模式下,需要从源视频中提取一张姿势与目标参考图片相似的参照图片,提取参照图片与驱动视频帧之间的运动并作用到目标参考图片上,得到迁移动作后的图片。
作为优选方案,外貌特征捕捉模块为编码器,运动估计模块包括依次连接的无监督深度学习网络和解码器。
作为优选方案,背景估计模块生成背景条件包括:
利用图像分割技术处理目标参考图片,得到覆盖人像区域的人像掩膜;
使用覆盖背景区域的反向肖像掩膜提取右侧背景图像;
使用覆盖背景区域的反向肖像掩膜提取左侧背景图像;
根据右侧背景图像与目标参考图片的背景之间的仿射变换扭曲右侧背景图像;
根据左侧背景图像与目标参考图片的背景之间的仿射变换扭曲左侧背景图像,
将扭曲后的右侧背景图像和扭曲后的左侧背景图像进行融合,输入融合后的背景图像。
作为优选方案,提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。
作为优选方案,背景估计模块包括两个编码器网络和一个背景融合网络,两个编码器网络分别与背景融合网络连接,两个编码器网络分别用于处理左右侧背景。
作为优选方案,在步骤S4中,背景估计模块以自我监督的方式进行训练。
作为优选方案,全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入,通过不同的分支对这些条件进行下采样,并获得高级特征,将得到的高级特征融合并上采样为真实图像,生成视频的新一帧。
与现有技术相比,本发明的有益效果在于:
本发明通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。
附图说明
图1是本发明实施例的基于内容感知的深度肖像视频合成方法的流程图。
图2是本发明实施例的基于内容感知的深度肖像视频合成方法的示意图。
图3是本发明实施例的左侧背景和右侧背景的提取过程示意图。
图4是本发明实施例的背景估计模块的框架图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例一
如图1至图4所示,本发明优选实施例的一种基于内容感知的深度肖像视频合成方法,包括:
S1、获取原始目标视频数据集,所述原始目标视频数据集的每个视频中的角色都不同于其他视频;
S2、对原始目标视频数据集进行预处理,将每个视频的帧分割为训练集和测试集;
S3、构建肖像视频合成模型,肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络,外貌特征捕捉模块与运动估计模块连接,运动估计模块和背景估计模块分别与全内容肖像视频网络相连接;外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征;运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动,生成肖像条件;背景估计模块用于捕捉背景信息,生成背景条件;全内容肖像视频网络用于将肖像条件和背景条件进行融合细化,并根据先前生成的帧合成视频;
S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练,利用测试集测试肖像视频合成模型的有效性,得到训练好的肖像视频合成模型;
S5、获取待合成的目标参考照片和驱动源视频,目标参考照片为给定目标演员的肖像,驱动源视频为源演员的动作视频;将目标参考照片和驱动源视频输入训练好的目标检测模型,输出给定目标演员的驱动视频,该视频模仿源演员的动作,同时保留目标演员的身份、外观和背景变化。
本实施例通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。
具体来说,将肖像图像分为背景区域和肖像区域,并分别对背景区域和肖像区域进行建模,将背景条件和肖像条件输入全内容肖像视频网络进行细化和融合,生成新的视频帧。
在本实施例中,全内容肖像视频网络是基于GAN(深度学习生成对抗网络)的神经网络。
实施例二
本实施例与实施例一的区别在于,在实施例一的基础上,本实施例对步骤S1和S2作进一步的说明。
本实施例的数据集为Head2head++发布的数据集。此数据集由八个至少10分钟长的原始目标视频组成。每个视频中的角色都不同于其他视频。使用与Head2head++中相同的方法对原始视频进行预处理,然后裁剪每个视频的空间分辨率并将其调整为256×256像素。最后,将每个视频的帧分割为训练集和测试集。为了便于比较,训练集和测试集的划分与Head2head++相同。
本实施例的模型训练是一台NVIDIA TITAN RTX上进行的,所有网络都是在PyTorch中实现的,并使用默认设置的Adam进行优化。培训过程需要60个阶段,批量大小为5。背景估计模块的学习率设置为0.00001,FC2PV网络设置为0.00015。
本实施例的其他步骤与实施例一相同,此处不再赘述。
实施例三
本实施例与实施例二的区别在于,在实施例二的基础上,本实施例对运动估计模块和运动估计模块的训练作进一步的说明。
运动估计模块生成肖像条件包括:
外貌特征捕捉模块从目标参考图片中提取外貌相关特征;
利用运动估计模块计算目标参考图片与驱动视频帧之间的运动,该运动包括脸部、肩部在内的各部分动作的映射;
运动估计模块将估计到的运动作用于外貌相关特征中,得到扭曲后的外貌相关特征,并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。
本实施例的外貌特征捕捉模块为编码器,运动估计模块包括依次连接的无监督深度学习网络和解码器。
运动估计模块的训练如下:
然后利用运动估计模块的无监督深度学习网络去计算It与驱动视频帧之间的运动p,具体来说,该运动p为驱动视频帧到目标参考图片It包括脸部、肩部在内的各部分动作的映射,驱动视频帧肖像的运动由一组关键点及其局部仿射变换表示,用一个光流表示关键点信息和局部仿射变换的参数信息,这些参数使得关键点附近的姿态信息可以通过仿射变换得到。此外,运动估计模块的无监督深度学习网络同时估计了一个遮挡图O。遮挡图用于指示出扭曲后缺失的区域。接着,将估计到的运动作用于中,得到扭曲后的外貌特征
本实施例在步骤S4中,对于运动估计模块的训练,在训练时,目标参考图片与驱动视频帧来自于同一段视频的不同帧,以一种自我重演的方式训练。自我重演对于训练和评估模型非常有用,可以定量评估模型的重建能力,在自我重演过程中,源演员与目标演员相同,实现人物自己控制自己的效果,训练过程如上述公式描述,函数约束合成的图片需要与驱动视频帧保持一致。为了能由参考目标图片提取的特征重构出驱动视频帧,运动估计模块必须具备充分建模图片中各部分区域运动的能力。因此,训练完成后,运动估计模块能充分地建模并迁移包括肩膀在内各部分动作。这相对于人工标注的面部关键点或一些参数化人脸模型在动作迁移能力上都具有更大优势。在人像视频数据集训练完成后,模型可以应用于不同身份的人像图片。
在测试时,有标准和相对两种模式迁移动作。在标准模式下,计算驱动视频帧与目标参考图片It之间的运动,并作用到目标参考图片It上,合成迁移动作后的图片在相对运动迁移模式下,需要从源视频Vd中提取一张姿势与目标参考图片It相似的参照图片I′d,提取参照图片I′d与驱动视频帧之间的运动并作用到目标参考图片It上,得到图片以这种方式,可以将Vd的动作迁移到目标人物上从而得到一个与驱动人物动作一致的粗糙目标视频:
本实施例在提取外貌特征时,先提取目标参考图片的外貌相关特征,再用运动估计模块去计算参考图片和驱动视频帧,驱动视频帧肖像的运动由一组关键点及其局部仿射变换表示,这些关键点是以无监督的方式学习的,包括连脸部、肩部、脖子、上胸这些区域的人物的姿势动作。外貌特征就是人物的表情,比如说眼睛耳朵嘴巴这些。总体来说这里的做法就是保留目标参考图片的表情,将驱动视频帧的姿势动作迁移到目标参考图片中。
本实施例将肖像图片(即目标参考图片)分为背景区域和肖像区域,并分别对背景区域和肖像区域进行建模。肖像区域的运动由一组关键点及其局部仿射变换表示,利用无监督运动模型。与一些带注释的面部标志不同,这些关键点是以无监督的方式学习的,其中一些可能落在面部以外的区域,例如肩部。因此,整个上身的运动可以建模,并从源视频传输到目标演员。
另外,本实施例是通过FOMM(First Order Motion Model for Image Animation)将源演员的运动传递给目标演员。因此,在跨角色再现过程中,首先需要获得一幅姿态和表情与目标参考帧相似的源参考图像。实验中,根据选定的参考目标帧从源视频中提取参考源帧。对于具有运动背景的目标视频,可以控制背景估计模块的输入,使合成视频中的背景固定或变化与原始目标视频一致。具体地,如果背景估计模块的输入目标帧是固定的,则背景将是固定的。相反,如果将目标视频序列逐帧馈入背景估计模块,则背景将与输入的目标视频一致。
本实施例的其他步骤与实施例二相同,此处不再赘述。
实施例四
本实施例与实施例三的区别在于,在实施例三的基础上,本实施例对背景估计模块和背景估计模块的训练作进一步的说明。
背景估计模块生成背景条件包括:
利用图像分割技术处理目标参考图片,得到覆盖人像区域的人像掩膜;
使用覆盖背景区域的反向肖像掩膜提取右侧背景图像;
使用覆盖背景区域的反向肖像掩膜提取左侧背景图像;
根据右侧背景图像与目标参考图片的背景之间的仿射变换扭曲右侧背景图像;
根据左侧背景图像与目标参考图片的背景之间的仿射变换扭曲左侧背景图像,
将扭曲后的右侧背景图像和扭曲后的左侧背景图像进行融合,输入融合后的背景图像。
进一步地,提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。即在提取右侧背景图像或左侧背景图像时,提取了一半以上的区域,可以确保更完整的背景信息。
如图3所示,选择图像Pleft,其肖像位于目标视频序列的最左侧,这意味着右侧的背景在该图像中可见。Pleft可以通过目标检测技术或人类注释进行定位。利用图像分割技术,可以得到覆盖人像区域的人像掩膜。然后,使用覆盖背景区域的反向肖像掩膜提取右侧背景图像BR,以避免使用背景估计模块对肖像区域进行建模。最后,我们从BR中提取正确的部分,以获得视频序列的正确参考背景BRref。
背景估计模块包括两个编码器网络(eL,eR)和一个背景融合网络(H),两个编码器网络(eL,eR)分别与背景融合网络(H)连接,两个编码器网络(eL,eR)分别用于处理左右侧背景。
在本实施例中,对于背景区域,我们假设背景的运动是刚性的。在训练时,通过背景估计模块提取各目标帧的背景。首先,从目标视频中提取左右参考背景。两个编码器网络预测每个目标帧和参考背景之间的运动,该运动由仿射变换的参数表示。然后将运动应用于左右参考背景,并通过背景融合网络,输出相应目标帧的最终背景。在测试时,我们重用从训练集中提取的背景作为神经网络的条件输入。因此,可以根据条件输入。最后,训练神经网络对条件内容进行细化和融合。
进一步地,在步骤S4中,背景估计模块以自我监督的方式进行训练,可避免手动注释。
在运动估计模块和背景估计模块中,本实施例都采用自我再现。因为地面真值框架是可用的。在自我再现过程中,源演员与目标演员相同,但测试集和训练集是同一视频的两部分,它们是不同的。因此,在训练过程中未看到测试期间使用的源驱动视频序列。为了验证背景估计模块的有效性,对于具有运动背景的视频,本实施例在测试期间将测试源帧输入到背景估计模块中。
本实施例的其他步骤与实施例三相同。
实施例五
本实施例与实施例四的区别在于,在实施例四的基础上,本实施例对全内容肖像视频网络作进一步的说明。
全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入,通过不同的分支对这些条件进行下采样,并获得高级特征,将得到的高级特征融合并上采样为真实图像,生成视频的新一帧。全内容肖像视频网络用于人像视频翻译。
具体地,全内容肖像视频网络接收三种类型的内容作为条件输入,即:肖像条件背景条件和先前生成的帧yi-2:i-1,通过不同的分支对这些条件进行下采样,并获得高级特征。将得到的高级特征融合并上采样为真实图像yi。因此:
本实施例的其他步骤与实施例四相同,此处不再赘述。
综上,本发明实施例提供一种基于内容感知的深度肖像视频合成方法,其通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。本发明是采用一种无递归的方法来合成一个完整的真实肖像视频,避免了累积误差,并允许并行计算,它将目标演员的身份和源演员的运动相结合。该方法对人像视频帧中的各个部分进行充分建模,将基于GAN的全条件输入到精心设计的人像视频翻译网络中。通过该网络,可以将条件输入转换为逼真且时间平滑的视频帧。该方法合成的视频质量比很多基于递归的方法好,同时证明了不重用前一帧的方法也可以合成逼真的人像视频。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
Claims (10)
1.一种基于内容感知的深度肖像视频合成方法,其特征在于,包括:
S1、获取原始目标视频数据集,所述原始目标视频数据集的每个视频中的角色都不同于其他视频;
S2、对原始目标视频数据集进行预处理,将每个视频的帧分割为训练集和测试集;
S3、构建肖像视频合成模型,肖像视频合成模型包括外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络,外貌特征捕捉模块与运动估计模块连接,运动估计模块和背景估计模块分别与全内容肖像视频网络相连接;外貌特征捕捉模块用于从给定肖像图像中提取外貌相关特征;运动估计模块用于根据提取的外貌特征预测给定肖像图像的每个部分的运动,生成肖像条件;背景估计模块用于捕捉背景信息,生成背景条件;全内容肖像视频网络用于将肖像条件和背景条件进行融合细化,并根据先前生成的帧合成视频;
S4、利用训练集对外貌特征捕捉模块、运动估计模块、背景估计模块和全内容肖像视频网络分别进行训练,利用测试集测试肖像视频合成模型的有效性,得到训练好的肖像视频合成模型;
S5、获取待合成的目标参考照片和驱动源视频,目标参考照片为给定目标演员的肖像,驱动源视频为源演员的动作视频;将目标参考照片和驱动源视频输入训练好的目标检测模型,输出给定目标演员的驱动视频,该视频模仿源演员的动作,同时保留目标演员的身份、外观和背景变化。
2.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,运动估计模块生成肖像条件包括:
外貌特征捕捉模块从目标参考图片中提取外貌相关特征;
利用运动估计模块计算目标参考图片与驱动视频帧之间的运动,该运动包括脸部、肩部在内的各部分动作的映射;
运动估计模块将估计到的运动作用于外貌相关特征中,得到扭曲后的外貌相关特征,并根据扭曲后的外貌相关特征生成一张迁移动作后的图片。
3.根据权利要求2所述的基于内容感知的深度肖像视频合成方法,其特征在于,在步骤S4中,对于运动估计模块的训练,在训练时,目标参考图片与驱动视频帧来自于同一段视频的不同帧,以一种自我重演的方式训练。
4.根据权利要求3所述的基于内容感知的深度肖像视频合成方法,其特征在于,在步骤S4中,对于运动估计模块的训练,在测试时,有标准和相对两种模式迁移动作:
在标准模式下,计算目标参考图片与驱动视频帧之间的运动,并作用到目标参考图片上,合成迁移动作后的图片;
在相对运动迁移模式下,需要从源视频中提取一张姿势与目标参考图片相似的参照图片,提取参照图片与驱动视频帧之间的运动并作用到目标参考图片上,得到迁移动作后的图片。
5.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,外貌特征捕捉模块为编码器,运动估计模块包括依次连接的无监督深度学习网络和解码器。
6.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,背景估计模块生成背景条件包括:
利用图像分割技术处理目标参考图片,得到覆盖人像区域的人像掩膜;
使用覆盖背景区域的反向肖像掩膜提取右侧背景图像;
使用覆盖背景区域的反向肖像掩膜提取左侧背景图像;
根据右侧背景图像与目标参考图片的背景之间的仿射变换扭曲右侧背景图像;
根据左侧背景图像与目标参考图片的背景之间的仿射变换扭曲左侧背景图像,
将扭曲后的右侧背景图像和扭曲后的左侧背景图像进行融合,输入融合后的背景图像。
7.根据权利要求6所述的基于内容感知的深度肖像视频合成方法,其特征在于,提取的右侧背景图像和左侧背景图像的区域面积大于目标参考图片面积的一半。
8.根据权利要求6所述的基于内容感知的深度肖像视频合成方法,其特征在于,背景估计模块包括两个编码器网络和一个背景融合网络,两个编码器网络分别与背景融合网络连接,两个编码器网络分别用于处理左右侧背景。
9.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,在步骤S4中,背景估计模块以自我监督的方式进行训练。
10.根据权利要求1所述的基于内容感知的深度肖像视频合成方法,其特征在于,全内容肖像视频网络接收肖像条件、背景条件和先前生成的帧这三种类型的内容作为条件输入,通过不同的分支对这些条件进行下采样,并获得高级特征,将得到的高级特征融合并上采样为真实图像,生成视频的新一帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064320.4A CN115578298A (zh) | 2022-08-31 | 2022-08-31 | 一种基于内容感知的深度肖像视频合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211064320.4A CN115578298A (zh) | 2022-08-31 | 2022-08-31 | 一种基于内容感知的深度肖像视频合成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115578298A true CN115578298A (zh) | 2023-01-06 |
Family
ID=84578806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211064320.4A Pending CN115578298A (zh) | 2022-08-31 | 2022-08-31 | 一种基于内容感知的深度肖像视频合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578298A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310146A (zh) * | 2023-05-16 | 2023-06-23 | 北京邃芒科技有限公司 | 人脸图像重演方法、系统、电子设备、存储介质 |
-
2022
- 2022-08-31 CN CN202211064320.4A patent/CN115578298A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116310146A (zh) * | 2023-05-16 | 2023-06-23 | 北京邃芒科技有限公司 | 人脸图像重演方法、系统、电子设备、存储介质 |
CN116310146B (zh) * | 2023-05-16 | 2023-10-27 | 北京邃芒科技有限公司 | 人脸图像重演方法、系统、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3602494B1 (en) | Robust mesh tracking and fusion by using part-based key frames and priori model | |
CN111275518B (zh) | 一种基于混合光流的视频虚拟试穿方法及装置 | |
US11276231B2 (en) | Semantic deep face models | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
US20200334894A1 (en) | 3d motion effect from a 2d image | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
Gu et al. | Coupled real-synthetic domain adaptation for real-world deep depth enhancement | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN117237521A (zh) | 语音驱动人脸生成模型构建方法、目标人说话视频生成方法 | |
CN114187165A (zh) | 图像处理方法和装置 | |
CN111275778B (zh) | 人脸简笔画生成方法及装置 | |
AU2024204025A1 (en) | Techniques for re-aging faces in images and video frames | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
Ye et al. | Real3d-portrait: One-shot realistic 3d talking portrait synthesis | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
Pei et al. | Deepfake generation and detection: A benchmark and survey | |
Sun et al. | Continuously controllable facial expression editing in talking face videos | |
CN117115331B (zh) | 一种虚拟形象的合成方法、合成装置、设备及介质 | |
US20230206955A1 (en) | Re-Timing Objects in Video Via Layered Neural Rendering | |
CN116310146B (zh) | 人脸图像重演方法、系统、电子设备、存储介质 | |
CN116524087A (zh) | 融合神经辐射场的音频驱动的说话人视频合成方法及系统 | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
CN116994307A (zh) | 视频的生成方法、装置、设备、存储介质及产品 | |
Fan et al. | Learning Bilateral Cost Volume for Rolling Shutter Temporal Super-Resolution | |
Koumparoulis et al. | Audio-assisted image inpainting for talking faces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |