CN112446364A - 高清人脸替换视频生成方法及系统 - Google Patents
高清人脸替换视频生成方法及系统 Download PDFInfo
- Publication number
- CN112446364A CN112446364A CN202110127788.2A CN202110127788A CN112446364A CN 112446364 A CN112446364 A CN 112446364A CN 202110127788 A CN202110127788 A CN 202110127788A CN 112446364 A CN112446364 A CN 112446364A
- Authority
- CN
- China
- Prior art keywords
- face
- feature
- replacement
- target
- face image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 106
- 238000000605 extraction Methods 0.000 claims description 22
- 230000008447 perception Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Abstract
本发明涉及一种高清人脸替换视频生成方法及系统,所述视频生成方法包括:获取目标人脸图像以及源人脸图像;通过人脸特征编码器分别对源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;通过人脸生成器,根据替换人脸特征编码,生成初始替换人脸图像;通过人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。本发明通过人脸特征编码器将人脸特征进行层级编码,最大可能的保留人脸语义细节,而人脸特征交换器则在层级编码的基础上进一步处理,得到具备语义细节的替换人脸特征层级编码,可得到高清人脸替换视频。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种目标无关的高清人脸替换视频生成方法及系统。
背景技术
合成替换后的人脸是计算机视觉领域图像及视频生成问题的重要分支,其旨在将源人脸替换到目标人脸上,同时保持源人脸所代表的身份信息和目标人脸姿态、表情等细节信息。
随着深度学习理论的广泛应用,尤其是对抗生成网络(Generative AdversarialNetworks,GANs)的快速发展,现有的人脸替换技术大多使用基于GANs的模型合成逼真的替换。但目前的所有已知的目标无关的人脸替换框架仅能处理256×256分辨率下的人脸替换任务,其原因主要有以下三点:
人脸特征编码存在信息丢失;
对抗生成网络训练的不稳定性;
硬件约束,主要是显卡内存的不足。
以上三点或导致算法无法进行优化,或导致对抗生成网络的训练崩溃,抑或导致生成的人脸不具备足够的细节,与256×256分辨率下生成的替换人脸无有区别,致使图像换脸不够真实。
发明内容
为了解决现有技术中的上述问题,即为了得到高清换脸视频,本发明的目的在于提供一种高清人脸替换视频生成方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种高清人脸替换视频生成方法,所述视频生成方法包括:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
可选地,所述视频生成方法还包括:
根据多个历史真实人脸图像,确定关于所述人脸特征编码器的第一损失函数;
根据所述第一损失函数,采用梯度反向传播算法迭代调整所述人脸特征编码器的权值,直至所述第一损失函数收敛,以得到调整后的人脸特征编码器。
可选地,所述根据多个历史真实人脸图像,确定所述人脸特征编码器的第一损失函数,具体包括:
针对每一历史真实人脸图像,通过当前的人脸特征编码器对所述历史真实人脸图像进行特征提取,得到真实特征编码;
通过人脸生成器,根据所述真实特征编码,得到重建后的虚拟人脸图像;
根据各对历史真实人脸图像及虚拟人脸图像,确定所述第一损失函数。
可选地,所述视频生成方法还包括:
根据多组历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数;
根据所述第二损失函数,采用梯度反向传播算法迭代调整所述人脸特征交换器的权值,直至所述第二损失函数收敛,以得到调整后的人脸特征交换器。
可选地,所述根据多个历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数,具体包括:
针对每组历史真实人脸图像及历史目标人脸图像,
通过当前的人脸特征编码器分别对所述历史真实人脸图像及历史目标人脸图像进行特征提取,得到对应的真实特征编码及历史目标编码特征;
通过人脸生成器,分别根据所述真实特征编码及历史目标编码特征,得到重建后的对应的历史虚拟人脸图像及历史虚拟目标人脸图像;
通过人脸特征交换器,根据真实特征编码及历史目标编码特征,生成历史替换人脸特征编码;
通过人脸生成器,根据所述历史替换人脸特征编码,得到历史替换人脸图像;
根据各组历史真实人脸图像、历史目标人脸图像、历史虚拟人脸图像、历史虚拟目标人脸图像及历史替换人脸图像,确定所述第二损失函数。
其中,表示历史真实人脸图像, 表示历史虚拟人脸图像,表示历史目标人
脸图像,表示历史虚拟目标人脸图像,表示历史替换人脸图像,表示历史真
实人脸图像的高层语义表达,表示历史替换人脸图像的高层语义表达,表示计算
欧氏距离,表示人脸特征提取函数,表示人脸识别特征提取函数,
表示计算余弦相似度,表示人脸关键点提取函数;分
别是第二损失函数的权重。
为解决上述技术问题,本发明还提供了如下方案:
一种高清人脸替换视频生成系统,所述视频生成系统包括:
图像获取器,用于获取待处理视频中的目标人脸图像以及对应的源人脸图像;
人脸特征编码器,用于分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
人脸特征交换器,用于根据源特征编码及目标特征编码,生成替换人脸特征编码;
人脸生成器,用于根据所述替换人脸特征编码,生成初始替换人脸图像;
人脸融合器,用于将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
为解决上述技术问题,本发明还提供了如下方案:
一种高清人脸替换视频生成系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过人脸特征编码器将人脸特征进行层级编码,最大可能的保留人脸语义细节,而人脸特征交换器则在层级编码的基础上进一步处理,得到具备语义细节的替换人脸特征层级编码,用于使人脸生成器生成初始替换人脸图像,进而通过人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像,形成高清人脸替换视频。
附图说明
图1是本发明高清人脸替换视频生成方法的流程图;
图2是本发明高清人脸替换视频生成方法的具体实施流程图;
图3是本发明高清人脸替换视频生成系统的模块结构示意图。
符号说明:
图像获取器—1,人脸特征编码器—2,人脸特征交换器—3,人脸生成器—4,人脸融合器—5。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种高清人脸替换视频生成方法,通过人脸特征编码器将人脸特征进行层级编码,最大可能的保留人脸语义细节,而人脸特征交换器则在层级编码的基础上进一步处理,得到具备语义细节的替换人脸特征层级编码,用于使人脸生成器生成初始替换人脸图像,进而通过人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像,形成高清人脸替换视频。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明高清人脸替换视频生成方法包括:
步骤100:获取待处理视频中的目标人脸图像以及对应的源人脸图像。
步骤200:通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码。
步骤300:通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码。
本发明通过多段非线性优化的人脸特征交换器,通过操控人脸的全局特征编码得到替换人脸特征编码,以避免生成人脸的局部失真。
步骤400:通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像。
步骤500:通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
优选地,在执行步骤100之前,可先优化人脸特征编码器。具体地,本发明高清人脸替换视频生成方法还包括:
步骤A1:根据多个历史真实人脸图像,确定关于所述人脸特征编码器的第一损失函数。
A2:根据所述第一损失函数,采用梯度反向传播算法迭代调整所述人脸特征编码器的权值,直至所述第一损失函数收敛,以得到调整后的人脸特征编码器。
进一步地,在步骤A1中,所述根据多个历史真实人脸图像,确定所述人脸特征编码器的第一损失函数,具体包括:
步骤A11:针对每一历史真实人脸图像,通过当前的人脸特征编码器对所述历史真实人脸图像进行特征提取,得到真实特征编码[,,],其中,表示人脸特征的基本信息表达,底层语义表达和高层语义表达;
步骤A12:通过人脸生成器,根据所述真实特征编码,得到重建后的虚拟人脸图像;
步骤A13:根据各对历史真实人脸图像及虚拟人脸图像,确定所述第一损失函数。
进一步地,在执行步骤A1优化人脸特征编码器之后、执行步骤100之前,进一步优化人脸特征交换器。具体地,本发明高清人脸替换视频生成方法还包括:
步骤B1:根据多组历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数;
步骤B2:根据所述第二损失函数,采用梯度反向传播算法迭代调整所述人脸特征交换器的权值,直至所述第二损失函数收敛,以得到调整后的人脸特征交换器。
进一步地,在步骤B1中,所述根据多个历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数,具体包括:
步骤B11:针对每组历史真实人脸图像及历史目标人脸图像,通过当前的人脸特征编码器分别对所述历史真实人脸图像及历史目标人脸图像进行特征提取,得到对应的真实特征编码及历史目标编码特征;
步骤B12:通过人脸生成器,分别根据所述真实特征编码及历史目标编码特征,得到重建后的对应的历史虚拟人脸图像及历史虚拟目标人脸图像;
步骤B13:通过人脸特征交换器,根据真实特征编码及历史目标编码特征,生成历史替换人脸特征编码;
步骤B14:通过人脸生成器,根据所述历史替换人脸特征编码,得到历史替换人脸图像;
步骤B15:根据各组历史真实人脸图像、历史目标人脸图像、历史虚拟人脸图像、历史虚拟目标人脸图像及历史替换人脸图像,确定所述第二损失函数。
其中,表示历史真实人脸图像, 表示历史虚拟人脸图像,表示历史目标人
脸图像,表示历史虚拟目标人脸图像,表示历史替换人脸图像,表示历史真
实人脸图像的高层语义表达,表示历史替换人脸图像的高层语义表达,表示计算
欧氏距离,表示人脸特征提取函数,表示人脸识别特征提取函数,表
示计算余弦相似度,表示人脸关键点提取函数;分
别是第二损失函数的权重。
本发明基于预训练的人脸生成器及人脸融合器,并使用分段式训练策略以减少对硬件的依赖。
在步骤500中,基于人脸融合器,将替换人脸图像与目标人脸图像中人脸所处的背景进行融合,从而得到终极替换人脸图像,由各帧终极替换人脸图像形成高清人脸替换视频。
本发明使用了分阶段的模型设计实现了百万像素级的高清视频人脸替换,该模型主要包括四个部分:利用层级编码的人脸特征编码器,利用多段非线性优化的人脸特征交换器,基于StyleGAN(v1或v2)的人脸生成器和基于人脸语义分割的人脸融合器。其中人脸特征编码器以人脸图像为输入,得到该人脸的层级特征表达;人脸特征交换器对源人脸和目标人脸的层级特征表达进行特征交换,得到替换后的人脸层级特征表达;人脸生成器以替换后的人脸层级特征表达为输入,得到替换后的人脸;最后在视频处理中,人脸融合器将替换后的人脸和目标人脸所处的背景融合,得到当前替换后的人脸帧。
为了使得该模型具备良好的训练稳定性和减少对硬件的苛刻需求,本发明采用分阶段的训练方式,即在预训练好的人脸生成器和人脸融合器的基础上,先训练人脸特征编码器,再训练人脸交换器。
为了监督该模型的训练过程,本发明采用了人脸重建损失、人脸感知损失、人脸身份损失和人脸关键点损失对人脸特征编码器进行约束;采用了人脸重建损失值、人脸感知损失值、人脸身份损失值,人脸关键点损失值和正则项对人脸特征交换器进行约束。具体而言,人脸特征编码器负责将人脸特征进行层级编码,最大可能的保留人脸语义细节,而人脸特征交换器则在层级编码的基础上对操控,得到具备语义细节的替换人脸特征层级编码,用于使人脸生成器生成替换获得人脸。
下面以具体实施例详细说明本发明(如图2所示):
步骤S1,将历史真实人脸图像进行重建。所述步骤S1具体包括如下步骤:
步骤S12,将人脸层级编码输入人脸生成器,得到重建后的虚拟人脸图像。
步骤S2,根据真实人脸图像与虚拟人脸图像计算第一人脸重建损失、第一人脸感知损失、第一人脸身份损失和第一人脸关键点损,失利用损失梯度反向传播算法迭代调整人脸特征编码器的权值直到收敛。
所述步骤S2具体包括以下步骤:
步骤S21,基于步骤S12中得到的虚拟人脸图像,将其与真实人脸图像确定第一损失函数。所述第一损失函数分为四部分:第一人脸重建损失函数、第一人脸感知损失函数、第一人脸身份损失函数和第一人脸关键点损失函数。
步骤S22,基于第一人脸重建损失函数、第一人脸感知损失函数、第一人脸身份损失函数和第一人脸关键点损失函数的损失值,利用梯度反向传播算法迭代调整人脸特征编码器的权值直到收敛。
步骤S3,将源人脸图像替换至目标人脸图像上。所述步骤S3具体包括如下步骤:
步骤S31,对源人脸图像和目标人脸图像分别进行特征抽取,得到其层级编码。
步骤S32,将源人脸层级编码和目标人脸层级编码输入人脸交换器,得到替换人脸层级编码。
步骤S33,将替换人脸层级编码输入人脸生成器,得到替换人脸图像。
步骤S34,将替换人脸图像和目标人脸图像融入人脸融合器,将替换人脸图像的人脸部分和目标人脸图像的背景部分进行融合,得到最终的替换人脸图像。
在每次得到替换的人脸图像后,均可根据当前得到的替换的人脸图像及源人脸图像、目标人脸图像进一步优化人脸特征交换器。具体地:
步骤S4,根据替换后的人脸图像及源人脸图像、目标人脸图像确定第二人脸重建损失函数、第二人脸感知损失函数、第二人脸身份损失函数,第二人脸关键点损失函数和正则项,利用损失梯度反向传播算法迭代调整人脸特征交换器的权值直到收敛。
所述步骤S4具体包括以下步骤:
步骤S41,基于步骤S33中得到的替换人脸图像,将其与源人脸图像和目标人脸图像确定第二损失函数,第二所述损失函数分为五部分:第二人脸感知损失函数、第二人脸身份损失函数,第二人脸关键点损失函数和正则项。
步骤S42,基于第二人脸感知损失函数、第二人脸身份损失函数,第二人脸关键点损失函数和正则项,利用梯度反向传播算法迭代调整人脸特征交换器的权值直到收敛。
本发明通过分段式的人脸特征编码器、人脸特征交换器、人脸生成器及人脸融合器实现了百万像素级的目标无关人脸替换能力。具体而言,人脸特征编码器使用层级编码得到人脸的完整特征表达,人脸特征交换器利用多段非线性优化得到替换人脸的完整特征表达,人脸生成器利用替换人脸的完整特征表达生成在1024×1024分别率下具有丰富细节的替换人脸,最后人脸融合器将替换人脸和目标人脸所处的背景进行融合。
此外,本发明还提供一种高清人脸替换视频生成系统,可得到高清换脸视频。
如图3所示,本发明高清人脸替换视频生成系统包括图像获取器1、人脸特征编码器2、人脸特征交换器3、人脸生成器4及人脸融合器5。
其中,所述图像获取器1用于获取待处理视频中的目标人脸图像以及对应的源人脸图像;
所述人脸特征编码器2用于分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
所述人脸特征交换器3用于根据源特征编码及目标特征编码,生成替换人脸特征编码;
所述人脸生成器4用于根据所述替换人脸特征编码,生成初始替换人脸图像;
所述人脸融合器5用于将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
此外,本发明还提供了如下方案:
一种高清人脸替换视频生成系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
相对于现有技术,本发明高清人脸替换视频生成系统、计算机可读存储介质与上述高清人脸替换视频生成方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种高清人脸替换视频生成方法,其特征在于,所述视频生成方法包括:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
2.根据权利要求1所述的高清人脸替换视频生成方法,其特征在于,所述视频生成方法还包括:
根据多个历史真实人脸图像,确定关于所述人脸特征编码器的第一损失函数;
根据所述第一损失函数,采用梯度反向传播算法迭代调整所述人脸特征编码器的权值,直至所述第一损失函数收敛,以得到调整后的人脸特征编码器。
3.根据权利要求2所述的高清人脸替换视频生成方法,其特征在于,所述根据多个历史真实人脸图像,确定所述人脸特征编码器的第一损失函数,具体包括:
针对每一历史真实人脸图像,通过当前的人脸特征编码器对所述历史真实人脸图像进行特征提取,得到真实特征编码;
通过人脸生成器,根据所述真实特征编码,得到重建后的虚拟人脸图像;
根据各对历史真实人脸图像及虚拟人脸图像,确定所述第一损失函数。
5.根据权利要求1所述的高清人脸替换视频生成方法,其特征在于,所述视频生成方法还包括:
根据多组历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数;
根据所述第二损失函数,采用梯度反向传播算法迭代调整所述人脸特征交换器的权值,直至所述第二损失函数收敛,以得到调整后的人脸特征交换器。
6.根据权利要求5所述的高清人脸替换视频生成方法,其特征在于,所述根据多个历史真实人脸图像及对应的历史目标人脸图像,确定关于所述人脸特征交换器的第二损失函数,具体包括:
针对每组历史真实人脸图像及历史目标人脸图像,
通过当前的人脸特征编码器分别对所述历史真实人脸图像及历史目标人脸图像进行特征提取,得到对应的真实特征编码及历史目标编码特征;
通过人脸生成器,分别根据所述真实特征编码及历史目标编码特征,得到重建后的对应的历史虚拟人脸图像及历史虚拟目标人脸图像;
通过人脸特征交换器,根据真实特征编码及历史目标编码特征,生成历史替换人脸特征编码;
通过人脸生成器,根据所述历史替换人脸特征编码,得到历史替换人脸图像;
根据各组历史真实人脸图像、历史目标人脸图像、历史虚拟人脸图像、历史虚拟目标人脸图像及历史替换人脸图像,确定所述第二损失函数。
8.一种高清人脸替换视频生成系统,其特征在于,所述视频生成系统包括:
图像获取器,用于获取待处理视频中的目标人脸图像以及对应的源人脸图像;
人脸特征编码器,用于分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
人脸特征交换器,用于根据源特征编码及目标特征编码,生成替换人脸特征编码;
人脸生成器,用于根据所述替换人脸特征编码,生成初始替换人脸图像;
人脸融合器,用于将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
9.一种高清人脸替换视频生成系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取待处理视频中的目标人脸图像以及对应的源人脸图像;
通过人脸特征编码器分别对所述源人脸图像及目标人脸图像进行特征提取,得到对应的源特征编码及目标特征编码;
通过人脸特征交换器,根据源特征编码及目标特征编码,生成替换人脸特征编码;
通过人脸生成器,根据所述替换人脸特征编码,生成初始替换人脸图像;
通过基于人脸语义分割的人脸融合器,将初始替换人脸图像与目标人脸图像进行融合,得到终极替换人脸图像。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127788.2A CN112446364B (zh) | 2021-01-29 | 2021-01-29 | 高清人脸替换视频生成方法及系统 |
PCT/CN2021/111577 WO2022160657A1 (zh) | 2021-01-29 | 2021-08-09 | 高清人脸替换视频生成方法及系统 |
US17/623,247 US11776576B2 (en) | 2021-01-29 | 2021-08-09 | Video generation method and system for high resolution face swapping |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127788.2A CN112446364B (zh) | 2021-01-29 | 2021-01-29 | 高清人脸替换视频生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446364A true CN112446364A (zh) | 2021-03-05 |
CN112446364B CN112446364B (zh) | 2021-06-08 |
Family
ID=74739900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127788.2A Active CN112446364B (zh) | 2021-01-29 | 2021-01-29 | 高清人脸替换视频生成方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11776576B2 (zh) |
CN (1) | CN112446364B (zh) |
WO (1) | WO2022160657A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113033442A (zh) * | 2021-03-31 | 2021-06-25 | 清华大学 | 基于StyleGAN的高自由度人脸驱动方法和装置 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN114155139A (zh) * | 2021-11-23 | 2022-03-08 | 山东省人工智能研究院 | 一种基于向量离散化表示的deepfake生成方法 |
WO2022160657A1 (zh) * | 2021-01-29 | 2022-08-04 | 中国科学院自动化研究所 | 高清人脸替换视频生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060093208A1 (en) * | 2004-10-29 | 2006-05-04 | Fayin Li | Open set recognition using transduction |
CN108932693A (zh) * | 2018-06-15 | 2018-12-04 | 中国科学院自动化研究所 | 基于人脸几何信息的人脸编辑补全方法及装置 |
CN110868598A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于对抗生成网络的视频内容替换方法及系统 |
CN111368796A (zh) * | 2020-03-20 | 2020-07-03 | 北京达佳互联信息技术有限公司 | 人脸图像的处理方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181168B2 (en) * | 2014-03-31 | 2019-01-15 | Hitachi Kokusa1 Electric, Inc. | Personal safety verification system and similarity search method for data encrypted for confidentiality |
US10769255B2 (en) | 2015-11-11 | 2020-09-08 | Samsung Electronics Co., Ltd. | Methods and apparatuses for adaptively updating enrollment database for user authentication |
CN111833257A (zh) | 2019-04-18 | 2020-10-27 | 北京安云世纪科技有限公司 | 视频动态换脸方法、装置、计算机设备及存储介质 |
US10902571B2 (en) * | 2019-05-20 | 2021-01-26 | Disney Enterprises, Inc. | Automated image synthesis using a comb neural network architecture |
US10949715B1 (en) * | 2019-08-19 | 2021-03-16 | Neon Evolution Inc. | Methods and systems for image and voice processing |
US11276231B2 (en) * | 2020-03-04 | 2022-03-15 | Disney Enterprises, Inc. | Semantic deep face models |
CN111861872A (zh) | 2020-07-20 | 2020-10-30 | 广州市百果园信息技术有限公司 | 图像换脸方法、视频换脸方法、装置、设备和存储介质 |
CN112446364B (zh) | 2021-01-29 | 2021-06-08 | 中国科学院自动化研究所 | 高清人脸替换视频生成方法及系统 |
-
2021
- 2021-01-29 CN CN202110127788.2A patent/CN112446364B/zh active Active
- 2021-08-09 US US17/623,247 patent/US11776576B2/en active Active
- 2021-08-09 WO PCT/CN2021/111577 patent/WO2022160657A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060093208A1 (en) * | 2004-10-29 | 2006-05-04 | Fayin Li | Open set recognition using transduction |
CN108932693A (zh) * | 2018-06-15 | 2018-12-04 | 中国科学院自动化研究所 | 基于人脸几何信息的人脸编辑补全方法及装置 |
CN110868598A (zh) * | 2019-10-17 | 2020-03-06 | 上海交通大学 | 基于对抗生成网络的视频内容替换方法及系统 |
CN111368796A (zh) * | 2020-03-20 | 2020-07-03 | 北京达佳互联信息技术有限公司 | 人脸图像的处理方法、装置、电子设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022160657A1 (zh) * | 2021-01-29 | 2022-08-04 | 中国科学院自动化研究所 | 高清人脸替换视频生成方法及系统 |
US11776576B2 (en) | 2021-01-29 | 2023-10-03 | Institute Of Automation, Chinese Academy Of Sciences | Video generation method and system for high resolution face swapping |
CN112734634A (zh) * | 2021-03-30 | 2021-04-30 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN112734634B (zh) * | 2021-03-30 | 2021-07-27 | 中国科学院自动化研究所 | 换脸方法、装置、电子设备和存储介质 |
CN113033442A (zh) * | 2021-03-31 | 2021-06-25 | 清华大学 | 基于StyleGAN的高自由度人脸驱动方法和装置 |
CN113486785A (zh) * | 2021-07-01 | 2021-10-08 | 深圳市英威诺科技有限公司 | 基于深度学习的视频换脸方法、装置、设备及存储介质 |
CN114155139A (zh) * | 2021-11-23 | 2022-03-08 | 山东省人工智能研究院 | 一种基于向量离散化表示的deepfake生成方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230112462A1 (en) | 2023-04-13 |
WO2022160657A1 (zh) | 2022-08-04 |
US11776576B2 (en) | 2023-10-03 |
CN112446364B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446364B (zh) | 高清人脸替换视频生成方法及系统 | |
Gao et al. | Disentangling propagation and generation for video prediction | |
Zhao et al. | Learning to forecast and refine residual motion for image-to-video generation | |
CN107481279B (zh) | 一种单目视频深度图计算方法 | |
CN112733795B (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN112733797A (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
Liu et al. | Oiflow: Occlusion-inpainting optical flow estimation by unsupervised learning | |
CN110418139B (zh) | 一种视频超分辨修复方法、装置、设备及存储介质 | |
Liu et al. | Psgan++: Robust detail-preserving makeup transfer and removal | |
CN113705295A (zh) | 对象姿态迁移方法、装置、设备及存储介质 | |
CN113570685A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
Shi et al. | CharFormer: A glyph fusion based attentive framework for high-precision character image denoising | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
Li et al. | Line drawing guided progressive inpainting of mural damages | |
CN116523985B (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
CN113706577A (zh) | 一种图像处理方法、装置和计算机可读存储介质 | |
CN111311732A (zh) | 3d人体网格获取方法及装置 | |
CN116342385A (zh) | 文本图像超分辨率网络的训练方法、装置以及存储介质 | |
Li et al. | SPN2D-GAN: semantic prior based night-to-day image-to-image translation | |
US20230154140A1 (en) | Neural network-based high-resolution image restoration method and system | |
CN109785230A (zh) | 一种模拟人眼的图像中心增强处理方法 | |
RU2817316C2 (ru) | Способ и устройство для обучения модели генерирования изображений, способ и устройство для генерирования изображений и их устройства | |
CN117058266B (zh) | 一种基于骨架和轮廓的书法字生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |