CN115409937A - 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 - Google Patents
基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 Download PDFInfo
- Publication number
- CN115409937A CN115409937A CN202210999247.3A CN202210999247A CN115409937A CN 115409937 A CN115409937 A CN 115409937A CN 202210999247 A CN202210999247 A CN 202210999247A CN 115409937 A CN115409937 A CN 115409937A
- Authority
- CN
- China
- Prior art keywords
- expression
- video
- facial
- sub
- radiation field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 87
- 238000013508 migration Methods 0.000 title claims abstract description 86
- 230000005012 migration Effects 0.000 title claims abstract description 86
- 230000005855 radiation Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000001815 facial effect Effects 0.000 title claims abstract description 50
- 210000005036 nerve Anatomy 0.000 title claims abstract description 46
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 37
- 239000013604 expression vector Substances 0.000 claims abstract description 26
- 230000008921 facial expression Effects 0.000 claims abstract description 25
- 238000009877 rendering Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 24
- 230000001537 neural effect Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 238000012360 testing method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能技术领域,特别涉及一种基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统,通过构建集成神经辐射场人脸表情迁移模型,其中,所述迁移模型中包含:集成渲染生成器,其由n个用于查询采样帧图像空间密度和颜色的子生成器组成;及用于对n个子生成器进行加权求和的权重控制器;根据人物类别收集视频数据,将视频数据分解为若干张帧图像,按时间顺序将若干张帧图像均分n份,利用均分的帧图像集构建样本数据,训练优化子生成器,以样本数据中的表情向量为权重控制器的输入,利用权重控制器调整子生成器的输出权重以获取最终训练优化后的迁移模型。本发明在面部重现的重建质量、身份保持、表情和姿态转换等方面都有更加稳定和优越的表现,具有较好的应用前景。
Description
技术领域
本发明属于人工智能技术领域,特别涉及一种基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统。
背景技术
基于集成神经辐射场的人脸视频表情迁移旨在根据驱动图像中人物的表情控制源图像中人物的表情,是深度合成领域中广受关注的困难问题。引起表情控制困难的原因主要包括对于人脸建模的精度不足、无法对眼镜等面部遮挡建模等。这些问题主要来源于传统方法对于面部建模时采用的中间形式多为面部关键点、三维人脸参数等,限制了建模的精度和多样性,严重影响了表情控制的效果。现有的人脸表情迁移方法大致可以分为基于风格迁移的方法、基于标签驱动的方法和基于潜在空间控制的方法这三种。其中,(1)基于风格迁移的人脸表情迁移方法将面部身份视为风格,面部表情视为内容,利用深度学习领域中风格迁移相关的模型来实现内容保持下的风格变换,如使用条件输入实现图像到图像翻译的通用方案,即pix2pix模型。应用在表情控制领域,则可以用表情图像作为条件图像,训练生成器产出特定身份的表情对应图像,又如,利用CycleGAN实现了目标人物头部姿态和面部表情的控制,并利用马尔科夫判别器来提高视频生成的质量;或,引入时空约束并提出RecycleGAN。RecycleGAN在生成器GX、GY的基础上引入下一帧预测器PX、PY,并通过循环损失引入时间约束。上述基于风格迁移的方法利用现有风格迁移领域的成果,但需要增强对于人脸的针对性设计,从而增强稳定性和保真度。(2)基于标签驱动的人脸表情迁移方法使用面部动作单元、one-hot向量等作为标签对表情信息进行压缩,并驱动转换模型控制人脸从而生成期望的表情,如,用于面部表情合成的条件差分对抗式自动编码器(CDAAE),通过学习生成同一个人但具有不同面部表情的图像的低层特征之间的差异来处理由于身份和面部表情引起的变化的消除歧义问题;又如,仅使用一个模型对多个域执行图像到图像的转换方法,即StarGAN。该方法使用n维独热向量(n-dimensional one-hot vector)表示标签从而实现气愤、害怕、悲伤等8种不同面部表情,并通过定性和定量的实验证明了在面部属性转移和面部表情合成任务上的有效性。基于标签驱动的方法标签能够一定程度的引导表情的变化,但其无法覆盖所有的表情空间,存在控制精度问题。(3)基于潜在空间控制的人脸表情迁移方法通过编码器或者反演来获取特定面部在生成器潜在空间中的向量,改变向量信息后通过生成器进一步得到表情变化后的人脸。如,基于几何引导解纠缠的高保真任意面部操纵,首先引入一种新的附加高斯混合假设,该假设在结构潜在空间中具有无监督的聚类机制,从而赋予了更好的解纠缠度并增强了具有外部记忆的多模态表示。为解决GAN网络稳定性问题,基于风格的StyleGAN生成器架构主要利用自适应实力规范化、多层信息嵌入以及逐层训练生成最高达百万像素的稳定人脸图像。但同时此模型训练代价较大,并且图像随机生成。此类方法解决了生成图像不稳定的问题,但容易出现生成图像身份泄露的问题,即输出无法较好的保持原图像的原始身份。
发明内容
为此,本发明提供一种基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统,提升表情迁移中在面部重现的泛化性、身份保持以及表情和姿态控制等方面的稳定性。
按照本发明所提供的设计方案,提供一种基于集成神经辐射场的人脸视频表情迁移模型构建方法,包含如下内容:
构建集成神经辐射场人脸表情迁移模型,其中,所述迁移模型中包含:集成渲染生成器,该集成渲染生成器由n个用于查询采样帧图像空间密度和颜色的子生成器组成;及用于对集成渲染生成器中的n个子生成器进行加权求和的权重控制器;
根据人物类别收集视频数据,将视频数据分解为若干张帧图像,并按时间顺序将若干张帧图像均分为互不交叉的n份帧图像集,利用该n份帧图像集构建子生成器和权重控制器训练用的样本数据;
利用样本数据中的n份帧图像集对应训练优化集成渲染生成器中对应的子生成器,并以样本数据中的表情向量为权重控制器的输入,利用权重控制器并依据表情向量自适应调整子生成器的输出权重,利用该输出权重来获取最终训练优化后的迁移模型。
作为本发明中基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步地,迁移模型中的每个子生成器,将输入的表情向量和位置向量作为条件变量,利用神经辐射场网络沿观察视角对空间点进行查询采样,并结合背景图像通过立体渲染来获取二维图像输出。
作为本发明中基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步,第i个子生成器对空间中密度σi和颜色ci的查询采样过程表示为:(ci,σi)=Subgeneratori(x,d,δ,γ),i=1,2…,n,其中,x为坐标位置,d为观察方向,δ为表情向量,γ为可学习代码。
作为本发明中基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步,迁移模型中,针对输入的帧图像,首先利用Face2Face来捕捉输入帧图像特征,通过估计每帧头部刚性姿态和表情来获取包含位置和表情数据的空间映射,并利用高频函数将位置和表情数据映射到高维空间来获取位置向量和表情向量。
作为本发明基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步地,迁移模型中的权重控制器采用四层全连接网络,该四层全连接网络中的前三层全连接层分别接ReLU函数,最后一层全连接层连接softmax函数。
作为本发明基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步地,利用样本数据对子生成器进行训练优化中,利用分层体积采样方法对每个子生成器的神经辐射场网络依次进行第一阶段粗糙优化和第二阶段精细优化,其中,第一阶段粗糙优化中,对输入帧图像空间进行均匀查询采样,并在第二阶段精细优化中,使用全部样本数据并利用第一阶段粗糙优化的输出来调整神经辐射场网络参数。
作为本发明基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步地,各子生成器第一阶段粗糙优化的损失函数表示为:
其中,为第i个子生成器的训练总损失,Mi为第i个子生成器样本数据的数量,Mi=N/n,N为样本数据总数,coarse为粗糙优化标识参数,fine为精细优化标识参数,Lj(θ)为像素级的L2损失函数;第二阶段精细优化损失函数表示为:
作为本发明基于集成神经辐射场的人脸视频表情迁移模型构建方法,进一步地,根据人物类别收集视频数据中,选取单个视频中场景固定、身份不变的人脸图像作为构建样本数据的视频数据。
进一步地,本发明还提供一种基于集成神经辐射场的人脸视频表情迁移方法,针对给定的目标人脸图像或视频数据,利用上述方法所构建的人脸视频表情迁移模型来生成带有目标表情的人脸表情迁移图像或视频。
进一步地,本发明还提供一种基于集成神经辐射场的人脸视频表情迁移系统,包含:模型构建模块和表情迁移模块,其中,
模型构建模块,用于利用上述的方法来构建人脸视频表情迁移模型;
表情迁移模块,用于利用构建的人脸视频表情迁移模型来生成给定目标人物图像或视频对应的带有目标表情的人脸表情迁移图像或视频。
本发明的有益效果:
本发明将人类肖像短视频划分为基于时间相关性的互不交叉子数据集,高效的集成多个预训练子生成器,利用以表情向量为输入的权重控制器对子生成器的输出加权求和来实现人脸表情迁移视频的生成,通过在实验数据上进行验证,本案方案在面部重现的重建质量、身份保持、表情和姿态转换等方面都有更加稳定和优越的表现,具有较好的应用前景。
附图说明:
图1为实施例中基于集成神经辐射场的人脸视频表情迁移模型构建流程示意;
图2为实施例中构建的训练数据集和测试数据集示意;
图3为实施例中面部动态重建流程示意
图4为实施例中自适应集成神经辐射场结构示意;
图5为实施例中网络结构示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
面部重现是数字人脸编辑的一项关键技术,近些年来随着深度学习技术的发展应用愈加深入,尤其在虚拟现实、电影视觉配音等方面。近期基于神经辐射场的面部重现方法被提出,在训练集上的图像重建精度远超前期方法。然而由于隐式面部空间复杂度较高,神经辐射场对于测试集图像的重建精度欠佳,这严重限制了面部重建的应用效果。为此,本发明实施例,参见图1和2所示,提供一种基于集成神经辐射场的人脸视频表情迁移模型构建方法,包含:
S101、构建集成神经辐射场人脸表情迁移模型,其中,所述迁移模型中包含:集成渲染生成器,该集成渲染生成器由n个用于查询采样帧图像空间密度和颜色的子生成器组成;及用于对集成渲染生成器中的n个子生成器进行加权求和的权重控制器;
S102、根据人物类别收集视频数据,将视频数据分解为若干张帧图像,并按时间顺序将若干张帧图像均分为互不交叉的n份帧图像集,利用该n份帧图像集构建子生成器和权重控制器训练用的样本数据;
S103、利用样本数据中的n份帧图像集对应训练优化集成渲染生成器中对应的子生成器,并以样本数据中的表情向量为权重控制器的输入,利用权重控制器并依据表情向量自适应调整子生成器的输出权重,利用该输出权重来获取最终训练优化后的迁移模型。
基于集成学习的思想,利用由子生成器和控制器组成的自适应集成神经辐射场架构来有效结合各子生成器取得的生成效果,提升面部表情重现质量。为了从数据中学习多样的子模型,将人类肖像短视频划分为基于时间相关性的互不交叉子数据集;为了高效的集成多个预训练子生成器,使用以表情向量为输入的控制器对子生成器的输出加权求和,在泛化性能和多角度人脸建模上均有较好的效果。
作为优选实施例,进一步地,迁移模型中的每个子生成器,将输入的表情向量和位置向量作为条件变量,利用神经辐射场网络沿观察视角对空间点进行查询采样,并结合背景图像通过立体渲染来获取二维图像输出。
神经辐射场用一个多层感知机去隐式地学习一个静态3D场景。在使用NeRF对空间点密度和颜色进行查询时,可以表示为:
(c,σ)=F(x,d)
其中F代表NeRF网络,x=(x,y,z)表示要查询空间点的坐标位置,d=(θ,φ)为视角方向,σ是对应3D点位的密度,而c=(r,g,b)是对应3D点位的颜色。值得一提的是,σ仅和位置相关,而c受位置和观察方向的影响。将3D物体渲染为2D图像,需要使用经典的体素渲染[32]方法。此外,为使得网络更容易的理解并建模位置信息,NeRF使用正余弦周期函数对位置和视角进行编码。
通过增加一维动态信息来拓展网络的隐式表达空间来实现人脸动态建模。在模型输入中加入表情向量,具体可以表示为:
(c,σ)=F(x,d,δ,γ) (1)
其中δ为表情向量,γ为可学习代码。可学习代码是为了辅助表情向量在NeRF模型中更好地发挥控制能力。可使用Face2Face,一个基于优化的面部重建模型,去计算每帧的表情向量。具体来说,面部动态重建流程如图3所示。给定一组视频帧序列和静止的背景图像,使用Face2Face进行外表捕获,从而估计每帧的头部刚性姿态和表情。刚性姿态和相机参数intrinsics允许将相机空间转换为头部规范空间。表情向量、可学习代码作为条件变量输入到神经辐射场网络中。沿着观察视角对空间点进行采样。最后结合背景图像通过立体渲染得到二维图像。
经试验发现,即便可以几乎完美地重建训练集的图像,神经辐射场对于测试集的泛化性却不足,这严重限制了该方法的应用范围。作为应对,本案实施例中,利用集成神经辐射场架构来有效地改善模型泛化性不足的问题。如图4所示,模型由n个子生成器和1个控制器组成。控制器根据表情向量自适应调整n个输出权重,并对子生成器的输出加权求和。从数据中学习几个多样的子模型,并且有效地结合它们以取得更好的生成结果。模型的主体由n个被命名为子生成器的神经辐射场网络组成。这些子生成器可以实现对于空间中密度σi和颜色ci的查询:
(ci,σi)=Subgeneratori(x,d,δ,γ),i=1,2…,n
其中x为坐标位置,d为观察方向,δ为表情向量,γ为可学习代码。值得一提的是,为保证子模型的多样性,在训练子模型时对数据集进行基于时间相关性的划分。此外,为了有效地结合n个子模型,通过权重控制器对n组输出结果进行加权求和。权重控制器以表情向量为输入,输出为n个权重:
(w1,w2,…,wn)=Controller(δ)
其中w1,w2,…,wn之和为1。有了每个子模型对应的权重,就可以得到最终的集成模型输出:
根据最终空间点密度σ和颜色c,按照经典体塑渲染方法对预期二维图像点进行渲染:
其中,r(t)=o+td为从相机原点o发出的射线,P为头部姿态,δ为表情向量,γ为可学习代码,d为视角方向,znear和zfar分别为边界的近端和远端。T(t)是沿射线的累计透射率:
上述公式只对二维图像中的单个点进行渲染,若要得到完整图像,可从多个视角进行渲染。
在将输入传递到网络之前,使用高频函数将输入映射到更高维空间可以更好地拟合包含高频变化的数据。为使模型更好的学习高频变化的数据,可使用编码函数:
Ε(a)=(sin(20πa),cos(20πa),…,sin(2L-1πa),cos(2L-1πa))
其中a对应位置的3个坐标值或观察方向的3个分量。使用编码参数L,即对为位置使用10个频率,为观察方向使用4个频率。位置编码后由3维升至63维,观察方向编码后由3维升至24维。
模型中使用的主要网络结构如图5所示,控制器(图5(a))为4层全连接网络,其中前三层接ReLU函数,最后一层接softmax函数。控制器的输入为Face2Face估计的76维表情向量,输出为对应n个子生成器的权重。采用图5(b)所示的神经辐射场网络结构作为子生成器。其中位置编码(63维)、可学习代码(32维)以及表情编码(76维)串联后输入到第一层全连接层中,再经过8层全连接层得到密度σ。RGB由第八层输出与方向编码串联后输入到4层的全连接层中得到。子网络各层后ReLU函数的使用情况可在图5(b)中得知。
作为优选实施例,进一步地,利用样本数据对子生成器进行训练优化中,利用分层体积采样方法对每个子生成器的神经辐射场网络依次进行第一阶段粗糙优化和第二阶段精细优化,其中,第一阶段粗糙优化中,对输入帧图像空间进行均匀查询采样,并在第二阶段精细优化中,使用全部样本数据并利用第一阶段粗糙优化的输出来调整神经辐射场网络参数。
训练分为两个阶段,第一个阶段是各个子模型独立训练。集成模型中的n个子生成器,能够期望这些子生成器模型都有足够的多样性和优异的性能。可通过对训练数据进行基于时间相关性的划分来保证子生成器模型之间的差异。具体来说,按照时间的顺序将N张帧图像平均分为n份,分别提供给n个子生成器模型作为训练数据。由于视频帧之间具有空间的约束性,即一般来说距离越近的帧之间相似性越大,因此,可基于时间相关性的训练数据划分本质上将比较相似的视频帧归为一类,这也有利于子生成器模型更好的学习和收敛。基于以上划分,第一个训练阶段子模型在对应的训练数据集上进行训练。在图像渲染过程中,需要对空间中的点进行大量地采样和网络计算,而往往对图像渲染没有贡献的自由空间和遮挡区域仍然被重复采样。为提升采样效率,可采用类似NeRF中的分层体积采样方案,即同时优化两个网络:一个粗糙,一个精细。粗网络对空间进行均匀采样,根据它的输出调整精细网络对体积相关部分进行着重采样。对于损失函数,各组子生成器网络分别独立地基于L2损失来同时优化粗网络和细网络的网络权重:
在第二阶段,将第一阶段训练好的子模型按照图5所示的集成神经辐射场架构进行构建。在此阶段,使用训练集的全部图像进行训练。对于损失函数,首先计算与第一阶段类似的重建误差:
综上所述,集成神经辐射场的训练算法在算法1中列出。
作为本发明优选实施例,进一步地,根据人物类别收集视频数据中,选取单个视频中场景固定、身份不变的人脸图像作为构建样本数据的视频数据。
为了完成人脸视频表情迁移方法的训练和测试,首先根据人物类别收集对应的视频,保证单个视频中场景固定、身份不变,由此构建视频数据集。将视频文件分解为帧图像,作为图像数据集。为支撑多对一人脸表情迁移,选择场景固定、身份不变的人脸图像作为训练数据集,测试数据集图像的场景、人脸身份可任意选择。模型只提取驱动图像的表情信息,因此测试集数据中环境、身份信息不影响输出的表情迁移结果。
进一步地,本发明实施例还提供一种基于集成神经辐射场的人脸视频表情迁移方法,针对给定的目标人脸图像或视频数据,利用上述模型构建方法所构建的人脸视频表情迁移模型来生成带有目标表情的人脸表情迁移图像或视频。
进一步地,本发明实施例还提供一种基于集成神经辐射场的人脸视频表情迁移系统,包含:模型构建模块和表情迁移模块,其中,
模型构建模块,用于利用上述的模型构建方法来构建人脸视频表情迁移模型;
表情迁移模块,用于利用构建的人脸视频表情迁移模型来生成给定目标人物图像或视频对应的带有目标表情的人脸表情迁移图像或视频。
为验证本案方案有效性,下面结合试验数据做进一步解释说明:
人脸表情迁移是指在不改变源人物身份的同时,通过驱动人物图像来控制源人物的表情。制作的短的单目RGB视频序列作为单目训练数据。具体而言,视频序列像素分辨率为512*512,帧速率为50帧每秒。每个人物对应一组视频序列,并被要求正常的对话,包括微笑等常见表情。每组总长度为2分钟(6000帧),取另外500帧作为测试序列。对于每次训练迭代,对于单个训练图像采样2048条观察光线。对于粗网络,可沿每条观察光线均匀采样64个点。然后基于粗网络估计的密度分布,重采样64个点馈送到精细网络中。此外,为使神经辐射场更专注于面部区域的重建,95%的光线对应头部边界框内的像素。头部的边界框由Face2Face可变形模型给出。实验中,训练每个模型迭代450k次,并在每次迭代后使用Adam优化器对网络参数和可学习代码进行更新。
通过以上实验结果表明,本案方案在重建质量、身份保持、表情和姿态转换等方面都有更加稳定和优越的表现,便于后期深度学习、深度合成场景中的应用。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,包含如下内容:
构建集成神经辐射场人脸表情迁移模型,其中,所述迁移模型中包含:集成渲染生成器,该集成渲染生成器由n个用于查询采样帧图像空间密度和颜色的子生成器组成;及用于对集成渲染生成器中的n个子生成器进行加权求和的权重控制器;
根据人物类别收集视频数据,将视频数据分解为若干张帧图像,并按时间顺序将若干张帧图像均分为互不交叉的n份帧图像集,利用该n份帧图像集构建子生成器和权重控制器训练用的样本数据;
利用样本数据中的n份帧图像集对应训练优化集成渲染生成器中对应的子生成器,并以样本数据中的表情向量为权重控制器的输入,利用权重控制器并依据表情向量自适应调整子生成器的输出权重,利用该输出权重来获取最终训练优化后的迁移模型。
2.根据权利要求1所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,迁移模型中的每个子生成器,将输入的表情向量和位置向量作为条件变量,利用神经辐射场网络沿观察视角对空间点进行查询采样,并结合背景图像通过立体渲染来获取二维图像输出。
3.根据权利要求1或2所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,第i个子生成器对空间中密度σi和颜色ci的查询采样过程表示为:(ci,σi)=Subgeneratori(x,d,δ,γ),i=1,2…,n,其中,x为坐标位置,d为观察方向,δ为表情向量,γ为可学习代码。
4.根据权利要求1所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,迁移模型中,针对输入的帧图像,首先利用Face2Face来捕捉输入帧图像特征,通过估计每帧头部刚性姿态和表情来获取包含位置和表情数据的空间映射,并利用高频函数将位置和表情数据映射到高维空间来获取位置向量和表情向量。
5.根据权利要求1所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,迁移模型中的权重控制器采用四层全连接网络,该四层全连接网络中的前三层全连接层分别接ReLU函数,最后一层全连接层连接softmax函数。
6.根据权利要求1所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,利用样本数据对子生成器进行训练优化中,利用分层体积采样方法对每个子生成器的神经辐射场网络依次进行第一阶段粗糙优化和第二阶段精细优化,其中,第一阶段粗糙优化中,对输入帧图像空间进行均匀查询采样,并在第二阶段精细优化中,使用全部样本数据并利用第一阶段粗糙优化的输出来调整神经辐射场网络参数。
8.根据权利要求1所述的基于集成神经辐射场的人脸视频表情迁移模型构建方法,其特征在于,根据人物类别收集视频数据中,选取单个视频中场景固定、身份不变的人脸图像作为构建样本数据的视频数据。
9.一种基于集成神经辐射场的人脸视频表情迁移方法,其特征在于,包含如下内容:
针对给定的目标人脸图像或视频数据,利用权利要求1所构建的人脸视频表情迁移模型来生成带有目标表情的人脸表情迁移图像或视频。
10.一种基于集成神经辐射场的人脸视频表情迁移系统,其特征在于,包含:模型构建模块和表情迁移模块,其中,
模型构建模块,用于利用权利要求1所述的方法来构建人脸视频表情迁移模型;表情迁移模块,用于利用构建的人脸视频表情迁移模型来生成给定目标人物图像或视频对应的带有目标表情的人脸表情迁移图像或视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999247.3A CN115409937A (zh) | 2022-08-19 | 2022-08-19 | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210999247.3A CN115409937A (zh) | 2022-08-19 | 2022-08-19 | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115409937A true CN115409937A (zh) | 2022-11-29 |
Family
ID=84161905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210999247.3A Pending CN115409937A (zh) | 2022-08-19 | 2022-08-19 | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409937A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115908766A (zh) * | 2023-02-20 | 2023-04-04 | 北京红棉小冰科技有限公司 | 三维虚拟人物图像的生成方法、装置及电子设备 |
CN115953513A (zh) * | 2022-12-30 | 2023-04-11 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
CN115984094A (zh) * | 2022-12-05 | 2023-04-18 | 中南大学 | 基于多损失约束视角一致性保持人脸安全生成方法及设备 |
CN116309983A (zh) * | 2023-01-09 | 2023-06-23 | 北京百度网讯科技有限公司 | 虚拟人物模型的训练方法、生成方法、装置和电子设备 |
CN116934936A (zh) * | 2023-09-19 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维场景风格迁移方法、装置、设备及存储介质 |
CN117953165A (zh) * | 2024-03-26 | 2024-04-30 | 合肥工业大学 | 基于神经辐射场的人脸新视图合成方法和系统 |
-
2022
- 2022-08-19 CN CN202210999247.3A patent/CN115409937A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984094A (zh) * | 2022-12-05 | 2023-04-18 | 中南大学 | 基于多损失约束视角一致性保持人脸安全生成方法及设备 |
CN115984094B (zh) * | 2022-12-05 | 2023-11-10 | 中南大学 | 基于多损失约束视角一致性保持人脸安全生成方法及设备 |
CN115953513A (zh) * | 2022-12-30 | 2023-04-11 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
CN115953513B (zh) * | 2022-12-30 | 2023-11-07 | 北京元起点信息科技有限公司 | 一种可驱动三维人头模型重建方法、装置、设备及介质 |
CN116309983A (zh) * | 2023-01-09 | 2023-06-23 | 北京百度网讯科技有限公司 | 虚拟人物模型的训练方法、生成方法、装置和电子设备 |
CN116309983B (zh) * | 2023-01-09 | 2024-04-09 | 北京百度网讯科技有限公司 | 虚拟人物模型的训练方法、生成方法、装置和电子设备 |
CN115908766A (zh) * | 2023-02-20 | 2023-04-04 | 北京红棉小冰科技有限公司 | 三维虚拟人物图像的生成方法、装置及电子设备 |
CN115908766B (zh) * | 2023-02-20 | 2023-05-26 | 北京红棉小冰科技有限公司 | 三维虚拟人物图像的生成方法、装置及电子设备 |
CN116934936A (zh) * | 2023-09-19 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维场景风格迁移方法、装置、设备及存储介质 |
CN117953165A (zh) * | 2024-03-26 | 2024-04-30 | 合肥工业大学 | 基于神经辐射场的人脸新视图合成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115409937A (zh) | 基于集成神经辐射场的人脸视频表情迁移模型构建方法及表情迁移方法和系统 | |
Gui et al. | A review on generative adversarial networks: Algorithms, theory, and applications | |
CN111489287B (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
He et al. | A powerful generative model using random weights for the deep image representation | |
CN106971414B (zh) | 一种基于深度循环神经网络算法的三维动画生成方法 | |
CN111445476B (zh) | 基于多模态无监督图像内容解耦的单目深度估计方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
WO2022160657A1 (zh) | 高清人脸替换视频生成方法及系统 | |
US20230290234A1 (en) | Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration | |
CN115914505B (zh) | 基于语音驱动数字人模型的视频生成方法及系统 | |
CN112614070B (zh) | 一种基于DefogNet的单幅图像去雾方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN115170559A (zh) | 基于多层级哈希编码的个性化人头神经辐射场基底表示与重建方法 | |
CN116071494A (zh) | 基于隐式神经函数的高保真三维人脸重建与生成方法 | |
CN111640172A (zh) | 一种基于生成对抗网络的姿态迁移方法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
WO2022222011A1 (zh) | 一种可驱动的隐式三维人体表示方法 | |
KR102562386B1 (ko) | 이미지 합성 시스템의 학습 방법 | |
CN117422829A (zh) | 一种基于神经辐射场的人脸图像合成优化方法 | |
CN116825127A (zh) | 基于神经场的语音驱动数字人生成方法 | |
CN116740212A (zh) | 基于生成对抗网络的姿势引导人体图像生成及面部优化方法 | |
CN117237521A (zh) | 语音驱动人脸生成模型构建方法、目标人说话视频生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |