CN115393480A - 基于动态神经纹理的说话人合成方法、装置和存储介质 - Google Patents
基于动态神经纹理的说话人合成方法、装置和存储介质 Download PDFInfo
- Publication number
- CN115393480A CN115393480A CN202210697540.4A CN202210697540A CN115393480A CN 115393480 A CN115393480 A CN 115393480A CN 202210697540 A CN202210697540 A CN 202210697540A CN 115393480 A CN115393480 A CN 115393480A
- Authority
- CN
- China
- Prior art keywords
- target person
- texture
- image
- grained
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本申请提供一种基于动态神经纹理的说话人合成方法、装置和存储介质,属于数据处理的技术领域。所述方法包括:获取目标人物的人脸图像和目标人物的表情序列;根据目标人物的人脸图像,估计目标人物的粗粒度神经纹理,其中,粗粒度神经纹理用于表征目标人物较为粗糙的的面部颜色信息;根据目标人物的表情序列与粗粒度神经纹理,估计目标人物的细粒度神经纹理,其中,细粒度神经纹理用于表征目标人物在不同表情下的面部纹理;根据目标人物的表情序列与细粒度神经纹理,生成前景图像序列;将目标人物的人脸图像中的人脸背景和前景图像序列进行合成,得到合成后的视频。本申请旨在增强说话人合成结果的表情表现力。
Description
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种基于动态神经纹理的说话人合成方法、装置和存储介质。
背景技术
近年来,随着深度学习技术的普及,说话人合成技术也随之快速发展,说话人合成在VR/AR、线上会议、游戏以及电影制作等领域都有非常重要的应用前景。说话人合成方法中包括小样本说话人合成方法,即根据大量人物及其中每个人物的少量图片训练模型,利用目标人物的少量图片和输入表情序列进行真实感合成。
虽然小样本说话人合成方法已经可以在任意人物上有较好的泛化能力,但是小样本说话人合成方法没有考虑当人物的表情动态变化时,面部纹理也会动态变化,即该方法在合成不同的表情时,表情相关的细节会被平滑掉,减弱了合成结果的表现力。
发明内容
本申请实施例提供一种基于动态神经纹理的说话人合成方法、装置和存储介质,旨在增强说话人合成结果的表情表现力。
第一方面,本申请实施例提供一种基于动态神经纹理的说话人合成方法,所述方法包括:
获取目标人物的人脸图像和所述目标人物的表情序列;
根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,其中,所述粗粒度神经纹理用于表征所述目标人物较为粗糙的的面部颜色信息;
根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,其中,所述细粒度神经纹理用于表征所述目标人物在不同表情下的面部纹理;
根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,其中,所述前景图像序列为不包含人脸背景的人脸图像的序列;
将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,包括:
根据所述目标人物的人脸图像,得到所述目标人物的RGB纹理;
将所述目标人物的RGB纹理输入预先训练的第一图像迁移模型中,通过所述第一图像迁移模型估计所述目标人物的粗粒度神经纹理。
可选地,根据所述目标人物的人脸图像,得到所述目标人物的RGB纹理,包括:
对所述目标人物的人脸图像进行三维人脸重建,得到三维重建结果;
对所述三维重建结果进行UV展开,得到所述目标人物的RGB纹理。
可选地,根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,包括:
根据所述目标人物的表情序列,计算所述目标人物的表情序列中每个表情与该目标人物的中性表情在UV空间下的偏置;
将所述目标人物的表情序列中每个表情与中性表情在UV空间下的偏置与所述粗粒度神经纹理进行拼接,得到拼接后的特征;
根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理。
可选地,根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理,包括:
将所述拼接后的特征输入预先训练的第二图像迁移模型中,通过所述第二图像迁移模型估计所述目标人物的细粒度神经纹理,其中,所述第二图像迁移模型采用残差网络。
可选地,根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,包括:
对所述目标人物的表情序列和所述目标人物的细粒度神经纹理进行UV纹理采样,得到隐层图像序列;
将所述隐层图像序列输入预先训练的第三图像迁移模型中,通过所述第三图像迁移模型对所述隐层图像序列进行渲染,得到所述前景图像序列。
可选地,将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频,包括:
将所述目标人物的人脸图像和所述前景图像序列输入预先训练的第四图像迁移模型中,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,所述方法还包括:
预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型;
其中,所述第一图像迁移模型用于估计所述目标人物的粗粒度神经纹理,所述第二图像迁移模型用于估计所述目标人物的细粒度神经纹理,所述第三图像迁移模型用于生成所述前景图像序列,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型的过程包括:
获取人脸训练数据集,对所述第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型进行联合训练,其中,联合训练为采用L1重建损失和感知损失进行的端到端的训练过程。
第二方面,本申请实施例提供一种基于动态神经纹理的说话人合成装置,所述装置包括:
获取模块,用于获取目标人物的人脸图像和所述目标人物的表情序列;
粗粒度纹理合成模块,用于根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,其中,所述粗粒度神经纹理用于表征所述目标人物较为粗糙的的面部颜色信息;
细粒度纹理合成模块,用于根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,其中,所述细粒度神经纹理用于表征所述目标人物在不同表情下的面部纹理;
神经渲染模块,用于根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,其中,所述前景图像序列为不包含人脸背景的人脸图像的序列;
合成模块,用于将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,所述粗粒度纹理合成模块包括:
RGB纹理生成单元,用于根据从待处理视频中获取得到的所述目标人物的任意一张人脸图像,得到所述目标人物的RGB纹理;
粗粒度神经纹理合成单元,用于将所述目标人物的RGB纹理输入预先训练的第一图像迁移模型中,通过所述第一图像迁移模型估计所述目标人物的粗粒度神经纹理。
可选地,所述RGB纹理生成单元包括:
三维重建子单元,用于对从待处理视频中获取得到的所述目标人物的任意一张人脸图像进行三维人脸重建,得到三维重建结果;
UV展开单元,用于对所述三维重建结果进行UV展开,得到所述目标人物的RGB纹理。
可选地,所述细粒度纹理合成模块包括:
偏置计算单元,用于根据从待处理视频中获取得到的所述目标人物的表情序列,计算所述目标人物的表情序列中每个表情与该目标人物自身的中性表情在UV空间下的偏置;
拼接单元,用于将所述目标人物的表情序列中每个表情与中性表情在UV空间下的偏置与所述粗粒度神经纹理进行拼接,得到拼接后的特征;
估计单元,用于根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理。
可选地,所述估计单元包括:
估计子单元,用于第二将所述拼接后的特征输入预先训练的第二图像迁移模型中,通过所述第二图像迁移模型估计所述目标人物的细粒度神经纹理,其中,所述第二图像迁移模型以所述拼接后的特征作为残差连接。
可选地,所述神经渲染模块包括:
采样单元,用于对所述目标人物的表情序列和所述目标人物的细粒度神经纹理进行UV纹理采样,得到隐层图像序列;
渲染单元,用于将所述隐层图像序列输入预先训练的第三图像迁移模型中,通过所述第三图像迁移模型对所述隐层图像序列进行渲染,得到所述前景图像序列。
可选地,所述合成模块包括:
合成单元,将所述目标人物的人脸图像和所述前景图像序列输入预先训练的第四图像迁移模型中,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,所述装置还包括:
训练模块,用于预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型;其中,所述第一图像迁移模型用于估计所述目标人物的粗粒度神经纹理,所述第二图像迁移模型用于估计所述目标人物的细粒度神经纹理,所述第三图像迁移模型用于生成所述前景图像序列,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
所述训练模块包括:
联合训练单元,用于获取人脸训练数据集,对所述第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型进行联合训练,其中,联合训练为采用L1重建损失和感知损失进行的端到端的训练过程。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例第一方面所述的基于动态神经纹理的说话人合成方法。
有益效果:
本方法通过获取目标人物的人脸图像和所述目标人物的表情序列;根据所述目标人物的人脸图像得到RGB纹理,然后根据RGB纹理估计目标人物的粗粒度神经纹理,再将目标人物的表情序列中的表情信息与粗粒度神经纹理集合,得到细粒度神经纹理;接着将目标人物的表情序列与所述细粒度神经纹理进行渲染生成前景图像序列,最后将所述目标人物的人脸图像中的背景和所述前景图像序列进行合成,得到合成后的视频。
本方法是可以应用于小样本场景下面部纹理动态建模,采用由粗粒度神经纹理到细粒度神经纹理的动态神经纹理的合成过程,在保障小样本合成能力的同时,还可以结合更多表情的细节,增强小样本说话人合成结果的表情表现力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的基于动态神经纹理的说话人合成方法的步骤流程图;
图2是本申请一实施例提出的基于动态神经纹理的说话人合成方法的整体流程图;
图3是本申请一实施例提供的基于动态神经纹理的说话人合成方法的合成结果示意图;
图4是本申请一实施例提出的基于动态神经纹理的说话人合成装置的功能模块图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
说话人合成在VR/AR、线上会议、游戏以及电影制作等领域都有非常重要的应用前景,随着深度学习技术的普及,说话人合成技术也随之快速发展,一般的说话人合成技术主要分为以下两类:
第一种:针对特定人物的说话人合成,即基于特定的目标人物的大量数据训练模型,使得训练完毕的模型以针对特定的人物的表情序列为输入,合成真实感脸像。
第二种:小样本说话人合成,即基于大量人物但每个人物的少量图片训练模型,训练完毕的模型以目标人物的少量图片和输入表情序列为输入,合成真实感的视频。
但是目前小样本说话人合成方法并没有考虑到人物的表情动态变化时,面部纹理也会动态变化,例如人在微笑时脸颊会出现法令纹,在皱眉时额头会出现皱纹,因此目前的小样本说话人合成方法在合成不同表情时,表情相关的细节会被平滑掉,进而得到的合成结果缺乏表现力。
虽然部分针对特定人物的说话人合成方法考虑了表情相关的动态纹理,可以合成极为逼真的效果,例如Jiaman Li等人提出的根据高精度扫描模型合成纹理的动态变化,以及Grassal等人提出的根据数分钟视频合成纹理的动态变化,但是特定人物的说话人合成方法在处理表情的动态纹理时,一般需要使用复杂的系统设置,如Lightstage系统,或者需要大量的数据,如数分钟单个人的视频,无法使用在小样本说话人合成的场景中。
即使现在也出现了建模动态纹理的方法,但是这种方法并不是在小样本的场景下展开的,建模动态纹理的方法需要每个目标人物大量的训练数据,或者复杂的硬件系统设置,很难在小样本场景下使用。
因此如何在小样本说话人合成方法中考虑到人物的表情细节或与表情相关的面部纹理的动态变化,以增强说话人合成结果的表现力是一个亟待解决的问题,基于此,本申请提出了一种基于动态神经纹理的说话人合成方法。
图1,示出了本申请实施例中的一种基于动态神经纹理的说话人合成方法的步骤流程图,图2示出了本申请实施例提供的一种基于动态神经纹理的说话人合成方法的整体流程图,所述方法具体可以包括以下步骤:
S101:获取目标人物的人脸图像和所述目标人物的表情序列。
获取待合成视频的目标人物的一张人脸图像以及目标人物的表情序列,人脸图像中不仅包括目标人物的面部信息,还可以包括目标人物的人脸背景信息;表情序列指的是表现了目标人物的表情动态变化的几帧图像。
S102:根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理。
估计所述目标人物的粗粒度神经纹理的过程如下:
首先,对所述目标人物的人脸图像进行三维人脸重建,包括目标人物的表情、姿态以及个体形状,得到三维重建结果,示例地,实际实施时可以基于参数化三维人脸模型3DMM联合捕捉目标人物的表情、姿态以及个体形状,本实施例中对三维人脸重建的方法并不做限制。
接着,对所述三维重建结果进行UV展开,得到所述目标人物的RGB纹理。
U和V指的是二维空间的水平轴和垂直轴,UV展开的目的是将三维网格转换为二维信息,以便可以在其周围包裹二维纹理,在对三维重建结果进行UV展开时,以目标人物的人脸图像为底图,即在人脸图像上对三维重建结果进行UV展开,得到目标人物的RGB纹理,RGB纹理指的是一张RGB图片,其描述了三维物体每个顶点的颜色信息,则目标人物的RGB纹理描述了目标人物的三维人脸的每个顶点的颜色信息。
最后,将所述目标人物的RGB纹理输入预先训练的第一图像迁移模型中,通过所述第一图像迁移模型估计所述目标人物的粗粒度神经纹理。
一般,纹理指的是一张描述三维物体每个顶点的属性的二维图片,而神经纹理是纹理的子集,具体指的是由卷积神经网络输出的描述三维物体的每个顶点的属性的隐式特征图。
本步骤中,通过将描述目标人物的三维人脸的每个顶点的颜色信息的目标人物的RGB纹理输入已经训练好的第一图像迁移模型中,可以得到描述有目标人物的三维人脸的每个顶点的属性的隐式特征图,即粗粒度神经纹理,由于此时还未引入目标人物的表情变化的动态纹理,因此所得到的粗粒度神经纹理主要表征了目标人物较为粗糙的面部颜色信息,示例地,粗粒度神经纹理可以是256*256的隐式特征图。
第一图像迁移模型是基于神经网络的图像迁移模型,所采用的神经网络的通道数(channel)的数量与得到的隐式特征图或者说粗粒度神经纹理的数量一致。
S103:根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理。
估计目标人物的细粒度神经纹理的过程如下:
首先,计算所述目标人物的表情序列中每个表情与该目标人物自身的中性表情的偏置,偏置指的是每个表情与中性表情的差值,然后对每个表情对应的偏置进行UV展开得到在UV空间下的偏置;其中,中性表情指的是目标人物在放松状态下闭嘴、眼睛目视前方的表情;中性表情可以是单独输入的表情,也可以是在表情序列筛选出的目标人物放松状态下闭嘴、眼睛目视前方的表情。
然后,将所述目标人物的表情序列中每个表情与中性表情在UV空间下的偏置与所述粗粒度神经纹理进行拼接,得到拼接后的特征,这里的拼接可以理解为将粗粒度神经纹理分别与每个表情对应的UV空间下的偏置进行叠加,即在粗粒度纹理上添加表情相关的纹理。
接着,根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理,在一种可行的实施方式中,可以将所述拼接后的特征输入预先训练的第二图像迁移模型中,通过所述第二图像迁移模型估计所述目标人物的细粒度神经纹理,所述细粒度神经纹理可以用于表征所述目标人物在不同表情下的面部纹理,即在所述细粒度神经纹理中表现了更加丰富的与表情相关的纹理,并且所述细粒度神经纹理也包括多个图像,多个图像的数量与表情序列中图像的数量相同。
所述第二图像迁移模型可以采用残差网络计算一个微小的变化,将第二图像迁移模型的输出与其输入的拼接后的特征进行相加,得到的即为细粒度神经纹理,采用残差网络可以使得得到的细粒度神经纹理的预测准确率更高。
S104:根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列。
生成前景图像序列的过程如下:
首先,对目标人物的表情序列进行光栅化,并生成光栅化后的表情序列的UV坐标;
然后,基于细粒度神经纹理和光栅化后的表情序列的UV坐标进行UV纹理采样,简单地说,即将细粒度纹理通过纹理贴图的方式贴在表情序列中,得到与表情序列对应的隐层图像序列,其中,每个隐层图像的每个像素包含了目标人物在各个表情下的颜色信息,隐层图像的通道数(channel)的数量与细粒度神经纹理保持一致,大小与输入的人脸图像保持一致。
最后,将所述隐层图像序列输入预先训练的第三图像迁移模型中,通过所述第三图像迁移模型对所述隐层图像序列进行渲染,得到所述前景图像序列;第三图像迁移模型是基于神经网络的模型,其作用是将隐层图像转换为RGB图像,即通过第三图像迁移模型得到的前景图像序列包括多个RGB图像,前景图像序列为不包含人脸背景的人脸图像序列。
S105:将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
在得到不包含人脸背景的前景图像序列后,将前景图像序列与人脸图像中的人脸背景进行合成,即可以得到既包含人脸表情又包含人脸背景的视频。
合成时可以将所述目标人物的人脸图像和所述前景图像序列输入预先训练的第四图像迁移模型中,所述第四图像迁移模型可以对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,输出合成后的视频。
本实施例中应用了四个基于神经网络的模型,分别为第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型;其中,所述第一图像迁移模型用于估计所述目标人物的粗粒度神经纹理,所述第二图像迁移模型用于估计所述目标人物的细粒度神经纹理,所述第三图像迁移模型用于生成所述前景图像序列,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
在一种实时方式中,这四个模型可以采用相同的网络结构,例如Pix2Pix(Image-to-Image Translation with Conditional Adversarial Nets)。
在预先训练四个模型时,可以对四个模型进行联合训练,即获取人脸训练数据集,对所述第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型进行联合训练,并且联合训练时采用L1重建损失和感知损失进行的端到端的训练;其中,L1重建损失指的是利用L1范数求差的损失函数,感知损失可以是《实时风格转换和超分辨率的感知损失》(Perceptual Losses for Real-Time Style Transfer and Super-Resolution)一文中提出的损失函数。
本申请为了在小样本场景下建模面部纹理的动态变化,合成有更丰富表情细节的说话人,根据所述目标人物的人脸图像得到RGB纹理,然后根据RGB纹理估计目标人物的粗粒度神经纹理,再将目标人物的表情序列中的表情信息与粗粒度神经纹理集合,得到细粒度神经纹理;接着将目标人物的表情序列与所述细粒度神经纹理进行渲染生成前景图像序列,最后将所述目标人物的人脸图像中的背景和所述前景图像序列进行合成,得到合成后的视频,相比与现有的小样本小样本说话人合成方法,可以显著地增强小样本说话人合成结果的表情表现力。
参照图3,示出了本申请实施例提供的基于动态神经纹理的说话人合成方法的合成结果示意图,图3中展示了使用本申请提供的基于动态神经纹理的说话人合成方法得到的合成效果,根据表情和人脸图像,通过合成由粗粒度到细粒度的动态神经纹理,得到的合成视频中的每张合成图像中人脸的表情更加细节,如图中人物张嘴时的出现的法令纹,皱眉头时的皱纹等细节。
并且本方法以目标人物的人脸图像,和目标人物的表情序列目标的表情序列为依据,经过处理后输出目标人物对应的视频,对不同的人物有很好的泛化能力。
参照图4,示出了本申请实施例提供的一种基于动态神经纹理的说话人合成装置的功能模块图,所述装置包括:
获取模块100,用于获取目标人物的人脸图像和所述目标人物的表情序列;
粗粒度纹理合成模块200,用于根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,其中,所述粗粒度神经纹理用于表征所述目标人物较为粗糙的的面部颜色信息;
细粒度纹理合成模块300,用于根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,其中,所述细粒度神经纹理用于表征所述目标人物在不同表情下的面部纹理;
神经渲染模块400,用于根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,其中,所述前景图像序列为不包含人脸背景的人脸图像的序列;
合成模块500,用于将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,所述粗粒度纹理合成模块包括:
RGB纹理生成单元,用于根据从待处理视频中获取得到的所述目标人物的任意一张人脸图像,得到所述目标人物的RGB纹理;
粗粒度神经纹理合成单元,用于将所述目标人物的RGB纹理输入预先训练的第一图像迁移模型中,通过所述第一图像迁移模型估计所述目标人物的粗粒度神经纹理。
可选地,所述RGB纹理生成单元包括:
三维重建子单元,用于对从待处理视频中获取得到的所述目标人物的任意一张人脸图像进行三维人脸重建,得到三维重建结果;
UV展开单元,用于对所述三维重建结果进行UV展开,得到所述目标人物的RGB纹理。
可选地,所述细粒度纹理合成模块包括:
偏置计算单元,用于根据从待处理视频中获取得到的所述目标人物的表情序列,计算所述目标人物的表情序列中每个表情与该目标人物自身的中性表情在UV空间下的偏置;
拼接单元,用于将所述目标人物的表情序列中每个表情与中性表情在UV空间下的偏置与所述粗粒度神经纹理进行拼接,得到拼接后的特征;
估计单元,用于根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理。
可选地,所述估计单元包括:
估计子单元,用于第二将所述拼接后的特征输入预先训练的第二图像迁移模型中,通过所述第二图像迁移模型估计所述目标人物的细粒度神经纹理,其中,所述第二图像迁移模型以所述拼接后的特征作为残差连接。
可选地,所述神经渲染模块包括:
采样单元,用于对所述目标人物的表情序列和所述目标人物的细粒度神经纹理进行UV纹理采样,得到隐层图像序列;
渲染单元,用于将所述隐层图像序列输入预先训练的第三图像迁移模型中,通过所述第三图像迁移模型对所述隐层图像序列进行渲染,得到所述前景图像序列。
可选地,所述合成模块包括:
合成单元,将所述目标人物的人脸图像和所述前景图像序列输入预先训练的第四图像迁移模型中,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
可选地,所述装置还包括:
训练模块,用于预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型;其中,所述第一图像迁移模型用于估计所述目标人物的粗粒度神经纹理,所述第二图像迁移模型用于估计所述目标人物的细粒度神经纹理,所述第三图像迁移模型用于生成所述前景图像序列,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
所述训练模块包括:
联合训练单元,用于获取人脸训练数据集,对所述第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型进行联合训练,其中,联合训练为采用L1重建损失和感知损失进行的端到端的训练过程。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例所述的基于动态神经纹理的说话人合成方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于动态神经纹理的说话人合成方法,其特征在于,所述方法包括:
获取目标人物的人脸图像和所述目标人物的表情序列;
根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,其中,所述粗粒度神经纹理用于表征所述目标人物较为粗糙的的面部颜色信息;
根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,其中,所述细粒度神经纹理用于表征所述目标人物在不同表情下的面部纹理;
根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,其中,所述前景图像序列为不包含人脸背景的人脸图像的序列;
将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
2.根据权利要求1所述的方法,其特征在于,根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,包括:
根据所述目标人物的人脸图像,得到所述目标人物的RGB纹理;
将所述目标人物的RGB纹理输入预先训练的第一图像迁移模型中,通过所述第一图像迁移模型估计所述目标人物的粗粒度神经纹理。
3.根据权利要求2所述的方法,其特征在于,根据所述目标人物的人脸图像,得到所述目标人物的RGB纹理,包括:
对所述目标人物的人脸图像进行三维人脸重建,得到三维重建结果;
对所述三维重建结果进行UV展开,得到所述目标人物的RGB纹理。
4.根据权利要求1所述的方法,其特征在于,根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,包括:
根据所述目标人物的表情序列,计算所述目标人物的表情序列中每个表情与该目标人物自身的中性表情在UV空间下的偏置;
将所述目标人物的表情序列中每个表情与中性表情在UV空间下的偏置与所述粗粒度神经纹理进行拼接,得到拼接后的特征;
根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理。
5.根据权利要求4所述的方法,其特征在于,根据所述拼接后的特征,估计所述目标人物的细粒度神经纹理,包括:
将所述拼接后的特征输入预先训练的第二图像迁移模型中,通过所述第二图像迁移模型估计所述目标人物的细粒度神经纹理,其中,所述第二图像迁移模型采用残差网络。
6.根据权利要求1所述的方法,其特征在于,根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,包括:
对所述目标人物的表情序列和所述目标人物的细粒度神经纹理进行UV纹理采样,得到隐层图像序列;
将所述隐层图像序列输入预先训练的第三图像迁移模型中,通过所述第三图像迁移模型对所述隐层图像序列进行渲染,得到所述前景图像序列。
7.根据权利要求1所述的方法,其特征在于,将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频,包括:
将所述目标人物的人脸图像和所述前景图像序列输入预先训练的第四图像迁移模型中,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型;
其中,所述第一图像迁移模型用于估计所述目标人物的粗粒度神经纹理,所述第二图像迁移模型用于估计所述目标人物的细粒度神经纹理,所述第三图像迁移模型用于生成所述前景图像序列,所述第四图像迁移模型用于对所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频;
预先训练第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型的过程包括:
获取人脸训练数据集,对所述第一图像迁移模型、第二图像迁移模型、第三图像迁移模型以及第四图像迁移模型进行联合训练,其中,联合训练为采用L1重建损失和感知损失进行的端到端的训练过程。
9.一种基于动态神经纹理的说话人合成装置,其特征在于,所述装置包括:
获取模块,用于获取目标人物的人脸图像和所述目标人物的表情序列;
粗粒度纹理合成模块,用于根据所述目标人物的人脸图像,估计所述目标人物的粗粒度神经纹理,其中,所述粗粒度神经纹理用于表征所述目标人物较为粗糙的的面部颜色信息;
细粒度纹理合成模块,用于根据所述目标人物的表情序列与所述粗粒度神经纹理,估计所述目标人物的细粒度神经纹理,其中,所述细粒度神经纹理用于表征所述目标人物在不同表情下的面部纹理;
神经渲染模块,用于根据所述目标人物的表情序列与所述细粒度神经纹理,生成前景图像序列,其中,所述前景图像序列为不包含人脸背景的人脸图像的序列;
合成模块,用于将所述目标人物的人脸图像中的人脸背景和所述前景图像序列进行合成,得到合成后的视频。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于动态神经纹理的说话人合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697540.4A CN115393480A (zh) | 2022-06-20 | 2022-06-20 | 基于动态神经纹理的说话人合成方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697540.4A CN115393480A (zh) | 2022-06-20 | 2022-06-20 | 基于动态神经纹理的说话人合成方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393480A true CN115393480A (zh) | 2022-11-25 |
Family
ID=84117366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210697540.4A Pending CN115393480A (zh) | 2022-06-20 | 2022-06-20 | 基于动态神经纹理的说话人合成方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393480A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994966A (zh) * | 2023-03-22 | 2023-04-21 | 北京红棉小冰科技有限公司 | 多视角图像生成方法、装置、可读存储介质及电子设备 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
-
2022
- 2022-06-20 CN CN202210697540.4A patent/CN115393480A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994966A (zh) * | 2023-03-22 | 2023-04-21 | 北京红棉小冰科技有限公司 | 多视角图像生成方法、装置、可读存储介质及电子设备 |
CN117593442A (zh) * | 2023-11-28 | 2024-02-23 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
CN117593442B (zh) * | 2023-11-28 | 2024-05-03 | 拓元(广州)智慧科技有限公司 | 一种基于多阶段细粒度渲染的人像生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255831B (zh) | 基于多任务学习的单视图人脸三维重建及纹理生成的方法 | |
CN111489287B (zh) | 图像转换方法、装置、计算机设备和存储介质 | |
CN110390704B (zh) | 图像处理方法、装置、终端设备及存储介质 | |
US10540817B2 (en) | System and method for creating a full head 3D morphable model | |
CN110490896B (zh) | 一种视频帧图像处理方法和装置 | |
CN110874557A (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
CN115393480A (zh) | 基于动态神经纹理的说话人合成方法、装置和存储介质 | |
Yu et al. | A video, text, and speech-driven realistic 3-D virtual head for human–machine interface | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN110853119B (zh) | 一种鲁棒的基于参考图片的妆容迁移方法 | |
CN115908753B (zh) | 一种全身人体网格表面重建方法及相关装置 | |
CN114782596A (zh) | 语音驱动的人脸动画生成方法、装置、设备及存储介质 | |
CN116071494A (zh) | 基于隐式神经函数的高保真三维人脸重建与生成方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN116997933A (zh) | 用于构造面部位置图的方法和系统 | |
CN114863533A (zh) | 数字人生成方法和装置及存储介质 | |
CN111640172A (zh) | 一种基于生成对抗网络的姿态迁移方法 | |
KR20230110787A (ko) | 개인화된 3d 머리 및 얼굴 모델들을 형성하기 위한 방법들 및 시스템들 | |
WO2022060229A1 (en) | Systems and methods for generating a skull surface for computer animation | |
Paier et al. | Example-based facial animation of virtual reality avatars using auto-regressive neural networks | |
CN114730480A (zh) | 基于体积捕获和网格跟踪的机器学习 | |
CN116863044A (zh) | 人脸模型的生成方法、装置、电子设备及可读存储介质 | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
CN115082636A (zh) | 基于混合高斯网络的单图像三维重建方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |