CN118096961A - 图像处理方法和装置 - Google Patents
图像处理方法和装置 Download PDFInfo
- Publication number
- CN118096961A CN118096961A CN202410330050.XA CN202410330050A CN118096961A CN 118096961 A CN118096961 A CN 118096961A CN 202410330050 A CN202410330050 A CN 202410330050A CN 118096961 A CN118096961 A CN 118096961A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- identity
- facial
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 230000001815 facial effect Effects 0.000 claims abstract description 145
- 238000012545 processing Methods 0.000 claims abstract description 82
- 238000009877 rendering Methods 0.000 claims abstract description 22
- 238000003860 storage Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 231
- 239000013598 vector Substances 0.000 claims description 106
- 238000000034 method Methods 0.000 claims description 68
- 230000014509 gene expression Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 18
- 238000005286 illumination Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000003707 image sharpening Methods 0.000 claims description 3
- 238000003706 image smoothing Methods 0.000 claims description 3
- 238000009792 diffusion process Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 210000000887 face Anatomy 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004321 preservation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
- 210000000216 zygoma Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Architecture (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Processing Or Creating Images (AREA)
Abstract
本公开提出了一种图像处理方法、图像处理装置和设备、计算机可读存储介质以及计算机程序产品。图像处理方法包括:接收源图像和驱动因子,驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;从源图像中提取第一面部参数集,并基于驱动因子生成第二面部参数集;基于第一面部参数集和第二面部参数集生成组合面部参数集;利用组合面部参数集进行图像渲染以生成渲染图像;以及基于渲染图像生成重演图像,该重演图像至少包括来自源图像的面部身份信息和来自驱动因子的面部运动信息。
Description
技术领域
本公开涉及人工智能技术领域,并且更具体地,涉及一种图像处理方法、图像处理装置和设备、计算机可读存储介质以及计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,计算机视觉技术(Computer Vision,CV)试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维(3D)物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
面部重演(Face Reenactment)是计算机视觉技术的一个重要分支,其通过使用驱动面部(或称为目标面部)的诸如姿态、表情、注视等的运动信息来制作源面部图像的动画,所生成的动画可以保留源面部图像中的对象身份信息,同时又能融合驱动面部的运动信息。面部重演技术在游戏、影音、虚拟现实应用等领域具有广泛应用,如何生成高质量的面部重演图像也成为近年来计算机视觉技术领域的研究热点。
发明内容
本公开提出了一种图像处理方法、图像处理装置和设备、计算机可读存储介质以及计算机程序产品。
根据本公开实施例的一个方面,提供了一种图像处理方法,包括:接收源图像和驱动因子,所述驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;从所述源图像中提取第一面部参数集,并基于所述驱动因子生成第二面部参数集;基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集;利用所述组合面部参数集进行图像渲染以生成渲染图像;以及基于所述渲染图像生成重演图像,所述重演图像至少包括来自所述源图像的面部身份信息和来自所述驱动因子的面部运动信息。
根据本公开实施例的示例,其中,在所述驱动因子为驱动文本时,基于所述驱动因子生成第二面部参数集包括:利用文本到语音模型基于所述驱动文本生成合成音频;基于所述合成音频生成所述第二面部参数集。
根据本公开实施例的示例,其中,基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集包括:通过组合所述第一面部参数集的子集和所述第二面部参数的子集来生成所述组合面部参数集,其中所述第一面部参数集的子集包括身份参数、纹理参数和光照参数,并且所述第二面部参数的子集包括表情参数和姿态参数。
根据本公开实施例的示例,其中,在所述驱动因子为驱动图像时,所述重演图像包括来自所述源图像的面部身份信息、纹理信息和光照信息以及来自所述驱动图像的表情信息、姿态信息和注视信息。
根据本公开实施例的示例,其中,基于所述渲染图像生成重演图像包括:基于所述渲染图像生成第一特征向量,第一特征向量表征所述渲染图像的特征且用于生成所述重演图像;基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量,所述第二特征向量用于在生成所述重演图像的过程中调整所述重演图像的特征;以及基于所述第一特征向量和所述第二特征向量生成所述重演图像。
根据本公开实施例的示例,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:从所述驱动因子中提取表征注视信息的注视令牌,并基于所述组合面部参数集生成面部参数令牌;以及至少基于所述注视令牌和所述面部参数令牌生成所述第二特征向量。
根据本公开实施例的示例,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:从所述源图像中提取表征纹理信息的纹理令牌,并基于所述组合面部参数集生成面部参数令牌;以及至少基于所述纹理令牌和所述面部参数令牌生成所述第二特征向量。
根据本公开实施例的示例,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:从所述源图像中提取表征身份信息的身份令牌,并基于所述组合面部参数集生成面部参数令牌;以及至少基于所述身份令牌和所述面部参数令牌生成所述第二特征向量。
根据本公开实施例的示例,其中,所述图像处理方法是利用图像处理模型实现的,所述图像处理模型包括第一模块和第二模块,所述第二模块是通过以下方法训练的:获取包括训练源图像集和训练驱动因子集的训练数据集;对于从所述训练数据集中选择的训练源图像和训练驱动因子:由所述第一模块从所述训练源图像中提取第一训练面部参数集,并基于所述训练驱动因子生成第二训练面部参数集;由所述第一模块基于所述第一训练面部参数集和所述第二训练面部参数集生成训练组合面部参数集;由所述第一模块利用所述训练组合面部参数集进行图像渲染以生成训练渲染图像;以及由所述第二模块基于所述训练渲染图像生成训练重演图像,并至少基于生成所述训练重演图像过程中产生的损失对所述第二模块进行训练。
根据本公开实施例的示例,其中,所述第二模块包括编码模块和预测模块,并且其中,至少基于生成所述训练重演图像过程中产生的损失对所述第二模块进行训练包括:基于所述训练渲染图像生成第一训练特征向量;由所述编码模块基于所述训练源图像、所述训练驱动因子和所述训练组合面部参数集中的至少一者生成第二训练特征向量;基于所述第一训练特征向量和所述第二训练特征向量生成预测噪声向量,所述预测噪声向量用于生成所述训练重演图像;以及利用至少基于所述预测噪声向量的预测噪声损失和至少基于所述训练源图像的身份对比损失对所述第二模块进行训练。
根据本公开实施例的示例,其中,由所述编码模块基于所述训练源图像、所述训练驱动因子和所述训练组合面部参数集中的至少一者生成第二训练特征向量包括:从所述训练源图像提取表征纹理信息的纹理令牌和表征身份信息的身份令牌,并基于所述训练组合面部参数集生成面部参数令牌;以及至少基于所述纹理令牌、所述身份令牌和所述面部参数令牌生成所述第二训练特征向量。
根据本公开实施例的示例,其中,至少基于所述纹理令牌、所述身份令牌和所述面部参数令牌生成所述第二训练特征向量包括:从所述训练驱动因子对应的训练图像提取表征注视信息的注视令牌;以及组合所述纹理令牌、所述身份令牌、所述面部参数令牌和所述注视令牌以生成所述第二训练特征向量。
根据本公开实施例的示例,其中,所述第二训练特征向量是通过给所述训练渲染图像对应的图像特征向量添加随机噪声向量生成的,并且其中,所述预测噪声损失是基于所述随机噪声向量和所述预测噪声向量确定的。
根据本公开实施例的示例,其中,所述身份对比损失是通过以下方式确定的:从所述训练源图像集中的每个训练源图像提取身份令牌,以生成第一身份令牌集;对所述训练源图像集中的每个训练源图像进行图像转换处理以生成经转换源图像集,并从所述经转换源图像集中的每个经转换源图像提取身份令牌以生成第二身份令牌集;以及对于每个训练源图像,至少基于所述第一身份令牌集和所述第二身份令牌集确定所述身份对比损失。
根据本公开实施例的示例,其中,对于每个训练源图像,至少基于所述第一身份令牌集和所述第二身份令牌集确定所述身份对比损失包括:从所述第一身份令牌集中选择与所述训练源图像的身份对应的第一身份令牌;从所述第二身份令牌集中选择与所述训练源图像的身份对应的第二身份令牌;从所述第一身份令牌集或所述第二身份令牌集中选择与所述训练源图像的身份不同的第三身份令牌;以及基于所述第一身份令牌、所述第二身份令牌和所述第三身份令牌确定所述身份对比损失。
根据本公开实施例的示例,其中,所述图像转换处理包括灰度变换、色彩调节、边缘增强、图像平滑、图像模糊、图像锐化中的一个或多个。
根据本公开实施例的另一方面,提供了一种图像处理装置,所述装置包括:接收单元,被配置为接收源图像和驱动因子,所述驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;第一处理单元,被配置为从所述源图像中提取第一面部参数集,并基于所述驱动因子生成第二面部参数集,基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集,并利用所述组合面部参数集进行图像渲染以生成渲染图像;以及第二处理单元,被配置为基于所述渲染图像生成重演图像,所述重演图像至少包括来自所述源图像的面部身份信息和来自所述驱动因子的面部运动信息。
根据本公开实施例的另一方面,提供了一种图像处理设备,包括:一个或多个处理器;以及一个或多个存储器,其中所述存储器中存储有计算机可读指令,所述计算机可读指令在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行上述各个方面中所述的方法。
根据本公开实施例的另一方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,其中包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如本公开上述各个方面中任一项所述的方法。
利用根据本公开上述各个方面的图像处理方法、图像处理装置和设备、计算机可读存储介质以及计算机程序产品,能够接收文本、图像、视频、音频等不同种类的驱动输入,实现多模态的面部重演;并且所生成的重演图像保真度高、运动精度高且具有较强的身份保持能力,其中既较好地保持了源图像的身份、纹理、光照等信息,又能精确还原来自驱动因子的姿势、表情、注视方向等运动信息。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本公开实施例的图像处理系统的示例性场景图。
图2示出了根据本公开实施例的图像处理方法的流程图。
图3A示出了用于实现根据本公开实施例的图像处理方法的图像处理模型的基本框架的示例。
图3B示出了用于实现根据本公开实施例的图像处理方法的图像处理模型的基本框架的另一示例。
图4示出了根据本公开实施例的图像处理模型的第二模块的训练方法的流程图。
图5示出了根据本公开实施例的示例的图像处理模型的系统框架。
图6示出了根据本公开实施例的示例的身份对比损失的示意图。
图7示出了根据本公开实施例的图像处理装置的结构示意图。
图8示出了根据本公开实施例的示例性计算设备的架构的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
如本公开实施例和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
在本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
此外,本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作叠加到这些过程中,或从这些过程移除某一步或数步操作。
面部重演(Face Reenactment)通过使用驱动面部(或称为目标面部)的诸如姿态、表情、注视等的运动信息来制作源面部图像的动画,所生成的动画可以保留源面部图像中的对象身份信息,同时又能融合驱动面部的运动信息。根据为源面部图像提供运动信息的驱动因子的种类,目前的面部重演技术可以分为图像驱动、视频驱动、音频驱动和文本驱动的面部重演。
图像驱动和视频驱动的面部重演本质上都是采用图像(或图像帧)作为驱动输入,其方法可以大致分为基于扭曲(warping)的方法和基于三维可变形模型(3DMM)的方法。基于扭曲的方法通常提取关键点或区域对来估计运动场,并通过在特征图上执行扭曲来传递运动,但是它们或者在数据集分布方面存在局限性,或者在处理较大的运动变化时会产生模糊和失真的结果,或者在样本质量和身份保持方面仍然存在不足。基于3DMM的方法使用来自3DMM的面部重建系数或渲染图像作为运动控制条件,由于3DMM系数固有的解耦特性,基于3DMM的方法可以自由控制表情和姿态,但它缺乏对头发、牙齿和眼球运动的参考,并且其粗糙的面部纹理导致生成的输出图像不理想。
音频驱动的面部重演采用音频作为驱动输入,旨在从音频中提取运动并将其应用于给定的源面部图像。最近一些音频驱动方法也采用了3DMM作为中间表示,通过从音频中学习3DMM模型的3D运动系数,展示了强大的泛化能力。然而,这些方法仍然难以适应较大的运动变化,并且往往会产生模糊的结果。文本驱动的面部重演可以直接以文本作为驱动输入,其可以通过文本到语音(TTS)技术将文本转换为音频,再进行音频驱动的面部重演,因而同样具有音频驱动方法的上述缺陷。
总的来说,以上现有技术主要存在两方面的问题:1)运动控制方面,虽然一些方法采用三维渲染来提供精确的空间参考,但单个图像中不同属性的相互耦合使得精细控制面部表情和其他属性仍然具有难度;2)身份保持方面,现有方法一般利用全局潜在代码(通过可学习的编码器或预训练的人脸识别模型提取)来表示身份,但这些全局潜在代码的大量压缩导致外观信息丢失严重,从而限制了它们实现从实域到潜在空间的精确映射的有效性。
针对以上问题,本公开提供了一种图像处理方法,能够实现图像驱动、视频驱动、音频驱动和文本驱动的多模态面部重演,并且所生成的重演图像的保真度高、运动精度高且具有较强的身份保持能力。
图1示出了根据本公开实施例的图像处理系统的示例性场景图。如图1所示,图像处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。
用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是,事实上,用户终端110可以是能够执行数据处理的任何其他类型的电子设备,其可以包括但不限于诸如台式计算机、智能电视等的固定终端,诸如智能手机、平板电脑、便携式计算机、手持设备等的移动终端,或者它们的任意组合,本公开实施例对此不作具体限制。
根据本公开实施例的用户终端110可以用于接收驱动输入和源图像输入,并利用本公开提供的图像处理方法来生成重演图像。在一些实施例中,可以利用用户终端110的处理单元执行本公开提供的图像处理方法。在一些实现方式中,用户终端110可以利用用户终端内置的应用程序执行本公开提供的图像处理方法。在另一些实现方式中,用户终端110可以通过调用用户终端外部存储的应用程序执行本公开提供的图像处理方法。
在另一些实施例中,用户终端110将接收的驱动输入和源图像输入提示经由网络120发送至服务器130,并由服务器130执行图像处理方法。在一些实现方式中,服务器130可以利用服务器内置的应用程序执行图像处理方法。在另一些实现方式中,服务器130可以通过调用服务器外部存储的应用程序来执行图像处理方法。
网络120可以是单个网络,或至少两个不同网络的组合。例如,网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。服务器130可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、定位服务以及大数据和人工智能平台等基础云计算服务的云服务器,本公开实施例对此不作具体限制。
数据库140可以泛指具有存储功能的设备。数据库140主要用于存储用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的,或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备仅列举了一些示例,该系统可以使用的存储设备并不局限于此。数据库140可以经由网络120与服务器130或其一部分相互连接或通信,或直接与服务器130相互连接或通信,或是上述两种方式的结合。
下面参照图2至图3B描述根据本公开实施例的图像处理方法。图2示出了根据本公开实施例的图像处理方法200的流程图。如上所述,图像处理方法200可以由用户终端或者服务器执行,本公开实施例对此不做具体限制。图3A示出了用于实现根据本公开实施例的图像处理方法的图像处理模型300的基本框架的示例,并且图3B示出了用于实现根据本公开实施例的图像处理方法的图像处理模型的基本框架的另一示例,其中图像处理模型300可以包括第一模块310和第二模块320,如下文进一步详细描述的。
在步骤S210中,接收源图像和驱动因子。其中,源图像是要进行处理以使其体现不同的姿态、表情和注视信息(可称为运动信息)的图像并且其中包含面部区域(例如人脸、动物面部等等),驱动因子则是用于为源图像提供运动信息的因子。在本公开实施例中,驱动因子可以包括驱动文本、驱动图像、驱动音频、驱动视频等中的至少一个,本公开实施例对此不做具体限制。源图像和驱动因子可以是由用户输入的。例如,用户可以输入包含面部的源图像和驱动图像,并希望在源图像的面部上重演驱动图像中的面部的姿态、表情等运动信息。又例如,用户可以输入包含面部的源图像,并且输入驱动文本“面向左方微笑”,以希望源图像中的面部能够重演面向左方微笑”的动作。
在步骤S220中,可以从源图像中提取第一面部参数集,并基于驱动因子生成第二面部参数集。第一面部参数集和第二面部参数集包括多个用于表示图像中包含的面部特性的参数。例如姿态参数、表情参数、纹理参数、光照参数、身份参数等等,其中身份参数表示图像中所包括的面部所属的身份信息,例如姓名、年龄、性别等。在本公开实施例中,例如可以采用三维可变形模型(3DMM)系数来表示面部参数集,但本公开实施例不限于此,也可以采用其他面部模型。3DMM的基本原理是将人脸表示为参数化的模型,用固定的点数来表示人脸,通过调整不同参数的值,可以生成不同形状和纹理的人脸模型。3DMM参数包括姿态参数、表情参数、纹理参数、光照参数和身份参数,并且参数之间是彼此解耦的,使其更适合于自由地控制重演图像的表情和姿态。
给定包含面部的任意图像I,可以得到基于参数的面部描述符P:
(1)
其中,为用于从图像中提取面部参数的函数,α为身份参数,β为表情参数,δ为纹理参数,γ为光照参数,并且ρ为姿态参数。
可以基于上式(1),从源图像I S 中提取得到第一面部参数集P1={α S ,β S ,δ S ,γ S ,ρ S }。在驱动因子为驱动图像或驱动视频的情况下,可以基于上式(1)从驱动图像或图像帧I D 中提取得到第二面部参数集P2={α D ,β D ,δ D ,γ D ,ρ D }。
在驱动因子为驱动音频时,可以基于驱动音频来生成第二面部参数集,例如可以利用音频到系数模型(Audio2Coeff)来从驱动音频生成第二面部参数集,本公开实施例对此不做具体限制,也可以采用其他适当的模型来实现此操作。在驱动因子为驱动文本时,可以采用文本到语音(TTS)技术将驱动文本转换为合成音频,进而基于该合成音频来生成第二面部参数集。
如图3A所示,将接收的源图像和驱动因子分别输入图像生成模型300的第一模块310的参数生成模块311,并分别输出第一面部参数集P1和第二面部参数集P2。接下来,在步骤S230中并且如图3A所示,基于第一面部参数集和第二面部参数集生成组合面部参数集Pmix。具体地,通过组合第一面部参数集的子集和第二面部参数集的子集来生成组合面部参数集,其中第一面部参数集的子集可以包括身份参数、纹理参数和光照参数,并且第二面部参数集的子集可以包括表情参数和姿态参数。这一过程可以表示为:
(2)
其中,I S 为源图像,I D 为驱动图像或图像帧,为用于从图像中提取面部参数的函数,Mix()为用于组合面部参数的函数,Pmix为所生成的组合面部参数集。也就是说,由来自源图像的身份参数α S 、纹理参数δ S 、光照参数γ S 和来自驱动因子的表情参数β D 、姿态参数ρ D 构成了组合面部参数集。
在步骤S240中,利用组合面部参数集进行图像渲染以生成渲染图像。如图3A所示,图像处理模型300的第一模块310还可以包括渲染模块312,其可以对输入的组合面部参数集Pmix进行图像渲染以生成渲染图像。渲染模块312例如可以采用3DMM模型的渲染器来实现,但本公开实施例不限于此,也可以采用其他类似的三维可变形模型来实现图像渲染,例如FLAME等等。3DMM模型的渲染器能够采用3DMM参数来生成重建的三维人脸,从任意角度截取可以获得二维渲染图像。
在步骤S250中,可以基于渲染图像生成重演图像,其中重演图像也可以称为面部重演图像、重建图像、经处理图像等等。重演图像至少可以包括来自源图像的面部身份信息和来自驱动因子的面部运动信息,换句话说,重演图像中保留了源图像所包含的面部的身份信息,同时融入了驱动因子提供的面部运动信息。例如,在驱动因子为驱动图像时,重演图像可以包括源图像的面部身份信息、纹理信息和光照信息以及驱动图像提供的表情信息、姿态信息和注视信息。也就是说,在重演图像中保留了源图像的面部身份、纹理和光照,同时还原了驱动图像中的面部上的表情、姿态和注视方向,因此产生了在一张脸上用另一张脸的表情和动作进行说话、演唱等特殊效果。
如图3A所示,可以利用图像处理模型300的第二模块320来基于渲染图像生成重演图像。在本公开实施例中,第二模块320可以基于预训练模型来构建。预训练模型(Pre-training model)是指具有大参量的深度神经网络(Deep neural network,DNN),其在海量未标记的数据上进行训练以学习通用的特征表示,并可利用微调(fine tune)、参数高效微调(PEFT)、提示微调(prompt-tuning)等技术使其适用于各种下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。扩散模型(Diffusion Model)是一种经典的从文本生成图像的预训练模型。一般来说,扩散模型可以包括前向过程和反向过程,其中前向过程给图片添加随机噪声,反向过程则从添加噪声的图片中还原图片。为了解决扩散模型的速度瓶颈,潜在扩散模型(Latent DiffusionModel,LDM)将像素空间上的图像处理转换到维度较小的潜空间上,从而大幅提升训练效率,其典型示例如稳定扩散(Stable Diffusion)模型。在本公开实施例中,例如可以基于稳定扩散模型来构建图像处理模型300的第二模块320,从而可以充分利用预训练模型的先验知识。预训练模型的另一经典示例是对比语言-图像预训练(Contrastive Language-ImagePre-training,CLIP)模型。CLIP模型采用大规模的文本-图像对(即图像和其对应的文本描述)进行预训练,以学习文本和图像的匹配关系,其能够从输入文本生成图像,也能够从输入图像生成文本。
具体地,如图3B所示,第二模块320可以包括编码模块321和预测模块322。编码模块321和预测模块322可以基于预训练模型来构建,例如编码模块321可以基于预训练的CLIP模型来构建,并且预测模块322可以基于预训练的扩散模型来构建,但本公开实施例不限于此,也可以采用任意其他适当的预训练模型。
在步骤S250中基于渲染图像生成重演图像时,可以首先基于渲染图像生成第一特征向量,该第一特征向量可以表征渲染图像的特征且可以用于生成重演图像,例如,第一特征向量可以用于生成重演图像的粗糙的空间特征。例如,可以从渲染图像中提取图像特征向量,其具有渲染图像的空间信息,例如可以表征人脸的大致轮廓。在预测模块322采用扩散模型来构建时,可以进一步通过给图像特征向量添加随机噪声向量来生成第一特征向量。另一方面,编码模块321可以基于源图像、驱动因子和面部参数集中的至少一者来生成第二特征向量,该第二特征向量用于在生成所述重演图像的过程中调整所述重演图像的特征,例如可以用于生成重演图像的细粒度的外观特征。之后,预测模块322可以基于该第一特征向量和第二特征向量来生成重演图像。例如,预测模块322可以以第二特征向量为条件输入,利用扩散模型对第一特征向量进行去噪操作来生成重演图像。
根据本公开实施例的示例,编码模块321可以从源图像中提取表征图像纹理信息的纹理令牌,并基于组合面部参数集生成面部参数令牌,然后至少基于该纹理令牌和面部参数令牌来生成第二特征向量。例如,可以通过向量拼接的方式来组合纹理令牌和面部参数令牌以生成第二特征向量。以此方式,可以在重演图像中引入来自源图像的图像纹理信息。编码模块321例如可以利用CLIP模型的图像编码功能来从源图像中提取纹理令牌,本公开实施例对此不做具体限制。
根据本公开实施例的另一示例,编码模块321还可以从源图像中提取表征源图像所包含的对象的身份信息的身份令牌,并至少基于该身份令牌和面部参数令牌来生成第二特征向量。例如,可以通过向量拼接的方式来组合身份令牌和面部参数令牌以生成第二特征向量。以此方式,可以在重演图像中保持源图像的身份信息。编码模块321例如可以利用CLIP模型的图像编码功能来从源图像中提取身份令牌,本公开实施例对此不做具体限制。
根据本公开实施例的另一示例,为了更精细地控制重演图像的运动细节,例如眼睛的运动信息,可以进一步地进行运动细化。具体地,编码模块321可以从驱动因子中提取表征注视信息的注视令牌。例如,在驱动因子是驱动图像时,可以从驱动图像中提取表征驱动图像所包含的人物对象的注视信息,例如注视方向、注视时间等等。之后,至少基于该注视令牌和面部参数令牌来生成第二特征向量。例如,可以通过向量拼接的方式来组合注视令牌和面部参数令牌以生成第二特征向量。以此方式,可以在重演图像中引入来自驱动因子的注视信息,从而更精确地还原眼睛的精细运动细节。编码模块321例如可以采用现有方法来从驱动因子中提取注视令牌,本公开实施例对此不做具体限制。
根据本公开实施例的另一示例,可以通过组合纹理令牌、身份令牌、注视令牌和面部参数令牌来生成第二特征向量,例如,将纹理令牌、身份令牌、注视令牌和面部参数令牌以向量拼接的方式组合在一起,该第二特征向量与第一特征向量一起用于生成最终的重演图像。从而,在本公开实施例中,在通过以上步骤S230组合来自源图像和驱动图像的面部参数集来实现在重演图像中保留源图像的面部身份信息、纹理信息和光照信息以及来自驱动因子的表情信息和姿态信息的情况下,进一步实现了重演图像的纹理细化、运动细化和身份保持。
下面将参照图4和图5来描述根据本公开实施例的图像处理模型的第二模块的训练方法。图4示出了根据本公开实施例的图像处理模型的第二模块的训练方法400的流程图。图5示出了根据本公开实施例的示例的图像处理模型500的系统框架。在图5中,图像处理模型500被示出为包括第一模块510和第二模块520,其可以分别对应于上文参照图3A至图3B描述的第一模块310和第二模块320。另外,在图5中,第二模块520被示出为包括编码模块521和预测模块522,其可以分别对应于上文参照图3A至图3B描述的编码模块321和预测模块322。
在步骤S410中,获取包括训练源图像集和训练驱动因子集的训练数据集。训练驱动因子集可以包括训练驱动文本、训练驱动图像、训练驱动视频、训练驱动音频等的集合。此外,训练驱动因子集还可以包括与各个训练驱动音频对应的真实图像,以及与各个训练驱动文本对应的真实音频和真实图像。训练数据集可以从诸如VoxCeleb1的开源数据集获得,或者也可以采集自真实人物,本公开实施例对此不做具体限制。
在步骤S420中,从训练数据集中选择任意一对训练源图像和训练驱动因子,如图5所示。在步骤S430至步骤S450中,可以由图像处理模型500的第一模块510的参数生成模块511基于该训练源图像和训练驱动因子分别生成第一训练面部参数集和第二训练面部参数集,并基于第一训练面部参数集和第二训练面部参数集生成训练组合面部参数集。
具体地,在步骤S430中,可以由参数生成模块511基于上式(1),从训练源图像中提取得到第一训练面部参数集,并基于训练驱动因子生成第二训练面部参数集。在训练驱动因子为训练驱动图像或训练驱动视频的情况下,可以基于上式(1)从训练驱动图像或图像帧中提取得到第二训练面部参数集。在训练驱动因子为训练驱动音频时,可以基于训练驱动音频来生成第二训练面部参数集,例如可以利用音频到系数模型(Audio2Coeff)来从驱动音频生成第二面部参数集,本公开实施例对此不做具体限制,也可以采用其他适当的模型来实现此操作。在训练驱动因子为训练驱动文本时,可以采用文本到语音(TTS)技术将训练驱动文本转换为训练合成音频,进而基于该训练合成音频来生成第二训练面部参数集。之后,在步骤S440中,由第一模块510通过组合第一训练面部参数集的子集和第二训练面部参数集的子集来生成组合训练面部参数集,其中第一训练面部参数集的子集可以包括身份参数、纹理参数和光照参数,并且第二训练面部参数集的子集可以包括表情参数和姿态参数。也就是说,由来自训练源图像的身份参数、纹理参数、光照参数和来自训练驱动因子的表情参数、姿态参数构成了训练组合面部参数集。
继而,在步骤S450中,由第一模块510的渲染模块512利用训练组合面部参数集进行图像渲染以生成训练渲染图像。渲染模块512例如可以采用3DMM模型的渲染器来实现,但本公开实施例不限于此,也可以采用其他类似的三维可变形模型来实现图像渲染,例如FLAME等等。参数生成模块511和渲染模块512与上文参照图3A描述的参数生成模块311和渲染模块312类似,因此为了简单起见,这里省略对其功能的具体描述。在步骤S460中,由第二模块520基于训练渲染图像生成训练重演图像,并至少基于生成该训练重演图像过程中产生的损失对第二模块520进行训练,直至满足预定条件,例如训练损失小于预定阈值等,本公开实施例对此不做具体限制。
具体地,图像处理模型的第二模块520可以包括编码模块521和预测模块522。第二模块520可以基于训练渲染图像生成第一训练特征向量,例如,可以通过给训练渲染图像对应的图像特征向量添加随机噪声来生成第一训练特征向量。编码模块521可以基于训练源图像、训练驱动因子和训练组合面部参数集中的至少一者来生成第二训练特征向量。如上所述,第二模块520可以利用预训练模型来构建,其中编码模块521例如可以基于CLIP模型来构建。在本公开实施例的示例中,编码模块521可以利用CLIP模型的图像编码功能,从训练源图像生成包括纹理令牌(token)e t 和身份令牌e ID的文本向量,其中纹理令牌可以表征训练源图像的纹理信息,并且身份令牌可以表征训练源图像中包含的对象的身份信息。
另一方面,编码模块521可以基于训练组合面部参数集来生成面部参数令牌e c 。之后,可以至少基于纹理令牌e t 、身份令牌e ID和面部参数令牌e c 来生成第二训练特征向量。具体地,可以通过将纹理令牌e t 、身份令牌e ID和面部参数令牌e c 进行拼接来生成第二训练特征向量。为了实现这种拼接,如图5所示,编码模块521还可以包括多个线性层,用于对不同维度的纹理令牌、身份令牌和面部参数令牌进行维度转换处理。通过结合诸如3DMM参数集的面部参数集来生成第二训练特征向量,可以进一步完善最终生成的重演图像的外观细节,例如皮肤皱纹、微凸的颧骨,从而帮助改善重演图像的面部表情的感知真实性。
虽然诸如3DMM参数的面部参数集可以为重演图像的整体空间结构提供精确的指导,但是它可能仍然无法令人满意地控制细粒度的动作细节,例如眼睛注视方向。在本公开实施例中,如图5所示,还可以从训练驱动因子对应的训练图像提取表征注视信息的注视令牌e g 。在训练驱动因子是训练驱动图像时,可以直接从训练驱动图像中提取注视令牌,其具有训练驱动图像中包含的对象的注视信息,例如注视方向、注视时间等。在训练驱动因子是训练驱动文本或训练驱动音频时,可以从其对应的真实图像中提取注视令牌。之后,可以通过组合纹理令牌e t 、身份令牌e ID、面部参数令牌e c 和注视令牌e g 来生成第二训练特征向量e cat 。通过引入注视令牌,可以在最终生成的重演图像中精确地还原眼睛的细微动作,进一步提高重演图像的保真度和运动精细度。
将第二训练特征向量和第一训练特征向量输入预测模块以生成预测噪声向量,该预测噪声向量可以用于生成训练重演图像。如上面提到的,图像处理模型500的第二模块520可以利用在潜空间上进行图像处理的稳定扩散模型来构建。为此,可以首先将训练渲染图像转换为潜空间上的图像特征向量Fr,这一过程例如可以利用变分自编码器(VAE)来实现,如图5所示,但这仅仅作为示例而非限制。之后,可以给图像特征向量添加随机噪声向量来生成第一训练特征向量zt。所上文提到的,扩散模型的基本原理是通过前向过程给图片添加随机噪声,并通过反向过程从添加噪声的图片中还原初始图片。因而之后,如图5所示,预测模块522可以以第二训练特征向量e cat 作为条件输入,从第一训练特征向量zt中生成预测噪声向量,并据此进一步生成去除噪声后的预测图像特征向量z0。第二模块520还可以包括解码器523,其可以基于该预测图像特征向量z0生成重演图像。
预测模块522例如可以利用U-net网络结构来实现,但本公开实施例对此不做具体限制,也可以采用任意其他适当的网络结构。在本公开实施例的示例中,为了使得图像处理模型能够处理具有连续图像帧的驱动视频,可以利用时间注意力层将传统的二维U-net扩展为三维结构,从而能够实现视频驱动的面部重演,例如,可以基于驱动视频和源图像生成重演视频或重演动画。
之后,利用至少基于预测噪声向量的预测噪声损失和至少基于训练源图像的身份对比损失对第二模块进行训练。其中,预测噪声损失可以基于所添加的随机噪声向量和预测噪声向量来确定,通过训练来不断优化预测噪声损失,使得预测模块522生成的预测噪声向量与添加的随机噪声向量之间的损失尽可能小。
为了克服现有技术中重演图像的身份保持度低的缺陷,本公开实施例的图像处理模型还引入了身份对比损失,其能够显著增强重演图像的身份保持度。具体地,可以从训练源图像集中的每个训练源图像提取身份令牌,以生成第一身份令牌集。另一方面,对训练源图像集中的每个训练源图像进行图像转换处理以生成经转换源图像集,例如可以对每个训练源图像进行灰度变换、色彩调节、边缘增强、图像平滑、图像模糊、图像锐化等等中的一个或多个,以改变图像的像素、结构、纹理等特点。图6示出了根据本公开实施例的示例的身份对比损失的示意图。在图6的示例中,可以对每个训练源图像进行6种不同的图像变换处理,以生成对应的6个经转换源图像。需要说明的是,图6中所示的6种图像变换处理仅仅作为示例而非限制,可以根据实际应用需求对每个训练源图像进行更多或更少数量的图像变换处理。对于经转换源图像集中的每个经转换源图像提取身份令牌,以生成第二身份令牌集。如前所述,从训练源图像或经转换源图像中提取身份令牌可以利用编码模块521来实现,例如可以利用CLIP模型来实现,这里不再赘述。如图6所示,可以将所生成的第一身份令牌集和第二身份令牌集存储在存储库中,以供计算身份对比损失时调用。
之后,对于每次训练所用的训练源图像,可以至少基于第一身份令牌集和第二身份令牌集来确定对应的身份对比损失。具体地,可以从第一身份令牌集中选择与该训练源图像的身份对应的第一身份令牌,即表征该训练源图像中包括的面部身份的身份令牌;从第二身份令牌集中选择与该训练源图像的身份对应的第二身份令牌,即与训练源图像具有相同身份、但由于图像转换而具有不同结构的身份令牌;从第一身份令牌集或第二身份令牌集中选择与训练源图像的身份不同的第三身份令牌,例如表征任意其他面部的身份令牌。可以基于所选择的第一身份令牌、第二身份令牌和第三身份令牌来确定身份对比损失。例如,可以通过以下等式(3)来计算身份对比损失L ID:
(3)
其中,z i 代表与当前训练源图像的身份对应的身份令牌,即第一身份令牌;z i + 表示与当前训练源图像具有相同身份但结构不同的身份令牌,即第二身份令牌;z j - 表示与当前训练源图像的身份不同的任意其他身份令牌,即第三身份令牌;sim()表示求两个令牌之间的余弦相似度;exp()表示指数函数;log()表示对数函数;N表示身份令牌集中的样本总数。
在计算身份对比损失的上述方法中,属于相同身份的任意两个令牌可以称为正令牌对,如上述第一身份令牌和第二身份令牌,而属于不同身份的令牌则可称为负令牌,如上述第三身份令牌。在模型训练过程中,通过对由上式(3)表示的身份对比损失L ID进行优化,可以不断强化结构相同或不同的属于相同身份的正令牌对的影响,同时不断弱化属于不同身份的负令牌的影响,如图6所示,从而增强最终生成的重演图像的身份保持能力。同时,由于在训练过程中将像素、结构、纹理等不同的相同身份样本聚集在一起,能够有助于增强模型的泛化能力和鲁棒性。
利用噪声预测损失以及身份对比损失对图像处理模型进行训练。在训练时,可以固定图像处理模型的第一模块,而仅对第二模块进行训练,使得训练后的第二模块能够基于第一模块生成的渲染图像生成重演图像。由于在训练过程中通过面部参数集和注视令牌生成了作为模型条件输入的第二训练特征向量,训练后的模型能够精细地控制重演图像的外观细节和运动细节。另外,由于引入了身份对比损失对图像处理模型进行训练,能够显著增强重演图像的身份保持能力。
在本公开实施例的图像处理方法中,图像处理模型的第一模块分别从输入的源图像和驱动因子生成第一和第二面部参数集,并对组合的面部参数集进行渲染来生成渲染图像,从而给重演图像提供强大的空间控制,并且能够自由控制重演图像的面部姿势和表情。并且,本公开的图像处理方法能够接收文本、图像、视频、音频等不同种类的驱动输入,从而实现多模态的面部重演。本公开的图像处理模型的第二模块在预测噪声损失和身份对比损失的指导下进行微调,能够基于第一模块提供的渲染图像生成保真度高、运动精度高且具有较强身份保持能力的重演图像,其中既较好地保持了源图像的身份、纹理、光照等信息,又能精确还原来自驱动因子的姿势、表情、注视方向等运动信息。
下面参照图7描述根据本公开实施例的图像处理装置。图7示出了根据本公开实施例的图像处理装置700的结构示意图。如图7所示,图像处理装置700包括接收单元710、第一处理单元720和第二处理单元730。除了这3个单元之外,装置700还可以包括其他相关的组件,但由于这些组件与本公开内容不相关,这里省略对其具体内容的详细描述。另外,由于装置700的部分功能的细节与参照图2描述的方法200的步骤的细节类似,因此为了简洁起见,这里省略了对部分内容的重复描述。根据本公开实施例的装置700可以被实施为终端或者服务器,如上文参照图1所描述的。
接收单元710被配置为接收源图像和驱动因子。其中,源图像是要进行处理以使其体现不同的姿态、表情和注视信息(可称为运动信息)的图像并且其中包含面部区域(例如人脸、动物面部等等),驱动因子则是用于为源图像提供运动信息的因子。在本公开实施例中,驱动因子可以包括驱动文本、驱动图像、驱动音频、驱动视频等中的至少一个,本公开实施例对此不做具体限制。源图像和驱动因子可以是由用户输入的。例如,用户可以输入包含面部的源图像和驱动图像,并希望在源图像的面部上重演驱动图像中的面部的姿态、表情等运动信息。又例如,用户可以输入包含面部的源图像,并且输入驱动文本“面向左方微笑”,以希望源图像中的面部能够重演面向左方微笑”的动作。
第一处理单元720被配置为从源图像中提取第一面部参数集,并基于驱动因子生成第二面部参数集。第一面部参数集和第二面部参数集包括多个用于表示图像中包含的面部特性的参数。例如姿态参数、表情参数、纹理参数、光照参数、身份参数等等,其中身份参数表示图像中所包括的面部所属的身份信息,例如姓名、年龄、性别等。在本公开实施例中,例如可以采用三维可变形模型(3DMM)系数来表示面部参数集,但本公开实施例不限于此,也可以采用其他面部模型。3DMM的基本原理是将人脸表示为参数化的模型,用固定的点数来表示人脸,通过调整不同参数的值,可以生成不同形状和纹理的人脸模型。3DMM参数包括姿态参数、表情参数、纹理参数、光照参数和身份参数,并且参数之间是彼此解耦的,使其更适合于自由地控制重演图像的表情和姿态。
第一处理单元720可以基于上式(1),从源图像I S 中提取得到第一面部参数集P1={α S ,β S ,δ S ,γ S ,ρ S }。在驱动因子为驱动图像或驱动视频的情况下,第一处理单元720可以基于上式(1)从驱动图像或图像帧I D 中提取得到第二面部参数集P2={α D ,β D ,δ D ,γ D ,ρ D }。在驱动因子为驱动音频时,第一处理单元720可以基于驱动音频来生成第二面部参数集,例如可以利用音频到系数模型(Audio2Coeff)来从驱动音频生成第二面部参数集,本公开实施例对此不做具体限制,也可以采用其他适当的模型来实现此操作。在驱动因子为驱动文本时,第一处理单元720可以采用文本到语音(TTS)技术将驱动文本转换为合成音频,进而基于该合成音频来生成第二面部参数集。
接下来,第一处理单元720可以基于第一面部参数集和第二面部参数集生成组合面部参数集。具体地,第一处理单元720可以通过组合第一面部参数集的子集和第二面部参数集的子集来生成组合面部参数集,其中第一面部参数集的子集可以包括身份参数、纹理参数和光照参数,并且第二面部参数集的子集可以包括表情参数和姿态参数。也就是说,可以用来自源图像的身份参数、纹理参数、光照参数和来自驱动因子的表情参数、姿态参数来构成组合面部参数集。
第一处理单元720还被配置为利用组合面部参数集进行图像渲染以生成渲染图像。第一处理单元720例如可以采用3DMM模型的渲染器来实现,但本公开实施例不限于此,也可以采用其他类似的三维可变形模型来实现图像渲染,例如FLAME等等。3DMM模型的渲染器能够采用3DMM参数来生成重建的三维人脸,从任意角度截取可以获得二维渲染图像。
第二处理单元730被配置为基于渲染图像生成重演图像,其中重演图像也可以称为面部重演图像、重建图像、经处理图像等等。重演图像至少可以包括来自源图像的面部身份信息和来自驱动因子的面部运动信息,换句话说,重演图像中保留了源图像所包含的面部的身份信息,同时融入了驱动因子提供的面部运动信息。例如,在驱动因子为驱动图像时,重演图像可以包括源图像的面部身份信息、纹理信息和光照信息以及驱动图像提供的表情信息、姿态信息和注视信息。也就是说,在重演图像中保留了源图像的面部身份、纹理和光照,同时还原了驱动图像中的面部上的表情、姿态和注视方向,因此产生了在一张脸上用另一张脸的表情和动作进行说话、演唱等特殊效果。
在本公开实施例中,第二处理单元730可以基于预训练模型来构建,例如可以基于稳定扩散模型来构建,从而可以充分利用预训练模型的先验知识。第二处理单元730的训练方法与上文参照图4和图5描述的图像处理模型的第二模块的训练方法类似,因此,这里为了简单起见,省略对相同内容的重复描述。
在本公开实施例的图像处理装置中,第一处理单元720分别从输入的源图像和驱动因子生成第一和第二面部参数集,并对组合的面部参数集进行渲染来生成渲染图像,从而给重演图像提供强大的空间控制,并且能够自由控制重演图像的面部姿势和表情。并且,本公开的图像处理装置能够接收文本、图像、视频、音频等不同种类的驱动输入,从而实现多模态的面部重演。本公开的图像处理装置的第二处理单元730在预测噪声损失和身份对比损失的指导下进行微调,能够基于第一处理单元720提供的渲染图像生成保真度高、运动精度高且具有较强身份保持能力的重演图像,其中既较好地保持了源图像的身份、纹理、光照等信息,又能精确还原来自驱动因子的姿势、表情、注视方向等运动信息。
此外,根据本公开实施例的设备(例如,图像处理设备等)也可以借助于图8所示的示例性计算设备的架构来实现。图8示出了根据本公开实施例的示例性计算设备的架构的示意图。如图8所示,计算设备800可以包括总线810、一个或多个CPU 820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备,例如ROM 830或硬盘870可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然,图8所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图8示出的计算设备中的一个或多个组件。根据本公开实施例的设备可以被配置为执行根据本公开上述各个实施例的图像处理方法,或者用于实现根据本公开上述各个实施例的图像处理装置。
本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时,可以执行参照以上附图描述的根据本公开实施例的图像处理方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
根据本公开的实施例,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序包括计算机可读指令,该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令,处理器执行该计算机可读指令,使得该计算机设备执行上述各个实施例中描述的图像处理方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (20)
1.一种图像处理方法,包括:
接收源图像和驱动因子,所述驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;
从所述源图像中提取第一面部参数集,并基于所述驱动因子生成第二面部参数集;
基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集;
利用所述组合面部参数集进行图像渲染以生成渲染图像;以及
基于所述渲染图像生成重演图像,所述重演图像至少包括来自所述源图像的面部身份信息和来自所述驱动因子的面部运动信息。
2.根据权利要求1所述的方法,其中,在所述驱动因子为驱动文本时,基于所述驱动因子生成第二面部参数集包括:
利用文本到语音模型基于所述驱动文本生成合成音频;
基于所述合成音频生成所述第二面部参数集。
3.根据权利要求1所述的方法,其中,基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集包括:
通过组合所述第一面部参数集的子集和所述第二面部参数的子集来生成所述组合面部参数集,
其中所述第一面部参数集的子集包括身份参数、纹理参数和光照参数,并且所述第二面部参数的子集包括表情参数和姿态参数。
4.根据权利要求1所述的方法,其中,在所述驱动因子为驱动图像时,所述重演图像包括来自所述源图像的面部身份信息、纹理信息和光照信息以及来自所述驱动图像的表情信息、姿态信息和注视信息。
5.根据权利要求1所述的方法,其中,基于所述渲染图像生成重演图像包括:
基于所述渲染图像生成第一特征向量,所述第一特征向量表征所述渲染图像的特征且用于生成所述重演图像;
基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量,所述第二特征向量用于在生成所述重演图像的过程中调整所述重演图像的特征;以及
基于所述第一特征向量和所述第二特征向量生成所述重演图像。
6. 根据权利要求5所述的方法,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:
从所述驱动因子中提取表征注视信息的注视令牌,并基于所述组合面部参数集生成面部参数令牌;以及
至少基于所述注视令牌和所述面部参数令牌生成所述第二特征向量。
7. 根据权利要求5所述的方法,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:
从所述源图像中提取表征纹理信息的纹理令牌,并基于所述组合面部参数集生成面部参数令牌;以及
至少基于所述纹理令牌和所述面部参数令牌生成所述第二特征向量。
8. 根据权利要求5所述的方法,其中,基于所述源图像、所述驱动因子和所述组合面部参数集中的至少一者生成第二特征向量包括:
从所述源图像中提取表征身份信息的身份令牌,并基于所述组合面部参数集生成面部参数令牌;以及
至少基于所述身份令牌和所述面部参数令牌生成所述第二特征向量。
9.根据权利要求1所述的方法,其中,所述图像处理方法是利用图像处理模型实现的,所述图像处理模型包括第一模块和第二模块,所述第二模块是通过以下方法训练的:
获取包括训练源图像集和训练驱动因子集的训练数据集;
从所述训练数据集中选择训练源图像和训练驱动因子;
由所述第一模块从所述训练源图像中提取第一训练面部参数集,并基于所述训练驱动因子生成第二训练面部参数集;
由所述第一模块基于所述第一训练面部参数集和所述第二训练面部参数集生成训练组合面部参数集;
由所述第一模块利用所述训练组合面部参数集进行图像渲染以生成训练渲染图像;以及
由所述第二模块基于所述训练渲染图像生成训练重演图像,并至少基于生成所述训练重演图像过程中产生的损失对所述第二模块进行训练。
10.根据权利要求9所述的方法,其中,所述第二模块包括编码模块和预测模块,并且其中,至少基于生成所述训练重演图像过程中产生的损失对所述第二模块进行训练包括:
基于所述训练渲染图像生成第一训练特征向量;
由所述编码模块基于所述训练源图像、所述训练驱动因子和所述训练组合面部参数集中的至少一者生成第二训练特征向量;
基于所述第一训练特征向量和所述第二训练特征向量生成预测噪声向量,所述预测噪声向量用于生成所述训练重演图像;以及
利用至少基于所述预测噪声向量的预测噪声损失和至少基于所述训练源图像的身份对比损失对所述第二模块进行训练。
11. 根据权利要求10所述的方法,其中,由所述编码模块基于所述训练源图像、所述训练驱动因子和所述训练组合面部参数集中的至少一者生成第二训练特征向量包括:
从所述训练源图像提取表征纹理信息的纹理令牌和表征身份信息的身份令牌,并基于所述训练组合面部参数集生成面部参数令牌;以及
至少基于所述纹理令牌、所述身份令牌和所述面部参数令牌生成所述第二训练特征向量。
12. 根据权利要求11所述的方法,其中,至少基于所述纹理令牌、所述身份令牌和所述面部参数令牌生成所述第二训练特征向量包括:
从所述训练驱动因子对应的训练图像提取表征注视信息的注视令牌;以及
组合所述纹理令牌、所述身份令牌、所述面部参数令牌和所述注视令牌以生成所述第二训练特征向量。
13.根据权利要求10所述的方法,其中,所述第一训练特征向量是通过给所述训练渲染图像对应的图像特征向量添加随机噪声向量生成的,并且其中,所述预测噪声损失是基于所述随机噪声向量和所述预测噪声向量确定的。
14.根据权利要求10所述的方法,其中,所述身份对比损失是通过以下方式确定的:
从所述训练源图像集中的每个训练源图像提取身份令牌,以生成第一身份令牌集;
对所述训练源图像集中的每个训练源图像进行图像转换处理以生成经转换源图像集,并从所述经转换源图像集中的每个经转换源图像提取身份令牌以生成第二身份令牌集;以及
对于每个训练源图像,至少基于所述第一身份令牌集和所述第二身份令牌集确定所述身份对比损失。
15.根据权利要求14所述的方法,其中,对于每个训练源图像,至少基于所述第一身份令牌集和所述第二身份令牌集确定所述身份对比损失包括:
从所述第一身份令牌集中选择与所述训练源图像的身份对应的第一身份令牌;
从所述第二身份令牌集中选择与所述训练源图像的身份对应的第二身份令牌;
从所述第一身份令牌集或所述第二身份令牌集中选择与所述训练源图像的身份不同的第三身份令牌;以及
基于所述第一身份令牌、所述第二身份令牌和所述第三身份令牌确定所述身份对比损失。
16.根据权利要求14所述的方法,其中,所述图像转换处理包括灰度变换、色彩调节、边缘增强、图像平滑、图像模糊、图像锐化中的一个或多个。
17.一种图像处理装置,所述装置包括:
接收单元,被配置为接收源图像和驱动因子,所述驱动因子包括驱动文本、驱动图像、驱动音频和驱动视频中的至少一个;
第一处理单元,被配置为从所述源图像中提取第一面部参数集,并基于所述驱动因子生成第二面部参数集,基于所述第一面部参数集和所述第二面部参数集生成组合面部参数集,并利用所述组合面部参数集进行图像渲染以生成渲染图像;以及
第二处理单元,被配置为基于所述渲染图像生成重演图像,所述重演图像至少包括来自所述源图像的面部身份信息和来自所述驱动因子的面部运动信息。
18. 一种图像处理设备,包括:
一个或多个处理器;以及
一个或多个存储器,其中所述存储器中存储有计算机可读指令,所述计算机可读指令在由所述一个或多个处理器运行时,使得所述一个或多个处理器执行如权利要求1-16中任一项所述的方法。
19.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-16中任一项所述的方法。
20.一种计算机程序产品,其包括计算机可读指令,所述计算机可读指令在被处理器执行时,使得所述处理器执行如权利要求1-16中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410330050.XA CN118096961B (zh) | 2024-03-22 | 2024-03-22 | 图像处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410330050.XA CN118096961B (zh) | 2024-03-22 | 2024-03-22 | 图像处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118096961A true CN118096961A (zh) | 2024-05-28 |
CN118096961B CN118096961B (zh) | 2024-07-12 |
Family
ID=91159915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410330050.XA Active CN118096961B (zh) | 2024-03-22 | 2024-03-22 | 图像处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118096961B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379401A (zh) * | 2024-06-25 | 2024-07-23 | 中国科学技术大学 | 说话人视频合成方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920230A (zh) * | 2021-09-15 | 2022-01-11 | 上海浦东发展银行股份有限公司 | 人物形象视频生成方法、装置、计算机设备和存储介质 |
CN116206607A (zh) * | 2023-02-08 | 2023-06-02 | 北京航空航天大学 | 一种基于语音驱动的真实感虚拟人生成方法及装置 |
CN116310146A (zh) * | 2023-05-16 | 2023-06-23 | 北京邃芒科技有限公司 | 人脸图像重演方法、系统、电子设备、存储介质 |
CN116391209A (zh) * | 2020-11-13 | 2023-07-04 | 创峰科技 | 现实的音频驱动的3d化身生成 |
-
2024
- 2024-03-22 CN CN202410330050.XA patent/CN118096961B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116391209A (zh) * | 2020-11-13 | 2023-07-04 | 创峰科技 | 现实的音频驱动的3d化身生成 |
CN113920230A (zh) * | 2021-09-15 | 2022-01-11 | 上海浦东发展银行股份有限公司 | 人物形象视频生成方法、装置、计算机设备和存储介质 |
CN116206607A (zh) * | 2023-02-08 | 2023-06-02 | 北京航空航天大学 | 一种基于语音驱动的真实感虚拟人生成方法及装置 |
CN116310146A (zh) * | 2023-05-16 | 2023-06-23 | 北京邃芒科技有限公司 | 人脸图像重演方法、系统、电子设备、存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379401A (zh) * | 2024-06-25 | 2024-07-23 | 中国科学技术大学 | 说话人视频合成方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118096961B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580395B2 (en) | Generative adversarial neural network assisted video reconstruction | |
US11625613B2 (en) | Generative adversarial neural network assisted compression and broadcast | |
JP7373554B2 (ja) | クロスドメイン画像変換 | |
Khakhulin et al. | Realistic one-shot mesh-based head avatars | |
US11620521B2 (en) | Smoothing regularization for a generative neural network | |
CN118096961B (zh) | 图像处理方法和装置 | |
CN113762461B (zh) | 使用可逆增强算子采用有限数据训练神经网络 | |
US11568524B2 (en) | Tunable models for changing faces in images | |
CN113542758B (zh) | 生成对抗神经网络辅助的视频压缩和广播 | |
CN113542759B (zh) | 生成对抗神经网络辅助的视频重建 | |
US20230342893A1 (en) | Transferring faces between digital images by combining latent codes utilizing a blending network | |
Lu et al. | 3D real-time human reconstruction with a single RGBD camera | |
US11948245B2 (en) | Relighting images and video using learned lighting and geometry | |
Song et al. | Face attribute editing based on generative adversarial networks | |
CN114529785A (zh) | 模型的训练方法、视频生成方法和装置、设备、介质 | |
US11605001B2 (en) | Weight demodulation for a generative neural network | |
CN116977169A (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
KR102698791B1 (ko) | 이미지 프로세싱 방법 및 장치, 컴퓨터 디바이스, 컴퓨터-판독가능 저장 매체, 및 컴퓨터 프로그램 제품 | |
Lee et al. | Holistic 3D face and head reconstruction with geometric details from a single image | |
CN116152399A (zh) | 三维人脸形状生成方法、装置、设备及存储介质 | |
CN114638868B (zh) | 自然场景中高分辨率三维人脸纹理生成方法 | |
CN117808857B (zh) | 一种自监督360°深度估计方法、装置、设备及介质 | |
CN116934920A (zh) | 生成面部动画的方法、装置、电子设备和存储介质 | |
Wang | One-shot Image Style Transfer via Pre-trained GAN Inversion | |
CN118015142A (zh) | 人脸图像处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |