CN115631274B - 一种人脸图像生成方法、装置、设备及存储介质 - Google Patents

一种人脸图像生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115631274B
CN115631274B CN202211443424.6A CN202211443424A CN115631274B CN 115631274 B CN115631274 B CN 115631274B CN 202211443424 A CN202211443424 A CN 202211443424A CN 115631274 B CN115631274 B CN 115631274B
Authority
CN
China
Prior art keywords
action
face
appearance
preset
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211443424.6A
Other languages
English (en)
Other versions
CN115631274A (zh
Inventor
王多民
王宝元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongmian Xiaoice Technology Co Ltd
Original Assignee
Beijing Hongmian Xiaoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongmian Xiaoice Technology Co Ltd filed Critical Beijing Hongmian Xiaoice Technology Co Ltd
Priority to CN202211443424.6A priority Critical patent/CN115631274B/zh
Publication of CN115631274A publication Critical patent/CN115631274A/zh
Application granted granted Critical
Publication of CN115631274B publication Critical patent/CN115631274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种人脸图像生成方法、装置、设备及存储介质,涉及人工智能技术领域。该方法包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。本发明提供的实施例通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。

Description

一种人脸图像生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种人脸图像生成方法、装置、设备及存储介质。
背景技术
在相关技术中,现有技术通常使用四个不同的神经网络分别提取身份、语音、头部姿态和情绪信息,再通过一些数据增强手段,让不同的神经网络对上述的不同动作属性信息(身份、语音、头部姿态和情绪信息)进行提取和编码,生成可以控制的人脸图像。
然而,现有技术至少存在以下缺陷:
1)现有技术对控制信号没有做解耦处理,因此各控制信号耦合性较高,也可能会互相包含重复的动作属性信息,从而导致生成的人脸图像不是完全可控;
2)现有技术对不同动作属性信息的编码分散,使用多个模型分别表示不同信息,不具备统一性;
3)现有技术大都是用特定表情数据集以达到对表情控制的效果,但该特定数据集通常包含id数少且属于受限场景,模型泛化能力差;
因此,在生成可控制人脸图像的情况下,如何克服上述存在的缺陷是目前亟待解决的技术问题。
发明内容
有鉴于此,本发明提供一种人脸图像生成方法、装置、设备及存储介质,通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
第一方面,本发明提供一种人脸图像生成方法,包括:
获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;
对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;
将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
优选地,根据本发明提供的一种人脸图像生成方法,
所述对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号,包括:
对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;
根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号。
优选地,根据本发明提供的一种人脸图像生成方法,
所述根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号,包括:
对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;
将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;
将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;
将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;
根据所述外观动作图像,得到所述完备驱动信号。
优选地,根据本发明提供的一种人脸图像生成方法,
所述根据所述外观动作图像,得到所述完备驱动信号,包括:
将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;
将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;
根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
优选地,根据本发明提供的一种人脸图像生成方法,
所述将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,包括:
将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像;
对所述前景图像进行抠图处理,得到所述目标外观动作图像。
优选地,根据本发明提供的一种人脸图像生成方法,
所述完备驱动信号由多个不同动作属性对应的动作信号组成;
所述对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征,包括:
获取与每一所述动作信号对应的动作子空间;
将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
优选地,根据本发明提供的一种人脸图像生成方法,
所述驱动对象数据至少包括:语音数据;
所述驱动特征至少包括:语音驱动特征;
生成所述语音驱动特征的步骤,包括:
将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征;
获取经所述动作编码器编码得到的视频嘴型特征;
根据所述视频嘴型特征和所述音频嘴型特征,确定出所述视频嘴型特征和所述音频嘴型特征在时间维度上的正样本和负样本;
对所述正样本和所述负样本进行计算,得到所述语音驱动特征。
第二方面,本发明还提供一种人脸图像生成装置,包括:
获取驱动对象数据模块,用于获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
生成完备驱动信号模块,用于对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;
解耦模块,用于对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;
生成目标人脸图像模块,用于将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人脸图像生成方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人脸图像生成方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述人脸图像生成方法的步骤。
本发明提供的一种人脸图像生成方法、装置、设备及存储介质,通过获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的人脸图像生成方法的流程示意图之一;
图2是本发明提供的生成完备驱动信号的示意图;
图3是本发明提供的解耦驱动特征的空间投影示意图;
图4是本发明提供的生成语音驱动特征的示意图;
图5是本发明提供的统一生成驱动特征的示意图;
图6是本发明提供的人脸图像生成装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的一种人脸图像生成方法、装置、设备及存储介质。
如图1所示,其为本发明实施例提供的一种人脸图像生成方法的实施流程示意图,一种人脸图像生成方法可以包括但不限于步骤S100至S400。
S100,获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
S200,对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;
S300,对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;
S400,将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
在一些实施例的步骤S100中,获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据。
可以理解的是,计算机执行程序首先获取预设的驱动对象数据,以用于得到完备驱动信号。
需要说明的是,驱动对象数据至少可以包括但不限于:人脸视频数据、语音数据。
在一些实施例的步骤S200中,对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号。
可以理解的是,在执行完步骤S100获取预设的驱动对象数据的步骤之后,其具体执行步骤可以为:首先对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧,再对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧,将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征,将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数,将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像,根据所述外观动作图像,得到所述完备驱动信号。
在一些实施例的步骤S300中,对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征。
可以理解的是,在执行完步骤S200对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号的步骤之后,其具体执行步骤可以为:首先需要说明的是,所述完备驱动信号由多个不同动作属性对应的动作信号组成。
获取与每一所述动作信号对应的动作子空间,再将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
在一些实施例的步骤S400中,将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
可以理解的是,在执行完步骤S300对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征的步骤之后,其具体执行步骤可以为:
将驱动特征和驱动对象数据输入人脸生成模型进行训练,直接输出与驱动对应数据对应的目标人脸图像。此目标人脸图像可根据驱动特征进行控制。
需要说明的是,人脸生成模型包括但不限于使用对抗生成网络、diffusion(扩散)网络等。在本发明的一些实施例中,对人脸生成模型不作进一步的具体限定。
在一些实施例中,在得到解耦后的不同的驱动特征之后,便可以将来自相同或不同驱动源数据的不同动作属性的驱动特征进行组合,并使用组合后能够表征不同驱动源数据对应的动作属性的驱动特征(一个完备的驱动信号)作为控制条件,控制真实的目标人脸图像合成,人脸生成模型根据接受到的驱动特征和表征被驱动源数据的特征(隐式表达或显式表达皆可)生成符合驱动特征各组成子空间表达内容的目标人脸图像。
在本发明的一些实施例中,所述对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号,包括:
对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;
根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号。
可以理解的是,首先先选择一个人脸视频数据,在从中随机抽取一帧作为外观编码器的输入I app ,然后再随机抽取一帧I mot I mot I app 为不同的帧图片)。
如图2所示是本发明提供的生成完备驱动信号的示意图,I app 为外观人脸帧,I mot 为动作人脸帧,
同时对I mot 做一系列的数据增强处理,包括颜色变化、错切变换、仿射变换,得到增强后的图片A(I mot ),这个增强后的目标动作人脸帧无法提供任何与外观有关的信息。
需要说明的是,A(I mot )为目标动作人脸帧。
将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征,将所述动作特征和所述外观特征输入预设的多层感知器(MLP),输出三维人脸参数,将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像,将所述外观动作图像输入3D模型,得到所述完备驱动信号。
在本发明的一些实施例中,所述根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号,包括:
对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;
将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;
将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;
将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;
根据所述外观动作图像,得到所述完备驱动信号。
可以理解的是,对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧具体可以为,对动作人脸帧依次进行颜色变化处理、错切变换处理、仿射变换处理,从而得到目标动作人脸帧。
将目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征。
需要说明的是,语音编码器的主要功能就是把用户语音的PCM(脉冲编码调制)样值编码成少量的比特(帧)。这种方法使得语音在连路产生误码、网络抖动和突发传输时具有健壮性。在接收端,语音帧先被误码为PCM语音样值,然后再转换成语音波形。
进一步需要说明的是,语音编码器通常分为三种类形:(a)波形编器;(b)声码器;(c)混合编码器,在本发明的实施例中,对此不作进一步的限定。
将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数。
需要说明的是,多层感知器(MLP,Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据映射到单一的输出的数据上。
将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;
需要说明的是,本发明实施例的人脸生成器即为生成器,生成器是一次生成一个值的特殊类型函数。可以将其视为可恢复函数,简单的说就是在函数的执行过程中,yield语句会把你需要的值返回给调用生成器的地方,然后退出函数,下一次调用生成器函数的时候又从上次中断的地方开始执行,而生成器内的所有变量参数都会被保存下来供下一次使用。
根据所述外观动作图像,得到所述完备驱动信号,其具体执行步骤可以为:首先将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征,根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
在本发明的一些实施例中,所述根据所述外观动作图像,得到所述完备驱动信号,包括:
将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;
将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;
根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
可以理解的是,将外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,其具体执行步骤可以为:将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像,再对所述前景图像进行抠图处理,得到所述目标外观动作图像。
在得到目标外观动作图像之后,将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征,根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
预设的标准模型特征,即将真实人脸图像输入预训练3D模型进行训练,得到的3D特征即标准模型特征。
在本发明的一些实施例中,为了使得动作编码器能够增强对面部动作的感知以获得完备的动作编码,在本发明的实施例中设计了一个3d动作一致损失,即图2中的3d特征损失,该损失函数使用一个已有的3d模型(例如deca,但不局限于此模型)的3d动作提取能力,对表征生成图像的动作信息的3d模型特征与真实图像的3d模型特征进行距离拉近,以确定出所述完备驱动信号。
在本发明的一些实施例中,所述将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,包括:
将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像;
对所述前景图像进行抠图处理,得到所述目标外观动作图像。
可以理解的是,在本发明的一些实施例中,对重建的图像将背景部分信息使用一个已有的抠图模型生成的mask去除掉,使得训练的loss包括标准的对抗生成损失、ganfeat损失和图像感知损失。具体为将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像,对所述前景图像进行抠图处理,得到所述目标外观动作图像。
在本发明的一些实施例中,所述完备驱动信号由多个不同动作属性对应的动作信号组成;
所述对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征,包括:
获取与每一所述动作信号对应的动作子空间;
将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
首先需要说明的是,完备驱动信号由多个不同动作属性对应的动作信号组成,动作信号至少可以包括但不限于:眨眼驱动信号、眼神(姿态、表情)驱动信号、嘴形驱动信号、语音信号。
如图3所示是本发明提供的解耦驱动特征的空间投影示意图,在获得完备驱动信号之后,需要对这个完备驱动信号进行解耦。因为虽然获取的完备驱动信号是完备的,即我们训练得到的驱动空间是完备的,能够表征任意的面部动作,但是这个空间是耦合的,它将所有的驱动信息都耦合的表征在空间中的一个特征点中,因此对于生成人脸来说各面部动作是不可控的。
通常仅能遵循一个单一的完备驱动源做面部驱动的生成,为了达到对不同的动作属性(头部姿态、眨眼、眼神、表情以及说话的嘴形)进行任意的控制,需要在这个完备的驱动信号空间之上进行解耦,将不同的动作属性所在的动作子空间解耦出来,这些不同的子空间互不干扰,可以实现对不同动作属性的任意驱动而不影响其他的动作属性。
具体的为首先获取与每一所述动作信号对应的动作子空间,再将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
图3中,eye blink(眨眼)对应的子空间为眨眼子空间, headpose(头部姿势)对应的子空间为头部姿势子空间, emotion(情绪)对应的子空间为情绪子空间,将featurepoint(特征点)投影至对应的各个动作子空间,得到对应的所述驱动特征。
在本发明的一些实施例中,所述驱动对象数据至少包括:语音数据;
所述驱动特征至少包括:语音驱动特征;
生成所述语音驱动特征的步骤,包括:
将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征;
获取经所述动作编码器编码得到的视频嘴型特征;
根据所述视频嘴型特征和所述音频嘴型特征,确定出所述视频嘴型特征和所述音频嘴型特征在时间维度上的正样本和负样本;
对所述正样本和所述负样本进行计算,得到所述语音驱动特征。
可以理解的是,如图4所示,为本发明提供的生成语音驱动特征的示意图,在所述驱动特征是语音驱动特征的情况下,将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征。
需要说明的是,语音编码器接受到语音数据的输入(原始波形数据或梅尔频谱数据),经过编码得到音频嘴形特征Fa。
在已经训练完成的能够编码完备动作驱动信号空间的动作编码器来辅助与语音编码器构造跨模态对比学习。在动作编码器之后再添加一个MLP,用来将完备的动作空间投影至嘴形相关的子空间中,通过嘴形MLP得到视频嘴形特征Fv。
进一步的,在时间维度上对齐的Fv与Fa构造成为对比学习的正样本,在时间维度上错位的Fv与Fa构造成为对比学习的负样本。
跨模态对比学习对Fa至Fv的对比损失和Fv至Fa的对比损失都进行计算,总对比损失值L即:
L = La2v + Lv2a
其中,La2v为Fa至Fv的对比损失值,Lv2a为Fv至Fa的对比损失值。
进一步的,La2v = 1/n * (d(Fa,Fv)/sumi…n(Fa, Fvi)),Fv为正样本,Fvi为负样本,其中d是距离计算函数,通常使用余弦距离。
Lv2a的计算方法与La2v类似,在此不作进一步限定。
根据总对比损失值L可以确定出语音驱动特征。
在本发明的一些实施例中,在所述驱动特征是其他驱动特征的情况下,如图5所示为本发明实施例提供的统一生成驱动特征的示意图,其他驱动信号解耦过程相似,区别仅在使用了不同的预训练辅助模型进行对比学习的实现,这里的驱动信号解耦包括眨眼、眼神、头部姿态以及表情,在解耦过程中分别使用了关键点模型、眼神注视模型、头部姿态估计模型以及表情估计模型辅助构造正负样本进行对比学习解耦,分别得到对应的正驱动信号特征和负驱动信号特征,在根据正驱动信号特征和负驱动信号特征得到驱动信号特征。
根据不同的驱动信号解耦过程,选用不同对应的预训练辅助模型来构造正负样本,并使用训练完成的动作编码器对这些正负样本进行特征提取,随后送入各驱动信号对应的MLP中得到对应子空间的驱动信号特征。
并将构造的正负样本对应的驱动信号特征进行对比损失,来学习从完备驱动信号空间向对应驱动信号子空间映射的MLP。
需要说明的是,对不同驱动信号如何构造正负样本进行描述:
对于眨眼驱动信号:使用一个已有的关键点检测模型对输入图像进行眼部关键点检测,然后计算眼部上下两点之间的规范化间距d,然后与一个预设的阈值t1相比较,同小于t1的作为正样本,反之作为负样本。
对于眼神驱动(姿态、表情)信号:使用一个已有的眼神(姿态、表情)检测模型对输入图像进行特征提取,选取这个眼神(姿态、表情)检测模型的分类前最后一层特征,对输入图像的特征之间余弦距离进行计算,并于一个预设的阈值t相比较,同小于阈值t的作为正样本,反之作为负样本。
通过本发明提供的实施例至少有以下技术效果:
除语音驱动特征之外,其他的驱动信号具备统一性,是由同一个共享编码器得到,节省大量的计算资源,对实时部署具备友好性。
本发明对不同驱动信号进行了解耦设计,使得不同驱动信号对其对应驱动的动作具备良好的控制和对其他动作具备无干扰的性质,对可控照片真实人脸生成具备更好的能力。
本发明可以同时实现嘴形、头部姿态、眨眼、眼神、表情的控制,这对真实人脸合成是非常重要的驱动信号。
由于本发明使用非受限场景的数据进行训练,训练数据易获得,且非常容易补充新数据,因此模型对各动作属性表达的泛化性更强,且更容易通过补充数据提升模型能力。
本发明提供的一种人脸图像生成方法、装置、设备及存储介质,通过获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
下面对本发明提供的一种人脸图像生成装置进行描述,下文描述的一种人脸图像生成装置与上文描述的一种人脸图像生成方法可相互对应参照。
如图6所示,其为本发明提供的人脸图像生成装置的结构示意图,本发明提供的一种人脸图像生成装置,包括:
获取驱动对象数据模块610,用于获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
生成完备驱动信号模块620,用于对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;
解耦模块630,用于对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;
生成目标人脸图像模块640,用于将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
根据本发明提供的一种人脸图像生成装置,生成完备驱动信号模块620,还用于对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;
根据所述外观人脸帧和所述动作人脸帧,生成与所述人脸视频数据对应的完备驱动信号。
根据本发明提供的一种人脸图像生成装置,生成完备驱动信号模块620,还用于对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;
将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;
将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;
将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;
根据所述外观动作图像,得到所述完备驱动信号。
根据本发明提供的一种人脸图像生成装置,生成完备驱动信号模块620,还用于将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;
将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;
根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号。
根据本发明提供的一种人脸图像生成装置,生成完备驱动信号模块620,还用于将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像;
对所述前景图像进行抠图处理,得到所述目标外观动作图像。
根据本发明提供的一种人脸图像生成装置,所述完备驱动信号由多个不同动作属性对应的动作信号组成;解耦模块630,还用于获取与每一所述动作信号对应的动作子空间;
将多个所述动作信号分别投影至对应的所述动作子空间,得到对应的所述驱动特征。
根据本发明提供的一种人脸图像生成装置,所述驱动对象数据至少包括:语音数据;所述驱动特征至少包括:语音驱动特征;还用于将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征;
获取经所述动作编码器编码得到的视频嘴型特征;
根据所述视频嘴型特征和所述音频嘴型特征,确定出所述视频嘴型特征和所述音频嘴型特征在时间维度上的正样本和负样本;
对所述正样本和所述负样本进行计算,得到所述语音驱动特征。
本发明提供的一种人脸图像生成方法、装置、设备及存储介质,通过获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。通过生成完备驱动信号,再对完备驱动信号进行解耦生成驱动特征,根据解耦后的驱动特征生成可控制的目标人脸图像,使得控制更加灵活。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行一种人脸图像生成方法,该方法包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种人脸图像生成方法,该方法包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种人脸图像生成方法,该方法包括:获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;对所述人脸视频数据进行处理,得到与所述人脸视频数据对应的完备驱动信号;对所述完备驱动信号进行解耦处理,得到解耦后的驱动特征;将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种人脸图像生成方法,其特征在于,包括:
获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;
对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;
将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;
将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;
将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;
将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;
将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;
根据所述三维模型特征和预设的标准模型特征,确定出完备驱动信号;
对所述完备驱动信号进行解耦处理,其中,所述完备驱动信号由多个不同动作属性对应的动作信号组成;
获取与每一所述动作信号对应的动作子空间;
将多个所述动作信号分别投影至对应的所述动作子空间,得到解耦后的驱动特征;
将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
2.根据权利要求1所述的人脸图像生成方法,其特征在于,
所述将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像,包括:
将所述外观动作图像输入所述抠图模型进行分割处理,得到前景图像和背景图像;
对所述前景图像进行抠图处理,得到所述目标外观动作图像。
3.根据权利要求1所述的人脸图像生成方法,其特征在于,
所述驱动对象数据至少包括:语音数据;
所述驱动特征至少包括:语音驱动特征;
生成所述语音驱动特征的步骤,包括:
将所述语音数据输入预设的语音编码器进行编码,得到对应的音频嘴型特征;
获取经所述动作编码器编码得到的视频嘴型特征;
根据所述视频嘴型特征和所述音频嘴型特征,确定出所述视频嘴型特征和所述音频嘴型特征在时间维度上的正样本和负样本;
对所述正样本和所述负样本进行计算,得到所述语音驱动特征。
4.一种人脸图像生成装置,其特征在于,包括:
获取驱动对象数据模块,用于获取预设的驱动对象数据,其中,所述驱动对象数据至少包括人脸视频数据;
生成完备驱动信号模块,用于对所述人脸视频数据进行帧数据提取处理,提取出外观人脸帧和动作人脸帧;对所述动作人脸帧进行数据增强处理,得到目标动作人脸帧;将所述目标动作人脸帧输入预设的动作编码器,得到对应的动作特征,并将所述外观人脸帧输入预设的外观编码器,得到对应的外观特征;将所述动作特征和所述外观特征输入预设的多层感知器,输出三维人脸参数;将所述三维人脸参数输入预设的人脸生成器,得到重建的外观动作图像;将所述外观动作图像输入预设的抠图模型进行处理,得到目标外观动作图像;将所述目标外观动作图像输入三维模型进行训练,输出对应的三维模型特征;根据所述三维模型特征和预设的标准模型特征,确定出所述完备驱动信号;
解耦模块,用于对所述完备驱动信号进行解耦处理,其中,所述完备驱动信号由多个不同动作属性对应的动作信号组成;获取与每一所述动作信号对应的动作子空间;将多个所述动作信号分别投影至对应的所述动作子空间,得到解耦后的驱动特征;
生成目标人脸图像模块,用于将所述驱动特征和所述驱动对象数据输入预设的人脸生成模型进行训练,输出与所述驱动对象数据对应的目标人脸图像。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述人脸图像生成方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述人脸图像生成方法的步骤。
CN202211443424.6A 2022-11-18 2022-11-18 一种人脸图像生成方法、装置、设备及存储介质 Active CN115631274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211443424.6A CN115631274B (zh) 2022-11-18 2022-11-18 一种人脸图像生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211443424.6A CN115631274B (zh) 2022-11-18 2022-11-18 一种人脸图像生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115631274A CN115631274A (zh) 2023-01-20
CN115631274B true CN115631274B (zh) 2023-03-28

Family

ID=84909876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211443424.6A Active CN115631274B (zh) 2022-11-18 2022-11-18 一种人脸图像生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115631274B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994966B (zh) * 2023-03-22 2023-06-30 北京红棉小冰科技有限公司 多视角图像生成方法、装置、可读存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278297A (zh) * 2022-06-14 2022-11-01 北京达佳互联信息技术有限公司 基于驱动视频的数据处理方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10107325B2 (en) * 2015-11-04 2018-10-23 The Reaction Washer Company Multifunction reaction washer and stack accessed by slim reaction socket
CN114842541A (zh) * 2022-05-30 2022-08-02 北京百度网讯科技有限公司 模型的训练及人脸识别方法、装置、设备以及存储介质
CN115050087B (zh) * 2022-08-16 2022-11-18 之江实验室 一种人脸关键点身份和表情解耦方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278297A (zh) * 2022-06-14 2022-11-01 北京达佳互联信息技术有限公司 基于驱动视频的数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115631274A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
Jonell et al. Let's face it: Probabilistic multi-modal interlocutor-aware generation of facial gestures in dyadic settings
WO2024051445A9 (zh) 图像生成方法以及相关设备
CN110866968A (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
CN112465935A (zh) 虚拟形象合成方法、装置、电子设备和存储介质
CN115914505B (zh) 基于语音驱动数字人模型的视频生成方法及系统
CN114550223B (zh) 人物交互检测方法、装置及电子设备
CN115356953B (zh) 虚拟机器人决策方法、系统和电子设备
CN115457169A (zh) 一种语音驱动的人脸动画生成方法及系统
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN115631274B (zh) 一种人脸图像生成方法、装置、设备及存储介质
CN114639374A (zh) 一种实时语音驱动的照片级真实感人脸肖像视频生成方法
CN114419204A (zh) 一种视频生成方法、装置、设备和存储介质
CN115100707A (zh) 模型的训练方法、视频信息生成方法、设备以及存储介质
CN114694074A (zh) 一种使用图像生成视频的方法、装置以及存储介质
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
CN110610131A (zh) 人脸运动单元的检测方法、装置、电子设备及存储介质
CN117789751A (zh) 说话人脸视频生成方法、计算机设备及存储介质
CN115631285B (zh) 基于统一驱动的人脸渲染方法、装置、设备及存储介质
CN117808934A (zh) 一种数据处理方法及相关设备
CN114973362A (zh) 一种应用于社交机器人的动态延长编码微表情识别方法
KR20230061776A (ko) 전자 장치 및 그 제어 방법
Viswanathan et al. Text to image translation using generative adversarial networks
Mishra et al. Environment descriptor for the visually impaired
CN116704588B (zh) 面部图像的替换方法、装置、设备及存储介质
Christoff et al. Audio-Driven 3D Talking Face for Realistic Holographic Mixed-Reality Telepresence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant