CN110349232A - 图像的生成方法、装置、存储介质和电子设备 - Google Patents

图像的生成方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110349232A
CN110349232A CN201910522940.XA CN201910522940A CN110349232A CN 110349232 A CN110349232 A CN 110349232A CN 201910522940 A CN201910522940 A CN 201910522940A CN 110349232 A CN110349232 A CN 110349232A
Authority
CN
China
Prior art keywords
image
training
face
frame
gan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910522940.XA
Other languages
English (en)
Other versions
CN110349232B (zh
Inventor
胡欢
刘兆祥
廉士国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
As Science And Technology (beijing) Co Ltd
Original Assignee
As Science And Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by As Science And Technology (beijing) Co Ltd filed Critical As Science And Technology (beijing) Co Ltd
Priority to CN201910522940.XA priority Critical patent/CN110349232B/zh
Publication of CN110349232A publication Critical patent/CN110349232A/zh
Application granted granted Critical
Publication of CN110349232B publication Critical patent/CN110349232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开涉及一种图像的生成方法、装置、存储介质和电子设备,涉及图像处理技术领域,该方法包括:按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,源图像为包括源人物的源视频中的任一帧图像,将初始人脸特征向量映射到第一转换图像中,第一转换图像的大小与源图像的大小相同,根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。

Description

图像的生成方法、装置、存储介质和电子设备
技术领域
本公开涉及图像处理技术领域,具体地,涉及一种图像的生成方法、装置、存储介质和电子设备。
背景技术
随着计算机视觉和图像处理技术的不断发展,终端上能够实现多种图像处理的功能,以满足用户的各种社交和娱乐需求,尤其是人脸重演(英文:Face Reenactment)功能,越来越受到用户的关注。现有技术中,人脸重演通常有两种实现方式:参数化3D面部模型和深度学习法。参数化3D面部模型需要将源视频拟合成面部参数空间集,很难捕捉到人脸细微的运动,并且需要大量的运算,人脸替换的效率较低。而深度学习法通常是建立一个人脸关键点变换网络,根据源视频中的人脸关键点来确定目标人物的人脸关键点,由于人脸关键点包含的信息量较少,因此可靠性低,归一化困难,导致人脸替换的效率和准确度较低。
发明内容
本公开的目的是提供一种图像的生成方法、装置、存储介质和电子设备,用以解决现有技术中人脸替换效率低、不准确的问题。
为了实现上述目的,根据本公开实施例的第一方面,提供一种图像的生成方法,该方法包括:
按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,所述初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,所述源图像为包括所述源人物的源视频中的任一帧图像;
将所述初始人脸特征向量映射到第一转换图像中,所述第一转换图像的大小与所述源图像的大小相同;
根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,所述目标图像中所述目标人物的面部表情与所述源图像中所述源人物的面部表情相同。
可选地,在所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像之前,所述方法还包括:
根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,所述训练视频为包括所述目标人物的视频。
可选地,所述根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,包括:
提取每一帧所述训练图像中包括的训练人脸特征向量;
将每一帧所述训练图像包括的所述训练人脸特征向量映射到训练转换图像中,所述训练转换图像的大小与每一帧所述训练图像的大小相同;
根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络。
可选地,所述根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络,包括:
根据每一帧所述训练图像对应的所述训练转换图像对第一生成式对抗网络GAN进行训练,以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像;
根据每一帧所述训练图像对应的所述训练转换图像和训练后的所述第一GAN,对第二GAN进行训练,以使所述第二GAN中的生成器能够生成包括所述目标人物的图像;
根据训练后的所述第一GAN中的生成器和训练后的所述第二GAN中的生成器,生成所述人脸生成网络。
可选地,所述根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络,包括:
根据每一帧所述训练图像对应的所述训练转换图像对第三GAN进行训练,以使所述第三GAN中的生成器能够生成包括所述目标人物的图像,并将训练后的所述第三GAN中的生成器作为所述人脸生成网络。
可选地,所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,包括:
将所述第一转换图像与历史目标图像组合为第二转换图像,所述历史目标图像为,所述源视频中在所述源图像之前的至少一帧图像对应的目标图像;
将所述第二转换图像作为所述人脸生成网络的输入,以获取所述人脸生成网络输出的第三转换图像;
从所述第三转换图像中删除所述历史目标图像,以获取所述目标图像。
根据本公开实施例的第二方面,提供一种图像的生成装置,所述装置包括:
提取模块,用于按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,所述初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,所述源图像为包括所述源人物的源视频中的任一帧图像;
映射模块,用于将所述初始人脸特征向量映射到第一转换图像中,所述第一转换图像的大小与所述源图像的大小相同;
生成模块,用于根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,所述目标图像中所述目标人物的面部表情与所述源图像中所述源人物的面部表情相同。
可选地,所述装置还包括:
训练模块,用于在所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像之前,根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,所述训练视频为包括所述目标人物的视频。
可选地,所述训练模块包括:
提取子模块,用于提取训练视频中的每一帧训练图像包括的训练人脸特征向量,所述训练视频为包括所述目标人物的视频;
映射子模块,用于将每一帧所述训练图像包括的所述训练人脸特征向量映射到训练转换图像中,所述训练转换图像的大小与每一帧所述训练图像的大小相同;
生成子模块,根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络。
可选地,所述生成子模块用于:
根据每一帧所述训练图像对应的所述训练转换图像对第一生成式对抗网络GAN进行训练,以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像;
根据每一帧所述训练图像对应的所述训练转换图像和训练后的所述第一GAN,对第二GAN进行训练,以使所述第二GAN中的生成器能够生成包括所述目标人物的图像;
根据训练后的所述第一GAN中的生成器和训练后的所述第二GAN中的生成器,生成所述人脸生成网络。
可选地,所述生成子模块用于:
根据每一帧所述训练图像对应的所述训练转换图像对第三GAN进行训练,以使所述第三GAN中的生成器能够生成包括所述目标人物的图像,并将训练后的所述第三GAN中的生成器作为所述人脸生成网络。
可选地,所述生成模块包括:
组合子模块,用于将所述第一转换图像与历史目标图像组合为第二转换图像,所述历史目标图像为,所述源视频中在所述源图像之前的至少一帧图像对应的目标图像;
输入子模块,用于将所述第二转换图像作为所述人脸生成网络的输入,以获取所述人脸生成网络输出的第三转换图像;
处理子模块,用于从所述第三转换图像中删除所述历史目标图像,以获取所述目标图像。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面提供的图像的生成方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面提供的图像的生成方法的步骤。
通过上述技术方案,本公开首先按照预设的人脸识别算法,提取包括了源人物的源图像中的初始人脸特征向量,其中,初始人脸特征向量包括了初始人脸动作单元和初始人脸姿态,源图像是包括了源人物的源视频中任一帧图像。之后,将初始人脸特征向量映射到预先设置的,和源图像大小相同的第一转换图像中,最后根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种图像的生成方法的流程图;
图2是根据一示例性实施例示出的另一种图像的生成方法的流程图;
图3是图2所示实施例示出的一种步骤104的流程图;
图4是图1所示实施例示出的一种步骤103的流程图;
图5是根据一示例性实施例示出的一种图像的生成装置的框图;
图6是根据一示例性实施例示出的另一种图像的生成装置的框图;
图7是图6所示实施例示出的一种训练模块204的框图;
图8是图5所示实施例示出的一种生成模块203的框图;
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的图像的生成方法、装置、存储介质和电子设备之前,首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景中可以是给定包含有源人物的源图像和指定的目标人物,生成包含有目标人物的目标图像,且目标图像中的目标人物与源人物的面部表情能够保持一致。
图1是根据一示例性实施例示出的一种图像的生成方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,源图像为包括源人物的源视频中的任一帧图像。
举例来说,首先获取包括了源人物的源视频,源视频中包括多帧图像,在多帧图像中选择任一帧图像作为源图像。之后按照预设的人脸识别算法(例如:Openface模型)提取源图像中包括的源人物的初始人脸特征向量。其中,人脸识别算法通过面部动作编码系统(英文:Facial Action Coding System,缩写:FACS),对源人物的面部动作进行分类得到初始人脸特征向量,初始特征向量中包括初始人脸动作单元(英文:Facial action units)和初始人脸姿态(英文:Facial pose)。初始人脸特征向量可以理解为一个多维向量(例如1*20维的向量),其中每一维能够反映源人物的情绪强度、面部肌肉的强度(即人脸动作单元)、或者源人物的人脸在三个方向上的角度(即人脸姿态),因此初始人脸特征向量包含的信息更完整,能够准确地描述源人物的面部表情。
步骤102,将初始人脸特征向量映射到第一转换图像中,第一转换图像的大小与源图像的大小相同。
示例的,可以预先设置一个与源图像大小尺寸相同的第一转换图像,其中不包括任何图像信息(可以理解为空图像),然后将初始人脸特征向量映射到第一转换图像的中心。
步骤103,根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。
进一步的,可以预先根据包括了目标人物的训练视频来训练人脸生成网络,以使人脸生成网络能够生成包括目标人物人脸的图像,人脸生成网络可以是预设的一种GAN(英文:Generative Adversarial Networks,中文:生成式对抗网络),例如:CycleGAN(英文:Cycle Generative Adversarial Networks,中文:环形生成式对抗网络)、pix2pix模型或者pix2pixHD模型等。之后,将映射了初始人脸特征向量的第一转换图像作为人脸生成网络的输入,以获取目标图像,目标图像中目标人物表现面部表情与源图像中源人物表现出的面部表情相同,从而实现人脸的替换。
需要说明的是,本实施例中是以源视频中的一帧图像来举例说明将源人物的人脸替换为目标人物的人脸的过程,而本公开也可以用于视频中的人脸替换。源视频包括了多帧图像,因此可以按照时间顺序依次将源视频中的每一帧图像作为源图像,重复执行步骤101至103,根据源视频中的每一帧图像生成对应的目标图像,再将生成的多帧目标图像按照时间顺序组合起来,既可以得到包括了目标人物的目标视频,目标视频中目标人物的面部表情与源视频中源人物的面部表情相同。
综上所述,本公开首先按照预设的人脸识别算法,提取包括了源人物的源图像中的初始人脸特征向量,其中,初始人脸特征向量包括了初始人脸动作单元和初始人脸姿态,源图像是包括了源人物的源视频中任一帧图像。之后,将初始人脸特征向量映射到预先设置的,和源图像大小相同的第一转换图像中,最后根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。
图2是根据一示例性实施例示出的另一种图像的生成方法的流程图,如图2所示,在步骤103之前,该方法还包括:
步骤104,根据训练视频中的每一帧训练图像训练人脸生成网络,以使人脸生成网络能够生成包括目标人物的图像,训练视频为包括目标人物的视频。
举例来说,可以先获取包括目标人物的训练视频,训练视频中包括了多帧训练图像,之后根据每一帧训练图像训练人脸生成网络,以使人脸生成网络能够模仿训练图像,生成包括目标人物的图像。在对人脸生成网络的训练过程中,可以先根据每一帧训练图像中包括的人脸特征向量训练一个预先选择的GAN,再将该GAN的生成器作为人脸生成网络。
图3是图2所示实施例示出的一种步骤104的流程图,如图3所示,步骤104可以通过以下步骤来实现:
步骤1041,提取每一帧训练图像中包括的训练人脸特征向量。
步骤1042,将每一帧训练图像包括的训练人脸特征向量映射到训练转换图像中,训练转换图像的大小与每一帧训练图像的大小相同。
步骤1043,根据每一帧训练图像对应的训练转换图像,生成人脸生成网络。
对于训练人脸生成网络的具体过程,例如可以是先按照预设的人脸识别算法提取每一帧训练图像中包括的训练人脸特征向量,其中,每一帧训练图像对应一组训练人脸特征向量。之后将每一帧训练图像包括的训练人脸特征向量映射到,预先设置的与每一帧训练图像大小尺寸相同的训练转换图像中,即每一帧训练图像对应一个训练转换图像。在进行映射之前,每个训练转换图像中都不包括任何图像信息。最后,根据每一帧训练图像对应的训练转换图像来生成人脸生成网络。
具体的,步骤1043中生成人脸生成网络,有两种实现方式:
方式一:
步骤A)根据每一帧训练图像对应的训练转换图像对第一生成式对抗网络GAN进行训练,以使第一GAN中的生成器能够生成包括目标人物的人脸特征点的图像。
步骤B)根据每一帧训练图像对应的训练转换图像和训练后的第一GAN,对第二GAN进行训练,以使第二GAN中的生成器能够生成包括目标人物的图像。
步骤C)根据训练后的第一GAN中的生成器和训练后的第二GAN中的生成器,生成人脸生成网络。
示例的,预先设置第一GAN和第二GAN,第一GAN和第二GAN中都包括生成器G(generator)和判别器D(Discriminator),分别对第一GAN和第二GAN进行训练。首先,可以依次将每一帧训练图像对应的训练转换图像作为第一GAN的输入,第一GAN的生成器用于模仿每一帧训练图像包括的训练人脸特征向量,生成新的人脸特征点(英文:FacialLandmark,缩写:FL)。其中,人脸特征点可以理解为能够描述人脸轮廓、特征的多个特征点,例如:眼角、瞳孔、嘴巴、鼻子等。之后将新的人脸特征点与每一帧训练图像包括的人脸特征点输入第一GAN的判别器,以判断新的人脸特征点的真假。再根据判断结果调整第一GAN的生成器和判别器的参数(可以理解为关联度和权重),直至第一GAN的损失函数最小,此时第一GAN完成训练。其中,第一GAN可以为L1=LGAN1(G1,D1)+LL1(G1(x),y),其中,LGAN1(G1,D1)=E(x,y)[logD1(x,y)]+Ex[log(1-D1(x,G1(x)))]为第一GAN的生成器和判别器的损失函数,LL1(G1(x),y)为第一GAN的L1重构损失,G1(x)为新的人脸特征点,y为每一帧训练图像包括的人脸特征点,x为每一帧训练图像包括的训练人脸特征向量。
进一步的,再依次将每一帧训练图像对应的训练转换图像作为训练后的第一GAN的生成器的输入,将训练后的第一GAN的生成器的输出作为第二GAN的输入,第二GAN的生成器用于模仿每一帧训练后的第一GAN的生成器输出的新的人脸特征点,生成包括目标人物的新的图像。之后将新的图像与每一帧训练图像输入第二GAN的判别器,以判断新的图像的真假。再根据判断结果调整第二GAN的生成器和判别器的参数(可以理解为关联度和权重),直至第二GAN的损失函数最小,此时第二GAN完成训练。同样的,第二GAN的损失函数可以为L2=LGAN2(G2,D2)+LL1(G2(x),y),其中,LGAN2(G2,D2)=E(x,y)[logD2(x,y)]+Ex[log(1-D2(x,G2(x)))]为第二GAN的生成器和判别器的损失函数,LL1(G2(x),y)为第二GAN的L1重构损失,G2(x)为新的图像,y为每一帧训练图像,x为每一帧训练后的第一GAN的生成器输出的新的人脸特征点。
最后将训练后的第一GAN中的生成器和训练后的第二GAN的生成器组成人脸生成网络。该方式训练得到的人脸生成网络,输入人脸特征向量,首先生成对应的人脸特征点,再根据人脸特征点生成包括目标人物的图像。
方式二:
步骤D)根据每一帧训练图像对应的训练转换图像对第三GAN进行训练,以使第三GAN中的生成器能够生成包括目标人物的图像,并将训练后的第三GAN中的生成器作为人脸生成网络。
在另一种实现方式中,可以利用每一帧训练图像对应的训练转换图像直接训练第三GAN,使得第三GAN中的生成器能够生成包括目标人物的图像。进一步的,为了使人物的表情能够更连贯自然,可以预先对图像进行处理,加入时序相关性。例如,可以先将训练转换图像中相邻的多帧图像拼接成多幅组合图像,例如:有100帧训练转换图像,可以按照长度为4帧的滑动窗口,将第一帧至第四帧拼接为一幅组合图像,再将第二帧至第五帧拼接为一幅组合图像,依次类推,可以得到97幅组合图像。之后将多幅组合图像中包括的人脸特征向量(包括多组初始人脸特征向量)作为第三GAN的输入,第三GAN的生成器用于模仿每一幅组合图像,生成新的图像。再将新的图像与每一幅组合图像先经过卷积神经网络,例如:VGG(英文:Visual Geometry Group Network)网络,提取图像中的卷积特征,再输入第三GAN的判别器,以判断新的图像的真假。再根据判断结果调整第三GAN的生成器和判别器的参数,直至第三GAN的损失函数最小,此时将第三GAN中的生成器作为人脸生成网络。
其中,第三GAN的损失函数可以为L=Lts(G,D)+LVGG+LL1,其中,LL1为第三GAN的L1重构损失,LVGG为感知损失,Lts(G,D)=E(x,y)[logD(x,y)]+Ex[log(1-D(x,G(x)))]为第三GAN的生成器和判别器的损失函数,G(x)为新的图像,y为任一幅组合图像,x为任一幅组合图像中包括的人脸特征向量。通过该方式训练得到的人脸生成网络,输入人脸特征向量,可以直接生成包括目标人物的图像。
图4是图1所示实施例示出的一种步骤103的流程图,如图4所示,步骤103可以通过以下步骤来实现:
步骤1031,将第一转换图像与历史目标图像组合为第二转换图像,历史目标图像为,源视频中在源图像之前的至少一帧图像对应的目标图像。
步骤1032,将第二转换图像作为人脸生成网络的输入,以获取人脸生成网络输出的第三转换图像。
步骤1033,从第三转换图像中删除历史目标图像,以获取目标图像。
举例来说,由于人物的表情具有时序相关性,因此源图像中的初始人脸特征向量与源视频中源图像之前的图像中包含的初始人脸特征向量具有时序相关性,为了保留相应的时序相关性,使人物的表情能够更连贯自然,可以先将第一转换图像与历史目标图像组合为第二转换图像作为人脸生成网络的输入。人脸生成网络输出的第三转换图像,还包括了历史目标图像对应的图像内容,因此还需要从第三转换图像中删除历史目标图像,以得到目标图像。其中,历史目标图像为,源视频中在源图像之前的至少一帧图像在执行步骤101至103后获得的目标图像。例如,历史目标图像包括Gt-1、Gt-2和Gt-3,目标图像为Gt,第一转换图像为Xt,那么第二转换图像可以是从左至右依次将Xt、Gt-1、Gt-2和Gt-3拼接得到的图像。将第二转换图像作为人脸生成网络的输入,得到第三转换图像,再将第三转换图像中,右侧三个目标图像大小的图像删除,得到Gt。历史目标图像的数量越多,相应的计算量也越大,得到的目标图像也越准确,可以根据终端或服务器的计算能力来设定历史目标图像的数量。
需要说明的是,本公开实施例中的每一步骤可以是通过终端来实现,也可以通过服务器来实现,例如,用户可以通过终端将源图像发送至服务器,由服务器对源图像中的每一帧图像执行步骤101至103获得目标图像,服务器再将目标图像发送给终端。其中,服务器例如可以是具有物理实体的服务器,也可以是云端服务器,终端例如可以是智能手机、平板电脑、智能电视、智能手表、PDA(Personal Digital Assistant,个人数字助理)、便携计算机等移动终端,也可以是台式计算机等固定终端。
综上所述,本公开首先按照预设的人脸识别算法,提取包括了源人物的源图像中的初始人脸特征向量,其中,初始人脸特征向量包括了初始人脸动作单元和初始人脸姿态,源图像是包括了源人物的源视频中任一帧图像。之后,将初始人脸特征向量映射到预先设置的,和源图像大小相同的第一转换图像中,最后根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。
图5是根据一示例性实施例示出的一种图像的生成装置的框图,如图5所示,该装置200包括:
提取模块201,用于按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,源图像为包括源人物的源视频中的任一帧图像。
映射模块202,用于将初始人脸特征向量映射到第一转换图像中,第一转换图像的大小与源图像的大小相同。
生成模块203,用于根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。
图6是根据一示例性实施例示出的另一种图像的生成装置的框图,如图6所示,该装置200还包括:
训练模块204,用于在根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像之前,根据训练视频中的每一帧训练图像训练人脸生成网络,以使人脸生成网络能够生成包括目标人物的图像,训练视频为包括目标人物的视频。
图7是图6所示实施例示出的一种训练模块204的框图,如图7所示,训练模块204包括:
提取子模块2041,用于提取训练视频中的每一帧训练图像包括的训练人脸特征向量,训练视频为包括目标人物的视频。
映射子模块2042,用于将每一帧训练图像包括的训练人脸特征向量映射到训练转换图像中,训练转换图像的大小与每一帧训练图像的大小相同。
生成子模块2043,根据每一帧训练图像对应的训练转换图像,生成人脸生成网络。
其中,生成子模块2043可以通过两种方式来实现:
方式一:
步骤A)根据每一帧训练图像对应的训练转换图像对第一生成式对抗网络GAN进行训练,以使第一GAN中的生成器能够生成包括目标人物的人脸特征点的图像。
步骤B)根据每一帧训练图像对应的训练转换图像和训练后的第一GAN,对第二GAN进行训练,以使第二GAN中的生成器能够生成包括目标人物的图像。
步骤C)根据训练后的第一GAN中的生成器和训练后的第二GAN中的生成器,生成人脸生成网络。
方式二:
步骤D)根据每一帧训练图像对应的训练转换图像对第三GAN进行训练,以使第三GAN中的生成器能够生成包括目标人物的图像,并将训练后的第三GAN中的生成器作为人脸生成网络。
图8是图5所示实施例示出的一种生成模块203的框图,如图8所示,生成模块203包括:
组合子模块2031,用于将第一转换图像与历史目标图像组合为第二转换图像,历史目标图像为,源视频中在源图像之前的至少一帧图像对应的目标图像。
输入子模块2032,用于将第二转换图像作为人脸生成网络的输入,以获取人脸生成网络输出的第三转换图像。
处理子模块2033,用于从第三转换图像中删除历史目标图像,以获取目标图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先按照预设的人脸识别算法,提取包括了源人物的源图像中的初始人脸特征向量,其中,初始人脸特征向量包括了初始人脸动作单元和初始人脸姿态,源图像是包括了源人物的源视频中任一帧图像。之后,将初始人脸特征向量映射到预先设置的,和源图像大小相同的第一转换图像中,最后根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。
图9是根据一示例性实施例示出的一种电子设备300的框图。如图9所示,该电子设备300可以包括:处理器301,存储器302。该电子设备300还可以包括多媒体组件303,输入/输出(I/O)接口304,以及通信组件305中的一者或多者。
其中,处理器301用于控制该电子设备300的整体操作,以完成上述的图像的生成方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件305可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的图像的生成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的图像的生成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器302,上述程序指令可由电子设备300的处理器301执行以完成上述的图像的生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由所述可编程的装置执行时用于执行上述图像的生成方法的代码部分。
综上所述,本公开首先按照预设的人脸识别算法,提取包括了源人物的源图像中的初始人脸特征向量,其中,初始人脸特征向量包括了初始人脸动作单元和初始人脸姿态,源图像是包括了源人物的源视频中任一帧图像。之后,将初始人脸特征向量映射到预先设置的,和源图像大小相同的第一转换图像中,最后根据第一转换图像和预设的人脸生成网络,生成包括目标人物的目标图像,目标图像中目标人物的面部表情与源图像中源人物的面部表情相同。能够根据源图像中包括的人脸特征向量,生成目标图像,使得目标图像中的目标人物与源人物的面部表情相同,提高了人脸替换的效率和准确度。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (14)

1.一种图像的生成方法,其特征在于,所述方法包括:
按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,所述初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,所述源图像为包括所述源人物的源视频中的任一帧图像;
将所述初始人脸特征向量映射到第一转换图像中,所述第一转换图像的大小与所述源图像的大小相同;
根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,所述目标图像中所述目标人物的面部表情与所述源图像中所述源人物的面部表情相同。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像之前,所述方法还包括:
根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,所述训练视频为包括所述目标人物的视频。
3.根据权利要求2所述的方法,其特征在于,所述根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,包括:
提取每一帧所述训练图像中包括的训练人脸特征向量;
将每一帧所述训练图像包括的所述训练人脸特征向量映射到训练转换图像中,所述训练转换图像的大小与每一帧所述训练图像的大小相同;
根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络。
4.根据权利要求3所述的方法,其特征在于,所述根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络,包括:
根据每一帧所述训练图像对应的所述训练转换图像对第一生成式对抗网络GAN进行训练,以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像;
根据每一帧所述训练图像对应的所述训练转换图像和训练后的所述第一GAN,对第二GAN进行训练,以使所述第二GAN中的生成器能够生成包括所述目标人物的图像;
根据训练后的所述第一GAN中的生成器和训练后的所述第二GAN中的生成器,生成所述人脸生成网络。
5.根据权利要求3所述的方法,其特征在于,所述根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络,包括:
根据每一帧所述训练图像对应的所述训练转换图像对第三GAN进行训练,以使所述第三GAN中的生成器能够生成包括所述目标人物的图像,并将训练后的所述第三GAN中的生成器作为所述人脸生成网络。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,包括:
将所述第一转换图像与历史目标图像组合为第二转换图像,所述历史目标图像为,所述源视频中在所述源图像之前的至少一帧图像对应的目标图像;
将所述第二转换图像作为所述人脸生成网络的输入,以获取所述人脸生成网络输出的第三转换图像;
从所述第三转换图像中删除所述历史目标图像,以获取所述目标图像。
7.一种图像的生成装置,其特征在于,所述装置包括:
提取模块,用于按照预设的人脸识别算法,提取源图像中包括的源人物的初始人脸特征向量,所述初始人脸特征向量包括:初始人脸动作单元和初始人脸姿态,所述源图像为包括所述源人物的源视频中的任一帧图像;
映射模块,用于将所述初始人脸特征向量映射到第一转换图像中,所述第一转换图像的大小与所述源图像的大小相同;
生成模块,用于根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像,所述目标图像中所述目标人物的面部表情与所述源图像中所述源人物的面部表情相同。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
训练模块,用于在所述根据所述第一转换图像和预设的人脸生成网络,生成包括所述目标人物的目标图像之前,根据训练视频中的每一帧训练图像训练所述人脸生成网络,以使所述人脸生成网络能够生成包括所述目标人物的图像,所述训练视频为包括所述目标人物的视频。
9.根据权利要求8所述的装置,其特征在于,所述训练模块包括:
提取子模块,用于提取训练视频中的每一帧训练图像包括的训练人脸特征向量,所述训练视频为包括所述目标人物的视频;
映射子模块,用于将每一帧所述训练图像包括的所述训练人脸特征向量映射到训练转换图像中,所述训练转换图像的大小与每一帧所述训练图像的大小相同;
生成子模块,根据每一帧所述训练图像对应的所述训练转换图像,生成所述人脸生成网络。
10.根据权利要求9所述的装置,其特征在于,所述生成子模块用于:
根据每一帧所述训练图像对应的所述训练转换图像对第一生成式对抗网络GAN进行训练,以使所述第一GAN中的生成器能够生成包括所述目标人物的人脸特征点的图像;
根据每一帧所述训练图像对应的所述训练转换图像和训练后的所述第一GAN,对第二GAN进行训练,以使所述第二GAN中的生成器能够生成包括所述目标人物的图像;
根据训练后的所述第一GAN中的生成器和训练后的所述第二GAN中的生成器,生成所述人脸生成网络。
11.根据权利要求9所述的装置,其特征在于,所述生成子模块用于:
根据每一帧所述训练图像对应的所述训练转换图像对第三GAN进行训练,以使所述第三GAN中的生成器能够生成包括所述目标人物的图像,并将训练后的所述第三GAN中的生成器作为所述人脸生成网络。
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述生成模块包括:
组合子模块,用于将所述第一转换图像与历史目标图像组合为第二转换图像,所述历史目标图像为,所述源视频中在所述源图像之前的至少一帧图像对应的目标图像;
输入子模块,用于将所述第二转换图像作为所述人脸生成网络的输入,以获取所述人脸生成网络输出的第三转换图像;
处理子模块,用于从所述第三转换图像中删除所述历史目标图像,以获取所述目标图像。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
CN201910522940.XA 2019-06-17 2019-06-17 图像的生成方法、装置、存储介质和电子设备 Active CN110349232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910522940.XA CN110349232B (zh) 2019-06-17 2019-06-17 图像的生成方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910522940.XA CN110349232B (zh) 2019-06-17 2019-06-17 图像的生成方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110349232A true CN110349232A (zh) 2019-10-18
CN110349232B CN110349232B (zh) 2023-04-07

Family

ID=68182210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910522940.XA Active CN110349232B (zh) 2019-06-17 2019-06-17 图像的生成方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110349232B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753264A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 视频生成方法、装置及设备
CN111428652A (zh) * 2020-03-27 2020-07-17 恒睿(重庆)人工智能技术研究院有限公司 一种生物特征管理方法、系统、设备及介质
CN111583105A (zh) * 2020-05-14 2020-08-25 厦门美图之家科技有限公司 人像生成方法、装置、设备及存储介质
CN112101320A (zh) * 2020-11-18 2020-12-18 北京世纪好未来教育科技有限公司 模型训练方法、图像生成方法、装置、设备及存储介质
CN112541966A (zh) * 2020-12-09 2021-03-23 南京航空航天大学 一种基于重建和生成网络的人脸替换方法
CN113033442A (zh) * 2021-03-31 2021-06-25 清华大学 基于StyleGAN的高自由度人脸驱动方法和装置
CN114422862A (zh) * 2021-12-24 2022-04-29 上海浦东发展银行股份有限公司 服务视频生成方法、装置、设备、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599817A (zh) * 2016-12-07 2017-04-26 腾讯科技(深圳)有限公司 一种人脸替换方法及装置
CN107067429A (zh) * 2017-03-17 2017-08-18 徐迪 基于深度学习的人脸三维重建和人脸替换的视频编辑系统及方法
CN107316020A (zh) * 2017-06-26 2017-11-03 司马大大(北京)智能系统有限公司 人脸替换方法、装置及电子设备
US20180144185A1 (en) * 2016-11-21 2018-05-24 Samsung Electronics Co., Ltd. Method and apparatus to perform facial expression recognition and training
CN109087380A (zh) * 2018-08-02 2018-12-25 咪咕文化科技有限公司 一种漫画动图生成方法、装置及存储介质
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144185A1 (en) * 2016-11-21 2018-05-24 Samsung Electronics Co., Ltd. Method and apparatus to perform facial expression recognition and training
CN106599817A (zh) * 2016-12-07 2017-04-26 腾讯科技(深圳)有限公司 一种人脸替换方法及装置
CN107067429A (zh) * 2017-03-17 2017-08-18 徐迪 基于深度学习的人脸三维重建和人脸替换的视频编辑系统及方法
CN107316020A (zh) * 2017-06-26 2017-11-03 司马大大(北京)智能系统有限公司 人脸替换方法、装置及电子设备
CN109087380A (zh) * 2018-08-02 2018-12-25 咪咕文化科技有限公司 一种漫画动图生成方法、装置及存储介质
CN109635745A (zh) * 2018-12-13 2019-04-16 广东工业大学 一种基于生成对抗网络模型生成多角度人脸图像的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753264A (zh) * 2019-10-23 2020-02-04 支付宝(杭州)信息技术有限公司 视频生成方法、装置及设备
CN110753264B (zh) * 2019-10-23 2022-06-07 支付宝(杭州)信息技术有限公司 视频生成方法、装置及设备
CN111428652A (zh) * 2020-03-27 2020-07-17 恒睿(重庆)人工智能技术研究院有限公司 一种生物特征管理方法、系统、设备及介质
CN111583105A (zh) * 2020-05-14 2020-08-25 厦门美图之家科技有限公司 人像生成方法、装置、设备及存储介质
CN112101320A (zh) * 2020-11-18 2020-12-18 北京世纪好未来教育科技有限公司 模型训练方法、图像生成方法、装置、设备及存储介质
CN112541966A (zh) * 2020-12-09 2021-03-23 南京航空航天大学 一种基于重建和生成网络的人脸替换方法
CN113033442A (zh) * 2021-03-31 2021-06-25 清华大学 基于StyleGAN的高自由度人脸驱动方法和装置
CN114422862A (zh) * 2021-12-24 2022-04-29 上海浦东发展银行股份有限公司 服务视频生成方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN110349232B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110349232A (zh) 图像的生成方法、装置、存储介质和电子设备
US11587279B2 (en) Augmented facial animation
CN110457994B (zh) 人脸图像生成方法及装置、存储介质、计算机设备
CN110349081B (zh) 图像的生成方法、装置、存储介质和电子设备
CN111191599B (zh) 姿态识别方法、装置、设备及存储介质
US20200125920A1 (en) Interaction method and apparatus of virtual robot, storage medium and electronic device
US9799133B2 (en) Facial gesture driven animation of non-facial features
CN108234870A (zh) 图像处理方法、装置、终端及存储介质
CN107705341B (zh) 用户表情头像生成的方法及其装置
CN106161939A (zh) 一种照片拍摄方法及终端
CN111080759A (zh) 一种分镜效果的实现方法、装置及相关产品
CN108491808B (zh) 用于获取信息的方法及装置
CN105451090B (zh) 图像处理方法和图像处理装置
CN109035415B (zh) 虚拟模型的处理方法、装置、设备和计算机可读存储介质
CN111107278B (zh) 图像处理方法、装置、电子设备及可读存储介质
CN112581635B (zh) 一种通用的快速换脸方法、装置、电子设备和存储介质
CN104268921A (zh) 3d人脸表情控制方法及系统
CN106502401B (zh) 一种图像控制方法及装置
CN110349577A (zh) 人机交互方法、装置、存储介质及电子设备
CN108459707A (zh) 一种利用智能终端识别动作并控制机器人的系统
CN111104827A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN110415171B (zh) 图像处理方法、装置及存储介质、电子设备
WO2023035725A1 (zh) 虚拟道具展示方法及装置
CN110347246B (zh) 人机交互方法、装置、存储介质及电子设备
CN109753150A (zh) 人物动作控制方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant