CN116310008B - 一种基于少样本学习的图像处理方法及相关设备 - Google Patents

一种基于少样本学习的图像处理方法及相关设备 Download PDF

Info

Publication number
CN116310008B
CN116310008B CN202310526391.XA CN202310526391A CN116310008B CN 116310008 B CN116310008 B CN 116310008B CN 202310526391 A CN202310526391 A CN 202310526391A CN 116310008 B CN116310008 B CN 116310008B
Authority
CN
China
Prior art keywords
image
sample
network
face
cartoon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310526391.XA
Other languages
English (en)
Other versions
CN116310008A (zh
Inventor
周漾
李盛树
黄惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202310526391.XA priority Critical patent/CN116310008B/zh
Publication of CN116310008A publication Critical patent/CN116310008A/zh
Application granted granted Critical
Publication of CN116310008B publication Critical patent/CN116310008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于少样本学习的图像处理方法及相关设备,所述方法包括:获取目标人脸图像,将目标人脸图像输入到少样本局部组件翻译网络进行图像风格化和裁剪处理,并输出风格化人脸局部组件;将目标人脸图像输入到少样本人脸关键点预测网络中进行人脸关键点检测,输出目标人脸图像的预测关键点;根据预测关键点将风格化人脸局部组件进行组合,得到中间动漫化图像;将中间动漫化图像通过全局细化网络进行逆映射处理,得到目标人脸图像的最终动漫化图像。本发明通过基于跨域中心一致性损失实现了一种两阶段的渐进式人脸图像动漫化的方法,使得用户可以输入任意真实人像,便获得具有动漫风格及保持人物特征信息的动漫化图像。

Description

一种基于少样本学习的图像处理方法及相关设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于少样本学习的图像处理方法及相关设备。
背景技术
随着元宇宙概念的兴起,为用户创建虚拟形象成为热门话题之一,相比于采用三维重建等方式创建真实感数字替身,动漫形象因其具有炫酷而个性化的特点,更受用户青睐;制作动漫形象的首要任务是进行人脸的动漫化,因为人类感知力对人脸的身份认同十分敏感,更趋近于关注人脸的特征;虽然可以依靠艺术家或建模师通过数位板等工具对人脸进行动漫化,但往往需要很强的专业知识,同时消耗大量的人力资源,并且不同的艺术家设计的风格也不能够保持统一,效率比较低下;因此,对于人脸的动漫化的自动化生成具有很高的应用价值。
人脸动漫化,即是人脸图像的动漫风格化,其目标是将用户输入的真实人脸图像转化为动漫风格,同时尽量保持图像中人脸身份不变;早期方法源自著名的神经风格迁移(Neural Style Transfer),然而神经风格迁移最终被证明更适合于笔触纹理丰富的艺术化风格迁移,如油画、水墨画风格等。对于动漫风格,由于其简洁的色彩和夸张的几何形变,风格迁移往往无法获得令人满意的效果;随后,图像翻译(Image-to-Image Translation)相关方法的提出,引发基于深度学习网络(主要是生成对抗网络(GAN))提出了一系列专门用于人脸动漫化的工作;然而现有这些方法都需要大量的训练数据(从100+到1000+),这极大的限制了多样性风格的学习和在实际中的应用;如何基于少样本动漫化示例数据,来快速学习风格特征是当前人脸图像动漫化亟待解决的首要问题;然而少样本学习是当前深度学习的一大难点,尤其是对于图像生成问题;目前,基于在大数据下预训练的StyleGAN(风格生成对抗网络)图像生成模型,首次实现了将预训练好的StyleGAN图像迁移到由最多10个样本定义的目标域,完成了在少样本下的跨域迁移任务,实现少样本图像生成;方法的核心是在生成对抗网络的域迁移(GAN Adaptation,后文统一简称为GAN域迁移)过程中引入度量学习,通过约束实例之间的相对相似度来保持数据的多样性,以防止少样本数据集上过拟合;使用域迁移后的StyleGAN模型,结合GAN(生成对抗网络)逆映射(GAN Inversion)技术,便可实现少样本数据集下的人脸风格化;该方法虽然获得了一定的成功,但其动漫化图像与输入图像存在较大的身份偏差,同时通过GAN逆映射技术得到的图像颜色也存在偏差;而后续的实验结果也证明了约束相对相似度对于身份保持是不够的,因此,为了保持人脸结构,研究人员引入了一组空间结构约束,但该约束抑制了形状变形,并可能导致视觉伪影;在进行少数样本域迁移的同时,研究人员试图用GAN逆映射技术产生的假数据来微调预训练的StyleGAN模型,其中提出了几个特征的约束进行参数微调;还提出使用GAN逆映射为风格样例生成“真实人脸”,并进行风格混合(Style mixing),从而构成假的训练对StyleGAN模型进行过拟合训练;以上两个方法都可以适用于单样本风格化的极端情况,但不能有效捕捉样例风格,处理具有较大形状变形的风格,而动漫化通常带有较大的脸部夸张形式。
早期纹理合成方法无法实现动漫风格的夸张,同时无法保证颜色上与风格参照图的统一;而目前的少样本图像生成方法虽然实现了少样本数据集上的风格化图像生成,但是其对人物身份的约束不足,导致无法保持身份;或者存在人物身份约束过强,导致风格化效果降低的问题,同时因为是图像生成网络,无法完成图像翻译任务;有的虽然实现了少样本甚至是单样本的人物动漫化模型,但是不能够捕捉样例风格,在输入存在巨大形状夸张的动漫风格时,生成的图像夸张化不足。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于少样本学习的图像处理方法及相关设备,旨在解决现有技术中在对真实人脸图像进行动漫化处理过程中动漫风格和人脸特征无法同时保持,使得生成的动漫化图像的效果无法满足用户需求的问题。
为实现上述目的,本发明提供一种基于少样本学习的图像处理方法,所述基于少样本学习的图像处理方法包括如下步骤:
获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;
基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;
根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;
将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。
此外,为实现上述目的,本发明还提供一种基于少样本学习的图像处理系统,其中,所述基于少样本学习的图像处理系统包括:
目标人脸图像输入模块,用于获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;
目标人脸图像处理模块,用于基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;
中间动漫化图像生成模块,用于根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;
最终动漫化图像生成模块,用于将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。
此外,为实现上述目的,本发明还提供一种终端,其中,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于少样本学习的图像处理程序,所述基于少样本学习的图像处理程序被所述处理器执行时实现如上所述的基于少样本学习的图像处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于少样本学习的图像处理程序,所述基于少样本学习的图像处理程序被处理器执行时实现如上所述的基于少样本学习的图像处理方法的步骤。
本发明中,获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。本发明通过采用一种适用于GAN(生成对抗网络)域迁移的跨域中心一致性损失和基于两阶段的少样本肖像动漫化网络来对人脸图像进行动漫化处理,可以实时对真实人脸图像进行动漫化图像生成,生成的动漫化图像同时具有良好的动漫风格特征和人脸特征保持。
附图说明
图1是本发明基于少样本学习的图像处理方法的较佳实施例的流程图;
图2是本发明基于少样本学习的图像处理方法的较佳实施例的少样本动漫风格数据集示意图;
图3是本发明基于少样本学习的图像处理系统的较佳实施例的基于跨域中心一致性损失的少样本卡通生成网络框架示意图;
图4是本发明基于少样本学习的图像处理系统的较佳实施例的跨域中心一致性损失与跨域一致性在潜在空间上的对比示意图;
图5是本发明基于少样本学习的图像处理系统的较佳实施例的锚点区域示意图;
图6是本发明基于少样本学习的图像处理系统的较佳实施例的基于少样本人脸动漫化流程的示意图;
图7是本发明基于少样本学习的图像处理系统的较佳实施例的基于人脸面部组件的动漫化图像示意图;
图8是本发明基于少样本学习的图像处理系统的较佳实施例的 HED提取图像边缘示意图;
图9是本发明基于少样本学习的图像处理系统的较佳实施例的构建人脸关键点数据集示意图;
图10是本发明基于少样本学习的图像处理系统的较佳实施例的动漫人脸微调示意图;
图11是本发明基于少样本学习的图像处理系统的较佳实施例的与现有先进的人脸风格化处理方法进行定性对比示意图;
图12是本发明基于少样本学习的图像处理系统的较佳实施例的结构图;
图13为本发明终端的较佳实施例的结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中在进行少数样本域迁移的同时,研究人员试图用GAN(生成对抗网络)逆映射技术产生的假数据来微调预训练的StyleGAN(风格生成对抗网络)模型 ,其中使用GAN逆映射为风格样例生成“真实人脸”,并进行风格混合,从而利用假数据对StyleGAN模型进行过拟合训练。以上两个方法都可以适用于单样本风格化的极端情况,但不能有效捕捉样例风格,处理具有较大形状变形的风格,而动漫化通常带有较大的脸部夸张形式。
针对以上缺点,本发明提出了一个跨域中心一致性损失,该损失能够对预训练网络的潜在空间分布进行进一步约束,加强生成的多样性,其图像生成结果相比现有方法有更高质量的风格化和身份保持。同时,本发明在提出跨域中心一致性损失的基础上,提出了一个基于两阶段的人脸渐进肖像化方法,该方法针对当前存在的人物身份保持不足及风格化不足的问题,运用两阶段渐进式风格化的方法进行解决,实现在保持风格化的基础上,保持人物身份信息。
本发明的目标是基于深度学习技术,研究少样本人脸动漫化问题,使得用户可输入任意的人脸,实时获取特定风格的动漫化图像,或者自定义动漫风格,生成对应风格的人脸动漫。
本发明分两步完成:首先,本发明提出了一种基于跨域中心一致性损失的动漫化图像生成方法,该方法可实现具有风格化及保持人物身份的动漫化图像生成;此外,本发明基于跨域中心一致性损失发明了一种两阶段的渐进式肖像动漫化方法,使得用户可以输入任意真实人像,获得具有目标风格化及保持人物身份信息的动漫化图像。
本发明提出了一整套全新的少样本人脸肖像化方法,实现了高质量的肖像动漫化生成与肖像动漫化翻译。具体来说,本发明首先设计了一种新颖的适用于GAN域迁移的跨域中心一致性损失,该损失能够对隐式空间进行更有效的约束,得到相比现有方法更好的域迁移结果,实现具有风格化及保持人物身份的动漫化生成。通过定量实验以及消融实验,证明了该方法在GAN域迁移上的有效性。
为进一步完成肖像动漫化翻译任务,本发明提出基于两阶段的少样本肖像动漫化网络,该网络由局部组件翻译网络,少样本关键点预测网络及全局细化网络构成。其中少样本关键点预测网络的提出能够更好地应对动漫化中的结构夸张或者形状变形问题,并能够保持人物身份。同时少样本局部组件翻译网络能够针对性学习不同风格在不同部位的风格化效果,并且更好的保持身份信息。通过第二阶段的全局细化网络,能够消除在第一阶段存在的接缝伪影及瑕疵问题,得到更好的风格化图像。
本发明较佳实施例所述的基于少样本学习的图像处理方法,如图1所示,所述基于少样本学习的图像处理方法包括以下步骤:
步骤S10、获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中。
为解决现有技术中人脸转化为动漫化图像过程中存在的人脸特征偏移以及在动漫夸张风格化下人脸特征信息差别大的问题,本发明提出了一种跨域中心一致性损失,该损失能够通过约束真实人脸图像实例与特征中心之间的相对相似性,实现源域(真实人脸)和目标域(动漫化人脸)的对齐,在少样本数据集的情况下,完成对应少样本数据集的风格化,同时能够尽可能保证身份信息。下面将按顺序详细介绍本发明所使用的风格数据集、当前少样本GAN域迁移存在的问题及提出的解决方案,并通过定量实验与定性实验结果对比证明本发明提出的方法的有效性。
其中,所述GAN域迁移指的是通过使用迁移学习的方法,将预训练好的网络进行权重微调,实现迁移后的网络能够应对新的任务。
具体地,在步骤S10之前,首先获取不同风格的少样本数据集,并对所述少样本数据集进行预处理,所述预处理包括关键点标记和人脸对齐。
如图2所示,通过收集公开数据集及邀请艺术家设计,本发明共收集了八种风格动漫的样本数据集,同时每种风格都包含极少的样本数量(10或5个)。在预处理阶段,本发明对每个风格样本使用预训练MTCNN网络(人脸关键点标记网络)进行关键点标记及人脸对齐。其中,根据分类标准,将前四种风格数据集风格1-风格4划分为写实风格,而风格5-风格8的则是夸张的艺术或动漫风格,具有明显的形状变形(例如在风格5上,脸部具有瘦长的风格类型)。
获取人脸大数据集,基于所述人脸大数据集通过第一预设网络进行训练,得到源域生成器和目标域生成器。
其中,给定两个在FFHQ(高清人脸图像数据集)人脸大数据集训练下的StyleGAN(风格生成对抗网络)生成器Fs和Ft。其中,Fs为源域生成器,Ft为目标域生成器,F为目标域,源域生成器Fs能够将随机高斯噪声(此处的随机高斯噪声为网络StyleGAN的必要输入,网络StyleGAN能够将随机高斯噪声输入输出为随机的真实人脸)映射到真实人脸图像,同时另外给定一个少样本风格数据集Dt,本发明的目标是使得在少样本数据集Dt的训练下,生成器Ft能够学习少样本数据集Dt的风格特征,并且能够使得任意输入高斯噪声Z映射到对应少样本数据定义的风格图像,同时尽可能保持身份信息。为了实现该目标,本发明提出了跨域中心一致性损失进行约束,所述跨域是指风格上的跨域,其中,FFHQ为人脸大数据集,StyleGAN为开源的网络,通过将FFHQ划分训练集,直接对StyleGAN网络进行训练,训练损失和StyleGAN保持一致。
下面将从网络设计、跨域中心一致性损失及判别器对抗损失进行详细介绍:
首先,获取随机高斯噪声,将所述随机高斯噪声输入所述源域生成器中,得到源域图像,将所述随机高斯噪声和预处理后的少样本数据集输入所述目标域生成器中,得到目标域图像。
方法概述:对两个在FFHQ下预训练完成的StyleGAN网络进行初始化。假设给定K个随机高斯噪声,固定其中一个生成器作为源域生成器(生成真实人脸),并保证在训练过程中该生成器的网络参数保持不变,同时训练另一个目标域生成器(生成小样本数据集上风格人脸)。
如图3所示(需要说明的是,图3中真实人脸部位进行了马赛克处理,但并不代表真实人脸上存在模糊,后面图5、图6、图8、图9以及图11都按此处理),网络输入随机高斯分布噪声,左侧生成网络固定参数不进行网络训练,通过使用本发明提出的跨域中心一致性损失对右侧生成网络进行迭代训练,最终获得动漫化图像,其中sim为余弦相似度。
本发明首先将输入随机高斯噪声到源域生成器和目标域生成器中,并将通过源域和目标域生成器提取的特征进行跨域中心一致性损失的计算,具体为:对所述源域图像和所述目标域图像增加特征中心,进行相似性计算,并引入特征对齐项,得到基于跨域中心一致性损失的第一少样本肖像动漫生成网络。
所述特征中心初始化为原点,之后在训练过程中根据从特征提取器提取的特征进行平均加权获得。
跨域中心一致性损失设计:现有技术中比较了一批实例之间成对的相对相似性,并将相对相似性的计算结果存储到向量中,使用Softmax(Softmax为一个归一化指数函数,能够将任意数值映射到(0,1)的范围中)进行标准化形成分布后,利用KL散度衡量源域和目标域的分布相似性作为损失函数。然而,保持相对距离并不能防止目标域的特征偏移,如图4中(a)所示,在使用跨域一致性损失时,并不能很好约束特征之间的分布,在存在较大偏移时,仍能够得到相同的损失计算结果。现有技术中进一步提出了一系列的空间结构约束来避免这种特征偏移,虽然能够缓解特征偏移问题,但算法复杂度高,同时强结构约束也导致无法进行夸张风格的生成。相反,本发明为这个问题提供了一个更简单的解决方案-跨域中心一致性损失,即增加特征中心,并对特征进行中心化(中心化指的是:在获得特征提取器提取的特征后,将特征减去前文提到的特征中心,就可以进行中心化),实现相对相似性的计算,同时引入特征对齐项(特征对齐项直接对中心化后的特征进行余弦相似度的计算),其中,所述相对相似性的计算过程为:跨域一致性损失计算单个实例和其他实例之间的相似性,例如假设有实例1…5,首先获得实例1与2、3、4、5的在源域提取的特征的余弦相似度,将该相似度存储到向量中;再获得实例1与2、3、4、5在目标域提取的特征的余弦相似度进行存储;之后再使用Softmax函数对数值进行标准化,使用KL散度计算分布距离。
基于所述第一少样本肖像动漫生成网络通过所述第一预设网络将所述源域图像域迁移到所述目标域图像中。
为了描述的方便,假设批量大小(在深度学习的训练中,批量大小确定了每次训练的迭代中,使用的数据量)为K,为了获得供域迁移训练的样本,本发明从潜在空间(潜在空间指的是高斯分布空间)采样K个噪声{zi-Z},噪声zi的维度与StyleGAN网络的输入保持一致,即1X512。本发明使用StyleGAN网络本身输出的多层特征来计算跨域中心一致性损失。因此,特征和/>则有:/>(5.1),其中,Fs为源域生成器,Ft为目标域生成器,zi为随机采样的高斯噪声,/>为源域中的图像特征,/>为目标域中的图像特征,为源域生成的随机人脸图像,/>为目标域生成的随机动漫风格人脸图像,在训练过程中的第n次迭代中。由于每个特征层的计算都是相同的,为了简单起见,将在以下描述中省略上标l(用于表示第l层特征)。
本发明为每个领域维护一个特征中心,该中心在训练过程中通过平均化批量的中心进行更新:(5.2)。
这里表示源域的中心,/>表示目标域的中心,初始化为0,n表示为中心的个数,/>为源域平均化批量的中心,/>为目标域平均化批量的中心,K为噪声的个数。
本发明提出的跨域中心一致性损失由两个项组成,第一个项是KL散度,类似于跨域一致性损失。它鼓励目标域与源域有相似的成对相似度分布。如图4中(b)所示,本发明使用中心化的特征来计算第i个实例的概率分布:(5.3);
其中,表示余弦相似度,Softmax为归一化函数,/>是中心化后的实例特征,/>为源域中心化特征第i个实例的概率分布,/>为目标域中心化特征第i个实例的概率分布,/>为与/>相邻的中心化后的实例特征,/>为与/>相邻的中心化后的实例特征,中心化特征被证明是更有代表性和更稳定的数据分布模型。
当所述源域图像完成域迁移后,对所述目标域图像进行随机采样,得到目标域训练集,根据所述目标域训练集将所述第一预设网络训练得到一个生成对抗网络逆映射编码器,得到第二少样本肖像动漫生成网络。
计算所述第二少样本肖像动漫生成网络的第一总损失函数,根据所述第一总损失函数对所述第二少样本肖像动漫生成网络进行调整,其中,所述第一总损失函数为跨域中心一致性损失和判别器对抗损失之和,其中,所述跨域中心一致性损失的作用是为了使得源域和目标域的分布尽可能一致。
其中,如图4中(b)所示,配对相似性的匹配不能防止特征向量在目标域中被旋转。为了避免这种情况,本发明另外增加了一个特征对齐项来进一步强制要求相应的样本在中心化后保持相似。因此,本发明的跨域中心一致性损失最终定义为:(5.4),其中,/>为跨域中心一致性损失,/>是数学中计算期望的表达,DKL代表KL散度(Kullback-Leibler divergence,信息散度)的计算,/>是平衡两个项的权重,通常设定为0.01,/>为中心化后的实例特征的余弦相似度,/>为源域中心化特征第i个实例的概率分布,/>为目标域中心化特征第i个实例的概率分布。
对于判别器损失函数,本发明使用宽松对抗性损失(relaxed adversarialloss),该损失假设当前的训练风格样本只构成了所需分布的一个小子集,并且将该假设拓展到了StyleGAN的潜在空间,通过定义锚点区域,当从锚点区域内进行采样时,使用完整的图像级判别器Dimg进行生成图像真实性判别;当从锚点区域外进行采样时,则使用局部判别器Dpatch进行判别,两个判别器之间共享权重,局部判别器的权重是全局判别器权重的子集。根据以上的定义,可以得到判别器损失定义为:(5.5),其中,/>为损失计算,定义为/>(5.6),/>同样为期望计算的表达式;/>为迁域后的少样本风格数据集的损失,/>为少样本风格数据集中一个的损失,X~Dt代表数据x是从少样本风格数据集Dt中获得的;Ladv为判别损失,/>为判别器对抗性损失,定义在公式5.6,Ft为目标域生成器,Dimg为图像级判别器,Dpathch为局部判别器。
如图5所示,为了定义锚点空间以及能够进一步保持空间分布,提高生成的多样性,本发明另外将锚点区域的选取方式进行了修改。为了能够得到更好的初始化空间分布,防止随机采样对于空间分布的影响,本发明将训练的风格图像进行GAN逆映射,转变为真人图像,并将逆映射得到的真人图像的特征作为初始的锚点中心,并通过风格混合得到锚点区域,将该区域内随机采样的点用于GAN域迁移的训练(中间白点为GAN逆映射得到的潜在代码,通过随机扰动(进行风格混合),形成锚点区域)。
本发明提出的基于跨域中心一致性损失的少样本肖像动漫生成网络最终的损失函数包括两项:用于域迁移,保证生成目标域的多样性的跨域中心一致性损失;保证生成效果,防止模式崩溃的判别器对抗损失/>,判别器及生成器的最终优化损失函数项为/>(5.7),其中/>和/>分别为跨域中心一致性损失和对抗损失的训练权重参数,训练时分别为100和1,迭代次数为2000-5000次。
步骤S20、基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点。
步骤S20将主要介绍本发明用于肖像动漫化的两阶段少样本肖像动漫化网络,该网络由三个子网络构成,分别是少样本局部组件翻译网络,对于人脸的局部组件(眼睛、鼻子、嘴巴及头发)进行动漫化;同时有少样本人脸关键点预测网络,用于预测风格化后的人脸关键点,供人脸进行风格化变形,并将局部组件翻译网络得到的风格化图像进行合成,得到中间动漫化图像;最后使用全局细化网络对中间动漫化图像进行进一步风格化,得到最后的动漫化图像。该网络能够应对少样本数据集的风格化,同时能够尽可能保证身份信息。下文将详细介绍少样本局部组件翻译网络、少样本人脸关键点预测网络及全局细化网络,并通过定性实验、消融实验及用户实验证明本发明所提出方法的有效性。
本发明的目标是训练一个模型,能够将自然图像领域的任意真实人脸照片翻译成由小型目标风格数据集定义的某种动漫风格。
如图6所示,本发明的方案主要包含两个阶段。在第一阶段,首先检测面部局部组件(眼睛、鼻子、嘴巴及背景)并训练几个基于CycleGAN(专用局部组件翻译网络),将每个组件翻译到目标域风格。同时,本发明另外训练一个简单的少样本关键点预测网络来学习从真实面部到给定动漫风格的人脸关键点变形。然后,根据预测的关键点,对脸型进行变形,同时将生成的面部组件组装成中间的动漫图像。在第二阶段,本发明首先将在FFHQ数据集上预训练的StyleGAN模型通过少样本GAN域迁移将真实人脸域迁移到动漫领域。然后,通过训练一个GAN逆映射网络,将中间的动漫化图像映射回域迁移后的StyleGAN的潜在空间,得到端到端的翻译模型。最后,本发明进行了一些微调步骤以进一步提高全局细化的质量。
如图6所示,本发明方案包含两个阶段,根据给定的少量风格样本,逐步将输入的人脸图像转变成动漫风格。第一阶段包括局部组件翻译网络,用于局部面部组件的翻译,以及关键点预测网络用于预测由给定风格样本定义的关键点变换。然后,翻译后的组件被组装合成中间的动漫化图像。在第二阶段,首先将预先训练好的StyleGAN生成器与在步骤S10中新提出的跨域中心一致性损失进行少样本GAN域迁移学习,以迁移到动漫领域。然后,为域迁移后的StyleGAN训练一个GAN逆映射编码器,中间的动漫化最终可以通过GAN逆映射来进行整体优化,实现更精细的风格化图像。
本发明中的跨域中心一致性损失将不仅仅适用于全局细化中的GAN域迁移部分,同时将其使用在局部组件翻译网络中,为生成的局部组件图像提供多样性及身份保持。接下来将首先依次介绍少样本局部组件翻译网络和少样本人脸关键点预测网络,以及最后的全局细化网络和微调步骤。
具体地,获取所述少样本数据集中的部分动漫人脸图像,得到第一图像。
其中,在获取所述少样本数据集中的部分动漫人脸图像,得到第一图像之前,预先建立少样本局部组件翻译网络:假设有一个自然人脸照片的训练集,以及一些少样本动漫人脸图像(10张以内)/>。本发明首先使用预训练的MTCNN网络(MTCNN网络与StyleGAN网络不同,是一个用于检测人脸关键点的网络,可直接使用开源的网络进行训练获得)来检测每张真实图像上的五个面部关键点,包括左眼、右眼、鼻子及嘴巴两侧(嘴角)。然后根据关键点,将每张真实图像裁剪成五个单独的组件图像(左眼、右眼、鼻子、嘴巴及头发,其中背景包含在头发组件中)。之后对每个动漫数据实例也进行同样的检测和剪裁操作。
为方便起见,将这些裁剪后的面部组件图像表示为和/>,其中。/>为自然人脸面部组件图像的训练集,/>为动漫图像面部组件图像的训练集,然后用这些未配对的数据,本发明为每一种面部组件训练一个专门的翻译网络/>,实现对于局部组件的风格化,如图7所示。
获取所述目标人脸图像中的第一面部关键点和所述第一图像中的第二面部关键点,其中,所述第一面部关键点和所述第二面部关键点均包括左眼、右眼、鼻子、嘴巴及头发。
根据所述第一面部关键点对所述目标人脸图像进行剪裁,得到所述目标人脸图像的人脸局部组件,根据所述第二面部关键点对所述第一图像进行剪裁,得到所述第一图像的风格化人脸局部组件。
计算所述少样本局部组件翻译网络的第二总损失函数,根据所述第二总损失函数对所述少样本局部组件翻译网络进行调整,其中,所述第二总损失函数为宽松循环损失、严格循环损失、切片瓦瑟斯坦距离损失和宽松对抗损失之和。
所述少样本局部组件翻译网络包括第一生成器和第二生成器,所述第一生成器用于学习映射,所述第二生成器用于学习反向映射。
其中,本发明基于CycleGAN网络架构(CycleGAN是一个图像翻译的网络框架,该框架也是开源的,可以根据该框架架构自定义自己的网络结构)来构建少样本局部翻译网络。具体来说,每个局部翻译网/>包括一个生成器/>,用于学习映射:/>;另一个生成器/>,用于学习反向映射:/>,一个判别器/>学习区分真实样本/>和生成的假样本/>
所述第一生成器由真实人脸部件到动漫人脸部件的正向转换网络构成,所述第二生成器由动漫人脸部件到真实人脸部件的逆向转换网络构成,所述正向转换网络和所述逆向转换网络的网络架构保持一致,所述正向转换网络和所述逆向转换网络中均包含三个用于下采样的卷积层、六个残差块和三个用于上采样的卷积层。
生成器架构:生成器G主要包含由真实人脸部件到动漫人脸部件的网络和由动漫人脸部件到真实人脸部件的逆向转换网络构成/>,两者的网络架构保持一致。网络由三个不同步长的卷积层用于下采样,之后连接六个残差块提取更多的特征信息,最后使用三个上采样及卷积层用于上采样得到原始分辨率的图片,实现图像翻译,所有卷积层后面都跟着实例规范化层(Instance normalization)进行规范化,从而能够更好提取动漫特征。
判别器架构:为了缓解在少样本情况下带来的过拟合问题,在判别器的架构上,本发明采用了两个判别器,图像级(Image-level)判别器和补丁级(Patch-level)判别器,其中补丁级判别器是图像级判别器的子集,两个判别器之间共享权重。判别器由多个特征提取块(每个块包含五个卷积层)构成,并在每个块后对图片进行下采样,输入到下个块中,其中前两个特征提取块提取的特征用于补丁级判别器的判别,最后一个特征提取块得到的结果用于图像级判别器的判别。
损失设计:少样本图像翻译任务的关键在于如何在少量的数据中提取有效的信息,同时防止模式崩溃问题,与此同时,还需要在这个过程中尽可能保证输入与输出的对应。因此,本发明将针对上述的问题,介绍本发明在少样本局部组件翻译网络中使用的各项损失函数。
跨域中心一致性损失:作为一个少样本的任务,本发明首先对使用步骤S10中提出的跨域中心一致性损失进行修改,以应对局部组件翻译网络框架。与前文在随机噪声中进行采样作为批次实例不同,本发明的批次实例是采样的真实面部组件/>。本发明使用预先训练的VGG(感知损失)编码器作为特征提取器。因此,原公式(5.1)中涉及到的源域和目标域的第i个实例相应的多层特征在局部组件翻译网络中被赋予了:(5.8),/>为自然人脸数据集的数学期望,/>为正向生成器下自然人脸数据集的数学期望。
本发明选择用于特征计算的VGG19特征层包括、/>、/>、/>和/>。在确定公式(5.8)中批次实例的特征定义后,跨域中心一致性损失在公式(5.2)-(5.4)的损失函数定义保持不变。
宽松循环损失:本发明在比较输入与它的重构结果/>时,对于前向循环采用宽松的循环损失(Relaxed cycle loss),以防止模式崩溃问题,同时减少嵌入的隐形重构信息:/>(5.9)(如图8所示)。
其中,为宽松的循环损失,/>表示提取的人脸边缘图,/>表示提取的中心化后的人脸边缘图,如图8所示,/>是图像间的LPIPS感知相似度指标损失,因此,该损失只约束两个图像在几何结构上的感知相似性,不要求在像素级上的一致,从而实现减少隐形重构信息。
严格循环损失:本发明在真实风格样本部件和重建风格样本部件之间反向循环施加更强的约束,在对动漫化图像进行强约束下,能够得到更好的风格化图像:/>,其中,/>为绝对值的计算(5.10)。
切片瓦瑟斯坦距离损失:受使用于神经纹理合成的切片瓦瑟斯坦距离(SlicedWasserstein distance)的启发,本发明采用该距离来保证纹理的一致性。切片瓦瑟斯坦距离通过随机采样多个随机的方向(向量),将目标域和源域的局部特征分布分别投影至一维的向量上,并进行排序操作,根据排序结果计算两个分布之间的距离作为损失。本发明中的切片瓦瑟斯坦距离损失定义为:
,其中,/>为片瓦瑟斯坦距离,为动漫人脸图像的数学期望,/>为反向生成器下动漫人脸图像的数学期望(5.11)。
宽松对抗损失:为了缓解有限样本下带来的过拟合问题,采用了两个判别器:一个图像级判别器用于真实数据附近的样本;另一个补丁级判别器用于所有其他样本。有了这种宽松的真实性判别,生成的数据只需要捕捉补丁级的纹理,在图像合成的结构上有更多的自由。本发明在同一个判别器中实现了图像级和补丁级的对抗性损失,对于从训练集以及目标风格实例中取样的图像,将其视为“真实”数据,并使用具有更大感受野的高层特征进行鉴别。相反,对于生成的样本,则使用具有较小感受野的低层特征进行辨别。
然后,对于目标域的判别器,本发明采用了宽松版的最小平方对抗损失,其中。本发明对目标数据应用高斯模糊(用/>表示)作为增强的“假”数据,以保持生成的边缘清晰,因此,损失项由以下方式给出:
(5.12);其中,/>为目标域图像的高斯模糊处理,D和D*代表在网络中使用的图像级和补丁级判别器。
而对于头发(包括背景部分)上的风格化转化,与其他面部组件不同,将使用HED算法提取的边缘图与原图进行拼接作为指导条件输入到网络中。由于头发成分包含背景,本发明发现强制约束边缘图可以使得网络忽略背景信息而集中在头发的合成上。因此,头发部件翻译的最终宽松对抗性损失是:
其中,/>为迁移后的头发组件,/>为风格头发组件,/>为源域头发组件,/>为目标域头发组件,/>为源域头发组件的数学期望,/>为判别器下的头发组件,/>为正向生成器下的头发组件,/>为HED算法下的目标域头发组件,/>为高斯模糊算法下的目标域头发组件(5.13)。
最后对于源域的判别器,本发明使用标准的最小平方对抗性损失,不进行修改:
(5.14)。
本发明最终的少样本局部组件翻译网络训练的总损失函数(在深度学习中,需要根据一个目标函数对网络进行迭代训练,总损失函数就是这个目标函数,网络训练的过程中优化该损失函数,使得损失函数数值最小化,就可以得到想要的结果)定义为:
(5.15);
其中,为最终的少样本局部组件翻译网络训练的总损失函数,/>、/>、/>、/>和/>为损失的权重参数,训练时分别设置为100、10、15、1、1和X10-6,迭代次数为45次。
获取所述目标人脸图像,并检测所述目标人脸图像中的第三面部关键点和脸部轮廓关键点。
其中,在得到动漫化的局部面部组件,并将它们组装成中间动漫化图像之前,需要考虑在许多动漫或艺术风格面部图像中存在的形状变形情况,在本发明中处理了两种几何形变,一是人脸面部组件的相对位置变化,二是面部轮廓变形,并选择使用面部关键点来捕捉这些变形,为处理风格中存在的几何形变问题,本发明训练了一个少样本人脸关键点预测网络P来学习从真实人脸关键点到动漫风格的人脸关键点预测变换,这样它就可以为任何新输入的脸部照片预测一个合理的变形,实现动漫或艺术风格中的夸张风格,为实现少样本人脸关键点预测,本发明首先通过数据增强构建成对的人脸关键点数据集,以模拟不同风格种类的夸张,在这个数据集上对少样本人脸关键点预测网络进行监督训练之后,针对新的风格,可以对给定的风格实例进行无监督的微调操作,以优化关键点预测结果,最终实现对于风格的关键点变形预测。
对所述第三面部关键点采用随机的几何变形方式进行数据扩增,得到所述第三面部关键点的增强数据集,其中,所述几何变形方式包括旋转、平移和缩放。
人脸关键点数据集构建:为了建立一个具有不同风格的成对关键点的合成数据集,本发明从CFD数据集(CFD数据集为开源数据集)随机选择了60张正面脸部图像,并使用预训练的网络检测这些真实面部的5个面部关键点(左眼、右眼、鼻子及两侧嘴角)。为了得到面部轮廓,本发明使用Face of Art预训练模型(夸张人脸关键点检测模型)得到17个脸部轮廓关键点。
如图9所示,对这些自然脸部关键点应用随机的几何变形进行数据扩增,包括旋转、平移/>和缩放/>,从而得到一个具有1500种不同风格的脸部关键点增强数据集,其中每个变形被视为一种新的夸张风格(如图9右侧所示4种夸张风格)。因此,关键点变形的多样性得到了极大的保证,也为少样本人脸关键点预测网络提供了充足的数据集进行训练。
设置预设数量的多层感知器对所述增强数据集进行训练,得到所述目标人脸图像的预测关键点,其中,所述多层感知器包括内容编码器、风格编码器和解码器。
本发明的目标是基于S10中的风格数据集学习一个多风格的关键点到关键点的预测模型。本发明采用三个简单的多层感知器(MLP)设计了少样本人脸关键点预测模型P:一个内容编码器,一个风格编码器/>,和一个解码器/>,网络架构如表1所示。
表1-少样本人脸关键点预测网络结构:
如图6的阶段一的关键点预测部分所示,解码器接收来自/>的内容特征和来自/>的风格特征的在通道上的拼接特征,输出预测的关键点,使得输出结果保持原内容身份的同时,具有目标风格的特征。
在训练过程中,每次都从60张真实面孔中随机抽取一个人脸作为内容关键点x,并从增强数据集中的第i种风格(表示为,其中/>)中抽取K个关键点。为了生成风格i中的目标关键点ri,本发明使用采样的K个关键点的平均风格特征,即,其中,/>为内容编码器处理的源域图像,/>,/>为风格编码器处理的目标域图像。
计算所述少样本人脸关键点预测网络的第三总损失函数,根据所述第三总损失函数对所述少样本人脸关键点预测网络进行调整。
其中,所述第三总损失函数为L1损失、循环损失以及三元组损失之和。
由于有转化后的真实样本能够进行强监督,因此不需要进行对抗性训练也能够达到很好的效果。
本发明选择直接将L1损失、循环损失以及三元组损失作为训练的总损失函数:
(5.16),其中,/>表示x在第i个风格中的对应关系(即真实结果),/> 中的第一项用于对生成结果与真实结果进行L1损失计算,进行有监督的训练;第二项中的/>代表对x的循环重建,因此在第二项进行重建损失计算;最后的三元组损失用来提高关键点风格特征编码的泛化能力:(5.17),其中是三元组损失,/>为内容编码器的目标关键点,为内容编码器的目标域图像关键点,/>为内容编码器的源域图像关键点,该损失约束锚点(anchor)和正例样本(positive)点相近,与负例样本(negative)相斥。在本发明中,在同一风格/变形类别中的两个关键点样本形成一个正例样本对,和另一风格/变形类别形成一个负例样本对。另外,超参数/>、/>和/>分别为L1损失、循环损失和三元组损失的权重参数,在实验中分别设置为100,100和80,迭代次数为1000。
对未见过的风格示例进行微调:在部署之前,需要在给定的风格实例上对进行微调。本发明使用预训练模型来获得新的风格样本数据的关键点。由于在微调阶段,新的风格样本的关键点不具有成对的数据集,因此去掉了公式(5.16)中的L1损失,只使用循环损失和三元组损失对网络进行微调,实现了无监督的微调操作:(5.18),其中,/>为微调损失,/>分别为循环损失和三元组损失的权重参数,权重值和公式(5.16)保持一致。
步骤S30、根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像。
具体来说,本发明采取一个预训练的StyleGAN模型,并使用在步骤S10提出的跨域中心一致性损失对StyleGAN网络进行GAN域迁移,使其迁移到由给定的风格样本定义的目标域。然后,训练一个psp逆映射编码器,并采用它来对中间动漫化进行GAN逆映射。最后,固定psp逆映射编码器并进一步微调StyleGAN权重,优化最终的生成图像。psp逆映射编码器加上GAN域迁移的StyleGAN生成器提供了一个图像到图像的翻译网络,可以全面地改进中间图像,提升风格化效果,去除中间图像的接缝及伪影,同时能够获得少样本局部组件翻译网络和少样本关键点预测网络提供的在形状上的身份保持和风格夸张。
当所述目标人脸图像经过所述少样本局部组件翻译网络和所述少样本人脸关键点预测网络处理后,采用薄板样条插值法对所述目标人脸图像的头发组件进行变形,得到预测的面部轮廓。
根据所述预测关键点,将所述目标人脸图像的左眼、右眼、鼻子和嘴巴的风格化人脸局部组件与所述头发组件组装成一体,得到所述目标人脸图像的中间动漫化图像。
其中,本发明采用预训练的StyleGAN网络作为源域生成器Fs。它已经学会了从随机高斯噪声到FFHQ人脸图像(即源域S)的映射,即能够生成高分辨率的人脸图像。GAN域迁移是为了优化未确定的生成器Ft(由Fs初始化),并使其能够将噪声映射到由少数风格样本定义的目标域T。域迁移完成之后,如果输入相同的从高斯分布随机采样的噪声,来自Fs和Ft的输出图像应该具有强对应(比如具有一致的身份信息)。因此,少样本GAN域迁移的挑战在于防止过度拟合,同时仍然保持源域和目标域之间的对应关系。
如图5所示,现在的批处理实例是在潜在空间采样的噪声得到的。本发明使用StyleGAN生成器本身输出的多层特征来计算跨域中心损失。因此,此处的跨域中心一致性损失与步骤S10中的公式(5.2)-(5.4)保持一致。
除了跨域中心一致性损失外,本发明还采用了一个宽松的对抗性损失。那么Ft的总损失函数为:
(5.19);
其中和/>为损失权重参数,分别设置为100和1,迭代次数为2000-5000次。
步骤S40、将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。
具体地,将所述中间动漫化图像输入到所述第二少样本肖像动漫生成网络中,基于所述第二少样本肖像动漫生成网络中的生成对抗网络逆映射编码器,对所述中间动漫化图像进行生成对抗网络逆映射处理,得到所述目标人脸图像的最终动漫化图像。
其中,域迁移之后,本发明通过在Ft上随机采样15000个数据作为训练集,为域迁移后的StyleGAN训练一个psp逆映射编码器,该编码器能够对风格图片进行GAN逆映射,并通过输出其重建结果。为了更好地保持中间动漫化图像的身份特征,本发明对域迁移后的StyleGAN进行了几次微调迭代。
如图10所示,最终的微调包含了三个损失:
(5.20),其中,/>为对风格图的重建损失;为在掩码区域的重建损失,旨在进一步保持中间结果的身份信息,提升重建效果;为宽松对抗损失,用于保证生成的图像效果。/>、/>和/>为权重参数,分别为0.5、2和1。训练阶段,为了防止过拟合,只运行2000次微调迭代。
计算所述全局细化网络的第四总损失函数,根据所述第四总损失函数对所述全局细化网络进行调整,其中,所述第四总损失函数为目标域图像的重建损失、掩码区域的重建损失以及宽松对抗损失之和。
如图11所示,本发明与目前先进的少样本动漫化方法进行了比较。其中对比方法1和对比方法2为GAN逆映射任务中先进的两个方法,即跨域一致性损失(Cross-domaincorrespondence)和宽松空间结构对齐损失(Relaxed spatial structural alignment),通过连接psp逆映射编码器与本发明进行对比;对比方法3和对比方法4则为少样本图像翻译任务中先进的方法,分别是MTG(Mind the gap)和JoJoGAN。本发明提出的基于两阶段的肖像动漫化方法与现有少样本动漫化方法对比,本发明的方法能够具有在拥有良好风格化的同时,保留动漫风格中的夸张细节和人物身份信息,对真实人物肖像实现了更好的动漫化,解决了当前方法存在的风格夸张化和人物身份无法同时保持的问题。
本发明所带来的技术效果:
本发明基于少样本学习的肖像动漫化方法,即根据用户提供的极少量卡通风格样例(如5~10张卡通图像),对输入的人物肖像进行动漫风格转化,使得输出人物肖像既具有动漫的风格,同时保持人物本身的身份特征。
本发明提出一种新型的跨域中心一致性损失,用于少样本GAN域迁移。在将特征归一化到它们的中心特征后,将它们进行跨域对齐,以更好地保持特征。基于该损失进行动漫化生成和动漫化翻译能够得到高质量及夸张化的动漫化图像,实验证明,基于跨域中心一致性损失生成结果能够提高风格化质量,保持人物身份。
本发明提出一个简单且有效的少样本关键点预测网络,用于模仿预测风格样本中的面部夸张风格及脸部组件位置信息,使得本发明提出的基于两阶段的少样本肖像动漫化模型可以处理存在显著形状变形的非常具有挑战性的动漫艺术风格。
一个两阶段的少样本肖像动漫化方案,只需用10个或更少的风格样本就能训练出来,它包括局部组件翻译、面部关键点预测、关键点引导脸部变形、少样本GAN域迁移和GAN逆映射技术。两阶段的翻译框架促进了网络能够跨越巨大领域差距进行有效的翻译任务,并克服了在少样本数据下的挑战。实验证明,本发明最终动漫化图像超越当前先进的方法,动漫化图像能够尽可能模拟风格的夸张及保持人物身份。
进一步地,如图12所示,基于上述基于少样本学习的图像处理方法,本发明还相应提供了一种基于少样本学习的图像处理系统,其中,所述基于少样本学习的图像处理系统包括:
目标人脸图像输入模块51,用于获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;
目标人脸图像处理模块52,用于基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;
中间动漫化图像生成模块53,用于根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;
最终动漫化图像生成模块54,用于将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。
进一步地,如图13所示,基于上述基于少样本学习的图像处理方法和系统,本发明还相应提供了一种终端,所述终端包括处理器10、存储器20及显示器30。图13仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(SecureDigital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据,例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有基于少样本学习的图像处理程序40,该基于少样本学习的图像处理程序40可被处理器10所执行,从而实现本申请中基于少样本学习的图像处理方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述基于少样本学习的图像处理方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中基于少样本学习的图像处理程序40时实现如上所述的基于少样本学习的图像处理方法的步骤。
本发明还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有基于少样本学习的图像处理程序,所述基于少样本学习的图像处理程序被处理器执行时实现如上所述的基于少样本学习的图像处理方法的步骤。
综上所述,本发明中,获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像。本发明通过采用一种适用于GAN域迁移的跨域中心一致性损失和基于两阶段的少样本肖像动漫化网络来对人脸图像进行动漫化处理,可以实时对真实人脸图像进行动漫化图像生成,生成的动漫化图像同时具有良好的动漫风格特征和人脸特征保持。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (8)

1.一种基于少样本学习的图像处理方法,其特征在于,所述基于少样本学习的图像处理方法包括:
获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;
所述获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中,之前还包括:
获取不同风格的少样本数据集,并对所述少样本数据集进行预处理,所述预处理包括关键点标记和人脸对齐;
获取人脸大数据集,基于所述人脸大数据集通过第一预设网络进行训练,得到源域生成器和目标域生成器;
获取随机高斯噪声,将所述随机高斯噪声输入所述源域生成器中,得到源域图像,将所述随机高斯噪声和预处理后的少样本数据集输入所述目标域生成器中,得到目标域图像;
对所述源域图像和所述目标域图像增加特征中心,进行相似性计算,并引入特征对齐项,得到基于跨域中心一致性损失的第一少样本肖像动漫生成网络;
基于所述第一少样本肖像动漫生成网络通过所述第一预设网络将所述源域图像域迁移到所述目标域图像中;
当所述源域图像完成域迁移后,对所述目标域图像进行随机采样,得到目标域训练集,根据所述目标域训练集将所述第一预设网络训练得到一个GAN逆映射编码器,得到第二少样本肖像动漫生成网络;
计算所述第二少样本肖像动漫生成网络的第一总损失函数,根据所述第一总损失函数对所述第二少样本肖像动漫生成网络进行调整,其中,所述第一总损失函数为跨域中心一致性损失和判别器对抗损失之和;
基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;
根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;
将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像;
所述将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像,具体包括:
将所述中间动漫化图像输入到所述第二少样本肖像动漫生成网络中,基于所述第二少样本肖像动漫生成网络中的GAN逆映射编码器,对所述中间动漫化图像进行GAN逆映射处理,得到所述目标人脸图像的最终动漫化图像;
计算所述全局细化网络的第四总损失函数,根据所述第四总损失函数对所述全局细化网络进行调整,其中,所述第四总损失函数为目标域图像的重建损失、掩码区域的重建损失以及宽松对抗损失之和。
2.根据权利要求1所述的基于少样本学习的图像处理方法,其特征在于,所述基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,具体包括:
获取所述少样本数据集中的部分动漫人脸图像,得到第一图像;
获取所述目标人脸图像中的第一面部关键点和所述第一图像中的第二面部关键点,其中,所述第一面部关键点和所述第二面部关键点均包括左眼、右眼、鼻子、嘴巴及头发;
根据所述第一面部关键点对所述目标人脸图像进行剪裁,得到所述目标人脸图像的人脸局部组件,根据所述第二面部关键点对所述第一图像进行剪裁,得到所述第一图像的风格化人脸局部组件;
计算所述少样本局部组件翻译网络的第二总损失函数,根据所述第二总损失函数对所述少样本局部组件翻译网络进行调整,其中,所述第二总损失函数为宽松循环损失、严格循环损失、切片瓦瑟斯坦距离损失和宽松对抗损失之和。
3.根据权利要求1所述的基于少样本学习的图像处理方法,其特征在于,所述基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点,具体包括:
获取所述目标人脸图像,并检测所述目标人脸图像中的第三面部关键点和脸部轮廓关键点;
对所述第三面部关键点采用随机的几何变形方式进行数据扩增,得到所述第三面部关键点的增强数据集,其中,所述几何变形方式包括旋转、平移和缩放;
设置预设数量的多层感知器对所述增强数据集进行训练,得到所述目标人脸图像的预测关键点,其中,所述多层感知器包括内容编码器、风格编码器和解码器;
计算所述少样本人脸关键点预测网络的第三总损失函数,根据所述第三总损失函数对所述少样本人脸关键点预测网络进行调整;
其中,所述第三总损失函数为L1损失、循环损失以及三元组损失之和。
4.根据权利要求1所述的基于少样本学习的图像处理方法,其特征在于,所述根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像,具体包括:
当所述目标人脸图像经过所述少样本局部组件翻译网络和所述少样本人脸关键点预测网络处理后,采用薄板样条插值法对所述目标人脸图像的头发组件进行变形,得到预测的面部轮廓;
根据所述预测关键点,将所述目标人脸图像的左眼、右眼、鼻子和嘴巴的风格化人脸局部组件与所述头发组件组装成一体,得到所述目标人脸图像的中间动漫化图像。
5.根据权利要求1所述的基于少样本学习的图像处理方法,其特征在于,所述少样本局部组件翻译网络包括第一生成器和第二生成器,所述第一生成器用于学习映射,所述第二生成器用于学习反向映射;
所述第一生成器由真实人脸部件到动漫人脸部件的正向转换网络构成;
所述第二生成器由动漫人脸部件到真实人脸部件的逆向转换网络构成;
所述正向转换网络和所述逆向转换网络的网络架构保持一致,所述正向转换网络和所述逆向转换网络中均包含三个用于下采样的卷积层、六个残差块和三个用于上采样的卷积层。
6.一种基于少样本学习的图像处理系统,其特征在于,所述基于少样本学习的图像处理系统包括:
目标人脸图像输入模块,用于获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中;
所述获取目标人脸图像,将所述目标人脸图像输入到少样本局部组件翻译网络和少样本人脸关键点预测网络中,之前还包括:
获取不同风格的少样本数据集,并对所述少样本数据集进行预处理,所述预处理包括关键点标记和人脸对齐;
获取人脸大数据集,基于所述人脸大数据集通过第一预设网络进行训练,得到源域生成器和目标域生成器;
获取随机高斯噪声,将所述随机高斯噪声输入所述源域生成器中,得到源域图像,将所述随机高斯噪声和预处理后的少样本数据集输入所述目标域生成器中,得到目标域图像;
对所述源域图像和所述目标域图像增加特征中心,进行相似性计算,并引入特征对齐项,得到基于跨域中心一致性损失的第一少样本肖像动漫生成网络;
基于所述第一少样本肖像动漫生成网络通过所述第一预设网络将所述源域图像域迁移到所述目标域图像中;
当所述源域图像完成域迁移后,对所述目标域图像进行随机采样,得到目标域训练集,根据所述目标域训练集将所述第一预设网络训练得到一个GAN逆映射编码器,得到第二少样本肖像动漫生成网络;
计算所述第二少样本肖像动漫生成网络的第一总损失函数,根据所述第一总损失函数对所述第二少样本肖像动漫生成网络进行调整,其中,所述第一总损失函数为跨域中心一致性损失和判别器对抗损失之和;
目标人脸图像处理模块,用于基于所述少样本局部组件翻译网络将所述目标人脸图像进行图像风格化处理和裁剪处理,并输出风格化人脸局部组件,基于所述少样本人脸关键点预测网络将所述目标人脸图像进行人脸关键点检测,输出所述目标人脸图像的预测关键点;
中间动漫化图像生成模块,用于根据所述预测关键点将所述风格化人脸局部组件进行组合,得到中间动漫化图像;
最终动漫化图像生成模块,用于将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像;
所述将所述中间动漫化图像通过全局细化网络进行逆映射处理,得到所述目标人脸图像的最终动漫化图像,具体包括:
将所述中间动漫化图像输入到所述第二少样本肖像动漫生成网络中,基于所述第二少样本肖像动漫生成网络中的GAN逆映射编码器,对所述中间动漫化图像进行GAN逆映射处理,得到所述目标人脸图像的最终动漫化图像;
计算所述全局细化网络的第四总损失函数,根据所述第四总损失函数对所述全局细化网络进行调整,其中,所述第四总损失函数为目标域图像的重建损失、掩码区域的重建损失以及宽松对抗损失之和。
7.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于少样本学习的图像处理程序,所述基于少样本学习的图像处理程序被所述处理器执行时实现如权利要求1-5任一项所述的基于少样本学习的图像处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于少样本学习的图像处理程序,所述基于少样本学习的图像处理程序被处理器执行时实现如权利要求1-5任一项所述的基于少样本学习的图像处理方法的步骤。
CN202310526391.XA 2023-05-11 2023-05-11 一种基于少样本学习的图像处理方法及相关设备 Active CN116310008B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310526391.XA CN116310008B (zh) 2023-05-11 2023-05-11 一种基于少样本学习的图像处理方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310526391.XA CN116310008B (zh) 2023-05-11 2023-05-11 一种基于少样本学习的图像处理方法及相关设备

Publications (2)

Publication Number Publication Date
CN116310008A CN116310008A (zh) 2023-06-23
CN116310008B true CN116310008B (zh) 2023-09-19

Family

ID=86781768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310526391.XA Active CN116310008B (zh) 2023-05-11 2023-05-11 一种基于少样本学习的图像处理方法及相关设备

Country Status (1)

Country Link
CN (1) CN116310008B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315090A (zh) * 2023-09-27 2023-12-29 中国科学院自动化研究所 基于跨模态风格学习的图像生成方法及装置
CN117576245B (zh) * 2024-01-15 2024-05-07 腾讯科技(深圳)有限公司 一种图像的风格转换方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859295A (zh) * 2019-02-01 2019-06-07 厦门大学 一种特定动漫人脸生成方法、终端设备及存储介质
CN110033034A (zh) * 2019-04-01 2019-07-19 深圳大学 一种非均匀纹理的图片处理方法、装置和计算机设备
CN110992252A (zh) * 2019-11-29 2020-04-10 北京航空航天大学合肥创新研究院 一种基于潜变量特征生成的图像多风格转化方法
CN112258387A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 一种基于人脸照片生成漫画人像的图像转换系统及方法
CN112883826A (zh) * 2021-01-28 2021-06-01 南京大学 一种基于学习几何和纹理风格迁移的人脸漫画生成方法
CN114359526A (zh) * 2021-12-29 2022-04-15 中山大学 基于语义gan的跨域图像风格迁移方法
CN114612289A (zh) * 2022-03-03 2022-06-10 广州虎牙科技有限公司 风格化图像生成方法、装置及图像处理设备
CN114842123A (zh) * 2022-06-28 2022-08-02 北京百度网讯科技有限公司 三维人脸重建模型训练和三维人脸形象生成方法及装置
CN115035068A (zh) * 2022-06-15 2022-09-09 杭州电子科技大学 一种自适应肤色的跨域自拍人脸痘痘分级的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11720994B2 (en) * 2021-05-14 2023-08-08 Lemon Inc. High-resolution portrait stylization frameworks using a hierarchical variational encoder

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859295A (zh) * 2019-02-01 2019-06-07 厦门大学 一种特定动漫人脸生成方法、终端设备及存储介质
CN110033034A (zh) * 2019-04-01 2019-07-19 深圳大学 一种非均匀纹理的图片处理方法、装置和计算机设备
CN110992252A (zh) * 2019-11-29 2020-04-10 北京航空航天大学合肥创新研究院 一种基于潜变量特征生成的图像多风格转化方法
CN112258387A (zh) * 2020-10-30 2021-01-22 北京航空航天大学 一种基于人脸照片生成漫画人像的图像转换系统及方法
CN112883826A (zh) * 2021-01-28 2021-06-01 南京大学 一种基于学习几何和纹理风格迁移的人脸漫画生成方法
CN114359526A (zh) * 2021-12-29 2022-04-15 中山大学 基于语义gan的跨域图像风格迁移方法
CN114612289A (zh) * 2022-03-03 2022-06-10 广州虎牙科技有限公司 风格化图像生成方法、装置及图像处理设备
CN115035068A (zh) * 2022-06-15 2022-09-09 杭州电子科技大学 一种自适应肤色的跨域自拍人脸痘痘分级的图像分类方法
CN114842123A (zh) * 2022-06-28 2022-08-02 北京百度网讯科技有限公司 三维人脸重建模型训练和三维人脸形象生成方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Implementation of Art Pictures Style Conversion with GAN;Xinlong Wu 等;Journal of Quantum Computing;第03卷(第04期);第127-136页 *
内容特征一致性风格迁移网络;毛琳 等;计算机辅助设计与图形学学报;第34卷(第06期);第892-900页 *
可控多重纹理扩展合成与迁移;李二强 等;吉林大学学报(理学版);第59卷(第03期);第577-586页 *
基于自判别循环生成对抗网络的人脸图像翻译;王清和 等;中国科学:信息科学;第52卷(第08期);第1447-1462页 *

Also Published As

Publication number Publication date
CN116310008A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN116310008B (zh) 一种基于少样本学习的图像处理方法及相关设备
Masi et al. Face-specific data augmentation for unconstrained face recognition
Lee et al. Accurate and robust face recognition from RGB-D images with a deep learning approach.
CN108520503A (zh) 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法
CN109886881B (zh) 人脸妆容去除方法
Kazemi et al. Facial attributes guided deep sketch-to-photo synthesis
Sun et al. Facial age synthesis with label distribution-guided generative adversarial network
CN109360170B (zh) 基于高级特征的人脸修复方法
Tu et al. Image-to-video generation via 3D facial dynamics
CN103279936A (zh) 基于画像的人脸伪照片自动合成及修正方法
Gao et al. Local face sketch synthesis learning
CN115147891A (zh) 用于生成合成深度数据的系统、方法和存储介质
Heo et al. 3-D generic elastic models for fast and texture preserving 2-D novel pose synthesis
Kumar et al. A GAN-based model of deepfake detection in social media
Yang et al. Face2face ρ: Real-time high-resolution one-shot face reenactment
Liu et al. Physics-guided spoof trace disentanglement for generic face anti-spoofing
CN117635771A (zh) 一种基于半监督对比学习的场景文本编辑方法和装置
Shahreza et al. Comprehensive vulnerability evaluation of face recognition systems to template inversion attacks via 3d face reconstruction
CN114820303A (zh) 低清图像重建超分辨率人脸图像的方法、系统及存储介质
US20220101122A1 (en) Energy-based variational autoencoders
Lu et al. Do inpainting yourself: Generative facial inpainting guided by exemplars
Thengane et al. Cycle face aging generative adversarial networks
CN111191549A (zh) 一种两级人脸防伪检测方法
CN111275778A (zh) 人脸简笔画生成方法及装置
Tu et al. Facial sketch synthesis using 2D direct combined model-based face-specific Markov network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant