CN117541459A - 图像生成模型的训练方法及装置 - Google Patents

图像生成模型的训练方法及装置 Download PDF

Info

Publication number
CN117541459A
CN117541459A CN202311542623.7A CN202311542623A CN117541459A CN 117541459 A CN117541459 A CN 117541459A CN 202311542623 A CN202311542623 A CN 202311542623A CN 117541459 A CN117541459 A CN 117541459A
Authority
CN
China
Prior art keywords
image
face
module
face image
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311542623.7A
Other languages
English (en)
Inventor
李文
王萌
陈景东
杨铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202311542623.7A priority Critical patent/CN117541459A/zh
Publication of CN117541459A publication Critical patent/CN117541459A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本说明书实施例涉及一种图像生成模型的训练方法及装置,图像生成模型包含人脸一致性模块和训练好的扩散模型,扩散模型包括加噪模块和第一去噪网络,所述方法包括:将原始人脸图像输入加噪模块,得到第一噪声图像,然后将第一噪声图像输入第一去噪网络,得到具有第一风格的第一人脸图像,接着将第一噪声图像输入由第一去噪网络和人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像,接下来根据原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失,根据第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失,最后基于第一损失与第二损失的总损失,调整人脸一致性模块的参数。

Description

图像生成模型的训练方法及装置
技术领域
本说明书一个或多个实施例涉及人工智能领域,尤其涉及一种图像生成模型的训练方法及装置。
背景技术
随着AIGC(Artificial Intelligence Generated Content,人工智能生成内容)技术的兴起,利用人工智能实现内容的生成和加工的需求变得越发迫切。在面向用户的娱乐内容生产中,利用人工智能模型对用户上传的照片进行风格化重绘,生成美感高、趣味性强、同时与原始图像具有一定相关度的图像,能够提升产品的用户体验。
然而,目前的风格化重绘模型普遍存在训练所需数据量大、生成的图像风格单一、生成的结果与原始图像相关性差等问题。因此,需要一种新的模型来克服上述问题。
发明内容
本说明书一个或多个实施例描述了一种图像生成模型的训练方法及装置,训练完成的模型在对用户上传的照片进行风格化重绘的同时,最大程度保留原图中的关键特征,得到与原始图像强相关的风格图像,提升生产内容的专属性与独特性。
第一方面,提供了一种图像生成模型的训练方法,所述图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述方法包括:
将原始人脸图像输入所述加噪模块,得到第一噪声图像;
将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;
将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;
根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;
根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;
基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
在一种可能的实施方式中,所述扩散模型通过以下方法完成训练:
获取训练集,其中包含具有第一风格的多张人脸图像;
使用所述训练集对预训练的扩散模型进行微调,得到能够生成第一风格的人脸图像的扩散模型。
在一种可能的实施方式中,所述第一去噪网络由第一风格模块和去噪模块融合形成;所述去噪模块和所述加噪模块在所述扩散模型的预训练阶段联合训练,所述第一风格模块在所述扩散模型的微调阶段利用具有第一风格的人脸图像样本进行训练得到。
在一种可能的实施方式中,所述扩散模型还包括第二去噪网络,所述第二去噪网络由所述去噪模块和第二风格模块融合形成,用于生成第二风格的人脸图像;所述方法还包括:
将所述第一噪声图像输入所述第二去噪网络,得到具有第二风格的第三人脸图像;
将所述第一噪声图像输入由所述第二去噪网络和所述人脸一致性模块融合形成的第二融合模块中进行融合处理,得到第四人脸图像;
根据所述原始人脸图像与第四人脸图像之间的人脸相似度,确定第三损失;
根据所述第三人脸图像与第四人脸图像之间的风格相似度,确定第四损失;
基于所述第三损失与第四损失的总损失,调整所述人脸一致性模块的参数。
在一种可能的实施方式中,所述第一去噪网络与人脸一致性模块为具有相同结构的多层神经网络;所述融合处理包括:将所述第一去噪网络与人脸一致性模块的每一个中间层的输出结果求和,作为各自的下一层的输入。
在一种可能的实施方式中,所述第一风格模块和去噪模块为具有相同结构的多层神经网络,并通过以下方法进行融合:
将所述第一风格模块与去噪模块的每一个中间层的输出结果进行加权求和,作为各自的下一层的输入。
在一种可能的实施方式中,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失,包括:
使用预训练的人脸识别模型分别对所述原始人脸图像和第二人脸图像进行编码,得到原始人脸图像表征和第二人脸图像表征;
根据所述原始人脸图像表征与第二人脸图像表征之间的相似度,确定第一损失。
在一种可能的实施方式中,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失,包括:
使用预训练的多层图像特征提取网络,分别提取所述第一人脸图像与第二人脸图像在各个网络层对应的第一中间特征和第二中间特征;
计算任一网络层输出的第一中间特征和第二中间特征之间的相似度,并将多个网络层的相似度计算结果进行求和,根据求和结果确定第二损失。
在一种可能的实施方式中,所述扩散模型为Stable Diffusion模型;所述加噪模块包含VAE模型的编码器;所述第一去噪网络包含UNet模型和VAE模型的解码器;所述人脸一致性模块为基于UNet模型的LoRA网络。
在一种可能的实施方式中,将原始人脸图像输入所述加噪模块,得到第一噪声图像,包括:
使用VAE模型的编码器对所述原始人脸图像进行编码,对编码结果逐步添加随机高斯噪声,得到第一噪声图像。
在一种可能的实施方式中,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像,包括:
使用UNet模型对所述第一噪声图像进行去噪,将去噪结果输入到VAE模型的解码器中进行解码,得到第一人脸图像。
第二方面,提供了一种图像生成模型的训练方法,所述图像生成模型包含图像一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述方法包括:
将原始图像输入所述加噪模块,得到第一噪声图像;
将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一图像;
将所述第一噪声图像输入由所述第一去噪网络和所述图像一致性模块融合形成的第一融合模块中进行融合处理,得到第二图像;所述融合处理包括,将所述第一去噪网络与图像一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二图像基于对所述第一去噪网络与图像一致性模块的输出结果求和得到;
根据所述原始图像与第二图像之间的内容相似度,确定第一损失;
根据所述第一图像与第二图像之间的风格相似度,确定第二损失;
基于所述第一损失与第二损失的总损失,调整所述图像一致性模块的参数。
第三方面,提供了一种图像生成模型的训练装置,所述图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述装置包括:
加噪单元,配置为,将原始人脸图像输入所述加噪模块,得到第一噪声图像;
第一生成单元,配置为,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;
第二生成单元,配置为,将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;
第一损失确定单元,配置为,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;
第二损失确定单元,配置为,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;
参数调整单元,配置为,基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第五方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
本说明书实施例提出的一种图像生成模型的训练方法及装置,训练完成的模型在对用户上传的照片进行风格化重绘的同时,最大程度保留原图中的关键特征,得到与原始图像强相关的风格图像,提升生产内容的专属性与独特性。同时,模型与多种风格生成模块进行训练,能够生成风格多样化的图像。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的图像生成模型的训练方法的实施场景示意图;
图2示出根据一个实施例的图像生成模型的训练方法的流程图;
图3示出根据一个实施例的模块融合的示意图;
图4示出根据一个实施例的图像生成模型的训练场景示意图;
图5示出根据一个实施例的将多个风格模块与去噪模块组合对人脸一致性模块进行训练的模型结构示意图;
图6示出根据另一个实施例的图像生成模型的训练场景示意图;
图7示出根据一个实施例的图像生成模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,现有的风格化重绘模型存在诸多问题。例如,在使用一些传统的机器学习模型,例如GAN(Generative Adversarial Networks,生成对抗网络)生成风格化图像时,训练这类模型需要大量的风格化前后的图像数据对,风格化后的图像难以收集,并且生成的图像风格单一。在另一些现有方案中,使用风格化数据对预训练的生成式大模型进行微调(fine-tuning),然后基于输入的图像生成对应的风格化图像。使用这种方式输出的风格化图像会与训练时用的风格数据过拟合,导致生成的图像同质化程度高。同时,输出的风格化图像与原图相关性差,尤其是人脸的关键特征无法得到保留。
为了解决上述问题,图1示出根据一个实施例的图像生成模型的训练方法的实施场景示意图。在图1的示例中,图像生成模型包含人脸一致性模块和训练好的扩散模型,其中,扩散模型包括加噪模块(图中未示出)和去噪网络。训练好的扩散模型经过风格化数据的微调,能够基于输入的原始图像输出对应的风格化图像,但是输出的风格化图像与原图的相关性可能不够强,无法保留原图中的人脸关键特征,换个说法,也就是“和原图的人物长得不像”。于是,为了解决这个问题,本说明书实施例在去噪网络的旁路增加一个人脸一致性模块,其能够保留原图中的人脸关键特征,将人脸一致性模块与去噪模块融合,输出的图像便能够在风格化的同时,与原图具有更高的相关性。其中,风格化是指图像具有某种特定的风格。对于人物图像来说,风格化例如可以是,漫画风、像素风、国风等等。
如图1所示,在训练模型时,将待风格化的原始人脸图像输入到加噪模块中(图中未示出),得到噪声图像。噪声图像经过两路数据流分别进行图像生成。在第一路数据流中,直接将噪声图像输入到去噪网络中,生成具有第一风格的第一人脸图像;在第二路数据流中,首先将去噪网络和人脸一致性模块进行融合(融合的具体方法将在后续步骤中详细描述),得到融合模块,然后将噪声图像输入到融合模块中进行融合处理,生成第二人脸图像。根据原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;根据第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;基于第一损失与第二损失的总损失,调整人脸一致性模块的参数。使用多张原始人脸图像对人脸一致性模块的参数进行多轮调整,得到训练完成的模型。由于第一损失衡量了基于人脸一致性模块生成的第二人脸图像与原始人脸图像的人脸相似度,而第二损失衡量了该第二人脸图像与第一人脸图像的风格相似度,在反复根据第一损失和第二损失之和调整人脸一致性模块之后,可以使得,生成的第二人脸图像既与原始人脸图像在人脸特征上非常相似,又与第一人脸图像在风格上非常相似,即实现“风格化且与原图相似的”人脸图像。
在利用训练完成的上述模型生成图像时,按照上述流程生成对应的第二人脸图像即可。生成的第二人脸图像与原始人脸图像之间有着高相关性,并且多张原始人脸图像对应的多张第二人脸图像之间具有稳定且一致的风格。
使用上述训练方法可以训练得到能够生成第一风格的图像生成模型。进一步地,在一些实施例中,通过使用能够生成不同风格图像的去噪网络对同一个人脸一致性模块进行多轮训练,可以训练得到能够适配多种风格的人脸一致性模块。在生成图像时,例如想生成风格为第二风格的图像,则使用能够生成第二风格图像的去噪网络,配合前述训练好的人脸一致性模块,便能够生成风格稳定且人脸特征相似的第二风格的图像。
以下结合具体的实施例,描述上述图像生成模型的训练方法的具体实施步骤。图2示出根据一个实施例的图像生成模型的训练方法的流程图,所述图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述方法的执行主体可以为任何具有计算、处理能力的平台或服务器或设备集群等。如图2所示,所述方法至少包括:步骤202,将原始人脸图像输入所述加噪模块,得到第一噪声图像;步骤204,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;步骤206,将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;步骤208,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;步骤210,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;步骤212,基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。下面描述上述各个步骤的具体执行过程。
首先,在步骤202,将原始人脸图像输入所述加噪模块,得到第一噪声图像。
如前所述,整体的图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络。所述扩散模型经过训练,可以生成具有特定的第一风格的图像。
使用加噪模块处理原始人脸图像得到第一噪声图像至少包括:对原始人脸图像逐步添加随机高斯噪声,得到第一噪声图像。
在一个实施例中,所述扩散模型通过以下方法完成训练:获取训练集,其中包含具有第一风格的多张人脸图像,使用所述训练集对预训练的扩散模型进行微调,得到能够生成第一风格的人脸图像的扩散模型。
微调扩散模型所需的数据量很少,一般在十几张至几十张的数量级,数据易于收集且微调速度快。
然后,在步骤204,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像。
使用第一去噪网络处理第一噪声图像得到第一人脸图像至少包括:使用第一去噪网络逐步去除第一噪声图像中的噪声,得到第一人脸图像。
第一风格可以是任意风格,例如漫画风、像素风、国风,这里不做限定。
接下来,在步骤206,将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到。
可以使用多种神经网络实现人脸一致性模块,例如,使用基于LoRA(Low-RankAdaptation,低秩自适应)网络的UNet模型,或者基于LoRA网络的ControlNet模型,或者其它任意可训练的神经网络模型,这里不做限定。
第一去噪网络与人脸一致性模块的融合可以如图3所示。图3示出根据一个实施例的模块融合的示意图。如图3所示,第一去噪网络和人脸一致性模块的第i个中间层的输出结果分别为Ai和Bi,将输出结果求和后得到Ai+Bi,再将Ai+Bi分别输入到第一去噪网络和人脸一致性模块的第i+1个中间层中。
图3示意性示出了一个中间层的融合。在一个实施例中,所述第一去噪网络与人脸一致性模块为具有相同结构的多层神经网络,可以实现每个中间层的融合。此时,融合处理可以包括:将所述第一去噪网络与人脸一致性模块的每一个中间层的输出结果求和,作为各自的下一层的输入。
在其他实施例中,还可以根据实际情况,选择第一去噪网络与人脸一致性模块中特定的一个或多个中间层进行如前所述的融合处理,并对输出层的输出结果进行融合,最终得到第二人脸图像。
在步骤208,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失。
在一个实施例中,使用预训练的人脸识别模型分别对所述原始人脸图像和第二人脸图像进行编码,得到原始人脸图像表征和第二人脸图像表征,然后根据所述原始人脸图像表征与第二人脸图像表征之间的相似度,确定第一损失。需理解,使用人脸识别模型对图像编码得到的人脸图像表征,是进行人脸识别的依据,能够反映人脸的核心特征。两个人脸图像表征较为相似,就意味着,两张图中的人脸比较相似。
可以使用多种方法计算相似度,例如点积相似度或者余弦相似度;预训练的人脸识别模型可以是ArcFace模型或者其它任意人脸识别模型,例如CosFace模型,这里不做限定。
第一损失用于约束生成的第二人脸图像与原始人脸图像之间的人脸相似性。
在步骤210,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失。
在一个实施例中,使用预训练的多层图像特征提取网络,分别提取所述第一人脸图像与第二人脸图像在各个网络层对应的第一中间特征和第二中间特征,然后计算任一网络层输出的第一中间特征和第二中间特征之间的相似度(或特征距离),并将多个网络层的相似度计算结果进行求和,根据求和结果确定第二损失。需理解,两个图像在多个网络层的特征距离,可以反映两个图像在数据分布上的差异。而这样的数据分布与图像的整体风格是紧密相关的。因此,通过约束两个图像在多个网络层的特征距离,可以使得两个图像的数据分布尽可能相似,防止图像风格发生变化。
可以使用多种方法计算相似度,例如点积相似度或者余弦相似度;预训练的多层图像特征提取网络可以是VGG模型、ResNet网络或者其它多层特征提取网络,这里不做限定。
在其它实施例中,还可以使用其它方法计算第一人脸图像与第二人脸图像之间的相似度。例如,通过计算两张图像对应的像素之间的均方差,将均方差作为相似度结果,或者,计算两张图像之间的结构相似性指数(Structural Similarity Index,SSIM),作为它们之间的相似度。
第二损失用于约束生成的第二人脸图像与扩散模型生成的第一人脸图像之间的风格一致性。
在步骤212,基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
可以使用多种方式确定总损失,例如,可以直接将第一损失与第二损失进行求和或加权求和,作为总损失;或者将第一损失与第二损失取指数或者对数之后,再进行求和或求乘积,作为总损失,这里不做限定。
步骤202至步骤212描述了使用一张原始人脸图像调整人脸一致性模块的参数的流程。在使用多张原始人脸图像对人脸一致性模块进行多轮参数调整后,完成对模型的训练。可以使用多种方式获取原始人脸图像,例如使用相机对真人进行拍摄得到人脸图像,或者使用现有的公开的人脸图像数据集,例如FFHQ(Flickr-Faces-High-Quality,来自Flickr图像网站的高质量人脸图像数据集)公开数据集,这里不做限定。
通过步骤202至步骤212的方法,可以训练得到能够生成第一风格的图像生成模型。基于步骤202至步骤212对模型的训练的场景示意图可以如图4所示。通过风格相似度和人脸相似度的约束,调整用于生成第二人脸图像的人脸一致性模块的参数。
基于训练完成的图像生成模型,生成风格化图像的方法可以包括:将待风格化的人脸图像输入所述加噪模块,得到噪声图像,然后将所述噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到风格化人脸图像。所述融合处理可以参照步骤206所述的方法,这里不再赘述。
在一个实施例中,所述扩散模型可以是Stable Diffusion模型(以下简称为SD模型)。SD模型在常规的扩散模型的基础上增加了编码器和解码器,还增加了能够对文本进行编码的CLIP(Contrastive Language-Image Pre-training,预训练语言-图像比对)模型,使得SD模型在常规的扩散模型只能接受图像输入的基础上,增加了接受文本输入的功能。输入的文本可以是对输入图像的内容的描述,经由CLIP模型的文本编码器编码得到文本特征之后,输入到SD模型的第一去噪网络中。
在扩散模型为Stable Diffusion模型的实施例中,加噪模块包含VAE模型的编码器,第一去噪网络包含UNet模型和VAE模型的解码器。
步骤202具体包括:使用VAE模型的编码器对所述原始人脸图像进行编码,对编码结果逐步添加随机高斯噪声,得到第一噪声图像。
步骤204具体包括:使用UNet模型对所述第一噪声图像进行去噪,将去噪结果输入到VAE模型的解码器中进行解码,得到第一人脸图像。
步骤206具体包括:将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,将融合处理结果输入到VAE模型的解码器中进行解码,得到第二人脸图像。
与此同时,为了接收输入的图像描述文本,步骤204还包括:将原始人脸图像对应的描述文本的文本特征输入到第一去噪网络中,其中,所述文本特征通过CLIP模型的文本编码器对所述描述文本进行编码得到。步骤206还包括:将所述文本特征输入到所述第一融合模块中。
通过步骤202至步骤212的方法,可以训练得到能够生成第一风格的图像生成模型。所述方法在训练完成的风格化扩散模型的基础上,增加了人脸一致性模块,用人脸相似性约束对人脸数据进行训练,提升风格化扩散模型生成图像前后的人脸特征相似性,使得风格化扩散模型可以生成与原图相关性更高的人脸图像。同时,所述方法在使用人脸相似性约束对风格化扩散模型训练时,还使用了风格一致性约束,防止人脸一致性模块的加入导致风格化扩散模型生成图像的整体风格受到影响,在提升模型生成前后图像的人脸相关性的情况下,保证画风不被改变。
在一些可能的实施方式中,通过使用能够生成不同风格图像的去噪网络对同一个人脸一致性模块进行多轮训练,可以训练得到能够适配多种风格的人脸一致性模块。在这些实施方式中,扩散模型的第一去噪网络由第一风格模块和去噪模块融合形成;所述去噪模块和所述加噪模块在所述扩散模型的预训练阶段联合训练,所述第一风格模块在所述扩散模型的微调阶段利用具有第一风格的人脸图像样本进行训练得到。风格模块可以是预先训练好的风格LoRA模型,从现有的模型库中获取。通过使用不同风格的预训练的风格模块分别与去噪模块进行融合,可以得到多个不同的去噪网络。
图5示出根据一个实施例的将多个风格模块与去噪模块组合对人脸一致性模块进行训练的模型结构示意图。如图5所示,将预先获取的第一风格模块至第N风格模块分别与去噪模块进行融合,得到第一去噪网络至第N去噪网络。然后分别基于第一去噪网络至第N去噪网络对同一个人脸一致性模块进行多轮训练,可以训练得到能够适配N种风格的人脸一致性模块。
在一个实施例中,所述第一风格模块和去噪模块为具有相同结构的多层神经网络,并通过以下方法进行融合:将所述第一风格模块与去噪模块的每一个中间层的输出结果进行加权求和,作为各自的下一层的输入。
在这些实施方式中,如图5所示,所述扩散模型还包括第二去噪网络,所述第二去噪网络由所述去噪模块和第二风格模块融合形成,用于生成第二风格的人脸图像。在该实施方式下,上述方法还包括步骤214至步骤222(图中未示出)。
在步骤214,将所述第一噪声图像输入所述第二去噪网络,得到具有第二风格的第三人脸图像。
在步骤216,将所述第一噪声图像输入由所述第二去噪网络和所述人脸一致性模块融合形成的第二融合模块中进行融合处理,得到第四人脸图像。
融合处理的方法可以参照步骤206,这里不再赘述。
在步骤218,根据所述原始人脸图像与第四人脸图像之间的人脸相似度,确定第三损失。
在步骤220,根据所述第三人脸图像与第四人脸图像之间的风格相似度,确定第四损失。
在步骤222,基于所述第三损失与第四损失的总损失,调整所述人脸一致性模块的参数。
确定第三损失、第四损失、总损失的方法可以分别参照步骤208、步骤210、步骤212,这里不再赘述。
通过使用不同风格的预训练的风格模块分别与去噪模块进行融合,并执行与步骤214至步骤222相似的方法,对人脸一致性模块进行多轮训练,可以得到能够适配多种风格模型的人脸一致性模块。
在使用训练完成的包含能够适配多种风格的人脸一致性模块的图像生成模型生成风格化图像时,例如想要生成风格为第三风格的图像。首先确定人脸一致性模块是否支持生成第三风格的图像,如果支持,则获取能够第三风格图像的第三风格模块,将其与去噪模块进行融合,得到第三去噪网络。将待风格化的人脸图像输入所述加噪模块,得到噪声图像,然后将所述噪声图像输入由所述第三去噪网络和所述人脸一致性模块融合形成的第三融合模块中进行融合处理,得到具有第三风格的风格化人脸图像。
通过使用现有的风格模块与加噪模块融合的方式得到风格化的第一去噪网络,相比于步骤202的实施例中的微调预训练扩散模型的方法,会更加方便快捷,能够更快速地训练出适配多种风格的人脸一致性模块。
通过步骤202至步骤222训练图像生成模型的场景示意图可以如图6所示。可以理解的是,图6中只记载了使用两个去噪网络,即第一去噪网络和第二去噪网络分别训练人脸一致性模块的过程。在一些实施例中,还可以使用更多的去噪网络分别训练人脸一致性模块,例如第三去噪网络、第四去噪网络等等,这里不做限定。
上述内容描述了训练风格化人脸图像生成模型方法。基于以上构思,还可以将待生成的风格化图像的内容从人脸图像扩展到包含任意内容的图像,得到适用于任意内容图像的图像生成模型的训练方法,所述图像生成模型包含图像一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络。具体地,该方法可以包括如下步骤。将原始图像输入所述加噪模块,得到第一噪声图像,然后将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一图像,将所述第一噪声图像输入由所述第一去噪网络和所述图像一致性模块融合形成的第一融合模块中进行融合处理,得到第二图像;所述融合处理包括,将所述第一去噪网络与图像一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入,所述第二图像基于对所述第一去噪网络与图像一致性模块的输出结果求和得到;接下来根据所述原始图像与第二图像之间的内容相似度,确定第一损失,根据所述第一图像与第二图像之间的风格相似度,确定第二损失,最后基于所述第一损失与第二损失的总损失,调整所述图像一致性模块的参数。
根据另一方面的实施例,还提供一种图像生成模型的训练装置。图7示出根据一个实施例的图像生成模型的训练装置的示意性框图,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图7所示,所述装置700包括:
加噪单元701,配置为,将原始人脸图像输入所述加噪模块,得到第一噪声图像;
第一生成单元702,配置为,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;
第二生成单元703,配置为,将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;
第一损失确定单元704,配置为,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;
第二损失确定单元705,配置为,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;
参数调整单元706,配置为,基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一实施例所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一实施例所描述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种图像生成模型的训练方法,所述图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述方法包括:
将原始人脸图像输入所述加噪模块,得到第一噪声图像;
将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;
将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;
根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;
根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;
基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
2.根据权利要求1所述的方法,其中,所述扩散模型通过以下方法完成训练:
获取训练集,其中包含具有第一风格的多张人脸图像;
使用所述训练集对预训练的扩散模型进行微调,得到能够生成第一风格的人脸图像的扩散模型。
3.根据权利要求1所述的方法,其中,所述第一去噪网络由第一风格模块和去噪模块融合形成;所述去噪模块和所述加噪模块在所述扩散模型的预训练阶段联合训练,所述第一风格模块在所述扩散模型的微调阶段利用具有第一风格的人脸图像样本进行训练得到。
4.根据权利要求3所述的方法,所述扩散模型还包括第二去噪网络,所述第二去噪网络由所述去噪模块和第二风格模块融合形成,用于生成第二风格的人脸图像;所述方法还包括:
将所述第一噪声图像输入所述第二去噪网络,得到具有第二风格的第三人脸图像;
将所述第一噪声图像输入由所述第二去噪网络和所述人脸一致性模块融合形成的第二融合模块中进行融合处理,得到第四人脸图像;
根据所述原始人脸图像与第四人脸图像之间的人脸相似度,确定第三损失;
根据所述第三人脸图像与第四人脸图像之间的风格相似度,确定第四损失;
基于所述第三损失与第四损失的总损失,调整所述人脸一致性模块的参数。
5.根据权利要求1所述的方法,其中,所述第一去噪网络与人脸一致性模块为具有相同结构的多层神经网络;所述融合处理包括:将所述第一去噪网络与人脸一致性模块的每一个中间层的输出结果求和,作为各自的下一层的输入。
6.根据权利要求3所述的方法,其中,所述第一风格模块和去噪模块为具有相同结构的多层神经网络,并通过以下方法进行融合:
将所述第一风格模块与去噪模块的每一个中间层的输出结果进行加权求和,作为各自的下一层的输入。
7.根据权利要求1所述的方法,其中,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失,包括:
使用预训练的人脸识别模型分别对所述原始人脸图像和第二人脸图像进行编码,得到原始人脸图像表征和第二人脸图像表征;
根据所述原始人脸图像表征与第二人脸图像表征之间的相似度,确定第一损失。
8.根据权利要求1所述的方法,其中,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失,包括:
使用预训练的多层图像特征提取网络,分别提取所述第一人脸图像与第二人脸图像在各个网络层对应的第一中间特征和第二中间特征;
计算任一网络层输出的第一中间特征和第二中间特征之间的相似度,并将多个网络层的相似度计算结果进行求和,根据求和结果确定第二损失。
9.根据权利要求1所述的方法,其中,所述扩散模型为Stable Diffusion模型;所述加噪模块包含VAE模型的编码器;所述第一去噪网络包含UNet模型和VAE模型的解码器;所述人脸一致性模块为基于UNet模型的LoRA网络。
10.根据权利要求9所述的方法,其中,将原始人脸图像输入所述加噪模块,得到第一噪声图像,包括:
使用VAE模型的编码器对所述原始人脸图像进行编码,对编码结果逐步添加随机高斯噪声,得到第一噪声图像。
11.根据权利要求9所述的方法,其中,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像,包括:
使用UNet模型对所述第一噪声图像进行去噪,将去噪结果输入到VAE模型的解码器中进行解码,得到第一人脸图像。
12.一种图像生成模型的训练方法,所述图像生成模型包含图像一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述方法包括:
将原始图像输入所述加噪模块,得到第一噪声图像;
将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一图像;
将所述第一噪声图像输入由所述第一去噪网络和所述图像一致性模块融合形成的第一融合模块中进行融合处理,得到第二图像;所述融合处理包括,将所述第一去噪网络与图像一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二图像基于对所述第一去噪网络与图像一致性模块的输出结果求和得到;
根据所述原始图像与第二图像之间的内容相似度,确定第一损失;
根据所述第一图像与第二图像之间的风格相似度,确定第二损失;
基于所述第一损失与第二损失的总损失,调整所述图像一致性模块的参数。
13.一种图像生成模型的训练装置,所述图像生成模型包含人脸一致性模块和训练好的扩散模型,所述扩散模型包括加噪模块和第一去噪网络,所述装置包括:
加噪单元,配置为,将原始人脸图像输入所述加噪模块,得到第一噪声图像;
第一生成单元,配置为,将所述第一噪声图像输入所述第一去噪网络,得到具有第一风格的第一人脸图像;
第二生成单元,配置为,将所述第一噪声图像输入由所述第一去噪网络和所述人脸一致性模块融合形成的第一融合模块中进行融合处理,得到第二人脸图像;所述融合处理包括,将所述第一去噪网络与人脸一致性模块的至少一个中间层的输出结果求和,作为各自的下一层的输入;所述第二人脸图像基于对所述第一去噪网络与人脸一致性模块的输出结果求和得到;
第一损失确定单元,配置为,根据所述原始人脸图像与第二人脸图像之间的人脸相似度,确定第一损失;
第二损失确定单元,配置为,根据所述第一人脸图像与第二人脸图像之间的风格相似度,确定第二损失;
参数调整单元,配置为,基于所述第一损失与第二损失的总损失,调整所述人脸一致性模块的参数。
14.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-12中任一项所述的方法。
15.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。
CN202311542623.7A 2023-11-17 2023-11-17 图像生成模型的训练方法及装置 Pending CN117541459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311542623.7A CN117541459A (zh) 2023-11-17 2023-11-17 图像生成模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311542623.7A CN117541459A (zh) 2023-11-17 2023-11-17 图像生成模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN117541459A true CN117541459A (zh) 2024-02-09

Family

ID=89789490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311542623.7A Pending CN117541459A (zh) 2023-11-17 2023-11-17 图像生成模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN117541459A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726542A (zh) * 2024-02-18 2024-03-19 北京理工大学 基于扩散模型的可控噪声去除方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726542A (zh) * 2024-02-18 2024-03-19 北京理工大学 基于扩散模型的可控噪声去除方法及系统

Similar Documents

Publication Publication Date Title
CN110930976B (zh) 一种语音生成方法及装置
CN110166802B (zh) 弹幕处理方法、装置及存储介质
CN111709493B (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN117541459A (zh) 图像生成模型的训练方法及装置
CN116645668B (zh) 图像生成方法、装置、设备以及存储介质
EP4239585A1 (en) Video loop recognition method and apparatus, computer device, and storage medium
CN115293132B (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
CN117576264B (zh) 图像生成方法、装置、设备及介质
US20240161462A1 (en) Embedding an input image to a diffusion model
CN117876535A (zh) 一种图像处理方法、装置、设备、介质及程序产品
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN116309890A (zh) 模型生成方法、风格化图像生成方法、装置及电子设备
CN109635303A (zh) 特定领域意义改变词的识别方法
CN116935166A (zh) 模型训练方法、图像处理方法及装置、介质、设备
CN117496927B (zh) 基于扩散模型的音乐音色风格转换方法及系统
CN116206314A (zh) 模型训练方法、公式识别方法、装置、介质及设备
CN116074574A (zh) 一种视频处理方法、装置、设备及存储介质
CN117115588A (zh) 一种基于扩散模型的3d预训练方法与系统
CN113393545A (zh) 一种图像动漫化处理方法、装置、智能设备和存储介质
CN111783936A (zh) 卷积神经网络构建方法、装置、设备及介质
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN113542780B (zh) 一种网络直播视频的压缩伪影去除方法及装置
CN113613070B (zh) 一种人脸视频处理方法、装置、电子设备及存储介质
CN115525782A (zh) 自适应图结构的视频摘要生成方法
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination