CN117689992A - 平滑扩散模型的训练方法、系统和设备 - Google Patents
平滑扩散模型的训练方法、系统和设备 Download PDFInfo
- Publication number
- CN117689992A CN117689992A CN202311657287.0A CN202311657287A CN117689992A CN 117689992 A CN117689992 A CN 117689992A CN 202311657287 A CN202311657287 A CN 202311657287A CN 117689992 A CN117689992 A CN 117689992A
- Authority
- CN
- China
- Prior art keywords
- image
- diffusion model
- real
- text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 173
- 238000012549 training Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000008859 change Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 27
- 238000005516 engineering process Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- LQERIDTXQFOHKA-UHFFFAOYSA-N nonadecane Chemical compound CCCCCCCCCCCCCCCCCCC LQERIDTXQFOHKA-UHFFFAOYSA-N 0.000 claims 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011158 quantitative evaluation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 235000016623 Fragaria vesca Nutrition 0.000 description 1
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 1
- 240000008790 Musa x paradisiaca Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种平滑扩散模型的训练方法、系统和设备,具体涉及扩散模型技术领域,通过获取样本图像和样本图像对应的文本作为训练样本;以在预训练的稳定扩散模型输出的预测结果上增加的变化量与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U‑Net进行训练,得到平滑扩散模型。通过上述训练方法可以提高扩散模型的潜在空间平滑性,通过采用逐步变化正则化在有界范围内成功地控制任意输入图像和生成图像之间的变异,使其能满足图像插值、图像反演和图像编辑等编辑任务,在不影响输出的图像质量的情况下,获得更平滑的潜在空间。
Description
技术领域
本发明涉及扩散模型技术领域,特别是涉及一种平滑扩散模型的训练方法、系统和设备。
背景技术
扩散模型是生成式AI中用于文本到图像生成的一种工具,可以生成高质量且逼真的图像,并启发了各种基于扩散模型的下游任务,包括图像插值、图像反演、图像重建等等。但扩散模型仍然会产生低质量的结果,并具有不良和不可预测的行为。例如,对于图像插值可能会导致高度波动的输出和不可预测的视觉外观,对于图像反演可能无法忠实地按照源图像重构图像,对于图像编辑可能会对图像中的对象错误地更改。
因此,针对上述下游任务输出质量的需求,需要提高扩散模型的潜在空间(本文中,潜在空间也可以理解为隐空间或者隐变量空间)的平滑性。基于此,本发明提出一种平滑扩散模型的训练方法以解决上述问题。
发明内容
本发明提供一种平滑扩散模型的训练方法、系统、设备及介质,以解决如何提高扩散模型的潜在空间平滑性的问题。
在本发明实施例第一方面提出一种平滑扩散模型的训练方法,所述方法包括:
获取样本图像和所述样本图像对应的文本作为训练样本;
以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;
其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
在本发明可选地一实施例中,对预训练的稳定扩散模型中的U-Net进行训练所采用的损失函数如下:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量;/>表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量/>在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,/>表示对求期望。在本发明可选地一实施例中,所述方法还包括:
所述平滑扩散模型的评估指标包括ISTD,所述ISTD用于评估所述平滑扩散模型的潜在空间平滑性,获取ISTD的过程包括:
获取多个文本提示;
针对每个所述文本提示,获取一对高斯噪声图像;
基于每对所述高斯噪声图像,以预设混合比率从第一比率至第二比率均匀的对所述高斯噪声图像添加插值噪声,得到图像序列,所述图像序列包括2张高斯噪声图像和多张插值噪声图像;
计算所述图像序列中相邻图像之间的L2距离的标准差;
将多个所述文本提示的标准差进行平均处理,得到所述ISTD。
在本发明可选地一实施例中,所述方法还包括:
所述λ的取值为1;
在训练过程中,采用LoRA微调技术对所述平滑扩散模型的参数进行微调,其中,LoRA的秩取值为8。
在本发明可选地一实施例中,所述方法还包括:
获取真实图像和所述真实图像对应的真实文本;
基于所述真实文本,获取所述真实文本对应的真实图像对,并将所述真实图像对转换为潜在噪声;
将所述潜在噪声输入至预先训练的所述平滑扩散模型中,以预设混合比率从第三比率至第四比率均匀的对所述潜在噪声添加均匀球面线性插值,得到多张插值图像;
将所述真实图像对和多张所述插值图像组合作为图像过渡序列。
在本发明可选地一实施例中,所述方法还包括:
将DDIM反演技术与所述平滑扩散模型结合,得到第一集成模型,所述第一集成模型用于对图像进行反演处理和重建处理;
获取真实图像和所述真实图像对应的真实文本;
将所述真实图像和所述真实图像对应的真实文本输入至所述第一集成模型,输出第一重建图像,所述第一重建图像为针对所述真实图像和所述真实文本重新构建的图像。
在本发明可选地一实施例中,所述方法还包括:
将NTI反演技术与所述平滑扩散模型结合,得到第二集成模型,所述第二集成模型用于对图像进行反演处理和重建处理;
获取真实图像和所述真实图像对应的真实文本;
将所述真实图像和所述真实图像对应的真实文本输入至所述第二集成模型中,输出第二重建图像,所述第二重建图像均为针对所述真实图像和所述真实文本重新构建的图像。
在本发明可选地一实施例中,所述方法还包括:
对所述第二集成模型中重建过程中的文本提示符进行修改,得到图像编辑模型;
获取真实图像、所述真实图像对应的真实文本,以及编辑文本,所述编辑文本为针对所述真实文本进行修改、替换或添加的文本;
将所述真实图像、所述真实图像对应的真实文本,以及所述编辑文本输入至所述图像编辑模型中,基于所述编辑文本对所述真实图像进行局部编辑或全局编辑,输出所述编辑文本对应的编辑图像。本发明实施例在第二方面提供一种平滑扩散模型的训练系统,所述系统包括:
训练样本获取模块,用于获取样本图像和所述样本图像对应的文本作为训练样本;
训练模块,用于以在预训练的稳定扩散模型输出的预测结果上增加的变化量与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
其中,对预训练的稳定扩散模型中的U-Net进行训练所采用的损失函数如下:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量;/>表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量/>在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,/>表示对求期望。
其中,所述平滑扩散模型的评估指标包括ISTD,所述ISTD用于评估所述平滑扩散模型的潜在空间平滑性,所述训练系统还包括ISTD获取模块,所述ISTD获取模块包括:
第一获取子模块,用于获取多个文本提示;
第二获取子模块,用于针对每个所述文本提示,获取一对高斯噪声图像;
图像序列获取子模块,用于基于每对所述高斯噪声图像,以预设混合比率从第一比率至第二比率均匀的对所述高斯噪声图像添加插值噪声,得到图像序列,所述图像序列包括2张高斯噪声图像和多张插值噪声图像;
计算子模块,用于计算所述图像序列中相邻图像之间的L2距离的标准差;
ISTD获取子模块,用于将多个所述文本提示的标准差进行平均处理,得到所述ISTD。
其中,所述训练系统还包括:
第一获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第二获取模块,用于基于所述真实文本,获取所述真实文本对应的真实图像对,并将所述真实图像对转换为潜在噪声;
插值模块,用于将所述潜在噪声输入至预先训练的所述平滑扩散模型中,以预设混合比率从第三比率至第四比率均匀的对所述潜在噪声添加均匀球面线性插值,得到多张插值图像;
组合模块,用于将所述真实图像对和多张所述插值图像组合作为图像过渡序列。
其中,所述训练系统还包括:
第一集成模型获取模块,用于将DDIM反演技术与所述平滑扩散模型结合,得到第一集成模型,所述第一集成模型用于对图像进行反演处理和重建处理;
第三获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第一重建图像获取模块,用于将所述真实图像和所述真实图像对应的真实文本输入至所述第一集成模型,输出第一重建图像,所述第一重建图像为针对所述真实图像和所述真实文本重新构建的图像。
其中,所述训练系统还包括:
第二集成模型获取模块,用于将NTI反演技术与所述平滑扩散模型结合,得到第二集成模型,所述第二集成模型用于对图像进行反演处理和重建处理;
第四获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第二重建图像获取模块,用于将所述真实图像和所述真实图像对应的真实文本输入至所述第二集成模型中,输出第二重建图像,所述第二重建图像均为针对所述真实图像和所述真实文本重新构建的图像。
其中,所述系统还包括:
图像编辑模型获取模块,用于对所述第二集成模型中重建过程中的文本提示符进行修改,得到图像编辑模型;
第五获取模块,用于获取真实图像、所述真实图像对应的真实文本,以及编辑文本,所述编辑文本为针对所述真实文本进行修改、替换或添加的文本;
编辑图像获取模块,用于将所述真实图像、所述真实图像对应的真实文本,以及所述编辑文本输入至所述图像编辑模型中,基于所述编辑文本对所述真实图像进行局部编辑或全局编辑,输出所述编辑文本对应的编辑图像。
在本发明实施例第三方面提出一种电子设备,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的平滑扩散模型的训练方法。
在本发明实施例第四方面提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的平滑扩散模型的训练方法。
本发明包括以下优点:本发明提出一种平滑扩散模型的训练方法、系统、设备及介质,通过获取样本图像和所述样本图像对应的文本作为训练样本;以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。通过本发明提出的训练方法可以提高扩散模型的潜在空间平滑性,通过采用逐步变化正则化在有界范围内成功地控制任意输入图像和生成图像之间的变异,使其能满足图像插值、图像反演和图像编辑等编辑任务,在不影响输出的图像质量的情况下,获得更平滑的潜在空间。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种平滑扩散模型的训练方法的步骤流程图;
图2为本发明实施例提供的一种平滑扩散模型的训练系统架构图;
图3是本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
扩散模型是生成式AI中用于文本到图像生成的一种工具,可以生成高质量且逼真的图像,并启发了各种基于扩散模型的下游任务,包括图像插值、图像反演、图像重建等等。但扩散模型仍然会产生低质量的结果,并具有不良和不可预测的行为。对于图像插值,稳定扩散模型用球面线性插值检查潜在空间,可能会导致高度波动的输出和不可预测的视觉外观,示例性的,任务1中间的插值图像表现出不希望的急剧变化并且出现“卡通化”,对于任务2中的图像反演可能无法忠实地按照源图像重构图像,相反,还会生成不正确的颜色和物体方向,例如将计算机鼠标误认为动物鼠标,并重新构建成动物鼠标,对于任务3中的图像编辑,只有较小的文本提示才能导致图像内容和布局的更新,对其图像中的对象(例如猫的姿势、马的位置、披萨的形状)会被错误地更改。
因此,针对上述下游任务输出质量的需求,需要提高扩散模型的潜在空间平滑性。平滑的潜在空间意味着在较小的潜在变化下具有鲁棒性的视觉变化,增强这种平滑性有助于提高图像插值的连续性,扩大图像反演能力,并在图像编辑中保持正确的语义。基于此,本发明提出一种平滑扩散模型的训练方法以解决上述问题。
在本发明实施例第一方面提出一种平滑扩散模型的训练方法,参阅图1,图1在本发明实施例提出的一种平滑扩散模型的训练方法的步骤流程图,所述训练方法包括以下步骤:
步骤101:获取样本图像和所述样本图像对应的文本作为训练样本;
步骤102:以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;
其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
在本发明可选地一实施例中,对预训练的稳定扩散模型中的U-Net进行训练所采用的损失函数如下:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量,即,将采样的像素强度标准化为单位长度;ε表示样本噪声;表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,t表示训练过程中采样的单个时间步,T表示扩散模型的总时间步数,/>表示/>对ε求导得到的雅可比矩阵的转置,/>表示对求期望。
具体实施步骤101时,在本发明实施例中,所述样本图像和所述样本图像的对应的文本从LAION-Aesthetics6.5+数据集中获取,该数据集包含625K图像-文本对,其中图像的预测美学分数为6.5或更高。
具体实施步骤102时,所述稳定扩散模型的网络结构包括文本编码器(CLIP文本编码器)、自动编码器(VAE)和U-Net,以所述稳定扩散模型的网络结构为基准进行平滑扩散模型的训练,将U-Net设置为可训练的,将VAE和文本编码器冻结并不参与平滑扩散模型的训练。将上述样本图像和所述样本图像对应的文本输入至预训练的稳定扩散模型中,并结合以下损失函数对预训练的稳定扩散模型中的U-Net进行训练,得到所述平滑扩散模型。
其中,所述损失函数的计算公式如下所示:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量,即,将采样的像素强度标准化为单位长度;ε表示样本噪声;表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量/>在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,t表示训练过程中采样的单个时间步,T表示扩散模型的总时间步数,/>表示/>对ε求导得到的雅可比矩阵的转置,/>表示对/>求期望。
本发明实施例提供的一种平滑扩散模型的训练过程如下:
首先,在第t步,将带噪图像xt输入预先训练的稳定扩散模型,得到预测结果然后,在预测结果/>上增加变化量/>并使用计算式/>计算出因变化量而需要在xt上增加的变化量Δxt,若/>与Δxt的比值不是常数C,则继续训练,直到/>与Δxt的比值为常数C为止,结束训练,得到平滑扩散模型。
在本发明可选地一实施例中,在上述训练过程中将训练参数具体设置如下:迭代次数设置为30K次,批次大小设置为96,每个GPU设置3个样本,总共设置4A100GPU,梯度累积设置为8,采用AdamW优化器,恒定学习率为1×10-4,权值衰减设置为1×10-4,扩散步数设置为50,无分类器引导尺度设置为7.5。
在本发明可选地一实施例中,所述平滑扩散模型的评估指标包括ISTD,ISTD(interpolation standard deviation)为插值标准差,通过ISTD可以评估所述平滑扩散模型的潜在空间平滑性,其中,获取ISTD的步骤具体为,首先获取多个文本提示,该文本提示可以为上述训练数据集中的文本,针对获取的任一文本提示,获取该文本提示对应的一对真实的高斯噪声图像,然后对于每一对高斯噪声图像,基于预设混合比率,从第一比率至第二比率均匀地对所述高斯噪声图像添加插值噪声,得到多张插值噪声图像,其中,所述第一比率和第二比率为预设混合比率,可以将所述第一比率设置为0.1,可以将所述第二比率设置为0.9;将2张高斯噪声图像和多张插值噪声图像组合作为图像序列,计算上述图像序列中相邻图像之间的L2距离的标准差,其中,L2距离是指欧式距离,L2距离的计算以及标准差的计算与相关技术中的相同,请参阅相关技术,此处不再赘述,然后将得到的每个文本提示的标准差进行平均处理,得到所述ISTD。同时为了评估文本到图像的生成性能,还采用FID(Fréchet Inception Distance,一种评估生成模型性能的指标)和CLIP Score(一种模型生成的图像与原文本或者原图关联度大小的指标)作为评估指标。
示例性地,从MS-COCO数据集(MS-COCO为一种大型图像数据)中随机抽取500个文本提示,对于每个文本提示进行一对高斯噪声采样,并以混合比率从0.1到0.9均匀地将它们从一个插值到另一个,再加上一个提示符,可以得到11张生成的图像,其中2张来自源高斯噪声,9张来自插值噪声。通过计算像素空间中每两个相邻图像之间L2距离的标准差,将500个文本提示的标准差平均得到ISTD。在理想情况下,ISTD的零值表示对于相同的隐空间固定大小的变化,在像素空间中具有一致和均匀的视觉波动,从而产生平滑的隐空间。
在平滑扩散模型的训练过程中,通过调整λ的值,以调整逐步变化正则化的强度,当逐步变化正则化的比例较低的情况下,例如,此时λ的取值为0.1,CLIP评分略有改善,然而,ISTD会显著增,表明潜在空间平滑度显著下降;相反,当逐步变化正则化的比例较高的情况下,例如,此时λ的取值为10,会导致更平滑的潜在空间,但FID会意外增加,在生成图像的质量上潜在空间平滑度显著下降;λ的取值十分重要,在上述平滑扩散模型的训练过程中,所述λ的取值为1。在训练过程中,采用LoRA微调技术对所述平滑扩散模型的参数进行微调,LORA微调技术是一种低资源微调大模型方法,使用LORA微调技术时,训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时,在上述平滑扩散模型的训练过程中,所述LoRA的秩取值为8。
在本发明可选地一实施例中,将上述预先训练的平滑扩散模型用于进行图像插值任务,具体为,获取真实图像和所述真实图像对应的真实文本,基于所述真实文本,获取所述真实文本对应的真实图像对,并将所述真实图像对转换为潜在噪声,然后将所述潜在噪声输入至预先训练的所述平滑扩散模型中,以预设混合比率从第三比率至第四比率均匀的对所述潜在噪声添加均匀球面线性插值,得到多张插值图像,其中,所述第三比率和第四比率为预设混合比率,可以将所述第三比率设置为0.1,可以将所述第四比率设置为0.9;将所述真实图像对和多张所述插值图像组合作为图像过渡序列。
示例性的,对于平滑扩散(Smooth Diffusion)组和稳定扩散(Stable Diffusion)组,将真实图像转换成潜在噪声,在潜在噪声之间插入球面线性插值,得到图像过渡序列,VAE插值组是在稳定扩散模型中的VAE空间进行插值,ANID组为首先将噪声添加至真实图像上,然后使用稳定扩散模型对插值后的噪声图像进行去噪。从图像差值对比结果可以看出,稳定扩散模型在过渡期间表现出明显的视觉波动。尤其是插值后的图像可能会引入与源图像无关的新属性,平滑扩散模型不仅避免在插值图像中引入明显的不相关属性,而且确保视觉效果在整个过渡过程中平稳变化。除了稳定扩散,VAE插值组插值图像结果与像素空间插值非常相似,视觉细节明显退化,ANID组具有50步调度器的ANID显示出高度模糊的插值结果。当ANID使用默认的200步调度器时,模糊可以得到缓解,但插值图像的质量仍然远远不能令人满意。
在本发明可选地一实施例中,通过将上述预先训练的平滑扩散模型和图像反演技术相结合,可以得到用于进行图像反演任务的集成模型,具体为,将DDIM(DenoisingDiffusion Implicit Models)反演技术与所述平滑扩散模型结合,得到第一集成模型,所述第一集成模型用于对图像进行反演处理和重建处理。所述第一集成模型进行图像反演和重建的过程具体为,首先获取真实图像和所述真实图像对应的真实文本,所述真实图像和真实文本可以从MS-COCO数据集中获取,然后将上述真实图像和所述真实图像对应的真实文本输入至所述第一集成模型,输出第一重建图像,所述第一集成模型基于所述真实图像和所述真实文本重新构建得到第一重建图像。
在本发明可选地一实施例中,通过将上述预先训练的平滑扩散模型和图像反演技术相结合,可以得到用于进行图像反演任务的集成模型,具体为,将NTI(Null-textinversion)反演技术与所述平滑扩散模型结合,得到第二集成模型,所述第二集成模型用于对图像进行反演处理和重建处理。所述第二集成模型进行图像反演和重建的过程具体为,首先获取真实图像和所述真实图像对应的真实文本,所述真实图像和真实文本可以从MS-COCO数据集中获取,然后将上述真实图像和所述真实图像对应的真实文本输入至所述第二集成模型,输出第二重建图像,所述第二集成模型基于所述真实图像和所述真实文本重新构建得到第二重建图像。
当采用DDIM反演技术对图像进行反演时,第一集成模型在重建质量方面明显优于稳定扩散模型,且该种改进体现在各个方面,例如,图像中角色身份的快速生成,塔楼后面城市景观的忠实再现,以及房间布局的正确性,上述改进均表明平滑扩散模型的潜在空间对DDIM反演中局部线性逼近引入的误差具有更大的容错性,因此,DDIM结合平滑扩散模型得到的第一集成模型产生的重建结果在更大程度上保留了源图像的内容。另一方面,当采用结合NTI反演技术得到的第二集成模型时,平滑扩散和稳定扩散之间的差异不那么明显。同时,仍然有稳定扩散表现不佳结果的例子。
为了量化图像重建性能,在本发明实施例中,采用MSE(Mean Squared Error,均方误差)、LPIPS(Learned Perceptual Image Patch Similarity,一种基于学习的感知图像补丁相似度指标)、SSIM(Structural Similarity Index,结构相似度指数)和PSNR(PeakSignal-to-Noise Ratio,峰值信噪比)评价图像重建能力,参阅表1,表1为本发明实施例提供的一种图像重建的定量评价结果,需要明确的是,图像重建的误差包括两个部分,一个是由于不同的反演方法和U-Net参数带来的,一种是共享的预训练的VAE带来的。在此将VAE重建误差作为我们方法的最优值。从表1可见,无论是使用DDIM反演技术还是NTI反演技术,平滑扩散模型在所有指标上都优于稳定扩散模型。其中,平滑扩散+NTI组的图像重建结果更接近VAE重建的结果,其优势在于潜在空间更平滑。
表1一种图像重建的定量评价结果
在本发明可选地一实施例中,通过对上述集成模型进行编辑修改,可以得到用于图像编辑的模型。具体为,将所述第二集成模型中重建过程中的文本提示符进行修改,得到图像编辑模型,所述图像编辑模型用于针对输入的编辑文本对源图像进行局部编辑或全局编辑。将所述图像编辑模型用于图像编辑的过程具体为,获取真实图像、所述真实图像对应的真实文本,以及编辑文本,所述编辑文本为针对所述真实文本进行修改、替换或添加的文本,然后将所述真实图像、所述真实图像对应的真实文本,以及所述编辑文本输入至所述图像编辑模型中,基于所述编辑文本对所述真实图像进行局部编辑或全局编辑,输出素数编辑文本对应的编辑图像。
示例性的,对平滑扩散模型和稳定扩散模型的编辑性能进行对比分析,同时以SOTA(state of the art,用于描述机器学习中取得某个任务上当前最优秀的模型)方法对图像进行编辑作为参考,包括SDEdit(Stochastic Differential Editing)、P2P(peer-to-peer networking)、PnP(Perspective-n-point)、Disentangle、Pix2Pix-Zero和CycleDiffusion(上述方法均为现有SOTA方法中的,具体可参阅相关技术,此处不做赘述)。评价的图像包括局部编辑任务和全局编辑任务,其中,局部编辑任务包括替换项目(例如,将文本奶油替换为文本草莓)和添加项目(例如,添加文本苹果)。全局编辑任务在于将整张图像的风格转移,例如,将图像的风格转换为卡通风格,虽然稳定扩散模型在结合NTI实现图像重建方面表面出色,但即使对文本提示符进行微小的修改,也会影响图像的内容。例如,可以影响蛋糕的风格、香蕉的形状和女孩的发型等元素。相比之下,基于平滑扩散模型得到的图像编辑模型不仅准确的按照目标文本提示编辑图像的同时,还有效地保留了未编辑的内容。与SOTA方法相比,基于平滑扩散模型得到的图像编辑模型也能在所有情况下始终提供更好的图像结果。
本发明实施例提供了一种平滑扩散模型的训练方法,通过获取样本图像和所述样本图像对应的文本作为训练样本;基于以下损失函数,对预训练的稳定扩散模型中的U-Net进行训练,得到所述平滑扩散模型,其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。通过本发明实施例提出的训练方法可以提高扩散模型的潜在空间平滑性,通过采用逐步变化正则化在有界范围内成功地控制任意输入图像和生成图像之间的变异,使其能满足图像插值、图像反演和图像编辑等编辑任务,在不影响输出的图像质量的情况下,获得更平滑的潜在空间。
基于同一发明构思,本发明实施例在第二方面提供一种平滑扩散模型的训练系统,参阅图2,图2为本发明实施例提供的一种平滑扩散模型的训练系统架构图,所述系统包括:
训练样本获取模块601,用于获取样本图像和所述样本图像对应的文本作为训练样本;
训练模块602,用于以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
其中,对预训练的稳定扩散模型中的U-Net进行训练所采用的损失函数如下:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量;/>表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量/>在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,/>表示对求期望。其中,所述平滑扩散模型的评估指标包括ISTD,所述ISTD用于评估所述平滑扩散模型的潜在空间平滑性,所述训练系统还包括ISTD获取模块,所述ISTD获取模块包括:
第一获取子模块,用于获取多个文本提示;
第二获取子模块,用于针对每个所述文本提示,获取一对高斯噪声图像;
图像序列获取子模块,用于基于每对所述高斯噪声图像,以预设混合比率从第一比率至第二比率均匀的对所述高斯噪声图像添加插值噪声,得到图像序列,所述图像序列包括2张高斯噪声图像和多张插值噪声图像;
计算子模块,用于计算所述图像序列中相邻图像之间的L2距离的标准差;
ISTD获取子模块,用于将多个所述文本提示的标准差进行平均处理,得到所述ISTD。
其中,所述训练系统还包括:
第一获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第二获取模块,用于基于所述真实文本,获取所述真实文本对应的真实图像对,并将所述真实图像对转换为潜在噪声;
插值模块,用于将所述潜在噪声输入至预先训练的所述平滑扩散模型中,以预设混合比率从第三比率至第四比率均匀的对所述潜在噪声添加均匀球面线性插值,得到多张插值图像;
组合模块,用于将所述真实图像对和多张所述插值图像组合作为图像过渡序列。
其中,所述训练系统还包括:
第一集成模型获取模块,用于将DDIM反演技术与所述平滑扩散模型结合,得到第一集成模型,所述第一集成模型用于对图像进行反演处理和重建处理;
第三获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第一重建图像获取模块,用于将所述真实图像和所述真实图像对应的真实文本输入至所述第一集成模型,输出第一重建图像,所述第一重建图像为针对所述真实图像和所述真实文本重新构建的图像。
其中,所述训练系统还包括:
第二集成模型获取模块,用于将NTI反演技术与所述平滑扩散模型结合,得到第二集成模型,所述第二集成模型用于对图像进行反演处理和重建处理;
第四获取模块,用于获取真实图像和所述真实图像对应的真实文本;
第二重建图像获取模块,用于将所述真实图像和所述真实图像对应的真实文本输入至所述第二集成模型中,输出第二重建图像,所述第二重建图像均为针对所述真实图像和所述真实文本重新构建的图像。
其中,所述系统还包括:
图像编辑模型获取模块,用于对所述第二集成模型中重建过程中的文本提示符进行修改,得到图像编辑模型;
第五获取模块,用于获取真实图像、所述真实图像对应的真实文本,以及编辑文本,所述编辑文本为针对所述真实文本进行修改、替换或添加的文本;
编辑图像获取模块,用于将所述真实图像、所述真实图像对应的真实文本,以及所述编辑文本输入至所述图像编辑模型中,基于所述编辑文本对所述真实图像进行局部编辑或全局编辑,输出所述编辑文本对应的编辑图像。基于同一发明构思,本发明实施例在第三方面提供一种电子设备,图3示出了本发明实施例公开的一种电子设备示意图,如图3所示,电子设备100包括:存储器110和处理器120,所述电子设备的存储器不少于12G,处理器主频不低于2.4GHz,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,以实现本发明实施例公开的一种平滑扩散模型的训练方法。
基于同一发明构思,本发明实施例在第四方面公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例公开的一种平滑扩散模型的训练方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、系统、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种平滑扩散模型的训练方法、系统和设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种平滑扩散模型的训练方法,其特征在于,所述方法包括:
获取样本图像和所述样本图像对应的文本作为训练样本;
以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;
其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
2.根据权利要求1所述的平滑扩散模型的训练方法,其特征在于,对预训练的稳定扩散模型中的U-Net进行训练所采用的损失函数如下:
L=Lbase+λLreg,
其中,Lbase表示稳定扩散模型的基础损失,λ表示控制逐步变化正则化的参数,其中,/>表示在预训练的稳定扩散模型输出的预测结果/>上增加的变化量;/>表示:在预训练的稳定扩散模型输出的预测结果/>上增加变化量/>在第t步输入的带噪图像xt上需要增加的变化量;a表示在训练过程中输入的带噪图像上需要增加的变化量的指数滑动平均值,/>表示对求期望。
3.根据权利要求1所述的平滑扩散模型的训练方法,其特征在于,所述平滑扩散模型的评估指标包括ISTD,所述ISTD用于评估所述平滑扩散模型的潜在空间平滑性,获取ISTD的过程包括:
获取多个文本提示;
针对每个所述文本提示,获取一对高斯噪声图像;
基于每对所述高斯噪声图像,以预设混合比率从第一比率至第二比率均匀的对所述高斯噪声图像添加插值噪声,得到图像序列,所述图像序列包括2张高斯噪声图像和多张插值噪声图像;
计算所述图像序列中相邻图像之间的L2距离的标准差;
将多个所述文本提示的标准差进行平均处理,得到所述ISTD。
4.根据权利要求2所述的平滑扩散模型的训练方法,其特征在于,所述λ的取值为1;
在训练过程中,采用LoRA微调技术对所述平滑扩散模型的参数进行微调,其中,LoRA的秩取值为8。
5.根据权利要求1所述的平滑扩散模型的训练方法,其特征在于,所述方法还包括:
获取真实图像和所述真实图像对应的真实文本;
基于所述真实文本,获取所述真实文本对应的真实图像对,并将所述真实图像对转换为潜在噪声;
将所述潜在噪声输入至预先训练的所述平滑扩散模型中,以预设混合比率从第三比率至第四比率均匀的对所述潜在噪声添加均匀球面线性插值,得到多张插值图像;
将所述真实图像对和多张所述插值图像组合作为图像过渡序列。
6.根据权利要求1所述的平滑扩散模型的训练方法,其特征在于,所述方法还包括:
将DDIM反演技术与所述平滑扩散模型结合,得到第一集成模型,所述第一集成模型用于对图像进行反演处理和重建处理;
获取真实图像和所述真实图像对应的真实文本;
将所述真实图像和所述真实图像对应的真实文本输入至所述第一集成模型,输出第一重建图像,所述第一重建图像为针对所述真实图像和所述真实文本重新构建的图像。
7.根据权利要求1所述的平滑扩散模型的训练方法,其特征在于,所述方法还包括:
将NTI反演技术与所述平滑扩散模型结合,得到第二集成模型,所述第二集成模型用于对图像进行反演处理和重建处理;
获取真实图像和所述真实图像对应的真实文本;
将所述真实图像和所述真实图像对应的真实文本输入至所述第二集成模型中,输出第二重建图像,所述第二重建图像均为针对所述真实图像和所述真实文本重新构建的图像。
8.根据权利要求7所述的平滑扩散模型的训练方法,其特征在于,所述方法还包括:
对所述第二集成模型中重建过程中的文本提示符进行修改,得到图像编辑模型;
获取真实图像、所述真实图像对应的真实文本,以及编辑文本,所述编辑文本为针对所述真实文本进行修改、替换或添加的文本;
将所述真实图像、所述真实图像对应的真实文本,以及所述编辑文本输入至所述图像编辑模型中,基于所述编辑文本对所述真实图像进行局部编辑或全局编辑,输出所述编辑文本对应的编辑图像。
9.一种平滑扩散模型的训练系统,其特征在于,所述系统包括:
训练样本获取模块,用于获取样本图像和样本图像对应的文本作为训练样本;
训练模块,用于以在预训练的稳定扩散模型输出的预测结果上增加的变化量/>与需要在第t步输入的带噪图像xt上增加的变化量Δxt的比值是常数C为目标,对预训练的稳定扩散模型中的U-Net进行训练,得到平滑扩散模型;其中,在训练过程中,预训练的所述稳定扩散模型中的VAE和文本编码器的模型参数被冻结。
10.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-8中任一项所述的平滑扩散模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311657287.0A CN117689992A (zh) | 2023-12-05 | 2023-12-05 | 平滑扩散模型的训练方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311657287.0A CN117689992A (zh) | 2023-12-05 | 2023-12-05 | 平滑扩散模型的训练方法、系统和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689992A true CN117689992A (zh) | 2024-03-12 |
Family
ID=90136456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311657287.0A Pending CN117689992A (zh) | 2023-12-05 | 2023-12-05 | 平滑扩散模型的训练方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117689992A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117852627A (zh) * | 2024-03-05 | 2024-04-09 | 湘江实验室 | 一种预训练模型微调方法及系统 |
-
2023
- 2023-12-05 CN CN202311657287.0A patent/CN117689992A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117852627A (zh) * | 2024-03-05 | 2024-04-09 | 湘江实验室 | 一种预训练模型微调方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | In-domain gan inversion for real image editing | |
CN117689992A (zh) | 平滑扩散模型的训练方法、系统和设备 | |
CN112581361B (zh) | 图像风格迁移模型的训练方法、图像风格迁移方法及装置 | |
US11893717B2 (en) | Initializing a learned latent vector for neural-network projections of diverse images | |
CN116910572B (zh) | 基于预训练语言模型的三维内容生成模型训练方法及装置 | |
CN112991493A (zh) | 基于vae-gan和混合密度网络的灰度图像着色方法 | |
Dogan et al. | Semi-supervised image attribute editing using generative adversarial networks | |
CN116309890A (zh) | 模型生成方法、风格化图像生成方法、装置及电子设备 | |
CN116883530A (zh) | 一种基于细粒度语义奖励的文本到图像生成方法 | |
Cotogni et al. | Treenhance: A tree search method for low-light image enhancement | |
CN111564205A (zh) | 一种病理图像染色归一化方法及装置 | |
CN113077451B (zh) | 基于无监督学习的单张图片本征图像分解方法、系统及介质 | |
Chen et al. | Fec: Three finetuning-free methods to enhance consistency for real image editing | |
Zhang et al. | Inter-frame video image generation based on spatial continuity generative adversarial networks | |
CN116935166A (zh) | 模型训练方法、图像处理方法及装置、介质、设备 | |
CN117196908A (zh) | 基于认知神经科学的多模态混合教学资源构建方法及系统 | |
Zhang et al. | Sals-gan: spatially-adaptive latent space in stylegan for real image embedding | |
CN115331005A (zh) | 一种基于深监督融合和特征平滑的指向性物体分割方法 | |
CN114494387A (zh) | 一种生成数据集网络模型及雾图生成方法 | |
Zhao et al. | Generating Counterfactual Images: Towards a C2C-VAE Approach. | |
CN112365551A (zh) | 一种图像质量处理系统、方法、设备和介质 | |
US11908180B1 (en) | Generating videos using sequences of generative neural networks | |
Li et al. | Multi‐Modal Face Stylization with a Generative Prior | |
Zhu et al. | In-Domain GAN Inversion for Faithful Reconstruction and Editability | |
CN113436291B (zh) | 图像的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |