CN117197268A - 图像生成方法、装置及存储介质 - Google Patents
图像生成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117197268A CN117197268A CN202310946688.1A CN202310946688A CN117197268A CN 117197268 A CN117197268 A CN 117197268A CN 202310946688 A CN202310946688 A CN 202310946688A CN 117197268 A CN117197268 A CN 117197268A
- Authority
- CN
- China
- Prior art keywords
- image
- edge
- processed
- prompt word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000009792 diffusion process Methods 0.000 claims abstract description 91
- 238000012549 training Methods 0.000 claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供一种图像生成方法、装置及存储介质。该图像生成方法包括:将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。本申请提供的图像生成方法、装置及存储介质,提取小样本类别图像的表观信息和边缘信息,并用其联合进行相应类别的图像生成,提高了基于小样本图像的图像生成模型的训练精度以及泛化能力,从而提高了小样本图像生成的准确性。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种图像生成方法、装置及存储介质。
背景技术
深度学习广泛应用于计算机视觉领域,在图像生成技术中,需要大量的图像样本对图像生成模型进行训练。而真实世界下的样本分布存在严重的长尾现象,大量少见的图像如稀缺艺术作品等,在进行相应类别的图像生成时只能提供少数稀缺的图像样本作为训练样本。
在实际应用中,由于大多数类别的图像样本的稀缺,现有的图像生成方法训练得到的图像生成网络容易出现严重的过拟合现象,并表现出差的泛化能力,图像生成网络训练的准确度低,从而导致图像生成的准确度低。
发明内容
本申请实施例提供一种图像生成方法、装置及存储介质,用以解决现有技术中图像生成准确度低的技术问题。
第一方面,本申请实施例提供一种图像生成方法,包括:
将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
在一些实施例中,所述基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像,包括:
基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量;
基于所述待处理提示词的目标嵌入向量和所述第一稳定扩散模型生成与所述待处理提示词相关联的图像。
在一些实施例中,所述基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量,包括:
利用编码器对所述待处理提示词进行转换和映射,得到所述待处理提示词的初始嵌入向量;
基于所述表观图像和所述第一边缘图像调整所述初始嵌入向量,得到所述待处理提示词的目标嵌入向量。
在一些实施例中,所述边缘图生成模型是通过下步骤训练得到的:
基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像;
基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型。
在一些实施例中,所述基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像,包括:
输入样本提示词至预训练的第一稳定扩散模型,得到所述样本提示词对应的合成图像;
利用边缘检测器对所述合成图像进行边缘提取,得到第二边缘图像。
在一些实施例中,所述基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型,包括:
基于所述样本提示词和第二稳定扩散模型中的去噪网络,得到所述样本提示词对应的预测张量;
基于所述第二边缘图像和所述预测张量确定损失函数;
以最小化所述损失函数为目标对所述第二稳定扩散模型中的去噪网络进行训练,得到边缘图生成模型。
在一些实施例中,所述基于所述第二边缘图像和所述预测张量确定损失函数,包括:
对所述第二边缘图像加入随机噪声;
根据加入随机噪声后的第二边缘图像和所述预测张量计算损失函数。
第二方面,本申请实施例提供一种图像生成装置,包括:
第一获取模块,用于将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
第二获取模块,用于基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的图像生成方法。
第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的图像生成方法。
第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的图像生成方法。
本申请实施例提供的图像生成方法、装置及存储介质,通过将待处理提示词分别输入至预训练的第一稳定扩散模型和边缘图生成模型中,得到所述待处理提示词的表观图像和第一边缘图像,即获得所述待处理提示词的图像表观信息和边缘结构信息,并基于所述待处理提示词的表观图像和第一边缘图像进行相应类别的图像生成,提高了基于小样本图像的图像生成模型的训练精度以及泛化能力,从而提高了小样本图像生成的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像生成方法的流程示意图;
图2是本申请实施例提供的示例场景的边缘图生成模型的训练框架图;
图3是本申请实施例提供的示例场景的待处理提示词的嵌入向量优化框架图;
图4是本申请实施例提供的一种图像生成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
相关技术中,将三至五张概念图片输入至预训练的文生图扩散模型中,得到文本隐空间中的伪词来描述这类概念的图片。然后将这些伪词组合成自然语言的句子,用于指导针对该概念的个性化图像生成。
现有基于人工智能的文生图技术均采用深度网络作为主要框架,其对图像强大的抽象理解和分布建模能力依赖于海量训练数据的驱动,当监督数据不足以有效支撑模型训练时,现有的图像生成模型容易呈现出严重的过拟合现象、表现出较差的泛化能力。此外,现有的小样本文本反演技术只以图像的RGB像素作为最终的优化目标,然而图像中既包含目标的表观纹理信息,也包含边缘结构等信息,现有技术中并未考虑这些信息,使得现有文生图模型提取的知识概念不完整和不准确,模型的泛化能力弱,从而使得小样本图像生成的准确性下降。
如何更好地通过预训练文生图模型提取出同时包含目标表观信息和结构信息的更加完备的知识概念,使得文生图模型具有泛化性更强的小样本图像生成能力具是一个亟待解决的关键问题
基于上述技术问题,本申请实施例提出一种图像生成方法,通过将待处理提示词分别输入至预训练的第一稳定扩散模型和边缘图生成模型中,得到所述待处理提示词的表观图像和第一边缘图像,并基于所述待处理提示词的表观图像和第一边缘图像进行相应类别的图像生成,提取出了同时包含目标表观信息和结构信息的更加完备的知识概念,提高了基于小样本图像的图像生成模型的训练精度以及泛化能力,从而提高了小样本图像生成的准确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的图像生成方法的流程示意图,如图1所示,本申请实施例提供一种图像生成方法,该方法包括:
步骤101、将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像。
具体地,所述待处理提示词可以指要获取的未知类别图像的文本提示词,尤其是小样本图像的文本提示词。
所述第一稳定扩散模型是预训练好的稳定扩散模型(Stable Diffusion),用于文生图,即所述第一稳定扩散模型的输入为文本提示词或基于文本提示词构成的句子,输出为相应的RGB图像。
所述表观图像指所述待处理提示词描述的目标所对应的RGB图像,该图像包含多种表观信息,例如颜色、纹理等信息。
所述边缘图生成模型用于捕获和理解所述待处理提示词描述的目标的结构特性或信息,生成该目标的边缘图,即第一边缘图像。本申请实施例中,所述边缘图生成模型是以所述第一稳定扩散模型为监督器训练得到的。
步骤102、基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
具体地,采用双流结构的图像生成网络,在获得所述待处理提示词对应的表观图像和第一边缘图像之后,基于所述表观图像和所述第一边缘图像联合进行所述待处理提示词相应类别的图像生成,得到目标图像。
例如,获取待处理提示词对应的表观图像和第一边缘图像之后,基于文本反演技术(Textual Inversion),用所述表观图像和第一边缘图像反向优化待处理提示词的嵌入向量,得到优化后的待处理提示词的嵌入向量。从而根据该优化后的待处理提示词的嵌入向量和任意上下文信息组成句子,并输入预训练的第一稳定扩散模型中,生成该句子相应的图像。
本申请实施例提供的图像生成方法,通过提取待处理提示词对应的表观信息和结构信息,实现基于少量样本就能够快速学习到待处理提示词相应的知识或概念,并从多维度获取不同信息来训练模型,增加了模型训练的准确性,使更加接近人类对真实世界中目标的认知机理及判别模式,增强了模型的泛化能力,提高了图像生成的准确性。
在一些实施例中,所述边缘图生成模型是通过下步骤训练得到的:
基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像;
基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型。
具体地,使用预训练的第一稳定扩散模型作为监督,训练第二稳定扩散模型进行边缘图像的生成,其中,第一稳定扩散模型和第二稳定扩散模型使用共享的样本提示词作为输入。
首先,基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像,然后以所述第二边缘图像作为训练第二稳定扩散模型的回归目标,对第二稳定扩散模型进行训练,得到边缘图生成模型。
例如,样本提示词为“一张飞机的图片”,该样本提示词输入至预训练的第一稳定扩散模型,第一稳定扩散模型生成该样本提示词对应的飞机图像,然后提取该飞机图像的边缘得到飞机的边缘图像,即第二边缘图像。然后用飞机的边缘图像作为回归目标,对第二稳定扩散模型进行训练,得到训练完成后的边缘图生成模型。
本申请实施例提供的图像生成方法,由于边缘图中不含有颜色或纹理等表观信息,因此得到的边缘图生成模型相比传统图像生成模型,可以更专注于捕获和理解生成相应图像所需的结构特性,从而有利于后续提取小样本目标图像的结构信息,提高了边缘图生成模型对结构信息提取或者边缘图像生成的准确性。
在一些实施例中,所述基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像,包括:
输入样本提示词至预训练的第一稳定扩散模型,得到所述样本提示词对应的合成图像;
利用边缘检测器对所述合成图像进行边缘提取,得到第二边缘图像。
具体地,首先将样本提示词输入至预训练的第一稳定扩散模型中进行文生图操作,得到样本提示词对应的合成图像。然后用一个边缘检测器提取样本提示词对应的合成图像的结构信息或边缘,得到第二边缘图像。
本申请实施例中,所述边缘检测器可以为DeepEdge、N4-Fields或DeepContour等。
例如,图2是本申请实施例提供的示例场景的边缘图生成模型的训练框架图,如图2所示,将样本提示词y输入至预训练好的第一稳定扩散模型M中进行图像合成,输出样本提示词y对应的合成图像I。再通过边缘检测器E对I进行边缘图的提取,得到包含结构信息的第二边缘图像Iedge。
本申请实施例提供的图像生成方法,利用预训练好的第一稳定扩散模型和边缘检测器获取样本提示词对应的边缘图像,用于监督训练第二稳定扩散模型,考虑了结构信息在图像生成中的重要作用,使能够训练出准确度高的稳定扩散模型作为边缘图生成模型。
在一些实施例中,所述基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型,包括:
基于所述样本提示词和第二稳定扩散模型中的去噪网络,得到所述样本提示词对应的预测张量;
基于所述第二边缘图像和所述预测张量确定损失函数;
以最小化所述损失函数为目标对所述第二稳定扩散模型中的去噪网络进行训练,得到边缘图生成模型。
具体地,基于所述样本提示词和第二稳定扩散模型中包含的去噪网络,得到潜空间(隐空间)中的样本提示词对应的预测张量,基于第二边缘图像和所述预测张量确定损失函数,并以最小化损失函数为目标对所述第二稳定扩散模型中的去噪网络进行训练,得到边缘图生成模型。
本申请实施例中,输入第二稳定扩散模型的样本提示词,首先通过第二稳定扩散模型中的编码器进行编码,所述编码器中包含对比学习语言图像预训练模型CLIP(Contrastive Language-Image Pre-training)标记器和文本转换器等,编码后的样本提示词通过第二稳定扩散模型中的噪声预测期进行预测,然后在第二稳定扩散模型中的去噪网络进行去噪,最终得到潜空间的预测张量。
例如,如图2所示,将样本提示词y输入至第二稳定扩散模型Medge中,通过Medge中的编码器cθ(cθ中包含CLIP标记器和文本转换器)和噪声预测器得到潜空间噪声,然后经过去噪网络∈θ进行去噪,即将预测得到的潜空间噪声与潜空间中预先生成的随机张量作差,得到的差值即为预测张量。该预测张量经过解码器D可生成边缘图像Ie ′ dge。第一稳定扩散模型M使用样本提示词y对应的第二边缘图像Iedge作为训练第二稳定扩散模型Medge的回归目标,基于预测张量计算对应的损失函数,训练Medge中的去噪网络∈θ,将训练好的Medge作为边缘图生成模型。
本申请实施例提供的图像生成方法,通过优化第二稳定扩散模型的网络参数如优化去噪网络,来训练并得到一个效果良好的稳定扩散模型用于生成包含结构信息的边缘图像,减小了边缘图像生成的误差,提高了基于边缘图像进行图像生成的有效性和准确性。
在一些实施例中,所述基于所述第二边缘图像和所述预测张量确定损失函数,包括:
对所述第二边缘图像加入随机噪声;
根据加入随机噪声后的第二边缘图像和所述预测张量计算损失函数。
具体地,在得到第二边缘图像和样本提示词对应的潜空间中的预测张量之后,对所述第二边缘图像加入不同随机噪声,得到扩展后的多个样本边缘图像,根据加入随机噪声后的第二边缘图像和所述预测张量计算损失函数。
例如,如图2所示,在获取第二边缘图像Iedge后,第一稳定扩散模型M使用该第二边缘图像Iedge作为训练第二稳定扩散模型Medge的回归目标。对Iedge加入随机噪声,基于加入随机噪声后的Iedge和预测张量的差值确定损失函数。
再例如,对Iedge加入随机噪声,训练Medge的去噪网络∈θ,损失函数Ledge的计算公式如下:
其中,Ledge表示损失函数;E表示边缘提取操作;z表示噪声;y表示样本提示词;∈表示对第二边缘图像加入随机噪声之后的图片;∈θ表示第二稳定扩散模型中的去噪网络;t表示时间步;zt表示t时刻的噪声;cθ表示第二稳定扩散模型中的编码器。
本申请实施例提供的图像生成方法,在训练第二稳定扩散模型得到边缘图生成模型的过程中,无需利用真实样本训练第二稳定扩散模型,而是基于第二边缘图像得到多个不同的训练样本用于模型训练,可以获得丰富的训练样本使得边缘图生成模型学到泛化性强大的目标结构生成能力,使得在小样本微调的文生图过程中能更好地保持生成目标的结构信息。
在一些实施例中,所述基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像,包括:
基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量;
基于所述待处理提示词的目标嵌入向量和所述第一稳定扩散模型生成与所述待处理提示词相关联的图像。
具体地,在得到具备结构描述和抽象生成能力的边缘图生成模型后,联合使用第一稳定扩散模型生成的所述待处理提示词对应的表观图像,以及所述边缘图生成模型生成的所述待处理提示词对应的第一边缘图像,采用文本反演方法反向优化所述待处理提示词的文本嵌入向量,得到所述待处理提示词的目标嵌入向量。然后基于该目标嵌入向量和所述第一稳定扩散模型生成与所述待处理提示词相关联的图像,得到目标图像。
例如,基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量v*,并基于所述待处理提示词的目标嵌入向量和所述第一稳定扩散模型对v*进行优化。然后用户可将该优化得到的v*结合任意的上下文信息来组成完整的一句话,如“请帮我生成一张v*的图像”,将其输入到第一稳定扩散模型中,生成v*对应的小样本图像。
本申请实施例提供的图像生成方法,只采用少量小样本训练图像进行多轮训练,使得整体训练用时短且占用计算资源较少,而且很好地将小样本类别所具有的表观和结构等抽象知识概念提取凝练到文本嵌入向量中,从而进行大规模的合成,该学习过程更加贴近于人学习新知识的汇总和举一反三创新的过程。训练得到了具有强大的抽象表达能力以及泛化能力的图像生成模型和边缘图生成模型,提升了图像生成的准确性。
在一些实施例中,所述基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量,包括:
利用编码器对所述待处理提示词进行转换和映射,得到所述待处理提示词的初始嵌入向量;
基于所述表观图像和所述第一边缘图像调整所述初始嵌入向量,得到所述待处理提示词的目标嵌入向量。
具体地,使用编码器对所述待处理提示词进行转换和映射后,在潜空间中得到所述待处理提示词的初始嵌入向量。然后基于已获得的所述待处理提示词对应的表观图像和第一边缘图像调整或优化所述初始嵌入向量,得到所述待处理提示词的目标嵌入向量。
例如,图3是本申请实施例提供的示例场景的待处理提示词的嵌入向量优化框架图,如图3所示,所述待处理提示词是用户可以指定的文本,用一个伪词S*代替。S*与其他提示词一样经过第一稳定扩散模型M中的编码器转换、映射后,在潜空间中得到对应的伪词嵌入v*(即初始嵌入向量),v*通过第一稳定扩散模型M得到待处理提示词对应的表观图像I*,然后经过边缘检测器得到待处理提示词对应的边缘检测结果Iedge*;v*通过边缘图生成模型得到第一边缘图像I′edge*。根据双流的生成结果(Iedge*和I′edge*)对伪词嵌入v*进行优化,得到优化后的v*,即所述待处理提示词的目标嵌入向量。
再例如,所述待处理提示词S*经第一稳定扩散模型M中的编码器转换、映射后,在潜空间中得到对应的初始嵌入向量,初始嵌入向量通过M得到待处理提示词对应的表观图像I*,然后经过边缘检测器得到待处理提示词对应的边缘检测结果Iedge*,初始嵌入向量通过边缘图生成模型得到第一边缘图像I′edge-,根据Iedge*和I′edge*对初始嵌入向量进行优化,优化公式如下:
其中,v*表示待处理提示词的目标嵌入向量;argminv用于求取达到最小值时对应的待处理提示词的嵌入向量;E表示边缘提取操作;z表示噪声;S*表示待处理提示词;∈表示对第二边缘图像加入随机噪声之后的图片,所述第二边缘图像是对待处理提示词对应的表观图像进行边缘提取得到的;∈θ表示第二稳定扩散模型中的去噪网络;t表示时间步;zt表示t时刻的噪声;cθ表示第二稳定扩散模型中的编码器。
本申请实施例提供的图像生成方法,使用双流的生成结果,即待处理提示词对应的表观图像和第一边缘图像对,对待处理提示词的文本嵌入进行优化,从而将待处理提示词这个未知类别的新概念注入到生成过程中,联合知识提取文本反演优化并得到生成待处理提示词对应目标的文本空间嵌入向量。
在小样本微调的文生图过程中能更好地保持生成目标的结构信息。
图4是本申请实施例提供的一种图像生成装置的结构示意图,如图4所示,本申请实施例提供一种图像生成装置,包括第一获取模块401和第二获取模块402。
所述第一获取模块401用于将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
所述第二获取模块402用于基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
在一些实施例中,所述第二获取模块包括:
确定单元,用于基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量;
生成单元,用于基于所述待处理提示词的目标嵌入向量和所述第一稳定扩散模型生成与所述待处理提示词相关联的图像。
在一些实施例中,所述确定单元包括:
第一获取子单元,用于利用编码器对所述待处理提示词进行转换和映射,得到所述待处理提示词的初始嵌入向量;
第二获取子单元,用于基于所述表观图像和所述第一边缘图像调整所述初始嵌入向量,得到所述待处理提示词的目标嵌入向量。
在一些实施例中,所述边缘图生成模型是通过下步骤训练得到的:
基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像;
基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型。
在一些实施例中,所述基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像,包括:
输入样本提示词至预训练的第一稳定扩散模型,得到所述样本提示词对应的合成图像;
利用边缘检测器对所述合成图像进行边缘提取,得到第二边缘图。
在一些实施例中,所述基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型,包括:
基于所述样本提示词和第二稳定扩散模型中的去噪网络,得到所述样本提示词对应的预测张量;
基于所述第二边缘图像和所述预测张量确定损失函数;
以最小化所述损失函数为目标对所述第二稳定扩散模型中的去噪网络进行训练,得到边缘图生成模型。
在一些实施例中,所述基于所述第二边缘图像和所述预测张量确定损失函数,包括:
对所述第二边缘图像加入随机噪声;
根据加入随机噪声后的第二边缘图像和所述预测张量计算损失函数。
具体地,本申请实施例提供的上述图像生成装置,能够实现上述图像生成方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
需要说明的是,本申请上述各实施例中对单元/模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
图5是本申请实施例提供的一种电子设备的结构示意图,如图5所示,所述电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行图像生成方法,该方法包括:
将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
具体地,处理器501可以是中央处理器(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD),处理器也可以采用多核架构。
存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在一些实施例中,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法实施例提供的图像生成方法,该方法包括:
将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
具体地,本申请实施例提供的上述计算机程序产品,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
在一些实施例中,还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述各方法实施例提供的图像生成方法。
具体地,本申请实施例提供的上述计算机可读存储介质,能够实现上述各方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
需要说明的是:所述计算机可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
另外需要说明的是:本申请实施例中术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”所区别的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
本申请实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
本申请中的“基于A确定B”表示确定B时要考虑A这个因素。并不限于“只基于A就可以确定出B”,还应包括:“基于A和C确定B”、“基于A、C和E确定B”、基于“A确定C,基于C进一步确定B”等。另外还可以包括将A作为确定B的条件,例如,“当A满足第一条件时,使用第一方法确定B”;再例如,“当A满足第二条件时,确定B”等;再例如,“当A满足第三条件时,基于第一参数确定B”等。当然也可以是将A作为确定B的因素的条件,例如,“当A满足第一条件时,使用第一方法确定C,并进一步基于C确定B”等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机可执行指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机可执行指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些处理器可执行指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的处理器可读存储器中,使得存储在该处理器可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些处理器可执行指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种图像生成方法,其特征在于,包括:
将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像,包括:
基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量;
基于所述待处理提示词的目标嵌入向量和所述第一稳定扩散模型生成与所述待处理提示词相关联的图像。
3.根据权利要求2所述的图像生成方法,其特征在于,所述基于所述表观图像和所述第一边缘图像确定所述待处理提示词的目标嵌入向量,包括:
利用编码器对所述待处理提示词进行转换和映射,得到所述待处理提示词的初始嵌入向量;
基于所述表观图像和所述第一边缘图像调整所述初始嵌入向量,得到所述待处理提示词的目标嵌入向量。
4.根据权利要求1所述的图像生成方法,其特征在于,所述边缘图生成模型是通过下步骤训练得到的:
基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像;
基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型。
5.根据权利要求4所述的图像生成方法,其特征在于,所述基于样本提示词和预训练的第一稳定扩散模型获取所述样本提示词对应的第二边缘图像,包括:
输入样本提示词至预训练的第一稳定扩散模型,得到所述样本提示词对应的合成图像;
利用边缘检测器对所述合成图像进行边缘提取,得到第二边缘图像。
6.根据权利要求4所述的图像生成方法,其特征在于,所述基于所述第二边缘图像对第二稳定扩散模型进行训练,得到边缘图生成模型,包括:
基于所述样本提示词和第二稳定扩散模型中的去噪网络,得到所述样本提示词对应的预测张量;
基于所述第二边缘图和所述预测张量确定损失函数;
以最小化所述损失函数为目标对所述第二稳定扩散模型中的去噪网络进行训练,得到边缘图生成模型。
7.根据权利要求6所述的图像生成方法,其特征在于,所述基于所述第二边缘图像和所述预测张量确定损失函数,包括:
对所述第二边缘图像加入随机噪声;
根据加入随机噪声后的第二边缘图像和所述预测张量计算损失函数。
8.一种图像生成装置,其特征在于,包括:
第一获取模块,用于将待处理提示词输入至预训练的第一稳定扩散模型,得到所述待处理提示词对应的表观图像,并将待处理提示词输入至边缘图生成模型,得到所述待处理提示词对应的第一边缘图像;
第二获取模块,用于基于所述表观图像和所述第一边缘图像生成与所述待处理提示词相关联的图像。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像生成方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310946688.1A CN117197268A (zh) | 2023-07-27 | 2023-07-27 | 图像生成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310946688.1A CN117197268A (zh) | 2023-07-27 | 2023-07-27 | 图像生成方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117197268A true CN117197268A (zh) | 2023-12-08 |
Family
ID=88995070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310946688.1A Pending CN117197268A (zh) | 2023-07-27 | 2023-07-27 | 图像生成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117197268A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689961A (zh) * | 2024-02-02 | 2024-03-12 | 深圳大学 | 视觉识别模型训练、视觉识别方法、系统、终端及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020110196A1 (en) * | 1998-06-29 | 2002-08-15 | Xerox Corporation | HVQ compression for image boundaries |
US20050219581A1 (en) * | 2004-03-30 | 2005-10-06 | Toshiba Solutions Corporation | Image processing apparatus and image processing method |
US20110279475A1 (en) * | 2008-12-24 | 2011-11-17 | Sony Computer Entertainment Inc. | Image processing device and image processing method |
US10997752B1 (en) * | 2020-03-09 | 2021-05-04 | Adobe Inc. | Utilizing a colorization neural network to generate colorized images based on interactive color edges |
CN116012481A (zh) * | 2023-01-17 | 2023-04-25 | 北京百度网讯科技有限公司 | 图像生成处理方法、装置、电子设备及存储介质 |
CN116188854A (zh) * | 2023-02-08 | 2023-05-30 | 北京龙智数科科技服务有限公司 | 一种图像分类模型的训练方法及装置 |
CN116342395A (zh) * | 2021-12-22 | 2023-06-27 | 中兴通讯股份有限公司 | 图像修复方法、图像修复装置、电子设备、介质 |
CN116342887A (zh) * | 2023-04-13 | 2023-06-27 | 北京有竹居网络技术有限公司 | 用于图像分割的方法、装置、设备和存储介质 |
-
2023
- 2023-07-27 CN CN202310946688.1A patent/CN117197268A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020110196A1 (en) * | 1998-06-29 | 2002-08-15 | Xerox Corporation | HVQ compression for image boundaries |
US20050219581A1 (en) * | 2004-03-30 | 2005-10-06 | Toshiba Solutions Corporation | Image processing apparatus and image processing method |
US20110279475A1 (en) * | 2008-12-24 | 2011-11-17 | Sony Computer Entertainment Inc. | Image processing device and image processing method |
US10997752B1 (en) * | 2020-03-09 | 2021-05-04 | Adobe Inc. | Utilizing a colorization neural network to generate colorized images based on interactive color edges |
CN116342395A (zh) * | 2021-12-22 | 2023-06-27 | 中兴通讯股份有限公司 | 图像修复方法、图像修复装置、电子设备、介质 |
CN116012481A (zh) * | 2023-01-17 | 2023-04-25 | 北京百度网讯科技有限公司 | 图像生成处理方法、装置、电子设备及存储介质 |
CN116188854A (zh) * | 2023-02-08 | 2023-05-30 | 北京龙智数科科技服务有限公司 | 一种图像分类模型的训练方法及装置 |
CN116342887A (zh) * | 2023-04-13 | 2023-06-27 | 北京有竹居网络技术有限公司 | 用于图像分割的方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117689961A (zh) * | 2024-02-02 | 2024-03-12 | 深圳大学 | 视觉识别模型训练、视觉识别方法、系统、终端及介质 |
CN117689961B (zh) * | 2024-02-02 | 2024-05-07 | 深圳大学 | 视觉识别模型训练、视觉识别方法、系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220014807A1 (en) | Method, apparatus, device and medium for generating captioning information of multimedia data | |
CN110110337B (zh) | 翻译模型训练方法、介质、装置和计算设备 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111368118B (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
KR20200007900A (ko) | 관심 포인트 문안의 생성 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN109168003B (zh) | 一种生成用于视频预测的神经网络模型的方法 | |
CN114926835A (zh) | 文本生成、模型训练方法和装置 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN117197268A (zh) | 图像生成方法、装置及存储介质 | |
CN111583105A (zh) | 人像生成方法、装置、设备及存储介质 | |
CN114360502A (zh) | 语音识别模型的处理方法、语音识别方法及装置 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN118015144A (zh) | 图像生成方法和图像生成模型的训练方法、装置 | |
CN116682110B (zh) | 图像处理方法、装置、设备及介质 | |
CN117789751A (zh) | 说话人脸视频生成方法、计算机设备及存储介质 | |
CN111046966B (zh) | 基于度量注意力机制的图像字幕生成方法 | |
US12112524B2 (en) | Image augmentation method, electronic device and readable storage medium | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN113590800B (zh) | 图像生成模型的训练方法和设备以及图像生成方法和设备 | |
CN116911306A (zh) | 自然语言理解方法及装置、服务器及存储介质 | |
CN111599363B (zh) | 一种语音识别的方法及其装置 | |
CN116665012B (zh) | 图像字幕自动生成方法、装置及存储介质 | |
CN115081459B (zh) | 口语文本生成方法、装置、设备及存储介质 | |
CN116862803B (zh) | 逆转图像重建方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |