CN117710510A - 一种图像生成方法及装置 - Google Patents
一种图像生成方法及装置 Download PDFInfo
- Publication number
- CN117710510A CN117710510A CN202410156973.8A CN202410156973A CN117710510A CN 117710510 A CN117710510 A CN 117710510A CN 202410156973 A CN202410156973 A CN 202410156973A CN 117710510 A CN117710510 A CN 117710510A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- target
- foreground
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012512 characterization method Methods 0.000 claims abstract description 319
- 238000009792 diffusion process Methods 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 25
- 230000002902 bimodal effect Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000003672 processing method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000036544 posture Effects 0.000 description 5
- 241000282461 Canis lupus Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000000442 meristematic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本说明书一个或多个实施例公开了一种图像生成方法及装置,该方法首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,最后,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
Description
技术领域
本文件涉及图像处理技术领域,尤其涉及一种图像生成方法及装置。
背景技术
随着人们对自己的隐私数据越来越重视,在需要大量图像的应用场景中大范围获取图像已不可能实现,通常只能得到少数有限的图像样本。基于此,文生图大模型的应用越来越广泛。文生图大模型旨在按照文本信息生成逼真且多样性的图像,当前,文生图大模型技术已取得显著进步,通过文生图大模型能够根据文本提示信息生成符合用户需求的高质量图像。
相关技术中,可以采用模型微调的方式进行图像生成,即在少量图像样本上进行微调泛化处理,从而实现基于小样本的图像生成,当小样本发生变更后需要再次进行模型微调,并需要存储每次微调处理后的模型。因此,需要提供一种模型复用较高、无需微调且能够快速泛化到小样本上的更优的图像生成方法。
发明内容
一方面,本说明书一个或多个实施例提供一种图像生成方法,包括:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
另一方面,本说明书一个或多个实施例提供一种图像生成方法,包括:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供一种图像生成装置,包括:信息获取模块,获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;表征信息提取模块,从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;前景控制信息确定模块,将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;扩散模块,通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供一种图像生成装置,包括:信息获取模块,获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;表征信息提取模块,基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;前景控制信息确定模块,将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;扩散模块,通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供存储介质,用于存储计算机程序,所属计算机程序能够被处理器执行以实现以下流程:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
再一方面,本说明书一个或多个实施例提供存储介质,用于存储计算机程序,所属计算机程序能够被处理器执行以实现以下流程:获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本说明书一实施例的一种图像生成方法的示意性流程图;
图2是根据本说明书一实施例的三元组数据集的示意图;
图3是根据本说明书一实施例的图像生成方法所生成的图像的示意图;
图4是根据本说明书另一实施例的一种图像生成方法的示意性流程图;
图5是根据本说明书一实施例的图像生成的实现原理示意图;
图6是根据本说明书又一实施例的一种图像生成方法的示意性流程图;
图7是根据本说明书一实施例的一种图像生成装置的示意性框图;
图8是根据本说明书一实施例的一种电子设备的示意性框图。
具体实施方式
本说明书一个或多个实施例提供一种图像生成方法及装置。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件保护的范围。
如图1所示,本说明书实施例提供一种图像生成方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机、平板电脑等一定终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。本实施例中以服务器为例进行详细说明,对于终端设备的执行过程可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像。
目标图像是待确定(或待生成)的图像,目标主体是目标图像中的主要对象,该目标主体可以是物体、动物或人等。目标图像中包括目标主体的前景图像和背景图像,前景图像可以是针对目标主体所拍摄的图像,背景图像可以是目标主体所处的背景相关的图像。
目标图像的文本描述信息是对目标图像的相关特征进行描述的文本内容,该文本描述信息可以是描述目标主体的前景图像的前景描述信息,也可以是描述目标主体的背景图像的背景描述信息,还可以是描述目标主体的前景图像和背景图像之间的交互关系信息,或者是以上信息中的组合。
在步骤S104中,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息。
目标主体的类别表征信息也称身份表征信息,是用于区别不同目标主体的类别的信息,属于目标主体的深层的、身份方面的信息,例如:小狗和小鸭子属于不同类别的不同目标主体。目标主体的风格表征信息是用于描述目标主体的不同姿态(或形态)、外观、风格的信息,属于目标主体的浅层的、细节方面的信息,例如:在草地上奔跑的小狗和在草地上蹲着的小狗是具有不同风格表征信息的同一目标主体(即小狗)。
从目标主体的前景图像中提取目标主体的类别表征信息和风格表征信息的方法,可以采用模型训练的方法或者算法对多张前景图像进行类别分析处理和图像风格分析处理,通过类别分析处理识别出多张前景图像的类别,通过图像风格分析处理确定多张前景图像的风格特征。具体地,以模型训练的方法提取类别表征信息和风格表征信息为例,可以分别预先训练出类别表征模型和风格表征模型,然后利用所训练的类别表征模型和风格表征模型进行相应信息的提取。以算法提取类别表征信息和风格表征信息为例,可以采用KNN(K-Nearest Neighbors,K最近邻算法)算法或者卷积神经网络算法等。
需要注意的是,本说明书实施例从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,所获取的目标主体的类别表征信息和风格表征信息是相互独立的表征信息,因此,两种表征信息之间是解耦关系。从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息的过程可以视为对前景图像进行解构处理的过程。
在步骤S106中,将目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型。
前景控制模型的输入数据是目标主体的类别表征信息和风格表征信息,输出数据是目标主体的前景控制信息,即通过预先训练的前景控制模型,能够根据目标主体的类别表征信息和风格表征信息确定前景控制条件,该前景控制条件可以作为后续图像生成过程中控制前景图像生成的引导信息。前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,在实施中,可以采用基于类别引导的风格回归模型。
由于目标主体的类别表征信息和风格表征信息是解耦关系,通过前景控制模型可以基于已经解耦的前景图像的类别表征信息,通过回归处理得到与该类别表征信息兼容的多种不同的风格表征信息。在对前景控制模型进行模型训练时,可以基于最小化前景图像样本的风格表征信息以及对前景图像样本所匹配的主体的类别表征信息重构采样处理所确定的风格表征信息之间的差异性确定损失函数。
在步骤S108中,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
随着文生图大模型技术的发展,例如:在文艺创作或者图片增广相关的业务中,通常需要基于给定的少量示例物体图像生成多样性且逼真的同类物体图像,即小样本图像生成。例如:基于一张或多张吉祥物图像生成批量的不同场景、不同风格或者不同材质的吉祥物图像,从而丰富该吉祥物的周边产品。本说明书实施例提供了基于扩散模型的小样本图像生成方法,通过扩散模型对目标主体的前景图像添加噪声信息,从而生成多种目标图像。该扩散模型的输入数据包括目标图像的文本描述信息、前景控制信息以及用于进行扩散处理的噪声信息,输出数据是目标主体对应的目标图像。
本说明书实施例中的前景控制模型和扩散模型可以通过模型联合训练得到。扩散模型的损失函数可以基于最小化去噪重构损失值来确定。
本说明书实施例提供一种图像生成方法,首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,最后,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。通过分别提取前景图像中的类别表征信息和风格表征信息,并根据所提取的类别表征信息和风格表征信息确定前景控制信息,基于前景控制信息引导图像生成,能够保留目标主体的身份特征(类别特征),通过文本描述信息引导目标图像的生成,能够实现前景图像、背景图像在图像元素、形状、姿态之间相互结合的多种可能性,有利于生成多样化不同风格特征的目标图像。通过扩散模型对前景图像添加噪声,能够实现基于小样本图像生成批量图像。由于前景控制模型和扩散模型进行图像生成的过程中不需要模型微调,因此能够快速泛化到不同类别的主体的图像上,从而基于给定的少量图像快速生成大量该类别主体的图像,大大提高图像生成的效率。由于图像生成过程中无需模型微调,还有利于提高模型的复用性,以及节省用于模型训练的计算资源和用于模型保存的存储资源。
本说明书实施例中,上述步骤S106中前景控制模型和步骤S108中扩散模型的训练方法可以多种多样,以下提供一种可选的处理方式,具体可以参见以下步骤A1-A5的处理。
在步骤A1中,获取多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对完整图像样本的文本描述信息。
在实施中,可以首先构造基于主体的元组数据集,如:三元组数据集。该数据集中可以包括多个主体的三元组数据,每个主体的三元组数据包括:主体的前景图像样本、包含有前景图像和背景图像的完整图像样本、对完整图像样本的文本描述信息三部分。其中,完整图像样本可以作为模型训练的标签。本说明书实施例中三元组数据集的示意图如图2所示。由图2可知,该三元组数据集包括:前景图像样本,完图图像样本,完整图像的文本描述信息/>,(/>为自然数且/>大于1)。通过该数据集将前景图像与文本描述信息建立局部对应关系,最终引导生成包含前景图像和背景图像的完整图像。例如:前景图像 ‘狼’与文本描述信息中‘一只狼在丛林中散步’的‘狼’建立文图映射,完成前景图像引导的生成,同时文本描述信息中的‘在丛林中散步’用于描述背景图像以及前景图像与背景图像之间的交互关系。前景图像由示例图片给定,背景描述以及背景图像与前景图像的交互关系可以通过预训练模型提供相应的语义引导。
在步骤A2中,从多个主体的前景图像样本中分别提取每个主体的类别表征信息和风格表征信息。
在步骤A3中,将多个主体的类别表征信息和风格表征信息输入前景控制模型中,得到多个主体的前景控制信息。
在实施中,前景控制信息即前景控制条件,可以表示为:,其中,/>为前景控制信息,/>为前景控制模型,/>为前景图像样本的风格表征信息,/>为前景图像样本的类别表征信息,/>是用于提取前景图像样本身份表征信息的模块,/>是用于提取前景图像样本风格表征信息的模块。
在一个实施例中,前景控制模型基于自回归模型构建,可以采用基于类别(或身份)引导的风格回归模型。
在步骤A4中,通过扩散模型,根据完整图像样本的文本描述信息和前景控制信息,并以完整图像样本为标签通过对多个主体的前景图像样本添加噪声信息的方式,确定多个主体对应的输出图像。
本说明书实施例中,扩散模型是能够进行语义分割处理的模型,可以采用UNET(U形网络,语义分割网络)模型来实现。在实施中,可以表示为:,其中,/>为任一主体的输出图像,/>为扩散模型。
在步骤A5中,基于多个主体的前景图像样本、完整图像样本以及对完整图像样本的文本描述信息,通过预设的损失函数对前景控制模型和扩散模型进行联合训练,得到训练后的前景控制模型和训练后的扩散模型。
上述步骤A5中,预设的损失函数可以根据第一子损失函数和第二子损失函数确定,第一子损失函数基于最小化前景图像样本的风格表征信息以及对前景图像样本所匹配的主体的类别表征信息重构采样处理所确定的风格表征信息之间的差异性而确定,第二子损失函数基于最小化去噪重构损失值而确定。
在实施中,第一子损失函数是上述步骤A3中前景控制模型的损失函数,第二子损失函数是上述步骤A5中扩散模型的损失函数。预设的损失函数计算公式可以表示为:,其中,/>是预设的损失函数,/>是第一子损失函数,/>是第二子损失函数,/>是预设的超参数。第一子损失函数的计算公式可以是:/>,其中,/>是对前景图像样本所匹配的主体的类别表征信息重构采样处理所确定的风格表征信息,且/>=。第二子损失函数是分布迭代去噪声得到的去噪重构损失函数,其计算公式可以是:/>,其中,/>是期望值,表示待学习的扩散模型是关于完整图像样本/>、前景图像样本/>、噪声信息/>以及迭代步数/>的期望,/>表示可学习的模型参数,/>是采样的噪声信息,为随机特征,/>是扩散模型,/>是均匀分布采样的迭代步数,(/>)是截止到当前步数从模型参数学习到的重参数。
在一个实施例中,上述步骤S108和步骤A4中的噪声信息可以采用基于高斯分布的噪声信息,则上述是从高斯分布采样的噪声信息。
本说明书实施例中,上述步骤A1中的多个主体是与目标主体类别不同的主体,因此,基于训练后的前景控制模型和训练后的扩散模型,能够无需微调快速泛化到与模型训练过程中的前景图像样本不同类别的前景图像上,基于给定的目标主体的少量前景图像和目标图像的文本描述信息,生成针对该目标主体的多样化且逼真的多个目标图像。如图3所示,基于训练后的前景控制模型和训练后的扩散模型,如果给定的目标主体是小狗,根据第1排第1个前景图像和相应的文本描述信息,则可以生成第1排的第2-5个目标图像;如果给定的目标主体是小鸭子,根据第2排第1个前景图像和相应的文本描述信息,则可以生成第2排的第2-5个目标图像。
如图4所示,本说明书实施例中的图像生成方法还包括步骤S110:从目标主体对应的目标图像的文本描述信息中提取用于描述目标主体的前景图像的前景描述信息,并对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,得到图文双模态文本增强信息。
对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,即基于目标主体的类别表征信息对所提取的前景描述信息进行定向语义增强处理,从而完成图文双模态信息的交互与增强,获取图文双模态文本增强信息(即:图文双模态文本增强条件)。
需要注意的是,本说明书实施例中通过步骤S104分别提取目标主体的类别表征信息和风格表征信息,即:对目标主体的前景图像进行解构,从而能够确保类别表征信息与风格表征信息之间为解耦关系,进而在步骤S110中只基于能够与文本描述信息相结合的类别表征信息进行语义增强处理。
与步骤S110相对应,上述步骤S108的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见以下步骤S1082的处理。
在步骤S1082中,通过扩散模型,根据目标图像的文本描述信息、前景控制信息和图文双模态文本增强信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
由步骤S1082可知,在扩散模型的输入数据中增加了图文双模态文本增强信息,基于前景控制信息和图文双模态文本增强信息的双重引导条件控制扩散模型进行图像生成,该图像生成方式,能够提高目标主体的类别表征信息与所提取的前景描述信息之间的匹配度,从而进一步确保所生成的目标图像是基于目标主体的类别表征信息而生成,有利于提高图像生成的准确性。
图5是根据本说明书一实施例的图像生成的实现原理示意图,由图5可知,获取到目标主体的前景图像后,对该前景图像进行解构,分别提取到前景图像的类别表征信息和风格表征信息/>, 并将类别表征信息和风格表征信息输入前景控制模型,基于第一子损失函数/>得到前景控制信息/>。获取到目标主体所在的待确定的目标图像的文本描述信息后,基于该文本描述信息通过一文本自编码器提取前景描述信息/>,对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理后,得到图文双模态文本增强信息/>。然后将前景控制信息/>和图文双模态文本增强信息/>输入扩散模型,并对目标主体的前景图像添加噪声信息,基于第二子损失函数/>得到目标主体对应的目标图像,从而实现无需模型微调的基于主题驱动的可控文本图像生成的过程。
本说明书实施例提供一种图像生成方法,首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,最后,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。通过分别提取前景图像中的类别表征信息和风格表征信息,并根据所提取的类别表征信息和风格表征信息确定前景控制信息,基于前景控制信息引导图像生成,能够保留目标主体的身份特征(类别特征),通过文本描述信息引导目标图像的生成,能够实现前景图像、背景图像在图像元素、形状、姿态之间相互结合的多种可能性,有利于生成多样化不同风格特征的目标图像。通过扩散模型对前景图像添加噪声,能够实现基于小样本图像生成批量图像。由于前景控制模型和扩散模型进行图像生成的过程中不需要模型微调,因此能够快速泛化到不同类别的主体的图像上,从而基于给定的少量图像快速生成大量该类别主体的图像,大大提高图像生成的效率。由于图像生成过程中无需模型微调,还有利于提高模型的复用性,以及节省用于模型训练的计算资源和用于模型保存的存储资源。
如图6所示,本说明书实施例还提供一种图像生成方法,该方法具体可以包括以下步骤:
在步骤S202中,获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像。
步骤S202的处理方法和步骤S102的处理方法相同,在此不再赘述。
在步骤S204中,基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息。
本说明书实施例中的图像生成模型包括:类别表征子模型、风格表征子模型、前景控制子模型和扩散子模型。图像生成模型可以基于多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对完整图像样本的文本描述信息,以及预设的损失函数进行模型训练得到。
通过类别表征子模型提取目标主体的类别表征信息,通过风格表征子模型提取目标主体的风格表征信息。类别表征子模型和风格表征子模型可以采用基于深度学习网络模型构建的分类模型。
在步骤S206中,将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型。
步骤S206的处理方法可以参考步骤S106的处理方法,在此不再赘述。
在步骤S208中,通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
步骤S206的处理方法可以参考步骤S106的处理方法,在此不再赘述。
本说明书实施例中,上述步骤S206中的前景控制子模型基于自回归模型构建,步骤S208中的扩散子模型是能够进行语义分割处理的模型,例如:可以采用UNET模型。
本说明书实施例中,图像生成模型的训练方法可以多种多样,以下提供一种可选的处理方式,具体可以参见以下步骤B1-B5的处理。
在步骤B1中,获取多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对完整图像样本的文本描述信息。
在步骤B2中,基于图像生成模型中的类别表征子模型,从多个主体的前景图像样本中分别提取每个主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从多个主体的前景图像样本中提取每个主体的风格表征信息。
在步骤B3中,将多个主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到多个主体的前景控制信息。
在步骤B4中,通过图像生成模型中的扩散模型,根据完整图像样本的文本描述信息和前景控制信息,并以完整图像样本为标签通过对多个主体的前景图像样本添加噪声信息的方式,确定多个主体对应的输出图像。
在步骤B5中,基于多个主体的前景图像样本、完整图像样本以及对完整图像样本的文本描述信息,通过预设的损失函数对类别表征子模型、风格表征子模型、前景控制子模型和扩散子模型进行联合训练,得到训练后的图像生成模型。
本说明书实施例中,还包括步骤S210:基于图像生成模型中的文本自编码器,从目标主体对应的目标图像的文本描述信息中提取用于描述目标主体的前景图像的前景描述信息,并基于图像生成模型中的语义增强子模型,对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,得到图文双模态文本增强信息。
相应地,上述步骤S208的处理可以多种多样,以下提供一种可选的处理方式,具体可以参见以下步骤S2082的处理。
在步骤S2082中,通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息、前景控制信息和图文双模态文本增强信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
上述步骤S2082的处理可以参考步骤S1082的处理方法,在此不再赘述。
本说明书实施例提供一种图像生成方法,首先获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息,然后将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,最后,通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。通过利用类别表征子模型提取前景图像中的类别表征信息以及利用风格表征子模型提取前景图像中的风格表征信息,并利用前景控制子模型根据所提取的类别表征信息和风格表征信息确定前景控制信息,上述基于前景控制信息引导图像生成的方式,能够保留目标主体的身份特征(类别特征),通过文本描述信息引导目标图像的生成的方式,能够实现前景图像、背景图像在图像元素、形状、姿态之间相互结合的多种可能性,有利于生成多样化不同风格特征的目标图像。通过扩散子模型对前景图像添加噪声,能够实现基于小样本图像生成批量图像。由于基于该图像生成模型进行图像生成的过程中不需要模型微调,因此能够快速泛化到不同类别的主体的图像上,从而基于给定的少量图像快速生成大量该类别主体的图像,大大提高图像生成的效率。而且图像生成过程中无需模型微调,还有利于提高模型的复用性,以及节省用于模型训练的计算资源和用于模型保存的存储资源。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的图像生成方法,基于同样的思路,本说明书一个或多个实施例还提供一种图像生成装置,如图7所示。
该图像生成装置包括:信息获取模块310、表征信息提取模块320、前景控制信息确定模块330以及扩散模块340。其中,
信息获取模块310,获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
表征信息提取模块320,从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息;
前景控制信息确定模块330,将目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
扩散模块340,通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书实施例中,前景控制信息确定模块330中的前景控制模型基于自回归模型构建,扩散模块340中的扩散模型是能够进行语义分割处理的模型。
本说明书实施例中,信息获取模块310中,目标主体对应的目标图像的文本描述信息包括:描述目标主体的前景图像的前景描述信息、描述目标主体的背景图像的背景描述信息以及目标主体的前景图像和背景图像之间的交互关系信息中的一种或多种。
本说明书实施例中,还包括语义增强模块,从目标主体对应的目标图像的文本描述信息中提取用于描述目标主体的前景图像的前景描述信息,并对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,得到图文双模态文本增强信息。
相应地,扩散模块340,通过扩散模型,根据目标图像的文本描述信息、前景控制信息和图文双模态文本增强信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书实施例中,扩散模块340中的噪声信息是基于高斯分布的噪声信息。
本说明书实施例中,还包括模型训练模块,用于前景控制信息确定模块330中的前景控制模型和扩散模块340中的扩散模型。该模型训练模块包括:
第一样本信息获取单元,获取多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对完整图像样本的文本描述信息;
第一表征信息提取单元,从多个主体的前景图像样本中分别提取每个主体的类别表征信息和风格表征信息;
第一前景控制信息确定单元,将多个主体的类别表征信息和风格表征信息输入前景控制模型中,得到多个主体的前景控制信息;
第一扩散单元,通过扩散模型,根据完整图像样本的文本描述信息和前景控制信息,并以完整图像样本为标签通过对多个主体的前景图像样本添加噪声信息的方式,确定多个主体对应的输出图像;
第一联合训练单元,基于多个主体的前景图像样本、完整图像样本以及对完整图像样本的文本描述信息,通过预设的损失函数对前景控制模型和扩散模型进行联合训练,得到训练后的前景控制模型和训练后的扩散模型。
本说明书实施例提供一种图像生成装置,首先通过信息获取模块获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,基于表征信息提取模块从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息,然后通过前景控制信息确定模块将所提取的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,最后,利用扩散模块通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。通过分别提取前景图像中的类别表征信息和风格表征信息,并根据所提取的类别表征信息和风格表征信息确定前景控制信息,基于前景控制信息引导图像生成,能够保留目标主体的身份特征(类别特征),通过文本描述信息引导目标图像的生成,能够实现前景图像、背景图像在图像元素、形状、姿态之间相互结合的多种可能性,有利于生成多样化不同风格特征的目标图像。通过扩散模型对前景图像添加噪声,能够实现基于小样本图像生成批量图像。由于前景控制模型和扩散模型进行图像生成的过程中不需要模型微调,因此能够快速泛化到不同类别的主体的图像上,从而基于给定的少量图像快速生成大量该类别主体的图像,大大提高图像生成的效率。由于图像生成过程中无需模型微调,还有利于提高模型的复用性,以及节省用于模型训练的计算资源和用于模型保存的存储资源。
本说明书一个或多个实施例还提供另一种图像生成装置。该图像生成装置包括:信息获取模块、表征信息提取模块、前景控制信息确定模块以及扩散模块。其中,
信息获取模块,获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
表征信息提取模块,基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息;
前景控制信息确定模块,将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
扩散模块,通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书实施例的图像生成装置中还包括语义增强模块,基于图像生成模型中的文本自编码器,从目标主体对应的目标图像的文本描述信息中提取用于描述目标主体的前景图像的前景描述信息,并基于图像生成模型中的语义增强子模型,对目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,得到图文双模态文本增强信息。
相应地,扩散模块,通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息、前景控制信息和图文双模态文本增强信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书实施例的图像生成装置中还包括模型训练模块,用于训练图像生成模型,该模型训练模块包括:
第二样本信息获取单元,获取多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对完整图像样本的文本描述信息。
第二表征信息提取单元,基于图像生成模型中的类别表征子模型,从多个主体的前景图像样本中分别提取每个主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从多个主体的前景图像样本中提取每个主体的风格表征信息。
第二前景控制信息确定单元,将多个主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到多个主体的前景控制信息。
第二扩散单元,通过图像生成模型中的扩散模型,根据完整图像样本的文本描述信息和前景控制信息,并以完整图像样本为标签通过对多个主体的前景图像样本添加噪声信息的方式,确定多个主体对应的输出图像。
第二联合训练单元,基于多个主体的前景图像样本、完整图像样本以及对完整图像样本的文本描述信息,通过预设的损失函数对类别表征子模型、风格表征子模型、前景控制子模型和扩散子模型进行联合训练,得到训练后的图像生成模型。
本说明书实施例提供一种图像生成装置,首先通过信息获取模块获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,该目标图像中包括目标主体的前景图像和背景图像,其次,通过表征信息提取模块基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息,然后利用前景控制信息确定模块将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型,最后,基于扩散模块通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。通过利用类别表征子模型提取前景图像中的类别表征信息以及利用风格表征子模型提取前景图像中的风格表征信息,并利用前景控制子模型根据所提取的类别表征信息和风格表征信息确定前景控制信息,上述基于前景控制信息引导图像生成的方式,能够保留目标主体的身份特征(类别特征),通过文本描述信息引导目标图像的生成的方式,能够实现前景图像、背景图像在图像元素、形状、姿态之间相互结合的多种可能性,有利于生成多样化不同风格特征的目标图像。通过扩散子模型对前景图像添加噪声,能够实现基于小样本图像生成批量图像。由于基于该图像生成模型进行图像生成的过程中不需要模型微调,因此能够快速泛化到不同类别的主体的图像上,从而基于给定的少量图像快速生成大量该类别主体的图像,大大提高图像生成的效率。而且图像生成过程中无需模型微调,还有利于提高模型的复用性,以及节省用于模型训练的计算资源和用于模型保存的存储资源。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
本领域的技术人员应可理解,上述图像生成装置能够用来实现前文所述的图像生成方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种电子设备,如图8所示。电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器401和存储器402,存储器402中可以存储有一个或一个以上存储应用程序或数据。其中,存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地,处理器401可以设置为与存储器402通信,在电子设备上执行存储器402中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源403,一个或一个以上有线或无线网络接口404,一个或一个以上输入输出接口405,一个或一个以上键盘406。
具体在本实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息;
将目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
具体在另一实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息;
将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书一个或多个实施例提供一种存储介质,存储介质用于存储计算机可执行指令,可执行指令在被处理器执行时实现以下流程:
获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
从目标主体的前景图像中分别提取目标主体的类别表征信息和风格表征信息;
将目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到目标主体的前景控制信息,前景控制模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过扩散模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
本说明书一个或多个实施例还提出了一种存储介质,该存储介质用于存储计算机可执行指令,可执行指令在被处理器执行时实现以下流程:
获取目标主体的前景图像以及目标主体所在的待确定的目标图像的文本描述信息,目标图像中包括目标主体的前景图像和背景图像;
基于图像生成模型中的类别表征子模型,从目标主体的前景图像中提取目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从目标主体的前景图像中提取目标主体的风格表征信息;
将目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到目标主体的前景控制信息,前景控制子模型是用于对目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过图像生成模型中的扩散子模型,根据目标图像的文本描述信息和前景控制信息,并通过对目标主体的前景图像添加噪声信息的方式,确定目标主体对应的目标图像。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用于限制本申请。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。
Claims (13)
1.一种图像生成方法,包括:
获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;
将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
2.根据权利要求1所述的方法,所述前景控制模型基于自回归模型构建,所述扩散模型是能够进行语义分割处理的模型。
3.根据权利要求1所述的方法,所述目标主体对应的目标图像的文本描述信息包括:描述所述目标主体的前景图像的前景描述信息、描述所述目标主体的背景图像的背景描述信息以及所述目标主体的前景图像和背景图像之间的交互关系信息中的一种或多种。
4.根据权利要求3所述的方法,还包括:
从所述目标主体对应的目标图像的文本描述信息中提取用于描述所述目标主体的前景图像的前景描述信息,并对所述目标主体的类别表征信息和所提取的前景描述信息进行语义增强处理,得到图文双模态文本增强信息;
所述通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像,包括:
通过所述扩散模型,根据所述目标图像的文本描述信息、前景控制信息和图文双模态文本增强信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
5.根据权利要求1所述的方法,所述噪声信息是基于高斯分布的噪声信息。
6.根据权利要求1所述的方法,所述前景控制模型和扩散模型的训练方法包括:
获取多个主体的前景图像样本、包含有前景图像和背景图像的完整图像样本以及对所述完整图像样本的文本描述信息;
从所述多个主体的前景图像样本中分别提取每个主体的类别表征信息和风格表征信息;
将所述多个主体的类别表征信息和风格表征信息输入前景控制模型中,得到所述多个主体的前景控制信息;
通过扩散模型,根据所述完整图像样本的文本描述信息和前景控制信息,并以所述完整图像样本为标签通过对所述多个主体的前景图像样本添加噪声信息的方式,确定所述多个主体对应的输出图像;
基于所述多个主体的前景图像样本、完整图像样本以及对所述完整图像样本的文本描述信息,通过预设的损失函数对所述前景控制模型和扩散模型进行联合训练,得到训练后的前景控制模型和训练后的扩散模型。
7.根据权利要求6所述的方法,所述预设的损失函数根据第一子损失函数和第二子损失函数确定,所述第一子损失函数基于最小化所述前景图像样本的风格表征信息以及对所述前景图像样本所匹配的主体的类别表征信息重构采样处理所确定的风格表征信息之间的差异性而确定,所述第二子损失函数基于最小化去噪重构损失值而确定。
8.根据权利要求6所述的方法,所述目标主体与所述多个主体是类别不同的主体。
9.一种图像生成方法,包括:
获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;
将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
10.一种图像生成装置,包括:
信息获取模块,获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
表征信息提取模块,从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;
前景控制信息确定模块,将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
扩散模块,通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
11.一种图像生成装置,包括:
信息获取模块,获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
表征信息提取模块,基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;
前景控制信息确定模块,将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
扩散模块,通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
12.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:
获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
从所述目标主体的前景图像中分别提取所述目标主体的类别表征信息和风格表征信息;
将所述目标主体的类别表征信息和风格表征信息输入预先训练的前景控制模型中,得到所述目标主体的前景控制信息,所述前景控制模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过扩散模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
13.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,在所述可执行指令被执行时,能够使得所述处理器:
获取目标主体的前景图像以及所述目标主体所在的待确定的目标图像的文本描述信息,所述目标图像中包括所述目标主体的前景图像和背景图像;
基于图像生成模型中的类别表征子模型,从所述目标主体的前景图像中提取所述目标主体的类别表征信息,并基于图像生成模型中的风格表征子模型,从所述目标主体的前景图像中提取所述目标主体的风格表征信息;
将所述目标主体的类别表征信息和风格表征信息输入图像生成模型中的前景控制子模型中,得到所述目标主体的前景控制信息,所述前景控制子模型是用于对所述目标主体的类别表征信息进行重构采样处理以确定对应的风格表征信息的模型;
通过图像生成模型中的扩散子模型,根据所述目标图像的文本描述信息和前景控制信息,并通过对所述目标主体的前景图像添加噪声信息的方式,确定所述目标主体对应的目标图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410156973.8A CN117710510A (zh) | 2024-02-04 | 2024-02-04 | 一种图像生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410156973.8A CN117710510A (zh) | 2024-02-04 | 2024-02-04 | 一种图像生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117710510A true CN117710510A (zh) | 2024-03-15 |
Family
ID=90155630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410156973.8A Pending CN117710510A (zh) | 2024-02-04 | 2024-02-04 | 一种图像生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117710510A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549850A (zh) * | 2018-03-27 | 2018-09-18 | 联想(北京)有限公司 | 一种图像识别方法及电子设备 |
US20190361994A1 (en) * | 2018-05-22 | 2019-11-28 | Adobe Inc. | Compositing Aware Digital Image Search |
WO2021238956A1 (zh) * | 2020-05-27 | 2021-12-02 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的身份核验方法、装置及设备 |
CN116977774A (zh) * | 2023-04-21 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备和介质 |
CN117058271A (zh) * | 2023-07-11 | 2023-11-14 | 浙江天猫技术有限公司 | 用于生成商品主图背景的方法及计算设备 |
CN117392694A (zh) * | 2023-12-07 | 2024-01-12 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
CN117437317A (zh) * | 2023-10-25 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备、存储介质和程序产品 |
-
2024
- 2024-02-04 CN CN202410156973.8A patent/CN117710510A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549850A (zh) * | 2018-03-27 | 2018-09-18 | 联想(北京)有限公司 | 一种图像识别方法及电子设备 |
US20190361994A1 (en) * | 2018-05-22 | 2019-11-28 | Adobe Inc. | Compositing Aware Digital Image Search |
WO2021238956A1 (zh) * | 2020-05-27 | 2021-12-02 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的身份核验方法、装置及设备 |
CN116977774A (zh) * | 2023-04-21 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、设备和介质 |
CN117058271A (zh) * | 2023-07-11 | 2023-11-14 | 浙江天猫技术有限公司 | 用于生成商品主图背景的方法及计算设备 |
CN117437317A (zh) * | 2023-10-25 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 图像生成方法、装置、电子设备、存储介质和程序产品 |
CN117392694A (zh) * | 2023-12-07 | 2024-01-12 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
BOWORNRAT SRIMAN; LAMBERT SCHOMAKER: "Explicit foreground and background modeling in the classification of text blocks in scene images", IEEE, 9 June 2016 (2016-06-09) * |
陶红;李萌;: "近代新闻画报中的"语图互文"", 编辑之友, no. 06, 5 June 2018 (2018-06-05) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107957989B (zh) | 基于集群的词向量处理方法、装置以及设备 | |
CN116188632A (zh) | 一种图像的生成方法、装置、存储介质及电子设备 | |
CN109271587B (zh) | 一种页面生成方法和装置 | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
CN112200132B (zh) | 一种基于隐私保护的数据处理方法、装置及设备 | |
CN110008394B (zh) | 一种舆情信息的识别方法、装置及设备 | |
CN116205290A (zh) | 一种基于中间特征知识融合的知识蒸馏方法和装置 | |
CN112347512A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN117392694B (zh) | 数据处理方法、装置及设备 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN112735407B (zh) | 一种对话处理方法及装置 | |
CN117409466A (zh) | 一种基于多标签控制的三维动态表情生成方法及装置 | |
CN115545720B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN117710510A (zh) | 一种图像生成方法及装置 | |
CN115358777A (zh) | 虚拟世界的广告投放处理方法及装置 | |
CN113496263B (zh) | 字符识别方法、设备及字符识别芯片 | |
CN111241395B (zh) | 认证服务的推荐方法及装置 | |
CN111539520A (zh) | 增强深度学习模型鲁棒性的方法及装置 | |
CN112115952B (zh) | 一种基于全卷积神经网络的图像分类方法、设备及介质 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN115952271B (zh) | 一种生成对话信息的方法、装置、存储介质及电子设备 | |
CN117522717B (zh) | 一种图像的合成方法、装置及设备 | |
CN116501852B (zh) | 一种可控对话模型训练方法、装置、存储介质及电子设备 | |
CN112884478B (zh) | 一种数据处理方法、装置及设备 | |
CN115953706B (zh) | 虚拟形象处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |