CN116934907A - 图像生成方法、设备和存储介质 - Google Patents
图像生成方法、设备和存储介质 Download PDFInfo
- Publication number
- CN116934907A CN116934907A CN202310948466.3A CN202310948466A CN116934907A CN 116934907 A CN116934907 A CN 116934907A CN 202310948466 A CN202310948466 A CN 202310948466A CN 116934907 A CN116934907 A CN 116934907A
- Authority
- CN
- China
- Prior art keywords
- image
- original image
- edge
- images
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 133
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000003708 edge detection Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009792 diffusion process Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000001960 triggered effect Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000002513 implantation Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000450412 Nierembergia repens Species 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000003826 tablet Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像生成方法、设备和存储介质,方法包括:响应于图像生成请求,获取所述生成请求指定的待处理的原始图像;提取所述原始图像中目标对象的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括与所述原始图像相同的空间场景、并且不同的视觉信息;将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像。本申请基于原始图像批量自动化生成目标对象的场景图像,提高目标对象场景图像的生成效率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像生成方法、设备和存储介质。
背景技术
随着互联网的发展,通过电商购物平台进行购物,成为人们文娱生活的重要组成部分。在线上购物场景中,需要预先将在售的商品图像上传至购物平台,以便于买家用户通过电子设备访问购物平台时可以浏览对应的商品图片,协助用户挑选商品。商品图像可以展示商品的用途、功能等信息,比如商品场景图像可以展示商品在不同场景中摆放后的效果,便于用户了解商品功能和用途。
实际场景中,电商的商家可以自己制作商品场景图,并上传至购物平台,比如商品是家具,可以制作家具在不同室内场景中的摆放图片,以展示家具的适用场景。但是这种商品图像的生成方式需要消耗很大的人工成本,随着越来越多的商品种类出现,商家需要花费大量时间和金钱成本制作商品场景图,因此这种场景图像生成方式效率非常低,制约了线上购物体验的发展。
发明内容
本申请实施例的主要目的在于提供一种图像生成方法、设备和存储介质,实现了基于原始图像批量自动化生成目标对象的新视觉图像,提高目标对象新视觉图像的生成效率。
第一方面,本申请实施例提供一种图像生成方法,所述方法包括:响应于图像生成请求,获取所述生成请求指定的待处理的原始图像;提取所述原始图像中目标对象的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括不同的场景视觉信息;将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像。
于一实施例中,所述提取所述原始图像中目标对象的主体图像,包括:对所述原始图像中的目标对象进行抠图处理,得到所述目标对象的主体图像。
于一实施例中,所述对所述原始图像中的目标对象进行抠图处理,得到所述目标对象的主体图像,包括:对所述原始图像进行显著性对象检测,得到所述原始图像中目标对象的主体图像。
于一实施例中,提取所述原始图像的边缘图像,包括:对所述原始图像进行去噪处理;对去噪处理后的原始图像进行梯度计算,得到所述原始图像的梯度信息;根据所述梯度信息对所述原始图像进行非极大值抑制处理,得到所述原始图像的初始边缘像素点集合;对所述初始边缘像素点集合进行双阈值边界跟踪,得到所述原始图像的最终边缘像素点集合,所述边缘图像包括所述最终边缘像素点集合。
于一实施例中,提取所述原始图像的边缘图像,还包括:将所述原始图像输入预设的边缘检测模型,输出所述原始图像的边缘图像;其中所述边缘检测模型包括多个卷积层和融合层,所述多个卷积层分别输出所述原始图像在不同尺度下的边缘特征,所述融合层用于将所述多个卷积层输出的边缘特征进行加权融合,得到所述原始图像的边缘图像。
于一实施例中,所述获取所述原始图像对应的描述文本,包括:提取所述原始图像的图像特征;采用预设的密集定位层对所述图像特征进行处理,得到所述原始图像中多个候选区域的特征向量,所述特征向量包括对应候选区域的位置信息、置信分数和特征信息;根据所述多个候选区域的特征向量,对所述原始图像进行自然语言识别,得到所述原始图像中视觉信息的描述文本。
于一实施例中,所述根据所述边缘图像和所述描述文本,生成多个新视觉图像,包括:将所述描述文本和所述边缘图像输入预设的图像生成模型,所述图像生成模型用于将所述边缘图像作为控制条件,基于所述描述文本输出所述多个新视觉图像。
于一实施例中,所述图像生成模型包括:文生图网络和控制网络,其中:当将所述描述文本和所述边缘图像输入预设的图像生成模型时,所述文生图网络用于基于所述描述文本生成所述描述文本对应的图像;所述控制网络用于将所述边缘图像作为控制条件对所述文生图网络的输出结果进行调整,以得到所述多个新视觉图像。
于一实施例中,在所述将所述描述文本和所述边缘图像输入预设的图像生成模型之前,还包括训练所述图像生成模型的步骤,包括:获取样本数据,所述样本数据包括:多个样本文本、所述样本文本对应的样本图像、以及所述样本图像对应的边缘样本信息;采用所述样本数据训练预设的图像生成网络,得到所述图像生成模型,所述图像生成网络包括文生图网络和控制网络。
于一实施例中,所述主体图像包括:阿尔法通道信息;所述将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像,包括:针对单个所述新视觉图像,获取所述新视觉图像中每个像素点在所述主体图像中对应位置的阿尔法通道值,并获取预设的空白图像;分别判断每个所述像素点对应的阿尔法通道值是否大于预设阈值;若所述新视觉图像中存在阿尔法通道值大于所述预设阈值的第一像素点,则根据所述第一像素点在所述主体图像上对应位置的像素值确定所述第一像素点在所述空白图像上对应位置的像素值;若所述新视觉图像中存在阿尔法通道值小于或等于所述预设阈值的第二像素点,根据所述第二像素点的阿尔法通道值、所述第二像素点在所述主体图像上对应位置的像素值、以及所述第二像素点在所述新视觉图像上的像素值确定所述第二像素点在所述空白图像上对应位置的像素值;遍历完所述新视觉图像中每个像素点后,根据确定了像素信息的所述空白图像生成所述新视觉图像对应的目标图像。
于一实施例中,所述响应于图像生成请求,获取所述生成请求指定的待处理的原始图像,包括:响应于用户输入的目标对象标识,根据所述目标对象标识在预设数据库中检索出包含所述目标对象的原始图像;
于一实施例中,所述响应于图像生成请求,获取所述生成请求指定的待处理的原始图像,包括:响应于用户的图像上传请求,接收所述用户上传的原始图像,并确定所述用户在所述原始图像中指定的目标对象。
第二方面,本申请实施例提供一种商品图像生成方法,所述方法包括:响应于商品图像生成请求,获取所述生成请求指定的原始图像;提取所述原始图像中目标商品的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括与所述原始图像相同的空间场景、并且不同的视觉信息;将所述多个新视觉图像与所述主体图像分别进行图像融合,输出所述目标商品在不同场景下的多个目标图像。
第三方面,本申请实施例提供一种图像生成装置,所述装置包括:
获取模块,用于响应于图像生成请求,获取所述生成请求指定的待处理的原始图像;
提取模块,用于提取所述原始图像中目标对象的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;
生成模块,用于根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括与所述原始图像相同的空间场景、并且不同的视觉信息;
融合模块,用于将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像。
第四方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行上述任一方面所述的方法。
第五方面,本申请实施例提供一种云设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述云设备执行上述任一方面所述的方法。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一方面所述的方法。
第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方面所述的方法。
本申请实施例提供的图像生成方法、设备和存储介质,响应于用户的图像生成请求,通过从原始图像中提取目标对象的主体图像、获取原始图像的描述文本,以及提取原始图像中的边缘图像,由于边缘图像中保留了原始图像中空间场景的线条信息,描述文本中表征了原始图像的内容特征,因此基于描述文本和边缘图像可以生成包含与原始图像相同空间场景,且不同视觉信息的多个新视觉图像,然后将多个新视觉图像与目标对象的主体图像进行融合,得到包含目标对象在不同视觉场景下的多个目标图像。如此,实现了基于原始图像批量自动化生成多视觉场景图像,提高目标对象场景图像的生成效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种电子设备的结构示意图;
图2A为本申请实施例提供的一种图像生成方案的应用场景示意图;
图2B为本申请实施例提供的一种图像生成方案的流程框架示意图;
图3为本申请实施例提供的一种图像生成方法的流程示意图;
图4A为本申请实施例提供的一种商品参数页面示意图;
图4B为本申请实施例提供的一种查询到的商品原始图像示意图;
图4C为本申请实施例提供的一种U2-Net网络结构示意图;
图4D为本申请实施例提供的一种抠图结果对比示意图;
图5A为本申请实施例提供的一种使用Canny边缘检测的结果对比示意图;
图5B为本申请实施例提供的一种HED网络结构示意图;
图5C为本申请实施例提供的一种使用HED边缘检测的结果对比示意图;
图6A为本申请实施例提供的一种FCLN网络结构的示意图;
图6B为本申请实施例提供的一种使用DenseCap获取描述文本的结果对比示意图;
图7A为本申请实施例提供的一种Latent Diffusion Models整体框架示意图;
图7B为本申请实施例提供的一种Stable Diffusion的文生图的推理流程示意图;
图7C为本申请实施例提供的一种添加控制网络前后的结构对比示意图;
图7D为本申请实施例提供的一种使用Muti-ControlNet得到多个新视觉图像示意图;
图8A为本申请实施例提供的一种图像融合方案的流程示意图;
图8B为本申请实施例提供的一种图像融合结果对比示意图;
图8C为本申请实施例提供的一种图像生成方法输入与输出对比示意图;
图9为本申请实施例提供的一种图像生成方法的流程示意图;
图10为本申请实施例提供的一种图像生成装置的结构示意图;
图11为本申请实施例提供的一种云设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本文中术语“和/或”,用于描述关联对象的关联关系,具体表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
为了清楚地描述本申请实施例的技术方案,首先对本申请所涉及的名词进行释义:
LDMs:Latent Diffusion Models,潜在扩散模型。
Stable Diffusion:一个基于LDMs的文图生成模型。
Controlnet:一个端到端的神经网络架构,控制大型图像扩散模型(如StableDiffusion)来学习特定于任务的输入条件。
Multi-Controlnet:同时使用多个Controlnet控制大型图像扩散模型(如StableDiffusion)来学习特定于任务的输入条件。
SOD:Salient Object Detetion,显著性对象检测。
RSU:Residual U-Block,残差连接的U型块。
sobel算子:Sobel operator,索贝尔算子,是计算机视觉领域的一种重要处理方法。主要用于获得数字图像的一阶梯度,常见的应用和物理意义是边缘检测。索贝尔算子是把图像中每个像素的上下左右四领域的灰度值加权差,在边缘处达到极值从而检测边缘。
HED:Holistically-nested Edge Detection,整体嵌套的边缘检测。
DenseCap:dense captioning,要描述的对象不再是一幅简单的图片,而是要将图片中的许多局部视觉概念都用自然语言描述出来。
FCLN:Fully Convolutional Localization Network,全卷积定位网络。
RNG:Random Number Generator,随机数生成器。
CNN:Convolutional Neural Network,卷积神经网络。
LSTM:Long Short-Term Memory,长短期记忆网络,是一种时间循环神经网络,可用于自然语言模型的实现。
GPU:graphics processing unit,图形处理器。
如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程,以实现基于原始图像批量自动化生成多视觉场景图像,提高物品场景图像的生成效率
于一实施例中,电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机或者多个计算机组成的大型运算系统。
图2A为本申请实施例提供的一种图像生成方案的场景系统200的示意图。如图2A所示,该系统包括:服务器210和终端220,其中:
服务器210可以是提供图像生成服务的数据平台,比如可以是电商购物平台,实际场景中,一个电商购物平台可能有多个服务器210,图2A中以1个服务器210为例。
终端220可以是用户登录电商购物平台时使用的电脑、手机、平板等设备,终端220也可以有多个,图2A中以2个终端220为例进行示意。
终端220与服务器210之间可以通过互联网进行信息传输,以使终端220可以访问服务器210上的数据。上述终端220和/或者服务器210均可以由电子设备1来实现。
本申请实施例的图像生成方案可以部署在服务器210上,也可以部署在终端220上,或者部分部署在服务器210上,部分部署在终端220上。实际场景中可以基于实际需求选择,本实施例不做限定。
当图像生成方案全部或者部分部署在服务器210上时,可以对终端220开放调用接口,以对终端220提供算法支持。
本申请实施例提供的方法可由电子设备1执行相应的软件代码实现,通过和服务器进行数据交互来实现。其中,电子设备1可以为本地终端设备。当该方法运行于服务器时,该方法则可以基于云交互系统来实现与执行,其中,云交互系统包括服务器和客户端设备。
在一种可能的实施方式中,本发明实施例提供的方法,通过终端设备提供图形用户界面,其中,终端设备可以是前述提到的本地终端设备,也可以是前述提到的云交互系统中的客户端设备。
本申请实施例的图像生成方式可以应用于任意需要批量生成多视觉场景图像的领域。
随着互联网的发展,通过电商购物平台进行购物,成为人们文娱生活的重要组成部分。在线上购物场景中,需要预先将在售的商品图像上传至购物平台,以便于买家用户通过电子设备访问购物平台时可以浏览对应的商品图片,协助用户挑选商品。商品图像可以展示商品的用途、功能等信息,比如商品场景图像可以展示商品在不同场景中摆放后的效果,便于用户了解商品功能和用途。
实际场景中,电商的商家可以自己制作商品场景图,并上传至购物平台,比如商品是家具,可以制作家具在不同室内场景中的摆放图片,以展示家具的适用场景。但是这种商品图像的生成方式需要消耗很大的人工成本,随着越来越多的商品种类出现,商家需要花费大量时间和金钱成本制作商品场景图,因此这种场景图像生成方式不仅效率非常低,而且制约了线上购物体验的发展。
在相关技术中,将商品或者概念植入生成图像中,主要有两类技术手段:一类是通过微调Stable Diffusion模型,然后通过prompt(输入Stable Diffusion模型的文本)对图片进行编辑。另一类是通过训练一些包含特定商品或概念的小模型,通过这些条件影响Stable Diffusion的生成结果。但是都存在各自的缺陷,要么是图像生成过程中可编辑性差,要么是需要认为输入详细的描述文本。
为了解决上述问题,本申请实施例提供一种图像生成方案,响应于用户的图像生成请求,通过从原始图像中提取目标对象的主体图像、获取原始图像中各视觉概念信息的描述文本,以及提取原始图像中的边缘图像,由于边缘图像中保留了原始图像中空间场景的线条信息,描述文本中表征了原始图像的内容特征,因此基于描述文本和边缘图像可以生成包含与原始图像相同空间场景,且不同视觉信息的多个新视觉图像,然后将多个新视觉图像与目标对象的主体图像进行融合,得到包含目标对象在不同视觉场景下的多个目标图像。如此,实现了基于原始图像批量自动化生成多视觉场景图像,提高物品场景图像的生成效率。
以商品场景图像生成为例,本申请实施例,响应于用户的图像生成请求,通过从单张商品原始图像中获取商品主体图像、原始图像中各视觉信息的描述文本和原始图像的线稿信息。在预设图像生成模型基础上,使用原始图像中各视觉信息的描述文本作为提示词,并将线稿信息作为控制条件,进行批量自动化新视觉图像生成,然后将商品主体图像与生成的新视觉图像进行融合,完成目标商品植入不同的视觉场景中。
实际应用场景中,使用查询到的商品原始图像作为待处理的原始图像,可以从单张商品原始图像中获取商品主体图像、场景图中各视觉概念信息和场景图中的条件线稿,然后通过单张商品原始图像的文生图商品植入技术实现自动、批量的生成含商品的场景图。其主要流程如图2B所示:
首先可以通过商品itemId得到商品主图或商品场景图,此处商品场景图是指商品摆放在某个场景中的图像,将获取到的商品主图或商品场景图作为原始图像,并通过商品抠图得到商品主体内容图像。为了获取原始图像的边缘图像,可以分别采用Canny边缘检测和Hed边缘检测获取商品原始图像的条件线稿,并利用Muti-controlNet的技术,通过模型control_sd15_canny和模型control_sd15_hed将Canny边缘检测和Hed边缘检测得到的线稿同时作为Stable Diffusion模型的控制条件。为了获得原始图像中视觉概念的描述文本,本实施例可以采用全卷积定位网络DenseCap对商品原始图像中的视觉概念进行定位和描述,并将得到的描述文本作为Stable Diffusion模型的prompt(正向提示词)文本。然后将控制条件和prompt文本作为Stable Diffusion模型的输入,并进行自动批量化产图,以得到数量较多的具有美观性的新视觉图像。为了将目标商品精准植入,最后对StableDiffusion模型生成的新视觉图像分别与商品主体图像进行图像融合,以得到含商品的场景图,此处含商品的场景图是指最终生成的包含商品的图像,即商品主体在不同场景下的目标图像。
下面结合附图,对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
请参看图3,其为本申请一实施例的图像生成方法,该方法可由图1所示的电子设备1来执行,并可以应用于图2A-2B中所示的图像生成应用场景中,以实现基于原始图像批量自动化生成多视觉场景图像,提高物品场景图像的生成效率。本实施例以终端220为执行端为例,该方法包括如下步骤:
步骤301:响应于图像生成请求,获取生成请求指定的待处理的原始图像,原始图像包括至少一个对象。
在本步骤中,图像生成请求可以由用户主动触发,用户可以在生成请求中指定目标对象,并触发图像生成请求,图像生成请求也可以由预定时间或事件触发,本申请实施例对触发方式不做限定。当接收到图像生成请求时,响应于该生成请求,获取该请求指定的原始图像,比如用户上传的原始图像。原始图像可以是某个物体对象的图像,原始图像可以包括一个或多个物体对象,比如电商场景中,商品的主图可以作为原始图像,此时该商品就是原始图像中的对象,原始图像中的对象可以是实体物体对象,比如家居、服饰等物体对象,也可以是虚拟物体对象,比如采用三维软件生成的家居、服饰等的虚拟三维模型。
于一实施例中,步骤301具体可以包括:响应于用户输入的目标对象标识,根据目标对象标识在预设数据库中检索出包含目标对象的原始图像;
在本实施例中,可以在交互界面给用户提供信息录入工具,用户可以通过交互界面录入输入的目标对象标识,用于指定需要生成图像的目标对象。目标对象标识用于唯一标识该目标对象,比如可以是唯一编号ID或编码。用户可以输入目标对象的ID,触发关于该目标对象的图像生成请求,系统响应于该请求,根据用户指定的目标对象ID,去对应数据库中捞取该对象的原始图像。如此不需要用户的复杂操作,即可获取到原始图像,提高交互体验。
于一实施例中,以电商场景中获取商品的原始图像为例,在电商平台A上,假设itemId(项目标识)作为商品独一无二的标识。可以将itemId作为输入,通过itemId查询到目标商品基础信息。比如,通过商品itemId可以查询到如图4A所示的商品参数页面,在该页面内可以直接得到商品主图或其它商品原始图像。假设要对某款沙发进行批量生成场景图,则可以从沙发的商品参数页面得到沙发主图作为待处理的原始图像。
具体地,可以配置基础信息查询模块,来实现上述查询过程,该模块可以被封装成一个函数“query_model_info”(一种查询模型的函数),以str(一种数据类型)类型的商品itemId作为输入,并返回得到商品信息表,在返回值中可以得到如图4B所示的沙发的商品原始图像,以此作为待处理的原始图像。
于一实施例中,步骤301具体还可以包括:响应于用户的图像上传请求,接收用户上传的原始图像,并确定用户在原始图像中指定的目标对象。
在本实施例中,原始图像可以由用户上传,可以在交互界面给用户提供图像上传入口,用户在该入口上传自己选定的图像并上传,用户可以在原始图像中指定要生成场景图的目标对象,比如可以在原始图像中圈出来目标对象,然后触发图像生成请求。如此用户可以选择自定义的图像,提高原始图像的个性化,提高交互体验。
步骤302:提取原始图像中目标对象的主体图像、原始图像的边缘图像,并获取原始图像对应的描述文本。
在本步骤中,目标对象是要进行批量生成多场景图像的对象,比如电商场景中需要批量生成沙发在不同摆放场景下的场景图像,则沙发就是目标对象。目标对象的主体图像是指包含目标对象主体内容的图像,假设沙发是目标对象,则主体图像中至少要包含沙发的本体内容,可以采用对象提取算法,来得到原始图像中目标对象的主体图像。图像的边缘是图像的像素灰度有阶跃变化的地方,边缘图像,是对原始图像进行边缘提取后得到的图像,图像最基本的特征是边缘,边缘是图像性区域和另一个属性区域的交接处,是区域属性发生突变的地方。因此边缘图像可以表征原始图像中各种对象的边缘形状,比如边缘图像可以表征图像中各个对象的线稿特征,进而使得边缘图像能够把原始图像中各个对象以及空间场景的线条信息保留下来。可以采用边缘检测算法得到原始图像的边缘图像。视觉信息是指原始图像中可以看到的信息,比如人眼可以看到的色彩、形状、纹理等信息,而描述文本是采用自然语言描述原始图像中这种可以看到的视觉信息的文本,比如原始图像中沙发上有一个抱枕是橘色的,则描述文本中可以包括“橘色抱枕”。实际场景中,可以采用自然语言识别模型,获取原始图像中视觉信息的描述文本。
于一实施例中,步骤302中提取原始图像中目标对象的主体图像,可以包括:对原始图像中的目标对象进行抠图处理,得到目标对象的主体图像。
在本实施例中,抠图是图像处理中最常做的操作之一,是把图片或影像的某一部分从原始图像或影像中分离出来成为单独的图。可以采用合适的抠图方式对原始图像进行抠图处理,得到目标对象的主体图像。采用抠图的方式获取目标对象的主体图像方便快捷。
于一实施例中,步骤302中对原始图像中的目标对象进行抠图处理,得到目标对象的主体图像,具体可以包括:对原始图像进行显著性对象检测,得到原始图像中目标对象的主体图像。
在本实施例中,显著对象检测任务是二分类任务,它的任务是将图片中最吸引人的目标或区域分割出来,故可以输出原始图像的前景(目标对象)和背景。在计算机视觉中,显著对象检测通常可以包括两个阶段的过程:1)检测图像中最显著的对象和2)分割该对象的准确区域。具体地,可以采用U2Net网络对原始图像中的目标对象进行抠图,U2-Net是针对SOD(显著性对象检测)任务提出的。整个U2-Net网络的结构如图4C所示。U2-Net是一个两层嵌套的U型结构,嵌套U结构能够更有效地提取阶段内多尺度特征和聚合阶段间多级特征。该网络可以不使用任何来自图像分类的预训练主干,它可以从无到有地进行训练,以获得有竞争力的性能。其次,这种新颖的架构允许网络更深入,获得高分辨率,而不会显著增加内存和计算成本。
如图4C所示,U2-Net主要由三部分组成:(1)六级编码器,(2)五级解码器和(3)与解码器级和最后一个编码器级相连的显著性映射融合模块,该U2-Net网络的输入为待处理的原始图像,其中各个模块原来如下:
(i)在编码器级En_1、En_2、En_3和En_4中,可以分别使用残差U块RSU-7、RSU-6、RSU-5和RSU-4。如前,“7”、“6”、“5”和“4”表示RSU块的高度(L)。高度L通常根据输入特征图的空间分辨率进行配置。对于高和宽较大的特征图,可以使用较大的L来捕获更大尺度的信息。En_5和En_6中特征图的分辨率相对较低,进一步降低这些特征图的采样会导致有用上下文的丢失。因此,在En_5和En_6两个阶段中,都可以使用RSU-4F,其中“F”表示RSU是一个dilated(扩张)版本,在该版本中,可以用扩张卷积替换池化和上采样操作。这意味着RSU-4F的所有中间特征图与其输入特征图可以具有相同的分辨率。
(ii)解码器级De_1、De_2、De_3、De_4和De_5具有与其关于En_6的对称编码器级类似的结构。在De_5中,可以还使用扩展版残差U块RSU-4F,这与编码器级En_5和En_6中使用的类似。每个解码器级将来自其前一级的上采样特征映射和来自其对称编码器级的上采样特征映射的级联作为输入,参见图4C。
(iii)最后一部分是显著图融合模块,用于生成显著概率图。U2-Net首先通过3×3卷积层和sigmoid函数(是一种具有S形曲线的数学函数)从阶段En_6、De_5、De_4、De_3、De_2和De_1生成六侧输出显著性概率图,即六侧输出分别为:S(1) side、S(2) side、即S(3) side、S(4) side、即S(5) side、S(6) side。然后,它将侧输出显著性映射的logit(在sigmoid函数之前的卷积输出)向上采样到输入图像大小,并使用一个拼接操作(随后是1×1卷积层和sigmoid函数)将其融合,以生成最终显著性概率映射Sfuse。
U2-Net网络是具有丰富的多尺度特性和相对较低的计算和内存成本的深层架构。此外,由于U2-Net架构仅构建在RSU块上,而不使用任何根据图像分类调整的预训练主干,因此它灵活且易于适应不同的工作环境,性能损失不大。
如图4D所示,使用U2-Net网络对图4B所示的商品原始图像S进行显著性对象检处理后,可以得到含有透明通道(alpha通道)信息的商品主体图像R。有图4D可得,此时目标对象为原始图像中的沙发和扫地机器人。
于一实施例中,步骤302中提取原始图像的边缘图像,具体可以包括:对原始图像进行去噪处理。对去噪处理后的原始图像进行梯度计算,得到原始图像的梯度信息。根据梯度信息对原始图像进行非极大值抑制处理,得到原始图像的初始边缘像素点集合。对初始边缘像素点集合进行双阈值边界跟踪,得到原始图像的最终边缘像素点集合,边缘图像包括最终边缘像素点集合。
在本实施例中,可以通过Canny边缘检测对原始图像进行边缘检测,Canny边缘检测算子一个多级边缘检测算法,可以精确的检测到原始图像中的边缘图像。基于Canny算子的边缘检测主要有4个步骤,依次是图像去噪、梯度计算、非极大值抑制和双阈值边界跟踪。具体如下:
(1)图像去噪:首先对于原始图像去噪处理,图像去噪是进行边缘检测的第一步,通过去噪能够去除原始图像中的一些噪点,从而使边缘检测时免受噪点干扰。通常可以使用高斯滤波进行图像去噪,高斯滤波即使用某一尺寸的二维高斯核与图像进行卷积。由于数字图像的数据形式为离散矩阵,高斯核是对连续高斯函数的离散近似,通过对高斯曲面进行离散采样和归一化得出,在确定高斯核后,将其与原始图像进行离散卷积即可。
(2)梯度计算:要对原始图像进行边缘检测,就需要得到原始图像梯度信息,梯度信息可以包括原始图像的梯度幅值和梯度方向,根据原始图像的梯度幅值和梯度方向来确定原始图像的边缘,一般可以采用sobel算子对去噪后的原始图像进行梯度幅值与梯度方向计算。sobel算子分为垂直方向和水平方向,具体形式如下:
上式中:Gx为原始图像I在水平的像素梯度矩阵,Gy分别为原始图像I在垂直方向的像素梯度矩阵,Sx为sobel算子在水平方向上的核,Sy分别为sobel算子在垂直方向上的核。Gxy为原始图像的梯度强度矩阵,用于表征原始图像的梯度信息。采用如上公式可计算得到原始图像的梯度强度矩阵Gxy。
(3)非极大值抑制:非极大值抑制是为了消除边缘检测带来的杂散响应,以减少边缘像素点的数量。其基本方法是将当前像素梯度强度与沿正负梯度方向上的相邻像素的梯度强度进行比较,若其最大(即为极值),则保留该像素为边缘点,若不是最大,则对其进行抑制,不将其作为边缘点。如此,根据梯度信息对原始图像进行非极大值抑制处理后,可以得到原始图像的初始边缘像素点集合。
(4)双阈值边界跟踪:双阈值即定义两个像素阈值,第一阈值和第二阈值,其中第一阈值为一相对较高阈值,第二阈值为相对较低阈值,第一阈值大于第二阈值。对于初始边缘像素点集合中大于高阈值的像素点,将其确定为是边缘像素点,小于低阈值的像素点被判定为非边缘像素点,介于第一阈值与第二阈值之间的像素点会被认为是弱边缘像素点,可以留待进一步处理。通常,真实边缘像素点是连续的,而噪声引起的边缘像素点是不连续的。可以通过判断弱边缘像素点的二环邻域内是否存在边缘像素点来处理弱边缘像素点,若存在则该弱边缘像素点可作为边缘像素点,反之则作为非边缘像素点。如此对始边缘像素点集合进行双阈值边界跟踪处理后,可以得到原始图像的最终边缘像素点集合,边缘图像包括最终边缘像素点集合。最终边缘像素点集合形成的边缘图像,可以在视觉上呈现原始图像中的线稿特征。
如图5A所示,为使用Canny边缘检测的结果对比示意图,通过对如图4B所示的商品原始图像S使用Canny边缘检测,可以得到商品原始图像S的Canny条件线稿(即边缘图像)。
于一实施例中,步骤302中提取原始图像的边缘图像,具体还可以包括:将原始图像输入预设的边缘检测模型,输出原始图像的边缘图像。其中边缘检测模型包括多个卷积层和融合层,多个卷积层分别输出原始图像在不同尺度下的边缘特征,融合层用于将多个卷积层输出的边缘特征进行加权融合,得到原始图像的边缘图像。
在本实施例中,可以通过HED网络实现边缘检测模型,对原始图像进行边缘检测,得到边缘图像。HED边缘检测算法能够对图像进行多尺度多层次的学习,直接对整幅图像进行操作。在侧输出层通过深度监督,将不同尺度的侧输出结果进行融合。具体地,HED网络是通过深度学习网络实现边缘检测的,如图5B所示,为一种HED网络结构示意图,HED网络包5个卷积层:和融合层,该HED网络输入为inputimageX(输入图像X,本实施例中就是待处理的原始图像),每个卷积层分别输出inputimageX在不同尺度下的边缘特征,可以称之为side-output(侧输出)。如图5B所示,5个卷积层分别对应的侧输出为:side-output1、side-output2、side-output3、side-output5。HED网络中,卷积层后添加side output,网络层次越深,卷积核越大,对应的side-output越小,然后通过融合层对每个卷积层的侧输出side-output特征进行融合,得到输入图像X的边缘图像,如图5B所示的groud truth Y(groud truth表示真值)就是最终输出的边缘图像Y。
HED网络具有两个特点:
(1)训练一个image-to-image的网络,即网络的输入为原图,输出结果为边缘检测得到的二值化图像。
(2)在每层卷积层后输出该层的结果,这个结果被称为side-output(侧输出),不同隐藏层的side-output尺度不同,在优化过程中,HED不仅要求最后输出的二值化边缘图像好,而且要求各side-output的结果也要好,即优化目标是最终的输出和各side-output。
因此,使用HED网络实现预设的边缘检测模型,通过每个side output继承上一层的特征,最后对多层特征融合,进一步提升边缘检测的精度。
如图5C所示,使用HED边缘检测的结果对比示意图,通过对如图4B所示商品原始图像使用HED边缘检测,可以得到商品原始图像S的HED条件线稿(即边缘图像)。
于一实施例中,步骤302中获取原始图像对应的描述文本,具体可以包括:提取原始图像的图像特征。采用预设的密集定位层对图像特征进行处理,得到原始图像中多个候选区域的特征向量,特征向量包括对应候选区域的位置信息、置信分数和特征信息。根据多个候选区域的特征向量,对原始图像进行自然语言识别,得到原始图像中视觉信息的描述文本。
在本实施例中,以商品原始图像作为待处理的原始图像为例,为了获得商品原始图像中视觉信息的描述文本,可以采用全卷积定位网络DenseCap对商品原始图像中的视觉概念进行定位和描述。DenseCap的主要工作是对图像进行dense captioning,即要描述的对象不再是一幅简单的图片,而是要将图片中的许多局部视觉概念都用自然语言描述出来。该工作将目标检测和图像描述进行结合,当描述的语言仅是一个单词的时候,就可以看作是目标检测,当描述的对象是整幅图片的时候,就成了普通的图像描述。
DenseCap提出了一个FCLN网络结构,该网络结构可以进行端到端式的训练,无需额外的候选区域生成模型(以及整合到网络内部),只需要进行一轮优化和前馈计算就可以得到输出结果。
如图6A所示,为FCLN网络结构的示意图,该网络模型由三部分组成:卷积神经网络(CNN)、密集定位层(Localization Layer)和语言模型(LSTM)。其中输入图像(Image)尺寸为3×W×H(其中W为图像的宽、H为图像的高),输入图像(Image)首先进入卷积神经网络,输出尺寸为C×W,×H,的卷积特征(Conv features),也就是输入图像的图像特征,其中C=512,该卷积特征Conv features输入密集定位层,在密集定位层中首先经过Conv卷积运算,然后确定出Region Proposals(候选区域,尺寸为4k×W,×H,,其中k为锚箱(anchor box)的数量)和各个候选区域的Region scores(区域得分,尺寸为k×W,×H,),然后根据候选区域和对应的区域的分进行Sampling(区域采样)操作,得到候选区域的Best Proposals(即最佳方案,形式是一个B×4的矩阵,B代表候选区域的个数)。然后可以进入Grid Generator(网格生成器),生成Sampling Grid(采样网格),形式为B×X×Y×2,X×Y表示卷积特征的大小。另一方面将卷积特征(Conv features)输入BilinearSampler(双线性插值器),进行双线性插值处理,将插值结果与Sampling Grid融合后,输出多个候选区域的特征向量Region features,形式可以为B×512×7×7。密集定位层输出B个候选区域的特征向量中,每个特征向量都包含下面三个关键信息:
候选区域的位置信息:也就是候选区域在原始图像上的坐标,输出形式是一个B×4的矩阵,每行代表一个候选区域的坐标。
候选区域的置信分数:一个长度为B的一维列向量,向量内每个元素都给出了候选区域的得分,得分越高说明越可能是真实区域。
候选区域的特征信息:输出形式为B×C×X×Y的特征集合,这里B代表候选区域个数,X×Y表示特征图谱的大小,C代表特征的维度。
然后密集定位层的输出结果Region features进入识别网络(RecognitionNetwork),识别网络以一个全连接的神经网络,可以将每个候选区域的特征向量拉伸成一个一维列向量,令其经过两层全连接层,最终对于每一个候选区域,都会生成一个长度为D=4096的一维向量。将所有的正样本的存储起来,形成一个B×D形状的矩阵(RegionCodes,区域编码),然后将该矩阵传送到LSTM语言模型中,输出输入图像中视觉信息的描述文本,比如输入图像是狸花猫在看电视,则输出的描述文本可以为“Striped gray cat”/“Cat watching TV”,意思是“狸花猫/猫在看电视”。其中描述文本的语言种类不做限定,图6A中以英文作为示例。
描述文本以英文作为示例,如图6B所示,为使用DenseCap获取描述文本的结果对比示意图,通过将图4B中的商品原始图像S作为输入图像,对商品原始图像S进行描述文本提取后,可以得到如下商品原始图像S对应的描述文本“white couch with wooden legs,one pillow on the couch,a glass coffee table,a large wall decoration,whitepillow on couch,orange pillow on sofa,a white cup on a plate,a video gameconsole,pillows on the couch”,该描述文本对应的中文释义为“木腿白色沙发,沙发上有一个枕头,一张玻璃咖啡桌,一个大的墙壁装饰,沙发上的白色枕头,沙发上是橙色的枕头,盘子里有一个白色杯子,一台电子游戏机,沙发上有枕头”。
步骤303:根据边缘图像和描述文本,生成多个新视觉图像,多个新视觉图像分别包括与原始图像相同的空间场景、并且不同的视觉信息。
在本步骤中,可以将描述文本和边缘图像作为限制条件,来限制生成的图像的内容,以使生成的多个新视觉图像既符合原始图像的描述文本又符合原始图像中的边缘图像。由于边缘图像中保留了原始图像中的线条特征,使得生成的多个新视觉图像可以与原始图像具备相同的线条特征,进而包含与原始图像相同的空间场景,而视觉信息又可以通过描述文本进行多样化限定,或者随机限定,比如原始图像的空间场景是室内场景,边缘图像中保留了该室内场景,描述文本中可以限定室内的墙面纹理和颜色与原始图像不同,这样生成的新视觉图像就会包含该室内场景,并且具备墙面纹理和颜色与原始图像不同视觉信息。不仅使得新视觉图像更加准确的贴合原始图像表达的主要内容,而且可以展现原始图像在不同视觉搭配下的效果。
于一实施例中,步骤303具体可以包括:将描述文本和边缘图像输入预设的图像生成模型,图像生成模型用于将边缘图像作为控制条件,基于描述文本输出多个新视觉图像。
在本实施例中,预设的图像生成模型可以是文生图模型,该图像生成模型可以基于输入的描述文本生成符合文本内容的多个图像,并将边缘图像作为图像生成模型的控制条件,来调整图像生成结果,以使图像生成模型输出的多个新视觉图像更加准确的贴合原始图像表达的主要内容。
于一实施例中,图像生成模型包括:文生图网络和控制网络,其中:当将描述文本和边缘图像输入预设的图像生成模型时,文生图网络用于基于描述文本生成描述文本对应的图像。控制网络用于将边缘图像作为控制条件对文生图网络的输出结果进行调整,以得到多个新视觉图像。
在本实施例中,文生图模型可以是扩散模型,比如Stable Diffusion模型。控制网络ControlNet的核心思想是在描述文本之外添加一些额外条件来控制扩散模型(如StableDiffusion),从而更好地控制图像生成模型生成图像的细节信息。
本实施例中,额外条件以商品原始图像作为输入,图像生成模型可以基于这张输入图像进行Canny边缘检测、深度检测、语义分割、霍夫变换直线检测、Hed边缘检测、人体姿态识别等,然后在生成的图像中保留这些信息。
本实施例中,控制网络可以使用的Muti-controlNet技术来同时使用多个额外条件来控制Stable Diffusion,可以利用Muti-controlNet的技术,来实现对图像生成模型的精细控制和渲染。本实施例主要以使用Canny边缘检测和Hed边缘检测来控制StableDiffusion为例。
于一实施例中,Stable Diffusion作为文生图模型,其优势在于,StableDiffusion不仅允许创作者对生成的图像进行编辑,而且这个模型是开源的,并可以在消费级GPU上运行。Stable Diffusion是一个基于latent(潜在的)的扩散模型,它在U-Net(U型网络结构)中引入text condition(文本条件)来实现基于文本生成图像。StableDiffusion的核心来源于Latent Diffusion Models(潜在扩散模型)。
如图7A所示,为Latent Diffusion Models整体框架示意图,首先需要训练好一个自编码模型(AutoEncoder,包括一个编码器ε和一个解码器)。这样一来,就可以利用编码器对Pixel Space(像素空间)的输入图像/>(/>其中H表示输入图像的高,W表示输入图像的宽)进行压缩,将输入图像/>压缩到Latent Space(潜在空间),得到压缩结果zz然后在潜在空间上做Diffusion Process(扩散操作),得到操作结果zT。再用解码器/>恢复到原始像素空间即可得到输出图像/>该模型引入条件机制(Conditioning Mechanisms),通过使得条件图片生成任务也可以实现,条件图片生成,通过Denoising U-Net∈θ(去噪U-Net网络)实现,并引入了一个转换器τθ,以便于引入不同的条件类型,比如条件类型可以为:Semantic Map(语义地图)、Text(文本)、Representations(描绘)、Images(图像)。其中,∈θ中cross-attention层的K和V是由τθ产生的,Q是由zT产生的。图7A中相关符号释义如下:denoising-step表示去噪步骤,crossattention表示交叉注意,switch表示转换开关,skipconnection表示跳跃连接,concat表示联系。其中,z表示输入图像/>在潜在空间(也可称为隐空间)中的表达,zT-1表示z被加噪第t次后的结果,x(T-1)表示输入图像/>加噪声第t次的结果。
常规的扩散模型是基于pixel(像素)的生成模型,而Latent Diffusion是基于latent(潜在空间)的生成模型,它先采用一个Autoencoder(自编码器)将图像压缩到Latent Space(潜在空间),然后用扩散模型来生成图像的latents(图像在Latent Space中的一种表达形式),最后送入autoencoder的decoder(解码器)模块就可以得到生成的图像。基于latent的扩散模型的优势在于计算效率更高效,因为图像的latent空间要比图像pixel空间要小,这也是Stable Diffusion的核心优势,其可以生成分辨率更高的输出图像。
根据文本生成图像这是Stable Diffusion的最核心的功能,如图7B所示,为Stable Diffusion的文生图的推理流程示意图:输入text(文本):”An astronaut ridinga horse in a photorealistic style”。首先根据输入文本用Text encoder(文本编码器)提取text embeddings(文本嵌入),得到Encoder test(编码后文本),同时初始化一个随机噪音noise,以latent上512x512图像对应的noise维度为64x64x4为例,通过RNG生成64x64的initial noise patch(初始噪声补片),然后将text embeddings和noise送入扩散模型(Diffusion Model)的U-Net中,经过loop x50(循环50次)生成去噪后64x64的latentpatch(去噪后的latent块,类似于图像在像素空间中的像素块),最后送入autoencoder的decoder(解码器)模块得到生成的图像。
控制网络ControlNet的核心思想是在描述文本之外添加一些额外条件来控制扩散模型,从而更好地控制生成图像的细节信息。
如图7C所示,为本申请实施例的添加控制网络前后的结构对比示意图,其中(a)为核心网络模块(neural network block)被控制之前(Before)的示意图,输入为x,输出为y,本实施例中,neural network block以Stable Diffusion模型的核心网络模块为例。
(b)为ControlNet控制核心网络模块之后(After)的示意图,ControlNet将网络结构划分为可训练副本(trainable copy)和锁定的核心网络模块(neural network block(locked))两部分。其中可训练的部分针对可控的部分进行学习。而锁定的部分,则保留了Stable Diffusion模型的原始数据,因此使用少量数据引导,可以保证能充分学习到前置约束的前提下,同时保留原始扩散模型自身的学习能力。
图7C中,“Zero Convolution”是带有零初始化权重和偏差的1×1卷积。在进行ControlNet的模型训练开始之前,所有零卷积输出都是零,此时模型仍然是原始的StableDiffusion Model。而在加入自己的训练数据之后,则会对最终数据产生影响,这里的影响,更多是对最终结果的微调,因此不会导致模型出现重大偏离的情况。保证图像生成模型结果的准确性。
如图7D所示,为使用Muti-ControlNet得到多个新视觉图像示意图,通过将如图4B所示的商品原始图像S的描述文本和线稿输入Muti-ControlNet控制的Stable Diffusion模型,输出包含不同的场景视觉信息的多个新视觉图像。
于一实施例中,在将描述文本和边缘图像输入预设的图像生成模型之前,还包括训练图像生成模型的步骤,包括:获取样本数据,样本数据包括:多个样本文本、样本文本对应的样本图像、以及样本图像对应的边缘样本信息。采用样本数据训练预设的图像生成网络,得到图像生成模型,图像生成网络包括文生图网络和控制网络。
在本实施例中,一组样本数据,包含有样本文本、样本的线稿以及对应的样本图像,采用多个这样的样本数据对前述的文生图网络和控制网络组成的网络进行训练,即可得到图像生成模型。
步骤304:将多个新视觉图像与主体图像分别进行图像融合,得到目标对象在不同场景下的多个目标图像。
在本步骤中,为了保证目标对象的主体内容及细节信息不变,可以进一步将步骤303输出结果中的多个新视觉图像与目标对象的主体图像进行图像融合,以保证最终得到的目标图像中能够准确表征目标对象的主体内容和细节,提高图像生成的准确性。
于一实施例中,主体图像包括:阿尔法通道信息。步骤304具体可以包括:针对单个新视觉图像,获取新视觉图像中每个像素点在主体图像中对应位置的阿尔法通道值,并获取预设的空白图像。分别判断每个像素点对应的阿尔法通道值是否大于预设阈值。若新视觉图像中存在阿尔法通道值大于预设阈值的第一像素点,则根据第一像素点在主体图像上对应位置的像素值确定第一像素点在空白图像上对应位置的像素值。若新视觉图像中存在阿尔法通道值小于或等于预设阈值的第二像素点,根据第二像素点的阿尔法通道值、第二像素点在主体图像上对应位置的像素值、以及第二像素点在新视觉图像上的像素值确定第二像素点在空白图像上对应位置的像素值。遍历完新视觉图像中每个像素点后,根据确定了像素信息的空白图像生成新视觉图像对应的目标图像。
在本实施例中,阿尔法通道(Alpha Channel)信息可以用于表征一张图像中每个像素点的透明程度。可以采用Alpha融合的方式,将多个新视觉图像与主体图像分别进行图像融合。Alpha融合是一种将前景通过透明度叠加到背景上的过程。
如图8A所示,以单个新视觉图像(stable diffusion图像image2)与目标对象的主体图像(白底图image1,比如图4D中所示的商品主体图像R)之间的融合过程为例进行说明,并主体图像的alpha值作为阿尔法通道信息为例,首先将两图片(image1和image2)分别缩放到相同尺寸(比如可以是800*800),以便于主体图像image1和新视觉图像image2上的像素点位置更好的相互对应。然后获取新视觉图像image2中每个像素点在主体图像image1中对应位置的alpha值A(x,y),具体地,假设对于新视觉图像image2上一个像素点P(x,y),其中x、y分别为像素点P的位置坐标。该像素点P,在主体图像image1中的对应坐标位置P1,获取主体图像image1中P1的阿尔法通道值A(x,y),并遍历图像各个像素点,将阿尔法通道值A(x,y)与预设阈值A’相比较,预设阈值A’为预先设定的阿尔法通道阈值,用于判别是否选取主体图像image1中的像素值作为融合后目标图像的像素值,实际场景中可以基于实际需求设定,比如可以设置预设阈值A’为200。并获取预设的空白图像,此处空白图像用于生成融合后的目标图像,可以直接新建一个尺寸为800*800的空白图像image3。
具体地,判断阿尔法通道值A(x,y)是否大于预设阈值A’,如果是,则采用如下公式计算像素点p在空白图像image3中对应位置的像素值:
image3(x,y)=image1(x,y)
其中,image3(x,y)表示像素点p在空白图像image3中对应位置处P3的像素值,image1(x,y)为像素点P在主体图像image1中的对应坐标位置P1的像素值。
如果阿尔法通道值A(x,y)小于或等于预设阈值A’,则采用如下公式计算空白图像image3中对应位置的像素值,
其中,image2(x,y)为新视觉图像image2上像素点P的像素值。
按照上述方式,遍历完新视觉图像中每个像素点后,可以得到融合后空白图像image3中各个像素点的像素值,此时的image3即可作为融合后的目标图像输出。如此,将多个新视觉图像分别与主体图像进行融合,可以得到目标对象在不同场景下的多个目标图像。采用图像融合方式进行目标对象植入,实现对目标对象能够精准植入,减少形变发生,提高生成图像的精准度。
如图8B所示,商品主体图像与Stable Diffusion输出的新视觉图像的图像融合结果对比示意图,其中,通过将如图4D所示的商品主体图像R与图7D所示的Stable Diffusion输出的多个新视觉图像进行图像融合后,可以得到包含商品更多细节信息的融合后目标图像。
如图8C所示,为本申请实施例的图像生成方法输入与输出对比示意图,用户输入一张商品(沙发)的原始图像,通过本申请的文生图商品植入过程,可以输出商品在不同摆放场景下的目标图像。
上述图像生成方法,通过检测输入的原始图像的边缘来产生控制条件,对目标对象的内容主体不敏感,所以对于图像中新的概念不需要微调,可以直接使用。在训练过程中仅需使用少量数据引导ControlNet,不需要大规模训练。不需要人为的对图像进行完整描述,可直接使用DenseCap得到prompt文本描述。实现了基于原始图像批量自动化生成多个新视觉图像,提高物品新视觉图像的生成效率。
请参看图9,其为本申请一实施例的商品图像生成方法,该方法可由图1所示的电子设备1来执行,并可以应用于图2A-2B中所示的图像生成应用场景中,以实现基于原始图像批量自动化生成多视觉场景图像,提高物品场景图像的生成效率。本实施例以终端220为执行端为例,与前述实施例相比,本实施例以电商场景中,商品原始图像自动生成为例,该方法包括如下步骤:
步骤901:响应于商品图像生成请求,获取生成请求指定的原始图像,原始图像包括至少一个商品。
在本步骤中,商品图像生成请求可以由用户主动触发,比如用户上传一张商品的原始图像,触发商品图像生成请求。商品图像生成请求也可以由预定时间或事件触发,本申请实施例对触发方式不做限定。当接收到商品图像生成请求时,响应于该生成请求,获取该请求指定的原始图像,比如用户上传的原始图像,该原始图像中至少包括一个商品对象。详细可以参见前述实施例中对步骤301的描述。
步骤902:提取原始图像中目标商品的主体图像、原始图像的边缘图像,并获取原始图像对应的描述文本。详细可以参见前述实施例中对步骤302的描述。
步骤903:根据边缘图像和描述文本,生成多个新视觉图像,多个新视觉图像分别包括与原始图像相同的空间场景、并且不同的视觉信息。详细可以参见前述实施例中对步骤303的描述。
步骤904:将多个新视觉图像与主体图像分别进行图像融合,输出目标商品在不同场景下的多个目标图像。详细可以参见前述实施例中对步骤304的描述。
上述图像生成方法,可以应用在电商场景中智能主图业务中,可以试想商家仅需要提供单张商品场景原始图像就可以实现自动、批量的生成植入商品的目标场景图,生成的目标场景图可以用作商品主图和内容素材等使用,大大提高商品图像的生成效率。
上述图像生成方法的各个步骤,详细可以参阅前述有关实施例的相关描述,此处不再赘述。
请参看图10,其为本申请一实施例的图像生成装置1000,该装置可应用于图1所示的电子设备1。并可以应用于图2A-2B中所示的图像生成应用场景中,以实现基于原始图像批量自动化生成多视觉场景图像,提高物品场景图像的生成效率。该装置包括:获取模块1001、提取模块1002、生成模块1003和融合模块1004,各个模块的功能原理如下:
获取模块1001,用于响应于图像生成请求,获取生成请求指定的待处理的原始图像。
提取模块1002,用于提取原始图像中目标对象的主体图像、原始图像的边缘图像,并获取原始图像对应的描述文本。
生成模块1003,用于根据边缘图像和描述文本,生成多个新视觉图像,多个新视觉图像分别包括与原始图像相同的空间场景、并且不同的场景视觉信息。
融合模块1004,用于将多个新视觉图像与主体图像分别进行图像融合,得到目标对象在不同场景下的多个目标图像。
于一实施例中,提取模块1002,用于对原始图像中的目标对象进行抠图处理,得到目标对象的主体图像。
于一实施例中,提取模块1002,具体用于对原始图像进行显著性对象检测,得到原始图像中目标对象的主体图像。
于一实施例中,提取模块1002,还用于对原始图像进行去噪处理。对去噪处理后的原始图像进行梯度计算,得到原始图像的梯度信息。根据梯度信息对原始图像进行非极大值抑制处理,得到原始图像的初始边缘像素点集合。对初始边缘像素点集合进行双阈值边界跟踪,得到原始图像的最终边缘像素点集合,边缘图像包括最终边缘像素点集合。
于一实施例中,提取模块1002,还用于将原始图像输入预设的边缘检测模型,输出原始图像的边缘图像。其中边缘检测模型包括多个卷积层和融合层,多个卷积层分别输出原始图像在不同尺度下的边缘特征,融合层用于将多个卷积层输出的边缘特征进行加权融合,得到原始图像的边缘图像。
于一实施例中,提取模块1002,还用于提取原始图像的图像特征。采用预设的密集定位层对图像特征进行处理,得到原始图像中多个候选区域的特征向量,特征向量包括对应候选区域的位置信息、置信分数和特征信息。根据多个候选区域的特征向量,对原始图像进行自然语言识别,得到原始图像中视觉信息的描述文本。
于一实施例中,生成模块1003,用于将描述文本和边缘图像输入预设的图像生成模型,图像生成模型用于将边缘图像作为控制条件,基于描述文本输出多个新视觉图像。
于一实施例中,图像生成模型包括:文生图网络和控制网络,其中:当将描述文本和边缘图像输入预设的图像生成模型时,文生图网络用于基于描述文本生成描述文本对应的图像。控制网络用于将边缘图像作为控制条件对文生图网络的输出结果进行调整,以得到多个新视觉图像。
于一实施例中,还包括:训练模块,用于在将描述文本和边缘图像输入预设的图像生成模型之前,训练图像生成模型,训练模块具体用于:获取样本数据,样本数据包括:多个样本文本、样本文本对应的样本图像、以及样本图像对应的边缘样本信息。采用样本数据训练预设的图像生成网络,得到图像生成模型,图像生成网络包括文生图网络和控制网络。
于一实施例中,主体图像包括:阿尔法通道信息。融合模块1004,用于针对单个新视觉图像,获取新视觉图像中每个像素点在主体图像中对应位置的阿尔法通道值,并获取预设的空白图像。分别判断每个像素点对应的阿尔法通道值是否大于预设阈值。若新视觉图像中存在阿尔法通道值大于预设阈值的第一像素点,则根据第一像素点在主体图像上对应位置的像素值确定第一像素点在空白图像上对应位置的像素值。若新视觉图像中存在阿尔法通道值小于或等于预设阈值的第二像素点,根据第二像素点的阿尔法通道值、第二像素点在主体图像上对应位置的像素值、以及第二像素点在新视觉图像上的像素值确定第二像素点在空白图像上对应位置的像素值。遍历完新视觉图像中每个像素点后,根据确定了像素信息的空白图像生成新视觉图像对应的目标图像。
于一实施例中,获取模块1001,用于响应于用户输入的目标对象标识,根据目标对象标识在预设数据库中检索出包含目标对象的原始图像;
于一实施例中,获取模块1001,用于响应于用户的图像上传请求,接收用户上传的原始图像,并确定用户在原始图像中指定的目标对象。
上述图像生成装置1000的详细描述,请参见上述实施例中相关方法步骤的描述,其实现原理和技术效果类似,本实施例此处不再赘述。
图11为本申请示例性实施例提供的一种云设备110的结构示意图。该云设备110可以用于运行上述任一实施例所提供的方法。如图11所示,该云设备110可以包括:存储器1104和至少一个处理器1105,图11中以一个处理器为例。
存储器1104,用于存储计算机程序,并可被配置为存储其它各种数据以支持在云设备110上的操作。该存储器1104可以是对象存储(Object Storage Service,OSS)。
存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器1105,与存储器1104耦合,用于执行存储器1104中的计算机程序,以用于实现上述任一方法实施例所提供的方案,具体功能和所能实现的技术效果此处不再赘述。
进一步地,如图11,该云设备还包括:防火墙1101、负载均衡器1102、通信组件1106、电源组件1103等其它组件。图11中仅示意性给出部分组件,并不意味着云设备只包括图11所示组件。
于一实施例中,上述图11中的通信组件1106被配置为便于通信组件1106所在设备和其他设备之间有线或无线方式的通信。通信组件1106所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G、LTE(Long Term Evolution,长期演进,简称LTE)、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件1106经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件1106还包括近场通信(Near Field Communication,简称NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(Radio Frequency Identification,简称RFID)技术,红外数据协会(Infrared Data Association,简称IrDA)技术,超宽带(Ultra WiDe_Band,简称UWB)技术,蓝牙(bluetooth,简称BT)技术和其他技术来实现。
于一实施例中,上述图11的电源组件1103,为电源组件1103所在设备的各种组件提供电力。电源组件1103可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现前述任一实施例的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一实施例的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储NVM(Nonvolatile memory,简称NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random-Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable read only memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable read-only memory,简称PROM),只读存储器(Read-OnlyMemory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
本申请的技术方案中,所涉及的用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (15)
1.一种图像生成方法,其特征在于,所述方法包括:
响应于图像生成请求,获取所述生成请求指定的待处理的原始图像;
提取所述原始图像中目标对象的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;
根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括与所述原始图像相同的空间场景、并且不同的视觉信息;
将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像。
2.根据权利要求1所述的方法,其特征在于,所述提取所述原始图像中目标对象的主体图像,包括:
对所述原始图像中的目标对象进行抠图处理,得到所述目标对象的主体图像。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始图像中的目标对象进行抠图处理,得到所述目标对象的主体图像,包括:
对所述原始图像进行显著性对象检测,得到所述原始图像中目标对象的主体图像。
4.根据权利要求1所述的方法,其特征在于,提取所述原始图像的边缘图像,包括:
对所述原始图像进行去噪处理;
对去噪处理后的原始图像进行梯度计算,得到所述原始图像的梯度信息;
根据所述梯度信息对所述原始图像进行非极大值抑制处理,得到所述原始图像的初始边缘像素点集合;
对所述初始边缘像素点集合进行双阈值边界跟踪,得到所述原始图像的最终边缘像素点集合,所述边缘图像包括所述最终边缘像素点集合。
5.根据权利要求1或4所述的方法,其特征在于,提取所述原始图像的边缘图像,还包括:
将所述原始图像输入预设的边缘检测模型,输出所述原始图像的边缘图像;其中所述边缘检测模型包括多个卷积层和融合层,所述多个卷积层分别输出所述原始图像在不同尺度下的边缘特征,所述融合层用于将所述多个卷积层输出的边缘特征进行加权融合,得到所述原始图像的边缘图像。
6.根据权利要求1所述的方法,其特征在于,所述获取所述原始图像对应的描述文本,包括:
提取所述原始图像的图像特征;
采用预设的密集定位层对所述图像特征进行处理,得到所述原始图像中多个候选区域的特征向量,所述特征向量包括对应候选区域的位置信息、置信分数和特征信息;
根据所述多个候选区域的特征向量,对所述原始图像进行自然语言识别,得到所述原始图像中视觉信息的描述文本。
7.根据权利要求1所述的方法,其特征在于,所述根据所述边缘图像和所述描述文本,生成多个新视觉图像,包括:
将所述描述文本和所述边缘图像输入预设的图像生成模型,所述图像生成模型用于将所述边缘图像作为控制条件,基于所述描述文本输出所述多个新视觉图像。
8.根据权利要求7所述的方法,其特征在于,所述图像生成模型包括:文生图网络和控制网络,其中:
当将所述描述文本和所述边缘图像输入预设的图像生成模型时,所述文生图网络用于基于所述描述文本生成所述描述文本对应的图像;
所述控制网络用于将所述边缘图像作为控制条件对所述文生图网络的输出结果进行调整,以得到所述多个新视觉图像。
9.根据权利要求7所述的方法,其特征在于,在所述将所述描述文本和所述边缘图像输入预设的图像生成模型之前,还包括训练所述图像生成模型的步骤,包括:
获取样本数据,所述样本数据包括:多个样本文本、所述样本文本对应的样本图像、以及所述样本图像对应的边缘样本信息;
采用所述样本数据训练预设的图像生成网络,得到所述图像生成模型,所述图像生成网络包括文生图网络和控制网络。
10.根据权利要求1所述的方法,其特征在于,所述主体图像包括:阿尔法通道信息;
所述将所述多个新视觉图像与所述主体图像分别进行图像融合,得到所述目标对象在不同场景下的多个目标图像,包括:
针对单个所述新视觉图像,获取所述新视觉图像中每个像素点在所述主体图像中对应位置的阿尔法通道值,并获取预设的空白图像;
分别判断每个所述像素点对应的阿尔法通道值是否大于预设阈值;
若所述新视觉图像中存在阿尔法通道值大于所述预设阈值的第一像素点,则根据所述第一像素点在所述主体图像上对应位置的像素值确定所述第一像素点在所述空白图像上对应位置的像素值;
若所述新视觉图像中存在阿尔法通道值小于或等于所述预设阈值的第二像素点,根据所述第二像素点的阿尔法通道值、所述第二像素点在所述主体图像上对应位置的像素值、以及所述第二像素点在所述新视觉图像上的像素值确定所述第二像素点在所述空白图像上对应位置的像素值;
遍历完所述新视觉图像中每个像素点后,根据确定了像素信息的所述空白图像生成所述新视觉图像对应的目标图像。
11.根据权利要求1所述的方法,其特征在于,所述响应于图像生成请求,获取所述生成请求指定的待处理的原始图像,包括:
响应于用户输入的目标对象标识,根据所述目标对象标识在预设数据库中检索出包含所述目标对象的原始图像;
和/或,响应于用户的图像上传请求,接收所述用户上传的原始图像,并确定所述用户在所述原始图像中指定的目标对象。
12.一种商品图像生成方法,其特征在于,所述方法包括:
响应于商品图像生成请求,获取所述生成请求指定的原始图像;
提取所述原始图像中目标商品的主体图像、所述原始图像的边缘图像,并获取所述原始图像对应的描述文本;
根据所述边缘图像和所述描述文本,生成多个新视觉图像,所述多个新视觉图像分别包括与所述原始图像相同的空间场景、并且不同的视觉信息;
将所述多个新视觉图像与所述主体图像分别进行图像融合,输出所述目标商品在不同场景下的多个目标图像。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行权利要求1-12任一项所述的方法。
14.一种云设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述云设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310948466.3A CN116934907A (zh) | 2023-07-28 | 2023-07-28 | 图像生成方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310948466.3A CN116934907A (zh) | 2023-07-28 | 2023-07-28 | 图像生成方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116934907A true CN116934907A (zh) | 2023-10-24 |
Family
ID=88387665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310948466.3A Pending CN116934907A (zh) | 2023-07-28 | 2023-07-28 | 图像生成方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116934907A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315072A (zh) * | 2023-11-29 | 2023-12-29 | 阿里健康科技(杭州)有限公司 | 商品展示图的生成方法、设备和介质 |
CN117542031A (zh) * | 2024-01-10 | 2024-02-09 | 成都阿加犀智能科技有限公司 | 一种基于智能购物车的商品识别方法、装置、设备及介质 |
CN117557689A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN117593083A (zh) * | 2023-11-29 | 2024-02-23 | 广州方舟信息科技有限公司 | 商品图像生成方法、装置、电子设备和存储介质 |
CN117974824A (zh) * | 2023-12-28 | 2024-05-03 | 书行科技(北京)有限公司 | 图像生成方法、装置、电子设备及计算机可读存储介质 |
CN118298127A (zh) * | 2024-06-03 | 2024-07-05 | 淘宝(中国)软件有限公司 | 三维模型重建与图像生成方法、设备、存储介质及程序产品 |
-
2023
- 2023-07-28 CN CN202310948466.3A patent/CN116934907A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315072A (zh) * | 2023-11-29 | 2023-12-29 | 阿里健康科技(杭州)有限公司 | 商品展示图的生成方法、设备和介质 |
CN117593083A (zh) * | 2023-11-29 | 2024-02-23 | 广州方舟信息科技有限公司 | 商品图像生成方法、装置、电子设备和存储介质 |
CN117974824A (zh) * | 2023-12-28 | 2024-05-03 | 书行科技(北京)有限公司 | 图像生成方法、装置、电子设备及计算机可读存储介质 |
CN117542031A (zh) * | 2024-01-10 | 2024-02-09 | 成都阿加犀智能科技有限公司 | 一种基于智能购物车的商品识别方法、装置、设备及介质 |
CN117557689A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN117557689B (zh) * | 2024-01-11 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN118298127A (zh) * | 2024-06-03 | 2024-07-05 | 淘宝(中国)软件有限公司 | 三维模型重建与图像生成方法、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116934907A (zh) | 图像生成方法、设备和存储介质 | |
CN109376830B (zh) | 二维码生成方法及装置 | |
CN111008935B (zh) | 一种人脸图像增强方法、装置、系统及存储介质 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与系统 | |
WO2022052530A1 (zh) | 人脸矫正模型的训练方法、装置、电子设备及存储介质 | |
US20230326173A1 (en) | Image processing method and apparatus, and computer-readable storage medium | |
CN114969417B (zh) | 图像重排序方法、相关设备及计算机可读存储介质 | |
CN117576264B (zh) | 图像生成方法、装置、设备及介质 | |
CN112329752B (zh) | 人眼图像处理模型的训练方法、图像处理方法及装置 | |
US11803950B2 (en) | Universal style transfer using multi-scale feature transform and user controls | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN116416416A (zh) | 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备 | |
CN116958423B (zh) | 基于文本的三维建模方法、图像渲染方法及装置 | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN117635760A (zh) | 图像生成方法、设备和存储介质 | |
CN111353325A (zh) | 关键点检测模型训练方法及装置 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN116030466A (zh) | 图像文本信息识别与处理方法、装置及计算机设备 | |
CN116977232A (zh) | 图像处理方法、装置、产品、设备和介质 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN115619776A (zh) | 基于深度学习的物品计数方法和装置 | |
CN115311152A (zh) | 图像处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |