CN117437327A - 一种生成设计素材的方法、装置、存储介质及电子设备 - Google Patents
一种生成设计素材的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117437327A CN117437327A CN202311434491.6A CN202311434491A CN117437327A CN 117437327 A CN117437327 A CN 117437327A CN 202311434491 A CN202311434491 A CN 202311434491A CN 117437327 A CN117437327 A CN 117437327A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- model
- segmentation
- generation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000463 material Substances 0.000 title claims abstract description 192
- 238000013461 design Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 95
- 238000003709 image segmentation Methods 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims description 105
- 238000010586 diagram Methods 0.000 claims description 33
- 238000002372 labelling Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 230000006872 improvement Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种生成设计素材的方法、装置、存储介质及电子设备。获取用户输入的文本信息,将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图,将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜,根据所述基础素材图和所述分割掩膜,生成设计素材。通过该方法,能够根据获取到的文本信息,高效的生成丰富的设计素材。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种生成设计素材的方法、装置、存储介质及电子设备。
背景技术
设计素材是指包含素材图和对应alpha信息的二元组图像,其中,alpha信息负责定义图像的透明度。在广告领域中,广告设计者通常需要使用设计素材来进行网页设计或商品运营,设计素材的使用可以给广告增加视觉吸引力,丰富广告内容。通过重用和组合丰富的设计素材,广告设计者可以更快捷地完成不同类型广告的设计与制作任务,因此对于设计素材的需求日益提升。
目前,设计者获得所需设计素材的渠道有限,主要是通过一些图片网站获取图片,再将所述图片进行处理得到可以使用的设计素材,整个过程耗时较长,效率较低。并且网站提供图片有限,获得的设计素材的自由度和可用率较低。
因此,如何高效的生成设计素材,是一个亟待解决的问题。
发明内容
本说明书实施例提供一种生成设计素材的方法、装置、存储介质及电子设备,以部分解决上述现有技术存在的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种生成设计素材的方法,所述方法包括:
获取用户输入的文本信息;
将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图;
将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜;
根据所述基础素材图和所述分割掩膜,生成设计素材。
可选地,所述基础素材图为彩色图像,所述分割掩膜中每个像素点的值用于表征所述基础素材图中对应像素点的透明度。
可选地,根据所述基础素材图和所述分割掩膜,生成设计素材,具体包括:
根据所述基础素材图中每个像素点的像素值,以及所述分割掩膜中对应像素点的透明度,得到每个像素点的最终像素值;
根据所述每个像素点的最终像素值,生成所述设计素材。
可选地,将所述文本信息输入到设计素材生成模型前,所述方法还包括:
分别对所述图像生成模型和所述图像分割模型进行预训练;
对预训练后的所述图像生成模型和所述图像分割模型进行联合微调。
可选地,对所述图像生成模型进行预训练,具体包括:
将预先采集的样本文本输入到所述图像生成模型,以使所述图像生成模型根据所述样本文本得到待生成的第一训练素材图的图像特征,并根据所述图像特征生成第一训练素材图;
根据所述第一训练素材图,对所述图像生成模型的参数进行调整。
可选地,对所述图像分割模型进行预训练,具体包括:
冻结所述图像生成模型参数;
将所述第一训练素材图的图像特征,输入到所述图像分割模型,得到所述第一训练素材图对应的第一训练分割掩膜;
确定所述样本文本对应的第一标注分割掩膜,以所述第一训练分割掩膜和所述第一标注分割掩膜差异最小化为目标进行训练。
可选地,确定所述样本文本对应的第一标注分割掩膜,具体包括:
将所述第一训练素材图,输入到预训练后的语义分割模型中,得到所述第一训练素材图对应的第一标注分割掩膜。
可选地,对预训练后的所述图像生成模型和所述图像分割模型进行联合微调,具体包括:
将样本文本输入到所述图像生成模型中,通过所述图像生成模型生成第二训练素材图,并通过所述图像分割模型,得到所述第二训练素材图对应的第二训练分割掩膜;
根据预先确定的所述样本文本对应的设计素材中的标注素材图和所述第二训练素材图,确定所述图像生成模型的第一损失;
根据预先确定的所述样本文本对应的设计素材中的第二标注分割掩膜,以及所述第二训练分割掩膜,确定所述图像分割模型的第二损失;
根据所述第一损失和第二损失,确定总损失;
根据所述总损失,对预训练后的所述图像生成模型和所述图像分割模型的参数进行调整。
本说明书提供的一种生成设计素材的装置,所述装置包括:
获取模块,用于获取用户输入的文本信息;
生成模块,用于将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图;
分割模块,用于将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜;
组合模块,用于根据所述基础素材图和所述分割掩膜,生成设计素材。
本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的生成设计素材的方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例提供的一种生成设计素材的方法,获取用户输入的文本信息,将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图,将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜,根据所述基础素材图和所述分割掩膜,生成设计素材。通过该方法,能够直接根据文本信息,高效的生成大量丰富的设计素材。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1是本说明书实施例提供的一种生成设计素材方法的流程示意图;
图2是本说明书实施例提供的一种对图像生成模型和图像分割模型进行预训练的流程示意图;
图3为本说明书实施例提供的一种对预训练后的图像生成模型和图像分割模型进行联合微调的流程示意图;
图4为本说明书实施例提供的一种生成设计素材的装置的结构示意图;
图5为本说明书实施例提供的电子设备的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种生成设计素材的方法的流程示意图,具体可包括以下步骤:
S100:获取用户输入的文本信息。
在本申请实施例中,用户可能使用各种软件或者服务来获取用于艺术创作或者广告设计的设计素材,这些应用在获取到用户输入的文本信息后,可以根据所述文本信息为用户提供丰富的设计素材,以供用户使用。
所以,获取用户输入的文本信息的可以是这些应用后台的服务器,以服务器为例,在获取到用户输入的文本信息后,可以将所述文本信息输入到预训练后的模型中进行特征提取和语义分割,生成与所述用户输入的文本信息对应的设计素材。
S102:将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图。
在获取到用户输入的文本信息后,可以将所述文本信息输入到图像生成模型中,所述图像生成模型会根据输入的文本信息进行分析和理解。具体的,所述图像生成模型首先会对输入的文本信息进行编码,将所述文本信息转化为可以被模型理解的向量表示,即提取所述文本信息的文本特征,所述文本特征经过所述图像生成模型中间层的处理,得到待生成的基础素材图的图像特征。最后,根据得到的图像特征,进一步生成基础素材图,这个过程可以是通过对图像特征的解码,逐步还原出图像的细节和色彩等信息,最终得到一张完整的基础素材图。
需要注意的是,使用不同的图像生成模型生成基础素材图的具体过程可能不同,具体过程本说明书实施例不做限制。
S104:将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜。
进一步的,可以将上述图像生成模型中得到所述基础素材图的图像特征输入到图像分割模型中,这里提到的图像分割模型通常是基于卷积神经网络(ConvolutionalNeural Networks,CNN)实现的,它可以通过端到端的学习,将每个像素映射到相应语义类别,如车辆、行人、背景等,从而实现对整张图像的语义分割。具体的,所述图像分割模型的架构可为编码器-解码器(Encoder-Decoder)结构,其中,编码器(encoder)负责将所述基础素材图的图像特征通过一系列卷积层和下采样操作,逐渐被降维到一个低维的特征向量并输出,而解码器(decoder)则将所述编码器输出的特征向量逐步上采样到原始图像的尺寸,同时根据特征信息还原出原始图像的细节和结构信息,最终生成与所述基础素材图相同尺寸的分割掩膜。
S106:根据所述基础素材图和所述分割掩膜,生成设计素材。
进一步的,在得到用户输入到文本信息对应的基础素材图和分割掩膜后,可以根据所述基础素材图和所述分割掩膜进行进一步的处理,得到最终可以使用户直接使用的设计素材。
基于图1提供的一种生成设计素材的方法,在将获取到的文本信息输入到图像生成模型后,可以通过所述图像生成模型生成基础素材图,然后通过所述图像分割模型得到了所述基础素材图对应的分割掩膜,最后根据所述基础素材图和所述基础素材图对应的分割掩膜生成所述文本信息对应的设计素材。
进一步的,所述基础素材图为彩色图像,所述分割掩膜中每个像素点的值用于表征所述基础素材图中对应像素点的透明度。
具体的,根据所述文本信息生成的基础素材图为彩色三通道图像,例如RGB图像,包含R、G、B三个通道,用于表示红、绿、蓝三种基本颜色,R通道表示红色,G通道表示绿色,B通道表示蓝色,每个像素点由三个值表示,这些值决定了像素的颜色。
而所述分割掩膜为Alpha通道的图像,所述分割掩膜中每个像素点的值,即Alpha值,用于表征所述基础素材图中对应像素点的透明度,Alpha取值越高,则表征所述基础素材图中对应像素点的透明度越低。通常,Alpha的取值范围是0到255,当Alpha值为0时,像素完全透明;当Alpha值为255时,像素完全不透明。
进一步的,根据所述基础素材图和所述分割掩膜,生成设计素材,可具体为,根据所述基础素材图中每个像素点的像素值,以及所述分割掩膜中对应像素点的透明度,得到每个像素点的最终像素值,根据所述每个像素点的最终像素值,生成所述设计素材。
具体的,在得到三通道的基础素材图和所述基础素材图对应的Alpha通道的分割掩膜后,可以根据基础素材图中的每个像素点的像素值,即RGB值,以及所述分割掩膜中对应像素点的透明度,计算出每个像素点在最终设计素材中的像素值,得到该像素点的最终RGB值,具体计算方式本说明书实施例不做限制。最后,根据计算出的每个像素点的最终RGB值和透明度,生成最终的与用户的输入文本信息相符的设计素材,所述设计素材为包含RGB通道和Alpha通道的四通道图。
进一步的,将所述文本信息输入到设计素材生成模型前,还需要分别对所述图像生成模型和所述图像分割模型进行预训练,然后对预训练后的所述图像生成模型和所述图像分割模型进行联合微调。
换句话说,在确定了图像生成模型和图像分割模型后,为了提升模型的性能,生成更加准确的基础素材图和分割掩膜,可利用预先采集的样本对所述图像生成模型和图像分割模型进行预训练。在所述两个模型的性能都通过预训练达到较好的效果后,再对预训练后的所述图像生成模型和图像分割模型进行联合微调,即在输入预先采集的样本后,根据输出的结果同时对所述两个模型的参数进行调整,得到最后训练完成的图像生成模型和图像分割模型。通过此训练过程,在提升模型性能的同时,也大大提升了模型训练的效率。
需要注意的是,所述图像分割模型的预训练过程需要所述图像生成模型中的图像特征,可先对所述图像生成模型进行预训练,再对所述图像分割模型进行预训练。
进一步的,对所述图像生成模型进行预训练,可具体为将预先采集的样本文本输入到所述图像生成模型,以使所述图像生成模型根据所述样本文本得到待生成的第一训练素材图的图像特征,并根据所述图像特征生成第一训练素材图,根据所述第一训练素材图,对所述图像生成模型的参数进行调整。
具体的,可以选取现有的图像生成模型,并通过微调或迁移学习等技术得到预训练后的图像生成模型,也可以预训练一个新的图像生成模型,具体的图像生成模型类型本说明书实施例不做限制。
在确定了要进行预训练的图像生成模型后,将预先采集的第一样本文本输入到所述图像生成模型中,通过所述图像生成模型中的特征提取子网络得到待生成的第一训练素材图的图像特征,并通过所述图像生成模型中的图像生成子网络,根据所述图像特征生成第一训练素材图,具体过程如图2中的实线箭头所示。接着,根据所述样本文本对应的标注和输出结果,即所述第一样本文本对应的第一标注素材图和所述第一训练素材图,得到所述图像生成模型在预训练阶段的损失函数,并计算所述损失函数的梯度,最后根据所述损失函数的下降梯度,进行反方向的参数调整。此为所述图像生成模型预训练过程中的一次优化迭代过程,可进行多次迭代,得到最终预训练后的图像生成模型。
需要注意的是,以上实施例为有监督学习的图像生成模型的一种预训练过程,也可以选用不需要样本标注的图像生成模型进行预训练,具体的图像生成模型预训练过程本说明书实施例不做限制。
进一步的,对所述图像分割模型进行预训练,可具体为冻结所述图像生成模型参数,将所述第一训练素材图的图像特征,输入到所述图像分割模型,得到所述第一训练素材图对应的第一训练分割掩膜,确定所述样本文本对应的第一标注分割掩膜,以所述第一训练分割掩膜和所述第一标注分割掩膜差异最小化为目标进行训练。
在所述图像生成模型预训练完成后,需要对所述图像分割模型进行预训练。具体过程如图2中的虚线箭头所示,需要注意的是,为了让所述图像生成模型在对所述图像分割模型进行预训练的过程中性能不受影响,应先冻结所述预训练后的图像生成模型的参数,即在对图2中的图像分割模型进行训练时,仅使用从图像生成模型的特征提取子网络中提取的所述第一训练素材图的图像特征,所述图像生成模型的参数不再改变。
接着,训练方法与上述图像生成模型训练方法类似,将所述图像生成模型中的所述第一训练素材图的图像特征输入到所述图像分割模型中,进行前向传播计算,预测所述第一训练素材图中每个像素点的Alpha值,并根据所述Alpha值生成第一训练分割掩膜。然后,确定所述第一样本文本对应的第一标注分割掩膜,将所述生成的第一训练分割掩膜和所述第一标注分割掩膜的差异作为所述图像分割模型在预训练阶段的损失函数,并计算所述损失函数的梯度,最后根据所述损失函数的下降梯度,以所述第一训练分割掩膜和所述第一标注分割掩膜差异最小化为目标,对所述图像分割模型进行反方向的参数调整。
进一步的,确定所述样本文本对应的第一标注分割掩膜,可具体为,将所述第一训练素材图,输入到预训练后的语义分割模型中,得到所述第一训练素材图对应的第一标注分割掩膜。
将所述第一样本文本输入到所述图像生成模型生成所述第一训练素材图后,可确定所述第一样本文本对应的第一标注分割掩膜,作为对所述图像分割模型进行预训练时的标注。具体的,可将所述第一训练素材图输入到预训练后的语义分割模型中,通过所述语义分割模型,确定所述第一训练素材图中每个像素点的Alpha值,并根据所述Alpha值生成第一标注分割掩膜。这里提到的语义分割模型可以为sam-matting模型,所述sam-matting模型采用类似U-Net模型结构的Encoder-Decoder结构,并引入了注意力机制和条件随机生成器,使得模型能够更好地捕捉图像的局部和全局信息,并生成更精细的分割结果,具体的语义分割模型选择本说明书实施例不做限制。
进一步的,对预训练后的所述图像生成模型和所述图像分割模型进行联合微调,可具体为,将样本文本输入到所述图像生成模型中,通过所述图像生成模型生成第二训练素材图,并通过所述图像分割模型,得到所述第二训练素材图对应的第二训练分割掩膜,根据预先确定的所述样本文本对应的设计素材中的标注素材图和所述第二训练素材图,确定所述图像生成模型的第一损失,根据预先确定的所述样本文本对应的设计素材中的第二标注分割掩膜,以及所述第二训练分割掩膜,确定所述图像分割模型的第二损失,根据所述第一损失和第二损失,确定总损失,根据所述总损失,对预训练后的所述图像生成模型和所述图像分割模型的参数进行调整。
在对所述图像生成模型和所述图像分割模型进行预训练后,还需对预训练后的两个模型进行联合微调,进一步的提升模型和性能,使所述两个模型能够根据输入的文本信息生成更高质量的设计素材。
具体过程如图3所示,将第二样本文本输入到所述图像生成模型中,通过上述预训练后的图像生成模型的特征提取子网络和图像生成子网络生成第二训练素材图,并将所述图像生成模型的特征提取子网络中的第二训练素材图的图像特征,输入到所述预训练后的图像分割模型中,预测所述第二训练素材图中每个像素点的Alpha值,并根据所述Alpha值得到第二训练分割掩膜。需要注意的是,所述第二样本文本与所述两个模型预训练阶段的第一样本文本可能部分重叠,也可能不相同,所述两个样本文本的具体内容本说明书实施例不做限制。
接着,便可以根据预先确定的所述第二样本文本对应的设计素材中的第二标注素材图和所述第二训练素材图的差异,确定所述图像生成模型的损失函数,作为第一损失,并根据预先确定的所述样本文本对应的设计素材中的第二标注分割掩膜和所述第二训练分割掩膜的差异,确定所述图像分割模型的损失函数,作为第二损失。然后,根据所述第一损失和第二损失,确定总损失函数,通过反向传播,对预训练后的图像生成模型和图像分割模型的参数进行共同调整,实现两模型的参数在训练过程中的联合优化。
需要注意的是,在对所述两个模型进行联合微调的过程中,所述两个模型的参数均未被冻结,可根据所述确定的总损失函数进行调整。通过多轮迭代训练,使所述图像生成模型和所述图像分割模型能够协同学习,从而实现设计素材的高质量生成。
以上为本说明书实施例提供的一种生成设计素材的方法,基于同样的思路,本说明书还提供了相应的装置、存储介质和电子设备。
图4为本说明书实施例提供的一种生成设计素材装置的结构示意图,所述装置包括:
获取模块400,用于获取用户输入的文本信息;
生成模块402,用于将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图;
分割模块404,用于将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜;
组合模块406,用于根据所述基础素材图和所述分割掩膜,生成设计素材。
可选地,所述基础素材图为彩色图像,所述分割掩膜中每个像素点的值用于表征所述基础素材图中对应像素点的透明度。
可选地,所述组合模块406具体用于,根据所述基础素材图中每个像素点的像素值,以及所述分割掩膜中对应像素点的透明度,得到每个像素点的最终像素值;根据所述每个像素点的最终像素值,生成所述设计素材。
可选地,所述生成模块402执行将所述文本信息输入到设计素材生成模型前,所述生成模块402还用于,分别对所述图像生成模型和所述图像分割模型进行预训练;对预训练后的所述图像生成模型和所述图像分割模型进行联合微调。
可选地,所述生成模块402还用于,将预先采集的样本文本输入到所述图像生成模型,以使所述图像生成模型根据所述样本文本得到待生成的第一训练素材图的图像特征,并根据所述图像特征生成第一训练素材图;根据所述第一训练素材图,对所述图像生成模型的参数进行调整。
可选地,所述生成模块402还用于,冻结所述图像生成模型参数;将所述第一训练素材图的图像特征,输入到所述图像分割模型,得到所述第一训练素材图对应的第一训练分割掩膜;确定所述样本文本对应的第一标注分割掩膜,以所述第一训练分割掩膜和所述第一标注分割掩膜差异最小化为目标进行训练。
可选地,所述生成模块402还用于,将所述第一训练素材图,输入到预训练后的语义分割模型中,得到所述第一训练素材图对应的第一标注分割掩膜。
可选地,所述生成模块402还用于,将样本文本输入到所述图像生成模型中,通过所述图像生成模型生成第二训练素材图,并通过所述图像分割模型,得到所述第二训练素材图对应的第二训练分割掩膜;根据预先确定的所述样本文本对应的设计素材中的标注素材图和所述第二训练素材图,确定所述图像生成模型的第一损失;根据预先确定的所述样本文本对应的设计素材中的第二标注分割掩膜,以及所述第二训练分割掩膜,确定所述图像分割模型的第二损失;根据所述第一损失和第二损失,确定总损失;根据所述总损失,对预训练后的所述图像生成模型和所述图像分割模型的参数进行调整。
基于图1所示的生成设计素材的方法,本说明书实施例还提供了图5所示的电子设备的结构示意图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的生成设计素材的方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种生成设计素材的方法,其特征在于,所述方法包括:
获取用户输入的文本信息;
将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图;
将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜;
根据所述基础素材图和所述分割掩膜,生成设计素材。
2.如权利要求1所述的方法,其特征在于,所述基础素材图为彩色图像,所述分割掩膜中每个像素点的值用于表征所述基础素材图中对应像素点的透明度。
3.如权利要求1所述的方法,其特征在于,将所述文本信息输入到设计素材生成模型前,所述方法还包括:
分别对所述图像生成模型和所述图像分割模型进行预训练;
对预训练后的所述图像生成模型和所述图像分割模型进行联合微调。
4.如权利要求3所述的方法,其特征在于,对所述图像生成模型进行预训练,具体包括:
将预先采集的样本文本输入到所述图像生成模型,以使所述图像生成模型根据所述样本文本得到待生成的第一训练素材图的图像特征,并根据所述图像特征生成第一训练素材图;
根据所述第一训练素材图,对所述图像生成模型的参数进行调整。
5.如权利要求4所述的方法,其特征在于,对所述图像分割模型进行预训练,具体包括:
冻结所述图像生成模型参数;
将所述第一训练素材图的图像特征,输入到所述图像分割模型,得到所述第一训练素材图对应的第一训练分割掩膜;
确定所述样本文本对应的第一标注分割掩膜,以所述第一训练分割掩膜和所述第一标注分割掩膜差异最小化为目标进行训练。
6.如权利要求5所述的方法,其特征在于,确定所述样本文本对应的第一标注分割掩膜,具体包括:
将所述第一训练素材图,输入到预训练后的语义分割模型中,得到所述第一训练素材图对应的第一标注分割掩膜。
7.如权利要求3所述的方法,其特征在于,对预训练后的所述图像生成模型和所述图像分割模型进行联合微调,具体包括:
将样本文本输入到所述图像生成模型中,通过所述图像生成模型生成第二训练素材图,并通过所述图像分割模型,得到所述第二训练素材图对应的第二训练分割掩膜;
根据预先确定的所述样本文本对应的设计素材中的标注素材图和所述第二训练素材图,确定所述图像生成模型的第一损失;
根据预先确定的所述样本文本对应的设计素材中的第二标注分割掩膜,以及所述第二训练分割掩膜,确定所述图像分割模型的第二损失;
根据所述第一损失和第二损失,确定总损失;
根据所述总损失,对预训练后的所述图像生成模型和所述图像分割模型的参数进行调整。
8.一种生成设计素材的装置,其特征在于,所述装置包括:
获取模块,用于获取用户输入的文本信息;
生成模块,用于将所述文本信息输入图像生成模型,以使所述图像生成模型根据所述文本信息得到待生成的基础素材图的图像特征,并根据所述图像特征生成基础素材图;
分割模块,用于将所述图像特征输入到图像分割模型中,得到所述基础素材图对应的分割掩膜;
组合模块,用于根据所述基础素材图和所述分割掩膜,生成设计素材。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434491.6A CN117437327A (zh) | 2023-10-31 | 2023-10-31 | 一种生成设计素材的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434491.6A CN117437327A (zh) | 2023-10-31 | 2023-10-31 | 一种生成设计素材的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437327A true CN117437327A (zh) | 2024-01-23 |
Family
ID=89549481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311434491.6A Pending CN117437327A (zh) | 2023-10-31 | 2023-10-31 | 一种生成设计素材的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437327A (zh) |
-
2023
- 2023-10-31 CN CN202311434491.6A patent/CN117437327A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652351A (zh) | 一种神经网络模型的部署方法、设备及介质 | |
CN116628198A (zh) | 一种文本生成模型的训练方法、装置、介质及电子设备 | |
CN113010780B (zh) | 一种模型训练以及点击率预估方法及装置 | |
CN115146601A (zh) | 语言处理任务的执行方法、装置、可读存储介质以及设备 | |
CN113888415B (zh) | 一种模型训练以及图像修复方法及装置 | |
CN113688832B (zh) | 一种模型训练及图像处理方法、装置 | |
CN117197781B (zh) | 一种交通标志识别的方法、装置、存储介质及电子设备 | |
CN116821647B (zh) | 基于样本偏离评估的数据标注的优化方法、装置及设备 | |
CN117635822A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN116805393A (zh) | 一种基于3DUnet光谱-空间信息融合的高光谱图像分类方法和系统 | |
CN116824331A (zh) | 一种模型训练、图像识别方法、装置、设备及存储介质 | |
CN117437327A (zh) | 一种生成设计素材的方法、装置、存储介质及电子设备 | |
CN115496162A (zh) | 一种模型的训练方法、装置以及设备 | |
CN115600090A (zh) | 一种模型的所有权验证方法、装置、存储介质及电子设备 | |
CN114359935A (zh) | 一种模型训练以及表格识别方法及装置 | |
CN111899264A (zh) | 一种目标图像分割方法、设备及介质 | |
CN111598219A (zh) | 一种深度可分离卷积的量化方法、装置、设备及介质 | |
CN111539962A (zh) | 一种目标图像分类方法、装置以及介质 | |
CN111539961A (zh) | 一种目标分割方法、装置以及设备 | |
CN115953706B (zh) | 虚拟形象处理方法及装置 | |
CN116434787B (zh) | 一种语音情感识别的方法、装置、存储介质及电子设备 | |
CN116451808B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN112949642B (zh) | 一种文字生成方法、装置、存储介质及电子设备 | |
CN116996397B (zh) | 一种网络丢包优化的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |