CN116912352A - 一种图片生成方法、装置、电子设备及存储介质 - Google Patents
一种图片生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116912352A CN116912352A CN202311174624.0A CN202311174624A CN116912352A CN 116912352 A CN116912352 A CN 116912352A CN 202311174624 A CN202311174624 A CN 202311174624A CN 116912352 A CN116912352 A CN 116912352A
- Authority
- CN
- China
- Prior art keywords
- time step
- interval
- time
- determining
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000009792 diffusion process Methods 0.000 claims abstract description 47
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000011002 quantification Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 24
- 238000012549 training Methods 0.000 abstract description 11
- 230000006872 improvement Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种图片生成方法、装置、电子设备及存储介质,应用于图片生成技术领域,通过确定针对所述扩散模型的时间步;确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;基于所述目标超参数数值从所述时间步中确定出目标时间步;通过所述目标时间步生成图片,从而实现了提高图片生成效率,节约了训练时需要的计算资源。
Description
技术领域
本发明涉及图片生成技术领域,特别是涉及一种图片生成方法、一种图片生成装置、一种电子设备以及一种计算机可读存储介质。
背景技术
扩散模型因其在生成领域的巨大潜力,已经较为广泛地应用在了图片生成和视频生成领域,视觉领域的生成是基于文本或者相似内容的引导,从而使模型理解用户的创作意图,扩散模型相对于其他生成类模型有独到的优势,比如VAE(Variational Auto-encoder,又称变分自编码器)需要对齐后验分布;而GAN(Generative AdversarialNetwork,又称生成对抗网络)需要训练一个额外的判别器,从而增加了整个模型训练过程中的收敛难度,扩散模型有足够的理论支持稳定的训练,其损失函数的设计也是相对简单而灵活的,相比VAE来说有更少的近似,而相对GAN则更容易收敛,因此,扩散模型不仅在计算机视觉领域有着广泛的应用,在语言合成、文本生成等领域也有着相应的探索,然而,扩散模型在进行图片生成的过程中,需要大量的采样步(sampling steps)和较长的采样时间。
因此,如何生成图片是本领域内技术人员需要克服的技术问题。
发明内容
本发明实施例是提供一种图片生成方法、装置、电子设备以及计算机可读存储介质,以解决提高图片生成效率的问题。
本发明实施例公开了一种图片生成方法,应用于扩散模型,可以包括:
确定针对所述扩散模型的时间步;
确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;
基于所述目标超参数数值从所述时间步中确定出目标时间步;
通过所述目标时间步生成图片。
可选地,所述超参数数值区间具有对应的超参数定量指标,所述从所述超参数数值区间中确定出目标超参数数值的步骤可以包括:
基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值。
可选地,还可以包括:
确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔。
可选地,所述第一搜索间隔可以大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔。
可选地,所述基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值的步骤可以包括:
基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值区间中确定出第一最小超参数数值;
基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;
基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值。
可选地,所述时间步具有对应的时间步定量指标,所述基于所述目标超参数数值从所述时间步中确定出目标时间步的步骤可以包括:
基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步。
可选地,所述时间步具有对应的时间步数值,还可以包括:
采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。
可选地,所述第四搜索间隔可以大于所述第五搜索间隔。
可选地,所述基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步的步骤可以包括:
基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;
基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步。
可选地,还可以包括:
将所述目标时间步平均划分为多个时间步区间。
可选地,还可以包括:
确定针对所述时间步区间的时间步搜索范围。
可选地,还可以包括:
确定针对所述时间步区间的时间步搜索间隔。
可选地,还可以包括:
从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻。
可选地,还可以包括:
基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量。
可选地,所述第一时间步数量可以为所述第一时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量。
可选地,所述第二时间步数量可以为所述第二时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
通过所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应。
可选地,所述通过所述目标时间步生成图片的步骤可以包括:
采用所述最优时间步生成图片。
本发明实施例还公开了一种图片生成装置,应用于扩散模型,可以包括:
时间步确定模块,用于确定针对所述扩散模型的时间步;
目标超参数数值确定模块,用于确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;
目标时间步确定模块,用于基于所述目标超参数数值从所述时间步中确定出目标时间步;
图片生成模块,用于通过所述目标时间步生成图片。
可选地,所述超参数数值区间具有对应的超参数定量指标,所述目标超参数数值确定模块可以包括:
目标超参数数值确定子模块,用于基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值。
可选地,还可以包括:
第一搜索间隔确定子模块,用于确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔。
可选地,所述第一搜索间隔可以大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔。
可选地,所述目标超参数数值确定子模块可以包括:
第一最小超参数数值确定单元,用于基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值区间中确定出第一最小超参数数值;
第二最小超参数数值确定单元,用于基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;
目标超参数数值确定单元,用于基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值。
可选地,所述时间步具有对应的时间步定量指标,所述目标时间步确定模块可以包括:
目标时间步确定子模块,用于基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步。
可选地,所述时间步具有对应的时间步数值,还可以包括:
第四搜索间隔确定子模块,用于采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。
可选地,所述第四搜索间隔可以大于所述第五搜索间隔。
可选地,所述目标时间步确定子模块可以包括:
初始最小时间步确定单元,用于基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;
目标时间步确定单元,用于基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步。
可选地,还可以包括:
时间步区间划分模块,用于将所述目标时间步平均划分为多个时间步区间。
可选地,还可以包括:
时间步搜索范围确定模块,用于确定针对所述时间步区间的时间步搜索范围。
可选地,还可以包括:
时间步搜索间隔确定模块,用于确定针对所述时间步区间的时间步搜索间隔。
可选地,还可以包括:
第一时间步区间确定模块,用于从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻。
可选地,还可以包括:
第一时间步数量确定模块,用于基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量。
可选地,所述第一时间步数量可以为所述第一时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
第二时间步数量确定模块,用于基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量。
可选地,所述第二时间步数量可以为所述第二时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
最优时间步确定模块,用于通过所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应。
可选地,所述图片生成模块可以包括:
图片生成子模块,用于采用所述最优时间步生成图片。
本发明实施例还公开了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的方法。
本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的方法。
本发明实施例包括以下优点:
本发明实施例,通过确定针对所述扩散模型的时间步;确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;基于所述目标超参数数值从所述时间步中确定出目标时间步;通过所述目标时间步生成图片,从而实现了提高图片生成效率,节约了训练时需要的计算资源。
附图说明
图1是本发明实施例中提供的一种图片生成方法的步骤流程图;
图2是本发明实施例中提供的另一种图片生成方法的步骤流程图;
图3是本发明实施例中提供的一种图片生成装置的结构框图;
图4是本发明各实施例中提供的一种电子设备的硬件结构框图;
图5是本发明实施例中提供的一种计算机可读介质的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在图片生成的过程中,为了提升图片生成的效率,通常会采用对时间步做了均匀采样或进一步地在不同时间步内使用不同的专家模型的方式,其中,第一种方式为假设扩散模型在扩散中有T个时间步,则采样的概率在这T个时间步中都是均匀分布的,例如公式1所示:
公式1:
其中是遵循高斯分布的噪声项,/>是和时间相关的参数,t则在(0,T)之间均匀分布。而事实上,当以文本引导图像生成时,在不同的时间步起所的作用不同,图像在这T个扩散步中会逐步发生变化,接近时间步0时,图像更接近一个有意义的完整图形;当接近时间T时,图像几乎完全是噪声。扩散模型的推理过程其实是将扩散过程倒转过来,从噪声转化为有意义的图像,当图像接近随机噪声时,文本引导起到的作用极为重要,图片变化的主要趋势取决于文本的内容,在这些时间步中,会完成从噪声到图片大体轮廓的描绘,当图片已经接近完备时,文本的引导就不再那么重要,反之,上一个时间步的图像所起的作用更大,在这些步骤中会完成。此外不同时间步骤对于训练中损失项的贡献也不同,最初的一些时间步对损失项的贡献更大,在中间的步骤会相对平缓,而最后的一些时间步上的贡献又会变得显著,但由于不同时间步对于扩散过程及其逆过程的影响并不均匀,因此如果在(0,T)之间均匀采样,则会降低图片生成的质量,为了达到较好的图片生成质量,则需要更多的时间步,从而提升了推理时间。第二种方式,则是在均匀采样的基础上,在不用时间步内使用不同的专家模型,也就是说,每一个专家模型只适用于特定时间步的推理,在训练时就需要训练若干个专家模型,因此,当采用此种方式时,则需要训练多个模型,对于计算资源的消耗更大,且不利于模型训练的稳定性,同时,由于在推理过程中需要加载多个扩散模型,则会增加实际应用中模型部署的难度,相较于额外消耗的资源和算力,对图形生成质量的提升也相当有限,本发明提供了一种图片生成方法,结合超参数数值和时间步,以提升图片生成的效率。
参照图1,示出了本发明实施例中提供的一种图片生成方法的步骤流程图,具体可以包括如下步骤:
步骤101,确定针对所述扩散模型的时间步;
步骤102,确定针对所述时间步的超参数数值,并从所述超参数数值中确定出目标超参数数值;
步骤103,基于所述目标超参数数值从所述时间步中确定出目标时间步;
步骤104,通过所述目标时间步生成图片。
在实际应用中,本发明实施例可以应用于扩散模型,扩散模型可以是用于生成图片的扩散模型,例如,可以是在ImageNet(是一个用于视觉对象识别软件研究的大型可视化数据库)上的优化文生图扩散模型Yuan-TecSwin模型,超参数数值可以是cond_scale参数,cond_scale是一种与文本引导强度相关的参数,一般取值在1.0到10之间,cond_scale数值越大,代表文本引导的强度就越强,时间步可以是timestep,timestep指每一个独立的字母或者单词,可以被看做序列中的时间步。
在具体实现中,本发明实施例可以确定针对扩散模型的时间步;确定针对时间步的超参数数值区间,并从超参数数值区间中确定出目标超参数数值;基于目标超参数数值从时间步中确定出目标时间步;通过目标时间步生成图片,示例性地,可以确定针对扩散模型的时间步,确定针对时间步的超参数数值区间,记作cond_scale,然后从超参数数值区间中确定出目标超参数数值,例如,可以固定时间步的数量为100,并在一定区间内由粗到细(from coarse to fine)进行网格搜索cond_scale参数,具体地,可以首先在1到10之内做粗略的网格搜索,得到最优cond_scale参数为1到2之间,然后将搜索范围缩小到1到2,得到最优cond_scale参数为1.1到1.2之间,再进一步搜索,得到最优cond_scale参数,可以将多个cond_scale参数中的最优cond_scale参数作为目标超参数数值;
然后,基于目标超参数数值从时间步中确定出最优时间步,作为目标时间步,例如,固定cond_scale参数为1.14,在一定区间内由粗到细进行网格搜索时间步的数值,具体地,可以令时间步在100到1000之间进行搜索,得到最优区间为100-200之间,然后再在100-200区间进行进一步搜索,得到最优时间步为190,记作最优时间步T,并将最优时间步T作为目标时间步,可以通过目标时间步生成图片。
本发明实施例,通过确定针对所述扩散模型的时间步;确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;基于所述目标超参数数值从所述时间步中确定出目标时间步;通过所述目标时间步生成图片,从而实现了提高图片生成效率,节约了训练时需要的计算资源。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在本发明的一个可选地实施例中,所述从所述超参数数值区间中确定出目标超参数数值的步骤包括:
基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值。
在实际应用中,本发明实施例中超参数数值区间可以具有对应的超参数定量指标,示例性地,超参数定量指标可以为针对超参数的FID(Fréchet Inception Distance,又称评价图片生成效果的定量指标),FID可以体现图片生成的精度。
在具体实现中,本发明实施例可以基于超参数定量指标从超参数数值区间中确定出目标超参数数值,示例性地,当扩散模型为一个已经训练好的文生图扩散模型,超参数数值区间为cond_scale,超参数定量指标为FID时,可以固定一个时间步,记作时间步,并在一定区间内由粗到细进行网格搜索cond_scale参数,找到其中FID值最低的一个cond_scale参数作为目标超参数数值。
本发明实施例,通过基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值,从而通过引入超参数定量指标实现对图片生成精度的计算,进一步地提升了图片生成质量。
在本发明的一个可选地实施例中,还包括:
确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔。
在实际应用中,搜索间隔的设置是为了防止搜索活动过于频繁,从而导致计算量过大,计算负担沉重。
在具体实现中,本发明实施例可以确定针对超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔,示例性地,在确定目标超参数数值的网格搜索过程中,可以确定针对网格搜索的搜索间隔,并按照搜索间隔对超参数数值区间进行搜索,例如,第一搜索间隔可以为1,第二搜索间隔可以为0.1,第三搜索间隔可以为0.01。
本发明实施例,通过确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔,从而实现了通过引入搜索间隔,降低了搜索过程的计算量和时间消耗,进一步地提升了图片生成的效率。
在本发明的一个可选地实施例中,所述第一搜索间隔大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔。
在实际应用中,随着网格搜索由粗到细的进行,通过设定由粗到细的搜索间隔,可以得到更精确的搜索结果。
在具体实现中,本发明实施例中第一搜索间隔可以大于第二搜索间隔,第二搜索间隔可以大于第三搜索间隔,示例性地,第一搜索间隔可以为1,第二搜索间隔可以为0.1,第三搜索间隔可以为0.01,其中,第一搜索间隔大于第二搜索间隔,第二搜索间隔大于第三搜索间隔,对应网格搜索中的由粗到细的过程。
本发明实施例,通过令所述第一搜索间隔大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔,从而实现了在由粗到细的搜索过程中,实现了根据搜索对象和搜索条件划定搜索间隔,进一步地提升了搜索结果的准确性,为后续的计算提供了数据支持。
在本发明的一个可选地实施例中,所述基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值的步骤包括:
基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值中确定出第一最小超参数数值;
基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;
基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值。
在具体实现中,本发明实施例可以基于第一搜索间隔和超参数定量指标从超参数数值区间中确定出第一最小超参数数值;基于第二搜索间隔和超参数定量指标从第一最小超参数数值中确定出第二最小超参数数值;基于第三搜索间隔和超参数定量指标从第二最小超参数数值中确定出目标超参数数值,示例性地,当扩散模型为一个已经训练好的文生图扩散模型,超参数数值区间为cond_scale,超参数定量指标为针对cond_scale参数的FID,第一搜索间隔为1,第二搜索间隔为0.1,第三搜索间隔为0.01时,可以固定一个时间步,记作时间步,并在一定区间内由粗到细进行网格搜索cond_scale参数,例如,首先在1.0到10之间做最粗略的网格搜索,搜索的间隔为1,找到其中FID值最低的两个cond_scale参数作为第一最小超参数数值,记作/>和/>,然后,在/>和/>之间做更细粒度的网格搜索,搜索的间隔为0.1,找到其中两个FID值最低的cond_scale参数作为第二最小超参数数值,记作/>和/>,最后,在/>和/>之间进行最细粒度的网格搜索,搜索的间隔为0.01,找到其中FID值最低的一个cond_scale参数作为目标超参数数值。
本发明实施例,通过基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值区间中确定出第一最小超参数数值;基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值,从而提升了目标超参数数值的准确性,为后续的计算提供了数据支持。
在本发明的一个可选地实施例中,所述基于所述目标超参数数值从所述时间步中确定出目标时间步的步骤包括:
基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步。
在实际应用中,本发明实施例中时间步可以具有对应的时间步定量指标,时间步定量指标可以是针对时间步的FID数值。
在具体实现中,本发明实施例可以基于目标超参数数值和时间步定量指标,从时间步中确定出目标时间步,示例性地,当扩散模型为一个已经训练好的文生图扩散模型,超参数数值区间为cond_scale,超参数定量指标为针对cond_scale参数的FID,时间步定量指标为针对时间步的FID数值,第一搜索间隔为1,第二搜索间隔为0.1,第三搜索间隔为0.01时,可以固定一个时间步,记作时间步,并在一定区间内由粗到细进行网格搜索cond_scale参数,例如,首先在1.0到10之间做最粗略的网格搜索,搜索的间隔为1,找到其中针对cond_scale参数的FID最低的两个cond_scale参数作为第一最小超参数数值,记作/>和,然后,在/>和/>之间做更细粒度的网格搜索,搜索的间隔为0.1,找到其中两个针对cond_scale参数的FID最低的cond_scale参数作为第二最小超参数数值,记作/>和/>,最后,在/>和/>之间进行最细粒度的网格搜索,搜索的间隔为0.01,找到其中针对cond_scale参数的FID最低的一个cond_scale参数作为目标超参数数值,然后,可以基于目标超参数数值进行网格搜索,将其中针对时间步FID数值最低的时间步作为目标时间步,记作时间步T。
本发明实施例,通过基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步,从而实现了引入时间步定量指标,令针对时间步的搜索更为准确和有针对性,进一步地提高了后续数据计算的可靠性。
在本发明的一个可选地实施例中,还包括:
采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。
在实际应用中,本发明实施例中的时间步可以具有对应的时间步数值,示例性地,时间步数值可以是根据时间步数量和顺序依次进行编号的数值,时间步数值有利于准确的对时间步进行划分。
在具体实现中,本发明实施例可以采用时间步数值确定针对时间步的第四搜索间隔和第五搜索间隔,示例性地,第四搜索间隔和第五搜索间隔可以用于针对时间步的网格搜索,可以根据时间步数值对第四搜索间隔和第五搜索间隔的数值进行确定,令第四搜索间隔和第五搜索间隔不大于时间步数值。
本发明实施例,通过采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。从而实现了在由粗到细的搜索过程中,实现了根据时间步数值划定搜索间隔,进一步地提升了搜索结果的准确性,为后续的计算提供了数据支持。
在本发明的一个可选地实施例中,所述第四搜索间隔大于所述第五搜索间隔。
在实际应用中,随着网格搜索由粗到细的进行,通过设定由粗到细的搜索间隔,可以得到更精确的搜索结果。
在具体实现中,本发明实施例可以令第四搜索间隔大于第五搜索间隔,示例性地,第四搜索间隔可以为100,第五搜索间隔可以为10,第四搜索间隔大于第五搜索间隔,对应网格搜索中的由粗到细的过程。
本发明实施例,通过令所述第四搜索间隔大于所述第五搜索间隔,从而实现了在由粗到细的搜索过程中,令搜索间隔更符合实际搜索需要,进一步地提升了搜索结果的准确性,为后续的计算提供了数据支持。
在本发明的一个可选地实施例中,所述基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步的步骤包括:
基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;
基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步。
在具体实现中,本发明实施例可以基于目标超参数数值、第四搜索间隔和时间步定量指标从时间步中确定出初始最小时间步;基于目标超参数数值、第五搜索间隔和时间步定量指标从初始最小时间步中确定出目标时间步,示例性地,当扩散模型为一个已经训练好的文生图扩散模型,超参数数值为cond_scale,超参数定量指标为针对cond_scale参数的FID,时间步定量指标为针对时间步的FID数值,第一搜索间隔为1,第二搜索间隔为0.1,第三搜索间隔为0.01,第四搜索间隔为100,第五搜索间隔为10时,可以固定一个时间步,记作时间步,并在一定区间内由粗到细进行网格搜索cond_scale参数,例如,首先在1.0到10之间做最粗略的网格搜索,搜索的间隔为1,找到其中针对cond_scale参数的FID最低的两个cond_scale参数作为第一最小超参数数值,记作/>和/>,然后,在/>和之间做更细粒度的网格搜索,搜索的间隔为0.1,找到其中两个针对cond_scale参数的FID最低的cond_scale参数作为第二最小超参数数值,记作/>和/>,最后,在和/>之间进行最细粒度的网格搜索,搜索的间隔为0.01,找到其中针对cond_scale参数的FID最低的一个cond_scale参数作为目标超参数数值,然后,可以基于目标超参数数值进行网格搜索,首先,可以在时间步数值100-1000之间进行搜索,搜索间隔为100,确定其中针对时间步FID数值最低的两个时间步作为初始最小时间步,记作/>和/>,然后,可以在/>和/>之间做更细粒度的网格搜索,搜索间隔为10,确定其中针对时间步FID数值最低的时间步作为目标时间步,记作时间步T。
本发明实施例,通过基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步,从而提升了目标时间步的准确性,为后续的计算提供了数据支持。
在本发明的一个可选地实施例中,还包括:
将所述目标时间步平均划分为多个时间步区间。
在具体实现中,本发明实施例可以将目标时间步平均划分为多个时间步区间,示例性地,当目标时间步为时间步T时,可以将目标时间步均分为更小的时间步区间,例如,将时间步T均匀分成更小的时间步区间,每个时间步区间包含10步,总共分成T/10个区间,记作,其中/>。
本发明实施例通过将所述目标时间步平均划分为多个时间步区间,通过分区为后续的计算提供了便利,提升了后续计算的效率。
在本发明的一个可选地实施例中,还包括:
确定针对所述时间步区间的时间步搜索范围。
在实际应用中,通过设定搜索范围,可以得到更精确的搜索结果,避免重复计算和超范围计算。
在具体实现中,本发明实施例可以确定针对时间步区间的时间步搜索范围,示例性地,可以令针对时间步区间的时间步搜索范围为从4到30。
本发明实施例,通过确定针对所述时间步区间的时间步搜索范围,从而避免了在针对时间步搜索的过程中进行重复计算,进一步地提升了生成图片的效率和稳定性。
在本发明的一个可选地实施例中,还包括:
确定针对所述时间步区间的时间步搜索间隔。
在实际应用中,通过设定搜索间隔,可以得到更精确的搜索结果,避免重复搜索,防止搜索活动过于频繁,导致运算压力过大。
在具体实现中,本发明实施例可以确定针对时间步区间的时间步搜索间隔,示例性地,可以令针对时间步区间的时间步搜索间隔为2。
本发明实施例,通过确定针对所述时间步区间的时间步搜索间隔,从而避免了在针对时间步搜索的过程中进行重复计算,降低了计算压力,进一步地提升了生成图片的效率和稳定性。
在本发明的一个可选地实施例中,还包括:
从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻。
在具体实现中,本发明实施例可以从时间步区间中确定出第一时间步区间和第二时间步区间,第二时间步区间为第一时间步区间的之后的时间步区间,且第二时间步区间和第一时间步区间相邻,示例性地,当将时间步T均匀分成更小的时间步区间时,若每个时间步区间包含10步,总共分成T/10个区间,记作,其中,则/>可以记作第一时间步,/>则可以记作第二时间步。
本发明实施例,通过从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻,从而令时间步区间之间产生关联关系,为后续的计算提供了便利和可靠性。
在本发明的一个可选地实施例中,还包括:
基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量。
在具体实现中,本发明实施例可以基于时间步搜索范围和时间步搜索间隔确定第一时间步区间的第一时间步数量,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为时,则可以首先搜索区间/>,并固定/>到/>的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对第一时间步区间的第一时间步数量,记作/>。
本发明实施例,通过基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量,从而实现了针对第一时间步区间进行搜索并确定第一时间步数量,进一步地提升了图片生成的针对性和准确性。
在本发明的一个可选地实施例中,所述第一时间步数量为所述第一时间步区间中时间步区间定量指标最低的时间步数量。
在实际应用中,时间步区间定量指标可以是针对时间步区间的FID数值。
在具体实现中,本发明实施例中第一时间步数量可以为第一时间步区间中时间步区间定量指标最低的时间步数量,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为,时间步区间定量指标为针对时间步区间的FID数值时,则可以首先搜索区间/>,并固定/>到/>的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第一时间步数量,记作/>。
本发明实施例,通过令所述第一时间步数量为所述第一时间步区间中时间步区间定量指标最低的时间步数量,从而实现了通过定量指标提升针对时间步数量确定的精度,进一步地提升了图片生成的质量和效率。
在本发明的一个可选地实施例中,还包括:
基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量。
在具体实现中,本发明实施例可以基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为,第二时间步区间为/>,时间步区间定量指标为针对时间步区间的FID数值时,则可以首先搜索区间/>,并固定/>到的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第一时间步数量,记作/>,然后可以固定第一时间步区间对应的时间步数量为/>,并且固定/>到/>的时间步数量为10,搜索第二时间步区间/>,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对第二时间步区间/>的第二时间步数量,记作/>。
本发明实施例,通过基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量,从而进一步地提升了针对时间步数量的确定精度,为后续的图片生成提供了可靠数据支持。
在本发明的一个可选地实施例中,所述第二时间步数量为所述第二时间步区间中时间步区间定量指标最低的时间步数量。
在具体实现中,本发明实施例可以令第二时间步数量为第二时间步区间中时间步区间定量指标最低的时间步数量,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为,第二时间步区间为/>,时间步区间定量指标为针对时间步区间的FID数值时,则可以首先搜索区间/>,并固定/>到/>的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第一时间步数量,记作/>,然后可以固定第一时间步区间对应的时间步数量为/>,并且固定/>到/>的时间步数量为10,搜索第二时间步区间/>,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定此时针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第二时间步数量,记作/>。
本发明实施例,通过令所述第二时间步数量为所述第二时间步区间中时间步区间定量指标最低的时间步数量,从而实现了提升时间步数量的确认精度,进一步地为后续图片生成的可靠性和质量提供了保障。
在本发明的一个可选地实施例中,还包括:
通过所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应。
在具体实现中,本发明实施例可以通过第一时间步数量和第二时间步数量,确定针对多个时间步区间的多个最优时间步;多个最优时间步与多个时间步区间一一对应,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为,第二时间步区间为/>,时间步区间定量指标为针对时间步区间的FID数值时,则可以首先搜索区间,并固定/>到/>的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第一时间步数量,记作/>,然后可以固定第一时间步区间对应的时间步数量为/>,并且固定/>到/>的时间步数量为10,搜索第二时间步区间/>,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定此时针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第二时间步数量,记作/>,若当时间步区间为/>时,可以依此类推,当搜索第N个时间步区间时,则可以固定之前得到的N-1个区间/>的时间步数量,将时间步区间的FID数值最低的时间步数量作为针对第N个时间步区间的时间步数量,记作/>,其中,/>则是对应/>的最优时间步,和/>一一对应。
本发明实施例,通过采用所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应,从而实现了确定每个时间步区间的最优时间步,优化了图片生成过程,进一步地提升了图片生成的效率和质量。
在本发明的一个可选地实施例中,所述通过所述目标时间步生成图片的步骤包括:
采用所述最优时间步生成图片。
在具体实现中,本发明实施例可以采用最优时间步生成图片,示例性地,当时间步搜索范围为从4到30,时间步搜索间隔为2,第一时间步区间为,第二时间步区间为/>,时间步区间定量指标为针对时间步区间的FID数值时,则可以首先搜索区间/>,并固定/>到的时间步为10,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第一时间步数量,记作/>,然后可以固定第一时间步区间对应的时间步数量为/>,并且固定/>到/>的时间步数量为10,搜索第二时间步区间/>,按照时间步搜索范围为从4到30,时间步搜索间隔为2进行网格搜索,确定此时针对时间步区间的FID数值最低的时间步数量,将时间步区间的FID数值最低的时间步数量作为第二时间步数量,记作,若当时间步区间为/>时,可以依次类推,当搜索第N个时间步区间时,则可以固定之前得到的N-1个区间/>的时间步数量,将时间步区间的FID数值最低的时间步数量作为针对第N个时间步区间的时间步数量,记作/>,其中,则是对应/>的最优时间步,和/>一一对应,然后,则可以采用最优时间步/>生成图片。
为使本领域技术人员更好地理解本发明实施例,以下用一完整示例对本发明实施例进行说明。
参考图2,图2示出了本发明实施例中提供的另一种图片生成方法的步骤流程图,具体可以如下所述:
以扩散模型在ImageNet上的优化文生图扩散模型Yuan-TecSwin模型为例,进行以下具体实施例说明,计算FID使用的参照数据集是ImagNet的训练集,文本引导是ImageNet每一类处理后的标签,对于文本引导图片生成的扩散模型来说,文本几乎是唯一决定图片内容的因素,因此在模型应用过程中,文本的作用很重要。
首先,固定时间步数量,在一定区间内由粗到细(from coarse to fine)网格搜索cond_scale(一个与文本引导强度相关的参数)数值,得到某时间步下的最优参数,首先在1.0到10之间做最粗略的网格搜索,搜索的间隔是1,找到其中FID值最低的两个和,其次,在/>和/>之间做更细粒度的网格搜索,搜索的间隔是0.1,找到其中FID值最低的两个/>和/>,最后,在/>和/>之间最细粒度的网格搜索,搜索的间隔是0.01,找到其中FID值最低一个作为确定的cond_scale数值,例如,可以在1到10之内做粗略的网格搜索,发现最优的参数在1到2之间。然后我们将检索范围缩小到1到2,最优的参数值在1.1到1.2之间。然后进一步检索,得到了最优的cond_scale值,其中,在检索过程中,时间步是100。
其次,固定cond_scale,在一定区间内由粗到细网格搜索时间步的数值,得到最优的时间步T,即,基于此前得到的最优的cond_scale值,搜索推理所需的时间步,可以在100到1000步之间做最粗略的网格搜索,搜索的间隔是100,找到其中FID值最低的两个和/>,然后,在/>和/>之间做更细粒度的网格搜索,搜索的间隔是10,找到其中FID值最低的一个数值作为基础时间步T,例如,将cond_scale的数值固定在1.14,时间步先在100到1000之间搜索,发现最优区间在100到200之间。然后在这个区间进一步检索,得到的最优时间步是190。
然后,将时间步T均匀分成更小的时间步区间,每个时间步区间包含10步,总共分成T/10个区间,/>,例如,将190步分割成19个时间区间,每个时间区间内的时间步都是10。
最后,对于从1到T/10的每个时间步,都对时间步做一定范围内的检索,从而确定每一个时间步的取值,即,对于从0到/>的每个时间步依次做网格搜索,首先搜索区间/>,固定1到/>的时间步为10,时间步搜索的范围从4到30,搜索间隔为2,获得FID最低的时间步数量/>,然后固定区间0的时间步/>,和区间2到为10,搜索区间1的时间步。时间步搜索的范围从4到30,搜索间隔为1,获得FID最低的时间步数量/>,以此类推,当检索区间N的时候,固定已经得到的前N-1个区间的时间步/>,以及N+1到/>-1的时间步为10. 搜索区间N的时间步。时间步搜索的范围从4到30,搜索间隔为2,获得FID最低的时间步数量/>,直到进行到/>-1步,从而获得每个区间的最优时间步,例如,从区间0开始依次检索每个区间的时间步,依次得到区间0的最优是27步,区间1是13步,区间2是10步等等,所得到的结果基本符合我们的预期。即,接近两端的区间所需要的时间步更多,中段区间所需的时间步更少,从而提升了模型在ImageNet训练集上的FID精度。
通过上述方式在扩散模型的应用中,可以用更少的时间步并提升了图片生成效果,降低了模型推理的时间,并且实现只用单个扩散模型就达到了精细处理时间步的效果,节省训练时的计算资源。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例中提供的一种图片生成装置的结构框图,具体可以包括如下模块:
时间步确定模块301,用于确定针对所述扩散模型的时间步;
目标超参数数值确定模块302,用于确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;
目标时间步确定模块303,用于基于所述目标超参数数值从所述时间步中确定出目标时间步;
图片生成模块304,用于通过所述目标时间步生成图片。
可选地,所述超参数数值区间具有对应的超参数定量指标,所述目标超参数数值确定模块可以包括:
目标超参数数值确定子模块,用于基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值。
可选地,还可以包括:
第一搜索间隔确定子模块,用于确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔。
可选地,所述第一搜索间隔可以大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔。
可选地,所述目标超参数数值确定子模块可以包括:
第一最小超参数数值确定单元,用于基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值区间中确定出第一最小超参数数值;
第二最小超参数数值确定单元,用于基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;
目标超参数数值确定单元,用于基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值。
可选地,所述时间步具有对应的时间步定量指标,所述目标时间步确定模块可以包括:
目标时间步确定子模块,用于基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步。
可选地,所述时间步具有对应的时间步数值,还可以包括:
第四搜索间隔确定子模块,用于采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。
可选地,所述第四搜索间隔可以大于所述第五搜索间隔。
可选地,所述目标时间步确定子模块可以包括:
初始最小时间步确定单元,用于基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;
目标时间步确定单元,用于基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步。
可选地,还可以包括:
时间步区间划分模块,用于将所述目标时间步平均划分为多个时间步区间。
可选地,还可以包括:
时间步搜索范围确定模块,用于确定针对所述时间步区间的时间步搜索范围。
可选地,还可以包括:
时间步搜索间隔确定模块,用于确定针对所述时间步区间的时间步搜索间隔。
可选地,还可以包括:
第一时间步区间确定模块,用于从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻。
可选地,还可以包括:
第一时间步数量确定模块,用于基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量。
可选地,所述第一时间步数量可以为所述第一时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
第二时间步数量确定模块,用于基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量。
可选地,所述第二时间步数量可以为所述第二时间步区间中时间步区间定量指标最低的时间步数量。
可选地,还可以包括:
最优时间步确定模块,用于通过所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应。
可选地,所述图片生成模块可以包括:
图片生成子模块,用于采用所述最优时间步生成图片。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述图片生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述图片生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
图4为实现本发明各个实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
应理解的是,本发明实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode, OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元408为外部装置与电子设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备400包括一些未示出的功能模块,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
如图5所示,在本发明提供的又一实施例中,还提供了一种计算机可读存储介质501,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的图片生成方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (22)
1.一种图片生成方法,其特征在于,应用于扩散模型,包括:
确定针对所述扩散模型的时间步;
确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;
基于所述目标超参数数值从所述时间步中确定出目标时间步;
通过所述目标时间步生成图片。
2.根据权利要求1所述的方法,其特征在于,所述超参数数值区间具有对应的超参数定量指标,所述从所述超参数数值区间中确定出目标超参数数值的步骤包括:
基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定针对所述超参数数值区间的第一搜索间隔、第二搜索间隔和第三搜索间隔。
4.根据权利要求3所述的方法,其特征在于,所述第一搜索间隔大于所述第二搜索间隔,所述第二搜索间隔大于所述第三搜索间隔。
5.根据权利要求4所述的方法,其特征在于,所述基于所述超参数定量指标从所述超参数数值区间中确定出目标超参数数值的步骤包括:
基于所述第一搜索间隔和所述超参数定量指标从所述超参数数值区间中确定出第一最小超参数数值;
基于所述第二搜索间隔和所述超参数定量指标从所述第一最小超参数数值中确定出第二最小超参数数值;
基于所述第三搜索间隔和所述超参数定量指标从所述第二最小超参数数值中确定出目标超参数数值。
6.根据权利要求1所述的方法,其特征在于,所述时间步具有对应的时间步定量指标,所述基于所述目标超参数数值从所述时间步中确定出目标时间步的步骤包括:
基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步。
7.根据权利要求6所述的方法,其特征在于,所述时间步具有对应的时间步数值,还包括:
采用所述时间步数值确定针对所述时间步的第四搜索间隔和第五搜索间隔。
8.根据权利要求7所述的方法,其特征在于,所述第四搜索间隔大于所述第五搜索间隔。
9.根据权利要求8所述的方法,其特征在于,所述基于所述目标超参数数值和所述时间步定量指标,从所述时间步中确定出目标时间步的步骤包括:
基于所述目标超参数数值、所述第四搜索间隔和所述时间步定量指标从所述时间步中确定出初始最小时间步;
基于所述目标超参数数值、所述第五搜索间隔和所述时间步定量指标从所述初始最小时间步中确定出目标时间步。
10.根据权利要求1所述的方法,其特征在于,还包括:
将所述目标时间步平均划分为多个时间步区间。
11.根据权利要求10所述的方法,其特征在于,还包括:
确定针对所述时间步区间的时间步搜索范围。
12.根据权利要求11所述的方法,其特征在于,还包括:
确定针对所述时间步区间的时间步搜索间隔。
13.根据权利要求12所述的方法,其特征在于,还包括:
从所述时间步区间中确定出第一时间步区间和第二时间步区间,所述第二时间步区间为所述第一时间步区间的之后的时间步区间,且所述第二时间步区间和所述第一时间步区间相邻。
14.根据权利要求13所述的方法,其特征在于,还包括:
基于所述时间步搜索范围和所述时间步搜索间隔确定所述第一时间步区间的第一时间步数量。
15.根据权利要求14所述的方法,其特征在于,所述第一时间步数量为所述第一时间步区间中时间步区间定量指标最低的时间步数量。
16.根据权利要求14所述的方法,其特征在于,还包括:
基于所述时间步搜索范围、所述时间步搜索间隔和所述第一时间步数量确定所述第二时间步区间的第二时间步数量。
17.根据权利要求16所述的方法,其特征在于,所述第二时间步数量为所述第二时间步区间中时间步区间定量指标最低的时间步数量。
18.根据权利要求16所述的方法,其特征在于,还包括:
通过所述第一时间步数量和所述第二时间步数量,确定针对多个所述时间步区间的多个最优时间步;多个所述最优时间步与多个所述时间步区间一一对应。
19.根据权利要求18所述的方法,其特征在于,所述通过所述目标时间步生成图片的步骤包括:
采用所述最优时间步生成图片。
20.一种图片生成装置,其特征在于,应用于扩散模型,包括:
时间步确定模块,用于确定针对所述扩散模型的时间步;
目标超参数数值确定模块,用于确定针对所述时间步的超参数数值区间,并从所述超参数数值区间中确定出目标超参数数值;
目标时间步确定模块,用于基于所述目标超参数数值从所述时间步中确定出目标时间步;
图片生成模块,用于通过所述目标时间步生成图片。
21.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如权利要求1-19任一项所述的方法。
22.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-19任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311174624.0A CN116912352B (zh) | 2023-09-12 | 2023-09-12 | 一种图片生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311174624.0A CN116912352B (zh) | 2023-09-12 | 2023-09-12 | 一种图片生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912352A true CN116912352A (zh) | 2023-10-20 |
CN116912352B CN116912352B (zh) | 2024-01-26 |
Family
ID=88367222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311174624.0A Active CN116912352B (zh) | 2023-09-12 | 2023-09-12 | 一种图片生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912352B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168108A (zh) * | 2023-03-17 | 2023-05-26 | Oppo广东移动通信有限公司 | 文本生成图像的方法及装置、存储介质及电子设备 |
CN116309135A (zh) * | 2023-02-16 | 2023-06-23 | 阿里巴巴达摩院(杭州)科技有限公司 | 扩散模型处理方法及装置、图片处理方法及装置 |
CN116630457A (zh) * | 2023-05-29 | 2023-08-22 | 平安科技(深圳)有限公司 | 图片生成模型的训练方法、装置、电子设备及存储介质 |
CN116629323A (zh) * | 2023-04-27 | 2023-08-22 | 上海人工智能创新中心 | 扩散模型的优化方法、图像生成方法、电子设备及介质 |
CN116721179A (zh) * | 2023-03-09 | 2023-09-08 | 大连理工大学 | 一种基于扩散模型生成图像的方法、设备和存储介质 |
-
2023
- 2023-09-12 CN CN202311174624.0A patent/CN116912352B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116309135A (zh) * | 2023-02-16 | 2023-06-23 | 阿里巴巴达摩院(杭州)科技有限公司 | 扩散模型处理方法及装置、图片处理方法及装置 |
CN116721179A (zh) * | 2023-03-09 | 2023-09-08 | 大连理工大学 | 一种基于扩散模型生成图像的方法、设备和存储介质 |
CN116168108A (zh) * | 2023-03-17 | 2023-05-26 | Oppo广东移动通信有限公司 | 文本生成图像的方法及装置、存储介质及电子设备 |
CN116629323A (zh) * | 2023-04-27 | 2023-08-22 | 上海人工智能创新中心 | 扩散模型的优化方法、图像生成方法、电子设备及介质 |
CN116630457A (zh) * | 2023-05-29 | 2023-08-22 | 平安科技(深圳)有限公司 | 图片生成模型的训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116912352B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558512B (zh) | 一种基于音频的个性化推荐方法、装置和移动终端 | |
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN108984066B (zh) | 一种应用程序图标显示方法及移动终端 | |
CN108668024B (zh) | 一种语音处理方法及终端 | |
CN107783709B (zh) | 一种图像的查看方法及移动终端 | |
CN111399819B (zh) | 数据生成方法、装置、电子设备及存储介质 | |
CN107765954B (zh) | 一种应用程序图标更新方法、移动终端及服务器 | |
CN111090877B (zh) | 数据生成、获取方法及对应的装置、存储介质 | |
CN112464831B (zh) | 视频分类方法、视频分类模型的训练方法及相关设备 | |
CN112947890A (zh) | 一种归并排序方法及装置 | |
CN109144860B (zh) | 一种对控件对象的操作方法及终端设备 | |
CN113052198A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN116912352B (zh) | 一种图片生成方法、装置、电子设备及存储介质 | |
CN107734049B (zh) | 网络资源的下载方法、装置和移动终端 | |
CN111666421B (zh) | 数据处理方法、装置及电子设备 | |
CN111753047B (zh) | 一种文本处理方法及装置 | |
CN111192027B (zh) | 榜单处理方法、装置及计算机可读存储介质 | |
CN117527804A (zh) | 一种网络请求信息转发方法和装置 | |
CN111045588B (zh) | 一种信息查看方法及电子设备 | |
CN113112011B (zh) | 一种数据预测方法及装置 | |
CN112015973B (zh) | 一种异构网络的关系推理方法及终端 | |
CN109829167B (zh) | 一种分词处理方法和移动终端 | |
CN113707132B (zh) | 一种唤醒方法及电子设备 | |
CN110609816B (zh) | 一种信息分享方法、信息分享装置及终端 | |
CN113392176B (zh) | 文本相似性的确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |