CN116824005A - 图像处理方法及装置、存储介质以及电子设备 - Google Patents
图像处理方法及装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN116824005A CN116824005A CN202310774396.4A CN202310774396A CN116824005A CN 116824005 A CN116824005 A CN 116824005A CN 202310774396 A CN202310774396 A CN 202310774396A CN 116824005 A CN116824005 A CN 116824005A
- Authority
- CN
- China
- Prior art keywords
- image
- prompter
- images
- initial
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 30
- 230000008569 process Effects 0.000 description 12
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开实施例是关于一种图像处理方法及装置、计算机可读存储介质以及电子设备,涉及图像处理技术领域,该图像处理方法包括:获取提词,并生成所述提词对应的多个初始图像;从多个所述初始图像中选择一个初始图像作为候选图像;根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。本公开实施例中的技术方案,能够提高图像生成的准确性。
Description
技术领域
本公开涉及图像处理技术领域,具体而言,涉及一种图像处理方法及装置、计算机可读存储介质以及电子设备。
背景技术
在图像处理过程中,可以通过人工智能的图像生成方法,生成满足用户需求的各种风格的图像。
相关技术中,基于人工智能的图像生成方法进行图像生成时,存在不可控的问题,并且生成的图像的准确性较差,与用户预期存在一定的差距,因此难以满足用户要求。
发明内容
本公开的目的在于提供一种图像处理方法及装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的生成的图像准确性较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种图像处理方法,包括:获取提词,并生成所述提词对应的多个初始图像;从多个所述初始图像中选择一个初始图像作为候选图像;根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
根据本公开的第二方面,提供一种图像处理装置,包括:初始图像生成模块,用于获取提词,并生成所述提词对应的多个初始图像;候选图像选择模块,用于从多个所述初始图像中选择一个初始图像作为候选图像;目标图像确定模块,用于根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法及其可能的实现方式。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法及其可能的实现方式。
本公开实施例中提供的技术方案中,一方面,能够先根据提词初步生成多个草图作为初始图像,进一步从多个初始图像中选择一个作为候选图像,以候选图像作为基础,根据候选图像以及提词对候选图像进行精细生成,提高了生成的目标图像的准确性,能够更好地满足用户要求。另一方面,由于是根据提词,生成与提词对应的多个初始图像,进一步在候选图像的基础上根据提词进行精细生成,并且结合了质量条件来生成目标图像,避免了相关技术中进行图像生成时的不可控的问题,提高了精准性,也提高了目标图像与提词之间的关联度和匹配度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的图像处理方法的应用场景的示意图。
图2示意性示出本公开实施例一种图像处理方法的流程示意图。
图3示意性示出本公开实施例中生成初始图像的示意图。
图4示意性示出本公开实施例中根据候选图像和提词得到图像生成结果的示意图。
图5示意性示出本公开实施例中图像生成结果与质量条件的匹配结果的示意图。
图6示意性示出本公开实施例中进行图像生成的整体流程示意图。
图7示意性示出本公开实施例中图像处理装置的框图示意图。
图8示意性示出本公开实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决相关技术中的技术问题,本公开实施例中提供了一种图像处理方法,可以应用于智能生成图像的过程中,以生成各种类型的图像,进一步对生成的图像进行编辑处理等操作。图1示出了可以应用本公开实施例的图像处理方法及装置的系统架构的示意图。
如图1所示,可以获取终端的交互界面上显示的提词。将提词输入至训练好的微调模型中,得到与该提词相关的多个初始图像,例如初始图像1、初始图像2以及初始图像3。进一步地,可以从多个初始图像中选择出一个作为候选图像,例如可以将初始图像3作为候选图像。在此基础上,可能会由于训练微调模型的样本数据的原因导致初始图像不准确的问题,因此可以根据提词对候选图像进行调整,以将候选图像和提词输入至图像生成模型中,得到与提词对应的目标图像。
需要说明的是,本公开实施例所提供的图像处理方法可以由终端来执行。终端可以为具有图像处理功能的智能设备,例如可以为智能手机、电脑、平板电脑、智能音箱、智能手表、车载设备、可穿戴设备、监控设备等智能设备。图像处理装置也可以设置于终端中。除此之外,图像处理方法也可以由服务器执行,此处不作具体限定。
图2中示意性示出了图像处理的流程图。参考图2中所示,主要包括以下步骤:
在步骤S210中,获取提词,并生成所述提词对应的多个初始图像;
在步骤S220中,从多个所述初始图像中选择一个初始图像作为候选图像;
在步骤S230中,根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
本公开实施例中的技术方案,一方面,能够先根据提词初步生成多个草图作为初始图像,进一步从多个初始图像中选择一个作为候选图像,以候选图像作为基础,根据候选图像以及提词对候选图像进行精细生成,提高了生成的目标图像的准确性,能够更好地满足用户要求。另一方面,由于是根据提词,生成与提词对应的多个初始图像,进一步在候选图像的基础上根据提词进行精细生成,并且结合了质量条件来生成目标图像,避免了相关技术中进行图像生成时的不可控的问题,提高了精准性,也提高了目标图像与提词之间的关联度和匹配度。
接下来,参考图2中所示,对图像处理方法的每个步骤进行具体说明。
在步骤S210中,获取提词,并生成所述提词对应的多个初始图像。
本公开实施例中,提词可以用于表征要生成的图像的特征,例如可以用于表示要生成的图像的类型、动作、场景、颜色等任何与图像相关的属性。通过提示词进行描述,以便于生成相应的图像。
提词可以为任意类型的合适的词语,且提词可以由一个词语或者是多个词语组合而成。示例性地,提词可以为提示词prompts,提词可以由多个单词、词组或短句构成,且可以包含正向提示词和反向提示词。其中,正向提示词用户确定图像生成方向,反向提示词用于排除图像生成方向。
在存在多个提词时,可为每个提词设置对应的权重,以便于通过不同的权重来确定执行每个提词的重要程度。并且,可以按照提词的权重来确定提词的先后顺序,例如位于第一位的提词的权重最大,位于最后一位的提词的权重最小。当提词中存在重复的提词时,可以将其进行合并处理。
举例而言,提词中包含主体、细节、风格等文本,若想明确主体,应该将其设置为较大的权重,且排列在前面,此时提词的顺序可以依次为:主体-细节-风格。若想明确风格,应该将其设置为较大的权重,且排列在前面,此时提词的顺序可以依次为:风格-主体-细节。
在确定出提词之后,可以基于提词来生成与该提词对应的初始图像。初始图像的数量可以根据设备参数以及应用场景等进行设置,例如可以设置为3个或者是10个等等。设备参数可以为设备耗时,初始图像的数量越大,则耗时越长。应用场景不同,则需要的初始图像的数量也可以相同或不同,例如当应用场景属于高精度场景时,初始图像的数量较大;当应用场景属于低精度场景时,初始图像的数量较小。
需要说明的是,初始图像可以为草图,即未进行精细处理的处于初始阶段,用于表示设计概念但是细节等均不完整的图像。
本公开实施例中,可以通过训练好的微调模型来生成与提词对应的多个初始图像。训练好的微调模型,具有学习少量高质量同源图像(同源图像指同一个对象的图像),并对应到一个单词token的能力。即,训练好的微调模型可以用于确定图像对应的单词token,从而通过该单词token将文本和训练好的微调模型进行绑定,使得训练好的微调模型能够根据包含的单词token,对输入的提词进行处理。如果输入的提词中包含单词token,则可以使用与其绑定的训练好的微调模型进行对输入的提词进行处理。如果输入的提词中未包含单词token,则不可以使用与其绑定的训练好的微调模型进行对输入的提词进行处理。
其中,单词token指的是整个模型对应单词,该单词可以为自定义为任意单词,只要能够与模型进行绑定即可,在之后进行使用时通过token就能关联到图像。示例性地,单词token可以为与图像相关的单词,也可以为与图像无关的单词,此处不作具体限定。例如,在学习一系列小猫的图像时,可对应到token“cat”。在学习一系列剑的图像时,可对应到token“sks”。
为了提高准确性,可以使用数据集对微调模型进行训练,得到训练好的微调模型。微调模型可以为LoRA(Low-Rank Adaptation of Large Language Models,大型语言模型的低秩适应)模型,该微调模型即低秩适应模型可以接在其他模型上面,并且可以冻结其他模型的参数,只微调LoRA模型,以得到训练好的微调模型。例如,LoRA是在某个StableDiffusion大模型下训练生成的一个小模型,用于微调大模型。LoRA可以调整人物,也可以调整风格等等。
微调模型可以为stable diffusion(SD)模型的一种插件,是在不修改SD模型的前提下,利用少量数据训练出一种画风/IP/人物,实现定制化需求,所需的训练资源比训练SD模要小。为了减少训练成本,LoRA仅训练低秩矩阵,使用时将LoRA模型的参数注入SD模型,从而改变SD模型的生成风格,或者为SD模型添加新的人物/IP。整个过程是一个线性关系,可以认为是原SD模型叠加LoRA模型后,得到一个全新效果的模型。
在训练微调模型时,首先可以获取用于训练的数据集。例如可以采集高质量的同源图像(5~30张即可),得到数据集A。数据集中的图像可以为任意类型的图像,例如可以为图标或者是其它任意类型的图像等等。此处以游戏中的图标icon为例进行说明。
在一些实施例中,可以采集游戏中的图标作为数据集。具体地,可以通过爬取游戏人物的各个角度图像、或者基于三维模型在三维软件中自行调整视角得到各个角度的图像、或者是拍摄真人模特的各个角度照片,以获取数据集。接下来,可以对数据集中的图像进行标注,得到标签。标签可用于说明图像的内容。进一步地,可以配置训练参数,选择训练LoRA和基于哪个大模型训练,其中训练参数大部分用默认值,其他参数可以根据终端的硬件支持状态,例如显卡等来设置。根据数据集以及对应的标签对微调模型进行训练,得到训练好的微调模型。例如,基于LoRA使用数据集A训练得到相应的训练好的微调模型LoRA模型B。
在一些实施例中,训练好的微调模型可以包括多个模型训练而成。示例性地,可分别基于每种类型的样本数据对微调模型进行训练,得到多个中间模型,且每个中间模型表示一种类型;根据每个中间模型对应的权重参数,对所有中间模型进行融合,得到所述训练好的微调模型。类型,可以用于表示风格,例如游戏风格、油画风格、漫画风格等等;也可以用于表示动物、建筑物、人物等等。其中,每种类型的样本数据,可以为每种风格的样本数据,或者是也可以为动物表示的样本数据、人物表示的样本数据等等。可以每个人的图像作为训练数据,或者以相同类型的图像作为训练数据,或者以相同对象的图像作为训练数据,此处以每种类型的样本数据为每种风格的样本数据为例进行说明。
可以将每种类型的样本数据以及对应的标签输入至微调模型,对微调模型的模型参数进行调整,从而得到每种类型的中间模型,且每个中间模型可以用于表示一种类型的模型。进一步地,可以对多个中间模型分别设置不同的权重参数,且权重参数与准确率正相关,即权重参数越大,则根据该中间模型生成的图像的准确率越高。例如,可以对动物生成一个中间模型1,对车辆训练一个中间模型2,若中间模型1的权重参数大于中间模型2的权重参数,则根据中间模型1生成的猫的准确率较高,根据中间模型2生成的汽车的准确率较低。
在此基础上,可以按照中间模型的权重参数,将所有的中间模型进行融合,具体可以进行加权求和,以得到训练好的微调模型。
在得到训练好的微调模型之后,可以将提词输入至训练好的微调模型,根据提词中是否包含该微调模型对应的单词,使用训练好的微调模型对提词进行处理。示例性地,如果输入的提词中包含单词token,则可以使用与其绑定的训练好的微调模型进行对输入的提词进行卷积操作,得到多个与提词相关的初始图像。如果输入的提词中未包含单词token,则不可以使用与其绑定的训练好的微调模型进行对输入的提词进行处理。
在使用训练好的微调模型生成初始图像时,训练好的微调模型可以学习到指定对象数据的特征,例如可以获取提词对应的特征,进一步参考图3中所示,提词为剑,且提词中包含与训练好的微调模型绑定的单词,则可通过训练好的微调模型生成与提词中的剑相关的多个初始图像。
接下来,在步骤S220中,从多个所述初始图像中选择一个初始图像作为候选图像。
本公开实施例中,由于得到的多个初始图像可能不符合在得到提词对应的多个初始图像之后,可以这些初始图像中的一个作为候选图像,以基于该候选图像继续进行图像生成。
示例性地,可以获取每个初始图像与提词的相关度,相关度用于描述初始图像与提词之间的相关程度,具体可以提取初始图像的语义信息,通过提词与语义信息之间的相似度,来确定初始图像和提词的相关度。进一步地,可以将所有初始图像中相关度最高的初始图像,作为候选图像。
除此之外,也可以响应于作用在初始图像上的用户选择操作,将用户选择操作所对应的初始图像确定为候选图像。例如,若存在3个初始图像,且用户选择操作作用于初始图像1,则可以将初始图像1确定为候选图像。
继续参考图2中所示,在步骤S230中,根据所述候选图像以及所述提词进行图像生成,并将满足质量条件的生成结果确定为目标图像。
本公开实施例中,在得到候选图像之后,可以以候选图像作为基础,将候选图像作为母图,在母图的基础上继续进行精细的图像生成,以得到图像生成结果。
示例性地,参考图4中所示,可以将候选图像和提词输入至图像生成模型,以得到图像生成结果。图像生成模型可以为stable diffusion v1.5的img2img模型,即图生图模型。img2img指的是image to image,能够叠一张底图来控制创作方向,例如颜色,构图等等。在进行图生图的过程中,需要提词Prompt的描述和指引。具体地,先以提词为基础生成草图,然后将这些草图作为基础,基于些草图以及提词进行生成。
示例性地,图像生成模型可以包括卷积层、交叉注意力层以及全连接层。具体地,可以将候选图像和提词分别作为图像生成模型的输入,通过图像生成模型的卷积层来分别提取候选图像的图像特征以及提词的文本特征,通过交叉注意力层将隐空间进行拼接,从而将图像特征和文本特征进行拼接得到融合特征,进一步根据全连接层对融合特征进行卷积操作得到图像生成结果。图像生成结果可以为与提词相关的图像。需要说明的是,图像生成结果可以满足质量条件,也可以不满足质量条件,具体根据所选择的候选图像的质量而确定。
本公开实施例中,通过将候选图像表示的母图以及提词同时输入至图像生成模型来进行图像生成,能够在候选图像表示的母图的基础上进行精细化生成,实现对母图的精细化修正,从而得到精细化的图像生成结果。
需要说明的是,候选图像可以随着图像生成结果是否满足质量条件而发生变化。例如,当前选择的候选图像为图像1,若基于图像1得到的图像生成结果不满足质量条件,则重新选择候选图像,例如可以将图像2重新作为候选图像,来基于图像2得到图像生成结果。
在得到图像生成结果之后,可以判断图像生成结果是否满足质量条件,以确定匹配结果。进一步根据图像生成结果是否满足质量条件,选择不同的方式来确定目标图像。
在一些实施例中,质量条件可以根据实际场景需求而确定,例如可以包括但不限于图像生成结果与提词的匹配度大于匹配度阈值;除此之外,还可以包括图像大小符合条件以及图像清晰度大于清晰度阈值中的任意一种或者是多种,此处以质量条件为图像生成结果与提词的匹配度大于匹配度阈值为例进行说明。
示例性地,可以将图像生成结果的特征与提词特征进行匹配,在二者之间的匹配度大于匹配度阈值时,可认为匹配结果为图像生成结果满足质量条件。其中,匹配度阈值可以设置为较高的数值。例如,参考图5中所示,当匹配度阈值为90%时,若提词为一把手柄为白色十字形状的尖锐的剑,图像生成结果501也是一把手柄为白色十字形状且尖锐的剑,则可以认为匹配度大于匹配度阈值,此时图像生成结果满足质量条件。若提词为一把手柄为白色十字形状的剑,图像生成结果502为一把手柄为锥形的剑,则可以认为图像生成结果不满足质量条件。
进一步地,在确定匹配结果为图像生成结果满足质量条件时,则可以将满足质量条件的图像生成结果确定为目标图像。例如,可以将图像生成结果501作为提词为一把手柄为白色十字形状的剑对应的目标图像。
在一些实施例中,如果确定匹配结果为图像生成结果不满足质量条件时,则不可以直接将满足质量条件的图像生成结果确定为目标图像。为了提高准确性,可以重新在根据提词生成的多个草图中选择一个作为候选图像,具体可以随机选择一个作为候选图像,也可以根据候选图像与提词之间的相关度选择一个作为候选图像,例如将相关度较大的作为候选图像,此处不作具体限定。
进一步地,可以将重新选择的候选图像以及提词输入至图像生成模型中,通过图像生成模型的卷积层来分别提取重新选择的候选图像的图像特征以及提词的文本特征,通过交叉注意力层将隐空间进行拼接,从而将图像特征和文本特征进行拼接得到融合特征,进一步根据全连接层对融合特征进行卷积操作得到重新选择的候选图像的图像生成结果。接下来,可以判断重新选择的候选图像的图像生成结果是否满足质量条件,并在重新选择的候选图像的图像生成结果满足质量条件时,将该重新选择的候选图像的图像生成结果作为目标图像。
需要说明的是,在确定图像生成结果不满足质量条件时,均可以重新选择候选图像,直至得到的图像生成结果满足质量条件为止。若所有候选图像的图像生成结果均不满足质量条件,可以将其中匹配度最高的图像生成结果作为目标图像。除此之外,还可以对图像生成模型的模型参数进行调整,进而重新执行根据候选图像以及提词得到图像生成结果的过程。
本公开实施例中,通过将候选图像以及提词输入至图像生成模型来进行图像的精细化生成,从而在图像生成结果满足质量条件时将该图像生成结果确定为目标图像。
图6中示意性示出了进行图像生成的流程图,参考图6中所示,主要包括以下步骤:
在步骤S602中,采集图标的数据集;
在步骤S604中,分别基于数据集训练图标的微调模型;
在步骤S606中,基于微调模型,结合提词生成图标的草图集合;
在步骤S608中,从图标的草图集合中挑选出候选图像作为候选图像表示的母图;
在步骤S610中,将候选图像以及提词输入至图像生成模型,得到图像生成结果;
在步骤S612中,判断图像生成结果是否满足质量条件;若是,则转至步骤S614;若否,则转至步骤S608;
在步骤S614中,将图像生成结果确定为目标图像。
本公开实施例中,能够先根据提词初步生成多个草图作为初始图像,进一步从多个初始图像中选择一个作为候选图像,以候选图像作为基础,根据候选图像以及提词对候选图像进行精细生成,提高了生成的目标图像的准确性,能够更好地满足用户要求。由于是根据提词,生成与提词对应的多个初始图像,进一步在候选图像的基础上根据提词进行精细生成,并且结合了质量条件来生成目标图像,避免了相关技术中进行图像生成时的不可控的问题,提高了精准性,也提高了目标图像与提词之间的关联度和匹配度,也提高了生成的目标图像的可控性。除此之外,由于在提词中包含与训练好的微调模型绑定的单词时,使用训练好的微调模型来对提词进行初步图像生成,能够提高生成初始图像的效率。进一步地,由于使用了训练好的微调模型来进行初始图像的生成,减小了资源消耗,提高了处理效率,模型训练过程由于参数较少,通过LoRA模型对Stable Diffusion模型中的transformer部分进行可平替化学习,减小了模型结构,提高了训练效率。
本公开实施例中提供了一种图像处理装置,参考图7中所示,该图像处理装置700可以包括初始图像生成模块701、候选图像选择模块702以及目标图像确定模块703,其中:
初始图像生成模块701,用于获取提词,并生成所述提词对应的多个初始图像;
候选图像选择模块702,用于从多个所述初始图像中选择一个初始图像作为候选图像;
目标图像确定模块703,用于根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
在本公开的一种示例性实施例中,初始图像生成模块包括:生成控制模块,用于通过训练好的微调模型对所述提词进行卷积操作,生成多个所述初始图像。
在本公开的一种示例性实施例中,所述训练好的微调模型与单词绑定;生成控制模块包括:草图生成模块,用于响应于所述提词中包含所述单词,通过所述训练好的微调模型对所述提词进行卷积操作,生成所述提词对应的多个草图作为多个所述初始图像。
在本公开的一种示例性实施例中,所述装置还包括:中间模型训练模块,用于分别基于每种类型的样本数据对微调模型进行训练,得到多个中间模型;中间模型融合模块,用于根据每个中间模型对应的权重参数,对所有中间模型进行融合,得到所述训练好的微调模型。
在本公开的一种示例性实施例中,候选图像选择模块包括:选择控制模块,用于将多个所述初始图像中与所述提词相关度最高的初始图像,确定为所述候选图像。
在本公开的一种示例性实施例中,目标图像确定模块包括:特征提取模块,用于对所述候选图像进行特征提取得到图像特征,并对所述提词进行提取得到文本特征;特征融合模块,用于将所述图像特征以及所述文本特征进行融合得到融合特征,并根据所述融合特征得到所述图像生成结果。
在本公开的一种示例性实施例中,目标图像确定模块包括:第一确定模块,用于响应于所述匹配结果为所述图像生成结果满足质量条件,直接将所述图像生成结果作为所述目标图像;第二确定模块,用于响应于所述匹配结果为所述图像生成结果不满足所述质量条件,重新选择候选图像,并根据重新选择的候选图像以及所述提词得到图像生成结果,直至所述图像生成结果满足所述质量条件为止,将所述满足质量条件的图像生成结果作为所述目标图像。
需要说明的是,上述图像处理装置中各部分的具体细节在图像处理方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述终端。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述图像处理方法。
下面以图8中的移动终端800为例,对该电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图8中的构造也能够应用于固定类型的设备。
如图8所示,移动终端800具体可以包括:处理器801、存储器802、总线803、移动通信模块804、天线1、无线通信模块805、天线2、显示屏806、摄像模块807、音频模块808、电源模块809与传感器模块810。
处理器801可以包括一个或多个处理单元,例如:处理器801可以包括AP(Application Processor,应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit,图形处理器)、ISP(Image Signal Processor,图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor,数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit,神经网络处理器)等。本示例性实施方式中的方法可以由AP、GPU或DSP来执行,当方法涉及到神经网络相关的处理时,可以由NPU来执行,例如NPU可以加载神经网络参数并执行神经网络相关的算法指令。
编码器可以对图像或视频进行编码(即压缩),以减小数据大小,便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩),以还原出图像或视频数据。移动终端800可以支持一种或多种编码器和解码器,例如:JPEG(Joint PhotographicExperts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、BMP(Bitmap,位图)等图像格式,MPEG(Moving Picture Experts Group,动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding,高效率视频编码)等视频格式。
处理器801可以通过总线803与存储器802或其他部件形成连接。
存储器802可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器801通过运行存储在存储器802的指令,执行移动终端800的各种功能应用以及数据处理。存储器802还可以存储应用数据,例如存储图像,视频等文件。
移动终端800的通信功能可以通过移动通信模块804、天线1、无线通信模块805、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块804可以提供应用在移动终端800上3G、4G、5G等移动通信解决方案。无线通信模块805可以提供应用在移动终端800上的无线局域网、蓝牙、近场通信等无线通信解决方案。
显示屏806用于实现显示功能,如显示用户界面、图像、视频等。摄像模块807用于实现拍摄功能,如拍摄图像、视频等,且摄像模块中可以包含色温传感器阵列。音频模块808用于实现音频功能,如播放音频,采集语音等。电源模块809用于实现电源管理功能,如为电池充电、为设备供电、监测电池状态等。传感器模块810可以包括一种或多种传感器,用于实现相应的感应检测功能。例如,传感器模块810可以包括惯性传感器,其用于检测移动终端800的运动位姿,输出惯性传感数据。
需要说明的是,本公开实施例中还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
获取提词,并生成所述提词对应的多个初始图像;
从多个所述初始图像中选择一个初始图像作为候选图像;
根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述生成所述提词对应的多个初始图像,包括:
通过训练好的微调模型对所述提词进行卷积操作,生成多个所述初始图像。
3.根据权利要求2所述的图像处理方法,其特征在于,所述训练好的微调模型与单词绑定;
所述通过训练好的微调模型对所述提词进行卷积操作,生成多个所述初始图像,包括:
响应于所述提词中包含所述单词,通过所述训练好的微调模型对所述提词进行卷积操作,生成所述提词对应的多个草图作为多个所述初始图像。
4.根据权利要求3所述的图像处理方法,其特征在于,所述方法还包括:
分别基于每种类型的样本数据对微调模型进行训练,得到多个中间模型;
根据每个中间模型对应的权重参数,对所有中间模型进行融合,得到所述训练好的微调模型。
5.根据权利要求1所述的图像处理方法,其特征在于,所述从多个所述初始图像中选择一个初始图像作为候选图像,包括:
将多个所述初始图像中与所述提词相关度最高的初始图像,确定为所述候选图像。
6.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述候选图像以及所述提词进行图像生成得到图像生成结果,包括:
对所述候选图像进行特征提取得到图像特征,并对所述提词进行提取得到文本特征;
将所述图像特征以及所述文本特征进行融合得到融合特征,并根据所述融合特征得到所述图像生成结果。
7.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像,包括:
响应于所述匹配结果为所述图像生成结果满足质量条件,直接将所述图像生成结果作为所述目标图像;
响应于所述匹配结果为所述图像生成结果不满足所述质量条件,重新选择候选图像,并根据重新选择的候选图像以及所述提词得到图像生成结果,直至所述图像生成结果满足所述质量条件为止,将所述满足质量条件的图像生成结果作为所述目标图像。
8.一种图像处理装置,其特征在于,包括:
初始图像生成模块,用于获取提词,并生成所述提词对应的多个初始图像;
候选图像选择模块,用于从多个所述初始图像中选择一个初始图像作为候选图像;
目标图像确定模块,用于根据所述候选图像以及所述提词进行图像生成得到图像生成结果,并根据所述图像生成结果与质量条件的匹配结果确定所述提词对应的目标图像。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的图像处理方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310774396.4A CN116824005A (zh) | 2023-06-27 | 2023-06-27 | 图像处理方法及装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310774396.4A CN116824005A (zh) | 2023-06-27 | 2023-06-27 | 图像处理方法及装置、存储介质以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824005A true CN116824005A (zh) | 2023-09-29 |
Family
ID=88140438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310774396.4A Pending CN116824005A (zh) | 2023-06-27 | 2023-06-27 | 图像处理方法及装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824005A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058490A (zh) * | 2023-10-12 | 2023-11-14 | 成都数智创新精益科技有限公司 | 模型训练方法、缺陷图像生成方法及相关装置 |
-
2023
- 2023-06-27 CN CN202310774396.4A patent/CN116824005A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058490A (zh) * | 2023-10-12 | 2023-11-14 | 成都数智创新精益科技有限公司 | 模型训练方法、缺陷图像生成方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598776B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN112346695A (zh) | 语音控制设备的方法及电子设备 | |
CN111757175A (zh) | 视频处理方法及装置 | |
CN114550070A (zh) | 视频片段的识别方法、装置、设备以及存储介质 | |
US20220207913A1 (en) | Method and device for training multi-task recognition model and computer-readable storage medium | |
CN116824005A (zh) | 图像处理方法及装置、存储介质以及电子设备 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN115563335A (zh) | 模型训练方法、图文数据处理方法及装置、设备、介质 | |
CN115858826A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN114495916B (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN115391511A (zh) | 视频问答方法、装置、系统及存储介质 | |
CN114239717A (zh) | 模型训练方法、图像处理方法及装置、电子设备、介质 | |
CN115937033A (zh) | 图像生成方法、装置及电子设备 | |
CN114494942A (zh) | 视频分类方法及装置、存储介质及电子设备 | |
CN116824004A (zh) | 图标生成方法及装置、存储介质、电子设备 | |
CN114139703A (zh) | 知识蒸馏方法及装置、存储介质及电子设备 | |
CN117237761A (zh) | 对象重识别模型的训练方法、对象重识别方法和装置 | |
CN116935166A (zh) | 模型训练方法、图像处理方法及装置、介质、设备 | |
CN112200817A (zh) | 基于图像的天空区域分割和特效处理方法、装置及设备 | |
CN116524186A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN116168108A (zh) | 文本生成图像的方法及装置、存储介质及电子设备 | |
CN111383289A (zh) | 图像处理方法、装置、终端设备及计算机可读存储介质 | |
CN114330239A (zh) | 文本处理方法及装置、存储介质及电子设备 | |
CN114419517A (zh) | 视频帧处理方法、装置、计算机设备及存储介质 | |
CN117540789B (zh) | 模型训练方法、面部表情迁移方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |