CN117036546B - 图片生成方法及装置、存储介质、计算设备 - Google Patents

图片生成方法及装置、存储介质、计算设备 Download PDF

Info

Publication number
CN117036546B
CN117036546B CN202310956306.3A CN202310956306A CN117036546B CN 117036546 B CN117036546 B CN 117036546B CN 202310956306 A CN202310956306 A CN 202310956306A CN 117036546 B CN117036546 B CN 117036546B
Authority
CN
China
Prior art keywords
picture
model
lora
face
clothing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310956306.3A
Other languages
English (en)
Other versions
CN117036546A (zh
Inventor
王霄鹏
虞钉钉
胡贤良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202310956306.3A priority Critical patent/CN117036546B/zh
Publication of CN117036546A publication Critical patent/CN117036546A/zh
Application granted granted Critical
Publication of CN117036546B publication Critical patent/CN117036546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供了一种图片生成方法及装置、存储介质、计算设备,该图片生成方法包括:获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。

Description

图片生成方法及装置、存储介质、计算设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种图片生成方法及装置、存储介质、计算设备。
背景技术
传统的写真照片都是由拍摄团队在特定的取景地点,在打光、化妆等一系列的专业团队的辅助下,对特定着装和姿态的人物进行拍摄,并且在经由一系列的修图操作得到用户满意的照片。
但是,为了得到效果足够令人的满意的照片,这一过程通常要耗费较长的时间与人工成本,并且时间与空间上的限制往往不能满足用户多场景拍摄的需求。传统的图像处理手段,例如PS合成也只能对经由传统拍摄手段得到的照片进行处理,在图片的多样性和创造性上的能力比较欠缺,并且经过PS合成处理的图片在细节上例如光线阴影往往会有生硬或者不自然的情况,人物姿态的多样性也较难满足。
发明内容
本申请要解决的技术问题是如何提升图片生成的效率和灵活性。
为了达到上述目的,本申请提供了以下技术方案:
第一方面,提供了一种图片生成方法,图片生成方法包括:获取输入内容,所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将所述输入内容输入至扩散模型,以生成目标图片,其中,所述扩散模型根据所述人脸标识调用其对应的第一LoRA模型生成所述目标图片中的人脸,所述扩散模型根据所述服装标识调用其对应的第二LoRA模型生成所述目标图片中的服装,所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景。
可选的,所述获取输入内容包括:获取姿态图片;对所述姿态图片提取姿态关键点,以作为所述姿态信息。
可选的,所述背景图片包括期望区域,所述目标图片包括所述期望区域。
可选的,采用以下方式训练所述第一LoRA模型:获取第一训练集以及第一正则数据集,所述第一训练集包括多个人脸图片及其人脸特征信息,所述第一正则数据集包括所述多个人脸图片对应的全身图片,所述多个人脸图片对应同一人脸;利用所述第一训练集以及所述第一正则数据集训练所述第一LoRA模型。
可选的,采用以下方式训练所述第二LoRA模型:获取第二训练集以及第二正则数据集,所述第二训练集包括多个服装图片及其服装特征信息,所述第二正则数据集包括所述多个服装图片对应的具有脸部信息的全身图片,所述多个服装图片对应同一服装;利用所述第二训练集以及所述第二正则数据集训练所述第二LoRA模型。
可选的,所述将所述输入内容输入至扩散模型包括:将所述姿态信息以及所述背景图片输入至ControlNet模型,所述ControlNet模型输出融合图片至所述扩散模型,所述融合图片通过融合所述姿态信息与所述背景图片得到。
可选的,所述输入内容包括需求信息,所述需求信息用于指示所述目标图片的质量。
可选的,所述人脸标识选自以下一种或多种:人脸标签和人脸特征信息;所述服装标识选自以下一种或多种:服装标签和服装特征信息。
第二方面,提供了一种图片生成装置,所述装置包括:获取模块,用于获取输入内容,所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片;生成模块,用于将所述输入内容输入至扩散模型,以生成目标图片,其中,所述扩散模型根据所述人脸标识调用其对应的第一LoRA模型生成所述目标图片中的人脸,所述扩散模型根据所述服装标识调用其对应的第二LoRA模型生成所述目标图片中的服装,所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器运行以执行第一方面或第二方面提供的任意一种方法。
第四方面,提供了一种计算设备,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机程序,其特征在于,处理器运行计算机程序以执行第二方面提供的任意一种方法。
第五方面,提供了一种计算机程序产品,其上存储有计算机程序,计算机程序被处理器运行以执行第一方面或第二方面提供的任意一种方法。
第六方面,本申请实施例还提供一种芯片(或者说数据传输装置),该芯片上存储有计算机程序,在计算机程序被芯片执行时,实现上述方法的步骤。
第七方面,本申请实施例还提供一种系统芯片,应用于终端中,所述芯片系统包括至少一个处理器和接口电路,所述接口电路和所述至少一个处理器通过线路互联,所述至少一个处理器用于执行指令,以执行第一方面或第二方面提供的任意一种方法。
与现有技术相比,本申请技术方案具有以下有益效果:
本申请技术方案中,获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。通过本申请技术方案,使得用户只需要通过上传图片以及相关信息就可以得到期望风格的写真图片,大大降低了用户的时间成本,提升了用户体验;此外,还提高风格化写真,例如婚纱照拍摄的效率,降低了成本。此外,利用扩散模型和LoRA模型来生成图片,能够在保证目标图片的质量的基础上提升图片生成的效率和灵活性。
进一步地,姿态信息包括姿态图片中的姿态关键点。通过提取姿态关键点来生成目标图片,能够保证目标图片中姿态与姿态图片中姿态的一致性,保证图片生成效果。
进一步地,第一正则数据集包括多个人脸图片对应的全身图片。通过第一正则数据集参与第一LoRA模型的训练,能够保证目标图片中各个部位的比例,避免肢体错位的情况,提升目标图片的质量。
进一步地,第二正则数据集包括多个服装图片对应的具有脸部信息的全身图片。通过第二正则数据集参与第二LoRA模型的训练,能够保证目标图片中脸部与身体的比例,避免头大身体小的情况,提升目标图片的质量。
附图说明
图1是本申请实施例提供的一种图片生成方法的流程图;
图2是本申请实施例提供的一种图片生成系统的示意图;
图3是本申请实施例提供的一种图片生成场景的示意图;
图4是本申请实施例提供的一种图片生成装置的结构示意图;
图5是本申请实施例提供的一种通信装置的硬件结构示意图。
具体实施方式
如背景技术中所述,为了得到效果足够令人的满意的照片,这一过程通常要耗费较长的时间与人工成本,并且时间与空间上的限制往往不能满足用户多场景拍摄的需求。传统的图像处理手段,例如PS合成也只能对经由传统拍摄手段得到的照片进行处理,在图片的多样性和创造性上的能力比较欠缺,并且经过PS合成处理的图片在细节上例如光线阴影往往会有生硬或者不自然的情况,人物姿态的多样性也较难满足。
申请人研究发现,与对抗生成模型(GAN)相比,扩散模型在图像生成方面的优势包括生成的图像质量更高,易于控制生成过程,生成的图像多样性更高,训练效率更高,更少受到不稳定因素的影响。其中,在控制生成方面,大型语言模型的低阶自适应(Low-RankAdaptation of Large Language Models,LoRA)模型和ControlNet模型这类轻量化模型的出现,也使得扩散模型更加具有应用性。
本申请正是基于上述技术背景给出了图片生成的解决方案。
本申请技术方案中,获取输入内容,输入内容包括人脸标识、服装标识、姿态信息以及背景图片;将输入内容输入至扩散模型,以生成目标图片,其中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装,目标图片还包括姿态信息中的姿态以及背景图片中的背景。通过本申请技术方案,使得用户只需要通过上传图片以及相关信息就可以得到期望风格的写真图片,大大降低了用户的时间成本,提升了用户体验;此外,还提高风格化写真,例如婚纱照拍摄的效率,降低了成本。此外,利用扩散模型和LoRA模型来生成图片,能够在保证目标图片的质量的基础上提升图片生成的效率和灵活性。
进一步地,第一正则数据集包括多个人脸图片对应的全身图片。通过第一正则数据集参与第一LoRA模型的训练,能够保证目标图片中各个部位的比例,避免肢体错位的情况,提升目标图片的质量。
进一步地,第二正则数据集包括多个服装图片对应的具有脸部信息的全身图片。通过第二正则数据集参与第二LoRA模型的训练,能够保证目标图片中脸部与身体的比例,避免头大身体小的情况,提升目标图片的质量。
为使本申请的上述目的、特征和优点能够更为明显易懂,下面结合附图对本申请的具体实施例做详细的说明。
参见图1,本申请提供的方法具体包括以下步骤:
步骤101:获取输入内容。
步骤102:将输入内容输入至扩散模型,以生成目标图片。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
可以理解的是,在具体实施中,所述图片生成方法可以采用软件程序的方式实现,该软件程序运行于芯片或芯片模组内部集成的处理器中。该方法也可以采用软件结合硬件的方式实现,本申请不作限制。
本实施例中,输入内容可以包括人脸标识、服装标识、姿态信息以及背景图片。
在一个具体实施例中,人脸标识可以是人脸标签(tag),例如张三。
在另一个具体实施例中,人脸标识可以是人脸特征信息,例如,樱桃嘴丹凤眼等。
在一个具体实施例中,服装标识可以是服装标签(tag),例如JK服。
在另一个具体实施例中,服装标识可以是服装特征信息,例如,衬衫和短裙。
在一个非限制性的实施例中,姿态信息可以是对姿态图片提取的姿态关键点。姿态图片则可以是用户上传的图片。
在一个非限制性的实施例中,背景图片可以是用户上传的图片。背景图片包括期望区域,期望区域表示用户期望出现在目标图片中的区域。相应地,目标图片包括该期望区域。具体地,期望区域可以由用户在背景图片中涂抹得到。
在一个非限制性的实施例中,一并参照图2,图2示出了一种图片生成系统。
本实施例中,用户可以通过终端设备10输入所述输入内容,例如上传背景图片、姿态图片以及全身图片。终端设备10将输入内容传输至服务器20。服务器20通过扩散模型生成目标图片。扩散模型具体可以是稳定扩散(Stable Diffusion,SD)模型。
本实施例中,每一人脸标识对应一个第一LoRA模型,每一服装标识对应一个第二LoRA模型。多个第一LoRA模型和多个第二LoRA模型可以存储于服务器20中。相应地,扩散模型也可以存储于服务器20中。
具体地,服务器20运行扩散模型,在运行过程中,扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸,扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装。此外,目标图片还包括姿态信息中的姿态以及背景图片中的背景。
本实施例中的第一LoRA模型和第二LoRA模型可以通过预先训练得到,训练完成的第一LoRA模型可以生成目标图片中的人脸,训练完成的第二LoRA模型可以生成目标图片中的服装。
在一个非限制性的实施例中,采用以下方式训练第一LoRA模型:
获取第一训练集以及第一正则数据集,第一训练集包括多个人脸图片及其人脸特征信息,第一正则数据集包括多个人脸图片对应的全身图片,多个人脸图片对应同一人脸;利用第一训练集以及第一正则数据集训练第一LoRA模型。
具体地,用户可以上传全身图片,以用于构建第一训练集以及第一正则数据集。利用用户的个人全身图片预处理裁剪出脸部区域,以得到人脸图片。
进一步地,第一训练集还可以包括人脸图片的特征信息以及标注。具体地,可以对人脸图片进行特征提取,以得到每一张人脸图片对应的包含脸部信息提示(prompts)的文件,进一步对每张人脸图片进行相同的人工标注(也即人脸图片的标签),并保存在其对应的文件中。原始的全身图片则作为第一正则数据集,与每张人脸图片进行对照。
更具体地,在构建第一训练集以及第一正则数据集之前,先对全身图片进行预处理。对全身图片的大小进行裁剪来构建正则数据集,不同全身图片的长度和宽度都要剪裁为固定的数值。例如,长度和宽度为64的倍数。第一正则数据集中的图片要尽可能保留人物全身的信息。并且,采用相同的长宽比例裁剪出人脸图片。在训练的过程中,第一正则数据集的作用是告诉第一LoRA模型训练的人脸元素应该出现在图片的哪个相对位置。
本实施例中,第一训练集以及第一正则数据集作为数据集来进行第一LoRA模型的训练,能够保证生成的目标图片既可以保留较高质量的脸部特征,也可以在目标图片的生成上呈现出准确的比例效果,不会出现肢体错位的情况。
在一个非限制性的实施例中,采用以下方式训练第二LoRA模型:
获取第二训练集以及第二正则数据集,第二训练集包括多个服装图片及其服装特征信息,第二正则数据集包括多个服装图片对应的具有脸部信息的全身图片,多个服装图片对应同一服装;利用第二训练集以及第二正则数据集训练第二LoRA模型。
与第一LoRA模型的训练过程相类似,具体地,用户可以上传服装图片,以用于构建第二训练集以及第二正则数据集。
进一步地,除了服装图片之外,第二训练集还可以包括服装图片的特征信息以及标注。具体地,可以对服装图片进行特征提取,以得到对应的提示(prompts)的文件,进一步对每张服装图片进行相同的人工标注(也即服装图片的标签),并保存在其对应的文件中。包含有脸部信息的服装图片则作为第二正则数据集。
更具体地,在构建第二训练集以及第二正则数据集之前,对服装图片进行预处理。对服装图片的大小进行裁剪来构建正则数据集,不同服装图片的长度和宽度都要剪裁为固定的数值。例如,长度和宽度为64的倍数。第二正则数据集中的图片要尽可能保留人脸和服装。并且,采用相同的长宽比例裁剪出服装图片。在训练的过程中,第二正则数据集的作用是告诉第一LoRA模型训练的服装元素应该出现在图片的哪个相对位置。
本实施例中,第一LoRA模型和第二LoRA模型,为扩散模型的一种插件,可以在不修改扩散模型的前提下,利用少量数据进行训练,实现定制化需求,提升图片生成效率。
具体地,通过将LoRA模型的参数注入扩散模型,从而改变扩散模型的生成风格。用数据公式表达如下,W=W0+BA。其中,W0是初始扩散模型的参数(Weights),BA为LoRA模型的参数,W代表被LORA模型影响后的最终扩散模型的参数。整个过程是一个简单的线性关系,初始扩散模型叠加LORA模型后,得到一个全新效果的模型。例如,第一LoRA模型和第二LoRA模型具体可以是Chilloutmix模型,其能够生成质量较高的三维人物。
在一个非限制性的实施例中,请参照图3,图3示出了一种目标图片生成的具体场景。具体地,图3示出的是服务器20内部的数据处理流程,在接收到来自终端设备10的输入内容后,对输入内容中不同的数据通过不同的模块分别进行处理。
本实施例中,输入内容还可以包括需求信息,需求信息用于指示所述目标图片的质量。
本实施例中,扩散模型可以通过人脸标识调用对应的第一LoRA模型,生成对应的人脸;以及通过服装标识调用对应的第二LoRA模型,生成对应的服装。
本实施例中,用户可以输入姿态图片。通过预处理模块202对姿态图片提取姿态关键点。通过预训练ControlNet模型204以及扩散模型201,在图像的生成采样过程中利用姿态关键点控制生成相同姿态的目标图片。控制过程的实现是通过将扩散模型201在稳定扩散过程中的编码器(encoder)复制训练,控制条件(也即姿态关键点)经由训练后的解码器编码后与原始解码器(decoder)输出进行跳跃连接(skip connection)完成,在与原始网络输入相加进入ControlNet模型204复制的编码器之前以及编码后与原始输出相加之前,控制条件都需要做一次零卷积(zero convolution),零卷积层的参数与复制来的编码器会被同时训练。
本实施例中,用户可以输入背景图片。其中,用户可以根据自己的需求在背景图片上大致涂抹出期望人物出现的位置,也即期望区域。经过处理后的背景图片作为ControlNet模型203的控制条件来进行图片填充。背景替换与提取动作姿态在目标图片的采样生成过程中是平行的,通过调整两个模块的权重实现加权控制目标图片的生成。
具体地,ControlNet模型203可以采用预训练好的openpose检测器模型和inpaint模型,通过对姿态图片中人物的姿态关键点在背景图片的期望区域进行填充,以得到具有姿态关键点的融合图片。
现有的扩散模型具有强大的生成能力,但是如果只通过文本提示词来得到用户期望的目标图片,不仅需要大量的提示词文本,并且在生成的目标图片为全身图的情况下,常常会出现面部扭曲、肢体缺失的情况。同时,图片的背景和图中人物的姿态很难通过文本提示来控制使其完全符合用户的需求。而本申请实施例从控制扩散模型201的采样生成入手,通过训练针对面部细节的第一LoRA模型、针对服装细节的第二LoRA模型和预训练ControlNet模型203共同实现对目标图片各个组成部分的加权控制,从而在充分发挥扩散模型201生成能力的同时保证各个部分的生成质量满足用户需求。
进一步地,输入内容还可以包括两组参数。其中,第一组参数包括第一权重和第二权重,分别控制第一LoRA模型和第二LoRA模型对目标图片的影响,第二组参数包括第三权重,控制ControlNet模型对目标图片的影响。上述模型对目标图片的影响可以是对应的内容在目标图片中的保留程度,例如第一权重影响人脸在目标图片中的保留程度,第二权重影响服装在目标图片中的保留程度,第三权重影响融合图片在目标图片中的保留程度。
关于本申请实施例的更多具体实现方式,请参照前述实施例,此处不再赘述。
请参照图4,图4示出了一种图片生成装置40,图片生成装置40可以包括:
获取模块401,用于获取输入内容,所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片;
生成模块402,用于将所述输入内容输入至扩散模型,以生成目标图片。
在具体实施中,上述图片生成装置40可以对应于计算设备中具有图片生成功能的芯片,例如SOC、基带芯片等;或者对应于计算设备中包括具有图片生成功能的芯片模组;或者对应于具有数据处理功能芯片的芯片模组,或者对应于计算设备,例如前述的服务器。
进一步地,图片生成装置40还包括:预处理模块,用于对所述姿态图片提取姿态关键点,以作为所述姿态信息。
关于图片生成装置40的其他相关描述可以参照前述实施例中的相关描述,此处不再赘述。
关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端设备的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端设备内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端设备内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
本申请实施例还公开了一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序运行时可以执行前述实施例中所示方法的步骤。所述存储介质可以包括只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁盘或光盘等。存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
请参照图5,本申请实施例还提供了一种通信装置的硬件结构示意图。该装置包括处理器501、存储器502和收发器503。
处理器501可以是一个通用中央处理器(central processing unit,CPU)、微处理器、特定应用集成电路(application-specific integrated circuit,ASIC),或者一个或多个用于控制本申请方案程序执行的集成电路。处理器501也可以包括多个CPU,并且处理器501可以是一个单核(single-CPU)处理器,也可以是多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。
存储器502可以是ROM或可存储静态信息和指令的其他类型的静态存储设备、RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,本申请实施例对此不作任何限制。存储器502可以是独立存在(此时,存储器502可以位于该装置外,也可以位于该装置内),也可以和处理器501集成在一起。其中,存储器502中可以包含计算机程序代码。处理器501用于执行存储器502中存储的计算机程序代码,从而实现本申请实施例提供的方法。
处理器501、存储器502和收发器503通过总线相连接。收发器503用于与其他设备或通信网络通信。可选的,收发器503可以包括发射机和接收机。收发器503中用于实现接收功能的器件可以视为接收机,接收机用于执行本申请实施例中的接收的步骤。收发器503中用于实现发送功能的器件可以视为发射机,发射机用于执行本申请实施例中的发送的步骤。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/“,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的部分步骤。
虽然本申请披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims (11)

1.一种图片生成方法,其特征在于,包括:
获取输入内容,所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片;
将所述输入内容输入至扩散模型,以生成目标图片,其中,所述扩散模型根据所述人脸标识调用其对应的第一LoRA模型生成所述目标图片中的人脸,所述扩散模型根据所述服装标识调用其对应的第二LoRA模型生成所述目标图片中的服装,所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景,其中,
所述第一LoRA模型和所述第二LoRA模型通过预先训练得到,训练完成的第一LoRA模型用于生成所述目标图片中的人脸,训练完成的第二LoRA模型用于生成所述目标图片中的服装。
2.根据权利要求1所述的图片生成方法,其特征在于,所述获取输入内容包括:
获取姿态图片;
对所述姿态图片提取姿态关键点,以作为所述姿态信息。
3.根据权利要求1所述的图片生成方法,其特征在于,所述背景图片包括期望区域,所述目标图片包括所述期望区域。
4.根据权利要求1所述的图片生成方法,其特征在于,采用以下方式训练所述第一LoRA模型:
获取第一训练集以及第一正则数据集,所述第一训练集包括多个人脸图片及其人脸特征信息,所述第一正则数据集包括所述多个人脸图片对应的全身图片,所述多个人脸图片对应同一人脸;
利用所述第一训练集以及所述第一正则数据集训练所述第一LoRA模型。
5.根据权利要求1所述的图片生成方法,其特征在于,采用以下方式训练所述第二LoRA模型:
获取第二训练集以及第二正则数据集,所述第二训练集包括多个服装图片及其服装特征信息,所述第二正则数据集包括所述多个服装图片对应的具有脸部信息的全身图片,所述多个服装图片对应同一服装;
利用所述第二训练集以及所述第二正则数据集训练所述第二LoRA模型。
6.根据权利要求1所述的图片生成方法,其特征在于,所述将所述输入内容输入至扩散模型包括:
将所述姿态信息以及所述背景图片输入至ControlNet模型,所述ControlNet模型输出融合图片至所述扩散模型,所述融合图片通过融合所述姿态信息与所述背景图片得到。
7.根据权利要求1所述的图片生成方法,其特征在于,所述输入内容包括需求信息,所述需求信息用于指示所述目标图片的质量。
8.根据权利要求1至7任一项所述的图片生成方法,其特征在于,所述人脸标识选自以下一种或多种:人脸标签和人脸特征信息;所述服装标识选自以下一种或多种:服装标签和服装特征信息。
9.一种图片生成装置,其特征在于,包括:
获取模块,用于获取输入内容,所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片;
生成模块,用于将所述输入内容输入至扩散模型,以生成目标图片,其中,所述扩散模型根据所述人脸标识调用其对应的第一LoRA模型生成所述目标图片中的人脸,所述扩散模型根据所述服装标识调用其对应的第二LoRA模型生成所述目标图片中的服装,所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景,其中,
所述第一LoRA模型和所述第二LoRA模型通过预先训练得到,训练完成的第一LoRA模型用于生成所述目标图片中的人脸,训练完成的第二LoRA模型用于生成所述目标图片中的服装。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至8中任一项所述图片生成方法的步骤。
11.一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述图片生成方法的步骤。
CN202310956306.3A 2023-07-31 2023-07-31 图片生成方法及装置、存储介质、计算设备 Active CN117036546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310956306.3A CN117036546B (zh) 2023-07-31 2023-07-31 图片生成方法及装置、存储介质、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310956306.3A CN117036546B (zh) 2023-07-31 2023-07-31 图片生成方法及装置、存储介质、计算设备

Publications (2)

Publication Number Publication Date
CN117036546A CN117036546A (zh) 2023-11-10
CN117036546B true CN117036546B (zh) 2024-05-03

Family

ID=88625527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310956306.3A Active CN117036546B (zh) 2023-07-31 2023-07-31 图片生成方法及装置、存储介质、计算设备

Country Status (1)

Country Link
CN (1) CN117036546B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117911630B (zh) * 2024-03-18 2024-05-14 之江实验室 一种三维人体建模的方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071472A (zh) * 2023-02-08 2023-05-05 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN116309992A (zh) * 2023-02-24 2023-06-23 北京全界科技有限公司 一种智能元宇宙直播人物生成方法、设备和存储介质
CN116385576A (zh) * 2023-03-02 2023-07-04 厦门美图之家科技有限公司 一种基于扩散模型的ai绘画图生成方法、装置以及设备
CN116416416A (zh) * 2023-03-31 2023-07-11 深圳数联天下智能科技有限公司 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071472A (zh) * 2023-02-08 2023-05-05 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN116309992A (zh) * 2023-02-24 2023-06-23 北京全界科技有限公司 一种智能元宇宙直播人物生成方法、设备和存储介质
CN116385576A (zh) * 2023-03-02 2023-07-04 厦门美图之家科技有限公司 一种基于扩散模型的ai绘画图生成方法、装置以及设备
CN116416416A (zh) * 2023-03-31 2023-07-11 深圳数联天下智能科技有限公司 虚拟试衣模型的训练方法、虚拟试衣方法及电子设备

Also Published As

Publication number Publication date
CN117036546A (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
WO2019201042A1 (zh) 图像对象识别方法和装置、存储介质及电子装置
CN117036546B (zh) 图片生成方法及装置、存储介质、计算设备
CN109993824B (zh) 图像处理方法、智能终端及具有存储功能的装置
CN107590811B (zh) 基于场景分割的风景图像处理方法、装置及计算设备
CN110148191A (zh) 视频虚拟表情生成方法、装置及计算机可读存储介质
CN110728319B (zh) 一种图像生成方法、装置以及计算机存储介质
WO2020205003A1 (en) Techniques to capture and edit dynamic depth images
CN114511041B (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
US20160086365A1 (en) Systems and methods for the conversion of images into personalized animations
CN109829963B (zh) 一种图像绘制方法及装置、计算设备和存储介质
WO2023246403A1 (zh) 模型的训练方法、水印复原方法及相关设备
CN117252791A (zh) 图像处理方法、装置、电子设备及存储介质
CN116112761B (zh) 生成虚拟形象视频的方法及装置、电子设备和存储介质
CN112511815B (zh) 图像或视频生成方法及装置
CN109636711B (zh) 漫画册生成方法、装置及计算机可读存储介质
CN115519792A (zh) 一种仿真人偶成型方法、系统、计算机设备及存储介质
CN110381374B (zh) 图像处理方法和装置
CN113793252A (zh) 图像处理方法、装置、芯片及其模组设备
CN110223367B (zh) 动画显示方法、装置、终端及存储介质
CN111738087A (zh) 一种游戏角色面部模型的生成方法和装置
CN113223128A (zh) 用于生成图像的方法和装置
KR102627659B1 (ko) 후면 영상정보 생성 장치 및 방법
CN116385829B (zh) 姿态描述信息生成方法、模型的训练方法和装置
CN117992992B (zh) 一种可扩展的卫星情报数据云平台安全存储方法及系统
CN112734901B (zh) 一种3d说明书生成方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant