CN117475037A - 一种基于指令链的多属性图像编辑方法、装置和电子设备 - Google Patents

一种基于指令链的多属性图像编辑方法、装置和电子设备 Download PDF

Info

Publication number
CN117475037A
CN117475037A CN202311705594.1A CN202311705594A CN117475037A CN 117475037 A CN117475037 A CN 117475037A CN 202311705594 A CN202311705594 A CN 202311705594A CN 117475037 A CN117475037 A CN 117475037A
Authority
CN
China
Prior art keywords
attribute
instruction
image
chain
edited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311705594.1A
Other languages
English (en)
Inventor
张振铎
刘广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiyuan Artificial Intelligence Research Institute
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202311705594.1A priority Critical patent/CN117475037A/zh
Publication of CN117475037A publication Critical patent/CN117475037A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于指令链的多属性图像编辑方法、装置和电子设备,属于人工智能技术领域。方法包括:构建有监督微调训练(Supervised Fine Tuning,SFT)数据集,SFT数据集包括多属性指令和对应的单属性指令链;利用SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。本发明的技术方案可以有效解决多属性指令的图像编辑问题,使得编辑后的图像与多属性指令有较高的一致性。

Description

一种基于指令链的多属性图像编辑方法、装置和电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于指令链的多属性图像编辑方法、装置和电子设备。
背景技术
目前在人脸编辑和通用图像编辑领域已经存在一些十分优秀的工作。例如基于CLIP,许多工作专注于利用CLIP嵌入来引导编辑过程(Avrahami、Lischinski和Fried,2022;Crowson等,2022;Kim、Kwon和Ye,2022;Kwon和Ye,2022;Patashnik等,2021;Bar-Tal等,2022)。最近,预训练的文本到图像扩散模型极大地促进了图像编辑领域的发展。通过使用交叉注意力控制,Prompt2Prompt(Hertz等,2023)可以通过修改原始提示中的单词来执行局部和全局编辑。Null Text Inversion(Mokady等,2023)优化了输入图像的反向扩散轨迹,并可通过Prompt2Prompt进行真实图像编辑。通过优化与输入图像对齐的文本嵌入,Imagic(Kawar等,2023)通过与目标描述进行插值来生成用于编辑的不同图像。ChatFace(Yue等,2023)通过结合大型语言模型的零样本推理能力,开发了一个交互式系统,可以在扩散语义潜空间中进行高效的操作。InstructPix2Pix(Brooks、Holynski和Efros,2023)利用经过微调的GPT-3生成的合成文本和Prompt2Prompt生成的图像,并以指令引导的方式编辑真实图像。MagicBrush(Zhang等,2023)进一步建立了一个大规模的、手动注释的数据集,用于指令引导的真实图像编辑,并对InstructPix2Pix进行了微调。
目前这些工作已经在图像单属性编辑上取得了巨大的成功,但是这些方案在图像多属性编辑上仍旧存在明显不足。比如对于如下的多属性编辑场景:输入包括一幅图像和一个多属性复杂指令如“帮我将这幅画变成一个绿色的背景,把小狗换成一只小猫”,该指令中包含了“背景变化”和“动物变化”两个属性变化,目前的技术方案无法有效理解并且处理这样的多属性复杂指令,导致编辑模型无法有效完成相关的编辑工作。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明一方面提供了一种基于指令链的多属性图像编辑方法,包括:
构建有监督微调训练SFT(Supervised Fine Tuning)数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
优选地,所述构建SFT数据集包括:
对各个属性分别设置多个指令模板,并基于各个指令模板生成对应的单属性指令;
根据多个单属性指令生成一个多属性指令和对应的单属性指令链;
生成的所有的多属性指令和对应的单属性指令链构成SFT数据集。
优选地,所述基于各个指令模板生成对应的单属性指令包括:调用OpenAI GPT4的API,采用的格式为:“Help me to rewrite the sentence:[input]”,其中“input”为指令模板。
优选地,所述根据多个单属性指令生成一个多属性指令和对应的单属性指令链包括:调用OpenAI GPT4的API,采用的格式为:“Help me to combine these instructionsinto one instruction:[intrsuction1,instruction2,...]”,其中“intrsuction1,instruction2,...”均为各个单属性指令。
优选地,所述利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调包括:
将所述SFT数据集中的多属性指令作为预训练的大语言模型的输入,将所述SFT数据集中的单属性指令链作为预训练的大语言模型的输出,对预训练的大语言模型进行训练。
优选地,所述利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链包括:设置指令分解提示模板,所述指令分解提示模板用于指导大语言模型进行多属性指令的分解以及指定单属性指令链的输出格式。
优选地,所述指令分解提示模板包括第一提示文本、第二提示文本和第三提示文本,所述第一提示文本用于提示训练好的大语言模型需要完成的多属性指令分解任务;所述第二提示文本用于为训练好的大语言模型提供具体的多属性指令分解案例,以及输入输出的内容和相应的格式;所述第三提示文本用于将待处理的多属性指令嵌入到指令分解提示模板中。
优选地,所述编辑模型为通过预先构建的训练数据进行微调得到的,所述训练数据采用如下方法进行构建:
获取原始图像的数据集;
利用图像描述生成器得到与原始图像对应的原始文本描述;
基于所述原始文本描述得到隐变量和对应的高斯噪声;
利用手写指令将所述原始文本描述转换为目标文本描述;
利用所述原始文本描述、隐变量和对应的高斯噪声、以及目标文本描述,生成初步的目标图像;
采用如下公式,利用每个原始图像的实例分割掩码,对非目标区域进行对齐校正,得到最终的目标图像:
Fout=Fin×(1-Imask)+Fp2p×Imask
其中,Fin为原始图像,Imask为目标区域对应的分割掩码,Fout为最终的目标图像,Fp2p为初步的目标图像;
将原始图像、最终的目标图像以及手写指令构成训练数据。
优选地,所述利用手写指令将所述原始文本描述转换为目标文本描述包括:利用在构建SFT数据集时针对属性设置的指令模板,通过大语言模型将所述原始文本描述转换为目标文本描述。
优选地,所述对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像包括:
利用编辑模型执行单属性指令的各个步骤中,首先将该步骤中待编辑的图像输入至超分辨率模型中,再将超分辨率模型输出的图像输入至编辑模型中,最后利用编辑模型执行单属性指令进行编辑。
本发明第二方面提供了一种基于指令链的多属性图像编辑装置,包括:
SFT数据集构建模块,用于构建SFT数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
大语言模型微调模块,用于利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
指令分解模块,用于利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
图像编辑模块,用于对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的基于指令链的多属性图像编辑方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的基于指令链的多属性图像编辑方法。
本发明的有益效果是:本发明提供的一种基于指令链的多属性图像编辑方法、装置和电子设备,通过利用LLM对多属性复杂指令进行分解处理,缓解了基于文本的图像编辑模型无法理解复杂指令的问题;通过对图像编辑模型进行微调,提升了图像编辑模型对于单属性编辑任务的可控性;利用一个简单的图像超分辨率模型对输入的图像数据进行超分辨处理,补全了输入图像的细节信息,提升了图像的连续可编辑能力。本发明提供的技术方案可以有效解决多属性指令的图像编辑问题,使得编辑后的图像与多属性指令有较高的一致性。
附图说明
图1为本发明所述基于指令链的多属性图像编辑方法的流程示意图;
图2为本发明所述指令分解提示模板的示例展示图;
图3为本发明所述构建训练数据的流程示意图;
图4为利用本发明所述的基于指令链的多属性图像编辑方法的具体示例实现过程的流程示意图;
图5为本发明所述基于指令链的多属性图像编辑装置的功能结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细地说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
本发明中涉及的术语解释如下:
多属性指令(Multi-Attribute Instruction):同时包含多个属性变化的指令,例如“帮我将这幅画变成一个绿色的背景,把小狗换成一只小猫”的指令中包含了背景变化和动物变化两个属性的编辑,可以认为该指令为“多属性指令”。
单属性指令(Single-Attribute Instruction):只包含一个属性变化的指令,例如“帮我把图中的小狗变成小猫”的指令中只包含了动物变化这一个属性的编辑,可以认为该指令为“单属性指令”。
SR:超分辨率模型,如ESRGAN等。
Editor:图像编辑器,如InstructPix2Pix等。
LLM:大语言模型,如LLama,ChatGPT等。
实施例一
如图1所示,本发明实施例提供了一种基于指令链的多属性图像编辑方法,包括:
S101,构建SFT数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
S102,利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
S103,利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
S104,对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
本发明的目的是解决多属性指令的图像编辑问题,使得图像的编辑模型可以有效理解并且准确执行输入的多属性指令,保证最终编辑结果与指令的一致性以及编辑过程的可控性。
为了实现上述目的,本发明中利用大语言模型(LLM)强大的语言理解能力,将一个多属性指令分解为由多个单属性指令组成的单属性指令链。然后通过使用图像的编辑模型逐步执行单属性指令链中的各个单属性指令,得到编辑好的图像。
本发明中,需要对预训练的大语言模型进行微调,得到训练好的大语言模型,利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链。其中,在SFT数据集中对预训练的大语言模型进行微调。本发明中首先构建SFT数据集,包括多属性指令和对应的单属性指令链。其中,构建SFT数据集可以采用如下步骤进行实施:
对各个属性分别设置多个指令模板,并基于各个指令模板生成对应的单属性指令;
根据多个单属性指令生成一个多属性指令和对应的单属性指令链;
生成的所有的多属性指令和对应的单属性指令链构成SFT数据集。
所述基于各个指令模板生成对应的单属性指令包括:调用OpenAI GPT4的API,采用的格式为:“Help me to rewrite the sentence:[input]”,其中“input”为指令模板。
所述根据多个单属性指令生成一个多属性指令和对应的单属性指令链包括:调用OpenAI GPT4的API,采用的格式为:“Help me to combine these instructions into oneinstruction:[intrsuction1,instruction2,...]”,其中“intrsuction1,instruction2,...”均为各个单属性指令。
具体的,本发明中利用OpenAI的GPT4构造了支持“头发、眼睛、皮肤、性别、年龄、动漫化、表情、胡须和眼镜”的多种属性组合的多个多属性指令,每个多属性指令中的属性数可以为2-6个,每类属性组合的指令数各500条。详细地构造方式说明如下:
步骤一,生成单属性指令:首先对于每个属性设置20个手写指令模板,比如“change the hair color to red”;然后调用OpenAI的GPT4API(ApplicationProgramming Interface,应用程序接口),格式是:“Help me to rewrite the sentence:[input]”,其中input是手写指令模板,生成单属性指令。比如对于手写指令模板“changethe hair color to red”调用OpenAI的GPT4 API,生成的单属性指令为“Alter the hairto red color”。
步骤二,将多个单属性指令合并为一个多属性指令,具体实现方式可以是调用GPT4接口,格式是:“Help me to combine these instructions into one instruction:[intrsuction1,instruction2,...]”,其中intrsuction1,instruction2,...表示多个单属性指令。比如,“intrsuction1”为“Make the person into a woman”,“instruction2”为“Make him wear glasses”,生成的多属性指令为“Turn the person to female and withglasses”,对应的单属性指令链为[“Make the person into awoman”,“Make him wearglasses”]。其中,单属性指令链由多个单属性指令组成,组成的规则是一条单属性指令链内的多个单属性指令不能编辑重复的属性,例如不可以同时出现类似“change the haircolor to red”和“make the man with black hair”这样两个同时对头发编辑的命令。
本发明中,生成的多属性指令和对应的单属性指令链示例可如下所示:
1.两种属性组合的多属性指令和对应的单属性指令链。
{'combine_instructions':['Transform the boy into a younger andfresher female version of themselves.','Turn the boy into a youthful andrejuvenated girl.',"Change the boy's gender and make the girl appear youngerand fresher."],'step_instructions':["Convert the boy's gender to female.",'Turn the girl into a younger and fresher version of herself.’]}。
2.三种属性组合的多属性指令和对应的单属性指令链。
{'combine_instructions':['Transform the boy into an older version ofhimself with maroon gray hair and olive skin.','Turn the boy into an elderwith maroon gray hair and olive skin.','Make the boy look older with maroongray hair and olive skin tone.'],'step_instructions':['Turn the boy into anelder version of his former self.',’change for a olive skin color for theboy.',"Turn the boy's hair into a maroon gray color."]}。
3.四种属性组合的多属性指令和对应的单属性指令链。
{'combine_instructions':['Give the individual an aged female withbrown skin tone and a smiling face.','Transform the person into a brown-skinned,older female with a beaming smile.','Turn the individual into asmiling,mature female with brown complexion.'],'step_instructions':['Give theindividual a female person.','Make the girl appear more aged.','Create abrown skin tone for the girl.','Make the girl's face light up with asmile.']}。
在本发明的一个实施例中,所述利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调可以包括:将所述SFT数据集中的多属性指令作为预训练的大语言模型的输入,将所述SFT数据集中的单属性指令链作为预训练的大语言模型的输出,对预训练的大语言模型进行训练。
在本发明的一个优选实施例中,所述利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链包括:设置指令分解提示模板,所述指令分解提示模板用于指导大语言模型进行多属性指令的分解以及指定单属性指令链的输出格式。
其中,所述指令分解提示模板包括第一提示文本、第二提示文本和第三提示文本,所述第一提示文本用于提示训练好的大语言模型需要完成的多属性指令分解任务;所述第二提示文本用于为训练好的大语言模型提供具体的多属性指令分解案例,以及输入输出的内容和相应的格式;所述第三提示文本用于将待处理的多属性指令嵌入到指令分解提示模板中。本发明提供的指令分解提示模板示例可如图2所示。图2中,第一段文本“Give you anexample of instruction decomposition”提示大语言模型需要完成指令分解工作;第二段文本“
输入:Turn the person to female and with glasses
输出:The instruction involve two attribute changes,
gender and glasses.Then decompose it.
The result is:
Step1,Make the person into a woman;
Step2,Make him wear glasses.”
提示了语言模型具体的指令分解案例,明确了分解的输入输出以及相应的格式;第三段文本“Decompose[Muti-Attribute Instruction]step by step according to theabove format:”是将要处理的多属性指令嵌入到指令分解提示模板中。
目前,现有的单属性指令的编辑模型存在可控性不足的问题,对某个属性的修改会造成其他属性的改变,从而造成编辑误差累计。为了解决这个问题,本发明提出了如下解决方案:首先构造高质量的训练数据,然后利用构造的训练数据对现有的编辑模型进行微调,最后利用微调后的编辑模型执行单属性指令进行图像编辑。其中,训练数据可以采用如下方法进行构建:
获取原始图像的数据集;
利用图像描述生成器得到与原始图像对应的原始文本描述;
基于所述原始文本描述得到隐变量和对应的高斯噪声;
利用手写指令将所述原始文本描述转换为目标文本描述;
利用所述原始文本描述、隐变量和对应的高斯噪声、以及目标文本描述,生成初步的目标图像;
采用如下公式,利用每个原始图像的实例分割掩码,对非目标区域进行对齐校正,得到最终的目标图像:
Fout=Fin×(1-Imask)+Fp2p×Imask
其中,Fin为原始图像,Imask为目标区域对应的分割掩码,Fout为最终的目标图像,Fp2p为初步的目标图像;
将原始图像、最终的目标图像以及手写指令构成训练数据。
具体地,训练数据的构建过程可以如图3所示。对图3中用到的外部模型和工具介绍如下:
BLIP2:模型和代码可参见github(一种面向开源及私有软件项目的托管平台,因为只支持git作为唯一的版本库格式进行托管,故名gitHub)仓库(https://github.com/huggingface/blog/blob/main/blip-2.md)。具体使用流程为输入一张图像,得到对这张图像的文本描述,即caption。
Prompt2Prompt:具体模型和代码见github仓库(https://github.com/google/prompt-to-prompt),可以通过修改原始提示中的单词来执行局部和全局编辑。
Inverse model:具体模型和方法可参见名称为“Null-text Inversion forEditing Real Images using Guided Diffusion Models”的论文,代码可参见github仓库(https://null-text-inversion.github.io/),给定一幅输入图像和文本描述,优化输入图像的反向扩散轨迹,得到这幅图像对应的高斯噪声(noise)和生成过程中的隐变量(latents)。
InstructPix2Pix:具体模型和代码见github仓库(https://github.com/timothybrooks/instruct-pix2pix),利用经过微调的GPT-3生成的合成文本和Prompt2Prompt生成的图像,并以指令引导的方式编辑真实图像。
图3中,训练数据构建的整体流程可以包括如下步骤:
第一步,给定一个输入图像,即input,首先利用图像描述生成器(Captioner)如BLIP2,获得输入图像的文本描述(caption)。如图3中所示输入图像,得到对应的文本描述:“a woman with red hair smiling at the carema”。
第二步,基于第一步得到的文本描述,利用Inverse model工作中的方法,获得基于这个文本描述的隐变量(latents)和对应的高斯噪声(noise)
第三步,利用在多属性指令分解SFT数据集构建过程中产生的手写指令,通过提示大语言模型(LLM)将第一步生成的文本描述转换为目标图像的文本描述(targetcaption):“a man with red hair smiling at the carema”。大语言模型具体输入是:“Give you the original caption[caption],and the edit instruction[Manualinstruction],generate the target caption”。其中,“[caption]”中的caption是第一步生成的对原始图像的文本描述:“a woman with red hair smiling at the carema”;[Manual instruction]中的Manual instruction是手写指令:“change the woman toman”;“target caption”为“a man with red hair smiling at the camera”。
第四步,利用第一步生成的文本描述(caption),第二步生成的隐变量(latents)和对应的高斯噪声(noise),第三步生成的目标图像的文本描述(target caption),借助Prompt2Prompt的方案,生成初步的目标图像。
第五步,采用如下公式,利用每个原始图像的实例分割掩码(mask),对非目标区域进行对齐校正(mask refine):
Fout=Fin×(1-Imask)+Fp2p×Imask,,
其中,Fin为原始图像,Imask为目标区域对应的分割掩码,Fout为最终的目标图像即output,Fp2p为初步的目标图像。
通过这样的方式,可以得到输入图像(Input)、输出图像(Output)以及手写指令(Manual Instruction),构成一个训练样本。在本发明的实施例中,共构建了包括18w个训练样本的训练数据,支持头发、眼睛、皮肤、性别、年龄、动漫化、表情、胡须和眼镜九种属性的常见指令,具体分布见下表:
本发明中,可利用生成的训练数据对现有的编辑模型进行微调(finetune),具体流程和详细介绍可参考InstructPix2Pix(https://arxiv.org/pdf/1905.09998.pdf)。
由于图像可编辑性会随着编辑次数的增加而衰减,导致编辑模型无法对一幅图像进行多次修改。本发明中引入一个图像的超分辨率模型(如ESRGAN)的方式进行缓解该问题。其中,ESRGAN中输入一幅低分辨率图像,可以输出一张高分辨率图像,在设置中,分辨率提升的倍数可以为4,ESRGAN的模型和代码可见github仓库:https://github.com/xinntao/ESRGAN。
具体来说,如图4所示,在连续编辑过程中,在图像被输入到编辑模型之前,通过增加一个超分辨率模型的方式,进行图像细节信息的补充,减少图像在连续编辑过程中的细节信息损失,保持图像的可编辑性,避免编辑过程和指令不一致,以及输出低质量图像,出现坍塌、伪影等现象。
在本发明的一个实施例中,所述对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像包括:
利用编辑模型执行单属性指令的各个步骤中,首先将该步骤中待编辑的图像输入至超分辨率模型中,再将超分辨率模型输出的图像输入至编辑模型中,最后利用编辑模型执行单属性指令进行编辑。
如图4所示,本发明的一个完整的实施例包括:
输入一张待编辑的人脸图像和一个多属性编辑指令即“Alter the girl to haveblack hair,pink skin,and be in a Disney cartoon art style.”。多属性编辑指令被注入到图2描述的指令分解提示模板中,得到大语言模型的输入:
Give you an example of instruction decomposition
输入:Turn the person to female and with glasses
输出:The instruction involve two attribute changes,
gender and glasses.Then decompose it.
The result is:
Step1,Make the person into a woman;
Step2,Make him wear glasses.”
Decompose[Alter the girl to have black hair,pink skin,and be in aDisney cartoon art style.]step by step according to the above format。
通过大语言模型的处理,得到输出的指令分解结果[Turn the hair color toblack,Alter the skin color to pink,Make her Disney cartoon style]。在得到一系列单属性编辑指令后,按照指令分解链从左到右的顺序,依次调用图像编辑模型(Editor)执行所有的单属性指令,注意人脸图像在进入图像编辑模型之前需要利用超分辨率模型(SR)进行超分辨处理,最后输出的结果为多属性编辑指令的编辑结果。
本发明提供的基于指令链的多属性图像编辑方法相比于现有技术具有如下的有益效果:本发明提供的技术方案可以有效解决多属性指令的图像编辑问题,使得编辑后的图像与多属性指令有较高的一致性。本发明提供的方案主要是从如下三个方面实现了该效果:1、通过利用LLM强大的指令分解能力对多属性复杂指令进行分解处理,缓解了基于文本的图像编辑模型无法理解复杂指令的问题;2、通过构造高质量的图像编辑训练数据对已有的图像编辑模型进行微调,提升了已有的图像编辑模型对于单属性编辑任务的可控性;3、利用一个简单的图像超分辨率模型对输入的图像数据进行超分辨处理,补全了输入图像的细节信息,提升了图像的连续可编辑能力。另外,本发明提供的技术方案还可利用已有的模型加速技术,提升大语言模型指令分解的速度以及图像编辑模型单步编辑的速度,提升技术方案的整体速率;还可以探索多属性指令分解之后单属性指令链的组合顺序,以及探究何种组合逻辑可以使得最后的编辑效果最好。
实施例二
如图5所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了基于指令链的多属性图像编辑装置,包括:
SFT数据集构建模块501,用于构建SFT数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
大语言模型微调模块502,用于利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
指令分解模块503,用于利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
图像编辑模块504,用于对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
该装置可通过上述实施例一提供的基于指令链的多属性图像编辑方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的基于指令链的多属性图像编辑方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的基于指令链的多属性图像编辑方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种基于指令链的多属性图像编辑方法,其特征在于,包括:
构建SFT数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
2.如权利要求1所述的基于指令链的多属性图像编辑方法,其特征在于,所述构建SFT数据集包括:
对各个属性分别设置多个指令模板,并基于各个指令模板生成对应的单属性指令;
根据多个单属性指令生成一个多属性指令和对应的单属性指令链;
生成的所有的多属性指令和对应的单属性指令链构成SFT数据集。
3.如权利要求2所述的基于指令链的多属性图像编辑方法,其特征在于,所述基于各个指令模板生成对应的单属性指令包括:调用OpenAI GPT4的API,采用的格式为:“Help meto rewrite the sentence:[input]”,其中“input”为指令模板。
4.如权利要求2所述的基于指令链的多属性图像编辑方法,其特征在于,所述根据多个单属性指令生成一个多属性指令和对应的单属性指令链包括:调用OpenAI GPT4的API,采用的格式为:“Help me to combine these instructions into one instruction:[intrsuction1,instruction2,...]”,其中“intrsuction1,instruction2,...”均为各个单属性指令。
5.如权利要求1所述的基于指令链的多属性图像编辑方法,其特征在于,所述利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调包括:
将所述SFT数据集中的多属性指令作为预训练的大语言模型的输入,将所述SFT数据集中的单属性指令链作为预训练的大语言模型的输出,对预训练的大语言模型进行训练。
6.如权利要求1所述的基于指令链的多属性图像编辑方法,其特征在于,所述利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链包括:设置指令分解提示模板,所述指令分解提示模板用于指导大语言模型进行多属性指令的分解以及指定单属性指令链的输出格式。
7.如权利要求6所述的基于指令链的多属性图像编辑方法,其特征在于,所述指令分解提示模板包括第一提示文本、第二提示文本和第三提示文本,所述第一提示文本用于提示训练好的大语言模型需要完成的多属性指令分解任务;所述第二提示文本用于为训练好的大语言模型提供具体的多属性指令分解案例,以及输入输出的内容和相应的格式;所述第三提示文本用于将待处理的多属性指令嵌入到指令分解提示模板中。
8.如权利要求1所述的基于指令链的多属性图像编辑方法,其特征在于,所述编辑模型为通过预先构建的训练数据进行微调得到的,所述训练数据采用如下方法进行构建:
获取原始图像的数据集;
利用图像描述生成器得到与原始图像对应的原始文本描述;
基于所述原始文本描述得到隐变量和对应的高斯噪声;
利用手写指令将所述原始文本描述转换为目标文本描述;
利用所述原始文本描述、隐变量和对应的高斯噪声、以及目标文本描述,生成初步的目标图像;
采用如下公式,利用每个原始图像的实例分割掩码,对非目标区域进行对齐校正,得到最终的目标图像:
Fout=Fin×(1-Imask)+Fp2p×Imask
其中,Fin为原始图像,Imask为目标区域对应的分割掩码,Fout为最终的目标图像,Fp2p为初步的目标图像;
将原始图像、最终的目标图像以及手写指令构成训练数据。
9.如权利要求8所述的基于指令链的多属性图像编辑方法,其特征在于,所述利用手写指令将所述原始文本描述转换为目标文本描述包括:利用在构建SFT数据集时针对属性设置的指令模板,通过大语言模型将所述原始文本描述转换为目标文本描述。
10.如权利要求1所述的基于指令链的多属性图像编辑方法,其特征在于,所述对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像包括:
利用编辑模型执行单属性指令的各个步骤中,首先将该步骤中待编辑的图像输入至超分辨率模型中,再将超分辨率模型输出的图像输入至编辑模型中,最后利用编辑模型执行单属性指令进行编辑。
11.一种基于指令链的多属性图像编辑装置,其特征在于,包括:
SFT数据集构建模块,用于构建SFT数据集,所述SFT数据集包括多属性指令和对应的单属性指令链;
大语言模型微调模块,用于利用所述SFT数据集中的多属性指令和对应的单属性指令链对预训练的大语言模型进行微调,得到训练好的大语言模型;
指令分解模块,用于利用训练好的大语言模型将一个待编辑的多属性指令分解为待编辑的单属性指令链;
图像编辑模块,用于对待编辑的图像,利用编辑模型逐步执行待编辑的单属性指令链中的各个单属性指令,得到编辑好的图像。
12.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-10任一项所述的基于指令链的多属性图像编辑方法。
13.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-10任一项所述的基于指令链的多属性图像编辑方法。
CN202311705594.1A 2023-12-13 2023-12-13 一种基于指令链的多属性图像编辑方法、装置和电子设备 Pending CN117475037A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311705594.1A CN117475037A (zh) 2023-12-13 2023-12-13 一种基于指令链的多属性图像编辑方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311705594.1A CN117475037A (zh) 2023-12-13 2023-12-13 一种基于指令链的多属性图像编辑方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117475037A true CN117475037A (zh) 2024-01-30

Family

ID=89633176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311705594.1A Pending CN117475037A (zh) 2023-12-13 2023-12-13 一种基于指令链的多属性图像编辑方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117475037A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246435A (zh) * 2008-02-25 2008-08-20 北京理工大学 一种支持高级语言部分语句功能的处理器指令集
CN106328144A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种基于电话网络的远程语音控制系统
US20220036127A1 (en) * 2020-07-30 2022-02-03 Adobe Inc. Semantic image manipulation using visual-semantic joint embeddings
CN114880441A (zh) * 2022-07-06 2022-08-09 北京百度网讯科技有限公司 视觉内容生成方法、装置、系统、设备和介质
CN115705845A (zh) * 2021-08-16 2023-02-17 深圳市神州云海智能科技有限公司 指令流的生成方法、装置及电子设备
CN116168119A (zh) * 2023-02-28 2023-05-26 北京百度网讯科技有限公司 图像编辑方法、装置、电子设备、存储介质及程序产品
WO2023185785A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 一种图像处理方法、模型训练方法及相关装置
CN116910561A (zh) * 2023-07-31 2023-10-20 阿里巴巴(中国)有限公司 数据集构建的方法和服务器
CN117094419A (zh) * 2023-10-16 2023-11-21 华南理工大学 面向多模态内容输出的大语言模型训练方法、装置及介质
CN117216570A (zh) * 2023-09-27 2023-12-12 清华大学 领域模型训练、指令执行方法、一体机和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246435A (zh) * 2008-02-25 2008-08-20 北京理工大学 一种支持高级语言部分语句功能的处理器指令集
CN106328144A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种基于电话网络的远程语音控制系统
US20220036127A1 (en) * 2020-07-30 2022-02-03 Adobe Inc. Semantic image manipulation using visual-semantic joint embeddings
CN115705845A (zh) * 2021-08-16 2023-02-17 深圳市神州云海智能科技有限公司 指令流的生成方法、装置及电子设备
WO2023185785A1 (zh) * 2022-03-28 2023-10-05 华为技术有限公司 一种图像处理方法、模型训练方法及相关装置
CN114880441A (zh) * 2022-07-06 2022-08-09 北京百度网讯科技有限公司 视觉内容生成方法、装置、系统、设备和介质
CN116168119A (zh) * 2023-02-28 2023-05-26 北京百度网讯科技有限公司 图像编辑方法、装置、电子设备、存储介质及程序产品
CN116910561A (zh) * 2023-07-31 2023-10-20 阿里巴巴(中国)有限公司 数据集构建的方法和服务器
CN117216570A (zh) * 2023-09-27 2023-12-12 清华大学 领域模型训练、指令执行方法、一体机和存储介质
CN117094419A (zh) * 2023-10-16 2023-11-21 华南理工大学 面向多模态内容输出的大语言模型训练方法、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵铁军等: "自然语言处理研究综述", 新疆师范大学学报(哲学社会科学版), 4 August 2023 (2023-08-04) *

Similar Documents

Publication Publication Date Title
Stevens et al. Deep learning with PyTorch
US20220121876A1 (en) Non-linear latent filter techniques for image editing
Gu et al. A systematic survey of prompt engineering on vision-language foundation models
Price et al. NaturalJava: A natural language interface for programming in Java
US11354792B2 (en) System and methods for modeling creation workflows
Nemuraite et al. VETIS tool for editing and transforming SBVR business vocabularies and business rules into UML&OCL models
Cao et al. Image captioning with bidirectional semantic attention-based guiding of long short-term memory
CN115796299A (zh) 经由机器学习语言模型的链的透明且可控的人智交互
DE102022102912A1 (de) Pipelines für effizientes training und einsatz von modellen für maschinelles lernen
KR20220017068A (ko) 인공지능 콘텐츠 자동 생성 및 변형 방법
CN112116104A (zh) 自动集成机器学习的方法、装置、介质及电子设备
Wu et al. IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers
Huang et al. Recent advances in artificial intelligence for video production system
Antiga et al. Deep learning with PyTorch
CN117475037A (zh) 一种基于指令链的多属性图像编辑方法、装置和电子设备
Foo et al. Aigc for various data modalities: A survey
Fill et al. Visualization in the era of artificial intelligence: Experiments for creating structural visualizations by prompting large language models
Zakraoui et al. Generating Images from Arabic story-text using scene graph
Zhang Generative AI has lowered the barriers to computational social sciences
CN117857892B (zh) 基于人工智能的数据处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质
US20240153259A1 (en) Single image concept encoder for personalization using a pretrained diffusion model
US20240135611A1 (en) Neural compositing by embedding generative technologies into non-destructive document editing workflows
US20220405583A1 (en) Score-based generative modeling in latent space
US20230360310A1 (en) Procedural media generation
US20230360294A1 (en) Unsupervised style and color cues for transformer-based image generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination