CN117576257A - 一种通过文本编辑人脸图像方法、终端及存储介质 - Google Patents

一种通过文本编辑人脸图像方法、终端及存储介质 Download PDF

Info

Publication number
CN117576257A
CN117576257A CN202311454177.4A CN202311454177A CN117576257A CN 117576257 A CN117576257 A CN 117576257A CN 202311454177 A CN202311454177 A CN 202311454177A CN 117576257 A CN117576257 A CN 117576257A
Authority
CN
China
Prior art keywords
text
data set
editing
image
descriptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311454177.4A
Other languages
English (en)
Inventor
李欣蒈
邱国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202311454177.4A priority Critical patent/CN117576257A/zh
Publication of CN117576257A publication Critical patent/CN117576257A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种通过文本编辑人脸图像方法、终端及存储介质,方法包括:获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集;本发明提出新的通过自然语言文本编辑人脸图像的方法,解决现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限的问题,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。

Description

一种通过文本编辑人脸图像方法、终端及存储介质
技术领域
本发明涉及文本引导的图像编辑技术领域,尤其涉及的是一种通过文本编辑人脸图像方法、终端及存储介质。
背景技术
长期以来,基于语义对真实照片进行编辑一直是图像处理领域的一项热门任务。而随着近年基于深度学习的技术取得了长足的进步,这项任务更是引起了研究者广泛的关注。通过简单的自然语言文本提示来描述使用者所需的编辑内容,这样的图像编辑方式尤为吸引人,因为这非常符合人类的交流方式。
图像生成与图像编辑是两个关系紧密的计算机视觉任务,其中图像生成是指通过深度学习算法,模型经过大量训练后,基于学习到的数据分布生成所需的图像,而图像编辑则通常使用与图像生成相同的神经网络模型,通过调整训练时的目标或其他技术手段,使得模型的任务改变为对现有的图像进行修改。目前主流的图像生成及编辑模型有生成对抗网络(Generative Adversial Network)和扩散模型(Diffusion Model)等等。生成对抗网络是由Goodfellow提出的通过对抗过程估计生成模型的框架,它包括两个主要部分,一个生成器(Generator)网络和一个判别器(Discriminator)网络。生成器网络试图生成新的图像,而判别器则尝试区分生成的图像与真实图像。通过交替训练生成器和判别器,可以完成图像的生成与编辑任务。扩散模型是一种基于马尔科夫链的图像生成方法,不断将噪声加入到图像中,希望通过神经网络学习上述过程的逆向过程,即从纯噪声图像中逐渐对图像进行去噪的过程。而稳定扩散模型(Stable Diffusion Model)对扩散模型进行了改进,首先用一个变分自动编码器(Variational Auto-encoder)网络将图像压缩至较低维度的隐变量空间,在该空间进行图像的加噪与去噪,从而提高了图像生成的速度。为了结合文本的语义信息对图像生成内容进行更精细的引导,引入对比语言-图像预培训(ContrastiveLanguage-Image Pretraining,CLIP)模型,将文本提示编码后注入扩散模型中,从而实现了文本引导的图像生成。
常见的人脸图像编辑方法有使用图像编辑软件,如PhotoShop等,要求使用者掌握专业的图像编辑技术,在理解修改意图的前提下,选用软件适当的编辑功能对人脸图像进行修改。该技术的缺点在于学习成本较高,对未接触过类似技术的用户体验不友好。另外,与深度学习相关的技术则主要为生成对抗网络(Generative Adversial Network),其实现方法通常为在生成对抗网络的隐变量空间中进行属性解耦,以获得表征人脸某种语义属性的隐变量嵌入,再通过插值和混合等操作来实现对该属性的编辑和控制。该技术的缺点在于往往做不到属性间的完全解耦,从而导致编辑效果不可预知,对隐变量的微小调整可能导致图像大幅度地变化,而且可编辑的属性数量也受限于训练数据和开发者的预定义。此外,无论是使用图像编辑软件修改人脸图像还是通过操作隐变量间接地调整人脸属性,都不如直接使用自然语言描述编辑内容来得方便直观。
因此,现有技术还有待改进。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种通过文本编辑人脸图像方法、终端及存储介质,以解决现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限的问题。
本发明解决技术问题所采用的技术方案如下:
第一方面,本发明提供一种通过文本编辑人脸图像方法,包括:
获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;
获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;
根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集。
在一种实现方式中,所述根据所述输入图像数据集生成第一描述文本数据集,包括:
通过预训练生成多模态图文交互模型;
通过所述多模态图文交互模型获取所述输入图像数据集,并提取所述输入图像数据集对应的描述信息;
根据所述输入图像数据集对应描述信息生成所述第一描述文本数据集。
在一种实现方式中,所述通过所述多模态图文交互模型获取所述输入图像数据集,并提取所述输入图像数据集对应的描述信息,包括:
通过所述多模态图文交互模型获取所述输入图像数据集,并对提取到的描述信息进行词元化以及文本编码处理,得到所述描述信息对应的第一注意力图。
在一种实现方式中,所述获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集,包括:
获取所述编辑指令,并根据第一描述文本以及所述编辑指令生成对应的第二描述文本;
将所述第一描述文本、所述编辑指令和所述第二描述文本组成三元文本对,并生成第一描述文本-编辑指令-第二描述文本形式的三元文本对数据集。
在一种实现方式中,所述获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集,包括:
获取所述编辑指令,根据所述编辑指令对所述第一描述文本数据集对应的所述第一注意力图进行编辑;
通过在所述第一注意力图中加入新的注意力图和/或替换对应位置的注意力图,得到编辑后的第二注意力图;
根据所述第二注意力图生成对应的所述第二描述文本数据集。
在一种实现方式中,所述根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集,包括:
通过预训练后的图像生成模型对所述输入图像数据集进行去噪;
根据所述输入图像数据集以及所述编辑指令重建编辑后图像的隐变量嵌入所需的噪声;
根据去噪后的结果生成与所述第二描述文本数据集匹配的所述输出图像数据集。
在一种实现方式中,所述根据所述输入图像数据集以及所述编辑指令重建编辑后图像的隐变量嵌入所需的噪声,包括:
通过编码器编码得到隐变量特征,并通过前向扩散过程向隐变量中加入噪声,得到与时间步长相关的带噪隐变量;
根据所述输入图像数据集以及所述编辑指令,通过神经网络模型预测向所述隐变量中加入的噪声,并重建编辑后图像的隐变量嵌入所需的噪声。
在一种实现方式中,所述根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集,还包括:
将所述输入图像数据集、所述编辑指令和所述输出图像数据集组成三元组多模态数据集,并生成输入图像-编辑指令-输出图像形式的三元文本对数据集。
第二方面,本发明还提供一种终端,包括:处理器以及存储器,所述存储器存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被所述处理器执行时用于实现如第一方面所述的通过文本编辑人脸图像方法的操作。
第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被处理器执行时用于实现如第一方面所述的通过文本编辑人脸图像方法的操作。
本发明采用上述技术方案具有以下效果:
本发明通过获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集;本发明提出新的通过自然语言文本编辑人脸图像的方法,解决现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限、编辑效果不可预知的问题,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明的一种实现方式中通过文本编辑人脸图像方法的流程图。
图2是本发明的一种实现方式中人脸图像编辑效果图。
图3是本发明的一种实现方式中生成编辑图像时对图像的注意力图进行交叉注意力控制的示意图。
图4是本发明的一种实现方式中图像生成模型整体的训练框架以及损失函数示意图。
图5是本发明的一种实现方式中终端的功能原理图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
本发明提供一种通过文本编辑人脸图像方法、终端及存储介质。为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
示例性方法
常见的人脸图像编辑方法有使用图像编辑软件,如PhotoShop等,要求使用者掌握专业的图像编辑技术,在理解修改意图的前提下,选用软件适当的编辑功能对人脸图像进行修改。该技术的缺点在于学习成本较高,对未接触过类似技术的用户体验不友好。另外,与深度学习相关的技术则主要为生成对抗网络(Generative Adversial Network),其实现方法通常为在生成对抗网络的隐变量空间中进行属性解耦,以获得表征人脸某种语义属性的隐变量嵌入,再通过插值和混合等操作来实现对该属性的编辑和控制。该技术的缺点在于往往做不到属性间的完全解耦,从而导致编辑效果不可预知,对隐变量的微小调整可能导致图像大幅度地变化,而且可编辑的属性数量也受限于训练数据和开发者的预定义。此外,无论是使用图像编辑软件修改人脸图像还是通过操作隐变量间接地调整人脸属性,都不如直接使用自然语言描述编辑内容来得方便直观。本发明提供一种通过自然语言文本编辑人脸图像的方法,解决现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限、编辑效果不可预知的问题,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。
针对上述技术问题,本发明实施例提供一种通过文本编辑人脸图像方法,目的是提出新的通过自然语言文本编辑人脸图像的方法,对多种人脸属性的编辑,但不改变图像中的人物身份,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。
本发明所提供的通过自然语言文本编辑人脸图像的方法包括:1、一种通过大语言模型生成成对文本(包括对原图像的描述、编辑指令以及对编辑后图像的描述的三元文本对)数据集的方法;2、一种通过图像生成模型,由成对文本引导生成具有对应的编辑效果的图像的方法;3、一种训练图像生成模型的方法,使其能够根据编辑指令对输入图像做出对应的修改。
如图1所示,本发明实施例提供一种通过文本编辑人脸图像方法,包括以下步骤:
步骤S100,获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集。
在本实施例中,所述通过文本编辑人脸图像方法应用于终端中,所述终端包括但不限于:计算机以及移动终端等设备;所述终端设置有通过文本编辑人脸图像模型的训练迁移平台。
在本实施例中,提出了通过自然语言文本编辑人脸图像的方法,通过自然语言的便利性,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果,降低了人脸图像编辑技术的应用门槛;本实施例中,提出了一种借助大规模语言模型和图像生成模型获取合成的配对多模态数据集方法,在大模型训练下游任务时遇到支持对应任务的数据集缺乏或是数据有限的问题时,提供一种获得相应数据的可行方案。
在本实施例中,提供一种通过大语言模型生成成对文本(包括对原图像的描述、编辑指令以及对编辑后图像的描述的三元描述文本对)数据集的方法。所述输入图像数据集为一个具有丰富人脸类型的基础数据集,所述第一描述文本数据集为所述输入图像数据集中提取到的描述文本信息。使用一个预训练的多模态图文交互模型获取数据集中每张图像里对应人脸的描述信息,作为文本数据集中的对原图像的描述文本部分。
具体地,在本实施例的一种实现方式中,步骤S100包括以下步骤:
步骤S101,通过预训练生成多模态图文交互模型;
步骤S102,通过所述多模态图文交互模型获取所述输入图像数据集,并提取所述输入图像数据集对应的描述信息。
步骤S103,根据所述输入图像数据集对应描述信息生成所述第一描述文本数据集。
在本实施例中,确定一个具有丰富人脸类型的基础数据集后,使用一个预训练的多模态图文交互模型获取数据集中每张图像里对应人脸的描述信息,作为文本数据集中的对原图像的描述文本部分。所述输入图像数据集为一个具有丰富人脸类型的基础数据集。所述第一描述文本数据集为对输入图像数据集的文本描述信息。
具体地,在本实施例的一种实现方式中,步骤S102包括以下步骤:
步骤S102a,通过所述多模态图文交互模型获取所述输入图像数据集,并对提取到的描述信息进行词元化以及文本编码处理,得到所述描述信息对应的第一注意力图。
在本实施例中,在现有图像生成模型的文本生成图像和图像生成图像管道的基础之上,本发明提出一种符合编辑指令内容的图像对的方法。首先对于对原图像的描述文本,使用图像生成模型的文本生成图像管道,生成对应的原图像。其次,使用Prompt-to-Prompt方法获得编辑后图像,对原图像的描述文本进行词元化、文本编码后,即可得到该文本中每个单词的注意力图。
在本实施例中,通过获取人脸图片中的每张图像里对应人脸的描述信息,作为文本数据集中的对原图像的描述文本部分,方便后续对人脸图像通过自然语言文本进行编辑,实现对多种人脸属性的编辑,但不改变图像中的人物身份。
如图1所示,在本发明实施例的一种实现方式中,通过文本编辑人脸图像方法还包括以下步骤:
步骤S200,获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集。
在本实施例中,提取人脸图像的文本描述信息后,需要确定编辑指令,然后选取上述对原图像的描述文本中的一部分,对实施例中所包含的编辑指令类型人工编写其对应的编辑指令以及对编辑后图像的描述文本。所述第一描述文本数据集为对原人脸图像对应的描述文本,所述第二描述文本数据集为编辑后人脸图像对应的描述文本。
具体地,在本实施例的一种实现方式中,步骤S200包括以下步骤:
步骤S201,获取所述编辑指令,并根据第一描述文本以及所述编辑指令生成对应的第二描述文本;
步骤S202,将所述第一描述文本、所述编辑指令和所述第二描述文本组成三元文本对,并生成第一描述文本-编辑指令-第二描述文本形式的三元文本对数据集。
在本实施例中,确定编辑指令,然后选取上述对原图像的描述文本中的一部分,对本发明中所包含的编辑指令类型人工编写其对应的编辑指令以及对编辑后图像的描述文本,令对原图像的描述-编辑指令-对编辑后图像的描述,所述的三元文本对组成一个小型的示例数据集。最后是生成整体文本数据集,使用一个大规模语言模型,令其根据第二步中编写的示例数据集,随机挑选编辑类型,并应用到数据集中的每个对原图像的描述文本上,再生成对应的对编辑后图像的描述文本。
对于表情的编辑指令,本发明中对所述文本数据集中的每一条文本描述的英语范式如下:
Input=“A face portrait of a[age][race][pronoun][other description]”
Edit=“Make him/her[expression]”
Input=“A face portrait of a[expression][age][race][pronoun][otherdescription]”
其中,年龄、人种为可选项,添加的目的在于增加数据集的多样性,表情为必选项,由语言模型随机添加,代词为符合原始图像描述的任意人称,如女性可以为female、girl、woman、lady,等等。其余的编辑指令类型也保持类似的范式。至此,就完成了对原图像的描述-编辑指令-对编辑后图像的描述的三元文本对数据集的生成。
具体地,在本实施例的一种实现方式中,步骤S201包括以下步骤:
步骤S201a,获取所述编辑指令,根据所述编辑指令对所述第一描述文本数据集对应的所述第一注意力图进行编辑。
步骤S201b,通过在所述第一注意力图中加入新的注意力图和/或替换对应位置的注意力图,得到编辑后的第二注意力图;
步骤S201c,根据所述第二注意力图生成对应的所述第二描述文本数据集。
如图3所示,在本实施例中,所述第一注意力图为输入的原人脸图像对应的描述文本进行词元化、文本编码后,得到的该文本中每个单词的注意力图,所述第二注意力图为经过编辑后,在所述第一注意力图中加入新的注意力图和/或替换对应位置的注意力图。
具体地,对于本实施例中的添加单词操作,如编辑表情,则在对应的位置加入新的注意力图;对于本实施例中的替换单词操作,如编辑年龄,则直接替换对应位置的注意力图即可。重复上述步骤,即可获得匹配的原图像-编辑指令-编辑后图像三元组多模态数据集,作为后续模型训练的训练数据集。
在本实施例中,通过编辑指令对人脸图像进行修改,可以实现对多种人脸属性的编辑,但不改变图像中的人物身份。如图2所示,通过对表情、年龄、发型、发色以及其他属性进行文本编辑,利用自然语言的便利性,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果,降低了人脸图像编辑技术的应用门槛。
如图1所示,在本发明实施例的一种实现方式中,通过文本编辑人脸图像方法还包括以下步骤:
步骤S300,根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集。
在本实施例中,提供一种训练图像生成模型的方法,使其能够根据编辑指令对输入图像做出对应的修改。使用上述多模态数据集对图像生成模型(稳定扩散模型)进行训练。本实施例中,同时以编辑指令的文本和原图像为条件,引导模型预测从加入噪声后的编辑后图像的隐变量嵌入中重建编辑后图像的隐变量嵌入所需的噪声。所述输出图像数据集为进行文本编辑后得到的人脸图像数据集。
具体地,在本实施例的一种实现方式中,步骤S300包括以下步骤:
步骤S301,通过预训练后的图像生成模型对所述输入图像数据集进行去噪;
步骤S302,根据所述输入图像数据集以及所述编辑指令重建编辑后图像的隐变量嵌入所需的噪声;
步骤S303,根据去噪后的结果生成与所述第二描述文本数据集匹配的所述输出图像数据集。
在本实施例中,原始的稳定扩散模型只使用原图像与对原图像的描述文本,二者配对的数据集进行训练,在训练过程中,以对原图像的描述文本作为条件,引导模型能够预测从随机噪声图像的隐变量嵌入中重建原图像的隐变量嵌入所需的噪声,使得训练完成后,模型能够根据输入文本,从随机噪声不断去噪从而生成与该文本匹配的图像,即原图像。而本实施例的任务与此相比略有差异,因此本实施例采用另外一种训练方式,即同时以编辑指令的文本和原图像为条件,引导模型预测从加入噪声后的编辑后图像的隐变量嵌入中重建编辑后图像的隐变量嵌入所需的噪声。在进行推理时,模型能够根据编辑指令和输入图像,从随机噪声不断去噪从而生成由输入图像根据编辑指令进行编辑后的输出图像。
具体地,在本实施例的一种实现方式中,步骤S302包括以下步骤:
步骤S302a,通过编码器编码得到隐变量特征,并通过前向扩散过程向隐变量中加入噪声,得到与时间步长相关的带噪隐变量。
步骤S302b,根据所述输入图像数据集以及所述编辑指令,通过神经网络模型预测向所述隐变量中加入的噪声,并重建编辑后图像的隐变量嵌入所需的噪声。
在本实施例中,模型的整体训练框架如图4所示,对于给定的编辑后图像x,经过VAE编码器编码得到隐变量特征z0,前向扩散过程向隐变量中加入噪声,得到与时间步长t∈[0,T]相关的带噪隐变量zt,神经网络∈θ,即图中的UNet,在给定图像条件□(cI)=z′0,文本指令条件cT的情况下,学习预测向隐变量中加入的噪声。
具体地,在本发明实施例的一种实现方式中,通过文本编辑人脸图像方法还包括以下步骤:
步骤S400,将所述输入图像数据集、所述编辑指令和所述输出图像数据集组成三元组多模态数据集,并生成输入图像-编辑指令-输出图像形式的三元文本对数据集。
在本实施例中,提出了一种借助大规模语言模型和图像生成模型获取合成的配对多模态数据集方法,在大模型训练下游任务时遇到支持对应任务的数据集缺乏或是数据有限的问题时,提供一种获得相应数据的可行方案。
具体地,将输入图像数据集、编辑指令和输出图像数据集组成三元组多模态数据集,即可获得匹配的原图像-编辑指令-编辑后图像三元组多模态数据集,作为后续模型训练的训练数据集。
本实施例通过上述技术方案达到以下技术效果:
本实施例通过获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集;从而实现通过自然语言文本编辑人脸图像,解决了现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限、编辑效果不可预知的问题,提高了人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。并且,本实施例提出了一种通过自然语言文本编辑人脸图像的方法,通过自然语言的便利性,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果,降低了人脸图像编辑技术的应用门槛;本实施例提出了一种借助大规模语言模型和图像生成模型获取合成的配对多模态数据集方法,在大模型训练下游任务时遇到支持对应任务的数据集缺乏或是数据有限的问题时,提供一种获得相应数据的可行方案。
示例性设备
基于上述实施例,本发明还提供一种终端,包括:通过系统总线连接的处理器、存储器、接口、显示屏以及通讯模块;其中,所述处理器用于提供计算和控制能力;所述存储器包括存储介质以及内存储器;所述存储介质存储有操作系统和计算机程序;所述内存储器为所述存储介质中的操作系统和计算机程序的运行提供环境;所述接口用于连接外部设备,例如,移动终端以及计算机等设备;所述显示屏用于显示相应的信息;所述通讯模块用于与云端服务器或移动终端进行通讯。
所述计算机程序被所述处理器执行时用以实现一种通过文本编辑人脸图像方法的操作。
本领域技术人员可以理解的是,图5中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种终端,其中,包括:处理器和存储器,所述存储器存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被所述处理器执行时用于实现如上所述的通过文本编辑人脸图像方法的操作。
在一个实施例中,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被所述处理器执行时用于实现如上所述的通过文本编辑人脸图像方法的操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
综上,本发明提供了一种通过文本编辑人脸图像方法、终端及存储介质,方法包括:获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集;本发明提出新的通过自然语言文本编辑人脸图像的方法,解决现有基于生成对抗网络的人脸图像编辑技术中可编辑属性受限的问题,提高人脸图像编辑的便捷性和用户体验,产生符合用户个性化需求的人脸图像编辑效果。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
具体地,获取数据集时,采用的大规模语言模型、图像生成模型的模型可替换,获取编辑图像的技术可替换。整体框架中的具体网络设计可替换。

Claims (10)

1.一种通过文本编辑人脸图像方法,其特征在于,包括:
获取输入图像数据集,并根据所述输入图像数据集生成第一描述文本数据集;
获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集;
根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集。
2.根据权利要求1所述的通过文本编辑人脸图像方法,其特征在于,所述根据所述输入图像数据集生成第一描述文本数据集,包括:
通过预训练生成多模态图文交互模型;
通过所述多模态图文交互模型获取所述输入图像数据集,并提取所述输入图像数据集对应的描述信息;
根据所述输入图像数据集对应描述信息生成所述第一描述文本数据集。
3.根据权利要求2所述的通过文本编辑人脸图像方法,其特征在于,所述通过所述多模态图文交互模型获取所述输入图像数据集,并提取所述输入图像数据集对应的描述信息,包括:
通过所述多模态图文交互模型获取所述输入图像数据集,并对提取到的描述信息进行词元化以及文本编码处理,得到所述描述信息对应的第一注意力图。
4.根据权利要求1所述的通过文本编辑人脸图像方法,其特征在于,所述获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集,包括:
获取所述编辑指令,并根据第一描述文本以及所述编辑指令生成对应的第二描述文本;
将所述第一描述文本、所述编辑指令和所述第二描述文本组成三元文本对,并生成第一描述文本-编辑指令-第二描述文本形式的三元文本对数据集。
5.根据权利要求3所述的通过文本编辑人脸图像方法,其特征在于,所述获取编辑指令,根据所述编辑指令对所述第一描述文本数据集进行处理,得到所述第一描述文本数据集对应的第二描述文本数据集,包括:
获取所述编辑指令,根据所述编辑指令对所述第一描述文本数据集对应的所述第一注意力图进行编辑;
通过在所述第一注意力图中加入新的注意力图和/或替换对应位置的注意力图,得到编辑后的第二注意力图;
根据所述第二注意力图生成对应的所述第二描述文本数据集。
6.根据权利要求1所述的通过文本编辑人脸图像方法,其特征在于,所述根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集,包括:
通过预训练后的图像生成模型对所述输入图像数据集进行去噪;
根据所述输入图像数据集以及所述编辑指令重建编辑后图像的隐变量嵌入所需的噪声;
根据去噪后的结果生成与所述第二描述文本数据集匹配的所述输出图像数据集。
7.根据权利要求6所述的通过文本编辑人脸图像方法,其特征在于,所述根据所述输入图像数据集以及所述编辑指令重建编辑后图像的隐变量嵌入所需的噪声,包括:
通过编码器编码得到隐变量特征,并通过前向扩散过程向隐变量中加入噪声,得到与时间步长相关的带噪隐变量;
根据所述输入图像数据集以及所述编辑指令,通过神经网络模型预测向所述隐变量中加入的噪声,并重建编辑后图像的隐变量嵌入所需的噪声。
8.根据权利要求1所述的通过文本编辑人脸图像方法,其特征在于,所述根据所述第二描述文本数据集对所述输入图像数据集进行去噪,生成与所述第二描述文本数据集匹配的输出图像数据集,还包括:
将所述输入图像数据集、所述编辑指令和所述输出图像数据集组成三元组多模态数据集,并生成输入图像-编辑指令-输出图像形式的三元文本对数据集。
9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的通过文本编辑人脸图像方法的操作。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有通过文本编辑人脸图像程序,所述通过文本编辑人脸图像程序被处理器执行时用于实现如权利要求1-8中任意一项所述的通过文本编辑人脸图像方法的操作。
CN202311454177.4A 2023-11-02 2023-11-02 一种通过文本编辑人脸图像方法、终端及存储介质 Pending CN117576257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311454177.4A CN117576257A (zh) 2023-11-02 2023-11-02 一种通过文本编辑人脸图像方法、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311454177.4A CN117576257A (zh) 2023-11-02 2023-11-02 一种通过文本编辑人脸图像方法、终端及存储介质

Publications (1)

Publication Number Publication Date
CN117576257A true CN117576257A (zh) 2024-02-20

Family

ID=89859760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311454177.4A Pending CN117576257A (zh) 2023-11-02 2023-11-02 一种通过文本编辑人脸图像方法、终端及存储介质

Country Status (1)

Country Link
CN (1) CN117576257A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135062A (zh) * 2024-05-10 2024-06-04 粤港澳大湾区数字经济研究院(福田) 一种图像编辑方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118135062A (zh) * 2024-05-10 2024-06-04 粤港澳大湾区数字经济研究院(福田) 一种图像编辑方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111260754B (zh) 人脸图像编辑方法、装置和存储介质
US11995409B2 (en) Content generation using target content derived modeling and unsupervised language modeling
US11568168B2 (en) Generating synthetic photo-realistic images
CN107609092A (zh) 智能应答方法和装置
CN117576257A (zh) 一种通过文本编辑人脸图像方法、终端及存储介质
CN106471572B (zh) 一种同步语音及虚拟动作的方法、系统及机器人
KR102656497B1 (ko) 멀티미디어 메시징 애플리케이션의 수정 가능한 비디오들에서의 텍스트 메시지들의 맞춤화
CN113536007A (zh) 一种虚拟形象生成方法、装置、设备以及存储介质
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN117173497B (zh) 一种图像生成方法、装置、电子设备及存储介质
Cho et al. Towards enhanced controllability of diffusion models
CN117786154A (zh) 图像生成方法、系统、装置及存储介质
Xiao et al. TypeDance: Creating semantic typographic logos from image through personalized generation
US9607573B2 (en) Avatar motion modification
Cui et al. Chatedit: Towards multi-turn interactive facial image editing via dialogue
Abbattista et al. SAMIR: A Smart 3D Assistant on the Web.
Huang et al. CreativeSynth: Creative blending and synthesis of visual arts based on multimodal diffusion
US20220405583A1 (en) Score-based generative modeling in latent space
CN116630147B (zh) 一种基于强化学习的人脸图像编辑方法
CN116363737B (zh) 一种人脸图像属性编辑方法、系统、电子设备及存储介质
US20240193839A1 (en) Automatically generating a custom artificially intelligent (ai) character based on a user-provided description of the ai character
CN117475037A (zh) 一种基于指令链的多属性图像编辑方法、装置和电子设备
CN117788275A (zh) 元宇宙ugc摄影作品ai风格化实现方法
CN117391923A (zh) 基于生成式ai技术的交互式漫画生成系统、生成方法及存储介质
Guo et al. Enhancing accuracy, diversity, and random input compatibility in face attribute manipulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination