CN118135062A

CN118135062A - 一种图像编辑方法、装置、设备及存储介质

Info

Publication number: CN118135062A
Application number: CN202410573616.1A
Authority: CN
Inventors: 岳东旭; 刘云飞; 李昱; 周昌印; 余飞; 幺宝刚
Original assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Current assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-06-04
Anticipated expiration: 2044-05-10
Also published as: CN118135062B

Abstract

本申请公开了一种图像编辑方法、装置、设备及存储介质，所述方法包括接收用户输入的待编辑图像、参考人脸图像和描述信息；获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。本申请实施例通过以人脸嵌入向量作为条件来将人脸嵌入向量作为身份信息，然后将身份信息引入图像编辑模型，能准确地捕捉输入参考人脸图像中细致的人脸特征，提升了生成的定制化人物肖像的身份保真度。

Description

一种图像编辑方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像编辑方法、装置、设备及存储介质。

背景技术

图像编辑一直是计算机视觉领域的热门方向，图像编辑可通过文本生成图像（text to image）扩散模型实现，文本生成图像扩散模型在内容真实性和多样性上取得了不错的效果。但是，由于文本信息很难通过文本给出定制化图像内容的细节信息，例如，人物身份特征信息等，这就使得在文本生成图像扩散模型仅能在待编辑图像中生成具有简单类别和属性的物体，而对于具有复杂细节信息（例如，定制人物等）时，会存在真实度低的问题。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种图像编辑方法、装置、设备及存储介质。

为了解决上述技术问题，本申请第一方面提供了一种图像编辑方法，其中，所述的图像编辑方法具体包括：

接收用户输入的待编辑图像、参考人脸图像和描述信息；

获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；

根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。

所述的图像编辑方法，其中，所述的获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量，具体包括：

将所述描述信息输入预设的文本编码器，通过所述文本编码器输出所述描述信息对应的描述嵌入向量；

将所述参考人脸图像输入预设的图像编码器，通过所述图像编码器输出图像特征向量，并将所述图像特征向量输入线性映射层，通过所述线性映射层将所述图像特征向量映射为人脸嵌入向量。

所述的图像编辑方法，其中，所述图像编辑模型包括人物建模模块和描述去噪模块，所述的根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像，具体包括：

利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图；

利用所述人物建模模块，基于所述人脸嵌入向量和所述空间注意力图确定图像注意力图，并基于所述图像注意力图和所述描述注意力图确定所述待编辑图像对应的编辑后图像。

所述的图像编辑方法，其中，所述的基利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图，具体包括：

利用所述描述去噪模块中的空间自注意力机制，确定所述待编辑图像对应的带噪隐码的空间注意力图；

利用所述描述去噪模块中的描述互注意力机制，基于所述空间注意力图和所述描述嵌入向量确定所述带噪隐码的描述注意力图。

所述的图像编辑方法，其中，所述利用所述描述去噪模块中的描述互注意力机制，基于所述空间注意力图和所述描述嵌入向量确定所述带噪隐码的描述注意力图，具体包括：

基于所述描述嵌入向量构建描述值特征和描述键特征，并基于所述空间注意力图构建描述查询特征；

基于所述描述查询特征、所述描述值特征和所述描述键特征，利用所述描述去噪模块中的描述互注意力机制确定所述带噪隐码的描述注意力图。

所述的图像编辑方法，其中，所述利用所述人物建模模块，基于所述人脸嵌入向量和所述空间注意力图确定图像注意力图，具体包括：

利用所述人物建模模块中的肖像自注意力机制，基于所述空间注意力图确定肖像注意力图；

利用所述人物建模模块中的图像互注意力机制，基于所述肖像注意力图、所述空间注意力图以及所述人脸嵌入向量，确定所述待编辑图像对应的带噪隐码的图像注意力图。

所述的图像编辑方法，其中，所述利用所述人物建模模块中的图像互注意力机制，基于所述肖像注意力图、所述空间注意力图以及所述人脸嵌入向量，确定所述待编辑图像对应的带噪隐码对应的图像注意力图，具体包括：

利用所述人物建模模块将所述空间注意力和所述肖像注意力图进行融合，得到中间注意力图；

基于所述人脸嵌入向量构建图值特征和图键特征，并基于所述中间注意力图构建图查询特征；

基于所述图查询特征、所述图值特征和所述图键特征，利用所述人物建模模块中的图像互注意力机制确定所述待编辑图像对应的带噪隐码的图像注意力图。

所述的图像编辑方法，其中，所述利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图之前，所述方法还包括：

对所述待编辑图像进行扩散处理，以得到所述待编辑图像对应的带噪隐码。

所述的图像编辑方法，其中，所述基于所述图像注意力图和所述描述注意力图确定所述待编辑图像对应的编辑后图像，具体包括：

基于所述图像注意力图和所述描述注意力图确定去噪特征图；

对所述去噪特征图进行解码，得到所述待编辑图像对应的编辑后图像。

所述的图像编辑方法，其中，所述方法还包括：

接收所述待编辑图像对应的编辑区域信息，并基于所述编辑区域信息生成位置掩码，其中，所述位置掩码用于反映所述待编辑图像中的待编辑区域；

基于所述位置掩码以及所述待编辑图像更新所述待编辑图像。

本申请第二方面提供了一种图像编辑装置，其中，所述的图像编辑装置具体包括：

接收模块，用于接收用户输入的待编辑图像、参考人脸图像和描述信息；

获取模块，用于获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；

执行模块，用于根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的图像编辑方法中的步骤。

本申请第四方面提供了一种终端设备，其包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上任一所述的图像编辑方法中的步骤。

有益效果：

（1）、通过以人脸嵌入向量作为条件，可以将人脸嵌入向量作为身份信息，然后将身份信息引入图像编辑模型，能准确地捕捉输入参考人脸图像中细致的人脸特征，提升了生成的定制化人物的人物身份保真度。

（2）、通过将人脸嵌入向量和描述嵌入向量并行作为条件，一方面实现了身份信息与描述信息的解耦，有效改善身份信息互注意力泄露的问题；另一方面在保证身份信息一致的前提下更好的对肖像外表进行控制。

（3）、通过引入肖像注意力来增加对待编辑图像中已知信息的感知能力，从而可以更好的进行人与人之间的交互。

（4）、通过将人像建模模块作为一个即插即用，这样可以将人像建模模块插入预训练的文生图扩散模型内，并通过直接通过插入人像建模模块的预训练的文生图扩散模型来进行图像编辑，实现了在不需要额外训练情况下的零样本推理。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的图像编辑方法的流程图。

图2为本申请实施例提供的图像编辑方法的一个实现方式的原理流程图。

图3为预设的图像编辑模型的训练过程的原理流程图。

图4为本申请实施例提供的图像编辑装置的结构原理图。

图5为本申请实施例提供的终端设备的结构原理图。

具体实施方式

本申请实施例提供一种图像编辑方法、装置、设备及存储介质，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经过研究发现，图像编辑一直是计算机视觉领域的热门方向，图像编辑可通过文本生成图像（text to image）扩散模型实现，文本生成图像扩散模型在内容真实性和多样性上取得了不错的效果。但是，由于文本信息很难通过文本给出定制化图像内容的细节信息，例如，人物身份特征信息等，这就使得在文本生成图像扩散模型仅能在待编辑图像中生成具有简单类别和属性的物体，而对于具有复杂细节信息（例如，定制人物等）时，会存在真实度低的问题。

为此，有研究采用将示例图像中的图像主体插入到待编辑图像中的指定区域的方式来进行图像编辑，例如，Paint-by-Example提出一种基于扩散模型的局部图像编辑方法，该方法通过用图像条件替换原始扩散模型的文本条件实现基于示例的图像编辑。AnyDoor采用了一个旨在保持纹理细节但允许多样化局部变化的细节提取器，能够较为真实地将参考人脸图像中的主要物体生成在待编辑图像的指定区域；Unipaint通过对每张参考人脸图像进行测试时间微调。其中，Paint-by-Example和AnyDoor所采用的方法都是通过将稳定扩散模型的文本编码器替换为图像编码器来实现基于示例图像的编辑，其能编码参考人脸图像的粗略信息，而无法处理人物身份这样细节的信息。Unipaint的方法需要将每张参考人脸图像和待编辑的图像一起进行长达数分钟的微调来使模型拟合到参考人脸图像的信息，其需要大量的计算资源和时间消耗，难以在实际生产环境中使用。

为了解决上述问题，在本申请实施例中，接收用户输入的待编辑图像、参考人脸图像和描述信息；获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。本申请实施例通过以人脸嵌入向量作为条件，将人脸嵌入向量作为身份信息，然后将身份信息引入图像编辑模型，能准确地捕捉输入参考人脸图像中细致的人脸特征，提升了生成的定制化人物的人物身份保真度。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种图像编辑方法，所述图像编辑方法可以由任何具有数据处理能力的电子设备执行。例如，该电子设备可实施为终端设备或服务器。该终端设备可以是台式终端或移动终端，该移动终端具体可以是手机、平板电脑、笔记本电脑、车载终端等中的任意一种便携式设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供有云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务，以及大数据服务的人工智能平台或云服务器。

如图1和图2所示，本实施例提供的图像编辑方法具体包括：

S10、接收用户输入的待编辑图像、参考人脸图像和描述信息。

具体地，待编辑图像可以为拍摄的图像或者下载的图像等，参考人脸图像和描述信息用于作为待编辑图像对应的条件信息，其中，参考人脸图像用于确定待编辑图像中生成的定制化人物肖像的身份信息；描述信息用于确定待编辑图像中生成的定制化人物肖像的人物外表的信息，根据参考人脸图像和描述信息对待编辑图像进行编辑，以使得在待编辑图像中生成与参考人脸图像具有相同身份，且具有符合描述信息的人物外表的人物肖像。

描述信息可以是针对人物穿着、配饰、发型、人物姿态等人物外表的描述，相应的，描述信息可以为文本形式的描述，语音形式的描述或其他形式的描述。例如，描述信息为一位戴着彩虹围巾的女士，或者是，描述信息为双手环抱在胸前等，姿态描述信息也可以包含人体姿态关键点序列、身体骨骼图等用以描述姿态的信息，其中人体姿态关键点序列可以是通过控制网络（ControlNet）确定的。

需要说明的是，在对待编辑图像进行定制化编辑时，可以在待编辑图像的指定区域生成定制化肖像。也就是说，在获取到待编辑图像后，可以先获取待编辑图像对应的待编辑区域，然后在该待编辑区域生成与参考人脸图像具有相同身份，且具有符合描述信息的人物外表的人物肖像。基于此，在一个具体实现方式中，所述方法还包括：

接收所述待编辑图像对应的编辑区域信息，并基于所述编辑区域信息生成位置掩码；

具体地，所述编辑区域信息用于反映待编辑图像中的待编辑区域，待编辑区域可以为待编辑图像中的任意区域，这样可以用户可以通过设置编辑区域信息来在待编辑图像中的任意区域生成人物肖像，例如，将待编辑图像的整个图像区域作为待编辑区域，或者是，将待编辑图像的左半区域作为待编辑区域，或者是，将待编辑图像的右半区域作为待编辑区域等。其中，编辑区域信息可以是用户直接输入的，也可以是根据用户在编辑图像中执行的选取操作所确定的。

位置掩码用于反映待编辑图像中的待编辑区域，也就是说，根据所述位置掩码可以确定待编辑图像中用于生成人物肖像的图像区域。其中，所述位置掩码的图像尺寸可以与待编辑图像的图像尺寸相同，并且在位置掩码中，将待编辑区域对应的掩码区域中的各像素点的像素值均设置为1，非掩码区域中的各像素点的像素值均设置为0。当然，在实际应用中，也可以将掩码区域中的各像素点的像素值均设置为0，非掩码区域中的各像素点的像素值均设置为1，或者是，采用其他两个不同像素值来区分掩码区域和非掩码区域，这里不做具体限制，仅以掩码区域中的各像素点的像素值均设置为1，非掩码区域中的各像素点的像素值均设置为0为例进行后续说明。

进一步，在获取到位置掩码后，将位置掩码与待编辑图像按照通道拼接以更新待编辑图像；或者是，先在待编辑图像中选取掩码区域对应的待编辑区域，然后将待编辑区域的像素值设置为1以更新待编辑图像；或者是，先在待编辑图像中选取掩码区域对应的待编辑区域，然后将待编辑区域的像素值设置为1，再与位置掩码按照通道拼接以更新待编辑图像等。在本申请实施例中，基于所述位置掩码以及所述待编辑图像更新所述待编辑图像的过程为先在待编辑图像中选取掩码区域对应的待编辑区域，然后将待编辑区域的像素值设置为1，再与位置掩码按照通道拼接以更新待编辑图像。

S20、获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量。

具体地，参考人脸图像包括目标人像，描述信息包括外表信息，也就是说，需要在待编辑图像的待编辑区域中生成身份信息与参考人脸图像中的目标人像相同，外表符合描述信息的人物肖像。由此，在获取到参考人脸图像和描述信息后，可以对参考人脸图像中的目标人像进行特征提取，并对描述信息进行特征提取，以便基于目标人像的特征向量和描述信息的特征向量对待编辑图像进行编辑，以实现图像编辑。

在一个实现方式中，所述的获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量具体包括：

具体地，文本编码器和图像编码器可以为对比语言图像预训练（ContrastiveLanguage-Image Pre-training，CLIP）视觉模型中的文本编码器和图像编码器，或者是其他具有视觉提取能力的模型中的文本编码器或者图像编码器等，这里不做具体限制。通过文本编码器对描述信息进行编码来得到描述嵌入向量，通过图像编码器对参考人脸图像进行编码以得到图像特征向量。

线性映射层用于将图像特征向量映射为人脸嵌入向量，线性映射层可以为多层感知机（MLP），或者是其他具有关键点提取能力的模型。此外，人脸嵌入向量包括参考人脸图像中的人脸图像的人脸关键点，并将人脸嵌入向量中的各人脸关键点作为身份标记，来控制编辑后图像中形成的定制化人像与目标人像的身份一致性。

举例说明：假设文本编码器和图像编码器为CLIP中的文本编码器和图像编码器，线性映射层为MLP，那么描述嵌入向量和人脸嵌入向量的获取过程可以表示为：

；

其中，表示人脸嵌入向量，表示描述嵌入向量，表示线性映射层，表示CLIP图像编码器，表示CLIP文本编码器，表示参考人脸图像，表示描述信息。

S30、根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。

具体地，预设的图像编辑模型用于基于人脸嵌入向量和描述嵌入向量对待编辑图像对应的带噪隐码进行去噪处理，使得图像编辑模型以人脸嵌入向量和所述描述嵌入向量为条件，对待编辑图像对应的带噪隐码进行去噪处理并生成待编辑图像对应的编辑后图像，其中，编辑后图像在待编辑区域对应的图像区域生成与参考人脸图像具有相同身份，且具有符合描述信息的人物外表的人物肖像。

示例性的，图像编辑模型可以通过在预训练的文生图扩散模型中引入人物建模模块来实现，也可以直接采用条件稳定扩散模型等。在本申请实施例中，图像编辑模型采用在预训练的文生图扩散模型引入人物建模模块的方式实现，也就是说，在预训练的文生图扩散模型中插入人物建模模块，不但可以将用于作为身份信息的人脸嵌入向量引入文生图扩散模型，还可以将用于作为身份信息的人脸嵌入向量和用于作为文本信息的描述嵌入向量解耦，这样既可以产生身份一致性高的人物肖像，又可以有效改善身份信息互注意力泄露的问题。同时，本申请实施例通过采用在预训练的文生图扩散模型引入人物建模模块的方式来形成图像编辑模型，可以直接利用图像编辑模型对待编辑图像对应的带噪隐码进行去噪出来，而无需再对图像编辑图像进行训练，实现了在不需要额外训练的情况下实现零样本推理。

当然，在实际应用中，为了提高图像编辑效果，在获取到图像编辑模型后，还可以对图像编辑模型进行微调，其中，在对图像编辑模型进行微调的过程中，基于参考人脸图像对应人脸嵌入向量、描述信息TX对应的文本嵌入向量、待编辑图像对应的带噪隐码、位置掩码、基于位置掩码确定的非编辑区域掩码和待编辑图像来对图像编辑模型进行微调。其中，基于位置掩码确定的非编辑区域掩码可以通过将全1矩阵与位置掩码做差得到的，即非编辑区域掩码，表示全1矩阵，表示位置掩码，并且在对图像编辑模型进行训练时，可以先将非编辑区域掩码和待编辑图像进行像素乘法来得到中间图像，然后将带噪隐码、位置掩码和中间图像按照通道拼接。

在对图像编辑模型进行微调时，可以采用支持图像和文本数据混合训练的损失函数，通过该损失函数来有效利用基于参考人脸图像确定的用于反映身份信息的人脸嵌入向量，和基于描述信息TX确定的用于反映人物外表的表征的文本嵌入向量。其中，损失函数可以表示为：

；

其中，表示符合高斯分布，表示随机采样的高斯噪声，表示时间步t所符合均匀分布，表示图像编辑模型，表示位置掩码，表示非编辑区域掩码，表示编辑后图像，表示点乘，中间图像；表示参考人脸图像对应的人脸嵌入向量，表示描述信息对应的描述嵌入向量，表示带噪隐码。

同时，如图3所示，在训练时可以先从[0,1000]的范围采样出一个当前时间步t，然后确定，最后通过损失函数来对图像编辑模型进行反向学习，以使得图像编辑模型能够让带噪隐码通过多步去噪逐渐生成一个编辑后图像。其中，在通过损失函数来对图像编辑模型进行反向学习时，损失函数可以通过自监督方式进行，即在待编辑图像中选取一个目标人像来作为参考人脸图像，然后将目标人像所处图像区域作为待编辑区域，这样可以将待编辑图像作为编辑后图像来进行反向学习。其中，在待编辑图像中选取一个目标人像的过程可以通过现有人像识别模型来实现，也可以采用现有目标检测算法来实现，这里不做具体限制。

此外，需要说明的是，对图像编辑模型进行训练时，损失函数也可以采用其他方式确定。例如，可以采用Classifier-free Guidance采样策略，其计算方式可以为：

；

其中，表示带噪隐码，表示描述信息，表示参考人脸图像，表示时间步，表示图像编辑模型，表示损失函数，是引导权重参数。

在一个具体实现方式中，图像编辑模型包括人物建模模块和描述去噪模块，所述的根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像具体包括：

S31、利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图；

S32、利用所述人物建模模块，基于所述人脸嵌入向量和所述空间注意力图确定图像注意力图，并基于所述图像注意力图和所述描述注意力图确定所述待编辑图像对应的编辑后图像。

具体地，在步骤S31中，带噪隐码为对待编辑图像中的待编辑区域添加噪声所得到的，例如，通过对待编辑图像进行前向扩散处理来得到待编辑图像的带噪隐码，其中，在对待编辑图像进行前向扩散处理时，可以对待编辑图像中的待编辑区域进行扩散处理，以便于后续通过图像编辑模型可以在待编辑区域生成与参考人脸图像具有相同身份，且具有符合描述信息的人物外表的人物肖像。相应的，所述利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图之前，所述方法还包括对所述待编辑图像进行扩散处理，以得到所述待编辑图像对应的带噪隐码。

需要说明的是，当对待编辑图像的整幅图像进行编辑时，可以直接将带噪隐码作为图像编辑模型的输入项；当对待编辑图像的部分图像区域进行编辑时，在获取到带噪隐码后，可以将待编辑图像的待编辑区域的位置掩码和带噪隐码更新带噪隐码，其中，带噪隐码的更新过程可以参照待编辑图像的更新过程。在一个典型实现方式中，可以采用将非编辑区域掩码和待编辑图像进行像素乘法来得到中间图像，然后将带噪隐码、位置掩码和中间图像按照通道拼接的方式来更新带噪隐码。

描述去噪模块用于基于描述嵌入向量来对带噪隐码进行去噪，其中，描述去噪模块可以配置有空间注意力机制和描述互注意力机制，通过空间注意力机制和描述互注意力机制来对带噪隐码进行去噪。相应的，在一个实现方式中，所述利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图，具体包括：

S311、利用所述描述去噪模块中的空间自注意力机制，确定所述待编辑图像对应的带噪隐码的空间注意力图；

S312、利用所述描述去噪模块中的描述互注意力机制，基于所述空间注意力图和所述描述嵌入向量确定所述带噪隐码的描述注意力图。

具体地，空间自注意力机制用于对带噪隐码在空间上进行注意力学习，空间注意力图用于反映带噪隐码的空间信息。描述互注意力机制用于对描述嵌入向量和空间注意力图进行交互学习，描述注意力图用于反映描述嵌入向量所携带的描述信息。也就是说，描述去噪模块可以包括空间自注意力单元和描述互注意力单元，空间自注意力单元配置有自注意力机制，描述互注意力单元配置有互注意力机制。其中，空间自注意力单元的输入项为带噪隐码，输出项为空间注意力图，也就是说，空间自注意力单元用于通过自注意力机制在带噪隐码上进行自学习，以得到空间注意力图。描述互注意力单元的输入项为描述嵌入向量和空间注意力图，输出项为描述注意力图，也就是说，描述互注意力单元用于通过互注意力机制在描述嵌入向量和空间注意力图间进行互学习，以得到描述注意力图。

由此可知，在确定空间注意力图时，分别通过预设的空间查询投影矩阵、空间值投影矩阵和空间键投影矩阵来对带噪隐码进行投影，得到空间查询特征、空间值特征和空间键特征，然后通过自注意力机制对空间查询特征、空间值特征和空间键特征进行自注意力学习，以得到空间注意力图。也就是说，可以直接将带噪隐码输入到空间自注意力单元，然后通过空间自注意力单元输出空间注意力图。

在利用描述互注意力机制确定描述注意力图时，可以基于空间注意力图构建描述查询特征，基于描述嵌入向量构建描述值特征和描述键特征，然后通过互注意力机制来对描述查询特征、描述值特征和描述键特征进行互注意力学习，以得到描述注意力图。基于此，在一个具体实现方式中，所述利用所述描述去噪模块中的描述互注意力机制，基于所述空间注意力图和所述描述嵌入向量确定所述带噪隐码的描述注意力图，具体包括：

具体地，描述查询特征为通过采用描述查询投影矩阵对空间注意力图进行投影得到的，描述值特征和描述键特征分别采用描述值投影矩阵和描述键投影矩阵对描述嵌入向量进行投影得到的。其中，描述注意力图的确定过程可以表示为：

，，；

；

其中，表示描述注意力图，表示空间注意力图，表示描述查询特征，表示描述查询投影矩阵，表示描述键特征，表示描述嵌入向量，表示描述键投影矩阵，表示描述值特征，表示描述值投影矩阵，表示特征维度，是一个缩放因子，表示矩阵的转置操作，表示描述互注意力机制。

进一步，在步骤S32中，人物建模模块用于将空间注意力图与人脸嵌入向量进行交互学习，其中，人物建模模块可以直接基于空间注意力图来构建查询特征，或者是，可以先基于空间注意力图确定肖像注意力图，然后基于空间注意力图和肖像注意力图来构建查询特征等。在本申请实施例中，人物建模模块采用的是先基于空间注意力图确定肖像注意力图，然后基于空间注意力图和肖像注意力图来构建查询特征的方式，这样可以在空间注意力学习的基础上增加肖像注意力学习，可以增强自注意力单元对上下文信息的感知，从而可以提高去噪网络对上下文信息的感知，进而可以提高去噪效果。

基于此，在一个具体实现方式中，所述利用所述人物建模模块，基于所述人脸嵌入向量和所述空间注意力图确定图像注意力图具体包括：

具体地，肖像自注意力机制用于对空间注意力图进行自注意力学习，肖像注意力图用于反映带噪隐码的上下文信息。图像互注意力机制用于对人脸嵌入向量、肖像注意力图和空间注意力图进行交互学习，图像注意力图用于反映人像嵌入向量所携带的身份信息。也就是说，人物建模模块可以包括肖像自注意力单元和图像互注意力单元（记为身份适配器），肖像自注意力单元配置有自注意力机制，身份适配器配置有互注意力机制。其中，肖像自注意力单元的输入项为空间注意力图，输出项为肖像注意力图，也就是说，肖像自注意力单元用于通过自注意力机制在空间注意力图上进行自学习，以得到肖像注意力图。身份适配器的输入项为人像嵌入向量、空间注意力图和肖像注意力图，输出项为图像注意力图，也就是说，身份适配器用于通过互注意力机制在人像嵌入向量、空间注意力图和肖像注意力图间进行互学习，以得到图像注意力图。

在通过肖像自注意力机制确定肖像注意力图时，可以通过经过训练的Transformer网络来实现。也就是说，人像构建模块所包括的肖像自注意力单元可以采用经过训练的Transformer网络，通过经过训练的Transformer网络来确定肖像注意力图。也就是说，可以将空间注意力图输入经过训练的Transformer网络，通过经过训练的Transformer网络输出肖像注意力图。其中，经过训练的Transformer网络确定肖像注意力图的过程可以表示为：

，，；

；

其中，表示肖像查询特征，表示肖像键特征，表示肖像值特征，表示肖像查询投影矩阵，表示肖像键投影矩阵，表示肖像值投影矩阵，表示空间注意力图，表示肖像自注意力机制，表示肖像注意力图。

在通过图像互注意力机制确定图像注意力图时，可以先将空间注意力图和肖像注意力图进行融合，得到中间注意力图，然后在人像嵌入向量和中间注意力图间进行互注意力学习。基于此，在一个实现方式中，所述利用所述人物建模模块中的图像互注意力机制，基于所述肖像注意力图、所述空间注意力图以及所述人脸嵌入向量，确定所述待编辑图像对应的带噪隐码对应的图像注意力图，具体包括：

具体地，中间注意力图为通过将空间注意力图和肖像注意力图进行融合得到的，其中，融合方式可以为将空间注意力图和肖像注意力相加，相应的，中间注意力图的确定过程可以表示为：

；

其中，表示中间注意力图，表示空间注意力图，表示肖像注意力图。

当然，在实际应用中，还可以采用其他融合方式来确定中间注意力图，例如，按照通道拼接等，这里不做具体限制。

在获取到中间注意力图后，可以通过人像建模模块中的身份适配器来对中间注意力图和人像嵌入向量进行互注意力学习，其中，身份适配器配置有互注意力机制，身份适配器确定图像注意力图的过程可以表示为：

，，；

；

其中，表示图像查询特征，表示中间注意力图，表示图像键特征，表示图像值特征，表示图像查询投影矩阵，表示图像键投影矩阵，表示图像值投影矩阵，表示人脸嵌入向量，表示图像注意力图。

进一步，在获取到图像注意力图和描述注意力图后，可以将图像注意力图和描述注意力图进行融合来确定融合特征，其中，融合特征可以表示为：

；

其中，表示融合特征，表示描述注意力图对应的映射矩阵，表示图像注意力图对应的映射矩阵。

当然，在实际应用中，在获取到融合特征后，可以直接将融合特征作为去噪特征图，也可以将人像建模模块和描述去噪模块构成的模块单元作为图像编辑模型的一个网络单元，记为HEM，并且图像编辑模型可以包括多个级联的HEM，通过多个级联的HEM中的一个HEM确定得到融合特征后，可以将融合特征作为该HEM的下一个HEM的输入特征，然后通过下一个HEM基于该输入特征来确定融合特征，以此类推，直至最后一个HEM，这样通过多个级联网络单元来进行多次自注意力和互注意力学习，可以提高图像编辑模型的去噪效果，其中，位于最前的网络单元的输入项为带噪隐码。此外，需要说明的是，也可以通过循环执行多次一个来实现多次自注意力和互注意力学习。

在获取到融合特征后，可以基于融合特征确定去噪特征图，然后基于去噪特征图确定所述待编辑图像对应的编辑后图像。基于此，所述基于所述图像注意力图和所述描述注意力图确定所述待编辑图像对应的编辑后图像具体包括：

具体地，去噪特征图为将带噪隐码去噪得到，其中，去噪特征图可以通过带噪隐码减去网络单元HEM确定的噪声项得到的。也就是说，在基于所述图像注意力图和所述描述注意力图确定去噪特征图时，可以基于图像注意力图和描述注意力图确定噪声项，然后基于噪声项和带噪隐码来确定去噪特征图。

需要说明的是，在基于所述图像注意力图和所述描述注意力图确定去噪特征图后，可以直接基于去噪特征图来确定编辑后图像，也可以再将去噪特征图作为带噪隐码，重新执行上述利用人物建模模块和描述去噪模块确定图像注意力图和描述注意力图，以及基于所述图像注意力图和所述描述注意力图确定去噪特征图。其中，每次执行对应一个时间步，那么重新执行的结束条件可以为执行T个时间步。当然，在实际应用中，图像编辑模型可以包括T个级联的去噪网络，T个级联的去噪网络的网络结构均相同，并且位于最前的去噪网络的输入项为带噪隐码、人脸嵌入向量和描述嵌入向量，相邻两个去噪网络中前一去噪网络输出的去噪特征图作为后一去噪网络对应的带噪隐码，最后一个去噪网络输出的去噪特征图用于确定待编辑图像对应的编辑后图像。

可以理解的是，图像编辑模型可以包括一个去噪网络或者多个级联的去噪网络，其中，当图像编辑模型包括一个去噪网络时，去噪网络可以被循环执行T次，T可以为大于或者等于1的正整数。此外，去噪网络可以包括一个网络单元HEM或者多个级联的网络单元HEM，网络单元HEM包括人像建模模块和描述去噪模块，其中，当去噪网络包括一个网络单元HEM时，网络单元HEM可以被执行预设次数，预设次数为预先设置的，可以为大于或者等于1的正整数。

为了更加清楚的说明去噪特征图的确定过程，假设总共执行T个时间步，这里以时间步为例对去噪特征图的确定过程进行说明。时间步的去噪特征图的确定过程可以表示为：

；

其中，表示时间步的去噪特征图，表示去噪参数系数，，，表示扩散过程中时间步的扩散参数，和均表示扩散过程中时间步的扩散参数，表示包括人像建模模块和描述去噪模块的网络单元，表示的输入特征，表示第个时间步，表示去噪网络，表示噪声项，表示随机采样的高斯噪声，表示待编辑图像特征隐码，表示带噪隐码，通过对进行扩散处理得到的。

在确定去噪特征图后，可以通过解码器来对去噪特征图进行解码，以得到所述图像帧对应的编辑后图像帧，具体地，编辑后图像帧可以表示为：

；

其中，表示VAE解码器，表示编辑后图像帧，表示去噪特征图。

综上所述，本实施例提供了一种图像编辑方法，所述方法包括获取待编辑图像、参考人脸图像以及描述信息；接收用户输入的待编辑图像、参考人脸图像和描述信息；获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。本申请实施例可以在任意所需位置生成人物肖像，通过与参考人脸图像和描述信息进行自然交互，同时确保生成的人物肖像与参考人脸图像的身份相似性和与描述信息的一致性。此外，本申请通过在文到图扩展模型中构建身份适应器和肖像注意力单元的人像建模模块，通过人物建模模块中的身份适应器将人脸嵌入向量和描述嵌入向量进行解耦，同时通过人物建模模块中的肖像注意力单元来增强对待编辑图像中已知信息的感知能力，实现了在合照场景下更加和谐的人与人之间的交互，从而可以更加精确并且适配的场景也更为丰富。

此外，为了进一步说明本申请实施例的编辑效果，下面还分别从CLIP-H、人脸相似度Face Sim、FID、QS、IQA、编辑时间Time和内存消耗Memory进行验证，验证结果如表1所示。其中，CLIP-H用于衡量在指定区域内生成人物的可能性大小，人脸相似度用于衡量生成的人物和参考人脸图像之间的身份相似度，FID用于评估生成图像的分布和真实图像分布之间的差异，QS可以通过预训练的模型评估生成图像的质量，IQA基于CLIP来评价生成图像的真实性和自然度。编辑时间和内存占用来评估模型的编辑效率。

表1 验证结果

基于上述图像编辑方法，本实施例提供了一种图像编辑装置，如图4所示，所述的图像编辑装置具体包括：

接收模块100，用于接收用户输入的待编辑图像、参考人脸图像和描述信息；

获取模块200，用于获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量；

执行模块300，用于根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像。

基于上述图像编辑方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的图像编辑方法中的步骤。

基于上述图像编辑方法，本申请还提供了一种终端设备，如图5所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像编辑方法，其特征在于，所述的图像编辑方法具体包括：

接收用户输入的待编辑图像、参考人脸图像和描述信息；

2.根据权利要求1所述的图像编辑方法，其特征在于，所述获取所述参考人脸图像对应的人脸嵌入向量和所述描述信息对应的描述嵌入向量，具体包括：

3.根据权利要求1所述的图像编辑方法，其特征在于，所述图像编辑模型包括人物建模模块和描述去噪模块，所述根据所述人脸嵌入向量、所述描述嵌入向量以及所述待编辑图像，利用预设的图像编辑模型确定所述待编辑图像对应的编辑后图像，具体包括：

4.根据权利要求3所述的图像编辑方法，其特征在于，所述利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图，具体包括：

5.根据权利要求4所述的图像编辑方法，其特征在于，所述利用所述描述去噪模块中的描述互注意力机制，基于所述空间注意力图和所述描述嵌入向量确定所述带噪隐码的描述注意力图，具体包括：

6.根据权利要求3所述的图像编辑方法，其特征在于，所述利用所述人物建模模块，基于所述人脸嵌入向量和所述空间注意力图确定图像注意力图，具体包括：

7.根据权利要求6所述的图像编辑方法，其特征在于，所述利用所述人物建模模块中的图像互注意力机制，基于所述肖像注意力图、所述空间注意力图以及所述人脸嵌入向量，确定所述待编辑图像对应的带噪隐码对应的图像注意力图，具体包括：

8.根据权利要求3所述的图像编辑方法，其特征在于，所述利用所述描述去噪模块，基于所述描述嵌入向量以及所述待编辑图像对应的带噪隐码，确定描述注意力图和空间注意力图之前，所述方法还包括：

9.根据权利要求3所述的图像编辑方法，其特征在于，所述基于所述图像注意力图和所述描述注意力图确定所述待编辑图像对应的编辑后图像，具体包括：

10.根据权利要求1所述的图像编辑方法，其特征在于，所述方法还包括：

11.一种图像编辑装置，其特征在于，所述的图像编辑装置具体包括：

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-10任意一项所述的图像编辑方法中的步骤。

13.一种终端设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-10任意一项所述的图像编辑方法中的步骤。