CN116704221B

CN116704221B - 图像处理方法、装置、设备和计算机可读存储介质

Info

Publication number: CN116704221B
Application number: CN202310999358.9A
Authority: CN
Inventors: 朱城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-10-24
Anticipated expiration: 2043-08-09
Also published as: CN116704221A

Abstract

本申请公开了一种图像处理方法、装置、设备和计算机可读存储介质。本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。通过获取参考图像，并获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。以此，可对图像之间的差异进行扩充描述，并针对差异的扩充描述文本和参考图像作为约束来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

Description

图像处理方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种图像处理方法、装置、设备和计算机可读存储介质。

背景技术

人工智能（Artificial Intelligence，AI）已应用于广泛领域，其所涉及的技术可包含计算机视觉、语音处理、自然语言处理等，其中，计算机视觉技术在图像处理的应用方向上具有深远的意义。例如，可利用计算机视觉技术来完成不同类型的图像处理任务。

为了完成图像调整任务，相关技术一般基于现有的扩散模型，结合图像调整的描述信息对目标图像进行调整，以获取调整后的图像。

在对相关技术的研究和实践过程中，本申请的发明人发现相关技术在进行图像调整时，在保持现有扩散模型的网络参数不变的前提下，适应性调节描述信息，以基于调节的描述信息来调整目标图像，这容易忽略较多的图像细节，降低了图像调整的准确性，使得调整后的图像效果与实际需求不符合，不利于后续业务的开展。

发明内容

本申请实施例提供一种图像处理方法、装置、设备和计算机可读存储介质，可解决调整后的图像效果与实际需求不符的问题，提高图像调整的准确性。

本申请实施例提供一种图像处理方法，包括：

获取参考图像，并获取与所述参考图像相似的相似图像；

确定所述参考图像与所述相似图像之间的差异信息；

确定所述参考图像中针对所述差异信息的目标掩码图；

基于所述差异信息进行扩充，得到差异描述文本；

根据所述目标掩码图、所述差异描述文本和所述参考图像，对所述相似图像进行局部调整，得到调整后的目标图像。

相应的，本申请实施例提供一种图像处理装置，包括：

获取单元，用于获取参考图像，并获取与所述参考图像相似的相似图像；

第一确定单元，用于确定所述参考图像与所述相似图像之间的差异信息；

第二确定单元，用于确定所述参考图像中针对所述差异信息的目标掩码图；

扩充单元，用于基于所述差异信息进行扩充，得到差异描述文本；

调整单元，用于根据所述目标掩码图、所述差异描述文本和所述参考图像，对所述相似图像进行局部调整，得到调整后的目标图像。

在一些实施方式中，所述调整单元，还用于：

对所述相似图像进行加噪处理，并获取所述加噪处理中相邻时间步的第一相似噪声图和第二相似噪声图；

根据所述目标掩码图和所述差异描述文本，对所述第一相似噪声图进行解噪处理，得到第一图像；

根据所述目标掩码图和所述参考图像，对所述第二相似噪声图进行解噪处理，得到第二图像；

将所述第一图像与所述第二图像进行融合，得到调整后的目标图像。

在一些实施方式中，所述调整单元，还用于：

根据所述目标掩码图对所述第一相似噪声图进行掩码处理，得到第一掩码噪声图；

获取所述差异描述文本对应的差异文本向量，并根据所述差异文本向量对所述第一相似噪声图进行减噪处理，得到第一特征图；

对所述第一特征图进行解码处理，得到第一图像。

在一些实施方式中，所述调整单元，还用于：

对所述目标掩码图进行取反，得到所述目标掩码图对应的目标反掩码图；

根据所述目标反掩码图对所述第二相似噪声图进行掩码处理，得到第二掩码噪声图；

根据所述参考图像对应的特征图对所述第二掩码噪声图进行掩码处理，得到第二特征图；

对所述第二特征图进行解码处理，得到第二图像。

在一些实施方式中，所述调整单元，还用于：

根据所述目标掩码图和所述差异描述文本，对所述相似图像进行局部微调，得到第一图像；

根据所述目标掩码图和所述参考图像，对所述相似图像进行局部微调，得到第二图像；

在一些实施方式中，所述调整单元，还用于：

根据所述目标掩码图对所述相似图像进行掩码处理，得到第一相似掩码图像；

对所述第一相似掩码图像进行加噪处理，得到第一相似噪声图；

获取所述差异描述文本对应的差异文本向量；

根据所述差异文本向量对所述第一相似噪声图进行减噪处理，得到第一特征图；

对所述第一特征图进行解码处理，得到第一图像。

在一些实施方式中，所述调整单元，还用于：

获取所述差异描述文本对应的差异文本向量；

对所述第一特征图进行解码处理，得到第一图像。

在一些实施方式中，所述调整单元，还用于：

对所述第一相似噪声图进行连续多次降噪处理，并通过注意力机制在每次降噪处理过程中融入所述差异文本向量，得到第一特征图。

在一些实施方式中，所述调整单元，还用于：

对所述第一相似掩码图像进行编码处理，得到编码特征图；

对所述编码特征图进行噪声处理，得到第一相似噪声图。

在一些实施方式中，所述调整单元，还用于：

通过第一神经网络模型基于所述目标掩码图和所述差异描述文本，对所述相似图像进行局部微调，生成所述第一图像；

则所述图像处理装置还包括训练单元，用于：

获取样本参考图像和样本相似图像，以及第一样本目标图像；

基于所述样本参考图像与所述样本相似图像之间的差异信息，生成所述样本参考图像的样本目标掩码图和样本差异描述文本；

通过预设模型基于所述样本目标掩码图和所述样本差异描述文本，对所述样本相似图像进行局部微调，生成第一预测图像；

根据所述第一样本目标图像与所述第一预测图像，确定预测损失；

基于所述预测损失对所述预设模型进行迭代训练，直至达到预设条件，得到所述第一神经网络模型。

在一些实施方式中，所述调整单元，还用于：

根据所述目标反掩码图对所述相似图像进行掩码处理，得到第二相似掩码图像；

对所述第二相似掩码图像进行加噪处理，得到第二相似噪声图，其中，所述第二相似噪声图的时间步与所述第一相似噪声图的时间步相邻；

根据所述参考图像对应的特征图对所述第二相似噪声图进行减噪处理，得到第二特征图；

对所述第二特征图进行解码处理，得到第二图像。

在一些实施方式中，所述扩充单元，还用于：

根据所述差异信息，确定所述参考图像相对于所述相似图像的差异对象；

确定所述差异对象与所述参考图像中其他对象之间的对象关系信息；

获取所述参考图像的全局描述文本和所述差异对象的目标对象描述文本；

基于所述全局描述文本、所述目标对象描述文本和所述对象关系信息进行文本扩充，得到差异描述文本。

在一些实施方式中，所述获取单元，还用于：

确定所述参考图像所属的参考聚类中心；

确定预设数据库中预构建的每个图像聚类中心与所述参考聚类中心之间的特征类别距离；

基于所述特征类别距离，为所述参考图像选取相似的相似图像。

在一些实施方式中，所述第一确定单元，还用于：

获取所述参考图像对应的第一描述文本；

获取所述相似图像对应的第二描述文本；

基于所述第一描述文本与所述第二描述文本之间的差异，生成差异信息。

在一些实施方式中，所述第一确定单元，还用于：

通过第一预设模型对所述参考图像进行全局描述，生成所述参考图像的全局描述文本；

通过第二预设模型对所述参考图像中的每个对象所在的像素区域进行处理，得到所述参考图像中每个对象对应的对象描述文本；

根据所述参考图像的全局描述文本和所述每个对象对应的对象描述文本，确定所述参考图像对应的第一描述文本。

在一些实施方式中，所述第二确定单元，还用于：

根据所述差异信息，确定所述参考图像中相对于所述相似图像的差异对象；

基于所述参考图像中的差异对象，生成目标掩码图。

此外，本申请实施例还提供一种计算机设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序实现本申请实施例提供的任一种图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机指令，所述计算机指被执行时实现本申请实施例所提供的任一种图像处理方法中的步骤。

本申请实施例可先从现有的数据中获取与参考图像相似的相似图像，然后，基于参考图像与相似图像之间的差异信息，生成目标掩码图，以及，针对该差异信息进行扩充，以丰富表示该差异信息的差异描述文本，最后，联合目标掩码、差异描述文本和参考图像对现有的相似图像进行局部微调，以获取微调后的目标图像；以此，可对图像之间的差异进行扩充描述，并针对差异的扩充描述文本和参考图像作为约束来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像处理系统的场景示意图；

图2是本申请实施例提供的图像处理方法的步骤流程示意图；

图3是本申请实施例提供的全局描述文本的生成场景示意图；

图4是本申请实施例提供的图像中对象描述文本的生成场景示意图；

图5是本申请实施例提供的掩码分割模型的掩码分割场景示意图；

图6是本申请实施例提供的隐空间扩散模型的结构示意图；

图7是本申请实施例提供的反向扩散中减噪网络层的结构示意图；

图8是本申请实施例提供的图像处理方法的另一步骤流程示意图；

图9为申请实施例提供的图像处理系统的的框架结构示意图；

图10是本申请实施例提供的残差网络层的结构示意图;

图11是本申请实施例提供的差异信息汇总生成差异描述文本的场景示意图;

图12是本申请实施例提供的图像微调过程的场景示意图;

图13是本申请实施例提供的图像处理装置的结构示意图；

图14是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

在说明书、权利要求书和上述附图所描述的一些流程中，包含了按照特定顺序出现的多个步骤，但应该清楚了解，这些步骤可以不按照其在本文中出现的顺序来执行或并行执行，步骤序号仅仅是用于区分开各个不同的步骤，序号本身不代表任何的执行顺序。此外，本文中的“第一”和“第二”等描述，是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种图像处理方法、装置、设备和计算机可读存储介质。具体地，本申请实施例将从图像处理装置的维度进行描述，该图像处理装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是用户终端等设备。其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中，用户终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端、智能语音交互设备、飞行器等，但并不局限于此。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、用户使用记录、用户状况等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，本申请实施例提供的图像处理方法可应用于任意一种图像调整场景，这些场景不限于通过云服务、大数据、人工智能或结合等方式实现，具体通过如下实施例进行说明:

本申请实施例提供的图像处理方法涉及人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

其中，计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、追寻和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

然而，本申请实施例可通过计算机视觉技术中的图像处理、图像识别、图像语义理解等技术来实现图像处理，以完成针对图像的处理任务。具体通过如下实施例进行说明:

需要说明的是，在该图像处理场景中，其主要通过神经网络（Artificial NeuralNetworks，ANNs）模型来实现的，以下简称为“模型”。而该图像处理过程可包括模型的训练阶段（A）和应用阶段（B）。该训练阶段和应用阶段可通过图像处理系统中的一个或多个设备组合来实现。

例如，参见图1，为本申请实施例提供的图像处理系统的场景示意图，该场景系统可以包括服务器和/或终端；当系统仅包括服务器或终端时，服务器或终端上包括目标数据库、模型训练装置和模型应用装置；当系统为终端和服务器的组合时，服务器上可包括目标数据库、模型训练装置和模型应用装置。

其中，该目标数据库可以存储有大量的数据，该数据不限于包括图像数据，以作为模型训练阶段的样本相似图像。

（A）模型的训练阶段：

在模型的训练阶段中，模型训练装置可以在获取到作为样本的训练数据后，基于获得的训练数据对预设模型进行训练。具体的，该模型训练阶段可包括准备训练数据和模型训练。

其中，准备训练数据的过程：首先，设定样本参考图像和需要调整得到的样本目标图像；然后，可从目标数据库中获取与样本参考图像相似的样本相似图像；进而，基于样本参考图像与样本相似图像之间的差异信息，生成样本参考图像的样本目标掩码图和样本差异描述文本。至此，以获得训练数据。

其中，模型的训练可以理解为模型输出的图像与样本目标图像之间的对比学习训练。由于本申请实施例在图像调整过程可以包括：以差异信息的描述文本作为引导条件对相似图像进行微调，同时，以参考图像作为约束条件对相似图像进行微调，这可分别通过用于图像微调的两个模型来实现，因此，模型训练过程可以包括对不同的模型进行训练，此时，样本目标图像包括第一样本目标图像和第二样本目标图像。

结合图1所示，以差异文本作为引导条件的模型的训练过程为例。具体的，该模型训练的过程为：通过预设模型基于样本目标掩码图和样本差异描述文本，对样本相似图像进行局部微调，以获取第一预测图像，进而，将第一样本目标图像与第一预测图像进行对比，并在两者存在差异时，根据第一样本目标图像与第一预测图像之间的差异来构建预测损失，以基于该预测损失对预设模型进行训练；按照以上方式对模型进行迭代训练，直至达到预设条件，如预设模型输出的第一预测图像与第一样本目标图像相同，或者迭代训练的次数达到一定数量，又或者预设模型输出的第一预测图像不再变化，等等，得到训练后的第一神经网络模型。

同理，结合图1所示，以参考图像作为约束条件的模型的训练过程为例。具体的，在准备训练数据的过程中除了需要获取样本参考图像、样本目标掩码图和样本相似图像外，还需要获取样本目标掩码图关联的样本目标反掩码图。进而，通过预设模型基于样本目标反掩码图和样本参考图像，对样本相似图像进行局部微调，以获取第二预测图像，进而，将第二样本目标图像与第二预测图像进行对比，并在两者存在差异时，根据第二样本目标图像与第二预测图像之间的差异来构建预测损失，以基于该预测损失对预设模型进行迭代训练，直至达到预设条件，得到训练后的第二神经网络模型。

至此，基于模型训练装置的训练过程结束，分别得到第一神经网络模型和第二神经网络模型，该训练得到的第一神经网络模型和第二神经网络模型可以用于参与本申请的图像处理过程。需要说明的是，在模型训练阶段可采用带有条件的隐空间扩散（StableDiffusion，SD）模型进行训练，得到训练后的第一神经网络模型和第二神经网络模型属于SD模型。

此外，以差异信息的描述文本作为引导条件对相似图像进行微调，同时，以参考图像作为约束条件对相似图像进行微调，还可通过一个模型来实现对图像进行微调，完成图像处理。则，在模型训练阶段，可通过预设模型基于样本目标掩码图、样本差异描述文本和样本参考图像，对样本相似图像进行局部微调，以获取预测图像，进而，将样本目标图像与预测图像进行对比，并在两者存在差异时，根据样本目标图像与预测图像之间的差异来构建预测损失，以基于该预测损失对预设模型进行迭代训练，直至达到预设条件，得到训练后的目标模型。

（B）模型的应用阶段：

在模型的应用阶段中，可将训练好的第一神经网络模型和第二神经网络模型上传或安装至模型应用装置中，以使得模型应用装置在图像处理过程中运行该第一神经网络模型和第二神经网络模型，以配合完成图像处理的相关流程。具体的，该图像处理流程包括：获取参考图像，并获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

需要说明的是，第一神经网络模型和第二神经网络模型主要应用在对相似图像进行局部微调过程中。具体的，可通过第一神经网络模型基于目标掩码图和差异描述文本，对相似图像进行局部微调，生成第一图像；以及通过第二神经网络模型基于目标反掩码图和参考图像，对相似图像进行局部微调，生成第二图像；将第一图像与第二图像进行融合，得到调整后的目标图像。

此外，假若以一个模型来实现对图像进行微调时，可将训练后的该目标模型上传或安装至模型应用装置中，以使得模型应用装置在图像处理过程中运行该目标模型，以配合完成图像处理的相关流程，该图像处理流程包括：获取参考图像，并获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

通过以上模型的训练阶段和应用阶段的场景，可以实现本申请的图像处理方法。

例如，假设服务器或终端上包括目标数据库、模型训练装置和模型应用装置，服务器或终端可以基于目标数据库中的样本图像数据来准备训练数据，并通过模型训练装置根据训练数据对预设模型进行训练，并将训练后的第一神经网络模型和第二神经网络模型传输到模型应用装置上运行。此时，终端或服务器可以实现如下：获取参考图像，并获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

又如，以终端和服务器组合的系统为例，终端与服务器之间建立有通信连接。其中，服务器可以是由多个物理服务机构成的分布式服务系统，其至少包含目标数据库、模型训练装置和模型应用装置，可在服务器上完成对模型的训练后，通过服务器上运行训练后的第一神经网络模型和第二神经网络模型，或者，通过服务器上运行训练后的目标模型，以实现图像处理流程。具体的，在应用阶段，可通过终端上的客户端向服务器发送参考图像。而服务器在获得获取参考图像后，可从目标数据库中获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。此后，服务器可将调整得到的目标图像返回给终端。

示例性的，结合图1所示，假设终端上安装有图像处理应用（客户端），用户可在图像处理应用上选定图像搜索任务，以执行图像处理过程。具体的，该图像处理过程为：首先，用户可在终端上的客户端页面中选定图像搜索任务，并针对图像搜索任务设定需要搜索的参考图像；进而，客户端将该参考图像传输至服务器。然后，服务器在获得获取参考图像后，可从目标数据库中获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。最后，服务器将针对相似图像进行局部微调的目标图像返回至客户端，以使得图像搜索业务提供的图像能够与实际需求（参考图像）更符合，以利于图像搜索业务的开展。

需要说明的是，以上仅为示例，还可应用于其他图像业务中，此处不做一一赘述。

为了便于理解，以下将分别对图像处理方法的各步骤进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在本申请实施例中，将从图像处理装置的维度进行描述，以该图像处理装置具体可以集成在计算机设备如终端或服务器中。参见图2，图2为本申请实施例提供的一种图像处理方法的步骤流程示意图，本申请实施例以图像处理装置具体集成在服务器上为例，服务器上的处理器执行图像处理方法对应的程序指令时，具体流程如下：

101、获取参考图像，并获取与参考图像相似的相似图像。

本申请实施例在获取得到参考图像后，为了获得符合参考图像的实际需求的图像，一般可从现有图像数据中搜寻与参考图像最为相似的图像，以便后续对搜寻到的相似图像作进一步的图像处理，该图像处理过程可以是图像调整，如大幅度调整、局部调整等，以便调整后的目标图像所包含的信息更匹配参考图像，如获得的图像在风格和内容方面与参考图像更为相近，具有可靠性。

其中，该参考图像可以是包含任意内容信息的图像，如包含水果、餐具、动物、人物、动画等任意一种或多种内容信息的图像，还可以是包含其他形式的内容信息的图像，此处不做一一列举。需要说明的是，该参考图像可以作为图像处理过程的图像调整依据，即可基于该参考图像对其他图像进行调整。

其中，该相似图像可以是数据库中与参考图像最为相似的图像，其可以理解为现有数据中在图像内容或图像风格等方面与参考图像最为相似的图像。需要说明的是，本申请实施例以该相似图像作为图像调整的基础数据，即在该相似图像的基础上进行图像调整。

为了便于理解参考图像和相似图像，以示例方式对这两种图像进行介绍。示例性的，以图像搜索业务为例，客户通过客户端向图像搜索平台发送一张例图，该例图的内容信息为包含两只卧躺状态的猫，该例图可以视为参考图像；进而，图像搜索平台在收到客户发送的例图后，可在本平台的数据库中查找与该例图最为相似的相似图像，以便后续基于该参考图像的相关信息对该相似图像作进一步调整，以尽可能满足客户的图像搜索业务的需求。

在一些实施方式中，为了从现有数据库中查找出与参考图像相似的相似图像，可以按照特征距离方式来确定任意两张图像之间是否相似，或者通过特征距离来衡量两张图像之间的相似度。例如，步骤101中的“获取与参考图像相似的相似图像”，可以包括：确定参考图像所属的参考聚类中心；确定预设数据库中预构建的每个图像聚类中心与参考聚类中心之间的特征类别距离；基于特征类别距离，为参考图像选取相似的相似图像。

需要说明的是，不同的图像之间所包含的内容信息具有差异，可按照图像中包含的内容信息对图像进行分类，例如，在动物科目下的图像，可按照动物种类对图像划分类别，如划分为猫、狗、老虎、马、鸽子、老鹰以及其他动物的类别。对于属于同一类别的一个或多个图像，可以通过一个或多个图像来计算该类别对应的聚类中心。

其中，该参考聚类中心可以是基于一个或多个参考图像所构建的特征聚类中心，表示这一个或多个参考图像之间特征类别中心点，可以理解为特征均值点。例如，当存在一个参考图像时，可将该参考图像转换为像素点矩阵，该参考图像的像素点矩阵可以视为参考聚类中心；当存在多个参考图像时，可分别确定每个参考图像的像素点矩阵，并结合每个像素点矩阵来计算这多个参考图像的参考聚类中心，如将多个像素点矩阵之间的均值作为参考聚类中心。以上仅为示例，不作为实施本申请的具体限定方式。

其中，该图像聚类中心可以是现有数据库中每个类别对应的图像集合的聚类中心，每个图像聚类中心可以根据数据库中每个类别的图像集合的更新而改变，即该图像聚类中心可以是实时构建。示例性的，在预设数据库中可包含食物、动物、植物、交通工具、饰品等科目的图像，每个科目下可包含一个或多个图像类别，每个图像类别对应一个图像聚类中心；以动物为例，假设包含猫类别的图像集合，此时，通过每个像素点矩阵分别表示猫类别下的每个图像，并计算猫类别下的所有像素点矩阵的均值，以作为猫类别对应的图像聚类中心，假设动物科目下还包括狗类别，则该狗类别的图像聚类中心的计算方式与“猫类别的图像聚类中心”的计算方式一致。需要说明的是，对于其他科目下任意类别的图像，其图像聚类中心的计算方式与上述相同，此处不做一一赘述。

为了从预设数据库中选取与该参考图像相似的相似图像，在确定参考图像对应的参考聚类中心后，可分别计算该参考聚类中心与数据库中每个图像聚类中心之间的特征类别距离。进一步的，可根据特征类别距离来选取与参考图像相似的相似图像，具体的，可根据该特征类别距离的大小来判定参考图像的聚类中心与数据库中的哪一个图像聚类中心更相近，以将该相近的目标图像聚类中心的图像类别确定为与该参考聚类中心的图像类别；进而，计算参考图像与目标图像聚类中心的图像类别下的每一图像之间的特征距离，需要说明的是，特征距离的大小可以反映任意两个图像之间的相似度，因此，可根据特征距离的大小来选取与参考图像相似的相似图像，例如，选取与参考图像的特征距离最小的图像作为相似图像。

通过以上方式，可在获取得到参考图像后，从现有图像数据中搜寻与参考相似最为相似的图像，以便后续对搜寻到的图像作进一步的图像调整，以获得更符合参考图像的实际需求的图像，具有可靠性。

102、确定参考图像与相似图像之间的差异信息。

在本申请实施例中，为了更准确地对相似图像进行调整，可以确定参考图像与相似图像之间的差异情况，以便后续结合该两者图像之间的差异情况作为图像处理过程中的调整依据，并对相似图像进行调整，提高图像调整的准确性。

其中，该差异信息可以是表示参考图像与相似图像之间的特征差异的信息，其不限于包括图像中的存在差异的对象（事物）数量、对象位置和/或对象体态等差异信息。例如，参考图像中包含两只橘猫，第一只橘猫卧在草地上，第二只橘猫在第一只橘猫的周围区域处于奔跑动作的状态，假设相似图像中包含两只橘猫，其中一只橘猫卧在草地上，另一橘猫在距离该卧着的橘猫较远处区域作出奔跑动作的状态，则参考图像与相似图像之间的差异信息可以是两只橘猫之间的位置差异，即位置关系；又如，参考图像中包含两只橘猫和一只蓝猫，相似图像中包含两只橘猫，则参考图像相对于相似图像的差异信息中存在差异对象（一只蓝猫）。需要说明的是，可结合差异对象和对象位置关系来生成该差异信息。以上仅为示例，不作为实施本申请的具体限定方式。

在一些实施方式中，为了获取参考图像与相似图像之间的差异信息，可以根据参考图像的描述文本和相似图像的描述文本来确定图像之间的差异，从而生成差异信息。例如，步骤102可以包括：

（102.1）获取参考图像对应的第一描述文本；

（102.2）获取相似图像对应的第二描述文本；

（102.3）基于第一描述文本与第二描述文本之间的差异，生成差异信息。

其中，该第一描述文本可以是针对参考图像中的内容信息生成的图像内容描述文本，由于参考图像的内容信息可以包括对象信息和对象所在的环境信息，因此，该第一描述文本不限于包括针对参考图像的整体内容的全局描述文本和针对参考图像中对象的对象描述文本。示例性的，假设参考图像中包含两只橘猫和一只蓝猫，则全局描述文本可以为“草地上有两只橘猫和一只蓝猫，第二只橘猫位于第一只橘猫的右上方草地区域，蓝猫位于第一只橘猫的左上方草地区域”，针对第一只橘猫的对象描述文本为“橘猫卧在草地上”，针对第二只橘猫的对象描述文本为“橘猫在草地上奔跑”，针对蓝猫的对象描述文本为“蓝猫在草地上打滚”，以上全局描述文本和对象描述文本仅为示例，不作为实施本申请的具体限定方式，以上任一描述文本还可根据实际情况进行更详细或更简洁的描述。

其中，该第二描述文本可以是针对相似图像中的内容信息生成的图像内容描述文本，同理，该第二描述文本不限于包括针对相似图像的整体内容的全局描述文本和针对相似图像中对象的对象描述文本。具体示例可参见关于第一描述文本的描述，此处不做限定。

具体的，为了获取参考图像与相似图像之间的差异信息，可在分别获取到参考图像的第一描述文本和相似图像的第二描述文本后，根据第一描述文本和第二描述文本之间的描述差异，来学习参考图像与相似图像中内容信息的差异，如确定参考图像与相似图像之间在对象数量上是否存在差异，确定参考图像与相似图像之间的对象位置分布是否存在差异，确定参考图像与相似图像之间的对象体态是否存在差异，等等，需要说明的是，参考图像与相似图像之间的差异可包括以上一种或多种情况，且还可以包括其他差异的情况；进一步的，基于以上确定的差异，获取差异信息。

示例性的，假设针对参考图像的第一描述文本为“草地上有两只橘猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的右上方区域，第二只橘猫在草地上奔跑”，假设针对相似图像的第二描述文本为“草地上有两只橘猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的左上方区域，第二只橘猫在草地上奔跑”，由此可得，第一描述文本与第二描述文本之间的差异为第二只橘猫（对象）在图像中的位置分布差异，因此，可基于这两个差异来生差异信息，该差异信息可以是针对参考图像中的第二只橘猫（差异对象）的信息，如第二只橘猫的位置信息、形状信息、尺寸信息等，此外，由于参考图像中第一只橘猫的左上方区域为草地，而相似图像中第一只橘猫的左上方区域存在第二只橘猫，则差异信息还可包括参考图像中第一只橘猫的左上方区域的草地（差异对象）的信息。

示例性的，假设针对参考图像的第一描述文本为“草地上有两只橘猫和一只蓝猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的右上方区域，第二只橘猫在草地上奔跑，蓝猫位于第一只橘猫的左上方区域，蓝猫在草地上打滚”，假设针对相似图像的第二描述文本为“草地上有两只橘猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的右上方区域，第二只橘猫在草地上奔跑”，由此可得，第一描述文本与第二描述文本之间的差异为猫（对象）的数量差异、猫在图像中的位置分布差异等，因此，可基于这两个差异来生差异信息，该差异信息可以是针对蓝猫（差异对象）的信息，如蓝猫的对象描述文本和在参考图像中位置信息。

在一些实施方式中，由于参考图像和相似图像都属于图像数据，为了中准确获取由于描述参考图像和相似图像的文本信息，可通过图文转换方式，获取得到参考图像的第一描述文本和相似图像的第二描述文本。例如，以获取第一描述文本为例，步骤（102.1）可以包括：

（102.1.1）通过第一预设模型对参考图像进行全局描述，生成参考图像的全局描述文本；

（102.1.2）通过第二预设模型对参考图像中的每个对象所在的像素区域进行处理，得到参考图像中每个对象对应的对象描述文本；

（102.1.3）根据参考图像的全局描述文本和每个对象对应的对象描述文本，确定参考图像对应的第一描述文本。

其中，该全局描述文本可以理解为对图像中包含的内容信息进行整体描述、概括得到的文本，通过该全局描述文本，可以基于文本的方式快速理解图像。示例性的，以参考图像为例，假设参考图像的内容包含草地、飞盘和向飞盘方向跳跃的宠物狗，则该全局描述文本可以是“宠物狗在草地上跳跃起来玩飞盘”。又如，假设参考图像的内容包括草地、卧着的橘猫和奔跑的蓝猫，则全局描述文本可以是“橘猫卧在草地上休息，蓝猫在草地上奔跑玩耍”；以上示例。

其中，该对象描述文本可以是用于描述图像中相应对象的特征的文本，其可包括对象的颜色、形状、体态、位置以及其他方面的描述。例如，以参考图像为例，该对象描述文本可以描述图像中对应的对象的位置、动作、体态、形状等信息。需要说明的是，该对象描述文本可以包括对象类别标签和对象描述信息，该对象类别标签用于表示对应的对象所属的类别或名称，对象描述信息用于具体描述对象的动作、位置、形状、体态等等；例如，假设一张图像中包含的内容信息为“一条棕色的狗在草地上玩飞盘”，则对象类别标签可以是“狗”或“棕色的狗”，对象描述信息可以是“棕色的狗在草地上玩飞盘”，以上仅为示例，不作为本申请实施的具体限定。

其中，该第一预设模型可以是用于对图像的整体情况进行全局的文本描述的模型，例如，该第一预设模型可以是预训练的冻结图像编码器和大型语言模型（Bootstrapping Language-Image Pre-training with Frozen Image Encoders andLarge Language Models，BLIP2），该模型引入了大规模语言模型（Large LanguageModels，LLM）。

具体的，结合图3所示，该第一预设模型在结构上可包括视觉与语言表征学习（Vision-and-Language Representation Learning）、视觉到语言的生成学习（Vision-to-Language Generative Learning）两部分，其中，该视觉与语言表征学习在结构上包括图像编码器（Image Encoder）和轻量级的查询变压器（ Querying Transformer，Q-Former），而视觉到语言的生成学习在结构上包括大规模语言模型（Large Language Models，LLM）。以对参考图像进行全局描述为例，在该第一预设模型中，首先，将参考图像输入到图像编码器，通过图像编码器对该参考图像进行编码处理，得到图像编码结果；进而，将该图像编码结果输入到轻量级的查询变压器，并确定参考图像中的对象类别标签，以在轻量级的查询变压器中与对象类别标签进行融合，得到融合特征结果；最后，将该融合特征结果输入至大规模语言模型进行语言处理，以输出针对该参考图像的全局描述文本。

其中，该第二预设模型可以是用于对图像中包含对象的图像区域进行文本描述的模型，例如，该第二预设模型可以是图像区域到文本的生成转换器（Generative Region-to-Text Transformer，GRIT）。具体的，结合图4所示，该第二预设模型在结构上可以包括视觉编码器（Visual Encoder）、定位对象的地表物体提取器（Foreground ObjectExtractor）和文本解码器（Text Decoder）。其中，以对参考图像中每个对象所在的像素区域进行文本描述为例，首先，对参考图像中的每个对象进行识别，以确定参考图像中每个对象所在的像素区域，以及对参考图像中识别到的每个对象进行类别标示，然后，将已确定每个对象的像素区域和类别的参考图像输入至第二预设模型，在该第二预设模型中，通过第二预设模型针对每个对象所在的像素区域进行区域与语言之间的转化处理，输出得到转化处理后的参考图像，该转化处理后的参考图像中包含用于标注每个对象的标记框，以及每个标记框中的对象的对象描述文本。

进一步的，在得到参考图像的全局描述文本和对象描述文本后，可将该全局描述文本和对象描述文本合并，以获取针对参考图像的第一描述文本。

在本申请实施例中，关于相似图像的第二描述文本的获取方式可以参考上述“参考图像的第一描述文本”的获取过程，此处不做一一赘述。

通过以上方式，可确定参考图像与相似图像之间的差异情况，以便后续结合该两者图像之间的差异情况作为图像处理过程中的调整依据，以便更准确地对相似图像进行调整。

103、确定参考图像中针对差异信息的目标掩码图。

在本申请实施例中，在确定需要对相似图像进行调整后，可采用局部调整的方式来进行图像处理，为了实现对相似图像进行局部调整，需要获取参考图像中针对差异信息的掩码图，以利用掩码图来参与对相似图像的局部微调，以便后续提高图像调整时的精确性。

其中，该目标掩码图可以是针对参考图像相对于相似图像的差异信息生成的像素区域遮掩图，用于在对相似图像进行微调时遮掩相似图像中的部分像素区域，以使得相似图像被遮掩的像素区域为空白（无内容）。

在一些实施方式中，可根据参考图像中相对于相似图像中的差异对象来构建目标掩码图。例如，步骤103可以包括：

（103.1）根据差异信息，确定参考图像中相对于相似图像的差异对象；

（103.2）基于参考图像中的差异对象，生成目标掩码图。

具体的，为了获取参考图像中针对差异信息的目标掩码图，在得到差异信息后，可根据该差异信息来确定参考图像中相对于相似图像所包含的差异对象，以根据确定的差异对象来生成目标掩码图。需要说明的是，在生成目标掩码图时，首先，可构建与参考图像同样尺寸的初始掩码图，然后，以差异对象的相关信息作为指示信息，按照指示信息、初始掩码图和参考图像来生成目标掩码图。

在一些实施方式中，可通过语义分割的方式来获取得到参考图像中针对差异信息的目标掩码图。例如，步骤（103.2）可以包括：构建与参考图像相同尺寸的初始掩码图；获取参考图像中针对差异对象的指示信息，该指示信息不限于包括差异对象的背景的像素区域、标记框和对象描述文本等；通过语义分割模型基于初始掩码图、指示信息和参考图像生成目标掩码图。

其中，该掩码分割模型（segment everything）用于按照指示信息生成任意图像的掩码图。结合图5所示，该模型在结构上可包括图像编码器（image encoder）、卷积模块（conv）、融合模块、指示信息的编码器（prompt encoder）、掩码图的解码器（maskdecoder）；具体的，将参考图像输入到语义分割模型中，通过图像编码器对该参考图像进行编码处理，得到图像向量，同时，通过卷积模块（conv）对初始掩码图进行特征提取，得到掩码图向量；进而，将图像向量与掩码图向量进行融合处理，得到图像融合特征；此外，通过指示信息的编码器（prompt encoder）对指示信息进行编码处理，该指示信息可包含差异对象的背景的像素区域（point）、标记框（box）和对象描述文本（text），得到指示信息的编码特征，并通过掩码图的解码器（mask decoder）对图像融合特征和指示信息的编码特征进行解码处理，输出得到一个或多个预测掩码图；需要说明的是，当输出仅有一个预测掩码图时，将该预测掩码图作为目标掩码图；当输出有多个预测掩码图时，每个预测掩码图具有对应的评分，可选取评分最大的预测掩码图作为目标掩码图。

为了便于理解目标掩码图的生成原理，以下将以场景示例对介绍该目标掩码图，具体为：示例性的，假设参考图像中包含两只橘猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的右上方区域奔跑；而相似图像中包含两只橘猫，第一只橘猫卧在草地上，第二只橘猫位于第一只橘猫的左上方区域奔跑；则差异信息包含在参考图像中的第二只橘猫的信息、以及位于第一只橘猫的左上方区域的草地的信息，如位置分布信息、尺寸信息、形状信息等。进而，在构建与参考图像大小的初始掩码图后，可针对以上得到的差异信息生成目标掩码图，该目标掩码图主要用于在图像处理时对相似图像中的第二只橘猫的像素区域进行掩码，以及对相似图像中位于第一只橘猫的右上方区域的草地的像素区域进行掩码，则在目标掩码图中，针对这两个像素区域用“0”表示，并在目标掩码图中用“1”表示除了以上两个区域外的所有像素区域。

通过以上方式，可获取参考图像相对于相似图像的差异信息的目标掩码图，利用目标掩码图作为调整相似图像时的必要元素，以参与对相似图像的局部微调，以便后续提高图像调整时的精确性。

104、基于差异信息进行扩充，得到差异描述文本。

在本申请实施例中，为了实现对相似图像进行局部调整，除了需要获取参考图像中针对差异信息的掩码图外，还需要获取针对参考图像中的差异信息的相关描述文本，以便后续以该差异信息的相关描述文本作为图像调整的引导条件，以对相似图像进行的局部调整，提高图像调整的准确性。

其中，该差异描述文本可以是描述参考图像相对于相似图像的内容差异的文本，其主要是基于差异信息进行文本上的扩充表述得到，可丰富、准确地表示参考图像与相似图像之间的差异。该差异描述文本可作为对相似图像调整的引导条件，以参与指示相似图像的局部调整，提高图像调整的准确性。

在一些实施方式中，由于差异信息可以反映参考图像对于相似图像之间的差异，为了获取用于充分描述两个图像之间的差异的描述文本，可以基于参考图像中差异对象与其他对象之间的关系、差异对象的对象描述文本进行扩充描述，以获取针对两个图像之间的差异的描述文本，即差异描述文本。例如，步骤104可以包括：

（104.1）根据差异信息，确定参考图像相对于相似图像的差异对象；

（104.2）确定差异对象与参考图像中其他对象之间的对象关系信息；

（104.3）获取参考图像的全局描述文本和差异对象的目标对象描述文本；

（104.4）基于全局描述文本、目标对象描述文本和对象关系信息进行文本扩充，得到差异描述文本。

其中，该对象关系信息可以是表示差异对象与任意一个对象之间关系的信息，该对象关系不限于包括差异对象与其他对象之间的位置分布关系（如距离、方向）、类别关系（是否属于同一物种属性）等。示例性的，参考图像的对象元素包括草地、一只橘猫和一只蓝猫，橘猫卧在参考图像中心位置的草地区域，蓝猫位于橘猫的右上方区域的草地；相似图像的对象元素同样包括草地、一只橘猫和一只蓝猫，但不同的是，相似图像中的蓝猫位于第橘猫的左上方区域的草地；由此可得，参考图像相对于相似图像的差异对象至少可以包括蓝猫，以蓝猫作为差异对象为例，对象关系信息可以包括参考图像中蓝猫与橘猫之间的位置分布关系（如蓝猫位于橘猫的右上方区域）、蓝猫与橘猫之间的类别关系（蓝猫与橘猫属于同一物种类别）。

具体的，为了能够对参考图像与相似图像之间的差异信息进行丰富的描述，首先，可确定参考图像中该差异信息所对应的差异对象，并获取该差异对象在参考图像中的与任意一个其他对象之间的对象关系信息，如确定当前的差异对象与图中其他对象的位置关系、是否属于同一对象类别（物体类别）等；进一步的，参考前述的“第一描述文本”的获取，获取到参考图像的全局描述文本，以及获取差异对象关联的对象描述文本；最后，基于参考图像的全局描述文本、差异对象的描述文本、以及差异对象相对于其他对象之间的对象关系信息，进行文本的扩充描述，以此，实现对参考图像与相似图像之间的差异信息进行充分的描述，得到扩充后的差异描述文本。该差异描述文本丰富地表述了该差异对象在参考图像中其他对象之间的关系以及差异对象的对象状态信息。如此，相对于对象描述文本，该差异描述文本能够更丰富地表示参考图像中差异对象的相关信息，以便后续在对相似图像进行调整时作为引导条件，实现准确地对相似图像进行局部区域的微调，具有可靠性。

示例性的，在对差异信息进行文本扩充时，可采用现有的大规模语言处理模型，具体的，可将对象关系信息、全局描述文本、差异对象的对象描述文本传输给大规模语言处理模型，使得大规模语言处理模型基于该对象关系信息，从全局描述文本和差异对象的对象描述文本中挖掘出相关信息，并进一步进行文本扩充，以生成一段包含差异对象的丰富描述的文本，即差异描述文本，以用作后续的图像调整的数据。

通过以上方式，可获取针对参考图像中的差异信息的丰富描述的文本，以便后续利用该差异描述文本作为引导条件，用于指示对相似图像进行的局部调整，提高图像调整的准确性。

105、根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

在本申请实施例中，为了获得更符合参考图像的内容信息的目标图像，可在获得与参考图像相似的相似图像后，以相似图像作为待调整图像，进而，以目标掩码图、差异描述文本和参考图像等作为图像处理的引导条件，并基于引导条件来调整相似图像，以对相似图像的局部微调，生成一个更符合参考图像的内容需求的目标图像，具有可靠性。

其中，该目标图像可以是当前数据库中并未存储有的图像，其主要是在相似图像的基础上进行局部微调得到的。具体的，从预设数据库中查找到与参考图像最相似的相似图像后，由于该相似图像实际上可能与参考图像存在一定的差异，此时，为了获取到与参考图像更匹配相似图像，可将相似图像作为基础图像，根据参考图像以及针对差异的目标掩码图、差异描述文本对该基础图像作进一步微调，以获得与参考图像更相似的目标图像。

需要说明的是，在对相似图像进行局部区域的调整时，其主要是以目标掩码、差异描述文本和参考图像作为图像调整的引导条件。其中，目标掩码图主要作用是影响相似图像中属于目标像素区域的像素呈现，该目标像素区域可以是参考图像相对于相似图像存在差异或非差异对应的像素区域。其中，对相似图像的调整可以包括两部分，具体的，第一部分是以差异描述文本作为引导条件，结合目标掩码图对相似图像进行局部调整；第二部分是以参考图像作为引导（约束）条件，结合目标掩码图对相似图像进行局部调整。为了便于理解，以下将对相似图像的调整作具体描述。

在本申请实施例中，在对相似图像进行局部微调时，可先将对相似图像进行掩码处理，再对掩码处理结果进行微调处理，得到调整后的目标图像；此外，还可在微调处理过程中对图像进行掩码。需要说明的是，以上图像的微调处理过程不限于通过噪声处理方式来实现，具体可选的实施方式参见如下描述。

（A）先对相似图像进行掩码处理，再对掩码处理结果进行微调处理：

在一些实施方式中，可将差异描述文本和参考图像分别作为相似图像的引导条件，并分别对相似图像进行局部调整，以将两个调整结果融合得到目标图像。例如，步骤105可以包括：

（105.A.1）根据目标掩码图和差异描述文本，对相似图像进行局部微调，得到第一图像；

（105.A.2）根据目标掩码图和参考图像，对相似图像进行局部微调，得到第二图像；

（105.A.3）将第一图像与第二图像进行融合，得到调整后的目标图像。

其中，该第一图像可以是相似图像按照差异描述文本进行局部调整后得到的图像，该图像中的内容相对于相似图像存在区别，该第一图像中的部分区域存在空白像素区域，即无内容的区域，具体为与参考图像中差异信息对应的像素区域为空白像素区域。示例性的，假设参考图像和相似图像的内容都是包含蓝猫和橘猫在草地上玩耍，但这两个图像之间的差异是“蓝猫在图像中的位置”，因此，在按照差异描述文本对相似图像进行局部微调时，可按照参考图像中蓝猫所在的像素区域对相似图像中相同位置的像素区域进行调整，将该调整的像素区域定义为差异像素区域，得到第一图像，该第一图像中的差异像素区域会以空白像素区域代替，即无内容；此外，在对相似图像进行微调时，还可将该相似图像中原蓝猫所在的像素区域进行调整，以使得第一图像中原相似图像的蓝猫所在的像素区域以空白像素区域代替。又如，假设参考图像和相似图像包含的内容都是“一个盘子装有食物，刀叉餐具”，但该参考图像和相似图像之间的差异在于刀叉餐具的摆放位置，则在对相似图像进行局部调整后时，按照参考图像中刀叉餐具所在的像素区域对相似图像中相同位置的像素区域进行调整，得到的第一图像中被调整的像素区域以空白像素区域代替。

其中，第二图像可以是相似图像按照参考图像的引导条件进行局部调整得到的图像，该第二图像中大部分区域为空白像素区域，仅包含针对参参考图像中差异信息对应的像素区域为非空白像素区域，该非空白像素区域中的像素组合所呈现的内容为参考图像中的差异信息对应的差异对象的图像内容。示例的，假设参考图像和相似图像的内容都是包含“蓝猫和橘猫在草地上玩耍”，但这两个图像之间的差异是“蓝猫在图像中的位置”，因此，在按照参考图像对相似图像进行局部微调时，可按照参考图像中蓝猫所在的像素区域对相似图像中相同位置的像素区域进行调整，得到的第二图像中非空白像素区域包含参考图像的蓝猫所在的像素区域，所呈现的内容为参考图像中的蓝猫以及该蓝猫的形状、体态、动作等信息，可以理解的是，该第二图像中部包含橘猫和草地的图像内容。又如，假设参考图像和相似图像包含的内容都是“一个盘子装有食物，刀叉餐具”，但该参考图像和相似图像之间的差异在于刀叉餐具的摆放位置，则在对相似图像进行局部调整后时，得到的第二图像仅包含参考图像中的刀叉餐具的图像内容。

为了获取与参考图像更相似的目标图像，可包含图像调整和图像融合这两个阶段。具体的，在图像调整阶段，可包含差异描述文本引导和参考图像引导这两部分；其中，第一部分可以是以差异描述文本作为图像调整时的引导条件，结合目标掩码图对相似图像进行调整，以获取得到第一图像，使得该第一图像在差异信息对应的像素区域为空白像素区域，不包含图像内容；其中，第二部分可以是以参考图像作为图像调整的引导条件，并结合目标掩码图对相似图像进行调整，以获取第二图像，使得该第二图像仅包含差异信息对应的像素区域的图像内容。进一步的，将获得的第一图像和第二图像进行叠加融合，以使得第二图像中差异信息对应的像素区域的图像内容与第一图像中差异信息对应的空白像素区域叠加填充，实现第一图像和第二图像之间的图像内容互补，以获得经过局部微调后的目标图像，该目标图像相对于相似图像，其更符合参考图像的图像内容需求，与参考图像更相似。

需要说明的是，在对相似图像进行局部微调时，可通过带有条件的隐空间扩散（Stable Diffusion，SD）模型来实现，具体的，将相似图像输入到带有条件的隐空间扩散模型中，通过该带有条件的隐空间扩散模型对相似图像进行噪声扩散处理，并在噪声扩散过程中引入引导条件进行辅助，以指示图像对相关像素区域进行精确微调，提高图像调整的准确性。

在一些实施方式中，步骤（105.A.1）可以包括：通过第一神经网络模型基于目标掩码图和差异描述文本，对相似图像进行局部微调，生成第一图像。步骤（105.A.2）可以包括：通过第二神经网络模型基于目标掩码图和参考图像，对相似图像进行局部微调，生成第一图像。其中，该第一神经网络模型和第二神经网络模型都是带有条件的隐空间扩散（StableDiffusion，SD）模型。

在一些实施方式中，为了实现通过带有条件的隐空间扩散（Stable Diffusion，SD）模型来对相似图像进行局部微调，需要对带有条件的隐空间扩散模型进行训练，以分别得到用于图像微调的第一神经网络模型和第二神经网络模型。

例如，以第一神经网络模型的训练为例，在步骤（105.A.1）之前，还可以包括：获取样本参考图像和样本相似图像，以及第一样本目标图像；基于样本参考图像与样本相似图像之间的差异信息，生成样本参考图像的样本目标掩码图和样本差异描述文本；通过预设模型基于样本目标掩码图、样本差异描述文本，对样本相似图像进行局部微调，生成第一预测图像；根据第一样本目标图像与第一预测图像之间的差异，确定预测损失；基于预测损失对预设模型进行迭代训练，直至达到预设条件，得到第一神经网络模型。

又如，在步骤（105.A.2）之前，还可以包括：获取样本参考图像和样本相似图像，以及第二样本目标图像；基于样本参考图像与样本相似图像之间的差异信息，生成样本参考图像的样本目标掩码图，并获取与样本目标掩码图相反的样本目标反掩码图；通过预设模型基于样本目标反掩码图和参考图像，对样本相似图像进行局部微调，生成第二预测图像；根据第二样本目标图像与第二预测图像之间的差异，确定预测损失；基于预测损失对预设模型进行迭代训练，直至达到预设条件，得到第二神经网络模型。

在一些实施方式中，相似图像的局部微调主要是在图像的噪声扩散中引入引导条件，以在噪声扩散中指示对相似图像的目标区域区域进行局部微调，提高图像调整时的准确性。例如，以差异描述文本作为图像调整的引导条件，通过第一神经网络模型对相似图像进行调整为例，步骤（105.A.1）可以包括：

（105.A.1.1）根据目标掩码图对相似图像进行掩码处理，得到第一相似掩码图像；

（105.A.1.2）对第一相似掩码图像进行加噪处理，得到第一相似噪声图；

（105.A.1.3）获取差异描述文本对应的差异文本向量；

（105.A.1.4）根据差异文本向量对第一相似噪声图进行减噪处理，得到第一特征图；

（105.A.1.5）对第一特征图进行解码处理，得到第一图像。

需要说明的是，目标掩码图的作用为将相似图像中与参考图像的差异对象所在区域的相同位置的目标像素区域进行掩盖，以阻拦相似图像中针对该目标像素区域中的像素的表征，因此，可在通过第一神经网络模型对相似图像进行调整之前，首先，根据目标掩码图对相似图像进行掩码处理，该掩码处理过程可以是将目标掩码图与相似图像之间进行相乘，以使得目标掩码图中每个数值都与相似图像中对应的像素进行相乘，得到第一相似掩码图像。然后，将该第一相似掩码图像输入到第一神经网络模型中，以通过第一神经网络模型对第一相似掩码图进行局部微调，为了便于理解，可结合图6所示，对该第一神经网络模型的图像调整过程进行介绍，具体为：第一神经网络模型对第一相似掩码图像进行编码处理，并将编码结果引入到隐空间中，在隐空间中对编码结果进行前向扩散，该前向扩散可以理解为加噪处理的过程，以获取第一相似噪声图。接着，在对第一相似噪声图进行反向扩散之前，对作为引导条件的差异描述文本进行文本编码处理，以获得差异文本向量，实现将差异描述文本引入隐空间中；进而，在隐空间中对第一相似噪声图进行反向扩散（减噪）处理，并在反向扩散处理时，将差异文本向量融入第一相似噪声图的噪声中进行一起反向扩散，以获得第一特征图。最后，对第一特征图进行解码处理，以将隐空间中第一特征图进行恢复，以得到第一图像。

需要说明的是，在通过第一神经网络模型对第一相似噪声图进行局部微调时，主要是包括前向扩散和反向扩散两个过程，其中，该前向扩散具体是对图像进行噪声化的处理过程，可以理解为逐步加噪处理的过程，而该反向扩散过程是对噪声图进行降噪处理的过程，可以理解为逐步减噪的过程。

在一些实施方式中，为了对相似图像进行前向扩散，需要将相似图像转化为向量，以导入到隐空间中，并在隐空间中进行前向扩散处理。例如，以差异描述文本作为引导条件的模型的前向扩散为例，步骤（105.A.1.2）可以包括：对第一相似掩码图像进行编码处理，得到编码特征图；对编码特征图进行噪声处理，得到第一相似噪声图。

具体的，在将第一相似掩码图像输入至第一神经网络模型后，该第一神经网络模型在像素空间中对第一相似掩码图像进行图的特征编码处理，得到编码特征图，该编码特征图为第一相似掩码图像的向量特征矩阵；进而，将该编码特征图传输至隐空间中，在隐空间中对编码特征图进行前向扩散，该前向扩散过程为加噪处理过程，主要是编码特征图进行逐步加噪处理，并经过多个时间步的加噪处理，实现对第一相似掩码图进行完全噪声化处理，得到全部噪声化的第一相似噪声图。

在一些实施方式中，经过前向的加噪处理得到第一相似噪声图后，对第一相似噪声图进行反向的降（减）噪处理，并在降噪处理过程中结合引导条件对应的特征向量，以得到降噪后的噪声图。例如，以差异描述文本对应的差异文本向量作为引导条件为例，步骤（105.A.1.4）可以包括：对第一相似噪声图进行连续多次降噪处理，并通过注意力机制在每次降噪处理过程中融入差异文本向量，得到第一特征图。

具体的，为了对完全噪声化的第一相似噪声图进行反向扩散处理时，需要对第一相似噪声图进行多个回合（时间步）的减噪处理，并在每个减噪处理过程中加入差异描述文本对应的差异文本向量，实现对相似图像的准确微调，直至经历预设数量个时间步的减噪，获得第一特征图。

示例性的，为了便于理解每个回合的减噪处理过程，以第一回合的减噪处理过程为例，由于第一相似噪声图是完全噪声化的噪声图，假设经历过T个时间步的加噪处理，则该第一相似噪声图可以表示为“Z_T”或“X_T”，在第一回合的减噪处理时，是对第一相似噪声图“Z_T”进行减噪处理，并在减噪处理时通过注意力机制融入差异文本向量。结合图6，每个回合的解噪处理过程都是在减噪网络层（Denoising U-Net）中实现，具体参见图7，该减噪网络层（Denoising U-Net）在结构上包括残差网络层（ResNet）和注意力模块，其中，该残差网络层（ResNet）主要用于特征提取，实现逐步减噪的过程，以及注意力模块用于对引导条件对应的特征向量（如文本差异向量）与噪声特征图进行融合，实现对图像微调中的指示和引导。

具体的，该减噪网络层（Denoising U-Net）可由两个残差网络层和两个注意力模块组成，在结构上具体为“残差网络层-注意力模块-残差网络层-注意力模块”，以下将结合减噪网络层的具体结果对一个减噪回合的减噪处理过程进行介绍，具体如下：首先，通过第一个残差网络层对第一相似噪声图进行特征提取，将特征提取的第一特征结果传输至第一个注意力模块，以及将差异文本向量传输至第一个注意力模块，通过第一个注意力模块将差异文本向量融入到第一特征结果中，例如，可以是通过注意力机制对差异文本向量进行注意力计算，并将注意力计算结果与第一特征结果进行融合，得到第一初始融合结果。进一步的，通过第二个残差网络层对第一初始融合结果进行特征提取，得到第二特征结果，并将第二特征结果传输至第二个注意力模块，以及将差异文本向量传输至第二个注意力模块，通过第二个注意力模块将差异文本向量融入到第二特征结果中，得到第一融合噪声图。

按照以上示例，经过多回合（“T-1”次）的减噪处理，得到最终的第“T-1”的融合噪声图，该第“T-1”的融合噪声图就是第一特征图。

进一步的，在得到第一特征图后，对该第一特征图的解码过程，具体可以是：通过解码模块对隐空间中的第一特征图进行解码处理，以在像素空间中将第一特征图恢复为像素矩阵，以使得第一神经网络输出局部微调后的第一图像。

在一些实施方式中，以参考图像作为图像调整的引导条件，通过第二神经网络模型对相似图像进行调整。例如，步骤（105.A.2）可以包括：对目标掩码图进行取反，得到目标掩码图对应的目标反掩码图；根据目标反掩码图对相似图像进行掩码处理，得到第二相似掩码图像；对第二相似掩码图像进行加噪处理，得到第二相似噪声图，其中，所述第二相似噪声图的时间步与所述第一相似噪声图的时间步相邻；根据参考图像对应的特征图对第二相似噪声图进行减噪处理，得到第二特征图；对第二特征图进行解码处理，得到第二图像。

需要说明的是，以参考图像作为引导条件对相似图像局部微调的目的是：在经过图像微调后，获取包含针对差异对象的表征的第二图像；由于目标掩码图的作用为将相似图像中与参考图像的差异对象所在区域的相同的目标像素区域进行掩盖，对此，需要将目标掩码图进行取反处理，该取反处理过程是将目标掩码图中原来的“0”置换为“1”，同时，将目标掩码图中原来的“1”置换为“0”，以获得目标反掩码图，该目标反掩码图的作用为允许差异对象所在的目标像素区域中的像素的表征，且拒绝非目标像素区域的其他像素的表征。

进一步的，在获得目标反掩码图后，首先，根据目标反掩码图对相似图像进行掩码处理，该掩码处理过程可以是将目标反掩码图与相似图像之间进行相乘，以使得目标掩码图中每个数值都与相似图像中对应的像素进行相乘，得到第二相似掩码图像。然后，将该第二相似掩码图像输入到第二神经网络模型中，以通过第二神经网络模型对第二相似掩码图进行局部微调，为了便于理解，可结合图6所示，对该第二神经网络模型的图像调整过程进行介绍，具体为：第二神经网络模型对第二相似掩码图像进行编码处理，并将编码结果引入到隐空间中，在隐空间中对编码结果进行前向扩散，该前向扩散可以理解为加噪处理的过程，以获取第二相似噪声图。接着，在对第二相似噪声图进行反向扩散之前，对作为引导条件的参考图像进行图像编码处理，以获得参考图像对应的特征图（即向量矩阵），实现将参考图像对应的特征图引入隐空间中；进而，在隐空间中对第二相似噪声图进行反向扩散处理，并在反向扩散处理时，将参考图像对应的特征图融入第二相似噪声图的噪声中进行一起反向扩散，以获得第二特征图。最后，对第二特征图进行解码处理，以将隐空间中第一特征图进行恢复至像素空间进行表征，以输出得到第二图像。

需要说明的是，以参考图像的特征图作为约束条件时，对第二相似噪声图进行反向扩散时，其具体处理过程与上述“在减噪网络层（Denoising U-Net）对第一相似噪声图进行反向扩散处理过程”的步骤相同，仅存在差异的“参考图像的特征图”与“差异描述文本的差异文本向量”，该反向扩散过程具体可以结合图6和图7以及前述内容进行理解，此处不做一一赘述。

（B）在微调处理过程中对图像进行掩码处理：

需要说明的是，在对相似图像进行局部微调时，可通过带有条件的隐空间扩散（Stable Diffusion，SD）模型来实现，具体的，将相似图像和目标掩码图输入到带有条件的隐空间扩散模型中，通过该带有条件的隐空间扩散模型对相似图像进行噪声扩散处理，并在噪声扩散过程中引入引导条件（如差异描述文本和参考图像）进行辅助，以指示图像对相关像素区域进行精确微调，提高图像调整的准确性。

在一些实施方式中，先对需要微调的相似图像进行连续多个时间步的噪声化处理，获取时间步相邻的两个噪声图，并根据目标掩码图、差异描述文本和参考图像对噪声图像进行微调，以将微调结果融合得到目标图像。例如，步骤105可以包括：

（105.B.1）对所述相似图像进行加噪处理，并获取所述加噪处理中相邻时间步的第一相似噪声图和第二相似噪声图；

（105.B.2）根据所述目标掩码图和所述差异描述文本，对所述第一相似噪声图进行解噪处理，得到第一图像；

（105.B.3）根据所述目标掩码图和所述参考图像，对所述第二相似噪声图进行解噪处理，得到第二图像；

（105.B.4）将所述第一图像与所述第二图像进行融合，得到调整后的目标图像。

具体的，可通过带有条件的隐空间扩散（Stable Diffusion，SD）模型来实现对相似图像的局部微调，将相似图像和目标掩码传输给该扩散模型，扩散模型将相似图像经过编码处理得到特征图，并将该特征图导入到隐（潜）空间中进行前向扩散，该前向扩散过程为经历多个时间步的逐渐加噪处理过程，每个时间步视为一次加噪处理，直至得到完全噪声化的噪声图，进而，可取完全噪声化的噪声图和相邻的前一时间步的噪声图，具体可将该相邻的前一时间步的噪声图作为第一相似噪声图，以完全噪声化的噪声图作为第二相似噪声图；进一步的，基于目标掩码图和差异描述文本，对第一相似噪声图进行反向扩散处理，该反向扩散处理过程为连续多次减噪处理，以获取得到第一图像，以及基于目标掩码图和参考图像，对第二相似噪声图进行反向扩散处理，以获取得到第二图像。最后，将第一图像和第二图像进行融合，得到调整后的目标图像。

示例性的，结合图6所示，将相似图像X、目标掩码图、差异描述文本和参考图像传输给带有条件的隐空间扩散（Stable Diffusion，SD）模型，其中，该扩散模型会对相似图像X进行编码处理，以将编码处理结果（特征图Z）导入到隐空间中，通过前向扩散（加噪）处理，假设通过T个时间步的逐步加噪处理，得到完全噪声化的噪声图“Z_T”，也可以表示为“X_T”，从而，取噪声图“Z_T”作为第二相似噪声图，并取相邻时间步的噪声图噪声图“Z_T-1”作为第一相似噪声图。进一步的，基于目标掩码图和差异描述文本，对第一相似噪声图进行反向扩散处理，该反向扩散为经历对应数量的时间步的减噪处理，如经历“T-1”个时间步的逐渐减噪处理，并解码得到第一图像；同理，相似噪声图进行反向扩散处理，该反向扩散为经历对应数量的时间步的减噪处理，如经历“T-1”个时间步的逐渐减噪处理，得到第一特征图“Z”，并解码得到第二图像。最后，将第一图像和第二图像融合，如叠加、拼接等处理，以得到调整的后目标图像。

需要说明的是，取与第一相似噪声图相邻时间步的噪声图作为第二相似噪声图，在减噪中引入参考图像来进行引导减噪，以使得参考图像与相似图像的特征在相邻时间步“T-1”和“T”时能够保证一致，如大小、尺寸等一致，具有可靠性。

在一些实施方式中，第一图像由差异描述文本作为引导条件进行微调得到。例如，步骤（105.B.2）可以包括：根据所述目标掩码图对所述第一相似噪声图进行掩码处理，得到第一掩码噪声图；获取所述差异描述文本对应的差异文本向量，并根据所述差异文本向量对所述第一相似噪声图进行减噪处理，得到第一特征图；对所述第一特征图进行解码处理，得到第一图像。

示例性的，带有条件的隐空间扩散（Stable Diffusion，SD）模型在经历多次加噪处理得到第一相似噪声图“Z_T-1”，将目标掩码图与第一相似噪声图进行相乘，得到第一掩码噪声图；同时，以差异描述文本作为引导条件，对差异描述文本进行文本编码处理，获得差异文本向量；进而，基于该差异文本向量对第一掩码噪声图进行逐步减噪，具体为在每个时间步的减噪处理过程中通过注意力机制将差异文本向量引入到该时间步的噪声中去，持续连续“T-1”个时间步的减噪，直至完全去噪，得到第一特征图，如图6中“Z”；最后，将该第一特征图进行解码处理，得到第一图像。需要说明的是，以上仅为示例，还可在完全去噪后再对第一特征图进行掩码处理，关于掩码处理过程的时序，此处具体不做限定。

在一些实施方式中，第二图像由参考图像作为引导条件进行微调得到的。步骤（105.B.3）可以包括：对所述目标掩码图进行取反，得到所述目标掩码图对应的目标反掩码图；根据所述目标反掩码图对所述第二相似噪声图进行掩码处理，得到第二掩码噪声图；根据所述参考图像对应的特征图对所述第二掩码噪声图进行掩码处理，得到第二特征图；对所述第二特征图进行解码处理，得到第二图像。

示例性的，带有条件的隐空间扩散（Stable Diffusion，SD）模型在经历多次加噪处理得到第二相似噪声图“Z_T”后，需要对第二相似噪声图进行掩码处理，由于需要从参考中提取出图像中差异对象部分的信息，以及屏蔽参考图像和相似图像中其他非差异对象部分的信息，因此，需要对目标掩码图进行取反，以获取与目标掩码图相反的目标反掩码图。进而，将目标反掩码图与第二相似噪声图进行相乘，得到第二掩码噪声图，同时，以参考图像作为引导条件，对参考图像进行图像编码处理，获得参考图像的特征图；进而，基于该参考图像的特征图对第二掩码噪声图进行逐步减噪，具体为在每个时间步的减噪处理过程中，通过注意力机制将参考图像的特征图引入到该时间步的噪声中去，持续连续“T”个时间步的减噪，直至完全去噪，得到第二特征图，如图6中“Z”；最后，将该第二特征图进行解码处理，得到第二图像。需要说明的是，以上仅为示例，还可在完全去噪后再对第二特征图进行掩码处理，关于掩码处理过程的时序，此处具体不做限定。

在一些实施方式中，关于带有条件的隐空间扩散（Stable Diffusion，SD）模型的训练过程具体为：获取样本参考图像、样本相似图像以及样本目标图像，并获取样本参考图像相对于样本相似图像的样本差异描述文本和样本目标掩码图；进而，将样本参考图像、样本相似图像、样本差异描述文本和样本目标掩码图传输给预设的SD模型，分别以样本差异描述文本和样本参考图像作为引导条件，结合样本目标掩码图对样本相似图像进行局部微调，得到预测目标图像；进而，获取预测目标图像与样本目标图像之间的差异，以构建预测损失，并基于预测损失对预设模型进行迭代训练，直至达到预设条件，得到训练后的目标模型，即带有条件的隐空间扩散模型。

由上可知，本申请实施例可先从现有的数据中获取与参考图像相似的相似图像，然后，基于参考图像与相似图像之间的差异信息，生成目标掩码图，以及，针对该差异信息进行扩充，以丰富表示该差异信息的差异描述文本，最后，联合目标掩码、差异描述文本和参考图像对现有的相似图像进行局部微调，以获取微调后的目标图像；以此，可对图像之间的差异进行扩充描述，并针对差异的扩充描述文本和参考图像作为约束来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

本申请实施例以图像处理为例，对本申请实施例提供的图像处理方法作进一步叙述。

图8是本申请实施例提供的图像处理方法的另一步骤流程示意图，图9是本申请实施例提供的图像处理系统的的框架结构的示意图，图10是本申请实施例提供的残差网络层的结构示意图，图11是本申请实施例提供的差异信息汇总生成差异描述文本的场景示意图，图12是本申请实施例提供的图像微调过程的场景示意图。为了便于理解，本申请实施例结合图3-12进行描述。

在本申请实施例中，将从图像处理装置的维度进行描述，该图像处理装置具体可以集成在计算机设备如服务器中。例如，该计算机设备上的处理器执行图像处理方法对应的程序时，该图像处理方法的具体流程如下：

201、获取参考图像，并获取与参考图像相似的相似图像。

在本申请实施例中，为了获得与参考图像更相似的目标图像，可从预设数据库中搜寻与参考图像最为相似的相似图像，以便后续对搜寻到的相似图像作进一步的图像处理，如对相似图像进行局部微调，以获得更贴合参考图像的目标图像。

其中，该参考图像可以是包含任意内容的图像。例如，以图像查询业务平台为例，客户向该平台发送一个或多个例图，该例图为本申请实施例的参考图像，平台在收到该例图后，可从现有的数据库中查找与该例图相似的相似图像，以便后续以该相似图像作为基础，结合相似图像与参考图像之间的差异来对相似图像进行局部调整。

其中，该相似图像可以是数据库中与参考图像最为相似的图像，其可以理解为现有数据中在图像内容或图像风格等方面与参考图像最为相似的图像。

具体的，为了从预设数据库中选取与该参考图像相似的相似图像，获取相似图像的过程可以为：首先，可确定参考图像对应的参考聚类中心，并分别计算该参考聚类中心与现有的数据库中每个图像聚类中心之间的特征类别距离。进一步的，可根据特征类别距离来选取与参考图像相似的相似图像，具体的，可根据该特征类别距离的大小来判定参考图像的聚类中心与数据库中的哪一个图像聚类中心更相近，以将该相近的目标图像聚类中心的图像类别确定为与该参考聚类中心的图像类别；进而，计算参考图像与目标图像聚类中心的图像类别下的每一图像之间的特征距离，需要说明的是，特征距离的大小可以反映任意两个图像之间的相似度，因此，可根据特征距离的大小来选取与参考图像相似的相似图像，例如，选取与参考图像的特征距离最小的图像作为相似图像。

202、确定参考图像与相似图像之间的差异信息。

其中，该差异信息可以是表示参考图像与相似图像之间的特征差异的信息，其不限于包括图像中的存在差异的对象（事物）数量、对象位置和/或对象体态等差异信息。

具体的，为了获取参考图像与相似图像之间的差异信息，可通过图文转换的方式获取参考图像的第一描述文本，以及通过图文转换的方式获取相似图像的第二描述文本；进一步的，基于第一描述文本与第二描述文本之间的差异，生成参考图像与相似图像之间的差异信息。

为了便于理解该第一描述文本和第二描述文本，以该第一描述文本的为例，对其进行叙述。具体的，该第一描述文本可以包括针对参考图像中整体图像内容的全局描述文本和图像中每个对象的对象描述文本。

其中，该全局描述文本的生成途径可以基于预训练的冻结图像编码器和大型语言模型（ Bootstrapping Language-Image Pre-training with Frozen Image Encodersand Large Language Models，BLIP2）来实现。具体的，该模型在结构上可以包括视觉与语言表征学习（Vision-and-Language Representation Learning）、视觉到语言的生成学习（Vision-to-Language Generative Learning）两部分，其中，该视觉与语言表征学习在结构上包括图像编码器（Image Encoder）和轻量级的查询变压器（ Querying Transformer，Q-Former），其中，该视觉到语言的生成学习在结构上包括大规模语言模型（LargeLanguage Models，LLM）。全局描述文本的生成过程为：将参考图像输入到图像编码器，通过图像编码器对该参考图像进行编码处理，得到图像编码结果；进而，将该图像编码结果输入到轻量级的查询变压器，并确定参考图像中的对象类别标签，以在轻量级的查询变压器中与对象类别标签进行融合，得到融合特征结果；最后，将该融合特征结果输入至大规模语言模型进行语言处理，以输出针对该参考图像的全局描述文本。

其中，该对象描述文本的生成途径可以基于图像区域到文本的生成转换器（Generative Region-to-Text Transformer，GRIT）来实现，该模型在结构上可以包括视觉编码器（Visual Encoder）、定位对象的地标物体提取器（Foreground Object Extractor）和文本解码器（Text Decoder）。具体的，对象描述文本的生成过程为：对参考图像中的每个对象进行识别，以确定参考图像中每个对象所在的像素区域，并标示每个对象的类别，将已确定每个对象的像素区域和类别的参考图像输入到图像区域到文本的生成转换器中，以对像素区域进行区域与语言之间的转化处理，输出得到转化处理后的参考图像，该转化处理后的参考图像中包含用于标注每个对象的标记框，以及每个标记框中的对象的对象描述文本。

以此，可以确定参考图像与相似图像之间的差异情况，以便后续结合该两者图像之间的差异情况作为图像处理过程中的调整依据，并对相似图像进行调整，提高图像调整的准确性。

203、确定参考图像中针对差异信息的目标掩码图，并获取与目标掩码图相反的目标反掩码图。

在本申请实施例中，主要采用局部调整的方式来对相似图像进行图像处理，因此，需要获取参考图像中针对差异信息的掩码图，以利用掩码图来参与对相似图像的局部微调，以便后续提高图像调整时的精确性。

需要说明的是，该目标掩码图可以是针对参考图像相对于相似图像的差异信息生成的像素区域遮掩图，用于将相似图像中与参考图像的差异对象所在区域的相同位置的目标像素区域进行掩盖，以阻拦相似图像中针对该目标像素区域中的像素的表征，使得该相似图像中的目标像素区域呈现空白，即内容。该目标掩码图主要以“0”和“1”进行表示，其中，目标像素区域中的数值为“0”，除了该目标像素区之外的其他区域的数值为“1”。

此外，目标反掩码图是与目标掩码图相反的掩码图，用于允许差异对象所在的目标像素区域中的像素的表征，拒绝非目标像素区域的其他像素的表征。可以理解的是，在该目标反掩码图中，该目标像素区域中的数值为“1”，除了该目标像素区之外的其他区域的数值为“0”。

以此，可分别获取针对参考图像中的差异对象的目标掩码图，以及目标反掩码图，以作为调整相似图像时的必要元素，分别参与对相似图像的局部微调，以便后续提高图像调整时的精确性。

204、基于差异信息进行文本扩充，得到差异描述文本。

在本申请实施例中，可获取针对参考图像中的差异信息的相关描述文本，以便后续以该差异信息的相关描述文本作为图像调整的引导条件，以对相似图像进行的局部调整，提高图像调整的准确性。

具体的，为了能够对参考图像与相似图像之间的差异信息进行丰富的描述，首先，可确定参考图像中该差异信息所对应的差异对象，并获取该差异对象在参考图像中的与任意一个其他对象之间的对象关系信息，如确定当前的差异对象与图中其他对象的位置关系、是否属于同一对象类别（物体类别）等；进一步的，参考前述的“第一描述文本”的获取，获取到参考图像的全局描述文本，以及获取差异对象关联的对象描述文本；最后，基于参考图像的全局描述文本、差异对象的描述文本、以及差异对象相对于其他对象之间的对象关系信息，进行文本的扩充描述，以此，实现对参考图像与相似图像之间的差异信息进行充分的描述，得到扩充后的差异描述文本。需要说明的是，该差异描述文本丰富地表述了该差异对象在参考图像中其他对象之间的关系以及差异对象的对象状态信息，如此，相对于对象描述文本，该差异描述文本能够更丰富地表示参考图像中差异对象的相关信息。

需要说明的是，在对相似图像进行局部区域的调整时，该调整过程包括两部分：第一，以差异描述文本作为引导条件，结合目标掩码图对相似图像进行局部调整，得到第一图像，具体参见以下步骤205；第二，以参考图像作为引导（约束）条件，结合目标反掩码图对相似图像进行局部调整，得到第二图像，具体参见以下步骤206。

205、通过第一神经网络模型基于目标掩码图和差异描述文本，对相似图像进行局部微调，生成第一图像。

在本申请实施例中，在对相似图像进行局部微调时，该第一神经网络模型可以是带有条件的隐空间扩散（Stable Diffusion，SD）模型，具体的，将相似图像输入到带有条件的隐空间扩散模型中，通过该带有条件的隐空间扩散模型对相似图像进行噪声扩散处理，并在噪声扩散过程中引入引导条件进行辅助，以指示图像对相关像素区域进行精确微调，提高图像调整的准确性。

具体的，在通过隐空间扩散模型对相似图像进行调整之前，首先，根据目标掩码图对相似图像进行掩码处理，该掩码处理过程可以是将目标掩码图与相似图像之间进行相乘，以使得目标掩码图中每个数值都与相似图像中对应的像素进行相乘，得到第一相似掩码图像。然后，将该第一相似掩码图像输入到隐空间扩散模型中，以通过隐空间扩散模型对第一相似掩码图进行局部微调，为了便于理解，可结合图6和图7所示，对该第一神经网络模型的图像调整过程进行介绍，具体为：隐空间扩散模型对第一相似掩码图像进行编码处理，并将编码结果（第一编码特征图）引入到隐空间中，在隐空间中对编码结果进行前向扩散，该前向扩散可以理解为经过多个时间步的逐步加噪处理的过程，以获取完全噪声化的第一相似噪声图。接着，在对第一相似噪声图进行反向扩散之前，对作为引导条件的差异描述文本进行文本编码处理，以获得差异文本向量，实现将差异描述文本引入隐空间中；进而，在隐空间中通过减噪网络层（Denoising U-Net）对第一相似噪声图进行反向扩散处理，该反向扩散处理遇可以理解为进行多次（多个时间步）的减噪处理，并在每次减噪处理过程中通过残差网络层（ResNet）对当前时间步的噪声图进行特征提取，并通过注意力机制融入差异文本向量；经过多个时间步的减噪处理，以获得第一特征图。最后，对第一特征图进行解码处理，以将隐空间中第一特征图恢复至像素空间进行像素表征，以得到第一图像。

其中，按照差异描述文本进行局部调整后得到的第一图像相对于相似图像存在区别，具体为该第一图像中与参考图像中差异对象对应的像素区域为空白像素区域，即不存在图像内容。

206、通过第二神经网络模型基于目标反掩码图和参考图像，对相似图像进行局部微调，生成第二图像。

具体的，首先，将目标反掩码图与相似图像之间进行相乘，以使得目标掩码图中每个数值都与相似图像中对应的像素进行相乘，得到第二相似掩码图像。然后，将该第二相似掩码图像输入到第二神经网络模型，在像素空间中对第二相似掩码图像进行编码处理，得到第二编码特征图。接着，将第二编码特征图引入隐空间（潜空间）中，在隐空间中对第二编码特征图进行多个时间步的逐步加噪处理，以获取完全噪声化的第二相似噪声图。进而，对作为引导条件的参考图像进行图像编码处理，以获得参考图像对应的特征图（即向量矩阵），并在隐空间中对第二相似噪声图进行多个时间步的减噪处理，其中，在每个时间步的减噪处理过程中结合注意力机制多次融入参考图像的特征图；经过多个时间步的减噪处理，以获得第二特征图。最后，对第二特征图进行解码处理，具体为将隐空间中第二特征图恢复至像素空间进行像素表征，以得到第二图像。

其中，按照参考图像进行局部调整后得到的第二图像相对于相似图像存在区别，具体为该第二图像中在相似图像中非差异信息对应的像素区域为空白像素区域，而差异信息对应的像素区域不是空白像素区域，即该第二图像仅包含差异信息对应的像素区域的图像内容。

需要说明的是，关于第一神经网络模型和第二神经网络模型的训练过程，具体可参照前述实施例的描述，此处不做赘述。

207、将第一图像与第二图像进行融合，得到调整后的目标图像。

在本申请实施例中，在获得以差异描述文本作为引导条件调整得到的第一图像和以参考图像作为引导条件调整得到的第二图像后，可将获得的第一图像和第二图像进行叠加融合，以使得第二图像中差异信息对应的像素区域的图像内容与第一图像中差异信息对应的空白像素区域叠加填充，实现第一图像和第二图像之间的图像内容互补，以获得经过局部微调后的目标图像，该目标图像相对于相似图像，其更符合参考图像的图像内容需求，与参考图像更相似，具有可靠性。

在一些实施方式中，关于步骤205~206，还可通过以下过程来实现：具体的，可通过带有条件的隐空间扩散（Stable Diffusion，SD）模型来实现对相似图像的局部微调，将相似图像和目标掩码传输给该扩散模型，扩散模型将相似图像经过编码处理得到特征图，并将该特征图导入到隐（潜）空间中进行前向扩散，该前向扩散过程为经历多个时间步的逐渐加噪处理过程，每个时间步视为一次加噪处理，直至得到完全噪声化的噪声图，进而，可取完全噪声化的噪声图和相邻的前一时间步的噪声图，具体可将该相邻的前一时间步的噪声图作为第一相似噪声图，以完全噪声化的噪声图作为第二相似噪声图；进一步的，基于目标掩码图和差异描述文本，对第一相似噪声图进行反向扩散处理，该反向扩散处理过程为连续多次减噪处理，以获取得到第一图像，以及基于目标掩码图和参考图像，对第二相似噪声图进行反向扩散处理，以获取得到第二图像。最后，将第一图像和第二图像进行融合，得到调整后的目标图像。关于该实施方式的叙述可参见前面实施例（B）的描述，此处不做一一赘述。

为了便于对本申请实施例的理解，将以具体的应用场景实例对本申请实施例进行描述。具体的，通过执行以上步骤201-207，以及结合图3-图12，对该应用场景实例进行描述。

具体的，该图像处理方法主要用于图像局部微调的场景，该图像处理的场景实例具体如下：

一、结合图9所示，该图像处理系统在框架上课包括：训练集（预设数据库）、残差网络的特征提取层（ResNet50）、语义分割层（Segment everything、GRIT以及BLip2）、大规模语言处理模型和微调训练的隐空间扩散模型（SD）。

为了便于理解，结合图9中各处理层对图像处理过程进行概括，具体如下：

从训练集（现存储有的图像集合）中获取与例图相似的相似图像，该相似图像为与例图高度疑似但关键局部信息（某一差异对象）可能不同或者缺失的图片。需要说明的是，该获取相似图像的过程可以通过残差网络的特征提取层（ResNet50）来实现。

结合图10所示，该ResNet50作为主干网络（基础网络），其在结构上包括编码器，该编程是卷积神经网络（CNN），该卷积神经网络（CNN）的特征提取模块由3个卷积层和6个Resblock组成，对于输入的图像（如，参考图像），经过三个卷积层后，该图像的宽(w)和高(h)为原来的1/4，通道数从3变为128，形成一个w/4 * h/4 * 128的特征图，该特征图会再经过由6个ResBlock组成的子网络，生成新的高层语义特征图。其中，每个ResBlock在结构上由两个卷积层和一个直通（identity）层组成，需要说明的是，经过6个ResBlock后，得到的高层语义特征图为w*h*c(比如w/64 * h/64 * 1024)。

具体的，首先，将客户提供的例图输入残差网络的特征提取层（ResNet50），以获取参考图像的高层语义特征图，并基于高层语义信息获取参考图像的特征均值；同理，按照以上方式遍历训练集中的图像数据，以获取训练集中每个图像的高层语义特征图，以及获取其特征均值。然后，降低参考图像的高层语义特征图以及训练集中每个图像的高层语义特征图的特征维度，如通过全局最大池化处理，以使得特征图的维度为128维。

进一步的，计算训练集中各个类别的图像聚类中心Ac，以及计算例图的聚类中心Bc，并通过聚类中心来计算例图与训练集中各个类别的相似度，具体公式如下：

最后，对于每张例图，判断其与训练集中每个类别的图像聚类中心Ac的相似度“”是否大于客户的例图聚类中心与训练集中各个类别的图像聚类中心的相似度。从而，确定相似度大于的情况的图像作为相似图像，以便后续调整。

（2）分别获取例图（参考图像）和相似图像的语义信息，以确定两者之间的差异信息。

其中，通过预训练的冻结图像编码器和大型语言模型（ BootstrappingLanguage-Image Pre-training with Frozen Image Encoders and Large LanguageModels，BLIP2）来获取该参考图像的全局描述文本。同理，获取相似图像的全局描述文本。

其中，通过图像区域到文本的生成转换器（Generative Region-to-TextTransformer，GRIT）获取参考图像中每个对象的对象描述文本。同理，获取相似图像中每个对象的对象描述文本。

进一步的，可根据参考图像与相似图像之间的全局描述文本以及对象描述文本的差异，确定参考图像与相似图像之间的差异信息。

此外，通过掩码分割模型（segment everything）来获取针对差异信息对应的对象的目标掩码图。

（3）结合图11所示，将差异信息传导给大规模语言处理模型进行汇总处理，并引导模型生成针对差异信息的关键描述（即差异描述文本）。具体的，让大规模语言处理模型推理图像中物体（图像中的对象）之间的关系和物体的信息，以获取针对差异对象的高质量的文本，即差异描述文本。需要说明的是，该大规模语言处理模型可以是任意类型的语言处理模型，如“Chat-Gpt”，此处不做限定。

（4）对相似图像进行局部微调，主要包括两部分。具体的，第一，以差异描述文本作为提示信息（prompt）对相似图像进行局部微调；第二，以参考图像作为提示信息（prompt）对相似图像进行局部微调。关于该图像微调的具体介绍如下：

结合图12所示，为图像微调过程的场景示意图。具体的，该图像微调的目的是将相似图像作为上路的输入图像，并基于下路客户提供的例图，将相似图像调整为与例图更为相似的目标图像。如图所示，目标图像中不包含人物的手，且刀叉放在餐盘上，这与例图更相似。

首先，将相似图像输入上路，并进行噪声扩散处理，在扩散（如去噪或减噪）中引入差异描述文本作为提示信息（prompt），该提示信息可以理解为引导条件。需要说明的是，在噪声扩散中可随机取一个时间步的噪声扩散图（定义为第一噪声图），将其与目标掩码图（mask）进行结合，以通过逆向扩散得到一个初步与例图相关的图像，即第一图像。需要说明的是，上路扩散过程可以表示如下：

然后，下路按照上路的方式对相似图像进行噪声扩散，并取相对于上路的噪声扩散图的后一个时间步的噪声扩散图（定义为第二噪声图），并在降噪扩散中以例图（参考图像）作为约束条件，将第二噪声图与目标掩码图（mask）的反掩码图进行结合，经过去噪，得到第二图像。需要说明的是，可以选择时间步相邻的两个噪声图分别作为第一噪声图与第二噪声图，从而，确保确保上路得到的第一图像和下路得到的第二图像的特征能够保证一致性，如图像尺寸一致等，以便后续使得第一图像和第二图像能够准确融合。需要说明的是，下路扩散过程可以表示如下：

/>

最后，将第一图像与第二图像进行融合，得到调整后的目标图像。其中，该图像融合过程可以表示如下：

通过执行以上（1）到（4）的场景步骤，可以实现如下：在训练集中找到和客户数据相对类似的图片，然后分别将客户例图输入到多个大模型（segment everything, blip2,grit等）输出相对应的prompt（图片的描述），接着，利用chatgpt对这些描述词进行描述，并对人为认定的较为关键的几个特征重点引导chatgpt添加细节，从而得到最终的描述词；最后使用SD模型对相似图像与客户提供例图的差异进行重点涂抹，让图像对局部重新生成，得到目标图像。

通过以上应用场景实例，可实现如下效果：以针对例图与相似图像之间的差异作为引导条件，并对客户提供的少量图片进行局部上的微调，提高图像微调时的准确性，以获取更符合例图的目标图像。

由以上可知，本申请实施例可先从现有的数据中获取与参考图像相似的相似图像，然后，基于参考图像与相似图像之间的差异信息，生成目标掩码图，以及，针对该差异信息进行扩充，以丰富表示该差异信息的差异描述文本，最后，联合目标掩码、差异描述文本和参考图像对现有的相似图像进行局部微调，以获取微调后的目标图像；以此，可对图像之间的差异进行扩充描述，并针对差异的扩充描述文本和参考图像作为约束来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

为了更好地实施以上方法，本申请实施例还提供一种图像处理装置。例如，如图13所示，该图像处理装置可以包括获取单元401、第一确定单元402、第二确定单元403、扩充单元404和调整单元405。

获取单元401，用于获取参考图像，并获取与参考图像相似的相似图像；

第一确定单元402，用于确定参考图像与相似图像之间的差异信息；

第二确定单元403，用于确定参考图像中针对差异信息的目标掩码图；

扩充单元404，用于基于差异信息进行扩充，得到差异描述文本；

调整单元405，用于根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

在一些实施方式中，调整单元405，还用于：对相似图像进行加噪处理，并获取加噪处理中相邻时间步的第一相似噪声图和第二相似噪声图；根据目标掩码图和差异描述文本，对第一相似噪声图进行解噪处理，得到第一图像；根据目标掩码图和参考图像，对第二相似噪声图进行解噪处理，得到第二图像；将第一图像与第二图像进行融合，得到调整后的目标图像。

在一些实施方式中，调整单元405，还用于：根据目标掩码图对第一相似噪声图进行掩码处理，得到第一掩码噪声图；获取差异描述文本对应的差异文本向量，并根据差异文本向量对第一相似噪声图进行减噪处理，得到第一特征图；对第一特征图进行解码处理，得到第一图像。

在一些实施方式中，调整单元405，还用于：对目标掩码图进行取反，得到目标掩码图对应的目标反掩码图；根据目标反掩码图对第二相似噪声图进行掩码处理，得到第二掩码噪声图；根据参考图像对应的特征图对第二掩码噪声图进行掩码处理，得到第二特征图；对第二特征图进行解码处理，得到第二图像。

在一些实施方式中，调整单元405，还用于：根据目标掩码图和差异描述文本，对相似图像进行局部微调，得到第一图像；根据目标掩码图和参考图像，对相似图像进行局部微调，得到第二图像；将第一图像与第二图像进行融合，得到调整后的目标图像。

在一些实施方式中，调整单元405，还用于：根据目标掩码图对相似图像进行掩码处理，得到第一相似掩码图像；对第一相似掩码图像进行加噪处理，得到第一相似噪声图；获取差异描述文本对应的差异文本向量；根据差异文本向量对第一相似噪声图进行减噪处理，得到第一特征图；对第一特征图进行解码处理，得到第一图像。

在一些实施方式中，调整单元405，还用于：对第一相似噪声图进行连续多次降噪处理，并通过注意力机制在每次降噪处理过程中融入差异文本向量，得到第一特征图。

在一些实施方式中，调整单元405，还用于：对第一相似掩码图像进行编码处理，得到编码特征图；对编码特征图进行噪声处理，得到第一相似噪声图。

在一些实施方式中，调整单元405，还用于：通过第一神经网络模型基于目标掩码图和差异描述文本，对相似图像进行局部微调，生成第一图像；

则图像处理装置还包括训练单元，用于：获取样本参考图像和样本相似图像，以及第一样本目标图像；基于样本参考图像与样本相似图像之间的差异信息，生成样本参考图像的样本目标掩码图和样本差异描述文本；通过预设模型基于样本目标掩码图和样本差异描述文本，对样本相似图像进行局部微调，生成第一预测图像；根据第一样本目标图像与第一预测图像，确定预测损失；基于预测损失对预设模型进行迭代训练，直至达到预设条件，得到第一神经网络模型。

在一些实施方式中，调整单元405，还用于：对目标掩码图进行取反，得到目标掩码图对应的目标反掩码图；根据目标反掩码图对相似图像进行掩码处理，得到第二相似掩码图像；对第二相似掩码图像进行加噪处理，得到第二相似噪声图；根据参考图像对应的特征图对第二相似噪声图进行减噪处理，得到第二特征图；对第二特征图进行解码处理，得到第二图像。

在一些实施方式中，扩充单元404，还用于：根据差异信息，确定参考图像相对于相似图像的差异对象；确定差异对象与参考图像中其他对象之间的对象关系信息；获取参考图像的全局描述文本和差异对象的目标对象描述文本；基于全局描述文本、目标对象描述文本和对象关系信息进行文本扩充，得到差异描述文本。

在一些实施方式中，获取单元401，还用于：确定参考图像所属的参考聚类中心；确定预设数据库中预构建的每个图像聚类中心与参考聚类中心之间的特征类别距离；基于特征类别距离，为参考图像选取相似的相似图像。

在一些实施方式中，第一确定单元402，还用于：获取参考图像对应的第一描述文本；获取相似图像对应的第二描述文本；基于第一描述文本与第二描述文本之间的差异，生成差异信息。

在一些实施方式中，第一确定单元402，还用于：通过第一预设模型对参考图像进行全局描述，生成参考图像的全局描述文本；通过第二预设模型对参考图像中的每个对象所在的像素区域进行处理，得到参考图像中每个对象对应的对象描述文本；根据参考图像的全局描述文本和每个对象对应的对象描述文本，确定参考图像对应的第一描述文本。

在一些实施方式中，第二确定单元403，还用于：根据差异信息，确定参考图像中相对于相似图像的差异对象；基于参考图像中的差异对象，生成目标掩码图。

由以上可知，本申请实施例可从现有的数据中获取与参考图像相似的相似图像，然后，基于参考图像与相似图像之间的差异信息，生成目标掩码图，以及，针对该差异信息进行扩充，以丰富表示该差异信息的差异描述文本，最后，联合目标掩码、差异描述文本和参考图像对现有的相似图像进行局部微调，以获取微调后的目标图像；以此，可对图像之间的差异进行扩充描述，并将针对差异的扩充描述文本和参考图像作为约束条件来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

本申请实施例还提供一种计算机设备，如图14所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图14中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及图像处理过程。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本申请实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取参考图像，并获取与参考图像相似的相似图像；确定参考图像与相似图像之间的差异信息；确定参考图像中针对差异信息的目标掩码图；基于差异信息进行扩充，得到差异描述文本；根据目标掩码图、差异描述文本和参考图像，对相似图像进行局部调整，得到调整后的目标图像。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由此可得，本方案可从现有的数据中获取与参考图像相似的相似图像，然后，基于参考图像与相似图像之间的差异信息，生成目标掩码图，以及，针对该差异信息进行扩充，以丰富表示该差异信息的差异描述文本，最后，联合目标掩码、差异描述文本和参考图像对现有的相似图像进行局部微调，以获取微调后的目标图像；以此，可对图像之间的差异进行扩充描述，并针对差异的扩充描述文本和参考图像作为约束来局部调整相似图像，提高图像调整的准确性，使得调整后的图像效果与实际需求相符合，以利于后续其他业务的开展。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种图像处理方法、装置、设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取参考图像，并获取与所述参考图像相似的相似图像；

确定所述参考图像与所述相似图像之间的差异信息；

确定所述参考图像中针对所述差异信息的目标掩码图；

基于所述差异信息进行扩充，得到差异描述文本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标掩码图、所述差异描述文本和所述参考图像，对所述相似图像进行局部调整，得到调整后的目标图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标掩码图和所述差异描述文本，对所述第一相似噪声图进行解噪处理，得到第一图像，包括：

对所述第一特征图进行解码处理，得到第一图像。

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标掩码图和所述参考图像，对所述第二相似噪声图进行解噪处理，得到第二图像，包括：

对所述第二特征图进行解码处理，得到第二图像。

5.根据权利要求1所述的方法，其特征在于，根据所述目标掩码图、所述差异描述文本和所述参考图像，对所述相似图像进行局部调整，得到调整后的目标图像，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标掩码图和所述差异描述文本，对所述相似图像进行局部微调，得到第一图像，包括：

获取所述差异描述文本对应的差异文本向量；

对所述第一特征图进行解码处理，得到第一图像。

7.根据权利要求6所述的方法，其特征在于，所述根据所述差异文本向量对所述第一相似噪声图进行减噪处理，得到第一特征图，包括：

8.根据权利要求6所述的方法，其特征在于，所述对所述第一相似掩码图像进行加噪处理，得到第一相似噪声图，包括：

对所述第一相似掩码图像进行编码处理，得到编码特征图；

对所述编码特征图进行噪声处理，得到第一相似噪声图。

9.根据权利要求5所述的方法，其特征在于，所述根据所述目标掩码图和所述差异描述文本，对所述相似图像进行局部微调，得到第一图像，包括：

所述通过第一神经网络模型基于所述目标掩码图和所述差异描述文本，对所述相似图像进行局部微调，生成所述第一图像之前，所述方法还包括：

根据所述第一样本目标图像与所述第一预测图像之间的差异，构建预测损失；

基于所述预测损失对所述预设模型进行迭代训练，直至达到预设条件，得到训练后的第一神经网络模型。

10.根据权利要求6所述的方法，其特征在于，所述根据所述目标掩码图和所述参考图像，对所述相似图像进行局部微调，得到第二图像，包括：

对所述第二特征图进行解码处理，得到第二图像。

11.根据权利要求10所述的方法，其特征在于，所述根据所述参考图像对应的特征图对所述第二相似噪声图进行减噪处理，得到第二特征图，包括：

对所述第二相似噪声图进行连续多次降噪处理，并通过注意力机制在每次降噪处理过程中融入所述参考图像对应的特征图，得到第二特征图。

12.根据权利要求1所述的方法，其特征在于，所述基于所述差异信息进行扩充，得到差异描述文本，包括：

基于所述全局描述文本、所述目标对象描述文本和所述对象关系信息进行文本描述，得到差异描述文本。

13.根据权利要求1所述的方法，其特征在于，所述获取与所述参考图像相似的相似图像，包括：

确定所述参考图像所属的参考聚类中心；

14.根据权利要求1所述的方法，其特征在于，所述确定所述参考图像与所述相似图像之间的差异信息，包括：

获取所述参考图像对应的第一描述文本；

获取所述相似图像对应的第二描述文本；

15.根据权利要求14所述的方法，其特征在于，所述获取所述参考图像对应的第一描述文本，包括：

16.根据权利要求1所述的方法，其特征在于，所述确定所述参考图像中针对所述差异信息的目标掩码图，包括：

基于所述参考图像中的差异对象，生成目标掩码图。

17.一种图像处理装置，其特征在于，包括：

扩充单元，用于对所述差异信息进行文本表示，得到差异描述文本；

18.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序实现权利要求1至16任一项所述的图像处理方法中的步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至16任一项所述的图像处理方法中的步骤。