CN116958766B

CN116958766B - 图像处理方法及计算机可读存储介质

Info

Publication number: CN116958766B
Application number: CN202310814356.8A
Authority: CN
Inventors: 陈汐; 黄梁华; 刘宇; 赵德丽
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2024-05-14
Anticipated expiration: 2043-07-04
Also published as: CN116958766A

Abstract

本说明书实施例提供图像处理方法及计算机可读存储介质，该图像处理方法，包括：确定场景图像、目标对象的对象图像以及、待将目标对象放置在场景图像中的对象位置信息；将场景图像、对象图像以及对象位置信息输入图像处理模型，利用图像处理模型中的第一特征提取网络对对象图像进行特征提取，获得对象图像特征；利用图像处理模型中的第二特征提取网络对场景图像、对象图像以及对象位置信息进行特征处理，获得融合图像特征；根据对象图像特征以及融合图像特征，获得包含目标对象以及场景图像的目标融合图像。从而生成真实生动的目标融合图像，避免无法准确控制目标对象在目标融合图像中的位置的问题。

Description

图像处理方法及计算机可读存储介质

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种图像处理方法。

背景技术

随着人工智能(AI)技术的不断发展，在图像生成领域中，利用AI技术将多张图像自动融合为一张定制化图像的图像合成技术，也在各种计算机服务场景中被广泛的应用。

现有技术进行图像合成的过程中，可以将多张待融合图像输入至神经网络模型中，利用神经网络模型生成一张定制化图像。但是，现有技术中利用神经网络模型的图像生成方法，在将多张待融合图像进行合成时，无法控制待融合图像中的特定对象在定制化图像中的位置，从而无法生成真实生动的图像。因此，如何准确控制特定对象在定制化图像中的位置，从而生成真实生动的定制化图像成为亟需解决的问题。

发明内容

有鉴于此，本说明书实施例提供了两种图像处理方法。本说明书一个或者多个实施例同时涉及两一种图像处理装置，一种计算设备，一种计算机可读存储介质，一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；

将所述场景图像、所述对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征；

利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征；

根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像。

根据本说明书实施例的第二方面，提供了一种图像处理装置，包括：

图像确定模块，被配置为确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；

第一特征提取模块，被配置为将所述场景图像、所述对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征；

第二特征提取模块，被配置为利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征；

图像生成模块，被配置为根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像。

根据本说明书实施例的第三方面，提供了一种图像处理方法，应用于云侧设备，包括：

接收端侧设备发送的图像处理请求，其中，所述图像处理请求中携带有场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；

根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像；

将所述目标融合图像发送至所述端侧设备。

根据本说明书实施例的第四方面，提供了一种图像处理装置，应用于云侧设备，包括：

请求接收模块，被配置为接收端侧设备发送的图像处理请求，其中，所述图像处理请求中携带有场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；

图像生成模块，被配置为根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像；

图像发送模块，被配置为将所述目标融合图像发送至所述端侧设备。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述两种图像处理方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述两种图像处理方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述两种图像处理方法的步骤。

本说明书提供的图像处理方法，包括：确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；将所述场景图像、所述对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征；利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征；根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像。

具体的，本说明书提供的图像处理方法，在利用图像处理模型生成目标融合图像的过程中，可以将场景图像、目标对象的对象图像、以及待将目标对象放置在所述场景图像中的对象位置信息一起输入至图像处理模型。从而在生成目标融合图像的过程中，可以利用对象位置信息指导目标对象在目标融合图像中的位置，从而根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了无法准确控制目标对象在目标融合图像中的位置的问题。

附图说明

图1是本说明书一个实施例提供的一种类似图像合成的方案的处理流程示意图；

图2是本说明书一个实施例提供的一种类似图像合成的方案的定制化图像示意图；

图3是本说明书一个实施例提供的一种图像处理方法的应用场景示意图；

图4是本说明书一个实施例提供的一种图像处理方法的流程图；

图5是本说明书一个实施例提供的一种图像处理方法中训练样本处理过程示意图；

图6是本说明书一个实施例提供的一种图像处理方法的处理过程流程图；

图7是本说明书一个实施例提供的一种图像处理装置的结构示意图；

图8是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此为，需要说明的是，本说明书一个或多个实施例中所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

本说明书一个或多个实施例中，大模型是指具有大规模模型参数的深度学习模型，通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model)，通过大规模无标注的语料进行大模型的预训练，产出亿级以上参数的预训练模型，这种模型能适应广泛的下游任务，模型具有较好的泛化能力，例如大规模语言模型(Large Language Model,LLM)、多模态预训练模型(multi-modal pre-training model)等。

大模型在实际应用时，仅需少量样本对预训练模型进行微调即可应用于不同的任务中，大模型可以广泛应用于自然语言处理(Natural Language Processing，简称NLP)、计算机视觉等领域，具体可以应用于如视觉问答(Visual Question Answering，简称VQA)、图像描述(Image Caption，简称IC)、图像生成等计算机视觉领域任务，以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务，大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

扩散模型(diffusion model):是一种受非平衡热力学的启发的深度生成模型，以迭代去噪的形式从高斯噪音中生成图像，是目前深度生成模型中的较优技术路线。

定制化生成(Customized Generation):是指可以根据用户提供指定概念的单张/少数几张参考图，生成该概念在不同场景、动作、形态下的图像。

图像合成(Image Composition)：是指给定前景图和背景图，可以将前景图中的目标对象自然放置在背景图的指定位置的技术。

UNet模型：一种全卷积神经网络模型。

低通滤波(Low-pass filter)是一种过滤方式，规则为低频信号能正常通过，而超过设定临界值的高频信号则被阻隔、减弱。

Transformer模型：由encoder和decoder构成的深度学习模型。

DINO v2：一种计算机视觉自监督模型。

Sobel算子：索贝尔算子是计算机视觉领域的一种重要处理方法。主要用于获得数字图像的一阶梯度，常见的应用和物理意义是边缘检测。

ControleNet：一种神经网络结构,通过添加额外的条件来控制扩散模型。

Control Copy：复制控制。

随着人工智能(AI)技术的不断发展，在图像生成领域中，利用AI技术将多张图像自动融合为一张定制化图像的图像合成技术，也在各种计算机服务场景中被广泛的应用。现有技术进行图像合成的过程中，可以将多张待融合图像输入至扩散模型中，利用扩散模型生成一张定制化图像。该扩散模型(Diffuiosn Model)是当前图像生成的较优技术路线，它的核心原理是在训练过程中对给定的目标图像进行不同步数的加噪，训练一个UNet模型在给定步数和加噪后图像情况下预测当前噪声。基于此，在测试过程中，训练好的UNet模型即可在高斯噪声中一步步去噪，从而生成图像。

在本说明书提供的实施例中，基于扩散模型的原理，许多使用各种条件指引扩散模型进行可控内容的图像生成方法，得到了发展。例如，在一种图像生成方案中，可以使用语言描述来控制生成内容；在另一种图像生成方案中，可以支持使用多种条件如文本描述、深度图、边缘图、草图等对生成内容进行引导。

而在根据定制化生成要求生成指定目标的图像的方面，本说明书提供两种方案。第一种是基于语言的定制化图像生成方案，可以根据给定目标的参考图像对语言描述词进行微调，学习表示该图像的精准语言描述词。但是此方法需要多张图像进行较长时间微调，限制了该方案的大规模使用。而另一种方案是一种类似图像合成的方案，不需语言描述微调，将目标图像融入背景图像的指定位置。例如，该类似图像合成的方案流程可以参见图1，图1是本说明书一个实施例提供的一种类似图像合成的方案的处理流程示意图；该方案在进行图像合成过程中，可以通过对背景图像x_s进行图像分割(Crop)的方式，获得参考图像x_r，并对该参考图像x_r进行参考图增强(Reference augmentation)。然后将该增强后的参考图像输入CLIP，利用CLIP的图像编码器将其编码为特征向量。在获得该特征向量之后，将该特征向量通过多层感知机(MLP)进行投影处理，并将投影后的获得的特征向量c输入扩散模型作为指引。同时，在背景图像x_s上的参考图像位置增加掩摸区域(Mask shapeaugmentation)，并将掩膜区域背景图像、以及噪声y_t输入至扩散模型，从而在给定掩膜区域对背景图像进行生成，获得包含背景图像和参考图像的定制化图像y_t-1。其中，具体生成后的定制化图像的效果可以参见图2，图2是本说明书一个实施例提供的一种类似图像合成的方案的定制化图像示意图。基于图2可知，该一种类似图像合成方案的基本思想为：要求用户给定一张参考图，一张背景图，在背景图上涂抹一个区域掩膜，即可在掩膜区域根据参考图进行定制化图像生成。

但是需要说明的是，上述一种类似图像合成的方案虽然能够生成定制化图像，但是，该方案在生成定制化图像的操作，对参考图像中目标对象的特征保持效果较差，从而无法生成真实生动的图像。

基于此，在本说明书中，提供了两种图像处理方法，本说明书同时涉及两种图像处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，在下面的实施例中逐一进行详细说明。

图2示出了根据本说明书一个实施例提供的一种图像处理方法的应用场景示意图，考虑到现有的定制化图像生成方法大多需使用指定概念的参考图对描述词或模型参数进行微调。已有的微调方式大多需要数张参考图，并且对单概念微调需要数分钟时间的代价，由此对该技术的大规模应用提出了挑战。而本方法针对微调代价这个问题，提出一种无需微调的方法，只需单张参考图即可生成给定目标的图像，具体参见图2可知，用户向终端输入场景图像(即图3中的椅子图像)、对象图像(即图3中的宠物狗图像)，以及待将该目标对象放置在场景图像中的对象位置信息；该终端在接收到该场景图像、对象图像和对象位置信息之后，会将其输入至扩散模型中，该扩散模型中的第一特征提取网络层，会对该对象图像进行特征提取处理，从而获得该对象图像特征。该扩散模型中的第二特征提取网络层，将场景图像、对象图像和对象位置信息进行融合，获得融合图像；并对该融合图像进行图像特征提取，获得融合图像特征。然后，将对象图像特征和融合图像特征输入至扩散模型中的Unet模型，从而获得场景图像和对象图像的目标融合图像(也即是，图3中宠物狗坐在椅子上的图像)。并且需要说明的是，本说明书提供的图像处理方法中，目标融合图像中所包含的目标对象的对象状态，与对象图像中的目标对象的对象状态可以不同。该对象状态可以理解为目标对象的姿态、动作、形态等。从而在实现将输入的目标对象融入任意场景图像的给定位置的同时，也能够针对背景场景对生成目标对象的形态、动作、视角进行调整，使之与环境交互，自然融合。

基于此，本说明书提供的图像处理方法，能够根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了准确控制目标对象在目标融合图像中的位置的问题。并且，针对上述实施例“定制化生成”方案中，依靠语言描述作为输入生成目标概念的图像，无法对场景进行精准控制的问题。以及“图像合成”方法可以将前景目标放入任意场景图像的给定位置，但是无法对目标对象进行改变的问题。

图4示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤。

步骤402：确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息。

其中，该目标对象可以理解为在生成目标融合图像的过程中，需要存在于该目标融合图像中的对象。该对象可以是人、动物、植物等生物，家具、衣服、房子等物体，或者云朵、浪花等对象。该目标对象可以根据实际场景进行设置，在此不作具体限制。对象图像可以理解为该目标对象的图像，例如上述实施例中的参考图像或前景图。该场景图像可以理解为在生成目标融合图像的过程中，该目标对象所处的环境的图像。例如，该场景图像可以为草地、沙滩、天空、客厅等场景的图像；该场景图像可以根据实际场景进行设置，在此不作具体限制。该场景图像可以理解为上述实施例中的背景图像或背景图。该对象位置信息可以理解为指示该目标对象在场景图像中的放置位置的信息，该对象位置信息可以为区域(例如，一块矩形区域、或者不规则多边形区域)、坐标信息等，在此不作具体限定。该对象位置信息可以是一个位置框，用于框定该场景图像中目标对象所处的位置。在实际应用中，确定对象位置信息的过程，可以通过算法自动确定，也可以通过用户确定。例如，本说明书提供的图像处理方法所应用的设备端(服务端或者客户端)，能够接收到用户终端或者其他服务端发送的对象位置设置参数。该对象位置设置参数可以为目标对象放置在场景图像中的坐标信息，基于此，该设置端可以根据该坐标信息确定对象位置参数。或者，在本说明书提供的其他实施例中，本方法可以将该场景图像通过用户终端展示给用户，用户可以在场景图像中设置目标对象的放置区域(即位置框)，例如，用户从场景图像中确定位置框两个角，并点拉框即可，或者用户在场景图像中涂抹掩摸；从而使确定位置框的交互更加简单、宽松。同时，也支持用户输入掩膜，可以根据掩膜自动计算外接矩形当做位置框。之后用户终端将该放置区域信息(例如位置框)作为对象位置设置参数发送至设备端，从而使设备端能够根据该放置区域确定对象位置参数。

具体的，本说明书提供的图像处理方法，在生成目标融合对象的过程中，首先需要确定该场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息。其中，该场景图像、对象图像以及对象位置信息，可以是用户发送的。基于此，在本说明书提供的一实施例中，所述图像处理方法包括：接收用户发送的场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息。或者，接收用户发送的图像处理请求，该图像处理请求中携带有场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息，从而让用户能够根据自身的需要将多个自定义图像融合为目标融合图像。

在本说明书提供的一实施例中，该图像处理方法所应用的设备端(例如客户端、或服务器)，能够从其他设备端获取场景图像、对象图像以及对象位置信息。该其他设备端可以为用户终端、除图像处理方法所应用的设备端之外的其他客户端或其他服务端。

步骤404：将所述场景图像、所述对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征。

其中，该图像处理模型可以理解为能够对场景图像、对象图像以及对象位置信息进行处理，从而获得生成目标融合对象所需的对象图像特征和融合图像特征的模型。例如，该图像处理模型可以为扩散模型。在实际应用中，图像处理模型在获得对象图像特征和融合图像特征之后，也可以利用图像处理模型对该对象图像特征和融合图像特征进行处理，从而生成目标融合图像。在本说明书提供的一实施例中，该图像处理模型可以为大模型。

第一特征提取网络可以理解为该图像处理模型中，对该对象图像进行特征提取操作的网络层。该第一特征提取网络可以由一个或多个模型构成。该对象图像特征可以理解为该对象图像所对应的特征向量。而在本说明书提供的一实施例中，该对象图像特征可以理解为用于体现该对象图像中目标对象的显著特征信息的特征向量。其中，该显著特征信息可以是目标对象的整体概貌、目标对象的整体姿态等信息，该显著特征信息可以根据实际应用场景进行设置，本说明书对此不做具体限制。

具体的，在本说明书提供的图像处理方法中，在获得场景图像、对象图像以及对象位置信息之后，可以将其输入至图像处理模型中，利用该图像处理模型中的第一特征提取网络对该对象图像进行特征提取操作，从而获得对应的对象图像特征。

在本说明书提供的实施例中的，为了保证提取到的对象图像特征的性能，本说明书提供的图像处理方法，会对该对象图像进行预处理，并对预处理后的对象图像进行特征提取，具体方式如下。

所述利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征，包括步骤4042至步骤4044：

步骤4042：将所述对象图像输入所述图像处理模型中的第一特征提取网络，通过所述第一特征提取网络中的图像预处理模块对所述对象图像进行图像处理，获得预处理对象图像；

具体的，该图像预处理模块可以理解为能够对该对象图像进行预处理操作的模块。该图像预处理模块可以是第一特征提取网络中的一个或多个网络层。或者该图像预处理模块可以是构成第一特征提取网络的多个模型中的一个模型。

具体的，所述将所述对象图像输入所述图像处理模型中的第一特征提取网络，通过所述第一特征提取网络中的图像预处理模块对所述对象图像进行图像处理，获得预处理对象图像，包括：

将所述对象图像输入所述图像处理模型中的第一特征提取网络，通过所述第一特征提取网络中的低频特征提取模块对所述对象图像进行低频特征提取，获得预处理对象图像。

其中，该低频特征提取模块可以理解为第一特征提取网络中，能够对该对象图像中的低频特征进行提取的模块。该低频特征提取模块可以是一个或多个网络层，也可以是模型。该低频特征提取模块可以为低通滤波模块(池化)，该低通滤波模块可以为实现低通滤波功能的模块。此外，该低频特征可以理解为低频信息。该低频特征提取模块可以为低频信息提取模块。

例如，以本说明书提供的图像处理方法在定制化图像生成/合成场景下的应用为例，该低频特征提取模块可以为低通滤波模块，图像处理模型为扩散模型，该对象图像可以为宠物狗图像。基于此，本方法可以利用该扩散模型中的低通滤波模块对宠物狗图像进行低频特征提取，从而得到低频特征提取后的宠物狗图像，从而保证提取到的对象图像特征的性能。在实际应用中，该预处理对象图像可以为一个224x224x3的图像。

步骤4044：通过所述第一特征提取网络中的图像提取模块对所述预处理对象图像进行特征提取，获得所述对象图像的对象图像特征。

其中，图像提取模块可以理解为该第一特征提取网络中，能够对预处理对象图像进行特征提取的网络层。该图像提取模块可以是第一特征提取网络中的一个或多个网络层。或者该图像提取模块可以是构成第一特征提取网络的多个模型中的一个模型。例如，该图像提取模型可以为DINO v2模型。

在本说明书提供的一实施例中，该对象图像特征可以是一种宏观的表达该对象图像中目标对象的显著特征信息的特征向量。例如，该对象图像特征可以是ID tokens。其中，token是Transformer模型的特有叫法，意思是语义特征的最小单位。在本说明书提供的一实施例中，图像提取模块(即ID extractor，是指提取ID token的模块)可以是一种名称为DINO v2的Transformer模型，该DINO v2的特点可以宏观的表达该对象图像中目标对象的显著特征信息。因此，在图像提取模块是DINO v2模型的情况下，可以利用DINO v2模型提取对象图像特征。具体过程为：当该模型把对象图像(224x224x3,高x宽x通道数)作为输入时，其输出的特征是256x1536,也即是256个token,每个token是一个1536维度的向量，该256x1536的向量即为ID tokens。基于此，可以将该ID tokens作为宏观的表达该对象图像中目标对象的显著信息的对象图像特征。

沿用上例，本说明书提供的图像处理方法，在进行ID token提取的过程中，本说明书可以采用DINO v2模型作为ID提取模块，通过将预处理的宠物狗图像(224x224x3的图像)输入ID提取模块(即ID extractor)，获取ID提取模块输出的ID tokens(也即是256个token,每个token是一个1536维度的向量)。

本说明书提供的一实施例中，在对该对象图像进行特征提取之后，还可以利用图像处理模型对该对象图像中除目标对象之外的图像背景、图像噪声等内容进行清除，从而通过去除图像背景的方式，保证后续提取的对象图像特征的性能，避免由于图像背景导致该对象图像特征存在不精准的问题。具体方式如下。

所述利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征之前，还包括：

利用所述图像处理模型中的图像过滤模块，对所述对象图像中除所述目标对象之外的图像干扰内容进行过滤处理，获得过滤处理后的对象图像。

其中，该除所述目标对象之外的图像干扰内容可以理解为该对象图像中除目标对象之外的、不必要的或多余的干扰信息。例如，在对象图像为宠物狗图像的情况下，该宠物狗图像中除宠物狗之外的图像背景、图像噪声等干扰元素。

该图像过滤模块可以理解为该图像处理模型中，能够对对象图像中的图像干扰内容进行过滤的网络层。或者该图像过滤模块可以理解为该图像处理模型中一个模型，用于过滤对象图像中的图像干扰内容。例如，该图像过滤模块可以是图像分割模块，用于分割对象图像中所述目标对象之外的图像干扰内容(例如图像背景)。该图像分割模块可以是一种自动分割模型(例如SAM),也可以是一种交互式分割模型(例如FocalClick)。在此本说明书不作具体限定。

具体的，本说明书提供的图像处理方法，将对象图像输入至图像处理模型之后，会利用该图像处理模型中的图像过滤模块，对该对象图像中除目标对象之外的图像干扰内容进行过滤处理，从而获得不包含图像干扰内容的对象图像，保证后续能够基于该对象图像获得性能较高的对象图像特征。

沿用上例，本说明书提供的图像处理方法，图像过滤模块为图像分割模块，基于此，将宠物狗图像输入至扩散模型之后，该扩散模型会对该宠物狗图像进行前景分割，具体过程为：给定宠物狗图像作为参考图像(Reference),该参考图像会经过分割模块(Seg模块)过滤图像背景，获得分割过后的参考图像。

步骤406：利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征。

其中，第二特征提取网络可以理解为该图像处理模型中，对该场景图像、对象图像以及对象位置信息进行特征处理操作的网络层。该第二特征提取网络可以由一个或多个模型构成。其中，该对象图像可以为上述过滤处理后的对象图像。

在本说明书提供的一实施例中，该融合图像特征可以理解为通过对场景图像和对象图像融合获得的初始融合图像进行特征提取所获得的特征向量。初始融合图像可以理解为将场景图像以及对象图像进行融合获得的图像。其中，将场景图像和对象图像进行融合的方式，可以根据实际应用场景进行设置。例如，将从对象图像提取的细节特征与场景图像进行拼接所获得的拼贴图像，可以作为初始融合图像。其中，该细节特征可以是对象图像的高频分量或者高频细节特征。例如，该高频分量可以理解为强调该对象图像中目标对象的细节信息(例如细节轮廓、颜色等)的特征。包括但不限于，在目标对象为宠物狗的情况下，该高频分量可以是强调宠物狗身体上斑点等细节信息的特征；在目标对象为衣服的情况下，该高频分量可以是强调衣服上的图案、logo(logo是指徽标、标志)等细节信息的特征。

因此，在初始融合图像是拼贴了细节特征(例如高频分量)的拼贴图像的情况下，该融合图像特征可以是从该初始融合图像中提取的特征图。该特征图可以利用UNetEncoder(UNet模型的编码器)提取获得。具体过程为：将该初始融合图像输入至UNetEncoder，获得输出的特征图。由于该初始融合图像中包含了细节特征，因此输出的特征图保持了高分辨率的空间尺度。基于此可以也确定，该融合图像特征可以理解为体现场景图像以及对象图像中细节特征的特征向量。

在本说明书提供的一实施例中，为了保证后的能够生成真实生动的目标融合图像，本说明书提供的图像处理方法，会根据场景图像、对象图像以及对象位置信息确定融合图像特征，后续利用基于场景图像、对象图像以及对象位置信息确定的融合图像特征，生成目标融合图像，从而保证了目标融合图像的生动真实。具体确定融合图像特征的步骤如下。

所述利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征，包括步骤4062至步骤4064：

步骤4062：利用所述图像处理模型中的第二特征提取网络将所述场景图像、所述对象图像以及所述对象位置信息进行融合，获得初始融合图像。

其中，该初始融合图像是指将场景图像以及对象图像进行初步融合获得的图像。

具体的，所述利用所述图像处理模型中的第二特征提取网络将所述场景图像、所述对象图像以及所述对象位置信息进行融合，获得融合图像，包括：

利用所述第二特征提取网络中的待融合特征提取模块，对所述对象图像进行特征提取，获得待融合图像特征；

从所述场景图像中确定与所述对象位置信息对应的目标位置，并将所述待融合图像特征添加至所述所述场景图像中的所述目标位置，获得初始融合图像。

其中，该待融合特征提取模块可以理解为该第二特征提取网络中，能够对对象图像进行特征提取的网络层。该待融合特征提取模块可以是第二特征提取网络中的一个或多个网络层。或者该待融合特征提取模块可以是构成第二特征提取网络的多个模型中的一个模型。待融合图像特征可以理解为该对象图像对应的、需要与场景图像进行融合的特征，例如，上述实施例中的细节特征。

目标位置可以理解为该场景特征中与该对象位置信息对应的位置，该目标位置也可以理解为该目标对象在场景图像中需要被放置的位置。

沿用上例，本说明书提供的图像处理方法中，该对象位置信息为位置框，场景图像为草地图像。基于此，在将宠物狗图像、草地图像以及位置框输入至扩散模型之后，该扩散模型会进行特征提取和图像拼贴(Collage)的步骤，其中，该特征提取是指扩散模型会利用特征提取网络层对宠物狗图像进行特征提取，从而获得该宠物狗图像的图像细节特征。图像拼贴是指扩散模型会根据位置框,将图像细节特征拼贴到场景图的对应位置上，从而获得拼贴图像。

而在本说明书提供的一实施例中，该待融合特征提取模块可以是一种进行高频特征提取的模块。通过该高频特征提取模块能够提取该对象图像中的高频特征，从而获得对象图像中的高频特征，具体方式如下。

所述利用所述第二特征提取网络中的待融合特征提取模块，对所述对象图像进行特征提取，获得待融合图像特征，包括：

通过所述第二特征提取网络中的高频特征提取模块对所述对象图像进行高频特征提取，获得图像高频特征。

其中，该高频特征提取模块可以理解为第二特征提取网络中，能够对该对象图像中的高频特征进行提取的模块。该高频特征提取模块可以是一个或多个网络层，也可以是构成第二特征提取网络的多个模型中的一个模型。例如，高频特征提取模块可以为Sobel算子。

沿用上例，在将宠物狗图像、草地图像以及位置框输入至扩散模型之后，该扩散模型会对宠物狗图像进行高频特征提取。该高频特征提取是指，扩散模型使用Sobel算子对宠物狗图像的边缘梯度进行提取，边缘梯度为高频特征，从而得到高频特征图。

步骤4064利用所述第二特征提取网络中的融合图像特征提取模块对所述初始融合图像进行特征提取，获得融合图像特征。

其中，融合图像特征提取模块可以理解为该第二特征提取网络中，能够对该初始融合图像进行特征提取的模块。该融合图像特征提取模块可以为一个或多个网络层，或者该融合图像特征提取模块可以为构成第二特征提取网络的多个模型中的一个模型。该融合图像特征提取模块可以为对初始融合图像中的细节特征进行提取的细节提取模块。该细节提取模块可以采用ControleNet中的Control Copy进行初始化进行训练。

沿用上例，在获得拼接图像之后，将该拼接图像输入至细节提取模块，从而得到细节特征图。

步骤408：根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像。

其中，目标融合图像可以理解为包含目标对象和场景图像、且该目标对象在该场景图像中的位置与对象位置信息一致的图像。例如，该目标对象为宠物狗，该场景图像为椅子，该对象位置信息是椅子的座位位置。基于此，生成的目标融合图像应该是宠物狗坐在椅子的座位上的图像。在本说明书提供的一实施例中，在获得目标融合图像之后，本方法所应用的服务端可以将目标融合图像发送至用户终端向用户展示。或者，在获得目标融合图像之后，本方法所应用的客户端可以将目标融合图像直接展示给用户。

在本说明书提供的实施例中，为了提高该目标融合图像的生成效率，可以在图像处理模型中配置图像生成网络。利用该图像生成网络生成该目标融合图像，从而提高效率。具体的，所述根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像，包括：

利用所述图像处理模型中的图像生成网络，对所述对象图像特征以及所述融合图像特征进行处理，获得包含所述目标对象以及所述场景图像的目标融合图像。

其中，该图像生成网络可以理解为图像处理模型中用于生成目标融合图像的网络层。或者该图像生成网络也可以为图像处理模型中的一个图像生成模型。例如，该图像生成网络可以为Unet模型。

具体的，本说明书提供的图像处理方法，能将对象图像特征以及融合图像特征输入到图像处理模型中的图像生成网络，利用图像生成网络对该对象图像特征以及融合图像特征进行图像合成处理，从而获得包含目标对象以及场景图像的目标融合图像。

在本说明书提供的一实施例中，所述利用所述图像处理模型中的图像生成网络，对所述对象图像特征以及所述融合图像特征进行处理，获得包含所述目标对象以及所述场景图像的目标融合图像，包括步骤4082至步骤4084：

步骤4082：确定所述图像生成网络中图像生成模块的图像生成特征，将所述图像生成特征、所述对象图像特征以及所述融合图像特征进行融合，获得融合图像生成特征。

其中，该图像生成特征可以理解为该图像生成模块在生成目标融合图像过程中所需的特征。在本说明书提供的一实施例中，扩散模型(Stable Diffusion)有UNet模型部分，每一层UNet模型的输出都是HxWxC的特征图，不同层的HWC不一样。其中，H为长度，W为宽度，C为RGB彩色通道的个数，也即是C可以指特征图的维度或深度。该特征图可以理解为所述图像生成特征。或者，扩散模型(Stable Diffusion)的UNet模型部分，每一层UNet的输出都是HxWxC的特征图。在具体的decoder层(解码层)，每个decoder输出的特征图也可以理解为所述图像生成特征。

基于此，沿用上例，在获得ID tokens和细节特征图之后，会确定该扩散模型中UNet模型中每一网络层或者特定网络层所输出的特征图，并将该特征图与ID tokens和细节特征图进行特征重组，从而获得重组后的特征图。

在本说明书提供的一实施例中，所述确定所述图像生成网络中图像生成模块的图像生成特征，将所述图像生成特征、所述对象图像特征以及所述融合图像特征进行融合，获得融合图像生成特征，包括：

确定所述图像生成网络中图像生成模块的第一图像生成特征和第二图像生成特征；

将所述对象图像特征与所述第一图像生成特征参数进行融合，获得第一融合图像生成特征；

将所述融合图像特征与所述第二图像生成特征参数进行拼接，获得第二融合图像生成特征；

将所述第一融合图像生成特征以及所述第二融合图像生成特征，作为融合图像生成特征。

其中，该第一图像生成特征可以理解为图像生成网络中每一网络层所输出的特征图，例如，UNet模型中每一层UNet模型所输出的特征图，不同层的特征图的HWC不一样。该第二图像生成特征可以理解为图像生成网络中特定网络层所输出的特征图，例如，UNet模型中decoder层所输出的特征图。

沿用上例，在获得ID tokens和细节特征图之后，会将其与该扩散模型中UNet模型的网络层所输出的特征图进行特征重组，具体可以分为两个部分。第一部分为：将IDtokens用交互注意力模块(Cross-attention)和预训练初始化的Stable Diffusion进行融合。具体内容为：

本说明书所提供的扩散模型(Stable Diffusion)，可以将ID tokens作为指引，指导生成结果。同时，扩散模型有UNet部分，每一层UNet模型的输出都是HxWxC的特征图，不同层的HWC不一样。因此，本说明书提供的图像处理方法，在将宠物狗图像编码为ID tokens后，会将编码的ID tokens在UNet模型的每一层和特征图做交叉注意力融合(Cross-attention)。

第二部分为：将细节特征图和扩散模型(Stable Diffusion)在Unet模型的解码器部分(decoder层)，与每一解码层输出特征图在通道维度进行拼接。具体内容为：

本说明书所提供的扩散模型(Stable Diffusion)，有UNet模型部分，每一层UNet模型网络层的输出都是HxWxC的特征图，不同层的HWC不一样。而细节特征图也有一组HxWxC的特征图和UNet模型对应。在具体的decoder层，本方法将两个HxWxC的特征图拼接成HxWx2C的特征图。这样做的目的是，将Detail Extractor(细节提取模块)中提取的信息作为指引输入到Stable Diffusion模型中，指引模型生成特定的背景和具有特定细节特征的前景。

基于上述进行特征重组的两个部分内容，即可获得重组后的特征图(即融合图像生成特征)。

步骤4084：利用所述图像生成模块对所述融合图像生成特征进行图像生成处理，获得包含所述目标对象以及所述场景图像的目标融合图像。

沿用上例，在确定重组后的特征图后，从而基于该重组后的特征图指引UNet模型在在对噪声进行一步步去噪的过程中，生成特定的背景和具有特定细节特征的前景的定制化图像，从而实现根据修改过的Stable Diffusion即可生成目标对象在场景图像中指定位置的图像。并且根据场景图像对生成目标对象的形态、动作、视角进行调整，使之与环境交互，自然融合。

在本说明书提供的一实施例中，所述确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息之前，还包括：

确定样本场景图像、样本对象的样本对象图像、待将所述样本对象放置在所述样本场景图像中的对象位置信息、以及样本标签；

将所述样本场景图像、所述样本对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述样本对象图像进行特征提取，获得样本对象图像特征；

利用所述图像处理模型中的第二特征提取网络对所述样本场景图像、所述样本对象图像以及所述对象位置信息进行特征处理，获得样本融合图像特征；

根据所述样本对象图像特征以及所述样本融合图像特征，获得包含所述样本对象以及所述样本场景图像的样本目标融合图像；

基于所述样本目标融合图像以及所述样本标签对所述图像处理模型进行训练，直至达到训练停止条件，获得训练后的图像处理模块。

其中，样本场景图像可以理解为作为样本的场景图像，该样本对象图像可以理解为作为样本的对象图像。该达到训练停止条件可以根据实际应用场景进行设置，本说明书对此不作具体限制，例如完成特定轮数的训练，模型损失达到收敛等。

需要说明的是，本说明书中对图像处理模型的训练步骤可以参见上述实施例中关于图像处理模型对应或相应的内容，在此不做多赘述。而通过对该图像处理模型进行训练，后续能够基于训练后的图像处理模型对场景图像、对象图像以及对象位置信息进行处理，从而生成真实生动的目标融合图像。

其中，基于所述样本目标融合图像以及所述样本标签对所述图像处理模型进行训练，可以理解为基于样本目标融合图像以及样本标签计算损失函数，并通过该损失函数对图像处理模型进行训练。

在本说明书提供的一实施例中，所述确定样本场景图像、样本对象的样本对象图像、待将所述样本对象放置在所述样本场景图像中的对象位置信息、以及样本标签，包括：

确定包含所述样本对象的待处理图像，并根据所述待处理图像，确定第一待处理图像、第二待处理图像和第三待处理图像；

从所述第一待处理图像中，提取样本对象图像，并将所述第二待处理图像作为样本标签；

清除所述第三待处理图像中所述样本对象，将清除所述样本对象后的所述第三待处理图像作为样本场景图像；

根据对象位置设置参数，设置待将所述样本对象放置在所述样本场景图像中的对象位置信息。

其中，待处理图像可以理解为包含该样本对象的图像；该待处理图像可以为一个或多个；该待处理图像可以是从样本对象视频中提取的视频帧。该样本对象视频可以理解为包含样本对象的视频数据，例如，该样本对象为宠物狗，该样本对象视频可以为包含宠物狗玩耍、宠物狗走路等视频数据。

第一待处理图像、第二待处理图像和第三待处理图像可以理解为多个包含样本对象的图像。第一待处理图像、第二待处理图像以及第三待处理图像中所包含的样本对象的对象状态不同。该对象状态可以理解为对象的姿态、所处的场景、展示的动作的信息。

在待处理图像的数量为至少三个的情况下，所述根据待处理图像，确定第一待处理图像、第二待处理图像和第三待处理图像，可以理解为将至少三个待处理图像，划分为第一待处理图像、第二待处理图像和第三待处理图像。在待处理图像的数量为一个或两个的情况下，所述根据待处理图像，确定第一待处理图像、第二待处理图像和第三待处理图像，可以理解为通过图像复制、图像翻转、图像旋转扩充、添加图像噪声等方式，将该待处理图像，转换为第一待处理图像、第二待处理图像和第三待处理图像这三个图像。

其中，该对象位置设置参数可以理解为用于设置该对象位置信息的参数。在实际应用中，本说明书提供的图像处理方法所应用的设备端，能够接收到用户终端或者其他服务端发送的对象位置设置参数。该对象位置设置参数可以为样本对象放置在样本场景图像中的坐标信息，基于此，该设置端可以根据该坐标信息确定对象位置参数。或者，在本说明书提供的其他实施例中，本方法可以将该样本场景图像通过用户终端展示给用户，用户可以在样本场景图像中设置样本对象的放置区域。用户终端将该放置区域信息(例如位置框)作为对象位置设置参数发送至设备端，从而使设备端能够根据该放置区域确定对象位置参数。

在待处理图像为一个的情况下，根据待处理图像，确定第一待处理图像、第二待处理图像和第三待处理图像可以理解为将一张该图像进行翻转、旋转扩充，从而获得多个图像。

例如，以本说明书提供的图像处理方法从宠物狗玩耍视频中获得训练样本为例，对上述实施例进行说明。参见图5，图5是本说明书一个实施例提供的一种图像处理方法中训练样本处理过程示意图。其中，该样本对象视频为宠物狗玩耍视频。本方法进行的模型训练是有监督模型训练，训练数据需要同一目标在不同视角、姿态、动作下的图片，基于此，本方法进行训练数据收集可以使用大规模视频数据集对训练数据进行收集，通过配合静态图像数据，使用旋转、扭曲等扩充方法，获取同一目标不同状态下的图像。具体内容为：确定一只宠物狗在做各种动作的视频视频，并从该视频中抽取两帧，并且两帧中的宠物狗的状态不同。具体处理过程参见图5。先获取视频帧中的目标掩膜(黑色宠物狗狗)，然后将其中一张(左图)根据目标掩膜进行截取，获得参考图；另外一张(右图)将掩膜区域扩充为位置框用白色填充，当做背景图。并且，将未填充白色的左图作为监督图。掩摸标注为分割掩膜标注，掩膜标注可以人工，可以用模型提取。由此获得参考图，背景图，监督图。训练时将参考图，背景图，位置框当做输入，监督模型生成监督图。需要说明的是，对于一张静态图像，可以将一张该图像进行翻转、旋转扩充，类比得到视频的两帧。

在本说明书提供的另一实施例中，本方法提供一种时间步采样策略：具体时间对于视频数据，以50％的概率在[0,1000]的范围内采样时间步，另外50％的概率在[500,1000]的范围内采样时间步。对于静态图像数据，以50％的概率在[0,1000]的范围内采样时间步，另外50％的概率在[0，500]的范围内采样时间步。

本说明书提供的图像处理方法，在利用图像处理模型生成目标融合图像的过程中，可以将场景图像、目标对象的对象图像、以及待将目标对象放置在所述场景图像中的对象位置信息一起输入至图像处理模型。从而在生成目标融合图像的过程中，可以利用对象位置信息指导目标对象在目标融合图像中的位置，从而根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了准确控制目标对象在目标融合图像中的位置的问题。

下述结合附图6，以本说明书提供的图像处理方法在无需微调的定制化图像生成/合成场景下的应用为例，对所述图像处理方法进行进一步说明。其中，图6示出了本说明书一个实施例提供的一种图像处理方法的处理过程流程图，本说明书提供的图像处理方法提出一种定制化生成方法，通过给定参考图(Reference)，即上述实施例中的对象图像；场景图(Scene)，即上述实施例中的场景图像；以及在场景图上的位置框，即上述实施例中的对象位置信息，即可生成参考目标(即目标对象)在场景图中指定位置的多样性图像(即上述实施例中的目标融合图像)。在模型推理过程中，算法模型的输入为：参考图像(Reference),记作R；场景图像(Scene),记作S；希望目标对象在场景图像中的位置框，记为B。具体包括以下步骤。

步骤602：进行前景分割：将给定参考图像(Reference)输入模型的分割模块(Seg)过滤背景，获得分割过后的参考图，记为R_s。

步骤604：进行低频特征提取：将R_s输入至低通滤波模块(池化)中对R_s进行处理，得到224x224x3的图像。记为R_l。

步骤606：进行ID Token提取，将R_l输入ID提取模块，获取ID tokens。

步骤608：进行高频特征提取，使用Sobel算子对R_s的边缘梯度进行提取，边缘梯度为高频特征，得到高频特征图R_h。

步骤610：进行图像拼贴(Collage),根据位置框B,将R_h拼贴到场景图S上的特定位置，获得拼贴图，记为C。

步骤612：将拼贴图C输入细节提取模块进行细节特征提取,得到细节特征图F_d。

步骤614：将ID Tokens和细节特征图F_d输入至预训练扩散模型进行特征重组，并利用特征重组后的扩散模型，生成目标物体在场景图中的定制化图像。

具体的，在获得ID tokens和细节特征图之后，本方案会将其与该扩散模型中Unet模型的网络层所输出的特征图进行特征重组，具体可以分为两个部分。

第一部分为：将ID tokens用交互注意力模块(Cross-attention)和预训练初始化的Stable Diffusion进行融合。具体内容为：

基于上述进行特征重组的两个部分内容，即可获得重组后的特征图。最后，基于该重组后的特征图指引Unet模型在在对噪声进行一步步去噪的过程中，生成特定的背景和具有特定细节特征的前景的定制化图像。

本说明书提供的图像处理方法，可以理解为一种无需微调的定制化图像生成/图像合成方法，在进行定制化图像生成/图像合成过程中，通过使用大规模自监督表征模型(如DINO V2)作为ID提取器进行定制化生成。并且，以拼贴(Collage)的形式为模型提供细节先验。包括对拼贴部分的高频分量进行信息提取。从而可以将输入目标对象融入任意场景图像的给定位置，并且针对背景场景对生成目标的形态、动作、视角进行调整，使之与环境交互，自然融合。

同时，在模型训练过程中，从大规模视频数据中提取同一目标不同姿态、场景、动作的图像，从而构造大量定制化训练样本，并且，能够联合大规模图像、视频数据训练数据采样方法，为模型训练提供重复的样本数据。

在本说明书一个实施例提供的另一种图像生成方法，该一种图像生成方法，应用于云侧设备，具体包括以下步骤。

将所述目标融合图像发送至所述端侧设备。

其中，所述云侧设备可以理解为位于云端并且能够为端侧设备提供云服务的设备。例如云侧设备可以为一个或多个服务器，一个或多个主机。在本说明书提供的一实施例中，该云侧设备还可以由云侧计算设备和/或云侧存储设备构成。该云侧计算设备可以理解为位于云端并能够为端侧设提供计算服务的设备。例如云侧计算设备可以为一个或多个服务器。该云侧存储设备可以理解为位于云端并能够为端侧设提供存储服务的设备。例如一个或多个数据库存储服务器、云盘等。所述端侧设备可以理解为与云侧设备相对存在的、能够使用云侧设备提供的云服务的设备。该端侧设备包括但不限于客户端、终端、计算机、服务器、手机或者智能移动设备等。

具体的，本说明书提供的图像处理方法，能够应用于云侧设备，当接收端侧设备发送的、携带有场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息等数据的图像处理请求时，可以获取该场景图像、对象图像以及对象位置信息，并将场景图像、对象图像以及对象位置信息输入图像处理模型。通过利用图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征；以及利用图像处理模型中的第二特征提取网络对场景图像、对象图像以及对象位置信息进行特征处理，获得融合图像特征；然后，可以利用图像处理模型对该对象图像特征以及融合图像特征进行图像生成处理，从而获得包含目标对象以及场景图像的目标融合图像，并将目标融合图像发送至端侧设备，从而向用户展示该目标融合图像。

上述为本实施例的另一种图像处理方法的示意性方案。需要说明的是，该另一种图像处理方法的技术方案与上述一种图像处理方法的技术方案属于同一构思，另一种图像处理方法的技术方案未详细描述的细节内容，均可以参见上述一种图像处理方法的技术方案中对应或者相应的描述，在此不作过多赘述。

基于此，本说明书提供的应用于云侧设备的另一种图像处理方法，在利用图像处理模型生成目标融合图像的过程中，可以将端侧设备提供的场景图像、目标对象的对象图像、以及待将目标对象放置在所述场景图像中的对象位置信息，一起输入至图像处理模型进行处理。从而在生成目标融合图像的过程中，可以利用对象位置信息指导目标对象在目标融合图像中的位置，从而根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了无法准确控制目标对象在目标融合图像中的位置的问题。并且，通过将该目标融合图像发送至端侧设备，从而保证图像处理模型的顺利运行，使得云侧设备能够稳定的为端侧设备提供图像处理服务。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图7示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图7所示，该装置包括：

图像确定模块702，被配置为确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息；

第一特征提取模块704，被配置为将所述场景图像、所述对象图像以及所述对象位置信息输入图像处理模型，利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征；

第二特征提取模块706，被配置为利用所述图像处理模型中的第二特征提取网络对所述场景图像、所述对象图像以及所述对象位置信息进行特征处理，获得融合图像特征；

图像生成模块708，被配置为根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像。

可选地，所述第一特征提取模块704，还被配置为：

将所述对象图像输入所述图像处理模型中的第一特征提取网络，通过所述第一特征提取网络中的图像预处理模块对所述对象图像进行图像处理，获得预处理对象图像；

通过所述第一特征提取网络中的图像提取模块对所述预处理对象图像进行特征提取，获得所述对象图像的对象图像特征。

可选地，所述第一特征提取模块704，还被配置为：

可选地，所述第二特征提取模块706，还被配置为：

利用所述图像处理模型中的第二特征提取网络将所述场景图像、所述对象图像以及所述对象位置信息进行融合，获得融合图像；

利用所述第二特征提取网络中的融合图像特征提取模块对所述融合图像进行特征提取，获得融合图像特征。

可选地，所述第二特征提取模块706，还被配置为：

可选地，所述图像生成模块708，还被配置为：

确定所述图像生成网络中图像生成模块的图像生成特征，将所述图像生成特征、所述对象图像特征以及所述融合图像特征进行融合，获得融合图像生成特征；

利用所述图像生成模块对所述融合图像生成特征进行图像生成处理，获得包含所述目标对象以及所述场景图像的目标融合图像。

可选地，所述图像生成模块708，还被配置为：

可选地，所述图像处理装置，还包括模型训练模块，被配置为：

可选地，所述模型训练模块，还被配置为：

本说明书提供的图像处理装置，在利用图像处理模型生成目标融合图像的过程中，可以将场景图像、目标对象的对象图像、以及待将目标对象放置在所述场景图像中的对象位置信息一起输入至图像处理模型。从而在生成目标融合图像的过程中，可以利用对象位置信息指导目标对象在目标融合图像中的位置，从而根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了准确控制目标对象在目标融合图像中的位置的问题

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了另一种图像处理装置实施例，该装置，应用于云侧设备，包括：

基于此，本说明书提供的应用于云侧设备的另一种图像处理装置，在利用图像处理模型生成目标融合图像的过程中，可以将端侧设备提供的场景图像、目标对象的对象图像、以及待将目标对象放置在所述场景图像中的对象位置信息，一起输入至图像处理模型进行处理。从而在生成目标融合图像的过程中，可以利用对象位置信息指导目标对象在目标融合图像中的位置，从而根据对象图像特征以及融合图像特征生成真实生动的目标融合图像，避免了无法准确控制目标对象在目标融合图像中的位置的问题。并且，通过将该目标融合图像发送至端侧设备，从而保证图像处理模型的顺利运行，使得云侧设备能够稳定的为端侧设备提供图像处理服务。

上述为本实施例的另一种图像处理装置的示意性方案。需要说明的是，该另一种图像处理装置的技术方案与上述另一种图像处理方法的技术方案属于同一构思，另一种图像处理装置的技术方案未详细描述的细节内容，均可以参见上述另一种图像处理方法的技术方案中对应或者相应的描述，在此不作过多赘述。

图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如下计算机可执行指令，该计算机可执行指令被处理器820执行时实现上述两种图像处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的两种图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述两种图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述两种图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的两种图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述两种图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述两种图像处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的两种图像处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述两种图像处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理方法，包括：

利用所述图像处理模型中的第二特征提取网络中的高频特征提取模块对所述对象图像进行高频特征提取，获得图像高频特征；

从所述场景图像中确定与所述对象位置信息对应的目标位置，并将所述图像高频特征添加至所述场景图像中的所述目标位置，获得初始融合图像；

利用所述第二特征提取网络中的融合图像特征提取模块对所述初始融合图像进行特征提取，获得融合图像特征；

2.根据权利要求1所述的图像处理方法，所述利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征，包括：

3.根据权利要求2所述的图像处理方法，所述将所述对象图像输入所述图像处理模型中的第一特征提取网络，通过所述第一特征提取网络中的图像预处理模块对所述对象图像进行图像处理，获得预处理对象图像，包括：

4.根据权利要求1或2所述的图像处理方法，所述利用所述图像处理模型中的第一特征提取网络对所述对象图像进行特征提取，获得对象图像特征之前，还包括：

5.根据权利要求1所述的图像处理方法，所述根据所述对象图像特征以及所述融合图像特征，获得包含所述目标对象以及所述场景图像的目标融合图像，包括：

6.根据权利要求5所述的图像处理方法，所述利用所述图像处理模型中的图像生成网络，对所述对象图像特征以及所述融合图像特征进行处理，获得包含所述目标对象以及所述场景图像的目标融合图像，包括：

7.根据权利要求6所述的图像处理方法，所述确定所述图像生成网络中图像生成模块的图像生成特征，将所述图像生成特征、所述对象图像特征以及所述融合图像特征进行融合，获得融合图像生成特征，包括：

8.根据权利要求1所述的图像处理方法，所述确定场景图像、目标对象的对象图像以及、待将所述目标对象放置在所述场景图像中的对象位置信息之前，还包括：

9.根据权利要求8所述的图像处理方法，所述确定样本场景图像、样本对象的样本对象图像、待将所述样本对象放置在所述样本场景图像中的对象位置信息、以及样本标签，包括：

10.一种图像处理方法，应用于云侧设备，包括：

将所述目标融合图像发送至所述端侧设备。

11.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述图像处理方法以及权利要求10所述的图像处理方法的步骤。