CN118096924A

CN118096924A - 图像处理方法、装置、设备及存储介质

Info

Publication number: CN118096924A
Application number: CN202410409891.XA
Authority: CN
Inventors: 姜博源
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-04-07
Filing date: 2024-04-07
Publication date: 2024-05-28

Abstract

本申请提供一种图像处理方法、装置、设备及存储介质，可应用于人工智能、AI绘图、视频处理等各种领域。该方法包括：对第一图像中的物体进行分割，得到K个物体区域；获取K个物体区域的提示词；提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息；基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。即本申请将第一图像划分为K个物体区域，并为K个物体区域分别设置提示词，实现对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，提高了图生图的效果。

Description

图像处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence, AI)技术的快速发展，AI绘图应用而生。AI绘图包括文字生图和图生图两种应用模式。其中文生图是可以根据用户输入的文本内容，快速生成符合要求的图像。图生图除了输入文本外，还会输入一张初始图像，进而根据输入的文本对初始图像做变换转换为另一张符合文本描述风格的图像。

目前图生图方法通常是基于扩散算法的图像生成模型生成，具体是按照对象输入的提示词，对初始图像进行风格变换。但是，目前的图生图方法，只支持使用单一提示词作为控制条件，若初始图像中包括多个物体时，生成的图像结果不理想。

发明内容

本申请提供一种图像处理方法、装置、设备及存储介质，可以实现对图像中不同物体的风格进行准备变换，提升图生图的效果。

第一方面，本申请提供一种图像处理方法，包括：

获取待处理的第一图像，并对所述第一图像中的K个物体进行分割，得到K个物体区域，所述K为正整数；

获取所述K个物体区域中每一个物体区域的提示词，所述提示词用于指示将所述物体区域所包括的物体的初始特征变换为所述提示词所描述的目标特征；

提取所述第一图像的图像特征信息，以及所述K个物体区域中每一个物体区域的提示词的文本特征信息；

基于所述第一图像的图像特征信息和所述K个物体区域的提示词的文本特征信息，将所述第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。

第二方面，本申请提供一种图像处理装置，包括：

分割单元，用于获取待处理的第一图像，并对所述第一图像中的K个物体进行分割，得到K个物体区域，所述K为正整数；

获取单元，用于获取所述K个物体区域中每一个物体区域的提示词，所述提示词用于指示将所述物体区域所包括的物体的初始特征变换为所述提示词所描述的目标特征；

提取单元，用于提取所述第一图像的图像特征信息，以及所述K个物体区域中每一个物体区域的提示词的文本特征信息；

处理单元，用于基于所述第一图像的图像特征信息和所述K个物体区域的提示词的文本特征信息，将所述第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。

在一些实施例中，处理单元，具体用于对所述第一图像的图像特征信息进行加噪处理，得到所述第一图像的加噪特征信息；基于所述第一图像的加噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息；对所述去噪后的图像特征信息进行解码处理，得到所述第二图像。

在一些实施例中，处理单元，具体用于通过去噪网络，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，所述i为小于或N的正整数，若所述i为1时，所述第i次去噪特征信息为所述第一图像的加噪特征信息；基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息；将所述第i+1次去噪特征信息作为新的第i次去噪特征信息，返回重复执行上述步骤，得到所述第一图像的第N次去噪特征信息；将所述第N次去噪特征信息确定为所述去噪后的图像特征信息。

在一些实施例中，所述去噪网络包括M个注意力模块，处理单元，具体用于通过所述M个注意力模块，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述第一图像的第M个图像特征信息；基于所述第M个图像特征信息，确定所述第i次噪声预测值。

在一些实施例中，处理单元，具体用于对于所述M个注意力模块中的第j个注意力模块，通过所述第j个注意力模块，将所述第一图像的第j-1个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j个注意力特征信息，所述j为小于或等于M的正整数，若所述j为1时，所述第j-1个图像特征信息为所述第一图像的第i次去噪特征信息；基于所述K个物体区域中每一个物体区域的第j个注意力特征信息，确定所述第一图像的第j个图像特征信息；通过第j+1个注意力模块，对所述第一图像的第j个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到所述第一图像的第M个图像特征信息。

在一些实施例中，处理单元，具体用于对于所述K个物体区域中的第k个物体区域，通过所述第j个注意力模块，对所述第k个物体区域的提示词的文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息，所述k为小于或等于K的正整数。

在一些实施例中，处理单元，具体用于对所述第k个物体区域的提示词的文本特征信息进行第一线性变换，得到所述第k个物体区域的提示词的第一文本特征信息；对所述第k个物体区域的提示词的文本特征信息进行第二线性变换，得到所述第k个物体区域的提示词的第二文本特征信息；通过所述第j个注意力模块，对所述第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

在一些实施例中，处理单元，具体用于将所述第k个物体区域的提示词的第一文本特征信息作为所述第j个注意力模块的键值，将所述第k个物体区域的提示词的第二文本特征信息作为所述第j个注意力模块的代表值，将所述第j-1个图像特征信息作为所述第j个注意力模块的查询值，输入所述第j个注意力模块中进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

在一些实施例中，处理单元，具体用于对于所述K个物体区域中的第k个物体区域，从所述第k个物体区域的第j个注意力特征信息，提取出所述第k个物体区域所包括的物体的第j个注意力特征信息，所述k为小于或等于K的正整数；基于所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到所述第一图像的第j个图像特征信息。

在一些实施例中，处理单元，具体用于获取所述第k个物体区域的分割图；基于所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息，得到所述第k个物体区域所包括的物体的第j个注意力特征信息。

在一些实施例中，处理单元，具体用于将所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息的乘积，得到所述第k个物体区域中物体的第j个注意力特征信息。

在一些实施例中，处理单元，具体用于将所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息进行相加，得到所述第一图像的第j个图像特征信息。

在一些实施例中，处理单元，具体用于将所述第一图像的第i次去噪特征信息和所述第i次噪声预测值的差值，确定为所述第一图像的第i+1次去噪特征信息。

在一些实施例中，分割单元，具体用于获取分割指示信息，所述分割指示信息用于指示对所述第一图像所包括的P个物体中的K个物体进行分割，所述P为大于或等于K的正整数；基于所述分割指示信息，对所述第一图像中的K个物体进行分割，得到所述K个物体区域。

在一些实施例中，分割单元，具体用于通过物体分割模型，对所述第一图像中的K个物体进行分割，得到所述K个物体区域；或者，接收对象对所述第一图像中的K个物体的分割操作，得到所述K个物体区域。

在一些实施例中，获取单元，具体用于接收对象输入的所述K个物体区域中每一个物体区域的提示词。

在一些实施例中，所述K个物体区域中至少两个物体区域的提示词不同。

第三方面，本申请提供了一种电子设备，包括处理器和存储器。所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行上述第一方面的方法。

第四方面，提供了一种芯片，用于实现上述第一方面其各实现方式中的方法。具体地，所述芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上述第一方面的方法。

第五方面，提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行上述第一方面的方法。

第六方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令使得计算机执行上述第一方面的方法。

第七方面，提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面的方法。

综上，本申请通过获取待处理的第一图像，并对第一图像中的物体进行分割，得到K个物体区域。接着，获取K个物体区域中每一个物体区域的提示词，该提示词用于指示将物体区域中物体的初始特征变换为提示词所描述的目标特征。然后，提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息。最后，基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。由此可知，本申请实施例对于包括多个物体的第一图像，在基于第一图像生成第二图像时，基于第一图像所包括的物体，将第一图像划分为K个物体区域，并为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种图生图示意图；

图2为本申请实施例提供的一种图像处理方法的实施环境的示意图；

图3为本申请一实施例提供的图像处理方法的流程示意图；

图4为一种图像特征信息的提取示意图；

图5为一种文本特征信息的提取示意图；

图6为使用去噪网络进行去噪的一种示意图；

图7为使用去噪网络进行去噪的另一种示意图；

图8为去噪网络的一种结构示意图；

图9为去噪网络中注意力模块之间的数据交互示意图；

图10为去噪网络的一种具体示例图；

图11为去噪网络的另一种示例图；

图12为使用解码器生成第二图像的示意图；

图13为本申请一实施例提供的图像处理方法流程示意图；

图14为一种图生图模型的示意图；

图15是本申请一实施例提供的图像处理装置的示意性框图；

图16是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

本申请实施例提供的图像处理方法，可以应用于人工智能、AI绘图、视频处理等各种领域，可以对一张图中的不同的物体区域使用不同的提示词进行单独控制，从而实现更加精细的图生图效果，提升在多目标场景时的生成效果。

为了便于理解本申请的实施例，首先对本申请实施例涉及的相关概念进行介绍：

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

自动驾驶技术，指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景，目前的领域为物流、公共交通、出租车、智慧交通领域外，未来将得到进一步发展。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本申请实施例中，将人工智能技术应用到图像处理领域，通过对一张图中的不同的物体区域使用不同的提示词进行单独控制，从而实现更加精细的图生图效果。

图生图是指按照输入的提示词，对初始图像中的物体的特征进行变换，生成满足提示词要求的目标图像。例如，初始图像为一张小狗的图像，提示词为生成一张小猫的图像。这样通过图生图方法，如图1所示，可以将图1左侧的小狗图像，变换为图1右侧所示的小猫图像，即将图。

为了解决上述技术问题，本申请实施例在图生图时，获取待处理的第一图像，并对第一图像中的物体进行分割，得到K个物体区域。接着，获取K个物体区域中每一个物体区域的提示词，该提示词用于指示将物体区域中物体的初始特征变换为提示词所描述的目标特征。然后，提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息。最后，基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。由此可知，本申请实施例对于包括多个物体的第一图像，在基于第一图像生成第二图像时，基于第一图像所包括的物体，将第一图像划分为K个物体区域，并为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

下面对本申请实施例的实施环境进行介绍。

图2为本申请实施例提供的一种图像处理方法的实施环境的示意图，如图2所示，该实施环境中包括：终端设备101和服务器102。

其中终端设备101与服务器102通过有线或无线的方式连接。

在一些实施例中，上述终端设备101上安装有图像处理系统的客户端，服务器102可以理解为图像处理系统的服务器端或后台端。对象（例如用户）可以与在终端设备101上安装的图像处理系统的客户端进行交互。服务器102中保存有图生图模型，示例性的，该图生图模型可以为基于扩散算法的图像生成模型。

在一些实施例中，本申请实施例提供的图像处理方法由终端设备101和服务器102共同执行。例如，对象启动终端设备101上的图像处理系统的客户端，该客户端显示第一图像的输入界面，对象在该输入界面中输入待处理的第一图像。终端设备101将第一图像发送给服务器102。服务器102对第一图像执行物体分割，例如服务器102中包括物体分割模型，服务器102通过该物体分割模型，对第一图像中的物体进行分割，得到K个物体区域。接着，服务器102将分割的K个物体区域发送给终端设备101。终端设备101将该K个物体区域显示给对象。在一种示例中，对象可以在终端设备101上输入这K个物体区域中每一个物体区域的提示词。接着，终端设备101将K个物体区域的提示词发送给服务器102。服务器102提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息，基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。例如，服务器102中包括图生图模型，服务器102将第一图像的图像特征信息和K个物体区域的提示词的文本特征信息输入该图生图模型中，生成第二图像。最后，服务器102将生成的第二图像发送给终端设备101，终端设备101将该第二图像显示给对象。这样为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

在一些实施例中，本申请实施例提供的图像处理方法由终端设备101执行。此时，终端设备101可以为任一能够提供图像处理服务的终端设备。服务器102可以是任一能够提供数据下载服务的服务器。在一种示例中，上述服务器102中保存有物体分割网络和图生图模型。终端设备101上安装有图像处理系统的客户端，该客户端可以基于对象的请求，从服务器102中请求物体分割模型和图生图模型。例如，终端设备101显示第一图像的输入界面，对象在该输入界面中输入待处理的第一图像，终端设备101响应于第一图像的输入操作，向服务器102发送请求，以请求物体分割模型和图生图模型。终端设备101通过该物体分割模型对第一图像中的物体进行分割，得到K个物体区域。接着，终端设备101将该K个物体区域显示给对象。在一种示例中，对象可以在终端设备101上输入这K个物体区域中每一个物体区域的提示词。接着，终端设备101提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息，基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。例如，终端设备101将第一图像的图像特征信息和K个物体区域的提示词的文本特征信息输入该图生图模型中，生成第二图像。最后，终端设备101将该第二图像显示给对象。这样为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

在一些实施例中，上述终端设备101包括但不限于：台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。终端设备往往配置有显示装置，显示装置也可为显示器、显示屏、触摸屏等等，触摸屏也可为触控屏、触控面板等等。

在一些实施例中，上述服务器102可以是一台或多台。服务器是多台时，存在至少两台服务器用于提供不同的服务，和/或，存在至少两台服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。其中，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器也可以成为区块链的节点。

需要说明的是，本申请实施例的实施环境包括但不限于图2所示。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请一实施例提供的图像处理方法的流程示意图。本申请实施例的执行主体可以为具有图像处理功能的装置执行，例如图像处理装置。该图像处理装置可以为上述图1所示的服务器102、或终端设备101，也可以是图1所示的服务器102或101组成的系统。为了便于描述，下面实施例以电子设备为例，对本申请实施例的方法进行说明。

如图3所示，本申请实施例的图像处理方法包括：

S101、获取待处理的第一图像，并对所述第一图像中的物体进行分割，得到K个物体区域。

其中，K为正整数。

需要说明的是，本申请实施例所使用的数据以及获取这些数据的过程均是符合相关法律法规的规定。

本申请实施例的图像处理方法可以用于到任意类型图像的处理，也就是说，本申请实施例对第一图像的具体类型不做限制。在一种示例中，该第一图像为单独的一种图像。在一种示例中，该第一图像可以为视频中的某一帧图像。

在一些实施例中，本申请实施例的图像处理方法可以理解为图生图方法。

本申请实施例的第一图像可以理解为上述的初始图像，即待处理或待改造的图像。

本申请实施例的第一图像中包括多个物体。

在一种示例中，第一图像所包括的多个物体均为同一类物体，例如第一图像所包括的多个物体均为人物或者均为小狗。

在一种示例中，第一图像所包括的多个物体可以包括不同类的物体，例如第一图像所包括的多个物体包括小狗、小猫和人物。

本申请实施例对电子设备获取第一图像的具体方式不做限制。

在一种可能的实现方式中，上述第一图像为对象（例如用户）输入的。例如，该电子设备为终端设备时，则对象向该终端设备输入第一图像。再例如，该电子设备为服务器时，则对象在终端设备上输入第一图像，终端设备将对象输入的第一图像发送给服务器。

在一种可能的实现方式中，上述第一图像为电子设备生成的。例如，该电子设备为终端设备时，则终端设备接收对象输入的图像生成指令，该图像生成指令用于指示生成包括多个物体的第一图像。终端设备基于该图像生成指令，生成第一图像。再例如，该电子设备为服务器时，终端设备接收对象输入的图像生成指令，并将该图像生成指令发送给服务器。服务器基于该图像生成指令，生成第一图像。

在本申请实施例中，电子设备获得待处理的第一图像后，对第一图像中的物体进行分割，得到K个物体区域。

在一些实施例中，本申请实施例对第一图像所包括的所有物体都进行分割，例如第一图像包括6个物体，则对第一图像所包括的6个物体均进行分割，得到6个物体区域。

在一些实施例中，本申请实施例可以对第一图像所包括的物体中的部分物体进行分割。例如，第一图像包括6个物体，则可以对第一图像所包括的6个物体中的3个或4个等部分物体进行分割，得到多个物体区域。

基于上述描述，在一些实施例中，电子设备可以通过如下S101-A和S101-B的步骤，完成物体分割：

S101-A、获取分割指示信息，分割指示信息用于指示对第一图像所包括的P个物体中的K个物体进行分割，P为大于或等于K的正整数；

S101-B、基于分割指示信息，对第一图像中的K个物体进行分割，得到K个物体区域。

在该实现方式中，电子设备在对第一图像进行物体分割时，首先获取该分割指示信息。该分割指示信息用于指示对第一图像所包括的P个物体中的K个物体进行分割，其中P为大于或等于K的正整数。也就是说，若K等于P时，则该分割指示信息指示对第一图像所包括的所有物体进行分割。若K小于P时，则该分割指示信息指示对第一图像中的部分物体进行分割。

本申请实施例对获取分割指示信息的具体方式不做限制。

在一种可能的实现方式中，上述分割指示信息为对象输入的。例如，上述电子设备为终端设备时，对象在该终端设备上输入分割指示信息。再例如，上述电子设备为服务器，则对象在终端设备上输入分割指示信息，终端设备将该分割指示信息发送给服务器。

电子设备基于上述步骤，获得第一图像的分割指示信息后，基于该分割指示信息，对第一图像中的K个物体进行分割。

在一些示例中，若K等于P，即分割指示信息用于指示对第一图像所包括的P个物体中的所有物体均进行分割时，则电子设备对第一图像所包括的所有物体进行分割，得到K个物体区域。在该示例中，分割指示信息中可以不包括待分割的物体的名称或待分割的物体在第一图像中的位置信息等用于指示待分割的K个物体的信息。

在一种示例中，若K小于P，即分割指示信息用于指示对第一图像所包括的P个物体中的部分物体（即K个物体）进行分割时，该分割指示信息中还可以包括待分割的K个物体的名称或该K个物体在第一图像中的位置信息等用于指示这K个物体的信息。举例说明，假设第一图像包括第一小狗、第二小狗和小猫，该分割指示信息指示对第一图像所包括的3个物体中的2个物体进行分割，且假设该分割的2个物体为第一小狗和小猫时，则该分割指示信息中还可以包括待分割的2个物体（即第一小狗和小猫）的名称，或者第一小狗或小猫在第一图像中的位置信息。这样，电子设备可以基于该分割指示信息，对第一图像中的第一小狗和小猫进行分割，得到第一小狗区域和小猫区域。

本申请实施例对电子设备对第一图像中的物体进行分割的具体方式不做限制。

在一些实施例中，电子设备通过物体分割模型，对第一图像中的K个物体进行分割，得到K个物体区域。例如，电子设备中存储有物体分割模型或者电子设备从其他存储设备处获得该物体分割模型，该物体分割模型为预先训练好的，电子设备可以将第一图像输入该物体分割模型中，对第一图像中的K个物体进行物体分割，得到第一图像的K个物体区域。在一种示例中，分割得到的K个物体区域以分割图的形式表示，也就是说，电子设备对第一图像中的K个物体进行分割，得到K个分割图，对于K个物体中的每一个物体对应一个分割图。例如，对于K个物体中的第i个物体，在该第i个物体的分割图中该第i个物体的掩码值与其他物体的掩码值不同，例如该第i个物体的分割图中该第i个物体的掩码值为1，其他物体的掩码值为0。

在一些实施例中，对象可以对第一图像中的K个物体进行分割。此时，电子设备接收对象对第一图像中的K个物体的分割操作，得到K个物体去趟。在一种示例，若分割得到的K个物体区域以分割图的形式表示时，对于K个物体中的第i个物体，对象可以将第一图像中该第i个物体所在像素点的掩码值置为1，其他物体所在的像素点的掩码值置为0，得到第i个物体的分割图。

电子设备基于上述步骤，对第一图像中的K个物体进行分割，得到K个物体区域后，执行如下S102的步骤。

S102、获取K个物体区域中每一个物体区域的提示词。

其中，提示词用于指示将物体区域中物体的初始特征变换为提示词所描述的目标特征。

在本申请实施例中，当第一图像包括多个物体时，为了实现对第一图像中每一个物体分别进行控制，以实现对图生图的精准控制，则电子设备首先将第一图像中的K个物体进行分割，得到K个物体区域。接着，对这K个物体区域中的每一个物体区域单独设置一个提示词，这样可以基于K个物体区域中每一个物体区域的提示词，对每一个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

在本申请实施例中，上述K个物体区域中至少两个物体区域的提示词不同。

在一些实施例中，上述K个物体区域中每一个物体区域的提示词均不相同。

在一些实施例中，上述K个物体区域中部分物体区域的提示词不同，部分物体区域的提示词相同。

本申请实施例的每个物体区域的提示词用于指示将该物体区域中物体的初始特征变换为提示词所描述的目标特征。例如，对于K个物体区域中的第i个物体区域，假设第i个物体区域所包括的物体为小狗，假设该第i个物体区域的提示词为“将第i个物体区域中的小狗变换为小猫”。这样在后续图生图过程中，将第i个物体区域中的小狗变换小猫。再例如，第i个物体区域的提示词为“将第i个物体区域中的小狗变换为卡通小狗”，这样在后续图生图过程中，将第i个物体区域中的小狗变换卡通小狗。

本申请实施例对电子设备获取K个物体区域中每一个物体区域的提示词的具体方式不做限制。

在一种可能的实现方式中，对象可以输入每一个物体区域的提示词。此时，电子设备可以接收对象输入的K个物体区域中每一个物体区域的提示词。例如，若电子设备为终端设备时，对象可以直接在该终端设备上输入K个物体区域中每一个物体区域的提示词。再例如，若电子设备为服务器时，则对象在终端设备上输入K个物体区域中每一个物体区域的提示词，终端设备将对象输入的K个物体区域的提示词发送给服务器。

在一种可能的实现方式中，采用图像描述（image caption）算法，为K个物体区域赋予各自的提示词。例如，对于K物体区域中的第i个物体区域，假设第i个物体区域包括的物体为小狗，假设对象输入一张图像A，电子设备采用image caption算法对图像A进行识别，得到该图像A的描述信息为“一只小猫”，此时电子设备可以基于图像A的识别结果（即小猫），来确定第i个物体区域的提示词，例如，确定第i个物体区域的提示词为“将第i个物体区域中的小狗变换为小猫”。

需要说明的是，电子设备除了采用上述方法，获得K个物体区域中每一个物体区域的提示词外，该可以采用其他的方法，或者采用上述两种方式相结合的方式。

基于上述步骤，获得K个物体区域中每一个物体区域的提示词后，执行如下S103的步骤。

S103、提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息。

电子设备基于上述步骤，获得第一图像，并对第一图像中的K个物体进行分割，得到K个物体区域，以及为K个物体区域中每一个物体区域单独分配一个提示词，以对每一个物体区域进行单独控制。为了实现第一图像的图像信息与提示词的语义信息之间的相互融合，则电子设备首先提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息。

本申请实施例对电子设备提取第一图像的图像特征信息的具体方式不做限制。

在一些实施例中，电子设备通过图像编码器，对第一图像进行特征提取处理，得到第一图像的图像特征信息。示例性的，该图像编码器包括一个或多个卷积层。

在一些实施例中，为了提升图像处理速度和计算工作量，则电子设备可以对第一图像进行编码压缩，得到第一图像的图像特征信息。

在一种示例中，如图4所示，电子设备采用变分自编码器（VariationalAutoencoder，简称VAE），对第一图像进行编码压缩，得到第一图像的图像特征信息。具体的，VAE编码器通过对第一图像进行编码，将第一图像从像素空间转换到潜空间（latentspace），得到第一图像的图像特征信息。

例如，第一图像为512*512 像素的照片图像，数据表达为（3,512,512），即 RGB 三通道 *512*512 像素的图像数据规模，数据体积为 786432。而经过VAE编码后，转换到潜空间中，例如在潜空间中被压缩成（4,64,64）的图像特征信息，数据体积为 16384，数据量减少到原来的 64 分之 1。这样可以大大提升本申请实施例提供的图像处理方法的处理效率和普适性。

本申请实施例对电子设备提取K个物体区域中每一个物体区域的提示词的文本特征信息的具体方式不做限制。

在一些实施例中，电子设备通过文本编码器，对物体区域的提示词进行特征提取，得到提示词的文本特征信息。示例性的，该文本编码器包括嵌入层。

在一些实施例中，如图5所示，电子设备通过CLIP（Contrastive Language-ImagePre-training，对比语言-图像预训练）文本编码器，对物体区域的提示词进行特征提取，得到提示词的文本特征信息。其中，CLIP文本编码器将提示词的文本信息转换为用数字表达的信息，以便让机器能够理解提示词文本的语义。示例性的，CLIP文本编码器可以理解为一个特殊的 Transformer 语言模型，它的输入是文本，输出则为数字表达的矩阵，即用Embedding （嵌入）的方式来表达提示词中的每个 token（令牌），每个 token 对应一组Embedding 向量，一连串的 token组合到一起就形成了一个 Embedding 的矩阵，将该Embedding 的矩阵记为提示词的文本特征信息。

电子设备除了采用上述方法，提取出第一图像的特征信息和提示词的文本特征信息外，还可以采用其他方式得到，本申请实施例对此不做限制。

电子设备提取出第一图像的图像特征信息和K个物体区域中每一个物体区域的提示词的文本特征信息外，执行如下S104的步骤。

S104、基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。

在本申请实施例中，电子设备将第一图像划分为K个物体区域，并为K个物体区域中每一个物体区域分配一个提示词，以实现对每一个物体区域的单独控制。这样在基于第一图像和K个物体区域中每一个物体区域的提示词，生成第二图像时，首先提取出第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息，进而将第一图像的图像特征信息和K个物体区域中每一个物体区域的提示词的文本特征信息进行融合，以将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，进而得到第二图像。

本申请实施例对电子设备基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像的具体方式不做限制。

在一些实施例中，训练一个图像生成模型，该图像生成模型可以基于输入图像的图像特征信息和该输入图像的多个物体区域的提示词的文本特征信息，生成一张满足各区域提示词要求的新的图像。例如，图像生成模型的训练过程为，对训练图像进行物体分割，得到训练图像的K个物体区域，为训练图像的K个物体区域分别设置一个提示词，并提取该训练图像的图像特征信息和K个物体区域的提示词的文本特征信息。接着，将训练图像的图像特征信息和K个物体区域的提示词的文本特征信息输入该图像生成模型中，该图像生成模型生成一个新的图像，将该新的图像与K个物体区域的提示词进行比较，确定该图像生成模型的损失，基于该损失对图像生成模型中的参数进行更新，重复上述步骤，可以得到训练后的图像生成模型。这样，电子设备可以将上述获得第一图像的图像特征信息和第一图像的K个物体区域的提示词的文本特征信息输入该图像生成模型中，该图像生成模型生成第二图像。

在一些实施例中，上述S104包括如下S104-A至S104-C的步骤：

S104-A、对第一图像的图像特征信息进行加噪处理，得到第一图像的加噪特征信息；

S104-B、基于第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息；

S104-C、对去噪后的图像特征信息进行解码处理，得到第二图像。

在该实现方式中，采用的前向扩散和逆向扩散技术，来生成第二图像。其中，前向扩散过程将噪声添加到图像中，逐渐将其转换为没有特点的噪声图像。前向过程会将任何猫或狗的图像变成噪声图像。最终，将无法分辨它们最初是狗还是猫。逆向扩散是从加噪够的图像中减去这个估计的噪声的过程，最终会得到一只猫或一只狗的图像。

在本申请实施例中，电子设备基于上述步骤，得到第一图像的图像特征信息和第一图像的K个物体区域中每一个物体区域的提示词的文本特征信息后，对第一图像的图像特征信息进行加噪处理，例如对第一图像的图像特征信息添加预设的噪声值，得到第一图像的加噪特征信息，该过程可以理解为前向扩散的过程。

接着，电子设备基于第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息，该过程可以理解为逆向扩散的过程。

本申请实施例对电子设备基于第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息的具体过程不做限制。

在一些实施例中，电子设备通过数学技术方法，对第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行多次去噪处理，得到去噪后的图像特征信息。

在一些实施例中，上述S104-B包括如下S104-B1至S104-B3的步骤：

S104-B1、通过去噪网络，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，i为小于或N的正整数，若i为1时，第i次去噪特征信息为第一图像的加噪特征信息；

S104-B2、基于第i次噪声预测值和第一图像的第i次去噪特征信息，得到第一图像的第i+1次去噪特征信息；

S104-B3、将第i+1次去噪特征信息作为新的第i次去噪特征信息，返回执行上述S104-B1步骤，直到i等于N为止，得到第一图像的第N次去噪特征信息。

在该实现方式中，电子设备通过去噪网络，对第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行多次去噪处理。其中，去噪网络用于预测每一次去噪过程的噪声值。具体的，在每一次去噪时，在前一次的去噪特征信息的基础上减去该去噪网络当前预测的噪声值，生成新的去噪特征信息输入去噪网络中进行再次去噪。重复多次，直到添加在第一图像上的造成被去除结束为止。在每次去噪过程中，去噪网络中除了输入第一图像的新的去噪特征信息外，还输入K个物体区域中每一个物体区域的提示词的文本特征信息，使得去噪过程中图像特征信息与K个物体区域的提示词的文本特征进行靠近，使得最后去噪得到的图像特征信息中融合K个物体区域的提示词的文本特征，这样基于去噪得到的图像特征信息生成的第二图像满足K个物体区域的提示词的指示，进而实现图生图的精准控制，提升图生图的效果。

下面对采用去噪网络，对第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息的具体过程进行介绍。

如图6所示，使用去噪网络进行去噪过程为迭代过程，例如，通过去噪网络，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值。接着，基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息。接着，第i+1次去噪特征信息作为新的第i次去噪特征信息，通过去噪网络，对新的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息。接着，第i+1次去噪特征信息作为新的第i次去噪特征信息，返回执行，这样重复N次去噪操作后，可以得到第N次去噪特征信息，进而将该第N次去噪特征信息，确定为去噪后的图像特征信息。

举例说明，假设N等于20，如图7所示，首先电子设备将第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息输入去噪网络中进行去噪，得到去噪网络预设的第1次噪声预测值，基于该第1次噪声预测值和第一图像的加噪特征信息，得到第一图像的第1次去噪特征信息。接着，将第一图像的第1次去噪特征信息和K个物体区域的提示词的文本特征信息输入去噪网络中进行去噪，得到去噪网络预设的第2次噪声预测值，基于该第2次噪声预测值和第1次去噪特征信息，得到第2次去噪特征信息。接着，将第一图像的第2次去噪特征信息和K个物体区域的提示词的文本特征信息输入去噪网络中进行去噪，得到去噪网络预设的第3次噪声预测值，基于该第3次噪声预测值和第2次去噪特征信息，得到第3次去噪特征信息。重复执行，将第一图像的第19次去噪特征信息和K个物体区域的提示词的文本特征信息输入去噪网络中进行去噪，得到去噪网络预设的第20次噪声预测值，基于该第20次噪声预测值和第19次去噪特征信息，得到第20次去噪特征信息。进而将该第20次去噪特征信息确定为去噪后的图像特征信息。

下面对上述S104-B1中通过去噪网络，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值的具体过程进行介绍。

本申请实施例对去噪网络的具体网络结构不做限制。例如可以为任意基于加噪的图像特征信息和文本特征信息，预测出噪声值的神经网络。例如可以U-Net网络，用于将在去除图像信息中的噪声的同时，使得去噪后的图像特征信息向提示词所提示的方向扩散，以生成包括提示信息的图像特征信息。

在一些实施例中，如图8所示，本申请实施例的去噪网络包括M个注意力模块，此时，上述S104-B1包括如下S104-B11和S104-B12的步骤：

S104-B11、通过M个注意力模块，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到第一图像的第M个图像特征信息；

S104-B12、基于第M个图像特征信息，确定第i次噪声预测值。

在该实现方式中，如图8所示，去噪网络包括M个注意力模块，电子设备可以通过该M个注意力模块对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到第一图像的第M个图像特征信息，进而基于该第M个图像特征信息，确定第i次噪声预测值。

本申请实施例对电子设备通过M个注意力模块，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到第一图像的第M个图像特征信息的具体方式不做限制。

在一些实施例中，电子设备首先通过一个或多个卷积层，将第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行融合，得到融合特征信息。假设去噪网络中的M个注意力模块串联连接，则电子设备将该融合特征信息输入M个注意力模块中的第一个注意力模块中进行融合处理，得到第一融合特征信息，将该第一融合特征信息输入第二个注意力模块中进行处理，得到第二融合特征信息，将该第二融合特征信息输入第三个注意力模块中进行融合处理，依次进行，得到第M个注意力模块输出的第M融合特征信息，进而将该第M融合特征信息，确定为第一图像的第M个图像特征信息。

在一些实施例中，上述S104-B11包括如下S104-B11-a至S104-B11-c的步骤：

S104-B11-a、对于M个注意力模块中的第j个注意力模块，通过第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j个注意力特征信息，j为小于或等于M的正整数，若j为1时，第j-1个图像特征信息为第一图像的第i次去噪特征信息；

S104-B11-b、基于K个物体区域中每一个物体区域的第j个注意力特征信息，确定第一图像的第j个图像特征信息；

S104-B11-c、通过第j+1个注意力模块，对第一图像的第j个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到第一图像的第M个图像特征信息。

在该实现方式中，如图9所示，M个注意力模块中前一个注意力模块的输出信息经过处理后，作为后一个注意力模块的输入信息，且M个注意力模块中每一个注意力模块的输入信息中均包括K个物体区域的提示词的文本特征信息。基于此，对于M个注意力模块中的第j个注意力模块，通过该第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j个注意力特征信息。若j等于1，即第j个注意力模块为M个注意力模块中的第一个注意力模块时，则上述第j-1个图像特征信息为第一图像的第i次去噪特征信息。也就是说，将第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息，输入第1个注意力模块进行融合处理，得到K个物体区域中每一个物体区域的第1个注意力特征信息。若j大于1时，则上述第j-1个图像特征信息为基于第j-1个注意力模块输出的K个物体区域中每一个物体区域的第j-1个注意力特征信息确定的。

在本申请实施例中，电子设备通过第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j个注意力特征信息的具体方式至少包括如下几种：

方式1，电子设备通过第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域中每一个物体区域的提示词的文本特征信息进行融合处理时，考虑了其他物体区域的提示词的文本特征信息。例如，电子设备将第一图像的第j-1个图像特征信息和K个物体区域中每一个物体区域的提示词的文本特征信息一同输入中第j个注意力模块进行融合处理，而不是将每一个物体区域的提示词的文本特性信息与第一图像的第j-1个图像特征信息进行单独的融合处理。

方式2，电子设备通过第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域中每一个物体区域的提示词的文本特征信息进行融合处理时，不考虑了其他物体区域的提示词的文本特征信息。例如，对于K个物体区域中的第k个物体区域，通过第j个注意力模块，对该第k个物体区域的提示词的文本特征信息，以及第一图像的第j-1个图像特征信息进行融合处理，得到第k个物体区域的第j个注意力特征信息，其中k为小于或等于K的正整数。也就是说，K个物体区域中每个物体区域的提示词都通过交叉注意力机制产生各自的注意力特征信息（attention map）。

在该方式2的一种示例中，电子设备对第k个物体区域的提示词的文本特征信息进行第一线性变换，得到第k个物体区域的提示词的第一文本特征信息；对第k个物体区域的提示词的文本特征信息进行第二线性变换，得到第k个物体区域的提示词的第二文本特征信息；通过第j个注意力模块，对第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及第一图像的第j-1个图像特征信息进行融合处理，得到第k个物体区域的第j个注意力特征信息。例如，将第k个物体区域的提示词的第一文本特征信息作为第j个注意力模块的键值，将第k个物体区域的提示词的第二文本特征信息作为第j个注意力模块的代表值，将第j-1个图像特征信息作为第j个注意力模块的查询值，输入第j个注意力模块中进行融合处理，得到第k个物体区域的第j个注意力特征信息。

在一种可能的实现方式中，电子设备可以通过如下公式（1），确定出第k个物体区域的第j个注意力特征信息：

（1）

其中，为第k个物体区域的第j个注意力特征信息，/>为第一图像的第j-1个图像特征信息，/>为第k个物体区域的提示词的第一文本特征信息的转置，/>为第k个物体区域的提示词的第二文本特征信息。d为缩放因子，用于调节softmax函数的输入尺度。

上述公式（1）是将第k个物体区域的提示词的第一文本特征信息作为第j个注意力模块的键值，将第k个物体区域的提示词的第二文本特征信息作为第j个注意力模块的代表值。在一些实施例，还可以是将第k个物体区域的提示词的第一文本特征信息作为第j个注意力模块的代表值，将第k个物体区域的提示词的第二文本特征信息作为第j个注意力模块的键值，将第j-1个图像特征信息作为第j个注意力模块的查询值，输入第j个注意力模块中进行融合处理，得到第k个物体区域的第j个注意力特征信息。

在该方式2的另一种示例中，电子设备对第一图像的第j-1个图像特征信息进行第一线性变换，得到第一图像的第j-1个第一图像特征信息；对第一图像的第j-1个图像特征信息进行第二线性变换，得到第一图像的第j-1个第二图像特征信息。通过第j个注意力模块，对第一图像的第j-1个第一图像特征信息、第一图像的第j-1个第二图像特征信息和第k个物体区域的提示词的文本特征信息进行融合处理，得到第k个物体区域的第j个注意力特征信息。

上述以电子设备确定第k个物体区域的第j个注意力特征信息为例，参照上述实施例，电子设备可以确定出K个物体区域中每一个物体区域的第j个注意力特征信息。

接着，电子设备执行上述S104-B11-b的步骤，基于K个物体区域中每一个物体区域的第j个注意力特征信息，确定第一图像的第j个图像特征信息。

本申请实施例对电子设备基于K个物体区域中每一个物体区域的第j个注意力特征信息，确定第一图像的第j个图像特征信息的具体方式不做限制。

在一些实施例中，将K个物体区域中每一个物体区域的第j个注意力特征信息进行组合，得到第一图像的第j个图像特征信息。

在一些实施例中，上述S104-B11-b包括如下S104-B11-b1和S104-B11-b2的步骤：

S104-B11-b1、对于K个物体区域中的第k个物体区域，从第k个物体区域的第j个注意力特征信息，提取出第k个物体区域所包括的物体的第j个注意力特征信息，k为小于或等于K的正整数；

S104-B11-b2、基于K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到第一图像的第j个图像特征信息。

在该实现方式中，对于K个物体区域中的每一个物体区域，例如第k个物体区域，该第k个物体区域中除了包括第k个物体外，还包括其他的像素点。在本申请实施例中，为了剔除其他像素点的影响，则从第k个物体区域的第j个注意力特征信息中，只提取出第k个物体区域所包括的物体的第j个注意力特征信息。

本申请实施例对从第k个物体区域的第j个注意力特征信息中，只提取出第k个物体区域所包括的物体的第j个注意力特征信息的具体方式不做限制。

在一种可能的实现方式中，电子设备从第k个物体区域的第j个注意力特征信息中，提取第k个物体区域所包括的物体的像素点对应的注意力特征信息，进而得到第k个物体区域所包括的物体的第j个注意力特征信息。

在一种可能的实现方式中，本申请实施例的第k个物体区域以分割图的形式表现。例如电子设备在对第一图像中的第k个物体进行分割时，将第一图像中该第k个物体所在的像素点的掩码值（mask值）置为1（或者置为0），将第一图像中除第k个物体外的像素点的掩码值置为0（或者置为1）。此时，电子设备在确定第k个物体区域所包括的物体的第j个注意力特征信息时，首先获取第k个物体区域的分割图；进而基于第k个物体区域的分割图和第k个物体区域的第j个注意力特征信息，得到第k个物体区域所包括的物体的第j个注意力特征信息。

在一种示例中，基于第k个物体区域的分割图中，从第k个物体区域的第j个注意力特征信息中，提取出第k个物体区域的分割图中mask值为1的像素点（即第k个物体所在的像素点）对应的注意力特征信息，进而得到第k个物体区域中物体的第j个注意力特征信息。

在一种示例中，将第k个物体区域的分割图和第k个物体区域的第j个注意力特征信息的乘积，得到第k个物体区域中物体的第j个注意力特征信息。

上述以确定第k个物体区域中物体的第j个注意力特征信息为例，电子设备基于上述步骤，可以确定出K个物体区域中每一个物体区域中物体的第j个注意力特征信息。接着，基于K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到第一图像的第j个图像特征信息。例如，将K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息相乘，得到第一图像的第j个图像特征信息。

再例如，将K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息进行相加，得到第一图像的第j个图像特征信息。

示例性的，电子设备可以通过如下公式（2），确定出第一图像的第j个图像特征信息：

（2）

其中，为第k个物体区域的第j个注意力特征信息，/>为第一图像的第j个图像特征信息，/>为第k个物体区域的分割图。

电子设备基于上述步骤，确定出第一图像的第j个图像特征信息后，执行上述S104-B11-c的步骤，通过第j+1个注意力模块，对第一图像的第j个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到第一图像的第M个图像特征信息。

举例说明，如图10所示，假设M等于4，即去噪网络包括4个注意力模块，在第i次去噪过程中，电子设备将第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息输入去噪网络中的第1个注意力模块中进行融合处理，得到K个物体区域中每一个物体区域的第1个注意力特征信息。例如，对于K个物体区域中的第k个物体区域，对第k个物体区域的提示词的文本特征信息进行第一线性变换，得到第k个物体区域的提示词的第一文本特征信息；对第k个物体区域的提示词的文本特征信息进行第二线性变换，得到第k个物体区域的提示词的第二文本特征信息；通过第1个注意力模块，对第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及第一图像的第i次去噪特征信息进行融合处理，得到第k个物体区域的第1个注意力特征信息。接着，基于K个物体区域中每一个物体区域的第1个注意力特征信息，确定第一图像的第1个图像特征信息。接着，通过第2个注意力模块，对第一图像的第1个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第2个注意力特征信息。基于K个物体区域中每一个物体区域的第2个注意力特征信息，确定第一图像的第2个图像特征信息。通过第3个注意力模块，对第一图像的第2个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第3个注意力特征信息。基于K个物体区域中每一个物体区域的第3个注意力特征信息，确定第一图像的第3个图像特征信息。接着，通过第4个注意力模块，对第一图像的第3个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第4个注意力特征信息。最后，将该第4个注意力特征信息，确定为第一图像的第M个图像特征信息。

电子设备基于上述步骤，确定出第M个图像特征信息后，执行上述S104-B12的步骤，基于第M个图像特征信息，确定第i次噪声预测值。

在一种示例中，如图11所示，去噪网络还包括输出层，该输出层包括至少一个卷积层，电子设备通过该输出层对第M个图像特征信息进行处理，得到第i次噪声预测值。

接着，执行上述S104-B2的步骤，基于第i次噪声预测值和第一图像的第i次去噪特征信息，得到第一图像的第i+1次去噪特征信息。

例如，将第一图像的第i次去噪特征信息与第i次噪声预测值的差值，确定为第一图像的第i+1次去噪特征信息。

电子设备将上述确定的第一图像的第i+1次去噪特征信息作为新的第i次去噪特征信息，返回执行上述S104-B1的步骤，重复执行N次，得到第一图像的第N次去噪特征信息，进而将该第N次去噪特征信息作为去噪后的图像特征信息。

最后，电子设备执行上述S104-C的步骤，即电子设备对去噪后的图像特征信息进行解码处理，得到第二图像。

在本申请实施例中，上述去噪后的图像特征信息是在潜空间的特征信息，电子设备需要对该去噪后的图像特征信息进行解码处理，以将去噪后的图像特征信息从潜空间转换至像素空间中，得到第二图像。

本申请实施例对电子设备对去噪后的图像特征信息进行解码处理，得到第二图像的具体方式不做限制。例如，电子设备通过图像解码器，对去噪后的图像特征信息进行解码处理，得到第二图像。

在一些实施例中，如图12所示，电子设备通过VAE解码器，对去噪后的图像特征信息进行解码，得到第二图像。该第二图像是基于K个物体区域的提示词，将第一图像的K个物体区域中物体的初始特征变换为提示词所描述的目标特征，进而实现对第一图像的K个物体区域的单独控制调整，进而提升了图生图的效果。

进一步的，下面通过将本申请实施例提供的图像处理方法与已有的方法进行比较。初始图像包括多个人物，使用原始稳定扩散（stable diffusion）图生图算法对初始图像进行处理时，由于原始的稳定扩散图生图算法只支持单一提示词作为控制条件，无法对初始图像中不同的人物施加不同的提示词进行控制，导致生成图像中存在性别错误，附属物缺失（如眼镜，帽子等），年龄不准确等问题。而使用本申请实施例的方法，对初始图像中的多个人物分别设置提示词进行控制，可以实现对每个人物进行精确控制，进而具有更好的图像生成效果。

本申请实施例提供的图像处理方法，通过获取待处理的第一图像，并对第一图像中的物体进行分割，得到K个物体区域。接着，获取K个物体区域中每一个物体区域的提示词，该提示词用于指示将物体区域中物体的初始特征变换为提示词所描述的目标特征。然后，提取第一图像的图像特征信息，以及K个物体区域中每一个物体区域的提示词的文本特征信息。最后，基于第一图像的图像特征信息和K个物体区域的提示词的文本特征信息，将第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。由此可知，本申请实施例对于包括多个物体的第一图像，在基于第一图像生成第二图像时，基于第一图像所包括的物体，将第一图像划分为K个物体区域，并为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

上文对本申请实施例提供的图像处理方法进行整体介绍。在一些实施例中，本本申请实施例的图像处理方法可以通过图生图模型完成。下面结合图13对本申请实施例的方法进行介绍。图13所示的图像处理方法可以理解为上述实施例所述的图像处理方法的一种具体实施例。

图13为本申请一实施例提供的图像处理方法流程示意图。如图13所示，本申请实施例的图像处理方法包括：

S201、获取待处理的第一图像，并对第一图像中的K个物体进行分割，得到K个物体区域。

其中，K为正整数。

上述S201的具体实现过程可以参照上述S101的相关描述，在此不再赘述。

S202、获取K个物体区域中每一个物体区域的提示词。

其中，提示词用于指示将物体区域所包括的物体的初始特征变换为提示词所描述的目标特征。

上述S202的具体实现过程可以参照上述S102的相关描述，在此不再赘述。

S203、通过图像编码器提取第一图像的图像特征信息，通过文本编码器K个物体区域中每一个物体区域的提示词的文本特征信息。

如图14所示，本申请实施例的图生图模型包括图像编码器和文本编码器。

其中，图像编码器用于对第一图像进行编码，以将第一图像从像素空间压缩到潜空间中，得到第一图像的图像特征信息。本申请实施例对图像编码器的具体网络结构不做限制，示例性的，该图像编码器可以为VAE编码器。

其中文本编码器用于对K个物体区域中每一个物体区域的提示词进行编码，得到每一个提示词的文本特征信息。本申请实施例对文本编码器的具体网络结构不做限制，示例性的，该文本编码器可以为CLIP文本编码器。

上述S203的具体实现过程可以参照上述S103的相关描述，在此不再赘述。

S204、对第一图像的图像特征信息进行加噪处理，得到第一图像的加噪特征信息。

S205、通过去噪网络，对第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息。

如图14所示，本申请实施例的图生图模型还包括去噪网络，电子设备可以通过去噪网络，对第一图像的加噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息。

例如，通过去噪网络，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，i为小于或N的正整数，若i为1时，第i次去噪特征信息为第一图像的加噪特征信息；基于第i次噪声预测值和第一图像的第i次去噪特征信息，得到第一图像的第i+1次去噪特征信息；将第i+1次去噪特征信息作为新的第i次去噪特征信息，返回重复执行上述步骤，得到第一图像的第N次去噪特征信息；将第N次去噪特征信息确定为去噪后的图像特征信息。

在一种示例中，该去噪网络包括M个注意力模块，电子设备通过该M个注意力模块，对第一图像的第i次去噪特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到第一图像的第M个图像特征信息，并基于第M个图像特征信息，确定第i次噪声预测值。例如，对于M个注意力模块中的第j个注意力模块，通过第j个注意力模块，将第一图像的第j-1个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j个注意力特征信息，j为小于或等于M的正整数，若j为1时，第j-1个图像特征信息为第一图像的第i次去噪特征信息；基于K个物体区域中每一个物体区域的第j个注意力特征信息，确定第一图像的第j个图像特征信息；通过第j+1个注意力模块，对第一图像的第j个图像特征信息和K个物体区域的提示词的文本特征信息进行融合处理，得到K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到第一图像的第M个图像特征信息。最后，通过输出层对第一图像的第M个图像特征信息进行处理，得到第i次噪声预测值。

接着，基于第i次噪声预测值和第一图像的第i次去噪特征信息，得到第一图像的第i+1次去噪特征信息；将第i+1次去噪特征信息作为新的第i次去噪特征信息，返回重复执行上述步骤，得到第一图像的第N次去噪特征信息；将第N次去噪特征信息确定为去噪后的图像特征信息。

上述S205的具体实现过程可以参照上述S104的相关描述，在此不再赘述。

S206、通过解码模块，对去噪后的图像特征信息进行解码处理，得到第二图像。

如图14所示，本申请实施例的图生图模型还包括解码模块，该解码模块用于将去噪后的图像特征信息从潜空间转换至像素空间中。具体的，电子设备将上述得到的去噪后的图像特征信息输入该解码模块中进行解码，得到第二图像。由于上述去噪后的图像特征信息中融合了K个物体区域每一个物体区域的提示词的文本特征信息，因此生的第二图像的K个物体区域所包括的物体的特征为提示词所描述的目标特征，进而实现对第一图像的K个物体区域的单独控制调整，进而提升了图生图的效果。

本申请实施例提供的图像处理方法，通过获取待处理的第一图像，并对第一图像中的物体进行分割，得到K个物体区域。获取K个物体区域中每一个物体区域的提示词，该提示词用于指示将物体区域中物体的初始特征变换为提示词所描述的目标特征。接着，通过图像编码器提取第一图像的图像特征信息，以及通过文本编码器提取K个物体区域中每一个物体区域的提示词的文本特征信息。然后，对第一图像的图像特征信息进行加噪处理，并通过去噪网络，对第一图像的加噪图像特征信息和K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息。最后，通过解码模块，对去噪后的图像特征信息进行解码处理，得到第二图像。即本申请实施例，将第一图像划分为K个物体区域，并为这K个物体区域中每一个物体区域设置提示词，进而基于K个物体区域中每一个物体区域的提示词对K个物体区域进行单独控制，可以在第一图像中不同物体上应用不同风格，实现对K个物体区域的精准控制，提高了图生图的效果。

上文结合图3至图14，详细描述了本申请的方法实施例，下文结合图15，详细描述本申请的装置实施例。

图15是本申请一实施例提供的图像处理装置的示意性框图。

如图15所示，图像处理装置10，包括：

分割单元11，用于获取待处理的第一图像，并对所述第一图像中的K个物体进行分割，得到K个物体区域，所述K为正整数；

获取单元12，用于获取所述K个物体区域中每一个物体区域的提示词，所述提示词用于指示将所述物体区域所包括的物体的初始特征变换为所述提示词所描述的目标特征；

提取单元13，用于提取所述第一图像的图像特征信息，以及所述K个物体区域中每一个物体区域的提示词的文本特征信息；

处理单元14，用于基于所述第一图像的图像特征信息和所述K个物体区域的提示词的文本特征信息，将所述第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像。

在一些实施例中，处理单元14，具体用于对所述第一图像的图像特征信息进行加噪处理，得到所述第一图像的加噪特征信息；基于所述第一图像的加噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息；对所述去噪后的图像特征信息进行解码处理，得到所述第二图像。

在一些实施例中，处理单元14，具体用于通过去噪网络，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，所述i为小于或N的正整数，若所述i为1时，所述第i次去噪特征信息为所述第一图像的加噪特征信息；基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息；将所述第i+1次去噪特征信息作为新的第i次去噪特征信息，返回重复执行上述步骤，得到所述第一图像的第N次去噪特征信息；将所述第N次去噪特征信息确定为所述去噪后的图像特征信息。

在一些实施例中，所述去噪网络包括M个注意力模块，处理单元14，具体用于通过所述M个注意力模块，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述第一图像的第M个图像特征信息；基于所述第M个图像特征信息，确定所述第i次噪声预测值。

在一些实施例中，处理单元14，具体用于对于所述M个注意力模块中的第j个注意力模块，通过所述第j个注意力模块，将所述第一图像的第j-1个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j个注意力特征信息，所述j为小于或等于M的正整数，若所述j为1时，所述第j-1个图像特征信息为所述第一图像的第i次去噪特征信息；基于所述K个物体区域中每一个物体区域的第j个注意力特征信息，确定所述第一图像的第j个图像特征信息；通过第j+1个注意力模块，对所述第一图像的第j个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到所述第一图像的第M个图像特征信息。

在一些实施例中，处理单元14，具体用于对于所述K个物体区域中的第k个物体区域，通过所述第j个注意力模块，对所述第k个物体区域的提示词的文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息，所述k为小于或等于K的正整数。

在一些实施例中，处理单元14，具体用于对所述第k个物体区域的提示词的文本特征信息进行第一线性变换，得到所述第k个物体区域的提示词的第一文本特征信息；对所述第k个物体区域的提示词的文本特征信息进行第二线性变换，得到所述第k个物体区域的提示词的第二文本特征信息；通过所述第j个注意力模块，对所述第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

在一些实施例中，处理单元14，具体用于将所述第k个物体区域的提示词的第一文本特征信息作为所述第j个注意力模块的键值，将所述第k个物体区域的提示词的第二文本特征信息作为所述第j个注意力模块的代表值，将所述第j-1个图像特征信息作为所述第j个注意力模块的查询值，输入所述第j个注意力模块中进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

在一些实施例中，处理单元14，具体用于对于所述K个物体区域中的第k个物体区域，从所述第k个物体区域的第j个注意力特征信息，提取出所述第k个物体区域所包括的物体的第j个注意力特征信息，所述k为小于或等于K的正整数；基于所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到所述第一图像的第j个图像特征信息。

在一些实施例中，处理单元14，具体用于获取所述第k个物体区域的分割图；基于所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息，得到所述第k个物体区域所包括的物体的第j个注意力特征信息。

在一些实施例中，处理单元14，具体用于将所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息的乘积，得到所述第k个物体区域中物体的第j个注意力特征信息。

在一些实施例中，处理单元14，具体用于将所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息进行相加，得到所述第一图像的第j个图像特征信息。

在一些实施例中，处理单元14，具体用于将所述第一图像的第i次去噪特征信息和所述第i次噪声预测值的差值，确定为所述第一图像的第i+1次去噪特征信息。

在一些实施例中，分割单元11，具体用于获取分割指示信息，所述分割指示信息用于指示对所述第一图像所包括的P个物体中的K个物体进行分割，所述P为大于或等于K的正整数；基于所述分割指示信息，对所述第一图像中的K个物体进行分割，得到所述K个物体区域。

在一些实施例中，分割单元11，具体用于通过物体分割模型，对所述第一图像中的K个物体进行分割，得到所述K个物体区域；或者，接收对象对所述第一图像中的K个物体的分割操作，得到所述K个物体区域。

在一些实施例中，获取单元12，具体用于接收对象输入的所述K个物体区域中每一个物体区域的提示词。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图15所示的装置可以执行上述方法的实施例，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法实施例，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图16是本申请实施例提供的电子设备的示意性框图，该电子设备可以为上述的终端设备或服务器。

如图16所示，该电子设备40可包括：

存储器41和处理器42，该存储器41用于存储计算机程序43，并将该程序代码43传输给该处理器42。换言之，该处理器42可以从存储器41中调用并运行计算机程序43，以实现本申请实施例中的方法。

例如，该处理器42可用于根据该计算机程序43中的指令执行上述方法中的步骤。

在本申请的一些实施例中，该处理器42可以包括但不限于：

通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器41包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（Random Access Memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，SRAM）、动态随机存取存储器（Dynamic RAM，DRAM）、同步动态随机存取存储器（Synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（Double DataRate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（Enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synch link DRAM，SLDRAM）和直接内存总线随机存取存储器（Direct Rambus RAM，DR RAM）。

在本申请的一些实施例中，该计算机程序43可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器41中，并由该处理器42执行，以完成本申请提供的录制页面的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序43在该电子设备中的执行过程。

如图16所示，该电子设备40还可包括：

收发器44，该收发器44可连接至该处理器42或存储器41。

其中，处理器42可以控制该收发器44与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器44可以包括发射机和接收机。收发器44还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备40中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像的图像特征信息和所述K个物体区域的提示词的文本特征信息，将所述第一图像的每个物体区域所包括的物体的初始特征，变换为对应提示词所描述的目标特征，得到第二图像，包括：

对所述第一图像的图像特征信息进行加噪处理，得到所述第一图像的加噪特征信息；

基于所述第一图像的加噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息；

对所述去噪后的图像特征信息进行解码处理，得到所述第二图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一图像的加噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到去噪后的图像特征信息，包括：

通过去噪网络，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，所述i为小于或N的正整数，若所述i为1时，所述第i次去噪特征信息为所述第一图像的加噪特征信息；

基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息；

将所述第i+1次去噪特征信息作为新的第i次去噪特征信息，返回重复执行，得到所述第一图像的第N次去噪特征信息；

将所述第N次去噪特征信息确定为所述去噪后的图像特征信息。

4.根据权利要求3所述的方法，其特征在于，所述去噪网络包括M个注意力模块，所述M为正整数，所述通过去噪网络，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行去噪处理，得到第i次噪声预测值，包括：

通过所述M个注意力模块，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述第一图像的第M个图像特征信息；

基于所述第M个图像特征信息，确定所述第i次噪声预测值。

5.根据权利要求4所述的方法，其特征在于，所述通过所述M个注意力模块，对所述第一图像的第i次去噪特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述第一图像的第M个图像特征信息，包括：

对于所述M个注意力模块中的第j个注意力模块，通过所述第j个注意力模块，将所述第一图像的第j-1个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j个注意力特征信息，所述j为小于或等于M的正整数，若所述j为1时，所述第j-1个图像特征信息为所述第一图像的第i次去噪特征信息；

基于所述K个物体区域中每一个物体区域的第j个注意力特征信息，确定所述第一图像的第j个图像特征信息；

通过第j+1个注意力模块，对所述第一图像的第j个图像特征信息和所述K个物体区域的提示词的文本特征信息进行融合处理，得到所述K个物体区域中每一个物体区域的第j+1个注意力特征信息，依次执行，得到所述第一图像的第M个图像特征信息。

6.根据权利要求5所述的方法，其特征在于，所述通过所述第j个注意力模块，对所述第一图像的第j-1个图像特征信息和所述K个物体区域的提示词的文本特征信息进行处理，得到所述K个物体区域中每一个物体区域的第j个注意力特征信息，包括：

对于所述K个物体区域中的第k个物体区域，通过所述第j个注意力模块，对所述第k个物体区域的提示词的文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息，所述k为小于或等于K的正整数。

7.根据权利要求6所述的方法，其特征在于，所述通过所述第j个注意力模块，对所述第k个物体区域的提示词的文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息，包括：

对所述第k个物体区域的提示词的文本特征信息进行第一线性变换，得到所述第k个物体区域的提示词的第一文本特征信息；

对所述第k个物体区域的提示词的文本特征信息进行第二线性变换，得到所述第k个物体区域的提示词的第二文本特征信息；

通过所述第j个注意力模块，对所述第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

8.根据权利要求7所述的方法，其特征在于，所述通过所述第j个注意力模块，对所述第k个物体区域的提示词的第一文本特征信息和第二文本特征信息，以及所述第一图像的第j-1个图像特征信息进行融合处理，得到所述第k个物体区域的第j个注意力特征信息，包括：

将所述第k个物体区域的提示词的第一文本特征信息作为所述第j个注意力模块的键值，将所述第k个物体区域的提示词的第二文本特征信息作为所述第j个注意力模块的代表值，将所述第j-1个图像特征信息作为所述第j个注意力模块的查询值，输入所述第j个注意力模块中进行融合处理，得到所述第k个物体区域的第j个注意力特征信息。

9.根据权利要求5所述的方法，其特征在于，所述基于所述K个物体区域中每一个物体区域的第j个注意力特征信息，确定所述第一图像的第j个图像特征信息，包括：

对于所述K个物体区域中的第k个物体区域，从所述第k个物体区域的第j个注意力特征信息，提取出所述第k个物体区域所包括的物体的第j个注意力特征信息，所述k为小于或等于K的正整数；

基于所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到所述第一图像的第j个图像特征信息。

10.根据权利要求9所述的方法，其特征在于，所述从所述第k个物体区域的第j个注意力特征信息，提取出所述第k个物体区域所包括的物体的第j个注意力特征信息，包括：

获取所述第k个物体区域的分割图；

基于所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息，得到所述第k个物体区域所包括的物体的第j个注意力特征信息。

11.根据权利要求10所述的方法，其特征在于，所述基于所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息，得到所述第k个物体区域所包括的物体的第j个注意力特征信息，包括：

将所述第k个物体区域的分割图和所述第k个物体区域的第j个注意力特征信息的乘积，得到所述第k个物体区域中物体的第j个注意力特征信息。

12.根据权利要求9所述的方法，其特征在于，所述基于所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息，得到所述第一图像的第j个图像特征信息，包括：

将所述K个物体区域中每一个物体区域所包括的物体的第j个注意力特征信息进行相加，得到所述第一图像的第j个图像特征信息。

13.根据权利要求3所述的方法，其特征在于，所述基于所述第i次噪声预测值和所述第一图像的第i次去噪特征信息，得到所述第一图像的第i+1次去噪特征信息，包括：

将所述第一图像的第i次去噪特征信息和所述第i次噪声预测值的差值，确定为所述第一图像的第i+1次去噪特征信息。

14.根据权利要求1-13任一项所述的方法，其特征在于，所述对所述第一图像中的物体进行分割，包括：

获取分割指示信息，所述分割指示信息用于指示对所述第一图像所包括的P个物体中的K个物体进行分割，所述P为大于或等于K的正整数；

基于所述分割指示信息，对所述第一图像中的K个物体进行分割，得到所述K个物体区域。

15.根据权利要求1-13任一项所述的方法，其特征在于，所述对所述第一图像中的K物体进行分割，得到K个物体区域，包括：

通过物体分割模型，对所述第一图像中的K个物体进行分割，得到所述K个物体区域；或者，

接收对象对所述第一图像中的K个物体的分割操作，得到所述K个物体区域。

16.根据权利要求1-13任一项所述的方法，其特征在于，所述K个物体区域中至少两个物体区域的提示词不同。

17.一种图像处理装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如上述权利要求1至16任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，用于存储计算机程序；

所述计算机程序使得计算机执行如上述权利要求1至16任一项所述的方法。

20.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现权利要求1至16任一项所述的方法。