CN118379397A

CN118379397A - 图像处理方法、装置和电子设备

Info

Publication number: CN118379397A
Application number: CN202410480085.1A
Authority: CN
Inventors: 孙运东
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2024-04-19
Filing date: 2024-04-19
Publication date: 2024-07-23

Abstract

本申请公开了一种图像处理方法、装置和电子设备，属于图像处理技术领域。图像处理方法包括：接收用户输入的提示词；将提示词和至少一张对象图像输入图像处理模型，输出第一图像；其中，至少一张对象图像为预先从至少一张图像中抠取的至少一个对象的对象区域的图像，第一图像包括至少一张对象图像中的对象。

Description

图像处理方法、装置和电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种图像处理方法、装置和电子设备。

背景技术

人工智能(Artificial Intelligence，AI)以人类智能相似的方式做出反应，随着人工智能的发展，应用的方式越来与广泛。人工智能的应用例如与用户进行对话、生成绘图等。其中，利用人工智能进行绘图为用户带来了极大的便利，但由于在图像绘制之前，若用户提供的文字描述不够准确，或者原始图像包含的杂物过多，极易影响人工智能的图像绘制效果，反而需要用户重复操作，才能可能获得满足用户需求的图像。

发明内容

本申请实施例的目的是提供一种图像处理方法、装置和电子设备，可以有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，无需用户反复操作，即可满足用户的图像处理需求。

第一方面，本申请实施例提供了一种图像处理方法，该方法包括：

接收用户输入的提示词；

将提示词和至少一张对象图像输入图像处理模型，输出第一图像；

其中，至少一张对象图像为预先从至少一张图像中抠取的至少一个对象的对象区域的图像，第一图像包括至少一张对象图像中的对象。

第二方面，本申请实施例提供了一种图像处理装置，该装置包括：

接收用户输入的提示词；

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面的方法。

在本申请实施例中，通过接收用户输入的提示词，并将提示词和至少一种对象图像输入图像处理模型，进而得到图像处理模型输出的第一图像。其中，由于输入图像处理模型的至少一张对象图像是用户从预先从至少一张图像中抠取的至少一个对象的对象区域得到的图像，因此，图像处理模型可以结合用户输入的提示词，在对象图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，此外，由于用户可以自定义文生图得到的图像中保留的对象，以及通过提示词可以方便地描述文生图得到的图像中对象的显示效果，无需用户反复操作，即可满足用户的图像处理需求，提高了文生图的灵活性。

附图说明

图1是本申请的一些实施例提供的图像处理方法的流程示意图；

图2是本申请的一些实施例提供的包括多个对象的图像的示意图；

图3是本申请的一些实施例提供的对象图像的示意图；

图4是本申请的一些实施例提供的对象选择控件的示意图；

图5是本申请的一些实施例提供的图像编辑界面的示意图；

图6是本申请的一些实施例提供的图像编辑界面的示意图；

图7是本申请的一些实施例提供的相册界面示意图；

图8是本申请的一些实施例提供的图像处理装置的结构示意图；

图9是本申请的一些实施例提供的电子设备的结构示意图；

图10是本申请的一些实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

提示词：在人工智能技术领域，提示词是一种向人工智能系统提供的输入，用于引导和激发AI生成特定的回应或内容。根据提供的提示词，AI系统将结合其训练数据和内置算法来生成相应的回答、细节或其他相关信息。

文生图：是基于文本通过生成式AI生成图像的模式，即向AI输入描述文字后，AI平台根据文字描述生成对应的图像。

本申请实施例提供了一种图像处理方法、装置和电子设备，可以有效减少用户对图像的预处理操作和信息输入，可以方便针对用户的需求进行图像绘制。

需要说明的是，本申请实施例提供的图像处理方法，执行主体可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备等电子设备。本申请的一些实施例中以电子设备为执行主体执行图像处理方法为例，说明本申请实施例提供的图像处理方法。

本申请实施例提供的图像处理方法可以应用于电子设备的用户需要调整图像中对象显示效果的场景，其中，一种具体的应用场景，例如，在图像中包括一个正在看书的人物，在人物的手中包括一本书。若用户希望通过文生图得到的图像中有这张图像中的人物和书本，则用户可以从而图像中抠取的人物区域和书本区域的图像，以及将抠取的人物图像、书本图像，以及提示词输入图像处理模型，其中，提示词例如将人物手中的书本举过头顶。图像处理模型在接收到提示词、人物图像和书本图像，可以快速准确地确定出需要处理的目标对象，并确定出人物特征和书本特征，进而结合人物特征、书本特征以及提示词中包括的语义信息，生成第一图像。其中，第一图像包括手中的书本举过头顶的人。

在另外一种具体的应用场景中，一张图像中包括桌子和苹果，其中，苹果位于桌子的左侧。若用户希望文生图得到的图像中有这张图像中的苹果和桌子，用户可以抠取图像中苹果区域对应的图像和桌子区域对应的图像，从而得到苹果图像和桌子图像。用户可以将抠取的苹果图像和桌子图像输入图像处理模型，以及向图像处理模型输入提示词，其中，提示词例如，将苹果移动到桌子的右侧，由此，图像处理模型，可以输出一张包括苹果和桌子的第一图像，且在第一图像中苹果位于桌子的右侧。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像处理方法进行详细地说明。

图1是本申请实施例提供的一种图像处理方法的流程示意图，结合图1所示，图像处理方法可以包括步骤101至步骤102。

步骤101，接收用户输入的提示词。步骤102，将提示词和至少一张对象图像输入图像处理模型，输出第一图像。

下面对上述步骤进行详细说明，具体如下所示。

具体地，在本申请实施例中，在电子设备中可以配置基于人工智能的图像处理应用程序实现本申请实施例所提供的图像处理方法，电子设备可以与基于人工智能的图像处理服务器通信连接，通过服务为用户提供图像处理的服务，从而实现本申请实施例所提供的图像处理方法。

首先，涉及上述步骤101，用户可以在电子设备输入提示词，其中，提示词可以包括但不限于字、词、短句或者长等，在此对提示词的具体内容并不具体限制。提示词可以用于指示图像处理模型生成图像中包括与提示词的语义信息相对应的显示效果。

在用户完成提示词的输入后，接下来涉及上述步骤102，可以将提示词和至少一张对象图像输入图像处理模型。对象图像包括对象是用户想保留在文生图得到的图像中的对象，也即，用户想要图像处理模型生成第一图形中包括的对象。

对象图像可以从至少一张图像中抠取的至少一个对象的对象区域的图像。可选地，对象包括但不限于人物、动物、植物、建筑物、车辆、摆件等等。

例如，用户可以预先在图像中选择需要抠取的对象图像，其中，对象的数量可以为一个也可以为多个，每个对象对应的对象图像可以为一个也可以为多个。对象图像可以是电子设备接收到的图像，对象图像也可以是用户使用电子设备在图像中抠取得到的对象图像。

在本申请的一些实施例中，电子设备可以提供抠取图像的功能，基于此，可以在图像中抠取得到的对象图像。示例性的，图像可以是电子设备中存储的图像，用户打开电子设备中的电子相册后，可以在电子相册中打开包括对象的图像，并在图像中选中对象所在区域的图像，以抠取得到对象图像。在又一示例中，图像可以是网络图像，例如，用户在上网的过程中，看到包括对象的网络图像，则可以在网络图像中选中对象所在区域的图像，以抠取得到对象图像。

在一些实施例中，在电子设备显示图像后，用户可以通过图像抠取输入触发电子设备的区域图像选取功能。

在本申请的一些实施例中，上述图像抠取输入用于在图像中抠取对象图像，图像抠取输入可以为图像抠取操作。示例性的地，上述图像抠取输入包括但不限于：用户通过手指或者手写笔等触控装置对图像中对象所在显示区域的触控输入，或者为用户输入的语音指令，或者为用户输入的特定手势，或者为其他可行性输入，具体的可以根据实际使用需求确定，本发明实施例不作限定。本申请实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种；本申请实施例中的点击的输入可以为单击输入、双击输入或任意次数的点击输入等，还可以为长按输入或短按输入。例如，上述的图像抠取输入可以为：用户对图像中对象所在区域的圈选输入。

接下来，电子设备可以将提示词和对象图像输入图像处理模型，之后，图像处理模型生成第一图像后，电子设备可以输出第一图像，例如，显示第一图像。

示例性的，图像处理模型具体可以是AI图像生成模型，AI图像可以包括图像创建组件和文本理解组件。通过图像创建组件可以学习对象图像，并获取对象的图像特征，像中获取第一对象的图像特征，通过文本理解组件，可以从提示信息中获取语义信息。基于此，提示词和对象图像输入图像处理模型，图像处理模型可以结合用户输入的提示词，在对象图像的基础上生成第一图像。

基于本申请的实施例，由于输入图像处理模型的至少一张对象图像是用户从预先从至少一张图像中抠取的至少一个对象的对象区域得到的图像，因此，图像处理模型可以结合用户输入的提示词，在对象图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，无需用户反复操作，即可满足用户的图像处理需求。

在本申请的一些实施例中，将提示词和至少一张对象图像输入图像处理模型，输出第一图像，可以包括以下步骤：将提示词和至少一张对象图像输入图像处理模型；图像处理模型根据至少一张对象图像中的每个对象的对象特征和提示词对应的语义信息，输出第一图像。

示例性的，图像处理模型可以是Stable Diffusion模型，在此并不具体限制。以Stable Diffusion模型为例，图像创建组件获取对象图像之前，可以对对象图像增加噪声，例如，可以增加高斯噪声、椒盐噪声等，以便于在对象图像中提取对象特征。例如，可以使用控制(Controlnet)模型，可以获取对象图像中各个像素点的颜色信息，得到独享图像总每个像素点的二维矩阵，从而实现对对象图像的特征保留，接下来，可以生成具有正态分布的随机值，并将随机值添加到对象图像的像素值中，从而得到添加了噪声的对象图像，由此，完成增加高斯噪声的处理。。接下来，AI图像生成模型中的文本理解组件理解用户输入的提示信息中文本提示词含义，也即语义信息，图像创建组件根据语义信息，对对象特征进行相应的图像创建，也即，基于对象特征生成相应的图像内容，从而得到一张既保留目标对象的特征又符合用户输入提示词含义的第一图像。

根据本申请实施例，图像处理模型可以结合用户输入的提示词，在对象图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，无需用户反复操作，即可满足用户的图像处理需求。

在一些实施例中，在对象包括动态对象，语义信息包括动态对象的活动状态信息的情况下，第一图像中动态对象的动作为与活动状态信息匹配的动作；

在对象包括静态对象，语义信息包括静态对象的位置更新信息的情况下，第一图像中静态对象的显示位置为与位置更新信息匹配的位置；

在语义信息包括虚拟对象风格信息的情况下，第一图像中的对象的对象风格为与虚拟对象风格信息匹配的对象风格。

示例性地，动态对象包括但不限于人物、动物等对象。例如，对象图像中包括一个站立的运动员图像，语义信息包括动态对象的活动状态信息例如跑动。相应的，在第一图像中包括一个跑动的运动员。

静态对象包括但不限于摆件、植物、建筑物等，例如，对象图像包括一个放置在桌子左侧的苹果，位置更新信息将苹果调整至右侧。相应的，在第一图像中可以包括位于桌子右侧的苹果。

虚拟对象风格信息包括但不限于水墨风格、涂鸦风格、简笔画风格等等，在将提示词和对象图像输入图像处理模型后，图像处理模型输出的第一图像，在第一图像中的对象的对象风格是与虚拟对象风格信息匹配的对象风格。

根据本申请实施例，用户可以根据自己的图像处理需求，向图像处理模型提供提示词，基于此，在生成的第一图像中既可以保留抠取的对象，并具备符合提示词对应语义信息的图像显示效果，从而可以提升生成图像的趣味性。

在本申请的一些实施例中，在接收到用户对第二图像中的第一对象的第一输入的情况下，抠取所述第一对象的对象区域的图像，得到第一对象图像；

在接收到用户对第二图像中的第二对象的第二输入的情况下，抠取所述第二对象的对象区域的图像，得到第二对象图像；

在接收到用户对第三图像中的第三对象的第三输入的情况下，抠取所述第三对象的对象区域的图像，得到第三对象图像；

其中，所述第二图像包括至少两个对象，所述第三图像包括至少一个对象。

示例性的，用户可以预先在图像中选择需要抠取的对象图像，其中，对象的数量可以为一个也可以为多个，每个对象对应的对象图像可以为一个也可以为多个。

在一张图像中可以包括一个或者多个待抠取的对象，其中，多个是指两个或者两个以上。例如，第二图像中包括多个待抠取的对象，具体如第二图像包括第一对象和第二对象。电子设备响应于用户的第一输入，抠取第二图像中第一对象的对象区域的图像，得到第一对象图像。电子设备响应于用户的第二输入，抠取第二图像中第二对象的对象区域的图像，得到第二对象图像。

又例如，第一图像包括至少一个对象，电子设备响应于用户的第三输入，抠取第三图像中第三对象的对象区域的图像，得到第三对象图像。

示例性的，图2是本申请实施例提供的一种图像的示意图，图3是本申请实施例提供的一种对象图像的示意图，结合图2所示，在图像210中包括成人201、儿童202和汽车203，用户通过第一输入将成人201作为对象。

可选地，在用户选取对象图像之后，电子设备可以显示对象图像，以方便用户查看对象图像是否合适。具体地，结合图3所示，电子设备可在界面中显示成人对应的成人图像，在界面220中可以包括成人201，第一图像中除成人201之外其他的内容不会显示在界面220中。

可选地，用户还可以通过第二输入，将汽车203作为抠取对象。可以理解的是，若用户选择成人201和汽车203作为对象，则在界面220中显示成人201和汽车203。基于此，通过在界面中显示对象图像，可以方便用户查看对象图像是否合适。

在本申请的一些实施例中，上述第一输入用于在图像中抠取对象图像，第一输入具体可以为图像抠取操作。示例性地，上述第一输入包括但不限于：用户通过手指或者手写笔等触控装置对图像中对象所在显示区域的触控输入，或者为用户输入的语音指令，或者为用户输入的特定手势，或者为其他可行性输入，具体的可以根据实际使用需求确定，本发明实施例不作限定。本申请实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种；本申请实施例中的点击的输入可以为单击输入、双击输入或任意次数的点击输入等，还可以为长按输入或短按输入。例如，上述的第一输入可以为：用户对图像中对象所在区域的圈选输入。

在一些实施例中，第二输入和第三输入的实现方式可以与第一输入相同，在此对第二输入和第三输入的实现方式不再具体赘述。

根据本申请实施例，用户可以方便地从任意图像中抠取对象图像，作为图像处理模型的输入。由于对象图像中仅包括对象本身，无其他图像信息的干扰，从而有利于图像处理模型充分学习对象特征，有利于生成满足用户图像处理需求的图像。

在一些实施例中，为了便于用户抠取对象图像，简化图像抠取过程，电子设备可以自动识别可以作为对象图像的对象，并提供对象选择控件以供用户选取。具体地，方法可以包括以下步骤：

识别第二图像中的所有对象，第二图像包括至少两个对象；

在识别出的每个对象关联的图像区域，显示对象选择控件；

在接收到用户对第二图像中的第一对象关联的图像区域中的对象选择控件的第一输入的情况下，抠取第一对象的对象区域的图像，得到第一对象图像。

示例性的，电子设备可以运行预设的对象识别算法，在用户打开并查看第二图像的过程中，可以通过对象识别算法识别第二图像中包括的对象，基于识别到的对象，可以确定出每个对象关联的图像区域。

其中，对象识别算法可以用于识别预设标签对应的对象，示例性的，预设标签例如，儿童、成人、汽车、植物、动物、建筑物等等，用户与可以对特定的人脸、特定的动物、特定的建筑物等进行标记，并生成预设标签，可以理解的是，预设标签可以根据用户的使用需求进行设置。

在识别出的每个对象关联的图像区域后，可以在界面中显示对象选择控件。基于此，第一输入可以是用户针对对象选择控件的点击输入。

可选地，对象选择控件可以显示在第一对象的关联位置。

示例性地，结合图2所示，界面中包括的第一对象例如成人201、儿童202和汽车203。电子设备可以自动识别出可以作为对象图像的对象，基于此，在识别出的每个对象关联的图像区域，显示对象选择控件，图4是本申请实施例提供的一种对象选择控件的示意图，结合图4所示，在成人201、儿童202和汽车203分别关联的位置显示有成人的对象选择控件301、儿童的对象选择控件302和汽车的对象选择控件303。若用户想要从图像中抠取成人201作为对象图像，则可以对成人的对象选择控件301进行第一输入，电子设备可以响应于第一输入，抠取第一对象的对象区域的图像，得到第一对象图像。

可以理解的是，接下来，若用户还想抠取汽车203所在区域的图像，则用户可以对车辆对应的对象选择控件进行第二输入，以选择第二对象，也即汽车203，电子设备可以响应于该第二输入，自动抠取第二对象的对象区域的图像，得到第二对象图像。

在用户完成对象图像的选取后，可以将对象图像输入图像处理模型，以便于后续生成第一图像，且在第一图像中可以包括用户选择的对象。

根据本申请实施例，用户抠取对象图像的过程操作简单，且可以方便地获取一个或者多个对象分别对应的对象图像，有效简化了抠取目标对象所对应区域的过程，能够减少用户操作。

在本申请的一些实施例中，为了便于用户编辑对象图像，还可以提供图像编辑界面，并在图像编辑界面显示对象图像。具体地，将提示词和至少一张对象图像输入图像处理模型，输出第一图像之前，方法还包括：在图像编辑界面，显示至少一张对象图像；接收用户对至少一张对象图像的编辑输入；响应于编辑输入，更新至少一张对象图像。

示例性的，图5是本申请的一些实施例提供的图像编辑界面的示意图，结合图5所示，图像编辑界面501中可以包括用户选取的成人201对应的对象图像。可选地，在图像编辑界面中可以提供图像编辑功能的相关控件，以便于用户结合自己的需求，编辑目标子图像。

根据本申请实施例，用户可以方便地在图像编辑界面中调整对象图像的显示效果，由此，在图像处理模型可以结合调整后的对象图像的显示效果生成第一图像，有利于提升用户对第一图像中对象的显示效果的满意度。

在一些实施例中，对所述更新所述至少一张对象图像，包括以下至少一项：

更新至少一张对象图像的图像显示位置；

更新至少一张对象图像的图像尺寸；

更新至少一张对象图像的图像转动角度；

更新至少一张对象图像的图像参数的参数值。

示例性的，在图像编辑界面中，用户可以按住对象图像进行自由拖动，从而更新对象图像的图像显示位置，该图像显示位置是指对象图像与图像编辑界面中的相对位置，若对象图像的数量包括多个，图像显示位置还包指多个对象图像之间的相对位置。

在图像编辑界面中，用户双指向外滑动自由扩大或双指向内滑动自由缩小，更新对象图像的图像尺寸。该图像尺寸可以包括第一图像尺寸与对象图像尺寸之间比例信息。

在图像编辑界面中，用户还可以选中后转动对象图像，从而更新对象图像的图像转动角度。图像转动角度包括对象图像与第一图像各个边之间的夹角。

在图像编辑界面中，用户还可以调整对象图像的图像参数的参数值，其中，图像参数包括但不限于亮度、对比度、颜色饱和度、曝光度、锐化程度等。

示例性的，在图像处理模型生成第一图像时，会参考对象图像在图像编辑界面的图像显示位置、图像尺寸、图像转动角度以及图像参数的参数值，例如抠出的人物在图片左侧，则人物可以拖动至图像编辑界面的居中位置，保证后续生成第一图像的人物也在居中位置，有利于达到用户满足视觉效果。

在一些实施例中，用户除了可以自定义文生图得到的图像中保留的对象，还可以自定义文生图得到的图像的背景，也即，图像输出模型输出的第一图像中对象的背景。

具体地，在图像编辑界面还包括背景图像设置控件；方法还包括以下步骤：

接收用户对背景图像设置控件的第四输入；

响应于第四输入，设置背景图像；

将提示词和至少一张对象图像输入图像处理模型，输出第一图像，包括：

将提示词、至少一张对象图像和背景图像输入图像处理模型；

图像处理模型根据提示词对应的语义信息、对象图像的对象特征和背景图像的背景特征，输出第一图像。

示例性的，图像编辑界面可以包括背景图像设置控件，第四输入可以包括对背景图像设置控件的输入。电子设备可以提供一种或者多种背景风格，背景风格包括但不限于雪地背景、沙漠背景等。

图6是本申请一些实施例提供的另一图像编辑界面的示意图，结合图6所示，图像编辑界面可以在底部显示背景图像设置控件601，在用户调整对象图像的背景之前，对象图像的默认背景是矢量网格，基于此，用户可以方便、清楚地查看对象图像，有效减少背景图像对对象图像的显示效果的影响。

继续结合图6所示，用户可以点击背景图像设置控件，查看可以调整的背景风格，继续结合图6所示，用户点击背景图像设置控件后，可以显示滑动列表，在滑动列表中包括可以调整的背景风格例如雪地、沙漠、矢量等。用户通过对背景图像设置控件中任意一个背景风格进行选取输入，可以在图像编辑界面中显示背景风格对应的背景图像。其中，背景风格例如还可以包括但不限于蓝天、草原、沙滩、纯白、条纹等背景等，在滑动列表中还可以包括自定义背景的选择控件，在用户选择自定义背景的选择控件后，可以从电子设备的相册或者网络中选择所需的图像作为背景图像。

可以理解的是，由于在选取的是对象图像的背景图像，因此，对象图像覆盖显示于背景图像之上，也即对象图像的图层位于背景图像之上。

可选地，继续结合图6所示，图像编辑界面还包括返回控件，从而便于用户返回至上一步操作；图像编辑界面还可以包括保存控件，从而可以将图像编辑界面中显示的内容进行保存，用户可以根据实际应用需求进行选择，从而提高了图像处理过程的便利性。

在设置背景图像后，所述将提示词和至少一张对象图像输入图像处理模型，输出第一图像，具体包括：将提示词、至少一张对象图像和背景图像输入图像处理模型；图像处理模型根据提示词对应的语义信息、对象图像的对象特征和背景图像的背景特征，输出第一图像。

示例性的，在将对象图像和背景图像输入图像处理模型后，图像处理模型可以从对象图像中学习对象特征，以及从背景图像中学习背景特征，进而可以结合语义信息、对象特征和背景图像的背景特征生成第一图像。

根据本申请实施例，用户可以方便定义第一图像中对象图像的背景，不仅可以提升生成图像的趣味性，而且，由于背景切换方式简单，简化了由用户编辑图像的步骤。而且图像处理模型可以结合用户输入的提示词，在对象图像和背景图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象以及背景图像，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，满足用户的图像处理需求。

在一些实施例中，在生成第一图像之后，显示第一图像具体可以包括：在图像编辑界面中显示第一图像，图像编辑界面包括图像生成控件；基于此，在显示第一图像之后，若用户对第一图像不满意，需要继续对第一图像进行加工处理，则可以通过第六输入，控制电子设备继续对第一图像进行处理。示例性的，第六输入可以是对“生成”控件的点击输入。

在电子设备接收到第六输入后，可以获取第一图像的图像特征，并结合提示信息对应的语义信息，对第一图像中的图像特征进行处理，从而实现调整第一图像的显示效果。

根据本申请实施例，通过获取提示信息对应的语义信息，可以提高理解用户的意图的准确性，有利于生成满足用户需求的图像。若用户对已生成的第一图像不满意，可以结合提示信息的语义信息，继续对第一图像进行处理，直到生成满足用户需求的第一图像。整个过程，无需用户重复选取图像，有效减低了用户的操作成本。

在一些实施例中，图像编辑窗口还包括提示信息输入控件；基于此，在更新第一图像的显示效果之前，用户还可以修改提示词。

具体地，方法还可以包括以下步骤：接收第七输入，第七输入包括修改提示词的输入；响应于第七输入，将修改后的提示词和第一图像输出图像处理模型，并输出更新后的第一图像。

在图像编辑界面中还可以包括保存控件，用户图像处理模型生成的图像达到预期后，点击保存控件，从而将像处理模型生成的图像保存至预设位置，例如，保存如图7所示的相册701中。

根据本申请实施例，用户可以方便、快速的抠出目标对象、以及编辑目标对象的背景风格。电子设备可以结合提示词进行图像处理，有效降低了用户在相册找到干净人像、物体等目标对象的时间成本，减少需要在相册和AI图像生成模型的应用的来回切换的交互次数。

本申请实施例提供的图像处理方法，执行主体可以为图像处理装置。本申请实施例中以图像处理装置执行图像处理的方法为例，说明本申请实施例提供的图像处理的装置。

图8是本申请实施例提供的一种图像处理装置的结构示意图，结合图8所示，图像处理装置可以包括接收模块801和接收模块802。

接收模块801，用于接收用户输入的提示词；

处理模块802，用于将提示词和至少一张对象图像输入图像处理模型，输出第一图像；

在本申请实施例中，通过接收用户输入的提示词，并将提示词和至少一种对象图像输入图像处理模型，进而得到图像处理模型输出的第一图像。其中，由于输入图像处理模型的至少一张对象图像是用户从预先从至少一张图像中抠取的至少一个对象的对象区域得到的图像，因此，图像处理模型可以结合用户输入的提示词，在对象图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，无需用户反复操作，即可满足用户的图像处理需求。

在一些实施例中，处理模块802，还用于在接收模块801接收到用户对第二图像中的第一对象的第一输入的情况下，抠取第一对象的对象区域的图像，得到第一对象图像；

处理模块802，还用于在接收模块801接收到用户对第二图像中的第二对象的第二输入的情况下，抠取第二对象的对象区域的图像，得到第二对象图像；

处理模块802，还用于在接收模块801接收到用户对第三图像中的第三对象的第三输入的情况下，抠取第三对象的对象区域的图像，得到第三对象图像；

其中，第二图像包括至少两个对象，第三图像包括至少一个对象。

在一些实施例中，处理模块802，还用于识别第二图像中的所有对象，第二图像包括至少两个对象；

装置还包括：

显示模块，用于在识别出的每个对象关联的图像区域，显示对象选择控件；

处理模块802，还用于在接收模块801接收到用户对第二图像中的第一对象关联的图像区域中的对象选择控件的第一输入的情况下，抠取第一对象的对象区域的图像，得到第一对象图像。

在一些实施例中，装置还包括：

显示模块，用于在图像编辑界面，显示至少一张对象图像；

接收模块801，还用于接收用户对至少一张对象图像的编辑输入；

处理模块802，还用于响应于编辑输入，更新至少一张对象图像。

根据本申请实施例，用户可以方便地在图像编辑窗口中调整对象图像的显示效果，由此，在图像处理模型可以结合调整后的对象图像的显示效果生成第一图像，有利于提升用户对第一图像中对象的显示效果的满意度。

在一些实施例中，处理模块802具体用于更新以下至少一项：

更新至少一张对象图像的图像显示位置；

更新至少一张对象图像的图像尺寸；

更新至少一张对象图像的图像转动角度；

更新至少一张对象图像的图像参数的参数值。

根据本申请实施例，用户可以方便地在图像编辑窗口中调整对象图像的显示效果，由此，在图像处理模型，可以结合调整后的对象图像的显示效果生成第一图像，有利于提升用户对第一图像中对象的显示效果的满意度。

在一些实施例中，图像编辑界面还包括背景图像设置控件；

接收模块801，还用于接收用户对背景图像设置控件的第四输入；

处理模块802，还用于响应于第四输入，设置背景图像；

处理模块802，还用于将提示词、至少一张对象图像和背景图像输入图像处理模型；

根据本申请实施例，用户可以方便的调整对象图像的背景，不仅可以提升生成图像的趣味性，而且，由于背景切换方式简单，简化了由用户编辑图像的步骤。而且图像处理模型可以结合用户输入的提示词，在对象图像和背景图像的基础上生成第一图像，且在生成的第一图像中既可以保留抠取的对象以及背景图像，还能够有效提高第一图像的绘制效果与用户输入的提示词对应含义之间的符合度，满足用户的图像处理需求。

在一些实施例中，处理模块802，还用于将提示词和至少一张对象图像输入图像处理模型；

图像处理模型根据至少一张对象图像中的每个对象的对象特征和提示词对应的语义信息，输出第一图像。

根据本申请实施例，用户可以方便的可以根据自己的图像处理需求，向图像处理模型提供提示词，基于此，在生成的第一图像中既可以保留抠取的对象，并具备符合提示词对应语义信息的图像显示效果，从而可以提升生成图像的趣味性。

本申请实施例中的图像处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像处理装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901和存储器902，存储器902上存储有可在处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述图像处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

用户输入单元1007，用于接收用户输入的提示词；

处理器1010，用于将提示词和至少一张对象图像输入图像处理模型，输出第一图像；

在一些实施例中，处理器1010，还用于在用户输入单元1007接收到用户对第二图像中的第一对象的第一输入的情况下，抠取第一对象的对象区域的图像，得到第一对象图像；

处理器1010，还用于在用户输入单元1007接收到用户对第二图像中的第二对象的第二输入的情况下，抠取第二对象的对象区域的图像，得到第二对象图像；

处理器1010，还用于在用户输入单元1007接收到用户对第三图像中的第三对象的第三输入的情况下，抠取第三对象的对象区域的图像，得到第三对象图像；

在一些实施例中，处理器1010，还用于识别第二图像中的所有对象，第二图像包括至少两个对象；

显示单元1006，用于在识别出的每个对象关联的图像区域，显示对象选择控件；

处理器1010，还用于在用户输入单元1007接收到用户对第二图像中的第一对象关联的图像区域中的对象选择控件的第一输入的情况下，抠取第一对象的对象区域的图像，得到第一对象图像。

在一些实施例中，显示单元1006，还用于在图像编辑界面，显示至少一张对象图像；

用户输入单元1007，还用于接收用户对至少一张对象图像的编辑输入；

处理器1010，还用于响应于编辑输入，更新至少一张对象图像。

在一些实施例中，处理器1010具体用于更新以下至少一项：

更新至少一张对象图像的图像显示位置；

更新至少一张对象图像的图像尺寸；

更新至少一张对象图像的图像转动角度；

更新至少一张对象图像的图像参数的参数值。

在一些实施例中，图像编辑界面还包括背景图像设置控件；

用户输入单元1007，还用于接收用户对背景图像设置控件的第四输入；

处理器1010，还用于响应于第四输入，设置背景图像；

处理器1010，还用于将提示词、至少一张对象图像和背景图像输入图像处理模型；

在一些实施例中，处理器1010，还用于将提示词和至少一张对象图像输入图像处理模型；

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述图像处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像处理方法，其特征在于，包括：

接收用户输入的提示词；

将所述提示词和至少一张对象图像输入图像处理模型，输出第一图像；

其中，所述至少一张对象图像为预先从至少一张图像中抠取的至少一个对象的对象区域的图像，所述第一图像包括所述至少一张对象图像中的对象。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在接收到用户对第二图像中的第一对象的第一输入的情况下，抠取所述第一对象的对象区域的图像，得到第一对象图像；

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

识别第二图像中的所有对象，所述第二图像包括至少两个对象；

在识别出的每个对象关联的图像区域，显示对象选择控件；

在接收到用户对所述第二图像中的第一对象关联的图像区域中的对象选择控件的第一输入的情况下，抠取所述第一对象的对象区域的图像，得到第一对象图像。

4.根据权利要求1所述的方法，其特征在于，所述将所述提示词和至少一张对象图像输入图像处理模型，输出第一图像之前，所述方法还包括：

在图像编辑界面，显示至少一张对象图像；

接收用户对所述至少一张对象图像的编辑输入；

响应于所述编辑输入，更新所述至少一张对象图像。

5.根据权利要求4所述的方法，其特征在于，所述更新所述至少一张对象图像，包括以下至少一项：

更新至少一张对象图像的图像显示位置；

更新至少一张对象图像的图像尺寸；

更新至少一张对象图像的图像转动角度；

更新至少一张对象图像的图像参数的参数值。

6.根据权利要求3所述的方法，其特征在于，所述图像编辑界面还包括背景图像设置控件；所述方法还包括：

接收用户对所述背景图像设置控件的第四输入；

响应于所述第四输入，设置背景图像；

所述将所述提示词和至少一张对象图像输入所述图像处理模型，输出第一图像，包括：

将所述提示词、至少一张对象图像和所述背景图像输入图像处理模型；

所述图像处理模型根据所述提示词对应的语义信息、所述对象图像的对象特征和所述背景图像的背景特征，输出第一图像。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述将所述提示词和至少一张对象图像输入图像处理模型，输出第一图像，包括：

将所述提示词和所述至少一张对象图像输入所述图像处理模型；

所述图像处理模型根据所述至少一张对象图像中的每个对象的对象特征和所述提示词对应的语义信息，输出第一图像。

8.根据权利要求7所述的方法，其特征在于，在所述对象包括动态对象，所述语义信息包括所述动态对象的活动状态信息的情况下，所述第一图像中所述动态对象的动作为与所述活动状态信息匹配的动作；

在所述对象包括静态对象，所述语义信息包括所述静态对象的位置更新信息的情况下，所述第一图像中所述静态对象的显示位置为与位置更新信息匹配的位置；

在所述语义信息包括虚拟对象风格信息的情况下，所述第一图像中的对象的对象风格为与所述虚拟对象风格信息匹配的对象风格。

9.一种图像处理装置，其特征在于，包括：

接收模块，用于接收用户输入的提示词；

处理模块，用于将所述提示词和至少一张对象图像输入图像处理模型，输出第一图像；

10.根据权利要求9所述的装置，其特征在于，所述处理模块，还用于在所述接收模块接收到用户对第二图像中的第一对象的第一输入的情况下，抠取所述第一对象的对象区域的图像，得到第一对象图像；

所述处理模块，还用于在所述接收模块接收到用户对第二图像中的第二对象的第二输入的情况下，抠取所述第二对象的对象区域的图像，得到第二对象图像；

所述处理模块，还用于在所述接收模块接收到用户对第三图像中的第三对象的第三输入的情况下，抠取所述第三对象的对象区域的图像，得到第三对象图像；

11.根据权利要求9或10所述的装置，其特征在于，所述处理模块，还用于识别第二图像中的所有对象，所述第二图像包括至少两个对象；

所述装置还包括显示模块，用于在识别出的每个对象关联的图像区域，显示对象选择控件；

所述处理模块，还用于在所述接收模块接收到用户对所述第二图像中的第一对象关联的图像区域中的对象选择控件的第一输入的情况下，抠取所述第一对象的对象区域的图像，得到第一对象图像。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

显示模块，用于在图像编辑界面，显示至少一张对象图像；

接收模块，还用于接收用户对所述至少一张对象图像的编辑输入；

所述处理模块，还用于响应于所述编辑输入，更新所述至少一张对象图像。

13.根据权利要求12所述的装置，其特征在于，所述处理模块具体用于更新以下至少一项：

更新至少一张对象图像的图像显示位置；

更新至少一张对象图像的图像尺寸；

更新至少一张对象图像的图像转动角度；

更新至少一张对象图像的图像参数的参数值。

14.根据权利要求11所述的装置，其特征在于，所述图像编辑界面还包括背景图像设置控件；

所述接收模块，还用于接收用户对所述背景图像设置控件的第四输入；

所述处理模块，还用于响应于所述第四输入，设置背景图像；

所述处理模块，还用于将所述提示词、至少一张对象图像和所述背景图像输入图像处理模型；

15.根据权利要求9至14中任一项所述的装置，其特征在于，所述处理模块，还用于将所述提示词和所述至少一张对象图像输入所述图像处理模型；

16.根据权利要求15所述的装置，其特征在于，在所述对象包括动态对象，所述语义信息包括所述动态对象的活动状态信息的情况下，所述第一图像中所述动态对象的动作为与所述活动状态信息匹配的动作；

17.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至8任一项所述的图像处理方法的步骤。