CN116524186A

CN116524186A - 图像处理方法及装置、电子设备、存储介质

Info

Publication number: CN116524186A
Application number: CN202310468618.XA
Authority: CN
Inventors: 王凡祎
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-01

Abstract

本公开实施例是关于一种图像处理方法及装置、电子设备以及计算机可读存储介质，涉及图像处理技术领域，该图像处理方法包括：获取待处理图像；对待处理图像进行主体检测，获取待处理图像中包含的主体对象的检测框、检测框对应的文本类别标签以及类别置信度；根据类别置信度以及作用在文本类别标签的用户选择操作，确定目标文本类别标签；结合目标文本类别标签、检测框以及待处理图像，对待处理图像进行抠图处理，获取与用户选择操作对应的目标主体对象。本公开实施例中的技术方案，能够提高图像抠图的准确性和真实性。

Description

图像处理方法及装置、电子设备、存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法及装置、电子设备以及计算机可读存储介质。

背景技术

在图像处理过程中，可以对图像进行抠图，以分离主体和背景，从而对主体以及背景进行图像处理。

相关技术中，对于包含多个主体的图像而言，一般能够实现单主体抠图，但是对多个主体进行抠图的效果较差，准确性较低。或者是单独依靠多模态主体分割算法的语料信息，以及通过用户自行判断出图像中的主体对象，可能导致主体判断错误等问题，准确性较差。

发明内容

本公开的目的在于提供一种图像处理方法及装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的抠图局限性较大的问题。

根据本公开的第一方面，提供一种图像处理方法，包括：获取待处理图像；对待处理图像进行主体检测，获取待处理图像中包含的主体对象的检测框、检测框对应的文本类别标签以及类别置信度；根据类别置信度以及作用在文本类别标签的用户选择操作，确定目标文本类别标签；结合目标文本类别标签、检测框以及所述待处理图像，对待处理图像进行抠图处理，获取与用户选择操作对应的目标主体对象。

根据本公开的第二方面，提供一种图像处理装置，包括：图像获取模块，用于获取待处理图像；主体检测模块，用于对待处理图像进行主体检测，获取待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度；标签确定模块，用于根据类别置信度以及作用在文本类别标签的用户选择操作，确定目标文本类别标签；图像抠图模块，用于结合目标文本类别标签、检测框以及待处理图像，对待处理图像进行抠图处理，获取与用户选择操作对应的目标主体对象。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法及其可能的实现方式。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法及其可能的实现方式。

本公开实施例中提供的技术方案中，一方面，能够结合文本类别标签的类别置信度，基于用户选择操作确定出一个目标文本类别标签，进而结合目标文本类别标签、检测框以及待处理图像，从待处理图像中抠图确定出目标主体对象，由于可以根据用户选择操作来确定抠图得到的目标主体对象的数量，因此能够避免相关技术中只能抠图一个主体对象或者是无法指定抠图的局限性，增加了应用范围和多样性，实现交互式抠图，提高了用户体验。另一方面，由于可以结合类别置信度来进行抠图，能够提高抠图得到的目标主体对象的质量，提高准确性。再一方面，由于结合目标文本类别标签、检测框以及待处理图像等多个模态的数据来得到指定的目标主体对象，能够提高抠图的准确性和针对性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的图像处理方法的应用场景的示意图。

图2示意性示出本公开实施例一种图像处理方法的流程示意图。

图3示意性示出本公开实施例中通过目标检测模型进行主体检测的流程示意图。

图4A-图4C示意性示出本公开实施例中确定检测框、文本类别标签以及类别置信度的示意图。

图5示意性示出本公开实施例中确定目标主体对象的流程示意图。

图6示意性示出本公开实施例中通过分割模型进行抠图的流程示意图。

图7A-图7B示意性示出本公开实施例中通过一个或多个输入数据进行抠图的示意图。

图8示意性示出本公开实施例中抠图结果的示意图。

图9示意性示出本公开实施例的交互式抠图的整体流程示意图。

图10示意性示出本公开实施例中图像处理装置的框图示意图。

图11示意性示出本公开实施例中电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为了解决相关技术中的技术问题，本公开实施例中提供了一种图像处理方法，可以应用于对图像进行抠图得到主体对象的过程中，进而可以对抠图得到的目标主体对象进行各种类型的图像处理，例如对主体对象进行编辑处理、或者是执行换背景等操作。图1示出了可以应用本公开实施例的图像处理方法及装置的系统架构的示意图。

如图1所示，可以获取待处理图像101。待处理图像可以为彩色图像。待处理图像可以为存储得到的图像，也可以为终端的摄像头拍摄得到的图像，此处不作具体限定，只要能够获取到彩色图像即可。

本公开实施例中，可以将待处理图像进行主体检测得到包含的主体对象的检测框、文本类别标签以及类别置信度等信息；接下来，可以结合每个检测框对应的子图像的类别置信度，以及对所述文本类别标签的用户选择操作确定目标文本类别标签，结合目标文本类别标签、检测框以及待处理图像，对待处理图像进行抠图处理，从待处理图像中获取与用户选择操作对应的目标主体对象。

需要说明的是，本公开实施例所提供的图像处理方法可以由终端来执行。终端可以为具有图像处理功能的智能设备，例如可以为智能手机、电脑、平板电脑、智能音箱、智能手表、车载设备、可穿戴设备、监控设备等智能设备。图像处理装置也可以设置于终端中。除此之外，图像处理方法也可以由服务器执行，此处不作具体限定。

图2中示意性示出了图像处理的流程图。参考图2中所示，主要包括以下步骤：

在步骤S210中，获取待处理图像；

在步骤S220中，对待处理图像进行主体检测，获取待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度；

在步骤S230中，根据类别置信度以及作用在文本类别标签的用户选择操作，确定目标文本类别标签；

在步骤S240中，结合目标文本类别标签、检测框以及待处理图像，对待处理图像进行抠图处理，获取与用户选择操作对应的目标主体对象。

本公开实施例中，首先可以获取待处理图像，并对待处理图像进行主体检测，得到待处理图像中包含的每个主体对象的检测框，与此同时还可以获取主体对象对应的文本类别标签以及类别置信度。

接下来，可以确定检测框对应的子图像的文本类别标签和类别置信度，并结合类别置信度以及对文本类别标签的用户选择操作，来确定出目标文本类别标签，从目标文本类别标签、检测框以及待处理图像等多个维度构建可交互式的通用主体分割方式，从而实现指定对象的主体抠图，得到目标主体对象。

本公开实施例中的技术方案，一方面，能够结合文本类别标签的类别置信度，基于用户选择操作确定出一个目标文本类别标签，进而结合目标文本类别标签、检测框以及待处理图像，从待处理图像中抠图确定出目标主体对象，由于可以根据用户选择操作来确定抠图得到的目标主体对象的数量，因此能够避免相关技术中只能抠图一个主体对象或者是无法指定抠图的局限性，增加了应用范围和多样性，实现交互式抠图，提高了用户体验。另一方面，由于可以结合类别置信度来进行抠图，能够提高抠图得到的目标主体对象的质量，提高准确性。再一方面，由于结合目标文本类别标签、检测框以及待处理图像等多个模态的数据来得到指定的目标主体对象，能够提高抠图的准确性和针对性。

接下来，参考图2中所示，对图像处理方法的每个步骤进行具体说明。

在步骤S210中，获取待处理图像。

本公开实施例中，待处理图像可以为各种类型的图像，例如可以为RGB彩色图像、灰度图像或者是黑白图像等等。待处理图像中可以包含至少一个主体对象。至少一个主体对象可以为各种类型，例如主体对象可以为人物、动物或者是建筑物等等。每个待处理图像中可以包含相同类型的主体对象，也可以包含不同类型的主体对象，具体根据实际需求进行确定。待处理图像可以为来源于网络的图像或者是来源于其他客户端发送的图像，也可以为终端的摄像头拍摄的图像等等，也可以为视频中的图像等等，只要其中包含至少一个主体对象即可。

接下来，在步骤S220中，对待处理图像进行主体检测，获取待处理图像中包含的主体对象的检测框、检测框对应的文本类别标签以及类别置信度。

本公开实施例中，主体检测用于检测图像中包含的主体对象，从而获取主体对象的主体信息。主体对象的数量可以包括一个或多个，具体根据主体信息包括主体对象的位置和类别信息等。具体地，可以对待处理图像进行主体检测，确定待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度。检测框可以通过检测框的坐标像素信息来表示，每个检测框的坐标像素信息可以包括至少一个。例如，检测框的坐标像素信息可以包括左上角坐标以及右下角坐标等等。文本类别标签用于表示主体对象的类别，且可以用文本信息来表示。文本类别标签可以为各种形式的文本信息，例如中文文本或者是英文文本等等。类别置信度可以为主体对象属于文本类别标签的概率，类别置信度的取值范围可以为[0,1)，并且主体对象属于文本类别标签的概率越高，其类别置信度越大。并且，每个主体对象可以对应一个检测框，且可以对应一个文本类别标签以及类别置信度。

对待处理图像进行主体检测可以得到主体对象分离的多个子图像，子图像的数量可以根据主体对象的数量而确定。子图像可以为待处理图像中的一部分，且每个子图像中可以包括一个主体对象，除此之外还可以包括部分其他主体对象。例如，子图像1中可以包括人和房子的部分图像。接下来可以确定子图像中包含的主体对象的文本类别标签以及确定子图像中主体对象的文本类别标签的类别置信度。具体地，可以将子图像中面积最大的主体对象确定为该子图像的主体对象，并且去确定其对应的文本类别标签以及类别置信度。例如，子图像1中可以包括人和房子的部分图像。通过对比可知，子图像1中包含的主体对象为人、文本类别标签为人，类别置信度可以为80％等等。

在一些实施例中，可以通过目标检测算法来检测出主体对象，并获取其检测框、文本类别标签以及类别置信度。目标检测算法可以为开源的轻量目标检测算法，例如可以为YOLOX_tiny算法，除此之外也可以为其他算法，此处不作具体限定，只要能够检测得到检测框、文本类别标签以及类别置信度即可。

其中，YOLOX_tiny是开源的轻量化目标检测算法。示例性地，YOLOX_tiny可以为YOLOv3-YOLOv5，也可以为YOLOX模型，此处以YOLOv5为例进行说明。YOLOv5主要由输入端、骨干网络Backone、Neck层以及预测层Prediction四部分组成。其中：骨干网络Backbone用于在不同图像细粒度上聚合并形成图像特征的卷积神经网络。Neck包括一系列混合和组合图像特征的网络层，并将图像特征传递到预测层，用于融合不同层的特征检测目标。预测层用于对图像特征进行预测，生成边界框和预测类别。

参考图3中所示，基于目标检测模型的具体结构，首先可通过骨干网络Backone对待处理图像进行卷积操作得到特征向量，进一步通过Neck层对特征向量进行融合，得到中间特征向量并将中间特征向量传输至预测层，以提高特征向量的全面性和准确性；接下来可以通过预测层对中间特征向量进行拟合，以得到输出结果，输出结果可以为待处理图像中包含的每个主体对象的检测框、文本类别标签以及类别置信度。

例如，参考图4A中所示的待处理图像，其中包括对待处理图像进行主体检测得到的主体对象的检测框。检测框可以通过坐标像素信息来表示，具体可以通过左上角的坐标像素信息和右上角的坐标像素信息来表示。举例而言，主体对象1的检测框的坐标像素信息为(x0,y0)和(x1,y1)，主体对象2的检测框的坐标像素信息为(x2,y2)和(x3,y3)。图4B为对待处理图像进行主体检测，得到的主体对象1的文本类别标签以及类别置信度。例如，主体对象1的文本类别标签为人、类别置信度为86％。图4C为对待处理图像进行主体检测，得到的主体对象2的文本类别标签以及类别置信度。例如，主体对象2的文本类别标签为狗、类别置信度为97％。

本公开实施例中，通过YOLOv5算法能够快速检测出待处理图像中的所有主体对象，并输出每个主体对象的检测框的坐标像素信息、文本类别标签以及类别置信度，从而能够提高检测的准确性。

接下来，参考图2中所示，在步骤S230中，根据类别置信度以及作用在文本类别标签的用户选择操作，确定目标文本类别标签。

本公开实施例中，可以结合类别置信度以及作用于一个或多个文本类别标签的用户选择操作确定出目标文本类别标签。目标文本类别标签的数量可以为一个或多个。进一步地，可以对选中的目标文本类别标签对应的一个或多个主体对象进行抠图处理，从而结合用户选择操作得到目标主体对象，实现交互式抠图。

目标主体对象可以包括一个或多个主体对象，具体根据用户选择操作所选择的目标文本类别标签的数量而确定。例如，当用户选择操作作用于多个文本类别标签时，目标主体对象的数量可以为多个。当用户选择操作作用于一个文本类别标签时，目标主体对象的数量可以为一个，此处不作具体限定。

在一些实施例中，结合所述类别置信度以及对所述文本类别标签的用户选择操作，确定目标文本类别标签的具体步骤可以包括：根据检测框确定至少一个子图像，根据每个子图像的类别置信度，从至少一个子图像中确定候选子图像。进一步从候选子图像所对应的文本类别标签的范围内，根据用户选择操作来确定出需要抠图的目标文本类别标签。

首先，在得到主体对象的检测框之后，可根据检测框确定主体对象分离的子图像，即每个子图像中只包含一个主体对象，除此之外还可以包含背景图像等等。候选子图像指的是能够被抠图的主体对象所在的子图像，即用于表示能够抠图的主体对象的范围。候选子图像可以为至少一个子图像中的部分子图像或所有子图像，具体根据类别置信度来确定。

示例性地，可以根据类别置信度与置信度阈值的对比结果来选择将子图像中的部分或全部确定为候选子图像。具体地，可以根据对比结果，使用不同的方式来确定候选子图像。若对比结果为子图像的类别置信度大于等于置信度阈值，可将该子图像确定为候选子图像，以便于后续对候选子图像进行抠图。并且，该子图像对应的文本类别标签也可以显示在用户界面上，以供用户选择。在类别置信度大于置信度阈值的情况下，可以继续结合用户对候选子图像对应的文本类别标签的用户选择操作，确定出目标文本类别标签，对待处理图像在候选子图像范围内进行抠图得到对应的目标主体对象。

示例性地，可以基于用户选择操作确定目标文本类别标签，目标文本类别标签可以为类别置信度大于置信度阈值的文本类别标签中的一个或多个，具体由用户对类别置信度大于置信度阈值的文本类别标签中的用户选择操作而确定。用户选择操作可以包括触控操作、语音触发操作中的一种或多种。

若对比结果为子图像的文本类别标签的类别置信度小于置信度阈值，则不能将该子图像确定为候选子图像，即该子图像无法用于后续的抠图过程，且该子图像的文本类别标签也不会显示在用户界面上，以避免对抠图过程的影响。而只根据显示在用户界面上的文本类别标签来实现交互式抠图。通过不显示类别置信度小于置信度阈值的子图像的文本类别标签，能够避免无效抠图，提高抠图的准确性。

除此之外，也可以将类别置信度小于置信度阈值的文本类别标签显示在用户界面上。在这种情况下，根据目标方式确定候选子图像，并基于默认方式或用户响应操作确定目标文本类别标签。目标方式可以为不将子图像作为候选子图像，也可以为将其作为候选子图像，具体根据实际需求进行确定。目标方式不同，则可根据不同方式获取目标文本类别标签。

示例性地，如果不将类别置信度小于置信度阈值的子图像作为候选子图像，可通过默认方式确定目标文本类别标签。具体地，如果用户选择了类别置信度小于置信度阈值的文本类别标签，可以不将其作为目标文本类别标签，不输出该文本类别标签对应的主体对象，即不执行抠图。

如果将类别置信度小于置信度阈值的子图像作为候选子图像，可通过用户响应操作确定目标文本类别标签。具体地，可以在用户界面上提供一个提示信息，以提醒用户该子图像的类别置信度较低，并根据用户响应操作确定是否将子图像的该文本类别标签确定为目标文本类别标签。用户响应操作可以为用户对提示信息的选择操作。提示信息例如可以为继续或取消，当用户响应操作为对继续控件的点击操作时，可对类别置信度小于置信度阈值的文本类别标签进行抠图；当用户响应操作为对取消控件的点击操作时，可对类别置信度小于置信度阈值的文本类别标签停止进行抠图。

举例而言，如果所有文本类别标签都显示在用户界面上，且用户选择了文本类别标签1，但是该文本类别标签1对应的子图像的类别置信度小于置信度阈值，则不会对文本类别标签1对应的子图像进行抠图。或者是，如果用户选择了文本类别标签1，但是该文本类别标签1对应的子图像的类别置信度小于置信度阈值，此时可以在该文本类别标签的周围显示一个提示信息，提示信息中包含继续或取消两个控件，如果用户选择了继续控件，则会对文本类别标签1对应的子图像进行抠图。

本公开实施例中，通过文本类别标签的类别置信度与置信度阈值之间的对比结果确定候选子图像，并基于对候选子图像的文本类别标签的用户选择操作来确定目标文本类别标签，避免了用户可能选择类别置信度较小的文本类别标签而导致的误操作，提高了抠图的准确性和有效性。

本公开实施例中，通过结合类别置信度与置信度阈值的对比结果，使用不同的方式确定是否将所有文本类别标签确定为目标文本类别标签，以进行抠图，能够提高确定目标文本类别标签的准确性，也能够提高确定抠图对象的准确性，避免了整体进行抠图时导致的图像质量较差的问题，提高了应用范围，实现了个性化抠图，也能够提高抠图的全面性和丰富性。

在一些实施例中，可以通过检测框，从待处理图像中确定出一个或多个初始主体对象，即通过检测框进行初步抠图，例如可以将检测框对应的所有子图像确定为初始主体对象。进一步地，可以基于确定的目标文本类别标签，将初始主体对象中的一个或多个作为目标主体对象。

对任何文本类别标签对应的主体对象进行抠图的具体步骤可以包括：在通过用户选择操作确定目标文本类别标签后，通过分割模型进行抠图处理，得到目标文本类别标签对应的目标主体对象。示例性地，可以将目标文本类别标签、检测框以及待处理图像中的一个或多个作为分割模型的输入，根据分割模型对输入进行处理，从待处理图像中抠图得到目标文本类别标签对应的目标主体对象。目标文本类别标签可以为文本标签中的一个或多个，具体根据用户选择操作从用户界面上显示的多个文本类别标签中确定。可以将目标文本类别标签以及待处理图像的像素信息、检测框作为分割模型的输入，通过分割模型进行特征提取，得到分割结果。分割结果可以为目标文本类别标签对应的目标主体对象。

在一些实施例中，分割模型可以为SAM(Segment Anything Model，基础模型)，也可以为其他任意类型的分割模型，此处以分割模型为SAM为例进行说明。分割模型以多模态数据中的一个或多个为输入，分割出文本指定的主体对象。SAM模型建立了一个可以接受文本提示、基于海量数据训练而获得泛化能力的图像分割大模型。

基于此，在对每个目标文本类别标签进行抠图时，可以结合目标文本类别标签、检测框以及待处理图像中的像素信息，对待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象。参考图5中所示，主要包括以下步骤：

在步骤S510中，对待处理图像进行编码得到图像特征；

在步骤S520中，结合目标文本类别标签、检测框以及待处理图像的像素信息，得到对应的编码特征；

在步骤S530中，基于图像特征，分别对编码特征进行解码得到对应的解码结果，并根据解码结果确定每个目标文本类别标签的目标主体对象。

本公开实施例中，参考图6中所示，首先需要提取待处理图像的编码特征。示例性地，可以通过第一编码器对待处理图像进行编码得到图像特征。第一编码器可以为图像编码器，例如可以为Transformer编码器，也可以为Vision Transformer模型。接下来，可以将目标文本类别标签、检测框以及待处理图像的像素信息中的一个或多个作为输入数据传输至第二编码器，以提取每个输入数据的编码特征，从而得到一个或多个编码特征。其中，检测框可以为检测框的左上角和右下角，待处理图像中的像素信息可以为待处理图像中每个像素点的像素位置，目标文本类别标签可以为文本数据。第二编码器可以为提示编码器，用于对多模态数据进行编码。每个输入数据可以对应一个编码特征。

需要说明的是，可以只将一个模态的数据作为输入数据，也可以同时将多个模态的数据作为输入数据。示例性地，可以对目标文本类别标签、检测框以及待处理图像的像素信息中的任意一个作为输入数据，通过第二编码器进行编码，得到对应的编码特征。也可以对目标文本类别标签、检测框以及待处理图像的像素信息中的任意两个或者是三个同时作为输入数据输入第二编码器进行编码，得到各自对应的编码特征。

在得到编码特征之后，可以通过解码器，基于图像特征对每个编码特征进行解码，得到每个输入数据的解码结果。并且，每个解码结果可以对应一个置信度分数，该置信度分数可以用于表示解码结果的准确率。置信度分数与准确率正相关，即置信度分数越大，准确率越高。

在得到一个或多个解码结果之后，可以根据一个或多个解码结果对应的置信度分数，从一个或多个解码结果中确定出用户选择操作对应的目标文本类别标签对应的目标主体对象。示例性地，可以将置信度分数最大的解码结果确定为目标文本类别标签对应的目标主体对象。

在一些实施例中，参考图7A中所示，目标文本类别标签可以为人和狗，当输入数据只有目标文本类别标签时，可以得到每一个目标文本类别标签对应的解码结果，进一步可以直接将每个目标文本类别标签对应的解码结果作为该目标文本类别标签对应的目标主体对象。

参考图7B中所示，目标文本类别标签可以为狗，当输入数据包含待处理图像、检测框以及目标文本类别标签时，可以得到每个目标文本类别标签对应的每个输入数据的解码结果，即解码结果1、解码结果2以及解码结果3。由于每个目标文本类别标签对应的解码结果的数量为多个，进一步可以直将每个目标文本类别标签对应的置信度分数最大的解码结果作为该目标文本类别标签对应的目标主体对象。例如，对于目标文本类别标签为狗，解码结果2的置信度分数最大，可以将解码结果2作为狗表示的目标文本类别标签对应的目标主体对象。

需要说明的是，为了提高准确性，可以对分割模型进行训练，使得模型的性能更好。示例性地，可以使用数据集对分割模型的模型参数进行调整，使得损失函数最小，从而实现进一步训练优化。

在一些实施例中，通过将目标文本类别标签、待处理图像以及检测框中的一个或多个输入至分割模型，能够得到与目标文本类别标签对应的目标主体对象。并且，不同文本标签输入MTTR后，所得到的主体分割结果不同。例如，参考图8中所示，输入“人”得到人像的分割结果，即目标主体对象为人；输入“狗”得到狗的分割结果，即目标主体对象为狗；同时输入“人”和“狗”，得到人和狗的分割结果，即目标主体对象为人和狗。

在一些实施例中，若通过目标检测模型得到多个主体对象的检测框、文本类别标签以及类别置信度，例如主体对象1的文本类别标签为人，其类别置信度为80％；主体对象2的文本类别标签为狗，其类别置信度为90％；主体对象3的文本类别标签为车辆，其类别置信度为50％。若类别置信度为75％，通过将每个文本类别标签的类别置信度与置信度阈值进行对比，可以确定主体对象1和主体对象2的类别置信度大于置信度阈值，而主体对象3的类别置信度小于置信度阈值。由于其类别置信度小于置信度阈值，因此可以将主体对象1和主体对象2对应的子图像作为候选子图像，从而在候选子图像的范围内抠图得到目标主体对象。与此同时，可以将主体对象1和主体对象2对应的文本类别标签显示在用户界面上供用户选择。当检测到用户选择操作时，可以根据用户选择操作所作用的目标文本类别标签对应的主体对象确定目标主体对象。需要注意的是，由于只在用户界面上显示类别置信度大于置信度阈值的主体对象，因此能够避免选择到无法抠图的主体对象的误操作，提高了准确性。并且，结合用户选择操作，能够抠图得到指定的主体对象，避免了只能整体抠图或者是无法指定抠图的局限性，增加了应用范围和多样性，提高了用户体验。

本公开实施例中，能够在文本类别标签的类别置信度大于置信度阈值时，基于用户选择操作确定出目标文本类别标签，进而根据目标文本类别标签从待处理图像的子图像中确定出目标主体对象，由于可以根据用户选择操作来确定抠图得到的目标主体对象的数量，因此能够避免相关技术中只能抠图一个主体对象的局限性。除此之外，由于可以通过用户选择操作来随意地选择要抠图的文本类别标签来根据实际需求确定出抠图得到的目标主体对象，因此能够实现按照需求进行指定抠图，能够按照用户偏好进行抠图，增加了抠图范围。并且，在确定处目标文本类别标签后，通过待处理图像和目标文本类别标签表示的多模态数据，通过分割模型进行分割，能够提高主体分割的准确性。

在一些实施例中，可以从待处理图像中可选择性的抠出目标主体对象，进一步还可以对目标主体对象进行合成，例如可以制作表情包；或者是将目标主体对象与参考素材进行合成操作，从而实现多种类型的图像创作等等。

图9中示意性示出了进行抠图的流程图，参考图9中所示，主要包括以下步骤：

在步骤S902中，输入待处理图像。

在步骤S904中，通过目标检测算法对待处理图像进行主体检测。

在步骤S906中，得到主体对象的检测框、文本标签类别以及类别置信度。

在步骤S908中，根据检测框得到子图像。

在步骤S910中，判断子图像的文本类别标签的类别置信度是否大于置信度阈值。若是，则转至步骤S912。若否，则转至步骤S920。

在步骤S912中，在用户界面上显示文本类别标签。

在步骤S914中，通过用户选择操作确定出目标文本类别标签。目标文本标签例如可以为“人”和/或“狗”。

在步骤S916中，将目标文本类别标签、文本框以及待处理图像输入分割模型。

在步骤S918中，抠图得到目标文本类别标签对应的目标主体对象。

在步骤S920中，不显示文本类别标签。

本公开实施例中，通过对文本类别标签的用户选择操作，实现了交互式、可选择的多主体自动化抠图方式，增加了通用性、更符合用户偏好。通过目标检测算法以及分割模型，能够提高抠图得到的目标主体对象的准确性。除此之外，由于可以通过检测框以及目标文本类别标签来驱动获得与目标文本类别标签对应的目标主体对象，由于可以从多个维度的解码结果中来根据置信度分数进行选择，能够提高全面性以及目标主体对象的准确性。

本公开实施例中提供了一种图像处理装置，参考图10中所示，该图像处理装置1000可以包括：图像获取模块1001、主体检测模块1002、标签确定模块1003以及图像抠图模块1004，其中：

图像获取模块1001，用于获取待处理图像；

主体检测模块1002，用于对所述待处理图像进行主体检测，获取所述待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度；

标签确定模块1003，用于根据所述类别置信度以及作用在所述文本类别标签的用户选择操作，确定目标文本类别标签；

图像抠图模块1004，用于结合所述目标文本类别标签、所述检测框以及所述待处理图像，对所述待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象。

在本公开的一种示例性实施例中，图像抠图模块被配置为执行：通过检测框，从待处理图像中确定初始主体对象；基于目标文本类别标签，在初始主体对象中确定目标主体对象。

在本公开的一种示例性实施例中，目标文本类别标签的数量为至少一个；图像抠图模块包括：编码模块，用于对待处理图像进行编码得到图像特征；特征提取模块，用于结合目标文本类别标签、检测框以及待处理图像中的像素信息，得到对应的编码特征；解码模块，用于在图像特征的基础上，分别对编码特征进行解码得到对应的解码结果，并根据解码结果确定所述目标主体对象。

在本公开的一种示例性实施例中，解码结果的数量为一个或多个；解码模块包括：第一目标主体对象确定模块，用于在解码结果的数量为多个的条件下，将置信度分数最大的解码结果确定为每个目标文本类别标签的目标主体对象；第二目标主体对象确定模块，用于在解码结果的数量为一个的条件下，将解码结果确定为每个目标文本类别标签的目标主体对象。

在本公开的一种示例性实施例中，主体检测模块被配置为执行：将待处理图像进行特征提取得到特征向量，并将特征向量进行卷积操作得到中间特征向量；对中间特征向量进行预测，得到待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度。

在本公开的一种示例性实施例中，标签确定模块包括：置信度确定模块，用于确定检测框对应的子图像的文本类别标签以及子图像的类别置信度；标签选择模块，用于根据子图像的类别置信度以及用户选择操作，确定目标文本类别标签。

在本公开的一种示例性实施例中，标签选择模块被配置为：确定子图像的文本类别标签的类别置信度与置信度阈值的对比结果；在对比结果为类别置信度大于置信度阈值的条件下，将子图像作为候选子图像，并在候选子图像对应的文本类别标签中，基于用户选择操作确定目标文本类别标签；在所述对比结果为类别置信度小于置信度阈值的条件下，根据目标方式确定候选子图像，并在候选子图像对应的文本类别标签中，基于默认方式或用户响应操作确定目标文本类别标签。

需要说明的是，上述图像处理装置中各部分的具体细节在图像处理方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述终端。一般的，该电子设备可以包括处理器与存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行上述图像处理方法。

下面以图11中的移动终端1100为例，对该电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图11中的构造也能够应用于固定类型的设备。

如图11所示，移动终端1100具体可以包括：处理器1101、存储器1102、总线1103、移动通信模块1104、天线1、无线通信模块1105、天线2、显示屏1106、摄像模块1107、音频模块1108、电源模块1109与传感器模块1110。

处理器1101可以包括一个或多个处理单元，例如：处理器1101可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。本示例性实施方式中的方法可以由AP、GPU或DSP来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行，例如NPU可以加载神经网络参数并执行神经网络相关的算法指令。

编码器可以对图像或视频进行编码(即压缩)，以减小数据大小，便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩)，以还原出图像或视频数据。移动终端1100可以支持一种或多种编码器和解码器，例如：JPEG(Joint PhotographicExperts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding，高效率视频编码)等视频格式。

处理器1101可以通过总线1103与存储器1102或其他部件形成连接。

存储器1102可以用于存储计算机可执行程序代码，可执行程序代码包括指令。处理器1101通过运行存储在存储器1102的指令，执行移动终端1100的各种功能应用以及数据处理。存储器1102还可以存储应用数据，例如存储图像，视频等文件。

移动终端1100的通信功能可以通过移动通信模块1104、天线1、无线通信模块1105、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块1104可以提供应用在移动终端1100上3G、4G、5G等移动通信解决方案。无线通信模块1105可以提供应用在移动终端1100上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏1106用于实现显示功能，如显示用户界面、图像、视频等。摄像模块1107用于实现拍摄功能，如拍摄图像、视频等，且摄像模块中可以包含色温传感器阵列。音频模块1108用于实现音频功能，如播放音频，采集语音等。电源模块1109用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。传感器模块1110可以包括一种或多种传感器，用于实现相应的感应检测功能。例如，传感器模块1110可以包括惯性传感器，其用于检测移动终端1100的运动位姿，输出惯性传感数据。

需要说明的是，本公开实施例中还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像；

对所述待处理图像进行主体检测，获取所述待处理图像中包含的主体对象的检测框、所述检测框对应的文本类别标签以及类别置信度；

根据所述类别置信度以及作用在所述文本类别标签的用户选择操作，确定目标文本类别标签；

结合所述目标文本类别标签、所述检测框以及所述待处理图像，对所述待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象。

2.根据权利要求1所述的图像处理方法，其特征在于，所述结合所述目标文本类别标签、所述检测框以及所述待处理图像，对所述待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象，包括：

通过所述检测框，从所述待处理图像中确定初始主体对象；

基于目标文本类别标签，在所述初始主体对象中确定所述目标主体对象。

3.根据权利要求1所述的图像处理方法，其特征在于，所述目标文本类别标签的数量为至少一个；所述结合所述目标文本类别标签、所述检测框以及所述待处理图像，对所述待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象，包括：

对所述待处理图像进行编码得到图像特征；

结合所述目标文本类别标签、所述检测框以及所述待处理图像的像素信息，得到对应的编码特征；

基于所述图像特征，分别对所述编码特征进行解码得到对应的解码结果，并根据所述解码结果确定每个目标文本类别标签的所述目标主体对象。

4.根据权利要求3所述的图像处理方法，其特征在于，所述解码结果的数量为一个或多个；所述根据所述解码结果确定每个目标文本类别标签的所述目标主体对象，包括：

在所述解码结果的数量为多个的条件下，将置信度分数最大的解码结果确定为每个目标文本类别标签的所述目标主体对象；

在所述解码结果的数量为一个的条件下，将所述解码结果确定为每个目标文本类别标签的所述目标主体对象。

5.根据权利要求1所述的图像处理方法，其特征在于，所述对所述待处理图像进行主体检测，获取所述待处理图像中包含的主体对象的检测框、所述检测框对应的文本类别标签以及类别置信度，包括：

将待处理图像进行特征提取得到特征向量，并将特征向量进行卷积操作得到中间特征向量；

对所述中间特征向量进行预测，得到所述待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度。

6.根据权利要求1所述的图像处理方法，其特征在于，所述根据所述类别置信度以及作用在所述文本类别标签的用户选择操作，确定目标文本类别标签，包括：

确定所述检测框对应的子图像的文本类别标签以及所述子图像的类别置信度；

根据所述子图像的类别置信度以及用户选择操作，确定所述目标文本类别标签。

7.根据权利要求6所述的图像处理方法，其特征在于，所述根据所述子图像的类别置信度以及用户选择操作，确定所述目标文本类别标签，包括：

确定子图像的文本类别标签的类别置信度与置信度阈值的对比结果；

在所述对比结果为所述类别置信度大于置信度阈值的条件下，将所述子图像作为候选子图像，并在候选子图像对应的文本类别标签中，基于所述用户选择操作确定所述目标文本类别标签；

在所述对比结果为所述类别置信度小于置信度阈值的条件下，根据目标方式确定候选子图像，并在候选子图像对应的文本类别标签中，基于默认方式或用户响应操作确定所述目标文本类别标签。

8.一种图像处理装置，其特征在于，包括：

图像获取模块，用于获取待处理图像；

主体检测模块，用于对所述待处理图像进行主体检测，获取所述待处理图像中包含的主体对象的检测框、文本类别标签以及类别置信度；

标签确定模块，用于根据所述类别置信度以及作用在所述文本类别标签的用户选择操作，确定目标文本类别标签；

图像抠图模块，用于结合所述目标文本类别标签、所述检测框以及所述待处理图像，对所述待处理图像进行抠图处理，获取与所述用户选择操作对应的目标主体对象。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的图像处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的图像处理方法。