CN117455926A

CN117455926A - 图像分割方法、装置、电子设备及存储介质

Info

Publication number: CN117455926A
Application number: CN202311400764.5A
Authority: CN
Inventors: 王思维
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-26

Abstract

本申请公开了一种图像分割方法、装置、电子设备及存储介质，属于图像处理技术领域。该方法包括：基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数；基于第一图像的深度特征向量和第一注意力分数矩阵，得到第一注意力分数向量；基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

Description

图像分割方法、装置、电子设备及存储介质

技术领域

本申请属于图像处理技术领域，具体涉及一种图像分割方法、装置、电子设备及存储介质。

背景技术

常规的显著性分割(salient object detection，SOD)指通过智能算法模拟人的视觉特点，提取图像中的显著区域(即人类感兴趣的区域)。显著性分割技术是深度学习、计算机视觉领域的研究热点，在机器视觉、智能交通、智慧医疗、智能创作等场景都具有重要的应用价值。将显著性分割功能部署到电子设备中，可以帮助用户在电子设备的相册里就能随时随地地抠取万物，并可以将抠图结果用于二次创作，这大大降低了抠图的难度和图片创作的门槛，激发用户的创作潜能和热情。

但是，SOD任务自带天然的歧义，例如：两张图像同样包括建筑，一张图像中的前景人物为主体对象，另一张图像中的建筑物为主体对象。这在模型学习的时候会引入混淆(为什么都是建筑物，在这张图像中就是主体对象，而在另一张图像中不是主体对象)，传统图像分割方法即使使用多尺度信息或是深度信息也无法克服歧义，导致模型训练很难达到理想的结果，分割主体对象残缺问题难以攻克。如此，电子设备分割图像中主体对象的完整性较低。

发明内容

本申请实施例的目的是提供一种图像分割方法、装置、电子设备及存储介质，能够提高电子设备分割图像中主体对象的完整性。

第一方面，本申请实施例提供了一种图像分割方法，该方法包括：基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数；基于第一图像的深度特征向量和第一注意力分数矩阵，得到第一注意力分数向量；基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

第二方面，本申请实施例提供了一种图像分割装置，该装置包括：获取模块和处理模块。获取模块，用于基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，该第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数。处理模块，用于基于第一图像的深度特征向量和获取模块获取的第一注意力分数矩阵，得到第一注意力分数向量。获取模块，用于基于处理模块处理得到的第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数；基于第一图像的深度特征向量和第一注意力分数矩阵，得到第一注意力分数向量；基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。在本方案中，由于第一文本用于描述第一图像的图像内容，因此，本申请通过将第一文本的全局文本特征和主语文本特征与第一图像的图像特征进行结合，能够将全局文本特征和主语文本特征融入第一注意力分数矩阵，从而将第一图像中的主体对象与其他区域区分。同时，通过将第一图像的深度特征融入第一注意力分数矩阵，能够更好的区分出第一图像中的主体对象，从而提高了电子设备分割图像中主体对象的完整性。

附图说明

图1是本申请实施例提供的一种图像分割方法的流程示意图之一；

图2是本申请实施例提供的一种图像分割方法的流程示意图之二；

图3为本申请实施例提供的一种热力图可视化图像特征的实例示意图之一；

图4为本申请实施例提供的一种热力图可视化图像特征的实例示意图之二；

图5是本申请实施例提供的一种图像分割方法的流程示意图之三；

图6为本申请实施例提供的一种热力图可视化图像特征的实例示意图之三；

图7是本申请实施例提供的一种图像分割方法的流程示意图之四；

图8是本申请实施例提供的一种图像分割装置的结构示意图；

图9是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图10是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像分割方法进行详细地说明。

本申请实施例中的图像分割方法可以应用于分割图像的场景。

在本申请实施例提供的图像分割方法、装置、电子设备及存储介质中，由于第一文本用于描述第一图像的图像内容，因此，本申请通过将第一文本的全局文本特征和主语文本特征与第一图像的图像特征进行结合，能够将全局文本特征和主语文本特征融入第一注意力分数矩阵，从而将第一图像中的主体对象与其他区域区分。同时，通过将第一图像的深度特征融入第一注意力分数矩阵，能够更好的区分出第一图像中的主体对象，从而提高了电子设备分割图像中主体对象的完整性。

本申请实施例提供的图像分割方法的执行主体可以为图像分割装置，该图像分割装置可以为电子设备，或电子设备中的功能模块或实体。以下以电子设备为例，对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种图像分割方法，图1示出了本申请实施例提供的一种图像分割方法的流程图，该方法可以由电子设备执行。如图1所示，本申请实施例提供的图像分割方法可以包括下述的步骤201和步骤202。

步骤201、电子设备基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵。

本申请的实施例中，上述第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数，第一注意力分数矩阵中的第一图像特征对应的第一注意力分数高于其他图像特征对应的第一注意力分数，第一图像特征与全局文本特征和主语文本特征相关联。

本申请的一些实施例中，上述第一图像可以为以下任一项：动物图像、人物图像、卧室图像、建筑图像等。本申请实施例对此不作限定。

本申请的一些实施例中，电子设备可以基于图像分割模型Image-Text-SOD-Net对第一图像中的主体对象进行分割，该Image-Text-SOD-Net包括四个部分：图片编码器模块、深度特征监督分支模块、文本特征监督分支模块、多模态特征融合模块。

本申请的一些实施例中，上述第一图像特征用于表征第一图像中的各个图像特征。

本申请的一些实施例中，电子设备可以将上述第一图像输入图片编码器模块中，经卷积、下采样卷积、全局池化、全连接层等组合处理，得到并输出上述第一图像特征向量。

本申请的一些实施例中，上述第一文本用于描述第一图像。

本申请的一些实施例中，电子设备可以使用开源的图片编码器得到第一图像的特征编码，然后将该特征编码输入图像开源大模型的解码器中，以输出第一图像对应的图像文字描述，即上述第一文本。

本申请的一些实施例中，上述第一文本的全局文本特征用于表征第一文本的以下至少一项：文本语义、文本结构、文本中的词语关系等。

本申请的一些实施例中，电子设备可以将上述第一文本输入文本特征监督分支模块，经过注意力机制、线性变换、输入激活函数以及向量加法和归一化等的基本组合处理，得到并输出上述第一文本的全局文本特征的特征向量。

本申请的一些实施例中，上述第一文本的主语文本特征为第一文本中的主语文本对应的文本特征。例如：第一文本为“一个人站在墙边”时，第一文本的主语文本为“一个人”。

本申请的一些实施例中，上述主语文本特征用于表征第一文本中的主语文本的以下至少一项：文本语义、文本结构、文本中的词语关系等。

本申请的一些实施例中，电子设备可以通过上述文本特征监督分支模块，对上述第一文本进行句法结构分析，拆分出第一文本中的主语文本；然后将该主语文本经过注意力机制、线性变换、输入激活函数以及向量加法和归一化等的基本组合处理，得到上述第一文本的主语文本特征的特征向量。

本申请的一些实施例中，电子设备可以通过多模态特征融合模块，对上述提取的第一图像特征向量、全局文本特征的特征向量、主语文本特征的特征向量和深度特征向量进行融合学习，以确定出第一图像中的主体对象。

本申请的一些实施例中，电子设备可以先基于上述第一图像特征向量、全局文本特征的特征向量和主语文本特征的特征向量进行交叉注意力计算，得到第一注意力分数矩阵。

本申请的一些实施例中，上述第一注意力分数矩阵中包含多个元素，每个元素为一个注意力分数，每个注意力分数对应一个图像特征。

本申请的一些实施例中，上述注意力分数用于表征每个图像特征在第一图像中的比重。

可以理解，由于电子设备将全局文本特征和主语文本特征与第一图像特征融合，所以第一图像中与全局文本特征和主语文本特征相关联的第一图像特征的注意力分数会高于其他图像特征的注意力分数。

本申请的一些实施例中，结合图1，如图2所示，上述步骤201具体可以通过下述的步骤201a和步骤201b实现。

步骤201a、电子设备基于第一图像特征向量和全局文本特征的特征向量进行交叉注意力计算，得到第二注意力分数矩阵。

本申请的实施例中，上述第二注意力分数矩阵包括每个图像特征对应的第二注意力分数，第二注意力分数矩阵中的第二图像特征对应的第二注意力分数高于其他图像特征对应的第二注意力分数，第二图像特征与全局文本特征相关联。

本申请的一些实施例中，电子设备可以通过全局文本特征的特征向量确定第二图像特征。

本申请的一些实施例中，电子设备可以将全局文本特征的特征向量作为Q(Query)、第一图像特征向量作为K(key)，V(value)；先将Q与K进行相乘，得到第一图像和全局文本特征间的注意力权重矩阵，再将该注意力权重矩阵作为权重与第一图像特征向量V相乘，得到上述第二注意力分数矩阵。

可以理解，在第一文本为“一个人站在一幅画旁边”时，基于第一文本的全局文本特征，第一图像中与“一个人”、“一幅画”对应的第二图像特征会得到更高的注意力分数，使得第二注意力分数矩阵中的第二图像特征对应的第二注意力分数高于其他图像特征对应的第二注意力分数，得以将“一个人”、“一幅画”与其它区域区分开。

举例说明，在第一文本为“一个人站在一幅画旁边”时，如图3所示，为使用热力图可视化全局文本特征和第一图像特征融合的结果，线条越密集的区域热度值越高，也是电子设备更关注的区域。

步骤201b、电子设备基于第二注意力分数矩阵和主语文本特征的特征向量进行交叉注意力计算，得到第一注意力分数矩阵。

本申请的一些实施例中，上述第一注意力分数矩阵中的第一图像特征对应的第一注意力分数高于第二注意力分数矩阵中的第二图像特征对应的第二注意力分数，第二注意力分数矩阵中的第二图像特征对应的第二注意力分数高于其他图像特征对应的第二注意力分数。

可以理解，由于在得到上述第二注意力分数矩阵后，将第二注意力分数矩阵又同主语文本特征的特征向量做了一次交叉注意力计算，因此在全局文本特征的基础上，与主语文本特征相关的图像特征能够得到更高的注意力分数。

本申请的一些实施例中，电子设备可以将上述第二注意力分数矩阵作为K、V，主语文本特征的特征向量作为Q，进行交叉注意力计算，得到新的融合主语文本特征的第一注意力分数矩阵。

举例说明，结合图3，如图4所示，为使用热力图可视化将主语文本特征融入第二注意力分数矩阵的结果，主语文本特征表征的区域得到了更高的关注度。可以理解，线条越密集的区域热度值越高，也是电子设备更关注的区域。

如此，由于主语文本往往表征和主体对象相关的部分，因此在得到上述第二注意力分数矩阵后，将第二注意力分数矩阵同主语文本特征的特征向量做一次交叉注意力计算，增加了主语文本特征的比重，从而提高了电子设备分割图像中主体对象的完整性。

步骤202、电子设备基于第一图像的深度特征向量和第一注意力分数矩阵，得到第一注意力分数向量。

可以理解，电子设备在结合上述第一图像特征向量、全局文本特征的特征向量和主语文本特征的特征向量，得到第一注意力分数矩阵后，可以进一步结合第一图像的深度特征向量，以增加第一图像中主体对象的关注度。

本申请的一些实施例中，结合图1，如图5所示，上述步骤202具体可以通过下述的步骤202a和步骤202b实现。

步骤202a、电子设备基于第一图像的深度特征向量和第一注意力分数矩阵进行交叉注意力计算，得到第三注意力分数矩阵。

本申请的一些实施例中，上述第三注意力分数矩阵包括每个图像特征对应的第三注意力分数，第三注意力分数矩阵中的第三图像特征对应的第三注意力分数高于其他图像特征对应的第一注意力分数，第三图像特征与深度特征相关联。

本申请的一些实施例中，电子设备可以通过开源的单目深度估计BoostingMonocularDepth算法，对第一图像进行处理，以得到取值范围为0-1的深度图。

本申请的一些实施例中，电子设备可以将上述获取到的深度图输入深度监督分支模块，经卷积、下采样卷积、全局池化、全连接层等组合处理后，得到上述深度特征向量。

本申请的一些实施例中，电子设备可以将第一注意力分数矩阵作为K、V，深度特征向量作为Q，进行交叉注意力计算，得到上述第三注意力分数矩阵。

本申请的一些实施例中，在基于第一图像的深度特征向量和第一注意力分数矩阵进行交叉注意力计算后，电子设备可以进一步增高深度特征对应的图像特征的注意力分数；或者，降低除深度特征向量对应的图像特征之外的图像特征的注意力分数，以增加第一图像中主体对象的关注度。

举例说明，结合图4，如图6所示，为使用热力图可视化将深度特征向量融入上述第一注意力分数矩阵的结果，区域11，即主体对象所在的区域的热度值最高；可以理解，线条越密集的区域热度值越高，也是电子设备更关注的区域。

步骤202b、电子设备将第三注意力分数矩阵进行矩阵重新排列，得到第一注意力分数向量。

可以理解，电子设备通过对第三注意力分数矩阵进行矩阵重新排列，可以使得第三注意力分数矩阵与第一图像处于一个维度，方便后续对主体对象进行分割。

如此，由于可以利用预训练大模型GPT2强大的图片理解能力获取文本描述，例如：两个男人在敲鼓，然后通过多模态特征之间的三次交叉注意力计算以及三个特征编码模块和融合模块的联合训练，将文本特征和深度特征与图像特征结合进行学习(即同时关注两个男人和鼓)，因此改善了传统SOD任务中主体歧义，附属物难以被分割出来，主体对象分割不完整的问题。

可以理解，如果仅仅是使用文本描述，例如：文本描述是“两个人站在一幅画旁边”，但是这个描述里并不都是画面主体，“画”并不算画面的前景，如果将画同人一起作为分割结果显然是不正确的。而如果仅使用深度特征，需要预测的深度达到很高的精度，否则对于分割效果的提升很有限。本申请通过同时结合文本特征和深度特征，从而提高了电子设备分割图像中主体对象的完整性。

步骤203、电子设备基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

本申请的一些实施例中，上述主体对象可以为以下任一项：人物、动物、建筑物、家具、乐器、植物等。本申请实施例对此不作限定。

本申请的一些实施例中，电子设备获取上述分割结果预测图后，可以通过连通域算法对分割结果预测图进行处理，得到N个连通域区域，然后计算每个连通域区域对应的分割结果内接框大小，将面积最大的连通域区域作为最终的主体对象的分割结果图，并将多余的连通域区域置0。

本申请的一些实施例中，结合图1，如图7所示，上述步骤203具体可以通过下述的步骤203a和步骤203b实现。

步骤203a、电子设备将第一注意力分数向量进行卷积、输入激活函数、归一化以及上采样卷积处理，得到第二注意力分数向量。

示例性地，上述卷积处理可以为3x3卷积。

可以理解，电子设备通过对第一注意力分数向量进行处理，得到第二注意力分数向量，可以使得第二注意力分数向量与第一图像大小维度相同，方便后续对主体对象进行分割。

步骤203b、电子设备基于第二注意力分数向量和第一图像进行向量相加和卷积处理，得到分割结果预测图。

本申请的一些实施例中，下面将通过步骤1)-步骤4)，详细描述电子设备得到主体对象对应的分割结果预测的过程；

1)电子设备可以将全局文本特征的特征向量[512,768]作为Q，第一图像特征向量[512,256]作为K，V，先通过Q与K之间的矩阵乘法得到第一图像和全局文本特征的注意力权重矩阵，再将该矩阵作为权重与第一图像特征向量[512,256]V相乘得到第二注意力分数矩阵[256,768]；

2)电子设备可以将1)计算所得的第二注意力分数矩阵[256,768]作为K、V，主语文本特征的特征向量[256,768]作为Q，计算交叉注意力，得到新的融合主语特征的第一注意力分数矩阵[256,256]；

3)电子设备可以将2)计算所得的第一注意力分数矩阵[256,256]作为K、V，深度特征向量[256,256]作Q，计算交叉注意力，得到新的融合深度特征的第三注意力分数矩阵，并进行矩阵重新排列，得到第一注意力分数向量[256,16,16]；

4)电子设备可以将3)计算所得的第一注意力分数向量[256,16,16]通过3x3卷积、输入激活函数、归一化以及上采样卷积的基本操作组合得到[16,512,512]，并和第一图像[3,512,512]进行矩阵相加操作，再通过3x3卷积输出最终的主体对象对应的分割结果预测图[1,512,512]。

如此，由于上述预训练大模型所提取的第一文本已经包含了图像对应的主体对象信息，所以只需要将其编码为对应的特征向量，通过上述步骤与深度特征、图像特征进行融合就能够得到各个图像特征的重要程度。相当于我们把原本的任务“找到图片的主体区域”简化为“找到与文本特征和深度特征相关的图像区域”，即将开源大模型的图像理解能力赋予了SOD分割任务，这样也就不存在主体歧义的问题了，从而提高了电子设备分割图像中主体对象的完整性。

本申请的一些实施例中，上述步骤203具体可以通过下述的步骤203c实现。

步骤203c、电子设备将第一注意力分数向量和第一图像输入图像分割模型，输出第一图像中的主体对象对应的分割结果预测图。

本申请的一些实施例中，电子设备可以将第一注意力分数向量和第一图像输入上述图像分割模型，以得到输出结果，即上述分割结果预测图。

本申请实施例提供的图像分割方法中，由于第一文本用于描述第一图像的图像内容，因此，本申请通过将第一文本的全局文本特征和主语文本特征与第一图像的图像特征进行结合，能够将全局文本特征和主语文本特征融入第一注意力分数矩阵，从而将第一图像中的主体对象与其他区域区分。同时，通过将第一图像的深度特征融入第一注意力分数矩阵，能够更好的区分出第一图像中的主体对象，从而提高了电子设备分割图像中主体对象的完整性。

本申请的一些实施例中，在上述步骤203之后，本申请实施例提供的图像分割方法还包括下述的步骤301至步骤303。

步骤301、电子设备获取训练样本图像对应的深度图、训练样本图像中的主体对象对应的分割结果预测图、训练样本图像对应的人工标注的主体对象标注图、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量以及训练样本图像对应文本的主语文本特征的特征向量。

本申请的一些实施例中，电子设备可以通过开源标注工具zoe-depth对训练样本图像进行标注，以得到训练样本图像对应的深度图。

本申请的一些实施例中，针对获取训练样本图像中的主体对象对应的分割结果预测图的详细步骤，可以参见上述实施例中获取第一图像中的主体对象对应的分割结果预测图的描述，此处不再赘述。

步骤302、电子设备基于深度图、分割结果预测图和主体对象标注图像、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量、训练样本图像对应文本的主语文本特征的特征向量，计算得到损失函数。

本申请的一些实施例中，电子设备可以通过以下步骤A1-步骤A4计算损失函数。

步骤A1、电子设备可以基于公式一计算上述深度特征向量和深度图间的最小化平方损失，即深度监督损失。

其中，N表示图像特征的元素数量256×256，d_pre_i为深度特征向量中第i个元素的值，d_gt_i为标注的深度图中第i个元素的值。

步骤A2、电子设备可以将全局文本特征的特征向量和图像特征向量转换为一维向量img和text；然后，基于公式二计算两个向量img和text之间的余弦相似度损失。

可以理解，通过余弦相似度损失的监督，可以监督模型学到更能表征图像语义信息的文本特征。

步骤A3、电子设备可以基于公式三计算分割损失Seg_loss。

seg_loss＝BCELoss(p,t)+αIOU_loss(p,t) 公式三

其中，α作为超参数在训练过程中学习；

示例性地，上述BCELoss(p,t)可以基于公式四计算得到；

其中，p表示预测值，即主体对象对应的分割结果预测图；t表示真实值，即人工标注的主体对象标注图；i表示样本的索引。通过对逐像素计算二分类loss，累加后求平均loss得到最终的BCELoss。

示例性地，上述IOU_loss(p,t)可以基于公式五和公式六计算得到；

IOU_loss(p,t)＝1-IOU(p,t) 公式六

其中，p表示预测值，t表示真实值，如果预测值和真实值完全重合，IOU的值为1；如果预测值和真实值没有重叠部分，IOU的值为0。

可以理解，我们采用bce loss+iou loss作为分割loss。因为仅使用bce loss对于主体分割的完整性监督不足(预测值只残缺一小部分对于bce loss影响不大，但主观影响大)，所以引入iou loss提升预测完整性。

步骤A4、电子设备可以基于公式七计算上述损失函数。

Loss＝Seg_loss+β*Depth_loss+γ*sim_loss 公式七

可以理解，若将loss直接相加得到的结果的值域可能存在数量级的差异，所以使用β、γ作为超参数对Depth_loss和sim_loss进行加权，使得3个loss处于同一个尺度。

步骤303、电子设备基于损失函数，训练图像分割模型。

本申请的一些实施例中，电子设备可以基于上述损失函数，对图像分割模型Image-Text-SOD-Net中的图片编码器模块、深度监督分支模块、文本特征监督分支模块和多模态特征融合模块进行联合训练，以更新Image-Text-SOD-Net中的权重参数。

如此，通过图像分割模型Image-Text-SOD-Net，多次交叉注意力计算，融合图像特征、全局文本特征、主语文本特征和深度特征，由此可以将图像主体描述和相关联区域的图像语义信息联系起来，同时结合深度信息避免了冗余的分割结果。通过多监督的损失函数将各特征编码模块和多模态特征融合模块联合起来训练，加强了模型对于各个特征之间相关性的学习。

可以理解，在模型设计方面，本申请利用预训练大模型超强的图片理解能力得到包含主体对象的图像描述，并创新性地将其作为文本特征引入到SOD显著性分割的模型结构中，与深度特征和图像特征相结合。这种基于多模态特征的方法相较于传统的SOD深度学习方法，有效地解决了主体对象定义的天然歧义所造成的模型训练混淆难以达到高精度分割效果的问题。高精度的通用SOD能力为图像和视频编辑等功能提供了坚实的支撑。

本申请的一些实施例中，由于在以往的SOD任务中通常会采用有ground truth标注的开源SOD数据集，将原始图像输入到神经网络模型，并输出分割mask的方法。但是，该方法目前还存在以下问题：1)高质量公开数据集有限，仅使用开源数据训练的模型往往泛化性能差，无法在复杂的用户场景稳定表现；2)开发者补充的训练数据，往往难以保证质量。这源于SOD人工精确标注的复杂和低效。3)人工标注无法保证对显著性主体定义一致，受主观影响，标注标准的难以统一会混淆模型的学习，导致训练效果难以达到预期。因此，本申请提出一种新的训练数据集构建策略。

本申请的一些实施例中，电子设备可以通过以下步骤B1-步骤B4获取上述训练样本图像。

步骤B1、电子设备从开源数据集(OpenImage Data，OID)中抽取数据。

示例性地，OID数据集类别共600类，按照每类数量分为高频类别(0-300，以人、动物、室内配饰为主)和低频类别(300-600类，以物品器件为主)。为保证训练数据平衡，针对高频类0-100，每类抽取训练样本图像数量3000，100-200，每类抽取训练样本图像数量抽取2000，200类之后的较低频数据则不再抽样，直接使用全量数据。

步骤B2、电子设备采用clipdrop开源调用接口自动对上述抽取的数据的主体对象进行标注，在标注后，通过人工数据筛选的方式清理出标注正确、主体对象清晰的数据。

步骤B3、电子设备使用开源数据集上的分割大模型self-reformer、U2Net同上述clipdrop的标注结果计算Iou值。

本申请的一些实施例中，针对训练数据策略，本申请采用“大模型投票”的难例挖掘(hard negative mining)的思路，使用开源数据集上表现优异的分割大模型self-reformer、U2Net同clipdrop标注结果计算Iou值。

步骤B4、针对Iou值大于第一阈值的数据，电子设备可以作为最终的训练样本图像，加入图像分割模型进行训练；针对Iou值小于或等于第一阈值的数据，电子设备可以分批加入图像分割模型进行训练。

可以理解，Iou值大于第一阈值，说明大模型的分割结果倾向一致，即对主体对象定义认知趋于一致。Iou值大于第一阈值的数据属于主体明确，定义清晰的简单数据，可直接加入模型训练。而Iou值小于或等于第一阈值的数据属于难例数据，根据模型在测试集上的表现及iou分布再逐步添加难例数据精调。

如此，由于在训练数据集构建和标注阶段，采用“大模型投票”的方式，结合多个大模型标注结果，筛选出对齐主体认知，降低主体歧义的标注数据，大大解决了标注过程中主体定义歧义的问题；同时结合难例挖掘的思路，根据大模型投票结果划分出难例数据，采用分批次加入训练精调的策略，优化数据不平衡所带来的困难场景难以覆盖的问题，提升模型的泛化性能。

需要说明的是，本申请实施例提供的图像分割方法，执行主体可以为图像分割装置。本申请实施例中以图像分割装置执行图像分割方法为例，说明本申请实施例提供的图像分割装置。

图8示出了本申请实施例中涉及的图像分割装置的一种可能的结构示意图。如图8所示，该图像分割装置70可以包括：获取模块71和处理模块72。

其中，获取模块71，用于基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，该第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数。处理模块72，用于基于第一图像的深度特征向量和获取模块71获取的第一注意力分数矩阵，得到第一注意力分数向量。获取模块71，还用于基于处理模块72处理得到的第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

本申请实施例提供一种图像分割装置，由于第一文本用于描述第一图像的图像内容，因此，本申请通过将第一文本的全局文本特征和主语文本特征与第一图像的图像特征进行结合，能够将全局文本特征和主语文本特征融入第一注意力分数矩阵，从而将第一图像中的主体对象与其他区域区分。同时，通过将第一图像的深度特征融入第一注意力分数矩阵，能够更好的区分出第一图像中的主体对象，从而提高了图像分割装置分割图像中主体对象的完整性。

在一种可能的实现方式中，上述获取模块71，具体用于基于第一图像特征向量和全局文本特征的特征向量进行交叉注意力计算，得到第二注意力分数矩阵，第二注意力分数矩阵包括每个图像特征对应的第二注意力分数；并基于第二注意力分数矩阵和主语文本特征的特征向量进行交叉注意力计算，得到第一注意力分数矩阵。

在一种可能的实现方式中，上述处理模块72，具体用于基于第一图像的深度特征向量和第一注意力分数矩阵进行交叉注意力计算，得到第三注意力分数矩阵，第三注意力分数矩阵包括每个图像特征对应的第三注意力分数；并将第三注意力分数矩阵进行矩阵重新排列，得到第一注意力分数向量。

在一种可能的实现方式中，上述处理模块72，还用于将第一注意力分数向量进行卷积、输入激活函数、归一化以及上采样卷积处理，得到第二注意力分数向量。上述获取模块71，具体用于基于上述处理模块72处理得到的第二注意力分数向量和第一图像进行向量相加和卷积处理，得到分割结果预测图。

在一种可能的实现方式中，本申请实施例提供的图像分割装置70还包括：计算模块和训练模块。上述获取模块71，具体用于将第一注意力分数向量和第一图像输入图像分割模型，输出第一图像中的主体对象对应的分割结果预测图。上述获取模块71，还用于在基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图之后，获取训练样本图像对应的深度图、训练样本图像中的主体对象对应的分割结果预测图、训练样本图像对应的人工标注的主体对象标注图、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量以及训练样本图像对应文本的主语文本特征的特征向量。上述计算模块，用于基于上述获取模块71获取的深度图、分割结果预测图和主体对象标注图像、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量、训练样本图像对应文本的主语文本特征的特征向量，计算得到损失函数。上述训练模块，用于基于上述计算模块计算得到的损失函数，训练图像分割模型。

本申请实施例中的图像分割装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(Augmented Reality，AR)/虚拟现实(VirtualReality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(Ultra-Mobile PersonalComputer，UMPC)、上网本或者个人数字助理(Personal Digital Assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(PersonalComputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的图像分割装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为iOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的图像分割装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901和存储器902，存储器902上存储有可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，用于基于第一图像的第一图像特征向量以及第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，该第一注意力分数矩阵包括第一图像中的每个图像特征对应的第一注意力分数；并基于第一图像的深度特征向量和第一注意力分数矩阵，得到第一注意力分数向量；以及基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图。

本申请实施例提供一种电子设备，由于第一文本用于描述第一图像的图像内容，因此，本申请通过将第一文本的全局文本特征和主语文本特征与第一图像的图像特征进行结合，能够将全局文本特征和主语文本特征融入第一注意力分数矩阵，从而将第一图像中的主体对象与其他区域区分。同时，通过将第一图像的深度特征融入第一注意力分数矩阵，能够更好的区分出第一图像中的主体对象，从而提高了电子设备分割图像中主体对象的完整性。

本申请的一些实施例中，处理器110，具体用于基于第一图像特征向量和全局文本特征的特征向量进行交叉注意力计算，得到第二注意力分数矩阵，第二注意力分数矩阵包括每个图像特征对应的第二注意力分数；并基于第二注意力分数矩阵和主语文本特征的特征向量进行交叉注意力计算，得到第一注意力分数矩阵。

本申请的一些实施例中，处理器110，具体用于基于第一图像的深度特征向量和第一注意力分数矩阵进行交叉注意力计算，得到第三注意力分数矩阵，第三注意力分数矩阵包括每个图像特征对应的第三注意力分数；并将第三注意力分数矩阵进行矩阵重新排列，得到第一注意力分数向量。

本申请的一些实施例中，处理器110，具体用于将第一注意力分数向量进行卷积、输入激活函数、归一化以及上采样卷积处理，得到第二注意力分数向量；并基于第二注意力分数向量和第一图像进行向量相加和卷积处理，得到分割结果预测图。

本申请的一些实施例中，处理器110，具体用于将第一注意力分数向量和第一图像输入图像分割模型，输出第一图像中的主体对象对应的分割结果预测图。

处理器110，还用于在基于第一注意力分数向量和第一图像，获取第一图像中的主体对象对应的分割结果预测图之后，获取训练样本图像对应的深度图、训练样本图像中的主体对象对应的分割结果预测图、训练样本图像对应的人工标注的主体对象标注图、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量以及训练样本图像对应文本的主语文本特征的特征向量；并基于深度图、分割结果预测图和主体对象标注图像、训练样本图像的图像特征向量、训练样本图像的深度特征向量、训练样本图像对应文本的全局文本特征的特征向量、训练样本图像对应文本的主语文本特征的特征向量，计算得到损失函数；以及基于损失函数，训练图像分割模型。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像分割方法，其特征在于，所述方法包括：

基于第一图像的第一图像特征向量以及所述第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，所述第一注意力分数矩阵包括所述第一图像中的每个图像特征对应的第一注意力分数；

基于所述第一图像的深度特征向量和所述第一注意力分数矩阵，得到第一注意力分数向量；

基于所述第一注意力分数向量和所述第一图像，获取所述第一图像中的主体对象对应的分割结果预测图。

2.根据权利要求1所述的方法，其特征在于，所述基于第一图像的第一图像特征向量以及所述第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，包括：

基于所述第一图像特征向量和所述全局文本特征的特征向量进行交叉注意力计算，得到第二注意力分数矩阵，所述第二注意力分数矩阵包括所述每个图像特征对应的第二注意力分数；

基于所述第二注意力分数矩阵和所述主语文本特征的特征向量进行交叉注意力计算，得到所述第一注意力分数矩阵。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一图像的深度特征向量和所述第一注意力分数矩阵，得到第一注意力分数向量，包括：

基于所述第一图像的深度特征向量和所述第一注意力分数矩阵进行交叉注意力计算，得到第三注意力分数矩阵，所述第三注意力分数矩阵包括所述每个图像特征对应的第三注意力分数；

将所述第三注意力分数矩阵进行矩阵重新排列，得到所述第一注意力分数向量。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述第一注意力分数向量和所述第一图像，获取所述第一图像中的主体对象对应的分割结果预测图，包括：

将所述第一注意力分数向量进行卷积、输入激活函数、归一化以及上采样卷积处理，得到第二注意力分数向量；

基于所述第二注意力分数向量和所述第一图像进行向量相加和卷积处理，得到所述分割结果预测图。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一注意力分数向量和所述第一图像，获取所述第一图像中的主体对象对应的分割结果预测图，包括：

将所述第一注意力分数向量和所述第一图像输入图像分割模型，输出所述第一图像中的主体对象对应的分割结果预测图。

6.一种图像分割装置，其特征在于，所述装置包括：获取模块和处理模块；

所述获取模块，用于基于第一图像的第一图像特征向量以及所述第一图像对应的第一文本的全局文本特征的特征向量和主语文本特征的特征向量，获取第一注意力分数矩阵，所述第一注意力分数矩阵包括所述第一图像中的每个图像特征对应的第一注意力分数；

所述处理模块，用于基于所述第一图像的深度特征向量和所述获取模块获取的所述第一注意力分数矩阵，得到第一注意力分数向量；

所述获取模块，还用于基于所述处理模块处理得到的所述第一注意力分数向量和所述第一图像，获取所述第一图像中的主体对象对应的分割结果预测图。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于基于所述第一图像特征向量和所述全局文本特征的特征向量进行交叉注意力计算，得到第二注意力分数矩阵，所述第二注意力分数矩阵包括所述每个图像特征对应的第二注意力分数；并基于所述第二注意力分数矩阵和所述主语文本特征的特征向量进行交叉注意力计算，得到所述第一注意力分数矩阵。

8.根据权利要求6所述的装置，其特征在于，所述处理模块，具体用于基于所述第一图像的深度特征向量和所述第一注意力分数矩阵进行交叉注意力计算，得到第三注意力分数矩阵，所述第三注意力分数矩阵包括所述每个图像特征对应的第三注意力分数；并将所述第三注意力分数矩阵进行矩阵重新排列，得到所述第一注意力分数向量。

9.根据权利要求6至8中任一项所述的装置，其特征在于，

所述处理模块，还用于将所述第一注意力分数向量进行卷积、输入激活函数、归一化以及上采样卷积处理，得到第二注意力分数向量；

所述获取模块，具体用于基于所述处理模块处理得到的所述第二注意力分数向量和所述第一图像进行向量相加和卷积处理，得到所述分割结果预测图。

10.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于将所述第一注意力分数向量和所述第一图像输入图像分割模型，输出所述第一图像中的主体对象对应的分割结果预测图。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的图像分割方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的图像分割方法的步骤。