CN113592881A

CN113592881A - 图片指代性分割方法、装置、计算机设备和存储介质

Info

Publication number: CN113592881A
Application number: CN202110887773.6A
Authority: CN
Inventors: 黄仕嘉; 刘枢; 吕江波; 沈小勇; 贾佳亚
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-02
Anticipated expiration: 2041-08-03
Also published as: CN113592881B

Abstract

本申请涉及一种图片指代性分割方法、装置、计算机设备和存储介质。所述方法包括：获取待分割图片，以及针对于待分割图片的语言表达式；语言表达式用于描述待分割图片的分割区域；将待分割图片以及语言表达式输入训练完成的图片分割模型，通过图片分割模型确定待分割图片的视觉特征，以及语言表达式的语言特征，对视觉特征和语言特征进行特征融合，得到多模态特征，以及根据多模态特征获取待分割图片中的初始分割区域，根据初始分割区域以及视觉特征，得到实例感知特征；根据多模态特征以及实例感知特征确定待分割图片的目标分割区域，获取待分割图片中位于目标分割区域的分割图片。采用本方法能够提高图片指代性分割的分割精度。

Description

图片指代性分割方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图片指代性分割方法、装置、计算机设备和存储介质。

背景技术

随着图像处理技术的发展，出现了一种图像指代性分割的技术，通过给定一张图片和一个自然语言表达式，分割出图片中与自然语言描述相匹配的图片对象，可以应用于基于语言的图像编辑、人机交互等技术中。

目前，图片指代性分割方法可以通过确定图片空间上每一个像素点的视觉特征是否与语言特征相匹配，从而生成最后的图片分割结果实现。然而，上述图片指代性分割技术忽略了分割任务的内在性质，个体内部的区域常常无法全部和语言特征相匹配，导致最终生成的图片分割结果是残缺的，因此现有的图片指代性分割的分割精度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种图片指代性分割方法、装置、计算机设备和存储介质。

一种图片指代性分割方法，所述方法包括：

获取待分割图片，以及针对于所述待分割图片的语言表达式；所述语言表达式用于描述所述待分割图片的分割区域；

将所述待分割图片以及所述语言表达式输入训练完成的图片分割模型，通过所述图片分割模型确定所述待分割图片的视觉特征，以及所述语言表达式的语言特征，对所述视觉特征和所述语言特征进行特征融合，得到针对所述待分割图片的多模态特征，以及根据所述待分割图片的多模态特征获取所述待分割图片中的初始分割区域，根据所述初始分割区域以及所述视觉特征，得到针对所述待分割图片的实例感知特征；

根据所述多模态特征以及所述实例感知特征确定所述待分割图片的目标分割区域，获取所述待分割图片中位于所述目标分割区域的分割图片。

在其中一个实施例中，所述确定所述待分割图片的视觉特征，包括：通过视觉特征提取器获取所述待分割图片不同特征提取阶段得到的多组视觉特征；所述对所述视觉特征和所述语言特征进行特征融合，得到针对所述待分割图片的多模态特征，包括：对各特征提取阶段得到的视觉特征分别和所述语言特征进行特征融合，得到所述各特征提取阶段分别对应的多模态特征；将所述各特征提取阶段分别对应的多模态特征进行融合，得到所述待分割图片的多模态特征。

在其中一个实施例中，所述待分割图片的多模态特征包括所述待分割图片中各像素点的多模态特征；所述根据所述待分割图片的多模态特征获取所述待分割图片中的初始分割区域，包括：将所述待分割图片中各像素点的多模态特征输入预设的卷积神经网络，通过所述卷积神经网络获取所述待分割图片中各像素点属于所述分割区域的概率；根据所述概率从所述待分割图片的像素点中确定出目标像素点，将所述目标像素点对应的图片区域作为所述初始分割区域。

在其中一个实施例中，所述根据所述初始分割区域以及所述视觉特征，得到针对所述待分割图片的实例感知特征，包括：获取所述待分割图片中各像素点在不同特征提取阶段得到的多组子视觉特征；根据所述各像素点的多组子视觉特征，以及所述各像素点属于所述分割区域的概率，获取所述待分割图片对应的实例内核；基于所述实例内核获取所述实例感知特征。

在其中一个实施例中，根据所述各像素点的多组子视觉特征，以及所述各像素点属于所述分割区域的概率，获取所述待分割图片对应的实例内核，包括：通过特征金字塔，获取所述多组子视觉特征对应的多组视觉增强特征，利用所述多组视觉增强特征生成针对于所述待分割图片的内核权重矩阵；基于所述内核权重矩阵，以及所述待分割图片中各像素点属于所述分割区域的概率，得到所述实例内核。

在其中一个实施例中，所述基于所述实例内核获取所述实例感知特征，包括：利用预设的卷积层对所述多组视觉增强特征进行堆叠，生成编码特征映射矩阵；根据所述实例内核以及所述编码特征映射矩阵，得到所述实例感知特征。

在其中一个实施例中，所述将所述待分割图片以及所述语言表达式输入训练完成的图片分割模型之前，还包括：获取样本图片，样本语言表达式，以及所述样本图片对应的标注图片区域；所述标注图片区域为所述样本图片中，由所述样本语言表达式表征的图片区域；将所述样本图片与所述样本语言表达式输入待训练的图片分割模型，通过所述待训练的图片分割模型获取针对于所述样本图片的样本多模态特征以及样本实例感知特征；根据所述样本多模态特征获取第一图片区域，根据所述样本实例感知特征获取第二图片区域，以及根据所述样本多模态特征以及所述样本实例感知特征获取第三图片区域；基于所述标注图片区域，分别获取所述第一图片区域、所述第二图片区域以及所述第三图片区域对应的第一损失、第二损失以及第三损失；利用所述第一损失、第二损失以及第三损失，对待训练的图片分割模型进行训练，得到所述训练完成的图片分割模型。

一种图片指代性分割装置，所述装置包括：

图片获取模块，用于获取待分割图片，以及针对于所述待分割图片的语言表达式；所述语言表达式用于描述所述待分割图片的分割区域；

特征提取模块，用于将所述待分割图片以及所述语言表达式输入训练完成的图片分割模型，通过所述图片分割模型确定所述待分割图片的视觉特征，以及所述语言表达式的语言特征，对所述视觉特征和所述语言特征进行特征融合，得到针对所述待分割图片的多模态特征，以及根据所述待分割图片的多模态特征获取所述待分割图片中的初始分割区域，根据所述初始分割区域以及所述视觉特征，得到针对所述待分割图片的实例感知特征；

图片分割模块，用于根据所述多模态特征以及所述实例感知特征确定所述待分割图片的目标分割区域，获取所述待分割图片中位于所述目标分割区域的分割图片。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述图片指代性分割方法、装置、计算机设备和存储介质，获取待分割图片，以及针对于待分割图片的语言表达式；语言表达式用于描述待分割图片的分割区域；将待分割图片以及语言表达式输入训练完成的图片分割模型，通过图片分割模型确定待分割图片的视觉特征，以及语言表达式的语言特征，对视觉特征和语言特征进行特征融合，得到针对待分割图片的多模态特征，以及根据待分割图片的多模态特征获取待分割图片中的初始分割区域，根据初始分割区域以及视觉特征，得到针对待分割图片的实例感知特征；根据多模态特征以及实例感知特征确定待分割图片的目标分割区域，获取待分割图片中位于目标分割区域的分割图片。本申请通过训练完成图片分割模型可以对待分割图片的视觉特征，以及语言表达式的语言特征进行融合得到多模态特征，并且可以基于视觉特征与通过多模态特征得到的初始分割区域确定出实例感知特征，并同时基于多模态特征和实例感知特征得到需要分割的目标分割区域，相比于现有技术直接通过视觉特征和语音特征匹配的多模态特征的方式进行图像分割，本申请进一步引入了由视觉特征得到的实例感知特征，可以进一步从视觉角度发掘分割区域，以找出现有多模态特征遗漏的结果，进而提高了图片指代性分割的分割精度。

附图说明

图1为一个实施例中图片指代性分割方法的流程示意图；

图2为一个实施例中由多模态特征与实例感知特征得到分割图片的原理图；

图3为一个实施例中得到待分割图片的多模态特征的流程示意图；

图4为一个实施例中得到待分割图片的实例感知特征的流程示意图；

图5为一个实施例中训练图片分割模型的流程示意图；

图6为一个应用实例中指代性分割模型的整体框架图；

图7为一个应用实例中不同的内核生成方法的示意图；

图8为一个应用实例中图片分割结果对比示意图；

图9为另一个应用实例中图片分割结果对比示意图；

图10为一个实施例中图片指代性分割装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种图片指代性分割方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S101，终端获取待分割图片，以及针对于待分割图片的语言表达式；语言表达式用于描述待分割图片的分割区域。

待分割图片指的是需要进行指代性分割的图片，该图片可以包括多个图片区域，当用户需要通过对某个区域进行分割时，则可以通过向终端输入用于描述该分割区域特征的语言表达式。例如某个待分割图片包括图片区域A、图片区域B以及图片区域C，当用户需要得到只针对某一个区域，例如图片区域A的分割图片时，可以将待分割图片录入终端，以及将用于描述图片区域A的语言表达式录入终端，终端则可以根据录入的语言表达式，找到该语言表达式对应的图片区域，即图片区域A作为分割区域，从而得到图片区域A对应的区域图片。

步骤S102，终端将待分割图片以及语言表达式输入训练完成的图片分割模型，通过图片分割模型确定所述待分割图片的视觉特征，以及语言表达式的语言特征，对视觉特征和语言特征进行特征融合，得到针对待分割图片的多模态特征，以及根据待分割图片的多模态特征获取待分割图片中的初始分割区域，根据初始分割区域以及视觉特征，得到针对待分割图片的实例感知特征。

其中，视觉特征指的是有训练完成的图片分割模型对输入的待分割图片进行特征提取，得到的图片特征，用于表示待分割图片的图片特点，而语言特征则指的是语言表达式对应的语义特征，用于表示输入的语言表达式语义，多模态特征则是由对图片分割模型对得到的视觉特征和语言特征进行特征融合后得到的特征，用于表示指代感知信息，而实例感知特征则是直接通过视觉特征得到的分割区域中的图像特征，即表征通过视觉角度直接确定出分割区域的实例感知信息。

具体来说，终端可以将待分割图像以及语言表达式输入训练完成的图片分割模型，由图像分割模型分别对待分割图片以及语言表达式，分别得到视觉特征和语言特征，并且可以通过模型中的不同分支，分别得到用于表征指代感知信息的多模态特征，以及用于表征实例感知信息的实例感知特征。其中，多模态特征是由图片分割模型对视觉特征和语言特征进行特征融合得到，而实例感知特征则是在得到多模态特征后，通过多模态特征找出一个粗定位的初始图像区域，并配合提取出的视觉特征所得到。

步骤S103，终端根据多模态特征以及实例感知特征确定待分割图片的目标分割区域，获取待分割图片中位于目标分割区域的分割图片。

目标分割区域指的是由多模态特征以及实例感知特征确定出的针对待分割图片的分割区域。具体来说，终端在得到多模态特征以及实例感知特征后，则可以对多模态特征以及实例感知特征进行聚合，从而根据聚合后的特征确定出片的目标分割区域，并将待分割图片中位于目标分割区域部分的图片作为分割图片。

如图2所示，输入的待分割图片包括在水中的两只熊，以及陆地上的鸟，如果用户需要提取出位于画面中间的那只熊的区域图像时，则可以通过输入bear in the middle作为用于描述待分割图片的分割区域的语言表达式，以告知终端提取出位于画面中间的那只熊的区域图像。之后终端则可以通过图像分割模型，提取出待分割图片的视觉特征以及语言表达式的语言特征，并且通过第一个分支对视觉特征和语言特征进行融合，得到用于表征指代感知信息的多模态特征，生成粗定位的初始分割区域，可以看出在初始分割区域中，熊的图像有部分缺失，因此还可以通过图像分割模型的第二个分支，利用初始分割区域以及视觉特征，得到用于表征实例感知信息的实例感知特征，从而可以结合实例感知特征与多模态特征，确定出目标分割区域，可以看出相比于初始分割区域，目标分割区域的图像熊的完整度更高，因此通过目标分割区域分割出放入分割图像也可以具有更高的图像完整度，图像分割精度更高。

上述图片指代性分割方法中，获取待分割图片，以及针对于待分割图片的语言表达式；语言表达式用于描述待分割图片的分割区域；将待分割图片以及语言表达式输入训练完成的图片分割模型，通过图片分割模型确定待分割图片的视觉特征，以及语言表达式的语言特征，对视觉特征和语言特征进行特征融合，得到针对待分割图片的多模态特征，以及根据待分割图片的多模态特征获取待分割图片中的初始分割区域，根据初始分割区域以及视觉特征，得到针对待分割图片的实例感知特征；根据多模态特征以及实例感知特征确定待分割图片的目标分割区域，获取待分割图片中位于目标分割区域的分割图片。本申请通过训练完成图片分割模型可以对待分割图片的视觉特征，以及语言表达式的语言特征进行融合得到多模态特征，并且可以基于视觉特征与通过多模态特征得到的初始分割区域确定出实例感知特征，并同时基于多模态特征和实例感知特征得到需要分割的目标分割区域，相比于现有技术直接通过视觉特征和语音特征匹配的多模态特征的方式进行图像分割，本申请进一步引入了由视觉特征得到的实例感知特征，可以进一步从视觉角度发掘分割区域，以找出现有多模态特征遗漏的结果，进而提高了图片指代性分割的分割精度。

在一个实施例中，如图3所示，步骤S202可以进一步包括：

步骤S301，图片分割模型通过视觉特征提取器获取待分割图片不同特征提取阶段得到的多组视觉特征。

其中，视觉特征提取器是预先设置在训练完成的图片分割模型中，用于提取待分割图片的视觉特征的特征提取器，该特征提取器可以是ResNet-101，该特征提取器可以包括多个特征提取阶段，即提取出的视觉特征可以包括浅层视觉特征以及深层视觉特征，本申请可以通过特征提取器分别获取待分割图片中不同特征提取阶段得到的视觉特征，从而得到多组视觉特征。

例如，可以将ResNet-101的最后三个特征提取阶段得到的针对于待分割图片视觉特征，作为上述多组视觉特征，分别记为

和

步骤S302，图片分割模型对各特征提取阶段得到的视觉特征分别和语言特征进行特征融合，得到各特征提取阶段分别对应的多模态特征。

之后，图片分割模型则可以将步骤S301中得到的不同特征提取阶段对应的多组视觉特征进行特征融合，从而得到不同特征提取阶段分别对应的多模态特征。可通过如下公式进行计算：

其中，g表示Leaky ReLU，⊙表示逐元素乘积，W_vi和W_t是两个转换矩阵，用于将视觉和文本特征转换为相同的特征维度，f_text是语言特征，

和

是

和

的特征向量，

表示不同特征提取阶段的视觉特征，

表示不同特征提取阶段分别对应的多模态特征。

步骤S303，图片分割模型将各特征提取阶段分别对应的多模态特征进行融合，得到待分割图片的多模态特征。

由于语言特征与浅层视觉特征的特征融合有助于产生高分辨率的多模态特征，而与更深层次的视觉特征融合则可以融合更多抽象信息，因此可以通过对特征提取阶段分别对应的多模态特征进行融合，以生成更好的针对于待分割图片的多模态特征。具体可通过如下公式进行计算：

其中，Upsample表示2倍上采样插值，Conv表示3x3的卷积，Cat表示沿channel维度的串联操作。最后，我们使用

并应用3x3卷积来获得输出待分割图片的多模态特征F_ref。

进一步地，待分割图片的多模态特征包括待分割图片中各像素点的多模态特征；步骤S202可以进一步包括：图片分割模型将待分割图片中各像素点的多模态特征输入预设的卷积神经网络，通过卷积神经网络获取待分割图片中各像素点属于分割区域的概率；根据概率从待分割图片的像素点中确定出目标像素点，将目标像素点对应的图片区域作为初始分割区域。

本实施例中，待分割图片可以由多个位于不同图片位置的像素点所组成，每一个像素点都可以对应有一个相应的多模态特征，从而组成该待分割图片的多模态特征。卷积神经网络则可以是一个3x3的卷积，输出的通道数为1的卷积神经网络模型，可以通过输入各像素点所对应的多模态特征，输出每一个像素点属于语言表达式所描述的图像分割区域的概率，该模型可以通过输出每一个位于图片中的像素点属于该图像分割区域的概率，从而找出位于该图像分割区域内的像素点，即目标像素点，进而形成初始分割区域。

具体来说，可以通过如下计算公式得到各像素点属于分割区域的概率：

P_loc＝Conv(F_ref)

其中，Conv是一个3x3的卷积，输出的通道数为1的卷积神经网络，P_loc表征图片中每一个位置的像素点属于分割区域的概率，用于表征初始分割区域，而F_ref则表示待分割图片中各像素点的多模态特征。

进一步地，如图4所示，步骤S202可以进一步包括：

步骤S401，图片分割模型获取待分割图片中各像素点在不同特征提取阶段得到的多组子视觉特征。

由于组成待分割图片的每一个像素点都对应有一个多模态特征，因此在图片分割模型通过视觉特征提取器得到待分割图片不同特征提取阶段的多组视觉特征的同时，也可以得到每一个像素点不同特征提取阶段的多组视觉特征，作为多组子视觉特征。

步骤S402，图片分割模型根据各像素点的多组子视觉特征，以及各像素点属于分割区域的概率，获取待分割图片对应的实例内核；

步骤S403，图片分割模型根据实例内核以及编码特征映射矩阵，得到实例感知特征。

其中，实例内核可以指的是利用待分割图片的视觉信息，提供的用于过滤待分割图片中除分割区域以外的其他区域的视觉特征的内核，通过各像素点的多组子视觉特征，筛选出包含该分割区域并过滤掉其他区域的特征的内核，作为实例内核，并进一步基于确定出的实例内核，捕获实例感知信息，从而提供了关于图像的每个像素是否属于分割区域的更精确的信息。

进一步地，步骤S402可以进一步包括：图片分割模型通过特征金字塔，获取多组子视觉特征对应的多组视觉增强特征，利用多组视觉增强特征生成针对于待分割图片的内核权重矩阵；基于内核权重矩阵，以及待分割图片中各像素点属于分割区域的概率，得到实例内核。

多组视觉增强特征可以是图片分割模型按照特征金字塔的形式，融合步骤S401中得到的每一个像素点在不同特征提取阶段得到的多组子视觉特征，从而得到的特征，例如，多组子视觉特征可以通过

和

表示，而通过特征金字塔得到的多组视觉增强特征则可以通过

和

表示。通过使用特征金字塔，浅层特征可以同时具有深层语义信息和高分辨率。而为了产生实例内核，则可以首先基于得到的视觉增强特征，生成该待分割图片的内核权重矩阵F_k。例如可以是利用

通过三个卷积层的叠加来生成，以保证生成的内核权重矩阵F_k与表征初始分割区域的P_loc具有相同的分辨率。

之后，则可以利用得到的内核权重矩阵F_k，以及用于表征初始分割区域的待分割图片中各像素点属于分割区域的概率，即各像素点对应的P_loc生成相应的实例内核。具体来说，可以通过如下计算公式得到实例内核K：

其中，F_k[i][j]表示在内核权重矩阵F_k中在位置(i,j)处的内核权重向量，P_loc[i][j]则表示位置(i,j)处的像素点所对应的分数，该分数可以是通过对P_loc应用Softmax得到，从而使得内核K包含目标实例丰富的视觉信息并过滤掉其他实例的特征，并且Softmax可以使高置信度区域贡献更多的实例信息，从而提高生成的内核的鲁棒性。

另外，步骤S403可以进一步包括：图片分割模型利用预设的卷积层对多组视觉增强特征进行堆叠，生成编码特征映射矩阵；根据实例内核以及编码特征映射矩阵，得到实例感知特征。

编码特征映射矩阵则是为了提供与实例无关的特征，与内核权重矩阵F_k类似，编码特征映射矩阵也可以是仅基于视觉特征，通过预设卷积层堆叠而成，该卷积层可以由三个卷积层组成。图片分割模型得到编码特征映射矩阵后，则可以利用生成的实例内核，以及得到的编码特征映射矩阵，确定出相应的实例感知特征，可通过如下公式表示：

F_inst＝K⊙F_e

其中，F_inst表示实例感知特征，K表示实例内核，而F_e则表示编码特征映射矩阵，⊙为逐元素相乘。

上述实施例中，图片分割模型，可以分别基于视觉特征和语言特征，得到指代感知特征，即多模态特征，以及利用视觉特征，得到相应的实例感知特征，可以提高分割区域确定的准确性。其中，多模态特征由各特征提取阶段得到的视觉特征分别和语言特征进行特征融合得到，从而可以提高多模态特征的分辨率，而实例感知特征的获取则是基于生成的实例内核与编码特征映射矩阵得到，并且实例内核可以是利用特征金字塔处理后得到的视觉增强特征生成的内核权重矩阵得到，可以保证实例感知特征获取的准确性，从而提高目标分割区域确定的准确性。

在一个实施例中，如图5所示，步骤S202之前，还可以包括：

步骤S501，终端获取样本图片，样本语言表达式，以及样本图片对应的标注图片区域；标注图片区域为所述样本图片中，由样本语言表达式表征的图片区域。

其中，样本图片指的是预先采集的用于训练图像分割模型的图片，而样本语言表达式则指的是用于对样本图片进行区域分割的语言表达式，用于描述该样本图片对应的分割区域，即标注图片区域。具体来说，用户可以预先得到样本图片以及样本语言表达式，并利用样本语言表达式确定出样本图片中与样本语言表达式匹配的图片区域，从而利用确定出图片区域对样本图片进行标注，作为标注图片区域。之后，则可以将样本图片、样本语言表达式以及对应的标注图片区域输入终端，以使终端得到上述样本图片、样本语言表达式以及对应的标注图片区域。

步骤S502，终端将样本图片与样本语言表达式输入待训练的图片分割模型，通过训练的图片分割模型获取针对于样本图片的样本多模态特征以及样本实例感知特征。

待训练的图片分割模型指的是还未进行训练的图片分割模型，该图片分割模型可以根据输入的样本图片与样本语言表达式，分别得到针对于样本图片的视觉特征以及针对于样本语言表达式的语言特征，由待训练的图片分割模型分别基于得到的视觉特征以及语言特征，得到针对样本图片的多模态特征，即样本多模态特征，以及仅基于视觉特征，得到针对样本图片的实例感知特征，作为样本实例感知特征。

步骤S503，终端根据样本多模态特征获取第一图片区域，根据样本实例感知特征获取第二图片区域，以及根据样本多模态特征以及样本实例感知特征获取第三图片区域。

第一图片区域指的是终端根据样本多模态特征确定出的图片区域，该待训练的图片分割模型可以基于确定出的样本多模态特征，找出样本图片中各像素点满足样本语言表达式表征的标注图片区域的概率，从而根据上述概率确定出相应的第一图片区域。而第二图片区域则是终端根据样本实例感知特征确定出的样本图片中各像素点满足样本语言表达式表征的标注图片区域的概率，进而得到第二图片区域，而第三图片区域则是由样本多模态特征以及样本实例感知特征融合后得到的特征筛选出的图片区域。

步骤S504，终端基于标注图片区域，分别获取第一图片区域、第二图片区域以及第三图片区域对应的第一损失、第二损失以及第三损失；

步骤S505，终端利用第一损失、第二损失以及第三损失，对待训练的图片分割模型进行训练，得到训练完成的图片分割模型。

之后，终端则可以基于输入的标注图片区域，以及步骤S503中得到的第一图片区域、第二图片区域以及第三图片区域，分别计算对应的差异损失，作为第一损失、第二损失以及第三损失，并利用上述第一损失、第二损失以及第三损失，对图片分割模型进行训练，从而得到训练完成的图片分割模型。

例如，第一损失、第二损失以及第三损失可以分别通过以下公式计算得到：

其中，

以及

分别表示第一损失、第二损失以及第三损失，Y[i][j]表示标注图片区域，P_loc[i][j]则表示由样本多模态特征确定出的第一图片区域、P_inst[i][j]表示由样本实例感知特征确定出的第二图片区域，而P_seg[i][j]表示的是由样本多模态特征以及样本实例感知特征融合后筛选出的第三损失。

得到上述第一损失、第二损失以及第三损失后，则可以基于上述第一损失、第二损失以及第三损失构造图片分割模型的总损失，模型的总损失可定义为

λ是用于控制损失比值的参数，例如可以设置为0.5。终端即可根据上述模型的总损失对图片分割模型进行训练，最终得到训练完成的图片分割模型。

本实施例中，可以利用样本图片、样本语言表达式以及标注的与样本语言表达式标注的标注图片区域实现对图片分割模型的训练，并且可以基于样本图片的视觉特征与样本语言表达式的语言特征得到样本多模态特征，并获取样本多模态特征对应的图片区域的第一损失、以及基于样本图片的视觉特征得到样本实例感知特征，并获取样本实例感知特征对应的图片区域的第二损失，和样本多模态特征与样本实例感知特征融合后对应的图片区域的第三损失，作为图片分割模型的总损失实现模型训练，可以使得训练完成的图片分割模型可以精确实现多模态特征以及实例感知特征的提取，进一步提高图片指代性分割的分割精度。

在一个应用实例中，还提供了一种关注视觉整体性的指代性分割网络，以实现高精度、高完整度的指代性分割。在该网络中，首先设计了一个简单但有效的多模态特征融合模块，高效地对齐视觉和语言特征并对特征进行融合，从而能够有效地捕获分割目标的粗略定位结果。而为了生成完整且高精度的分割结果，则另外设计了一个独立的视觉分支，该分支更加关注图片中哪些像素是属于同一个个体的。在这个分支中，基于目标对象的粗略定位结果，生成基于视觉特征的实例内核。实例内核包含了分割目标的丰富视觉信息，并过滤掉其他物体的视觉特征。利用实例内核，从视觉的角度来发掘图片中哪些区域属于目标对象，从而找出被多模态特征所遗漏的分割区域，产生更加完整精确的分割结果。最终，通过将多模态特征和实例内核的发掘出的特征进行融合，设计的网络能够有效完成指代性分割的任务。

如图2所示，当前自下而上的方法将指代性分割任务建模为逐像素分类问题，捕获每个像素是否与语言表达匹配的信息。将这种与语言相关的信息命名为指代感知信息。然而，这种建模忽略了分割任务的内在性质，即属于同一实例的像素需要作为一个整体输出。因此，现有的当前自下而上的方法往往会产生低精度和不完整的分割掩码。可以看出，给定查询短语“bear in the middle”，仅使用指代感知信息，输出的分割结果只包含目标熊的一部分。然而，从视觉的角度，可以很容易地推断出目标熊缺失部分和被分割出来部分属于同一个实例。这种现象启发去捕获额外的实例感知信息，即在构建模型时学习关于哪些像素属于同一实例的视觉先验，从而解决分割结果残缺的问题并改善分割结果。

模型的整体架构可如图6所示，该模型具体可以包括如下的实现流程：视觉和语言特征的提取，如何利用多模态特征融合捕获指代感知信息，如何使用动态内核机制捕获实例感知信息。最后，还给出了训练方案和损失函数的细节。

(1)视觉和语言特征提取：

我们的模型以一张图片I和一个自然语言表达式X作为输入。我们使用ResNet-101和bi-GRU网络作为视觉特征和语言特征的提取器。对于图片I，我们选取ResNet-101的最后三个阶段

和

作为视觉特征。对于表达式X，我们首先使用lookup table的方式获取表达式中每一个词语xi的word embedding，然后通过bi-GRU获取每个词的语言特征，最终融合这些语言特征获得表达式X的语言特征f_text。

(2)多模态特征融合：

先前的工作已经表明，使用不同尺度的视觉特征可以生成更好的多模态特征。对于来自多个阶段的视觉特征

和

我们首先将它们分别与语言特征融合，即：

其中g表示Leaky ReLU，⊙表示逐元素乘积，

和W_t是两个转换矩阵，用于将视觉和文本特征转换为相同的特征维度，

和

是

和

的特征向量。与浅层视觉特征的特征融合有助于产生高分辨率的多模态特征，而与更深层次的视觉特征融合可以融合更多抽象信息。接着，我们将来多个尺度的多模态特征融合在一起，如下：

其中Upsample表示2倍上采样插值，Conv表示3x3的卷积，Cat表示沿channel维度的串联操作。最后，我们使用

并应用3x3卷积来获得输出多模态特征F_ref。

(3)实例感知信息的捕获:

多模态特征F_ref提供有关图像的每个像素是否与语言表达式匹配的信息。然而，逐像素建模忽略了实例需要作为一个整体输出的分割任务的内在性质，使得分割结果粗糙和不完整。利用一个额外的模块来捕获实例感知信息来解决这个问题。具体来说，构建了一个单独的分支来提取图像中所有实例的视觉信息。使用目标对象的粗略位置，可以捕获目标实例的视觉特征，并使用一个实例内核表示该对象。最后，利用实例内核来捕获实例感知信息，它提供了关于图像的每个像素是否属于目标实例的更精确的信息。

3.1、指代目标的粗定位：

为了捕获目标对象的实例信息，我们首先根据多模态特征F_ref生成目标对象粗略的定位信息P_loc，即：

P_loc＝Conv(F_ref)

其中Conv是一个3x3的卷积，输出的通道数为1，P_loc表示每个位置属于目标对象的概率，提供目标对象的位置和粗略形状。

3.2、实例内核的生成

我们建立一个单独的分支来提取所有实例的视觉信息。给出来自主干的视觉特征

和

我们首先按照特征金字塔的形式融合多阶段特征，如图6所示。将FPN特征表示为

和

通过使用特征金字塔，浅层特征可以同时具有深层语义信息和高分辨率。为了产生实例内核，首先基于FPN特征生成一个内核权重矩阵F_k。为了与P_loc保持相同的分辨率，我们使用

通过三个卷积层的叠加来生成F_k。内核权重矩阵F_k中的每个位置都提供了关于它所属实例的视觉信息。

实例内核是基于粗略定位图P_loc和内核权重矩阵F_k生成的。之前的工作采用hardkernel generation的方法来生成内核，根据定位图中的激活区域从核权重图中提取内核。为了获得激活区域，必须引入手动调整的阈值参数，并且不能联合训练整个网络。如图7所示，提出了一个soft kernel generation来解决这个问题。具体来说，首先对P_loc应用softmax以获得每个像素的分数，然后实例内核K由F_k的加权组合产生，即：

其中F_k[i][j]是位置(i,j)处的内核权重向量P_loc[i][j]是位置(i,j)的分数。内核K包含目标实例丰富的视觉信息并过滤掉其他实例的特征。Softmax可以使高置信度区域贡献更多的实例信息，从而提高内核生成的鲁棒性。

3.3、实例感知信息捕捉

为了捕获实例感知信息，编码特征映射F_e用于提供实例无关的特征。与F_k类似，F_e也仅基于视觉特征，并通过三个卷积层的堆叠生成。然后实例感知信息F_inst通过如下方式捕获：

F_inst＝K⊙F_e

其中⊙表示逐元素相乘。

3.4、信息聚合

F_ref找出图片与语言表达式匹配的区域，提供目标对象的粗略位置。而F_inst从视觉角度找出哪些像素属于目标实例。这两种信息是互补的。我们聚合这两个特征以获得增强特征F_aug，如下：

F_aug＝Cat(F_ref,F_inst)

最后，分割结果P_seg是通过在F_aug上简单地应用两个卷积产生的。

(4)训练方案与损失函数

在训练过程中，使用SigmoidBinaryCrossEntropy(BCE)损失函数来优化分割结果P_seg，公式为：

其中Y是ground truth。为了确保粗定位能够聚焦在目标对象上以生成正确的实例内核，我们添加了定位loss来监督粗定位图P_loc，公式为：

为了提高实例感知信息捕获的质量，我们在实例感知特征图F_inst上生成实例预测P_inst并添加实例loss对其进行监督，公式如下：

P_inst＝Conv(F_inst)

其中Conv是一个3x3卷积，输出通道等于1。模型的总损失定义为：

其中λ是控制loss比值的参数，根据经验设置为0.5。

之后，则可以对参考图像分割的三个基准数据集进行了广泛的实验，包括RefCOCO、RefCOCO+和RefCOCOg，它们都是基于MS-COCO收集的。RefCOCO数据集包含19994张图像和50000个对象的142209个引用表达式，而RefCOCO+数据集包含19992个图像和49856个对象的141,564个表达式。RefCOCO+没有位置词，因此它比RefCOCO更具挑战性。RefCOCOg由26711张图像和54822个对象的104560个引用表达式组成。表达式的平均长度为8.4个词，远长于其他数据集。

采用IOU和Pr@X作为评估性能的指标，便于和以前的工作进行比较。IoU衡量分割结果和Ground Truth之间的一致性，它是通过将预测区域和ground truth的交集除以并集计算得到的。Pr@X测量IoU高于阈值X的预测的百分比，其中X∈{0.5，0.6，0.7，0.8，0.9}。

为了证明本模型的有效性，将的分割结果与最先进的方法进行了比较，如图8所示。没有使用DenseCRF和ASNLS这样耗时的后处理，本模型在不同数据集的IoU度量下实现了最佳性能。具体来说，与最好的竞争对手LTS相比，本模型在这三个数据集上的绝对IoU明显优于它约2.5％(在RefCOCO+testA上提升最多，达到4.25％)。需要注意的是，DarkNet53主干与ResNet101相当，性能改进来自设计的模块。与使用更大主干(Dilated ResNet-101)、多个融合分支和更多通道的CMPC相比，本模型更小但性能更好(在RefCOCO上提高了约6％，在RefCOCO+上提高了约5％)。一致的改进证明了本方法的一般有效性。

另外，还比较Pr@X指标下的性能。自上而下的方法MattNet使用预训练的检测模型来获取图片中所有物体的分割结果，因此比自下而上的方法具有更高的精度。作为一种自下而上的方法，本方法捕获实例感知信息，这大大提高了分割质量。如图9所示，本模型明显优于LTS，略优于MattNet。特别是，在Pr@0.9上超越了MattNet。这是因为本方法可以进行端到端的训练并优化分割结果。

可以看出，上述应用实例提供的指代性分割方法可以具备更有效的图片分割能力，以及具备更优秀的图片分割效果。

应该理解的是，虽然本申请的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种图片指代性分割装置，包括：图片获取模块1001、特征提取模块1002和图片分割模块1003，其中：

图片获取模块1001，用于获取待分割图片，以及针对于待分割图片的语言表达式；语言表达式用于描述待分割图片的分割区域；

特征提取模块1002，用于将待分割图片以及语言表达式输入训练完成的图片分割模型，通过图片分割模型确定待分割图片的视觉特征，以及语言表达式的语言特征，对视觉特征和语言特征进行特征融合，得到针对待分割图片的多模态特征，以及根据待分割图片的多模态特征获取待分割图片中的初始分割区域，根据初始分割区域以及视觉特征，得到针对待分割图片的实例感知特征；

图片分割模块1003，用于根据多模态特征以及实例感知特征确定待分割图片的目标分割区域，获取待分割图片中位于目标分割区域的分割图片。

在一个实施例中，特征提取模块1002，进一步用于通过视觉特征提取器获取待分割图片不同特征提取阶段得到的多组视觉特征；对各特征提取阶段得到的视觉特征分别和语言特征进行特征融合，得到各特征提取阶段分别对应的多模态特征；将各特征提取阶段分别对应的多模态特征进行融合，得到待分割图片的多模态特征。

在一个实施例中，待分割图片的多模态特征包括待分割图片中各像素点的多模态特征；特征提取模块1002，进一步用于将待分割图片中各像素点的多模态特征输入预设的卷积神经网络，通过卷积神经网络获取待分割图片中各像素点属于分割区域的概率；根据概率从待分割图片的像素点中确定出目标像素点，将目标像素点对应的图片区域作为初始分割区域。

在一个实施例中，特征提取模块1002，进一步用于获取待分割图片中各像素点在不同特征提取阶段得到的多组子视觉特征；根据各像素点的多组子视觉特征，以及各像素点属于分割区域的概率，获取待分割图片对应的实例内核；基于实例内核获取实例感知特征。

在一个实施例中，特征提取模块1002，进一步用于通过特征金字塔，获取多组子视觉特征对应的多组视觉增强特征，利用多组视觉增强特征生成针对于待分割图片的内核权重矩阵；基于内核权重矩阵，以及待分割图片中各像素点属于分割区域的概率，得到实例内核。

在一个实施例中，特征提取模块1002，进一步用于利用预设的卷积层对所组视觉增强特征进行堆叠，生成编码特征映射矩阵；根据实例内核以及编码特征映射矩阵，得到实例感知特征。

在一个实施例中，图片指代性分割装置，还包括：模型训练模块，用于获取样本图片，样本语言表达式，以及样本图片对应的标注图片区域；标注图片区域为样本图片中，由样本语言表达式表征的图片区域；将样本图片与样本语言表达式输入待训练的图片分割模型，通过待训练的图片分割模型获取针对于样本图片的样本多模态特征以及样本实例感知特征；根据样本多模态特征获取第一图片区域，根据样本实例感知特征获取第二图片区域，以及根据样本多模态特征以及样本实例感知特征获取第三图片区域；基于标注图片区域，分别获取第一图片区域、第二图片区域以及第三图片区域对应的第一损失、第二损失以及第三损失；利用第一损失、第二损失以及第三损失，对待训练的图片分割模型进行训练，得到训练完成的图片分割模型。

关于图片指代性分割装置的具体限定可以参见上文中对于图片指代性分割方法的限定，在此不再赘述。上述图片指代性分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图片指代性分割方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图片指代性分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待分割图片的视觉特征，包括：

通过视觉特征提取器获取所述待分割图片不同特征提取阶段得到的多组视觉特征；

所述对所述视觉特征和所述语言特征进行特征融合，得到针对所述待分割图片的多模态特征，包括：

对各特征提取阶段得到的视觉特征分别和所述语言特征进行特征融合，得到所述各特征提取阶段分别对应的多模态特征；

将所述各特征提取阶段分别对应的多模态特征进行融合，得到所述待分割图片的多模态特征。

3.根据权利要求2所述的方法，其特征在于，所述待分割图片的多模态特征包括所述待分割图片中各像素点的多模态特征；

所述根据所述待分割图片的多模态特征获取所述待分割图片中的初始分割区域，包括：

将所述待分割图片中各像素点的多模态特征输入预设的卷积神经网络，通过所述卷积神经网络获取所述待分割图片中各像素点属于所述分割区域的概率；

根据所述概率从所述待分割图片的像素点中确定出目标像素点，将所述目标像素点对应的图片区域作为所述初始分割区域。

4.根据权利要求3所述的方法，其特征在于，所述根据所述初始分割区域以及所述视觉特征，得到针对所述待分割图片的实例感知特征，包括：

获取所述待分割图片中各像素点在不同特征提取阶段得到的多组子视觉特征；

根据所述各像素点的多组子视觉特征，以及所述各像素点属于所述分割区域的概率，获取所述待分割图片对应的实例内核；

基于所述实例内核获取所述实例感知特征。

5.根据权利要求4所述的方法，其特征在于，根据所述各像素点的多组子视觉特征，以及所述各像素点属于所述分割区域的概率，获取所述待分割图片对应的实例内核，包括：

通过特征金字塔，获取所述多组子视觉特征对应的多组视觉增强特征，利用所述多组视觉增强特征生成针对于所述待分割图片的内核权重矩阵；

基于所述内核权重矩阵，以及所述待分割图片中各像素点属于所述分割区域的概率，得到所述实例内核。

6.根据权利要求5所述的方法，其特征在于，所述基于所述实例内核获取所述实例感知特征，包括：

利用预设的卷积层对所述多组视觉增强特征进行堆叠，生成编码特征映射矩阵；

根据所述实例内核以及所述编码特征映射矩阵，得到所述实例感知特征。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述将所述待分割图片以及所述语言表达式输入训练完成的图片分割模型之前，还包括：

获取样本图片，样本语言表达式，以及所述样本图片对应的标注图片区域；所述标注图片区域为所述样本图片中，由所述样本语言表达式表征的图片区域；

将所述样本图片与所述样本语言表达式输入待训练的图片分割模型，通过所述待训练的图片分割模型获取针对于所述样本图片的样本多模态特征以及样本实例感知特征；

根据所述样本多模态特征获取第一图片区域，根据所述样本实例感知特征获取第二图片区域，以及根据所述样本多模态特征以及所述样本实例感知特征获取第三图片区域；

基于所述标注图片区域，分别获取所述第一图片区域、所述第二图片区域以及所述第三图片区域对应的第一损失、第二损失以及第三损失；

利用所述第一损失、第二损失以及第三损失，对待训练的图片分割模型进行训练，得到所述训练完成的图片分割模型。

8.一种图片指代性分割装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。