CN117576399A

CN117576399A - 一种可泛化的指代表达式图像分割方法

Info

Publication number: CN117576399A
Application number: CN202311605083.2A
Authority: CN
Inventors: 刘庆杰; 刘亚洁; 黄迪; 金一舟; 范时朝; 葛璞; 王蕴红
Original assignee: Beihang University; Hangzhou Innovation Research Institute of Beihang University
Current assignee: Beihang University; Hangzhou Innovation Research Institute of Beihang University
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-20

Abstract

本发明属于图像分割技术领域，具体涉及一种可泛化的指代表达式图像分割方法，包括对于给定的文本表达式，用统一的形式为其加入直接且关键的提示；将引用表达式送入文本编码器，提取文本特征；将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉特征和文本特征；随后在多模态融合模块，采用多模态特征聚合模块并引入来自预训练视觉模型的引导以利用视觉空间关联；将跨模态融合特征输入解码器，在层级解码过程中引入预训练视觉模型的引导；最后输入分类头，得到图像分割结果。本方法大幅提升了模型对多变的自由文本描述的泛化性，且有效改善了模型对未见视觉目标的泛化性。

Description

一种可泛化的指代表达式图像分割方法

技术领域

本发明涉及图像分割技术领域，具体涉及一种可泛化的指代表达式图像分割方法。

背景技术

指代表达式分割旨在分割图像中对应于文本描述的物体，在基于语言的人机交互场景，图像编辑等各领域有着广泛的应用前景。不同于传统的语义分割和实例分割算法，指代表达式分割的物体是文本描述给出，其分割目标不受预定义类别限制，且文本描述句法结构变化多样，具有较高的开放性和灵活性。然而，针对特定的场景，现有的指代表达式分割算法需要对相应的场景数据进行训练并部署使用，对于新场景，需要执行重复的训练及部署流程，算法的鲁棒性和泛化性低，可迁移性差，这无疑限制了指代表达式分割算法的发展和应用。

现有的指代表达式分割算法往往是在特定的场景或数据集上有较好的性能。但将指代表达式分割算法应用到其他场景往往存在以下问题：

(1)由于文本描述句法结构不受限制，且其在用户之间存在较大的差异。模型很难正确理解所有文本描述，并分割出相应物体。针对同一物体的不同描述，会产生不同的分割结果，无法有效的泛化到未知文本描述。

(2)将在特定数据集上训练好的模型应用在不同图像域以及未见种类物体时，模型的预测结果会存在两种明显的缺陷。一是目标物体的掩码不完整，缺失部分目标像素；二是会出现不规则的假阳性的背景块的误检。上述两种缺陷导致了模型对未知视觉物体泛化性较差。

指代表达式的泛化性包含三个方面。一是泛化到同一视觉实体，不同描述文本上。不同的文本描述可能是句法结构发生了变化,如’the tail of elephant’和’theelephant’s tail’，或者是描述物体的不同特征，如’the left boy’和’the taller boy’；二是泛化到同一目标类别，不同图像域，如目标类别相同，但图像的采集设备与场景差异较大，如晴天和雨雪天气，白天和夜晚等；三是泛化到不同目标类别，训练过程中出现过的类别称为已知类，未出现过的类别称为未知类。

现有的指代表达式分割算法的泛化性在上述三种设置中表现较差。如Language-aware Vision Transformer for Referring Image Segmentation泛化到有着相同图像域和类别，不同文本描述的场景时，精度下降了16个点；在泛化到未知视觉实体，包含不同图像域和目标类别时，精度下降了50个点。而对不同场景，不同目标类别以及不同文本描述重新标注和训练，其成本无疑是巨大的，且不可能包含所有潜在的文本描述。

AStrong Zero-shot Baseline for Referring Expression Comprehension旨在将大规模图像文本预训练模型的知识零样本迁移到指代表达式任务中，以规避监督学习中的泛化问题。但零样本的精度与全监督指代表达式分割的精度相比，仍有较大差距。而Contrastive Grouping with Transformer for Referring Image Segentation中仅对泛化到未见类别进行了测试，且其网络结构和训练算法并未考虑如何提升模型的泛化性。由于现有指代表达式分割算法泛化性较差，且为不同域进行标注和训练的成本较大，限制了指代表达式分割算法的广泛应用。

发明内容

为解决上述技术问题，本发明提供了提出一种可泛化的指代表达式图像分割算法，训练一个统一的模型可以使指代表示式分割在多个场景达到较好的性能，增强模型对多变的不受限的文本描述的鲁棒性，提升模型对未见视觉实体包含有域差异的图像和未知类别目标物体的泛化性。

本发明完整的技术方案包括：

一种可泛化的指代表达式图像分割方法，包括如下步骤：

(1)对于给定的文本表达式，用统一的形式为其加入直接且关键的提示；

给定表达式E_r，首先利用自然语言处理依赖解析工具Spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标TN(E_r)；在识别指代表达式中的目标后，以统一的上下文形式利用它来增强文本表达式，从而获得最终的指代表达式E_f0；

统一的上下文形式的指代表达式为：

E_f0＝[E_r][C]₁[C]₂…[C]_L[TN(E_r)]

其中，[C]_l(l∈1,2,…,L)是提示上下文的token，L是上下文token的长度。

定制化prompt.以“It is a TN(E_r)”的形式定制指代表达式分割任务的提示上下文，它在所有指代表达式之间共享；

给定一个表达式E_r，通过以下方式获得引用表达式E_f：

E_f＝[E_r].It is a[TN(E_r)]

(2)将引用表达式送入文本编码器，提取文本特征；

将E_f输入文本编码器提取文本特征F_t：

(3)将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉特征和文本特征；

将图像输入视觉编码器，提取到视觉特征V_i，在多模态融合模块中，采用像素-单词交叉注意力层对视觉和文本特征进行融合如下：

Attn_i＝softmax(W_iv(V_i)W_t(F_t))

V_i′＝Attn_i⊙W_im(V_i)

其中，Attn_i为视觉和文本特征融合后的注意力矩阵，⊙表示点乘运算，W_iv，W_t和W_im是线性映射层。V_i′是跨模态注意力作用后的视觉特征。

(4)在上述多模态融合模块中，加入多模态特征聚合模块，并引入来自预训练视觉模型的引导以利用视觉空间关联；

所述多模态特征聚合模块MFA具有半全局感受野来捕获局部区域之间的空间关系，其包含两个连续的Swin_Transformer块；每个块通过自注意力机制来建模局部窗口内的空间关系；

给定视觉预训练模型，提取视觉引导特征P_i(i∈1,2,3,4),MFA的计算过程如下：

V_aggre＝swin_blocks(Attn_i；W_i(P_i))⊙W_im(V_i)

其中，V_aggre为聚合后的多模态特征，W_i是线性映射层。[；]代表通道维度的拼接。

(5)将跨模态融合特征输入解码器，在层级解码过程中引入预训练视觉模型的引导；

跨模态的解码过程可以表示为：

其中，Y₄为解码层4的特征，Y_i为解码i的特征，i＝3，2，1，ρ_i包含两个卷积层，采用group normalization进行归一化，激活函数为RELU层。Up代表使用双线性插值的上采样层。W_p代表线性映射层。sg表示停止梯度回传算子。

(6)最后输入分类头，得到分割结果。

将解码器的输出Y₁输入到二分类头，得到最后的分割结果。

如上所述，本发明提出的一种可泛化的指代表达式算法，针对模型对多变的不受限的指代表达式适应较差的问题，设计了一种统一形式的直接且关键的提示方案。由于给出的文本提示形式统一，模型可以有效的由此推断出待分割物体，且促进了相同文本提示的跨实例间的知识学习，从而大幅提升了模型对文本描述的泛化性。针对模型在未知视觉物体上存在的两种预测缺陷，设计了一种基于多模态融合特征的聚合方案，有效利用了物体的语义一致性和空间关联。为提升聚合效果，引入了强大的预训练视觉模型，采用视觉的空间关联性引导多模态融合特征的空间关联性。同时，在多模态特征的解码过程中也加入了层级的视觉特征的知识引导。通过上述方案，可有效提升同一物体分割结果的一致性，并抑制假阳性的背景误检块，从而有效提高了模型对未见视觉物体的泛化性。

与现有技术相比，本发明的优点在于：

1.是针对模型对不受限的指代表达式风格句法变换以及描述特征变化适应性较差的问题，设计了一种形式统一的直接且关键的文本提示方案，大幅提升了模型对多变的自由文本描述的泛化性。

2.针对未见视觉目标分割结果中存在的不完整目标掩码及噪声背景块误检问题设计了一种预训练模型引导的基于多模态融合特征的聚合方案,有效改善了模型对未见视觉目标的泛化性。

附图说明

图1为本发明可泛化的指代表达式分割算法总体架构图。

图2为本发明多模态特征聚合示意图。

图3为本发明可泛化的指代表达式分割效果图。

具体实施方式

下面结合本发明的附图，对本发明的技术方案进行进一步的详细说明，显然，所描述的实施例仅作为例示，并非用于限制本次申请。

1)方法流程

图1展示了本发明提出的算法流程图，具体步骤如下：对于给定的文本表达式，用统一的形式为其加入直接且关键的提示，并送入文本编码器，提取文本特征。将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉和文本特征。在多模态融合模块，加入多模态特征聚合模块，并引入来自预训练视觉模型的引导以利用视觉空间关联。将跨模态融合特征输入解码器，在层级解码过程中引入预训练视觉模型的引导，最后输入分类头，得到分割结果。

a)文本目标提示

文本指代表达式提供了对图像中需要分割的目标的区分性描述。指代表达式的灵活性极高，且在不同用户之间存在较大差异。如果没有直接而明确的指导，对于文本编码器来说，在各种引用表达中稳健地识别目标是一项几乎不可能的任务。为了解决上述问题，本发明提出通过明确且关键的提示来指导文本编码器。给定表达式E_r，首先利用自然语言处理依赖解析工具Spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标TN(E_r)。在识别指代表达式中的目标后，以统一的上下文形式利用它来增强文本表达式，从而获得最终的指代表达式E_f0。统一上下文的设计遵循以下形式：

E_f0＝[E_r][C]₁[C]₂…[C]_L[TN(E_r)]

定制化prompt.本发明以“It is a TN(E_r)”的形式定制指代表达式分割任务的提示上下文，它在所有指代表达式之间共享。给定一个表达式E_r，则通过以下方式获得引用表达式E_f：

E_f＝[E_r].It is a[TN(E_r)]

基于统一的上下文，模型可以有效地捕获指代表达式中的目标，从而减少由于偏向表达式中的干扰项而导致的虚假视觉文本相关性。此外，它可以促进具有相同提示的实例即相同的TN(E_r)之间的知识学习。将E_f输入文本编码器提取文本特征F_t：

b)多模态特征聚合和视觉引导

将图像输入视觉编码器，提取到视觉特征V_i.采用像素-单词交叉注意力层对视觉和文本特征进行融合如下：

Attn_i＝softmax(W_iv(V_i)W_t(F_t))

V_i′＝Attn_i⊙W_im(V_i)

其中，⊙表示点乘运算，W_iv，W_t和W_im是线性映射层。V_i′是跨模态注意力作用后的视觉特征。

在像素-单词交叉注意力的计算过程中，独立计算了每个像素特征与文本的相关性，忽视了同一物体之间的语义一致性，导致同一物体会产生不同的预测结果，如目标物体的掩码存在部分缺失，或背景上有不规则的噪声误检块，尤其是在未见视觉实体上，从而导致模型的泛化性较差。为了解决上述问题，本发明提出在交叉注意力机制中引入一个多模态特征聚合模块MFA，如图2所示，以利用物体的空间关联。聚合模块需要具有半全局感受野来捕获局部区域之间的空间关系，它包含两个连续的Swin_Transformer块。每个块通过自注意力机制来建模局部窗口内的空间关系。鉴于每个像素的文本特征相同，因此视觉相似区域具有相似的多模态融合特征。基于这一观点，本发明将强大的预训练视觉模型的视觉引导与其相结合，以用视觉空间关键引导多模态特征的空间关系。同理，在跨模态特征的解码过程中也引入了视觉预训练模型的引导。

给定视觉预训练模型，我们提取视觉引导特征P_i(i∈1,2,3,4),则MFA的计算过程如下：

V_aggre＝swin_blocks(Attn_i；W_i(P_i))⊙W_im(V_i)

其中，W_i是线性映射层。[；]代表通道维度的拼接。则跨模态的解码过程可以表示为：

其中，ρ_i包含两个卷积层，采用group normalization进行归一化，激活函数为RELU层。Up代表使用双线性插值的上采样层。W_p代表线性映射层。sg表示停止梯度回传算子。解码器的输出Y₁输入到二分类头，得到最后的分割结果。可泛化的指代表达式分割效果图如图3所示。

2)消融实验

本发明对提出的两个核心模块进行了消融实验，已验证其有效性。为测试指代表达式分割任务的泛化性，本发明的实验设置为，在某个数据集上进行训练，在其他数据集上进行零样本泛化测试。实验中采用了常用的评估指标：

mIoU：平均交并比(mean intersection-over-union)，为所有实例的预测结果与标签的交并比的平均值，一般为主要评价指标。

oIoU：整体交并比(overall intersection-over-union)，为所有实例的预测结果与标签的整体交并比。

Prec@0.5,0.7,0.9：交并比阈值为0.5，0.7，0.9时的精度，衡量不同交并比阈值下的分割精度。

表1泛化到不同数据集的各项指标对比

表1展示了在RefCOCOg上训练的模型泛化到其他数据集的测试结果。其中，RefCOCO系列数据集共享图像域和目标类别，但文本表达式的特征和规则有所不同。RefCOCO+的文本表达式聚焦于外观特征描述且不包含位置相关词汇，RefCOCOg的文本描述更长且更复杂。ReferIt的图像和其他数据集的图像存在较大的域差异，且包含大量未出现在RefCOCO系列数据集中的目标种类。表1中可看出，引入文本目标提示对泛化到RefCOCO系列数据集有明显提升，如在RefCOCO上，mIoU指标在三个子集上平均提升了2.85％，Prec@0.9指标平均提升了8.82％。而在RefCOCO+上，mIoU指标在三个子集上平均提升了4.23％，Prec@0.9指标平均提升了8.61％。这表明引入目标提示可以显著增强模型泛化到多样的不受限的文本描述的能力。

引入预训练模型引导的多模态特征聚合模块进一步提升了模型的零样本泛化性能。如相对于基线模型，本发明的模型在RefCOCO上，mIoU指标在三个子集上平均提升了4.15％，Prec@0.9指标平均提升了10.38％。在RefCOCO+上，mIoU指标在三个子集上平均提升了5.45％，Prec@0.9指标平均提升了9.31％。引入预训练模型引导的多模态特征聚合相对于目标文本提示在ReferIt上带来了更多的增益，而目标文本提示在RefCOCO系列数据上获得了更高的收益。本发明提出的模型在ReferIt的验证集和测试集上分别获得了3.75％和5.52％的mIoU指标的提升。

2)与其他方法的对比

为验证所提出方法的前沿性，本发明与其他前沿方法进行了对比，如表2所示。

表2与其他前沿方法的指标对比

表2展示了在不同泛化设置下，本发明与其他方法的对比。表2可看出相对于其他方法，本发明提出的方法能在各种设置下，稳健的提升模型的泛化性，证明了本发明方法的有效性。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种可泛化的指代表达式图像分割方法，其特征在于，包括如下步骤：

(1)对于给定的文本表达式E_r，用统一的形式为其加入提示，并得到引用表达式E_f；

(2)将引用表达式E_f送入文本编码器，提取文本特征F_t；

(3)将图像输入视觉编码器，结合跨模态注意力对齐机制联合编码视觉特征V_i和文本特征；

(4)在多模态融合模块对联合编码的视觉特征V_i和文本特征进行融合得到融合后的多模态特征，随后采用多模态特征聚合模块对融合后的多模态特征进行聚合，并引入来自预训练视觉模型的引导以利用视觉空间关联，得到跨模态融合特征；

(6)输入分类头，得到图像分割结果。

2.根据权利要求1所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(1)具体为，给定表达式E_r，首先利用自然语言处理依赖解析工具Spacy将给定的表达式解析为树结构，并将句子的根名词识别为目标TN(E_r)；在识别指代表达式中的目标后，以统一的上下文形式利用识别的目标来增强文本表达式，从而获得指代表达式E_f0；

统一的上下文形式的指代表达式为：

E_f0＝[E_r][C]₁[C]₂…[C]_L[TN(E_r)]

其中，[C]_l(l∈1,2,…,L)是提示上下文的token，L是上下文token的长度；

并对指代表达式的统一上下文进行定制化，得到定制后的引用表达式E_f。

3.根据权利要求2所述的一种可泛化的指代表达式图像分割方法，其特征在于，对指代表达式进行定制化具体为：

以“It is a TN(E_r)”的形式定制指代表达式分割任务的提示上下文，它在所有指代表达式之间共享；

给定一个表达式E_r，通过以下方式获得引用表达式E_f：

E_f＝[E_r].It is a[TN(E_r)]。

4.根据权利要求3所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(2)中，将引用表达式E_f输入文本编码器提取文本特征F_t：

5.根据权利要求4所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(4)中，将图像输入视觉编码器，提取到视觉特征V_i，采用像素-单词交叉注意力层对视觉和文本特征进行融合如下：

Attn_i＝softmax(W_iv(V_i)W_t(F_t))

V′_i＝Attn_i⊙W_im(V_i)

其中，Attn_i为视觉和文本特征融合的注意力矩阵，⊙表示点乘运算，W_iv，W_t和W_im是线性映射层，V′_i是跨模态注意力作用后的视觉特征。

6.根据权利要求5所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(4)中，所述多模态特征聚合模块MFA具有半全局感受野来捕获局部区域之间的空间关系，其包含两个连续的Swin_Transformer块；每个块通过自注意力机制来建模局部窗口内的空间关系；

V_aggre＝swin_blocks(Attn_i；W_i(P_i))⊙W_im(V_i)

其中，V_aggre为聚合后的多模态特征，W_i是线性映射层；[；]代表通道维度的拼接。

7.根据权利要求6所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(5)中，跨模态的解码过程可以表示为：

其中，Y为解码后的特征，Y₄为解码层4的特征，Y_i为解码层i的特征，i＝3，2，1，ρ_i为映射及归一化计算，其包含两个卷积层，采用group normalization进行归一化，激活函数为RELU层，Up代表使用双线性插值的上采样层，W_p代表线性映射层，sg表示停止梯度回传算子。

8.根据权利要求7所述的一种可泛化的指代表达式图像分割方法，其特征在于，步骤(5)中，将解码器的输出Y₁输入到二分类头，得到最后的分割结果。