CN116152265A

CN116152265A - 一种基于多尺度特征选择性融合的指代分割方法

Info

Publication number: CN116152265A
Application number: CN202310012997.1A
Authority: CN
Inventors: 李智勇; 戴贤文; 林家丞; 李庆鹏
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-23

Abstract

本发明公开了一种基于多尺度特征选择性融合的指代分割方法，考虑到在指代分割的实际应用中，多模态特征之间的难对齐、难充分交互以及背景特征难抑制的问题没有得到有效解决，造成定位不准和模型精度降低的问题，本发明设计了基于文本引导的融合模块，对解码器的浅层到深层进行多尺度特征选择，初步选择出符合文本内容的特征，通过二次选择机制进一步筛选出只包含目标的视觉特征，并且在此基础上我们设计了注意力对比损失函数，它可以有效地抑制背景特征，提高模型精度，通过后处理分割模块，根据图像分割特性，使用不同的采样率对模型进行全局建模，分割得到最终结果，通过基准数据集的验证，本发明能够较大程度提高分割精度。

Description

一种基于多尺度特征选择性融合的指代分割方法

技术领域

本发明涉及基于深度学习的端到端指代分割领域，具体涉及一种基于多尺度特征选择性融合的指代分割方法。

背景技术

近些年来，指代分割(Referring Image Segmentation)引起了学术界的极大兴趣并被广泛研究。指代分割的定义是：给定一个图像和一个符合图像情景的文本表达式，将文本所指代的实例目标从图像中分割出来。与传统图像分割不同，指代分割是结合了文本表达式的图像分割，是一种多模态任务。由于多模态数据更符合人类感知世界的方式，因此该任务在现实生活中更具有广泛的工程意义。比如机器人感知与控制领域，人类通过跟机器对话，机器人根据对话的文本信息和对应的视觉图像信息，分割并抓取对应的目标对象，完成人机交互的闭环。还有图像抠图领域，通过一段文字或者语音的形式就可以很方便快速的完成对应目标抠图。

以往的研究方法都是利用卷积神经网络CNN和循环神经网络RNN分别提取出视觉特征和文本特征，然后将这两种特征在通道上进行拼接，紧接着设计一个融合模块提取多模态特征，最后再送入分割模块进行分割，得到目标的分割结果。这些方法都取得了显著的效果，但是有两个主要问题没有得到有效解决。

首先，视觉特征和文本特征是两种不同的表征形式，在融合两种模态数据的时候，需要考虑模态之间的对齐问题，让文本中对应的单词与图像中对应的目标视觉特征进行对齐，才能保证分割效果的准确性。而多模态特征的难对齐问题在之前的方法中一直没有得到有效解决，这个问题会使得视觉特征和文本特征之间交互不充分，导致模型定位不准，准确性降低。其次，由于文本的表达方式具有高度随机性，不同的人表达同一种意思的语言有着很大的差别。而文本中可能会包含与目标不相关的单词，按照之前方法的处理方式，并不能有效抑制掉这些不相关的特征，这些特征会被视作前景分割到结果当中去，使得结果不准确。

发明内容

为了解决现有技术中，多模态特征之间的难对齐、难充分交互以及背景特征难抑制造成定位不准和模型精度降低的问题，本发明的目的在于提供一种基于多尺度特征选择性融合的指代分割方法，旨在较大程度提高分割精度。

根据本发明的第一方面，提供一种基于多尺度特征选择性融合的指代分割方法，其特征在于，分割模型包括DarkNet53主干网络(Redmon J,Farhadi A.YOLOv3:AnIncremental Improvement[J].arXiv e-prints,2018)、双向GRU(双向循环神经网络GateRecurrent Unit)、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块。方法包括：

步骤10：视觉特征提取，对于给定的RGB图像，先进行裁剪缩放，通过DarkNet53的编码器得到三种不同尺度的视觉特征F_v1、F_v2、F_v3。

步骤20：文本特征提取，对于给定的文本，先对进行分词并转换成向量的形式，然后使用双向GRU提取初步文本特征，最后基于文本注意力机制根据各个单词的重要性进行加权求和，得到文本特征F_l。

步骤30：通过基于语言主导的特征选择性跳转模块的融合部分先对F_v1、F_v2、F_v3进行选择，得到只与文本描述相关的视觉特征，然后通过基于语言主导的特征选择性跳转模块的跳转部分将选择后的特征进行跳转连接。

步骤30包括步骤31至步骤34。

步骤31：将F_v1、F_v2、F_v3输入至基于语言主导的特征选择性跳转模块的融合部分中，与F_l进行点积运算得到点积融合之后的特征

其中，W_l表示进行将F_l堆叠到跟视觉特征一样的宽度和高度，/>

表示1×1卷积层操作，Θ表示矩阵点乘运算，g表示Leaky-Relu激活函数。

步骤32：将

输入至空间融合分支得到空间注意力图/>

将/>

输入至通道融合分支得到通道注意力图/>

W_v、W_q、W_z表示1×1卷积层操作，F_SG表示Sigmoid操作，W_q表示Softmax操作，F_GP表示全局池化操作。

步骤33：根据注意力图与视觉特征相乘得到经过通道注意力选择的视觉特征

和经过空间注意力选择的视觉特征/>

然后得到只与文本描述相关的视觉特征/>

步骤34：通过基于语言主导的特征选择性跳转模块的跳转部分将

进行跳转连接，与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征

其中一层视觉特征上采样后的特征/>

concat表示在通道上进行拼接特征，/>

表示对/>

进行卷积操作，/>

表示对进行/>

卷积操作，Up表示上采样操作。

步骤40：通过二次选择模块对目标特征进行筛选定位，得到只包含目标的视觉特征

其中，再一次对视觉特征和文本特征进行点积运算之后的融合特征/>

其中，W_l′表示进行将F_l堆叠到跟视觉特征一样的宽度和高度，W′_v表示1×1卷积层操作。

步骤50：通过图像后处理分割模块得到分割预测值。

步骤60：使用训练数据对分割模型中的双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块和图像后处理分割模块进行训练，其中，训练使用的分割预测损失为

表示预测的值，训练使用的注意力对比损失为/>

y_i表示真实的分割图，P_n表示y_i中的正样本，训练使用的总损失函数为L＝αL_seg+βL_acl，α和β是超参，表示分割预测损失和注意力对比损失各自占比。

进一步的，本发明所提供的基于多尺度特征选择性融合的指代分割方法，其特征在于，步骤10还包括：步骤11：将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去；步骤12：提取出最后一层的视觉特征F_v1、第152层的视觉特征F_v2以及第69层的视觉特征F_v3。

Darknet53主干网络包括CBL模块和ResX模块，其中CBL模块包括卷积层、数据标准化层和Leaky-Relu激活层，ResX模块包括一个Res1模块、一个Res2模块、两个Res8模块和一个Res4模块。

进一步的，本发明所提供的基于多尺度特征选择性融合的指代分割方法，其特征在于，步骤20还包括：步骤21：对给定的文本进行分词得到T∈[w₁,w₂,…,w_n]，n表示文本的长度；步骤22：根据GloVe模型(Global Vectors for Word Representation模型)将分词向量化，得到长度为n的文本向量，将文本向量入到双向GRU网络，得到初步文本特征

t∈[1,2,3,...,n]，其中，/>

表示正向GRU操作，/>

表示反向GRU操作；步骤23：根据文本注意力机制得到文本特征/>

进一步的，本发明所提供的基于多尺度特征选择性融合的指代分割方法，其特征在于，步骤50还包括：

步骤51：对F_twice并行进行第一至第五并行操作，其中：第一并行操作为1×1卷积操作；第二并行操作为3×3卷积操作，空洞卷积率为6，填充为6；第三并行操作为3×3卷积操作，空洞卷积率为12，填充为12；第四并行操作为3×3卷积，空洞卷积率为18，填充为18；第五并行操作为池化操作，先进行全局平均池化操作，然后进行1×1卷积操作，最后进行上采样恢复到输入的尺寸。

步骤52：第一至第五并行操作结果在通道上进行拼接，最后进行1×1卷积操作降维。

步骤53：对降维结果迭代执行上采样两倍后再进行卷积处理的操作，直到尺寸与真实的分割图尺寸相当，得到分割预测结果。

根据本发明的第二方面，提供一种计算机设备，其特征在于，包括：存储器，用于存储指令；以及处理器，用于调用存储器存储的指令执行第一方面的基于多尺度特征选择性融合的指代分割方法。

根据本发明的第三方面，提供一种计算机可读存储介质，其特征在于，存储有指令，指令被处理器执行时，执行执行第一方面的基于多尺度特征选择性融合的指代分割方法。

与现有技术相比，本发明所构思的上述技术方案至少具有以下有益效果：

1、设计了一个基于语言主导的特征融合模块，该模块同时在通道和空间两个层面上对视觉特征和文本特征进行融合，让模态之间进行充分的信息交互；

2、基于上述融合模块，提出了二次选择机制并设计了注意力对比损失函数，他们加强了文本对视觉特征的引导并能够准确定位出目标在图像中的位置。这使得不相关的背景特征得到抑制，提高了模型的精度；

3、设计了一个基于多尺度选择性融合的指代分割框架，设计思想是两次选择，第一次选择出与文本相关的视觉特征，第二次选择选择只包含目标的视觉特征。通过这种逐步选择的思想，降低了多模态特征直接分割的难度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法示意图。

图2是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法与在先技术对比示意图。

图3是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法网络结构示意图。

图4是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法语言主导特征融合模块示意图。

图5是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法消融实验示意图。

图6是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法分割结果示意图。

图7是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法IoU结果对比示意图。

图8是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法Prec@X结果对比示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明涉及的一种基于多尺度特征选择性融合的指代分割方法，其特征在于，本发明的分割模型MDSFNet包括DarkNet53主干网络(Redmon J,Farhadi A.YOLOv3:AnIncremental Improvement[J].arXiv e-prints,2018)、双向GRU(双向循环神经网络GateRecurrent Unit)、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块；

如图1所示，方法包括步骤10至步骤50。

该步骤使用DarkNet53作为骨干网络来提取丰富的多尺度视觉特征。

在一些实施例中，步骤10还包括：步骤11：将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去；步骤12：提取出最后一层的视觉特征F_v1、第152层的视觉特征F_v2以及第69层的视觉特征F_v3。

在一些实施例中，步骤20还包括：步骤21：对给定的文本进行分词得到T∈[w₁,w₂,…,w_n]，n表示文本的长度；步骤22：根据GloVe模型(Global Vectors for WordRepresentation模型)将分词向量化，得到长度为n的文本向量，将文本向量入到双向GRU网络，得到初步文本特征

t∈[1,2,3,...,n]，其中，/>

表示正向GRU操作，/>

我们将h_t输入到文本注意力机制当中，让每一种单词都得到不同的关注度，符合分割目标的单词权重更大一点，以减小不相关词汇对分割的影响。

步骤10的三个视觉特征包含着大量丰富的图像特征，我们通过设计的基于语言主导的特征融合模块对其进行选择，使得文本特征和视觉特征能够进行充分地融合，并得到只与文本描述相关的视觉特征，然后将其跳转连接到模型的解码器部分。

具体地，步骤30包括步骤31至步骤34。

这种点积运算类似于做了一种初步的相似性度量，能够获得更为充分的细节信息。

其中，W_l表示进行将F_l堆叠到跟视觉特征一样的宽度和高度，

表示1×1卷积层操作，⊙表示矩阵点乘运算，g表示Leaky-Relu激活函数。

融合部分有两个分支，一个分支关注空间，一个分支关注通道，两个分支最后都会生成一个注意力图。

步骤32：将

输入至空间融合分支得到空间注意力图/>

将/>

输入至通道融合分支得到通道注意力图/>

/>

和经过空间注意力选择的视觉特征/>

然后得到只与文本描述相关的视觉特征/>

进行跳转连接，与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征/>

其中一层视觉特征上采样后的特征/>

concat表示在通道上进行拼接特征，/>

表示对/>

进行卷积操作，/>

表示对进行/>

卷积操作，Up表示上采样操作。

其中，W′_l表示进行将F_l堆叠到跟视觉特征一样的宽度和高度，W′_v表示1×1卷积层操作。

在步骤30中，我们从浅层到深层多尺度提取了语义信息十分丰富的视觉特征，他们是只与文本相关的特征。为了能够选择出只包含目标的视觉特征，我们需要进行二次选择。并且，为了抑制不相关的背景特征，我们设计了一个注意力对比损失用于步骤60的训练，从而使得分割精度更高。

步骤50：通过图像后处理分割模块得到分割预测值。

由于视觉特征非常深，而深度越深，CNN卷积操作丢失掉的细节信息就越多。因此，我们使用多尺度特征提取和空洞卷积来获取丰富的像素信息并扩大感受野，使得模型分割效果更好。

具体的，在一些实施例中，步骤50还包括步骤51至步骤53。

表示预测的值，训练使用的注意力对比损失为/>

步骤60包括针对二次选择机制设计的一个注意力对比损失函数。注意力对比损失函数可以对正负样本进行对比学习，让正样本与正样本、负样本与负样本之间靠近，正样本与负样本之间远离，以达到对不相关背景特征进行抑制，提升模型分割效果的作用

我们对本发明提供的基于多尺度特征选择性融合的指代分割方法的检测精度进行验证，具体如下：

我们在三个基准数据集上对我们的结果进行了测试，分别是RefCOCO，RefCOCO+和G-Ref。其中，RefCOCO数据集包含19,994张图像，包含50,000个对象和142,210个对应的文本表达式。图像和文本表达式采集自MSCOCO和双人互动游戏，每个表达式的平均长度为3.61个单词，每张图像包含多个对象，对象类别相同。它分为训练、验证、测试A和测试B，分别有120,624、10,834、5,657和5,095个样本；RefCOCO+包含19,992张图像，包含49,856个对象和141,564个对应的文本表达式。与RefCOCO类似，这些数据从MSCOCO收集并分为训练、验证、测试A和测试B，分别使用120,191、10,758、5,726和4,889个样本。与RefCOCO不同的是，RefCOCO+中的表达式包含更多的外观而不是绝对位置。与RefCOCO不同的是，RefCOCO+禁止玩家从计算机的角度使用位置词来描述目标；G-Ref数据集也是从MSCOCO收集的，包含26,711张图像，54,822个对象的104,560个文本表达式。与基于互动游戏收集的RefCOCO和RefCOCO+不同，G-Ref数据集是以Amazon Mechanical Turk上发布的任务的形式收集的，每个图像包含2到4个具有相同对象类的对象。由于没有时间限制，G-Ref有一个更复杂和完整的文本表达式。

为了更好地评估模型性能，我们使用mIoU和Prec@X这两个指标来评价我们的模型。mIoU表示预测的结果和mask图像的交并比，Prec@X通过测量测试图像中高于阈值X的比例，对模型进行更精确的比较。我们设X∈{0.5,0.6,0.7,0.8,0.9}。这个指标关注的是模型的定位能力。我们设置图像大小为416×416，RefCOCO、RefCOCO+和G-Ref各自文本长度为15,15和20，训练采用Adam作为优化器，初始化学习率设置为0.001，设置30轮之后衰减权重系数为0.1，总共训练50轮，得到最终的指代分割模型。

我们对融合模块、二次选择机制和对比注意损失进行了消融实验，结果如图5所示。可以看到融合模块和二次选择机制相比于baseline都提高了大约5％的精度，二次选择机制提高的更多，而我们提出的对比注意损失也优化了模型的训练精度。

在图6中，1-3行分别对应RefCOCO、RefCOCO+和G-Ref的测试图。由图(a)和(b)文本描述和分割结果可以知道，我们的模型关注到了物体的颜色、纹理等特征。由图(c)和(d)可以知道，模型关注到了文本当中的比较级单词，可以对各个物体的位置关系进行判断。而由图(e)和(f)可以知道，对于较为复杂的文本表达式，我们的模型也能分割出较好的效果，说明对文本鲁棒性较强。

图7和图8则从IoU和Prec@X两个指标层面表明了我们模型的精度，是超越了之前的方法，达到了一个最好的效果。

综上所述，在指代分割的实际应用中，多模态特征之间的难对齐难充分交互以及背景特征难抑制的问题没有得到有效解决。因此本实施设计了一种基于文本引导的融合模块和二次选择机制，得到基于多尺度特征选择性融合的指代分割方法，为指代分割应用领域如机器人交互控制和智能抠图等方向提供了一种精度较高的解决方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。