CN115331005A

CN115331005A - 一种基于深监督融合和特征平滑的指向性物体分割方法

Info

Publication number: CN115331005A
Application number: CN202210955003.5A
Authority: CN
Inventors: 俞俊; 杨文杰; 朱素果
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-11

Abstract

本发明公开了一种基于深监督融合和特征平滑的指向性物体分割方法。本发明采用深监督特征融合，能够在特征融合与上采样过程中对特征充分监督，同时可以有效结合不同细粒度特征信息，使的最终获得的掩码即可以保留全局特征下的位置信息，也可兼顾局部特征中的细节信息从而有效的提高分割的准确率，采用特征平滑损失函数，可以有效降低特征在融合与上采样过程的大幅波动的可能性，提升最终生成分割掩码的一致性，保证了模型训练过程的稳定性。基于不同的backbone可采用一些训练技巧，选择对应合理的网络参数、优化算法以及学习率的设置，从而提高了指向性物体分割的准确率。

Description

一种基于深监督融合和特征平滑的指向性物体分割方法

技术领域

本发明涉及指向性物体分割领域，特别是涉及基于端到端的指向性物体分割方法。

背景技术

伴随着深度卷积神经网络在计算机视觉中的大放异彩，在多模块领域深度卷积神经网络也被用于指向性物体理解任务，其中指向性物体分割隶属于其中一个分支。目前主流的指向性物体分割网络架构主要由在两个独立模态编码器模块与一个模态融合解码其构成，目前由该架构衍生出诸多网络模型在该领域公用数据集上取得较好的性能，从而有效证明了该架构设计在指向性物体分割任务上的有效性。在指向性物体分割任务中，对视觉特征的提取与跨模态特征的精炼都是基于卷积神经网络，由于卷积运算的方法的局限性，不能有效的实现准确的特征全局与长程信息交互，同时又考虑到跨模态对齐过程中，不同模态间的特征空间差异较大，因此最终的分割精度依然存在较大的提升空间。指向性物体分割仍然是目前跨模态领域一个极具挑战性的任务。

当前主流的指向性物体分割同分割任务有一定的相似性，在截取文本编码模块后，网络结构类似于UNet，在解码器的上采样过程中，一般使用视觉特征与多模态特征进行拼接，随后进行卷积与双线性插值进行采样，在上采样过程中，不同细粒度的多模态特征所包含的信息重点存在一定差异，细粒度低的特征可以囊括更加丰富的全局信息，有利于确定分割对象的位置定位，细粒度高的特征具备更丰富的局部信息，有利于修正分割对象边缘的细节。本发明使用深度监督的方式，使的最终的分割过程中可以有效的利用不同的细粒度特征，同时添加了特征平滑损失函数，使得多模态特征在上采样过程中更加平滑。

发明内容

本发明提供了一种基于深监督融合和特征平滑的指向性物体分割方法。该方法采用深监督融合和特征平滑，通过在端到端模型的编码器部分组织特征信息交互协同训练，提取跨模态特征与原始图像信息中的全局信息交互与局部信息交互特征，特征平滑模块促使不同细粒度特征信息在融合上采样的过程更好的进行交互同时降低基于不同细粒度特征所产生的分割掩码之间的差异性。实验结果表明该方法能够在不同数据集上都能有效的提升向性物体分割的准确率。

一种基于深监督融合和特征平滑的指向性物体分割方法，其步骤如下：

步骤1.数据集获取；本实现所采用三种均基于MSCOCO数据集的指称表达式数据集；

所述的数据获取中的3个数据集分别是Refcoco数据集，训练集包含16994张图像与42404个表达式，验证集包含1500张图像与3811个表达式，测试集A包含750张图像与1975个表达式，测试集B包含750张图像与1810个表达式。Refcoco+数据集，该数据集完全基于对象的外观描述，不包含对象的位置信息，训练集包含16992张图像与42278和表达式，验证集包含1500张图像与3805个表达式，测试集A包含750张图像与1975个表达式，测试集B包含750张图像与1798个表达式。Refocog数据集，该数据集的引用表达式平均长度为8.4个单词，训练集包含21899个图像与42226个表达式，验证集包含1300张图像与2573个表达式，测试集包括2600张图像与5023个表达式。

步骤2.数据预处理；

原始数据集仅包含MSCOCO的图像与Refcoco、Refcoco+、Refcocog中的引用表达式以及对应用于生成分割掩码的注解，通过数据集中的注解与图像通过掩码生成程序生成标准事实分割掩码。

步骤3.构建基于深监督融合和特征平滑的指向性物体分割模型；

在原指向性物体分割模型的基础上添加深监督融合模块；深监督融合模块添加于原指向性物体分割模型的解码上采样模块后，解码过程中参与上采样过程的所有特征作为深监督融合模块的输入，将深监督融合模块的输出作为最终的模型预测结果。

步骤4.损失函数；

损失函数的作用是用于衡量模型的预测值与分割样本标签之间的差异，以及衡量特征在融合上采样过程中的平滑程度；在步骤3的深监督融合模块下添加特征平滑损失函数，其余部分均采用交叉熵损失函数；

步骤5.网络训练与测试；

进一步的，所述的原指向性物体分割模型为所有满足采用类UNet作为网络架构的指向性物体分割模型；

进一步的，在步骤3所述的模型中所添加的深监督融合模块，具体实现如下：

深监督融合模块部分：

3-1.取在原指向性物体分割模型的网络骨架结构中解码阶段的上采样过程中的所有特征块，将特征块分别送入批正则化(BatchNormalization层)以及alpha值为0.1的LeakyReLU激活函数映射得到处理后的特征块，再对新得到的特征块分别使用1×1的卷积核进行处理，卷积核步长定义为1，保留特征的高度H与宽度W，输出的特征的频道数C为1得到不同尺寸对应预测分割掩码；

3-2.分别将步骤3-1得到的预测分割掩码进行线性插值上采样，使的不同尺寸的预测分割掩码与步骤2获得的标准事实分割掩码的尺寸相同，实现所有预测分割掩码尺寸统一，分别计算预测分割掩码与标准事实分割掩码的交叉熵作为部分损失函数值；

3-3.将不同尺寸特征经过步骤3-2上采样后的所得到预测的特征掩码进行拼接，对拼接所得到的掩码块送入一维最大池化层所输出的最终掩码做为模型最后的预测结果；

进一步的，步骤4所述的损失函数由以下部分组成：

特征平滑损失函数部分：

首先求取从深监督融合模块中所得到的不同细粒度的分割掩码的均值如公式(1)所示。

其中P_n为其中第n个细粒度输出分割掩码矩阵，N为不同细粒度掩码总数。

随后计算不同细粒度预测分割掩码与所有预测分割掩码均值的KL散度

作为正则化损失项如公式(2)所示。

其中

是指P_average中为与像素ij处的值，

是指P_n中像素ij处的值。

此处

反应了第n个掩码在像素ij位置上的不确定性。取

作为该像素ij的权重，列出特征平滑损失函数的计算方式如公式(3)。

其中λ取0.2，N为不同细粒度掩码总数。

最终模型的总损失函数如下所示公式(4)所示。

L＝∑_nλ_nL_n+L_smooth (4)

其中L_n值为第n个预测分割掩码P_n与标准事实的分割掩码P_gt之间的交叉熵。

进一步的，步骤5具体方法如下：

使用步骤1中的数据集中的图像与引用表达式作为输入，步骤2所生成的分割掩码作为标准事实用于训练步骤3构建的网络模型；在每轮训练间隔中，评估本轮训练所得到的模型在验证集上的性能，评估采用平均交并比作为性能指标，整个训练过程中结束后将会采用在验证集上历史记录中性能最优的作为最佳模型。

训练过程中定义Adam优化器，需要给模型设定一个合理的学习率，考虑到不同模型采用不同的网络骨架结构，因而对于学习率的敏感程度大不相同，结合骨架结构定义合适的初始学习率l₀，模型在训练的过程中，学习率随批次数增加而减缓，每10个批次学习率调整为原来的0.5，从而有效抑制由于学习率大导致的准确率振荡现象，从而找到更优的网络参数；同时采用L2正则化来有效降低过拟合；

学习率衰减公式为如公式(5)：

l_p＝l₀×0.5^epoch//10 (5)

上述式中，p为训练批次数(epoch)。定义L2正则化项的超参数采用的是0.0005。

进一步的，步骤5所述的评估指标如下：

采用平均交并比作为最终评估用以衡量模型的最终分割性能的体现。平均交并比是指首先计算每张预测分割图与真实分割图不同类别的交并比，并求取其均值；再把所有测试集的均值交并比相加，再除以测试图像的数量得到平均交并比；该项评估指标能够有效的评测模型分割的精度。

本发明的有益效果如下：

本发明基于深监督融合和特征平滑方法对指向性物体图像进行分割，该方法采用深监督特征融合，能够在特征融合与上采样过程中对特征充分监督，同时可以有效结合不同细粒度特征信息，使的最终获得的掩码即可以保留全局特征下的位置信息，也可兼顾局部特征中的细节信息从而有效的提高分割的准确率，采用特征平滑损失函数，可以有效降低特征在融合与上采样过程的大幅波动的可能性，提升最终生成分割掩码的一致性，保证了模型训练过程的稳定性。基于不同的backbone可采用一些训练技巧，选择对应合理的网络参数、优化算法以及学习率的设置，从而提高了指向性物体分割的准确率。

附图说明

图1是本发明实施例流程图。

图2是本发明实施例的网络框架示意图，以MCN作为backbone为实例。

图3是本发明实施例的网络框架示意图，以VLT作为backbone为实例。

图4是模型添加深监督融合模块前后的分割效果对比图(以MCN为例)。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于深监督融合和特征平滑的指向性物体分割方法，其步骤如下：

步骤2.数据预处理；

步骤3.构建基于深监督融合和特征平滑的指向性物体分割模型；在VLT的基础上添加深监督融合模块；深监督融合模块添加于VLT的Transformer解码模块后，解码过程中参与上采样过程的所有特征,也就是Transformer解码过程每一层的输出与输入都作为深监督融合模块的输入，将深监督融合模块的输出作为最终的模型预测结果。

深监督融合模块，具体实现如下：

3-1.取Transformer解码过程每一层的输出与输出的所有特征块，将特征块分别送入批正则化(BatchNormalization层)以及alpha值为0.1的LeakyReLU激活函数映射得到处理后的特征块，再对新得到的特征块分别使用1×1的卷积核进行处理，卷积核步长定义为1，保留特征的高度H与宽度W，输出的特征的频道数C为1得到不同尺寸对应预测分割掩码；

步骤4.定义损失函数，此处采用两种损失函数，其中交叉熵存世函数用于评估预测分割掩码与标准真实分割掩码之间的差异，特征平滑损失函数用于衡量特征在融合上采样过程中的平滑程度。其中交叉熵损失函数计算方式如公式(6)：

其中w，h是图像的维度，p(x,y)对应于图像中的像素，p'(x,y)表示特定位置(x，y)的输出预测。

特征平滑损失函数部分,具体实现如下：

首先求取从深监督融合模块中所得到的不同细粒度的分割掩码的均值如公式(7)所示：

其中P_n为其中某个细粒度输出分割掩码矩阵。

随后计算不同细粒度分割掩码与掩码均值的KL散度d_nij作为正则化损失项如公式(8)所示：

其中

是指P_average中s位置处的值，

是指P_n中s位置处的值。此处

反应了掩码n在像素ij位置上的不确定性。取

作为该像素点的权重，列出特征平滑损失函数的计算方式如公式(9)：

其中λ取0.2，N为不同细粒度掩码总数。

步骤5.使用步骤1中的数据集中的图像与引用表达式作为输入，步骤2所生成的分割掩码作为标准事实用于训练步骤3中的网络模型。采用Adam优化器进行梯度更新,考虑到不同的模型或许会由于不同的backbone结构因而对于学习率的敏感程度大不相同，当采用VLT网络模型作为网络骨架模型为例子,定义初始学习率为0.001，模型在训练的过程中，学习率随批次数增加而减缓，每10个批次学习率调整为原来的0.5，从而有效抑制由于学习率较大导致的准确率振荡现象，从而找到更优的网络参数；同时采用L2正则化来有效降低过拟合；

学习率衰减公式为如公式(10)：

l_p＝l₀×0.5^epoch//10 (10)

上述式中，p为训练批次数(epoch)。定义L2正则化项的超参数采用的是0.0005。完整训练过程总共进行80个训练批次数。

每一轮训练集训练完成后，需要在验证集上做一次测试，评测采用的指标为平均交并比作为最终评估用以衡量模型的最终分割性能的体现。平均交并比是指首先计算每张预测分割图与真实分割图不同类别的交并比，并求取其均值；再把所有测试集的均值交并比相加，再除以测试图像的数量得到平均交并比；该项评估指标能够有效的评测模型分割的精度。实验采用模型在添加深监督与特征平滑模块前后性能作为效果对比体现。图2是本发明实施例的网络框架示意图，以MCN作为backbone为实例。图3是本发明实施例的网络框架示意图，以VLT作为backbone为实例。

实验指标对比如下表1，分割效果对比图见附图4。

表1 MCN/VLT模型再添加本发明前后指标对比图。