CN112489050A

CN112489050A - 一种基于特征迁移的半监督实例分割算法

Info

Publication number: CN112489050A
Application number: CN202011466225.8A
Authority: CN
Inventors: 陈彦如; 廖俊华; 杨学文; 刘诗佳; 张媛媛; 魏亮雄; 赵万槟; 梁刚; 许春; 张磊; 陈良银
Original assignee: Chengdu Yishuqiao Technology Co ltd
Current assignee: Chengdu Yishuqiao Technology Co ltd
Priority date: 2020-12-13
Filing date: 2020-12-13
Publication date: 2021-03-12

Abstract

本发明公开了一种基于特征迁移的半监督实例分割模型。该模型以Mask R‑CNN网络为基础，构建了一个基于逆卷积神经网络的特征迁移模块，将Mask R‑CNN目标检测分支学习的图像视觉特征转化为用于分割预测的特征。为了解决Mask R‑CNN目标检测分支输出特征分辨率与分割预测分支特征分辨率不匹配的问题，该模型的特征迁移模块中使用了逆卷积网络层对输入特征进行上采样。该模型通过特征迁移过程能有效提升Mask R‑CNN基准模型的半监督实例分割精度。

Description

一种基于特征迁移的半监督实例分割算法

一、技术领域

本发明涉及图像分割技术领域，尤其涉及图像分割中的实例分割领域，是一种基于特征迁移的半监督实例分割算法。

二、背景技术

实例分割是自动驾驶、生物医学图像处理和机器人视觉控制等研究领域的关键技术。它需要对图像中的指定目标实例同时进行定位、分类和区域分割。实例分割是一项具有很大应用潜力，致力于改善人们日常生活的热门研究，并在生活场景和技术研究中有许多重要应用。例如对俯瞰城市地表图像进行分割用于体育场地改进、生物医学中的显微图像分割，利用机器视觉控制机器人抓取物体以及对自动驾驶的车载图像实例分割用于区别行人、道路和车辆等。

近些年来，深度学习利用其具有自动化特征提取的优势，在许多图像处理任务上取得了突破性的进展。在实例分割算法方面，基于监督学习的分割模型，如Mask R-CNN(HeK,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings of the IEEEinternational conference on computer vision.2017:2961-2969.)和MaskLab(Chen LC,Hermans A,Papandreou G,et al.Masklab:Instance segmentation by refiningobject detection with semantic and direction features[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:4013-4022.)，在COCO、Cityscapes等公开数据集上达到了显著的分割效果。监督学习实例分割模型需要利用具有完整实例分割标注的图像数据集，才可以实现较好的分割效果。然而，收集实例分割标注需要消耗很多人力和时间成本。例如，COCO数据集单人标注一个物体目标的分割标签平均需要79秒左右，并且此后还需要额外分配人员对分割标注进行检查。COCO数据集的分割标注时间消耗是目标边框标注的15倍左右。

为了解决实例分割标注难以收集的困境，一些研究尝试结合目标边框、图片类别、目标数目等“弱”(相对易于收集的)标签完成弱监督实例分割。经过近年来的研究积累，虽然弱监督算法的性能已经有所提升，但当前最好的弱监督实例分割算法，例如IRNet(Laradji I H,Vazquez D,Schmidt M.Where are the Masks:Instance Segmentationwith Image-level Supervision[J].arXiv preprint arXiv:1907.01430,2019.)，与全监督实例分割算法(例如Mask R-CNN等)的性能差距仍然比较大。

近些年出现的半监督实例分割算法结合了全监督算法和弱监督算法的优势，利用半监督实例分割数据集(部分图像数据具有弱监督标签或无任何标签标注，其余图像数据具有完整实例分割标签的数据集)，在降低数据集标注难度的同时，提升实例分割算法模型的预测精度。半监督实例分割算法分为两类：1)基于伪分割标签生成的算法；2)基于迁移学习的算法。基于伪分割标签生成的算法，例如Li等人提出的算法(Li Q,Arnab A,Torr P HS.Weakly-and semi-supervised panoptic segmentation[C]//Proceedings of theEuropean Conference on Computer Vision(ECCV).2018:102-118.)以及Bellver等人提出的算法(Bellver M,Salvador A,Torrres J,et al.Budget-aware semi-supervisedsemantic and instance segmentation[J].arXiv preprint arXiv:1905.05880,2019.)，需要设计特殊的流程以生成实例分割伪标签，并且其仅针对某几种“弱标签”设计，因此算法对于具有不同弱标注类型的图像数据集的扩展性不高。基于迁移学习的算法，例如Hu等人提出的算法(Hu R,Dollár P,He K,et al.Learning to segment every thing[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:4233-4241.)，可以从不同源任务中“迁移”模型所学习的知识以提高实例分割预测精度，算法具有很好的扩展性。然而，由于研究起步较晚，基于迁移学习的半监督实例分割算法的设计思路仍然比较单一。

三、发明内容

本发明致力于拓展半监督实例分割研究，通过设计基于迁移学习的半监督实例分割算法，在Mask R-CNN基准模型基础上建立特征迁移分支，将目标检测分支学习的物体视觉特征用于提升分割预测性能。

本发明的目的是这样达到的：

通过逆卷积(以及卷积)网络模块将Mask R-CNN模型目标检测分支最后一个卷积网络层与分割预测分支原逆卷积网络层进行连接，以建立特征迁移半监督实例分割模型。然后利用半监督实例分割数据集对该模型进行训练，以实现将目标检测分支学习的物体视觉特征用于提升分割预测的性能。

具体做法是：

(1)建立特征迁移半监督实例分割模型

本发明提出的特征迁移半监督实例分割模型称为FT-Mask(Feature TransferMask R-CNN)，图1展示了FT-Mask模型的整体结构，模型以实例分割领域现有性能较好的全监督模型Mask R-CNN为基础网络，中间的特征迁移模块是本发明提出的网络结构创新。从图中可以看出，整个网络主要分为共享网络前部、上半部分目标检测分支、下半部分分割预测分支和中间部分的特征迁移模块。其中共享网络前部用于提取图像的视觉特征，随后RoIAlign层将这些视觉特征提取为感兴趣区域(Region of Interest，RoI)特征。目标检测分支和分割预测分支分别将RoI特征用于目标检测预测和目标分割掩膜预测。

模型的目标检测分支在训练时通过具有检测标签的A∪B数据集(A数据集的完整实例分割标注包含了目标检测标注)进行学习，分割预测分支通过含有分割标签标注的A数据集进行学习。FT-Mask模型在训练时同时利用了完整实例分割标注的数据和弱标注的数据，因此其训练过程为半监督训练。

在图1中，特征迁移模块将目标检测分支卷积网络层输出的特征图作为输入，对特征图中的视觉知识进行“迁移”后得到输出特征图。特征迁移模块输出的特征图和原分割预测特征图通过对应通道相加操作连接后作为分割分支中逆卷积网络层的输入。分割预测分支的逆卷积层将输出特征图尺寸放大至原来的两倍，其后是用于分割预测的卷积核大小为1×1的卷积层。对FT-Mask模型进行半监督训练后，其特征迁移模块就可以有效地将目标检测分支学习的知识转化为用于分割预测的知识。

(2)建立特征迁移模块

本发明提出使用特征迁移方法实现知识迁移，并设计了一个特定的特征迁移模块以模拟知识迁移函数。图2是特征迁移模块的结构示意图，图中上半部分是由多个神经网络层构成的基本特征迁移模块。基本特征迁移模块两端为逆卷积网络层，中间的省略号部分为多个卷积网络层。图2中下半部分是由单个神经网络层构成分割聚合模块，此网络层只有一个输出通道，其输出的单通道特征图“聚合”了目标检测分支输出特征所有通道的信息。上下两个部分的输出特征连接时，分割聚合模块输出的单通道特征图与基本特征迁移模块输出特征图的每一个通道对应相加。为了解决Mask R-CNN基础网络目标检测分支特征分辨率和分割预测分支特征分辨率不匹配的问题，基本特征迁移模块的第一个网络层和分割聚合模块的单个网络层都由逆卷积层实现。

特征迁移模块模拟了一个特殊的特征知识迁移函数，如公式1所示。公式1中的Tbase和Tagr分别代表基本迁移模块和分割聚合模块，fdet和fseg则分别代表了检测特征和分割特征。

f_seg＝T_base(f_det)+T_agg(f_det) (1)

图2中分割聚合模块的设计受到了MaskX R-CNN模型中“类不可知”(classagnostic)的分割预测分支启发，但其主要实现类不可知的特征迁移而非分割预测。类不可知指Mask R-CNN模型的分割预测分支输出了一个形状为1×M×M的分割图，其中M代表了分割图的高度值和宽度值，1代表了针对不同的目标类别总数分割预测图仅生成一个整体的前景分割结果。FT-Mask模型的分割聚合模块针对特征迁移过程生成1×h×w的输出特征图，其中h和w分别代表特征图的高度和宽度。分割聚合模块的输出特征图增加了特征迁移过程知识转换的多样性。

特征迁移模块设计过程中解决了FT-Mask模型的基础网络Mask R-CNN的目标检测分支输出特征与分割预测分支特征分辨率不匹配的问题。图3展示了Mask R-CNN模型目标检测分支网络头的结构，图中的7×7和1×1代表了不同特征图或不同卷积核的高度×宽度，C1和C2代表了不同特征图的通道数。如图3所示，目标检测分支的第一个卷积网络层通过7×7大小的卷积核将分辨率为7×7的输入特征图下采样为分辨率1×1的特征图。然后，卷积核为1×1大小的卷积网络层将特征进行转化，并输出分辨率为1×1的特征图。图3中目标检测分支卷积网络层输出的1×1×C2大小的特征图即特征迁移模块的输入特征图。特征迁移模块将目标检测分支的输出特征转化为用于分割预测的特征，但分割预测所需的特征图分辨率较高(其分辨率通常为14×14)，因此特征迁移模块还需要做相应的设计以解决分辨率不匹配的问题。

为解决上述问题，特征迁移分支通过逆卷积网络层将输入特征上采样到分割预测所需特征大小。逆卷积也称反卷积或转置卷积(Transposed Convolution)，是一种常用的特征图上采样方法。其它常用的特征图上采样方法还包括双线性插值(bilinearinterpolation)、上采样(up-sampling)和上池化(unpooling)。上述其它方法都通过固定的计算方法得到输出特征图，而逆卷积网络层在上采样预测时通过自适应的网络参数和卷积运算得到输出特征图。在网络模型的训练过程中，逆卷积网络层的参数通过误差反向传播(back propagation,BP)得到更新，因此其相对于其它上采样方法精度更高。

四、附图说明

图1FT-Mask模型的整体结构

图2特征迁移模块结构

图3Mask R-CNN基准模型目标检测分支网络头的结构示意图

五、具体实施方式

本发明需要首先建立神经网络模型，然后在半监督实例分割数据集上进行训练，最后对图像进行实例分割。模型可以通过keras、tensorflow等神经网络框架编码实现，并利用高性能GPU(Graphic Processing Unit)服务器进行训练。

算法模型的骨架卷积神经网络为resnet50(residual networks)网络头和特征金字塔网络(Feature Pyramid Networks，FPN)网络，其中resnet50网络头使用了在ImageNet图像分类数据集上训练后得到的网络参数。Resnet50卷积网络将输入图片提取为各种视觉特征，特征金字塔网络可以对这些不同层次和分辨率的视觉特征进行融合。特征迁移分支连接在目标检测网络分支的最后一个卷积网络层和分割网络分支的逆卷积网络层之间，随后迁移分支输出特征与原分割预测特征一起参与分割预测。

基本特征迁移模块和分割聚合模块通过一个逐层的加法操作整合在一起，其中基本特征迁移模块输出一个大小为h×w×C的特征图，而分割聚合模块输出h×w×1的特征图。h和w分别代表特征图的高度和宽度，C代表特征图的通道数。逐层的加法操作指对于基本迁移模块输出特征图的每一个通道，将分割聚合模块输出的单通道特征图与之相加，整个迁移模块输出特征图的大小为h×w×C。FT-Mask模型在具体实现时将h和w都取值为14，C取值为256。

参考Mask R-CNN模型的分割预测分支结构，FT-Mask模型在特征迁移模块的逆卷积网络层和卷积网络层后添加一个BatchNorm网络层以及一个Relu激活层。BatchNorm网络层解决了神经网络输出特征概率分布发生变化(Internal Covariate Shift,ICS)的问题，使得神经网络变得更容易训练。Relu激活层为神经网络输出提供了非线性变换，并且抑制了输出特征的负向激活。

FT-Mask模型的编码实现过程中，在模型的推断(inference)阶段需要解决由MaskR-CNN基础模型目标检测分支输出特征数量和分割预测分支输入特征数量不同带来的问题。Mask R-CNN模型在其推断阶段根据目标检测的结果首先通过NMS算法对RPN网络输出的RoI进行了过滤，然后将对应的RoI特征作为分割预测分支的特征输入(特征数量默认不超过100个)，而其目标检测分支输入特征为正常数量(默认1000个)。FT-Mask模型的特征迁移分支将目标检测特征作为输入，其输出特征数量也与目标检测分支一致，所以迁移分支的输出特征与分割预测分支的特征存在数量不匹配的问题。

FT-Mask模型在推断阶段自定义了特征过滤层对迁移分支的输出特征进行过滤。特征过滤层采用与Mask R-CNN的RoI过滤过程相同的策略，并且过滤了相同索引下的输出特征。特征过滤层保留的迁移特征与分割预测分支输入特征的数量和索引一致，因此增加该特征过滤层解决了上述问题。

半监督数据集划分：

可对COCO实例分割数据集进行半监督数据集划分，随后进行半监督实例分割训练。例如选择25％具有完整实例分割标签的COCO训练集数据作为子训练集A，并额外增加了随机25％具有目标检测标签的COCO训练集数据作为子训练集B，并将COCO的实例分割验证集作为本章实验的测试数据集。

模型训练方法：

FT-Mask模型的阶段性训练过程首先利用合并后的A、B数据集训练模型的目标检测分支、FPN和RPN，使目标检测分支可以输出较好的视觉特征(第一阶段)；然后用A数据集训练模型的分割预测分支以及特征迁移分支(第二阶段)。阶段性训练过程的第二阶段中，分割分支的训练受益于多任务学习共享网络的特征，目标检测分支首先训练好也更有利于特征迁移模块的特征转换学习。

FT-Mask模型训练的第二个过程采用了联合训练的策略。该策略将FT-Mask模型的目标检测分支、分割预测分支、特征迁移分支，FPN和RPN在A数据集上进行联合训练，以优化网络模型的整体性能。FT-Mask模型的基础网络采用了多任务学习结构，共享了网络参数，因此联合训练的策略使多个网络分支在学习时可以相互促进。

本发明的用户使用场景举例：

场景一：在实例分割应用开发时，用户不需要对新收集的图像数据进行完整实例分割标注，可以对部分图像标注实例分割标签，其余部分图像标注目标检测标签。在这种场景下，既可以减少应用开发的数据集标注成本，又可以实现较好的图像实例分割效果。

Claims

1.一种基于特征迁移的半监督实例分割算法，其特征在于：

通过在Mask R-CNN模型目标检测分支最后一个卷积网络层与分割预测分支原逆卷积网络层之间建立特征迁移模块，以实现特征迁移半监督实例分割；利用半监督实例分割数据集对该模型进行训练，将目标检测分支学习的物体视觉特征用于提升分割预测的性能；

具体做法是：

建立特征迁移半监督实例分割模型；本发明提出的特征迁移半监督实例分割模型称为FT-Mask(Feature Transfer Mask R-CNN)；整个模型主要分为共享网络前部、上半部分目标检测分支、下半部分分割预测分支和中间部分的特征迁移模块；其中共享网络前部用于提取图像的视觉特征，随后RoIAlign层将这些视觉特征提取为感兴趣区域(Region ofInterest，RoI)特征；目标检测分支和分割预测分支分别将RoI特征用于目标检测预测和目标分割掩膜预测；

模型的目标检测分支在训练时通过具有检测标签的A∪B数据集(A数据集的完整实例分割标注包含了目标检测标注)进行学习，分割预测分支通过含有分割标签标注的A数据集进行学习；FT-Mask模型在训练时同时利用了完整实例分割标注的数据和弱标注的数据，因此其训练过程为半监督训练；

模型特征迁移模块将目标检测分支卷积网络层输出的特征图作为输入，对特征图中的视觉知识进行“迁移”后得到输出特征图；特征迁移模块输出的特征图和原分割预测特征图通过对应通道相加操作连接后作为分割分支中逆卷积网络层的输入；分割预测分支的逆卷积层将输出特征图尺寸放大至原来的两倍，其后是用于分割预测的卷积核大小为1×1的卷积层；对FT-Mask模型进行半监督训练后，其特征迁移模块就可以有效地将目标检测分支学习的知识转化为用于分割预测的知识；

2.如权利要求1所述的基于特征迁移的半监督实例分割算法，其特征在于：建立特殊的特征迁移模块：

本发明提出使用特征迁移方法实现知识迁移，并设计了一个特定的特征迁移模块以模拟知识迁移函数；本发明设计的特征迁移模块由基本特征迁移模块和分割聚合模块构成；其中，基本特征迁移模块两端为逆卷积网络层，中间的省略号部分为多个卷积网络层；而分割聚合模块的此网络层只有一个输出通道，其输出的单通道特征图“聚合”了目标检测分支输出特征所有通道的信息；上下两个部分的输出特征连接时，分割聚合模块输出的单通道特征图与基本特征迁移模块输出特征图的每一个通道对应相加；为了解决Mask R-CNN基础网络目标检测分支特征分辨率和分割预测分支特征分辨率不匹配的问题，基本特征迁移模块的第一个网络层和分割聚合模块的单个网络层都由逆卷积层实现；

本发明的分割聚合模块的设计受到了Mask^X R-CNN模型中“类不可知”(classagnostic)的分割预测分支启发，但其主要实现类不可知的特征迁移而非分割预测；类不可知指Mask R-CNN模型的分割预测分支输出了一个形状为1×M×M的分割图，其中M代表了分割图的高度值和宽度值，1代表了针对不同的目标类别总数分割预测图仅生成一个整体的前景分割结果；FT-Mask模型的分割聚合模块针对特征迁移过程生成1×h×w的输出特征图，其中h和w分别代表特征图的高度和宽度；分割聚合模块的输出特征图增加了特征迁移过程知识转换的多样性；

特征迁移模块设计过程中解决了FT-Mask模型的基础网络Mask R-CNN的目标检测分支输出特征与分割预测分支特征分辨率不匹配的问题；Mask R-CNN模型目标检测分支网络头的结构中，7×7和1×1代表了不同特征图或不同卷积核的高度×宽度，C1和C2代表了不同特征图的通道数；目标检测分支的第一个卷积网络层通过7×7大小的卷积核将分辨率为7×7的输入特征图下采样为分辨率1×1的特征图；然后，卷积核为1×1大小的卷积网络层将特征进行转化，并输出分辨率为1×1的特征图；目标检测分支卷积网络层输出的1×1×C2大小的特征图即特征迁移模块的输入特征图；特征迁移模块将目标检测分支的输出特征转化为用于分割预测的特征，但分割预测所需的特征图分辨率较高(其分辨率通常为14×14)，因此特征迁移模块还需要做相应的设计以解决分辨率不匹配的问题；

为解决上述问题，特征迁移分支通过逆卷积网络层将输入特征上采样到分割预测所需特征大小；逆卷积也称反卷积或转置卷积(Transposed Convolution)，是一种常用的特征图上采样方法；其它常用的特征图上采样方法还包括双线性插值(bilinearinterpolation)、上采样(up-sampling)和上池化(unpooling)；上述其它方法都通过固定的计算方法得到输出特征图，而逆卷积网络层在上采样预测时通过自适应的网络参数和卷积运算得到输出特征图；在网络模型的训练过程中，逆卷积网络层的参数通过误差反向传播(back propagation,BP)得到更新，因此其相对于其它上采样方法精度更高。