CN112489050A - 一种基于特征迁移的半监督实例分割算法 - Google Patents
一种基于特征迁移的半监督实例分割算法 Download PDFInfo
- Publication number
- CN112489050A CN112489050A CN202011466225.8A CN202011466225A CN112489050A CN 112489050 A CN112489050 A CN 112489050A CN 202011466225 A CN202011466225 A CN 202011466225A CN 112489050 A CN112489050 A CN 112489050A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- feature
- branch
- prediction
- migration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 125
- 238000013508 migration Methods 0.000 title claims abstract description 86
- 230000005012 migration Effects 0.000 title claims abstract description 86
- 238000004422 calculation algorithm Methods 0.000 title claims description 27
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 29
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000005192 partition Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012938 design process Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 22
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000011160 research Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000806511 Homo sapiens Protein DEPP1 Proteins 0.000 description 1
- 102100037469 Protein DEPP1 Human genes 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征迁移的半监督实例分割模型。该模型以Mask R‑CNN网络为基础,构建了一个基于逆卷积神经网络的特征迁移模块,将Mask R‑CNN目标检测分支学习的图像视觉特征转化为用于分割预测的特征。为了解决Mask R‑CNN目标检测分支输出特征分辨率与分割预测分支特征分辨率不匹配的问题,该模型的特征迁移模块中使用了逆卷积网络层对输入特征进行上采样。该模型通过特征迁移过程能有效提升Mask R‑CNN基准模型的半监督实例分割精度。
Description
一、技术领域
本发明涉及图像分割技术领域,尤其涉及图像分割中的实例分割领域,是一种基于特征迁移的半监督实例分割算法。
二、背景技术
实例分割是自动驾驶、生物医学图像处理和机器人视觉控制等研究领域的关键技术。它需要对图像中的指定目标实例同时进行定位、分类和区域分割。实例分割是一项具有很大应用潜力,致力于改善人们日常生活的热门研究,并在生活场景和技术研究中有许多重要应用。例如对俯瞰城市地表图像进行分割用于体育场地改进、生物医学中的显微图像分割,利用机器视觉控制机器人抓取物体以及对自动驾驶的车载图像实例分割用于区别行人、道路和车辆等。
近些年来,深度学习利用其具有自动化特征提取的优势,在许多图像处理任务上取得了突破性的进展。在实例分割算法方面,基于监督学习的分割模型,如Mask R-CNN(HeK,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings of the IEEEinternational conference on computer vision.2017:2961-2969.)和MaskLab(Chen LC,Hermans A,Papandreou G,et al.Masklab:Instance segmentation by refiningobject detection with semantic and direction features[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:4013-4022.),在COCO、Cityscapes等公开数据集上达到了显著的分割效果。监督学习实例分割模型需要利用具有完整实例分割标注的图像数据集,才可以实现较好的分割效果。然而,收集实例分割标注需要消耗很多人力和时间成本。例如,COCO数据集单人标注一个物体目标的分割标签平均需要79秒左右,并且此后还需要额外分配人员对分割标注进行检查。COCO数据集的分割标注时间消耗是目标边框标注的15倍左右。
为了解决实例分割标注难以收集的困境,一些研究尝试结合目标边框、图片类别、目标数目等“弱”(相对易于收集的)标签完成弱监督实例分割。经过近年来的研究积累,虽然弱监督算法的性能已经有所提升,但当前最好的弱监督实例分割算法,例如IRNet(Laradji I H,Vazquez D,Schmidt M.Where are the Masks:Instance Segmentationwith Image-level Supervision[J].arXiv preprint arXiv:1907.01430,2019.),与全监督实例分割算法(例如Mask R-CNN等)的性能差距仍然比较大。
近些年出现的半监督实例分割算法结合了全监督算法和弱监督算法的优势,利用半监督实例分割数据集(部分图像数据具有弱监督标签或无任何标签标注,其余图像数据具有完整实例分割标签的数据集),在降低数据集标注难度的同时,提升实例分割算法模型的预测精度。半监督实例分割算法分为两类:1)基于伪分割标签生成的算法;2)基于迁移学习的算法。基于伪分割标签生成的算法,例如Li等人提出的算法(Li Q,Arnab A,Torr P HS.Weakly-and semi-supervised panoptic segmentation[C]//Proceedings of theEuropean Conference on Computer Vision(ECCV).2018:102-118.)以及Bellver等人提出的算法(Bellver M,Salvador A,Torrres J,et al.Budget-aware semi-supervisedsemantic and instance segmentation[J].arXiv preprint arXiv:1905.05880,2019.),需要设计特殊的流程以生成实例分割伪标签,并且其仅针对某几种“弱标签”设计,因此算法对于具有不同弱标注类型的图像数据集的扩展性不高。基于迁移学习的算法,例如Hu等人提出的算法(Hu R,Dollár P,He K,et al.Learning to segment every thing[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:4233-4241.),可以从不同源任务中“迁移”模型所学习的知识以提高实例分割预测精度,算法具有很好的扩展性。然而,由于研究起步较晚,基于迁移学习的半监督实例分割算法的设计思路仍然比较单一。
三、发明内容
本发明致力于拓展半监督实例分割研究,通过设计基于迁移学习的半监督实例分割算法,在Mask R-CNN基准模型基础上建立特征迁移分支,将目标检测分支学习的物体视觉特征用于提升分割预测性能。
本发明的目的是这样达到的:
通过逆卷积(以及卷积)网络模块将Mask R-CNN模型目标检测分支最后一个卷积网络层与分割预测分支原逆卷积网络层进行连接,以建立特征迁移半监督实例分割模型。然后利用半监督实例分割数据集对该模型进行训练,以实现将目标检测分支学习的物体视觉特征用于提升分割预测的性能。
具体做法是:
(1)建立特征迁移半监督实例分割模型
本发明提出的特征迁移半监督实例分割模型称为FT-Mask(Feature TransferMask R-CNN),图1展示了FT-Mask模型的整体结构,模型以实例分割领域现有性能较好的全监督模型Mask R-CNN为基础网络,中间的特征迁移模块是本发明提出的网络结构创新。从图中可以看出,整个网络主要分为共享网络前部、上半部分目标检测分支、下半部分分割预测分支和中间部分的特征迁移模块。其中共享网络前部用于提取图像的视觉特征,随后RoIAlign层将这些视觉特征提取为感兴趣区域(Region of Interest,RoI)特征。目标检测分支和分割预测分支分别将RoI特征用于目标检测预测和目标分割掩膜预测。
模型的目标检测分支在训练时通过具有检测标签的A∪B数据集(A数据集的完整实例分割标注包含了目标检测标注)进行学习,分割预测分支通过含有分割标签标注的A数据集进行学习。FT-Mask模型在训练时同时利用了完整实例分割标注的数据和弱标注的数据,因此其训练过程为半监督训练。
在图1中,特征迁移模块将目标检测分支卷积网络层输出的特征图作为输入,对特征图中的视觉知识进行“迁移”后得到输出特征图。特征迁移模块输出的特征图和原分割预测特征图通过对应通道相加操作连接后作为分割分支中逆卷积网络层的输入。分割预测分支的逆卷积层将输出特征图尺寸放大至原来的两倍,其后是用于分割预测的卷积核大小为1×1的卷积层。对FT-Mask模型进行半监督训练后,其特征迁移模块就可以有效地将目标检测分支学习的知识转化为用于分割预测的知识。
(2)建立特征迁移模块
本发明提出使用特征迁移方法实现知识迁移,并设计了一个特定的特征迁移模块以模拟知识迁移函数。图2是特征迁移模块的结构示意图,图中上半部分是由多个神经网络层构成的基本特征迁移模块。基本特征迁移模块两端为逆卷积网络层,中间的省略号部分为多个卷积网络层。图2中下半部分是由单个神经网络层构成分割聚合模块,此网络层只有一个输出通道,其输出的单通道特征图“聚合”了目标检测分支输出特征所有通道的信息。上下两个部分的输出特征连接时,分割聚合模块输出的单通道特征图与基本特征迁移模块输出特征图的每一个通道对应相加。为了解决Mask R-CNN基础网络目标检测分支特征分辨率和分割预测分支特征分辨率不匹配的问题,基本特征迁移模块的第一个网络层和分割聚合模块的单个网络层都由逆卷积层实现。
特征迁移模块模拟了一个特殊的特征知识迁移函数,如公式1所示。公式1中的Tbase和Tagr分别代表基本迁移模块和分割聚合模块,fdet和fseg则分别代表了检测特征和分割特征。
fseg=Tbase(fdet)+Tagg(fdet) (1)
图2中分割聚合模块的设计受到了MaskX R-CNN模型中“类不可知”(classagnostic)的分割预测分支启发,但其主要实现类不可知的特征迁移而非分割预测。类不可知指Mask R-CNN模型的分割预测分支输出了一个形状为1×M×M的分割图,其中M代表了分割图的高度值和宽度值,1代表了针对不同的目标类别总数分割预测图仅生成一个整体的前景分割结果。FT-Mask模型的分割聚合模块针对特征迁移过程生成1×h×w的输出特征图,其中h和w分别代表特征图的高度和宽度。分割聚合模块的输出特征图增加了特征迁移过程知识转换的多样性。
特征迁移模块设计过程中解决了FT-Mask模型的基础网络Mask R-CNN的目标检测分支输出特征与分割预测分支特征分辨率不匹配的问题。图3展示了Mask R-CNN模型目标检测分支网络头的结构,图中的7×7和1×1代表了不同特征图或不同卷积核的高度×宽度,C1和C2代表了不同特征图的通道数。如图3所示,目标检测分支的第一个卷积网络层通过7×7大小的卷积核将分辨率为7×7的输入特征图下采样为分辨率1×1的特征图。然后,卷积核为1×1大小的卷积网络层将特征进行转化,并输出分辨率为1×1的特征图。图3中目标检测分支卷积网络层输出的1×1×C2大小的特征图即特征迁移模块的输入特征图。特征迁移模块将目标检测分支的输出特征转化为用于分割预测的特征,但分割预测所需的特征图分辨率较高(其分辨率通常为14×14),因此特征迁移模块还需要做相应的设计以解决分辨率不匹配的问题。
为解决上述问题,特征迁移分支通过逆卷积网络层将输入特征上采样到分割预测所需特征大小。逆卷积也称反卷积或转置卷积(Transposed Convolution),是一种常用的特征图上采样方法。其它常用的特征图上采样方法还包括双线性插值(bilinearinterpolation)、上采样(up-sampling)和上池化(unpooling)。上述其它方法都通过固定的计算方法得到输出特征图,而逆卷积网络层在上采样预测时通过自适应的网络参数和卷积运算得到输出特征图。在网络模型的训练过程中,逆卷积网络层的参数通过误差反向传播(back propagation,BP)得到更新,因此其相对于其它上采样方法精度更高。
四、附图说明
图1FT-Mask模型的整体结构
图2特征迁移模块结构
图3Mask R-CNN基准模型目标检测分支网络头的结构示意图
五、具体实施方式
本发明需要首先建立神经网络模型,然后在半监督实例分割数据集上进行训练,最后对图像进行实例分割。模型可以通过keras、tensorflow等神经网络框架编码实现,并利用高性能GPU(Graphic Processing Unit)服务器进行训练。
算法模型的骨架卷积神经网络为resnet50(residual networks)网络头和特征金字塔网络(Feature Pyramid Networks,FPN)网络,其中resnet50网络头使用了在ImageNet图像分类数据集上训练后得到的网络参数。Resnet50卷积网络将输入图片提取为各种视觉特征,特征金字塔网络可以对这些不同层次和分辨率的视觉特征进行融合。特征迁移分支连接在目标检测网络分支的最后一个卷积网络层和分割网络分支的逆卷积网络层之间,随后迁移分支输出特征与原分割预测特征一起参与分割预测。
基本特征迁移模块和分割聚合模块通过一个逐层的加法操作整合在一起,其中基本特征迁移模块输出一个大小为h×w×C的特征图,而分割聚合模块输出h×w×1的特征图。h和w分别代表特征图的高度和宽度,C代表特征图的通道数。逐层的加法操作指对于基本迁移模块输出特征图的每一个通道,将分割聚合模块输出的单通道特征图与之相加,整个迁移模块输出特征图的大小为h×w×C。FT-Mask模型在具体实现时将h和w都取值为14,C取值为256。
参考Mask R-CNN模型的分割预测分支结构,FT-Mask模型在特征迁移模块的逆卷积网络层和卷积网络层后添加一个BatchNorm网络层以及一个Relu激活层。BatchNorm网络层解决了神经网络输出特征概率分布发生变化(Internal Covariate Shift,ICS)的问题,使得神经网络变得更容易训练。Relu激活层为神经网络输出提供了非线性变换,并且抑制了输出特征的负向激活。
FT-Mask模型的编码实现过程中,在模型的推断(inference)阶段需要解决由MaskR-CNN基础模型目标检测分支输出特征数量和分割预测分支输入特征数量不同带来的问题。Mask R-CNN模型在其推断阶段根据目标检测的结果首先通过NMS算法对RPN网络输出的RoI进行了过滤,然后将对应的RoI特征作为分割预测分支的特征输入(特征数量默认不超过100个),而其目标检测分支输入特征为正常数量(默认1000个)。FT-Mask模型的特征迁移分支将目标检测特征作为输入,其输出特征数量也与目标检测分支一致,所以迁移分支的输出特征与分割预测分支的特征存在数量不匹配的问题。
FT-Mask模型在推断阶段自定义了特征过滤层对迁移分支的输出特征进行过滤。特征过滤层采用与Mask R-CNN的RoI过滤过程相同的策略,并且过滤了相同索引下的输出特征。特征过滤层保留的迁移特征与分割预测分支输入特征的数量和索引一致,因此增加该特征过滤层解决了上述问题。
半监督数据集划分:
可对COCO实例分割数据集进行半监督数据集划分,随后进行半监督实例分割训练。例如选择25%具有完整实例分割标签的COCO训练集数据作为子训练集A,并额外增加了随机25%具有目标检测标签的COCO训练集数据作为子训练集B,并将COCO的实例分割验证集作为本章实验的测试数据集。
模型训练方法:
FT-Mask模型的阶段性训练过程首先利用合并后的A、B数据集训练模型的目标检测分支、FPN和RPN,使目标检测分支可以输出较好的视觉特征(第一阶段);然后用A数据集训练模型的分割预测分支以及特征迁移分支(第二阶段)。阶段性训练过程的第二阶段中,分割分支的训练受益于多任务学习共享网络的特征,目标检测分支首先训练好也更有利于特征迁移模块的特征转换学习。
FT-Mask模型训练的第二个过程采用了联合训练的策略。该策略将FT-Mask模型的目标检测分支、分割预测分支、特征迁移分支,FPN和RPN在A数据集上进行联合训练,以优化网络模型的整体性能。FT-Mask模型的基础网络采用了多任务学习结构,共享了网络参数,因此联合训练的策略使多个网络分支在学习时可以相互促进。
本发明的用户使用场景举例:
场景一:在实例分割应用开发时,用户不需要对新收集的图像数据进行完整实例分割标注,可以对部分图像标注实例分割标签,其余部分图像标注目标检测标签。在这种场景下,既可以减少应用开发的数据集标注成本,又可以实现较好的图像实例分割效果。
Claims (2)
1.一种基于特征迁移的半监督实例分割算法,其特征在于:
通过在Mask R-CNN模型目标检测分支最后一个卷积网络层与分割预测分支原逆卷积网络层之间建立特征迁移模块,以实现特征迁移半监督实例分割;利用半监督实例分割数据集对该模型进行训练,将目标检测分支学习的物体视觉特征用于提升分割预测的性能;
具体做法是:
建立特征迁移半监督实例分割模型;本发明提出的特征迁移半监督实例分割模型称为FT-Mask(Feature Transfer Mask R-CNN);整个模型主要分为共享网络前部、上半部分目标检测分支、下半部分分割预测分支和中间部分的特征迁移模块;其中共享网络前部用于提取图像的视觉特征,随后RoIAlign层将这些视觉特征提取为感兴趣区域(Region ofInterest,RoI)特征;目标检测分支和分割预测分支分别将RoI特征用于目标检测预测和目标分割掩膜预测;
模型的目标检测分支在训练时通过具有检测标签的A∪B数据集(A数据集的完整实例分割标注包含了目标检测标注)进行学习,分割预测分支通过含有分割标签标注的A数据集进行学习;FT-Mask模型在训练时同时利用了完整实例分割标注的数据和弱标注的数据,因此其训练过程为半监督训练;
模型特征迁移模块将目标检测分支卷积网络层输出的特征图作为输入,对特征图中的视觉知识进行“迁移”后得到输出特征图;特征迁移模块输出的特征图和原分割预测特征图通过对应通道相加操作连接后作为分割分支中逆卷积网络层的输入;分割预测分支的逆卷积层将输出特征图尺寸放大至原来的两倍,其后是用于分割预测的卷积核大小为1×1的卷积层;对FT-Mask模型进行半监督训练后,其特征迁移模块就可以有效地将目标检测分支学习的知识转化为用于分割预测的知识;
2.如权利要求1所述的基于特征迁移的半监督实例分割算法,其特征在于:建立特殊的特征迁移模块:
本发明提出使用特征迁移方法实现知识迁移,并设计了一个特定的特征迁移模块以模拟知识迁移函数;本发明设计的特征迁移模块由基本特征迁移模块和分割聚合模块构成;其中,基本特征迁移模块两端为逆卷积网络层,中间的省略号部分为多个卷积网络层;而分割聚合模块的此网络层只有一个输出通道,其输出的单通道特征图“聚合”了目标检测分支输出特征所有通道的信息;上下两个部分的输出特征连接时,分割聚合模块输出的单通道特征图与基本特征迁移模块输出特征图的每一个通道对应相加;为了解决Mask R-CNN基础网络目标检测分支特征分辨率和分割预测分支特征分辨率不匹配的问题,基本特征迁移模块的第一个网络层和分割聚合模块的单个网络层都由逆卷积层实现;
本发明的分割聚合模块的设计受到了MaskX R-CNN模型中“类不可知”(classagnostic)的分割预测分支启发,但其主要实现类不可知的特征迁移而非分割预测;类不可知指Mask R-CNN模型的分割预测分支输出了一个形状为1×M×M的分割图,其中M代表了分割图的高度值和宽度值,1代表了针对不同的目标类别总数分割预测图仅生成一个整体的前景分割结果;FT-Mask模型的分割聚合模块针对特征迁移过程生成1×h×w的输出特征图,其中h和w分别代表特征图的高度和宽度;分割聚合模块的输出特征图增加了特征迁移过程知识转换的多样性;
特征迁移模块设计过程中解决了FT-Mask模型的基础网络Mask R-CNN的目标检测分支输出特征与分割预测分支特征分辨率不匹配的问题;Mask R-CNN模型目标检测分支网络头的结构中,7×7和1×1代表了不同特征图或不同卷积核的高度×宽度,C1和C2代表了不同特征图的通道数;目标检测分支的第一个卷积网络层通过7×7大小的卷积核将分辨率为7×7的输入特征图下采样为分辨率1×1的特征图;然后,卷积核为1×1大小的卷积网络层将特征进行转化,并输出分辨率为1×1的特征图;目标检测分支卷积网络层输出的1×1×C2大小的特征图即特征迁移模块的输入特征图;特征迁移模块将目标检测分支的输出特征转化为用于分割预测的特征,但分割预测所需的特征图分辨率较高(其分辨率通常为14×14),因此特征迁移模块还需要做相应的设计以解决分辨率不匹配的问题;
为解决上述问题,特征迁移分支通过逆卷积网络层将输入特征上采样到分割预测所需特征大小;逆卷积也称反卷积或转置卷积(Transposed Convolution),是一种常用的特征图上采样方法;其它常用的特征图上采样方法还包括双线性插值(bilinearinterpolation)、上采样(up-sampling)和上池化(unpooling);上述其它方法都通过固定的计算方法得到输出特征图,而逆卷积网络层在上采样预测时通过自适应的网络参数和卷积运算得到输出特征图;在网络模型的训练过程中,逆卷积网络层的参数通过误差反向传播(back propagation,BP)得到更新,因此其相对于其它上采样方法精度更高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466225.8A CN112489050A (zh) | 2020-12-13 | 2020-12-13 | 一种基于特征迁移的半监督实例分割算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011466225.8A CN112489050A (zh) | 2020-12-13 | 2020-12-13 | 一种基于特征迁移的半监督实例分割算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112489050A true CN112489050A (zh) | 2021-03-12 |
Family
ID=74916781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011466225.8A Pending CN112489050A (zh) | 2020-12-13 | 2020-12-13 | 一种基于特征迁移的半监督实例分割算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489050A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139470A (zh) * | 2021-04-25 | 2021-07-20 | 安徽工业大学 | 一种基于Transformer的玻璃识别方法 |
CN113160233A (zh) * | 2021-04-02 | 2021-07-23 | 易普森智慧健康科技(深圳)有限公司 | 利用稀疏标注数据集训练实例分割神经网络模型的方法 |
CN113554068A (zh) * | 2021-07-05 | 2021-10-26 | 华侨大学 | 一种实例分割数据集的半自动标注方法、装置及可读介质 |
CN113837190A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于Transformer的端到端实例分割方法 |
CN116205905A (zh) * | 2023-04-25 | 2023-06-02 | 合肥中科融道智能科技有限公司 | 基于移动端的配电网施工安全及质量图像检测方法及系统 |
WO2023108526A1 (zh) * | 2021-12-16 | 2023-06-22 | 中国科学院深圳先进技术研究院 | 一种医学图像分割方法、系统、终端以及存储介质 |
CN116563549A (zh) * | 2023-05-16 | 2023-08-08 | 中国人民解放军国防科技大学 | 基于粗粒度弱标注的磁共振图像心脏分割方法 |
-
2020
- 2020-12-13 CN CN202011466225.8A patent/CN112489050A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160233A (zh) * | 2021-04-02 | 2021-07-23 | 易普森智慧健康科技(深圳)有限公司 | 利用稀疏标注数据集训练实例分割神经网络模型的方法 |
CN113139470A (zh) * | 2021-04-25 | 2021-07-20 | 安徽工业大学 | 一种基于Transformer的玻璃识别方法 |
CN113554068A (zh) * | 2021-07-05 | 2021-10-26 | 华侨大学 | 一种实例分割数据集的半自动标注方法、装置及可读介质 |
CN113554068B (zh) * | 2021-07-05 | 2023-10-31 | 华侨大学 | 一种实例分割数据集的半自动标注方法、装置及可读介质 |
CN113837190A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于Transformer的端到端实例分割方法 |
WO2023108526A1 (zh) * | 2021-12-16 | 2023-06-22 | 中国科学院深圳先进技术研究院 | 一种医学图像分割方法、系统、终端以及存储介质 |
CN116205905A (zh) * | 2023-04-25 | 2023-06-02 | 合肥中科融道智能科技有限公司 | 基于移动端的配电网施工安全及质量图像检测方法及系统 |
CN116563549A (zh) * | 2023-05-16 | 2023-08-08 | 中国人民解放军国防科技大学 | 基于粗粒度弱标注的磁共振图像心脏分割方法 |
CN116563549B (zh) * | 2023-05-16 | 2023-12-15 | 中国人民解放军国防科技大学 | 基于粗粒度弱标注的磁共振图像心脏分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489050A (zh) | 一种基于特征迁移的半监督实例分割算法 | |
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
Tan et al. | YOLOv4_Drone: UAV image target detection based on an improved YOLOv4 algorithm | |
Jégou et al. | The one hundred layers tiramisu: Fully convolutional densenets for semantic segmentation | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
JP2022515895A (ja) | 物体認識方法及び装置 | |
CN107358576A (zh) | 基于卷积神经网络的深度图超分辨率重建方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111275618A (zh) | 一种基于双支感知的深度图超分辨率重建网络构建方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN113902915A (zh) | 一种基于低光照复杂道路场景下的语义分割方法及系统 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN108062569A (zh) | 一种基于红外和雷达的无人车驾驶决策方法 | |
CN112132844A (zh) | 基于轻量级的递归式非局部自注意力的图像分割方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN113298039B (zh) | 一种顾及遥感图像旋转目标的目标检测方法 | |
CN113255837A (zh) | 工业环境下基于改进的CenterNet网络目标检测方法 | |
CN114842363B (zh) | 一种数字孪生台区关键电力设备的识别方法及系统 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN111832453A (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN114005085A (zh) | 一种视频中密集人群分布检测与计数方法 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |