CN112508029A - 一种基于目标框标注的实例分割方法 - Google Patents

一种基于目标框标注的实例分割方法 Download PDF

Info

Publication number
CN112508029A
CN112508029A CN202011401506.5A CN202011401506A CN112508029A CN 112508029 A CN112508029 A CN 112508029A CN 202011401506 A CN202011401506 A CN 202011401506A CN 112508029 A CN112508029 A CN 112508029A
Authority
CN
China
Prior art keywords
mask
loss
target
pictures
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011401506.5A
Other languages
English (en)
Inventor
许明江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keben Information Technology Co ltd
Original Assignee
Suzhou Keben Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keben Information Technology Co ltd filed Critical Suzhou Keben Information Technology Co ltd
Priority to CN202011401506.5A priority Critical patent/CN112508029A/zh
Publication of CN112508029A publication Critical patent/CN112508029A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于目标框标注的实例分割方法,为图像处理领域。对给定不同尺寸的图片,首先经过预处理,再将其送入实例分割器中的FPN网络,得到不同尺寸的特征;随后这些特征被送入头模块中进行实例级别类别和目标框的预测。在该检测器之外,还存在一个掩膜分支,用于预测实例的掩膜,掩膜分支通过控制头动态生成的参数可以实现动态生成掩码。最后通过一个精心设计的基于目标框标注的实例分割损失函数实现梯度的反向传播,该损失函数包括投影损失和成对损失两部分。该发明在原有的实例分割器的基础上,通过设计的损失函数,仅使用目标框标注便可实现对于实例的预测,避免对于精确的像素级掩膜标注的需要,且在大型数据集上达到很好的性能。

Description

一种基于目标框标注的实例分割方法
技术领域
本发明涉及图像处理领域,更具体的说是涉及一种基于目标框标注的实例分割方法。
背景技术
实例分割是指给定当前图像,同时进行像素级别的语义分类任务和区域级别的实例分类任务,即既判定当前位置像素属于什么类别,同时又归于哪例目标物体。这一任务在无人驾驶、机器人导航等领域具有十分重要的现实意义。
近年来,随着深度学习的快速发展,许多基于掩膜标注信息的实例分割工作取得了很好的性能和效果,即利用掩膜标注信息,通过卷积网络预测目标实例的掩膜。然而相较于目标框的标注,像素级别的掩膜信息标注需要消耗大量的时间,其约是目标框标注的35倍。因此,现实中像素级别的掩膜标注是成本高昂的。
相较于基于掩膜标注信息的实例分割模型需要大量的像素级别的掩膜标注,基于目标框标注的实例分割方法则仅仅需要目标框级别的标注。基于此,出现了一些仅使用目标框标注的实例分割方法,然而这些方法存在以下缺点:1)算法难以在GPU上进行并行计算,训练速度缓慢;2)为了达到更好的性能,部分算法使用迭代训练的策略,导致复杂的训练方式和更多的超参数;3)目前的方法无法在大型数据集如Microsoft COCO上达到较好的结果,多数仅在Pascal VOC上进行测试。
发明内容
本发明的目的是针对现有技术的不足之处,提供一种基于目标框标注的实例分割方法,其避免了对于昂贵的像素级别的掩码标注的需要,且可以在大型数据集上达到很好的性能。
本发明的技术解决措施如下:
一种基于目标框标注的实例分割方法,包括如下步骤,
(1)图片预处理:对于给定不同尺寸的图片,首先经过预处理。
(2)实例分割器构建:再将预处理后的图片送入实例分割器中的FPN网络,得到不同尺寸的特征,随后这些特征被送入头模块中进行实例级别类别和目标框的预测;FPN中P3层的特征是该层的输入,同时在实例分割器上有一路掩膜预测分支,掩膜预测分支通过控制头动态生成的参数来实现动态生成掩码,用于预测实例的掩膜向量。
(3)目标检测及掩膜预测:测试时模型将输出大量潜在目标,对这些目标按照分类得分进行降序排列,并根据目标框间或是掩膜间的交并比进行非极大值抑制;最终从剩下的候选中选取得分排名前K个目标,其对应的掩膜是各个目标实例的掩膜结果,完成实例分割任务。
(4)损失函数计算:训练时通过基于目标框标注的实例分割损失函数计算掩膜分支的损失函数,实现梯度的反向传播,完成模型训练,损失函数包括投影损失和成对损失两部分,投影损失用于最小化预测掩膜和与其连接最近的目标框之间的差异,成对损失用于鼓励预测掩膜和真实掩膜在相邻像素点间具有相同的成对相似性。
作为优选,所述步骤(1)中的预处理是将不同尺寸的图片按下列公式I∈RH×W×3进行数据增强,其中H是图片的高,W是图片的宽。
作为优选,所述步骤(2)中的实例分割器是利用基于anchor-free的单阶段实例分割器CondInst,其包含FPN,分别预测类别、目标框、掩膜分支权重的头模块以及掩膜分支。
作为优选,所述步骤(3)中的非极大值抑制算法进行后处理,能有效抑制大量低质量的预测结果,输出高质量的实例掩膜。
作为优选,所述步骤(4)中的利用投影损失和成对损失两个损失函数进行掩膜向量训练,只使用目标框标注的信息便能够实现实例分割任务。
本发明的有益效果在于:
1)本发明在不改变网络结构的前提下,通过改变损失函数的计算方式,实现仅使用目标框标注完成实例分割任务。
2)本发明在原有的实例分割器的基础上,通过设计的损失函数,仅使用目标框标注便可实现对于实例的预测,避免对于精确的像素级掩膜标注的需要,与其他使用目标框标注的实例分割方法相比,可以在大型数据集上取得很好的效果,且其性能优于部分使用掩膜标注的实例分割器。
3)本发明相较于目标框,实例掩膜可以提供更加精确的位置信息,可以扩展到很多下游任务中以提升其性能。
附图说明
下面结合附图对本发明做进一步的说明:
图1是本发明的整体流程图。
图2是本发明的深度网络结构图。
图3是本发明的损失函数示意图。
图4是本发明的边标签和颜色相似度的关系图。
图5是本发明的实例分割结果展示。
具体实施方式
实施例,见附图1~5,一种基于目标框标注的实例分割方法,首先将图片进行预处理。随后将其送入实例分割器,在实例分割器的上,有一路掩膜预测分支,用来为每一个潜在实例预测其掩膜向量;测试时,通过非极大值抑制等后处理操作后,选取分数排名靠前的K个目标,其对应的掩膜是各个目标实例的掩膜结果。训练时,通过设计的投影损失和成对损失计算损失函数,在仅使用目标框标注的前提下完成训练。
为更好地表达本发明中提出的基于目标框标注的高性能实例分割方法,下面以在开源的大型实例分割数据集Microsoft COCO为例,取单阶段目标检测器CondInst,以ResNet-50网络作为基础特征提取器,结合附图对本发明进行进一步的说明。
图1为本发明的整体流程图,包括图片预处理、实例分割器构建、目标检测及掩膜预测、损失函数计算四个部分。
步骤A.图片预处理:对于给定的不同尺寸的图片,将不同尺寸的图片按下列公式I∈RH×W×3进行数据增强,其中H是图片的高,W是图片的宽,即对其进行尺度变化、翻转以及标准化的数据增强。
步骤B.实例分割器构建:实例分割器基于现有的实例检测器CondInst。CondInst包括5个部分,即1个backbone网络用以特征提取,1个FPN层用以特征改善,2个多任务头分别用以分类、控制掩膜分支参数生成和目标框定位,1个掩膜分支用以预测实例掩膜。整个网络结构见图2。
步骤C.目标检测及掩膜预测:输入图片,模型将一次输出大量潜在的检测框及掩膜向量,对这些目标按照分类得分进行降序排列,并根据目标框间或掩膜间的交并比进行非极大值抑制。最终保留分数排名靠前的K个目标,完成实例分割任务。
步骤D.损失函数计算:图3是本发明的损失函数示意图。
1)投影损失:定义m∈{0,1}H×W是实例的掩膜,b∈{0,1}H×W是由目标框生成的掩膜,
Figure BDA0002817084160000051
是网络预测的实例掩膜,则投影操作被定义为:
Projx(m)=maxy(m)=maxy(b)=lx
Projy(m)=maxx(m)=maxx(b)=ly
投影损失被定义为:
Figure BDA0002817084160000052
其中,L(·,·)是Dice loss。
2)成对损失:定义连接点(ij)和点(l,k)的边为e,ye∈{0,1}为边的类别,其中ye=1表示边两侧像素点属于同一类别,否则ye=0。
Figure BDA0002817084160000061
可被看作是点(i,j)是前景的可能性,则:
Figure BDA0002817084160000062
P(ye=0)=1-P(ye=1)
成对损失被定义为:
Figure BDA0002817084160000063
3)颜色相似度预测:由于实例的掩膜信息未知,故无法利用掩膜标注判断边的类别。利用相同颜色的两个像素点更可能是同一类的先验知识,定义ci,j和cl,k为两个点的颜色向量,则其颜色相似度计算公式被定义为:
Figure BDA0002817084160000064
当两点颜色相似度大于阈值τ时,其对应边便是正类。由此成对损失被定义为:
Figure BDA0002817084160000065
式中τ=0.1。从图4可以看出,当提升阈值τ时,预测正类边与所有预测边的比例将会显著提升,此时预测的边会更准确;与此同时预测正类边占总正类边的比例会降低,表明预测的边会更不全面。因此,阈值τ是权衡噪声水平和预测正类边的超参数。
4)总损失:整个训练的损失函数由检测损失和掩膜损失构成:
Lossoverall=Lossdet+λLossmask
其中,检测损失与CondInst保持一致,掩膜损失由投影损失和成对损失构成:
Lossmask=Lossproj+Losspairwise
式中λ=1。
从图5可以看出,本方法可以准确地完成图像实例分割任务。上述实施例是对本发明进行的具体描述,只是对本发明进行进一步说明,不能理解为对本发明保护范围的限定,本领域的技术人员根据上述发明的内容作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims (5)

1.一种基于目标框标注的实例分割方法,其特征在于:包括如下步骤,
(1)图片预处理:对于给定不同尺寸的图片,首先经过预处理;
(2)实例分割器构建:再将预处理后的图片送入实例分割器中的FPN网络,得到不同尺寸的特征,随后这些特征被送入头模块中进行实例级别类别和目标框的预测;同时在实例分割器上有一路掩膜预测分支,掩膜预测分支通过控制动态生成的参数来实现动态生成掩码,用于预测实例的掩膜向量;
(3)目标检测及掩膜预测:测试时模型将输出大量潜在目标,对这些目标按照分类得分进行降序排列,并根据目标框间或是掩膜间的交并比进行非极大值抑制;最终从剩下的候选中选取得分排名前K个目标,其对应的掩膜是各个目标实例的掩膜结果,完成实例分割任务;
(4)损失函数计算:训练时通过基于目标框标注的实例分割损失函数计算掩膜分支的损失函数,实现梯度的反向传播,完成模型训练,损失函数包括投影损失和成对损失两部分。
2.根据权利要求1所述的一种基于目标框标注的实例分割方法,其特征在于:所述步骤(1)中的预处理是将不同尺寸的图片按下列公式I∈RH×W×3进行数据增强,其中H是图片的高,W是图片的宽。
3.根据权利要求1所述的一种基于目标框标注的实例分割方法,其特征在于:所述步骤(2)中的实例分割器是利用基于anchor-free的单阶段实例分割器CondInst。
4.根据权利要求1所述的一种基于目标框标注的实例分割方法,其特征在于:所述步骤(3)中的非极大值抑制算法进行后处理,能有效抑制大量低质量的预测结果,输出高质量的实例掩膜。
5.根据权利要求1所述的一种基于目标框标注的实例分割方法,其特征在于:所述步骤(4)中的利用投影损失和成对损失两个损失函数进行掩膜向量训练,只使用目标框标注的信息便能够实现实例分割任务。
CN202011401506.5A 2020-12-03 2020-12-03 一种基于目标框标注的实例分割方法 Withdrawn CN112508029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011401506.5A CN112508029A (zh) 2020-12-03 2020-12-03 一种基于目标框标注的实例分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011401506.5A CN112508029A (zh) 2020-12-03 2020-12-03 一种基于目标框标注的实例分割方法

Publications (1)

Publication Number Publication Date
CN112508029A true CN112508029A (zh) 2021-03-16

Family

ID=74968340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011401506.5A Withdrawn CN112508029A (zh) 2020-12-03 2020-12-03 一种基于目标框标注的实例分割方法

Country Status (1)

Country Link
CN (1) CN112508029A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037865A (zh) * 2021-11-02 2022-02-11 北京百度网讯科技有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN117351199A (zh) * 2023-09-11 2024-01-05 华中科技大学 基于框标注训练的息肉分割模型建立方法及息肉分割方法
CN117474932A (zh) * 2023-12-27 2024-01-30 苏州镁伽科技有限公司 对象分割方法和装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349138A (zh) * 2019-06-28 2019-10-18 歌尔股份有限公司 基于实例分割框架的目标物体的检测方法及装置
CN110717519A (zh) * 2019-09-09 2020-01-21 深圳大学 训练、特征提取、分类方法、设备及存储介质
CN111461127A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于一阶段目标检测框架的实例分割方法
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111507334A (zh) * 2019-01-30 2020-08-07 中国科学院宁波材料技术与工程研究所 一种基于关键点的实例分割方法
CN111861978A (zh) * 2020-05-29 2020-10-30 陕西师范大学 基于Faster R-CNN的桥梁裂缝实例分割方法
CN111881981A (zh) * 2020-07-29 2020-11-03 苏州科本信息技术有限公司 一种基于掩膜编码的单阶段实例分割方法
CN111914795A (zh) * 2020-08-17 2020-11-10 四川大学 一种航拍图像中旋转目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
CN111507334A (zh) * 2019-01-30 2020-08-07 中国科学院宁波材料技术与工程研究所 一种基于关键点的实例分割方法
CN110349138A (zh) * 2019-06-28 2019-10-18 歌尔股份有限公司 基于实例分割框架的目标物体的检测方法及装置
CN110717519A (zh) * 2019-09-09 2020-01-21 深圳大学 训练、特征提取、分类方法、设备及存储介质
CN111461127A (zh) * 2020-03-30 2020-07-28 华南理工大学 基于一阶段目标检测框架的实例分割方法
CN111861978A (zh) * 2020-05-29 2020-10-30 陕西师范大学 基于Faster R-CNN的桥梁裂缝实例分割方法
CN111881981A (zh) * 2020-07-29 2020-11-03 苏州科本信息技术有限公司 一种基于掩膜编码的单阶段实例分割方法
CN111914795A (zh) * 2020-08-17 2020-11-10 四川大学 一种航拍图像中旋转目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
瑚敏君: "基于实例分割模型的建筑物自动提取", 测绘通报, vol. 2020, no. 4, pages 16 - 20 *
詹琦梁;陈胜勇;胡海根;李小薪;周乾伟;: "一种结合多种图像分割算法的实例分割方案", 小型微型计算机系统, no. 04 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037865A (zh) * 2021-11-02 2022-02-11 北京百度网讯科技有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN114037865B (zh) * 2021-11-02 2023-08-22 北京百度网讯科技有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN117351199A (zh) * 2023-09-11 2024-01-05 华中科技大学 基于框标注训练的息肉分割模型建立方法及息肉分割方法
CN117474932A (zh) * 2023-12-27 2024-01-30 苏州镁伽科技有限公司 对象分割方法和装置、电子设备及存储介质
CN117474932B (zh) * 2023-12-27 2024-03-19 苏州镁伽科技有限公司 对象分割方法和装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Zeng et al. Multi-source weak supervision for saliency detection
US11657602B2 (en) Font identification from imagery
Dai et al. Instance-aware semantic segmentation via multi-task network cascades
US10769496B2 (en) Logo detection
CN112508029A (zh) 一种基于目标框标注的实例分割方法
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111461212B (zh) 一种用于点云目标检测模型的压缩方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
Yan et al. Combining the best of convolutional layers and recurrent layers: A hybrid network for semantic segmentation
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN115393687A (zh) 一种基于双伪标签优化学习的rgb图像半监督目标检测方法
Fang et al. Survey on the application of deep reinforcement learning in image processing
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN112434618A (zh) 基于稀疏前景先验的视频目标检测方法、存储介质及设备
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN113762327A (zh) 机器学习方法、机器学习系统以及非暂态电脑可读取媒体
Abuowaida et al. A novel instance segmentation algorithm based on improved deep learning algorithm for multi-object images
CN112949635B (zh) 一种基于特征增强和IoU感知的目标检测方法
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
Siam et al. Temporal transductive inference for few-shot video object segmentation
Yan et al. Repeatable adaptive keypoint detection via self-supervised learning
CN114170625A (zh) 一种上下文感知、噪声鲁棒的行人搜索方法
Sugang et al. Object detection algorithm based on cosine similarity IoU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210316

WW01 Invention patent application withdrawn after publication