CN112508029A

CN112508029A - 一种基于目标框标注的实例分割方法

Info

Publication number: CN112508029A
Application number: CN202011401506.5A
Authority: CN
Inventors: 许明江
Original assignee: Suzhou Keben Information Technology Co ltd
Current assignee: Suzhou Keben Information Technology Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16

Abstract

本发明涉及一种基于目标框标注的实例分割方法，为图像处理领域。对给定不同尺寸的图片，首先经过预处理，再将其送入实例分割器中的FPN网络，得到不同尺寸的特征；随后这些特征被送入头模块中进行实例级别类别和目标框的预测。在该检测器之外，还存在一个掩膜分支，用于预测实例的掩膜，掩膜分支通过控制头动态生成的参数可以实现动态生成掩码。最后通过一个精心设计的基于目标框标注的实例分割损失函数实现梯度的反向传播，该损失函数包括投影损失和成对损失两部分。该发明在原有的实例分割器的基础上，通过设计的损失函数，仅使用目标框标注便可实现对于实例的预测，避免对于精确的像素级掩膜标注的需要，且在大型数据集上达到很好的性能。

Description

一种基于目标框标注的实例分割方法

技术领域

本发明涉及图像处理领域，更具体的说是涉及一种基于目标框标注的实例分割方法。

背景技术

实例分割是指给定当前图像，同时进行像素级别的语义分类任务和区域级别的实例分类任务，即既判定当前位置像素属于什么类别，同时又归于哪例目标物体。这一任务在无人驾驶、机器人导航等领域具有十分重要的现实意义。

近年来，随着深度学习的快速发展，许多基于掩膜标注信息的实例分割工作取得了很好的性能和效果，即利用掩膜标注信息，通过卷积网络预测目标实例的掩膜。然而相较于目标框的标注，像素级别的掩膜信息标注需要消耗大量的时间，其约是目标框标注的35倍。因此，现实中像素级别的掩膜标注是成本高昂的。

相较于基于掩膜标注信息的实例分割模型需要大量的像素级别的掩膜标注，基于目标框标注的实例分割方法则仅仅需要目标框级别的标注。基于此，出现了一些仅使用目标框标注的实例分割方法，然而这些方法存在以下缺点：1)算法难以在GPU上进行并行计算，训练速度缓慢；2)为了达到更好的性能，部分算法使用迭代训练的策略，导致复杂的训练方式和更多的超参数；3)目前的方法无法在大型数据集如Microsoft COCO上达到较好的结果，多数仅在Pascal VOC上进行测试。

发明内容

本发明的目的是针对现有技术的不足之处，提供一种基于目标框标注的实例分割方法，其避免了对于昂贵的像素级别的掩码标注的需要，且可以在大型数据集上达到很好的性能。

本发明的技术解决措施如下：

一种基于目标框标注的实例分割方法，包括如下步骤，

(1)图片预处理：对于给定不同尺寸的图片，首先经过预处理。

(2)实例分割器构建：再将预处理后的图片送入实例分割器中的FPN网络，得到不同尺寸的特征，随后这些特征被送入头模块中进行实例级别类别和目标框的预测；FPN中P3层的特征是该层的输入，同时在实例分割器上有一路掩膜预测分支，掩膜预测分支通过控制头动态生成的参数来实现动态生成掩码,用于预测实例的掩膜向量。

(3)目标检测及掩膜预测：测试时模型将输出大量潜在目标，对这些目标按照分类得分进行降序排列，并根据目标框间或是掩膜间的交并比进行非极大值抑制；最终从剩下的候选中选取得分排名前K个目标，其对应的掩膜是各个目标实例的掩膜结果，完成实例分割任务。

(4)损失函数计算：训练时通过基于目标框标注的实例分割损失函数计算掩膜分支的损失函数，实现梯度的反向传播，完成模型训练，损失函数包括投影损失和成对损失两部分，投影损失用于最小化预测掩膜和与其连接最近的目标框之间的差异，成对损失用于鼓励预测掩膜和真实掩膜在相邻像素点间具有相同的成对相似性。

作为优选，所述步骤(1)中的预处理是将不同尺寸的图片按下列公式I∈R^H×W×3进行数据增强，其中H是图片的高，W是图片的宽。

作为优选，所述步骤(2)中的实例分割器是利用基于anchor-free的单阶段实例分割器CondInst，其包含FPN，分别预测类别、目标框、掩膜分支权重的头模块以及掩膜分支。

作为优选，所述步骤(3)中的非极大值抑制算法进行后处理，能有效抑制大量低质量的预测结果，输出高质量的实例掩膜。

作为优选，所述步骤(4)中的利用投影损失和成对损失两个损失函数进行掩膜向量训练，只使用目标框标注的信息便能够实现实例分割任务。

本发明的有益效果在于：

1)本发明在不改变网络结构的前提下，通过改变损失函数的计算方式，实现仅使用目标框标注完成实例分割任务。

2)本发明在原有的实例分割器的基础上，通过设计的损失函数，仅使用目标框标注便可实现对于实例的预测，避免对于精确的像素级掩膜标注的需要，与其他使用目标框标注的实例分割方法相比，可以在大型数据集上取得很好的效果，且其性能优于部分使用掩膜标注的实例分割器。

3)本发明相较于目标框，实例掩膜可以提供更加精确的位置信息，可以扩展到很多下游任务中以提升其性能。

附图说明

下面结合附图对本发明做进一步的说明：

图1是本发明的整体流程图。

图2是本发明的深度网络结构图。

图3是本发明的损失函数示意图。

图4是本发明的边标签和颜色相似度的关系图。

图5是本发明的实例分割结果展示。

具体实施方式

实施例，见附图1～5，一种基于目标框标注的实例分割方法，首先将图片进行预处理。随后将其送入实例分割器，在实例分割器的上，有一路掩膜预测分支，用来为每一个潜在实例预测其掩膜向量；测试时，通过非极大值抑制等后处理操作后，选取分数排名靠前的K个目标，其对应的掩膜是各个目标实例的掩膜结果。训练时，通过设计的投影损失和成对损失计算损失函数，在仅使用目标框标注的前提下完成训练。

为更好地表达本发明中提出的基于目标框标注的高性能实例分割方法，下面以在开源的大型实例分割数据集Microsoft COCO为例，取单阶段目标检测器CondInst，以ResNet-50网络作为基础特征提取器，结合附图对本发明进行进一步的说明。

图1为本发明的整体流程图，包括图片预处理、实例分割器构建、目标检测及掩膜预测、损失函数计算四个部分。

步骤A.图片预处理：对于给定的不同尺寸的图片，将不同尺寸的图片按下列公式I∈R^H×W×3进行数据增强，其中H是图片的高，W是图片的宽，即对其进行尺度变化、翻转以及标准化的数据增强。

步骤B.实例分割器构建：实例分割器基于现有的实例检测器CondInst。CondInst包括5个部分，即1个backbone网络用以特征提取，1个FPN层用以特征改善，2个多任务头分别用以分类、控制掩膜分支参数生成和目标框定位，1个掩膜分支用以预测实例掩膜。整个网络结构见图2。

步骤C.目标检测及掩膜预测：输入图片，模型将一次输出大量潜在的检测框及掩膜向量，对这些目标按照分类得分进行降序排列，并根据目标框间或掩膜间的交并比进行非极大值抑制。最终保留分数排名靠前的K个目标，完成实例分割任务。

步骤D.损失函数计算：图3是本发明的损失函数示意图。

1)投影损失：定义m∈{0，1}^H×W是实例的掩膜，b∈{0，1}^H×W是由目标框生成的掩膜，

是网络预测的实例掩膜，则投影操作被定义为：

Proj_x(m)＝max_y(m)＝max_y(b)＝l_x

Proj_y(m)＝max_x(m)＝max_x(b)＝l_y

投影损失被定义为：

其中，L(·，·)是Dice loss。

2)成对损失：定义连接点(ij)和点(l，k)的边为e，y_e∈{0，1}为边的类别，其中y_e＝1表示边两侧像素点属于同一类别，否则y_e＝0。

可被看作是点(i，j)是前景的可能性，则：

P(y_e＝0)＝1-P(y_e＝1)

成对损失被定义为：

3)颜色相似度预测：由于实例的掩膜信息未知，故无法利用掩膜标注判断边的类别。利用相同颜色的两个像素点更可能是同一类的先验知识，定义c_i，j和c_l，k为两个点的颜色向量，则其颜色相似度计算公式被定义为：

当两点颜色相似度大于阈值τ时，其对应边便是正类。由此成对损失被定义为：

式中τ＝0.1。从图4可以看出，当提升阈值τ时，预测正类边与所有预测边的比例将会显著提升，此时预测的边会更准确；与此同时预测正类边占总正类边的比例会降低，表明预测的边会更不全面。因此，阈值τ是权衡噪声水平和预测正类边的超参数。

4)总损失：整个训练的损失函数由检测损失和掩膜损失构成：

Loss_overall＝Loss_det+λLoss_mask

其中，检测损失与CondInst保持一致，掩膜损失由投影损失和成对损失构成：

Loss_mask＝Loss_proj+Loss_pairwise

式中λ＝1。

从图5可以看出，本方法可以准确地完成图像实例分割任务。上述实施例是对本发明进行的具体描述，只是对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术人员根据上述发明的内容作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种基于目标框标注的实例分割方法，其特征在于：包括如下步骤，

(1)图片预处理：对于给定不同尺寸的图片，首先经过预处理；

(2)实例分割器构建：再将预处理后的图片送入实例分割器中的FPN网络，得到不同尺寸的特征，随后这些特征被送入头模块中进行实例级别类别和目标框的预测；同时在实例分割器上有一路掩膜预测分支，掩膜预测分支通过控制动态生成的参数来实现动态生成掩码,用于预测实例的掩膜向量；

(3)目标检测及掩膜预测：测试时模型将输出大量潜在目标，对这些目标按照分类得分进行降序排列，并根据目标框间或是掩膜间的交并比进行非极大值抑制；最终从剩下的候选中选取得分排名前K个目标，其对应的掩膜是各个目标实例的掩膜结果，完成实例分割任务；

(4)损失函数计算：训练时通过基于目标框标注的实例分割损失函数计算掩膜分支的损失函数,实现梯度的反向传播，完成模型训练，损失函数包括投影损失和成对损失两部分。

2.根据权利要求1所述的一种基于目标框标注的实例分割方法，其特征在于：所述步骤(1)中的预处理是将不同尺寸的图片按下列公式I∈R^H×W×3进行数据增强，其中H是图片的高，W是图片的宽。

3.根据权利要求1所述的一种基于目标框标注的实例分割方法，其特征在于：所述步骤(2)中的实例分割器是利用基于anchor-free的单阶段实例分割器CondInst。

4.根据权利要求1所述的一种基于目标框标注的实例分割方法，其特征在于：所述步骤(3)中的非极大值抑制算法进行后处理，能有效抑制大量低质量的预测结果，输出高质量的实例掩膜。

5.根据权利要求1所述的一种基于目标框标注的实例分割方法，其特征在于：所述步骤(4)中的利用投影损失和成对损失两个损失函数进行掩膜向量训练，只使用目标框标注的信息便能够实现实例分割任务。