CN111507334B

CN111507334B - 一种基于关键点的实例分割方法

Info

Publication number: CN111507334B
Application number: CN201910091916.5A
Authority: CN
Inventors: 陈帅印; 李现�; 周昊宇; 肖江剑
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS; University of Chinese Academy of Sciences
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS; University of Chinese Academy of Sciences
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2024-03-12
Anticipated expiration: 2039-01-30
Also published as: CN111507334A

Abstract

本发明公开了一种基于关键点的实例分割方法，其包括至少以人工标注的掩膜图作为实例分割算法的训练输入，获得物体掩膜；利用所述物体掩膜及人工标注的掩膜图，通过掩膜损失函数进行计算得到掩膜损失值；采用关键点算法对作为真值图的人工标注的掩膜图进行关键点的计算，获得真值关键点图；利用实例分割算法获取预测掩膜图，基于设定的关键点损失函数，利用预测掩膜图和真值关键点图，计算出关键点损失值；基于所述掩膜损失值及关键点损失值而优化实例分割算法中的网络参数。本发明的实例分割方法在Mask‑RCNN的基础框架上，加入了关键点算法，可对细节部分的分割起到更好的效果，提高复杂场景下物体轮廓的分割精度。

Description

一种基于关键点的实例分割方法

技术领域

本发明涉及一种工件识别定位和姿态估计系统和方法，特别涉及一种基于深度学习的工件识别定位和姿态估计系统和方法，属于目标识别检测领域。

背景技术

实例分割算法是对图像中每一个物体都进行单独检测和分割的一种图像理解方法。区别于另外两种图像理解方法——语义分割和目标检测，语义分割是对不同的物体进行分割，而不区分同种物体之间的不同个体，即同种物体得到一个分割框；目标检测是只检测需要被检测的一种或几种物体。所以，实例分割的精度和难度相比其他方法更大。

实例分割方法发展过程中，有传统机器学习方法：如像素级的决策树分类，参考TextonForest以及Random Forest based classifiers。再有就是深度学习方法。更确切地说，是卷积神经网络。

目前，深度学习中的分割方法主要有两种，一种是传统上的利用像素信息提取特征进行分类；另一种是在像素级信息以外，加入一些超像素级的信息进行分类，比如轮廓信息和周围标签信息等。第一种方法主要有FCN、SegNet、空洞卷积、DeepLab、RefineNet、PSPNet、Large Kernel Matters、Mask-RCNN；第二种方法主要有半卷积、OpenPose、DensePose、AAF、depth-aware CNN、超像素、轮廓融合等。

传统方法如Mask-RCNN在COCO数据集上取得了不错的效果，对人、车、桌、椅分割效果良好。但是在分割复杂室内场景或者不规则物体的时候，对一些细小的结构，分割效果不是很理想。利用卷积神经网络进行语义分割的流程为标注、训练、预测。标注形式一般以画出物体轮廓的方式，得到物体掩膜作为真值，第二种方法还会加入关节点等其他信息来加强训练效果。训练是通过不断的迭代来优化网络参数，使分割效果接近真值，来衡量真值图和分割图差距的函数是损失函数。单纯像素级方法的损失函数计算是通过每个像素的区别来比较；超像素级方法的损失函数在像素比较之外加入了超像素级的信息，例如真值图中的关节点和预测图的关节点的差距得到的损失，两种损失共同作用，使得分割效果更好。

传统的像素级方法由于采用的损失函数是像素之间的比较，在分割一些复杂物体，比如细长的椅腿和镂空车轮时，只能分割出整体的轮廓，但是在细节处难以区分，如图1a和图1b所示，椅子在中间缺口和外围轮廓部分存在一定的误差。单纯像素之间的比较，每个像素的权重都是一样的，难以体现关键的部分对分割的影响。

如果引入超像素级的信息，例如OpenPose中的关节点和AAF中的周围标签信息，比传统像素级方法在细节分割上有明显改善。如图2a至图2d所示，AAF方法对车轮分割效果要优于不适用AAF方法的效果。但是关节点之类的方法是针对人体检测的，而AAF方法使用的是周围标签信息，而不是本身分割物体的超像素信息，因此存在泛化性和简洁性上的问题。

发明内容

针对复杂场景图像的实例分割，本发明的主要目的在于在现有分割算法的基础上，加入物体关键点概念，提出一种更精确的基于关键点的实例分割算法，以克服现有技术的不足。

为实现前述发明目的，本发明实施例提供了一种基于关键点的实例分割方法，其包括：

至少以人工标注的掩膜图作为实例分割算法的训练输入，获得物体掩膜；

利用所述物体掩膜及人工标注的掩膜图，通过掩膜损失函数进行计算得到掩膜损失值；

采用关键点算法对作为真值图的人工标注的掩膜图进行关键点的计算，获得真值关键点图；

利用实例分割算法获取预测掩膜图，基于设定的关键点损失函数，利用预测掩膜图和真值关键点图，计算出关键点损失值；

基于所述掩膜损失值及关键点损失值而优化实例分割算法中的网络参数。

在一些实施例中，所述预测掩膜图及预测关键点的获取过程包括：

i、对选定的图片进行预处理，得到输入图片；

ii、将输入图片输入到训练好的神经网络中获得对应的第二特征图；

iii、对第二特征图中的每一点设定预定数量的ROI，获得多个候选第二ROI；

iv、将候选的第二ROI输入RPN网络进行二值分类和BB回归，过滤掉部分候选的第二ROI；

v、对经过滤后余留的第二ROI进行ROIAlign操作；

vi、对所述余留的第二ROI进行分类、BB回归和掩膜生成，并对所获的预测掩膜图通过关键点算法计算出预测关键点。

在一些具体实施例中，所述的基于关键点的实例分割方法具体包括：

1)将训练图片输入到初始化的神经网络中，经过FPN和RPN卷积层进行特征提取，获得对应的第一特征图；

2)对第一特征图中的每一点设定预定数量的第一ROI，从而获得多个候选的第一ROI；

3)将所述候选的第一ROI输入RPN网络进行二值分类和BB回归，过滤掉部分候选的第一ROI；

4)对经过滤后余留的第一ROI进行ROIAlign操作；

5)对所述余留的第一ROI进行分类、BB回归和掩膜生成，获得物体掩膜图；

6)利用步骤5)所获的物体掩膜图和真值图，通过设定损失函数进行计算得到设定损失值；

7)采用关键点算法分别对所获的物体掩膜图、人工标注的掩膜图进行关键点的计算，获得物体关键点、真值关键点；

8)基于设定的关键点损失函数，利用预测关键点和真值关键点，计算出关键点损失值；

9)基于步骤6)所获设定损失值及步骤8)所获关键点损失值而优化参数。

与现有技术相比，本发明的优点包括：

本发明在Mask-RCNN的基础框架上，加入了关键点算法，既结合了传统像素级的交叉熵损失函数(Mask-RCNN中的损失计算方法)，利用了原来像素级的掩膜信息，在物体定位和轮廓分割上起到基础性的作用；又加入了关键点损失函数，能够突出一些关键点信息，从全部像素中提取出对物体分割起到关键性作用的特征点，对细节部分的分割起到更好的效果，使复杂物体能够被更好的分割，可以强化轮廓分割效果，提高复杂场景下物体轮廓的分割精度。

附图说明

图1a-图1b分别是现有技术中采用传统的像素级方法进行实例分割的真值图和预测图。

图2a-图2d分别是现有技术中引入超像素级的信息，例如OpenPose中的关节点和AAF中的周围标签信息进行实例分割的原图、真值图、传统方法分割图、AAF方法分割图。

图3是本发明一典型实施案例中一种基于关键点的实例分割方法的流程图。

图4a和图4b分别是本发明一典型实施案例中labelme软件和转化后的掩膜图。

图5是本发明一典型实施案例中会议室数据集的原图。

图6a和图6b分别是本发明一典型实施案例中以一张椅子作为实验对象，进行loss函数的实验时，椅子的原图和真值掩膜图。

图7a和图7b分别是本发明一典型实施案例中在训练中每10次迭代输出mask图和mask损失函数图表。

图8a-图8h分别是本发明一典型实施案例中中点、角点、骨架算法的真值图和预测图。

图9是本发明一典型实施案例中的角点损失图表。

图10是本发明一典型实施案例中10到150次迭代的预测掩膜图。

图11a-图11d分别是本发明一典型实施案例中采用基于关键点的实例分割方法对会议室场景的分割效果示意图。

图12a-图12b分别是本发明另一典型实施案例中采用基于关键点的实例分割方法中对训练图片进行标注得到的真值掩膜图。

图12c是本发明另一典型实施案例中采用基于关键点的实例分割方法中使用关键点检测算法对真值掩膜图检测角点，得到的真值关键点图。

具体实施方式

鉴于现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案，其主要是选择基础Mask-RCNN算法以掩膜作为训练输入，通过掩膜计算出物体关键点，然后同时利用掩膜和关键点作为训练的输入。本案发明人还对不同关键点计算方法的有效性进行了讨论，加强算法的泛化性和有效性。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。

本发明实施例的一个方面提供了一种基于关键点的实例分割方法，其包括：

采用关键点算法对作为真值图的人工标注的掩膜图进行关键点的计算，获得真值关键点图，真值关键点图为以关键点为中心一定半径的圆(只在物体掩膜边界内)；

基于所述掩膜损失值及关键点损失值而优化实例分割算法中的网络参数(参数在神经网络层中，对图像进行卷积等操作的一些参数，会通过训练迭代不断优化)。

在一些实施例中，所述设定的关键点损失函数为p_i、p_j分别是真值图、预测掩膜图的角点。

在一些具体实施例中，所述实例分割方法包括：

采用实例分割算法获得物体掩膜，

利用所述物体掩膜计算出物体关键点；

以所述物体掩膜和物体关键点作为实例分割算法的训练输入。

进一步地，所述实例分割算法采用Mask-RCNN算法。

进一步地，所述设定损失函数为交叉熵损失函数，且包括分类损失L_class、BB损失L_box、MASK损失L_mask。

在一些具体实施例中，所述预测掩膜图及预测关键点的获取过程包括：

i、对选定的图片进行预处理，得到输入图片；

v、对经过滤后余留的第二ROI进行ROIAlign操作；

在一些更为具体的实施例中，所述的基于关键点的实例分割方法具体包括：

1)将训练图片(rgb图)输入到初始化的神经网络中，经过FPN和RPN卷积层进行特征提取，获得对应的第一特征图(feature map)；

2)对第一特征图中的每一点设定预定数量的第一ROI(regions of interest，感兴趣区域)，从而获得多个候选的第一ROI；

4)对经过滤后余留的第一ROI进行ROIAlign操作；

7)采用关键点算法分别对所获的物体掩膜图、人工标注的掩膜图进行关键点的计算，获得物体关键点、真值关键点(对mask计算出关键点后，能够比较容易的计算损失函数)；

进一步地，步骤1)包括：对训练图片进行人工标注，再转化成作为训练图片的人工标注的掩膜图及对应的编号与标签。

进一步地，所述ROIAlign操作包括：先将原图和特征图的像素对应，然后将特征图和固定的特征对应。

进一步地，所述分类包括N类别分类。

进一步地，所述掩膜生成包括：在每一个ROI内进行FCN操作。

综上所述，本发明的基于关键点的实例分割方法在Mask-RCNN的基础框架上，加入了关键点算法，通过训练图片的掩膜信息得到关键点。然后在原有网络的交叉熵损失函数的基础上加入一个新的关键点损失函数，使得本发明的方法既利用了原来像素级的掩膜信息，又能够突出一些关键点信息，使复杂物体能够被更好的分割。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在一些较为具体的实施方案中，一种基于关键点的实例分割方法可以包括如下步骤：

请参阅图3，图3是本发明一典型实施案例中一种基于关键点的实例分割方法的流程图，主要步骤如下：

1)图像数据集的建立

实例分割先通过输入人工标注的数据集来进行训练，优化网络参数后才能对新的图像进行实例分割。在本发明使用的是Mask-RCNN的框架，所以标注数据集和Mask-RCNN一样，都是通过软件labelme画轮廓来获取物体掩膜，如图4a和图4b所示，图4a是labelme软件图，图4b是转化后的掩膜图。标注后得到json文件，转化后得到训练输入使用的掩膜图和对应的编号与标签。

目前建立了会议室复杂场景的数据集，主要以桌椅构成，如图5所示为会议室数据集的原图。该场景存在一定的遮挡情况而且这种椅子的轮廓变化大，适合作为实验的对象，检测方法的效果。

更为具体的，在本发明一典型实施案例中，一种基于关键点的实例分割方法包括：

1)整体算法流程

1.Mask-RCNN算法

训练过程：实际上是一个调参过程，通过不断地迭代使得分割图逼近人工标注的掩膜图。

(1)训练集通过处理得到原图和掩膜图以及掩膜一一对应的物体标签；

(2)将其输入到一个初始化的神经网络中(ResNeXt等)获得对应的特征图；

(3)对特征图中的每一点设定预定个的ROI，从而获得多个候选ROI；

(4)将这些候选的ROI送入RPN网络进行二值分类(前景或背景)和BB回归，过滤掉一部分候选的ROI；

(5)对这些剩下的ROI进行ROIAlign操作(即先将原图和特征图的pixel对应起来，然后将特征图和固定的feature对应起来)；

(6)对这些ROI进行分类(N类别分类)、BB回归和MASK生成(在每一个ROI里面进行FCN操作)；

(7)结果和真值(输入的人工标注掩膜图)通过损失函数进行计算得到损失值。Mask-RCNN中有3个损失函数，分别是分类损失L_class、BB损失L_box、MASK损失L_mask；

(8)通过损失值的大小来优化参数，使得分割结果更逼近真值。

预测过程：和训练相比去掉了损失函数进行参数调整的部分，直接输出分割结果。

(1)对你想处理的图片进行预处理，得到输入图片；

(2)将其输入到一个训练好的神经网络中(ResNeXt等)获得对应的特征图；

(5)对这些剩下的ROI进行ROIAlign操作(即先将原图和特征图的pixel对应起来，然后将特征图和固定的特征对应起来)；

(6)对这些ROI进行分类(N类别分类)、BB回归和MASK生成(在每一个ROI里面进行FCN操作)。

2.关键点算法

在Mask-RCNN算法基础上加入关键点的检测和损失函数。具体流程如下：

(1)在训练过程第六步MASK生成后，对MASK通过关键点算法计算出关键点，同时对人工标注的MASK图也进行关键点的计算；

(2)利用预测和真值关键点，通过关键点损失函数，计算出关键点损失；

(3)在Mask-RCNN的3个损失上，加入新的关键点损失得到总的损失，来影响参数的优化。

综上，本发明的实例分割方法是既结合了传统像素级的交叉熵损失函数(Mask-RCNN中的损失计算方法)，在物体定位和轮廓分割上起到基础性的作用；又加入了关键点损失函数，从全部像素中提取出对物体分割起到关键性作用的特征点，对细节部分的分割起到更好的效果。

进一步地，在一些实施例中，本发明以一张椅子作为损失函数实验对象：

以一张椅子作为实验对象，进行loss函数的实验，如图6a和图6b所示，分别为椅子的原图和真值掩膜图。

在训练中每10次迭代输出mask图和mask损失函数，分别如图7a和图7b所示。可以看出mask损失函数是呈现下降的趋势，表示mask图在整体上越来越接近真值图。但是我们注意到椅子中间的缺口部分的分割细节度和交叉熵损失的大小并没有特别的相关性，在损失值小的时候，缺口部分的细节可能不如损失值大的时候，比如第140次迭代和150次迭代。因此需要一种新的损失函数来实现更加细节的分割。

本案发明人还引入了关键点损失函数L_keypoint，实验了中点、角点、骨架损失，得到中点、角点、骨架算法的真值图和预测图，如图8a-图8h所示。通过计算真值图和预测图的算法结果的比较(通过损失函数)，可以得到一种新的损失值，来指导分割算法的迭代优化。

对于椅子的分割，本案发明人发现角点损失能够比较好的衡量轮廓细节，是能够采用的关键点。所以本案发明人采用的损失函数是基于角点的，计算公式为p_i,p_j分别为真值图和预测图的角点，计算的是每个预测角点距离最近的真值角点之间的距离，然后加和。角点损失表如图9所示。

两个极大值点是第30次迭代和130次迭代，如图10所示，为10到150次迭代的预测掩膜图，两次的预测图的缺口细节都不明显，说明本发明的损失函数能够较好的衡量轮廓细节。

图11a-图11d为采用本发明一典型实施例采用基于关键点的实例分割方法对会议室场景的分割效果示意图。

在一另具体实施案例中，本发明的基于关键点的实例分割方法的实现步骤为：

1.通过对训练图片进行标注，得到真值掩膜图，可参阅图12a和图12b所示；

2.使用关键点检测算法对真值掩膜图检测角点，得到真值关键点图，可参阅图12c所示；

3.把训练图片、真值掩膜图、真值关键点图输入网络；

4.通过FPN网络、RPN网络提取特征图；

5.对特征图中的每一点设定预定数量的ROI，获得多个候选ROI框；

6.将候选的ROI输入RPN网络进行二值分类和BB回归，过滤掉部分候选ROI；

7.对经过滤后余留的ROI进行ROIAlign操作；

8.对所述余留的ROI进行分类、BB回归和掩膜生成，得到预测掩膜；

9.对预测掩膜使用关键点检测算法提取关键点，得到预测关键点；

10.预测掩膜和真值掩膜通过掩膜损失函数得到掩膜损失；

11.预测关键点和真值关键点通过关键点损失函数得到关键点损失；

12.基于步骤10)所获掩膜损失值及步骤11)所获关键点损失值而优化网络参数。

藉由上述技术方案，基于Mask-RCNN，采用的是resnet101的基础网络。相比于原本的像素级损失计算，物体中的每个点通过关键点的检测和加入损失函数，从物体中提取出相对比较重要的点作为分割依据，本发明通过结合关键点损失和交叉熵损失可以提高复杂场景不规则物体轮廓的分割效果，提高复杂场景下物体的分割精度。

应当理解，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于关键点的实例分割方法，其特征在于包括：

4)对经过滤后余留的第一ROI进行ROIAlign操作，所述ROIAlign操作包括：先将原图和特征图的像素对应，然后将特征图和固定的特征对应；

6)利用步骤5)所获的物体掩膜图和真值图，通过掩膜损失函数进行计算得到掩膜损失值；

7)采用关键点算法对作为真值图的人工标注的掩膜图进行关键点的计算，获得真值关键点图；

8)利用实例分割算法获取预测掩膜图，基于设定的关键点损失函数，利用预测掩膜图和真值关键点图，计算出关键点损失值，所述设定的关键点损失函数为p_i、p_j分别是真值图的角点、预测掩膜图的角点；

9)基于步骤6)所获掩膜损失值及步骤8)所获关键点损失值而优化实例分割算法中的网络参数。

2.如权利要求1所述的基于关键点的实例分割方法，其特征在于：所述实例分割算法采用Mask-RCNN算法。

3.如权利要求1所述的基于关键点的实例分割方法，其特征在于：所述掩膜损失函数为交叉熵损失函数，且包括分类损失L_class、BB损失L_box、MASK损失L_mask。

4.如权利要求1所述的基于关键点的实例分割方法，其特征在于，所述预测掩膜图及预测关键点的获取过程包括：

i、对选定的图片进行预处理，得到输入图片；

v、对经过滤后余留的第二ROI进行ROIAlign操作，所述ROIAlign操作包括：先将原图和特征图的像素对应，然后将特征图和固定的特征对应；

vi、对所述余留的第二ROI进行分类、BB回归和掩膜生成，得到预测掩膜图，并对所获的预测掩膜图通过关键点算法计算出预测关键点，所述掩膜生成包括：在每一个ROI内进行FCN操作。

5.如权利要求1所述的基于关键点的实例分割方法，其特征在于，步骤1)包括：对训练图片进行人工标注，再转化成作为训练图片的人工标注的掩膜图及对应的编号与标签。

6.如权利要求1或4所述的基于关键点的实例分割方法，其特征在于：所述分类包括N类别分类。