CN109800788A

CN109800788A - 一种减少图像分割数据集标注的方法

Info

Publication number: CN109800788A
Application number: CN201811551110.1A
Authority: CN
Inventors: 纪筱鹏; 魏志强; 张志军
Original assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Current assignee: Ocean University of China; Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2019-05-24

Abstract

本发明公开了一种减少图像分割数据集标注的方法，将采集的数据集划为标注的和未标注的两种，首先训练标注的数据集，然后分割未标注的数据集，最后结合进行训练，获得最终的模型。本发明保证较好的分割效果前提下，减少用于训练的人工标注信息，减少人工标注成本。

Description

一种减少图像分割数据集标注的方法

技术领域

本发明属于图像处理技术领域，特别涉及一种减少图像分割数据集标注的方法。

背景技术

近年随着深度学习的持续升温，各种方法与应用层出不穷。方法主要是新的模型的提出，例如VGG模型、Inception模型等，还有就是将深度学习模型与传统方法的结合，例如深度学习模型与传统方法光流法结合来预测视频。应用主要是对现有的模型进行改进以适应不同的应用场合，例如人脸识别、车辆识别、行人追踪、图像分割等。其中，图像分割传统的方法有基于阈值的分割方法、基于边缘的分割方法、基于区域的分割方法等，分割效果不佳。自从深度学习用于图像分割以后，分割效果显著，远远的超过传统的图像分割方法，例如deeplab v3+分割模型，但是他的缺点也是同样的显著，就是需要大量的人工分割的图像进行训练，这是非常耗费人工成本的。

目前图像分割方法按照数据集划分主要是有两种研究方案。第一种是强监督的图像分割，第二种是弱监督的图像分割。强监督的图像分割包含图像的强标注信息，包括图像的类别、图像的人工分割图，甚至包括图像的分割线条图，然后在神经网络训练时充分利用这些信息进行训练，来达到最好的分割效果，让图像分割更加贴近真实图像，最终能让计算机能够理解图像中的信息。强监督技术的优点是分割效果较好，但是缺点是他的数据集制作步骤更加的繁琐，浪费很多人工成本。

弱监督的图像分割主要是利用弱标注信息或者部分标注信息来进行训练，例如只利用图像类别信息训练，利用图像类别信息加图像的标注框信息训练，利用部分的分割图像信息来进行训练。弱监督技术优点是数据集要求不高，可以节省很多的数据集标注成本，缺点是分割效果不如强监督的好，有很多细节问题不能很好的分割出来。

发明内容

针对现有技术存在的不足，本发明提供一种减少图像分割数据集标注的方法，基于神经网络的方法，利用分割模型进行训练，保证较好的分割效果前提下，减少用于训练的人工标注信息，减少人工标注成本。

为了解决上述技术问题，本发明采用的技术方案是：

一种减少图像分割数据集标注的方法，将采集的数据集划为标注的和未标注的两种，首先训练标注的数据集，然后分割未标注的数据集，最后结合进行训练，获得最终的模型。

优选的是，具体包括以下步骤：

步骤一、图片的划分：

在对数据集进行采集分类获得图像级别的信息后，将数据集分为A、B两部分，对A部分数据集进行人工分割标注，B部分不进行标注；

步骤二、对标注的图片进行训练：

将标注好的图片放置在指定的文件夹内，然后运行图像分割模型deeplab进行模型的训练，迭代一定步数以后得到训练模型；

步骤三、用训练模型分割图片：

用步骤二训练好的模型分割未标注的图片，得到分割的图片，并进行保存，这些分割的图片与未标注的图片一一对应，完成了数据集的填充，得到了强监督格式的数据集：所有图片级别的图片信息和对应的分割信息；

步骤四、训练出最终的模型：

利用步骤二训练好的模型作为预训练模型进行加载，然后再用deeplab模型再次开始训练，然后训练出最终的分割模型。

进一步的，步骤二中选用的deeplab模型可以替换为PSPNet或EncNet网络分割模型。

与现有技术相比，本发明优点在于：

(1)数据集划分为两部分进行训练，一部分进行标注，另一部分不进行标注，利用这些人工标注信息训练出一个图像分割模型，然后利用图像分割模型去分割不带分割信息的图像级别的信息，然后将这些分割图像作为标准图像，训练的分割模型作为预训练模型重新开始训练，训练出最终的模型。通过这种方法在训练新的数据集时可以节省大量的标注时间。

(2)本发明不再是传统的数据集送入模型然后训练出最终的模型，而是相当于两次训练，第一次是预训练，第二次训练出最终的最优的模型，由计算机运算，并没有增加人工时间。

(3)本发明数据集是可变化的：可以根据需要调整前期数据集的分划比例，在充分考虑训练时间和训练效果的前提下，得到两者的一个权衡，找到最适合自己的方案。

(4)本发明比较灵活，可以应用于不同的图像分割模型，达到相同的好的效果，比较其他方法，具有普遍性和灵活性的特点。

附图说明

图1为本发明的方法流程图；

图2为本发明的图片划分及标注示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

一种减少图像分割数据集标注的方法，将采集的数据集划为标注的和未标注的两种，首先训练标注的数据集，然后分割未标注的数据集，最后结合进行训练，获得最终的模型。每个步骤相互之间是紧密联系的，是具有连贯性的，如图1所示。具体的介绍如下：

(1)图片的划分

当我们需要训练新的图像分割数据集时，按照常规的方法需要对数据集进行采集分类，获得图像级别的信息，然后对所有的数据集人工进行图像分割标注，然后一起送进图像分割模型进行训练。本发明在对数据集进行采集分类获得图像级别的信息后，将数据集分为A、B两部分，对A部分数据集进行人工分割标注，B部分不进行标注；然后将这两部分数据集分先后送进模型进行训练，如图2所示。

(2)对标注的图片进行训练

如图1中所示，将标注好的图片放置在指定的文件夹内，然后运行图像分割模型deeplab进行模型的训练(deeplab模型在voc2012数据集上达到了89％的图像分割准确率)，迭代一定步数以后得到训练模型，迭代步数根据具体情况进行确定。

选用deeplab模型是因为需要将分割的图片作为标准的真实图片再进行训练，所以分割图片的好坏直接决定着后期的分割效果以及最终模型的训练质量。在这一步模型的选择上可以根据自己的需要选择合适的分割模型，例如除了deeplab模型外，还可以选择PSPNet，EncNet等网络分割模型。

(3)用训练模型分割图片

用步骤二训练好的模型分割未标注的图片，得到分割的图片，并进行保存，这些分割的图片与未标注的图片一一对应，完成了数据集的填充，得到了强监督格式的数据集：所有图片级别的图片信息和对应的分割信息。达到了与强监督一样的数据集训练的所需数据集格式，然后就可以按照强监督那样的训练方式来进行训练，就是按照弱监督的方法来制作强监督数据集然后按照强监督训练方法来进行训练。

(4)训练出最终的模型

经过前面的三个步骤以后，我们得到了强监督格式的数据集，即所有图片级别的图片信息和对应的分割信息，只不过不同的是分割信息是由两种方式获得的，一种方式是人工标注的，一种方式是我们用训练好的模型分割出来的。

得到这些信息后，再利用步骤(2)训练好的模型作为预训练模型进行加载，然后再用deeplab模型再次开始训练，然后训练出最终的分割模型。经过这一系列步骤之后训练出的模型，大大节省了人工成本，减少了图像标注所需的工作。

综上所述，本发明利用通过将数据集划分为标注的和未标注的，只训练标注的数据集然后利用训练好的模型分割未标注的图片，然后再联合两者进行训练，保证较好的分割效果前提下，减少用于训练的人工标注信息，减少人工标注成本。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种减少图像分割数据集标注的方法，其特征在于，将采集的数据集划为标注的和未标注的两种，首先训练标注的数据集，然后分割未标注的数据集，最后结合进行训练，获得最终的模型。

2.根据权利要求1所述的减少图像分割数据集标注的方法，其特征在于：具体包括以下步骤：

步骤一、图片的划分：

步骤二、对标注的图片进行训练：

步骤三、用训练模型分割图片：

步骤四、训练出最终的模型：

3.根据权利要求2所述的减少图像分割数据集标注的方法，其特征在于：步骤二中选用的deeplab模型可以替换为PSPNet或EncNet网络分割模型。