CN104850832B

CN104850832B - 一种基于分级迭代的大规模图像样本标注方法及系统

Info

Publication number: CN104850832B
Application number: CN201510226393.2A
Authority: CN
Inventors: 葛仕明; 杜丰宇; 解凯旋; 杨睿; 孙利民
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-05-06
Filing date: 2015-05-06
Publication date: 2018-10-30
Anticipated expiration: 2035-05-06
Also published as: CN104850832A

Abstract

本发明涉及一种基于分级迭代的大规模图像样本标注方法及系统，所述方法包括：利用半自动软件工具标注原始数据集中的目标；对已标注的原始数据集进行粗采集，得到正样本集和负样本集；利用正样本集和负样本集进行训练，得到目标检测器；利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集；判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准，如果未达到，利用更新的正样本集和负样本集重新训练目标检测器，迭代精采集过程，否则结束迭代。本发明利用软件工具使得标注工作更快速更高效，整个过程不但提高了标注和采集的速度，节省了人力成本，通过粗采集和精采集的结合提高了样本的精确性。

Description

一种基于分级迭代的大规模图像样本标注方法及系统

技术领域

本发明涉及视频、图像处理技术领域，尤其涉及一种基于分级迭代的大规模图像样本标注方法及系统。

背景技术

随着Internet和数字图像技术的发展，图像数据呈现海量增长，对于很多机器学习领域的学者而言，从海量的视频或图像数据中采集到我们所需的目标的样本集，是一件费时费力的事，而且往往最终得到的样本集不一定够数或者不一定全都有效。采集之前首先要对视频或图片集进行标注，视频标注可以分为手动标注和自动标注两类。传统的人工标注方法每次只能对一幅图像中的物体区域进行标注，仅仅使用人工来进行标注越来越费时耗力。因此越来越多的学者研究通过利用机器学习方法来进行自动图像标注，但是使用统计学习方法也需要大量的已标注样本作为训练集，然而，目前存在的已标注数据集相对较少。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于分级迭代的大规模图像样本标注方法及系统。

本发明解决上述技术问题的技术方案如下：一种基于分级迭代的大规模图像样本标注方法，包括如下步骤：

步骤1，利用半自动软件工具标注原始数据集中的目标；

步骤2，对已标注的原始数据集进行粗采集，得到正样本集和负样本集；

步骤3，利用正样本集和负样本集进行训练，得到目标检测器；

步骤4，利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集；

步骤5，判断正样本集中的样本数量是否达到预设数量或检测器性能是否达到预设标准，如果未达到，返回步骤3，否则结束迭代。

本发明的有益效果是：本发明通过半自动方式标注视频或图片集中的目标之后，先“粗采集”部分数据来训练生成检测器，再通过检测器“精采集”来精确获取更多的目标的样本，通过迭代“精采集”的过程，利用新得到的样本训练出新的更精确的检测器进一步检测、切割目标。本发明利用软件工具使得标注工作更快速更高效，整个过程不但提高了标注和采集的速度，节省了人力成本，通过粗采集和精采集的结合提高了样本的精确性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤1对目标在原始数据集中出现的时间和位置进行标注，将目标信息保存在标注文档中。

采用上述进一步方案的有益效果：为目标的切割提供依据，实现对目标的精准切割，形成正样本集和负样本集。

进一步，步骤2中对已标注的原始数据集进行粗采集，得到正样本集和负样本集的具体操作为：

步骤2.1，从已标注的原始数据集中切割目标，得到的正样本形成一次正样本集；

步骤2.2，从原始数据集中切割不含目标的图片作为负样本集。

进一步，步骤4中利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集的具体操作为：

步骤4.1，利用检测器对原始数据集进行检测；

步骤4.2，将原始数据集中检测到的目标切割下来，更新正样本集；

步骤4.3，从原始数据集中切割不含目标的图片，更新负样本集。

进一步，上述技术方案还包括利用检测器对原始数据集进行检测过程中，为所有得到的目标打分，并按分数高低进行排序；步骤4.2中将原始数据集中检测到的目标切割下来得到检测所得正样本集，检测所述检测所得正样本集中是否存在分数低于阈值的样本，如果存在，将其作为负样本移入负样本集，剩下的分数高于阈值的样本即为正样本，用于更新正样本集，否则直接用检测所得正样本集更新正样本集。

采用上述进一步方案的有益效果：防止误将非目标的样本作为目标样本放入正样本集，进一步提高样本的准确性。

本发明解决上述技术问题的另一技术方案如下：一种基于分级迭代的大规模图像样本标注系统，包括标注模块、粗采集模块、目标检测器生成模块、精采集模块和迭代控制模块；

所述标注模块，用于利用半自动软件工具标注原始数据集中的目标；

所述粗采集模块，用于对已标注的原始数据集进行粗采集，得到正样本集和负样本集；

所述目标检测器生成模块，用于利用正样本集和负样本集进行训练，得到目标检测器；

所述精采集模块，用于利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集；

所述迭代控制模块，用于判断正样本集中样本数量是否达到预设数量或检测器性能是否达到预设标准，如果未达到控制目标检测器生成模块和精采集模块迭代，直至满足预设数量或预设标准。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述标注模块对目标在原始数据集中出现的时间和位置进行标注，将目标信息保存在标注文档中。

进一步，所述粗采集模块包括第一切割单元和第二切割单元：所述第一切割单元，用于从已标注的原始数据集中切割目标，得到的正样本形成一次正样本集；所述第二切割单元，用于从原始数据集中切割不含目标的图片作为负样本集。

进一步，所述精采集模块包括检测单元、第三切割单元和第四切割单元；所述检测单元，利用检测器对原始数据集进行检测；所述第三切割单元，用于将原始数据集中检测到的目标切割下来，更新正样本集；所述第四切割单元，从原始数据集中切割不含目标的图片，更新负样本集。

进一步，所述精采集模块还包括排序单元和监督单元；所述排序单元，用于在检测器对原始数据集进行检测过程中，为所有得到的目标打分，并按分数高低进行排序；所述监督单元，用于将原始数据集中检测到的目标切割下来得到检测所得正样本集，检测所述检测所得正样本集中是否存在分数低于阈值的样本，如果存在，将其作为负样本移入负样本集，剩下的分数高于阈值的样本即为正样本，用于更新正样本集，否则直接用检测所得正样本集更新正样本集。

附图说明

图1为本发明所述一种基于分级迭代的大规模图像样本标注方法流程图；

图2为本发明所述一种基于分级迭代的大规模图像样本标注系统框图。

附图中，各标号所代表的部件列表如下：

1、标注模块，2、粗采集模块，3、目标检测器生成模块，4、精采集模块，5、迭代控制模块，21、第一切割单元，22、第二切割单元，41、检测单元，42、第三切割单元，43、第四切割单元，44、排序单元，45、监督单元。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于分级迭代的大规模图像样本标注方法，包括如下步骤：

步骤1，利用半自动软件工具标注原始数据集中的目标；

具体地，实现流程如下：

标注过程：

1.收集或网上下载一部分包含目标的视频集或图片集，作为原始数据集，用于采集目标。

2.通过自制软件工具标注部分原始数据集中的目标。如果是视频集，标注出目标所在的视频帧范围、在帧上的空间坐标点；具体的，标注后会将目标的信息保存在标注文档中，保存的信息有：目标类别、目标出现开始帧、目标出现结束帧、目标在图像帧中位置的左上角坐标(x,y)、标注矩形的宽W和高H和视频名称。如果是图片集，标注出目标所在图片的空间坐标点；具体的，标注后会将目标的信息保存在标注文档中，保存的信息有：目标类别、目标在图像帧中位置的左上角坐标(x,y)、标注矩形的宽W和高H和图片名称。

粗采集过程：

3.根据上述标注文档中的目标信息，利用自制的切割工具从原始数据集中切割目标，实现目标样本的粗采集，得到的正样本形成“正样本集”。

4.依然利用上述标注文档，从原始数据集中切割不含目标的部分图片作为负样本，形成“负样本集”。

精采集过程：

5.用上一步得到的正样本集和负样本集进行训练，得到目标检测器和区分正、负样本的阈值。在训练目标检测器的过程中，通过数据统计得到该阈值。

6.利用得到的目标检测器，对原始数据集进行检测。

7.在检测过程中为所有得到的目标打分数，并按分数高低进行排序。

8.将原始数据集中检测到的目标切割下来，形成检测所得正样本集；

9.监督检测所得正样本集，其中分数低于步骤5中所得阈值的样本为负样本，将其移入负样本集中，剩下的分数高于阈值的样本即为正样本，用于更新正样本集；否则直接用检测所得正样本集更新正样本集。

10.从原始视频集中切割不含目标的图片作为负样本集。

11.返回步骤5，进行迭代，直到样本数量达到预设数量或检测器性能达到预设标准为止。

12.最终形成的正样本集和负样本集即可用于机器学习中大规模的数据训练，比如识别器的训练。

如图2所示，一种基于分级迭代的大规模图像样本标注系统，包括标注模块1、粗采集模块2、目标检测器生成模块3、精采集模块4和迭代控制模块5；所述标注模块，用于利用半自动软件工具标注原始数据集中的目标；所述粗采集模块，用于对已标注的原始数据集进行粗采集，得到正样本集和负样本集；所述目标检测器生成模块，用于利用正样本集和负样本集进行训练，得到目标检测器；所述精采集模块，用于利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集；所述迭代控制模块，用于判断正样本集中样本数量是否达到预设数量或检测器性能是否达到预设标准，如果未达到控制目标检测器生成模块和精采集模块迭代，直至满足预设数量或预设标准。

所述标注模块1对目标在原始数据集中出现的时间和位置进行标注，将目标信息保存在标注文档中。

所述粗采集模块2包括第一切割单元21和第二切割单元22：所述第一切割单元21，用于从已标注的原始数据集中切割目标，得到的正样本形成一次正样本集；所述第二切割单元22，用于从原始数据集中切割不含目标的图片作为负样本集。

所述精采集模块4包括检测单元41、第三切割单元42和第四切割单元43；所述检测单元41，利用检测器对原始数据集进行检测；所述第三切割单元42，用于将原始数据集中检测到的目标切割下来，更新正样本集；所述第四切割单元43，从原始数据集中切割不含目标的图片，更新负样本集。

所述精采集模块4还包括排序单元44和监督单元45；所述排序单元44，用于在检测器对原始数据集进行检测过程中，为所有得到的目标打分，并按分数高低进行排序；所述监督单元45，用于将原始数据集中检测到的目标切割下来得到检测所得正样本集，检测所述检测所得正样本集中是否存在分数低于阈值的样本，如果存在，将其作为负样本移入负样本集，剩下的分数高于阈值的样本即为正样本，用于更新正样本集，否则直接用检测所得正样本集更新正样本集。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分级迭代的大规模图像样本标注方法，其特征在于，包括如下步骤：

步骤1，利用半自动软件工具标注原始数据集中的目标；步骤1对目标在原始数据集中出现的时间和位置进行标注，将目标信息保存在标注文档中；

步骤2中对已标注的原始数据集进行粗采集，得到正样本集和负样本集的具体操作为：

步骤2.1，根据目标信息从已标注的原始数据集中切割目标，得到的正样本形成一次正样本集；

步骤2.2，从原始数据集中切割不含目标的图片作为负样本集；

步骤4中利用目标检测器对原始数据集进行精采集，更新正样本集和负样本集的具体操作为：

步骤4.1，利用检测器对原始数据集进行检测；

步骤4.3，从原始数据集中切割不含目标的图片，更新负样本集；

2.根据权利要求1所述一种基于分级迭代的大规模图像样本标注方法，其特征在于，还包括利用检测器对原始数据集进行检测过程中，为所有得到的目标打分，并按分数高低进行排序；步骤4.2中将原始数据集中检测到的目标切割下来得到检测所得正样本集，检测所述检测所得正样本集中是否存在分数低于阈值的样本，如果存在，将其作为负样本移入负样本集，剩下的分数高于阈值的样本即为正样本，用于更新正样本集，否则直接用检测所得正样本集更新正样本集。

3.一种基于分级迭代的大规模图像样本标注系统，其特征在于，包括标注模块、粗采集模块、目标检测器生成模块、精采集模块和迭代控制模块；

所述标注模块，用于利用半自动软件工具标注原始数据集中的目标；所述标注模块对目标在原始数据集中出现的时间和位置进行标注，将目标信息保存在标注文档中；

所述粗采集模块，用于对已标注的原始数据集进行粗采集，得到正样本集和负样本集；所述粗采集模块包括第一切割单元和第二切割单元：

所述第一切割单元，用于根据目标信息从已标注的原始数据集中切割目标，得到的正样本形成一次正样本集；

所述第二切割单元，用于从原始数据集中切割不含目标的图片作为负样本集

所述精采集模块包括检测单元、第三切割单元和第四切割单元；

所述检测单元，利用检测器对原始数据集进行检测；

所述第三切割单元，用于将原始数据集中检测到的目标切割下来，更新正样本集；

所述第四切割单元，从原始数据集中切割不含目标的图片，更新负样本集；

4.根据权利要求3所述一种基于分级迭代的大规模图像样本标注系统，其特征在于，所述精采集模块还包括排序单元和监督单元；

所述排序单元，用于在检测器对原始数据集进行检测过程中，为所有得到的目标打分，并按分数高低进行排序；

所述监督单元，用于将原始数据集中检测到的目标切割下来得到检测所得正样本集，检测所述检测所得正样本集中是否存在分数低于阈值的样本，如果存在，将其作为负样本移入负样本集，剩下的分数高于阈值的样本即为正样本，用于更新正样本集，否则直接用检测所得正样本集更新正样本集。