CN110737790A

CN110737790A - 一种基于数据库的通用图像数据集管理方法

Info

Publication number: CN110737790A
Application number: CN201911022684.4A
Authority: CN
Inventors: 徐利洋; 黄达; 杨文婧; 杨绍武; 贺博; 张翰林; 李无忧; 李胜奎; 周向宇
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-01-31
Anticipated expiration: 2039-10-25
Also published as: CN110737790B

Abstract

本发明属于机器学习领域，公开了一种基于数据库的通用图像数据集管理方法。本发明主要针对目前公开用于目标检测的图像数据集数据格式不一致、无法混合使用的问题，对数据集格式进行统一，方便了多数据集的管理与应用。本发明包括以下步骤：基于双层结构定义数据集的通用格式；基于数据集通用格式设计数据库表结构；基于数据集通用格式设计数据库表结构；基于数据集通用格式处理未标注图片；基于通用数据格式数据生成目标检测数据集。本发明具有数据格式统一，操作方便，对图像数据集格式定义准确，可交叉使用不同数据集等优点，在机器学习领域具有很高的实用价值和推广价值。

Description

一种基于数据库的通用图像数据集管理方法

技术领域

本发明属于机器学习领域，涉及机器学习领域通用图像数据集管理方法，尤其涉及基于数据库的通用图像数据集管理方法。

背景技术

近年来机器学习算法为图像目标识别带来一场新的革命，通过大量的训练，使算法模型具备可信的目标识别准确率。为满足不同类型的目标识别，多种模型训练以及测试的数据集应运而生。

以Pascal VOC(Visual Object Classes)数据集为例，该数据集旨在为目标的分类识别提供标准的图像数据集，采用该数据集对算法模型进行训练，使其具备数据集中预设标签的识别能力。随着目标识别技术的发展，自2012年起VOC数据集在原有的整体目标标注基础上新增了局部的目标识别。然而由于机器学习模型需要大量数据集进行训练的特性，模型的有效训练量直接影响目标识别的准确率，因此，数据集的数据量以及目标种类的丰富性成为了延缓机器学习模型研究的瓶颈之一，并且现有数据集中有限的目标种类限制了目标识别算法模型的研究与应用范围。当前数据集的制作过程较为复杂，在急需扩大数据集的情况，主要的手段之一是将其他类型的数据集转换为所需的数据集。

当前主流的图片数据集包括Pascal VOC、COCO以及Yolo等，但不同的数据集所针对的目标不同，这也导致各数据集在格式以及注释文件所关心的数据内容上存在一定的差异，这在一定程度上导致了数据的低通用性。

发明内容

本发明主要解决的技术问题是：针对目前公开用于目标检测的图像数据集数据格式不一致、无法混合使用的问题，提出一种基于数据库的通用图像数据集管理方法，通过定义图像数据集的通用格式将不同数据格式的数据集存放到关系数据库中，方便对多种类型的数据集进行统一管理与应用。

为解决以上问题，本发明的技术方案如下：

一种基于数据库的通用图像数据集管理方法，包含以下步骤：

步骤一，基于双层结构定义数据集的通用格式：

提取目标检测中的图片名称、图片文件、图片尺寸、标签类型、标注位置等关键数据作为通用格式的主体，考虑图片中标注对象与图片是多对一的关系，基于双层结构定义数据集的通用格式，双层结构的具体定义如下：

上层数据结构＝{图片名称，图片文件，图片尺寸}

下层数据结构＝{图片名称，标签类型，标签位置，多边形点阵，拍摄角度，检测难易程度，是否被遮挡}

两层数据结构使用图片名称作为关键字进行关联，其中上层数据结构存储了图片本体信息，下层数据结构存储了图片中标注框信息。

步骤二，基于数据集通用格式设计数据库表结构：

本发明使用关系型数据库作为数据存储管理工具，依据步骤一定义的双层结构的数据集通用格式在关系型数据库中设计关系模式，使用关系模式给出关系模型，具体的关系模型定义如下：

上层数据结构的关系模式定义为R1(U1,D1,DOM1,F1)，其中

R1＝上层数据结构

U1＝{图片序号，图片名称，图片文件，图片高度，图片宽度}

D1＝{D₁＝{字符串}，D₂＝{二进制数组}，D₃＝{{(0,+∞]上的整数}}

DOM1＝{图片序号→D₃，图片名称→D₁，图片文件→D₂，图片高度→D₃，图片宽度→D₃}

F1＝{图片序号→图片名称，图片序号→图片文件，图片序号→图片高度，图片序号→图片宽度}

下层数据结构的关系模式定义为R2(U2,D2,DOM2,F2)，其中

R2＝下层数据结构

U2＝{标签序号，图片序号，标签类型，标签左上角x轴，标签左上角y轴，标签右下角x轴，标签右下角y轴，多边形点阵，拍摄角度，检测难易程度，是否被遮挡}

D2＝{D₁＝{字符串}，D₂＝{整数数组}，D₃＝{{(0,+∞]上的整数}，D₄＝{True，False}，D₅＝{difficult，easy}}

DOM2＝{标签序号→D₃，图片序号→D₃，标签类型→D₁，标签左上角x轴→D₃，标签左上角y轴→D₃，标签右下角x轴→D₃，标签右下角y轴→D₃，多边形点阵→D₂，拍摄角度→D₁，检测难易程度→D₅，是否被遮挡→D₄}

F2＝{{标签序号}为主码，{图片序号}为外码依赖于关系R1}

依据上述两种关系模式，在PostgreSQL数据库分别创建上层数据结构表和下层数据结构表用于数据的存储管理。

步骤三，基于数据集通用格式对数据集进行格式转换：

根据步骤一所定义通用格式，对PASCAL VOC和COCO两种数据集格式设计转换规则映射到步骤二所定义的两种关系模式中；两种数据集都包含两种数据：图片文件和描述标注信息的标签文件，其中PASCAL VOC数据集使用XML格式描述图片的标注信息，COCO数据集使用JSON格式描述图片的标注信息；

其中，PASCAL VOC数据集格式转换规则如下：

3.1.1对图片进行二进制转换，转换后的数据对应关系模式R1中的图片文件；

3.1.2解析与3.1.1步骤中图片对应的XML文件，其中XML标签与双层结构映射关系M1如下：

M1＝{{<annotation>标签}→{单个R1，多个R2}，{<filename>标签}→{U1.图片名称，U2.图片名称}，{<size>标签}→{U1.图片高度，U2.图片高度}，{<object>标签}→{R2}，{<name>标签}→{U2.标签类型}，{<pose>标签}→{U2.拍摄角度}，{<truncated>标签}→{U2.是否被遮挡}，{<difficult>标签}→{U2.检测难易程度}，{<bndbox>标签}→{U2.标签左上角x轴，U2.标签左上角y轴，U2.标签右下角x轴，U2.标签右下角y轴}}

由于PASCAL VOC数据集中不存在标注外的多边形，故下层数据结构实体中多边形点阵均为空；

COCO数据集格式转换规则如下：

3.2.1对图片进行二进制转换，转换后的数据对应关系模式R1中的图片文件；

3.2.2解析JSON文件，其键值对与双层结构映射关系M2如下：

M2＝{{file_name字段}→{U1.图片名称，U2.图片名称},{height字段}→{U1.图片高度}，{width字段}→{U1.图片宽度}，{annotations字段}→{多个R2}，{category_id字段}→{U2.标签类型}，{bbox字段}→{U2.标签左上角x轴，U2.标签左上角y轴，U2.标签右下角x轴，U2.标签右下角y轴}，{segmentation字段}→{U2.多边形点阵}}

3.2.3将RLE和polygon两种多边形描述格式统一转换为mask格式。

步骤四，基于数据集通用格式处理未标注图片：

针对未包含标注信息的图片数据，基于图像检测任务标注的方法将其处理成为步骤一所定义的数据集通用格式，具体步骤如下：

4.1检查图片完整性，剔除不完整的图片；

4.2重命名图片名称，以“年-月-日-编号”的格式对图片进行唯一命名，将修改后的图片名称放入上层数据结构实体中；

4.3缩放图片，采用基于局部均值的图像缩小方法对图片进行等比例缩放，将缩放后的图片尺寸放入上层数据结构实体中；

4.4图片翻转，可选择90°、180°、270°三个角度对图片进行翻转操作，以增强数据；

4.5使用标注对图片中目标进行范围标注，将标注框的左上角和右下角位置及标注目标类型放入下层数据结构实体中，同一图片的上层数据结构实体对应多个下层数据结构实体；

4.6使用多边形对图片中目标进行轮廓标注，将多边形各角的位置融合为mask格式放入下层数据结构实体；

4.7判定物体拍摄角度，判定结果为上、下、左、右中的一项；判定物体是否被遮挡，物体在图片中未能完全显示即判定为遮挡；评估物体检测难易程度，图片中物体未能表达主要特征，或遮挡范围超过一半则评估程度为困难，反之表达出主要特征且遮挡范围未超过一半的评估程度为简单；将以上三项放入对应的下层数据结构实体中。

步骤五，基于通用数据格式数据生成目标检测数据集：

基于步骤三和步骤四所得数据集通用格式数据，依据目标检测算法的需求生成训练数据集，实现从已有数据中抽取数据重新组合形成新的数据集用于机器学习算法，能够有针对性的选择数据，提高数据集质量，具体步骤如下：

5.1依据算法需求和任务目标选取任务目标类型；

5.2从数据库中读取属于任务目标类型的全部图片信息；

5.3依据数据库中读取的图片信息进行图片还原以及标注信息展示；

5.4以步骤5.3中得到的图片为判断依据，对图片列表进行筛选；

5.5对步骤5.4中筛选后的列表进行随机分配，以7:3:1的比例分配为训练数据集、测试数据集、验证数据集。

通过以上步骤实现了基于数据库的通用图像数据集管理方法。

与现有技术相比，该发明具有以下优点：

1)消除了数据集间的格式差异，不同数据集间的数据可以混合使用；

2)提供了未标注图片的处理方法，能够满足自制数据的需求；

3)可从已有数据中抽取数据重新组合形成新的数据集，提高数据利用率。

附图说明

图1是本发明实施方式流程图。

具体实施方式

下面结合实例对本发明进行进一步说明，本发明的实施方式包括但不限于下列实施例。

步骤一，基于双层结构定义数据集的通用格式：

上层数据结构＝{图片名称，图片文件，图片尺寸}

步骤二，基于数据集通用格式设计数据库表结构：

上层数据结构的关系模式定义为R1(U1,D1,DOM1,F1)，其中

R1＝上层数据结构

U1＝{图片序号，图片名称，图片文件，图片高度，图片宽度}

下层数据结构的关系模式定义为R2(U2,D2,DOM2,F2)，其中

R2＝下层数据结构

F2＝{{标签序号}为主码，{图片序号}为外码依赖于关系R1}

步骤三，基于数据集通用格式对数据集进行格式转换：

根据步骤一所定义通用格式，对PASCAL VOC和COCO两种数据集格式设计转换规则映射到步骤二所定义的两种关系模式中；两种数据集都包含两种数据：图片文件和描述标注信息的标签文件，其中PASCAL VOC数据集使用XML格式描述图片的标签信息，COCO数据集使用JSON格式描述图片的标签信息。

其中，PASCAL VOC数据集格式转换规则如下：

COCO数据集格式转换规则如下：

3.2.2解析JSON文件，其键值对与双层结构映射关系M2如下：

3.2.3将RLE和polygon两种多边形描述格式统一转换为mask格式。

步骤四，基于数据集通用格式处理未标注图片：

4.1检查图片完整性，剔除不完整的图片；

步骤五，基于通用数据格式数据生成目标检测数据集：

基于步骤三和步骤四所得数据集通用格式数据，依据目标检测算法的需求生成目标检测数据集，具体步骤如下：

5.1依据算法需求和任务目标选取任务目标类型；

5.2从数据库中读取属于任务目标类型的全部图片信息；

以上所述，仅为本发明优选地具体实施方式之一，但本发明的保护范围并不局限于此。本领域相关技术人员基于或借鉴本发明思想轻易获得的各种变型或同等布置的其他实施例，均属于本发明保护的范围。

Claims

1.一种基于数据库的通用图像数据集管理方法，其特征在于，具体包括以下步骤：

步骤1:基于双层结构定义数据集的通用格式,提取目标检测中的图片名称、图片文件、图片尺寸、标签类型、标注位置等关键数据作为通用格式的主体，考虑图片中标注对象与图片是多对一的关系，基于双层结构定义数据集的通用格式；

步骤2:基于数据集通用格式设计数据库表结构,使用关系型数据库作为数据存储管理工具，依据步骤一定义的双层结构的数据集通用格式在关系型数据库中设计关系模式；

步骤3:基于数据集通用格式对数据集进行格式转换,根据步骤一所定义通用格式，对PASCAL VOC和COCO两种数据集格式设计转换规则映射到步骤2所定义的两种关系模式中；两种数据集都包含两种数据：图片文件和描述标注信息的标签文件，其中PASCAL VOC数据集使用XML格式描述图片的标注信息，COCO数据集使用JSON格式描述图片的标注信息；

步骤4:基于数据集通用格式处理未标注图片,针对未包含标注信息的图片数据，基于图像检测任务标注的方法将其处理成为步骤一所定义的数据集通用格式；

步骤5基于通用数据格式数据生成目标检测数据集,使用步骤3和步骤4所得数据集通用格式数据，依据目标检测算法的需求生成训练数据集。

2.根据权利要求1所述的一种基于数据库的通用图像数据集管理方法，其特征在于所述步骤1中双层结构的具体定义如下：

上层数据结构＝{图片名称，图片文件，图片尺寸}

3.根据权利要求1所述的一种基于数据库的通用图像数据集管理方法，其特征在于所述步骤2中使用关系模式给出关系模型，具体的关系模型定义如下：

上层数据结构的关系模式定义为R1(U1,D1,DOM1,F1)，其中

R1＝上层数据结构

U1＝{图片序号，图片名称，图片文件，图片高度，图片宽度}

下层数据结构的关系模式定义为R2(U2,D2,DOM2,F2)，其中

R2＝下层数据结构

F2＝{{标签序号}为主码，{图片序号}为外码依赖于关系R1}。

4.根据权利要求1所述的一种基于数据库的通用图像数据集管理方法，其特征在于所述步骤3中PASCAL VOC数据集格式转换规则如下：

3.1.1，对图片进行二进制转换，转换后的数据对应关系模式R1中的图片文件；

3.1.2，解析与3.1.1步骤中图片对应的XML文件，其中XML标签与双层结构映射关系M1如下：

COCO数据集格式转换规则如下：

3.2.1，对图片进行二进制转换，转换后的数据对应关系模式R1中的图片文件；

3.2.2，解析JSON文件，其键值对与双层结构映射关系M2如下：

3.2.3，将RLE和polygon两种多边形描述格式统一转换为mask格式。

5.根据权利要求1所述的一种基于数据库的通用图像数据集管理方法，其特征在于所述步骤4中基于图像检测任务标注的方法将未包含标注信息的图像处理成为双层结构的通用图像数据格式数据，具体步骤如下：

4.1，检查图片完整性，剔除不完整的图片；

4.2，重命名图片名称，以“年-月-日-编号”的格式对图片进行唯一命名，将修改后的图片名称放入上层数据结构实体中；

4.3，缩放图片，采用基于局部均值的图像缩小方法对图片进行等比例缩放，将缩放后的图片尺寸放入上层数据结构实体中；

4.4，图片翻转，可选择90°、180°、270°三个角度对图片进行翻转操作，以增强数据；

4.5，使用标注对图片中目标进行范围标注，将标注框的左上角和右下角位置及标注目标类型放入下层数据结构实体中，同一图片的上层数据结构实体对应多个下层数据结构实体；

4.6，使用多边形对图片中目标进行轮廓标注，将多边形各角的位置融合为mask格式放入下层数据结构实体；

4.7，判定物体拍摄角度，判定结果为上、下、左、右中的一项；判定物体是否被遮挡，物体在图片中未能完全显示即判定为遮挡；评估物体检测难易程度，图片中物体未能表达主要特征，或遮挡范围超过一半则评估程度为困难，反之表达出主要特征且遮挡范围未超过一半的评估程度为简单；将以上三项放入对应的下层数据结构实体中。

6.根据权利要求1所述的基于通用数据格式数据生成目标检测数据集方法，其特征在于所述步骤5中目标检测数据集的生成具体步骤如下：

5.1，依据算法需求和任务目标选取任务目标类型；

5.2，从数据库中读取属于任务目标类型的全部图片信息；

5.3，依据数据库中读取的图片信息进行图片还原以及标注信息展示；

5.4，以步骤5.3中得到的图片为判断依据，对图片列表进行筛选；

5.5，对步骤5.4中筛选后的列表进行随机分配，以7:3:1的比例分配为训练数据集、测试数据集、验证数据集。