CN108898188A

CN108898188A - 一种图像数据集辅助标记系统及方法

Info

Publication number: CN108898188A
Application number: CN201810734583.9A
Authority: CN
Inventors: 姜柏帆; 张岚; 程平; 杨正军
Original assignee: Sichuan Hongdian Digital Household Industry Technology Research Institute Co Ltd; Sichuan Miracle Cloud Technology Co Ltd
Current assignee: Sichuan Hongdian Digital Household Industry Technology Research Institute Co Ltd; Sichuan Miracle Cloud Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-11-27

Abstract

本发明公开了一种图像数据集辅助标记系统及方法，旨在解决现有技术中采用人工方法对数据集进行标记方法费时费力且准确性低的问题；本发明利用神经网络训练的思想对神经网络训练所需的图像进行初步特征提取训练，对图像进行识别标记获得神经网络所需的标签文档格式，在大量的图像信息中获得某一类的标签文档，解决了现有的人工方法对数据集进行标记方法费时费力且准确性低的问题，扩展了数据集以及提高数据集生成的效率及准确性；本发明适用于图像数据预处理相关领域。

Description

一种图像数据集辅助标记系统及方法

技术领域

本发明涉及涉及图像数据预处理相关领域，具体涉及一种图像数据集辅助标记系统及方法。

背景技术

“机器学习”一般被定义为一个系统自我改进的过程。从最初的基于神经元模型以及函数逼近论的方法研究，到以符号演算为基础的规则学习和决策树学习的产生，和以后的认知心理学中归纳、解释、类比等概念的引入，至最新的计算学习理论和统计学习的兴起，机器学习一直都在相关学科的实践应用中起着主导作用。这门学科所关注的重点问题是：计算机程序如何随着经验积累自动提高性能。近年来，机器学习被成功地应用于很多领域，包括检测信用卡交易欺诈的数据挖掘程序，获取用户阅读兴趣的信息过滤系统，以及能在高速公路上自动行驶的汽车等等。与此相辅相成的是，机器学习学科的基础理论和算法也有了相当重大的进展。

物体检测是机器学习中相当重要的应用分支，它经历了传统的人工设计特征+浅层分类器的框架，到基于大数据和深度神经网络End-To-End的物体检测框架的发展。物体检测的流程可以大致包括：图像预处理-图像分割-特征提取-判断匹配-输出结果。针对特征提取的方法不同，也分为人工特征提取和利用卷积神经网络的机器提取。

随着利用卷积神经网络等的深度学习技术逐步发展，为了提高识别的效果和扩大到更广泛的应用场景，对于特定标记的图片数据集的要求越来越大。这些标注的数据集广泛应用于人脸识别，物体识别，医疗医学等等领域。按照常规的主流的做法，数据集的标注是利用人工的方法进行单张逐一标注。这种方法费时费力，效率很低，也容易因为人为的因素产生各种例如矩形框位置偏离，标签混乱的错误，而一旦前面的数据集标记准确率过低，将导致后面的训练准确率降低。

发明内容

本发明的目的在于：针对现有技术中采用人工方法对数据集进行标记方法费时费力且准确性低的问题，本发明提供了一种图像数据集辅助标记系统及方法。

本发明采用的技术方案如下：

一种图像数据集辅助标记系统，包括图像获取模块、图像特征提取模块、数据集扩充模块、图像识别定位模块、防错检查模块和文档生成模块；

所述图像获取模块：获取样本图像数据库以及目标图像数据库；

所述图像特征提取模块：获取图像获取模块所发送的样本图像数据库并提取得到样本图像特征，再获取图像获取模块所发送的目标图像数据库并提取得到目标图像特征；

所述图像识别定位模块：获取图像特征提取模块所发送的样本图像特征并训练得到图像识别分类器，根据识别分类器对图像特征提取分类后的目标图像特征识别定位；

所述数据集扩充模块：接收图像识别定位模块所输出的目标图像数据库并扩充得到目标图像数据集；

所述防错检查模块：接收并检查数据集扩充模块所输出的目标图像数据集并检查是否有错误的目标图像，若有，则将目标图像返回至图像识别定位模块继续识别定位，若无，则输出准确目标图像数据集；

所述文档生成模块：接收防错检查模块所输出的准确目标图像数据集并生成标签文档格式。

防错检查模块可以选用机器纠错或人工纠错。

本发明还提供了一种图像数据集辅助标记方法，包括以下步骤：

步骤1：获取样本图像数据库以及目标图像数据库；

步骤2：获取样本图像数据库并提取得到样本图像特征，并获取目标图像数据库并提取得到目标图像特征；

步骤3：获取样本图像特征并训练得到图像识别分类器，根据识别分类器对图像特征提取分类后的目标图像特征识别定位；

具体地，所述步骤3的具体步骤为：

步骤3.1：利用神经网络对样本图像特征训练得到图像识别分类器；

步骤3.2：利用图像识别分类器对目标图像特征识别定位得到边界框信息包括label，x，y，w，h，label代表该类分类的名称，x代表识别定位框左上角横坐标的像素值，y代表识别定位框左上角纵坐标的像素值，w指的是定位框的宽度，h指的是定位框的高度；

步骤4：接收步骤3所输出的标记的目标图像数据库并扩充得到目标图像数据集；

所述步骤4的具体步骤为：

步骤4.1：获取标记的目标图像数据库，边界框信息坐标为(x，y，w，h)；

步骤4.2：图像的中心点作为坐标原点，根据识别框坐标得到标记的目标图像ABCD坐标位置以及识别框EFGH的坐标；

步骤4.3：对标记的目标图像ABCD中的坐标点旋转θ，线性变换得到变换后的目标图像A’B’C’D’；

步骤4.4：获取4.3做线性变换后的目标图像A’B’C’D’，得到扩充后的目标图像数据集；

还包括步骤4.5：对步骤4.4所获得的目标图像数据集中的图像和边界框补全；

补全后的图像A”B”C”D”边界以及边界框都需要分别平行于坐标轴；

设A′的坐标为(x′_A，y′_A)，同理表示B’C’D’E’F’G’H’点的坐标；

设A″的坐标为(x″_A，y″_A)，同理表示B”C”D”E”F”G”H”点的坐标；

补全后的图像A”B”C”D”与做线性变换后的目标图像A’B’C’D’的相互关系为：

x″_A＝x″_B＝min{x′_A，x′_B，x′_C，x′_D}

y″_B＝y″_C＝max{y′_A，y′_B，y′_C，y′_D}

x″_C＝x″_D＝max{x′_A，x′_B，x′_C，x′_D}

y″_A＝y″_D＝min{y′_A，y′_B，y′_C，y′_D}

x″_E＝x″_F＝min{x′_E，x′_F，x′_G，x′_H}

y″_F＝y″_G＝max{y′_E，y′_F，y′_G，y′_H}

x″_G＝x″_H＝max{x′_E，x′_F，x′_G，x′_H}

y″_E＝y″_H＝min{y′_E，y′_F，y′_G，y′_H}

在扩充图像的过程中多出的部分，全部进行填充白色(RGB(255，255，255))的处理；

矩形E”F”G”H”为扩充后的边界框，令扩充后的图像像素值为x_0，new×y_0，new，即

x_0，new＝max{x′_A，x′_B，x′_C，x′_D}-min{x′_A，x′_B，x′_C，x′_D}

y_0，new＝max{y′_A，y′_B，y′_C，y′_D}-min{y′_A，y′_B，y′_C，y′_D}

x_new＝min{x′_E，x′_F，x′_G，x′_H}-min{x′_A，x′_B，x′_C，x′_D}

y_new＝max{y′_A，y′_B，y′_C，y′_D}-max{y′_E，y′_F，y′_G，y′_H}

w_new＝max{x′_E，x′_F，x′_G，x′_H}-min{x′_E，x′_F，x′_G，x′_H}

h_new＝max{y′_E，y′_F，y′_G，y′_H}-min{y′_E，y′_F，y′_G，y′_H}

(x_new，y_new，W_new，h_new)为扩充后的边界框的位置参数；

步骤5：接收并检查目标图像数据集并检查是否有错误的目标图像，若有，则将目标图像返回至步骤4继续识别定位，若无，则输出准确目标图像数据集；

步骤6：接收准确目标图像数据集并生成标签文档格式。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明利用神经网络训练的思想对神经网络训练所需的图像进行初步特征提取训练，对图像进行识别标记获得神经网络所需的标签文档格式，在大量的图像信息中获得某一类的标签文档，解决了现有的人工方法对数据集进行标记方法费时费力且准确性低的问题，扩展了数据集以及提高数据集生成的效率及准确性；

2.本发明中还通过设置了防错检查模块，进一步地提高了标签文档内容的准确性；

3.本发明中还巧妙地通过对获得的数据集进行旋转处理进行扩大，获得了更多符合要求的数据集，更进一步地扩大了目标数据集的内容；

4.本发明通过利用相应的模块实现对数据集自动打标签，不仅节省了人力，还可以为工作人员收集更多合格的图像数据，同时也可以实现大量数据的分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1是本发明辅助标记系统的模块示意图；

图2是本发明的辅助标记方法的流程示意图；

图3是本发明的辅助标记方法的图像获取模块的流程示意图；

图4是本发明的辅助标记系统的图像特征提取模块的示意图一；

图5是本发明的辅助标记系统的图像特征提取模块的示意图二；

图6是本发明的辅助标记系统的实施例一处理后的示意图；

图7是本发明的辅助标记系统的实施例二的A点坐标转换示意图；

图8是本发明的辅助标记系统的实施例二的数据集扩充模块的原理示意图；

图9是本发明的辅助标记系统的实施例二的扩充后图的补全示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

所述图像特征提取模块：获取图像获取模块所发送的样本图像数据库并提取得到样本图像特征，并获取图像获取模块所发送的目标图像数据库并提取得到目标图像特征；

防错检查模块可以选用机器纠错或人工纠错；

图像特征提取模块的作用是针对已获取到的图像数据进行特征的提取，为之后的识别定位做准备。它主要分为两条平行的流程，一条是基于卷积神经网络的训练，一条是针对特定的分类进行传统人工特征提取。分别面向不同分类的图像标注需求；

针对确定的单一分类的特征提取任务，卷积神经网络采用主流的方法，降低网络的复杂度，提高训练的速度，可以在少量图片数据集作为输入的情况下，在较短的时间内获得训练结果，在图像之中对单一一个分类的物体得到良好的识别结果；

传统人工特征提取的流程主要是对特定的分类进行特征提取，主要包括SIFT特征，HOG，Haar特征等等；

图像识别定位模块的目的是对获取模块得到的各个分类内的全部图像进行识别定位。它的具体操作是紧跟在特征提取之后的，针对特征提取模块的两条平行流程采取不同的识别方法。分为三个平行的流程：

(1)对于基于卷积神经网络的识别训练，识别的方式是将图片导入已经训练好的网络模型中，得到识别定位的结果；

(2)对于传统人工特征提取，识别需要针对各个特征的特定分类器进行识别定位，分类器主要包括SVM，Adaboost，Haar分类器等；

(3)对防错检查模块回传的图像进行人工标注；

得到的输出结构为(label，x，y，width，height)。其中label代表该类分类的名称，x代表识别定位框左上角横坐标的像素值，y代表识别定位框左上角纵坐标的像素值，width指的是定位框的宽度，height指的是定位框的高度。

防错检查模块的目的是对识别定位的准确性进行分析，尽可能地防止识别定位错误。包括人工检查和机器检查两部分。不合格的图像会传回图像识别定位模块重新进行识别定位。

文档生成模块会针对生成的正确的(label，x，y，width，height)信息批量生成包括VOC，COCO等各大主流数据集的标签文档格式的文件。

实施例二

在上述实施例的基础上，数据集扩充模块具体为：

结合图6到图9对本实施例进行详细说明，一张图片的像素值是x₀×y₀，即有x₀行，y₀列。

识别标记好的边界框的位置按照之前的表述是(x，y，width，height)，为了书写方便，简写成(x，y，w，h)。x代表识别框左上角横坐标的像素值，y代表识别框左上角纵坐标的像素值，w指的是定位框的宽度，h指的是定位框的高度。因此，可知x∈[0，x₀]，y∈[0，y₀]。

现为了在二维坐标系中描述，将图像的中心点作为坐标原点。

如图矩形ABCD为该图片，矩形EFGH为识别框的位置。根据上述规则，坐标分别为：

为了生成新的图像和新的框，将图像和框一起以原点为圆心旋转，为讨论方便，选取逆时针方向为旋转正方向。根据线性代数理论，如下图对于A(x，y)点旋转θ后得到A′(x′，y′)点；

可以通过下式的线性变换得到：

一般θ∈[0，2π]；

那么对ABCDEFGH八个点做相同的操作得到旋转后的坐标值，即得到A’B’C’D’E’F’G’H’的位置。也就是完成了旋转θ角度的操作；

这时矩形A’B’C’D’就形成了一个新的图像，矩形E’F’G’H’就形成了一个新的框。

但是，按照一般的规则，图像的边界以及边界框都需要分别平行于坐标轴，这样才有利于数据集的统一和使用。所以需要对图像和边界框进行补全；

设A′的坐标为(x′_A，y′_A)，即A′(x′_A，y′_A)。同理表示B’C’D’E’F’G’H’点的坐标。

设A″的坐标为(x″_A，y″_A)，即A″(x″_A，y″_A)。同理表示B”C”D”E”F”G”H”点的坐标。

那么扩充后他们之间的相互关系为：

x″_A＝x″_B＝min{x′_A，x′_B，x′_C，x′_D}

y″_B＝y″_C＝max{y′_A，y′_B，y′_C，y′_D}

x″_C＝x″_D＝max{x′_A，x′_B，x′_C，x′_D}

y″_A＝y″_D＝min{y′_A，y′_B，y′_C，y′_D}

x″_E＝x″_F＝min{x′_F，x′_F，x′_G，x′_H}

y″_F＝y″_G＝max{y′_G，y′_F，y′_G，y′_H}

x″_G＝x″_H＝max{x′_E，x′_F，x′_G，x′_H}

y″_E＝y″_H＝min{y′_E，y′_F，y′_G，y′_H}

在扩充图像的过程中多出的四个三角形，全部进行填充白色(RGB(255，255，255))的处理。

在如上一系列的操作后，矩形A”B”C”D”为扩充后的图像，矩形E”F”G”H”为扩充后的边界框。令扩充后的图像像素值为x_0，new×y_0，new，扩充后的边界框的位置参数为(x_new，y_new，w_new，h_new)。那么

根据图中可以看出，当旋转角度θ接近时，扩充面积最小，框也最小。

当旋转角度θ接近(k为奇数)时，扩充面积变大，框也变大，影响会较大，建议角度θ选取接近的数值。

实施例三

在上述实施例二的基础，本实施例对辅助标记方法进行具体阐述：

步骤1：获取样本图像数据库以及目标图像数据库；

具体地，所述步骤3的具体步骤为：

步骤3.2：对目标图像特征识别定位得到边界框信息包括label，x，y，w，h，label代表该类分类的名称，x代表识别定位框左上角横坐标的像素值，y代表识别定位框左上角纵坐标的像素值，w指的是定位框的宽度，h指的是定位框的高度；

所述步骤4的具体步骤为：

x″_A＝x″_B＝min{x′_A，x′_B，x′_C，x′_D}

y″_B＝y″_C＝max{y′_A，y′_B，y′_C，y′_D}

x″_C＝x″_D＝max{x′_A，x′_B，x′_C，x′_D}

y″_A＝y″_D＝min{y′_A，y′_B，y′_C，y′_D}

x″_E＝x″_F＝min{x′_F，x′_F，x′_G，x′_H}

y″_F＝y″_G＝max{y′_E，y′_F，y′_G，y′_H}

x″_G＝x″_H＝max{x′_E，x′_F，x′_G，x′_H}

y″_E＝y″_H＝min{y′_E，y′_F，y′_G，y′_H}

(x_new，y_new，W_new，h_new)为扩充后的边界框的位置参数；

步骤6：接收准确目标图像数据集并生成标签文档格式

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种图像数据集辅助标记系统，其特征在于，包括图像获取模块、图像特征提取模块、数据集扩充模块、图像识别定位模块、防错检查模块和文档生成模块；

2.一种图像数据集辅助标记方法，其特征在于，包括以下步骤：

步骤1：获取样本图像数据库以及目标图像数据库；

步骤6：接收准确目标图像数据集并生成标签文档格式。

3.如权利要求2所述的一种图像数据集辅助标记方法，其特征在于，所述步骤3的具体步骤为：

步骤3.2：利用图像识别分类器对目标图像特征识别定位得到边界框信息包括label，x，y，w，h，label代表该类分类的名称，x代表识别定位框左上角横坐标的像素值，y代表识别定位框左上角纵坐标的像素值，w指的是定位框的宽度，h指的是定位框的高度。

4.如权利要求3所述的一种图像数据集辅助标记方法，其特征在于，所述步骤4的具体步骤为：

步骤4.4：获取4.3做线性变换后的目标图像A’B’C’D’，得到扩充后的目标图像数据集。

5.如权利要求4所述的一种图像数据集辅助标记方法，其特征在于，还包括步骤4.5：对步骤4.4所获得的目标图像数据集中的图像和边界框补全。

6.如权利要求5所述的一种图像数据集辅助标记方法，其特征在于，补全后的图像A”B”C”D”边界以及边界框都需要分别平行于坐标轴；

x″_A＝x″_B＝min{x′_A，x′_B，x′_C，x′_D}

y″_B＝y″_C＝max{y′_A，y′_B，y′_C，y′_D}

x″_C＝x″_D＝max{x′_A，x′_B，x′_C，x′_D}

y″_A＝y″_D＝min{y′_A，y′_B，y′_C，y′_D}

x″_E＝x″_F＝min{x′_E，x′_F，x′_G，x′_H}

y″_F＝y″_G＝max{y′_E，y′_F，y′_G，y′_H}

x″_G＝x″_H＝max{x′_E，x′_F，x′_G，x′_H}

y″_E＝y″_H＝min{y′_E，y′_F，y′_G，y′_H}

(x_new，y_new，w_new，h_new)为扩充后的边界框的位置参数。