CN108596223A - 一种自动生成物体数据集的方法 - Google Patents
一种自动生成物体数据集的方法 Download PDFInfo
- Publication number
- CN108596223A CN108596223A CN201810322244.XA CN201810322244A CN108596223A CN 108596223 A CN108596223 A CN 108596223A CN 201810322244 A CN201810322244 A CN 201810322244A CN 108596223 A CN108596223 A CN 108596223A
- Authority
- CN
- China
- Prior art keywords
- image
- data set
- picture
- object data
- automatically generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明旨在提供一种降低人工成本、效率高的自动生成物体数据集的方法。本发明方法本发明用摄像头对物体进行拍照,获得待测物体图像,对获得的待测物体图像进行处理,提取图像中的物体位置和角度信息,生成标签信息,生成具有不同格式的物体数据集;本发明利用图像处理技术,自动对单个物体或含有多个物体的图片进行分析,生成相应的标签,并得到数据集,得到的数据集可以直接用于深度学习的物体识别模型训练;与实拍的数据集训练得到的模型相比,本方法训练得到的模型其识别精度无明显改变,极大提高了获取数据集的效率,也极大减少了获取数据集的成本。本发明应用于图片处理领域。
Description
技术领域
本发明涉及图片处理领域,特别涉及一种自动生成物体数据集的方法。
背景技术
攒了若干年的图片,有时候想要找一张图片真的是非常困难,需要花费大量的时间去翻查,只能根据大致的时间去找,但常常无法找到。为了更快地查找到需要的照片,目前一般是通过人工对每张照片中进行逐一标注,但人工标注难免出错,需要对标注结果进行交叉检查。这样一来,需要耗费大量的人力和时间,耗时持久且时常出错。
随着科技的发展,深度学习方法的发展使得各种图片内容识别技术越来越成熟。但深度学习高度依赖数据,丰富的训练数据将极大提升模型的准确性和泛化能力。为训练物体识别模型,需要包含有物体照片、物体名称和位置的数据集。物体名称和位置称为标签。目前,未有一种较好的方法能够快速地生成物体的图像数据集来训练物体识别模型。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种降低人工成本、效率高的自动生成物体数据集的方法。
本发明所采用的技术方案是:本发明方法包括以下步骤:
(1)用摄像头对物体进行拍照,获得待测物体图像;
(2)对获得的待测物体图像进行处理,提取图像中的物体位置和角度信息,生成标签信息,生成具有不同格式的物体数据集。
进一步地,上述步骤(2)中的像中的物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
再进一步地,所述步骤(2)还包括图片拼接的步骤:在完成对待测物体图像进行处理后,将物体图片随机放到黑色画布上,拼接后生成多物体图像,提取多物体图像中的物体位置和角度信息,生成各个物体的标签信息,自动标注,生成具有不同格式的多物体数据集。
又进一步地,图像中的多物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,再进行连通域并集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
进一步地,对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形的过程中,其中,
(1)中值滤波过程采用如下公式进行:
g(x,y)=med{f(x-k,y-l),(k,l∈W),其中, f(x,y),g(x,y)分别为原始图像和处理后图像,W 为二维模板,为圆形或者正方形;
(2)大津二值化处理的过程如下:设定最佳阈值t,该阈值t把图像分为前景和背景,具体如下:
设图象包含L个灰度级(0,1…,L-1),灰度值为i的象素点数为Ni ,图象总的象素点数为N=N0+N1+...+N(L-1),灰度值为i的点的概为:
P(i) = N(i)/N,
阈值t将整幅图象分为暗区c1和亮区c2两类,则类间方差σ是t的函数:σ=a1*a2(u1-u2)^2 (2),
式中,aj 为类cj的面积与图象总面积之比,a1 = sum(P(i)) i->t, a2 = 1-a1; uj为类cj的均值,u1 = sum(i*P(i))/a1 0->t, u2 = sum(i*P(i))/a2, t+1->L-1,其中j取值1或2;
令Δu=u1-u2,σb = max{a1(t)*a2(t)Δu^2},当类间方差σ最大时,得到最佳阈值t;
(3)求解图像中具有相同像素值且位置相邻的前景像素点组成的图像区域,进行连通域单集求解;
(4)最后将连通域的形状转换为凸变形。
再又进一步地,在拼接后生成的多物体图像中,如物体与物体之间的重叠面积大于20%,则重新调整分割的物体图像在黑色画布上的位置。
其中,所述标签信息包括但不限于图片的名称、长度、宽度、通道数、图片中物体的类别标签名、图片中物体的坐标信息。
本发明的有益效果是:本发明用摄像头对物体进行拍照,获得待测物体图像,对获得的待测物体图像进行处理,提取图像中的物体位置和角度信息,生成标签信息,生成具有不同格式的物体数据集;本发明利用图像处理技术,自动对单个物体或含有多个物体的图片进行分析,生成相应的标签,并得到数据集,得到的数据集可以直接用于深度学习的物体识别模型训练;与实拍的数据集训练得到的模型相比,本方法训练得到的模型其识别精度无明显改变;本发明方法极大提高了获取数据集的效率,也极大减少了获取数据集的成本。
附图说明
图1是第一种单物体的图片示意图;
图2是第二种单物体的图片示意图;
图3是第三种单物体的图片示意图;
图4是拼接生成的多物体图片示意图;
图5是真实拍摄数据集精度表;
图6是拼接数据集精度表。
具体实施方式
本发明方法包括以下步骤:
(1)用摄像头对物体进行拍照,获得待测物体图像;
(2)对获得的待测物体图像进行处理,提取图像中的物体位置和角度信息,生成标签信息,生成具有不同格式的物体数据集。其中,所述标签信息包括但不限于图片的名称、长度、宽度、通道数、图片中物体的类别标签名、图片中物体的坐标信息。
具体地,图像中的物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
针对在一张图片中具有多物体的情况,还包括图片拼接的步骤:在完成对待测物体图像进行处理后,将物体图片随机放到黑色画布上,拼接后生成多物体图像,提取多物体图像中的物体位置和角度信息,生成各个物体的标签信息,自动标注,生成具有不同格式的多物体数据集。其中的图像中的多物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,再进行连通域并集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
上述对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形的过程中,其中,中值滤波过程采用如下公式进行:
g(x,y)=med{f(x-k,y-l),(k,l∈W),其中, f(x,y),g(x,y)分别为原始图像和处理后图像,W 为二维模板,为圆形或者正方形;
大津二值化处理的过程如下,设定最佳阈值t,该阈值t把图像分为前景和背景,具体如下:
设图象包含L个灰度级(0,1…,L-1),灰度值为i的象素点数为Ni ,图象总的象素点数为N=N0+N1+...+N(L-1),灰度值为i的点的概为:
P(i) = N(i)/N,
阈值t将整幅图象分为暗区c1和亮区c2两类,则类间方差σ是t的函数:σ=a1*a2(u1-u2)^2 (2),
式中,aj 为类cj的面积与图象总面积之比,a1 = sum(P(i)) i->t, a2 = 1-a1; uj为类cj的均值,u1 = sum(i*P(i))/a1 0->t, u2 = sum(i*P(i))/a2, t+1->L-1,其中j取值1或2;
令Δu=u1-u2,σb = max{a1(t)*a2(t)Δu^2},当类间方差σ最大时,得到最佳阈值t。
求解图像中具有相同像素值且位置相邻的前景像素点组成的图像区域,进行连通域单集求解。
最后将连通域的形状转换为凸变形。
在拼接后生成的多物体图像中,如物体与物体之间的重叠面积大于20%,则重新调整分割的物体图像在黑色画布上的位置。
为展示本方法相对人工处理的优势,我们对1000张单物体图片分别进行本方法标注和人工标注,生成数据集。所需时间结果如下(分钟):
对于含有多物体图片,做如下试验:
(1)准备了13类物品的单物体图片,进行拼接生成多物体数据集;
(2)对上述13类物品,实拍相同数量的多物体图片,并通过人工进行打标签;
(3)加入相同数量相同比例的单物体数据集,与1和2分别混合,生成数据集A和B;
(4)用相同的神经网络和训练参数,用数据集A和B分别训练,生成两个模型;
(5)用同一个的测试集对生成的模型进行测试。
测试结果如图5和图6所示。其中图5是真实拍摄数据集精度表;图6是拼接数据集精度表。
其中,在测试精度方面,真实数据集测试结果的mAP 为 0.9820;而拼接数据集测试结果的mAP 为 0.9822。其中AP 为 Average Precision的缩写,意指平均精确度。而mAP是mean Average Precision的缩写,这里计算的是所有类别的平均精确度。 而在测试时间方面:自动生成数据集,耗时4分钟;人工生成数据集,耗时2107分钟。
由上述实验结果可知:
拼接的多物体数据集对模型的训练没有产生识别的精确度降低的影响,并且大大缩短了数据集的准备时间。
通过上述说明可知,本发明用包含单个物品或多个物体的图片数据集,自动生成可用于深度学习训练的多物体数据集。与实拍的数据集相比,生成的数据集所训练的模型,其识别精度无明显改变。本发明方法极大提高了获取数据集的效率,且对模型的准确性没有明显影响。
本发明应用于图片处理领域。
Claims (7)
1.一种自动生成物体数据集的方法,其特征在于,该方法包括以下步骤:
(1)用摄像头对物体进行拍照,获得待测物体图像;
(2)对获得的待测物体图像进行处理,提取图像中的物体位置和角度信息,生成标签信息,生成具有不同格式的物体数据集。
2.根据权利要求1所述的一种自动生成物体数据集的方法,其特征在于,图像中的物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
3.根据权利要求1所述的一种自动生成物体数据集的方法,其特征在于,所述步骤(2)还包括图片拼接的步骤:在完成对待测物体图像进行处理后,将物体图片随机放到黑色画布上,拼接后生成多物体图像,提取多物体图像中的物体位置和角度信息,生成各个物体的标签信息,自动标注,生成具有不同格式的多物体数据集。
4.根据权利要求3所述的一种自动生成物体数据集的方法,其特征在于,图像中的多物体位置和角度信息的提取过程如下:对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,再进行连通域并集求解,将图片转换成凸变形,以最小外接矩形的左上角、右下角、中心点坐标和角度作为图像中的物体位置和角度信息。
5.根据权利要求2或4所述的一种自动生成物体数据集的方法,其特征在于,对采集的照片进行中值滤波,对处理后的图片做大津二值化处理,进行连通域单集求解,将图片转换成凸变形的过程中,其中,
(1)中值滤波过程采用如下公式进行:
g(x,y)=med{f(x-k,y-l),(k,l∈W),其中, f(x,y),g(x,y)分别为原始图像和处理后图像,W 为二维模板,为圆形或者正方形;
(2)大津二值化处理的过程如下:设定最佳阈值t,该阈值t把图像分为前景和背景,具体如下:
设图象包含L个灰度级(0,1…,L-1),灰度值为i的象素点数为Ni ,图象总的象素点数为N=N0+N1+...+N(L-1),灰度值为i的点的概为:
P(i) = N(i)/N,
阈值t将整幅图象分为暗区c1和亮区c2两类,则类间方差σ是t的函数:σ=a1*a2(u1-u2)^2 (2),
式中,aj 为类cj的面积与图象总面积之比,a1 = sum(P(i)) i->t, a2 = 1-a1; uj为类cj的均值,u1 = sum(i*P(i))/a1 0->t, u2 = sum(i*P(i))/a2, t+1->L-1,其中j取值1或2;
令Δu=u1-u2,σb = max{a1(t)*a2(t)Δu^2},当类间方差σ最大时,得到最佳阈值t;
(3)求解图像中具有相同像素值且位置相邻的前景像素点组成的图像区域,进行连通域单集求解;
(4)最后将连通域的形状转换为凸变形。
6.根据权利要求4所述的一种自动生成物体数据集的方法,其特征在于:在拼接后生成的多物体图像中,如物体与物体之间的重叠面积大于20%,则重新调整分割的物体图像在黑色画布上的位置。
7.根据权利要求1所述的一种自动生成物体数据集的方法,其特征在于:所述标签信息包括但不限于图片的名称、长度、宽度、通道数、图片中物体的类别标签名、图片中物体的坐标信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810322244.XA CN108596223A (zh) | 2018-04-11 | 2018-04-11 | 一种自动生成物体数据集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810322244.XA CN108596223A (zh) | 2018-04-11 | 2018-04-11 | 一种自动生成物体数据集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108596223A true CN108596223A (zh) | 2018-09-28 |
Family
ID=63621847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810322244.XA Pending CN108596223A (zh) | 2018-04-11 | 2018-04-11 | 一种自动生成物体数据集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596223A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109738752A (zh) * | 2018-11-13 | 2019-05-10 | 杭州意能电力技术有限公司 | 一种用于接地网维护的快速成像方法 |
CN111241332A (zh) * | 2020-01-17 | 2020-06-05 | 珠海博明视觉科技有限公司 | 一种通过自动识别工件搜索其对应测量程序的方法 |
CN114550129A (zh) * | 2022-01-26 | 2022-05-27 | 江苏联合职业技术学院苏州工业园区分院 | 一种基于数据集的机器学习模型处理方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533517A (zh) * | 2009-04-15 | 2009-09-16 | 北京联合大学 | 一种基于结构特征的中国书画印章图像自动提取方法 |
CN103745475A (zh) * | 2014-01-22 | 2014-04-23 | 哈尔滨工业大学 | 一种用于球形引脚元件的检测与定位方法 |
CN104217225A (zh) * | 2014-09-02 | 2014-12-17 | 中国科学院自动化研究所 | 一种视觉目标检测与标注方法 |
CN105957145A (zh) * | 2016-04-29 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 道路障碍物识别方法和装置 |
CN106780525A (zh) * | 2016-11-18 | 2017-05-31 | 北方工业大学 | 基于坐标旋转最小外接矩形的光学遥感图像船只方向特征提取方法 |
CN107368565A (zh) * | 2017-07-10 | 2017-11-21 | 美的集团股份有限公司 | 数据处理方法、数据处理装置和计算机可读存储介质 |
-
2018
- 2018-04-11 CN CN201810322244.XA patent/CN108596223A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533517A (zh) * | 2009-04-15 | 2009-09-16 | 北京联合大学 | 一种基于结构特征的中国书画印章图像自动提取方法 |
CN103745475A (zh) * | 2014-01-22 | 2014-04-23 | 哈尔滨工业大学 | 一种用于球形引脚元件的检测与定位方法 |
CN104217225A (zh) * | 2014-09-02 | 2014-12-17 | 中国科学院自动化研究所 | 一种视觉目标检测与标注方法 |
CN105957145A (zh) * | 2016-04-29 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 道路障碍物识别方法和装置 |
CN106780525A (zh) * | 2016-11-18 | 2017-05-31 | 北方工业大学 | 基于坐标旋转最小外接矩形的光学遥感图像船只方向特征提取方法 |
CN107368565A (zh) * | 2017-07-10 | 2017-11-21 | 美的集团股份有限公司 | 数据处理方法、数据处理装置和计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109738752A (zh) * | 2018-11-13 | 2019-05-10 | 杭州意能电力技术有限公司 | 一种用于接地网维护的快速成像方法 |
CN109738752B (zh) * | 2018-11-13 | 2021-01-29 | 杭州意能电力技术有限公司 | 一种用于接地网维护的快速成像方法 |
CN111241332A (zh) * | 2020-01-17 | 2020-06-05 | 珠海博明视觉科技有限公司 | 一种通过自动识别工件搜索其对应测量程序的方法 |
CN111241332B (zh) * | 2020-01-17 | 2023-08-18 | 珠海博明视觉科技有限公司 | 一种通过自动识别工件搜索其对应测量程序的方法 |
CN114550129A (zh) * | 2022-01-26 | 2022-05-27 | 江苏联合职业技术学院苏州工业园区分院 | 一种基于数据集的机器学习模型处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548169B (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
CN106650721A (zh) | 一种基于卷积神经网络的工业字符识别方法 | |
CN107944442A (zh) | 基于改进卷积神经网络的对象检测装置及方法 | |
CN103955718A (zh) | 一种图像主体对象的识别方法 | |
CN108388905B (zh) | 一种基于卷积神经网络和邻域上下文的光源估计方法 | |
CN109544522A (zh) | 一种钢板表面缺陷检测方法及系统 | |
CN108960404B (zh) | 一种基于图像的人群计数方法及设备 | |
CN107133955A (zh) | 一种多层次结合的协同显著性检测方法 | |
CN105335725A (zh) | 一种基于特征融合的步态识别身份认证方法 | |
CN108596223A (zh) | 一种自动生成物体数据集的方法 | |
CN109543688A (zh) | 一种新型的基于多层卷积神经网络的水表读数检测与识别的方法 | |
CN104850850A (zh) | 一种结合形状和颜色的双目立体视觉图像特征提取方法 | |
CN111127417B (zh) | 一种基于sift特征匹配和改进ssd算法的印刷缺陷检测方法 | |
CN106780546A (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN110827312A (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN102147867A (zh) | 一种基于主体的国画图像和书法图像的识别方法 | |
CN110335280A (zh) | 一种基于移动端的金融单据图像分割与矫正方法 | |
CN113392930A (zh) | 基于多层次分治网络的交通标志目标检测方法 | |
CN105740867B (zh) | 图像纹理窗口形状与尺度的选择方法 | |
CN109472257A (zh) | 一种字符版面确定方法及装置 | |
CN106504211A (zh) | 基于改进surf特征匹配的低照度成像方法 | |
CN110473255A (zh) | 一种基于多重网格划分的船舶系船柱定位方法 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及系统 | |
CN106650824B (zh) | 基于支持向量机的运动目标分类方法 | |
CN111161227B (zh) | 一种基于深度神经网络的靶心定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |
|
RJ01 | Rejection of invention patent application after publication |