CN111881720B - 用于深度学习的数据自动增强扩充方法、识别方法及系统 - Google Patents
用于深度学习的数据自动增强扩充方法、识别方法及系统 Download PDFInfo
- Publication number
- CN111881720B CN111881720B CN202010518311.2A CN202010518311A CN111881720B CN 111881720 B CN111881720 B CN 111881720B CN 202010518311 A CN202010518311 A CN 202010518311A CN 111881720 B CN111881720 B CN 111881720B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- contour
- enhancement
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013135 deep learning Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims description 36
- 239000002131 composite material Substances 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000003416 augmentation Effects 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 4
- 239000000463 material Substances 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000013434 data augmentation Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000003708 edge detection Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007849 functional defect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种用于深度学习的数据增强扩充方法、识别方法及系统,步骤包括:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;提取原始图像中识别目标的RoI轮廓的种子图像;对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;根据若干个识别目标的原始图像和若干个合成图像生成数据集;获取原始数据素材及其简便,成本极低,真实性较高,并能够真正投入深度学习网络并取得较好的识别效果。
Description
技术领域
本公开涉及目标识别的数据自动增强方法,属于深度学习计算机视觉领域,具体设计一种用于深度学习的数据增强扩充方法、识别方法及系统。
背景技术
本部分的内容仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
现今,在深度学习方法的学术研究不断深入的背景下,深度学习方法在实际场景部署也日益广泛,然而由于深度学习方法的成功依赖于大量人工标注的高质量数据,因此时间、资金成本消耗较高的人工标注标签、训练数据集匮乏是限制深度学习网络进一步落地应用的重要因素。
常用的已标注开源公共数据集,如IMAGENET数据集,COCO数据集,VOC数据集等,虽然有很完善的标签、注释,而且类目丰富,涵盖了常见的各类物体,但是在实际使用中此类数据集也有很明显的功能性上缺点:并不适合真正在具体的,物体细粒度接近的实际场景中使用。因此实际应用中,多数投入实际使用的深度学习的网络都依赖于特定场景中人工标注的自定义数据集。
发明内容
针对于如何在较少原始素材的情况下,快速高效的生成可用于深度网络训练的自定义数据集,本公开基于出色的目标检测网络如Yolov3,提供了一种用于深度学习的数据增强扩充方法及系统。利用嵌入式设备对于机械臂以及相机的控制,对所需识别物体的实例进行环绕拍摄,从而获取各个角度的细节特征,实现原始素材的获取。之后通过本公开的自动数据增强系统,将训练数据大大扩充,从而将其投入到深度网络的实际应用中去。
第一方面,本公开提供了一种用于深度学习的数据增强扩充方法,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
提取原始图像中识别目标的RoI轮廓的种子图像;
对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
根据若干个识别目标的原始图像和若干个合成图像生成数据集。
第二方面,本公开还提供了一种用于深度学习的数据增强扩充的系统,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
图像处理模块,被配置为:提取原始图像中所需识别目标的RoI轮廓的种子图像;
合成图像生成模块,被配置为:对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集。
第三方面,本公开还提供了一种基于数据增强扩充的识别方法,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
提取原始图像中所需识别目标的RoI轮廓的种子图像;
对种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
根据若干个识别目标的原始图像和若干个合成图像生成数据集;
将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别。
第四方面,本公开还提供了一种基于数据增强扩充的识别系统,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
图像处理模块,被配置为:提取原始图像中所需识别目标的RoI轮廓的种子图像;
合成图像生成模块,被配置为:对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集。
识别模块,被配置为:将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别。
第五方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如第一方面所述的用于深度学习的数据增强扩充方法,或,完成如第三方面所述的基于数据增强扩充的识别方法。
第六方面,本公开还提供了一种嵌入式边缘设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如第一方面所述的用于深度学习的数据增强扩充方法,或,完成如第三方面所述的基于数据增强扩充的识别方法。
与现有技术对比,本公开具备以下有益效果:
1、本公开的用于深度学习的数据增强扩充的方法,采用对识别目标的RoI 轮廓的种子图像进行图像增强操作后进行图像混叠增强,获取若干个合成图像,解决了如何在较少原始素材的情况下,快速高效的生成可用于深度网络训练的自定义数据集问题,取得了用于深度网络训练的自定义数据集时,所需获取原始数据素材降低,获取原始数据素材简便,成本极低。
2、本公开采用的用于深度学习的数据增强扩充的系统,通过合成图像生成模块生成合成图像与原始图像构成的训练数据集具有多样性,解决了如何提高训练数据集的真实性,保证识别效果的技术问题,取得了获取训练数据集的真实性较高,并能够真正投入深度学习网络并取得较好的识别效果。
3、本公开数据增强扩充的识别系统,通过合成图像生成模块、数据集生成模块和识别模块,解决了如何自动化的生成可用于深度网络训练的自定义数据集问题,使得获取完原始素材之后实现了数据扩充的完全自动化,大大提高了深度学习网络实际应用的时间效率。此识别系统所提出的以嵌入式终端为运转轴心的终端采集数据,终端检测目标,后台服务器计算训练一体化应用框架,能够大大推进深度学习网络的实际落地应用。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开的用于深度学习的数据增强扩充的方法流程图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
RoI:Region of Interest,感兴趣图像区域。指图像处理中,从被处理的图像以方框、不规则多边形等方式勾勒出需要处理、识别的目标所在的区域,称为感兴趣图像区域。
种子图像:在此方法中,从原始图像中,把经上级步骤提取出的RoI轮廓作为掩膜,只含原始图像RoI的图像。
Canny算子:Canny边缘检测算法,是John F.Canny开发出来的一个多级边缘检测算法。具体步骤为:应用高斯滤波来平滑图像,目的是去除噪声;找寻图像的强度梯度(intensity gradients);应用非最大抑制(non-maximum suppression)技术来消除边误检;应用双阈值的方法来决定可能的(潜在的) 边界;利用滞后技术来跟踪边界。
Yolov3:目前为止优秀的One-Stage目标检测网络。其在准确率与速度同时能保持在较高水平的性能,使其作为多数实际目标检测应用下的网络首选。
IoU:Intersection over Union,是一种测量在特定数据集中检测相应物体准确度的一个标准。IoU是一个简单的测量标准,只要是在输出中得出一个预测范围(boundingboxes)的任务都可以用IoU来进行测量。
mAP@75:mAP,mean Average Precision,指各类计算出AP在不同类别上的均值。这里的mean指的是对于检测算法在数据集上各类对象的表现;@75,指计算AP时所绘制的PR曲线中IoU的有效阈值,这里是指当IoU大于75%为有效。
混叠增强:先从各实例数据集中进行随机亮度调整,随机模糊化,随机旋转化,等传统图像增强方法,之后进行随机抽取,将RoI轮廓所标定的目标裁剪粘贴到另一张图像,并重复,以此来生成合成大量训练图像,同时标签也相应更新,以此来丰富数据集。此步骤为大幅提升网络mAP@75的关键步骤,是本数据增强方法的关键。
实施例1
本数据增强系统,由原始数据获取,数据增强扩充,送入后台服务器进行网络训练,权重文件上传至嵌入式边缘设备进行前向传播检测等4部分构成。着重于第二部分数据增强扩充,将并不能完成训练任务的数量较少的原始素材扩充至可应用于深度网络训练的训练数据集,同时也实现了以嵌入式终端为运转轴心的终端采集数据,终端检测目标,后台服务器计算训练一体化的应用体系。
如附图1所示,一种用于深度学习的数据增强扩充方法,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
获取原始图像中所需识别目标RoI的轮廓,并以此轮廓为边界将所需识别目标的图像裁剪出来,获得RoI的种子图像;
对裁剪出的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
根据若干个所需识别目标的原始图像和若干个合成图像生成数据集。
进一步的,所述采集所需识别目标的原始视频数据的步骤包括:在纯色背景下,对所需识别目标进行环绕拍摄,获取原始视频数据。作为一种优选的具体实施方式,在纯色背景下,以嵌入式深度学习平台如Nvidia-TX2作为控制终端,通过机械臂提供的接口,以及绑定在机械臂上的相机提供的接口,对所需识别目标实例进行环绕拍摄,获取原始视频数据,此视频数据中,只有一个物体,同时环绕拍摄尽可能地多的获取其细节特征纹理;将获取的原始素材——n 类实例对应的n个视频文件带标号(标号信息对物体进行区分,作为标签)上传至后台服务器进行一下步数据增强处理。
进一步的,所述提取原始视频数据中若干个识别目标的原始图像的步骤包括:对原始视频数据按统一设定帧获取原始图像。作为一种优选的具体实施方式,将获取的原始视频数据上传至后台服务器,在服务器中,将获取的各类视频,按统一每30帧(可视情况增减)获取出原始各类物体的图片。如一段两分钟的视频可大约截取120张图片。通过这一步,获取到n*120张原始图片素材,同时,每张图片中也只含有其标号的一个物体。
进一步的,所述提取原始图像中所需识别目标的感兴趣图像区域(ROI)的步骤包括:
获取原始图片中识别目标的初步目标轮廓,以该轮廓为边界,确定出初步 RoI轮廓;
对初步RoI轮廓进行图像形态学处理获取较接近目标的RoI轮廓;
对较接近目标的目标轮廓通过轮廓面积、上下图质心位置,综合目标的质心位置、轮廓面积的变化程度选取出置信度最高的轮廓;
对置信度最高的轮廓进行平滑处理,获取并确定最终RoI轮廓;
获取最终RoI轮廓中所需识别目标的轮廓点,并生成每张图片对应的轮廓文件以及标签文件。作为一种优选的具体实施方式,使用Canny算子对图片进行初步目标轮廓,之后,再对目标进行适当图像形态学处理(腐蚀,膨胀等操作)获取出较为接近目标的目标轮廓。而此时,图像中还可能有除目标轮廓外因为相机拍摄的原因或者纯色背景上的细微噪点而判断出的其他轮廓,此方法通过综合目标的质心位置,轮廓面积以及上下图(因为我们的视频,以及图像具有的连续性)质心位置,轮廓面积的变化程度选取出置信度最高的轮廓,确定目标轮廓之后再将轮廓进行平滑处理,获取到较为精准的最终RoI轮廓。同时,生成每张图片对应的RoI轮廓点文件以及标签文件。
进一步的,对识别目标的RoI轮廓的种子图像进行图像增强操作的步骤包括:对每个识别目标进行旋转操作、模糊操作和亮度变化操作。所述旋转操作包括:选定旋转角度后生成旋转矩阵,通过得到的旋转矩阵来计算旋转之后各个像素的位置;所述模糊操作步骤包括:采用高斯模糊进行模糊操作,通过选取不同尺寸的高斯核,计算不同高斯核下的高斯权重,来对图像进行不同程度的模糊化操作;所述亮度变化操作包括:通过调整参数α以及β来实现亮度的变化。所述选取角度θ、高斯核G,参数α以及β均为随机取值,还可以通过随机选取尺度变化因子R,使图像的尺寸大小成为原始尺寸的R倍。作为一种优选的具体实施方式,将图像进行传统数据增强操作,上一步已经获取到目标的轮廓点,而后再将每个目标进行,旋转,模糊,亮度变化操作,其中,旋转之后的轮廓可依据之前提取的轮廓点经计算得来,而模糊操作以及亮度变化操作并不改变图像的轮廓位置,变换之后可直接使用上一步获取的轮廓。
旋转操作:选定旋转角度θ,生成旋转矩阵M。
通过得到的旋转矩阵,来计算旋转之后各个像素的位置:
模糊操作:在本方法中,为了使生成的图像的模糊更符合相机成像规律,采用了高斯模糊,通过选取不同尺寸的高斯核,计算不同高斯核下的高斯权重G(x,y),来对图像进行不同程度的模糊化操作,其中,σ为正态分布的标准偏差;e为自然常数,为自然对数函数的底数。
亮度调整:为了使图像能符合不同拍摄条件下的图像成像规律,我们通过调整参数α以及β来实现亮度的变化。
L(x,y)=α*f(x,y)+β (4)
进一步的,随机抽取图像增强操作后的种子图像进行图像混叠增强的步骤包括:随机抽取一张图像增强操作后的图像作为第一目标图像,将第一目标图像作为背景图像,随机抽取除了第一目标图像以外的另一个目标图像作为第二目标图像,获取第二目标图像的RoI轮廓,根据第二目标图像的目标轮廓获取掩膜,通过掩膜将第二目标图像的识别目标进行裁剪,经位移、缩放或扩张操作后放入第一目标图像中,获取若干个合成图像。作为一种优选的具体实施方式,进行混叠增强,在进行传统数据增强(旋转,模糊,亮度调整)之后,我们以一张图片作为背景图片(即背景图片含有一个物体实例),同时选取另一张目标图片,由记录目标图片的文本文件获取到目标图片中的目标轮廓,并由轮廓获取掩膜来将目标图片中的目标进行裁剪,之后,经位移,缩放/扩张等操作之后放入背景图片中,以此来实现合成图像的操作。
为了实现合成图像的多样性,我们将传统增强方法与混叠增强结合,在合成图像时对图像进行传统增强操作,随机抽取图像以获得各种可能的目标组合,随机生成增强参数以获得目标在图像中的多种状态。
具体地:在随机选取背景图片以及目标图片之后,首先随机选取角度θ,确定旋转矩阵M将目标图片旋转操作并同时计算旋转后的轮廓,之后,由随机取值的高斯核G的尺寸来代表此目标的模糊程度并进行模糊操作,再由随机取值的参数α以及β来代表亮度变化的程度来进行亮度变化操作。
之后再随机选取尺度变化因子R,使图像的尺寸大小成为原始尺寸的R倍,并随机生成偏移度Offset因子以决定目标在背景图的偏移位置,同时,保证合成操作时目标的堆叠程度IoU以及上述所有的随机取值都由适当的阈值之内。记A为裁剪目标矩形框,记B为背景图中目标矩形框,则:
之后将目标图片由新轮廓进行裁剪,并在指定位置上放入背景图中。此时合成的新图像中含有背景图中原始带有的一个对象和新放入的对象两个对象,以此实现多个实例的组合。从而实现数据集各个实例角度的多样性以及图片中实例组合的多样性。在此操作中,裁剪出来的目标放入背景图中,若跟背景图中的目标有堆叠,则新放入的会位于上方,我们称之为上方图层,作为背景图的图片及其实例目标,会位于下方图层。
并且,由于相机成像的原理,在现实世界真实(非合成)的图片中,若一张图片中含有多个物体,焦点大多会聚焦位于前方的物体,若多个物体纵向距离较远,未对焦的物体会模糊化;同时,纵向距离远的目标在成像上的表现为相较于纵向距离近的目标,大小会小。为了提高生成合成图像的真实性(毕竟网络是用来测试真实图像的),我们对于各类超参的取值范围进行了真实性调整,比如:我们的下方图层在选定模糊参数时,模糊参数的取值会偏大。同时,下方图层在进行缩放/扩大操作时总会更倾向于缩小,而上方图层扩大的可能性会较高。
进一步的,所述根据若干个识别目标的原始图像和若干个合成图像生成数据集步骤包括:将设定数量的合成图像和设定数量的原始图像作为整体构成数据集。作为优选的一种具体实施方式,将生成10000张(数量可自定义)混叠图像,此图像可能包含多个物体,可能包含单个物体,物体的重叠有前有后并符合相机成像规律,从而在多样性得到保证的同时,使数据集尽可能的近似于真实数据。从而实现只进行简单的原始数据获取,生成多样性强,真实性强的能够真实用于深度学习网络训练的大量数据,大大节省之前人工获取数据集的时间,资金成本。
实施例2
一种用于深度学习的数据增强扩充的系统,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
图像处理模块,被配置为:获取原始图像中识别目标的轮廓图像;
合成图像生成模块,被配置为:对识别目标的轮廓图像进行图像增强操作,随机抽取图像增强操作后的轮廓图像进行图像混叠增强,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集。
进一步的,所述采集模块、图像处理模块、合成图像生成模块和数据集生成模块所被配置的具体方式分别对应实施例1所述的一种用于深度学习的数据增强扩充方法的具体步骤。
实施例3
本公开还提供了一种用于深度学习的数据增强扩充的方法的应用,包括:
创建纯色拍摄背景并确定待检测物体。若需检测多类物体,则将每类物体取单个实例置入拍摄中心并环绕拍摄。此类方法用于每类物体细粒度特征相近甚至相同的情况下(如:不同品牌的5号电池)。当需区分细粒度相近的物体个体(如:我的杯子之于他的杯子),则将所需检测的所有实例依次放入拍摄中心进行环绕拍摄。
在嵌入式控制器如Nvidia-TX2的控制流程之下,拍摄的原始视频素材会通过网络上传至后台远程服务器,一段视频对应一个实例(一个类别),并标号,进入后台服务器数据增强阶段。
后台服务器收到原始视频素材之后,对于各类依次进行数据增强处理:
将每类视频抽帧构成原始图片数据集,同时以标号为前缀将图像命名。
依次将每类图片进行轮廓提取,并生成轮廓文件以及标签框文件。
生成混叠增强图像:从各类中进行随机亮度调整,随机模糊化,随机旋转化,等图像增强方法,随机抽取,将轮廓所标定的目标裁剪粘贴到另一张图像,并重复,以此来生成合成大量训练图像,同时标签也相应更新,以此来丰富数据集,提升深度学习网络的训练效果。
至此,针对于此场景的自定义数据集生成完毕。
将生成好的自定义数据集划分为训练集以及验证集送入网络(如Yolov3) 进行训练,训练完成后,将后台服务器训练生成的权重文件下传至嵌入式设备,并由嵌入式设备进行最终实际场景实时检测。
在其他实施例中,本公开还提供了:
一种基于数据增强扩充的识别方法,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
获取原始图像中识别目标的轮廓图像;
对识别目标的轮廓图像进行图像增强操作,随机抽取图像增强操作后的轮廓图像进行图像混叠增强,获取若干个合成图像;
根据若干个识别目标的原始图像和若干个合成图像生成数据集;
将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别。
进一步的,在完成数据集生成的步骤之后,将数据集划分为训练集以及验证集送入网络中进行训练;
进一步的,所述将待检测数据输入到训练好的网络中进行识别的步骤包括:训练完成后将生成的权重文件下传至嵌入式边缘设备,通过执行既定命令,来对所需进行识别的物体进行真实场景下的拍摄获取待检测数据,通过待检测数据输入到嵌入式边缘设备中进行识别。
进一步的,所述获取原始图像中识别目标的轮廓图像、进行图像增强操作、进行图像混叠增强、生成数据集的具体步骤分别对应上述实施例中所述的用于深度学习的数据增强扩充方法的具体步骤。
一种基于数据增强扩充的识别系统,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
图像处理模块,被配置为:提取原始图像中识别目标的RoI轮廓的种子图像;
合成图像生成模块,对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集。
识别模块,被配置为:将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别。
进一步的,所述采集模块、图像处理模块、合成图像生成模块、数据集生成模块和识别模块所被配置的具体方式分别对应上述实施例中所述的基于数据增强扩充的识别方法的具体步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如上述实施例任一所述的用于深度学习的数据增强扩充方法。
一种嵌入式边缘设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如上述实施例任一所述的用于深度学习的数据增强扩充方法。
本方法使用了机械臂,从而能使整个过程全自动,区别于传统方法中有人工干预的步骤;形成了一套完整的深度学习落地的应用,包括数据的采集,数据增强,数据的训练以及落地的实际应用;提出的以嵌入式终端为运转轴心的终端采集数据,终端检测目标,后台服务器计算训练一体化应用框架,能够大大推进深度学习网络的实际落地应用;混叠数据增强方法的使用大大提高数据集的丰富程度以及网络的训练效果。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (8)
1.一种用于深度学习的数据增强扩充方法,其特征在于,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
具体地,利用嵌入式设备对于机械臂以及相机的控制,对所需识别物体的实例进行环绕拍摄,从而获取各个角度的细节特征;
提取原始图像中识别目标的Ro I轮廓的种子图像;
对识别目标的Ro I轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
根据若干个识别目标的原始图像和若干个合成图像生成数据集;
所述提取原始图像中识别目标的Rol轮廓的种子图像的步骤包括:
提取原始图像中识别目标的Ro I轮廓的种子图像;对识别目标的Ro I轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;对较接近目标的目标轮廓图像通过轮廓面积、上下图质心位置,综合目标的质心位置、轮廓面积的变化程度选取出置信度最高的轮廓图像;对置信度最高的轮廓图像进行平滑处理,获取最终Ro I轮廓图像;获取最终轮廓图像中识别目标的轮廓点,并生成每张图片对应的轮廓文件以及标签文件;
所述随机抽取图像增强操作后的种子图像进行图像混叠增强的步骤包括:随机抽取一张图像增强操作后的轮廓图像作为第一目标图像,将第一目标图像作为背景图像,随机抽取除了第一目标图像以外的另一个目标图像作为第二目标图像,获取第二目标图像的目标轮廓,根据第二目标图像的目标轮廓获取掩膜,通过掩膜将第二目标图像的识别目标进行裁剪,经位移、缩放和扩张操作后放入第一目标图像中,获取若干个合成图像。
2.如权利要求1所述的用于深度学习的数据增强扩充方法,其特征在于,所述采集所需识别目标的原始视频数据的步骤包括:在纯色背景下,对所需识别目标进行环绕拍摄,获取原始视频数据。
3.如权利要求1所述的用于深度学习的数据增强扩充方法,其特征在于,对识别目标的Rol轮廓的种子图像进行图像增强操作的步骤包括:对每个识别目标进行旋转操作、模糊操作和亮度变化操作。
4.一种用于深度学习的数据增强扩充的系统,其特征在于,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
具体地,利用嵌入式设备对于机械臂以及相机的控制,对所需识别物体的实例进行环绕拍摄,从而获取各个角度的细节特征;
图像处理模块,被配置为:提取原始图像中识别目标的Ro I轮廓的种子图像;
合成图像生成模块,被配置为:对识别目标的Ro I轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
所述提取原始图像中识别目标的Rol轮廓的种子图像的步骤包括:
提取原始图像中识别目标的Ro I轮廓的种子图像;对识别目标的Ro I轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;对较接近目标的目标轮廓图像通过轮廓面积、上下图质心位置,综合目标的质心位置、轮廓面积的变化程度选取出置信度最高的轮廓图像;对置信度最高的轮廓图像进行平滑处理,获取最终RoI轮廓图像;获取最终轮廓图像中识别目标的轮廓点,并生成每张图片对应的轮廓文件以及标签文件;
所述随机抽取图像增强操作后的种子图像进行图像混叠增强的步骤包括:随机抽取一张图像增强操作后的轮廓图像作为第一目标图像,将第一目标图像作为背景图像,随机抽取除了第一目标图像以外的另一个目标图像作为第二目标图像,获取第二目标图像的目标轮廓,根据第二目标图像的目标轮廓获取掩膜,通过掩膜将第二目标图像的识别目标进行裁剪,经位移、缩放和扩张操作后放入第一目标图像中,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集。
5.一种基于数据增强扩充的识别方法,其特征在于,步骤包括:
采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
具体地,利用嵌入式设备对于机械臂以及相机的控制,对所需识别物体的实例进行环绕拍摄,从而获取各个角度的细节特征;
提取原始图像中识别目标的RoI轮廓的种子图像;
对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
根据若干个识别目标的原始图像和若干个合成图像生成数据集;
将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别;
所述提取原始图像中识别目标的Rol轮廓的种子图像的步骤包括:
提取原始图像中识别目标的RoI轮廓的种子图像;对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;对较接近目标的目标轮廓图像通过轮廓面积、上下图质心位置,综合目标的质心位置、轮廓面积的变化程度选取出置信度最高的轮廓图像;对置信度最高的轮廓图像进行平滑处理,获取最终RoI轮廓图像;获取最终轮廓图像中识别目标的轮廓点,并生成每张图片对应的轮廓文件以及标签文件;
所述随机抽取图像增强操作后的种子图像进行图像混叠增强的步骤包括:随机抽取一张图像增强操作后的轮廓图像作为第一目标图像,将第一目标图像作为背景图像,随机抽取除了第一目标图像以外的另一个目标图像作为第二目标图像,获取第二目标图像的目标轮廓,根据第二目标图像的目标轮廓获取掩膜,通过掩膜将第二目标图像的识别目标进行裁剪,经位移、缩放和扩张操作后放入第一目标图像中,获取若干个合成图像。
6.一种基于数据增强扩充的识别系统,其特征在于,包括:
采集模块,被配置为:采集所需识别目标的原始视频数据,并提取原始视频数据中若干个识别目标的原始图像;
具体地,利用嵌入式设备对于机械臂以及相机的控制,对所需识别物体的实例进行环绕拍摄,从而获取各个角度的细节特征;
图像处理模块,被配置为:提取原始图像中识别目标的RoI轮廓的种子图像;
合成图像生成模块,被配置为:对识别目标的RoI轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;
数据集生成模块,被配置为:根据若干个识别目标的原始图像和若干个合成图像生成数据集;
识别模块,被配置为:将数据集送入网络进行训练,获取训练好的网络;将待检测数据输入到训练好的网络中进行识别;
所述提取原始图像中识别目标的Rol轮廓的种子图像的步骤包括:
提取原始图像中识别目标的Ro I轮廓的种子图像;对识别目标的Ro I轮廓的种子图像进行图像增强操作,随机抽取图像增强操作后的种子图像进行图像混叠增强,获取若干个合成图像;对较接近目标的目标轮廓图像通过轮廓面积、上下图质心位置,综合目标的质心位置、轮廓面积的变化程度选取出置信度最高的轮廓图像;对置信度最高的轮廓图像进行平滑处理,获取最终Ro I轮廓图像;获取最终轮廓图像中识别目标的轮廓点,并生成每张图片对应的轮廓文件以及标签文件;
所述随机抽取图像增强操作后的种子图像进行图像混叠增强的步骤包括:随机抽取一张图像增强操作后的轮廓图像作为第一目标图像,将第一目标图像作为背景图像,随机抽取除了第一目标图像以外的另一个目标图像作为第二目标图像,获取第二目标图像的目标轮廓,根据第二目标图像的目标轮廓获取掩膜,通过掩膜将第二目标图像的识别目标进行裁剪,经位移、缩放和扩张操作后放入第一目标图像中,获取若干个合成图像。
7.一种计算机可读存储介质,用于存储计算机指令,其特征在于,所述计算机指令被处理器执行时,完成如权利要求1-3任一所述的用于深度学习的数据增强扩充方法,或,完成如权利要求5所述的基于数据增强扩充的识别方法。
8.一种嵌入式边缘设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-3任一所述的用于深度学习的数据增强扩充方法,或,完成如权利要求5所述的基于数据增强扩充的识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518311.2A CN111881720B (zh) | 2020-06-09 | 2020-06-09 | 用于深度学习的数据自动增强扩充方法、识别方法及系统 |
US17/341,855 US11763540B2 (en) | 2020-06-09 | 2021-06-08 | Automatic data enhancement expansion method, recognition method and system for deep learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010518311.2A CN111881720B (zh) | 2020-06-09 | 2020-06-09 | 用于深度学习的数据自动增强扩充方法、识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881720A CN111881720A (zh) | 2020-11-03 |
CN111881720B true CN111881720B (zh) | 2024-01-16 |
Family
ID=73157804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010518311.2A Active CN111881720B (zh) | 2020-06-09 | 2020-06-09 | 用于深度学习的数据自动增强扩充方法、识别方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11763540B2 (zh) |
CN (1) | CN111881720B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393388A (zh) * | 2021-05-26 | 2021-09-14 | 联合汽车电子有限公司 | 一种图像增强方法及采用该方法的装置、存储介质、车辆 |
CN113436259A (zh) * | 2021-06-23 | 2021-09-24 | 国网智能科技股份有限公司 | 基于深度学习的变电站设备实时定位方法及系统 |
CN113570534A (zh) * | 2021-07-30 | 2021-10-29 | 山东大学 | 一种用于深度学习的物品识别数据集扩充方法及系统 |
US20230059007A1 (en) * | 2021-08-20 | 2023-02-23 | Adobe Inc. | Generating object-based layers for digital image editing using object classification machine learning models |
CN114298177A (zh) * | 2021-12-16 | 2022-04-08 | 广州瑞多思医疗科技有限公司 | 一种适用于深度学习训练数据的扩充增强方法、系统及可读存储介质 |
CN114299429A (zh) * | 2021-12-24 | 2022-04-08 | 宁夏广天夏电子科技有限公司 | 一种基于深度学习的人体识别方法、系统及装置 |
CN114283385A (zh) * | 2021-12-29 | 2022-04-05 | 华南理工大学 | 一种异物数据生成方法及终端 |
CN114394100B (zh) * | 2022-01-12 | 2024-04-05 | 深圳力维智联技术有限公司 | 一种无人巡逻车控制系统及无人车 |
CN114648814A (zh) * | 2022-02-25 | 2022-06-21 | 北京百度网讯科技有限公司 | 人脸活体检测方法及模型的训练方法、装置、设备及介质 |
CN114863424A (zh) * | 2022-05-07 | 2022-08-05 | 天津优海云图科技有限公司 | 一种用于方便面瑕疵检测的分类数据集构建方法 |
CN115236077B (zh) * | 2022-07-08 | 2023-04-25 | 广州一洲信息技术有限公司 | 一种钢筋断裂位置和形态的识别方法及装置 |
CN115346109B (zh) * | 2022-08-02 | 2023-07-18 | 北京新岳纵横科技有限公司 | 一种基于iou策略的增强样本生成方法 |
CN115631362A (zh) * | 2022-09-26 | 2023-01-20 | 北京霍里思特科技有限公司 | 一种铁器的识别方法及装置 |
CN116385472B (zh) * | 2023-06-07 | 2023-08-08 | 深圳市锦红兴科技有限公司 | 一种五金冲压件去毛刺效果评估方法 |
CN117809138B (zh) * | 2024-02-23 | 2024-05-14 | 中国电子科技集团公司第二十九研究所 | 一种多余物检测图像数据集增强方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943837A (zh) * | 2017-10-27 | 2018-04-20 | 江苏理工学院 | 一种前景目标关键帧化的视频摘要生成方法 |
CN108805094A (zh) * | 2018-06-19 | 2018-11-13 | 合肥工业大学 | 基于人工脸的数据增强方法 |
CN109753878A (zh) * | 2018-12-06 | 2019-05-14 | 北京科技大学 | 一种恶劣天气下的成像识别方法及系统 |
CN110536068A (zh) * | 2019-09-29 | 2019-12-03 | Oppo广东移动通信有限公司 | 对焦方法和装置、电子设备、计算机可读存储介质 |
CN110688925A (zh) * | 2019-09-19 | 2020-01-14 | 国网山东省电力公司电力科学研究院 | 基于深度学习的级联目标识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210391B1 (en) * | 2017-08-07 | 2019-02-19 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos using contour sequences |
JP6904614B2 (ja) * | 2017-12-08 | 2021-07-21 | 日本電気通信システム株式会社 | 対象物検出装置、予測モデル作成装置、対象物検出方法及びプログラム |
CN108875676B (zh) * | 2018-06-28 | 2021-08-10 | 北京旷视科技有限公司 | 活体检测方法、装置及系统 |
US11568318B2 (en) * | 2020-10-07 | 2023-01-31 | Panasonic Intellectual Property Management Co., Ltd. | Method for developing machine-learning based tool |
-
2020
- 2020-06-09 CN CN202010518311.2A patent/CN111881720B/zh active Active
-
2021
- 2021-06-08 US US17/341,855 patent/US11763540B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943837A (zh) * | 2017-10-27 | 2018-04-20 | 江苏理工学院 | 一种前景目标关键帧化的视频摘要生成方法 |
CN108805094A (zh) * | 2018-06-19 | 2018-11-13 | 合肥工业大学 | 基于人工脸的数据增强方法 |
CN109753878A (zh) * | 2018-12-06 | 2019-05-14 | 北京科技大学 | 一种恶劣天气下的成像识别方法及系统 |
CN110688925A (zh) * | 2019-09-19 | 2020-01-14 | 国网山东省电力公司电力科学研究院 | 基于深度学习的级联目标识别方法及系统 |
CN110536068A (zh) * | 2019-09-29 | 2019-12-03 | Oppo广东移动通信有限公司 | 对焦方法和装置、电子设备、计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11763540B2 (en) | 2023-09-19 |
CN111881720A (zh) | 2020-11-03 |
US20210383148A1 (en) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881720B (zh) | 用于深度学习的数据自动增强扩充方法、识别方法及系统 | |
US11361459B2 (en) | Method, device and non-transitory computer storage medium for processing image | |
Halder et al. | Physics-based rendering for improving robustness to rain | |
CN109741257B (zh) | 全景图全自动拍摄、拼接系统及方法 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN109460754B (zh) | 一种水面异物检测方法、装置、设备及存储介质 | |
CN111027547A (zh) | 一种针对二维图像中的多尺度多形态目标的自动检测方法 | |
CN107749987B (zh) | 一种基于块运动估计的数字视频稳像方法 | |
JP2019053732A (ja) | シーン内に存在する不要なオブジェクトの除去に基づくシーンの画像の動的生成 | |
WO2020095130A1 (en) | Image capture device control based on determination of blur value of objects in images | |
CN109146832B (zh) | 一种视频图像的拼接方法、装置、终端设备及存储介质 | |
EP2686827A1 (en) | 3d streets | |
CN110488481A (zh) | 一种显微镜对焦方法、显微镜及相关设备 | |
CN109919145B (zh) | 一种基于3d点云深度学习的矿卡检测方法及系统 | |
CN110909724B (zh) | 一种多目标图像的缩略图生成方法 | |
CN112001403B (zh) | 一种图像轮廓检测方法及系统 | |
CN113160062A (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111028170A (zh) | 图像处理方法、图像处理装置、电子设备和可读存储介质 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN116670687A (zh) | 用于调整训练后的物体检测模型以适应域偏移的方法和系统 | |
CN111179245B (zh) | 图像质量检测方法、装置、电子设备和存储介质 | |
CN111340765B (zh) | 一种基于背景分离的热红外图像倒影检测方法 | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
CN113724143A (zh) | 用于图像修复的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |