CN112508836A - 一种基于标注框拼接的深度学习图像增强方法 - Google Patents
一种基于标注框拼接的深度学习图像增强方法 Download PDFInfo
- Publication number
- CN112508836A CN112508836A CN202011468618.2A CN202011468618A CN112508836A CN 112508836 A CN112508836 A CN 112508836A CN 202011468618 A CN202011468618 A CN 202011468618A CN 112508836 A CN112508836 A CN 112508836A
- Authority
- CN
- China
- Prior art keywords
- frame
- picture
- splicing
- pictures
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 3
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 abstract description 3
- 238000012850 discrimination method Methods 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于标注框拼接的深度学习图像增强方法,包括以下步骤:步骤1,选取N张图片,把N张图片进行缩放到相同的大小,同时准备一张相同大小的黑板图片;步骤2,对几张图片进行随机排序,随机在图片中定一个拼接点;步骤3,依照这个比例分别在N张图片以及每张图片对应的部分进行裁剪;步骤4,对标注框进行筛选;步骤5,对筛选后的裁剪区域进行缩放、变换、旋转操作;步骤6,重复操作步骤1至步骤5。本发明就是引入语义分割和尺寸判别的方法,对于裁剪类的数据增强算法产生的噪声的拼接的标注框进行识别,以保证拼接类数据增强方法产生数据的质量,提升进行增强后的数据对于模型性能的收益。
Description
技术领域
本发明属于图像增强技术领域,特别涉及一种基于标注框拼接的深度学习图像增强方法。
背景技术(描述下拼接点)
目前,拼接类数据增强算法因其效果明显、成本低的特点在工业界备受关注,主要思想是对已有的多张标注框图片中的目标,分别裁剪一部分,然后拼接成一个新的状况,并且为每个裁剪的标注框标识为原有的目标种类,训练深度学习网络去识别不同目标之间的区别。例如,Cutout、cutmix[3]以及mosaic[4]等算法。cutout通过对目标框内进行随机删除一部分,一方面通过模拟遮蔽问题,来增加数据的复杂度。另一方面,Cutout能够使得模型专注于目标较难区分的区域,提高模型的性能。Cutmix在cutout的基础上进行改进,因为cutout剪切后留下的没有任何信息的标注框会影响训练效率,cutmix对剪切后空出来的部分进行填充,来提高训练效率。
Mosaic是通过多张图片进行随机裁剪、缩放后融合为一张新的图片并形成新的标注框。Mosaic技术通过随机裁剪的方式丰富目标的背景信息;缩放和变换,模拟不同尺度下的物体。数据增强算法在深度学习的目标检测领域被广泛应用,目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。目标检测也是一个具有挑战性的任务,它不仅需要识别类别还需要找出目标的位置。而数据集的制作和标注是成本高昂,数据增强算法在扩充数据的同时,能通过少量具有标签的数据,产生大量带标签的数据。在实际生产中具有非常重要的意义。
在数据增强中类似于cutout,cutmix,mosaic这种裁剪的方式,在实际操作中不可避免的引入噪声(噪声:标注框内包含微量杂乱的信息或者目标的少量信息,却不足以代表该目标的目标标注框)。以使用mosaic算法为例,在拼接的过程中是将目标框跟随裁剪的区域一起合并到新的图片,在对目标框的裁剪过程中难免会出现微小的一部分被当作目标(比如图中的一个窄条被标记成人的类型)的情况最后形成这种不具备辨识度的目标框增加了网络的训练难度,最终影响网络性能较差。
对于选中的的较大的裁剪区域是目标所在的非主体区域,因裁剪的区域过大,同时处于目标的框内且不包含目标主体本身,所以普通的筛选方法并不能过滤掉此类目标的标注框,导致背景信息被当作目标进行训练,从而引入噪声。
发明内容
本发明的目的在于提供一种基于标注框拼接的深度学习图像增强方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种基于标注框拼接的深度学习图像增强方法,包括以下步骤:
步骤1,选取具有需要识别的物体掩模的N张图片,把N张图片及其掩模缩放到相同的大小;
步骤2,对N张图片进行随机排序,并顺序选取M张图片;
步骤3,随机在图片区域范围内选定一或者多个拼接点,拼接点将图像区域分割成M个区域;
步骤4:在步骤3中分割的M个区域中依次选取一个区域,并把步骤2中选择M张图片按顺序把选取的区域进行拼接,组成一张完整的新图片;
步骤5,对步骤4组成的新图片,使用拼接到该图片中的掩模的大小、面积、比例、标注框内是否包含掩模条件来筛选该新图片内的标注框;
步骤6,对于判断无效的的标注框,进行舍弃、重新进行步骤3或对选取的图片的拼接区域进行调整;
步骤7,重复操作步骤1至步骤5,直至完成对所有N张图片的增强。
进一步的,步骤6中的调整为随机产生一个新的拼接区域。
进一步的,步骤5中,筛选该新图片内的标注框的方法包括以下方法中的一个或者多个的组合:
(1)判断所有标注框的最小区域的面积或者最短边是否小于阈值,如果小于,则判断为无效标注框;
(2)获取每一个标注框的掩模,每张图片中所选取的待拼接部分,在图片对应的掩模上截取相同的位置,对截取位置内的N个标注框进行依次判断。
进一步的,方法(2)中使用以下的一种或者多种方法:
(1).判断该标注框内是否包含该目标的掩模部分,如果完全不包含,则判断为无效标注框;
(2).本标注框内包含本目标的掩膜的面积,面积小于阈值的舍弃或者返回步骤3;
(3).计算该标注框内其包含的本目标的掩模与全部掩模面积之间的比例,对于小于阈值的标注框判断为无效标注框;
(4).设置一个阈值,当拼接点到该掩模边缘的最短距离小于一个阈值,或认为裁剪的图像不能代表该物体的特征,判断为无效标注框。
进一步的,步骤6中,所述对选取的图片的拼接区域进行调整,是通过对该区域在原图中的位置进行平移来获取有效标注框,移动方式为在原图片中该区域相对于图内的拼接点的反方向进行移动,移动阈值的距离。
进一步的,步骤3中,拼接点的选取范围限制在图片的宽和高尺寸之比为0.2~0.8内。
与现有技术相比,本发明有以下技术效果:
本发明就是引入语义分割和掩模判别的方法,对于裁剪类的数据增强算法产生的噪声的拼接的标注框进行识别,以保证拼接类数据增强方法产生数据的质量,提升进行增强后的数据对于模型性能的收益。通过对拼接类数据增强算法中形成的噪声进行筛选,使得增强的后的数据集质量更高,能够训练出更高性能的模型。
其原理在于,首先通常情况下目标的轮廓是不规则的,使用传统的矩形框对目标进行标注不可避免的会囊括少量的目标以外的信息,但在目标的掩模中只包含目标自身的信息。通过对标注框内目标的坐标与掩模中坐标的对比、计算,可以获取标注框内目标的真实状况,从而实现了对标注框的筛选和移动等操作。
附图说明
图1为引入标注框示例图。
图2为获取每一个目标主体的所在的轮廓示意图;
图3为对截取位置内的N个标注框进行依次判断示意图。
具体实施方式
以下结合附图对本发明进一步说明:
一种基于标注框拼接的深度学习图像增强方法,
1.选取N张图片,把N张图片进行缩放到相同的大小,同时获取上述图片中所述的掩模图片,掩模中图片中每一目标都清晰掩模区域及其位置信息。
2.对几张图片进行随机排序,随机在图片中定一个拼接点,拼接点的选取范围限制在X,Y边长的一个范围内(比如对于N=4,可以选择这个值为0.2-0.8)之间。
3.依照这个比例分别在N张图片以及每张图片对应的部分(比如N=4,可以取左上、右上、右下、左下的部分)裁剪下来。(可以参照图1)
4.对标注框进行筛选:图1的方框为标注框。标注框,图片内所有待检测的目标的外围矩形框,如图1中,人物外围的矩形框,标注框会包围整个目标。
(1)判断所有标注框的最小区域的面积或者最短边是否大于一定阈值,否则舍弃该标注框
(2)获取每一个目标主体的所在的轮廓(主体的掩模,如图2右侧的阴影区域),每张图片中所选取的待拼接部分,在图片对应的掩模上截取相同的位置,对截取位置内的N个标注框进行依次判断(图3):
A.判断该目标框内是否包含该目标的掩模部分,否则舍弃该标注框。这是因为在裁剪选中的区域正好是标注框内的背景区域,判断为无效框。
B.本目标框内包含本目标的掩膜的面积,面积小于一定阈值的舍弃或者返回步骤3,因其目标框内所包含的目标太过微小,不能代表该目标的特征性质,判断为无效框;
C.计算该标注框内其包含的本目标的掩模与全部掩模面积之间的比例,对于小于一定阈值的标注框判断为无效框;
D.设置一个阈值,当拼接点到该掩模的最短距离小于一个阈值,也可以认为裁剪的图像不能代表该物体的特征,判断为无效框
5.对于不满足条件的无效框,可以采取的方式:
A.对于上述的无效标注框,可直接舍弃该标注框;
B.对于上述的无效标注框,返回步骤2进行重新选取新的拼接点,直到不存在无效标注框为止;
C.对无效框的区域进行在原图中移动,移动时,根据标注框所在区域相对于裁剪区域的中心点的方位,对裁剪区域沿该方向进行移动。
6.对筛选后的裁剪区域进行缩放、变换、旋转等操作,裁剪的区域按照其左上顶点坐标放入新的大小相等的模板上,同时对每一个裁剪区域内的标注框也进行同等坐标变换。
7.进行多次以上操作。
Claims (6)
1.一种基于标注框拼接的深度学习图像增强方法,其特征在于,包括以下步骤:
步骤1,选取具有需要识别的物体掩模的N张图片,把N张图片及其掩模缩放到相同的大小;
步骤2,对N张图片进行随机排序,并顺序选取M张图片;
步骤3,随机在图片区域范围内选定一或者多个拼接点,拼接点将图像区域分割成M个区域;
步骤4:在步骤3中分割的M个区域中依次选取一个区域,并把步骤2中选择M张图片按顺序把选取的区域进行拼接,组成一张完整的新图片;
步骤5,对步骤4组成的新图片,使用拼接到该图片中的掩模的大小、面积、比例、标注框内是否包含掩模条件来筛选该新图片内的标注框;
步骤6,对于判断无效的的标注框,进行舍弃、重新进行步骤3或对选取的图片的拼接区域进行调整;
步骤7,重复操作步骤1至步骤5,直至完成对所有N张图片的增强。
2.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法,其特征在于,步骤6中的调整为随机产生一个新的拼接区域。
3.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法,其特征在于,步骤5中,筛选该新图片内的标注框的方法包括以下方法中的一个或者多个的组合:
(1)判断所有标注框的最小区域的面积或者最短边是否小于阈值,如果小于,则判断为无效标注框;
(2)获取每一个标注框的掩模,每张图片中所选取的待拼接部分,在图片对应的掩模上截取相同的位置,对截取位置内的N个标注框进行依次判断。
4.根据权利要求2所述的一种基于标注框拼接的深度学习图像增强方法,其特征在于,方法(2)中使用以下的一种或者多种方法:
(1).判断该标注框内是否包含该目标的掩模部分,如果完全不包含,则判断为无效标注框;
(2).本标注框内包含本目标的掩膜的面积,面积小于阈值的舍弃或者返回步骤3;
(3).计算该标注框内其包含的本目标的掩模与全部掩模面积之间的比例,对于小于阈值的标注框判断为无效标注框;
(4).设置一个阈值,当拼接点到该掩模边缘的最短距离小于一个阈值,或认为裁剪的图像不能代表该物体的特征,判断为无效标注框。
5.根据权利要求3所述的一种基于标注框拼接的深度学习图像增强方法,其特征在于,步骤6中,所述对选取的图片的拼接区域进行调整,是通过对该区域在原图中的位置进行平移来获取有效标注框,移动方式为在原图片中该区域相对于图内的拼接点的反方向进行移动,移动阈值的距离。
6.根据权利要求1所述的一种基于标注框拼接的深度学习图像增强方法,其特征在于,步骤3中,拼接点的选取范围限制在图片的宽和高尺寸之比为0.2~0.8内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468618.2A CN112508836A (zh) | 2020-12-14 | 2020-12-14 | 一种基于标注框拼接的深度学习图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011468618.2A CN112508836A (zh) | 2020-12-14 | 2020-12-14 | 一种基于标注框拼接的深度学习图像增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508836A true CN112508836A (zh) | 2021-03-16 |
Family
ID=74973044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011468618.2A Pending CN112508836A (zh) | 2020-12-14 | 2020-12-14 | 一种基于标注框拼接的深度学习图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508836A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256652A (zh) * | 2021-05-24 | 2021-08-13 | 中国长江三峡集团有限公司 | 一种混合图像数据增强方法 |
CN113673541A (zh) * | 2021-10-21 | 2021-11-19 | 广州微林软件有限公司 | 一种用于目标检测的图像样本生成方法及应用 |
CN115965872A (zh) * | 2022-07-22 | 2023-04-14 | 中科三清科技有限公司 | 一种茶叶采摘方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN110263794A (zh) * | 2019-06-26 | 2019-09-20 | 国网山东省电力公司建设公司 | 基于数据增强的安全带图像目标识别方法 |
CN110913246A (zh) * | 2019-11-28 | 2020-03-24 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111161243A (zh) * | 2019-12-30 | 2020-05-15 | 华南理工大学 | 基于样本增强的工业产品表面缺陷检测方法 |
CN111415317A (zh) * | 2020-03-20 | 2020-07-14 | 苏州杰锐思智能科技股份有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-12-14 CN CN202011468618.2A patent/CN112508836A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN110263794A (zh) * | 2019-06-26 | 2019-09-20 | 国网山东省电力公司建设公司 | 基于数据增强的安全带图像目标识别方法 |
CN110913246A (zh) * | 2019-11-28 | 2020-03-24 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111161243A (zh) * | 2019-12-30 | 2020-05-15 | 华南理工大学 | 基于样本增强的工业产品表面缺陷检测方法 |
CN111415317A (zh) * | 2020-03-20 | 2020-07-14 | 苏州杰锐思智能科技股份有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113256652A (zh) * | 2021-05-24 | 2021-08-13 | 中国长江三峡集团有限公司 | 一种混合图像数据增强方法 |
CN113673541A (zh) * | 2021-10-21 | 2021-11-19 | 广州微林软件有限公司 | 一种用于目标检测的图像样本生成方法及应用 |
CN115965872A (zh) * | 2022-07-22 | 2023-04-14 | 中科三清科技有限公司 | 一种茶叶采摘方法、装置、电子设备和存储介质 |
CN115965872B (zh) * | 2022-07-22 | 2023-08-15 | 中科三清科技有限公司 | 一种茶叶采摘方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508836A (zh) | 一种基于标注框拼接的深度学习图像增强方法 | |
CN108460764B (zh) | 基于自动上下文和数据增强的超声图像智能分割方法 | |
CN114581742B (zh) | 基于线性度的连通域聚类融合方法、装置、系统及介质 | |
JP2020513133A (ja) | 画像品質の評価方法及び装置 | |
CN108305260B (zh) | 一种图像中角点的检测方法、装置及设备 | |
CN110598698B (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN105608456A (zh) | 一种基于全卷积网络的多方向文本检测方法 | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN102790841A (zh) | 书籍的书脊区域中数字图像的检测和校正方法 | |
CN112767369A (zh) | 小五金的缺陷识别检测方法、装置及计算机可读存储介质 | |
CN113673541B (zh) | 一种用于目标检测的图像样本生成方法及应用 | |
CN112784675B (zh) | 目标检测方法及装置、存储介质、终端 | |
CN110751606A (zh) | 一种基于神经网络算法的泡沫图像处理方法及系统 | |
CN111950556A (zh) | 一种基于深度学习的号牌印刷质量检测方法 | |
CN112330659B (zh) | 结合lsd直线检测和连通域标记法的几何公差符号分割方法 | |
CN114419006A (zh) | 一种随背景变化的灰度视频文字类水印去除方法及系统 | |
CN112699841A (zh) | 一种基于行车视频的交通标志检测识别方法 | |
CN112926694A (zh) | 基于改进的神经网络对图像中的猪只进行自动识别的方法 | |
CN109948605B (zh) | 一种针对小目标的图片增强方法及装置 | |
CN111476235A (zh) | 一种3d曲面文本图片的合成方法 | |
CN110298838A (zh) | 一种确定样本图像的方法、装置、设备和存储介质 | |
CN116469085A (zh) | 一种风险驾驶行为的监控方法及系统 | |
CN110826564A (zh) | 一种复杂场景图像中的小目标语义分割方法及系统 | |
CN115661894A (zh) | 一种人脸图像质量过滤方法 | |
CN114187309B (zh) | 一种基于卷积神经网络的头发分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |