CN116310515A - 一种针对小目标数据集的背景置零Mosaic数据增强方法 - Google Patents
一种针对小目标数据集的背景置零Mosaic数据增强方法 Download PDFInfo
- Publication number
- CN116310515A CN116310515A CN202310138285.4A CN202310138285A CN116310515A CN 116310515 A CN116310515 A CN 116310515A CN 202310138285 A CN202310138285 A CN 202310138285A CN 116310515 A CN116310515 A CN 116310515A
- Authority
- CN
- China
- Prior art keywords
- small target
- small
- background
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004321 preservation Methods 0.000 claims abstract description 11
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种针对小目标数据集的背景置零Mosaic数据增强方法。该数据增强方法,首先对原始训练集进行一份拷贝,将其中一份原始训练集实施选择性局部背景保留的背景置零操作,然后通过选择性局部背景保留的裁剪得到小目标集合,接着通过网格目标粘贴法得到目标粘贴训练集,将另一份原始训练集与目标粘贴训练集进行混合,最后对其进行Mosaic数据增强。本发明增大了小目标在图像中有效像素的比例,使得小目标在进行特征提取时能够有机会不被复杂的背景所淹没。同时,本发明克服了以往小目标数据集通过裁剪粘贴等手段导致小目标不自然重叠的缺点,能够有效提高小目标数据集的识别精度。
Description
技术领域
本发明属于深度学习目标检测领域,涉及一种针对小目标数据集的背景置零Mosaic数据增强方法。
背景技术
随着深度学习理论与实践的结合,目标检测技术也取得了快速的发展。目标检测任务的目的是获取图像中目标的位置与类型,目前已应用于目标跟踪等多个领域。然而在小目标检测中,由于小目标数据集数据量小、目标数量少、在图像中所占有效像素比例小,特征提取时容易被大量背景干扰,导致小目标特征丢失,使得小目标检测面临着巨大的困难和挑战。
在数据驱动的深度学习邻域,一个更好的数据集往往能得到一个更为满意的网络模型。文献《Alexey Bochkovskiy;Chien-Yao Wang;Hong-Yuan Mark Liao.YOLOv4:Optimal Speed and Accuracy of Object Detection[J].2020,》提出采用Mosaic数据增强方法对四张随机的图片进行随机的翻转、缩放、色域变化等操作,再按照左上、右上、左下、右下的位置随机排列拼接成一张图片,不但增加了数据的多样性、增强了模型鲁棒性,同时也提升了小目标检测性能,并且由于归一化操作一次性计算四张图片数据,降低了模型对内存的需求。文献《KISANTAL M,WOJNA Z,MURAWSKI J,et al.Augmentation forsmall object detection[EB/OL].(2019-02-19)[2019-02-19].》针对小目标覆盖的面积小、出现位置缺乏多样性、检测框与真值框之间的交并比远小于期望的阈值等问题,提出了一种复制增强的方法,通过在图像中多次复制粘贴小目标的方式来增加小目标的训练样本数,从而提升了小目标的检测性能。上述方法虽然在一定程度上缓解了小目标的信息丢失问题,但是却忽略了复杂背景对小目标特征提取的干扰。
发明内容
1.发明目的:
本发明的目的在于,提出一种针对小目标数据集的背景置零Mosaic数据增强方法,用于增加小目标数据集一倍的数据量和小目标数量,增大小目标在图像中有效像素的比例,使得小目标在进行特征提取时能够有机会不被复杂的背景所淹没,同时,克服了以往小目标数据集通过裁剪粘贴等手段导致小目标不自然重叠的缺点。
2.技术方案:
一种针对小目标数据集的背景置零Mosaic数据增强方法,其特征在于包括以下步骤:
步骤一:根据小目标的定义确定小目标数据集中小目标的所有种类,将小目标的所有种类分为不依赖局部背景的小目标class_NO和依赖局部背景的小目标class_YES,令I为原始训练集,I0为由I通过选择性局部背景保留的背景置零得到的背景置零训练集,S为由I0通过选择性局部背景保留的裁剪得到的小目标集合,其中S包含所有种类的小目标集合,为由I0与S通过网格目标粘贴法得到的目标粘贴训练集,/>为由I与/>通过合并得到的背景置零增强训练集,/>为由/>通过Mosaic数据增强得到的背景置零Mosaic数据增强训练集;
其中,选择性局部背景保留的背景置零是指:根据每个数据标签在对应图像中得到对应小目标的种类与目标框的中心点、宽高,将其中小目标种类属于class_YES的小目标的目标框宽高进行n倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,在每张图像中将所有小目标目标框区域以外的区域全部视为该张图像的背景,对背景进行像素值的置零操作,得到的每张新图像和对应的标签构成新的数据集;
其中,选择性局部背景保留的裁剪是指:根据每个数据标签在对应图像中得到对应小目标的种类与目标框的中心点、宽高,将其中小目标种类属于class_YES的小目标的目标框宽高进行n倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,锁定每张图像得到的每个小目标目标框区域,若小目标种类属于class_YES,则将该小目标目标框区域内非该小目标原始目标框区域的所有其它目标框区域进行像素值置零,再裁剪出锁定的每个小目标目标框区域,将其放入S中对应种类的小目标集合中,从而得到所有裁剪出的小目标;
其中,网格目标粘贴法是指:将待增强的背景置零图像划分为M×N的网格,单个标准网格的大小为m_grid×n_grid,并判断每个标准网格中像素值的总和是否为零,如果为零,则在小目标集合中随机挑选某个种类的一张小目标图像粘贴在网格中,使小目标图像的中心点降落在该网格一定范围内的随机位置上,并且定义随机挑选的小目标目标框的宽高为小目标图像的宽高、中心点为生成的随机降落位置,将随机挑选的小目标中小目标种类属于class_YES的小目标的目标框宽高进行n倍缩小,根据随机挑选的小目标种类和随机挑选的小目标目标框的中心点、宽高等信息,产生对应的小目标标签,从而得到对应图像中粘贴的全部小目标标签;
其中,合并是指:两个数据集的简单叠加,从而实现数据集的扩充;
其中,Mosaic数据增强是指:随机选取四张图片,并对每张图片进行随机的翻转、缩放、色域变化等操作,再按照左上、右上、左下、右下的位置随机排列拼接成一张图片,裁剪掉该图片越界部分并变换对应的标签;
步骤二:将I复制一次,得到两份原始训练集;
步骤三:对其中一份I的图像实施选择性局部背景保留的背景置零,得到I0;
步骤四:通过选择性局部背景保留的裁剪,从I0中裁剪出所有小目标,并保存在S中;
3.创新点:
与Mosaic数据增强方法相比较,本发明在前六步均不同;
总体而言,本专利引入了如下方法和思想:
(1)针对大量背景对小目标识别的干扰问题,采用选择性局部背景保留的背景置零方法,将大量的无效背景进行像素值的置零;
(2)针对依赖局部背景的小目标裁剪时丢失了有效局部背景信息,采用选择性局部背景保留的裁剪方法,将有效的局部背景与小目标进行一并裁剪;
(3)针对小目标在粘贴过程中不自然重叠的问题,采用网格目标粘贴法,将待粘贴小目标的图像进行网格区域划分,并通过每个网格区域内像素值的总和判断该网格中是否应该粘贴小目标。
4.有益效果:
本发明公开了一种针对小目标数据集的背景置零Mosaic数据增强方法,通过选择性局部背景保留的背景置零有效减少了背景对小目标的干扰,通过选择性局部背景保留的裁剪保留了依赖局部背景的小目标的有效局部背景信息,通过网格目标粘贴法有效解决了小目标在粘贴过程中不自然重叠的问题,此方法在提升模型检测精度的同时,也增强了模型的泛化能力。
附图说明
图1为针对小目标数据集的背景置零Mosaic数据增强方法流程图,输入原始训练集,对原始训练集进行一次拷贝,得到两份原始训练集;对其中一份原始训练集实施选择性局部背景保留的背景置零操作,得到背景置零训练集;通过选择性局部背景保留的裁剪,从背景置零训练集中裁剪出所有小目标,得到所有种类小目标的集合;通过网格目标粘贴法,从小目标集合中随机挑选小目标粘贴在背景置零训练集的图像中,并创建对应的标签,得到目标粘贴训练集;将目标粘贴训练集与原始训练集进行合并,得到背景置零增强训练集;对背景置零增强训练集实施Mosaic数据增强,得到背景置零Mosaic数据增强训练集;
图2为图像经过选择性局部背景保留的背景置零操作的前后对比图,其图中上半部分为操作前图像与绘制的目标标签,下半部分为操作后图像与绘制的目标标签,可以看出操作后图像中的大部分无效背景的像素值变为了零,依赖局部背景的小目标的局部背景得到了保留;
图3为图像经过选择性局部背景保留的裁剪操作的前后对比图,其图中上半部分为待裁剪的背景置零图像,下半部分为裁剪出的小目标,可以看出裁剪出的小目标包含不依赖局部背景的小目标和依赖局部背景的小目标,其中依赖局部背景的小目标保留了非目标区域的局部背景;
图4为图像经过网格目标粘贴法操作的前后对比图,其图中上半部分为背景置零图像与待粘贴的小目标图像,下半部分为目标粘贴后的图像,可以看出目标粘贴后的目标周围一定范围内无其他目标,更无目标与之重叠。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明,实施例采用自制的卷包车间数据集,数据集标签格式为yolo数据集格式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。
参见图1,本发明提供一种针对小目标数据集的背景置零Mosaic数据增强方法,具体实施方式如下:
步骤一:由于自制的卷包车间数据集中的图像均为1920×1080像素的较大图像,将图像中目标宽小于图像宽0.1倍或目标高小于图像高0.1倍的目标定义为小目标,由此得图像中小目标包括板凳、物料盒、领口未知、领口闭、领口开、口罩未知、口罩戴、口罩未戴、长头发、手机共十个种类,其中将板凳、物料盒、口罩未知、口罩戴、口罩未戴、长头发、手机分类为class_NO,将领口未知、领口闭、领口开分类为class_YES,令I为自制的卷包车间原始训练集,I0为由I通过选择性局部背景保留的背景置零得到的背景置零训练集,S为由I0通过选择性局部背景保留的裁剪得到的小目标集合,其中S包含所有种类的小目标集合,为由I0与S通过网格目标粘贴法得到的目标粘贴训练集,/>为由I与/>通过合并得到的背景置零增强训练集,/>为由/>通过Mosaic数据增强得到的背景置零Mosaic数据增强训练集;
步骤二:将I复制一次,得到两份原始训练集;
步骤三:对其中一份I的图像实施选择性局部背景保留的背景置零,参见图2:根据I中每一张图像的每一个数据标签class cx_normal cy_normal w_normal h_normal与该图像的宽高w_image h_image计算其对应小目标目标框的中心点(cx,xy)、宽高w h,其计算公式为:将其中class属于class_YES的小目标的目标框宽高进行2倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,在每张图像中将所有小目标目标框区域以外的区域全部视为该张图像的背景,对背景进行像素值的置零操作,得到的每张新图像和对应的标签构成新的数据集;
步骤四:对I0中的小目标进行选择性局部背景保留的裁剪,参见图3:根据I0中每一张图像的每一个数据标签class cx_normal cy_normal w_normal h_normal与该图像的宽高w_image h_image计算其对应小目标目标框的中心点(cx,xy)、宽高w h,其计算公式为:将其中class属于class_YES的小目标的目标框宽高进行2倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,锁定每张图像得到的每个小目标目标框区域,若class属于class_YES,则将该小目标目标框区域内非该小目标原始目标框区域的所有其它目标框区域进行像素值置零,再裁剪出锁定的每个小目标目标框区域,将其放入S中对应种类的小目标集合中,从而得到所有裁剪出的小目标;
步骤五:通过网格目标粘贴法,参见图4,从S中随机挑选小目标图像粘贴在I0的图像中并创建对应的标签:将I0中的每一张图像划分为M×N的网格,单个标准网格的大小为m_grid×n_grid,并判断每个标准网格中像素值的总和是否为零,如果为零,则在小目标集合中随机挑选某个种类的一张小目标图像粘贴在网格中,使小目标图像的中心点降落在该网格一定范围内的随机位置上,其中该网格一定范围内的随机位置是指以网格中心为基准的(m_c_grid,n_c_grid)位置,并且定义随机挑选的小目标目标框的宽高为小目标图像的宽高、中心点为生成的随机降落位置,将随机挑选的小目标中小目标种类属于class_YES的小目标的目标框宽高进行2倍缩小,根据随机挑选的小目标种类class、随机挑选的小目标目标框中心点(cx,xy)、宽高w h和该图像的宽高w_image h_image计算小目标的标签class cx_normal cy_normal w_normal h_normal,其计算公式为:/>从而得到对应图像中粘贴的全部小目标标签,进而得到新的数据集/>
Claims (1)
1.一种针对小目标数据集的背景置零Mosaic数据增强方法,其特征在于包括以下步骤:
步骤一:根据小目标的定义确定小目标数据集中小目标的所有种类,将小目标的所有种类分为不依赖局部背景的小目标class_NO和依赖局部背景的小目标class_YES,令I为原始训练集,I0为由I通过选择性局部背景保留的背景置零得到的背景置零训练集,S为由I0通过选择性局部背景保留的裁剪得到的小目标集合,其中S包含所有种类的小目标集合,为由I0与S通过网格目标粘贴法得到的目标粘贴训练集,/>为由I与/>通过合并得到的背景置零增强训练集,/>为由/>通过Mosaic数据增强得到的背景置零Mosaic数据增强训练集;
其中,选择性局部背景保留的背景置零是指:根据每个数据标签在对应图像中得到对应小目标的种类与目标框的中心点、宽高,将其中小目标种类属于class_YES的小目标的目标框宽高进行n倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,在每张图像中将所有小目标目标框区域以外的区域全部视为该张图像的背景,对背景进行像素值的置零操作,得到的每张新图像和对应的标签构成新的数据集;
其中,选择性局部背景保留的裁剪是指:根据每个数据标签在对应图像中得到对应小目标的种类与目标框的中心点、宽高,将其中小目标种类属于class_YES的小目标的目标框宽高进行n倍放大,根据每张图像中每个小目标目标框的中心点、宽高,可以得到其对应的小目标目标框区域,锁定每张图像得到的每个小目标目标框区域,若小目标种类属于class_YES,则将该小目标目标框区域内非该小目标原始目标框区域的所有其它目标框区域进行像素值置零,再裁剪出锁定的每个小目标目标框区域,将其放入S中对应种类的小目标集合中,从而得到所有裁剪出的小目标;
其中,网格目标粘贴法是指:将待增强的背景置零图像划分为M×N的网格,单个标准网格的大小为m_grid×n_grid,并判断每个标准网格中像素值的总和是否为零,如果为零,则在小目标集合中随机挑选某个种类的一张小目标图像粘贴在网格中,使小目标图像的中心点降落在该网格一定范围内的随机位置上,并且定义随机挑选的小目标目标框的宽高为小目标图像的宽高、中心点为生成的随机降落位置,将随机挑选的小目标中小目标种类属于class_YES的小目标的目标框宽高进行n倍缩小,根据随机挑选的小目标种类和随机挑选的小目标目标框的中心点、宽高等信息,产生对应的小目标标签,从而得到对应图像中粘贴的全部小目标标签;
其中,合并是指:两个数据集的简单叠加,从而实现数据集的扩充;
其中,Mosaic数据增强是指:随机选取四张图片,并对每张图片进行随机的翻转、缩放、色域变化等操作,再按照左上、右上、左下、右下的位置随机排列拼接成一张图片,裁剪掉该图片越界部分并变换对应的标签;
步骤二:将I复制一次,得到两份原始训练集;
步骤三:对其中一份I的图像实施选择性局部背景保留的背景置零,得到I0;
步骤四:通过选择性局部背景保留的裁剪,从I0中裁剪出所有小目标,并保存在S中;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138285.4A CN116310515A (zh) | 2023-02-20 | 2023-02-20 | 一种针对小目标数据集的背景置零Mosaic数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310138285.4A CN116310515A (zh) | 2023-02-20 | 2023-02-20 | 一种针对小目标数据集的背景置零Mosaic数据增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310515A true CN116310515A (zh) | 2023-06-23 |
Family
ID=86824975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310138285.4A Pending CN116310515A (zh) | 2023-02-20 | 2023-02-20 | 一种针对小目标数据集的背景置零Mosaic数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310515A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726821A (zh) * | 2024-02-05 | 2024-03-19 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
-
2023
- 2023-02-20 CN CN202310138285.4A patent/CN116310515A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726821A (zh) * | 2024-02-05 | 2024-03-19 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
CN117726821B (zh) * | 2024-02-05 | 2024-05-10 | 武汉理工大学 | 一种面向医疗视频中区域遮挡的医护行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145174B (zh) | 基于图像语义特征进行点云筛选的3d目标检测方法 | |
CN107358262B (zh) | 一种高分辨率图像的分类方法及分类装置 | |
CN110197182A (zh) | 基于上下文信息和注意力机制的遥感影像语义分割方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN108121991B (zh) | 一种基于边缘候选区域提取的深度学习舰船目标检测方法 | |
CN108665463A (zh) | 一种基于对抗式生成网络的宫颈细胞图像分割方法 | |
CN113888547A (zh) | 基于gan网络的无监督域自适应遥感道路语义分割方法 | |
CN111401380B (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN110472628B (zh) | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 | |
CN112070070B (zh) | 一种用于城市遥感场景识别的lw-cnn方法和系统 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN112837344A (zh) | 一种基于条件对抗生成孪生网络的目标跟踪方法 | |
CN110706151B (zh) | 一种面向视频的非均匀风格迁移方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN108537816A (zh) | 一种基于超像素和背景连接先验的显著物体分割方法 | |
CN113011288A (zh) | 一种基于Mask RCNN算法的遥感建筑物检测方法 | |
Zhou et al. | Building segmentation from airborne VHR images using Mask R-CNN | |
CN116310515A (zh) | 一种针对小目标数据集的背景置零Mosaic数据增强方法 | |
CN111523494A (zh) | 一种人体图像检测方法 | |
CN115861799A (zh) | 基于注意力梯度的轻量化空对地目标检测方法 | |
Han et al. | An enhanced image binarization method incorporating with Monte-Carlo simulation | |
CN110991440B (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
CN115965865A (zh) | 一种基于机场掩膜的遥感图像飞机目标检测方法 | |
CN105205485B (zh) | 基于多类类间最大方差算法的大尺度图像分割算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |