CN112348744B - 一种基于缩略图的数据增强方法 - Google Patents
一种基于缩略图的数据增强方法 Download PDFInfo
- Publication number
- CN112348744B CN112348744B CN202011337355.1A CN202011337355A CN112348744B CN 112348744 B CN112348744 B CN 112348744B CN 202011337355 A CN202011337355 A CN 202011337355A CN 112348744 B CN112348744 B CN 112348744B
- Authority
- CN
- China
- Prior art keywords
- thumbnail
- training
- samples
- batch
- data enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于缩略图的数据增强方法,包括以下步骤:S1:对训练样本进行下采样,得到缩略图;S2:将缩略图贴在其对应的一批样本中;S3:重复步骤S1‑S2,对每一批样本的所有图片进行贴图处理,并输入深度网络模型中进行训练,完成基于缩略图的数据增强。本发明通过在训练样本上随机粘贴该样本或其它样本的缩略图,不用改变原来网络的训练方法,在几乎零成本的条件下,可以增强网络对样本全局信息的学习能力,从而极大幅提升深度网络的性能,在各种分类任务和目标检测任务上都取得了最优的结果。
Description
技术领域
本发明属于深度学习的图像处理技术领域,具体涉及一种基于缩略图的数据增强方法。
背景技术
深度学习作为人工智能方向上的一个重要领域,已应用在社会生活实践的各个方面,比如人脸识别和目标检测等等。数据增强作为有效提升深度网络性能的一个重要技术手段,也越来越受到相关研究和工程人员的重视。数据增强通常是指在深度网络的训练阶段,对输入图片进行改变,达到提升网络学习数据特征的能力以及增强网络泛化性的一种技术手段。然而,深度网络的一个重要缺陷,目前的数据增强方法没有办法解决。那就是深度网络倾向于学习样本的细节特征,而缺乏对样本形状和轮廓的捕捉能力。
发明内容
本发明的目的是为了解决深度学习缺乏对样本形状和轮廓捕捉能力的问题,提出了一种基于缩略图的数据增强方法。
本发明的技术方案是:一种基于缩略图的数据增强方法包括以下步骤:
S1:对训练样本进行下采样,得到缩略图;
S2:将缩略图贴在其对应的一批样本中;
S3:重复步骤S1-S2,对每一批样本的所有图片进行贴图处理,并输入深度网络模型中进行训练,完成基于缩略图的数据增强。
本发明的有益效果是:本发明通过在训练样本上随机粘贴该样本或其它样本的缩略图,不用改变原来网络的训练方法,在几乎零成本的条件下,可以增强网络对样本全局信息(比如形状和轮廓)的学习能力,从而极大幅提升深度网络的性能,在各种分类任务和目标检测任务上都取得了最优的结果。
进一步地,步骤S1包括以下子步骤:
S11:在数据集中随机抽取一批样本;
S12:调用深度网络框架中的下采样算法包,对一批样本中的每一个训练样本进行下采样,得到缩略图。
上述进一步方案的有益效果是:在本发明中,对样本进行下采样得到的缩略图可以增强对样本全局信息的学习能力。无论缩放图像(下采样)还是放大图像(上采样),采样方式有很多种。如最近邻插值,双线性插值,均值插值和中值插值等方法。
进一步地,步骤S12中,若训练样本的图像尺寸为M*N,对其进行s倍下采样,得到尺寸为(M/s)*(N/s)的分辨率图像,其中,s为M和N的公倍数;
若训练样本的图像为矩阵形式,则将原始图像s*s窗口内的图像下采样为一个像素,其像素点的值为窗口内所有像素的均值。
进一步地,步骤S2中,采用随机贴图或不随机贴图将缩略图贴在其对应的一批样本中;
若采用随机贴图,则不考虑贴图位置;
若采用不随机贴图,则避开训练样本的目标对象。
进一步地,步骤S2中,若采用随机贴图,则随机选取的区域大小和缩略图相同,将该区域的矩阵元素值按照对应缩略图的矩阵元素值进行赋值。
上述进一步方案的有益效果是:在本发明中,通过缩略图数据增强策略让网络更加容易的学习到训练样本的全局特征。
进一步地,步骤S3包括以下子步骤:
S31:将完成贴图处理后的图片划分为训练集和测试集;
S32:通过训练集训练finetune网络的fc层,迭代每一批样本后,保存深度网络模型;
S33:基于保存的深度网络模型,训练整个深度网络;
S34:测评深度网络在测试集上的结果,完成基于缩略图的数据增强。
进一步地,步骤S32中,深度网络模型中,利用inceptionV4或mobilenet定义算法,并选择优化器使loss最小。
附图说明
图1为数据增强的流程图;
图2为数据增强的实施例图;
图3为数据增强的实施例对比图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
在本发明实施例中,对深度网络训练进行解释说明:
Epoch(时期):当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次>epoch。(也就是说,所有训练样本在神经网络中都进行了一次正向传播和一次反向传播)再通俗一点,一个Epoch就是将所有训练样本训练一次的过程。然而,当一个Epoch的样本(也就是数据集中的所有训练样本)数量可能太过庞大(对于计算机而言),就需要把它分成多个小块,也就是就是分成多个Batch来进行训练。
Batch(批/一批样本):将整个训练样本分成若干个Batch。一个batch的样本输入网络,对模型权重进行一次反向传播的参数更新。
Batch_Size(批大小):每批样本的大小。比如训练集一共有50000万张图片,把这些图片分成100个batch,那么batch_size的大小就是500,即一次训练包含500张图片。
Iteration(一次迭代):训练一个Batch就是一次Iteration(这个概念跟程序语言中的迭代器相似)。
如图1所示,本发明提供了一种基于缩略图的数据增强方法,包括以下步骤:
S1:对训练样本进行下采样,得到缩略图;
S2:将缩略图贴在其对应的一批样本中;
S3:重复步骤S1-S2,对每一批样本的所有图片进行贴图处理,并输入深度网络模型中进行训练,完成基于缩略图的数据增强。
在本发明实施例中,如图1所示,步骤S1包括以下子步骤:
S11:在数据集中随机抽取一批样本;
S12:调用深度网络框架中的下采样算法包,对一批样本中的每一个训练样本进行下采样,得到缩略图。
在本发明中,对样本进行下采样得到的缩略图可以增强对样本全局信息的学习能力。无论缩放图像(下采样)还是放大图像(上采样),采样方式有很多种。如最近邻插值,双线性插值,均值插值和中值插值等方法。
在本发明实施例中,如图1所示,步骤S12中,若训练样本的图像尺寸为M*N,对其进行s倍下采样,得到尺寸为(M/s)*(N/s)的分辨率图像,其中,s为M和N的公倍数;
若训练样本的图像为矩阵形式,则将原始图像s*s窗口内的图像下采样为一个像素,其像素点的值为窗口内所有像素的均值。
在本发明实施例中,如图1所示,步骤S2中,采用随机贴图或不随机贴图将缩略图贴在其对应的一批样本中;
若采用随机贴图,则不考虑贴图位置;
若采用不随机贴图,则避开训练样本的目标对象。
在本发明实施例中,如图1所示,步骤S2中,若采用随机贴图,则随机选取的区域大小和缩略图相同,将该区域的矩阵元素值按照对应缩略图的矩阵元素值进行赋值。
在本发明中,通过缩略图数据增强策略让网络更加容易的学习到训练样本的全局特征。
在本发明实施例中,如图1所示,步骤S3包括以下子步骤:
S31:将完成贴图处理后的图片划分为训练集和测试集;
S32:通过训练集训练finetune网络的fc层,迭代每一批样本后,保存深度网络模型;
S33:基于保存的深度网络模型,训练整个深度网络;
S34:测评深度网络在测试集上的结果,完成基于缩略图的数据增强。
在本发明实施例中,如图1所示,步骤S32中,深度网络模型中,利用inceptionV4或mobilenet定义算法,并选择优化器使loss最小。
在本发明实施例中,如图2所示,由于深度网络在训练过程中偏重于纹理等细节特征,缺乏学习全局信息如形状和轮廓的能力,而全局特征在分类问题上起着非常重要的作用。从图2中可以发现,通过对训练样本进行下采样,可以将样本中大量的细节信息丢弃,但全局信息如形状和轮廓依然完好的在缩略样本中保存。将得到缩略样本覆盖在训练样本上,使新的训练样本具有了更多的全局特征,从而提升深度网络的性能。
在本发明实施例中,如图3所示,在深度网络训练过程中,对训练样本进行下采样,并将下采样后的缩略图贴在原图或者其它训练样本上。同其它的数据增强方式相同,基于缩略图的数据增强只改变输入的训练样本,不会影响网络的结构和训练过程。
图3.a表示一张输入的训练样本;图3.b为自缩略的策略,表示样本进行下采样后,将得到的缩略图随机贴在原图上;图3.c为混合单缩略策略,表示对同一个batch的某一个其它训练样本进行下采样,并将得到的缩略图贴在图3.a上;图3.d为混合多缩略图,表示将同一个batch中的多张其它训练样本进行下采样,并将得到的缩略图贴在图3.a上;图3.e代表其它的缩略图策略,贴在图3.a训练样本上的缩略图,既包含自缩略图,也包含同一batch种其它训练样本的缩略图。
基于缩略图的数据增强策略是目前性能最强的数据增强策略,其最根本的物理意义在于为深度网络提供了学习全局特征的能力,在使用图3.e的策略是,该数据增强方法在imagenet数据集上使用resnet 50网络其best accuracy达到80.41%,是目前单数据增强策略使用resnet 50网络在imagenet数据集上能到达的最高性能。
本发明的工作原理及过程为:本发明提供了一种数据增强的方法。在训练过程中,对batch(每次迭代会随机在数据集中抽取一批样本)中的每一个训练样本进行下采样,并将下采样得到的缩略图贴在该batch中的训练样本上。缩略图的贴图方式可以随机(不用考虑贴图位置)也可以不随机(可以避开训练样本的目标对象)。将batch中所有的图片进行上述处理后,输入网络进行正常训练。
本发明的有益效果为:本发明通过在训练样本上随机粘贴该样本或其它样本的缩略图,不用改变原来网络的训练方法,在几乎零成本的条件下,可以增强网络对样本全局信息(比如形状和轮廓)的学习能力,从而极大幅提升深度网络的性能,在各种分类任务和目标检测任务上都取得了最优的结果。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (7)
1.一种基于缩略图的数据增强方法,其特征在于,包括以下步骤:
S1:对训练样本进行下采样,得到缩略图;
S2:将缩略图贴在其对应的一批样本中;
S3:重复步骤S1-S2,对每一批样本的所有图片进行贴图处理,并输入深度网络模型中进行训练,完成基于缩略图的数据增强。
2.根据权利要求1所述的基于缩略图的数据增强方法,其特征在于,所述步骤S1包括以下子步骤:
S11:在数据集中随机抽取一批样本;
S12:调用深度网络框架中的下采样算法包,对一批样本中的每一个训练样本进行下采样,得到缩略图。
3.根据权利要求2所述的基于缩略图的数据增强方法,其特征在于,所述步骤S12中,若训练样本的图像尺寸为M*N,对其进行s倍下采样,得到尺寸为(M/s)*(N/s)的分辨率图像,其中,s为M和N的公倍数;
若训练样本的图像为矩阵形式,则将原始图像s*s窗口内的图像下采样为一个像素,其像素点的值为窗口内所有像素的均值。
4.根据权利要求1所述的基于缩略图的数据增强方法,其特征在于,所述步骤S2中,采用随机贴图或不随机贴图将缩略图贴在其对应的一批样本中;
若采用随机贴图,则不考虑贴图位置;
若采用不随机贴图,则避开训练样本的目标对象。
5.根据权利要求4所述的基于缩略图的数据增强方法,其特征在于,所述步骤S2中,若采用随机贴图,则随机选取的区域大小和缩略图相同,将该区域的矩阵元素值按照对应缩略图的矩阵元素值进行赋值。
6.根据权利要求1所述的基于缩略图的数据增强方法,其特征在于,所述步骤S3包括以下子步骤:
S31:将完成贴图处理后的图片划分为训练集和测试集;
S32:通过训练集训练finetune网络的fc层,迭代每一批样本后,保存深度网络模型;
S33:基于保存的深度网络模型,训练整个深度网络;
S34:测评深度网络在测试集上的结果,完成基于缩略图的数据增强。
7.根据权利要求6所述的基于缩略图的数据增强方法,其特征在于,所述步骤S32中,深度网络模型中,利用inceptionV4或mobilenet定义算法,并选择优化器使loss最小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337355.1A CN112348744B (zh) | 2020-11-24 | 2020-11-24 | 一种基于缩略图的数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011337355.1A CN112348744B (zh) | 2020-11-24 | 2020-11-24 | 一种基于缩略图的数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348744A CN112348744A (zh) | 2021-02-09 |
CN112348744B true CN112348744B (zh) | 2022-07-01 |
Family
ID=74364833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011337355.1A Active CN112348744B (zh) | 2020-11-24 | 2020-11-24 | 一种基于缩略图的数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348744B (zh) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8081842B2 (en) * | 2007-09-07 | 2011-12-20 | Microsoft Corporation | Image resizing for web-based image search |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US9454289B2 (en) * | 2013-12-03 | 2016-09-27 | Google Inc. | Dyanmic thumbnail representation for a video playlist |
US10529137B1 (en) * | 2016-11-29 | 2020-01-07 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Machine learning systems and methods for augmenting images |
CN107516311A (zh) * | 2017-08-08 | 2017-12-26 | 中国科学技术大学 | 一种基于gpu嵌入式平台的玉米破损率检测方法 |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN111476794B (zh) * | 2019-01-24 | 2023-10-20 | 武汉兰丁智能医学股份有限公司 | 一种基于unet的宫颈病理组织分割方法 |
CN110598600A (zh) * | 2019-08-27 | 2019-12-20 | 广东工业大学 | 一种基于unet神经网络的遥感图像云检测方法 |
CN110852222A (zh) * | 2019-10-31 | 2020-02-28 | 上海交通大学 | 一种基于目标检测的校园走廊场景智能监控方法 |
CN110807448B (zh) * | 2020-01-07 | 2020-04-14 | 南京甄视智能科技有限公司 | 人脸关键点数据增强方法 |
CN111784633B (zh) * | 2020-05-26 | 2024-02-06 | 西安理工大学 | 一种面向电力巡检视频的绝缘子缺损自动检测算法 |
CN111915592B (zh) * | 2020-08-04 | 2023-08-22 | 西安电子科技大学 | 基于深度学习的遥感图像云检测方法 |
CN111951189B (zh) * | 2020-08-13 | 2022-05-06 | 神思电子技术股份有限公司 | 一种多尺度纹理随机化的数据增强方法 |
-
2020
- 2020-11-24 CN CN202011337355.1A patent/CN112348744B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112348744A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389556B (zh) | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
Yan et al. | SRGAT: Single image super-resolution with graph attention network | |
CN109949224B (zh) | 一种基于深度学习的联级超分辨率重建的方法及装置 | |
CN111696110B (zh) | 场景分割方法及系统 | |
Su et al. | Global learnable attention for single image super-resolution | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN114757832A (zh) | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN110634103A (zh) | 基于生成对抗网络的图像去马赛克方法 | |
CN112686119A (zh) | 基于自注意力生成对抗网络的车牌运动模糊图像处理方法 | |
CN112183675A (zh) | 一种基于孪生网络的针对低分辨率目标的跟踪方法 | |
CN114612306A (zh) | 一种面向裂缝检测的深度学习超分辨率方法 | |
CN115797176A (zh) | 一种图像超分辨率重建方法 | |
CN113963272A (zh) | 一种基于改进yolov3的无人机图像目标检测方法 | |
CN111681168B (zh) | 一种基于并行残差网络的低分辨率细胞超分辨率重建方法 | |
CN110599403B (zh) | 一种具有良好高频视觉效果的图像超分辨率重建方法 | |
CN112348744B (zh) | 一种基于缩略图的数据增强方法 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN116029905A (zh) | 一种基于渐进差值互补的人脸超分辨率重构方法及系统 | |
CN114863094A (zh) | 基于双支路网络的工业图像感兴趣区域分割算法 | |
CN113012072A (zh) | 一种基于注意力网络的图像运动去模糊方法 | |
CN113971763A (zh) | 一种基于目标检测和超分重建的小目标分割方法和装置 | |
Yamashige et al. | FPSSD7: Real-time Object Detection using 7 Layers of Convolution based on SSD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wang Xiaomin Inventor after: Liu Ming Inventor after: Xie Tianshu Inventor before: Wang Xiaomin Inventor before: Liu Ming Inventor before: Xie Tianshu |
|
GR01 | Patent grant | ||
GR01 | Patent grant |