CN112651892A - 一种基于图像样本的自动数据增强策略选择方法 - Google Patents

一种基于图像样本的自动数据增强策略选择方法 Download PDF

Info

Publication number
CN112651892A
CN112651892A CN202011526140.4A CN202011526140A CN112651892A CN 112651892 A CN112651892 A CN 112651892A CN 202011526140 A CN202011526140 A CN 202011526140A CN 112651892 A CN112651892 A CN 112651892A
Authority
CN
China
Prior art keywords
image
transformation
enhancement
data
enhancement strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011526140.4A
Other languages
English (en)
Inventor
徐梦娟
姚鹏
申书伟
邵鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011526140.4A priority Critical patent/CN112651892A/zh
Publication of CN112651892A publication Critical patent/CN112651892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种基于图像样本的自动数据增强策略选择方法,包括如下步骤:步骤1、获取目标图像数据集;步骤2、建立数据增强策略搜索空间,其中包括多种数据增强策略;步骤3、设定参数N值,对每一个图像随机进行N次图像数据转换操作,每次操作都均等的从所设立的搜索空间中选择一种增强策略进行图像变换操作;步骤4、设定参数P值,即单次增强策略有P的概率值会进行增强操作,也有1‑P的概率保持图像不变,若进行图像变换,则变换幅度在设定变换量级范围内随机选择;步骤5、在经过N次图像变换后,以随机裁剪的方式对经过图像增强的数据进行剪裁,获取输入至神经网络模型的图像样本;步骤6、将裁剪后的图像数据输入到深度神经网络模型进一步训练。

Description

一种基于图像样本的自动数据增强策略选择方法
技术领域
本发明涉及图像处理领域,特别是医学图像数据增强策略方法领域。
背景技术
1)随着图像处理技术特别是深度学习技术的快速发展,在很多方面需要用到大量的有标记数据,比如人脸识别、医学影像相关疾病的自动诊断等,而获取充足的标记数据是一份非常耗时耗力的工作。数据增强是一种有效的解决标注数据不足的一种方法,它能够利用现有的标注数据,通过一系列图像转换操作,生成新的数据,从而有效的扩充数据集。
2)近年来,在大量的图像处理,以及医学影像处理任务中,通常使用深度神经网络技术来提取图像的特征,可以取得更高的性能。但是,为了保证深度神经网络模型的性能,通常需要大量的有标注样本进行训练,然而大量样本的获取是非常不容易的,特别是对于某些医学病例的样本,往往多年的积累也才累计到几千甚至几百例样本。同时对样本的标注也是非常耗时耗力的,比如要对一幅医学图像中的病灶进行精确的边缘分割标注,一个人往往需要几分钟甚至是十几分钟的时间。当需要的标注图像数较大时(比如10000幅),则需要大量的时间,从而使得获取有标注数据变得代价异常昂贵。由于图像数据采集工作量巨大,且人工标注耗时耗力,故在许多医学图像处理任务时,常使用数据增强技术。数据增强技术是一种较好的降低采集成本的方法,可以有效的扩展训练样本数,提高深度神经网络模型的识别准确率,使其有更好的泛化能力和鲁棒性。
3)目前常见的图像数据增强方法主要分为两种,分别为手工设计增强策略和自动增强策略。手工设计的数据增强方法通常需要丰富的专家经验,且这种方式设计出的策略通常难以达到最优的性能,因此现有工作已经提出了一些自动化的数据增强技术来缓解这个问题,例如,通过生成对抗网络生成新数据;创建通用的数据增强策略搜索空间,并在不同的通用数据集上搜索得到最佳的数据增强策略集合,如AutoAugment、RandAugment等;
4)数据增强是克服训练数据样本有限这一挑战的关键方法之一,数据增强可以扩展数据的多样性,能够充分提取原始图像数据的特征。当前自动增强策略相对于手工设计的增强策略,通常有更好的效果,但是自动搜索过程一般非常耗时,并且需要大量的计算资源,在很大程度上降低了数据增强方法的使用效率。
发明内容
为了解决上述技术问题,本发明旨在提出一种基于图像样本的自动数据增强策略选择方法,提高了图像数据的可利用性,能够更充分提取数据特征,从而尽可能降低标注数据不足的缺陷,扩大图像数据的多样性。通过此图像增强策略与深度学习技术相结合,可提高模型的识别准确性,同时该数据增强方法可以进一步推广应用至大量的医学图像处理任务中,特别是提升深度学习神经网络模型的识别准确率。
本发明的技术方案如下:
一种基于图像样本的自动数据增强策略选择方法,包括如下步骤:
步骤1、获取目标图像数据集;
步骤2、建立数据增强策略搜索空间,所述搜索空间包括多种数据增强策略,同时设立每种增强策略的量级取值范围;
步骤3、设定参数N值,其中N值表示对每一个图像随机进行N次图像数据转换操作,每次操作都均等的从所设立的搜索空间中选择一种增强策略进行图像变换操作;
步骤4、设定参数P值,其中P值表示每一个增强策略执行的概率值,即单次增强策略有P的概率值会进行增强操作,也有1-P的概率保持图像不变,若进行图像变换,则变换幅度在设定变换量级范围内随机选择;
步骤5、在经过N次图像变换后,以随机裁剪的方式对经过图像增强的数据进行剪裁,获取输入至神经网络模型的图像样本;
步骤6、将裁剪后的图像数据输入到深度神经网络模型里面进行进一步训练,以便更好的提取图像特征并进一步应用。
进一步的,所述步骤2中的搜索空间包括多种数据增强操作,同时设立每种增强策略的增强量级的取值范围,使每次变换幅度都在允许范围内随机选择,同时将所有增强操作分为两类,一类是改变图像数据中的像素值,称之为颜色变换,另一类是使图像数据的形状发生改变,称之为形状变换。
进一步的,所述步骤3中,当N>1时,对一个训练样本,均匀的进行颜色和形状变换,即首先从颜色变换大类中随机选择增强策略进行变换,然后从形状变换中随机选择增强策略变换。
进一步的,所述的图像变换包括为颜色变换和形状变换两个子集,其中颜色变换包括饱和度、对比度、高斯噪声、图像融合、亮度、清晰度、通道偏差、色彩均化、在YUV空间的色彩均化、色调分离、自动对比度、曝光、渐晕的变换;所述形状变换包括旋转、翻转、错切、畸变、同比例缩放、不同方向的缩放、剪切、随机裁剪的变换。
有益效果:
1)本发明的方法利用此数据增强方式能更充分挖掘数据信息,有效缓解数据量较少缺陷;
2)本发明的方法计算量相对较小,耗费计算资源更少;
3)本发明的方法使用此数据增强方式后深度学习模型准确率提升;
4)该数据增强方式可推广到其他数据集上,有利于数据集的充分挖掘及深度学习模型的训练的效果提升。
附图说明
图1.图像增强策略流程图;
图2.设定操作次数N=2为例,具体的实施方式流程图;
图3.图像增强前后示意图。
具体实施方式
下面将结合本发明实施例的附图,对本发明中的技术方案进行进一步的描述,当然,所描述的实施例仅仅是本发明一部分,本发明的范围包括但不限于下述实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于图像样本的自动数据增强策略选择方法,提高图像数据的使用效率,与深度学习模型结合提升识别准确率。
一种基于图像样本的自动数据增强策略选择方法,所述方法包括如下步骤:
步骤1、获取目标数据集;
步骤2、建立数据增强策略搜索空间,设定参数N、P控制增强过程,其中N、P分别表示在所述搜索空间中随机进行N次数据转换选择操作,其中每种数据转换操作以概率P被执行;所述的搜索空间包括22种数据操作,同时设立每种增强策略的增强量级的取值范围,使每次变换幅度都在允许范围内随机选择,同时将所有增强操作分为两类,一类是改变图像数据中的像素值,称之为颜色变换,另一类是使图像数据的形状发生改变,称之为形状变换;
步骤3、设定参数N值,其中N值表示对每一个图像进行N次图像数据转换操作,每次操作都均等的从所设立的搜索空间中选择一种进行图像变换操作;
当N>1时,对一个训练样本,均匀的进行颜色和形状变换,即首先从颜色变换大类中随机选择变换,然后从形状变换中随机选择变换;
步骤4、设定参数P值,其中P值表示每一个增强策略执行的概率值,即单次增强策略有P的概率值会进行增强,也有1-P的概率保持图像不变,若进行变换,则变换幅度在设定变换量级范围内随机选择;
每种可选的数据增强策略方法如下表所示;
在建立数据增强策略搜索空间并获取目标图像集后,利用自动搜索在所建立的搜索空间中随机选取增强策略。
根据本发明的一个实施例,如表1,如在颜色变换类中,随机选取通道偏差时,在[-30,30]范围内随机选择选取一个值,并在图像样本的RGB三个通道中随机选择一个通道,进行像素值的叠加,从而改变图像的像素值;
又如在形状变换类中,当搜索选择图像缩放时,在量级取值[0.8,1.2]范围内选择一个值,分别在水平和垂直的方向以选取的具体数值对图像样本进行同比例的放大或缩小;
表1.图像增强转换具体操作及对应取值量级范围
Figure BDA0002850641920000041
(注:表中包含20种图像操作,还有2种在后续通过随机裁剪实现)
步骤5、在经过N次图像变换后,对经过数据增强后的图像进行标准化处理,并对其进行随机裁剪,得到同尺寸的裁剪图像;
步骤6、将裁剪后的图像数据输入到深度神经网络模型里面进行进一步训练,提取图像特征并进行应用;
根据本发明的一个实施例,如图1所示:
1)首先获取目标图像数据集,建立数据增强策略搜索空间,其中数据增强搜索空间包含的增强策略分为颜色变换和形状变换两大类,同时设定每种图像变换量级范围,每次变换幅度都在允许范围内随机选择,具体如表1所示;
2)设定参数N,即选择对每一个目标图像进行N次图像数据转换操作,即每次操作随机从所设立的搜索空间中,即在颜色变换和形状变换类中以等概率的方式选择一种进行图像变换操作,在本发明中选择均匀的进行颜色变换和图像变换;
3)设定参数P,即对每次选择的图像变换操作,以概率值P的方式执行,也有1-P概率保持不变,即对每一个目标图像,都有(1-P)N的概率保持原始图像不变;
4)在经过N次图像变换后,得到经过图像数据增强后的数据,对得到的数据采用随机裁剪的方式,从所得到的经过变换后的图像中得到一个224×224大小的图像;
5)将裁剪的224×224的图像数据输入到深度神经网络模型里面进行进一步训练,提取图像特征并进行应用。
根据本发明的又一个具体实施例,对医学上皮肤疾病图像的数据集进行增强,以设定操作次数N=2为例,具体的实施方式如图2所示,具体描述如下:
1)对获取的皮肤疾病数据集中的每个训练样本图像(例如图3所示样本图像),第一次图像变换在表1所示的搜索空间的颜色变换类中随机选择一个变换(如改变图像饱和度);
2)然后以概率P,决定图像是否进行该变换。如果要进行该变换,则变换的幅度在允许的范围中随机选择,如果不进行该图像增强策略,则保持原图像不变;
3)第一次变换后,再从形状变换中随机选择一个变换(如旋转),以概率P决定图像是否进行该图像增强策略,如果要进行该图像变换,则变换的幅度在允许的范围内([-40,40])随机选择,如果不进行该图像变换,则保持原图像不变。
4)得到经过两次图像增强策略变换的数据后,采用随机裁剪操作,从所得到的经过变换后的图像中裁剪得到224×224大小的图像;
5)将裁剪的224×224的图像数据输入到深度神经网络模型里面进行进一步训练,提取图像特征并进行应用;
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种基于图像样本的自动数据增强策略选择方法,其特征在于,包括如下步骤:
步骤1、获取目标图像数据集;
步骤2、建立数据增强策略搜索空间,所述搜索空间包括多种数据增强策略,同时设立每种增强策略的量级取值范围;
步骤3、设定参数N值,其中N值表示对每一个图像随机进行N次图像数据转换操作,每次操作都均等的从所设立的搜索空间中选择一种增强策略进行图像变换操作;
步骤4、设定参数P值,其中P值表示每一个增强策略执行的概率值,即单次增强策略有P的概率值会进行增强操作,也有1-P的概率保持图像不变,若进行图像变换,则变换幅度在设定变换量级范围内随机选择;
步骤5、在经过N次图像变换后,以随机裁剪的方式对经过图像增强的数据进行剪裁,获取输入至神经网络模型的图像样本;
步骤6、将裁剪后的图像数据输入到深度神经网络模型里面进行进一步训练,以便更好的提取图像特征并进一步应用。
2.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法,其特征在于,所述步骤2中的搜索空间包括多种数据增强操作,同时设立每种增强策略的增强量级的取值范围,使每次变换幅度都在允许范围内随机选择,同时将所有增强操作分为两类,一类是改变图像数据中的像素值,称之为颜色变换,另一类是使图像数据的形状发生改变,称之为形状变换。
3.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法,其特征在于,所述步骤3中,当N>1时,对一个训练样本,均匀的进行颜色和形状变换,即首先从颜色变换大类中随机选择增强策略进行变换,然后从形状变换中随机选择增强策略变换。
4.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法,其特征在于,所述的图像变换包括为颜色变换和形状变换两个子集,其中颜色变换包括饱和度、对比度、高斯噪声、图像融合、亮度、清晰度、通道偏差、色彩均化、在YUV空间的色彩均化、色调分离、自动对比度、曝光、渐晕的变换;所述形状变换包括旋转、翻转、错切、畸变、同比例缩放、不同方向的缩放、剪切、随机裁剪的变换。
CN202011526140.4A 2020-12-22 2020-12-22 一种基于图像样本的自动数据增强策略选择方法 Pending CN112651892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011526140.4A CN112651892A (zh) 2020-12-22 2020-12-22 一种基于图像样本的自动数据增强策略选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526140.4A CN112651892A (zh) 2020-12-22 2020-12-22 一种基于图像样本的自动数据增强策略选择方法

Publications (1)

Publication Number Publication Date
CN112651892A true CN112651892A (zh) 2021-04-13

Family

ID=75358883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526140.4A Pending CN112651892A (zh) 2020-12-22 2020-12-22 一种基于图像样本的自动数据增强策略选择方法

Country Status (1)

Country Link
CN (1) CN112651892A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177640A (zh) * 2021-05-31 2021-07-27 重庆大学 一种离散异步事件数据增强方法
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113537406A (zh) * 2021-08-30 2021-10-22 重庆紫光华山智安科技有限公司 一种图像自动数据增强方法、系统、介质及终端
CN113936501A (zh) * 2021-10-12 2022-01-14 青岛科技大学 基于目标检测的智能路口通行预警系统
WO2023197612A1 (zh) * 2022-04-15 2023-10-19 湖南大学 一种基于自动数据增广的医学图像分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127364A (zh) * 2019-12-26 2020-05-08 吉林大学 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN111582375A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 数据增强策略搜索方法、装置、设备以及存储介质
CN111758105A (zh) * 2018-05-18 2020-10-09 谷歌有限责任公司 学习数据增强策略

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111758105A (zh) * 2018-05-18 2020-10-09 谷歌有限责任公司 学习数据增强策略
CN111127364A (zh) * 2019-12-26 2020-05-08 吉林大学 图像数据增强策略选择方法及人脸识别图像数据增强方法
CN111582375A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 数据增强策略搜索方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EKIN D. CUBUK ET AL.: "AutoAugment: Learning Augmentation Policies from Data", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
王恒: "基于AutoAugment和残差网络的乳腺癌病理图像分类研究", 《中国计量大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113222904A (zh) * 2021-04-21 2021-08-06 重庆邮电大学 改进PoolNet网络结构的混凝土路面裂缝检测方法
CN113177640A (zh) * 2021-05-31 2021-07-27 重庆大学 一种离散异步事件数据增强方法
CN113537406A (zh) * 2021-08-30 2021-10-22 重庆紫光华山智安科技有限公司 一种图像自动数据增强方法、系统、介质及终端
CN113936501A (zh) * 2021-10-12 2022-01-14 青岛科技大学 基于目标检测的智能路口通行预警系统
WO2023197612A1 (zh) * 2022-04-15 2023-10-19 湖南大学 一种基于自动数据增广的医学图像分割方法

Similar Documents

Publication Publication Date Title
CN112651892A (zh) 一种基于图像样本的自动数据增强策略选择方法
CN109741332B (zh) 一种人机协同的图像分割与标注方法
US20230377158A1 (en) Image segmentation method, apparatus, device, and medium
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN108305253B (zh) 一种基于多倍率深度学习的病理图像分类方法
CN113642576B (zh) 一种目标检测及语义分割任务中训练图像集合的生成方法及装置
CN110706234B (zh) 一种图像的自动精细分割方法
CN111241924B (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
US11449707B2 (en) Method for processing automobile image data, apparatus, and readable storage medium
CN113011337B (zh) 一种基于深度元学习的汉字字库生成方法及系统
WO2019011342A1 (zh) 布料识别的方法、设备、电子设备及储存介质
CN112348831A (zh) 基于机器学习的页岩sem图像分割方法
CN107194402B (zh) 一种并行细化骨架提取方法
CN113469092A (zh) 字符识别模型生成方法、装置、计算机设备和存储介质
CN110889374A (zh) 印章图像处理方法、装置、计算机及存储介质
CN106250720A (zh) 一种根据相似度预先分组的dna测序图像处理系统
CN112861854A (zh) 指甲语义分割中训练样本的生成方法、装置、设备及介质
CN112819834A (zh) 基于人工智能的胃部病理图像的分类方法和装置
CN108109120B (zh) 一种点阵二维码的光照补偿方法及装置
CN107368847A (zh) 一种作物叶部病害识别方法及系统
CN108898045B (zh) 基于深度学习的手势识别的多标签图像预处理方法
CN113793358B (zh) 一种目标跟踪定位方法、装置及计算机可读介质
CN111932447B (zh) 一种图片处理方法、装置、设备及存储介质
CN113095400A (zh) 一种用于机器视觉缺陷检测的深度学习模型训练方法
CN113223098A (zh) 图像颜色分类的预处理优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210413