CN112651892A

CN112651892A - 一种基于图像样本的自动数据增强策略选择方法

Info

Publication number: CN112651892A
Application number: CN202011526140.4A
Authority: CN
Inventors: 徐梦娟; 姚鹏; 申书伟; 邵鹏飞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-13

Abstract

本发明提出一种基于图像样本的自动数据增强策略选择方法，包括如下步骤：步骤1、获取目标图像数据集；步骤2、建立数据增强策略搜索空间，其中包括多种数据增强策略；步骤3、设定参数N值，对每一个图像随机进行N次图像数据转换操作，每次操作都均等的从所设立的搜索空间中选择一种增强策略进行图像变换操作；步骤4、设定参数P值，即单次增强策略有P的概率值会进行增强操作，也有1‑P的概率保持图像不变，若进行图像变换，则变换幅度在设定变换量级范围内随机选择；步骤5、在经过N次图像变换后，以随机裁剪的方式对经过图像增强的数据进行剪裁，获取输入至神经网络模型的图像样本；步骤6、将裁剪后的图像数据输入到深度神经网络模型进一步训练。

Description

一种基于图像样本的自动数据增强策略选择方法

技术领域

本发明涉及图像处理领域，特别是医学图像数据增强策略方法领域。

背景技术

1)随着图像处理技术特别是深度学习技术的快速发展，在很多方面需要用到大量的有标记数据，比如人脸识别、医学影像相关疾病的自动诊断等，而获取充足的标记数据是一份非常耗时耗力的工作。数据增强是一种有效的解决标注数据不足的一种方法，它能够利用现有的标注数据，通过一系列图像转换操作，生成新的数据，从而有效的扩充数据集。

2)近年来，在大量的图像处理，以及医学影像处理任务中，通常使用深度神经网络技术来提取图像的特征，可以取得更高的性能。但是，为了保证深度神经网络模型的性能，通常需要大量的有标注样本进行训练，然而大量样本的获取是非常不容易的，特别是对于某些医学病例的样本，往往多年的积累也才累计到几千甚至几百例样本。同时对样本的标注也是非常耗时耗力的，比如要对一幅医学图像中的病灶进行精确的边缘分割标注，一个人往往需要几分钟甚至是十几分钟的时间。当需要的标注图像数较大时(比如10000幅)，则需要大量的时间，从而使得获取有标注数据变得代价异常昂贵。由于图像数据采集工作量巨大，且人工标注耗时耗力，故在许多医学图像处理任务时，常使用数据增强技术。数据增强技术是一种较好的降低采集成本的方法，可以有效的扩展训练样本数，提高深度神经网络模型的识别准确率，使其有更好的泛化能力和鲁棒性。

3)目前常见的图像数据增强方法主要分为两种，分别为手工设计增强策略和自动增强策略。手工设计的数据增强方法通常需要丰富的专家经验，且这种方式设计出的策略通常难以达到最优的性能，因此现有工作已经提出了一些自动化的数据增强技术来缓解这个问题，例如，通过生成对抗网络生成新数据；创建通用的数据增强策略搜索空间，并在不同的通用数据集上搜索得到最佳的数据增强策略集合，如AutoAugment、RandAugment等；

4)数据增强是克服训练数据样本有限这一挑战的关键方法之一，数据增强可以扩展数据的多样性，能够充分提取原始图像数据的特征。当前自动增强策略相对于手工设计的增强策略，通常有更好的效果，但是自动搜索过程一般非常耗时，并且需要大量的计算资源，在很大程度上降低了数据增强方法的使用效率。

发明内容

为了解决上述技术问题，本发明旨在提出一种基于图像样本的自动数据增强策略选择方法，提高了图像数据的可利用性，能够更充分提取数据特征，从而尽可能降低标注数据不足的缺陷，扩大图像数据的多样性。通过此图像增强策略与深度学习技术相结合，可提高模型的识别准确性，同时该数据增强方法可以进一步推广应用至大量的医学图像处理任务中，特别是提升深度学习神经网络模型的识别准确率。

本发明的技术方案如下：

一种基于图像样本的自动数据增强策略选择方法，包括如下步骤：

步骤1、获取目标图像数据集；

步骤2、建立数据增强策略搜索空间，所述搜索空间包括多种数据增强策略，同时设立每种增强策略的量级取值范围；

步骤3、设定参数N值，其中N值表示对每一个图像随机进行N次图像数据转换操作，每次操作都均等的从所设立的搜索空间中选择一种增强策略进行图像变换操作；

步骤4、设定参数P值，其中P值表示每一个增强策略执行的概率值，即单次增强策略有P的概率值会进行增强操作，也有1-P的概率保持图像不变，若进行图像变换，则变换幅度在设定变换量级范围内随机选择；

步骤5、在经过N次图像变换后，以随机裁剪的方式对经过图像增强的数据进行剪裁，获取输入至神经网络模型的图像样本；

步骤6、将裁剪后的图像数据输入到深度神经网络模型里面进行进一步训练，以便更好的提取图像特征并进一步应用。

进一步的，所述步骤2中的搜索空间包括多种数据增强操作，同时设立每种增强策略的增强量级的取值范围，使每次变换幅度都在允许范围内随机选择，同时将所有增强操作分为两类，一类是改变图像数据中的像素值，称之为颜色变换，另一类是使图像数据的形状发生改变，称之为形状变换。

进一步的，所述步骤3中，当N>1时，对一个训练样本，均匀的进行颜色和形状变换，即首先从颜色变换大类中随机选择增强策略进行变换，然后从形状变换中随机选择增强策略变换。

进一步的，所述的图像变换包括为颜色变换和形状变换两个子集，其中颜色变换包括饱和度、对比度、高斯噪声、图像融合、亮度、清晰度、通道偏差、色彩均化、在YUV空间的色彩均化、色调分离、自动对比度、曝光、渐晕的变换；所述形状变换包括旋转、翻转、错切、畸变、同比例缩放、不同方向的缩放、剪切、随机裁剪的变换。

有益效果:

1)本发明的方法利用此数据增强方式能更充分挖掘数据信息，有效缓解数据量较少缺陷；

2)本发明的方法计算量相对较小，耗费计算资源更少；

3)本发明的方法使用此数据增强方式后深度学习模型准确率提升；

4)该数据增强方式可推广到其他数据集上，有利于数据集的充分挖掘及深度学习模型的训练的效果提升。

附图说明

图1.图像增强策略流程图；

图2.设定操作次数N＝2为例，具体的实施方式流程图；

图3.图像增强前后示意图。

具体实施方式

下面将结合本发明实施例的附图，对本发明中的技术方案进行进一步的描述，当然，所描述的实施例仅仅是本发明一部分，本发明的范围包括但不限于下述实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于图像样本的自动数据增强策略选择方法，提高图像数据的使用效率，与深度学习模型结合提升识别准确率。

一种基于图像样本的自动数据增强策略选择方法，所述方法包括如下步骤：

步骤1、获取目标数据集；

步骤2、建立数据增强策略搜索空间，设定参数N、P控制增强过程，其中N、P分别表示在所述搜索空间中随机进行N次数据转换选择操作，其中每种数据转换操作以概率P被执行；所述的搜索空间包括22种数据操作，同时设立每种增强策略的增强量级的取值范围，使每次变换幅度都在允许范围内随机选择，同时将所有增强操作分为两类，一类是改变图像数据中的像素值，称之为颜色变换，另一类是使图像数据的形状发生改变，称之为形状变换；

步骤3、设定参数N值，其中N值表示对每一个图像进行N次图像数据转换操作，每次操作都均等的从所设立的搜索空间中选择一种进行图像变换操作；

当N>1时，对一个训练样本，均匀的进行颜色和形状变换，即首先从颜色变换大类中随机选择变换，然后从形状变换中随机选择变换；

步骤4、设定参数P值，其中P值表示每一个增强策略执行的概率值，即单次增强策略有P的概率值会进行增强，也有1-P的概率保持图像不变，若进行变换，则变换幅度在设定变换量级范围内随机选择；

每种可选的数据增强策略方法如下表所示；

在建立数据增强策略搜索空间并获取目标图像集后，利用自动搜索在所建立的搜索空间中随机选取增强策略。

根据本发明的一个实施例，如表1，如在颜色变换类中，随机选取通道偏差时，在[-30,30]范围内随机选择选取一个值，并在图像样本的RGB三个通道中随机选择一个通道，进行像素值的叠加，从而改变图像的像素值；

又如在形状变换类中，当搜索选择图像缩放时，在量级取值[0.8,1.2]范围内选择一个值，分别在水平和垂直的方向以选取的具体数值对图像样本进行同比例的放大或缩小；

表1.图像增强转换具体操作及对应取值量级范围

(注：表中包含20种图像操作，还有2种在后续通过随机裁剪实现)

步骤5、在经过N次图像变换后，对经过数据增强后的图像进行标准化处理，并对其进行随机裁剪，得到同尺寸的裁剪图像；

步骤6、将裁剪后的图像数据输入到深度神经网络模型里面进行进一步训练，提取图像特征并进行应用；

根据本发明的一个实施例，如图1所示：

1)首先获取目标图像数据集，建立数据增强策略搜索空间，其中数据增强搜索空间包含的增强策略分为颜色变换和形状变换两大类，同时设定每种图像变换量级范围，每次变换幅度都在允许范围内随机选择，具体如表1所示；

2)设定参数N，即选择对每一个目标图像进行N次图像数据转换操作，即每次操作随机从所设立的搜索空间中，即在颜色变换和形状变换类中以等概率的方式选择一种进行图像变换操作，在本发明中选择均匀的进行颜色变换和图像变换；

3)设定参数P，即对每次选择的图像变换操作，以概率值P的方式执行，也有1-P概率保持不变，即对每一个目标图像，都有(1-P)^N的概率保持原始图像不变；

4)在经过N次图像变换后，得到经过图像数据增强后的数据，对得到的数据采用随机裁剪的方式，从所得到的经过变换后的图像中得到一个224×224大小的图像；

5)将裁剪的224×224的图像数据输入到深度神经网络模型里面进行进一步训练，提取图像特征并进行应用。

根据本发明的又一个具体实施例，对医学上皮肤疾病图像的数据集进行增强，以设定操作次数N＝2为例，具体的实施方式如图2所示，具体描述如下：

1)对获取的皮肤疾病数据集中的每个训练样本图像(例如图3所示样本图像)，第一次图像变换在表1所示的搜索空间的颜色变换类中随机选择一个变换(如改变图像饱和度)；

2)然后以概率P，决定图像是否进行该变换。如果要进行该变换，则变换的幅度在允许的范围中随机选择，如果不进行该图像增强策略，则保持原图像不变；

3)第一次变换后，再从形状变换中随机选择一个变换(如旋转)，以概率P决定图像是否进行该图像增强策略，如果要进行该图像变换，则变换的幅度在允许的范围内([-40,40])随机选择,如果不进行该图像变换，则保持原图像不变。

4)得到经过两次图像增强策略变换的数据后，采用随机裁剪操作，从所得到的经过变换后的图像中裁剪得到224×224大小的图像；

5)将裁剪的224×224的图像数据输入到深度神经网络模型里面进行进一步训练，提取图像特征并进行应用；

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于图像样本的自动数据增强策略选择方法，其特征在于，包括如下步骤：

步骤1、获取目标图像数据集；

2.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法，其特征在于，所述步骤2中的搜索空间包括多种数据增强操作，同时设立每种增强策略的增强量级的取值范围，使每次变换幅度都在允许范围内随机选择，同时将所有增强操作分为两类，一类是改变图像数据中的像素值，称之为颜色变换，另一类是使图像数据的形状发生改变，称之为形状变换。

3.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法，其特征在于，所述步骤3中，当N>1时，对一个训练样本，均匀的进行颜色和形状变换，即首先从颜色变换大类中随机选择增强策略进行变换，然后从形状变换中随机选择增强策略变换。

4.根据权利要求1所述的一种基于图像样本的自动数据增强策略选择方法，其特征在于，所述的图像变换包括为颜色变换和形状变换两个子集，其中颜色变换包括饱和度、对比度、高斯噪声、图像融合、亮度、清晰度、通道偏差、色彩均化、在YUV空间的色彩均化、色调分离、自动对比度、曝光、渐晕的变换；所述形状变换包括旋转、翻转、错切、畸变、同比例缩放、不同方向的缩放、剪切、随机裁剪的变换。