CN114821199A

CN114821199A - 一种美国白蛾幼虫网幕图像数据集增强方法

Info

Publication number: CN114821199A
Application number: CN202210721006.2A
Authority: CN
Inventors: 赵颖; 王成明; 孙群
Original assignee: Liaocheng University
Current assignee: Liaocheng University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-07-29

Abstract

本发明公开了一种美国白蛾幼虫网幕图像数据集增强方法，涉及图像处理技术领域，包括以下步骤：（1）将事先采集好的美国白蛾幼虫网幕图像进行预处理；（2）构建基于改进DCGAN网络框架，主要包括构建分类任务模块、对抗任务模块，定义DCGAN损失函数和设置网络中的超参数；（3）训练DCGAN网络；（4）对步骤(3)所得的扩充数据集进行收集和整理，去除不合格和重复的图像，挑选出合格的图像得到扩充数据集；（5）对扩充数据集的可靠性和质量进行验证。本发明能够解决人工拍摄美国白蛾网幕图像所得数据集在数量和类别上不足的问题，保证生成样本的多样性，具有训练速度快的有益效果。

Description

一种美国白蛾幼虫网幕图像数据集增强方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像数据集增强方法，具体是指一种美国白蛾幼虫网幕图像数据集增强方法。

背景技术

美国白蛾对园林植物的生长带来严重的威胁。其危害主要以幼虫取食叶片为主，造成树木抗逆性低，严重的时候甚至整株死亡。幼虫期有明显网幕，是防治的最佳时期，常见的防治方式是人工大规模喷洒药物，但该方式效率低下环境污染严重，亟待出现一种智能对靶喷药技术，实现精准的自动化喷药作业。准确的目标识别是实现对靶喷药的前提，近年来，随着神经网络的发展，许多基于深度学习的方法在农林业病虫害识别领域得到了广泛的推广和应用。而深度学习算法需要庞大数据集作为训练支撑，但对于白蛾幼虫网幕的图像获取，存在树丛较高和较深处的网幕图像难以采集、人工采集工作量大、不同光照条件下图像差异较大等问题，很难形成足够庞大的数据库，且目前关于美国白蛾网幕图像数据库的扩充还未见相关研究。

为了使原始数据集得到扩充，提升神经网络模型的泛化能力，出现了许多方法：有的通过对原始图片进行几何变换的方式（包括变形、裁剪、镜像、缩放和旋转等各类操作）生成增强数据集；有的通过随机调整原始图片的亮度、对比度或者向原始图片加入随机噪声的方法增加数据集样本的数量，使用在图像中加入高斯噪声的方法来生成新的图像；还有将图片的一部分随机截取或随机遮盖的方法，使用替换不同区域的图像来生成新的图像。但上述方法没有充分利用原始样本的内在特点，导致训练的神经网络模型具有局限性，且泛化能力差。

随着深度学习的迅速发展极大的促进了图像生成技术的发展，生成对抗网络(GAN)的提出提供了全新的解决方案。本发明根据美国白蛾幼虫网幕图像的特点针对性的设计了一种改进的DCGAN（Deep Convolutional GenerativeAdversarial Networks深度卷积生成对抗网络的英文缩写），使得现有的数据集得以增强，使用增强后的数据集避免了训练过程中过拟合情况的发生，提升了模型的泛化能力。

发明内容

本发明针对现有技术的不足，提供了一种美国白蛾幼虫网幕图像数据集的增强方法，能够解决原始数据集不足的问题，扩充数据集并增强样本种类的多样性，并针对美国白蛾网幕图像不宜训练的特点对训练集图像和生成对抗网络做出了相应的改进。

本发明是通过如下技术方案实现的，提供一种美国白蛾幼虫网幕图像数据集增强方法，包括以下步骤：

（1）将事先采集好的美国白蛾幼虫网幕图像进行预处理；

（2）构建基于改进DCGAN网络框架，主要包括构建分类任务模块、对抗任务模块，定义DCGAN损失函数和设置网络中的超参数；

（3）训练DCGAN网络，包括以下子步骤：

①首先固定对抗任务模块相关参数，对高斯分布随机采样出100维度的一维向量，输入对抗任务模块并利用神经网络前向传播算法得到虚假图像，该图像和真实图像输入分类任务模块，得到相应损失；在训练过程中采用Adam算法进行梯度回传，更新分类任务模块；

②其次固定分类任务模块相关参数，对高斯分布随机采样出100维度的一维向量，经过对抗任务模块得到虚假图像，该图像和真实图像馈入分类任务模块中，由分类任务模块的判别器得到相应分数，由损失函数后计算出损失值，并在训练过程中采用Adam算法进行梯度回传，更新对抗任务模块的相关参数；

③随着对抗任务模块与分类任务模块、自编码任务模块不断进行交替训练，两者的能力越来越高，在训练的过程中每个eopch随机保存一张图片，当生成图像的质量达到要求时，模型趋于收敛，这时训练结束；

④得到神经网络生成的扩充数据集；

（4）对步骤（3）所得的扩充数据集进行收集和整理，去除不合格和重复的图像，挑选出合格的图像得到扩充数据集；

（5）对扩充数据集的可靠性和质量进行验证。

作为优选，所述步骤（2）中，分类任务模块由判别器构成，对抗任务模块由生成器和判别器共同构成，同时在对抗任务模块中固定判别器的参数只训练生成器；

生成器模块的结构依次为：全连接层→Reshape层→LeakyReLU激活层→Dropout层→第一缩放卷积层→LeakyReLU激活层→第二缩放卷积层→LeakyReLU激活层→第三缩放卷积层→LeakyReLU激活层→第四缩放卷积层→Tanh层；

其中每个缩放卷积层都包括一个上采样层和一个步长为一的正向卷积层；

生成器模块中各层的参数设置如下：

输入层的特征图维度设置为100；

全连接层将输入噪声转换为维度为(512*4*4)的三维张量，然后将其Reshape成为(4,4,512)的三维张量，LeakyReLU层的斜率参数设置为0.2，Dropout层参数舍弃率设置为0.25；

第一缩放卷积层：UpSampling2D参数size设置为(2,2);正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为256，(5,5),1，使用全零填充；

LeakyReLU激活层：LeakyRelu层的斜率参数设置为0.2；

第二缩放卷积层：UpSampling2D参数size设置为(2,2)；正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为128，(5,5),1，使用全零填充；

LeakyReLU激活层：LeakyRelu层的斜率参数设置为0.2；

第三缩放卷积层：UpSampling2D参数size设置为(2,2);正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为64，(5,5),1，使用全零填充；

LeakyReLU激活层:LeakyRelu层的斜率参数设置为0.2；

第四缩放卷积层:UpSampling2D参数size设置为(2,2);正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为64，(5,5),1，使用全零填充；

Tanh层：使用默认参数；

判别器模块的具体结构依次为:第一正向卷积层→LeakyReLU激活层→Dropout层→第二正向卷积层→LeakyReLU激活层→Dropout层→第三正向卷积层→LeakyReLU激活层→Dropout层→第四正向卷积层→LeakyReLU激活层→Dropout层→Flatten层→sigmoid激活层；

判别器模块各层的参数设置如下:

第一正向卷积层:滤波器个数、滤波器尺寸大小、步长分别设置为64，(5,5),2,使用全零填充；

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

第二正向卷积层:滤波器个数、滤波器尺寸大小、步长分别设置为128，(5,5),2,使用全零填充；

LeakyReLU激活层:LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

第三正向卷积层:滤波器个数、滤波器尺寸大小、步长分别设置为256，(5,5),2,使用全零填充；

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

第四正向卷积层:滤波器个数、滤波器尺寸大小、步长分别设置为512，(5,5),2,使用全零填充；

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

Flatten层：全连接层节点数设置为1。

作为优选，所述步骤（2）中定义的损失函数为二元交叉熵损失函数——binary_crossentropy函数如下：

输入判别器N个样本，经过判别器网络后输出结果为y=(y1,y2,y3,…,yn),而理论上输出的结果应y’=(y1’,y2’,y3’,…，yn’),判别器的损失为L(y,y’),优化器将最小化L(y,y’)，损失值采用交叉熵损失函数计算，每批训练样本的损失函数表达式为：

将所有批次样本的损失值求平均值即得到模型整体的损失值为：

其中

表示模型实际输出值,

表示第i批样本的理论值。

作为优选，步骤（2）中网络中的超参数设置为：

设置数据批量batch_size大小为64，eopch设置为5000次。

作为优选，步骤（2）中生成式对抗网络的优化函数具体为：

其中，

表示期望x从

分布中获取；x表示真实数据，

表示真实数据分布，

表示期望z是从

分布中获取；z表示生成数据；

表示生成数据的分布。

作为优选，所述步骤（2）中：

①使用缩放卷集层代替原始DCGAN中的反卷积层，缩放卷积层由一个上采样操作和一个步长为1的正向卷积操作构成；

②不使用BN层，在生成器的全连接层和卷积层之间添加Dropout层，在判别器的每一层最后添加Dropout层。

作为优选，步骤（2）中生成器和判别器中均使用LeakyReLU作为激活函数而非ReLU激活函数，LeakyReLU函数的表达式具体为：

其中，

为负斜率。

作为优选，步骤（3）的子步骤①中，神经网络前向传播算法具体为：

其中，上标代表层数，*代表卷积，b代表偏置项bias，

代表激活函数。

作为优选，所述步骤（3）中采用的自适应优化器Adam参数具体设置为：

判别器采用Adam优化器：学习率设置为1e-05，参数beta_1=0.5,参数beta_2=0.999,参数epsilon设置为1e-05，参数decay设置为0.0；

生成器采用Adam优化器：学习率设置为1e-05，参数beta_1=0.5,参数beta_2=0.999,参数epsilon设置为1e-05，参数decay设置为0.0；

Adam优化器其权重更新公式如下：

其中m表示一阶动量，v表示二阶动量。

本发明的有益效果为：能够解决人工拍摄美国白蛾网幕图像所得数据集在数量和类别上不足的问题，保证生成样本的多样性。使用缩放卷积层代替反卷积层，消除了图像的棋盘效应加快了神经网络的训练速度。使用LeakyReLU函数而非ReLU函数，由于LeakyReLU函数负轴保留了非常小的常数leak，当输入信息小于0时，信息不会完全丢失，从而避免了使用ReLU函数出现的神经元坏死现象(“dead relu problem”)。

附图说明

图1为本发明的方法流程图；

图2为本发明的生成对抗网络的原理示意图；

图3为本发明所设计的DCGAN网络的生成器结构图；

图4为本发明所设计的DCGAN网络的判别器结构图；

图5为本发明所设计的DCGAN网络的分类模块训练流程示意图；

图6为本发明所设计的DCGAN网络的对抗模块训练流程示意图；

图7为本使用本发明所设计的网络所得扩充图像与原图的对比图，其中（Ⅰ）为原图，（Ⅱ）为修改后的扩充图像；

图8为完全使用本发明所扩充的数据集训练的美国白蛾网幕定位识别算法对白蛾网幕图像的识别效果图，（a）-(h)表示单幅图片的识别准确率分别为99.05%、99.26%、95.16%、97.26%、99.19%、97.08%、96.04%、97.73%。

具体实施方式

为能清楚说明本发明方案的技术特点，下面结合附图，并通过具体实施方式，对本方案进一步阐述。在不冲突的情况下，下述的实施例及实施例中的特征可以扩展到所有植物病害数据集的扩充工作。

如图1中所示，一种美国白蛾幼虫网幕图像数据集增强方法，包括以下步骤：

（1）人工采集原始数据集并对原始数据集进行图像预处理

原始数据集的采集和对人工拍摄采集的美国白蛾幼虫网幕图像的预处理，本实施例中的原始数据集来自在美国白蛾虫害多发季节所采集的山东省聊城市法桐等植株的被感染叶片，将采集的原始图像进行随机裁剪，裁剪为分辨率为64*64的图像后，根据颜色相近的原则挑选出十三类被幼虫感染的网幕图像，由于卷积本身不具有旋转不变性，所以仅使用卷积的方法无法得到旋转和翻转的泛化能力；最大值池化(max_polling)也只有小范围的扭曲和旋转不变性，对于美国白蛾幼虫网幕图像的识别与定位来说，要求模型具有对于不同拍摄方向、距离或角度图像的泛化能力，所以对挑选出来的网幕图像进行人工旋转和镜像操作得到最终的神经网络训练集，以期训练得到的生成模型具有生成旋转图像的泛化能力；

（2）构建DCGAN网络框架

本实施例使用python语言，基于keras库搭建一个深度卷积生成对抗网络，由生成器模块和判别器模块构成，G是生成器(generator) ，作用是生成新的数据并尽可能使其接近给定的真实样本数据。D是判别器(discriminator)，作用是将真实数据与生成器生成的数据区分开。对抗网络是一种特殊的网络结构，生成式对抗网络的优化函数具体为：

其中，

表示期望x从

分布中获取；x表示真实数据，

表示真实数据分布，

表示期望z是从

分布中获取；z表示生成数据；

表示生成数据的分布。

其中图2中给出了GAN的模型的训练流程图；构建生成器模块：

如图3中所示，生成器的结构依次为：全连接层→Reshape层→LeakyReLU激活层→Dropout层→第一缩放卷积层(上采样层→正向卷积层)→LeakyReLU激活层→第二缩放卷积层(上采样层→正向卷积层)→LeakyReLU激活层→第三缩放卷积层(上采样层→正向卷积层)→LeakyReLU激活层→第四缩放卷积层(上采样层→正向卷积层)→Tanh层；

其中每个缩放卷积层都包括一个上采样层和一个步长为1的正向卷积层；

各层的参数设置如下：

输入层的特征图维度设置为100(噪声维度)；

第一缩放卷积层：UpSampling2D参数size设置为(2,2)；正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为256，(5,5),1，使用全零填充；

LeakyReLU激活层：LeakyRelu层的斜率参数设置为0.2；

第三缩放卷积层：UpSampling2D参数size设置为(2,2)；正向卷积层滤波器个数、滤波器尺寸大小、步长分别设置为64，(5,5),1，使用全零填充；

LeakyReLU激活层:LeakyRelu层的斜率参数设置为0.2；

Tanh层：使用默认参数；

生成器网络的各层参数如表1：

表1 生成器网络结构参数

层号	描述	网络层结构	输出
				1	全连接层	[8192,1]→[4,4，512]→LeakReLU	[4,4,512]
2	缩放卷积层	256，55512，2*2→LeakReLU	[8,8,256]
				3	缩放卷积层	128，55256，2*2→LeakReLU	[16,16,128]
4	缩放卷积层	64，55128，2*2→LeakReLU	[32,32,64]
				5	缩放卷积层	3，5564，2*2→Tanh	[64,64,3]

注：表中序号为2、3、4、5的网络层结构的三个数据分别代表：特征图个数，卷积核尺寸，卷积核步长；

构建判别器模块：

如图4中所示，判别器的结构依次为:第一正向卷积层→LeakyReLU激活层→Dropout层→第二正向卷积层→LeakyReLU激活层→Dropout层→第三正向卷积层→LeakyReLU激活层→Dropout层→第四正向卷积层→LeakyReLU激活层→Dropout层→Flatten层→Sigmoid激活层；

各层的参数设置如下：

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

LeakyReLU激活层:LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

LeakyReLU激活层:斜率参数设置为0.2；

Dropout层:参数舍弃率设置为0.25；

Flatten层：全连接层节点数设置为1；

判别器网络的各层参数如表2：

表2判别器网络结构参数

层号	描述	网络层结构	输出
				1	正向卷积层 64，553，2*2→Dropout→LeakReLU [32,32,64]	64，553，2*2→Dropout→LeakReLU	[32,32,64]
2	正向卷积层	128，5564，2*2→Dropout→LeakReLU	[16,16,128]
				3	正向卷积层	256，55128，2*2→Dropout→LeakReLU LLeakReLU	[8,8,256]
4	正向卷积层	512，55256，2*2→Dropout→LeakReLU LeakReLU	[4,4,512]
				5	全连接层	[4,4,512]→[8192,1]	[1]

注：表中序号为1、2、3、4的网络层结构的三个数据分别代表：特征图个数，卷积核尺寸，卷积核步长；

生成器和判别器均使用LeakyReLU激活函数，其表达式具体为：

，

为负斜率。

在本实施例中采用的损失函数为二元交叉熵损失函数binary_crossentropy，此损失函数适用于二分类问题中，而在训练的过程中判别器对生成器生成的假图像进行判断正是一个二分类的问题。输入判别器N个样本，经过判别器网络后输出结果为y=(y1,y2,y3,…,yn),而理论上输出的结果应y’=(y1’,y2’,y3’,…，yn’),判别器的损失为L(y,y’),优化器将最小化L(y,y’)。损失值采用交叉熵损失函数计算，每批训练样本的损失函数表达式为：

其中

表示模型实际输出值，

表示第i批样本的理论值。

设置网络中的超参数：

生成器和判别器均使用Adam优化器，且初始学习率均设置为0.00001，参数beta_1设置均为0.5，参数beta_2设置均为0.999，参数epsilon设置均为1e-05，参数decay均设置为0.0。设置数据批量batch_size大小为64，eopch设置为5000次。

Adam优化器其权重更新公式如下：

其中m表示一阶动量，v表示二阶动量。

总的来说，DCGAN由判别器和生成器两部分组成：除生成器最后一层使用tanh作为输出外，生成器和判别器所有卷积层最后均使用LeakyReLU函数，判别器最后一层使用sigmoid函数输出。对于美国白蛾网幕数据集的扩充来说要求网络输出的图像在色彩、对比度、亮度上要求和输入一致，加入了BN层后，发现训练速度缓慢，不稳定，甚至最后发散，无法生成合格的图片。所以本发明中不使用BN层。在生成器和判别器中使用LeakyReLU而非ReLU，使用LeakyReLU的好处就是：在反向传播过程中，对于LeakyReLU激活函数输入小于零的部分，也可以计算得到梯度，从而解决了神经元“死亡”(dying ReLU problem)问题；tanh激活函数作用：由于生成器的最后一层是输出图像，而ReLU激活函数可能输出的像素值很大，然而tanh的输出是在[-1,1]之间，只需要输出做简单的四则运算就可以快速的让输出处在0到255之间，以便最后一层输出图像。sigmod激活函数作用：使最后结果转化为一个[0，1]概率值作为图片不是生成器生成的概率。表3展示了本发明所设计的神经网络的主要参数。

表3DCGAN网络的主要参数

参数	值
		输入图像大小	64*64
批次大小	64
		初始学习率	0.00001
优化函数	Adam
		激活函数	LeakyReLU，sigmoid，tanh
迭代次数	5000
		损失函数	binary_crossentropy

（3）训练DCGAN网络

分别将十三类训练集输入网络进行训练预计得到十三类扩充数据集。如图5和图6中所示，采用交替训练的方式更新分类任务模块、对抗任务模块直至收敛，分类任务模块由判别器构成，对抗任务模块由生成器和判别器共同构成且在对抗任务模块中固定判别器的参数只训练生成器。具体步骤为：

（一）固定对抗任务模块相关参数，对高斯分布随机采样出100维度的一维向量，经过对抗任务模块得到虚假图像，该图像和真实图像输入分类任务模块，得到相应损失；在训练过程中采用Adam算法进行梯度回传，更新分类任务模块。

对判别器网络输入(64,64,3)的三维张量，经过多次卷积核为5步长为2的正向卷积操作，最终经过sigmoid激活函数，输出判别结果。

（二）固定分类任务模块相关参数，对高斯分布随机采样出100维度的一维向量，经过对抗任务模块得到虚假图像，该图像和真实图像馈入分类任务模块中，由分类任务模块的判别器得到相应分数，由损失函数后计算出损失值，并在训练过程中采用Adam算法进行梯度回传，更新对抗任务模块的相关参数；

对生成器网络输入100维的随机噪声，经过全连接层reshape成（8，8，512）的三维张量全连接层后添加Dropout层，再通过上采样操作输出（16，16，256）的张量，经过一层正向卷积操作输出（16，16，128）的张量，在经过上采样操作使特征图尺寸变为原来的两倍，输出（32，32，128）的张量，随后经过一层正向卷积层输出大小为（32，32，64）的张量，再经过最后一层上采样层输出（64，64，64）大小的三维张量，最后经过一层正向卷积操作输出大小为(64,64,3)的张量，Tanh激活，最终得到一个生成的图像样本。

(三)随着对抗任务模块与分类任务模块、自编码任务模块不断进行交替训练，两者的能力越来越高，在训练的过程中每个eopch随机保存一张图片，当生成图像的质量达到要求时，模型趋于收敛，这时训练结束。

神经网络前向传播算法具体为：

其中，上标代表层数，*代表卷积，b代表偏置项bias，

代表激活函数

（4）整理所得扩充数据集

对所得的十三类扩充数据集进行去重，并去除质量不合格的图像，得到十三类最终的扩充数据集，部分类别的扩充图像与原图的对比见图7。

（5）对扩充数据集的可靠性和质量进行验证

下面通过得到的扩充数据集训练美国白蛾识别定位算法，使用美国白蛾识别定位算法对白蛾网幕图像进行定位识别，得到识别结果图像如图8和单幅图片的识别准确率如表4，表4表示图8中的每个单幅图片的识别准确率。

表4 单幅图片识别结准确率

图像	识别率（%）
		（a）	99.05%
（b）	99.26%
		（c）	95.16%
（d）	97.26%
		（e）	99.19%
（f）	97.08%
		（g）	96.04%
（h）	97.73%

综上所述，本发明提出了一种美国白蛾网幕数据集扩充方法，针对美国白蛾网幕图像的特点对采集的图像进行预处理，并对神经网络做出一系列改进以达到训练的最佳效果：使用缩放卷积代替反卷积，加入Dropout层，使用LeakyReLU而非ReLU，使用自适应学习率优化器Adam。经过本方法扩充的图像数据集，经验证能够有效提高神经网络的泛化能力且本发明所提出的方法可以适用于任何病虫害图像以及其他图像的扩充工作。

最后，还应说明，上述举例和说明也并不仅限于上述实施例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围。