CN113159171A

CN113159171A - 一种基于对抗学习的植物叶片图像细分类方法

Info

Publication number: CN113159171A
Application number: CN202110423483.6A
Authority: CN
Inventors: 金城; 靳璐瑞; 吴渊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-23
Anticipated expiration: 2041-04-20
Also published as: CN113159171B

Abstract

本发明属于图像分类技术领域，具体为一种基于对抗学习的植物叶片图像细分类方法。本发明通过将植物叶片图像多次分割打乱之后作为样本训练植物叶片图像细分类模型；最后将植物叶片图像经过同样的多重打乱操作之后输入到训练好的网络模型，计算并输出植物图片的细分类结果。相比于现有的植物细分类方法，本发明所提出的方法可以提取图片的多个粒度的特征，另外引入的全局上下文块可以融合图像的全局和局部特征，提高了网络融合多个粒度的特征的能力。

Description

一种基于对抗学习的植物叶片图像细分类方法

技术领域

本发明属于植物细分类领域，具体涉及一种基于对抗学习的植物叶片图像细分类方法。

背景技术

植物是生命发展的支柱，不管是环境还是人类的生存都要依靠植物的存在，不管是为了便利人类的生活还是出于对环境保护的考量对于植物类别的分辨都非常重要，比如准确的分辨药用植物和非药用植物等。传统的植物分类需要植物学专家依靠自己的专业知识进行分辨，而对于普通人来说是一件非常困难的事，为了满足植物科普以及保护植物的需要，研究利用现代图像处理、深度学习方法进行植物叶片图像分类是非常有必要的。

传统的植物分类方法需要植物学家利用自己丰富的分类经验才能够进行分辨，分类速度非常慢，而且一般人不具备植物学家的专业知识。而在机器学习领域，可以通过传统的图像处理方法，提取植物叶片的形状、纹理等特征，利用KNN等分类算法对植物叶片图像进行分类，而这种方法提取特征不充分，分类类别较少，无法对大规模的植物叶片进行精细的分类。而目前基于神经网络的方法，大多集中于对于植物叶片的局部特征或者全局特征，没有将两者很好的结合起来，导致在分类结果上存在一些缺陷。

发明内容

针对现有技术存在的问题，本发明提供了一种新的基于对抗学习的植物叶片图像细分类方法。该方法是基于深度学习的方法，是针对现有的深度学习模型没有很好的融合全局和局部特征这一缺陷进行的改进。本发明提出的植物叶片图像细分类方法，能够更好的融合图像的全局和局部特征，提高了分类的准确率。

本发明的技术方案具体介绍如下。

一种基于对抗学习的植物叶片图像细分类方法，主要分为两个阶段：植物叶片图像细分类模型训练阶段，植物叶片图像分类阶段；其中：

在植物叶片图像细分类模型训练阶段，通过对输入图片进行分割打乱以及卷积运算，引入全局上下文块，建立植物图片细分类模型，并使用大量的植物叶片图像样本进行训练；

在植物叶片图像分类阶段，将植物叶片图像经过与训练阶段同样的打乱操作之后输入到已训练完成的细分类模型后，网络将会输出植物图片的分类结果。

本发明提供的一种基于对抗学习的植物叶片图像细分类方法的基本过程是：首先，建立植物叶片图像细分类模型，以多张经过不同尺度分割并打乱的叶片图像为基础进行卷积运算，通过训练样本(叶片图像-分类结果)对分类模型进行训练；最后，在植物叶片图像细分类时，将植物叶片图像经过与模型训练阶段同样的分割打乱后输入到植物叶片细分类模型，模型运算后输出图片的细分类结果。具体步骤为：

1.图像预处理

在进行图像预处理时，对于每一张输入的图像I，经过随机裁剪到448×448之后，分别使用N为1,4,7这三个尺寸，先将其划分为N×N的子区域R_i，j，其中i和j是行号和列号，1≤i，j≤N，然后对N×N的子区域做打乱操作，并给打乱后的图片赋予新的标签，具体赋予方式为若N＝1的标签为L_i，则N＝4的标签为L_i+K_cls，N＝7的标签为L_i+2*K_cls，K_cls表示植物叶片图像的总类别数。图片的打乱方式如下：

首先，对R_i，j中的第i行生成一个大小为N的随机数组q_i，数组q_i中的第j个元素q_i，j＝j+r,其中r是一个随机变量，r∈[-k，k]，1≤k≤N。然后，对数组q_i进行排序，就得到了一个新的排列

而对R_i，j中的第j列也生成一个大小为N随机数组p_j，数组p_j中的第i个元素p_j，i＝i+t,其中t是一个随机变量t∈[-k，k]。然后对数组p_j排序，得到一个新的排列

最后，再在子区域R_i，j的(i，j)位置处放置一个新的子区域：

2.植物叶片图像细分类模型训练

(1)构建网络

网络结构分为三个模块，分别是：分类网络模块、对抗学习模块、区域定位模块。分类网络模块的作用是对输入的图像进行分类；对抗学习模块的输入是分类网络中第六层的输出，用于减少在步骤1中的图像预处理阶段因打乱图像而引入的噪声；区域定位模块的输入是分类网络中第五层的输出，用于促使网络构建各个切分区域之间的语义关系。它们结构如下：

1)分类网络

分类网络采用了八层结构：

第一层，由三个连续的相同模块组成，每一个模块中包含了64个1×1的卷积核、64个3×3的卷积核和256个1×1的卷积核；

第二层，由四个连续的相同模块组成，每一个模块中包含了128个1×1的卷积核、128个3×3的卷积核和512个1×1的卷积核；

第三层，由留个连续的相同模块组成，每一个模块中包含了256个1×1的卷积核、256个3×3的卷积核和1024个1×1的卷积核；

第四层，全局上下文块，它的结构包含了3个1×1卷积、逻辑回归、层归一化和线性整流函数等，其具体计算流程：将分类网络中第三层的输出X∈R^C×H×W作为输入，C表示X的通道数，H和W表示X的高度和宽度，将X变换维度得到X₁∈R^C×HW，然后X₁经过1×1卷积和逻辑回归之后得到X′∈R^HW×1×1，然后对X₁和X′做矩阵乘法，再对得到的结果依次经过1×1卷积，层归一化、线性整流函数和1×1卷积得到X″∈R^C×1×1，最后再对X和X″做矩阵加法，得到最终的结果输入到下一层进行运算；

第五层，由三个连续的相同模块组成，每一个模块中包含了512个1×1的卷积核、512个3×3的卷积核和2048个1×1的卷积核；

第六层，自适应平均池化层；

第七层，特征拼接层；

第八层，全连接层，具有K_cls个神经元，K_cls和叶片图像的类别数相同；

2)对抗学习网络

对抗学习网络的结构和分类网络结构基本一致，仅将分类网络中的特征拼接和全连接层替换为了一个全连接层，它包含了3*K_cls个神经元，K_cls和叶片图片的类别数相同；

3)区域定位网络

这一部分对于N＝4和N＝7构建了两个不同的网络结构。将分类网络结构中的自适应平均池化层、特征拼接和全连接层做了相应的替换：

当N＝4时，修改为步长为1的卷积层、步长为3的平均池化层和双曲正切函数；

当N＝7时，修改为步长为1的卷积层、步长为2的平均池化层和双曲正切函数；

(2)训练网络

网络的训练样本集为

M表示样本的数量，T_i＝(I_i，L_i)表示样本集中的第i个样本，I_i是一张图片，L_i是第i张图片对应的分类标签。在训练时将输入的每一张图片I_i，经过步骤1中的预处理之后得到打乱后图片I_i1、I_i4、I_i7，然后将打乱后的图片输入到网络中进行训练。

在分类网络中，I_i1、I_i4、I_i7经过了相同的网络结构之后分别提取到一个2048维的特征F_i1、F_i4、F_i7，经过一个特征拼接层之后获得一个整体的特征F_i，最后将F_i输入到全连接层中得到分类结果L′_i，对于分类模块使用了交叉熵损失作为损失函数，用L_cls表示。

其中l表示输入图片真实标签的概率分布，C(I)表示的网络输出的预测标签的概率分布。

在对抗学习网络中，将I_i1、I_i4、I_i7在分类网络中第6个模块的输出输入到对抗学习网络中，分别获得一个分类结果L′_i1、L′_i4、L′_i7，对于对抗学习模块的损失函数同样使用交叉熵损失，用L_adv表示。

其中l₁、l₄、l₇分别表示原始图像I_i1、I_i4、I_i7的真实标签的概率分布，D(I_i1)、D(I_i4)、D(I_i7)则表示对抗学习网络预测标签的概率分布。

在区域定位模块中，将N＝1的图片分别输入到N＝4和N＝7的区域定位网络结构中得到

和

而将N＝4和N＝7的图片分别输入到自己对应的区域定位网络结构中得到

和

然后对

和按N＝4分割的子区域的坐标(i，j)计算L1损失L_loc4以及

和按N＝7分割的子区域坐标(i，j)计算L1损失L_loc7。

最后整个网络训练过程的损失函数可以表示为：

L_all＝αL_cls+βL_adv+γ₄L_loc4+γ₇L_loc7

其中L_all表示总体损失，α、β、γ₄、γ₇表示各个损失在总体损失中的权重。

3.植物叶片图像细分类

训练得到植物叶片细分类模型之后，即可用来进行植物叶片的细分类了。具体做法是：

(1)构建一个分类标签到植物名称的映射表。

(2)进行分类时的过程与训练模型时的过程基本相同，不同之处在于，在进行分类时，不再经过对抗学习模块和区域定位模块这两部分，而是仅通过分类网络即可得到分类结果L′，再在分类标签到植物名称的映射表中查询即可获得最终的植物分类名。

Plant_name＝f(L′)

其中Plant_name表示植物的分类名，L′是分类网络输出的分类标签，f(·)是分类标签和植物名的映射关系。

和现有技术相比，本发明的有益效果如下：

本发明提出的N＝1,4,7的多尺度分割，随机打乱方法，可以帮助网络提取到图像的多个不同粒度的特征，提高分类的准确率，对抗学习模块应用对抗学习的方式，减少图像预处理阶段因为切分打乱图像而引入的噪声，而区域定位模块通过计算区域定位损失，提升网络构建各个切分块之间语义关系的能力，另外本发明引入的全局上下文块的结构，通过残差连接让网络可以在不增加网络深度的同时更好的结合图像的全局特征和局部特征，提高了网络融合特征的能力。

附图说明

图1是本发明所提植物叶片图像细分类方法的流程图。

图2是全局上下文块结构图。图中

表示矩阵乘法，

表示矩阵加法。

图3是本发明与ResNet50的特征可视化对照图。

具体实施方式

以下结合附图和实施例对本发明的技术方案进行详细阐述。

实施例1

本发明提出一种基于对抗学习的植物叶片图像细分类方法，其流程图如图1所示，可分为两个部分：植物叶片图像细分类模型训练和植物叶片图像分类。具体如下：

1.图像预处理

2.植物叶片图像细分类模型训练

(1)构建网络

1)分类网络：

分类网络采用了八层结构：

第六层，自适应平均池化层；

第七层，特征拼接层；

2)对抗学习网络

3)区域定位网络

当N＝4时，修改为步长为1的卷积层、步长为3的平均池化层和双曲正切函数。

当N＝7时，修改为步长为1的卷积层、步长为2的平均池化层和双曲正切函数。

(2)训练网络

网络的训练样本集为

和

和

然后

和按N＝4分割的子区域的坐标(i，j)计算L1损失L_loc4以及

和按N＝7分割的子区域坐标(i，j)计算L1损失L_loc7。

最后整个网络训练过程的损失函数可以表示为：

L_all＝αL_cls+βL_adv+γ₄L_loc4+γ₇L_loc7

网络训练过程中采用SGD算法作为优化策略，批大小batch_size设为32。初始学习率设置为0.0001，每训练60个epoch将学习率调整为原来的10％，整个训练过程一共有180个epoch。

3.植物叶片图像细分类

(1)构建一个分类标签到植物名称的映射表(表1)。

表1植物名称映射表

Plant_name＝f(L′)

为了验证本发明所提方法的有效性，进行了对照实验，方法提取的特征可视化结果见下图。作为对照的方法是ResNet50分类网络。两种方法使用了相同的训练集和测试集，包含训练集11296张图片，测试集2690张图片，共520个类别。从图3中可以看出相比于ResNet50，本发明的特征提取能力更强，集中到了图片的辨识区域，而ResNet50则关注到了一些无关的区域，或者仅关注到小部分的辨识区域。另外如表2所示，在准确率上，本发明也高于ResNet50的准确率。由此可见本发明所提方法是有效的。

表2对照实验结果

方法	ResNet50	本发明
			准确率	43.49％	56.39％

。

Claims

1.一种基于对抗学习的植物叶片图像细分类方法，其特征在于，其分为2个阶段：植物叶片图像细分类模型训练阶段，植物叶片图像分类阶段；其中：

植物叶片图像细分类模型训练阶段，通过对输入的植物叶片图片进行分割打乱以及卷积运算，引入全局上下文块，建立植物叶片图像细分类模型，并使用大量的植物叶片图像样本进行训练；

植物叶片图像分类阶段，将待测的植物叶片图像经过与训练阶段同样的打乱操作之后输入到已训练完成的植物叶片图像细分类模型后，网络输出待测的植物叶片图像的分类结果。

2.根据权利要求1所述的植物叶片图像细分类方法，其特征在于，具体步骤如下：

(1)图像预处理

在进行图像预处理时，对于每一张输入的图像I，经过随机裁剪到448×448之后，分别使用N为1，4，7这三个尺寸，先将其划分为N×N的子区域R_i，j，其中i和j是行号和列号，1≤i，j≤N，然后对N×N的子区域做打乱操作，并给打乱后的图片赋予新的标签，具体赋予方式为若N＝1的标签为L_i，则N＝4的标签为L_i+K_cls，N＝7的标签为L_i+2*K_cls，K_cls表示植物叶片图像的总类别数；图片的打乱方式如下：

首先，对R_i，j中的第i行生成一个大小为N的随机数组q_i，数组q_i中的第j个元素q_i，j＝j+r，其中r是一个随机变量，r∈[-k，k]，1≤k≤N；其次，对数组q_i进行排序，得到一个新的排列

对R_i，j中的第j列也生成一个大小为N随机数组p_j，数组p_j中的第i个元素p_j，i＝i+t，其中t是一个随机变量t∈[-k，k]；接着对数组p_j排序，得到一个新的排列

(2)植物叶片图像细分类模型训练

1)构建网络

网络结构分为三个模块，分别是：分类网络模块、对抗学习模块、区域定位模块。分类网络模块的作用是对输入的图像进行分类；对抗学习模块的输入是分类网络中第六层的输出，用于减少在图像预处理阶段因打乱图像而引入的噪声；区域定位模块的输入是分类网络中第五层的输出，用于促使网络构建各个切分区域之间的语义关系；它们结构如下：

a)分类网络

分类网络采用了八层结构：

第三层，由六个连续的相同模块组成，每一个模块中包含了256个1×1的卷积核、256个3×3的卷积核和1024个1×1的卷积核；

第六层，自适应平均池化层；

第七层，特征拼接层；

b)对抗学习网络

c)区域定位网络

这一部分对于N＝4和N＝7构建了两个不同的网络结构，将分类网络结构中的自适应平均池化层、特征拼接和全连接层做了相应的替换：

2)训练网络

网络的训练样本集为