CN109711448A

CN109711448A - 基于判别关键域和深度学习的植物图像细粒度分类方法

Info

Publication number: CN109711448A
Application number: CN201811556747.XA
Authority: CN
Inventors: 张雪芹; 余丽君; 顾秋晨
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-03

Abstract

本发明涉及一种基于判别关键域和深度学习的植物图像细粒度分类方法，该方法利用一同时考虑关键域和全局域的CNN分类模型对待分类图像进行细粒度分类，所述CNN分类模型的训练过程包括以下步骤：1)获得原始植物图像样本集，通过DeepLab对原始植物图像进行像素级语义分割，获得植物图像中待测目标的判别关键域，形成判别关键域图像；2)将所述判别关键域图像与原始植物图像混合，形成分类训练数据集；3)基于迁移学习训练基于GoogLeNet的CNN分类模型。与现有技术相比，本发明具有分类准确性高、鲁棒性好等优点，解决植物图像细粒度分类中准确率不高的问题。

Description

基于判别关键域和深度学习的植物图像细粒度分类方法

技术领域

本发明涉及图像细粒度分类方法，尤其是涉及一种基于判别关键域和深度学习的植物图像细粒度分类方法。

背景技术

目前，植物物种的分类主要依靠植物专业领域专家的人工判别，导致基于图像的植物识别任务工作量很大而且效率不高。在深度学习算法在图像领域的兴起之后，基于计算机视觉的自动分类得了很大的发展。文献“PANDA:Pose Aligned Networks for DeepAttribute Modeling”(Zhang N,Paluri M,Ranzato M,et al..2014:1637-1644)首先利用梯度方向直方图(HOG)和基于组件的检测算法DPM以及Poselet方法对鸟类目标及其各局部区域检测，针对检测目标分别提取CNN特征进行分类。文献“Part-Based R-CNNs for Fine-Grained Category Detection”(Zhang N,Donahue J,Girshick R,et al.EuropeanConference on Computer Vision.Springer,Cham,2014:834-849)采用自底向上的区域生成法产生待检测鸟类目标局部可能的候选框，结合候选区域之间的几何约束，基于R-CNN训练三个检测模型分别提取局部特征，采用将三个模型的全连接层特征级联，形成整张图像的细粒度特征用于分类。文献“Part Localization using Multi-Proposal Consensusfor Fine-Grained Categorization”(Shih K J,Mallya A,Singh S,et al.ComputerScience,2012)利用AlexNet定位鸟类目标的关键点和区域，使用边缘框对图像分块产生对应的视觉特征，筛选最终关键点预测结果拼接后进行分类。文献“Deep LAC:Deeplocalization,alignment and classification for fine-grained recognition”(LinD,Shen X,Lu C,et al.IEEE Conference on Computer Vision and PatternRecognition.IEEE Computer Society,2015:1666-1674)提出了深度位置对齐模型对鸟类目标进行部件定位、对齐和分类，提出了阀门连接函数自适应地减小分类和对齐的误差。文献“自上而下注意图分割的细粒度图像分类”(冯语姗,王子磊.中国图象图形学报,2016,21(9):1147-1154)针对汽车和飞行器采用了基于注意图分割的分类模型，先用卷积神经网络对图像进行预分类，然后生成注意图，利用注意图分割出关键的目标区域，通过对分割图提取CNN特征，再进行细粒度分类。文献“The application of two-level attention modelsin deep convolutional neural network for fine-grained image classification”(Xiao T,Xu Y,Yang K,et al.Computer Vision and Pattern Recognition.IEEE,2015:842-850)基于鸟类目标构建一个两级模型，第一级模型采用CNN来筛选主要目标，实现去噪。第二级模型利用上一级模型输出的去噪后的数据，重新训练模型，来提取特征进行聚类分析和SVM分类。文献“Object-Part Attention Driven Discriminative Localizationfor Fine-grained Image Classification”(Peng Y,He X,Zhao J.IEEE Transactionson Image Processing,2017,PP(99):1-1)基于鸟类、汽车和猫狗宠物三种数据集，改进了两级注意力模型分别用于定位物体在图像中的位置和学习局部特征，再利用了空间约束模型用于强调局部之间的约束。

上述方法主要都是通过采用某些方法确定图像中关键判定性区域，去除背景干扰，再执行分类任务。但是这些方法在关键判定性区域的选择上，没有考虑到图像中目标高阶语义的重要性，在筛选关键判定性区域时存在着较大的目标定位的不准确性和冗余，从而对后续特征提取和分类造成叠加误差，造成分类精度不够高。

发明内容

本发明的目的就是为了克服上述现有技术存在的植物图像细粒度分类中准确率不高的问题而提供一种基于判别关键域和深度学习的植物图像细粒度分类方法。

本发明的目的可以通过以下技术方案来实现：

一种基于判别关键域和深度学习的植物图像细粒度分类方法，该方法利用一同时考虑关键域和全局域的CNN分类模型对待分类图像进行细粒度分类，所述CNN分类模型的训练过程包括以下步骤：

1)获得原始植物图像样本集，通过DeepLab对原始植物图像进行像素级语义分割，获得植物图像中待测目标的判别关键域，形成判别关键域图像；

2)将所述判别关键域图像与原始植物图像混合，形成分类训练数据集；

3)基于迁移学习训练基于GoogLeNet的CNN分类模型。

进一步，所述步骤1)中，利用DeepLab分割模型进行语义分割，所述DeepLab分割模型的训练过程包括以下步骤：

101)获得分割训练图像集；

102)利用多层空洞卷积和池化提取图像特征图；

103)对所述图像特征图进行上采样得到与原图像尺度相同的图像像素分类结果；

104)使用全连接CRF及底层细节信息对所述图像像素分类结果对应的分类局部特征进行优化；

105)调节模型参数，获得最优的DeepLab分割模型。

进一步，所述分割训练图像集包括分割训练图像及各图像对应的分割标注信息。

进一步，所述步骤1)中，利用DeepLab分割模型进行语义分割后，获得一对一映射的分割处理结果图，对照所述分割处理结果图，对原始植物图像进行处理得到判别关键域。

进一步，所述步骤1)中，利用DeepLab分割模型进行语义分割后，根据像素级分割图，选取最小外接矩形的方法对原始植物图像进行框选和裁剪，得到判别关键域。

进一步，所述基于GoogLeNet的CNN分类模型包括卷积层、池化层、全连接层、分类器、ReLU非线性单元和inception模块。

进一步，该方法利用图像分割指标和图像分类指标进行可靠性评价，所述图像分割指标包括像素精度、均像素精度和均交并比，所述图像分类指标包括top-N正确率。

与现有技术相比，本发明具有以如下有益效果：

1)该方法采用DeepLab算法对图像进行语义分割，得到像素级的分割图，通过映射形成植物的局部判别关键域，并针对植物中存在的不连通、簇类花型等图像局部判别域不完整问题，提出结合局部判别关键域和全局判别域，采用卷积神经网络基于迁移学习机制建立植物图像分类模型，提高了网络学习图像特征的能力，获得了更高的分类准确性，使得网络在植物图像细粒度分类上具有更强的适应性，有效提高分类精度。

2)本发明利用了深度学习在图像特征提取方面的优势，自动的从大规模图像数据集中学习图像的高层语义信息，相比于传统的特征学习方法具有更好的效果和更强的鲁棒性，可以扩展到更大规模和更多种类的图像识别任务中去。

3)本发明方法在公开植物图像数据集上的对比实验表明，该算法可以有效地提高植物的细粒度分类准确率，且在植物图像领域的研究具有较高研究价值。

附图说明

图1为空洞卷积示意图，其中，(a)为rate为1时的卷积操作，(b)为rate为2时的卷积操作；

图2为DeepLab分割模型训练过程示意图；

图3为CNN分类模型训练过程示意图；

图4为实施例中采用oriData、segData和KeyobjData得到的判别域图像示例。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于判别关键域和深度学习的植物图像细粒度分类方法(记为DL-CNN)，利用一同时考虑关键域和全局域的CNN分类模型对待分类图像进行细粒度分类，基于DeepLab的方法实现植物图像像素级语义分割，找到图像中具有判别意义的关键区域，同时结合全局域，采用CNN模型提取语义特征，采用softmax分类器进行分类，提高细粒度分类的精度。

1、卷积神经网络

典型的卷积神经网络(Convolutional Neural Network，CNN)模型由AlexNet由卷积层、池化层、全连接层、分类器和ReLU非线性单元构成。GoogLeNet是改进的网络模型，加入的inception模块可以有效地提取更多特征来提升训练结果。原始图像数据集经输入层送入网络，神经元自动提取图像的局部和全局特征，由全连接层连接所有的特征得到CNN提取的该图像的特征表示，将输出值训练分类器，比如一般常用的softmax分类器等。

CNN具有局部感受野、权值共享和下采样三种结构特征。通过这些特征来保证输入信号目标在一定程度上的平移、放缩和扭曲后的不变性。基于局部感受野和权值共享，在减少权值矩阵的同时保证网络的学习能力不受影响，下采样提高了模型逐层学习全局特征得到高阶语义的能力。

(1)前向传播阶段

前向传播用于迭代更新网络的参数，在前向传播中，特征的运算公式为：

其中，y^(l)表示第l层的输出，x⁽ⁱ⁾是上一层的输出作为这一层的输入向量，表示卷积运算，b^l是偏置，W_i表示该层包含的卷积核的权值，m表示输入特征图的集合，f(x)表示非线性激活函数，通常用的是Sigmoid、Tanh和ReLu，以及最新的一些PReLU、Maxout等。

(2)反向传播阶段

在m个样本参与的前向传播过程后，会输出对应的每个类别的预测结果，根据样本的标签，即网络的期望输出定义网络的优化目标为：

其中，L(z_i)是定义的网络的损失函数，网络通过迭代训练最小化损失函数来降低网络的分类误差，z_i是网络反向传播的输入，在公式(1)中的最后一层网络的输出，W表示网络的权值，λ表示对应的归一项所占的比重。通常网络的损失函数要根据具体的目标函数来定，在多分类任务中通常采用Softmax分类器的输出来最小化交叉熵损失函数。Softmax的归一化后的概率函数如下：

z_i＝z_i-max(z₁,z₂,…,z_m)(3)

其中，z_i是网络对样本的预测类别，减去最大值来保持计算的稳定性，由于网络最后的归一化所以此操作不会造成影响，根据σ_i(z)来预测z_i属于每个类别的概率。

定义交叉熵损失函数为：

L(z_i)＝-logσ_i(z)(5)

利用随机梯度下降法来对公式(1)中每一层的参数W和b^l求导，更新网络的参数。

2、DeepLab语义分割

语义图像分割旨在为图像中的每个像素生成分类标签。卷积神经网络虽然在提取局部特征和利用小感受野进行良好预测方面取得了良好的效果，但它们缺乏利用全局上下文信息的能力，无法直接建模预测之间的相互作用。DeepLab采用全卷积网络(FullyConvolutional Networks,FCN)改进了标准的卷积操作，利用空洞卷积扩展感受野，获得更多上下文信息，利用完全连接的条件随机场优化分割边缘，提高了模型捕获细节的能力。

(1)全卷积网络

FCN是在CNN的基础上改进得到的，可以实现对图像进行像素级别的分割。它将卷积神经网络中的全连接层全部换成卷积层，利用反卷积操作对最后一个卷积层得到的特征图进行上采样，最终得到一个与原图大小相同的像素级预测。FCN避免了CNN重复进行的池化和下采样操作导致的特征图分辨率下降，保留了原始输入图像的空间信息。它通过对上采样的特征图进行逐像素分类，计算softmax分类损失，最终获得像素级别的分割结果。

(3)空洞卷积(Atrous Convolution)

由于图像分割预测是像素级的输出，因此FCN中有两个关键，一个是池化减小特征尺寸增大感受野，另一个是上采样扩大特征尺寸。在先减小再增大尺寸的过程中，造成了空间信息损失。为了解决下采样带来的空间信息损失问题，DeepLab采用空洞卷积对卷积操作进行改进。

不同于反卷积，空洞卷积不通过上采样扩大特征分辨率，而是通过改变卷积核增大感受野。在空洞卷积中有个重要的参数rate，这个参数代表了空洞的大小。从原图角度，所谓空洞就是在原图上做采样。采样的频率是根据rate参数来设置的，当rate为1时候，就是原图不丢失任何信息采样，如图1(a)，此时卷积操作就是标准的卷积操作，当rate>1，比如2的时候，就是在原图上每隔(rate-1)个像素采样，如图1(b)。采样后的图像与kernel做卷积，就变相增大了感受野。如果从kernel角度去看空洞，就是扩大kernel的尺寸，在kernel中，相邻点之间插入rate-1个零，然后将扩大的kernel和原图做卷积，同样是增大了感受野。

(3)全连接条件随机场

条件随机场(Conditional Random Field，CRF)方法通常在用于改进语义分割效果。CRF方法是一种基于底层图像像素强度进行“平滑”分割的图模型，在运行时会将像素强度相似的点标记为同一类别。DeepLab中CRF模型采用能量函数：

其中，变量x_i是像素i的标签，

P(x_i)是由CNN计算的像素i的输出标签的分配概率，

满足

k^m(f_i,f_j)是(f_i,f_j)之间的高斯核，f_i像素i的特征向量，由参数ω_m加权。DeepLab中高斯核采用双边位置和颜色作为参考项：

其中，前一个内核考虑像素位置P和颜色I，后一个内核只取决于像素位置。超参数σ_α,σ_β，σ_γ表示高斯核的尺度。二元势函数表征像素与像素之间的关系，对相似的像素，分配的标签也更有可能分配相同的标签，这样可以细化边缘。

3、CNN分类模型的训练

本发明提出的CNN分类模型的训练过程包括以下步骤：

1)获得原始植物图像样本集，通过DeepLab对原始植物图像进行像素级语义分割，得到图像中待检测植物图像目标及其轮廓区域，获得植物图像中待测目标的判别关键域，形成判别关键域图像。

步骤1)中，利用DeepLab分割模型进行语义分割，语义分割后，获得一对一映射的分割处理结果图，对照所述分割处理结果图，对原始植物图像进行处理得到判别关键域。

2)将所述判别关键域图像与原始植物图像混合，形成分类训练数据集。对植物图像进行语义分割后，生成的判别关键域不可避免的存在过分割、不连通和不完整等情况。为了减少分割误差对后续分类模型的影响，本发明把判别关键域图像与原始图像混合，构成既包含局部信息又包含有全局信息的分类训练数据集。

3)基于迁移学习训练基于GoogLeNet的CNN分类模型。对于深度神经网络，采用较小的数据集学习所有参数会导致模型过拟合和梯度弥散问题，本发明在ImageNet的基础上，采用迁移学习方式，利用构建的混合数据集，训练GoogLeNet分类模型。

所述DeepLab分割模型的训练过程包括以下步骤：

101)获得分割训练图像集，分割训练图像集包括分割训练图像及各图像对应的分割标注信息；

102)利用多层空洞卷积和池化提取每张图像的得分图，即图像特征图；

105)输入验证图像，对模型参数进行优化调节，获得最优的DeepLab分割模型。

训练语义分割模型的主要流程如图2所示，训练分类模型的主要流程图为图3所示。

4、实验数据与分析

(1)实验数据与环境

本实施例的实验采用的分割数据集来源于从百度爬虫的植物图片和Oxford 17中随机挑选的图片，总共1273张，记为MyData数据集。通过手工分割标注，得到1273张标注图。将MyData拆分为训练集600张，验证集423张，测试集250张。分类数据集采用牛津大学公开植物图像数据集Oxford 17和Oxford 102，Oxford17共有17类植物，每个类别各有80张图片，总1360张图片数据集。Oxford 102中有102类植物图像，每个类别分别包含40～258张图片，总共8189张图片。分类训练过程中，训练集与验证集图片数量比例采用3:1。所有图片均经过重新处理为256*256尺寸大小。

本实验的分割和分类训练过程均在基于GPU的并行计算条件下进行。操作系统为Ubuntu16.04，运行内存8G，GeForce1060，显存6G，CUDA8.0，cudnn5.0，caffe。

(2)评价指标

1)图像分割指标

像素精度PA(Pixel Accuracy)：

假设共有k+1类(背景算一类)，P_ij表示本属于类i但被预测为类j的像素数量，P_ji表示本属于类j但被预测为类i的像素数量，P_ii表示被正确预测的数量。

均像素精度MPA(Mean Pixel Accuracy)：

均交并比MIoU(Mean intersection over Union)：

2)图像分类指标

top-N正确率是指图像识别算法给出前N个答案中有一个是正确的概率。本实施例选取top-1作为此次分类任务的评价指标。

(3)实验结果与分析

实验一

本实验的目的是寻找分割模型的最优参数。实验采用MyData数据集，实验对DeepLab分割模型中最重要的两个参数batch_size和weight_decay进行调优。其余参数采用默认值(Base_lr为0.001，Lr_policy为poly,power＝0.9)。

实验首先固定weight_decay为0.0005，寻找batch_size的最优参数，实验结果如表1所示可以看出，当batch_size为8时分割指标最好。其次，固定batch_size为8，寻找weight_decay的最优参数，实验结果如表2所示。

表1不同batch size下的分割指标

表2batch size固定，不同Weight decay下的分割指标

可见，当Batch_size为8，weight_decay为0.0005时达到了PA为0.98、MPA为0.98、MIoU为0.96，达到最优的分割准确率。

实验二

本实验用于验证本发明细粒度方法的有效性。实验将比较判别关键域构成的五种方式，以及两种分类模型。

五种判别域构建方法：

①oriData：采用原始图像作为全局判别域。

②segData：根据分割图，对相应的原始图像做一对一像素级映射，得到只保留前景目标、背景均全黑的图像，构成局部关键判别域。

③KeyobjData：根据像素级分割图，选取最小外接矩形的方法对原图进行框选和裁剪，得到局部关键判别域。和处理方式②相比，采用该方法得到的裁剪图会包含前景目标以及前景目标边缘处的少部分背景，但是可以减少过分割和由于不连通造成的分割误差。

④SegData_oriData：将segData与oriData数据集混合，得到既含有图像局部判别关键域，又包含全局判别域的双判别域。

⑤Keyobj_oriData：将KeyobjData与oriData数据集混合，得到既含有图像判别关键域，又包含全局判别域的双判别域。

采用oriData、segData和KeyobjData得到的判别域图像示例如图4所示。可以看出，序号为A的花得到了正常分割，B则出现了过分割，C由于花型比较分散，出现了不连通和缺失，D为花型较小的簇类花型，出现了缺失和欠分割。

同时，实验采用Oxford 17和Oxford 102两个数据集，比较了AlexNet和GoogLeNet两种分类模型，在四种判别域构成方案下的Top-1分类准确度，如表3所示。

表3模型Top-1分类结果(％)

可以看到，基于GoogLeNet的分类模型总体检测精度高于基于AlexNet的分类模型。采用segData方案得到的局部关键判别域用于分类，Top-1精度低于采用原图作为全局判别域的分类结果，这是由于分割过程中出现的分割误差(如过分割、由于植物花型分散不连通造成分割后花型部分丢失等造成的)。采用KeyobjData方案得到的局部关键判别域用于分类，在GoogLeNet模型下，Top-1精度略高于采用原图作为全局判别域的分类结果。采用本发明提出的双判别域用于分类，在GoogLeNet模型下，相对于采用原图作为全局判别域的分类结果，Top-1精度在Oxford 17和Oxford 102分别提高2.74％和4.26％。

表4给出了分类检测中单帧图像的处理时间，可以看到基于GoogLeNet，在xford17数据集上，单张图像的检测时间仅为27ms，在Oxford 102数据集上，单张图像的检测时间仅为15.8ms。

表4分类中单张图像的处理时间(s)

实验三

本实验用于验证所提方法在类别更加相似的植物图像上的有效性。实验选取了十八种不同的菊花，来自于互联网，总共1352张。菊花类别序号、类别名称和图片数量信息如下：1万寿菊(99)、2矢车菊(65)、3日光菊(74)、4金盏菊(72)、5瓜叶菊(99)、6大丽菊(59)、7波斯菊(71)、8金光菊(98)、9礼花菊(84)、10雏菊(141)，11乒乓菊(74)，12幌菊(19)，13杭菊(40)，14芙蓉菊(45)，15荷兰菊(63)，16蛇目菊(75)，17金丝皇菊(39)，18麦秆菊(135)。括号内的数字为图片数量，实验中按3:1划分为训练集和测试集。

实验结果如表5和表6所示。

表5菊类图像的分类结果(％)

表6GoogLeNet模型下每个类别分类的结果

从表5可以看出，本发明提出的方案对相似植物仍然能够以较高的准确率实现细分。从表6可以看出，除大丽菊和幌菊识别准确率较低外，其余种类Top-1识别率都在90％以上。分析原因，其中，幌菊识别率低的主要原因是训练样本较少，只有12张。大丽菊识别率低主要因为训练样本图像中的花型都很大，占据了画面的主要部分，因此提取的局部判别域和全局判别域基本没有差异，因此改进效果不明显。

实验四

本实验用于验证本发明方法与SIFT+K-means+SVM、GrabCut+CNN的其他植物分类方法比较下的有效性。

SIFT+K-means+SVM方法对读取的原始图像提取SIFT特征点进行K-means聚类，然后训练SVM，在测试集上得出分类精度。GrabCut是一种基于图论的图像分割方法，利用了K-means聚类、高斯混合模型建模和最大流最小割算法，对使用GrabCut分割得到的图像前景图经过AlexNet和GoogLeNet分类训练，得到的分类结果如表7。

表7本发明方法与SIFT+K-means+SVM、GrabCut+CNN的分类结果(％)

由表7，对比SIFT+KMeans+SVM和GrabCut+CNN的方法可以看出，本发明DL-CNN方法在提高分类精度上效果更加明显，证明了本发明方法的有效性。

本发明方法在Oxford 17和Oxford 102两个公开数据集以及植物子类数据集上，均取得了较高的TOP-1识别准确率。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，该方法利用一同时考虑关键域和全局域的CNN分类模型对待分类图像进行细粒度分类，所述CNN分类模型的训练过程包括以下步骤：

3)基于迁移学习训练基于GoogLeNet的CNN分类模型。

2.根据权利要求1所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，所述步骤1)中，利用DeepLab分割模型进行语义分割，所述DeepLab分割模型的训练过程包括以下步骤：

101)获得分割训练图像集；

102)利用多层空洞卷积和池化提取图像特征图；

105)调节模型参数，获得最优的DeepLab分割模型。

3.根据权利要求2所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，所述分割训练图像集包括分割训练图像及各图像对应的分割标注信息。

4.根据权利要求2所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，所述步骤1)中，利用DeepLab分割模型进行语义分割后，获得一对一映射的分割处理结果图，对照所述分割处理结果图，对原始植物图像进行处理得到判别关键域。

5.根据权利要求2所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，所述步骤1)中，利用DeepLab分割模型进行语义分割后，根据像素级分割图，选取最小外接矩形的方法对原始植物图像进行框选和裁剪，得到判别关键域。

6.根据权利要求1所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，所述基于GoogLeNet的CNN分类模型包括卷积层、池化层、全连接层、分类器、ReLU非线性单元和inception模块。

7.根据权利要求1所述的基于判别关键域和深度学习的植物图像细粒度分类方法，其特征在于，该方法利用图像分割指标和图像分类指标进行可靠性评价，所述图像分割指标包括像素精度、均像素精度和均交并比，所述图像分类指标包括top-N正确率。