CN113640244B - 一种基于可见近红外光谱的果树品种鉴别方法 - Google Patents

一种基于可见近红外光谱的果树品种鉴别方法 Download PDF

Info

Publication number
CN113640244B
CN113640244B CN202110854754.3A CN202110854754A CN113640244B CN 113640244 B CN113640244 B CN 113640244B CN 202110854754 A CN202110854754 A CN 202110854754A CN 113640244 B CN113640244 B CN 113640244B
Authority
CN
China
Prior art keywords
data
encoder
convolution
random forest
noise reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110854754.3A
Other languages
English (en)
Other versions
CN113640244A (zh
Inventor
阳波
罗佳杰
胡玄烨
许浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Normal University
Original Assignee
Hunan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Normal University filed Critical Hunan Normal University
Priority to CN202110854754.3A priority Critical patent/CN113640244B/zh
Publication of CN113640244A publication Critical patent/CN113640244A/zh
Application granted granted Critical
Publication of CN113640244B publication Critical patent/CN113640244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing
    • G01N2021/1797Remote sensing in landscape, e.g. crops

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及一种基于果树叶子可见近红外光谱进行果树品种鉴定的方法,主要由卷积降噪自编码器(CDAE)和随机森林(RF)两部分组成,卷积降噪自编码器主要用于对果树叶子可见‑近红外光谱数据进行特征提取;随机森林分类器负责对卷积降噪自编码器提取后的特征进行分类,从而鉴定不同品种果树。本发明利用卷积降噪自编码器对特征值提取,具有分类正确率高,抗噪性强,特征提取能力好,省去数据预处理的步骤,无需光谱预处理的优点,使用其对叶片光谱进行分析,同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步;为苹果果树品种鉴别提供了一种新的快速鉴别方法。

Description

一种基于可见近红外光谱的果树品种鉴别方法
技术领域
本发明涉及一种基于可见近红外光谱的果树品种鉴别方法,属于果树品种鉴别技术领域。
背景技术
果树种植是我国重要的产业经济,有很多不同种类的果树在中国被种植,不同的果树品种具有不同的经济价值,传统的果树种类鉴别常常依靠果农经验,主要依据植株的综合性状等进行鉴定。形态学鉴别方法直观且操作简单,但是亲缘关系和植物形态学分类在某些情况下是不一致的,而且依赖个人经验具有很大的不确定性,并不适合大范围果树品种测量。生化鉴定法在分子水平上对不同遗传特性的品种进行鉴别,其中同工酶的电泳技术作为分类和鉴别手段,在上世纪10年代已经成功地应用于高等植物,但是这种鉴定方法易受环境因素影响。当前也有部分学者尝试利用遥感技术实现对果树品种的分类,遥感是一种泛指非接触下的探测技术,尤指用传感器对物体的电磁波谱进行探测的技术。不同的物体的地物波谱间具有特异性,在使用无人机载波谱仪系统,遥感卫星等方式对地面物体的地物波谱进行精确探测后,通过对果树叶片光谱树种识别有效波段的选取,筛选出适用于果树树种识别的叶片光谱有效波段,然后将特征波段选取后的数据输入机器学习模型进行分类鉴别,从而达到识别物体,用于资源探测的目的。目前系统的针对此类地物波谱分类算法的研究较少,在数据处理方面,需要进行繁杂的探索性的数据预处理,且不同数据预处理有时可能会对模型性能产生不同影响,有些甚至是负面的;在机器学习模型方面,多使用支持向量机,纯粹的随机森林等很老的传统算法,没有吸取深度学习近几年发展的成果;在特征提取方面,单一的使用特征波段选取算法也不能揭示数据整体的特征。
发明内容
本发明的目的在于提供一种基于可见近红外光谱的果树品种鉴别方法,从而克服现有技术中的不足。
本发明的技术原理在于,设计一种基于可见近红外光谱果树品种鉴别算法:首先使用无人机载波谱仪或遥感卫星等仪器设备获取某一片地区的地物光谱数据,然后利用卷积降噪自编码器(CDAE)对光谱数据进行特征提取,之后将特征值导入随机森林(RF)分类器里实现对果树品种的分类,该算法改善了随机森林对噪声敏感的缺点,同时对经过CDAE特征提取而浓缩后的数据更利于建模。
本发明通过以下技术方案实现,使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别。
即利用卷积降噪自编码器,简称CDAE,对光谱数据进行特征提取;训练好CDAE模型后,再将中间隐藏层的特征值导入随机森林分类器,简称RF,实现对果树品种的分类;由于每种原子都有自己的特征谱线,因此可以根据光谱来鉴别物质和确定它的化学组成,这种方法叫做光谱分析,而其中可见近红外波段主要是泛频峰,这些峰可供研究如-OH、-NH、-CH等官能团用,更能反应生化大分子特性。
使用一种卷积降噪自编码器进行数据提取,数据在卷积降噪自编码器中按照以下步骤进行处理:
步骤(1)编码器网络接受一个形状为:batchsize,2151,1的三维张量作为输入,由两个深度可分离卷积模块组成;
步骤(2)每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小;
步骤(3)经过批处理标准化层进行批处理标准化,接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,让训练时25%的神经网络连接随机断开,增强模型鲁棒性训练时25%的连接会被随机断开;两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64;
步骤(4)在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到:batchsize,239,1的中间隐层数据,完成降维操作,得到特征信息;
步骤(5)数据接入解码器,解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据;
步骤(6)使用卷积降噪自编码器CDAE分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到batchsize,239,1后,切割最后一维,最终得到二维数据batchsize,239;
步骤(7)将二维数据batchsize,239连接一个随机森林,随机森林分类器负责对特征值进行缩放和各种变换实现对果树叶子数据的分类,从而鉴定不同品种苹果果树。
本发明的有益效果在于,利用地物可见近红外波谱的方式进行无接触大面积高效率的资源勘探分析,实现果树品种鉴别;利用卷积降噪自编码器对特征值提取,具有分类正确率高,抗噪性强,特征提取能力好,无需光谱预处理的优点,使用其对叶片光谱进行分析,为果树品种鉴别提供了一种新的快速鉴别方法。省去数据预处理的步骤,具有优秀的特征提取能力;相对于传统的线性降维算法、机器学习的模型,该模型具有更优秀的性能;同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步。
附图说明
图1为本发明结构示意图;
图2为本发明的训练过程图;
图3为本发明的使用流程图;
图4为添加高斯噪声后的光谱图;
图5为添加指数噪声后的光谱图;
图6为三种模型在72种预处理方法下的分类精度图;
图7为六种模型不同训练集比例的分类精确度图;
图8在两种噪声的不同信噪比下的分类指标平均值。
具体实施方式
下面结合附图1至8对本发明的优选实施例作进一步说明,本发明使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别。
即利用卷积降噪自编码器,普通自编码器分为编码器网络和解码器网络两个部分。编码器将数据映射到中间的隐藏层,解码器将隐藏层的数据映射为输入数据。通过不断训练,自编码器可以起到特征提取的作用,其中间的隐藏层包含了关于输入数据的丰富信息。而卷积降噪自编码器则在普通自编码器的基础之上,使用卷积层代替全连接层用作数据提取,同时在训练时使用dropout技术随机断开神经网络连接,同时引入L1范数惩罚项,使模型鲁棒性增强。简称CDAE,对光谱数据进行特征提取;编码器将数据映射到中间的隐藏层,解码器将隐藏层的数据映射为输入数据。通过不断训练,自编码器可以起到特征提取的作用,其中间的隐藏层包含了关于输入数据的丰富信息。
传统的自编码器是使用密集连接的人工神经网络形式来学习和提取特征的,本实验引入对于序列使用的一维卷积神经网络作为自编码器特征提取层,其能更加高效的提取序列信息。
浅层的自编码器通常包含输入层、隐藏层和输出层三个部分,相当于一个小型的人工神经网络。假设输入数据为x={x(1),x(2),x(3)......,x(m)}且其中
Figure GDA0003758465760000041
一个三层自编码器的编码过程相当于:
h=sf(W(1)x+b(1)) (1)
解码过程相当于:
y=sg(W(2)h+b(2)) (2)
其中sf,sg为激活函数,通常可以是relu函数,sigmoid函数,tanh函数,在本实施例中,使用tanh作为激活函数
Figure GDA0003758465760000042
自编码器网络的训练目的是为了实现一个近似恒等的映射,使得f(x)≈x,通常情况下可以选择交叉熵或者均方误差作为损失函数,在本实验中,自编码器网络均使用均方误差作为损失函数进行训练:
Figure GDA0003758465760000043
本实验采用的卷积降噪自编码器使用MSE均方误差函数,见公式(4)作为损失函数,使用tanh函数,见公式(3)作为激活函数。
具体来说有以下几个特点:
1、采用一维卷积神经网络作为特征提取,能够更好的提取序列特征。卷积采用深度可分离卷积,相较于普通的一维卷积,其更能反映空间轴与轴之间的特征信息。引入批处理标准化层,可以很好的解决梯度消失或梯度爆炸问题,使训练能够更好的收敛。同时采用了堆栈式自编码器结构,使其提取特征的表达能力更强;
2、借鉴压缩自编码器(Contractive Auto-Encoder,CAE)的设计思想,引入了一个L1范数的惩罚项,这样的设计能够使抑制输入的数据在各个方向上的扰动,使其对输入数据一定程度下的扰动具有不变形性,从而使模型更具有鲁棒性。即原自编码器变为:
Figure GDA0003758465760000051
3、借鉴降噪自编码器(Denoising Autoencoder)的设计思想,在每一个深度可分离一维卷积模块中的末尾加入了Dropout层,使缺失值等异常数据对其影响降低。同时在训练时还适当的引入了一定的高斯噪声,使其在实际有噪环境中能够更好的提取特征,实现了降噪功能,进一步加强了模型的鲁棒性。
再将特征值导入随机森林分类器,简称RF,实现对果树品种的分类。本实验使用的卷积降噪自编码器有如图1所示的结构,具体参数见表1。CDAE由编码器网络和解码器网络组成。编码器网络接受一个形状为(batchsize,2151,1)的三维张量作为输入,由两个深度可分离卷积(Depthwise separable convolution)模块组成。每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小。然后经过批处理标准化层进行批处理标准化(Batch Normalization),接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,训练时25%的连接可能会被断开。两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64。
Figure GDA0003758465760000052
Figure GDA0003758465760000061
表1.卷积降噪自编码器
在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到(batchsize,239,1)的中间隐层数据,完成降维操作,得到特征信息。随后数据接入解码器。解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据。为了使CDAE模型能够分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到(batchsize,239,1)后打平到二维数据(batchsize,239)并连接一个随机森林。
CDAE-RF模型采用特征提取能力优秀的自编码器结构进行特征提取,理论上不需要做过多的数据预处理也能到达较好的分类效果。为了探究CDAE-RF的特征提取能力,本实施例将不经过数据预处理和经过预处理方法处理下的模型进行对比:
本实施例选择了Savitzky-Golay卷积平滑(SG)、窗口移动平滑(MA)、一阶导数(D1)、二阶导数(D2)、标准化(SS)、均值中心化(CT)、最大最小值归一化(MMS)、标准正态变换(SNV)共8种预处理方法,并按照功能分成表2所示的三类,分别是基线校正、趋势校正及数据缩放。
Figure GDA0003758465760000062
表2.三类预处理方法
从以上8种方法中以排列组合的方式共产生71种组合处理方法,加上不进行数据数据预处理的数据,共72组方法。这72组数据预处理方法如表3所示。
Figure GDA0003758465760000063
Figure GDA0003758465760000071
表3.预处理方法
通过比较72种光谱预处理方式在k邻近分类算法(KNN)、线性支持向量机(SVC-Linear)和CDAE-RF模型下的分类精度,比较CDAE-RF模型的特征提取能力。
为了比较CDAE-RF模型及其他经典机器学习模型的性能,本文选用了常见的3种数据降维方法和3种分类方法的组合与之进行比较,他们分别是:
(1)数据降维方法
主成分分析(PCA):将n维数据通过正交变换映射到k维上,变换后线性无关的k维数据被称为主成分;
独立成分分析(ICA):对于一组n维数据,对这个n维数据进行一种线性变换,得到输出向量w;
因子分析(FA):是一种简化、分析高维数据的统计方法,可以从变量中提取公共因子。对数据样本进行标准化处理,计算样本的相关矩阵R及其特征值和特征向量。最后统计方差贡献率,可以确定公共因子个数。
(2)分类方法
K最近邻算法(KNN):如果一个数据在特征空间中的K个最相似(即最邻近)的数据中的大部分属于同一个类别,则该样本也属于这个类别;
随机森林(RF):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定;
线性判别分析(LDA):首先将高维的数据映射到最佳鉴别矢量空间,抽取分类信息和压缩空间维度。然后可以通过一个已知类别的训练集来建立判别准则,并通过预测变量来为未知类别的数据进行分类;
在模型评价方面,为了多方位评价分类的准确性,本实用新型选用了准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score,四种分类评价指标进行比较,它们分别有不同的含义和作用:
(1)准确率(Accuracy):衡量的正确分类的比例,
Figure GDA0003758465760000081
(2)精确率(Precision):模型判为正的所有样本中真正的正样本的比例,
Figure GDA0003758465760000082
(3)召回率(Recall):在所有正样本中被模型判为正样本的比例,
Figure GDA0003758465760000083
(4)F1 score:精确率和召回率的调和均值,由于这两种指标各有优劣,有时我们需要在精确率与召回率之间进行权衡,这就需要用到F1指标来进行判别,
Figure GDA0003758465760000084
在本实施例中,选取主成分分析+随机森林(PCA-RF)、独立成分分析+随机森林(ICA-RF)、因子分析+随机森林(FA-RF)、主成分分析+K近邻算法(PCA-KNN)、主成分分析+线性判别分析(PCA-LDA)共5种组合模型与CDAE-RF模型对数据进行分析并比较相关性能差异。同时为了排除无关因素的干扰,本实验在0.5,0.6,0.7,0.8,0.9五种不同的训练集比例下进行了多组重复实验。
在实际光谱的测量时,经常会有大量的噪声干扰,随机森林算法对噪声非常敏感,而经过CDAE特征提取可以提高对噪声的鲁棒性,因此探究CDAE-RF模型的对噪声干扰的敏感性是必要的。
在引入噪声时,需要先确定信噪比(SNR),SNR是指电子系统中信号与噪声的比例,即来需要通过设备进行处理的电子信号,与经过该设备后产生的原信号中并不存在的额外信号的比值。计算公式为,
Figure GDA0003758465760000091
Ps和Pn分别表示信号和噪声的有效功率,其中噪声的功率Pn为在本实验中为噪声数据的方差。
一般情况下,我们希望除了需要的数据信号外,不再有其它额外的信号干扰。因此,信噪比越高越好。
本文选用了两种常见分布的噪声:高斯噪声和指数噪声,分别加在原始数据上。两种噪声如下:
(1)高斯噪声,即噪声干扰服从高斯分布,如图4所示,
Figure GDA0003758465760000092
(2)指数噪声,噪声数据服从指数分布,如图5所示,
f(x)=λe-λx
将CDAE-RF模型和卷积降噪自编码器模型处理的RF模型进行对比,验证该模型相比于单一的随机森林模型的抵抗噪声干扰的优势。
在实验中,取训练集比例为0.8,SNR分别取40,35,30,25,20,利用CDAE-RF和RF模型对光谱数据进行分类,比较CDAE-RF和RF模型分类的性能。
经过计算,可以得到KNN、SVC-linear、CDAE-RF三种模型在不进行光谱预处理时的分类正确率,如表4所示:
Figure GDA0003758465760000093
表4无预处理的分类精度
在不进行预处理的情况下,这三种模型中的CDAE-RF具有最高的正确率,达到了98.58%,属于精度较高的水平,其次是KNN,精确度也较高。而SVC-Linear相比而言非常低,只有54.23%。
对于剩下的71种处理方法,通过运算得到经过预处理后的三种模型的精确度,并且它们精度的最大值均接近100%。与表4的无预处理精度对比,可见光谱预处理对支持向量机模型的影响很大,对CDAE-RF模型影响较小。
此外,本文还计算了各种模型相对于无预处理的方差,具体数据如表5;在72种数据预处理方式下的模型性能评价结果见图7,其中图中横线表示不经过预处理时模型的准确度。
Figure GDA0003758465760000101
表5.三种模型的精确度方差
从以上的表4、5及图6中可以看出,CDAE-RF在不进行预处理时也能达到较好的分类准确度。且相比于其他模型,在不同数据预处理方式下分类性能也具有较好的稳定性。分别利用所述的5种方法以及CDAE-RF模型,在不经过数据预处理的情况下对数据进行分类,其中进行了多次重复实验,训练集比例分别取0.5,0.6,0.7,0.8,0.9。结果如图7分类准确度随训练集比例的变化关系图。
无论训练集比例如何,相比于其他模型,CDAE-RF对光谱的分类都具有非常高的准确性。由此可见,CDAE-RF模型对光谱分类具有良好的性能优势;
对于CDAE-RF模型和RF模型,当训练集比例为0.8,信噪比(SNR)分别取40,35,30,25,20时,得到模型分类性能测试结果如表6:
Figure GDA0003758465760000102
表6.CDAE-RF和RF的添加噪声后的分类指标数据从表6中可以得出,CDAE-RF对这两种噪声影响有较好的鲁棒性,而RF的鲁棒性表现较差。
为了更加直观,图8展示了两种模型在三种噪声的不同信噪比中的四种评价指标的折线图,其中未处理表示未添加噪声的数据;
通过对比可以发现,CDAE-RF在高信噪比时分类的准确性降低缓慢,而RF对噪声十分敏感;在较低信噪比时CDAE-RF出现快速下降的趋势,但仍然比RF表现更好。由此可见,相比单一的RF模型,CDAE-RF具有更好的抗噪性。
综上所述,基于本发明的技术创新所带来的优点在于:
(1)目前果树品种分类主要依靠果农经验,依据形态判断。品种鉴别误差大,且具有很大的不确定性。而对苹果果树进行分类,有利于资源的管理和勘探,也利于更好的种植。例如对于遥感卫星上来说,若能够识别出某一区域种植苹果品种的具体类别,就可以对区域进行分类,计算出中国不同品种苹果种植面积;
(2)使用地物波谱进行资源探测是一项相对较为成熟的技术,例如通过机载波谱仪对某一区域作物进行扫描,可以间接得到叶绿素含量,病虫害等信息。但是目前对于此类波谱进行分类分析的算法都已经有了很老了,没有吸收近几年来深度学习发展的成果。本发明将CDAE自编码器模型引入地物波谱分析,吸取深度学习特征提取能力强而机器学习模型速度快的优点,实现了互补,改进了地物波谱的分析算法;
(3)在光谱采集过程中环境光和电子噪声等因素可能会对测量结果造成影响,而随机森林对噪声相对敏感,直接使用随机森林分类器噪声对分类结果影响较大。同时地物波谱通常具有很高的维度,不利于快速分类,而经过CDAE特征提取,最后输入随机森林的维度相对降低,数据得到了浓缩,能够实现更快速的反应,有利于大规模数据的训练;
本发明将卷积降噪自编码器引入光谱分析中,结合随机森林提出了一种CDAE-RF模型用于苹果果树品种鉴别。研究结果表明,本发明省去数据预处理的步骤,具有优秀的特征提取能力;相对于传统的线性降维算法、机器学习的模型,该模型具有更优秀的性能;同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步。

Claims (1)

1.一种基于可见近红外光谱的果树品种鉴别方法,其特征在于:
使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别;
其中使用一种卷积降噪自编码器进行数据提取,数据在卷积降噪自编码器中按照以下步骤进行处理:
步骤(1)编码器网络接受一个形状为:batchsize,2151,1的三维张量作为输入,由两个深度可分离卷积模块组成;
步骤(2)每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小;
步骤(3)经过批处理标准化层进行批处理标准化,接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,让训练时25%的神经网络连接随机断开,即增强模型鲁棒性训练时25%的连接会被随机断开;两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64;
步骤(4)在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到:batchsize,239,1的中间隐层数据,完成降维操作,得到特征信息;
步骤(5)数据接入解码器,解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据;
步骤(6)使用卷积降噪自编码器CDAE分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到batchsize,239,1后,切割最后一维,最终得到到二维数据batchsize,239;
步骤(7)将二维数据batchsize,239连接一个随机森林,随机森林分类器负责对特征值进行缩放和各种变换实现对果树叶子数据的分类,从而鉴定不同品种果树。
CN202110854754.3A 2021-07-28 2021-07-28 一种基于可见近红外光谱的果树品种鉴别方法 Active CN113640244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854754.3A CN113640244B (zh) 2021-07-28 2021-07-28 一种基于可见近红外光谱的果树品种鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854754.3A CN113640244B (zh) 2021-07-28 2021-07-28 一种基于可见近红外光谱的果树品种鉴别方法

Publications (2)

Publication Number Publication Date
CN113640244A CN113640244A (zh) 2021-11-12
CN113640244B true CN113640244B (zh) 2022-09-23

Family

ID=78418729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854754.3A Active CN113640244B (zh) 2021-07-28 2021-07-28 一种基于可见近红外光谱的果树品种鉴别方法

Country Status (1)

Country Link
CN (1) CN113640244B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761517B (zh) * 2023-01-06 2023-04-07 联通(江苏)产业互联网有限公司 一种基于神经网络和物联网的农业场景识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956101A (zh) * 2019-11-19 2020-04-03 广东省城乡规划设计研究院 一种基于随机森林算法的遥感影像黄河冰凌检测方法
CN111633467A (zh) * 2020-05-15 2020-09-08 大连理工大学 一种基于一维深度卷积自动编码器的刀具磨损状态监测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1285244A4 (en) * 2000-03-13 2008-04-16 Food Processing Systems METHOD AND DEVICE FOR MEASURING AND CORRELATING PROPERTIES OF FRUIT WITH THE VISIBLE SPECTRUM AND IN THE NEAR INFRARED RANGE
CN108280440A (zh) * 2018-02-09 2018-07-13 三亚中科遥感研究所 一种果林识别方法和系统
CN108458978B (zh) * 2018-03-13 2021-03-19 山东农业大学 基于敏感波段和波段组合最优的树种多光谱遥感识别方法
CN109164459A (zh) * 2018-08-01 2019-01-08 南京林业大学 一种结合激光雷达和高光谱数据对森林树种分类的方法
CN110987865A (zh) * 2019-12-13 2020-04-10 齐鲁工业大学 一种基于近红外光谱检测无花果品质的方法
CN111507046B (zh) * 2020-04-16 2022-09-06 哈尔滨工程大学 一种电动闸阀剩余使用寿命预测方法及系统
CN111935099A (zh) * 2020-07-16 2020-11-13 兰州理工大学 一种基于深度降噪自编码网络的恶意域名检测方法
CN112668400A (zh) * 2020-12-08 2021-04-16 深圳先进技术研究院 一种植被识别方法及应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956101A (zh) * 2019-11-19 2020-04-03 广东省城乡规划设计研究院 一种基于随机森林算法的遥感影像黄河冰凌检测方法
CN111633467A (zh) * 2020-05-15 2020-09-08 大连理工大学 一种基于一维深度卷积自动编码器的刀具磨损状态监测方法

Also Published As

Publication number Publication date
CN113640244A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN110346312B (zh) 基于费氏线性判别和支持向量机技术的冬小麦穗赤霉病识别方法
CN107871132B (zh) 一种空间特征自适应寻优的高光谱图像分类方法
CN109030407B (zh) 一种混合模糊c均值聚类的苹果品种分类方法
CN105989597B (zh) 基于像素选择过程的高光谱图像异常目标检测方法
CN111896495A (zh) 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统
CN112434662B (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
CN103729652A (zh) 基于稀疏保持流形嵌入的高光谱遥感影像分类方法
CN111523587B (zh) 一种基于机器学习的木本植物物种光谱识别方法
CN111652092A (zh) 基于Sentinel-2A数据监测森林覆盖变化的方法
CN112766227A (zh) 一种高光谱遥感影像分类方法、装置、设备及存储介质
CN113640244B (zh) 一种基于可见近红外光谱的果树品种鉴别方法
CN111369500A (zh) 基于红外光谱检测技术的纺织品分类识别方法
CN114266961A (zh) 一种整合高光谱和多频段全极化sar影像的沼泽植被堆栈集成学习分类方法
Upadhyay et al. Hyperspectral remote sensing of forests: technological advancements, opportunities and challenges
CN101067659B (zh) 一种遥感图像分类方法
CN113807446A (zh) 一种电能质量扰动识别分类方法
CN109883990A (zh) 一种药用真菌近红外光谱分析方法
CN112801173B (zh) 一种qr模糊鉴别分析的生菜近红外光谱分类方法
Vafadar et al. Hyperspectral anomaly detection using Modified Principal component analysis reconstruction error
CN110108661B (zh) 一种模糊极大熵聚类的茶叶近红外光谱分类方法
CN112396066A (zh) 一种适用于高光谱影像的特征提取方法
Jombo et al. Exploring the potential of feature selection methods in the classification of urban trees using field spectroscopy data
CN113655020B (zh) 一种检测空壳核桃的方法
Dong et al. QUANTITATIVE RESEARCH ON SOIL ORGANIC MATTER BASED ON HYPERSPECTRAL REMOTE SENSING AND GENETIC ALGORITHM
Liu et al. Research and Application Of Sparse Representation Classification of Remote Sensing Imagery Based on Multi-Feature Modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant