CN113640244A - 一种基于可见近红外光谱的果树品种鉴别方法 - Google Patents
一种基于可见近红外光谱的果树品种鉴别方法 Download PDFInfo
- Publication number
- CN113640244A CN113640244A CN202110854754.3A CN202110854754A CN113640244A CN 113640244 A CN113640244 A CN 113640244A CN 202110854754 A CN202110854754 A CN 202110854754A CN 113640244 A CN113640244 A CN 113640244A
- Authority
- CN
- China
- Prior art keywords
- data
- encoder
- convolution
- fruit tree
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 37
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 52
- 230000009467 reduction Effects 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 229920002521 macromolecule Polymers 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 24
- 230000008901 benefit Effects 0.000 abstract description 8
- 235000011430 Malus pumila Nutrition 0.000 abstract description 5
- 235000015103 Malus silvestris Nutrition 0.000 abstract description 5
- 244000141359 Malus pumila Species 0.000 abstract description 4
- 230000036039 immunity Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 241000238631 Hexapoda Species 0.000 description 1
- 108010044467 Isoenzymes Proteins 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229930002875 chlorophyll Natural products 0.000 description 1
- 235000019804 chlorophyll Nutrition 0.000 description 1
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N2021/1793—Remote sensing
- G01N2021/1797—Remote sensing in landscape, e.g. crops
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Computing Systems (AREA)
- Analytical Chemistry (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
一种基于可见近红外光谱的果树品种鉴别方法。本发明涉及一种基于果树叶子可见近红外光谱进行果树品种鉴定的方法,主要由卷积降噪自编码器(CDAE)和随机森林(RF)两部分组成,卷积降噪自编码器主要用于对果树叶子可见‑近红外光谱数据进行特征提取;随机森林分类器负责对卷积降噪自编码器提取后的特征进行分类,从而鉴定不同品种果树。本发明利用卷积降噪自编码器对特征值提取,具有分类正确率高,抗噪性强,特征提取能力好,省去数据预处理的步骤,无需光谱预处理的优点,使用其对叶片光谱进行分析,同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步;为苹果果树品种鉴别提供了一种新的快速鉴别方法。
Description
技术领域
本发明涉及一种基于可见近红外光谱的果树品种鉴别方法,属于果树品种鉴别技术领域。
背景技术
果树种植是我国重要的产业经济,有很多不同种类的果树在中国被种植,不同的果树品种具有不同的经济价值,传统的果树种类鉴别常常依靠果农经验,主要依据植株的综合性状等进行鉴定。形态学鉴别方法直观且操作简单,但是亲缘关系和植物形态学分类在某些情况下是不一致的,而且依赖个人经验具有很大的不确定性,并不适合大范围果树品种测量。生化鉴定法在分子水平上对不同遗传特性的品种进行鉴别,其中同工酶的电泳技术作为分类和鉴别手段,在上世纪 10年代已经成功地应用于高等植物,但是这种鉴定方法易受环境因素影响。当前也有部分学者尝试利用遥感技术实现对果树品种的分类,遥感是一种泛指非接触下的探测技术,尤指用传感器对物体的电磁波谱进行探测的技术。不同的物体的地物波谱间具有特异性,在使用无人机载波谱仪系统,遥感卫星等方式对地面物体的地物波谱进行精确探测后,通过对果树叶片光谱树种识别有效波段的选取, 筛选出适用于果树树种识别的叶片光谱有效波段,然后将特征波段选取后的数据输入机器学习模型进行分类鉴别,从而达到识别物体,用于资源探测的目的。目前系统的针对此类地物波谱分类算法的研究较少,在数据处理方面,需要进行繁杂的探索性的数据预处理,且不同数据预处理有时可能会对模型性能产生不同影响,有些甚至是负面的;在机器学习模型方面,多使用支持向量机,纯粹的随机森林等很老的传统算法,没有吸取深度学习近几年发展的成果;在特征提取方面,单一的使用特征波段选取算法也不能揭示数据整体的特征。
发明内容
本发明的目的在于提供一种基于可见近红外光谱的果树品种鉴别方法,从而克服现有技术中的不足。
本发明的技术原理在于,设计一种基于可见近红外光谱果树品种鉴别算法:首先使用无人机载波谱仪或遥感卫星等仪器设备获取某一片地区的地物光谱数据,然后利用卷积降噪自编码器(CDAE)对光谱数据进行特征提取,之后将特征值导入随机森林(RF)分类器里实现对果树品种的分类,该算法改善了随机森林对噪声敏感的缺点,同时对经过CDAE特征提取而浓缩后的数据更利于建模。
本发明通过以下技术方案实现,使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别。
即利用卷积降噪自编码器,简称CDAE,对光谱数据进行特征提取;训练好CDAE模型后,再将中间隐藏层的特征值导入随机森林分类器,简称RF,实现对果树品种的分类;由于每种原子都有自己的特征谱线,因此可以根据光谱来鉴别物质和确定它的化学组成,这种方法叫做光谱分析,而其中可见近红外波段主要是泛频峰,这些峰可供研究如-OH、-NH、-CH等官能团用,更能反应生化大分子特性。
使用一种卷积降噪自编码器进行数据提取,数据在卷积降噪自编码器中按照以下步骤进行处理:
步骤(1)编码器网络接受一个形状为:batchsize,2151,1的三维张量作为输入,由两个深度可分离卷积模块组成;
步骤(2)每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小;
步骤(3)经过批处理标准化层进行批处理标准化,接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,让训练时25%的神经网络连接随机断开,增强模型鲁棒性训练时25%的连接会被随机断开;两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是 32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64;
步骤(4)在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到:batchsize,239,1的中间隐层数据,完成降维操作,得到特征信息;
步骤(5)数据接入解码器,解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由 239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据;
步骤(6)使用卷积降噪自编码器CDAE分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到batchsize,239,1后,切割最后一维,最终得到到二维数据batchsize,239;
步骤(7)将二维数据batchsize,239连接一个随机森林,随机森林分类器负责对特征值进行缩放和各种变换实现对果树叶子数据的分类,从而鉴定不同品种苹果果树。
本发明的有益效果在于,利用地物可见近红外波谱的方式进行无接触大面积高效率的资源勘探分析,实现果树品种鉴别;利用卷积降噪自编码器对特征值提取,具有分类正确率高,抗噪性强,特征提取能力好,无需光谱预处理的优点,使用其对叶片光谱进行分析,为果树品种鉴别提供了一种新的快速鉴别方法。省去数据预处理的步骤,具有优秀的特征提取能力;相对于传统的线性降维算法、机器学习的模型,该模型具有更优秀的性能;同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步。
附图说明
图1为本发明结构示意图;
图2为本发明的训练过程图;
图3为本发明的使用流程图;
图4为添加高斯噪声后的光谱图;
图5为添加指数噪声后的光谱图;
图6为三种模型在72种预处理方法下的分类精度图;
图7为六种模型不同训练集比例的分类精确度图;
图8在两种噪声的不同信噪比下的分类指标平均值。
具体实施方式
下面结合附图1至8对本发明的优选实施例作进一步说明,本发明使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别。
即利用卷积降噪自编码器,普通自编码器分为编码器网络和解码器网络两个部分。编码器将数据映射到中间的隐藏层,解码器将隐藏层的数据映射为输入数据。通过不断训练,自编码器可以起到特征提取的作用,其中间的隐藏层包含了关于输入数据的丰富信息。而卷积降噪自编码器则在普通自编码器的基础之上,使用卷积层代替全连接层用作数据提取,同时在训练时使用dropout技术随机断开神经网络连接,同时引入L1范数惩罚项,使模型鲁棒性增强。简称CDAE,对光谱数据进行特征提取;编码器将数据映射到中间的隐藏层,解码器将隐藏层的数据映射为输入数据。通过不断训练,自编码器可以起到特征提取的作用,其中间的隐藏层包含了关于输入数据的丰富信息。
传统的自编码器是使用密集连接的人工神经网络形式来学习和提取特征的,本实验引入对于序列使用的一维卷积神经网络作为自编码器特征提取层,其能更加高效的提取序列信息。
h=sf(W(1)x+b(1)) (1)
解码过程相当于:
y=sg(W(2)h+b(2)) (2)
其中sf,sg为激活函数,通常可以是relu函数,sigmoid函数,tanh函数,在本实施例中,使用tanh作为激活函数
自编码器网络的训练目的是为了实现一个近似恒等的映射,使得f(x)≈x,通常情况下可以选择交叉熵或者均方误差作为损失函数,在本实验中,自编码器网络均使用均方误差作为损失函数进行训练:
本实验采用的卷积降噪自编码器使用MSE均方误差函数,见公式(4)作为损失函数,使用 tanh函数,见公式(3)作为激活函数。
具体来说有以下几个特点:
1、采用一维卷积神经网络作为特征提取,能够更好的提取序列特征。卷积采用深度可分离卷积,相较于普通的一维卷积,其更能反映空间轴与轴之间的特征信息。引入批处理标准化层,可以很好的解决梯度消失或梯度爆炸问题,使训练能够更好的收敛。同时采用了堆栈式自编码器结构,使其提取特征的表达能力更强;
2、借鉴压缩自编码器(Contractive Auto-Encoder,CAE)的设计思想,引入了一个L1范数的惩罚项,这样的设计能够使抑制输入的数据在各个方向上的扰动,使其对输入数据一定程度下的扰动具有不变形性,从而使模型更具有鲁棒性。即原自编码器变为:
3、借鉴降噪自编码器(Denoising Autoencoder)的设计思想,在每一个深度可分离一维卷积模块中的末尾加入了Dropout层,使缺失值等异常数据对其影响降低。同时在训练时还适当的引入了一定的高斯噪声,使其在实际有噪环境中中能够更好的提取特征,实现了降噪功能,进一步加强了模型的鲁棒性。
再将特征值导入随机森林分类器,简称RF,实现对果树品种的分类。本实验使用的卷积降噪自编码器有如图1所示的结构,具体参数见表1。CDAE由编码器网络和解码器网络组成。编码器网络接受一个形状为(batchsize,2151,1)的三维张量作为输入,由两个深度可分离卷积(Depthwise separable convolution)模块组成。每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小。然后经过批处理标准化层进行批处理标准化(Batch Normalization),接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,训练时25%的连接可能会被断开。两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64。
表1.卷积降噪自编码器
在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到(batchsize,239,1)的中间隐层数据,完成降维操作,得到特征信息。随后数据接入解码器。解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据。为了使CDAE模型能够分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到(batchsize,239,1)后打平到二维数据(batchsize,239)并连接一个随机森林。
CDAE-RF模型采用特征提取能力优秀的自编码器结构进行特征提取,理论上不需要做过多的数据预处理也能到达较好的分类效果。为了探究CDAE-RF的特征提取能力,本实施例将不经过数据预处理和经过预处理方法处理下的模型进行对比:
本实施例选择了Savitzky-Golay卷积平滑(SG)、窗口移动平滑(MA)、一阶导数(D1)、二阶导数(D2)、标准化(SS)、均值中心化(CT)、最大最小值归一化(MMS)、标准正态变换(SNV)共8种预处理方法,并按照功能分成表2所示的三类,分别是基线校正、趋势校正及数据缩放。
表2.三类预处理方法
从以上8种方法中以排列组合的方式共产生71种组合处理方法,加上不进行数据数据预处理的数据,共72组方法。这72组数据预处理方法如表3所示。
表3.预处理方法
通过比较72种光谱预处理方式在k邻近分类算法(KNN)、线性支持向量机(SVC-Linear) 和CDAE-RF模型下的分类精度,比较CDAE-RF模型的特征提取能力。
为了比较CDAE-RF模型及其他经典机器学习模型的性能,本文选用了常见的3种数据降维方法和3种分类方法的组合与之进行比较,他们分别是:
(1)数据降维方法
主成分分析(PCA):将n维数据通过正交变换映射到k维上,变换后线性无关的k维数据被称为主成分;
独立成分分析(ICA):对于一组n维数据,对这个n维数据进行一种线性变换,得到输出向量w;
因子分析(FA):是一种简化、分析高维数据的统计方法,可以从变量中提取公共因子。对数据样本进行标准化处理,计算样本的相关矩阵R及其特征值和特征向量。最后统计方差贡献率,可以确定公共因子个数。
(2)分类方法
K最近邻算法(KNN):如果一个数据在特征空间中的K个最相似(即最邻近)的数据中的大部分属于同一个类别,则该样本也属于这个类别;
随机森林(RF):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定;
线性判别分析(LDA):首先将高维的数据映射到最佳鉴别矢量空间,抽取分类信息和压缩空间维度。然后可以通过一个已知类别的训练集来建立判别准则,并通过预测变量来为未知类别的数据进行分类;
在模型评价方面,为了多方位评价分类的准确性,本发明选用了准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score,四种分类评价指标进行比较,它们分别有不同的含义和作用:
(1)准确率(Accuracy):衡量的正确分类的比例,
(2)精确率(Precision):模型判为正的所有样本中真正的正样本的比例,
(3)召回率(Recall):在所有正样本中被模型判为正样本的比例,
(4)F1 score:精确率和召回率的调和均值,由于这两种指标各有优劣,有时我们需要在精确率与召回率之间进行权衡,这就需要用到F1指标来进行判别,
在本实施例中,选取主成分分析+随机森林(PCA-RF)、独立成分分析+随机森林(ICA-RF)、因子分析+随机森林(FA-RF)、主成分分析+K近邻算法(PCA-KNN)、主成分分析+线性判别分析(PCA-LDA)共5种组合模型与CDAE-RF模型对数据进行分析并比较相关性能差异。同时为了排除无关因素的干扰,本实验在0.5,0.6,0.7,0.8,0.9五种不同的训练集比例下进行了多组重复实验。
在实际光谱的测量时,经常会有大量的噪声干扰,随机森林算法对噪声非常敏感,而经过CDAE特征提取可以提高对噪声的鲁棒性,因此探究CDAE-RF模型的对噪声干扰的敏感性是必要的。
在引入噪声时,需要先确定信噪比(SNR),SNR是指电子系统中信号与噪声的比例,即来需要通过设备进行处理的电子信号,与经过该设备后产生的原信号中并不存在的额外信号的比值。计算公式为,
Ps和Pn分别表示信号和噪声的有效功率,其中噪声的功率Pn为在本实验中为噪声数据的方差。
一般情况下,我们希望除了需要的数据信号外,不再有其它额外的信号干扰。因此,信噪比越高越好。
本文选用了两种常见分布的噪声:高斯噪声和指数噪声,分别加在原始数据上。两种噪声如下:
(1)高斯噪声,即噪声干扰服从高斯分布,如图4所示,
(2)指数噪声,噪声数据服从指数分布,如图5所示,
f(x)=λe-λx
将CDAE-RF模型和卷积降噪自编码器模型处理的RF模型进行对比,验证该模型相比于单一的随机森林模型的抵抗噪声干扰的优势。
在实验中,取训练集比例为0.8,SNR分别取40,35,30,25,20,利用CDAE-RF和RF 模型对光谱数据进行分类,比较CDAE-RF和RF模型分类的性能。
经过计算,可以得到KNN、SVC-linear、CDAE-RF三种模型在不进行光谱预处理时的分类正确率,如表4所示:
表4无预处理的分类精度
在不进行预处理的情况下,这三种模型中的CDAE-RF具有最高的正确率,达到了98.58%,属于精度较高的水平,其次是KNN,精确度也较高。而SVC-Linear相比而言非常低,只有 54.23%。
对于剩下的71种处理方法,通过运算得到经过预处理后的三种模型的精确度,并且它们精度的最大值均接近100%。与表5的无预处理精度对比,可见光谱预处理对支持向量机模型的影响很大,对CDAE-RF模型影响较小。
此外,本文还计算了各种模型相对于无预处理的方差,具体数据如表5;在72种数据预处理方式下的模型性能评价结果见图7,其中图中横线表示不经过预处理时模型的准确度。
表5.三种模型的精确度方差
从以上的表4、5及图6中可以看出,CDAE-RF在不进行预处理时也能达到较好的分类准确度。且相比于其他模型,在不同数据预处理方式下分类性能也具有较好的稳定性。分别利用所述的5种方法以及CDAE-RF模型,在不经过数据预处理的情况下对数据进行分类,其中进行了多次重复实验,训练集比例分别取0.5,0.6,0.7,0.8,0.9。结果如图7分类准确度随训练集比例的变化关系图。
无论训练集比例如何,相比于其他模型,CDAE-RF对光谱的分类都具有非常高的准确性。由此可见,CDAE-RF模型对光谱分类具有良好的性能优势;
对于CDAE-RF模型和RF模型,当训练集比例为0.8,信噪比(SNR)分别取40,35,30,25,20 时,得到模型分类性能测试结果如表6:
表6.CDAE-RF和RF的添加噪声后的分类指标数据
从表6中可以得出,CDAE-RF对这两种噪声影响有较好的鲁棒性,而RF的鲁棒性表现较差。
为了更加直观,图8展示了两种模型在三种噪声的不同信噪比中的四种评价指标的折线图,其中未处理表示未添加噪声的数据;
通过对比可以发现,CDAE-RF在高信噪比时分类的准确性降低缓慢,而RF对噪声十分敏感;在较低信噪比时CDAE-RF出现快速下降的趋势,但仍然比RF表现更好。由此可见,相比单一的RF模型,CDAE-RF具有更好的抗噪性。
综上所述,基于本发明的技术创新所带来的优点在于:
(1)目前果树品种分类主要依靠果农经验,依据形态判断。品种鉴别误差大,且具有很大的不确定性。而对苹果果树进行分类,有利于资源的管理和勘探,也利于更好的种植。例如对于遥感卫星上来说,若能够识别出某一区域种植苹果品种的具体类别,就可以对区域进行分类,计算出中国不同品种苹果种植面积;
(2)使用地物波谱进行资源探测是一项相对较为成熟的技术,例如通过机载波谱仪对某一区域作物进行扫描,可以间接得到叶绿素含量,病虫害等信息。但是目前对于此类波谱进行分类分析的算法都已经有了很老了,没有吸收近几年来深度学习发展的成果。本发明将CDAE自编码器模型引入地物波谱分析,吸取深度学习特征提取能力强而机器学习模型速度快的优点,实现了互补,改进了地物波谱的分析算法;
(3)在光谱采集过程中环境光和电子噪声等因素可能会对测量结果造成影响,而随机森林对噪声相对敏感,直接使用随机森林分类器噪声对分类结果影响较大。同时地物波谱通常具有很高的维度,不利于快速分类,而经过CDAE特征提取,最后输入随机森林的维度相对降低,数据得到了浓缩,能够实现更快速的反应,有利于大规模数据的训练;
本发明次将卷积降噪自编码器引入光谱分析中,结合随机森林提出了一种CDAE-RF 模型用于苹果果树品种鉴别。研究结果表明,本发明省去数据预处理的步骤,具有优秀的特征提取能力;相对于传统的线性降维算法、机器学习的模型,该模型具有更优秀的性能;同时卷积降噪自编码器改善了随机森林算法的性能,相对于传统的易受噪声干扰的随机森林算法在鲁棒性方面具有较大的进步。
Claims (3)
1.一种基于可见近红外光谱的果树品种鉴别方法,其特征在于:
使用降噪自编码器代替传统的降维或特征波段选取进行光谱数据的特征提取,并结合随机森林对特征数据进行分类;最后对比在不同噪声下纯随机森林算法和结合堆栈压缩卷积降噪自编码器下随机森林算法的性能差异,进一步论述鲁棒性;利用可见近红外光谱对果树品种进行鉴别。
2.根据权利要求1所述的一种基于可见近红外光谱的果树品种鉴别方法,其特征在于:利用卷积降噪自编码器,在普通自编码器的基础之上,使用卷积层代替全连接层用作数据提取,同时在训练时使用dropout技术随机断开神经网络连接,同时引入L1范数惩罚项,使模型鲁棒性增强,简称CDAE,对光谱数据进行特征提取;训练好CDAE模型后,再将中间隐藏层的特征值导入随机森林分类器,简称RF,实现对果树品种的分类;由于每种原子都有自己的特征谱线,因此根据光谱来鉴别物质和确定其化学组成,而其中可见近红外波段主要是泛频峰,更能反应生化大分子特性。
3.根据权利要求1所述的一种基于可见近红外光谱的果树品种鉴别方法,其特征在于:使用一种卷积降噪自编码器进行数据提取,数据在卷积降噪自编码器中按照以下步骤进行处理:
步骤(1)编码器网络接受一个形状为:batchsize,2151,1的三维张量作为输入,由两个深度可分离卷积模块组成;
步骤(2)每个深度可分离卷积模块分为4层,数据先经过一维深度可分离卷积层进行数据蒸馏,其使用tanh函数作为激活函数,使用0.0001的L1范数进行正则化,同时填充到输入大小;
步骤(3)经过批处理标准化层进行批处理标准化,接着进入最大池化层进行三倍下采样操作,输出大小是模块输入前的三分之一,最后连接dropout层,让训练时25%的神经网络连接随机断开,即增强模型鲁棒性训练时25%的连接会被随机断开;两个模块输出空间的维度从上到下的过滤器个数和卷积窗口大小分别是32,5,64,5,数据长度呈现2151-717-239变化,深度加深到64;
步骤(4)在编码器完成编码之后,中间由一个一维卷积层降低数据深度,最后得到:batchsize,239,1的中间隐层数据,完成降维操作,得到特征信息;
步骤(5)数据接入解码器,解码器和编码器的结构基本对称,每个模块中只是最大池化层换为了上采样层,对数据进行两次三倍上采样,数据维度由239-717-2151变化,最后连接一个一维卷积层将深度降到1,获得与输入数据维度大小相同的输出数据;
步骤(6)使用卷积降噪自编码器CDAE分类,在自编码器模型训练完成后,冻结编码器权重,并于中间隐层,数据降到batchsize,239,1后,切割最后一维,最终得到到二维数据batchsize,239;
步骤(7)将二维数据batchsize,239连接一个随机森林,随机森林分类器负责对特征值进行缩放和各种变换实现对果树叶子数据的分类,从而鉴定不同品种果树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854754.3A CN113640244B (zh) | 2021-07-28 | 2021-07-28 | 一种基于可见近红外光谱的果树品种鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110854754.3A CN113640244B (zh) | 2021-07-28 | 2021-07-28 | 一种基于可见近红外光谱的果树品种鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113640244A true CN113640244A (zh) | 2021-11-12 |
CN113640244B CN113640244B (zh) | 2022-09-23 |
Family
ID=78418729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110854754.3A Active CN113640244B (zh) | 2021-07-28 | 2021-07-28 | 一种基于可见近红外光谱的果树品种鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113640244B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761517A (zh) * | 2023-01-06 | 2023-03-07 | 联通(江苏)产业互联网有限公司 | 一种基于神经网络和物联网的农业场景识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001069191A1 (en) * | 2000-03-13 | 2001-09-20 | Autoline, Inc. | Apparatus and method for measuring and correlating characteristics of fruit with visible/near infra-red spectrum |
CN108280440A (zh) * | 2018-02-09 | 2018-07-13 | 三亚中科遥感研究所 | 一种果林识别方法和系统 |
CN108458978A (zh) * | 2018-03-13 | 2018-08-28 | 山东农业大学 | 基于敏感波段和波段组合最优的树种多光谱遥感识别方法 |
CN109164459A (zh) * | 2018-08-01 | 2019-01-08 | 南京林业大学 | 一种结合激光雷达和高光谱数据对森林树种分类的方法 |
CN110956101A (zh) * | 2019-11-19 | 2020-04-03 | 广东省城乡规划设计研究院 | 一种基于随机森林算法的遥感影像黄河冰凌检测方法 |
CN110987865A (zh) * | 2019-12-13 | 2020-04-10 | 齐鲁工业大学 | 一种基于近红外光谱检测无花果品质的方法 |
CN111507046A (zh) * | 2020-04-16 | 2020-08-07 | 哈尔滨工程大学 | 一种电动闸阀剩余使用寿命预测方法及系统 |
CN111633467A (zh) * | 2020-05-15 | 2020-09-08 | 大连理工大学 | 一种基于一维深度卷积自动编码器的刀具磨损状态监测方法 |
CN111935099A (zh) * | 2020-07-16 | 2020-11-13 | 兰州理工大学 | 一种基于深度降噪自编码网络的恶意域名检测方法 |
CN112668400A (zh) * | 2020-12-08 | 2021-04-16 | 深圳先进技术研究院 | 一种植被识别方法及应用 |
-
2021
- 2021-07-28 CN CN202110854754.3A patent/CN113640244B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001069191A1 (en) * | 2000-03-13 | 2001-09-20 | Autoline, Inc. | Apparatus and method for measuring and correlating characteristics of fruit with visible/near infra-red spectrum |
CN108280440A (zh) * | 2018-02-09 | 2018-07-13 | 三亚中科遥感研究所 | 一种果林识别方法和系统 |
CN108458978A (zh) * | 2018-03-13 | 2018-08-28 | 山东农业大学 | 基于敏感波段和波段组合最优的树种多光谱遥感识别方法 |
CN109164459A (zh) * | 2018-08-01 | 2019-01-08 | 南京林业大学 | 一种结合激光雷达和高光谱数据对森林树种分类的方法 |
CN110956101A (zh) * | 2019-11-19 | 2020-04-03 | 广东省城乡规划设计研究院 | 一种基于随机森林算法的遥感影像黄河冰凌检测方法 |
CN110987865A (zh) * | 2019-12-13 | 2020-04-10 | 齐鲁工业大学 | 一种基于近红外光谱检测无花果品质的方法 |
CN111507046A (zh) * | 2020-04-16 | 2020-08-07 | 哈尔滨工程大学 | 一种电动闸阀剩余使用寿命预测方法及系统 |
CN111633467A (zh) * | 2020-05-15 | 2020-09-08 | 大连理工大学 | 一种基于一维深度卷积自动编码器的刀具磨损状态监测方法 |
CN111935099A (zh) * | 2020-07-16 | 2020-11-13 | 兰州理工大学 | 一种基于深度降噪自编码网络的恶意域名检测方法 |
CN112668400A (zh) * | 2020-12-08 | 2021-04-16 | 深圳先进技术研究院 | 一种植被识别方法及应用 |
Non-Patent Citations (2)
Title |
---|
XINGYUE ZHOU: "《A denoising representation framework for underwater acoustic signal recognition》", 《THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 * |
李丹: "《基于高分辨率遥感影像的城市典型乔木树种分类研究》", 《地理与地理信息科学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761517A (zh) * | 2023-01-06 | 2023-03-07 | 联通(江苏)产业互联网有限公司 | 一种基于神经网络和物联网的农业场景识别方法 |
CN115761517B (zh) * | 2023-01-06 | 2023-04-07 | 联通(江苏)产业互联网有限公司 | 一种基于神经网络和物联网的农业场景识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113640244B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Classification modeling method for near‐infrared spectroscopy of tobacco based on multimodal convolution neural networks | |
CN110346312B (zh) | 基于费氏线性判别和支持向量机技术的冬小麦穗赤霉病识别方法 | |
CN109030407B (zh) | 一种混合模糊c均值聚类的苹果品种分类方法 | |
CN107871132B (zh) | 一种空间特征自适应寻优的高光谱图像分类方法 | |
CN103729652A (zh) | 基于稀疏保持流形嵌入的高光谱遥感影像分类方法 | |
CN104834938A (zh) | 基于主成分和聚类分析的高光谱信息提取方法 | |
CN111896495A (zh) | 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统 | |
CN111523587B (zh) | 一种基于机器学习的木本植物物种光谱识别方法 | |
CN111652092A (zh) | 基于Sentinel-2A数据监测森林覆盖变化的方法 | |
CN111369500A (zh) | 基于红外光谱检测技术的纺织品分类识别方法 | |
CN108830249A (zh) | 一种基于asd高光谱数据的冬小麦白粉病遥感监测方法 | |
CN112766227A (zh) | 一种高光谱遥感影像分类方法、装置、设备及存储介质 | |
CN113640244B (zh) | 一种基于可见近红外光谱的果树品种鉴别方法 | |
Upadhyay et al. | Hyperspectral remote sensing of forests: technological advancements, opportunities and challenges | |
CN114266961A (zh) | 一种整合高光谱和多频段全极化sar影像的沼泽植被堆栈集成学习分类方法 | |
CN112733736A (zh) | 基于增强过采样的类别不平衡高光谱图像分类方法 | |
CN110378373B (zh) | 一种模糊非相关线性鉴别分析的茶叶品种分类方法 | |
CN108491894B (zh) | 一种可能模糊鉴别c-均值聚类的茶叶分类方法 | |
CN113807446A (zh) | 一种电能质量扰动识别分类方法 | |
CN109883990A (zh) | 一种药用真菌近红外光谱分析方法 | |
CN112801173B (zh) | 一种qr模糊鉴别分析的生菜近红外光谱分类方法 | |
Vafadar et al. | Hyperspectral anomaly detection using Modified Principal component analysis reconstruction error | |
CN115063610A (zh) | 基于Sentinel-1、2影像的大豆种植区识别方法及其面积测算方法 | |
CN111881738B (zh) | 一种核模糊正交鉴别分析的茶叶近红外光谱分类方法 | |
CN110108661B (zh) | 一种模糊极大熵聚类的茶叶近红外光谱分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |