CN113533236A - 水果光谱的特征提取方法、模型训练方法、检测方法 - Google Patents
水果光谱的特征提取方法、模型训练方法、检测方法 Download PDFInfo
- Publication number
- CN113533236A CN113533236A CN202111065948.1A CN202111065948A CN113533236A CN 113533236 A CN113533236 A CN 113533236A CN 202111065948 A CN202111065948 A CN 202111065948A CN 113533236 A CN113533236 A CN 113533236A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- sample
- wavelength
- fruit
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000012549 training Methods 0.000 title claims abstract description 58
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 48
- 238000000605 extraction Methods 0.000 title claims description 14
- 238000000513 principal component analysis Methods 0.000 claims abstract description 73
- 238000009659 non-destructive testing Methods 0.000 claims abstract description 24
- 241000234671 Ananas Species 0.000 claims description 91
- 235000007119 Ananas comosus Nutrition 0.000 claims description 91
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 57
- 238000010238 partial least squares regression Methods 0.000 claims description 41
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 39
- 201000010099 disease Diseases 0.000 claims description 36
- 230000003595 spectral effect Effects 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000002329 infrared spectrum Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000001066 destructive effect Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000004888 barrier function Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 39
- 230000009286 beneficial effect Effects 0.000 abstract description 11
- 230000006872 improvement Effects 0.000 abstract description 2
- 208000019622 heart disease Diseases 0.000 description 27
- 238000009499 grossing Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 8
- 238000002834 transmittance Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000013307 optical fiber Substances 0.000 description 5
- 238000004611 spectroscopical analysis Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000012300 Sequence Analysis Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004497 NIR spectroscopy Methods 0.000 description 2
- 238000000559 atomic spectroscopy Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 235000021578 orange juice drink Nutrition 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 244000021317 Annona cherimola Species 0.000 description 1
- ZOXJGFHDIHLPTG-UHFFFAOYSA-N Boron Chemical compound [B] ZOXJGFHDIHLPTG-UHFFFAOYSA-N 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000004993 emission spectroscopy Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001506 fluorescence spectroscopy Methods 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002536 laser-induced breakdown spectroscopy Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000015205 orange juice Nutrition 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- REQCZEXYDRLIBE-UHFFFAOYSA-N procainamide Chemical compound CCN(CC)CCNC(=O)C1=CC=C(N)C=C1 REQCZEXYDRLIBE-UHFFFAOYSA-N 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/141—Control of illumination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明属于无损检测技术领域,公开了一种水果无损检测光谱的特征提取方法,包括如下步骤:步骤1:采用连续投影算法对光谱的特征的重要性进行排序;步骤2:按照特征的排序顺序,采用主成分分析算法,逐渐增加特征值,获得不同数量的特征对样本的分类结果;步骤3:通过样本类别中心点之间的欧氏距离检验增加特征对分类能力的提升效果;如果N+1个特征的样本类别中心点之间的欧氏距离大于N个特征的样本类别中心点之间的欧氏距离;则表示增加的特征为有效特征;反之则增加的特征为无效特征。该方法能够在采用较少的样品的情况下对有效特征进行快速筛选,以利于后续的建模。同时本发明还公开了一种模型训练方法、检测方法。
Description
技术领域
本发明涉及无损检测技术领域,具体为水果光谱的特征提取方法、模型训练方法、检测方法。
背景技术
水心病是菠萝的生理性病害,目前,可见/近红外光谱、电子鼻和机器视觉技术在农产品品质无损智能检测中均发挥着重要作用。电子鼻和机器视觉技术在无损检测过程中更侧重于靠近农产品外表的特征,而可见/近红外光可穿透农产品,获取内部品质特征信息,更加适合于菠萝水心病的无损智能检测。较多前期研究表明,可见/近红外光谱在小型薄皮水果的内部糖度、酸度、硬度、病害、虫害等内部品质无损检测上是可行的,但菠萝属于大型水果,且表面不光滑,容易引起散射噪声,检测难度相对较大。采用可见/近红外光谱技术能否有效无损检测菠萝水心病,尚未见有关报道。
对比文件1:CN202010745439.2 公开了一种基于融合特征波长选择算法的苹果酸度近红外无损检测方法,其步骤包括:1采集苹果样本标记点区域的光谱信息,测量苹果样本标记点区域的酸度数据;2对采集到的光谱进行预处理;3分别利用连续投影算法SPA与竞争自适应重加权采样算法CARS进行特征波长选择,并将二者所选择的特征波长进行融合;4根据融合后的特征波长对应的光谱与酸度数据,在校正集上建立苹果酸度的偏最小二乘PLS预测模型,并在预测集上对模型结果进行评估。
上述对比文件1所存在的问题如下:
(1)CN202010745439.2 采用SPA和CARS两种算法提取特征并进行融合,这两种方法虽然可从不同角度对特征的差异性进行排序,但样本差异大小的存在是客观的,最终筛选的特征会存在较大的重叠风险,造成特征数据冗余,影响识别精度。
(2)CN202010745439.2 采用PLSR对特征选择的效果进行验证,存在一定弊端。偏最小二乘PLSR的建模过程需要进行参数设置,改变特征结构的同时PLSR建模参数也应该随之变化以达到最佳的建模效果,因此面对不同特征选择时比对起来不方便;
(3)CN202010745439.2 采用PLSR验证时未分训练集和测试集进行验证,其结果可能存在过拟合的风险,但若分测试集与验证集,重复运算量明显增大,不易操作,可能造成误判。
对比文件2:《荧光光谱结合PCA_ED与PLSR方法检测市售橙汁饮品》,光谱学与光谱分析,2014年8月,第34卷第8期,胡扬俊著,其通过主成分分析PCA结合欧氏距离ED对市售橙汁饮品基于偏最小二乘PLSR的建模过程进行分析。
但是该对比文件2在菠萝水心病的判断过程中,存在的问题在于:(1)文件2是采用PCA分析提取了第一与第二主成分作为特征值,进行ED为距离计算方法的聚类分析,将PCA图形化的分类结果数字化、量化。
(2)对比文件2缺乏SPA对特征进行排序和依次筛选的过程,将所有特征进行PCA分析,存在混入冗余特征影响识别精度的风险。
(3)对比文件2采用PLSR对橙汁进行分类,是因为从其PCA分类结果图可看出,不同样本在二维空间分布完全线性可分(可用一条直线将不同类别样本数据点完全划分开来)。但对于菠萝水心病无损检测而言,不同类别样本的分类存在非线性特性(不可用一条直线将不同类别样本数据点完全划分开来),因此,PLSR在菠萝水心病的检测中存在一定的限制。
本方案所要解决的技术问题是:如何快速筛分针对水果的无损检测的模型所需要的有效特征,如何快速建立水果无损检测模型 。
发明内容
本发明的目的在于提供水果无损检测光谱的特征提取方法;该方法能够在采用较少的样品的情况下对有效特征进行快速筛选,以利于后续的建模。
本发明所涉及的词汇包括:主成分分析(Principal Component Analysis,PCA)、多项式平滑(Savitzky Golay,SG)滤波、标准正态变量校正(Standard Normal Variate,SNV)、连续投影算法(Successive Projections Algorithm, SPA)、欧氏距离(EuclideanDistance,ED)、偏最小二乘回归(Partial Least Squares Regression,PLSR)、概率神经网络(Probabilistic Neural Network,PNN)。
本发明采用连续投影算法SPA是通过与其他算法如竞争自适应重加权采样算法CARS、遗传算法GA、粒子群算法PSO进行比对确定的,这几种方式均能对特征在不同样本间的差异性从大到小进行排序,由于算法不同,侧重的点有所偏差。通过采用SPA、CARS、GA、PSO对菠萝光谱数据特征进行排序,分别采用PCA-ED快速检验不同类别样本之间的距离变化,结果显示,SPA顺序比其他几种特征差异性排序方法能够更快地提高菠萝不同水心病程度检测样本距离,更加适用于菠萝水心病光谱识别的特征筛选。
本发明采用PCA与ED进行验证。PCA通过数据降维的方式,可在二维空间中直观、有效地反映数据原本分布状态进行分类效果判别,再巧妙地结合ED算法,将PCA分类结果进行量化,从而实现对特征提取效果的快速有效判断,具有操作简便,计算量小、结果客观可视等优点。
SPA、PCA、ED的组合是针对菠萝水心病分类得到的较优方法。
同时本发明还公开了一种模型训练方法、检测方法。
为实现上述目的,本发明提供如下技术方案:一种水果无损检测光谱的特征提取方法,包括依次进行的如下步骤:
步骤1:以N个样品的光谱中各波长点的向量为源数据,将源数据采用连续投影算法进行处理,得到所有向量的排序;
所述向量和波长点一一对应,所述向量为波长点上各样品的透射率的集合;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述N个样品为N个相同类型的水果;
步骤2:按照向量的排序,将排在M+1个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;所述坐标系的横坐标为第一主成分,所述坐标系的纵坐标为第二主成分;M为正整数;M<N-2;
步骤3:将通过破坏性分析得到的样品的分类结果,并将分类结果导入步骤2获得的分布点上获得多个第一样品类别,相同分类结果的分布点构成一个第一样品类别;
步骤4:获取各第一样品类别之间的第一欧氏距离;
步骤5:按照波长点的排序,将排在M+2个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;
步骤6:将样品的分类结果导入到步骤5获得的分布点上,得到第二样品类别;
步骤7:获取各第二样品类别之间的第二欧氏距离;
步骤8:判断第一欧氏距离是否小于第二欧氏距离,若是,则第M+2个向量为有效数据,若否,则第M+2个向量为无效数据。
在上述的水果无损检测光谱的特征提取方法中,所述步骤1具体包括如下依次进行的子步骤:
光谱矩阵为J列,J等于波长点的个数;光谱矩阵中每个向量构成一列;
子步骤11:第一次迭代,在光谱矩阵中任选第j个向量,赋值为xj,xj记为xk(0);1<j<J;xk(0)为初始迭代向量
子步骤12:将未选入的向量的集合记为s;
子步骤13:分别计算xj对于剩余向量的投影Pxj;
子步骤14:提取最大投影向量的波长k(n);
子步骤15:令xj=px,j∈s;令n=n+1;
步骤16:如果步骤15中计数增加后的n<N,则进行步骤13;
步骤17:将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(n),n= 0,… ,N-1};每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小SEP对应的k(n)为最终选择的波长组合,最后根据最优波数点集建立校正集模型;所述校正集模型即为所有向量的排序。
在上述的水果无损检测光谱的特征提取方法中,所述相同类型的水果是指相同品种的水果,或相同品种且相同大小的水果,或相同品种、相同大小、相同产地的水果,或相同品种、相同大小、相同产地、相同采摘批次的水果;
所述光谱为400-1100 nm的波段的光谱。
当然,在实际实验中我们发现,400-1100nm波段(含可见和近红外波段)、900-1700nm波段(近红外波段)、400-1700nm波段(含可见和近红外波段)都是有一定的效果的,400-1100nm波段效果最优。
在上述的水果无损检测光谱的特征提取方法中,所述分类结果为水果的不同甜度的分类,或者疾病不同程度的分类、或者不同酸度的分类,或者不同硬度的分类。
这里的疾病包括但不限于水心病、霉心病等。当然在一些情况下疾病相反会成为水果的独特卖点,比如苹果的水心病实际上就是糖心苹果,所以从另外一个侧面来说,本发明的方法也可以作为某些水果特色品种的检测的有效手段。
在上述的水果无损检测光谱的特征提取方法中,还包括步骤9:重复步骤2-8并逐渐增加向量的数量,得到所有有效数据,并形成一个含所有有效数据的特征集。
此外,本发明还公开了一种基于可见/近红外光谱的菠萝水心病无损检测的模型训练方法,包括如下步骤:
步骤10:获得N个样品的光谱;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述N个样品为N个相同类型的水果;
步骤20:通过如上所述的方法对步骤10所获得的光谱进行处理,得到特征集;
步骤30:采用偏最小二乘回归算法或概率神经网络算法,针对特征集,建立模型;
步骤40:采用多个样品进行训练。
在上述的模型训练方法中,所述光谱为400-1100 nm的波段的光谱。
在上述的模型训练方法中,所述步骤10中还包括对光谱进行噪声波动的滤除、对散射噪声进行校正。
与现有技术相比,本发明的有益效果是:
本发明采用连续投影算法SPA是通过与其他算法(竞争自适应重加权采样算法CARS、遗传算法GA、粒子群算法PSO)进行比对确定的,其排序顺序能够更快地提高菠萝不同水心病程度的分类效果。
本发明采用PCA与ED进行验证。PCA通过数据降维的方式,可在二维空间中直观、有效地反映数据原本分布状态进行分类效果判别,再巧妙地结合ED算法,将PCA分类结果进行量化,从而实现对特征提取效果的快速有效判断,具有操作简便,计算量小、结果客观可视等优点。
SPA+PCA+ED是针对菠萝水心病分类得到的较优方法。
附图说明
图1a为本发明的实施例1-3所用的设备的主视图;
图1b为本发明的实施例1-3所用的设备的立体图;
图2a为本发明的实施例1的原始光谱;
图2b为本发明的实施例1的 400-1100 nm原始光谱数据对水心程度PCA判别示意图;
图3a为本发明的实施例1中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;
图3b为本发明的实施例1中400-1100 nm SG + SNV处理光谱对水心程度PCA判别示意图;
图4为本发明的实施例1中SPA + PCA + ED对400-1100 nm光谱特征作用分析图谱;
图5为本发明的实施例1中400-1100 nm光谱结合PLSR对菠萝水心病检测结果;
图6a为本发明的实施例2的原始光谱;
图6b为本发明的实施例2的 900-1700 nm原始光谱数据对水心程度PCA判别示意图;
图7a为本发明的实施例2中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;
图7b为本发明的实施例2中900-1700 nm SG + SNV处理光谱对水心程度PCA判别示意图;
图8为本发明的实施例2中SPA + PCA + ED对900-1700 nm光谱特征作用分析图谱;
图9为本发明的实施例2中900-1700 nm光谱结合PLSR对菠萝水心病检测结果;
图10a为本发明的实施例3的原始光谱;
图10b为本发明的实施例3的 400-1700 nm原始光谱数据对水心程度PCA判别示意图;
图11a为本发明的实施例3中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;
图11b为本发明的实施例3中400-1700 nm SG + SNV处理光谱对水心程度PCA判别示意图;
图12为本发明的实施例3中SPA + PCA + ED对400-1700 nm光谱特征作用分析图谱;
图13为本发明的实施例3中400-1700 nm光谱结合PLSR对菠萝水心病检测结果;
图14为不同数量光源情况下的光谱图;
图15为不同光源间距情况下的光谱图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一部分实验概述
1 材料与方法
1.1 光谱检测平台搭建
本发明搭建的菠萝品质无损检测实验平台如图1a和1b所示。采样时将菠萝平躺放置在载物台的托盘1上(托盘可固定菠萝姿态,亦可使实验结果更好地为流水线动态检测提供参考)。为防止光线未经过菠萝直接被光纤接收造成噪声干扰,光源2发射的光需经过隔光板3的进光孔4,透射过样本后,经过出光孔方可被接收。测试过程在暗箱内进行,箱体窗口用窗帘遮光。为寻找较优的菠萝光谱采样参数,平台以下参数活动可调:光源0-900 w可调(由9盏100 w的卤素灯组成),隔光板上进光孔与出光孔的大小经过多次更换、测试确定,光源、菠萝样本和接收光纤5之间的距离可通过滑台调节。
本发明选用100w的光源是因为该瓦数的光源既具有较好的光强以透射菠萝,又具有较好的使用寿命(理论时长1000小时)。若再增加灯的瓦数寿命衰减较大,实际使用中无法满足稳定性,增加光源数量是个较优选择。为选择较优的光源数量与分布,采用三层灯(上层、中间层、下层)对同一个菠萝进行数据采集对比,可参考图14。当上、中、下均仅开靠中间的两盏灯时,透射率强于其他组合方式。上、中、下若再打开其他光源,会因为照射角度问题,使得有些光线未经过直接被光线接收,造成漏光的现象,此时透射率大于100%,造成数据错误。
光强固定为上、中、下均两盏,共600W。参考图15,当光源与入光孔距离从80 cm增加到84cm时,透射率是增强的,但再拉大距离,透射率逐渐降低。符合小孔成像原理。
其中,同一层的两盏灯与入光孔的连线构成的夹角的弧度为30°;上下两层灯的间距为15cm;任意一层的两盏灯的连线的中垂线过入光孔。
图14-15中,可见当上中下均为2盏灯、光源和入光孔的间距为84cm时,其效果是最好的,其透射率最高且无漏光现象,虽然相比其他情况,其透射率提高是有限的,但是其可以导致噪音信号偏小,进而导致信噪比得到的显著的优化,避免光谱中的关键特征丢失、无法识别等情况出现,是后期检测的可靠性的有力保障。
接收光纤另一端连接两台覆盖不同波段的光谱仪,分别是QE pro和NIR QUESR(均为美国Ocean Optics公司生产),可覆盖波段400-1100和900-1700 nm,若采用两台光谱仪联用的方式共可覆盖400-1700 nm的光谱信息。
1.2 菠萝样本
本实验采用的菠萝果实2021年4月采摘于广东省湛江市徐闻县某农场,品种为“巴厘”,共100个样本,采果后立即在农场附近搭建的实验房内进行采样与测试。
1.3 菠萝样本信息采集
经过反复调试,菠萝可见/近红外光谱的较优采集参数设置为:光谱仪QE pro与NIR QUEST的积分时间分别为 600与2000 ms;接收光纤距离菠萝托盘距离30 mm;菠萝托盘近光孔位置距离光源84mm;光源为600 w;菠萝托盘位于托盘的中心位置,光源、进光孔、菠萝、出光孔、接收光纤处于同一水平。
采集菠萝光谱信息后,立即进行水心病人工评判。通过对样品进行破坏性检测,得到样品的分类结果;
目前尚未见菠萝水心病评级方法,本发明提出:将菠萝纵切两半,再切成12小片平铺在桌面上,较全面地观察并记录菠萝水心病发生情况。共采集到无水心病、轻微水心病、严重水心病样本分别为56、21和23个。
1.4 数据处理与分析
采用主成分分析判别不同水心程度菠萝的分类效果;采用多项式平滑滤波减少大型水果光谱采样因光程较长、信噪比较低带来的噪声波动,滤波效果受多项式阶次与平滑点数的影响;采用标准正态变量校正降低菠萝表皮极其粗糙等带来的散射噪声;采用连续投影算法+ PCA + 欧氏距离进行光谱特征提取,其中SPA根据差异大小进行光谱特征的排序,特征数量从2到最大逐渐增加,分别进行PCA处理,采用ED计算不同类别中心点之间的距离,以距离的大小判断增加特征的必要性;采用偏最小二乘回归与概率神经网络分训练集与校正集进行进一步建模判别,无、轻度和重度水心病分别随机选择38、14和15个样本作为训练集,剩下19、7和8个样本作为验证集,不同水心程度期望输出均分别设定为1、2和3,其中PLSR的检测效果受降维后特征个数FN的选取影响较大,结果输出为小数,通常用预测值与实际值之间的拟合系数R2,以及均方根误差RMSE表示,PNN的检测效果受扩散速度Spread值影响较大,其结果输出为整数,可直接用正确率表达。为进一步统计PLSR的识别正确率,将PLSR结果输出进行四舍五入取整,小于等于1的结果输出为无水心,等于2为轻微水心,大于等于3为重度水心。
主成分分析算法可参考文献资料:Pořízka Pavel, Klus Jakub, Képeš Erik,et al. On the utilization of principal component analysis in laser-inducedbreakdown spectroscopy data analysis, a review[J]. Spectrochimica Acta PartB: Atomic Spectroscopy, 2018,148:65-82.
多项式平滑算法可参考文献资料:Jahani Sahar, Setarehdan Seyed K., BoasDavid A., et al. Motion artifact detection and correction in functional near-infrared spectroscopy: a new hybrid method based on spline interpolationmethod and Savitzky–Golay filtering[J]. Neurophotonics, 2018,5(1):15003.
标准正态变量校正算法可参考文献资料:Bi Yiming, Yuan Kailong, XiaoWeiqiang, et al. A local pre-processing method for near-infrared spectra,combined with spectral segmentation and standard normal variatetransformation[J]. Analytica chimica acta, 2016,909:30-40.
连续投影算法可参考文献资料: Krepper Gabriela, Romeo Florencia, deSousa Fernandes David Douglas, et al. Determination of fat content in chickenhamburgers using NIR spectroscopy and the Successive Projections Algorithmfor interval selection inPLS regression (iSPA-PLS)[J]. Spectrochimica ActaPart A: Molecular and Biomolecular Spectroscopy, 2018,189:300-306.
欧氏距离计算可参考文献资料: He Wei, Zhou Jian, Cheng Hao, et al.Validation of origins of tea samples using partial least squares analysis andEuclidean distance method with near-infrared spectroscopy data[J].Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2012,86:399-404.
偏最小二乘回归算法可参考文献资料:Zhu Zhihao, Li Jiaming, Guo Yangmin,et al. Accuracy improvement of boron by molecular emission with a geneticalgorithm and partial least squares regression model in laser-inducedbreakdown spectroscopy[J]. Journal of Analytical Atomic Spectrometry, 2018,33(2):205-209.
概率神经网络算法可参考文献资料:Huang Xiao-Dong, Wang Chun-Yan, FanXin-Min, et al. Oil source recognition technology using concentration-synchronous-matrix-fluorescence spectroscopy combined with 2D wavelet packetand probabilistic neural network[J]. Science of The Total Environment, 2018,616:632-638.
第二部分具体实验过程
实施例1
400-1100nm光谱对菠萝水心病检测
2.1.1 原始数据+PCA判别
菠萝样本在400-1100 nm的原始光谱如图2a所示,数据在1000 nm以后出现轻微的噪声波动。400-1100nm原始数据对菠萝水心程度的PCA判别结果如图2b所示。第一主成分(PC1)与第二主成分(PC2)的贡献率分别为62.64和35.67%,总贡献率为98.31%。不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
2.1.2 SG滤波+SNV校正+PCA判别
为提高光谱数据质量,经反复试验,采用3阶23点SG处理可较好地滤除光谱数据中存在的噪声波动,随后采用SNV对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图3a所示。基于处理后的光谱信号对菠萝水心程度进行PCA判别的结果如图3b所示。PC1和PC2的贡献率分别为91.66和2.96%,总贡献率为94.62%。对比图2b,PCA同样可以有效区分不同水心程度,且同类样本数据点的聚类性明显增强,但不同样本之间存在少量数据点重叠,实际分类中有误判的风险。
2.1.3 SPA+PCA+ED特征提取
为明确是否每一个特征对分类识别均有积极作用,采用SPA + PCA + ED对光谱特征作用的分析结果如图3b和图4所示,图3b是经过主成分分析算法计算得到的坐标图,图4是用于欧氏距离判断的坐标图。采用SPA将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行PCA分析,不同水心程度数据点之间的ED逐渐增加。可见,所有的特征在分类识别过程中均是有益的。
采用SPA+ PCA + ED对光谱特征作用的分析的过程如下:
步骤1:以N个样品的光谱中各波长点的向量为源数据,将源数据采用连续投影算法进行处理,得到所有向量的排序;
所述向量和波长点一一对应,所述向量为波长点上各样品的透射率的集合;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述N个样品为N个相同类型的水果;
可参考图3a,标号x为波长为720nm左右的波长点,在该轴上所有的透射率汇集成为720nm波长点的向量;
标号y为波长为815nm左右的波长点,在该轴上所有的透射率汇集成为815nm波长点的向量;
标号z为波长为980nm左右的波长点,在该轴上所有的透射率汇集成为980nm波长点的向量;
所述多个样品为多个相同类型的水果;
所述相同类型的水果是指相同品种的水果,或相同品种且相同大小的水果,或相同品种、相同大小、相同产地的水果,或相同品种、相同大小、相同产地、相同采摘批次的水果。
在本实施例中,如上所述,采用的是相同品种、相同大小、相同产地、相同采摘批次的“巴厘”菠萝。
步骤1在计算机中的计算过程如下:
样品的数量为N,光谱矩阵为J列,J等于波长点的个数;光谱矩阵中每个向量构成一列;
子步骤11:第一次迭代,在光谱矩阵中任选第j个向量,赋值为xj,xj记为xk(0);1<j<J;xk(0)为初始迭代向量
子步骤12:将未选入的向量的集合记为s;
子步骤13:分别计算xj对于剩余向量的投影Pxj;
子步骤14:提取最大投影向量的波长k(n);
子步骤15:令xj=px,j∈s;令n=n+1;
步骤16:如果步骤15中计数增加后的n<N,则进行步骤13;
步骤17:将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(n),n= 0,… ,N-1};每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小SEP对应的k(n)为最终选择的波长组合,最后根据最优波数点集建立校正集模型;所述校正集模型即为所有向量的排序。
步骤2:按照向量的排序,将排在M+1个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点如图3b;所述坐标系的横坐标为第一主成分,所述坐标系的纵坐标为第二主成分;M为正整数;M<N-2;
步骤3:将通过破坏性分析得到的样品的分类结果,并将分类结果导入步骤2获得的分布点上获得多个第一样品类别,相同分类结果的分布点构成一个第一样品类别;
步骤4:获取各第一样品类别之间的第一欧氏距离;
步骤5:按照波长点的排序,将排在M+2个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;
步骤6:将样品的分类结果导入到步骤5获得的分布点上,得到第二样品类别;
步骤7:获取各第二样品类别之间的第二欧氏距离;
步骤8:判断第一欧氏距离是否小于第二欧氏距离,若是,则第M+2个向量为有效数据,若否,则第M+2个向量为无效数据。
步骤9:重复步骤2-8并逐渐增加向量的数量,得到所有有效数据,在本实施例中如图4所示,并形成一个含所有有效数据的特征集。
2.1.4 PLSR、PNN检测建模
采用PLSR、PNN检测建模的方法为:
步骤10:获得N个样品的光谱;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述多个样品为多个相同类型的水果;
步骤20:通过如2.1.3所述的方法对步骤10所获得的光谱进行处理,得到特征集;
步骤30:采用偏最小二乘回归算法或概率神经网络算法,针对特征集,建立模型;
步骤40:采用多个样品进行训练。
在训练过程中,对于样品可分为训练集和验证集,训练集对模型进行训练,验证集用于对模型进行调整参数。
作为进一步优化,还可以将样品分为训练集、验证集和测试集,测试集用于对经过训练集和验证集训练和调参之后的模型进行泛化性能的评估,评估通过后,把测试集输入到模型中训练,得到交付生产的成品模型。
具体到本实施例来说,
采用PLSR分训练集与验证集对菠萝水心病的检测结果分别如图5所示。附图5中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势;
由于圆点和方点数量较多,在图5中无法看清各圆点和方点,但是直线1和直线2是通过计算机软件根据各点值绘制得到,R2和RMSE是准确和真实的。
经反复训练,PLSR的建模参数FN设定为11,模型对训练集的PLSR回判R2和RMSE分别为0.95与0.18,对于验证集的检测R2和RMSE分别为0.81和0.37。对结果输出进行四舍五入后,对训练集的回判正确率为98.51%(1个重度水心误判为轻度水心),对测试集的检测正确率为88.24%(1个轻度水心误判为无水心;3个重度水心误判为轻度水心)。
采用PNN分训练集与验证集对菠萝水心病进行建模检测,经反复训练,PNN模型参数Spread设定为1.2,所建模型对训练集的回判正确率为98.51%(1个重度水心误判为轻度水心),对验证集的检测正确率为91.18%(1个轻度水心误判为无水心;2个重度水心误判为轻度水心),具有较好的检测效果。
实施例2
900-1700nm光谱对菠萝水心病检测
3.1.1 原始数据+PCA判别
菠萝样本在900-1700 nm的原始光谱如图6a所示,数据在均存在明显的噪声波动,且随波长增加而增大。900-1700nm原始数据对菠萝水心程度的PCA判别结果如图6b所示。第一主成分(PC1)与第二主成分(PC2)的贡献率分别为87.79和9.26%,总贡献率为97.05%。不同水心程度菠萝样本无法被区分开来。
3.1.2 SG滤波+SNV校正+PCA判别
为提高光谱数据质量从而提升检测效果,经反复试验,采用3阶41点SG处理可较好地滤除光谱数据中存在的噪声波动,随后采用SNV对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图7a所示。基于处理后的光谱信号对菠萝水心程度进行PCA判别的结果如图7b所示。PC1和PC2的贡献率分别为91.75和3.07%,总贡献率为94.82%。PCA无法有效区分不同水心程度,但对比图6b,样本数据点的聚类性明显增强。
3.1.3 SPA+PCA+ED特征提取
采用SPA + PCA + ED对光谱特征作用的分析结果如图7b和图8所示。采用SPA将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行PCA分析,不同水心程度数据点之间的ED逐渐增加。可见,900-1700 nm所有的特征在分类识别过程中均是有益的。
其具体过程可参考“2.1.3 SPA+PCA+ED特征提取”。
3.1.4 PLSR、PNN检测
PLSR分训练集与验证集对菠萝水心病的检测结果分别如图9所示,图9中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势;
由于圆点和方点数量较多,在图9中无法看清各圆点和方点,但是直线1、直线2是通过计算机软件根据各点值绘制得到,R2和RMSE是准确和真实的。
经反复训练,PLSR的建模参数FN设定为11,模型对训练集的PLSR回判R2和RMSE分别为0.76与0.40,对于验证集的检测R2和RMSE分别为0.45和0.62。对结果输出进行四舍五入后,对训练集的回判正确率为80.60%(无水心中4个误判为轻度水心;轻度水心中3个误判为无水心,1个误判为重度水心;重度水心中5个误判为轻度水心),对测试集的检测正确率为58.82%(无水心中5个误判为轻度水心;轻度水心中3个误判为无水心;重度水心中6个误判为轻度水心),效果不佳。
采用PNN分训练集与验证集对菠萝水心病进行建模检测,经反复训练,PNN模型参数Spread设定为0.1,所建模型对训练集的回判正确率为100%,对验证集的检测正确率为62%(无水心中1个误判为轻度水心,4个误判为重度水心;轻度水心中4个误判为无水心,1和误判为无水心;重度水心中1个误判为轻度水心,2个误判为无水心),检测效果不佳。
实施例3
400-1700nm光谱对菠萝水心病检测
4.3.1 原始数据+PCA判别
菠萝样本在400-1700 nm的原始光谱如图10a所示,数据在1000 nm以后噪声波动逐渐增强。400-1700nm原始数据对菠萝水心程度的PCA判别结果如图10b所示。第一主成分(PC1)与第二主成分(PC2)的贡献率分别为60.77和32.59%,总贡献率为93.36%。与400-1100nm光谱分类结果图相似(图2b),不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
4.3.2 SG滤波+SNV校正+PCA判别
为保障整体光谱曲线的衔接性与降噪效果,采用3阶41点SG处理滤除光谱数据中存在的噪声波动,随后采用SNV对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图11a所示。处理后的光谱信号对菠萝水心程度进行PCA判别的结果如图11b所示。PC1和PC2的贡献率分别为72.55和20.07%,总贡献率为92.62%。PCA同样可以有效区分不同水心程度,对比图2b,重叠的数据点个数略有减少,但聚类性略有降低,部分样本实际分类中仍有误判的风险。
4.3.3 SPA+PCA+ED特征提取
采用SPA + PCA + ED对光谱特征作用的分析结果如图11b和图12所示。采用SPA将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行PCA分析,不同水心程度数据点之间的ED逐渐增加。可见,400-1700 nm所有的特征在分类识别过程中均是有益的。
其具体过程可参考“2.1.3 SPA+PCA+ED特征提取”。
4.3.4 PLSR、PNN检测
PLSR分训练集与验证集对菠萝水心病的检测结果分别如图13所示,图13中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势。
由于圆点和方点数量较多,在图13中无法看清各圆点和方点,但是直线1、直线2是通过计算机软件根据各点值绘制得到,R2和RMSE是准确和真实的。
经反复训练,PLSR的建模参数FN设定为14,模型对训练集的PLSR回判R2和RMSE分别为0.96与0.17,对于验证集的检测R2和RMSE分别为0.83和0.35。对结果输出进行四舍五入后,对训练集的回判正确率为100%,对测试集的检测正确率为88.24%(3个无水心误判为轻度水心;1重度水心误判为轻度水心)。
采用PNN分训练集与验证集对菠萝水心病进行建模检测,经反复训练,PNN模型参数Spread设定为0.2,所建模型对训练集的回判正确率为100%,对验证集的检测正确率为91.18%(1个轻度水心误判为无水心;2个重度水心误判为轻度水心),具有较好的检测效果。
第三部分实验结果和讨论
讨论
菠萝水心病的发生伴随着果肉质地、颜色以及成分等变化,对其他小型薄皮水果前期研究表明,这些特征均可被可见/近红外光谱捕获,因此,本发明采用可见/近红外光谱检测菠萝水心病发生程度是有依据支撑的。本申请进一步验证了可见/近红外光谱结合信号预处理以及模式识别,无损检测菠萝内部水心病发生程度是可行的。
菠萝属于大型水果,检测时光的谱透过性较差,造成信号波动,且表面极为粗糙,易形成散射噪声。因此,本发明采用SG与SNV处理可有效降低信号波动以及散射噪声来带的干扰,提升识别效果。特征提取主要在于剔除会降低识别精度的噪声,最大化地保留有益信息形成信息融合,本发明提出采用SPA + PCA + ED分析结果表明,所有特征均包含分类识别的有益信息,均应保留。
QE pro(400-1100 nm)比NIR QUEST(900-1700 nm)具有更好的检测效果,是因为400-1100 nm同时对质地、颜色以及成分变化敏感,而900-1700 nm仅对质地和成分变化敏感。此外,波长越长,光谱信号的穿透性能越差,通过样本后衰减越大,信噪比越低。PLSR结果表明,采用QE pro与NIR QUEST联用(400-1700)可略微提升QE pro的检测效果,是因为1100-1700 nm包含菠萝水心病识别的有益信息,可对400-1700 nm形成信息补充与融合,但该方式增加检测成本较大,性价比较低。实际应用建议单独采用400-1700 nm进行菠萝水心病检测。
PCA对菠萝水心病程度的分类结果可以看出,分类的边界不能完全线性可分,存在一定非线性特性,PNN比PLSR更加注重于识别过程的非线性特性,因此,在解决菠萝水心病发生程度的检测上具有更好的检测效果。
结论
本发明综合考虑实际应用成本与效果,通过自主搭建平台,探究了覆盖不同可见/近红外光谱波段的检测器对菠萝水心病的识别情况。结果证明,采用可见/近红外光谱结合适当的识别方法可达到较好的菠萝水心病无损检测效果,具体如下。
采用400-1100 nm光谱原数据结合PCA分析可将不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
经SG + SNV处理后,PCA同样可以有效区分不同水心程度,且同类样本数据点的聚类性明显增强,但不同样本之间存在少量数据点重叠,存在误判的风险。
SPA + PCA + ED分析结果显示,400-1100 nm所有的特征在分类识别过程中均是有益的,均应被保留。
PLSR所建模型对菠萝水心病训练集的回判正确率为98.51%,对测试集的检测正确率为88.24%。PNN所建模型对菠萝水心病训练集的回判正确率为98.51%,对验证集的检测正确率为91.18%。
采用900-1700 nm光谱原数据结合PCA分析无法将不同水心程度菠萝样本区分开来。经SG + SNV处理后,PCA分析对样本数据点的聚类性明显增强,但分类效果仍不佳。
SPA + PCA + ED分析结果显示,900-1700 nm所有的特征在分类识别过程中均是有益的,均应被保留。
PLSR所建模型对菠萝水心病训练集的回判正确率为80.60%,对测试集的检测正确率为58.82%。PNN所建模型对菠萝水心病训练集的回判正确率为100%,对验证集的检测正确率为62%。
采用900-1700 nm相对400-1100 nm检测的检测效果略有提高,但不显著。其光谱原数据结合PCA分析可将不同水心程度菠萝样本可以被区分开来,经SG + SNV处理后,可增强同类样本数据点的聚类性,且SPA + PCA + ED分析结果显示,400-1100 nm所有的特征在分类识别过程中均是有益的。PLSR所建模型对菠萝水心病训练集的回判正确率为100%,对测试集的检测正确率为88.24%。PLSR所建模型对菠萝水心病训练集的回判正确率为100%,对验证集的检测正确率为91.18%。
综合考虑成本与效果,实际应用建立采用400-1100 nm光谱结合SG + SNV + PNN对菠萝水心病进行识别。
Claims (10)
1.一种水果无损检测光谱的特征提取方法,其特征在于,包括依次进行的如下步骤:
步骤1:以N个样品的光谱中各波长点的向量为源数据,将源数据采用连续投影算法进行处理,得到所有向量的排序;
所述向量和波长点一一对应,所述向量为波长点上各样品的透射率的集合;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述N个样品为N个相同类型的水果;
步骤2:按照向量的排序,将排在M+1个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;所述坐标系的横坐标为第一主成分,所述坐标系的纵坐标为第二主成分;M为正整数;M<N-2;
步骤3:将通过破坏性分析得到的样品的分类结果,并将分类结果导入步骤2获得的分布点上获得多个第一样品类别,相同分类结果的分布点构成一个第一样品类别;
步骤4:获取各第一样品类别之间的第一欧氏距离;
步骤5:按照波长点的排序,将排在M+2个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;
步骤6:将样品的分类结果导入到步骤5获得的分布点上,得到第二样品类别;
步骤7:获取各第二样品类别之间的第二欧氏距离;
步骤8:判断第一欧氏距离是否小于第二欧氏距离,若是,则第M+2个向量为有效数据,若否,则第M+2个向量为无效数据。
2.根据权利要求1所述的水果无损检测光谱的特征提取方法,其特征在于,所述步骤1具体包括如下依次进行的子步骤:
光谱矩阵为J列,J等于波长点的个数;光谱矩阵中每个向量构成一列;
子步骤11:第一次迭代,在光谱矩阵中任选第j个向量,赋值为xj,xj记为xk(0);1<j<J;xk(0)为初始迭代向量
子步骤12:将未选入的向量的集合记为s;
子步骤13:分别计算xj对于剩余向量的投影Pxj;
子步骤14:提取最大投影向量的波长k(n);
子步骤15:令xj=px,j∈s;令n=n+1;
步骤16:如果步骤15中计数增加后的n<N,则进行步骤13;
步骤17:将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(n),n =0,… ,N-1};每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小SEP对应的k(n)为最终选择的波长组合,最后根据最优波数点集建立校正集模型;所述校正集模型即为所有向量的排序。
3.根据权利要求1所述的水果无损检测光谱的特征提取方法,其特征在于,所述相同类型的水果是指相同品种的水果,或相同品种且相同大小的水果,或相同品种、相同大小、相同产地的水果,或相同品种、相同大小、相同产地、相同采摘批次的水果;
所述光谱为400-1100 nm的波段的光谱。
4.根据权利要求1所述的水果无损检测光谱的特征提取方法,其特征在于,所述分类结果为水果的不同甜度的分类,或者疾病不同程度的分类、或者不同酸度的分类,或者不同硬度的分类。
5.根据权利要求1-4任一所述的水果无损检测光谱的特征提取方法,其特征在于,还包括步骤9:重复步骤2-8并逐渐增加向量的数量,得到所有有效数据,并形成一个含所有有效数据的特征集。
6.一种基于可见/近红外光谱的菠萝水心病无损检测的模型训练方法,其特征在于,包括如下步骤:
步骤10:获得N个样品的光谱;
所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;
所述N个样品为N个相同类型的水果;
步骤20:通过如权利要求5所述的方法对步骤10所获得的光谱进行处理,得到特征集;
步骤30:采用偏最小二乘回归算法或概率神经网络算法,针对特征集,建立模型;
步骤40:采用多个样品进行训练。
7.根据权利要求6所述的模型训练方法,其特征在于,所述光谱为400-1100 nm的波段的光谱。
8.根据权利要求6所述的模型训练方法,其特征在于,所述步骤10中还包括对光谱进行噪声波动的滤除、对散射噪声进行校正。
9.一种菠萝水心病的无损检测方法,其特征在于,基于如权利要求6-8任一所述的方法建立的模型进行检测,得到菠萝是否为水心病的检测结果,检测波长为400-1100 nm。
10.根据权利要求9所述的菠萝水心病的无损检测方法,其特征在于,所述方法采用光谱仪进行检测;
所述光谱仪包括光源、光线接收器、支撑平台,所述支撑平台在光源和光线接收器之间;
所述光源接收器和支撑平台之间设有一挡光板,所述挡光板正对光线接收器的位置设有透光孔,所述光源为6个,分为三列排布,最上层为2个光源,中间层为2个光源,最下层为2个光源;中间层的光源和光线接收器处于同一高度。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065948.1A CN113533236B (zh) | 2021-09-13 | 2021-09-13 | 水果光谱的特征提取方法、模型训练方法、检测方法 |
US17/869,879 US11682203B2 (en) | 2021-09-13 | 2022-07-21 | Feature extraction method, model training method, detection method of fruit spectrum |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111065948.1A CN113533236B (zh) | 2021-09-13 | 2021-09-13 | 水果光谱的特征提取方法、模型训练方法、检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113533236A true CN113533236A (zh) | 2021-10-22 |
CN113533236B CN113533236B (zh) | 2021-11-30 |
Family
ID=78093204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111065948.1A Active CN113533236B (zh) | 2021-09-13 | 2021-09-13 | 水果光谱的特征提取方法、模型训练方法、检测方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11682203B2 (zh) |
CN (1) | CN113533236B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114136887A (zh) * | 2021-12-07 | 2022-03-04 | 广东省农业科学院蔬菜研究所 | 一种基于近红外光谱技术快速检测冬瓜口感决定因子苹果酸的方法 |
CN114324195A (zh) * | 2022-03-17 | 2022-04-12 | 广东省农业科学院农业质量标准与监测技术研究所 | 一种多通道农产品无损检测方法 |
CN116894165A (zh) * | 2023-09-11 | 2023-10-17 | 阳谷新太平洋电缆有限公司 | 一种基于数据分析的电缆老化状态评估方法 |
CN117074353A (zh) * | 2023-08-18 | 2023-11-17 | 广东省农业科学院设施农业研究所 | 一种荔枝果实蒂蛀虫无损检测方法和系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168223B (zh) * | 2023-04-20 | 2023-07-25 | 华南农业大学 | 一种基于多模态的花生叶斑病病害等级检测方法 |
CN116907556B (zh) * | 2023-09-11 | 2024-04-16 | 武汉理工大学 | 分布式光纤传感多特征混合解调系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837492A (zh) * | 2014-02-24 | 2014-06-04 | 西北农林科技大学 | 一种基于近红外光谱技术的猕猴桃膨大果无损检测方法 |
CN109100323A (zh) * | 2018-08-20 | 2018-12-28 | 江苏大学 | 一种苹果水心病的透射光谱无损定量评价方法 |
CN110335249A (zh) * | 2019-05-31 | 2019-10-15 | 浙江大学山东工业技术研究院 | 基于高光谱成像技术的柑橘黄龙病检测方法 |
CN110596117A (zh) * | 2019-08-15 | 2019-12-20 | 山东科技大学 | 一种基于高光谱成像的苹果表面损伤快速无损检测方法 |
CN111795943A (zh) * | 2020-06-16 | 2020-10-20 | 中国农业科学院茶叶研究所 | 基于近红外光谱技术无损检测茶叶中外源掺杂蔗糖的方法 |
CN112903602A (zh) * | 2021-01-22 | 2021-06-04 | 北京工商大学 | 基于机器学习和高光谱成像的多种类柑橘病叶识别方法及系统 |
WO2021128785A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市药品检验研究院(深圳市医疗器械检测中心) | 一种评价化橘红质量的模式识别方法、计算机设备以及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111855608B (zh) | 2020-07-29 | 2023-04-07 | 中国科学院合肥物质科学研究院 | 基于融合特征波长选择算法的苹果酸度近红外无损检测方法 |
-
2021
- 2021-09-13 CN CN202111065948.1A patent/CN113533236B/zh active Active
-
2022
- 2022-07-21 US US17/869,879 patent/US11682203B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837492A (zh) * | 2014-02-24 | 2014-06-04 | 西北农林科技大学 | 一种基于近红外光谱技术的猕猴桃膨大果无损检测方法 |
CN109100323A (zh) * | 2018-08-20 | 2018-12-28 | 江苏大学 | 一种苹果水心病的透射光谱无损定量评价方法 |
CN110335249A (zh) * | 2019-05-31 | 2019-10-15 | 浙江大学山东工业技术研究院 | 基于高光谱成像技术的柑橘黄龙病检测方法 |
CN110596117A (zh) * | 2019-08-15 | 2019-12-20 | 山东科技大学 | 一种基于高光谱成像的苹果表面损伤快速无损检测方法 |
WO2021128785A1 (zh) * | 2019-12-23 | 2021-07-01 | 深圳市药品检验研究院(深圳市医疗器械检测中心) | 一种评价化橘红质量的模式识别方法、计算机设备以及计算机可读存储介质 |
CN111795943A (zh) * | 2020-06-16 | 2020-10-20 | 中国农业科学院茶叶研究所 | 基于近红外光谱技术无损检测茶叶中外源掺杂蔗糖的方法 |
CN112903602A (zh) * | 2021-01-22 | 2021-06-04 | 北京工商大学 | 基于机器学习和高光谱成像的多种类柑橘病叶识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
WENCHUAN GUO ET AL.: "Peach variety identification using near-infrared diffuse reflectance spectroscopy", 《COMPUTERS AND ELECTRONICS IN AGRICULTURE》 * |
商亮 等: "基于介电特性及 ANN 的油桃糖度无损检测方法", 《农业工程学报》 * |
王转卫 等: "基于近红外光谱技术的发育后期苹果内部品质检测", 《农业机械学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114136887A (zh) * | 2021-12-07 | 2022-03-04 | 广东省农业科学院蔬菜研究所 | 一种基于近红外光谱技术快速检测冬瓜口感决定因子苹果酸的方法 |
CN114136887B (zh) * | 2021-12-07 | 2023-10-20 | 广东省农业科学院蔬菜研究所 | 一种基于近红外光谱技术快速检测冬瓜口感决定因子苹果酸的方法 |
CN114324195A (zh) * | 2022-03-17 | 2022-04-12 | 广东省农业科学院农业质量标准与监测技术研究所 | 一种多通道农产品无损检测方法 |
CN117074353A (zh) * | 2023-08-18 | 2023-11-17 | 广东省农业科学院设施农业研究所 | 一种荔枝果实蒂蛀虫无损检测方法和系统 |
CN117074353B (zh) * | 2023-08-18 | 2024-05-03 | 广东省农业科学院设施农业研究所 | 一种荔枝果实蒂蛀虫无损检测方法和系统 |
CN116894165A (zh) * | 2023-09-11 | 2023-10-17 | 阳谷新太平洋电缆有限公司 | 一种基于数据分析的电缆老化状态评估方法 |
CN116894165B (zh) * | 2023-09-11 | 2023-12-08 | 阳谷新太平洋电缆有限公司 | 一种基于数据分析的电缆老化状态评估方法 |
Also Published As
Publication number | Publication date |
---|---|
US11682203B2 (en) | 2023-06-20 |
CN113533236B (zh) | 2021-11-30 |
US20230083101A1 (en) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113533236B (zh) | 水果光谱的特征提取方法、模型训练方法、检测方法 | |
WO2018010352A1 (zh) | 一种定性定量相结合的近红外定量模型构建方法 | |
Li et al. | Supervised classification of slightly bruised peaches with respect to the time after bruising by using hyperspectral imaging technology | |
CN104990892B (zh) | 种子的光谱图像无损鉴别模型建立方法及种子鉴别方法 | |
CN111443043B (zh) | 一种基于高光谱图像的核桃仁品质检测方法 | |
CN108872132A (zh) | 一种利用近红外光谱判别茶鲜叶品种的方法 | |
CN104965973B (zh) | 一种苹果霉心病多因子无损检测判别模型及其建立方法 | |
CN110632017A (zh) | 一种基于形态分析的转基因大豆快速鉴别优化模型 | |
Sharma et al. | Rapid ripening stage classification and dry matter prediction of durian pulp using a pushbroom near infrared hyperspectral imaging system | |
CN113751345B (zh) | 一种菠萝无损检测分级装置和方法 | |
CN112903602A (zh) | 基于机器学习和高光谱成像的多种类柑橘病叶识别方法及系统 | |
Delwiche et al. | Differentiation of hard red wheat by near-infrared analysis of bulk samples | |
Zhou et al. | Green plums surface defect detection based on deep learning methods | |
Meghar et al. | Hyperspectral imaging for the determination of relevant cooking quality traits of boiled cassava | |
CN113310937A (zh) | 高温灭菌牛奶、巴氏杀菌奶牛鲜奶及奶粉复原牛奶的快速鉴定方法 | |
CN100429502C (zh) | 一种快速无损检测苹果内部质量的方法 | |
Liang et al. | Non‐destructive discrimination of homochromatic foreign materials in cut tobacco based on VIS‐NIR hyperspectral imaging | |
CN116242791A (zh) | 融合光谱形态特征的苹果霉心病检测方法 | |
CN110334714A (zh) | 一种基于人工神经网络技术的机采眉茶车色样品等级预测方法 | |
Jiang et al. | The utility of Fourier transform near-infrared spectroscopy to identify geographical origins of Chinese pears | |
Liu et al. | Feasibility of nondestructive detection of apple crispness based on spectroscopy and machine vision | |
CN106568740A (zh) | 一种近红外光谱快速判定茶鲜叶品种的方法 | |
Lucio-Gutiérrez et al. | Expeditious identification and semi-quantification of Panax ginseng using near infrared spectral fingerprints and multivariate analysis | |
Ping et al. | Rapid and non-destructive identification of Panax ginseng origins using hyperspectral imaging, visible light imaging, and X-ray imaging combined with multi-source data fusion strategies | |
CN110320173A (zh) | 基于粒子群优化算法的机采鲜叶眉茶车色样品等级的快速判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |