CN110186870B - 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 - Google Patents
一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 Download PDFInfo
- Publication number
- CN110186870B CN110186870B CN201910555462.2A CN201910555462A CN110186870B CN 110186870 B CN110186870 B CN 110186870B CN 201910555462 A CN201910555462 A CN 201910555462A CN 110186870 B CN110186870 B CN 110186870B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- sample
- fresh
- model
- leaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 43
- 241001122767 Theaceae Species 0.000 title claims abstract 17
- 238000004519 manufacturing process Methods 0.000 claims abstract description 26
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 36
- 238000012937 correction Methods 0.000 claims description 31
- 238000012795 verification Methods 0.000 claims description 25
- 210000002569 neuron Anatomy 0.000 claims description 24
- 230000003595 spectral effect Effects 0.000 claims description 22
- 230000005284 excitation Effects 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000001681 protective effect Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 5
- 229910000530 Gallium indium arsenide Inorganic materials 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 244000269722 Thea sinensis Species 0.000 description 48
- 235000013616 tea Nutrition 0.000 description 47
- 238000010200 validation analysis Methods 0.000 description 8
- 238000012546 transfer Methods 0.000 description 5
- 241000257303 Hymenoptera Species 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003016 pheromone Substances 0.000 description 2
- 241000168036 Populus alba Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000009569 green tea Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,涉及农产品产地识别技术领域,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地。本发明实现了对恩施玉露茶鲜叶产地的快速、准确预测。
Description
技术领域
本发明涉及农产品产地识别技术领域,更具体的说涉及一种快速判别恩施玉露茶鲜叶产地的方法。
背景技术
恩施玉露是我国著名的蒸青绿茶,也是国家地理标志保护产品,要求加工的茶鲜叶必须采自其保护区范围内,其保护区主要为恩施市白杨坪乡、屯堡乡和太阳河乡。由于恩施玉露品牌巨大的市场影响力,周边茶区的茶农受到利益的驱使,经常采摘非保护区内的茶鲜叶冒充保护区的鲜叶,并以较高的价格卖给恩施玉露茶加工厂赚取额外的利益,而茶叶收购人员在收购鲜叶时,往往是以自身的感觉和工作经验来判别鲜叶的产地,但这种方法主观性较强,也易受外界环境的影响,往往出现判断错误,这样给后续的茶叶加工带来了不利后果,也对恩施玉露的品牌声誉造成较大影响,因缺乏有效的能准确判别产地的手段,长此以往,会使恩施玉露品牌失去市场竞争力,成为大众茶的代名词。因此,为有效维护恩施玉露的品牌声誉,急需建立一种准确、客观的判别茶鲜叶产地的方法。
而近红外光谱技术具有快速、无损、客观判别样品产地的优势。中国专利(公布号CN 106568741A)公开了一种近红外光谱快速判定茶鲜叶产地的方法,该方法初步实现了不同产地鲜叶的快速判别,但该方法通过对鲜叶样品近红外光谱进行主成分分析,再以主成分为输入值建立多种信息传递方式的鲜叶产地人工神经网络预测模型判定鲜叶产地,因建模时未筛选鲜叶特征光谱区间和剔除噪声信息,容易带来过拟合现象,不利于模型的稳健,而且,样品光谱间存在大量的干扰信息和组频与倍频信息,不可避免会降低模型预测效果,且建模时间较长。
发明内容
针对上述现有技术存在的问题,本发明的目的是提供一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,实现快速、无损、准确判别是否来自恩施玉露茶产地,实现简化模型结构、提高建模速率、提高鲜叶样品产地预测准确度和增强模型实用性的目的。
为实现上述目的,本发明采用如下技术方案:
一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地,具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个;根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验;对不同产地的茶鲜叶样品分别赋予不同的化学值;
步骤二、光谱扫描
应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;
步骤三、光谱噪声信息预处理
应用化学计量学软件对步骤二中得到的近红外光谱采用矢量归一化方法进行去噪声预处理;光谱去噪声后,再将样品光谱转化为成对的数据点;
步骤四、筛选最佳光谱子区间
1)光谱子区间划分
本发明将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个;
2)蚁群算法模型建立
应用蚁群算法建立光谱子区间信息的预测模型,根据常用交互验证均方根方差RMSECV和相关系数Rc来筛选建模的最佳光谱子区间,其中,Rc越大、RMSECV 越小,表示模型预测效果越好;
步骤五、极限学习机光谱模型建立
在上述步骤四的基础上,以最佳光谱子区间数据为输入值、以鲜叶样品不同产地为输出值,应用Matlab 2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid 函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个,比较模型相关系数Rc和交互验证均方根方差RMSECV大小,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV 越小,表示模型预测效果越好;
步骤六、模型稳健性检验
应用验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数Rp、验证均方差RMSEP和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地;
式中,n表示样本数,yi 和y i ’ 分别为样品集中第i个样品的实测值和预测值,式中i≤n。
所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤一中鲜叶样品采集保护区内样品为60个,非保护区内样品60个;鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。
所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤二中傅里叶变换型近红外光谱仪为美国赛默飞ˑ世尔Antaris Ⅱ型傅里叶变换近红外光谱仪,选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs;每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱;在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤一中鲜叶样品数量为120份,其中校正集样品90个、验证集样品30个。
所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于步骤四中筛选的最佳光谱子区间波段为7308.9-7605.9 cm-1。
与现有技术相比,本发明具有如下有益效果:(1)本发明先剔除样品噪声信息后,将样品光谱转化为成对的数据点于excel中保存,然后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;在此基础上,应用极限学习机方法建立恩施玉露茶鲜叶产地的近红外光谱模型即极限学习机光谱模型,实现对茶鲜叶产地的快速、准确、客观预测,起到简化模型结构、提高建模速率、提高鲜叶样品产地预测准确度和增强模型实用性的目的。应用蚁群算法筛选建模的最佳光谱子区间:7308.9-7605.9cm-1,仅占全部光谱数据点的5.0%,不仅简化了模型结构,而且大大提高了建模速率和预测效果,建立的最佳鲜叶产地极限学习机光谱模型RMSECV为0.1103,Rc为0.9851,建模时间仅为5秒。(2)本发明应用蚁群算法,精准筛选反映鲜叶样品产地的光谱信息数据点;以此为输入数据,通过不断反复优化极限学习机的神经元个数与激励函数,最终达到了精准判别鲜叶样品产地的目的;(3)本发明将蚁群算法和极限学习机算法相结合,完美实现了对芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等采摘标准鲜叶样品产地的精准预测,预测准确率为100%,|偏差|<0.18。
附图说明
图1为茶鲜叶样品的近红外光谱;
图2为极限学习机内部结构。
具体实施方式
以下结合附图和具体实施方式对本发明作进一步的详细描述。
一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点于excel表中保存;然后将光谱数据均分为20个光谱子区间,应用蚁群算法精准筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,通过不断反复优化极限学习机的神经元个数与激励函数,建立鲜叶样品产地的极限学习机光谱模型,用于判断茶鲜叶样品是否来自恩施玉露茶的保护区。具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个。根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验。对不同产地的茶鲜叶样品分别赋予不同的化学值,保护区内鲜叶样品产地化学值分别设定为1.00,非保护区内鲜叶产地化学值设定为2.00。
其中保护区内样品60个,非保护区内样品60个。鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶(保护区和非保护区内样品均包括芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等不同成熟度茶鲜叶样品)。其中,一芽一叶由单芽、第一叶和较长梗构成,一芽二叶由单芽、第一叶、第二叶和长梗构成,一芽三叶由单芽、第一叶、第二叶、第三叶和更长梗构成。
步骤二、光谱扫描
采用美国赛默飞ˑ世尔Antaris Ⅱ型傅里叶变换近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs。每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
步骤三、光谱噪声信息预处理
在光谱采集过程中,通常会产生高频噪声和基线漂移等影响模型预测效果的噪声信息,如果不对光谱噪声进行预处理、直接用于建立预测模型则会造成模型的预测效果较差,而且模型还不稳健,因此在建模前需要对光谱信息进行去噪预处理。本步骤中应用化学计量学软件TQ Analyst 9.4.45软件和OPUS 7.0软件对全部不同产地鲜叶样品的近红外光谱分别进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,提高光谱的信噪比,从而有利于建立稳健的预测模型;经过比较,得出最佳光谱预处理方法为矢量归一化,其可以扣除样品光谱中的线性平移的影响,并对每条光谱进行单独校正,具有较强的信息处理能力。光谱去噪声后,再将样品光谱转化为成对的数据点(X-Y一一对应),存储于excel表中,用于后续建立预测模型。
步骤四、筛选最佳光谱子区间
1)光谱子区间划分
近红外光谱包含了样品所有的信息,如产地、采摘时间、品种和内含成分信息等,因此,为了提高模型的预测效果,需要筛选反映鲜叶样品产地的光谱信息,去除与建模无用的光谱信息。这不仅可以提高模型预测准确度,还可以大大简化模型的结构,降低模型的运算量,减少建模的运算时间,降低建模成本。本发明将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个。
2)蚁群算法模型建立
蚁群算法是用蚂蚁的行走路径表示待优化问题的可行解,整个蚂蚁群体的所有路径构成待优化问题的解空间。路径较短的蚂蚁释放的信息素量较多,随着时间的推进,较短的路径上累积的信息素浓度逐渐增高,最终,整个蚂蚁会在正反馈的作用下集中到最佳的路径上,此时对应的便是待优化问题的最优解。对本发明来说,也就是寻找建模的最佳光谱子区间信息。它具有很强的稳定性,建立的模型拟合效果好,具有较强的实际应用性。所得结果常用交互验证均方根方差(RMSECV)和相关系数(Rc)表示。其中,Rc越大、RMSECV 越小,表示模型预测效果越好。
因此,为了更好地预测鲜叶样品的产地,本发明应用蚁群算法建立光谱子区间信息的预测模型,达到精准筛选反映鲜叶样品产地光谱信息的目的。
同时,该蚁群算法也反过来验证步骤三中选择的为哪种最佳光谱预处理方法。
本发明分别建立每个光谱子区间数据的蚁群算法模型,所得结果见表1:
从表1可以看出,在将全光谱数据均等划分为20个子区间时,应用蚁群算法分别建立每个子区间的近红外模型,当RMSECV最小,而相关系数最大时,此时建模的光谱区间即为最佳的建模子区间。当7308.9-7605.9 cm-1时,模型相关系数0.9012,RMSECV为0.35,此时建立的蚁群算法模型结果最佳,最佳建模光谱子区间为:7308.9-7605.9 cm-1。
步骤五、极限学习机光谱模型建立
极限学习机(Extreme learning machine,ELM) 是一种单隐层前馈神经网络学习算法,其优势是:不会陷入局部最优、无需迭代、可快速求解、无需设置复杂的参数,通过交叉验证反复优化激励函数和隐含层节点数,进而得到最佳预测模型。
在上述步骤四的基础上,虽然初步得到了反映鲜叶样品产地的光谱子区间信息,但由于光谱信息间组频和倍频信息的存在,各个数据点间很可能还存在着非线性关系,因此,为了更加精准的预测鲜叶样品的产地,本发明应用极限学习机算法进一步精准预测样品的产地,极限学习机内部结构见图2。
本步骤以筛选得到的最佳光谱子区间数据(7308.9-7605.9cm-1)为输入值、以鲜叶样品不同产地为输出值,应用Matlab 2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid 函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个。为了达到最佳的预测效果,需要大量实验数据反复对得到的8种极限学习机模型进行验证,进一步得到最佳的神经元个数和激励函数的组合,才能够达到最佳的预测效果,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root mean square error of calibration, RMSECV)大小,Rc和RMSECV的计算公式同步骤四,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV 越小,表示模型预测效果越好。经比较后得到最佳校正集模型,同时记录建模所需时间。8种极限学习机模型结果见表2,从表2可以看出,建立的最佳鲜叶产地极限学习机模型RMSECV为0.1103,Rc为0.9851,建模时间仅为5秒,此时,建模所用的神经元个数为15个,激励函数为sigmoid函数。
步骤六、模型稳健性检验
为避免出现过拟合现象,建立一个稳健的鲜叶样品产地预测模型,达到实际应用的目的,因此,应用全部验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction,Rp)、验证均方差(root mean square error of prediction, RMSEP)和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地。
式中,n表示样本数,yi 和y i ’ 分别为样品集中第i个样品的实测值和预测值,式中i≤n。
本发明中鲜叶样品数量为120份,鲜叶样品按照3:1的比例划分为校正集和验证集,其中校正集样品90个、验证集样品30个。此时应用验证集30份样品对校正集模型进行检验,所得结果用相关系数Rp和验证集均方差RMSEP表示,具体结果参见表2。
从表2可以看出,不同产地鲜叶样品极限学习机模型中,当神经元为5个、激励函数为sigmoid时,建模时间为9秒,校正集模型Rc为0.9252、RMSECV为0.2977,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9213、RMSEP为0.3041。当神经元为10个、传递函数为logistic时,建模时间为14秒,校正集模型Rc为0.9062、RMSECV为0.4053,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9034、RMSEP为0.4516。当神经元为15个、传递函数为sigmoid时,建模时间为5秒,校正集模型Rc为0.9851、RMSECV为0.1103,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9741、RMSEP为0.1287。当神经元为20个、传递函数为logistic时,建模时间为7秒,校正集模型Rc为0.9543、RMSECV为0.2113,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9425、RMSEP为0.2388。当神经元为5个、激励函数为logistic时,建模时间为8秒,校正集模型Rc为0.9502、RMSECV为0.2145,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9456、RMSEP为0.2625。当神经元为10个、激励函数为sigmoid时,建模时间为8秒,校正集模型Rc为0.9521、RMSECV为0.2132,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9271、RMSEP为0.3225。当神经元为15个、激励函数为logistic时,建模时间为11秒,校正集模型Rc为0.9470、RMSECV为0.2246,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9385、RMSEP为0.2725。当神经元为20个、激励函数为sigmoid时,建模时间为10秒,校正集模型Rc为0.9283、RMSECV为0.2964,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9134、RMSEP为0.4358。
可见,在应用极限学习机方法但内部不同神经元个数和不同激励函数的情况下建立的预测模型中,以具有15个神经元和激励函数为sigmoid时建立的鲜叶样品不同产地极限学习机模型预测结果最佳,模型预测效果最好,建模所需时间最短;其次为具有20个神经元和传递函数为logistic时建立的鲜叶样品不同产地极限学习机预测模型,建模时间为7秒;最差的为具有10个神经元和传递函数为logistic时建立的鲜叶样品不同产地极限学习机预测模型,建模时间为14秒。由此可知,同样的极限学习机建模方法,但内部神经元个数与激励函数的不同,会对建立模型的预测结果产生较大的影响,因此,在应用极限学习机方法建立模型时,要合理选择神经元个数和激励函数,才会达到最佳的预测效果。
应用15个神经元和激励函数为sigmoid时建立的最佳极限学习机模型对30个验证集鲜叶样品的产地进行预测,预测结果见下面的表3。从表3可以看出,鲜叶样品产地的真值和预测值的差值的绝对值(|偏差|)全部<0.18,表明模型对所有样品预测正确,判别率为100%。可见,当应用15个神经元和激励函数为sigmoid时建立的不同产地鲜叶样品极限学习机模型实现了对鲜叶样品产地的快速、准确预测。
综上所述,本发明提供一种应用近红外光谱技术结合蚁群算法和极限学习机算法用于准确的预测鲜叶样品的产地,先剔除鲜叶样品噪声信息,得到最佳光谱预处理方法为矢量归一化;然后将光谱均分为20个子区间,应用蚁群算法筛选建模的最佳光谱子区间:7308.9-7605.9cm-1,占全部光谱数据点的5.0%;再以优选的光谱数据信息为输入值建立鲜叶产地的极限学习机预测模型,通过反复不断优选神经元个数和激励函数,最终以应用15个神经元和激励函数为sigmoid时建立的极限学习机模型预测效果最佳(建模时间为5秒,Rp=0.9741,RMSEP=0.1287),对验证集鲜叶样品的产地判定预测结果全部正确,为100%。因此,本发明将蚁群算法和极限学习机算法(15个神经元和sigmoid激励函数)相结合,完美实现了对芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等采摘标准鲜叶样品产地的精准预测(|偏差|全部<0.18,预测准确率为100%),建立的预测模型不仅达到大大降低模型运算量(建模数据点占全部光谱数据点的5.0%)、简化模型和缩短建模时间的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。
在对未知产地的茶鲜叶进行判别时,先扫描其茶鲜叶的近红外光谱,经矢量归一化方法预处理后,调入上述已建立的模型对未知光谱产地值进行快速预测,当输出值在1±0.15范围内时判定该茶鲜叶来源于恩施玉露保护区,当输出值在2±0.15范围内时判定该茶鲜叶来源于非恩施玉露保护区。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,上述结构都应当视为属于本发明的保护范围。
Claims (5)
1.一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地,具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个;根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验;对不同产地的茶鲜叶样品分别赋予不同的化学值;
步骤二、光谱扫描
应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;
步骤三、光谱噪声信息预处理
应用化学计量学软件对步骤二中得到的近红外光谱采用矢量归一化方法进行去噪声预处理;光谱去噪声后,再将样品光谱转化为成对的数据点;
步骤四、筛选最佳光谱子区间
1)光谱子区间划分
将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个;
2)蚁群算法模型建立
应用蚁群算法建立光谱子区间信息的预测模型,根据常用交互验证均方根方差RMSECV和相关系数Rc来筛选建模的最佳光谱子区间,其中,Rc越大、RMSECV 越小,表示模型预测效果越好;
步骤五、极限学习机光谱模型建立
在上述步骤四的基础上,以最佳光谱子区间数据为输入值、以鲜叶样品不同产地为输出值,应用Matlab 2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid 函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个,比较模型相关系数Rc和交互验证均方根方差RMSECV大小,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV 越小,表示模型预测效果越好;
步骤六、模型稳健性检验
应用验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数Rp、验证均方差RMSEP和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地;
式中,n表示样本数,yi 和y i ’ 分别为样品集中第i个样品的实测值和预测值,式中i≤n;
筛选的最佳光谱子区间波段为7308.9-7605.9 cm-1。
2.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤一中鲜叶样品采集保护区内样品为60个,非保护区内样品60个;鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。
3.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤二中傅里叶变换型近红外光谱仪为美国赛默飞ˑ世尔Antaris Ⅱ型傅里叶变换近红外光谱仪,选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs;每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱;在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
4.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤一中鲜叶样品数量为120份,其中校正集样品90个、验证集样品30个。
5.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤五预测模型中神经元个数采用15个,激励函数为sigmoid函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555462.2A CN110186870B (zh) | 2019-06-25 | 2019-06-25 | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910555462.2A CN110186870B (zh) | 2019-06-25 | 2019-06-25 | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110186870A CN110186870A (zh) | 2019-08-30 |
CN110186870B true CN110186870B (zh) | 2022-04-08 |
Family
ID=67723392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910555462.2A Active CN110186870B (zh) | 2019-06-25 | 2019-06-25 | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110186870B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113484249A (zh) * | 2020-07-18 | 2021-10-08 | 北京立鼎智行科技有限公司 | 一种基于极限学习机的沥青品牌识别系统 |
CN111896495A (zh) * | 2020-08-05 | 2020-11-06 | 安徽大学 | 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106560700A (zh) * | 2016-10-20 | 2017-04-12 | 中国计量大学 | 能自动鉴别武夷岩茶产地的机器学习方法 |
CN109001147A (zh) * | 2018-08-24 | 2018-12-14 | 湖北省农业科学院果树茶叶研究所 | 一种利用近红外光谱判别茶鲜叶地理信息的方法 |
-
2019
- 2019-06-25 CN CN201910555462.2A patent/CN110186870B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110186870A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018010352A1 (zh) | 一种定性定量相结合的近红外定量模型构建方法 | |
Li et al. | Determination of soluble solid content in multi-origin ‘Fuji’apples by using FT-NIR spectroscopy and an origin discriminant strategy | |
CN106706553A (zh) | 一种快速无损测定玉米单籽粒直链淀粉含量的方法 | |
CN110186870B (zh) | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 | |
Zheng et al. | Self-adaptive models for predicting soluble solid content of blueberries with biological variability by using near-infrared spectroscopy and chemometrics | |
Qing et al. | Wavelength selection for predicting physicochemical properties of apple fruit based on near‐infrared spectroscopy | |
Wang et al. | Discrimination of cracked soybean seeds by near-infrared spectroscopy and random forest variable selection | |
CN109115692A (zh) | 一种光谱数据分析方法及装置 | |
WO2020248961A1 (zh) | 一种无参考值的光谱波数选择方法 | |
CN114088661B (zh) | 一种基于迁移学习和近红外光谱的烟叶烘烤过程化学成分在线预测方法 | |
CN110186871A (zh) | 一种茶鲜叶产地的判别方法 | |
CN110672578A (zh) | 针对煎炸油极性组分检测的模型通用性及稳定性验证方法 | |
CN104316492A (zh) | 近红外光谱测定马铃薯块茎中蛋白质含量的方法 | |
CN106706554A (zh) | 一种快速无损测定玉米单穗籽粒直链淀粉含量的方法 | |
Zhang et al. | Uninformative Biological Variability Elimination in Apple Soluble Solids Content Inspection by Using Fourier Transform Near‐Infrared Spectroscopy Combined with Multivariate Analysis and Wavelength Selection Algorithm | |
CN102519903B (zh) | 一种近红外光谱测定双孢蘑菇白度值的方法 | |
CN109709060B (zh) | 一种沥青软化点、针入度和质量损失的测定方法 | |
CN114624402B (zh) | 一种基于近红外光谱的螺蛳粉酸笋品质评价方法 | |
Liu et al. | Research on the online rapid sensing method of moisture content in famous green tea spreading | |
Liu et al. | Rapid determination of maturity in apple using outlier detection and calibration model optimization | |
CN106442400B (zh) | 一种近红外光谱快速判定不同土壤类型茶鲜叶的方法 | |
CN112229816B (zh) | 基于opls-spa-mix-pls的木材弹性模量预测方法 | |
CN106568740A (zh) | 一种近红外光谱快速判定茶鲜叶品种的方法 | |
Zhu et al. | Online discriminant model of blood spot eggs based on spectroscopy | |
CN110320174B (zh) | 应用polynomial net结构人工神经网络快速预测远安黄茶闷黄时间的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |