CN110308110A - 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 - Google Patents

基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 Download PDF

Info

Publication number
CN110308110A
CN110308110A CN201910513175.5A CN201910513175A CN110308110A CN 110308110 A CN110308110 A CN 110308110A CN 201910513175 A CN201910513175 A CN 201910513175A CN 110308110 A CN110308110 A CN 110308110A
Authority
CN
China
Prior art keywords
sample
model
spectrum
bored
subinterval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910513175.5A
Other languages
English (en)
Other versions
CN110308110B (zh
Inventor
王胜鹏
龚自明
高士伟
郑鹏程
滕靖
叶飞
王雪萍
郑琳
刘盼盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Fruit and Tea of Hubei Academy of Agricultural Sciences
Original Assignee
Institute of Fruit and Tea of Hubei Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Fruit and Tea of Hubei Academy of Agricultural Sciences filed Critical Institute of Fruit and Tea of Hubei Academy of Agricultural Sciences
Priority to CN201910513175.5A priority Critical patent/CN110308110B/zh
Publication of CN110308110A publication Critical patent/CN110308110A/zh
Application granted granted Critical
Publication of CN110308110B publication Critical patent/CN110308110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N2021/3595Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,包括:鲜叶样品采集与分类;扫描获得不同闷黄时间鲜叶样品的近红外光谱;对样品光谱进行预处理剔除噪声信息后,将样品光谱转化为成对的数据点;再将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据;应用主成分分析法抽提、压缩最佳光谱子区间信息;以主成分得分为输入值,不断调整神经元个数和传递函数,建立general regression结构人工神经网络预测模型;模型稳健性检验。实现了黄茶样品闷黄时间的快速、准确、客观预测,起到提高预测闷黄时间准确度和增强模型实用性的目的。

Description

基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测 方法
技术领域
本发明涉及一种预测黄茶闷黄时间的方法,更具体的说涉及基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法。
背景技术
黄茶是我国六大茶类之一,湖北省则以远安黄茶历史最为悠久。湖北远安气候温和、雨量充沛、土壤疏松肥沃,良好的生态环境对茶树生长非常有利,保证了茶叶品质优良,因此远安黄茶被誉为湖北茶中佳品,其一直是茶叶市场上较为畅销的茶产品,每年的产品都供不应求,深受大家喜爱。
在加工时,远安黄茶鲜叶的采摘标准一般为单芽、一芽一叶和一芽二叶,要求鲜叶细嫩、新鲜,鲜叶净度好,这样加工的黄茶色泽金黄、白毫显露,香气清香持久,滋味醇厚回甘,汤色杏黄明亮,叶底嫩黄匀整。远安黄茶基本加工工艺为:杀青-闷黄-干燥;其中闷黄工序为最关键的加工工序,是形成黄茶独有的“干茶金黄、汤色黄亮和叶底嫩黄”的基础。黄茶闷黄时间与内含成分间存在着密切的对应关系,陈玲等研究指出:随着闷黄时间的增长,干茶色泽绿色减退,黄色显露,汤色由绿明变成浅黄明亮,滋味鲜醇爽口,略带嫩香;在闷黄过程中,多酚类含量下降,氨基酸含量上升,可溶性蛋白质缓慢下降,可溶性糖含量略有升高,水浸出物含量随着闷黄时间延长稍有提升,叶绿素a、叶绿素b和总叶绿素含量逐渐降低。因此,在相同条件下,闷黄时间是影响黄茶茶汤滋味品质的关键因素。可见,及时、准确地把握黄茶闷黄时间有助于提高和改善黄茶的品质,提高商品价值,提升黄茶的经济价值;也有助于当地茶农增强自身经济实力,改善自身生活条件,尽快实现早日脱贫的目标。因此,如何实时判定黄茶闷黄时间就显得非常重要。
目前,远安黄茶通常采用人工的方法自行记录闷黄时间,但在黄茶加工的旺季,由于劳动强度很大,茶叶加工人员极容易出现过疲劳状况,因而会造成人工计时方法主观性很强且无法精准掌握闷黄时间,容易导致出现黄茶闷黄不足或闷黄过度的情况,可能因此导致降低了黄茶品质,给加工厂和经销商带来较大的经济损失。因此,亟需一种及时、准确、客观的预测远安黄茶闷黄时间的方法。
发明内容
本发明的目的在于针对现有的远安黄茶采用人工记录闷黄时间无法实时精准掌握闷黄时间、易导致茶叶品质降低等缺陷,提供基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法。
为实现上述目的,本发明的技术解决方案是:基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,扫描获得不同闷黄时间鲜叶样品的近红外光谱,对样品光谱进行预处理剔除噪声信息后,样品光谱转化为成对的数据点;再将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据;再应用主成分分析法对光谱数据信息进行压缩抽提,以主成分得分为输入数值,通过调节隐含层神经元个数和信息传递函数,建立黄茶不同闷黄时间样品的人工神经网络预测模型,用于预测黄茶的闷黄时间,具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集湖北省远安县安吉白茶品种单芽、一芽一叶和一芽二叶三个不同部位鲜叶样品,经杀青后对样品进行闷黄,同时精准记录闷黄时间;根据闷黄时间不同,将样品分为校正集和验证集2个集合,其中校正集样品用于建立不同闷黄时间的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验;
其中,一芽一叶由单芽、第一叶和较长梗构成,一芽二叶由单芽、第一叶、第二叶和长梗构成;
步骤二、光谱扫描
应用傅里叶变换型近红外光谱仪扫描获得全部闷黄样品的近红外光谱,光谱扫描范围4000-10000cm-1、分辨率8cm-1、检测器为InGaAs,每个样品采集3次光谱、每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该样品的最终光谱;
步骤三、光谱噪声信息预处理
应用多款化学计量学软件对步骤二中扫描得到的近红外光谱采用矢量归一化方法进行去噪声预处理,提高建模时光谱的信噪比,有利于建立稳健的预测模型;光谱去噪声后,再将样品光谱转化为成对的数据点;
步骤四、光谱子区间划分
将全部光谱信息数据均等分为20个光谱信息子区间,精准筛选反映样品闷黄时间的光谱信息子区间,用于后续建立最小二乘支持向量机模型;
步骤五、最小二乘支持向量机(LS-SVM)模型建立
本发明应用LS-SVM方法分别建立每个光谱信息子区间的预测模型,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root meansquare error of calibration,RMSECV)大小,初步筛选出建模的最佳光谱信息子区间数据,达到精准筛选反映闷黄时间的光谱信息的目的,其中,Rc最大、RMSECV最小,表示建立的最小二乘支持向量机模型结果最佳,
其中,RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,y为样品集中第i个样品的实测值的平均值,式中i≤n;
步骤六、general regression结构人工神经网络预测模型建立
应用非线性的人工神经网络方法进一步精准预测样品的闷黄时间,包括:
1)最佳光谱信息子区间主成分分析
采用主成分分析方法(PCA)对筛选的最佳光谱信息子区间数据进行主成分分析,得到每个主成分的单独贡献率值、累计贡献率值和主成分得分;在主成分累计贡献率≥85%才可以有效代表样品建模光谱子区间信息;
2)人工神经网络预测模型建立
以最佳光谱信息子区间的主成分得分为输入值、以样品不同闷黄时间为输出值,应用Neuro Shell 2软件建立general regression结构的人工神经网络预测模型,generalregression结构人工神经网络包含2个隐含层、不同的神经元以及不同的信息传递函数,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root mean square error of calibration,RMSECV)大小,得到最佳近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好;
其中RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
其中以相关系数Rc最大和交互验证均方根方差RMSECV最小的模型为最佳模型,经比较后得到最佳校正集模型;
步骤七、模型稳健性检验
应用全部验证集样品对不同闷黄时间的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction,Rp)和验证均方差(rootmean square error of prediction,RMSEP)表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测样品的闷黄时间;
其中RMSEP计算公式为:
Rp计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。
所述的步骤一中鲜叶样品数量为120份,鲜叶样品按照3:1的比例划分为校正集和验证集,其中校正集样品90个、验证集样品30个。
所述步骤五中筛选出建模的最佳光谱信息子区间数据为6406.4-6703.4cm-1
所述步骤六中在采用主成分分析方法(PCA)进行主成分分析时,采用前3个主成分代表最佳光谱子区间的光谱信息。
所述步骤六中选择4个神经元和logistic信息传递函数建立不同闷黄时间样品的general regression结构人工神经网络模型。
与现有技术相比,本发明的有益效果:
1、本发明先剔除闷黄样品噪声信息后,将样品光谱转化为成对的数据点保存,然后将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据;应用主成分分析方法对子区间数据点进行主成分分析,对最佳光谱信息进行压缩和抽提,有利于降低模型的运算量,增加模型的稳健性;再以主成分得分为输入值建立不同闷黄时间的人工神经网络预测模型,实现了样品闷黄时间的快速、准确、客观预测,起到提高预测闷黄时间准确度和增强模型实用性的目的。
2、本发明应用最小二乘支持向量机方法精准筛选反映样品闷黄时间的光谱信息,通过不断实践比较预测效果得到了最佳光谱信息的主成分得分,以此为输入数据,通过不断反复优化general regression结构人工神经网络方法内部的神经元个数和传递函数,达到了精准预测样品闷黄时间的目的;大大降低了模型运算量、简化了模型结构,同时提高了模型的预测准确度和增强模型的实用性。
附图说明
图1是本发明中全部120个鲜叶样品不同闷黄时间近红外光谱图。
图2是本发明中general regression神经网络模型结构。
具体实施方式
以下结合附图说明和具体实施方式对本发明作进一步的详细描述。
参见图1至图2,基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,扫描获得不同闷黄时间鲜叶样品的近红外光谱,对样品光谱进行预处理剔除噪声信息后,样品光谱转化为成对的数据点于excel表中保存;再将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据;再应用主成分分析法对最佳光谱数据信息进行压缩抽提,以主成分得分为输入数值,通过调节隐含层神经元个数和信息传递函数,建立黄茶不同闷黄时间样品的人工神经网络预测模型,用于预测黄茶的闷黄时间。具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集湖北省远安县安吉白茶品种单芽、一芽一叶和一芽二叶三个不同部位鲜叶样品,经杀青后对样品进行闷黄,同时精准记录闷黄时间。根据闷黄时间不同,将鲜叶样品分为校正集和验证集2个集合,其中校正集样品用于建立不同闷黄时间的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验。
其中,一芽一叶由单芽、第一叶和较长梗构成,一芽二叶由单芽、第一叶、第二叶和长梗构成。
步骤二、光谱扫描
应用美国赛默飞.世尔AntarisⅡ型傅里叶变换型近红外光谱仪扫描获得全部闷黄样品的近红外光谱,光谱扫描范围4000-10000cm-1、分辨率8cm-1、检测器为InGaAs,每个样品采集3次光谱、每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该样品的最终光谱用于后续建立模型。
步骤三、光谱噪声信息预处理
由于在光谱扫描过程中存在着高频噪声和基线扰动存在的背景信息,如果不对光谱噪声进行预处理、直接用于建立预测模型的话,会造成模型的预测效果较差,而且模型还不稳定,因此在建模前对原光谱信息进行去噪声处理。本步骤中应用多款化学计量学软件对步骤二中扫描得到的不同闷黄时间的近红外光谱采用采用平滑、一阶导数、二阶导数、多元散射校正和矢量归一化方法进行去噪声预处理,提高光谱的信噪比,从而有利于建立稳健的预测模型;其中的矢量归一化预处理方法可以扣除样品光谱中的线性平移的影响,对每条光谱进行单独校正,具有较强的信息处理能力,为最佳光谱预处理方法。
光谱去噪声后,再将样品光谱转化为成对的数据点(X-Y一一对应),存储于excel表中。
步骤四、光谱子区间划分
近红外光谱包含了样品所有的信息,如产地、采摘时间、闷黄时间和内含成分信息等,因此,为了提高模型的预测效果,需要筛选反映样品闷黄时间的光谱信息波段,去除与建模无用的光谱信息;不仅可以提高模型预测准确度,还可以大大降低模型的运算量,减少建模的运算时间,降低建模成本。因此,本发明将全部光谱信息数据均等分为20个光谱信息子区间,精准筛选反映样品闷黄时间的光谱信息子区间,用于后续建立最小二乘支持向量机模型。
步骤五、最小二乘支持向量机(LS-SVM)模型建立
最小二乘支持向量机(LS-SVM)模型是一种基于统计理论的分类方法,主要是通过构造一个分隔超平面来实现模型的预测,其以良好的泛化能力和鲁棒性被广泛应用;同时,LS-SVM方法通过求解线性方程组实现最终的决策函数,在一定程度上降低了求解难度、提高了求解速度,从而使之更能适应于一般的实际应用。因此,为了更好地预测远安黄茶样品的闷黄时间,本发明应用LS-SVM方法分别建立每个光谱信息子区间的预测模型,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(rootmean square error of calibration,RMSECV)大小,初步筛选出建模的最佳光谱信息子区间数据,达到精准筛选反映闷黄时间的光谱信息的目的。其中,Rc最大、RMSECV最小,表示建立的最小二乘支持向量机模型结果最佳;
其中,RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。
同时,该LS-SVM方法也反过来验证步骤三中选择的为哪种最佳光谱预处理方法。
步骤六、general regression结构人工神经网络预测模型建立
在上述步骤五的基础上,虽然初步得到了反映闷黄时间的光谱信息,但输入模型的光谱数据点还较多,而且各个数据点间很可能还存在着非线性关系,因此,为了更加精准的预测样品的闷黄时间,本发明应用非线性的人工神经网络方法进一步精准预测样品的闷黄时间。包括:
1)最佳光谱信息子区间主成分分析
在建立人工神经网络方法时,要求输入的数据较少才行,因此,需要进一步压缩、抽提样品的光谱信息,而主成分分析方法(PCA)就是一种有效的抽提光谱信息的方法。因此,应用Matlab 2012a软件中的主成分分析程序采用主成分分析方法(PCA)对筛选的最佳光谱信息子区间数据进行主成分分析,得到每个主成分的单独贡献率值、累计贡献率值和主成分得分,且在主成分累计贡献率≥85%才可以有效代表样品建模光谱子区间信息。
2)人工神经网络预测模型建立
以最佳光谱信息子区间的主成分得分为输入值、以样品不同闷黄时间为输出值,应用Neuro Shell 2软件建立general regression结构的人工神经网络预测模型;generalregression结构人工神经网络包含2个隐含层、不同的神经元以及不同的信息传递函数。比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root mean square error of calibration,RMSECV)大小,得到最佳近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好。
其中RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。
其中以相关系数Rc最大和交互验证均方根方差RMSECV最小的模型为最佳模型,经比较后得到最佳校正集模型。
步骤七、模型稳健性检验
为避免出现过拟合现象、建立一个稳健的预测模型,因此,应用全部验证集样品对不同闷黄时间的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlationcoefficient of prediction,Rp)和验证均方差(root mean square error ofprediction,RMSEP)表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测样品的闷黄时间。
其中RMSEP计算公式为:
Rp计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。
具体的,所述的步骤一中鲜叶样品数量为120份,鲜叶样品按照3:1的比例划分为校正集和验证集,其中校正集样品90个、验证集样品30个。
具体的,所述步骤五中筛选出建模的最佳光谱信息子区间数据为6406.4-6703.4cm-1
具体的,所述步骤六中在采用主成分分析方法(PCA)进行主成分分析时,采用前3个主成分代表最佳光谱子区间的光谱信息。
具体的,所述步骤六中选择4个神经元和logistic信息传递函数建立不同闷黄时间样品的general regression结构人工神经网络模型。
具体实施例一:
(1)鲜叶样品采集与分类
采集湖北省远安县安吉白茶品种单芽(无梗)、一芽一叶(由单芽、第一叶和较长梗构成)和一芽二叶(由单芽、第一叶、第二叶和长梗构成)三个不同部位鲜叶样品共120个。样品杀青后进行闷黄,同时精准记录闷黄时间。依据闷黄时间不同,样品按照3:1比例划分为校正集和验证集2个集合,其中校正集90个样品,验证集样品30个,用于检验校正集模型的稳健性。
(2)光谱扫描
应用美国赛默飞.世尔AntarisⅡ型傅里叶变换近红外光谱仪(FT-NIR)、选用积分球漫反射光学平台扫描获得全部闷黄样品的近红外光谱,光谱扫描范围4000-10000cm-1、分辨率8cm-1、检测器为InGaAs。每个样品采集3次光谱、每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该样品的最终光谱用于后续建立模型。
在扫描样品光谱前,将该近红外光谱仪预热30分钟,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品,全部闷黄样品光谱参见图1。
(3)光谱噪声信息预处理
在光谱采集过程中,通常会产生高频噪声和基线扰动存在的背景信息等影响模型预测效果的噪声信息,因此,在建立校正集模型前需要对光谱进行预处理。应用化学计量学软件TQAnalyst 9.4.45软件和OPUS 7.0软件对全部闷黄样品的近红外光谱分别进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,然后将每个样品光谱转化为1560对数据点于excel表中用于后续数据分析,建立预测模型。
经过比较,可知最佳光谱预处理方法为矢量归一化。
(4)光谱子区间划分
将全部光谱数据点均等分为20个光谱信息子区间,每个子区间含有的数据点为78个。
(5)最小二乘支持向量机(LS-SVM)模型建立
分别建立每个光谱子区间数据的最小二乘支持向量机模型,所得结果见下面的表1:
表1最小二乘支持向量机方法建模结果
建模数 光谱区间/cm-1 相关系数 RMSECV
1 3999.6-4296.6 0.4677 8.96
2 4300.5-4597.5 0.5383 8.02
3 4601.3-4898.3 0.5724 7.82
4 4902.2-5199.1 0.494 8.31
5 5203-5500 0.4701 8.78
6 5503.8-5800.8 0.4422 9.01
7 5804.7-6101.7 0.4552 8.94
8 6105.5-6402.5 0.8119 7.58
9 6406.4-6703.4 0.8908 6.55
10 6707.2-7004.2 0.8077 7.94
11 7008-7305 0.7587 7.01
12 7308.9-7605.9 0.7712 6.95
13 7609.7-7906.7 0.7445 7.11
14 7910.6-8207.6 0.6048 7.53
15 8211.4-8508.4 0.6405 6.93
16 8512.3-8809.2 0.6673 6.63
17 8813.1-9110.1 0.5973 7.94
18 9113.9-9407.1 0.6332 7.04
19 9410.9-9704 0.6531 7.25
20 9707.9-10000 0.6572 7.05
由上面的表1可以看出,应用最小二乘支持向量机方法分别建立20个子区间的近红外模型,当RMSECV最小、而相关系数Rc最大时,此时建模的光谱区间即为最佳的建模子区间。因此,当6406.4-6703.4cm-1时,模型相关系数0.8908、RMSECV为6.55,此时建立的最小二乘支持向量机模型结果最佳,由此可知最佳建模光谱子区间为:6406.4-6703.4cm-1
(6)general regression结构人工神经网络预测模型建立,包括:
1)最佳光谱信息子区间主成分分析
应用Matlab 2012a软件对预处理后的闷黄样品最佳光谱子区间数据进行主成分分析,求得主成分数、贡献率和主成分得分值。前8个主成分的贡献率分别如下面表2所示:
表2前8个主成分贡献率
从表2可以看出,PC1贡献率最大、为90.78%,从PC1—PC8主成分贡献率急剧降低,PC8贡献率仅为0.01%。其中,PC1,PC2和PC3三个主成分的累计贡献率为99.64%,可以完全代表最佳光谱子区间的光谱信息,用于后续数据分析,校正集样品前3个主成分得分如下面表3所示:
表3校正集样品前3个主成分得分
2)general regression结构人工神经网络预测模型建立
为有效提高模型的稳健性,减少噪声信息的输入对模型的不利影响,要求建模时输入变量尽可能的少,但还要有效的代表原始光谱数据信息,因此,以上述主成分分析筛选的前3个主成分得分为输入值、以样品不同闷黄时间为输出值,经多次优化神经元个数和传递函数,建立了9种不同闷黄时间的人工神经网络预测模型。
在建立模型时,由于模型内部神经元个数和输出层间信息传递函数的不同会对模型预测效果产生较大的影响;因此,在建立general regression结构的人工神经网络模型时,分别比较了不同神经元个数和不同内部信息传递函数对模型预测结果的影响,具体参见下面的表4。通过将前3个主成分得分输入到该人工神经网络模型中,比较该模型相关系数Rc和交互验证均方根方差RMSECV值,得到最佳预测模型。最佳校正集模型为:slab1具有4个神经元,传递函数logistic。此时,模型Rc为0.980,RMSECV为2.2。
表4 9种人工神经网络模型结果
(7)模型稳健性检验
为防止出现过拟合现象,应用验证集30份样品对校正集模型进行检验,所得结果用相关系数Rp和验证集均方差RMSEP表示,具体结果参见上面的表4。
从表4可以看出,不同闷黄时间样品general regression结构的人工神经网络模型中,当神经元为3个、传递函数为logistic时,最佳校正集模型Rc为0.951、RMSECV为3.9,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.961、RMSEP为3.7。当神经元为4个、传递函数为logistic时,最佳校正集模型Rc为0.980、RMSECV为2.2,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.970、RMSEP为2.5。当神经元为5个、传递函数为linear[-1,1]时,最佳校正集模型Rc为0.946、RMSECV为3.9,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.942、RMSEP为4.3。可见,在应用同样的general regression结构但内部不同神经元个数和不同信息传递函数的情况下建立的人工神经网络模式中,以具有4个神经元和传递函数为logistic时建立的不同闷黄时间样品人工神经网络模型预测结果最佳,模型预测效果最好;其次为具有3个神经元和传递函数为logistic时建立的不同闷黄时间样品人工神经网络模型;最差的为具有5个神经元和传递函数为linear[-1,1]时建立的不同闷黄时间样品人工神经网络模型。可见,在应用同样的general regression结构但内部不同神经元个数和不同信息传递函数的情况下建立的人工神经网络模型中,会对建立模型的预测结果产生较大的影响,因此,建立模型时,要合理选择神经元个数和信息传递函数。
应用4个神经元和传递函数为logistic时建立的最佳人工神经网络模型对30个验证集样品的闷黄时间进行预测,预测结果见下面的表5。从表5可以看出,样品闷黄时间的真值和预测值的差值(偏差)全部在±1.0范围内,表明模型对所有样品预测正确,判别率为100%。可见,当应用4个神经元和传递函数为logistic时建立的不同闷黄时间样品generalregression结构人工神经网络模型实现了对闷黄时间的快速、准确预测。
表5 30个验证集样品闷黄时间预测结果(分钟)
序号 真值 预测值 序号 真值 预测值 序号 真值 预测值
1 0.0 0.1 11 145 145.4 21 243 243.4
2 30 29.6 12 150 150.5 22 245 245.2
3 35 34.9 13 180 180.0 23 260 259.3
4 50 49.4 14 186 186.6 24 280 279.8
5 60 60.5 15 195 195.2 25 290 290.4
6 75 74.3 16 200 199.9 26 306 306.3
7 94 94.5 17 205 204.8 27 318 318.3
8 112 112.2 18 210 209.7 28 320 320.5
9 120 120.0 19 220 220.2 29 330 330.2
10 130 130.2 20 240 240.6 30 348 348.2
综上所述,本发明基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,先剔除样品噪声信息,得到最佳光谱预处理方法为矢量归一化,将样品光谱转化为成对的数据点于excel表中保存;然后将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据(6406.4-6703.4cm-1,占全部光谱数据的5.0%);应用主成分分析筛选出前3个主成分,前3个主成分的累计贡献率为99.64%,以前3个主成分得分为输入值建立不同神经元个数和信息传递函数的general regression结构人工神经网络预测模型,以具有4个神经元和传递函数为logistic时建立的general regression结构人工神经网络模型预测结果最佳(Rp=0.970,RMSEP=2.5);其次为具有3个神经元和传递函数为logistic时建立的general regression结构人工神经网络模型;最差为具有5个神经元和传递函数为linear[-1,1]时建立的general regression结构人工神经网络模型。因此,本发明将最小二乘支持向量机方法和general regression结构人工神经网络方法相结合,完美实现了对单芽、一芽一叶和一芽二叶三个采摘标准加工的远安黄茶样品闷黄时间的精准预测(预测偏差全部在±1.0范围内,预测准确率为100%),建立的预测模型不仅达到大大降低模型运算量(建模光谱数据占全部光谱数据5.00%)、简化模型的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,上述结构都应当视为属于本发明的保护范围。

Claims (5)

1.基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,其特征在于,扫描获得不同闷黄时间鲜叶样品的近红外光谱,对样品光谱进行预处理剔除噪声信息后,样品光谱转化为成对的数据点;再将全部光谱数据均划分为20个子区间,分别建立每个子区间数据的最小二乘支持向量机方法模型,筛选出建模的最佳子区间数据;再应用主成分分析法对光谱数据信息进行压缩抽提,以主成分得分为输入数值,通过调节隐含层神经元个数和信息传递函数,建立黄茶不同闷黄时间样品的人工神经网络预测模型,用于预测黄茶的闷黄时间,具体包括以下步骤:
步骤一、鲜叶样品采集与分类
采集湖北省远安县安吉白茶品种单芽、一芽一叶和一芽二叶三个不同部位鲜叶样品,经杀青后对样品进行闷黄,同时精准记录闷黄时间;根据闷黄时间不同,将样品分为校正集和验证集2个集合,其中校正集样品用于建立不同闷黄时间的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验;
其中,一芽一叶由单芽、第一叶和较长梗构成,一芽二叶由单芽、第一叶、第二叶和长梗构成;
步骤二、光谱扫描
应用傅里叶变换型近红外光谱仪扫描获得全部闷黄样品的近红外光谱,光谱扫描范围4000-10000cm-1、分辨率8cm-1、检测器为InGaAs,每个样品采集3次光谱、每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该样品的最终光谱;
步骤三、光谱噪声信息预处理
应用多款化学计量学软件对步骤二中扫描得到的近红外光谱采用矢量归一化方法进行去噪声预处理,提高建模时光谱的信噪比,有利于建立稳健的预测模型;光谱去噪声后,再将样品光谱转化为成对的数据点;
步骤四、光谱子区间划分
将全部光谱信息数据均等分为20个光谱信息子区间,精准筛选反映样品闷黄时间的光谱信息子区间,用于后续建立最小二乘支持向量机模型;
步骤五、最小二乘支持向量机(LS-SVM)模型建立
本发明应用LS-SVM方法分别建立每个光谱信息子区间的预测模型,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root meansquare error of calibration,RMSECV)大小,初步筛选出建模的最佳光谱信息子区间数据,达到精准筛选反映闷黄时间的光谱信息的目的,其中,Rc最大、RMSECV最小,表示建立的最小二乘支持向量机模型结果最佳,
其中,RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
步骤六、general regression结构人工神经网络预测模型建立
应用非线性的人工神经网络方法进一步精准预测样品的闷黄时间,包括:
1)最佳光谱信息子区间主成分分析
采用主成分分析方法(PCA)对筛选的最佳光谱信息子区间数据进行主成分分析,得到每个主成分的单独贡献率值、累计贡献率值和主成分得分;在主成分累计贡献率≥85%才可以有效代表样品建模光谱子区间信息;
2)人工神经网络预测模型建立
以最佳光谱信息子区间的主成分得分为输入值、以样品不同闷黄时间为输出值,应用Neuro Shell2软件建立general regression结构的人工神经网络预测模型,generalregression结构人工神经网络结构信息传递方式包含2个隐含层、不同的神经元以及不同的信息传递函数,比较模型相关系数(correlation coefficient of calibration,Rc)和交互验证均方根方差(root mean square error of calibration,RMSECV)大小,得到最佳近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好;
其中RMSECV计算公式为:
Rc计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
其中以相关系数Rc最大和交互验证均方根方差RMSECV最小的模型为最佳模型,经比较后得到最佳校正集模型;
步骤七、模型稳健性检验
应用全部验证集样品对不同闷黄时间的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction,Rp)和验证均方差(root meansquare error of prediction,RMSEP)表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测样品的闷黄时间;
其中RMSEP计算公式为:
Rp计算公式为:
式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。
2.根据权利要求1所述的基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,其特征在于:所述的步骤一中鲜叶样品数量为120份,鲜叶样品按照3:1的比例划分为校正集和验证集,其中校正集样品90个、验证集样品30个。
3.根据权利要求1所述的基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,其特征在于:所述步骤五中筛选出建模的最佳光谱信息子区间数据为6406.4-6703.4cm-1
4.根据权利要求1所述的基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,其特征在于:所述步骤六中在采用主成分分析方法(PCA)进行主成分分析时,采用前3个主成分代表最佳光谱子区间的光谱信息。
5.根据权利要求1所述的基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法,其特征在于:所述步骤六中选择4个神经元和logistic信息传递函数建立不同闷黄时间样品的general regression结构人工神经网络模型。
CN201910513175.5A 2019-06-14 2019-06-14 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 Active CN110308110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910513175.5A CN110308110B (zh) 2019-06-14 2019-06-14 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910513175.5A CN110308110B (zh) 2019-06-14 2019-06-14 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法

Publications (2)

Publication Number Publication Date
CN110308110A true CN110308110A (zh) 2019-10-08
CN110308110B CN110308110B (zh) 2022-05-06

Family

ID=68077231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910513175.5A Active CN110308110B (zh) 2019-06-14 2019-06-14 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法

Country Status (1)

Country Link
CN (1) CN110308110B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0352750A2 (en) * 1988-07-29 1990-01-31 Hitachi, Ltd. Hybridized frame inference and fuzzy reasoning system and method
CN101059425A (zh) * 2007-05-29 2007-10-24 浙江大学 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置
US8158175B2 (en) * 2008-08-28 2012-04-17 Frito-Lay North America, Inc. Method for real time measurement of acrylamide in a food product
CN102507457A (zh) * 2011-11-18 2012-06-20 江苏大学 一种快速无损检测作物营养元素的装置及方法
CN103743697A (zh) * 2013-12-20 2014-04-23 贵州省分析测试研究院 一种采用近红外光谱实现茶叶生产实时监测的方法
CN104020129A (zh) * 2014-05-16 2014-09-03 安徽农业大学 一种基于近红外光谱结合氨基酸分析技术的工夫红茶发酵质量的判别方法
US20160019436A1 (en) * 2014-03-28 2016-01-21 International Business Machines Corporation Grid data processing method and apparatus
CN105938093A (zh) * 2016-06-08 2016-09-14 福建农林大学 一种基于遗传算法结合支持向量机的乌龙茶产地判别方法
CN106290240A (zh) * 2016-08-29 2017-01-04 江苏大学 一种基于近红外光谱分析技术对酵母菌生长曲线测定的方法
CN106295801A (zh) * 2016-08-01 2017-01-04 安徽农业大学 一种基于果蝇算法优化广义回归神经网络算法的茶叶储存时间分类方法
US20170059544A1 (en) * 2015-09-01 2017-03-02 Sherry L. STAFFORD Apparatus, Systems, and Methods For Enhancing Hydrocarbon Extraction and Techniques Related Thereto
CN106525849A (zh) * 2016-11-02 2017-03-22 江苏大学 茶叶智能化拼配方法与系统
CN106560700A (zh) * 2016-10-20 2017-04-12 中国计量大学 能自动鉴别武夷岩茶产地的机器学习方法
CN107348021A (zh) * 2017-06-14 2017-11-17 中国农业科学院茶叶研究所 一种基于色差系统的黄茶闷黄程度的控制方法
CN206651317U (zh) * 2017-02-28 2017-11-21 四川俊龙农业科技有限公司 一种茶叶高效智能杀青装置
CN107860740A (zh) * 2017-12-08 2018-03-30 中国农业科学院茶叶研究所 一种基于近红外光谱技术的红茶发酵品质的评价方法
CN107958267A (zh) * 2017-11-21 2018-04-24 东南大学 一种基于光谱线性表示的油品性质预测方法
CN108872132A (zh) * 2018-08-24 2018-11-23 湖北省农业科学院果树茶叶研究所 一种利用近红外光谱判别茶鲜叶品种的方法
CN109001147A (zh) * 2018-08-24 2018-12-14 湖北省农业科学院果树茶叶研究所 一种利用近红外光谱判别茶鲜叶地理信息的方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0352750A2 (en) * 1988-07-29 1990-01-31 Hitachi, Ltd. Hybridized frame inference and fuzzy reasoning system and method
CN101059425A (zh) * 2007-05-29 2007-10-24 浙江大学 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置
US8158175B2 (en) * 2008-08-28 2012-04-17 Frito-Lay North America, Inc. Method for real time measurement of acrylamide in a food product
CN102507457A (zh) * 2011-11-18 2012-06-20 江苏大学 一种快速无损检测作物营养元素的装置及方法
CN103743697A (zh) * 2013-12-20 2014-04-23 贵州省分析测试研究院 一种采用近红外光谱实现茶叶生产实时监测的方法
US20160019436A1 (en) * 2014-03-28 2016-01-21 International Business Machines Corporation Grid data processing method and apparatus
CN104020129A (zh) * 2014-05-16 2014-09-03 安徽农业大学 一种基于近红外光谱结合氨基酸分析技术的工夫红茶发酵质量的判别方法
US20170059544A1 (en) * 2015-09-01 2017-03-02 Sherry L. STAFFORD Apparatus, Systems, and Methods For Enhancing Hydrocarbon Extraction and Techniques Related Thereto
CN105938093A (zh) * 2016-06-08 2016-09-14 福建农林大学 一种基于遗传算法结合支持向量机的乌龙茶产地判别方法
CN106295801A (zh) * 2016-08-01 2017-01-04 安徽农业大学 一种基于果蝇算法优化广义回归神经网络算法的茶叶储存时间分类方法
CN106290240A (zh) * 2016-08-29 2017-01-04 江苏大学 一种基于近红外光谱分析技术对酵母菌生长曲线测定的方法
CN106560700A (zh) * 2016-10-20 2017-04-12 中国计量大学 能自动鉴别武夷岩茶产地的机器学习方法
CN106525849A (zh) * 2016-11-02 2017-03-22 江苏大学 茶叶智能化拼配方法与系统
CN206651317U (zh) * 2017-02-28 2017-11-21 四川俊龙农业科技有限公司 一种茶叶高效智能杀青装置
CN107348021A (zh) * 2017-06-14 2017-11-17 中国农业科学院茶叶研究所 一种基于色差系统的黄茶闷黄程度的控制方法
CN107958267A (zh) * 2017-11-21 2018-04-24 东南大学 一种基于光谱线性表示的油品性质预测方法
CN107860740A (zh) * 2017-12-08 2018-03-30 中国农业科学院茶叶研究所 一种基于近红外光谱技术的红茶发酵品质的评价方法
CN108872132A (zh) * 2018-08-24 2018-11-23 湖北省农业科学院果树茶叶研究所 一种利用近红外光谱判别茶鲜叶品种的方法
CN109001147A (zh) * 2018-08-24 2018-12-14 湖北省农业科学院果树茶叶研究所 一种利用近红外光谱判别茶鲜叶地理信息的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
QUANSHENG CHEN ET: "Feasibility study on qualitative and quantitative analysis in tea by near infrared spectroscopy with multivariate calibration", 《ANALYTICA CHIMICA ACTA》 *
叶飞 等,: "提香时间对远安黄茶理化品质的影响", 《现代食品科技》 *
宁井铭 等: "近红外光谱技术结合人工神经网络判别普洱茶发酵程度", 《农业工程学报》 *
岳建平 等,: "《安全监测技术与应用》", 31 August 2018, 武汉:武汉大学出版社 *
赵杰文 等: "《茶叶质量与安全监测技术及分析方法》", 31 March 2011 *

Also Published As

Publication number Publication date
CN110308110B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN102590211B (zh) 利用光谱和图像特征进行烟叶分级的方法
CN110308111A (zh) 一种应用近红外光谱技术快速预测远安黄茶闷黄时间的方法
CN106568738A (zh) 一种近红外光谱快速判定不同质量等级茶鲜叶的方法
CN108872132A (zh) 一种利用近红外光谱判别茶鲜叶品种的方法
CN111443043B (zh) 一种基于高光谱图像的核桃仁品质检测方法
CN108844917A (zh) 一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法
CN109001147A (zh) 一种利用近红外光谱判别茶鲜叶地理信息的方法
CH708057A2 (de) Nahinfrarot-Verfahren zur Bestimmung von Inhaltsstoffen der Lotuswurzel.
CN110108649A (zh) 基于太赫兹光谱技术的油料作物品质的快速无损检测方法
CN111795943A (zh) 基于近红外光谱技术无损检测茶叶中外源掺杂蔗糖的方法
CN110186871A (zh) 一种茶鲜叶产地的判别方法
CN110320174A (zh) 应用polynomial net结构人工神经网络快速预测远安黄茶闷黄时间的方法
CN109975236A (zh) 一种利用近红外光谱技术鉴别金银花产地的方法
Zhou et al. Green plums surface defect detection based on deep learning methods
CN107796779A (zh) 橡胶树叶片氮素含量的近红外光谱诊断方法
CN110308110A (zh) 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法
CN112213281A (zh) 一种基于透射近红外光谱快速测定淡水鱼新鲜度综合评价的方法
CN106198423A (zh) 一种基于可见‑近红外光谱分析技术鉴别火腿肠等级的方法
CN106442400B (zh) 一种近红外光谱快速判定不同土壤类型茶鲜叶的方法
CN110334714A (zh) 一种基于人工神经网络技术的机采眉茶车色样品等级预测方法
CN106442399B (zh) 一种近红外光谱判别不同栽培环境同一品种茶鲜叶的方法
CN110320173A (zh) 基于粒子群优化算法的机采鲜叶眉茶车色样品等级的快速判定方法
CN110361334A (zh) 应用general regression结构无损预测机采眉茶车色样品等级的方法
CN106568740A (zh) 一种近红外光谱快速判定茶鲜叶品种的方法
CN113310933A (zh) 原料水牛奶保存天数的光谱鉴定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant