CN109001147A - 一种利用近红外光谱判别茶鲜叶地理信息的方法 - Google Patents
一种利用近红外光谱判别茶鲜叶地理信息的方法 Download PDFInfo
- Publication number
- CN109001147A CN109001147A CN201810972858.2A CN201810972858A CN109001147A CN 109001147 A CN109001147 A CN 109001147A CN 201810972858 A CN201810972858 A CN 201810972858A CN 109001147 A CN109001147 A CN 109001147A
- Authority
- CN
- China
- Prior art keywords
- tea leaves
- spectrum
- near infrared
- sample
- fresh tea
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 57
- 241001122767 Theaceae Species 0.000 title claims abstract 33
- 229920003266 Leaf® Polymers 0.000 claims abstract description 161
- 238000001228 spectrum Methods 0.000 claims abstract description 120
- 239000002689 soil Substances 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000000513 principal component analysis Methods 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 18
- 238000004611 spectroscopical analysis Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 11
- 229910000530 Gallium indium arsenide Inorganic materials 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000002835 absorbance Methods 0.000 claims description 2
- 244000269722 Thea sinensis Species 0.000 description 115
- 239000010410 layer Substances 0.000 description 35
- 210000005036 nerve Anatomy 0.000 description 30
- 230000005540 biological transmission Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 22
- 230000004069 differentiation Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000012010 growth Effects 0.000 description 6
- 238000012821 model calculation Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 235000009024 Ceanothus sanguineus Nutrition 0.000 description 4
- 240000003553 Leptospermum scoparium Species 0.000 description 4
- 235000015459 Lycium barbarum Nutrition 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 235000006468 Thea sinensis Nutrition 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 235000013339 cereals Nutrition 0.000 description 3
- 238000002512 chemotherapy Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000003205 fragrance Substances 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012106 screening analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 235000001014 amino acid Nutrition 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- RYYVLZVUVIJVGH-UHFFFAOYSA-N caffeine Chemical compound CN1C(=O)N(C)C(=O)C2=C1N=CN2C RYYVLZVUVIJVGH-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 206010016256 fatigue Diseases 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 239000005416 organic matter Substances 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- MCSXGCZMEPXKIW-UHFFFAOYSA-N 3-hydroxy-4-[(4-methyl-2-nitrophenyl)diazenyl]-N-(3-nitrophenyl)naphthalene-2-carboxamide Chemical compound Cc1ccc(N=Nc2c(O)c(cc3ccccc23)C(=O)Nc2cccc(c2)[N+]([O-])=O)c(c1)[N+]([O-])=O MCSXGCZMEPXKIW-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- LPHGQDQBBGAPDZ-UHFFFAOYSA-N Isocaffeine Natural products CN1C(=O)N(C)C(=O)C2=C1N(C)C=N2 LPHGQDQBBGAPDZ-UHFFFAOYSA-N 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 244000062793 Sorghum vulgare Species 0.000 description 1
- PNEYBMLMFCGWSK-UHFFFAOYSA-N aluminium oxide Inorganic materials [O-2].[O-2].[O-2].[Al+3].[Al+3] PNEYBMLMFCGWSK-UHFFFAOYSA-N 0.000 description 1
- 229960001948 caffeine Drugs 0.000 description 1
- VJEONQKOZGKCAK-UHFFFAOYSA-N caffeine Natural products CN1C(=O)N(C)C(=O)C2=C1C=CN2C VJEONQKOZGKCAK-UHFFFAOYSA-N 0.000 description 1
- 239000002734 clay mineral Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- NLYAJNPCOHFWQQ-UHFFFAOYSA-N kaolin Chemical compound O.O.O=[Al]O[Si](=O)O[Si](=O)O[Al]=O NLYAJNPCOHFWQQ-UHFFFAOYSA-N 0.000 description 1
- 229910052622 kaolinite Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000000050 nutritive effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 150000008442 polyphenolic compounds Chemical class 0.000 description 1
- 235000013824 polyphenols Nutrition 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000013022 venting Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
一种利用近红外光谱判别茶鲜叶地理信息的方法,所述方法为利用具有不同地理信息茶鲜叶的近红外光谱建立预测模型,然后根据所建立的预测模型对未知茶鲜叶进行地理信息的判定;其特征在于:所述预测模型的建立方法为:通过扫描不同地理信息茶鲜叶样品的近红外光谱并将近红外光谱信息进行去噪处理后,应用线性的联合区间偏最小二乘法筛选反映不同地理信息茶鲜叶的特征光谱区间,再对筛选的特征光谱区间进行主成分分析,得到主成分数和主成分得分值,再以主成分得分值为输入值建立茶鲜叶地理信息的人工神经网络预测模型。可应用于茶鲜叶在海拔高度、土壤类型、栽培地区等地理信息的无损、准确预测,所建立的预测模型运算量低、预测准确度高、实用性强。
Description
技术领域
本发明涉及一种判别不同地理信息茶鲜叶的方法,更具体的说涉及一种应用近红外光谱技术判别不同海拔高度、不同土壤类型及不同栽培地区茶鲜叶的方法。
背景技术
地理信息包括海拔高度、土壤类型及栽培地区等,而这些地理信息最终也会反馈到茶叶品质上,代表茶叶“身份”来源,地理信息能在一定程度上反应茶鲜叶质量,而茶鲜叶质量是成品茶品质的基础,只有应用高质量的茶鲜叶才会加工出高品质的成品茶。但是,当茶叶被采摘下来后,很难用肉眼进行地理信息的识别,因此,在茶鲜叶的收购市场,因缺乏一种有效的检测地理信息的手段,当要知道这些信息时往往凭借茶农或者商贩(卖方)的口述,由于受利益的驱使,很多茶农或者商贩并不会说出实情,这给茶叶加工厂带来诸多困惑。
就海拔高度来说,俗话说“高山云雾出好茶”,茶鲜叶质量除受自身遗传特性影响外,还与茶树栽培产地生态环境等因素密切相关,而海拔高度就是其中一个非常重要的因素。一般来说,生长在高海拔地区的茶鲜叶质量要优于低海拔地区的茶鲜叶,采摘于高海拔地区的茶鲜叶收购价格也会远高于低海拔地区的茶鲜叶。洪生等研究表明,随着海拔高度的增加,鲜叶氨基酸和咖啡碱含量均增加,茶多酚含量降低,有利于提高鲜叶质量;唐颢等研究了茶树生长海拔高度对茶鲜叶生化品质存在较大的影响;袁杰等认为应用高海拔栽培地区的鲜叶加工的成品茶香气浓度高、香气成分较多和更合理的香气含量比例;朱小苗等研究认为:茶树生长的海拔高度对茶叶中的游离氨基酸含量有显著影响,进而影响茶汤的滋味和营养价值。上述文献都佐证了海拔高度的增加对鲜叶质量存在着正影响作用,但都没有给出一种可以有效判别不同海拔高度茶鲜叶的方法。
就土壤类型来说,茶园土壤类型对茶树的生长发育起着非常重要的作用,就我国茶区土壤类型而言,主要分为红壤土、黄壤土和沙壤土三种类型。红壤土是我国中亚热带湿润地区分布的地带性红壤,属中度脱硅富铝化的铁铝土,通常具深厚红色土层,网纹层发育明显,粘土矿物以高岭石为主,呈酸性,盐基饱和度低;黄壤土是指亚热带常年湿润的生物气候条件下形成的地带性土壤,pH4. 5-5.5,黏粒硅铝率2.0-2.3,有机质可达5%以上。表层有机质和氮、磷、钾等养分高于红壤,质地也较轻;沙壤土是指土壤颗粒组成中黏粒、粉粒、砂粒含量适中的土壤。沙壤土土质松散,通气透水,不黏不硬,易于耕作,但保水和保肥较差。由于三种类型土壤的营养成分和理化性质都存在着较大的不同,因此,同一品种的茶树种植在3种不同的土壤类型上,鲜叶的质量也会存在着较大的不同,也是造成单位面积茶叶产量产生较大差异的一个重要原因。由于不同土壤类型上生长的鲜叶的品质存在较大差异,导致加工的成品茶品质也存在较大差异,因此,影响了茶叶的市场销售价格。在收购鲜叶时,收购人员会将鲜叶按照其生长土壤类型的不同而进行分类,开展分类加工,再根据市场需求对成品茶品质进行有目的的拼配,有利于茶叶品质的保障,也有利于茶叶企业利益的最大化。但目前因缺乏有效的判别手段,在进行判别时,收购人员常应用感官方法和工作经验判别不同土壤类型生长的茶鲜叶,但判别结果主观性很强,且易出错。
就栽培地区来说,茶树与栽培环境是统一体。在茶树生长发育过程中,由于当地小气候环境的不同以及栽培土壤肥力、营养元素的差别,相同的茶树品种在不同的栽培地区,茶鲜叶的内含成分种类与含量高低会发生一定的变化。当前,常用感官方法和工作经验来判别不同栽培地区的同一品种的茶鲜叶,但该方法同样存在主观性较强,且易出错。
发明内容
针对上述现有技术存在的问题,本发明提供一种利用近红外光谱技术,将线性的联合区间偏最小二乘法和非线性的人工神经网络方法相结合,用于准确的预测茶鲜叶的海拔高度、土壤类型和栽培地区等地理信息。
为实现上述目的,本发明采用如下技术方案:
一种利用近红外光谱判别茶鲜叶地理信息的方法,所述方法为利用具有不同地理信息茶鲜叶的近红外光谱建立预测模型,然后根据所建立的预测模型对未知茶鲜叶进行地理信息的判定;其特征在于:所述预测模型的建立方法为:通过扫描不同地理信息茶鲜叶样品的近红外光谱并将近红外光谱信息进行去噪处理后,应用线性的联合区间偏最小二乘法筛选反映不同地理信息茶鲜叶的特征光谱区间,再对筛选的特征光谱区间进行主成分分析,得到主成分数和主成分得分值,再以主成分得分值为输入值建立茶鲜叶地理信息的人工神经网络预测模型;所述地理信息为海拔高度、土壤类型、栽培地区的任意一种。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息预测模型的建立方法包括如下主要步骤:
1)茶鲜叶样品采集:分别采集不同地理信息的茶鲜叶样品;
2)茶鲜叶样品光谱扫描:应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;
3)光谱信息去噪处理:用OPUS 7.0软件对茶鲜叶样品的近红外光谱数据进行去噪处理,所述去噪处理为平滑;经平滑处理的光谱数据转化为成对的数据点,作为建模的光谱数据,每条光谱有1557对数据点,光谱数据点间隔为3.86 cm-1;然后对不同地理信息的茶鲜叶样品分别赋予不同的化学值;将建模的光谱数据和与其对应的化学值存储于excel表中;
4)茶鲜叶样品特征光谱区间筛选: 将步骤3)excel表中光谱数据的吸光度值和赋予的化学值导入到Matlab 2012a软件中,选用COMBIN函数计算建模总数,应用线性的联合区间偏最小二乘法程序包,将样品光谱等划分为10-25个子区间,联合其中的2,3和4个子区间分别建立近红外光谱预测模型,当RMSECV最小时,此时建模的光谱区间即为筛选的最佳特征光谱区间;
5)特征光谱区间主成分分析:应用Matlab 2012a软件中的主成分分析程序包对筛选的特征光谱区间进行主成分分析,得到每个主成分的单独贡献率值、累计贡献率值和主成分得分;
6)建立人工神经网络预测模型:以步骤5)中筛选的特征光谱区间主成分得分为输入值,以步骤3)中赋予的化学值为输出值,应用Neuro Shell 2软件建立Ward nets方法的人工神经网络预测模型;
根据所建立的预测模型对未知茶鲜叶进行地理信息的判定方法包括如下主要步骤:
a):应用傅里叶变换型近红外光谱仪扫描未知茶鲜叶样品的近红外光谱;
b):将步骤6)中已建好的人工神经网络预测模型调入Neuro Shell 2软件,应用该软件中的模型预测功能,得到输出值,根据输出值数据判定未知茶鲜叶样品的地理信息。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述的步骤1)中茶鲜叶样品包括:单芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤2)中的傅里叶变换型近红外光谱仪为美国赛默飞·世尔Antaris Ⅱ 型傅里叶变换近红外光谱仪,光谱扫描软件:TQ Analyst 9.4.45软件,光谱扫描范围4000-10000cm-1,分辨率8cm-1,检测器为InGaAs,每个样品采集3次光谱,每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为海拔高度时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 6 920],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;5368.85-5638.84 cm-1;6190.38-6460.36 cm-1;9194.93-9461.06 cm-1。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为土壤类型时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 1119 20],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9194.93-9461.06 cm-1。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为栽培地区时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 1119 22],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9734.9-10000 cm-1。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤5)中的主成分累计贡献率≥85%才可以有效代表样品光谱信息,用前3个主成分得分为输入值建立人工神经网络预测模型。
所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤6)中的人工神经网络预测模型为应用3个隐含层的Ward nets方法。
与现有技术相比,本发明的有益效果:
本发明提供一种利用近红外光谱判别茶鲜叶地理信息的方法,通过将线性的联合区间偏最小二乘法和非线性的人工神经网络相结合,用于准确的预测茶鲜叶的海拔高度、土壤类型和栽培地区。通过先剔除鲜叶样品噪声信息,然后应用线性联合区间偏最小二乘法筛选反映不同海拔高度、不同土壤类型和不同栽培地区等地理信息的茶鲜叶的特征光谱区间,有利于降低模型的运算量,增加模型的稳健性;再对筛选的特征光谱区间进行主成分分析,并以主成分得分为输入值建立判别茶鲜叶地理信息的人工神经网络预测模型,不仅达到大大降低模型运算量、简化模型的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的,研究结果也为成品茶质量保障提供了一种科学的依据。
附图说明
图1是本发明实施例1中应用联合区间偏最小二乘法筛选的特征光谱区间。
图2是本发明中Ward nets方法第1种信息传递方式内部结构(2个隐含层)。
图3是本发明中Ward nets方法第2种信息传递方式内部结构(3个隐含层)。
图4是本发明中Ward nets方法第3种信息传递方式内部结构(2个隐含层)。
图5是本发明实施例2中应用联合区间偏最小二乘法筛选的特征光谱区间。
图6是本发明实施例3中应用联合区间偏最小二乘法筛选的特征光谱区间。
具体实施方式
以下结合附图和具体实施例对本发明作进一步的详细说明。
实施例1:一种利用近红外光谱判别茶鲜叶海拔高度的方法
一种近红外光谱结合线性和非线性化学计量学方法判别不同海拔高度茶鲜叶的方法,扫描获得不同海拔高度鲜叶样品近红外光谱并对样品光谱进行预处理后,应用联合区间偏最小二乘法筛选反映不同海拔高度茶鲜叶样品的特征光谱区间和对特征光谱进行主成分分析后,再以主成分得分为输入值建立三种信息传递方式的不同海拔高度鲜叶人工神经网络预测模型,用于判别不同海拔高度的鲜叶,具体包括以下步骤:
(1)茶鲜叶样品采集与分类
鲜叶样品共400份,200m<鲜叶海拔≤500m,500m<鲜叶海拔≤850m,850m<鲜叶海拔≤1100m和1100m<鲜叶海拔≤1400m的4类不同海拔高度的鲜叶样品,每类样品各100份。鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶(每个海拔高度均采集了包括芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等不同成熟度茶鲜叶样品,每种成熟度茶鲜叶样品数量大致相等)。根据海拔高度的不同,鲜叶样品按照3:1的比例随机划分为校正集和验证集2个集合,其中校正集样品300份,验证集样品100份;校正集样品用于建立不同海拔高度鲜叶的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验。对4类不同海拔的茶鲜叶样品赋予不同的化学值,其中200m<鲜叶海拔≤500m赋值1.000,500m<鲜叶海拔≤850m赋值2.000,850m<鲜叶海拔≤1100m赋值3.000,1100m<鲜叶海拔≤1400m赋值4.000。
(2)光谱扫描
采用美国赛默飞·世尔 Antaris Ⅱ型傅里叶变换近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs。每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。在扫描鲜叶样品光谱前,将该近红外光谱仪预热30min-1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
(3)光谱信息去噪处理
应用OPUS 7.0化学计量学软件对扫描得到的不同海拔高度的鲜叶样品近红外光谱进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,提高建模时光谱的信噪比,有利于建立稳健的预测模型;在此基础上,将样品光谱转化为成对的数据点存储于excel表中,每条光谱有1557对数据点,光谱数据点间隔为3.86 cm-1,经比较模型结果,最佳光谱预处理方法为平滑。
(4)鲜叶特征光谱区间筛选
应用线性的联合区间偏最小二乘法(synergy interval partial least-squares,siPLS)建立4类海拔高度鲜叶的近红外光谱预测模型,当交互验证均方根方差(root meansquare error of calibration, RMSECV)最小时,此时建模的光谱区间即为筛选的反映不同海拔高度鲜叶的最佳光谱区间,得到校正集模型的相关系数值(correlationcoefficient of cross validation,Rc)。其中,RMSECV 越小,Rc越大,表示模型预测效果越好。
RMSECV计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
R计算公式为:
n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。
表1 联合区间偏最小二乘法筛选的特征光谱区间
从表1可以看出,将鲜叶样品光谱区间等划分为22个光谱子区间、应用8个因子数,选择[3 6 9 20 ]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.6886,模型的相关系数Rc为0.7912。[3 6 9 20]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;5368.85-5638.84 cm-1;6190.38-6460.36 cm-1;9194.93-9461.06 cm-1 (参见图1),占全部光谱数据点的比例为18.18%。
(5)特征光谱区间主成分分析
应用Matlab 2012a软件对上述筛选的4个特征光谱子区间[3 6 9 20]进行主成分分析,求得每个主成分的单独贡献率、累计贡献率和前三个主成分得分。前7个主成分的贡献率分别如下:
表2 前7个主成分贡献率
从表2可以看出,PC1贡献率最大,为95.858%,从PC1-PC7主成分贡献率急剧降低,PC6和PC7的贡献率仅为0.001%,可见,基本没有了有用信息。其中,PC1,PC2和PC3三个主成分的累计贡献率为99.973%,完全可以代表上述光谱信息用于后续数据分析。可见,筛选特征光谱区间对样品信息进行主成分提取起到了非常重要的作用。
表3 建模样品前3个主成分得分
(6)人工神经网络预测模型的建立
在建立人工神经网络模型时,为有效提高模型的稳健性,减少噪声信息的输入对模型的不利影响,要求建模时输入变量尽可能的少,但还要有效的代表原始光谱数据信息,因此,本模型以上述主成分分析筛选的前3个主成分得分为输入值,以不同海拔高度鲜叶赋值为输出值(200m<鲜叶海拔≤500m输出值为1.000,500m<鲜叶海拔≤850m输出值为2.000,850m<鲜叶海拔≤1100m输出值为3.000和1100 m<鲜叶海拔≤1400m输出值为4.000),经多次优化,建立不同海拔高度鲜叶的人工神经网络预测模型。在建立模型时,由于模型内部隐含层和输出层间信息传递方式的不同,会对模型预测效果产生较大的影响。在建立人工神经网络模型时,选择并分别比较了Ward nets方法的3种不同内部信息传递方法对模型预测结果的影响(包含不同的隐含层和活跃因子),具体参见图2,图3和图4。通过将前3个主成分得分分别输入到3种人工神经网络模型中,比较该三种模型相关系数Rc和交互验证均方根方差RMSECV值,得到最佳预测模型。最佳校正集模型为具有3个隐含层的Ward nets方法2人工神经网络模型,Rc为0.995,RMSECV为0.157。
(7)模型稳健性检验
为有效避免出现过拟合现象,建立一个稳健的预测模型,因此,应用全部验证集样品对不同海拔高度茶鲜叶的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction, Rp)、验证均方差(root mean square errorof prediction, RMSEP)和判别率表示,其中相关系数Rp越大、RMSEP越小则表示模型预测效果越好,可以准确的预测鲜叶样品;
RMSEP计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品实测值和预测值, 式中i≤n。
应用验证集100份样品对三种校正集模型进行检验,具体结果见表4:
表4 3种Ward nets方法人工神经网络模型验证集结果
从表4可以看出,不同海拔高度鲜叶Ward nets 方法第1种信息传递方式的人工神经网络模型校正集Rc为0.875, RMSECV为0.475,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.837,RMSEP为0.536;不同海拔高度鲜叶Ward nets 方法第2种信息传递方式的人工神经网络模型校正集Rc为0.995,RMSECV为0.157,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.988,RMSEP为0.178;不同海拔高度鲜叶Ward nets 方法第3种信息传递方式的人工神经网络模型校正集Rc为0.917,RMSECV为0.351,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.893,RMSEP为0.422。可见,在应用Ward nets方法但内部不同信息传递方式建立的人工神经网络模式中,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳,模型预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。可见,同样的方法,但内部信息传递方式的不同,会对建立模型的预测结果产生较大的影响,因此,建立模型时,要合理选择信息传递方式。
应用Ward nets方法2(3个隐含层)建立的最佳人工神经网络模型对100个验证集鲜叶样品进行预测,预测结果见表5。从表5可以看出,鲜叶样品真值和预测值的差值(偏差)全部在±0.2范围内,表明模型对所有样品预测正确,判别率为100%。可见,应用联合区间偏最小二乘法结合非线性的人工神经网络方法实现了不同海拔高度鲜叶样品的快速、准确判别。
表5 100个验证集鲜叶样品预测结果
(8)未知茶鲜叶样品海拔高度的判别
未知茶鲜叶样品海拔高度的判别其步骤同上述的模型稳健性检验,包括如下主要步骤:
a):应用傅里叶变换型近红外光谱仪扫描未知茶鲜叶样品的近红外光谱;
b):将上述(6)中已建好的人工神经网络预测模型调入Neuro Shell 2软件,应用该软件中的模型预测功能,得到输出值,根据输出值数据判定未知茶鲜叶样品的海拔高度来源。如输出值在1.000附近时判别结果为:200m<鲜叶海拔≤500m;输出值在2.000附近时判别结果为:500m<鲜叶海拔≤850m;输出值在3.000附近时判别结果为:850m<鲜叶海拔≤1100m;输出值在4.000附近时判别结果为:1100m<鲜叶海拔≤1400m赋值4.000。
本发明提供一种利用近红外光谱技术,将线性的联合区间偏最小二乘法和非线性的人工神经网络方法相结合,用于准确的预测不同海拔高度的茶鲜叶。先剔除鲜叶样品噪声信息,得到最佳光谱预处理方法为平滑;然后应用线性联合区间偏最小二乘法筛选特征光谱区间,将鲜叶样品光谱区间等划分为22个光谱子区间、应用8个因子数,选择[3 6 9 20]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.6886,模型的相关系数Rc为0.7912。[3 6 9 20]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;5368.85-5638.84 cm-1;6190.38-6460.36 cm-1;9194.93-9461.06 cm-1,有利于降低模型的运算量,增加模型的稳健性;再对筛选的特征光谱区间进行主成分分析,PC1,PC2和PC3三个主成分的累计贡献率为99.973%,以前3个主成分得分为输入值建立Ward nets方法的三种内部信息传递方式的人工神经网络预测模型,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳(Rp=0.988,RMSEP=0.178),预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。本发明专利不仅可以达到大大降低模型运算量、简化模型的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。
实施例2:一种利用近红外光谱判别茶鲜叶土壤类型的方法
一种近红外光谱结合线性和非线性化学计量学方法判别不同土壤类型茶鲜叶的方法,用于准确的判别不同土壤类型的茶鲜叶。扫描获得鲜叶样品近红外光谱,先剔除噪声信息,然后应用线性联合区间偏最小二乘法筛选特征光谱区间,有利于降低模型的运算量,增加模型的稳健性;再对筛选的特征光谱区间进行主成分分析,并以主成分得分为输入值建立人工神经网络预测模型判别不同土壤类型的鲜叶。具体包括以下步骤:
(1)茶鲜叶样品采集与分类
鲜叶样品共400份,红壤土、黄壤土和沙壤土的3类不同土壤类型的鲜叶样品,样品数量各为133份,133份和134份,3类共400份样品。鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶(每个土壤类型均采集了包括芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等不同成熟度茶鲜叶样品,每种成熟度茶鲜叶样品数量大致相等)。根据土壤类型的不同,鲜叶样品按照3:1的比例随机划分为校正集和验证集2个集合,其中校正集样品300份,验证集样品100份;校正集样品用于建立不同土壤类型鲜叶的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验。3类不同土壤类型鲜叶样品分别赋予不同的化学值,本实施例中将红壤土的化学值设定为1.000,黄壤土的化学值设定为2.000,沙壤土的化学值设定为3.000。
(2)光谱扫描
采用美国赛默飞·世尔Antaris Ⅱ型傅里叶变换近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs。每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。在扫描鲜叶样品光谱前,将该近红外光谱仪预热30min-1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
(3)光谱信息去噪处理
应用OPUS 7.0化学计量学软件对扫描得到的不同土壤类型的鲜叶样品近红外光谱进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,提高建模时光谱的信噪比,有利于建立稳健的预测模型;在此基础上,将样品光谱转化为成对的数据点存储于excel表中,每条光谱有1557对数据点,光谱数据点间隔为3.86 cm-1,经比较模型结果,最佳光谱预处理方法为平滑。
(4)鲜叶特征光谱区间筛选
应用线性的联合区间偏最小二乘法(synergy interval partial least-squares,siPLS)建立3类土壤类型鲜叶的近红外光谱预测模型,当交互验证均方根方差(root meansquare error of calibration, RMSECV)最小时,此时建模的光谱区间即为筛选的最佳光谱区间,得到校正集模型的相关系数值(correlation coefficient of crossvalidation,Rc)。其中,RMSECV 越小,Rc越大,表示模型预测效果越好。
RMSECV计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
R计算公式为:
n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。
表6 联合区间偏最小二乘法筛选的特征光谱区间
从表6可以看出,将鲜叶样品光谱区间等划分为22个光谱子区间、应用8个因子数,选择[3 11 19 20 ]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.5688,模型的相关系数Rc为0.7864。[3 11 19 20]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9194.93-9461.06 cm-1 (参见图5),占全部光谱数据点的比例为18.18%。
(5)特征光谱区间主成分分析
应用Matlab 2012a软件对上述筛选的4个特征光谱子区间[3 11 19 20]进行主成分分析,求得每个主成分的单独贡献率、累计贡献率和前三个主成分得分。前7个主成分的贡献率分别如下:
表7 前7个主成分贡献率
从表7可以看出,PC1贡献率最大,为93.720%,从PC1-PC7主成分贡献率急剧降低,PC6和PC7的贡献率仅为0.001%,可见,基本没有了有用信息。其中,PC1,PC2和PC3三个主成分的累计贡献率为99.964%,完全可以代表上述光谱信息用于后续数据分析。可见,筛选特征区间对样品信息进行主成分提取起到了非常重要的作用。
表8 建模样品前3个主成分得分
(6)人工神经网络预测模型的建立
在建立人工神经网络模型时,为有效提高模型的稳健性,减少噪声信息的输入对模型的不利影响,要求建模时输入变量尽可能的少,但还要有效的代表原始光谱数据信息,因此,本模型以上述主成分分析筛选的前3个主成分得分为输入值,以不同土壤类型鲜叶赋值为输出值(红壤土鲜叶输出值为1.000,黄壤土鲜叶输出值为2.000,沙壤土鲜叶输出值为3.000),经多次优化,建立不同土壤类型鲜叶的人工神经网络预测模型。在建立模型时,由于模型内部隐含层和输出层间信息传递方式的不同,会对模型预测效果产生较大的影响。在建立人工神经网络模型时,选择并分别比较了Ward nets方法的3种不同内部信息传递方法对模型预测结果的影响(包含不同的隐含层和活跃因子),具体参见图2,图3和图4。通过将前3个主成分得分(表8)分别输入到3种人工神经网络模型中,比较该三种模型相关系数Rc和交互验证均方根方差RMSECV值,得到最佳预测模型。最佳校正集模型为具有3个隐含层的Ward nets方法2人工神经网络模型,Rc为0.998,RMSECV为0.142。
(7)模型稳健性检验
为有效避免出现过拟合现象,建立一个稳健的预测模型,因此,应用全部验证集样品对不同土壤类型茶鲜叶的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction, Rp)、验证均方差(root mean square errorof prediction, RMSEP)和判别率表示,其中相关系数Rp越大、RMSEP越小则表示模型预测效果越好,可以准确的预测不同土壤类型的鲜叶样品;
RMSEP计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,式中i≤n。
应用验证集100份样品对三种校正集模型进行检验,具体结果见表9。
表9 3种Ward nets方法人工神经网络模型验证集结果
从表9可以看出,不同土壤类型鲜叶Ward nets 方法第1种信息传递方式的人工神经网络模型校正集Rc为0.914, RMSECV为0.411,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.878,RMSEP为0.475;不同土壤类型鲜叶Ward nets 方法第2种信息传递方式的人工神经网络模型校正集Rc为0.998,RMSECV为0.142,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.990,RMSEP为0.149;不同土壤类型鲜叶Ward nets 方法第3种信息传递方式的人工神经网络模型校正集Rc为0.932,RMSECV为0.314,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.913,RMSEP为0.420。可见,在应用Ward nets方法但内部不同信息传递方式建立的人工神经网络模式中,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳,模型预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。可见,同样的方法,但内部信息传递方式的不同,会对建立模型的预测结果产生较大的影响,因此,建立模型时,要合理选择信息传递方式。
应用Ward nets方法2(3个隐含层)建立的最佳人工神经网络模型对100个验证集鲜叶样品进行预测,预测结果见表10。从表10可以看出,鲜叶样品真值和预测值的差值(偏差)全部在±0.2范围内,表明模型对所有样品预测正确,判别率为100%。可见,应用联合区间偏最小二乘法结合非线性的人工神经网络方法实现了不同土壤类型鲜叶样品的快速、准确判别。
表10 100个验证集鲜叶样品预测结果
(8)未知茶鲜叶样品土壤类型的判别
未知茶鲜叶样品土壤类型的判别其步骤同上述的模型稳健性检验,包括如下主要步骤:
a):应用傅里叶变换型近红外光谱仪扫描未知茶鲜叶样品的近红外光谱;
b):将上述(6)中已建好的人工神经网络预测模型调入Neuro Shell 2软件,应用该软件中的模型预测功能,得到输出值,根据输出值数据判定未知茶鲜叶样品的产地土壤类型。如输出值在1.000附近时判别其为红壤土;输出值在2.000附近时判别其为黄壤土;输出值在3.000附近时判别其为沙壤土。
本发明提供一种利用近红外光谱技术,将线性的联合区间偏最小二乘法和非线性的人工神经网络方法相结合,用于准确的预测不同土壤类型的茶鲜叶。先剔除鲜叶样品噪声信息,得到最佳光谱预处理方法为平滑;然后应用线性联合区间偏最小二乘法筛选特征光谱区间,将鲜叶样品光谱区间等划分为22个光谱子区间、应用8个因子数,选择[3 11 1920 ]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.5688,模型的相关系数Rc为0.7684。[3 11 19 20]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9194.93-9461.06 cm-1,有利于降低模型的运算量,增加模型的稳健性;再对筛选的特征光谱区间进行主成分分析,PC1,PC2和PC3三个主成分的累计贡献率为99.964%,以前3个主成分得分为输入值建立Ward nets方法的三种内部信息传递方式的人工神经网络预测模型,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳(Rp=0.990,RMSEP=0.149),预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。本发明专利不仅可以达到大大降低模型运算量、简化模型的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。
实施例3:一种利用近红外光谱判别茶鲜叶栽培地区的方法
本实施例提供了一种近红外光谱结合线性和非线性化学计量学方法判别不同栽培地区同一品种茶鲜叶的方法,扫描获得不同栽培地区同一品种鲜叶样品近红外光谱并对样品光谱进行预处理后,应用联合区间偏最小二乘法筛选反映不同栽培地区同一品种茶鲜叶样品的特征光谱区间并对特征光谱进行主成分分析,再以主成分得分为输入值建立三种信息传递方式的不同栽培地区同一品种鲜叶人工神经网络预测模型,用于判别不同栽培地区同一品种的鲜叶,具体包括以下步骤:
(1)鲜叶样品采集与分类
鲜叶样品共400份,采摘时间为2017.3.4-2017.4.27,咸宁市、利川市和宣恩县的3个栽培地区中茶108鲜叶样品,样品数量各为133份,133份和134份,3类共400份样品。鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶(每个栽培地区均采集了包括芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等不同成熟度茶鲜叶样品,每种成熟度茶鲜叶样品数量大致相等)。根据栽培地区不同,鲜叶样品按照3:1的比例随机划分为校正集和验证集2个集合,其中校正集样品300份,验证集样品100份;校正集样品用于建立3个地区中茶108茶鲜叶的近红外光谱校正模型,验证集样品用于对校正集预测模型稳健性进行检验。对3个不同栽培地区分别赋予不同的化学值,将咸宁市、利川市和宣恩县的茶鲜叶样品化学值分别设定为1.000,2.000和3.000。
(2)光谱扫描
采用美国赛默飞·世尔 Antaris Ⅱ型傅里叶变换近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs。每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。在扫描鲜叶样品光谱前,将该近红外光谱仪预热30min-1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。
(3)光谱信息去噪处理
应用OPUS 7.0化学计量学软件对扫描得到的3个地区中茶108鲜叶样品近红外光谱进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,提高建模时光谱的信噪比,有利于建立稳健的预测模型;在此基础上,将样品光谱转化为成对的数据点存储于excel表中,每条光谱有1557对数据点,光谱数据点间隔为3.86 cm-1,经比较模型结果,最佳光谱预处理方法为平滑。
(4)鲜叶特征光谱区间筛选
应用线性的联合区间偏最小二乘法(synergy interval partial least-squares,siPLS)建立3个地区中茶108鲜叶的近红外光谱预测模型,当交互验证均方根方差(rootmean square error of calibration, RMSECV)最小时,此时建模的光谱区间即为筛选的最佳光谱区间,得到校正集模型的相关系数值(correlation coefficient of crossvalidation,Rc)。其中,RMSECV 越小,Rc越大,表示模型预测效果越好。
RMSECV计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;
R计算公式为:
n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。
表11 联合区间偏最小二乘法筛选的特征光谱区间
从表11可以看出,将鲜叶样品光谱区间等划分为22个光谱子区间、应用7个因子数,选择[3 11 19 22 ]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.5853,模型的相关系数Rc为0.6918。[3 11 19 22]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9734.9-10000 cm-1 (参见图6),占全部光谱数据点的比例为18.18%。
(5)特征光谱区间主成分分析
应用Matlab 2012a软件对上述筛选的4个特征光谱子区间[3 11 19 22]进行主成分分析,求得每个主成分的单独贡献率、累计贡献率和前三个主成分得分。前7个主成分的贡献率分别如下:
表12 前7个主成分贡献率
从表12可以看出,PC1贡献率最大,为92.120%,从PC1-PC7主成分贡献率急剧降低,PC6和PC7的贡献率仅为0.001%,可见,基本没有了有用信息。其中,PC1,PC2和PC3三个主成分的累计贡献率为99.164%,完全可以代表上述光谱信息用于后续数据分析。可见,筛选特征光谱区间对样品信息进行主成分提取起到了非常重要的作用。
表13 建模样品前3个主成分得分
(6)人工神经网络预测模型的建立
在建立人工神经网络模型时,为有效提高模型的稳健性,减少噪声信息的输入对模型的不利影响,要求建模时输入变量尽可能的少,但还要有效的代表原始光谱数据信息,因此,本模型以上述主成分分析筛选的前3个主成分得分为输入值,以不同栽培地区中茶108鲜叶为输出值(咸宁市中茶108鲜叶输出值为1.000,利川市中茶108鲜叶输出值为2.000,宣恩县中茶108鲜叶输出值为3.000),经多次优化,应用Neuro Shell 2软件建立3个地区中茶108鲜叶的人工神经网络预测模型。在建立模型时,由于模型内部隐含层和输出层间信息传递方式的不同,会对模型预测效果产生较大的影响。在建立人工神经网络模型时,选择并分别比较了Ward nets方法的3种不同内部信息传递方法对模型预测结果的影响(包含不同的隐含层和活跃因子),具体参见图2,图3和图4。通过将前3个主成分分别输入到3种人工神经网络模型中,比较该三种模型相关系数Rc和交互验证均方根方差RMSECV值,得到最佳预测模型。最佳校正集模型为具有3个隐含层的Ward nets方法2人工神经网络模型,Rc为0.996,RMSECV为0.144。
(7)模型稳健性检验
为避免出现过拟合现象,建立一个稳健的预测模型,因此,应用全部验证集样品对不同栽培地区同一品种茶鲜叶的人工神经网络预测模型效果进行检验,所得结果用相关系数(correlation coefficient of prediction,Rp)、验证均方差(root mean square errorof prediction, RMSEP)和判别率表示,其中相关系数Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测不同栽培地区同一品种的鲜叶样品。
RMSEP计算公式为:
式中, n表示样本数,yi 和 y i ’ 分别为样品集中第i个样品的实测值和预测值,式中i≤n。
应用验证集100份样品对三种校正集模型进行检验,具体结果见表14。
表14 3种Ward nets方法人工神经网络模型验证集结果
从表14可以看出,3个栽培地区中茶108鲜叶Ward nets 方法第1种信息传递方式的人工神经网络模型校正集Rc为0.894, RMSECV为0.473,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.840,RMSEP为0.523;3个栽培地区中茶108鲜叶Ward nets 方法第2种信息传递方式的人工神经网络模型校正集Rc为0.996,RMSECV为0.144,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.993,RMSEP为0.148;3个栽培地区中茶108鲜叶Ward nets 方法第3种信息传递方式的人工神经网络模型校正集Rc为0.910,RMSECV为0.352,当用全部100个验证集样品对模型稳健性进行检验时,得到验证集模型Rp为0.905,RMSEP为0.372。可见,在应用Ward nets方法但内部不同信息传递方式建立的人工神经网络模式中,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳,模型预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。可见,同样的方法,但内部信息传递方式的不同,会对建立模型的预测结果产生较大的影响,因此,建立模型时,要合理选择信息传递方式。
应用Ward nets方法2(3个隐含层)建立的最佳人工神经网络模型对100个验证集鲜叶样品进行预测,预测结果见表15。从表15可以看出,鲜叶样品真值和预测值的差值(偏差)全部在±0.2范围内,表明模型对所有样品预测正确,判别率为100%。可见,应用联合区间偏最小二乘法结合非线性的人工神经网络方法实现了对3个栽培地区中茶108鲜叶样品的快速、准确判别。
表15 100个验证集鲜叶样品预测结果
(8)未知茶鲜叶样品栽培地区的判别
同一品种未知茶鲜叶样品栽培地区的判别其步骤同上述的模型稳健性检验,包括如下主要步骤:
a):应用傅里叶变换型近红外光谱仪扫描未知茶鲜叶样品的近红外光谱;
b):将上述(6)中已建好的人工神经网络预测模型调入Neuro Shell 2软件,应用该软件中的模型预测功能,得到输出值,根据输出值数据判定未知茶鲜叶样品的栽培地区。如输出值在1.000附近时判别为咸宁市;输出值在2.000附近时判别其栽培地为利川市;输出值在3.000附近时判别其栽培地为宣恩县。此外,本发明提供的方法还可以应用于其他茶叶栽培地的判别,此时只需增加采集相应栽培地区的茶叶样品进行建模(建模步骤同上,不再赘述),然后再运用建立的模型进行其栽培地区的判别。
本发明提供一种利用近红外光谱技术,将线性的联合区间偏最小二乘法和非线性的人工神经网络方法相结合,用于准确的预测不同栽培地区同一品种的茶鲜叶。先剔除鲜叶样品噪声信息,得到最佳光谱预处理方法为平滑;然后应用线性联合区间偏最小二乘法筛选特征光谱区间,将鲜叶样品光谱区间等划分为22个光谱子区间、应用7个因子数,选择[3 11 19 22 ]4个子区间时,建立的近红外光谱预测模型RMSECV最小,为0.5853,模型的相关系数Rc为0.6918。[3 11 19 22]4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9734.9-10000 cm-1,有利于降低模型的运算量,增加模型的稳健性;再对筛选的特征光谱区间进行主成分分析,PC1,PC2和PC3三个主成分的累计贡献率为99.164%,以前3个主成分为输入值建立Ward nets方法的三种内部信息传递方式的人工神经网络预测模型,以Ward nets方法2(3个隐含层)建立的人工神经网络模型结果最佳(Rp=0.993,RMSEP=0.148),预测效果最好;其次为Ward nets方法3(2个隐含层)建立的人工神经网络模型,最差为应用Ward nets方法1(2个隐含层)建立的人工神经网络模型。本发明专利不仅可以达到大大降低模型运算量、简化模型的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,上述结构都应当视为属于本发明的保护范围。
Claims (9)
1.一种利用近红外光谱判别茶鲜叶地理信息的方法,所述方法为利用具有不同地理信息茶鲜叶的近红外光谱建立预测模型,然后根据所建立的预测模型对未知茶鲜叶进行地理信息的判定;其特征在于:所述预测模型的建立方法为:通过扫描不同地理信息茶鲜叶样品的近红外光谱并将近红外光谱信息进行去噪处理后,应用线性的联合区间偏最小二乘法筛选反映不同地理信息茶鲜叶的特征光谱区间,再对筛选的特征光谱区间进行主成分分析,得到主成分数和主成分得分值,再以主成分得分值为输入值建立茶鲜叶地理信息的人工神经网络预测模型;所述地理信息为海拔高度、土壤类型、栽培地区的任意一种。
2.根据权利要求1所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息预测模型的建立方法包括如下主要步骤:
1)茶鲜叶样品采集:分别采集不同地理信息的茶鲜叶样品;
2)茶鲜叶样品光谱扫描:应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;
3)光谱信息去噪处理:用OPUS 7.0软件对茶鲜叶样品的近红外光谱数据进行去噪处理,所述去噪处理为平滑;经平滑处理的光谱数据转化为成对的数据点,作为建模的光谱数据,每条光谱有1557对数据点,光谱数据点间隔为3.86 cm-1;然后对不同地理信息的茶鲜叶样品分别赋予不同的化学值;将建模的光谱数据和与其对应的化学值存储于excel表中;
4)茶鲜叶样品特征光谱区间筛选: 将步骤3)excel表中光谱数据的吸光度值和赋予的化学值导入到Matlab 2012a软件中,选用COMBIN函数计算建模总数,应用线性的联合区间偏最小二乘法程序包,将样品光谱等划分为10-25个子区间,联合其中的2,3和4个子区间分别建立近红外光谱预测模型,当RMSECV最小时,此时建模的光谱区间即为筛选的最佳特征光谱区间;
5)特征光谱区间主成分分析:应用Matlab 2012a软件中的主成分分析程序包对筛选的特征光谱区间进行主成分分析,得到每个主成分的单独贡献率值、累计贡献率值和主成分得分;
6)建立人工神经网络预测模型:以步骤5)中筛选的特征光谱区间主成分得分为输入值,以步骤3)中赋予的化学值为输出值,应用Neuro Shell 2软件建立Ward nets方法的人工神经网络预测模型;
根据所建立的预测模型对未知茶鲜叶进行地理信息的判定方法包括如下主要步骤:
a):应用傅里叶变换型近红外光谱仪扫描未知茶鲜叶样品的近红外光谱;
b):将步骤6)中已建好的人工神经网络预测模型调入Neuro Shell 2软件,应用该软件中的模型预测功能,得到输出值,根据输出值数据判定未知茶鲜叶样品的地理信息。
3.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述的步骤1)中茶鲜叶样品包括:单芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。
4.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤2)中的傅里叶变换型近红外光谱仪为美国赛默飞·世尔Antaris Ⅱ 型傅里叶变换近红外光谱仪,光谱扫描软件:TQ Analyst 9.4.45软件,光谱扫描范围4000-10000cm-1,分辨率8cm-1,检测器为InGaAs,每个样品采集3次光谱,每次扫描64次,然后对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。
5.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为海拔高度时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 6 9 20],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;5368.85-5638.84 cm-1;6190.38-6460.36 cm-1;9194.93-9461.06 cm-1。
6.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为土壤类型时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 11 19 20],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9194.93-9461.06 cm-1。
7.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述地理信息为栽培地区时,所述步骤4)中筛选的最佳特征光谱区间包括4个子区间,分别为[3 11 19 22],4个子区间对应的波数区间分别为:4547.32-4817.31cm-1;6738.06-7008.05cm-1;8924.94-9191.07 cm-1;9734.9-10000 cm-1。
8.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤5)中的主成分累计贡献率≥85%才可以有效代表样品光谱信息,用前3个主成分得分为输入值建立人工神经网络预测模型。
9.根据权利要求2所述的一种利用近红外光谱判别茶鲜叶地理信息的方法,其特征在于:所述步骤6)中的人工神经网络预测模型为应用3个隐含层的Ward nets方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972858.2A CN109001147A (zh) | 2018-08-24 | 2018-08-24 | 一种利用近红外光谱判别茶鲜叶地理信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810972858.2A CN109001147A (zh) | 2018-08-24 | 2018-08-24 | 一种利用近红外光谱判别茶鲜叶地理信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109001147A true CN109001147A (zh) | 2018-12-14 |
Family
ID=64594379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810972858.2A Withdrawn CN109001147A (zh) | 2018-08-24 | 2018-08-24 | 一种利用近红外光谱判别茶鲜叶地理信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109001147A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109781949A (zh) * | 2019-01-15 | 2019-05-21 | 江苏大学 | 一种基于视觉、嗅觉和味觉传感信息融合的茶叶原产地的判别方法 |
CN110057761A (zh) * | 2019-03-01 | 2019-07-26 | 江苏中车环保设备有限公司 | 一种全光谱结合快速易测指标的水质在线监测系统与方法 |
CN110186871A (zh) * | 2019-06-25 | 2019-08-30 | 湖北省农业科学院果树茶叶研究所 | 一种茶鲜叶产地的判别方法 |
CN110186870A (zh) * | 2019-06-25 | 2019-08-30 | 湖北省农业科学院果树茶叶研究所 | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 |
CN110308111A (zh) * | 2019-06-14 | 2019-10-08 | 湖北省农业科学院果树茶叶研究所 | 一种应用近红外光谱技术快速预测远安黄茶闷黄时间的方法 |
CN110308110A (zh) * | 2019-06-14 | 2019-10-08 | 湖北省农业科学院果树茶叶研究所 | 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 |
-
2018
- 2018-08-24 CN CN201810972858.2A patent/CN109001147A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109781949A (zh) * | 2019-01-15 | 2019-05-21 | 江苏大学 | 一种基于视觉、嗅觉和味觉传感信息融合的茶叶原产地的判别方法 |
CN110057761A (zh) * | 2019-03-01 | 2019-07-26 | 江苏中车环保设备有限公司 | 一种全光谱结合快速易测指标的水质在线监测系统与方法 |
CN110308111A (zh) * | 2019-06-14 | 2019-10-08 | 湖北省农业科学院果树茶叶研究所 | 一种应用近红外光谱技术快速预测远安黄茶闷黄时间的方法 |
CN110308110A (zh) * | 2019-06-14 | 2019-10-08 | 湖北省农业科学院果树茶叶研究所 | 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 |
CN110308110B (zh) * | 2019-06-14 | 2022-05-06 | 湖北省农业科学院果树茶叶研究所 | 基于最小二乘支持向量机的远安黄茶闷黄时间的无损预测方法 |
CN110186871A (zh) * | 2019-06-25 | 2019-08-30 | 湖北省农业科学院果树茶叶研究所 | 一种茶鲜叶产地的判别方法 |
CN110186870A (zh) * | 2019-06-25 | 2019-08-30 | 湖北省农业科学院果树茶叶研究所 | 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109001147A (zh) | 一种利用近红外光谱判别茶鲜叶地理信息的方法 | |
CN110082300B (zh) | 基于光谱参量的冬小麦冠层含水率监测模型建立方法 | |
Li et al. | Discriminating varieties of tea plant based on Vis/NIR spectral characteristics and using artificial neural networks | |
Gilabert et al. | Analyses of spectral-biophysical relationships for a corn canopy | |
Haboudane et al. | Remote estimation of crop chlorophyll content using spectral indices derived from hyperspectral data | |
CN110376167A (zh) | 基于无人机高光谱的水稻叶片氮含量监测方法 | |
CN108872132A (zh) | 一种利用近红外光谱判别茶鲜叶品种的方法 | |
Galvão et al. | Crop Type Discrimination Using Hyperspectral Data: Advances and Perspectives | |
CN107796764A (zh) | 一种基于三波段植被指数的小麦叶面积指数估算模型的构建方法 | |
CN110398466A (zh) | 基于遥感反演的农作物生长状态监测方法 | |
CN110308111B (zh) | 一种应用近红外光谱技术快速预测远安黄茶闷黄时间的方法 | |
Phillips et al. | Estimating winter wheat tiller density using spectral reflectance sensors for early‐spring, variable‐rate nitrogen applications | |
CN107421911A (zh) | 一种基于便携式近红外光谱仪的土壤氮素检测的预处理方法 | |
Sonmez et al. | Measuring intensity of tillage and plant residue cover using remote sensing | |
CN110006844A (zh) | 基于函数性主元分析的近红外光谱特征提取方法和系统 | |
CN112287886B (zh) | 基于高光谱图像融合图谱特征的小麦植株氮含量估测方法 | |
Lee et al. | Assessing nitrogen stress in corn varieties of varying color | |
CN111044516A (zh) | 一种水稻叶绿素含量遥感估测方法 | |
Marino et al. | Hyperspectral vegetation indices for predicting onion (Allium cepa L.) yield spatial variability | |
Hatfield et al. | Spatial patterns of water and nitrogen response within corn production fields | |
Xie et al. | Spectral reflectance response to nitrogen fertilization in field grown corn | |
Viana et al. | Optical sensors for precision agriculture: An outlook | |
CN106442400A (zh) | 一种近红外光谱快速判定不同土壤类型茶鲜叶的方法 | |
Tang et al. | Research on potato (Solanum tuberosum L.) nitrogen nutrition diagnosis based on hyperspectral data | |
Volterrani et al. | Effects of nitrogen nutrition on bermudagrass spectral reflectance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181214 |