CN112906939B - 一种无花果采收时间点的预测方法 - Google Patents
一种无花果采收时间点的预测方法 Download PDFInfo
- Publication number
- CN112906939B CN112906939B CN202110065325.8A CN202110065325A CN112906939B CN 112906939 B CN112906939 B CN 112906939B CN 202110065325 A CN202110065325 A CN 202110065325A CN 112906939 B CN112906939 B CN 112906939B
- Authority
- CN
- China
- Prior art keywords
- maturity
- value
- time point
- sample
- near infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003306 harvesting Methods 0.000 title claims abstract description 31
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 27
- 235000013399 edible fruits Nutrition 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 239000000523 sample Substances 0.000 description 35
- 238000001228 spectrum Methods 0.000 description 14
- 238000005259 measurement Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 244000025361 Ficus carica Species 0.000 description 3
- 235000008730 Ficus carica Nutrition 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000218218 Ficus <angiosperm> Species 0.000 description 1
- 241000218231 Moraceae Species 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 238000002835 absorbance Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 150000008442 polyphenolic compounds Chemical class 0.000 description 1
- 235000013824 polyphenols Nutrition 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本公开涉及一种无花果采收时间点的预测方法,包括:(1)将通过随机森林算法获得的F值向量进行最大最小标准化,将F数据范围化到[0,1],则为成熟度(%);(2)基于近红外光谱预测待测样品的F值:(3)计算待测样品的成熟度:(4)以成熟度为输入变量X,预设时间点为输出变量Y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。本公开采用随机森林算法建立综合评价值F与近红外光谱之间的预测模型,以及采用多项式拟合方法得出无花果采收时间点预测模型,该预测方法快速、方便和准确。
Description
技术领域
本公开涉及一种无花果采收时间点的预测方法。
背景技术
公开该背景技术部分的信息仅仅旨在增加对本公开的总体背景的一些理解,而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。
无花果(Ficus carica Linn.),属于桑科榕属,起源于中东是人类最早种植的植物之一,并且是全世界用于干燥和新鲜食用的重要农作物。无花果富含纤维、多糖、多酚、铁,钾和钙等微量元素的营养水果。无花果果肉柔软,味甜,具有健脾清肠、润肺利咽和提高免疫力等功效。
目前确定无花果较佳采收时间是主要是根据经验和目测判断,获得的结果缺乏一定的客观性和准确性,难以在现代生产和营销中心应用。随着无花果产业规模化和集约化进程的加快,传统的采收时间点的预测技术已经不能适应无花果产业发展的需求。
发明内容
针对以上背景技术,本公开提出一种无花果采收时间点的预测方法,该预测方法快速、方便和准确。
具体的,本公开采用以下技术方案:
在本公开的第一个方面,提供一种关于预测无花果采收时间点的F值预测模型的建立方法,该方法包括以下步骤:
采用随机森林算法,输入变量为近红外光谱矩阵X,变量X构成CART决策树的特征空间,综合指标F值向量为输出变量Y,建立F值预测模型;
其中,近红外光谱为训练集中无花果预处理后的近红外光谱值;
综合评价值F是通过以下方法计算得到的:
对训练集中无花果糖度、单果重、横径、纵径和硬度指标进行主成分分析(PCA),统计其成分得分系数矩阵和各成分的贡献率,通过成分得分系数矩阵建立各主成分的计算表达式;
在本公开的第二个方面,提供一种无花果采收时间点的预测方法,该方法包括以下步骤:
(1)将第一个方面中所述的建立方法获得的F值向量进行最大最小标准化,将F数据范围化到[0,1],则为成熟度(%);计算公式为:
成熟度(%)=(F-min(F))/(max(F)-min(F));
(2)基于近红外光谱预测待测样品的F值:
测定待测样品的近红外光谱,然后对测定的近红外光谱数据进行预处理,通过所述F值预测模型,获得待测样品的F值;
(3)计算待测样品的成熟度:
将步骤(2)中的待测样品的F值代入步骤(1)中所述成熟度的计算公式,获得待测样品的成熟度;
(4)以成熟度为输入变量X,预设时间点为输出变量Y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。
与本发明人知晓的相关技术相比,本公开其中的一个技术方案具有如下有益效果:
本公开采用随机森林算法建立综合评价值F与近红外光谱之间的预测模型,随机森林算法是一种灵活的,便于使用的机器学习算法,在本公开中,即使没有超参数调整,也会产生较好的效果,且具有强大的拟合能力和不易过拟合的性能,算法稳定。
采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的判定系数(拟合优度)接近1,误差较小,表明采用综合评价F值关联生长天数和近红外光谱得到的预测模型能够较好地预测无花果采收时间点。
附图说明
构成本公开一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是无花果的原始光谱。
图2是无花果成熟度和实际生长天数的多项式拟合曲线。
图3是无花果真实生长天数与预测生长天数的散点分布图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作和/或它们的组合。
正如背景技术所介绍的,目前现有的无花果采收时间点的预测方法存在不准确和不客观等缺点,为了解决如上的技术问题,本公开的基本思路是:先选择一个样本群体,根据样本群体的特征指标-无花果糖度、单果重、横径、纵径和硬度进行主成分分析,通过主成分分析降维得到个数较少的主成分指标,根据各主成分指标计算特征值F(或称综合指标F值),通过大量试验验证,特征值F与成熟度存在一定线性关系,通过将特征值F进行标准化,将标准化后的特征值F与生长天数进行关联,即可获得成熟度与生长天数的关系;而样本群体的特征指标-无花果糖度、单果重、横径、纵径和硬度与近红外光谱具有一定的关系,从而建立近红外光谱与特征值F的联系。基于此,在本公开的第一个典型的实施方式中,提供一种关于预测无花果采收时间点的F值预测模型的建立方法,该方法包括以下步骤:
采用随机森林算法,输入变量为近红外光谱矩阵X,变量X构成CART决策树的特征空间,综合指标F值向量为输出变量Y,建立F值预测模型;
其中,近红外光谱为训练集中无花果预处理后的近红外光谱值;
综合评价值F是通过以下方法计算得到的:
对训练集中无花果糖度、单果重、横径、纵径和硬度指标进行主成分分析(PCA),统计其成分得分系数矩阵和各成分的贡献率,通过成分得分系数矩阵建立各主成分的计算表达式;
在本公开的一个或一些实施方式中,所述方法基于Python的scikit-learn库进行建模。
在本公开的一个或一些实施方式中,随机森林算法模型中选择基学习器数量为100,随机数种子为0。
在本公开的一个或一些实施方式中,输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,...,xm组成,m为波长数,变量X构成CART决策树的特征空间;综合指标F值向量为输出变量Y,由n个因变量y1,y2,...,yn组成,n为样本个数;n个样本作为训练集数据构成训练样本空间,则训练数据集D为:
D={(x1,y1),(x2,y2),...,(xn,yn)}。在本公开的一个实施例中,m为125,n为252。
在本公开的一个或一些实施方式中,选取939.07-1025.79nm、1149.68-1236.40nm、1422.23-1508.95nm或全波段光谱进行建模。优选的,选择全波段光谱(900-1700nm)进行建模。
在本公开的一个或一些实施方式中,对近红外光谱进行预处理的方法包括但不限于:未处理(原始)、多元散射校正(MSC)、标准正态变量(SNV)、Baseline、Baseline+SNV、Smoothing、1阶导数+MSC、2阶导数+MSC。经过验证,smoothing预处理后的全波段光谱结果较好(Rp^2=0.8798,RMSEP=0.2832)较高的R^2和较低误差,该模型较为优良。
在本公开的一个或一些实施方式中,
在本公开的一个实施例中,将252个无花果样本作为训练集。
在本公开的一个实施例中,总样本数为360个,将样本分为两份,比例为7:3,将70%作为训练集,30%作为测试集。
在本公开的第二个典型的实施方式中,提供一种无花果采收时间点的预测方法,该方法包括以下步骤:
(1)将第一个典型的实施方式中所述的建立方法获得的F值向量进行最大最小标准化,将F数据范围化到[0,1],则为成熟度(%);计算公式为:
成熟度(%)=(F-min(F))/(max(F)-min(F));
(2)基于近红外光谱预测待测样品的F值:
测定待测样品的近红外光谱,然后对测定的近红外光谱数据进行预处理,基于随机森林算法,通过所述F值预测模型,获得待测样品的F值;
(3)计算待测样品的成熟度:
将步骤(2)中的待测样品的F值代入步骤(1)中所述成熟度的计算公式,获得待测样品的成熟度;
(4)以成熟度为输入变量X,预设时间点(实际生长天数)为输出变量Y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。
在本公开的一个或一些实施方式中,步骤(2)中,选取939.07-1025.79nm、1149.68-1236.40nm、1422.23-1508.95nm以及全波段光谱(900-1700nm)四个波段测定待测样品的近红外光谱。优选的,选择全波段光谱(900-1700nm)测定待测样品的近红外光谱。
在本公开的一个或一些实施方式中,步骤(2)中,对近红外光谱进行预处理的方法包括但不限于:未处理(原始)、多元散射校正(MSC)、标准正态变量(SNV)、Baseline、Baseline+SNV、Smoothing、1阶导数+MSC、2阶导数+MSC。对测定的近红外光谱数据优先选择采用Smoothing进行预处理。
在本公开的一个或一些实施方式中,步骤(4)中,根据每一个样本的成熟度对每个样本设立生长时间,经由实验观测,果实生长至成熟为d天,则设立生长时间点的范围在[10,d],由于成熟度过于低的果实可根据人工判断,则本预测方法采用成熟度>50%的样本,并采用多项式拟合。在本公开的一个实施例中,d优选为60。
进一步的,多项式拟合采用excel完成。
在本公开的一个实施例中,步骤(4)中,无花果采收时间点预测模型y=1.0373x-32.187,R2=0.8963,RMSEP=3.47。
为了使得本领域技术人员能够更加清楚地了解本公开的技术方案,以下将结合具体的实施例详细说明本公开的技术方案。
实施例1
1材料与试验方法
1.1试验材料
无花果取自山东荣成。样本采集后立即送检,光谱扫描完成后立即用质构仪测定无花果质构。然后在-4℃的低温环境下保存,并于当日完成检测。
1.2光谱采集
使用MircoNIR近红外光谱仪(美国海洋光学公司)。在测量之前,仪器需预热1小时。测量时于白天正常情况下进行,保证近红外光纤探头尽量与被测无花果样品表面接触,避免表面反射和空气干扰。测量系统采用漫反射模式;对于每个无花果样品,在沿着无花果赤道随机选择的5个不同位置获得光谱,每个位置扫描1000次。因此,每个得到5个数据,并将平均值作为该样品的光谱。
1.3样本的糖度、单果重、横径、纵径和硬度的测定
糖度测量采用手持式糖度计测定,糖度测定时进行3次平行实验,最后取平均值。
单果重测量工具为天平。
横纵经测量工具为普通的游标卡尺。
硬度测定采用质构仪(TA.XT plus型,英国Stable Micro Systems公司),使用P100探头。测定的参数设置为:下降速度与测试速度为1.0mm/s,提升速度为1.0mm/s,测试深度30.0mm,记录探入过程中所需的应力(g)。所得质构特征曲线图的最大正峰值为硬度。
2模型方法
2.1F值预测模型
为了消除指标之间的相关影响,减少指标选择的工作量对于其他评价方法,研究使用对所有指标进行PCA,并使用综合评价函数计算其综合评价值F,其反映了该主成分包含原始数据的信息量占全部信息量的比重,权数为贡献率,这样确定权数是客观的,合理的,它克服了某些评价方法中认为确定权数的缺陷,通过综合评价值F可很好的评价多个指标。
2.2采收时间点预测模型
本研究采用多项式建立对预设时间点和成熟度之间的关系式。多项式拟合实现简单,通过对阶数的调整,可得到合适的模型。
3数据分析
3.1样本数据
随机森林算法模型总样本数为360个,将样本分为两份,比例为7:3。将70%作为训练集,30%作为测试集(以下建模实验皆在此划分上)。
3.2主成分分析
训练集对糖度、单果重、横径、纵径和硬度指标进行PCA,统计其成分得分系数矩阵,各成分的贡献率。通过成分的得分矩阵可建立各主成分的计算表达式,并通过此表达式计算出剩余测试集样本的各主成分。
3.3综合评价值F与成熟度计算
由于F值范围有正有负,则将F值向量进行最大最小标准化,将F数据范围化到[0,1],则为成熟度(%)。计算公式为:
成熟度(%)=(F-min(F))/(max(F)-min(F))
3.4F值预测模型
研究基于Python的scikit-learn库进行建模。对于随机森林算法,输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,...,xm组成,m为波长数,变量X构成CART决策树的特征空间;综合指标F值向量为输出变量Y,由n个因变量y1,y2,...,yn组成,n为样本个数。针对于本研究,共计样本数360个,由以上分出的训练集70%,预测集30%作为划分。n个样本作为训练集数据构成训练样本空间,则训练数据集D为:
D={(x1,y1),(x2,y2),...,(xn,yn)}
光谱采用多种预处理方法及其组合,原始,MSC,SNV,Baseline,Baseline+SNV,Smoothing,1阶导+MSC,2阶导+MSC。
3.5时间点拟合模型
根据每一个样本的成熟度对每个样本设立生长时间,经由实验观测,果实生长至成熟为60天,则设立生长时间点的范围在[10,60],由于成熟度过于低的果实可根据人工判断,则本文采用成熟度>50%的样本,并采用多项式拟合。多项式拟合实现简单,直接采用excel完成,将预测出来的F值经公式计算成熟度,以成熟度为输入变量X,预设时间点为输出变量Y,使用样本共计231个,其中173个样本作为训练集,剩下的58个作为验证集。(将以上划分的训练集和验证集剔除成熟度<50%的样本后)
4模型评价
使用模型的决定系数R2来衡量模型的拟合优劣,同时使用训练集与实际值的偏差(RMSEC)和验证集和实际值的偏差(RMSEP)评估模型的性能。均方根误差是预测值与实际值的偏差的平方和样本数N的比值的平方根,用于评价模型的整体性能,均方根误差的计算公式为:
决定R2的计算公式为:
5实验结果
5.1近红外光谱波段的选择
图1为光谱波长范围在950-1700nm所测得的无花果近红外光谱原始图。由图可知,光谱趋势非常相似,主要吸收峰位于970nm、1119.24nm、1459.40nm处,且1459.40nm处较为强烈,三者间存在不同的吸收率。970nm处是由于水和碳水化合物的吸收;1119.24nm属于C-H键的第二泛音和O-H键的组合;1459.40nm附近的吸收带对应于与水有关的O-H键拉伸的第二和第一振动泛音。本研究选取939.07-1025.79nm,1149.68-1236.40nm,1422.23-1508.95nm以及全波段光谱(900-1700nm)四个波段范围进行建模。
5.2主成分分析
本研究主成分分析使用软件SPSS22.0,对糖度,单果重,横径,纵径,硬度指标进行PCA,主成分1贡献率66.77%,主成分2贡献率25.211%,累计贡献率91.88%,已经能解释大部分变异,则选择前两个主成分,其成分得分系数矩阵为表1:
表1成分得分系数矩阵
成分\指标 | 糖度 | 单果重 | 纵径 | 横径 | 硬度 |
1 | 0.290 | 0.291 | 0.268 | 0.216 | -0.111 |
2 | -0.126 | -0.124 | 0.210 | 0.446 | 0.720 |
由表1可得主成分表达式如下:
Pc1=0.290*X1+0.291*X2+0.268*X3+0.216*X4-0.111*X5
Pc2=-0.126*X1-0.124*X2+0.210*X3+0.446*X4+0.720*X5
(其中X1为糖度,X2为单果重,X3为纵径,X4为横径,X5为硬度,输入数据需要z_score方法标准化)
并通过主成分表达式和综合评价值函数计算得出每个样本的F值。
5.3F值预测结果及成熟度
使用随机森林算法建立F值与光谱不同预处理方式的预测模型,随机森林模型中选择基学习器数量为100,随机数种子为0,结果如表2所示:
表2近红外光谱的预处理方法及结果
由表2对比可得经过smoothing预处理后的结果较好(Rp^2=0.8798,RMSEP=0.2832)较高的R^2和较低误差,该模型较为优良。
则可将预测出的F值带入标准化公式计算出成熟度。统计F值分布范围为max=1.2758,min=-1.2502。则由此确定成熟度计算方式为:
成熟度(%)={(F-(-1.2502))/(1.2758-(-1.2502))}X100%
通过此公式可得出每个预测样本的成熟度。
5.4多项式拟合结果
根据将成熟度>50%的样本的70%的训练集,经多项式拟合得出,得出其拟合的R^2以及多项式的各项系数,经实验得出,多项式次数为1次拟合即可达到很好(y=1.0373x-32.187,R2=0.8963,RMSEP=3.47),拟合如图2所示。
采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的R^2=0.88,误差RMSEP=2.78。其真实天数与预测天数的散点分布如图3所示。
6结论
采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的R^2=0.88,误差RMSEP=2.78,表明采用综合评价F值关联生长天数和近红外光谱得到的预测模型能够较好地预测无花果采收时间点。
上述实施例为本公开较佳的实施方式,但本公开的实施方式并不受上述实施例的限制,其他的任何未背离本公开的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本公开的保护范围之内。
Claims (8)
1.一种无花果采收时间点的预测方法,其特征是,该方法包括以下步骤:
(1)采用随机森林算法,输入变量为近红外光谱矩阵X,变量X构成CART决策树的特征空间,综合指标F值向量为输出变量Y,建立F值预测模型;
其中,近红外光谱为训练集中无花果预处理后的近红外光谱值;
综合评价值F是通过以下方法计算得到的:
对训练集中无花果糖度、单果重、横径、纵径和硬度指标进行主成分分析,统计其成分得分系数矩阵和各成分的贡献率,通过成分得分系数矩阵建立各主成分的计算表达式;
(2)将步骤(1)中的建立方法获得的F值向量进行最大最小标准化,将F数据范围化到[0,1],则为成熟度;计算公式为:
成熟度=(F-min(F))/(max(F)-min(F));
(3)基于近红外光谱预测待测样品的F值:
测定待测样品的近红外光谱,然后对测定的近红外光谱数据进行预处理,通过步骤(1)中所述的F值预测模型,获得待测样品的F值;
(4)计算待测样品的成熟度:
将步骤(3)中的待测样品的F值代入步骤(2)中所述成熟度的计算公式,获得待测样品的成熟度;
(5)以成熟度为输入变量X,预设时间点为输出变量Y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。
2.如权利要求1所述的无花果采收时间点的预测方法,其特征是,步骤(1)中,所述方法基于Python的scikit-learn库进行建模。
3.如权利要求1所述的无花果采收时间点的预测方法,其特征是,步骤(1)中,随机森林算法模型中选择基学习器数量为100,随机数种子为0。
4.如权利要求1所述的无花果采收时间点的预测方法,其特征是,步骤(1)中,输入变量为近红外光谱矩阵X,矩阵X由m个自变量x1,x2,...,xm组成,m为波长数,变量X构成CART决策树的特征空间;综合指标F值向量为输出变量Y,由n个因变量y1,y2,...,yn组成,n为样本个数;n个样本作为训练集数据构成训练样本空间,则训练数据集D为:
D={(x1,y1),(x2,y2),...,(xn,yn)}。
5.如权利要求1所述的无花果采收时间点的预测方法,其特征是,步骤(1)中,对近红外光谱预处理的方法包括:未处理、多元散射校正MSC、标准正态变量SNV、Baseline、Baseline+SNV、Smoothing、1阶导数和MSC的组合、2阶导数和MSC的组合;
进一步的,采用Smoothing对近红外光谱进行预处理。
7.如权利要求1所述的无花果采收时间点的预测方法,其特征是,步骤(5)中,根据每一个样本的成熟度对每个样本设立生长时间,经由实验观测,果实生长至成熟为d天,则设立生长时间点的范围在[10,d],由于成熟度过于低的果实可根据人工判断,则本预测方法采用成熟度>50%的样本,并采用多项式拟合;
进一步的,d为60。
8.如权利要求1所述的预测方法,其特征是,步骤(5)中,无花果采收时间点预测模型y=1.0373x-32.187,R2=0.8963,RMSEP=3.47。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110065325.8A CN112906939B (zh) | 2021-01-18 | 2021-01-18 | 一种无花果采收时间点的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110065325.8A CN112906939B (zh) | 2021-01-18 | 2021-01-18 | 一种无花果采收时间点的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906939A CN112906939A (zh) | 2021-06-04 |
CN112906939B true CN112906939B (zh) | 2022-08-09 |
Family
ID=76115036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110065325.8A Active CN112906939B (zh) | 2021-01-18 | 2021-01-18 | 一种无花果采收时间点的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906939B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987456A (zh) * | 2006-12-14 | 2007-06-27 | 浙江大学 | 一种水果成熟度预测方法 |
CN110411957A (zh) * | 2019-08-28 | 2019-11-05 | 北京农业质量标准与检测技术研究中心 | 水果货架期及新鲜程度的无损快速预测方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9541471B2 (en) * | 2012-04-06 | 2017-01-10 | Mks Instruments, Inc. | Multivariate prediction of a batch manufacturing process |
CN105527244A (zh) * | 2015-10-26 | 2016-04-27 | 沈阳农业大学 | 一种基于近红外光谱的寒富苹果品质无损检测方法 |
CN110987865A (zh) * | 2019-12-13 | 2020-04-10 | 齐鲁工业大学 | 一种基于近红外光谱检测无花果品质的方法 |
-
2021
- 2021-01-18 CN CN202110065325.8A patent/CN112906939B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1987456A (zh) * | 2006-12-14 | 2007-06-27 | 浙江大学 | 一种水果成熟度预测方法 |
CN110411957A (zh) * | 2019-08-28 | 2019-11-05 | 北京农业质量标准与检测技术研究中心 | 水果货架期及新鲜程度的无损快速预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112906939A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Development of multi-cultivar models for predicting the soluble solid content and firmness of European pear (Pyrus communis L.) using portable vis–NIR spectroscopy | |
Jha et al. | Modeling of color values for nondestructive evaluation of maturity of mango | |
Shao et al. | Visible/near infrared spectrometric technique for nondestructive assessment of tomato ‘Heatwave’(Lycopersicum esculentum) quality characteristics | |
Nyasordzi et al. | Utilizing the IAD index to determine internal quality attributes of apples at harvest and after storage | |
Wanitchang et al. | Maturity sorting index of dragon fruit: Hylocereus polyrhizus | |
CN104990895B (zh) | 一种基于局部区域的近红外光谱信号标准正态校正方法 | |
CN108181263A (zh) | 基于近红外光谱的烟叶部位特征提取及判别方法 | |
Yang et al. | In situ determination of growing stages and harvest time of tomato (Lycopersicon esculentum) fruits using fiber-optic visible—near-infrared (vis-nir) spectroscopy | |
CN102937575B (zh) | 一种基于二次光谱重组的西瓜糖度快速建模方法 | |
CN112098357A (zh) | 一种基于近红外光谱的草莓感官品质等级评价方法 | |
CN104596975A (zh) | 近红外漫反射光谱技术测定造纸法再造烟叶木质素的方法 | |
CN111642782A (zh) | 一种基于卷烟配方需求的烟叶原料功效定位方法 | |
Yang | Nondestructive prediction of optimal harvest time of cherry tomatoes using VIS-NIR spectroscopy and PLSR calibration | |
CN105699239A (zh) | 采用近红外光谱模型分析烟草、烟草制品保润性能的方法 | |
CN111680910A (zh) | 一种基于卷烟配方功效的烟叶适用范围定位方法 | |
Terdwongworakul et al. | Physical properties of fresh young Thai coconut for maturity sorting | |
CN113076692B (zh) | 一种反演叶片氮素含量的方法 | |
CN112906939B (zh) | 一种无花果采收时间点的预测方法 | |
Purwanto et al. | Effects of preprocessing techniques in developing a calibration model for soluble solid and acidity in ‘Gedong Gincu’mango using NIR spectroscopy | |
Sun et al. | Assessment of kiwifruit firmness by using airflow and laser technique | |
CN106198423A (zh) | 一种基于可见‑近红外光谱分析技术鉴别火腿肠等级的方法 | |
Camps et al. | On-tree follow-up of apricot fruit development using a hand-held NIR instrument | |
Wang et al. | Monitoring model for predicting maize grain moisture at the filling stage using NIRS and a small sample size | |
CN109520964A (zh) | 基于nirs的种子活力测定方法、系统及存储介质 | |
Liu et al. | Rapid determination of maturity in apple using outlier detection and calibration model optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |