CN112285056A - 一种用于光谱样品个性化校正集选择及建模方法 - Google Patents
一种用于光谱样品个性化校正集选择及建模方法 Download PDFInfo
- Publication number
- CN112285056A CN112285056A CN202011097863.7A CN202011097863A CN112285056A CN 112285056 A CN112285056 A CN 112285056A CN 202011097863 A CN202011097863 A CN 202011097863A CN 112285056 A CN112285056 A CN 112285056A
- Authority
- CN
- China
- Prior art keywords
- sample
- matrix
- samples
- reference value
- verification set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 128
- 238000012937 correction Methods 0.000 title claims abstract description 54
- 238000001228 spectrum Methods 0.000 title claims description 40
- 238000012795 verification Methods 0.000 claims abstract description 91
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000010200 validation analysis Methods 0.000 claims description 28
- 230000002159 abnormal effect Effects 0.000 claims description 25
- 238000010238 partial least squares regression Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012628 principal component regression Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007430 reference method Methods 0.000 claims description 3
- 238000012314 multivariate regression analysis Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 22
- 238000007781 pre-processing Methods 0.000 description 12
- 240000008042 Zea mays Species 0.000 description 9
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 9
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 7
- 235000005822 corn Nutrition 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000010187 selection method Methods 0.000 description 7
- 229920002472 Starch Polymers 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 235000019698 starch Nutrition 0.000 description 5
- 239000008107 starch Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000004497 NIR spectroscopy Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明提供一种用于光谱样品个性化校正集选择及建模方法,属于近红外光谱分析技术领域。本发明通过对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型,不仅具有个性化及针对性特点,而且校正集样品的分布更加精密,建立的校正模型也会随之精细,从而对于未知样本具有更好的预测性能,因此具有良好的实际应用之价值。
Description
技术领域
本发明属于近红外光谱分析技术领域,具体涉及一种用于光谱样品个性化校正集选择及建模方法。
背景技术
公开该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。
近红外光谱分析方法(NIR)是当前发展迅速的一种无损、无污染、重现性好的快速分析技术,随着化学计量学和计算机技术的发展,该技术已在农产品、石油化学、制药、环境、过程控制、临床及生物医学等领域广泛应用。该方法的一大特点是需要借助化学计量学将样品的光谱信息与对应的参考值信息(如含量、来源等)相关联建立模型,通过所建立的模型对未知的样品进行预测,从而实现分析的目的。
为了建立一个准确的校正模型,需要对现有的样本集进行划分,通过校正集建立校正模型,用验证集辅助评价及验证模型的效果。因此,如何选择校正集对模型的适用性和预测能力有极大的影响。
在近红外光谱分析领域,有两种经典且应用较多的样本集划分方法,分别是Kennard-Stone(KS)法和SPXY法,KS法通过样本间欧氏距离的计算选择有代表性的样本进入校正集,从而使校正集包含的样品信息范围较为广泛,但该法有可能将异常样品也选入校正集内,并且未考虑样品参考值(Y)对样品集划分的影响,在预测未知样品时缺乏一定的针对性。SPXY法是在KS法的基础上发展建立的,该方法将参考值变量(Y)与光谱变量(X)同时考虑在内,并保证其在各自的空间有相同的权重,有效覆盖多维向量空间。但是发明人发现,这两种方法并未考虑未知样本的光谱信息,因此对未知样品是否有很好的预测很难确定。
校正集对近红外光谱分析至关重要,因为对于未知样品的预测是基于校正集建立的模型。校正集的选取是影响模型效果的关键一步,校正集的样本需要具有一定的代表性,包涵尽可能多的样本变异信息,所以建立新的模型性能更好、预测能力更强的校正模型,对于当前近红外光谱分析是关键的研究方向之一。
发明内容
为了克服上述技术问题,本发明提供一种用于光谱样品个性化校正集选择及建模方法,通过对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型,不仅具有个性化及针对性特点,而且校正集样品的分布更加精密,建立的校正模型也会随之精细,从而对于未知样本具有更好的预测性能,因此具有良好的实际应用之价值。
为实现上述技术目的,本发明采用的技术方案如下:
本发明的第一个方面,提供一种用于光谱样品个性化校正集选择方法,所述选择方法包括:
S1、对原始样本进行近红外光谱测定,得到原始样本光谱矩阵X;采用参考方法测定样本的参考值,得参考值矩阵Y;
S2、对原始样本光谱矩阵和参考值矩阵进行异常值检测,将异常值剔除后分别得到Xm,并将参考值Y矩阵相应的异常值样本的参考值剔除,得光谱矩阵Ym;
S3、在光谱矩阵Xm中抽取样本作为独立验证集Xt,其对应参考值记为Yt;相应的,Xm扣除Xt之后剩余样本集为Xk,相应的参考值为Yk;
S4、对于独立验证集Xt中的每个样本,分别计算该样本与剩余样本集Xk中每个样本之间的光谱相似度,获取相似度最高的g个样本写入验证集Xv,相应的参考值记为Yv;
S5、Xm扣除了Xt和Xv后剩余的样品为剩余样品光谱矩阵Xr,采用插值法分别对光谱矩阵Xr和对应的参考值矩阵Yr进行插值处理,得到插值后的光谱矩阵Xs及其对应参考值矩阵Ys;
其中,所述步骤S2中,对光谱原始矩阵X异常值进行检测采用Hotelling T2法,对参考值矩阵Y异常值进行检测采用Boxplot方法。
所述步骤S3中,抽取样本方式优选为随机抽取,从而用于建立独立验证集,因此理论上每个样品被抽取的机会均等。
所述步骤S4或S6中,样本之间的光谱相似度采用欧氏距离、马氏距离或相似度中的任一种进行计算。
所述步骤S5中,插值法优选使用三次样条插值(spline插值法)从而分别对剩余样品的光谱矩阵Xr和对应的参考值矩阵Yr进行插值处理。
所述步骤S6还包括对校正集样品数量n取不同值的情况下,对每个验证集样品分别建模,基于模型性能优化n的取值。
进一步的,建模方法包括多元回归分析(MLR)、主成分回归分析(PCR)和偏最小二乘回归分析法(PLSR)。
进一步的,校正集和对应验证集样品数量的设置比例为4:1及以上(如:5:1或6:1等),最多为Xs中的所有样品。
本发明的第二个方面,提供上述用于光谱样品个性化校正集选择方法的建模方法,包括获取校正集相应的参考值矩阵,对于参考值矩阵中的每一参考值,分别与光谱矩阵进行关联建模。
进一步的,所述建模方法还包括:
基于验证集对模型参数进行优化;
基于独立验证集对模型性能进行评价。
所述方法还包括基于校正集、验证集和独立验证集对模型性能进行综合评价。
上述一个或多个技术方案的有益技术效果在于:
上述技术方案提供的采用近红外光谱样品个性化建模方法,对于校正集样品的选取是首先把剩余光谱矩阵进行插值处理,这样经过插值处理后的校正集样品在数据空间的网格密度加大,可供选择的校正集样品增多了,然后对每个验证集样品可以选择更为相似的样品(比未经过插值运算的校正集样品)作为校正集样品,对每个独立验证集样品(或未知待测样品)有针对性的建立校正模型,不仅具有个性化及针对性特点,而且校正集样品的分布更加精密,建立的校正模型也会随之精细。
与目前常用的校正集样品选择方法(如KS法和SPXY)比较,可以确切地证明其对于未知待测样品的建模性能更好,预测能力更强。而且,本方法对校正集样品数目进行了优化,可以实现选用较少的校正集样品数目达到更好的预测效果,节省人力物力。对于不同的校正集方法,校正集和验证集可因方法不同而不同,可选用相同的“独立验证集”,通过比较相同的独立验证集误差均方根(RMSEP)值、独立验证集相关系数(Rp)值和独立验证集的相对分析误差(RPD)值来评价不同方法的性能。因此具有良好的实际应用之价值。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1中所有样本的原始近红外光谱;
图2为本发明实施例1去除异常样本之后的主成分投影图;
图3为本发明实施例1插值后的近红外光谱。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。
本发明的一个具体实施方式中,提供一种用于近红外光谱样品个性化校正模型的建立方法,包括以下步骤:
(1)对样本进行近红外光谱测定,得光谱原始矩阵X;
(2)采用参考方法测定样本的参考值,得参考值矩阵Y;
(3)对光谱原始矩阵X和参考值矩阵Y进行异常值检测,将异常值剔除得光谱矩阵Xm,并将参考值Y矩阵相应的异常值样本的参考值剔除,得光谱矩阵Ym。
(4)在剔除异常值后的光谱矩阵Xm中,抽取一定量的样本组成独立验证集,模拟需要预测的未知待测样本,记为Xt,其对应参考值记为Yt。Xm扣除Xt之后剩余样本集记为Xk,相应的参考值记为Yk。
(5)由于光谱信息获得容易,检测迅速,故可以根据光谱相似的原则选取验证集样本,以验证集的预测效果间接反映对未知待测样本(Xt)的预测能力。具体方法如下:以独立验证集中的每个样本Xt(i)为参考,分别计算其与剩余每个样本光谱Xk(j)之间的欧氏距离或马氏距离Dtk(i,j)并进行排序,距离越相近,表明独立验证集中的该样本与剩余样本中的某一样本光谱越相似。依次对独立验证集中每一样本进行如上计算,则独立验证集的每一样本都可从剩余样本中找到其最相似的g个样本,根据实际样本数目和建模要求,可为每个独立验证集样本选取最相似的g个样本组成验证集,即为最终的验证集,记为Xv,对应的参考值记为Yv,其中g≥1的正整数。本发明选择与独立验证集最相似的样本作为验证集样本,该样本可以模拟独立验证集样本(即未知待测样本)对模型效果进行反馈,从而达到更好的预测效果。
(6)Xm扣除了Xt和Xv后剩余的样品称为剩余样品,记为Xr,采用插值法分别对Xr光谱矩阵和对应的参考值矩阵Yr进行插值处理,得到插值后的光谱矩阵,记为Xs,其对应参考值记为Ys。
(7)验证集样本获得后,校正集样本的选择与其相似。具体方法如下:以验证集中的每个样本Xv(i)为参考,分别计算其与插值后的光谱矩阵(Xs)中每个样品光谱Xs(j)的欧氏距离(或马氏距离或相似度)并进行排序,距离越小(或夹角余弦越大或相关系数越大)越相近,距离最小者(或相似度最大者)表明验证集中的该样品Xv(i)与插值后的光谱矩阵中的某一样品光谱最相似。依次对验证集中每一样品进行如上计算,即可为每个验证集样品选取最相似的ni个样品组成对于每个验证集样品的个性化校正集,记为对应的参考值记为照此法选出的校正集样本,与验证集相似,同时也与独立验证集相似,从而更有针对性地建立对未知样本的模型。ni的最大值为插值后所有样品的数目,即Xs中的样品都被选为校正集样品对应的数目。对于每个验证集样品选取的校正集样品数目ni可以相同,也可不同,即对每个验证集样品选取的校正集样品的数量ni具有个性化特点。一般地,校正集样品不一定数目越多建模效果越优,有可能包含了异常样品或重复样品或相似性较小的信息,对建模可能形成一定的干扰;而校正集样品数目太少,包含的样品信息相对较少,无法覆盖待测的未知样品信息,所以需要对ni的大小进行优化,即针对每个验证集样品进行个性化的优化。尝试采用不同大小的ni值情况下,对于每个验证集样品Xv(i)分别建模,通过获得的验证集的RMSEV值和Rv值优化采用的ni值大小,即RMSEV值越小,Rv值越大,则证明建模效果最佳,选取此时的ni值为通过该验证集样品优化后的校正集样品数目,这些校正集样品为对该验证集样品预测性能最优的ni个相似的样品(即针对Xv(i)的个性化校正集)。
本发明的又一具体实施方式中,步骤(3)中,采用Hotelling T2法对光谱原始矩阵X异常值进行检测,采用Boxplot方法对参考值矩阵Y异常值进行检测。
本发明的又一具体实施方式中,步骤(4)中,抽取样品为随机抽取样品,用于建立独立验证集,理论上每个样品被抽取的机会均等。
本发明的又一具体实施方式中,步骤(6)中,采用spline插值方法分别对剩余样品的光谱矩阵Xr和对应的参考值矩阵Yr进行插值。
本发明的又一具体实施方式中,步骤(7)中,计算验证集中每个样品Xv(i)与插值后样品集中的每个样品Xs(j)之间的距离,以验证集中每一样品Xv(i)为一观察单位,从插值后的样品集Xs中选取与Xv(i)最近的ni个样品组成该样品的校正集其中c表示校正集,ni表示针对验证集中第i样品从Xs中选出最相近的ni样品,即ni个个性化的校正集样品,称为针对Xv(i)的个性化校正集。
本发明的又一具体实施方式中,步骤(7)中,建模方法为多元回归分析(MLR)、主成分回归分析(PCR)及偏最小二乘回归分析法(PLSR)。
本发明的又一具体实施方式中,步骤(7)中,建模得到的关系模型为:Y=XB+ε;其中,B为对应的回归系数,ε为残差。将求出的回归系数B带入模型计算得到其中符号“∧”表示通过校正模型计算出的结果,如模型的拟合或预测(一般对于校正集样本模型计算的结果称为拟合,对于验证集样本或独立检验集样本模型计算的结果称为预测);
本发明的又一具体实施方式中,若Y矩阵不只有1列,包含多个参考值(如不同成分的含量等),即Y有多个参考值列,则分别对X矩阵与Y矩阵的每列进行分别建模,模型的个数与Y矩阵的列数一致。
本发明的又一具体实施方式中,步骤(7)中,建模方法如采用PCR或PLSR方法,相应的潜在变量数由交叉验证集的最小交叉均方根误差(RMSECV)值得到,一般采用留一法进行交叉验证(LOO-CV),也包括一些其它交叉验证方法,如5倍或10倍交叉验证方法(5-folderor 10-folder)。模型的预测均是在模型优化的潜在变量数下进行。
本发明的又一具体实施方式中,步骤(7)中,拟合的操作为:采用校正集样品针对验证集样品i建立个性化校正模型,根据RMSEV和Rv优化校正集样品数量ni,按照关系模型求出回归系数(其含义是通过验证集样品优化得到的针对验证集样品i的校正回归系数,是针对验证集i的残差),然后再利用校正模型对校正集样品i按照进行拟合,求出拟合的模型的预测操作为:对于验证集样品Xv(i),按照进行预测;对于未知待测样品集(记为Xu)中的样品Xu(i),可以采用对Xu(i)进行预测。
本发明的又一具体实施方式中,校正集和对应验证集样品数量的设置比例为4:1及以上(如:5:1或6:1等),最多为Xs中的所有样品。
以下通过具体的实施例对本发明的技术方案进行说明。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本领域技术人员可以理解,在进行建模之前,还可以包括对校正集,验证集和独立检验集的预处理步骤,此处对具体预处理方法不进行限定,在以下具体实施例中,均未采用预处理,以原光谱矩阵直接进行建模。如果采用预处理方法,校正集,验证集和独立检验集的预处理方法要保持一致。
实施例1
以公开玉米数据为例,测定的样品数共有80个,包括样品的重复。矩阵X为玉米样品的原始近红外光谱矩阵,矩阵Y是四个质量指标成分(水、油、蛋白质、淀粉)矩阵。
对于Y矩阵的四个成分,分别以矩阵Y中的每列与矩阵X关联建模,在本实施例中,以水分为例说明方法,其余成分与水分采取相同的步骤,样品的原始图谱见图1所示。
首先进行异常样品的剔除,通过Hotelling T2方法对原始光谱矩阵X检测,得到3个异常样品,通过Boxplot方法对参考值矩阵Y检测,没有异常值,剔除之后剩余77个样品,构建Xm矩阵。去除异常值后的样品近红外光谱的主成分投影图如图2所示。由图2可见,剩余的样品通过Hotelling T2检验(在椭圆圈内),已没有异常样品。
从Xm中随机抽取10个样本作为独立验证集Xt。
对剩余67个样本进行划分,计算Xt中每个样本与剩余样本Xk之间的欧氏距离Dtk并排序,为独立验证集Xt中每个样本选取最相似的1个样本(即g=1),组成最终的验证集Xv,对应的参考值矩阵记为Yv。对剩余样品Xr进行插值处理得到插值后的光谱Xs。插值算法中,取优化因子数为1(这个参数决定插值运算的密度,为1时,数据增加1倍,即Xs是Xr样本数量的2倍),插值方法选择三次样条插值法(spline)。计算每个验证集样品Xv(i)与插值后样品Xs(j)之间的欧氏距离Dvs(ij)并排序,欧氏距离的计算公式为:Dvs(ij)=sqrt(∑(Xv(i)-Xs(j)2),为每个验证集样品选取一定数量的样品作为该样品的个性化校正集,样品数量为ni。ni通过优化决定,此时所得校正集即为Xv(i)的个性化校正集对应的参考值矩阵记为
通过模型参数计算出校正集的拟合值与对应的参考值计算均方根误差(RMSEC)和相关系数(Rc);根据验证集的预测值与对应的参考值Yv计算均方根误差(RMSEV)和相关系数(Rv);最后根据独立验证集的预测值与对应的参考值Yu计算独立验证集的均方根误差(RMSEP)、相关系数(Rp)及相对分析误差(RPD);根据以上各参数共同评价模型的性能。
本专利对预处理方法和光谱波段选择方法不进行限定,在以下实施例中,未采用预处理方法和波段选择方法,以原光谱矩阵直接进行建模。如果采用预处理方法和光谱波段选择方法,校正集,验证集和独立验证集的预处理方法和光谱波段选择方法要保持一致,与不同方法进行比较时也要保持预处理方法和光谱波段选择方法一致。模型的优化和建立是在预处理和光谱波段选择之后进行。Nc表示平均每个验证集样品的个性化校正集样品的数量(其含义是对于一个Xv(i)样品,选择ni个个性化校正集样品,其中Nv表示验证集样品的数量,本例为10)。Lv表示平均每个验证集样品建模时的潜在因子数(其含义是对于一个Xv(i)样品,选择Lvi个潜在因子数,由于独立验证集是随机抽取的一定数目的样本,具有一定的偶然性,为了客观评价各种划分方法的性能,我们抽取相同数目的样本,平行重复10次试验,计算上述各项指标的平均值。表1列出了本法对玉米四种成分建立模型平行重复10次试验所得各项指标的平均值。
表1玉米各成分模型预测结果
成分 | R<sub>c</sub> | RMSEC | R<sub>v</sub> | RMSEV | R<sub>p</sub> | RMSEP | RPD | Lv | N<sub>c</sub> |
水分 | 0.9994 | 0.0109 | 0.9995 | 0.0139 | 0.9988 | 0.0182 | 20.5427 | 10 | 32.5 |
油 | 0.9775 | 0.0302 | 0.9692 | 0.0401 | 0.9626 | 0.0611 | 2.9867 | 10 | 28.9 |
蛋白质 | 0.9892 | 0.0681 | 0.9494 | 0.1242 | 0.9703 | 0.1297 | 4.0964 | 10 | 33.3 |
淀粉 | 0.9842 | 0.1335 | 0.9686 | 0.2119 | 0.9524 | 0.2633 | 3.1887 | 10 | 29.0 |
由表1可见,RMSEC和RMSEV值均是越小越好,Rc、Rv和RP均是越大越好。本法玉米各成分均有较好的建模效果,校正集相关系数Rc均达到0.95以上,表明模型有较好的拟合效果,并且校正集仅选用了约25~35个样品用于建模,数量较少。大部分独立验证集相关系数Rp也达到0.96以上,RPD值大于3.0,并有较小的均方根误差,表明该模型对独立验证集样品有很好的预测能力。本发明可以用于间接反映独立验证集样品的个性化校正集的建立,并对独立验证集样品有较好的预测效果。
为评价本发明所采用方法的性能效果,我们将与常用方法如KS法和SPXY法进行比较,选取与本发明方法相同的独立验证集样品,相同数目的验证集样品,比较不同方法的建模性能和预测能力。有关结果见表2。
表2各种数据集划分方法建立模型的预测能力比较
由表2可见,本法得到的各种成分的Rp值和RPD值均高于另外两种方法,而RMSEP值均低于另外两种方法,表明本发明提出的方法建模性能优于KS和SPXY法,对于水分,由于水分本身建模效果就很好,提升空间不大;对于建模效果较差的油和淀粉,本法的建模效果提升明显;对于蛋白质,也有更好的预测能力。结合表1进行分析,由于本发明通过插值运算,增加了样品在数据空间的分布,使得有更多的与验证集样品更为相似的样品可供选择作为校正集样品,同时通过验证集样品的个性化建模,优化了校正集样本数目,并通过验证集样品与未知待测样品的相似性,建立的个性化校正模型也间接地反映了未知样品的个性化特点,相比于KS法和SPXY法,除去独立验证集和验证集的剩余所有样本作为校正集样本,虽然本发明采用的校正集样本数目较少,但是模型的性能和预测能力更优。
表3列出了各种方法建模的各个数据集的各成分参考值的范围。该范围为10次试验结果的平均值。
表3数据集的参考值范围
由表3可知,三种划分方法下四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品的参考值范围。一般情况下,在建模过程中,参考值应满足校正集范围大于验证集范围,如果不满足上述条件,可以进一步扩大校正集样品参考值的变化范围,使上述关系得到满足。
为比较本发明与专利(CN110687072A)的建模效果,我们选取相同的独立验证集。本法采用的个性化验证集构建方法、校正集插值方法与专利(CN110687072A)有所不同,因此本法的校正集样品数量与专利(CN110687072A)的校正集数量有所不同。对于相同的独立检验集样品,哪种方法选择的相同数量的校正集样品建立的校正模型对独立验证集样品预测性能越好,说明这一方法选择的校正集样品的代表性强,建模效果好。为了公平比较,本法选择的原始校正集样品的数量(即未进行插值的校正集样品数量)与专利(CN110687072A)一致,通过Rp、RMSEP和RPD值比较两种方法的建模效果和预测性能。结果如表4所示(10次结果的平均值)。
表4各种数据集划分方法建立模型的预测能力比较
由表4可知,本发明的方法对玉米四种成分的Rp值和RPD值均大于专利(CN110687072A)方法,RMSEP值均小于专利(CN110687072A)方法,表明在相同的校正集样品数目下,本发明方法有更好的预测性能。
表5数据集的参考值范围
由表5可知,本发明和专利(CN110687072A)四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品在参考值范围。
实施例2
以公开数据玉米为例,测定的样本共有80个。X为样本的近红外光谱矩阵,Y是四个成分质量指标矩阵。以水分为对象说明,其余成分采取相同的步骤,先进行异常样本的剔除,通过Hotelling T2方法,检测到3个异常样本,然后剔除之后共剩下77个样本,我们变化了计算距离的方式,以考察计算距离的方式变化后,各种划分方法对模型的性能的影响。
随机抽取10个样本作为独立验证集Xt。
对剩余67个样本进行划分,计算Xt中每个样本与剩余样本Xk之间的马氏距离Dtk并排序,为独立验证集Xt中每个样本选取最相似的1个样本(即g=1),组成最终的验证集Xv,对应的参考值矩阵记为Yv。对剩余样品Xr进行插值处理得到插值后的光谱Xs,计算每个验证集样品Xv(i)与插值后样品之间的马氏距离Dij并排序,马氏距离的计算公式为:Dvs(ij)=sqrt((Xv(i)-Xs(j))TS-1(Xv(i)-Xs(j))),T表示转置,S表示多维随机变量的协方差矩阵,“-1”表示矩阵的求逆运算。取解释方差不少于0.99995的主成分数,为每个验证集样品选取一定数量的样品作为该样品的个性化校正集,样品数量为ni,在校正集样品矩阵和水分含量矩阵之间建立PLS模型,计算各参数,包括校正集均方根误差(RMSEC),验证集均方根误差(RMSEV),校正集相关系数(Rc),验证集相关系数(Rv),验证集的相对分析误差(RPD)。为了客观评价各种方法的性能,我们尝试每次随机抽取10个独立验证集样本,平行重复10次试验,计算上述各项指标的平均值。
表6玉米各成分模型预测结果
成分 | R<sub>c</sub> | RMSEC | R<sub>v</sub> | RMSEV | R<sub>p</sub> | RMSEP | RPD | Lv | N<sub>c</sub> |
水分 | 0.9996 | 0.0087 | 0.9995 | 0.0118 | 0.9991 | 0.0175 | 21.3152 | 10 | 29.7 |
油 | 0.9743 | 0.0331 | 0.9709 | 0.0446 | 0.9469 | 0.0649 | 2.8944 | 10 | 33.8 |
蛋白质 | 0.9901 | 0.0618 | 0.9852 | 0.0850 | 0.9864 | 0.0939 | 5.6141 | 10 | 31.3 |
淀粉 | 0.9812 | 0.1417 | 0.9635 | 0.1627 | 0.9491 | 0.2772 | 3.0358 | 10 | 40.1 |
由表6可见,玉米各成分仍有很好的建模效果,大部分成分的校正集和验证集相关系数都达到0.90以上,所有成分建模的RPD均大于2.5,说明模型有较好的预测能力,表明该方法可用于样本集的划分,并可以得到很好的模型性能和预测效果。
作为对比,我们将与常用方法如KS法和SPXY法作比较,选取与本发明方法相同的独立验证集样品,相同数目的验证集样品,比较不同方法的建模性能和预测能力。有关结果见表7。
表7各种数据集划分方法建立模型的预测能力比较
由表7比较可见,本发明的方法在对于独立验证集的预测上,无论是相关系数Rp值、均方根误差RMSEP值还是相对分析误差RPD值要优于另外两种方法,尤其对于本身建模效果较差的淀粉有更高的预测能力,预测误差更小。
表8数据集的参考值范围
由表8可知,三种划分方法下四种成分的校正集样品参考值范围均能包含独立验证集和验证集样品的参考值范围,符合建模要求。
最后应该说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种用于光谱样品个性化校正集选择方法,其特征在于,所述选择方法包括:
S1、对原始样本进行近红外光谱测定,得到原始样本光谱矩阵X;采用参考方法测定样本的参考值,得参考值矩阵Y;
S2、对原始样本光谱矩阵和参考值矩阵进行异常值检测,将异常值剔除后分别得到Xm,并将参考值Y矩阵相应的异常值样本的参考值剔除,得光谱矩阵Ym;
S3、在光谱矩阵Xm中抽取样本作为独立验证集Xt,其对应参考值记为Yt;相应的,Xm扣除Xt之后剩余样本集为Xk,相应的参考值为Yk;
S4、对于独立验证集Xt中的每个样本,分别计算该样本与剩余样本集Xk中每个样本之间的光谱相似度,获取相似度最高的g个样本写入验证集Xv,相应的参考值记为Yv;
S5、Xm扣除了Xt和Xv后剩余的样品为剩余样品光谱矩阵Xr,采用插值法分别对光谱矩阵Xr和对应的参考值矩阵Yr进行插值处理,得到插值后的光谱矩阵Xs及其对应参考值矩阵Ys;
2.如权利要求1所述的方法,其特征在于,所述步骤S2中,对光谱原始矩阵X异常值进行检测采用Hotelling T2法,对参考值矩阵Y异常值进行检测采用Boxplot方法。
3.如权利要求1所述的方法,其特征在于,所述步骤S3中,抽取样本方式为随机抽取。
4.如权利要求1所述的方法,其特征在于,所述步骤S4或S6中,样本之间的光谱相似度采用欧氏距离、马氏距离或相似度中的任一种进行计算。
5.如权利要求1所述的方法,其特征在于,所述步骤S5中,插值法使用三次样条插值法。
6.如权利要求1所述的方法,其特征在于,所述步骤S6还包括对校正集样品数量n取不同值的情况下,对每个验证集样品分别建模,基于模型性能优化n的取值。
7.如权利要求6所述的方法,其特征在于,建模方法包括多元回归分析、主成分回归分析和偏最小二乘回归分析法。
8.如权利要求7所述的方法,其特征在于,校正集和对应验证集样品数量的设置比例为不小于4:1。
9.权利要求1-8任一项所述用于光谱样品个性化校正集选择方法的建模方法,包括获取校正集相应的参考值矩阵,对于参考值矩阵中的每一参考值,分别与光谱矩阵进行关联建模。
10.如权利要求9所述建模方法,其特征在于,所述建模方法还包括:
基于验证集对模型参数进行优化;
基于独立验证集对模型性能进行评价;
优选的,所述方法还包括基于校正集、验证集和独立验证集对模型性能进行综合评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011097863.7A CN112285056B (zh) | 2020-10-14 | 2020-10-14 | 一种用于光谱样品个性化校正集选择及建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011097863.7A CN112285056B (zh) | 2020-10-14 | 2020-10-14 | 一种用于光谱样品个性化校正集选择及建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112285056A true CN112285056A (zh) | 2021-01-29 |
CN112285056B CN112285056B (zh) | 2022-02-08 |
Family
ID=74497015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011097863.7A Active CN112285056B (zh) | 2020-10-14 | 2020-10-14 | 一种用于光谱样品个性化校正集选择及建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112285056B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509643A (zh) * | 2021-02-03 | 2021-03-16 | 蓝星安迪苏南京有限公司 | 一种定量分析模型构建方法、定量分析方法、装置及系统 |
CN113094892A (zh) * | 2021-04-02 | 2021-07-09 | 辽宁石油化工大学 | 一种基于数据剔除与局部偏最小二乘的石油浓度预测方法 |
WO2024011687A1 (zh) * | 2022-07-14 | 2024-01-18 | 广东辛孚科技有限公司 | 一种油品物性快评模型建立方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106770005A (zh) * | 2016-11-25 | 2017-05-31 | 山东大学 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
CN110687072A (zh) * | 2019-10-17 | 2020-01-14 | 山东大学 | 一种基于光谱相似度的校正集和验证集选择及建模方法 |
CN111272696A (zh) * | 2020-03-24 | 2020-06-12 | 山东大学 | 一种快速检测普洱茶中掺杂香精的方法 |
-
2020
- 2020-10-14 CN CN202011097863.7A patent/CN112285056B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106770005A (zh) * | 2016-11-25 | 2017-05-31 | 山东大学 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
CN110687072A (zh) * | 2019-10-17 | 2020-01-14 | 山东大学 | 一种基于光谱相似度的校正集和验证集选择及建模方法 |
CN111272696A (zh) * | 2020-03-24 | 2020-06-12 | 山东大学 | 一种快速检测普洱茶中掺杂香精的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509643A (zh) * | 2021-02-03 | 2021-03-16 | 蓝星安迪苏南京有限公司 | 一种定量分析模型构建方法、定量分析方法、装置及系统 |
CN113094892A (zh) * | 2021-04-02 | 2021-07-09 | 辽宁石油化工大学 | 一种基于数据剔除与局部偏最小二乘的石油浓度预测方法 |
WO2024011687A1 (zh) * | 2022-07-14 | 2024-01-18 | 广东辛孚科技有限公司 | 一种油品物性快评模型建立方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112285056B (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112285056B (zh) | 一种用于光谱样品个性化校正集选择及建模方法 | |
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
Sampaio et al. | Identification of rice flour types with near-infrared spectroscopy associated with PLS-DA and SVM methods | |
Karimi et al. | Detection and quantification of food colorant adulteration in saffron sample using chemometric analysis of FT-IR spectra | |
Xie et al. | Discrimination of transgenic tomatoes based on visible/near-infrared spectra | |
Roussel et al. | Multivariate data analysis (chemometrics) | |
CN110503156B (zh) | 一种基于最小相关系数的多变量校正特征波长选择方法 | |
EP3066435B1 (en) | Texture analysis of a coated surface using pivot-normalization | |
CN105431854B (zh) | 用于分析生物样品的方法和设备 | |
Cao | Calibration optimization and efficiency in near infrared spectroscopy | |
Porker et al. | Classification and authentication of barley (Hordeum vulgare) malt varieties: combining attenuated total reflectance mid-infrared spectroscopy with chemometrics | |
CN111563436A (zh) | 一种基于ct-cdd的红外光谱测量仪器标定迁移方法 | |
CN106529008A (zh) | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 | |
CN115420707A (zh) | 一种污水近红外光谱的化学需氧量评估方法及系统 | |
CN109270022B (zh) | 一种近红外光谱模型的波段选择方法及模型构建方法 | |
Wu et al. | Determination of corn protein content using near-infrared spectroscopy combined with A-CARS-PLS | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
Hemmateenejad et al. | Clustering of variables in regression analysis: a comparative study between different algorithms | |
CN112651173B (zh) | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统 | |
Shariati‐Rad et al. | Selection of individual variables versus intervals of variables in PLSR | |
CN105092509B (zh) | 一种基于pcr‑elm算法的样品成份测定方法 | |
CN108872142B (zh) | 一种波长选择算法中多参数的选择优化方法 | |
CN111125629A (zh) | 一种域自适应的pls回归模型建模方法 | |
CN115931773A (zh) | 一种近红外光谱定量分析中的波长选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |