CN106770005B - 一种用于近红外光谱分析的校正集和验证集的划分方法 - Google Patents
一种用于近红外光谱分析的校正集和验证集的划分方法 Download PDFInfo
- Publication number
- CN106770005B CN106770005B CN201611062548.4A CN201611062548A CN106770005B CN 106770005 B CN106770005 B CN 106770005B CN 201611062548 A CN201611062548 A CN 201611062548A CN 106770005 B CN106770005 B CN 106770005B
- Authority
- CN
- China
- Prior art keywords
- sample
- collection
- division methods
- calibration set
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000012795 verification Methods 0.000 title claims abstract description 57
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 title claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 239000004575 stone Substances 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 17
- WBYWAXJHAXSJNI-UHFFFAOYSA-N methyl p-hydroxycinnamate Natural products OC(=O)C=CC1=CC=CC=C1 WBYWAXJHAXSJNI-UHFFFAOYSA-N 0.000 description 17
- WBYWAXJHAXSJNI-VOTSOKGWSA-M .beta-Phenylacrylic acid Natural products [O-]C(=O)\C=C\C1=CC=CC=C1 WBYWAXJHAXSJNI-VOTSOKGWSA-M 0.000 description 16
- 229930016911 cinnamic acid Natural products 0.000 description 16
- 235000013985 cinnamic acid Nutrition 0.000 description 16
- WBYWAXJHAXSJNI-SREVYHEPSA-N Cinnamic acid Chemical compound OC(=O)\C=C/C1=CC=CC=C1 WBYWAXJHAXSJNI-SREVYHEPSA-N 0.000 description 15
- YKRGDOXKVOZESV-WRJNSLSBSA-N Paeoniflorin Chemical compound C([C@]12[C@H]3O[C@]4(O)C[C@](O3)([C@]1(C[C@@H]42)O[C@H]1[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O1)O)C)OC(=O)C1=CC=CC=C1 YKRGDOXKVOZESV-WRJNSLSBSA-N 0.000 description 14
- YKRGDOXKVOZESV-UHFFFAOYSA-N paeoniflorin Natural products O1C(C)(C2(CC34)OC5C(C(O)C(O)C(CO)O5)O)CC3(O)OC1C24COC(=O)C1=CC=CC=C1 YKRGDOXKVOZESV-UHFFFAOYSA-N 0.000 description 14
- 238000005259 measurement Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 244000248825 Peltandra virginica Species 0.000 description 4
- 235000001188 Peltandra virginica Nutrition 0.000 description 4
- 235000008599 Poria cocos Nutrition 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000004615 ingredient Substances 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 244000131316 Panax pseudoginseng Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种用于近红外光谱分析的校正集和验证集的划分方法,步骤如下:将样本的近红外光谱与相应的参考值关联,拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi‑Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值;选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。采用本发明的用于近红外光谱分析的校正集和验证集的划分方法,与Kennard‑Stone法和SPXY方法比较,得到的建模性能要好,预测能力更强,特别是对于独立验证集样本的预测更好。
Description
技术领域
本发明涉及光谱分析中的样品集划分技术领域,具体涉及一种用于近红外光谱分析的校正集和验证集的划分方法。
背景技术
近红外光谱分析方法(NIR)是目前发展迅速的一种快速、无损及绿色的分析技术,在诸多领域如化学、生命科学、食品及制药领域得到广泛应用。近红外光谱分析法与传统的分析方法不同的是需要通过化学计量学方法将样本的近红外光谱与对应的参考值(如成分含量等)关联建立校正模型,然后通过校正模型进行对未知样本的参考值进行预测,以实现快速分析的目的。
为了建立校正模型,需要对样本数据集进行划分。不同的划分方法得到的校正集和验证集的结果是不同的。如何选择何种样本以提高模型的适用性和预测能力是NIR建模的基本问题之一。
目前,在近红外光谱研究领域应用较多的数据集划分方法主要有Kennard-Stone(KS)法及SPXY法。其中,KS法可以使有代表性的样品进入定标集,从而在一定程度上避免了定标集样品分布的不均匀。但这种方法没有考虑到有些光谱的差异并非完全由所测样品的组成或性质的差异引起的,很有可能将异常样品也选入定标集中。
SPXY法与KS法非常相似,它是以KS为基础,将参考值变量(Y)加以考虑,对样本近红外光谱间的距离和参考值间的距离进行了标准化处理(除以相应距离的最大值),使得样本在近红外光谱空间和参考值空间权重相同。但从方法本身来看,SPXY法和KS法对所选择的校正集样本是否有较好的预测能力很难确定。
因此,校正集和验证集样本的选择对光谱多元分析校正至关重要,校正集和验证集的不同划分会造成模型预测效果的变化很大,如果验证集样本的选择不具代表性,则将严重影响模型性能的正确评价。提供新的建模性能更好、预测能力更强的样品集的划分方法,是近红外光谱分析的关键课题之一。
发明内容
针对上述现有技术,本发明的目的是提供一种用于近红外光谱分析的校正集和验证集的划分方法。
为实现上述目的,本发明采用下述技术方案:
一种用于近红外光谱分析的校正集和验证集的划分方法,包括以下步骤:
(1)对样品进行近红外光谱测定,得光谱原始矩阵X;
(2)采用参考方法测定样品的参考值,得到矩阵Y;
(3)对光谱原始矩阵X进行异常值检测,将异常值剔除,并将相对应的矩阵Y中的异常参考值剔除;
(4)在剔除异常值后的矩阵X中,抽取一定量的样本组成独立验证集,记为Xt,其对应参考值矩阵为Yt,Xt和Yt的样本一一对应;独立验证集的样本数量根据实际需要进行确定,一般不要多于校正集的样本数量,且参考值的范围一般应包含于校正集样本的参考值范围。
(5)将剩下的样本近红外光谱数据和参考值数据采用建模方法进行关联,建模,然后拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,选择ei 2最小值对应的样本作为验证集样本;本发明选择ei 2最小值对应的样本作为验证集样本,该样本对于校正模型的影响较小,使校正集保留较多的对模型有较大影响力的样本。
(6)将该样本剔除后,再用建模方法对剩余样本的近红外光谱数据和对应参考值数据关联,拟合,重复步骤(5),每一步选择一个样本加到验证集中,直至达到需要的样本数量,这些样本组成验证集,记为Xv,对应的参考值记为Yv;
(7)最后将剩余的样本构成校正集,记为Xc,对应的参考值记为Yc。
优选的,步骤(3)中,采用Hotelling T2法对异常值进行检测。
优选的,步骤(4)中,抽取样本为随机抽取样本,理论上每个样本抽取的机会均等。
优选的,步骤(5)中,建模方法为偏最小二乘(PLS)法。
优选的,步骤(5)中,建模得到的关系模型为:Y=XBpls;其中,Bpls是对应的回归系数。
进一步的,若Y矩阵不只1列,即包括多个不同参考值(如不同成分含量),X和Y之间的建模按X与Y矩阵的每列分别建模。
优选的,步骤(5)中,建模方法的潜在变量数由10倍交叉验证得到。建模均是在模型优化的潜在变量数下进行。
优选的,步骤(5)中,拟合的操作为:通过建模可以求出Bpls,然后再利用模型:Yf=XBpls,求出Yi f。
对于未知样本Xu,模型:Yu f=XuBpls则为预测过程。
一般情况下,Yf和Y很相近,但有一定的差异,E=Y-Yf,E为残差向量或矩阵,它的组成元素为ei或eij(i和j表示E矩阵的i行和j列)。本发明是针对每个成分建立模型即Y为一列,所以E为向量。通过这种建模的方法来划分样本可以考察哪些样本的X数据对模型的影响较大,保留这些样本或许对模型预测会有一定的稳定作用。而KS和SPXY法对样本划分没有涉及建模这方面,只是根据样本的原始数据来确定,所以很难确定哪些样本对模型的影响较大。
上述划分方法,对于校正集和验证集样本数量的设定,总的原则是校正集的样本数量要多于验证集的样本数量。样本数量设定的不同一般会影响所建模型的预测性能,因为实验研究往往是在有限集中选择样本,理论上只有在无限多的样本中选择一定数量的样本可以认为影响小。对于本发明所用的数据集划分方法,样本数量有所改变,模型的预测性能都会有变化。
优选的,校正集和验证集样本数量的设置比例为(3-8):1。
本发明的有益效果:
采用本发明的用于近红外光谱分析的校正集和验证集的划分方法,与目前常用的数据划分方法如Kennard-Stone(KS)法和SPXY方法比较,得到的建模性能要好,预测能力更强,特别是对于独立验证集样本的预测更好。
由于划分方法不同,得到的校正集和验证集也不同。对模型预测性能的评价主要是对模型的校正集预测性能的评价,如果对“独立检验集”预测性能好,则说明某划分方法得到的校正集的预测性能更好,因为对于不同的划分方法来说,“校正集”和“验证集”可以因方法而不同,但“独立验证集”始终是相同的,这样评价更具有客观性。
附图说明
图1:实施例1中所有样本的原始近红外光谱;
图2:实施例1中去除异常样本之后的主成分投影图。
具体实施方式
下面结合实施例对本发明作进一步的说明,应该说明的是,下述说明仅是为了解释本发明,并不对其内容进行限定。
实施例1:
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。矩阵X为样本的近红外光谱矩阵,矩阵Y是两个质量指标成分(芍药苷和肉桂酸)矩阵。
以质量指标成分为肉桂酸为例,样本的原始图谱详见图1所示。所有样本的肉桂酸含量采用HPLC色谱方法测定,并经过方法学验证。先进行异常样本的剔除,通过HotellingT2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。去除异常值后的样本近红外光谱的主成分投影图如图2所示。由图2可见,剩余的样本通过Hotelling T2检验(在椭圆圈内),已没有异常样本。
随机抽取30个样本作为独立验证集Xt。
对剩余173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。首先将173个样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联,建立Y和X之间的关系模型,如下:
Y=XBpls (1);
得到模型参数(即回归系数Bpls)。
然后将这些样本的X光谱数据重新代入模型
Yf=XBpls (2);
通过模型参数计算出每个样本的拟合值Yi f,接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。
根据划分结果,采用偏最小二乘法分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复10次试验,随机抽取相同数量的样本,计算上述各指标的平均值进行比较。有关结果见表1。
表1各种数据集划分方法的建模性能比较(肉桂酸的测定)
由表1可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本发明的方法无论从RMSEC,RMSEV和RMSEP值,还是Rc,Rv和Rp都要优于另外两种方法。特别是相同的独立验证集样本,本法得到的RMSEP最小,Rp最大,预测能力最强。
表2列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为10次试验结果的平均值。
表2数据集的参考值的范围(肉桂酸的含量(μg/mL),10次平均结果)
由表2可见,三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能包括验证集样本的参考值范围。
实施例2:
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以芍药苷为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt。
对剩余173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复10次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表3。
表3各种数据集划分方法的建模性能比较(芍药苷的测定)
由表3可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本方法只有Rc值略小于KS方法,但优于SPXY法。Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法所得结果均是最小的。由于三种方法采用相同的独立验证集,本法所得的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表4列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为10次试验结果的平均值。
表4数据集的参考值的范围(芍药苷的含量(mg/mL),10次平均结果)
由表4可见,三种方法划分的校正集样本的参考值(芍药苷的含量mg/mL)范围均能涵盖验证集样本的参考值范围。另外,KS法和SPXY的原理相近,所得结果也非常相似。
实施例3
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以芍药苷为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt。
对剩余173个样本进行划分,我们变化了验证集样本的数量,以考察验证集样本数量变化后,各种划分方法对模型的性能的影响。其中验证集样本数设定为30,校正集样本数为143。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复20次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表5。
表5各种数据集划分方法的建模性能比较(芍药苷的测定)
由表5可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本方法只有Rc值略小于SPXY方法,但优于KS法。Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法只有RMSEC大于SPXY,但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集,本法所得的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表6列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为20次试验结果的平均值。
表6数据集的参考值的范围(芍药苷的含量(mg/mL),20次平均结果)
由表6可见,虽然本法的验证集范围略超出校正集范围,但从表5的预测性能来看(如RMSEV和Rv及RMSEP和Rp)都优于另外两种方法。而且在制药领域实践中,有些独立批次的检验样本也许不一定就包含在校正集范围内,因此通过本法划分的校正集而建立的模型适用性可能更好。
实施例4
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以肉桂酸为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt。
对剩余173个样本进行划分,我们变化了验证集样本的数量,以考察验证集样本数量变化后,各种划分方法对模型的性能的影响。其中验证集样本数设定为30,校正集样本数为143。首先将173样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复20次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表7。
表7各种数据集划分方法的建模性能比较(肉桂酸的测定)
建立校正模型的目的就是为了使模型具有较强的预测能力,因此模型的预测能力是建立模型的一个相对非常重要的指标。RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。由表7可见,本方法只有Rc值略小于SPXY和KS方法,但Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法只有RMSEC大于SPXY和KS法,但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集,本法的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表8列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为20次试验结果的平均值。
表8数据集的参考值的范围(肉桂酸含量(μg/mL),20次平均结果)
由表8可见,三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能涵盖验证集样本的参考值范围。另外,KS法和SPXY的原理相近,所得结果也非常相似。
Claims (9)
1.一种用于近红外光谱分析的校正集和验证集的划分方法,其特征在于,步骤如下:
将样本的近红外光谱进行异常值检测,剔除异常值;然后抽取一定量的样本组成独立验证集;
将剩余样本的近红外光谱与相应的参考值关联,建模,拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi-Yi f)2,
其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值;
选择ei 2最小值对应的样本作为验证集样本;将ei 2最小值对应的样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
2.如权利要求1所述的划分方法,其特征在于,采用偏最小二乘法建模,将样本的近红外光谱与相应的参考值进行关联。
3.如权利要求2所述的划分方法,其特征在于,建模方法的潜在变量数由10倍交叉验证得到;建模是在模型优化的潜在变量数下进行。
4.如权利要求2所述的划分方法,其特征在于,建模得到的关系模型为:Y=XBpls;其中,Bpls是对应的回归系数。
5.如权利要求1所述的划分方法,其特征在于,拟合的操作为:通过建模求出Bpls,然后再利用模型:Yf=XBpls,求出Yi f。
6.如权利要求1所述的划分方法,其特征在于,采用Hotelling T2法进行异常值检测。
7.如权利要求1所述的划分方法,其特征在于,采用随机抽取法抽取样本组成独立验证集。
8.如权利要求1所述的划分方法,其特征在于,独立验证集的样本数量少于校正集的样本数量。
9.如权利要求1所述的划分方法,其特征在于,校正集和验证集样本数量的设置比例为(3-8):1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062548.4A CN106770005B (zh) | 2016-11-25 | 2016-11-25 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611062548.4A CN106770005B (zh) | 2016-11-25 | 2016-11-25 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106770005A CN106770005A (zh) | 2017-05-31 |
CN106770005B true CN106770005B (zh) | 2018-10-26 |
Family
ID=58901805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611062548.4A Active CN106770005B (zh) | 2016-11-25 | 2016-11-25 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106770005B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110687072B (zh) * | 2019-10-17 | 2020-12-01 | 山东大学 | 一种基于光谱相似度的校正集和验证集的选择及建模方法 |
CN112749466B (zh) * | 2019-10-30 | 2023-11-21 | 北京中医药大学 | 智能制造测量控制集成模型及其建立方法应用 |
CN114199814B (zh) * | 2020-08-28 | 2024-04-26 | 贵州中烟工业有限责任公司 | 一种基于回归系数的近红外定量分析模型更新方法 |
CN112285056B (zh) * | 2020-10-14 | 2022-02-08 | 山东大学 | 一种用于光谱样品个性化校正集选择及建模方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616022A (zh) * | 2015-01-13 | 2015-05-13 | 浙江科技学院 | 一种近红外光谱的分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100398362B1 (ko) * | 2000-09-01 | 2003-09-19 | 스펙트론 테크 주식회사 | 근적외선 분광 분석법에 의한 피부 수분 측정방법 및 장치 |
CN104062256B (zh) * | 2013-04-15 | 2016-12-28 | 山东东阿阿胶股份有限公司 | 一种基于近红外光谱的软测量方法 |
CN104062258B (zh) * | 2013-05-07 | 2017-02-22 | 山东东阿阿胶股份有限公司 | 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法 |
CN104596984A (zh) * | 2015-01-05 | 2015-05-06 | 北京中医药大学 | 一种六神曲发酵过程近红外在线质量检测方法 |
CN105486663B (zh) * | 2016-02-29 | 2018-10-19 | 上海交通大学 | 一种利用近红外光谱检测土壤的稳定碳同位素比值的方法 |
-
2016
- 2016-11-25 CN CN201611062548.4A patent/CN106770005B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616022A (zh) * | 2015-01-13 | 2015-05-13 | 浙江科技学院 | 一种近红外光谱的分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106770005A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104062257B (zh) | 一种基于近红外光谱测定溶液中总黄酮含量的方法 | |
CN106770005B (zh) | 一种用于近红外光谱分析的校正集和验证集的划分方法 | |
Wang et al. | Technology using near infrared spectroscopic and multivariate analysis to determine the soluble solids content of citrus fruit | |
Zhang et al. | Rapid determination of leaf water content using VIS/NIR spectroscopy analysis with wavelength selection | |
CN104062256B (zh) | 一种基于近红外光谱的软测量方法 | |
CN105388123B (zh) | 一种由近红外光谱预测原油性质的方法 | |
US10481081B2 (en) | Texture analysis of a coated surface using pivot-normalization | |
CN104792722A (zh) | 一种沉香含油率近红外光谱预测模型的建立 | |
CN106680238B (zh) | 基于红外光谱分析物质成分含量的方法 | |
CN103808688B (zh) | 近红外光谱法快速无损检测成品药物的质量一致性 | |
CN104062258B (zh) | 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法 | |
CN104062259B (zh) | 一种采用近红外光谱快速测定复方阿胶浆中总皂苷含量的方法 | |
CN104020127A (zh) | 一种利用近红外光谱快速测量烟叶中无机元素的方法 | |
CN108956545B (zh) | 一种水果内部品质无损检测模型建立方法及系统 | |
CN106841083A (zh) | 基于近红外光谱技术的芝麻油品质检测方法 | |
CN106092990A (zh) | 一种宁夏枸杞的三维荧光光谱鉴别方法 | |
CN106560697A (zh) | 联合近红外光谱和微量元素的武夷岩茶产地鉴别方法 | |
CN106529008B (zh) | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 | |
CN103592255A (zh) | 一种基于近红外光谱技术的阿胶化皮液中总蛋白含量的软测量方法 | |
CN106950192A (zh) | 一种基于近红外光谱分析技术的植物蛋白饮料中主要成分含量快速检测的方法 | |
CN109839358A (zh) | 农产品品质分析方法及装置 | |
CN104502306B (zh) | 基于变量重要性的近红外光谱波长选择方法 | |
CN108593863A (zh) | 一种中药提取过程中的在线检测方法与装置 | |
Chen et al. | Automatic soft independent modeling for class analogies | |
CN102128805A (zh) | 果品近红外光谱波长选择和快速定量分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |