CN106770005A - 一种用于近红外光谱分析的校正集和验证集的划分方法 - Google Patents

一种用于近红外光谱分析的校正集和验证集的划分方法 Download PDF

Info

Publication number
CN106770005A
CN106770005A CN201611062548.4A CN201611062548A CN106770005A CN 106770005 A CN106770005 A CN 106770005A CN 201611062548 A CN201611062548 A CN 201611062548A CN 106770005 A CN106770005 A CN 106770005A
Authority
CN
China
Prior art keywords
sample
model
division methods
calibration set
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611062548.4A
Other languages
English (en)
Other versions
CN106770005B (zh
Inventor
聂磊
臧恒昌
曾英姿
姜红
姜文文
张惠
李彤彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201611062548.4A priority Critical patent/CN106770005B/zh
Publication of CN106770005A publication Critical patent/CN106770005A/zh
Application granted granted Critical
Publication of CN106770005B publication Critical patent/CN106770005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种用于近红外光谱分析的校正集和验证集的划分方法,步骤如下:将样本的近红外光谱与相应的参考值关联,拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi‑Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值;选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。采用本发明的用于近红外光谱分析的校正集和验证集的划分方法,与Kennard‑Stone法和SPXY方法比较,得到的建模性能要好,预测能力更强,特别是对于独立验证集样本的预测更好。

Description

一种用于近红外光谱分析的校正集和验证集的划分方法
技术领域
本发明涉及光谱分析中的样品集划分技术领域,具体涉及一种用于近红外光谱分析的校正集和验证集的划分方法。
背景技术
近红外光谱分析方法(NIR)是目前发展迅速的一种快速、无损及绿色的分析技术,在诸多领域如化学、生命科学、食品及制药领域得到广泛应用。近红外光谱分析法与传统的分析方法不同的是需要通过化学计量学方法将样本的近红外光谱与对应的参考值(如成分含量等)关联建立校正模型,然后通过校正模型进行对未知样本的参考值进行预测,以实现快速分析的目的。
为了建立校正模型,需要对样本数据集进行划分。不同的划分方法得到的校正集和验证集的结果是不同的。如何选择何种样本以提高模型的适用性和预测能力是NIR建模的基本问题之一。
目前,在近红外光谱研究领域应用较多的数据集划分方法主要有Kennard-Stone(KS)法及SPXY法。其中,KS法可以使有代表性的样品进入定标集,从而在一定程度上避免了定标集样品分布的不均匀。但这种方法没有考虑到有些光谱的差异并非完全由所测样品的组成或性质的差异引起的,很有可能将异常样品也选入定标集中。
SPXY法与KS法非常相似,它是以KS为基础,将参考值变量(Y)加以考虑,对样本近红外光谱间的距离和参考值间的距离进行了标准化处理(除以相应距离的最大值),使得样本在近红外光谱空间和参考值空间权重相同。但从方法本身来看,SPXY法和KS法对所选择的校正集样本是否有较好的预测能力很难确定。
因此,校正集和验证集样本的选择对光谱多元分析校正至关重要,校正集和验证集的不同划分会造成模型预测效果的变化很大,如果验证集样本的选择不具代表性,则将严重影响模型性能的正确评价。提供新的建模性能更好、预测能力更强的样品集的划分方法,是近红外光谱分析的关键课题之一。
发明内容
针对上述现有技术,本发明依托“山东大学基本科研业务费咨询项目”(项目编号2015YQ010),开发了供一种用于近红外光谱分析的校正集和验证集的划分方法。
为实现上述目的,本发明采用下述技术方案:
一种用于近红外光谱分析的校正集和验证集的划分方法,包括以下步骤:
(1)对样品进行近红外光谱测定,得光谱原始矩阵X;
(2)采用参考方法测定样品的参考值,得到矩阵Y;
(3)对光谱原始矩阵X进行异常值检测,将异常值剔除,并将相对应的矩阵Y中的异常参考值剔除;
(4)在剔除异常值后的矩阵X中,抽取一定量的样本组成独立验证集,记为Xt,其对应参考值矩阵为Yt,Xt和Yt的样本一一对应;独立验证集的样本数量根据实际需要进行确定,一般不要多于校正集的样本数量,且参考值的范围一般应包含于校正集样本的参考值范围。
(5)将剩下的样本近红外光谱数据和参考值数据采用建模方法进行关联,建模,然后拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,选择ei 2最小值对应的样本作为验证集样本;本发明选择ei 2最小值对应的样本作为验证集样本,该样本对于校正模型的影响较小,使校正集保留较多的对模型有较大影响力的样本。
(6)将该样本剔除后,再用建模方法对剩余样本的近红外光谱数据和对应参考值数据关联,拟合,重复步骤(5),每一步选择一个样本加到验证集中,直至达到需要的样本数量,这些样本组成验证集,记为Xv,对应的参考值记为Yv
(7)最后将剩余的样本构成校正集,记为Xc,对应的参考值记为Yc
优选的,步骤(3)中,采用Hotelling T2法对异常值进行检测。
优选的,步骤(4)中,抽取样本为随机抽取样本,理论上每个样本抽取的机会均等。
优选的,步骤(5)中,建模方法为偏最小二乘(PLS)法。
优选的,步骤(5)中,建模得到的关系模型为:Y=XBpls;其中,Bpls是对应的回归系数。
进一步的,若Y矩阵不只1列,即包括多个不同参考值(如不同成分含量),X和Y之间的建模按X与Y矩阵的每列分别建模。
优选的,步骤(5)中,建模方法的潜在变量数由10倍交叉验证得到。建模均是在模型优化的潜在变量数下进行。
优选的,步骤(5)中,拟合的操作为:通过建模可以求出Bpls,然后再利用模型:Yf=XBpls,求出Yi f
对于未知样本Xu,模型:Yu f=XuBpls则为预测过程。
一般情况下,Yf和Y很相近,但有一定的差异,E=Y-Yf,E为残差向量或矩阵,它的组成元素为ei或eij(i和j表示E矩阵的i行和j列)。本发明是针对每个成分建立模型即Y为一列,所以E为向量。通过这种建模的方法来划分样本可以考察哪些样本的X数据对模型的影响较大,保留这些样本或许对模型预测会有一定的稳定作用。而KS和SPXY法对样本划分没有涉及建模这方面,只是根据样本的原始数据来确定,所以很难确定哪些样本对模型的影响较大。
上述划分方法,对于校正集和验证集样本数量的设定,总的原则是校正集的样本数量要多于验证集的样本数量。样本数量设定的不同一般会影响所建模型的预测性能,因为实验研究往往是在有限集中选择样本,理论上只有在无限多的样本中选择一定数量的样本可以认为影响小。对于本发明所用的数据集划分方法,样本数量有所改变,模型的预测性能都会有变化。
优选的,校正集和验证集样本数量的设置比例为(3-8):1。
本发明的有益效果:
采用本发明的用于近红外光谱分析的校正集和验证集的划分方法,与目前常用的数据划分方法如Kennard-Stone(KS)法和SPXY方法比较,得到的建模性能要好,预测能力更强,特别是对于独立验证集样本的预测更好。
由于划分方法不同,得到的校正集和验证集也不同。对模型预测性能的评价主要是对模型的校正集预测性能的评价,如果对“独立验证集”预测性能好,则说明某划分方法得到的校正集的预测性能更好,因为对于不同的划分方法来说,“校正集”和“验证集”可以因方法而不同,但“独立验证集”始终是相同的,这样评价更具有客观性。
附图说明
图1:实施例1中所有样本的原始近红外光谱;
图2:实施例1中去除异常样本之后的主成分投影图。
具体实施方式
下面结合实施例对本发明作进一步的说明,应该说明的是,下述说明仅是为了解释本发明,并不对其内容进行限定。
实施例1:
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。矩阵X为样本的近红外光谱矩阵,矩阵Y是两个质量指标成分(芍药苷和肉桂酸)矩阵。
以质量指标成分为肉桂酸为例,样本的原始图谱详见图1所示。所有样本的肉桂酸含量采用HPLC色谱方法测定,并经过方法学验证。先进行异常样本的剔除,通过HotellingT2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。去除异常值后的样本近红外光谱的主成分投影图如图2所示。由图2可见,剩余的样本通过Hotelling T2检验(在椭圆圈内),已没有异常样本。
随机抽取30个样本作为独立验证集Xt
对剩余173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。首先将173个样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联,建立Y和X之间的关系模型,如下:
Y=XBpls (1);
得到模型参数(即回归系数Bpls)。
然后将这些样本的X光谱数据重新代入模型
Yf=XBpls (2);
通过模型参数计算出每个样本的拟合值Yi f,接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。
根据划分结果,采用偏最小二乘法分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复10次试验,随机抽取相同数量的样本,计算上述各指标的平均值进行比较。有关结果见表1。
表1 各种数据集划分方法的建模性能比较(肉桂酸的测定)
由表1可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本发明的方法无论从RMSEC,RMSEV和RMSEP值,还是Rc,Rv和Rp都要优于另外两种方法。特别是相同的独立验证集样本,本法得到的RMSEP最小,Rp最大,预测能力最强。
表2列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为10次试验结果的平均值。
表2 数据集的参考值的范围(肉桂酸的含量(μg/mL),10次平均结果)
由表2可见,三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能包括验证集样本的参考值范围。
实施例2:
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以芍药苷为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt
对剩余173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分,其中验证集样本数设定为20,校正集样本数为153。。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复10次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表3。
表3 各种数据集划分方法的建模性能比较(芍药苷的测定)
由表3可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本方法只有Rc值略小于KS方法,但优于SPXY法。Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法所得结果均是最小的。由于三种方法采用相同的独立验证集,本法所得的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表4列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为10次试验结果的平均值。
表4 数据集的参考值的范围(芍药苷的含量(mg/mL),10次平均结果)
由表4可见,三种方法划分的校正集样本的参考值(芍药苷的含量mg/mL)范围均能涵盖验证集样本的参考值范围。另外,KS法和SPXY的原理相近,所得结果也非常相似。
实施例3
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以芍药苷为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt
对剩余173个样本进行划分,我们变化了验证集样本的数量,以考察验证集样本数量变化后,各种划分方法对模型的性能的影响。其中验证集样本数设定为30,校正集样本数为143。首先将173样本的近红外光谱数据和芍药苷含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(芍药苷含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复20次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表5。
表5 各种数据集划分方法的建模性能比较(芍药苷的测定)
由表5可见,RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。本方法只有Rc值略小于SPXY方法,但优于KS法。Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法只有RMSEC大于SPXY,但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集,本法所得的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表6列出了各种方法划分的校正集、验证集以及独立验证集的芍药苷参考值的范围。该范围为20次试验结果的平均值。
表6 数据集的参考值的范围(芍药苷的含量(mg/mL),20次平均结果)
由表6可见,虽然本法的验证集范围略超出校正集范围,但从表5的预测性能来看(如RMSEV和Rv及RMSEP和Rp)都优于另外两种方法。而且在制药领域实践中,有些独立批次的检验样本也许不一定就包含在校正集范围内,因此通过本法划分的校正集而建立的模型适用性可能更好。
实施例4
以中药制剂参枝苓口服液为例,测定的样本数共有219个,包括样本的重复。X为样本的近红外光谱矩阵,Y是两个质量指标成分矩阵。以芍药苷为测定对象,先进行异常样本的剔除,通过Hotelling T2方法,检测到16个异常样本,然后剔除之后共剩下203个样本。随机抽取30个样本作为独立验证集Xt
对剩余173个样本进行划分,我们变化了验证集样本的数量,以考察验证集样本数量变化后,各种划分方法对模型的性能的影响。其中验证集样本数设定为30,校正集样本数为143。首先将173样本的近红外光谱数据和肉桂酸含量采用偏最小二乘(PLS)法进行关联,建模,得到模型参数(即回归系数),然后将这些样本的X光谱数据重新代入模型,通过模型参数计算出每个样本的拟合值,接着再计算每个样本的拟合值和对应参考值(肉桂酸含量)的差值的平方,记为ei 2=(Yi-Yi f)2,其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值。选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
作为对比,分别采用Kennard-Stone(即KS)法和SPXY方法对173个样本进行划分。
根据划分结果,采用偏最小二乘法(PLS)分别建立X和Y的关联模型,以校正集均方根误差(RMSEC),验证集均方根误差(RMSEV)和独立验证集的均方根误差(RMSEP)及相应的相关系数,如校正集相关系数(Rc),验证集相关系数(Rv)和预测集相关系数(Rp)来共同评价模型性能。由于独立验证集是随机抽取的一定数量的样本,有一定的偶然性。为了客观地评价各种数据集的划分方法,我们平行重复20次抽取相同数量的样本作为独立验证集,计算上述各指标的平均值进行比较。有关结果见表7。
表7 各种数据集划分方法的建模性能比较(肉桂酸的测定)
建立校正模型的目的就是为了使模型具有较强的预测能力,因此模型的预测能力是建立模型的一个相对非常重要的指标。RMSEC,RMSEV和RMSEP值均是越小越好,Rc,Rv和Rp均是越大越好。由表7可见,本方法只有Rc值略小于SPXY和KS方法,但Rv和Rp均是三种方法中的最大值。从RMSEC,RMSEV和RMSEP值可见,本法只有RMSEC大于SPXY和KS法,但RMSEV和RMSEP值是三种方法所得结果的最小值。由于三种方法采用相同的独立验证集,本法的Rp最大,RMSEP最小,表明本法对于相同的独立验证集具有最强的预测能力。
表8列出了各种方法划分的校正集、验证集以及独立验证集的肉桂酸参考值的范围。该范围为20次试验结果的平均值。
表8 数据集的参考值的范围(肉桂酸含量(μg/mL),20次平均结果)
由表8可见,三种方法划分的校正集样本的参考值(肉桂酸含量μg/mL)范围均能涵盖验证集样本的参考值范围。另外,KS法和SPXY的原理相近,所得结果也非常相似。

Claims (9)

1.一种用于近红外光谱分析的校正集和验证集的划分方法,其特征在于,步骤如下:
将样本的近红外光谱进行异常值检测,剔除异常值;然后抽取一定量的样本组成独立验证集;
将剩余样本的近红外光谱与相应的参考值关联,建模,拟合,计算每个样本的拟合值和对应参考值的差值的平方,记为ei 2=(Yi-Yi f)2
其中,Yi和Yi f分别表示样本i的参考值和通过模型计算的拟合值,ei代表Yi和Yi f的差值;
选择ei 2最小值对应的样本作为验证集样本;将i样本剔除,然后对于剩余样本继续建模、拟合,重复上述步骤,直到选择出需要的验证集样本数量,剩余的样本为校正集样本。
2.如权利要求1所述的划分方法,其特征在于,采用偏最小二乘法建模,将样本的近红外光谱与相应的参考值进行关联。
3.如权利要求2所述的划分方法,其特征在于,建模方法的潜在变量数由10倍交叉验证得到;建模是在模型优化的潜在变量数下进行。
4.如权利要求2所述的划分方法,其特征在于,建模得到的关系模型为:Y=XBpls;其中,Bpls是对应的回归系数。
5.如权利要求1所述的划分方法,其特征在于,拟合的操作为:通过建模求出Bpls,然后再利用模型:Yf=XBpls,求出Yi f
6.如权利要求1所述的划分方法,其特征在于,采用Hotelling T2法进行异常值检测。
7.如权利要求1所述的划分方法,其特征在于,采用随机抽取法抽取样本组成独立验证集。
8.如权利要求1所述的划分方法,其特征在于,独立验证集的样本数量少于校正集的样本数量。
9.如权利要求1所述的划分方法,其特征在于,校正集和验证集样本数量的设置比例为(3-8):1。
CN201611062548.4A 2016-11-25 2016-11-25 一种用于近红外光谱分析的校正集和验证集的划分方法 Active CN106770005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611062548.4A CN106770005B (zh) 2016-11-25 2016-11-25 一种用于近红外光谱分析的校正集和验证集的划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611062548.4A CN106770005B (zh) 2016-11-25 2016-11-25 一种用于近红外光谱分析的校正集和验证集的划分方法

Publications (2)

Publication Number Publication Date
CN106770005A true CN106770005A (zh) 2017-05-31
CN106770005B CN106770005B (zh) 2018-10-26

Family

ID=58901805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611062548.4A Active CN106770005B (zh) 2016-11-25 2016-11-25 一种用于近红外光谱分析的校正集和验证集的划分方法

Country Status (1)

Country Link
CN (1) CN106770005B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110687072A (zh) * 2019-10-17 2020-01-14 山东大学 一种基于光谱相似度的校正集和验证集选择及建模方法
CN112285056A (zh) * 2020-10-14 2021-01-29 山东大学 一种用于光谱样品个性化校正集选择及建模方法
CN112749466A (zh) * 2019-10-30 2021-05-04 北京中医药大学 智能制造测量控制集成模型及其建立方法应用
CN114199814A (zh) * 2020-08-28 2022-03-18 贵州中烟工业有限责任公司 一种基于回归系数的近红外定量分析模型更新方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529767B1 (en) * 2000-09-01 2003-03-04 Spectron Tech Co., Ltd. Method and apparatus for measuring skin moisture by using near infrared reflectance spectroscopy
CN104062258A (zh) * 2013-05-07 2014-09-24 山东东阿阿胶股份有限公司 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
CN104062256A (zh) * 2013-04-15 2014-09-24 山东东阿阿胶股份有限公司 一种基于近红外光谱的软测量方法
CN104596984A (zh) * 2015-01-05 2015-05-06 北京中医药大学 一种六神曲发酵过程近红外在线质量检测方法
CN104616022A (zh) * 2015-01-13 2015-05-13 浙江科技学院 一种近红外光谱的分类方法
CN105486663A (zh) * 2016-02-29 2016-04-13 上海交通大学 一种利用近红外光谱检测土壤的稳定碳同位素比值的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529767B1 (en) * 2000-09-01 2003-03-04 Spectron Tech Co., Ltd. Method and apparatus for measuring skin moisture by using near infrared reflectance spectroscopy
CN104062256A (zh) * 2013-04-15 2014-09-24 山东东阿阿胶股份有限公司 一种基于近红外光谱的软测量方法
CN104062258A (zh) * 2013-05-07 2014-09-24 山东东阿阿胶股份有限公司 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
CN104596984A (zh) * 2015-01-05 2015-05-06 北京中医药大学 一种六神曲发酵过程近红外在线质量检测方法
CN104616022A (zh) * 2015-01-13 2015-05-13 浙江科技学院 一种近红外光谱的分类方法
CN105486663A (zh) * 2016-02-29 2016-04-13 上海交通大学 一种利用近红外光谱检测土壤的稳定碳同位素比值的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《JOURNAL OF PHARMACEUTICAL AND BIOMEDICAL ANALYSIS》 *
《SPECTROCHIMICA ACTA PART A: MOLECULAR AND BIOMOLECULAR SPECTROSCOPY》 *
《中国医药工业杂志》 *
《光谱学与光谱分析》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110687072A (zh) * 2019-10-17 2020-01-14 山东大学 一种基于光谱相似度的校正集和验证集选择及建模方法
WO2021073541A1 (zh) * 2019-10-17 2021-04-22 山东大学 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN112749466A (zh) * 2019-10-30 2021-05-04 北京中医药大学 智能制造测量控制集成模型及其建立方法应用
CN112749466B (zh) * 2019-10-30 2023-11-21 北京中医药大学 智能制造测量控制集成模型及其建立方法应用
CN114199814A (zh) * 2020-08-28 2022-03-18 贵州中烟工业有限责任公司 一种基于回归系数的近红外定量分析模型更新方法
CN114199814B (zh) * 2020-08-28 2024-04-26 贵州中烟工业有限责任公司 一种基于回归系数的近红外定量分析模型更新方法
CN112285056A (zh) * 2020-10-14 2021-01-29 山东大学 一种用于光谱样品个性化校正集选择及建模方法

Also Published As

Publication number Publication date
CN106770005B (zh) 2018-10-26

Similar Documents

Publication Publication Date Title
Wang et al. Technology using near infrared spectroscopic and multivariate analysis to determine the soluble solids content of citrus fruit
CN104062257B (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
Xu et al. A wavelength selection method based on randomization test for near-infrared spectral analysis
WO2016000088A1 (zh) 一种基于最佳指数-相关系数法的高光谱波段提取方法
CN105630743B (zh) 一种光谱波数的选择方法
CN106770005A (zh) 一种用于近红外光谱分析的校正集和验证集的划分方法
Yang et al. Integration of SIMCA and near-infrared spectroscopy for rapid and precise identification of herbal medicines
CN104062256B (zh) 一种基于近红外光谱的软测量方法
Xie et al. Color measurement of tea leaves at different drying periods using hyperspectral imaging technique
US20210404952A1 (en) Method for selection of calibration set and validation set based on spectral similarity and modeling
CN103808688B (zh) 近红外光谱法快速无损检测成品药物的质量一致性
Chen et al. Determination of rice syrup adulterant concentration in honey using three-dimensional fluorescence spectra and multivariate calibrations
CN104062258B (zh) 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
Ranzan et al. Wheat flour characterization using NIR and spectral filter based on Ant Colony Optimization
CN104020127A (zh) 一种利用近红外光谱快速测量烟叶中无机元素的方法
CN106092990A (zh) 一种宁夏枸杞的三维荧光光谱鉴别方法
CN103033486A (zh) 陈皮及广陈皮药材质量的近红外光谱监控方法
CN107132194A (zh) 一种基于紫外可见光谱及化学模式识别的三七及其伪品鉴别方法
Wang et al. Tea Analyzer: A low-cost and portable tool for quality quantification of postharvest fresh tea leaves
Chen et al. Sampling error profile analysis (SEPA) for model optimization and model evaluation in multivariate calibration
Chen et al. Automatic soft independent modeling for class analogies
CN104502306A (zh) 基于变量重要性的近红外光谱波长选择方法
Wang et al. Estimating cotton leaf nitrogen by combining the bands sensitive to nitrogen concentration and oxidase activities using hyperspectral imaging
Sheng et al. Data fusion strategy for rapid prediction of moisture content during drying of black tea based on micro-NIR spectroscopy and machine vision
CN110264050A (zh) 农产品品质分析方法及分析仪

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant