CN114199814B - 一种基于回归系数的近红外定量分析模型更新方法 - Google Patents
一种基于回归系数的近红外定量分析模型更新方法 Download PDFInfo
- Publication number
- CN114199814B CN114199814B CN202010884304.4A CN202010884304A CN114199814B CN 114199814 B CN114199814 B CN 114199814B CN 202010884304 A CN202010884304 A CN 202010884304A CN 114199814 B CN114199814 B CN 114199814B
- Authority
- CN
- China
- Prior art keywords
- quantitative analysis
- near infrared
- spectrum
- model
- infrared quantitative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001228 spectrum Methods 0.000 claims abstract description 116
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 239000000126 substance Substances 0.000 claims description 17
- 238000002329 infrared spectrum Methods 0.000 claims description 15
- 238000010200 validation analysis Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000009614 chemical analysis method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000523 sample Substances 0.000 abstract description 105
- 238000001514 detection method Methods 0.000 abstract description 8
- 239000013074 reference sample Substances 0.000 abstract description 4
- 241000208125 Nicotiana Species 0.000 description 32
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 32
- 239000002585 base Substances 0.000 description 15
- 241000196324 Embryophyta Species 0.000 description 10
- 239000003513 alkali Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 235000019504 cigarettes Nutrition 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000000843 powder Substances 0.000 description 6
- 239000000428 dust Substances 0.000 description 5
- 229930013930 alkaloid Natural products 0.000 description 3
- 150000003797 alkaloid derivatives Chemical class 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N2021/3595—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于回归系数的近红外定量分析模型更新方法,包括建立主机仪器上的近红外定量分析基础模型,获得在从机或样本物理状态不一样情况下的参考样本的光谱;挑选目标样本并测定分析指标参数;根据目标光谱和基础光谱,构建混合光谱矩阵,并根据目标参考值和基础参考值,构建混合参考值矩阵,并将该矩阵作中心化预处理;构建与回归系数相关的预设函数;选择预设函数值达到最小值时所对应的近红外定量分析更新模型的待定回归系数,建立近红外定量分析更新模型。本发明能够提供了一种基于回归系数的近红外定量分析模型更新方法,其在进行近红外定量分析模型更新过程中,仅需要少量新样本就可以完成基础模型的共享并使其满足检测要求。
Description
技术领域
本发明涉及近红外光谱分析技术应用领域,特别涉及一种基于回归系数的近红外定量分析模型更新的方法。
背景技术
近年来,近红外光谱分析技术广泛应用于各行各业。近红外光谱分析技术应用的关键是近红外分析模型的建立和使用,近红外定量分析模型建立,被广泛使用。但是,在近红外定量分析模型的实际应用中,由于仪器、样本的物理状态等发生改变,测得的光谱也会发生相应地变化,进而引起原来建立的定量分析模型预测的结果不准确,因此需要一种模型更新方法,在不同仪器间或者分析不同物理状态样本之间实现近红外定量分析模型的共享和使用。现有的做法中,一般测定新样本的光谱和相应的分析指标参数,然后利用上述新样本的光谱和分析指标参数重新建立近红外定量分析模型。由于在建立近红外定量分析模型的过程中,需要测定大量新样本的参考值,需要耗费较多的时间和人力。因此,在模型能达到检测需求的情况下,需要找到如何用少量新样本更新模型的方法。
发明内容
本发明的目的在于解决在建立不同仪器间或者分析不同物理状态的样本之间的近红外定量分析模型的过程中,需要测定大量新样本的参考值,造成时间和人力耗费较多的问题。本发明提供了一种基于回归系数的近红外定量分析模型更新的方法,其在进行近红外定量分析模型更新过程中,仅需要少量新样本就可以完成模型更新并使其满足检测要求。
为解决上述技术问题,本发明的实施方式公开了一种基于回归系数的近红外定量分析模型的更新方法,包括以下步骤:
S1、在主机上测量主机样本,获得主机样本的近红外光谱作为基础光谱,并用化学方法测定主机样本的分析指标参数作为基础参考值,根据基础光谱和基础参考值,利用偏最小二乘法建立主机样本的近红外定量分析基础模型;
S2、在光谱采集参数一致的条件下,在主机上对物理状态发生了改变的样本进行测量,或者,在从机上对物理状态发生或未发生改变的样本进行测量,得到参考光谱;
S3、选择参考光谱中差异较大的光谱作为目标光谱,用化学分析方法获得目标样本的分析指标参数作为目标参考值,其中,目标样本是指目标光谱所对应的样本;
S4、根据目标光谱和基础光谱,构建混合光谱矩阵,并根据目标参考值和基础参考值,构建混合参考值矩阵;
S5、将混合光谱矩阵和混合参考值矩阵作中心化预处理;
S6、构建预设函数,预设函数是与近红外定量分析基础模型的回归系数和近红外定量分析更新模型的待定回归系数相关的函数;
S7、获得使预设函数为最小值时所对应的近红外定量分析更新模型的待定回归系数作为近红外定量分析更新模型的回归系数,并构建近红外定量分析更新模型。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型的更新方法中,近红外定量分析基础模型为y=Xβ+e,X代表基础光谱,β代表近红外定量分析基础模型的回归系数,e代表预测误差。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型的更新方法中,预设函数为
f(β*)=min(abs(||β*||2-σ||β||2))
其中,0<σ<1,β*是近红外定量分析更新模型待定回归系数。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型的更新方法中,步骤S7包括:
S71、使潜变量数遍历(1,2...30),根据混合光谱矩阵、混合参考值矩阵及各潜变量数,利用非线性迭代偏最小二乘法,分别计算各潜变量数所对应的近红外定量分析更新模型的待定回归系数;
S72、将上一步中获得的各待定回归系数分别代入到所述预设函数中,获得相应的预设函数值并比较各预设函数值,确定预设函数值为最小值时对应的待定回归系数作为近红外定量分析更新模型的回归系数β* 1;
S73、根据近红外定量分析更新模型的回归系数β* 1,构建近红外定量分析更新模型ynew=Xnewβ* 1,β* 1是近红外定量分析更新模型的回归系数。
根据本发明的另一具体实施方式,在基于回归系数建立的近红外定量分析模型的更新方法中,混合光谱矩阵为:混合参考值矩阵为:/>其中,X为基础光谱矩阵,Xt为目标光谱矩阵,y是基础参考值,yt是目标参考值,λ为权重参数且λ≥1。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型的更新方法中,权重参数λ的数值为主机样本的数量。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型的更新方法中,目标样本的数量为5~15个。
根据本发明的另一具体实施方式,在基于回归系数的近红外定量分析模型更新方法中,在步骤S7之后,还包括:评估步骤,用于评估验证样本集的参考值和预测值之间差异的步骤,包括:
(1)利用近红外定量分析更新模型获得验证样本集中各样本的近红外光谱所对应的预测值;
(2)利用化学方法获得验证样本集中各样本的分析指标参数作为参考值;
(3)代入下述式中计算预测均方根误差,
其中,RMSEP表示预测均方根误差,nv表示验证样本集中的样本数量,表示第i个样本的参考值,yi表示第i个样本的近红外预测值,i=1,2……nv。
采用上述技术方案,可以在仪器或样本的物理状态等发生改变时,以少量参考样本更新模型使其满足检测要求,从而可以在需要对模型进行维护或更新时,减少用化学方法测定分析指标参数耗费的时间和人力,并保证模型的预测准确性。
附图说明
图1是基于回归系数的近红外定量分析模型更新方法的流程图;
图2表示同一烟叶样本在不同近红外仪器上量测的近红外光谱;
图3表示烟叶样本中总植物碱参考值、基础模型及近红外定量分析更新模型后的预测值之间的关系;
图4表示烟叶样本的基础模型与近红外定量分析更新模型的回归系数;
图5表示同一卷烟样本的烟末和烟丝在同一仪器上量测的近红外光谱;
图6表示卷烟样本的烟末和烟丝在同一仪器上量测的近红外光谱的主成分得分图;
图7表示卷烟样本中总植物碱参考值与基础模型和近红外定量分析更新模型所得预测值间的关系。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明中的近红外定量分析模型的更新方法包括以下步骤:
S1、在主机上测量主机样本,获得主机样本的近红外光谱作为基础光谱X,并用化学方法测定主机样本的分析指标参数作为基础参考值y,根据基础光谱和基础参考值,利用偏最小二乘法建立主机样本的近红外定量分析基础模型。
本发明将原有近红外光谱仪作为主机,建立近红外定量分析基础模型时所使用的样本作为主机样本。本发明利用传统的化学方法测定主机样本的分析指标参数作为基础参考值。可选的,本发明的分析指标参数可以是用于近红外光谱技术定量分析检测的化学值或基础性质数据,例如药片中的活性成分、小麦、玉米中蛋白质含量、化肥中的化学成分及烟叶中的总植物碱、糖、无机物等。
具体地,近红外定量分析基础模型可以为
y=Xβ+e
其中,X代表基础光谱,β代表近红外定量分析基础模型的回归系数,e代表预测误差。
S2、在光谱采集参数一致的条件下,在主机上对物理状态发生了改变的样本进行测量,或者,在从机上对物理状态发生了改变或未发生改变的样本进行测量,得到参考光谱,参考光谱对应的样本是参考样本。
在使用与主机不同的近红外光谱仪对主机样本测定时,将与该主机不同的近红外光谱仪设为从机。在使用主机对物理状态发生了改变的样本进行测定的情况下,“物理状态发生改变的样本”是指相对于主机样本物理状态发生了改变的主机样本或除主机样本以外的其他样本。在从机上对物理状态发生或未发生改变的样本进行测量的情况下,“物理状态发生或未发生改变的样本”是指,相对于主机样本发生了物理状态发生了改变或未发生改变的主机样本及除主机样本外的其他样本。并且,测定光谱时的采集参数可列举,例如:波长扫描范围、分辨率、扫描次数等可以设定为相同,另外当用从机测量主机样本或其他样本的时候,对于波长点数不一致的情况,可以通过线性插值等算法使其一致。光谱测定时的采集参数一致的条件下,得到的参考光谱与使用主机对主机样本进行测量而得到的基础光谱差异较大。因此,对于参考光谱,原近红外定量分析基础模型并不适用,需要对近红外定量分析基础模型进行更新。为了更新近红外定量分析基础模型,使其适用于更大的范围,可以将参考光谱对应的参考样本加入到近红外定量分析基础模型来进行更新。
S3、选择参考光谱中差异较大的光谱作为目标光谱Xt,并用化学分析方法获得目标光谱所对应的目标样本的分析指标参数作为目标参考值yt,其中,目标样本是指目标光谱所对应的样本。
本发明中,采用常用的Kennard-Stone(KS)方法选择参考光谱中差异较大的光谱作为目标光谱。具体过程如下:通过计算参考光谱中各光谱之间的欧氏距离,将光谱差异较大的样品依次选出。把所有的参考样本都看作训练集候选样本,依次从中挑选样本进训练集。首先选择欧氏距离最远的两个样本进入训练集,其后通过计算剩下的每一个样品到训练集内每一个已知样品的欧式距离,找到距已选样本最远以及最近的两个样本,并将这两个样本选入训练集,重复上述步骤直到训练集中的样本数量达到目标光谱的数量要求。其中训练集中的样本即是目标光谱。目标光谱的数量通常设置为5-15个,即目标样本的数量为5-15个,这样可以大大减少用化学分析方法测定的样本数量,并且可以保证近红外定量分析更新模型能够满足检测要求。需要说明的是,在目标样本是主机样本的情况下,由于在步骤S1中已经使用化学方法获得了参考值,可以不再重复测定。
S4、根据目标光谱Xt和基础光谱X,构建混合光谱矩阵Xnew,并根据目标参考值yt和基础参考值y,构建混合参考值矩阵ynew。
混合光谱矩阵为:
混合参考值矩阵为
其中,λ为权重参数且λ≥1。
构建矩阵的过程中,由于目标样本的数量少,因此需要赋予目标样本一定的权重。一般而言,权重参数λ可以取固定值,也可以根据目标样本的数量取值。如果目标样本的数量少,选择权重参数较大,如果目标样本的数量多,权重参数可选择较小,本发明中,例如,权重参数λ可选择主机样本的数量。
另外,目标光谱Xt是通过从机对主机样本或对物理状态发生了改变的其他样本进行测定而得到的光谱的矩阵,或者是通过主机对物理状态发生了改变的样本进行测定而得到的光谱的矩阵,基础光谱X是通过主机对主机样本进行测定而得到的光谱的光谱矩阵,而混合光谱矩阵是由目标光谱Xt和基础光谱X融合而成的一个矩阵。例如当基础光谱X与目标光谱Xt为如下矩阵时,其中m,n分别为主机样本和目标样本的数量,p为波长点数。
混合光谱矩阵Xnew可以为
同样的,目标参考值yt是利用化学方法测出的目标样本的分析参考值的矩阵,基础参考值y是利用化学方法测出的主机样本的化学值或基础性质数据的矩阵,而混合参考值矩阵是由目标参考值yt和基础参考值y融合而成的一个矩阵。例如,当基础参考值y与目标参考值yt为如下矩阵时:
混合参考值矩阵可以为
S5、将混合光谱矩阵和混合参考值矩阵作中心化预处理。具体而言,作中心化预处理,包括计算得到构建的光谱矩阵和分析指标参考值矩阵以目标样本的光谱和参考值的平均值。
S6、构建预设函数,所述预设函数是与所述近红外定量分析基础模型的回归系数和所述近红外定量分析更新模型的待定回归系数相关的函数。
根据近红外定量分析基础模型y=Xβ+e,某一个样本的预测可表示为:其中“‖.‖2”表示计算二范数,xi是第i个样本的光谱,/>是第i个样本的近红外预测值,θ是向量xi和β的夹角,因此推导出:/>公式中ye表示最大可接受的误差,||xi||2cos(θ)表示xi在β上的投影值,/>表示在允许误差范围内该投影值的变化范围,因为更新模型的适用范围比原有近红外定量分析基础模型的范围广,因此有更新模型回归系数的二范数小于原有近红外定量分析基础模型回归系数的二范数的关系。基于该关系,定义||β*||2与||β||2的比值为σ,由于||β*||2比||β||2小,因此0<σ<1,结合/>由此得到下式所示的预设函数,函数中,abs是绝对值,
f(β*)=min(abs(||β*||2-σ||β||2))
其中,0<σ<1,β*是近红外定量分析更新模型的待定回归系数。
S7、获得使预设函数为最小值时所对应的近红外定量分析更新模型的待定回归系数作为近红外定量分析更新模型的回归系数,并构建近红外定量分析更新模型。
具体而言,步骤S7包括:
S71、使潜变量数遍历(1,2...30),根据混合光谱矩阵、混合参考值矩阵及各潜变量数,利用非线性迭代偏最小二乘法,分别计算各潜变量数所对应的待定回归系数,
S72、将上一步中获得的各待定回归系数分别代入到预设函数中,获得相应的预设函数值并比较各预设函数值,确定预设函数值为最小值时对应的近红外定量分析更新模型的待定回归系数作为近红外定量分析更新模型的回归系数β* 1,
S73、根据得到的近红外定量分析更新模型的回归系数β* 1,构件的近红外定量分析更新模型为ynew=Xnewβ* 1,β* 1是所述近红外定量分析更新模型的回归系数。
如上,对近红外定量分析基础模型进行了更新而得到近红外定量分析更新模型。之后,可以设置用于评估验证集的参考值和预测值之间差异的预测均方根误差(RMSEP)步骤。该步骤具体包括:利用近红外定量分析更新模型获得验证样本集中各样本的预测值,利用化学方法获得验证样本集中各样本的参考值,代入下述式中计算预测均方根误差(RMSEP),由此来确认预测效果。预测均方根误差RMSEP越小,代表模型的预测能力越好。
式中,nv表示验证样本集中的样本数量,表示第i个样本的化学参考值,yi表示第i个样本的近红外预测值,i=1,2……nv。
以下实施例使用烟叶样本进一步说明本发明的实施方式,但不限制本发明。本发明可以用于涉及近红外光谱技术定量分析检测的所有领域。
实施例1:不同仪器上烟叶样本的近红外定量分析模型的更新
1)仪器类型
主机和从机均为Thermo Antaris II傅立叶近红外分析仪器(Thermo Scientific公司)的仪器。
2)样本
2016年的复烤烟叶样本,来自于湖南、四川、云南、贵州、广东、辽宁、黑龙江、河南和陕西产区。
3)光谱采集
实验室相对湿度控制在20%~80%之间,温度控制在18℃-26℃之间。近红外仪器开机预热不低于1小时,然后用仪器自带的自检程序校检合格后使用。取适量烟叶粉末装入样本杯中扫描,波长扫描范围4000-10000cm-1,分辨率为8cm-1;扫描次数64次。主机所使用的软件为仪器自带的RESULT-Integration工作流(Workflow)设计软RESULT-Operation操作软件和TQ Analyst光谱分析软件。主机和从机设置的波长扫描范围、分辨率、扫描次数相同。
4)数据分析
(1)根据主机仪器上主机样本的近红外光谱和分析指标参考值,利用交互检验法获得偏最小二乘法建模的最优潜变量数为17,建立主机的近红外定量分析基础模型。图2表示同一烟叶样本在不同近红外仪器上量测的近红外光谱。图3表示烟叶样本中总植物碱参考值、近红外定量分析基础模型及近红外定量分析更新模型后的预测值之间的关系。由图2可以看出,同一样本在两台仪器上有显著的光谱差异,因此直接利用主机上建立的近红外定量分析基础模型对主机样本的从机光谱进行预测时,得到预测值与参考值存在较大误差,对应的预测均方根误差为0.8187。如果使用该近红外定量分析基础模型-对主机样本的光谱进行预测,其预测均方根误差仅为0.0667。说明该近红外定量分析基础模型不能在从机上直接使用,需要进行模型更新。
(2)在从机上对主机样本进行测量,得到参考光谱,采用KS(kennard-stone)方法选择参考光谱中差异较大6个光谱,并将这6个光谱对应的目标样本的总植物碱的含量作为目标参考值;
(3)将目标样本的光谱和目标参考值添加到主机样本的基础光谱和基础参考值中,并选择主机样本的数量作为权重参数λ,构建混合光谱矩阵Xnew和混合参考值矩阵ynew;
(4)对混合光谱矩阵Xnew和混合参考值矩阵ynew进行中心化预处理;
(5)构建下述预设函数并将σ的值设定为0.8;
f(β*)=min(abs(||β*||2-0.8×||β||2))
(6)使潜变量数遍历(1,2...30),根据所述混合光谱矩阵Xnew、所述混合参考值矩阵ynew及各潜变量数,利用非线性迭代偏最小二乘法,分别计算各所述潜变量数所对应的待定回归系数。将得到的各待定回归系数分别代入到预设函数f(β*)中,获得相应的预设函数值并比较各预设函数值,确定预设函数值为最小值时对应的近红外定量分析更新模型的待定回归系数作为所述近红外定量分析更新模型的回归系数β* 1。结果当潜变量数为17的时候,该函数达到最小值。因此,选择潜变量数17作为最优潜变量数。此时,通过使用混合光谱矩阵Xnew和混合参考值矩阵ynew得到近红外定量分析更新模型的回归系数β* 1,构建近红外定量分析更新模型。图4表示烟叶样本的近红外定量分析基础模型回归系数β与近红外定量分析更新模型回归系数β* 1,计算可以得到近红外定量分析更新模型回归系数β* 1的二范数为98.82,而原有近红外定量分析基础模型回归系数β的二范数为163.28,说明更新后的模型同时适用于主机样本和参考样本,表明模型的应用范围扩大了。
图3中,○表示模型更新后的预测值,*表示参考值,□表示近红外定量分析基础模型预测值,由图3可以看出,□表示近红外定量分析基础模型预测值与*表示的参考值差距较大,而○表示模型更新后的预测值与*表示参考值的拟合程度较高,因此利用近红外定量分析基础模型预测主机量测得到光谱,总植物碱的预测效果良好,样本总植物碱的含量与参考值很接近,预测均方根误差RMSEP为0.0667。但是直接用主机模型来预测样本的从机光谱时,预测效果不好,RMSEP达到了0.8187,出现较大的预测误差。在使用近红外定量分析更新模型预测样本的从机光谱,预测结果得到很大的改善,RMSEP降低到0.0825,比较通过从机测得的光谱的预测值、通过主机测得的光谱的预测值与参考值很接近,近红外定量分析更新模型的预测能力得到提高。
实施例2:不同物理状态烟叶样本的近红外定量分析模型的更新
1)仪器类型
仪器为Thermo Antaris II傅立叶近红外分析仪器(Thermo Scientific公司)的仪器。
2)卷烟样本
2017年的贵州中烟工业有限责任公司不同牌号的卷烟烟丝和烟末样本。
3)光谱采集
实验室相对湿度控制在20%~80%之间,温度控制在18℃-26℃之间。近红外仪器开机预热不低于1小时,然后用仪器自带的自检程序校检合格后使用。取适量烟叶粉末或烟丝装入样本杯中扫描,波长扫描范围4000-10000cm-1,分辨率为8cm-1;扫描次数64次。主机所使用的软件为仪器自带的RESULT-Integration工作流(Workflow)设计软RESULT-Operation操作软件和TQAnalyst光谱分析软件。
4)数据分析
(1)根据卷烟烟末样本的近红外光谱和分析指标参考值,利用交互检验法获得潜变量数为13,利用最小二乘法建立烟末的近红外定量分析基础模型。
(2)由图5和图6可知,同一样本的烟末与烟丝的光谱存在较大的差异,说明样本物理状态的不同引起光谱发生较大的变化。利用烟末样本的基础模型预测烟丝样本的总植物碱的含量,结果预测值与参考值存在较大误差。
(3)用同样的仪器并设置相同参数。采集烟丝样本的光谱,并采用KS方法选择光谱差异大的目标样本15个,通过传统化学方法获得15个样本的总植物碱的含量作为目标参考值;(3)将目标光谱和目标参考值添加到基础模型的主机样本中,并选择烟末样本的数量作为权重参数λ,构建混合光谱矩阵Xnew和混合参考值矩阵ynew;
(4)对混合光谱矩阵Xnew和混合参考值矩阵ynew进行均值化预处理;
(5)构建下述预设函数并将σ的值设定为0.8;
f(β*)=min(abs(||β*||2-0.8×||β||2))
(6)使潜变量数遍历(1,2...30),根据所述混合光谱矩阵Xnew、所述混合参考值矩阵ynew及各潜变量数,利用非线性迭代偏最小二乘法,分别计算各所述潜变量数所对应的回归系数。将得到的各回归系数分别代入到预设函数f(β*)中,获得相应的预设函数值并比较各预设函数值,确定预设函数值为最小值时对应的近红外定量分析更新模型的待定回归系数作为所述近红外定量分析更新模型的回归系数β* 1。结果当潜变量数为13的时候,该函数达到最小值,因此选择潜变量数为13作为最优潜变量数。此时,通过混合光谱矩阵Xnew和混合参考值矩阵ynew以及近红外定量分析更新模型的回归系数β* 1,建立近红外定量分析更新模型。图7中,○表示模型更新后的预测值,*表示参考值,□表示基础模型预测值,由图7可以看出,□表示基础模型预测值与*表示的参考值差距较大,而○表示模型更新后的预测值与*表示参考值的拟合程度较高,因此利用基础模型预测烟末样品量测得到的光谱,预测效果良好,预测均方根误差RMSEP为0.1198。但是直接用基础模型预测烟丝样品时,预测效果不好,预测均方根误差达到了0.2881,出现较大的预测误差。在使用近红外定量分析更新模型预测烟丝样本光谱时,预测结果得到很大的改善,RMSEP降低到0.1321,烟丝样本的总植物碱的预测值、烟末样本的预测值均与参考值很接近,近红外定量分析更新模型的预测能力得到提高。近红外定量分析更新模型的回归系数的二范数为81.86小于基础模型的回归系数二范数108.15,验证了近红外定量分析更新模型的应用范围扩大了。
如上所述,根据本发明的方案,可以提供一种基于回归系数的近红外定量分析模型更新的方法,该方法在仪器或样本的物理状态等发生改变时,以少量参考样本构建近红外定量分析更新模型使其满足检测要求,从而可以在需要对模型进行维护或更新时,减少耗费时间和人力,并保证模型的预测准确性。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。本领域技术人员可以在形式上和细节上对其作各种改变,包括做出若干简单推演或替换,而不偏离本发明的精神和范围。
Claims (6)
1.一种基于回归系数的近红外定量分析模型更新方法,其特征在于,包括以下步骤:
S1、在主机上测量主机样本,获得所述主机样本的近红外光谱作为基础光谱,并用化学方法测定所述主机样本的分析指标参数作为基础参考值,根据所述基础光谱和所述基础参考值,利用偏最小二乘法建立所述主机样本的近红外定量分析基础模型;
S2、在光谱采集参数一致的条件下,在所述主机上对物理状态发生了改变的样本进行测量,或者,在从机上对物理状态发生或未发生改变的样本进行测量,得到参考光谱;
S3、选择所述参考光谱中差异较大的光谱作为目标光谱,用化学分析方法获得目标样本的分析指标参数作为目标参考值,其中,所述目标样本是指所述目标光谱所对应的样本;
S4、根据所述目标光谱和所述基础光谱,构建混合光谱矩阵,并根据所述目标参考值和所述基础参考值,构建混合参考值矩阵;
S5、将所述混合光谱矩阵和所述混合参考值矩阵作中心化预处理;
S6、构建预设函数,所述预设函数是与所述近红外定量分析基础模型的回归系数和所述近红外定量分析更新模型的待定回归系数相关的函数;
S7、获得使所述预设函数为最小值时所对应的近红外定量分析更新模型的待定回归系数作为近红外定量分析更新模型的回归系数,并构建近红外定量分析更新模型;
所述预设函数为:
f(β*)=min(abs(||β*||2-σ||β||2))
其中,0<σ<1中,β*是所述近红外定量分析更新模型的待定回归系数;
所述混合光谱矩阵为:所述混合参考值矩阵为:/>其中,X为所述基础光谱,Xt为所述目标光谱,y是所述基础参考值,yt是所述目标参考值,λ为权重参数且λ≥1。
2.如权利要求1所述的基于回归系数的近红外定量分析模型更新方法,其特征在于,所述近红外定量分析基础模型为y=Xβ+e,X代表所述基础光谱,β代表所述近红外定量分析基础模型的回归系数,e代表预测误差。
3.如权利要求1所述的基于回归系数的近红外定量分析模型更新方法,其特征在于,步骤S7包括:
S71、使潜变量数遍历(1,2...30),根据所述混合光谱矩阵、所述混合参考值矩阵及各所述潜变量数,利用非线性迭代偏最小二乘法,分别计算各所述潜变量数所对应的近红外定量分析更新模型的待定回归系数;
S72、将上一步中获得的各所述待定回归系数分别代入到所述预设函数中,获得相应的预设函数值并比较各所述预设函数值,确定所述预设函数值为最小值时对应的所述待定回归系数作为所述近红外定量分析更新模型的回归系数β* 1;
S73、根据所述近红外定量分析更新模型的回归系数β* 1,构建所述近红外定量分析更新模型ynew=Xnewβ*1,β* 1是所述近红外定量分析更新模型的回归系数。
4.如权利要求1所述的基于回归系数的近红外定量分析模型更新方法,其特征在于,所述权重参数λ的数值为所述主机样本的数量。
5.如权利要求1所述的基于回归系数的近红外定量分析模型更新方法,其特征在于,所述目标样本的数量为5~15个。
6.如权利要求1所述的基于回归系数的近红外定量分析模型更新方法,其特征在于,在步骤S7之后,还包括:评估步骤,用于评估验证样本集的参考值和预测值之间差异的步骤,包括:
(1)利用所述近红外定量分析更新模型获得所述验证样本集中各样本的近红外光谱所对应的预测值;
(2)利用化学方法获得验证样本集中各样本的分析指标参数作为参考值;
(3)代入下述式中计算预测均方根误差,
式中,RMSEP表示所述预测均方根误差,nv表示所述验证样本集中的样本数量,表示第i个样本的参考值,yi表示第i个样本的近红外预测值,i=1,2……nv。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884304.4A CN114199814B (zh) | 2020-08-28 | 2020-08-28 | 一种基于回归系数的近红外定量分析模型更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010884304.4A CN114199814B (zh) | 2020-08-28 | 2020-08-28 | 一种基于回归系数的近红外定量分析模型更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114199814A CN114199814A (zh) | 2022-03-18 |
CN114199814B true CN114199814B (zh) | 2024-04-26 |
Family
ID=80644147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010884304.4A Active CN114199814B (zh) | 2020-08-28 | 2020-08-28 | 一种基于回归系数的近红外定量分析模型更新方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114199814B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101825567A (zh) * | 2010-04-02 | 2010-09-08 | 南开大学 | 一种近红外光谱和拉曼光谱波长的筛选方法 |
CN101915744A (zh) * | 2010-07-05 | 2010-12-15 | 北京航空航天大学 | 物质成分含量的近红外光谱无损检测方法及装置 |
CN106770005A (zh) * | 2016-11-25 | 2017-05-31 | 山东大学 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN109060716A (zh) * | 2018-08-31 | 2018-12-21 | 湖南农业大学 | 基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法 |
-
2020
- 2020-08-28 CN CN202010884304.4A patent/CN114199814B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101825567A (zh) * | 2010-04-02 | 2010-09-08 | 南开大学 | 一种近红外光谱和拉曼光谱波长的筛选方法 |
CN101915744A (zh) * | 2010-07-05 | 2010-12-15 | 北京航空航天大学 | 物质成分含量的近红外光谱无损检测方法及装置 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN106770005A (zh) * | 2016-11-25 | 2017-05-31 | 山东大学 | 一种用于近红外光谱分析的校正集和验证集的划分方法 |
CN109060716A (zh) * | 2018-08-31 | 2018-12-21 | 湖南农业大学 | 基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法 |
Non-Patent Citations (1)
Title |
---|
基于参数校正的近红外光谱模型转移新方法;胡芸;李博岩;张进;彭黔荣;;光谱学与光谱分析(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114199814A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Workman | A review of calibration transfer practices and instrument differences in spectroscopy | |
Bian et al. | A selective ensemble preprocessing strategy for near-infrared spectral quantitative analysis of complex samples | |
Huang et al. | Improved generalization of spectral models associated with Vis-NIR spectroscopy for determining the moisture content of different tea leaves | |
Kuang et al. | Calibration of visible and near infrared spectroscopy for soil analysis at the field scale on three European farms | |
CN105300923B (zh) | 一种近红外光谱分析仪在线应用时无测点温度补偿模型修正方法 | |
CN106815643B (zh) | 基于随机森林迁移学习的红外光谱模型传递方法 | |
Ni et al. | Screening wavelengths with consistent and stable signals to realize calibration model transfer of near infrared spectra | |
CN104020127B (zh) | 一种利用近红外光谱快速测量烟叶中无机元素的方法 | |
CN111563436B (zh) | 一种基于ct-cdd的红外光谱测量仪器标定迁移方法 | |
CN111307724B (zh) | 一种建立基于色差法测定配方烟丝中梗丝含量模型的方法 | |
CN106934416B (zh) | 一种基于大数据的模型匹配方法 | |
Cooper et al. | Calibration transfer of near‐IR partial least squares property models of fuels using virtual standards | |
US20230243741A1 (en) | A plurality of structurally identical spectrometers and a calibration method therefor | |
CN1148171A (zh) | 校准变换标准品及其方法 | |
CN106053383A (zh) | 一种烟草加工过程中的近红外在线检测方法 | |
CN106560699A (zh) | 用于武夷岩茶产地鉴别的联合检测方法 | |
Chen et al. | Sampling error profile analysis (SEPA) for model optimization and model evaluation in multivariate calibration | |
CN105466885B (zh) | 基于无测点温度补偿机制的近红外在线测量方法 | |
CN114199814B (zh) | 一种基于回归系数的近红外定量分析模型更新方法 | |
CN107966499A (zh) | 一种由近红外光谱预测原油碳数分布的方法 | |
Gurung et al. | Model selection challenges with application to multivariate calibration updating methods | |
CN109540837B (zh) | 近红外快速检测苎麻叶片木质纤维素含量的方法 | |
CN111579526B (zh) | 一种表征近红外仪器差异和校正的方法 | |
Borges Miranda et al. | Near infrared spectroscopic analysis of total alkaloids as nicotine, total nitrogen and total ash in Cuban cigar tobacco | |
CN113970502A (zh) | 基于快速烘箱法的烟叶含水率预测模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |