CN111220566A - 基于opls和pds的红外光谱测量仪器标定迁移方法 - Google Patents
基于opls和pds的红外光谱测量仪器标定迁移方法 Download PDFInfo
- Publication number
- CN111220566A CN111220566A CN202010045991.0A CN202010045991A CN111220566A CN 111220566 A CN111220566 A CN 111220566A CN 202010045991 A CN202010045991 A CN 202010045991A CN 111220566 A CN111220566 A CN 111220566A
- Authority
- CN
- China
- Prior art keywords
- center
- data set
- spectrum
- pds
- source domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013508 migration Methods 0.000 title claims abstract description 38
- 230000005012 migration Effects 0.000 title claims abstract description 36
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 24
- 238000004164 analytical calibration Methods 0.000 title claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 239000000126 substance Substances 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 52
- 239000004480 active ingredient Substances 0.000 claims description 22
- 230000003595 spectral effect Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 16
- 229920002472 Starch Polymers 0.000 claims description 9
- 235000019698 starch Nutrition 0.000 claims description 9
- 239000008107 starch Substances 0.000 claims description 9
- 239000000463 material Substances 0.000 claims description 7
- 238000002835 absorbance Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004566 IR spectroscopy Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004611 spectroscopical analysis Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 19
- 238000010801 machine learning Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 29
- 238000002790 cross-validation Methods 0.000 description 21
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 238000010987 Kennard-Stone algorithm Methods 0.000 description 3
- 238000004497 NIR spectroscopy Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 239000004429 Calibre Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000006187 pill Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000002075 main ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
- G01N21/274—Calibration, base line adjustment, drift correction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/127—Calibration; base line adjustment; drift compensation
Abstract
本发明涉及机器学习模块下的迁移学习技术领域,提供一种基于OPLS和PDS的红外光谱测量仪器标定迁移方法。首先采集源域数据集和目标域数据集,并对其进行中心化处理,得到中心化处理后的源域数据集和目标域数据集;然后基于OPLS算法,对中心化处理后的源域数据集进行去正交化处理,求出正交部分的得分矩阵、载荷矩阵,提取源域潜结构;接着基于PLS算法对源域潜结构建立标定模型,使用得分矩阵、载荷矩阵对中心化处理后的目标域数据集进行去正交化处理,提取目标域潜结构,并基于PDS算法使目标域潜结构映射到源域潜结构;最后,对被测对象的物质浓度变量进行预测。本发明能够提高标定迁移的精度和效率,且建模过程简单。
Description
技术领域
本发明涉及机器学习模块下的迁移学习技术领域,特别是涉及一种基于OPLS和PDS的红外光谱测量仪器标定迁移方法。
背景技术
近红外光谱(NIRS)分析技术具备仪器操作简单、分析数据速度快、成本较低、不污染样品等优势,已在各领域得到了普遍应用。在生产过程中,使用近红外光谱分析技术进行建模,由于测量条件和仪器硬件性能往往并不稳定,会导致已有的标定模型失效。
标定迁移是通过将从光谱数据迁移到主光谱数据空间,从而满足不同测量状态或测量仪器下实现主光谱模型对从光谱数据预测需要的方法。标定迁移可以避免重复建模,减少重建模型的代价。已有的标定迁移方法如MSC、SBC等存在着预测精度不高、测量过程较复杂、限制应用场合等问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于OPLS和PDS的红外光谱测量仪器标定迁移方法,能够提高标定迁移的精度和效率,且建模过程简单。
本发明的技术方案为:
一种基于OPLS和PDS的红外光谱测量仪器标定迁移方法,其特征在于,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xs,Y}和目标域数据集{Xm};
其中,Xs=(Xs1,Xs2,...,Xsi,…,XsI)T,Xsi=(xsi1,xsi2,…,xsij,…,xsiJ),Xm=(Xm1,Xm2,…,Xmi,…,XmI)T,Xmi=(xmi1,xmi2,…,xmij,…,xmiJ),xsij、xmij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,…,I,j=1,2,…,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,…,Yi,...,YI)T,Yi=(yi1,yi2,...,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,...,K,K为物质浓度变量总数;
步骤2:对源域数据集和目标域数据集进行中心化处理,得到中心化处理后的源域数据集{Xs_center,Ycenter}和目标域数据集{Xm_center};
步骤3:基于OPLS算法,对中心化处理后的源域数据集{Xs_center,Ycenter}进行去正交化处理,求出矩阵Xs_center与Ycenter的正交部分的得分矩阵Tortho、载荷矩阵Portho,提取源域潜结构为Xs_center_new;
步骤4:基于PLS算法对源域潜结构建立标定模型Ycenter=Xs_center_newB,求出系数矩阵B;
步骤5:使用{Tortho,Portho}对中心化处理后的目标域数据集{Xm_center}进行去正交化处理,提取目标域潜结构为Xm_center_new;
步骤6:基于PDS算法使目标域潜结构映射到源域潜结构:Xs_center_new=Xm_center_new×M,求出转移矩阵M;
步骤7:对被测对象的物质浓度变量进行预测:
步骤7.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xm_test;
步骤7.2:对Xm_test进行中心化处理为Xm_test_center;
步骤7.3:使用{Tortho,Portho}对Xm_test_center进行去正交化处理,提取潜结构为Xm_test_center_new;
步骤7.4:预测被测对象的物质浓度变量构成的矩阵为Ytest_pre=Xm_test_center_new*M*B。
进一步地,所述步骤1中,所述样本为谷物,所述光谱数据为吸收度,所述物质浓度变量包括谷物的水分含量、油分含量、蛋白质含量、淀粉含量。
进一步地,所述步骤1中,所述样本为药片,所述光谱数据为吸收度,所述物质浓度变量为药片中的活性成分含量。
本发明的有益效果为:
本发明基于OPLS方法对高维样本进行预处理,以提取源域潜结构,能够增强PLS模型的解释性并减少模型的复杂度。本发明基于PLS算法对源域潜结构建立标定模型,并使用PDS算法构建目标域潜结构到源域潜结构的映射,在此基础上进行预测,能够提高预测精度,且建模过程简单,提高了标定迁移的效率。
附图说明
图1为本发明的基于OPLS和PDS的红外光谱测量仪器标定迁移方法的流程图。
图2为实施例一中谷物数据集的主光谱、从光谱、偏差光谱示意图。
图3为实施例一中谷物数据集的划分过程示意图。
图4为实施例一中谷物的四种物质浓度变量的交叉验证误差随主成分数变化的过程示意图。
图5为实施例一中谷物的四种物质浓度变量的交叉验证误差随窗口大小变化的过程示意图。
图6为实施例一中本发明的标定迁移方法对谷物的四种物质浓度变量的迁移前后预测结果对比图。
图7为实施例一中不同算法对谷物的四种物质浓度变量的预测性能对比图。
图8为实施例二中药片数据集的主光谱、从光谱、偏差光谱示意图。
图9为实施例二中药片的三种物质浓度变量的交叉验证误差随主成分数变化的过程示意图。
图10为实施例二中药片的三种物质浓度变量的交叉验证误差随窗口大小变化的过程示意图。
图11为实施例二中本发明的标定迁移方法对药片的三种物质浓度变量的迁移前后预测结果对比图。
图12为实施例二中不同算法对药片的三种物质浓度变量的预测性能对比图。
具体实施方式
下面将结合附图和具体实施方式,对本发明作进一步描述。
与常见的标定迁移方法不同,本发明为结合对自变量进行潜在结构的正交投影(Orthogonal Projections to Latent Structures,OPLS)和分段直接标准化(Paragraphing Direct Standard,PDS)的标定迁移方法(OPLS_PDS)。本发明首先使用OPLS方法对高维样本预处理,以增强PLS模型的解释性并减少模型的复杂度。O-PLS提供了一个消除输入数据集的不相关的系统变量的途径,即通过正交投影变换有效消除自变量中与因变量无关的部分,即消除自变量中与因变量正交的部分。O-PLS对每个常规PLS成分的多余变量进行分析,使输入数据集中的非相关变量与相关变量分离,并使得非相关变量更易被解释和分析,使模型更易被解释。接着,使用偏最小二乘回归建立源数据的标定模型。然后使用分段直接标准化方法(PDS)将新空间的样本(由从光谱仪测得)投影至参考样本(由主光谱仪测得)空间。投影过程通过建立主光谱仪测得的光谱数据和从光谱仪测得的光谱数据的转换关系来获得,这种线性关系用转移矩阵来描述。最后,通过公式进行模型建立。
本发明的基于OPLS和PDS的红外光谱测量仪器标定迁移方法中,红外光谱测量仪器测量的对象可以是谷物,也可以是药物,也可以是本领域技术人员熟知的其他可测的对象。下面分别以谷物和药片为例,说明本发明的原理及有益的技术效果:
实施例一
如图1所示,本发明的基于OPLS和PDS的红外光谱测量仪器标定迁移方法,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xs,Y}和目标域数据集{Xm};
其中,Xs=(Xs1,Xs2,...,Xsi,…,XsI)T,Xsi=(xsi1,xsi2,...,xsij,…,xsiJ),Xm=(Xm1,Xm2,…,Xmi,…,XmI)T,Xmi=(xmi1,xmi2,…,xmij,…,xmiJ),xsij、xmij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,…,I,j=1,2,...,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,…,Yi,…,YI)T,Yi=(yi1,yi2,…,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,...,K,K为物质浓度变量总数。
本实施例一中,样本为谷物,光谱数据为吸收度,物质浓度变量包括谷物的水分含量、油分含量、蛋白质含量、淀粉含量。使用三种近红外光谱测量仪器对相同的I=80个样本测得的数据构成谷物数据集。用近红外光谱测量仪器m5、mp5、mp6在1100-2498nm波长范围内每隔a=2nm测量红外光谱,共J=700个频道。谷物数据集中的部分变量解释如表1所示。
表1
谷物数据集中,mp5仪器与m5仪器测得的光谱差异较小。经综合考虑后,选用m5仪器测得的光谱作为主光谱,对应的光谱数据集作为初始源域数据集;选用mp6仪器测得的光谱作为从光谱,对应的光谱数据集作为初始目标域数据集。
光谱图如图2所示,其中子图(a)为主光谱图、子图(b)为从光谱图、子图(c)为主光谱与从光谱之间的光谱差异图。从图2(c)中可以看到在0.5-0.6cm-1的波长范围内,主光谱数据和从光谱数据差异较大,前端的差异最大,而在其他的波数范围,差异较小,这意味着光谱的两端更易引入噪声。
本实施例中,利用Kennard-Stone(KS)算法对谷物数据集进行划分,考虑到标准样本的数量对转换关系影响较大:数量过少导致样本信息获取不充分,数量太多导致会夹杂过多冗余信息。综合考虑这两种情况,如图3所示,首先提取初始源域数据集和初始目标域数据集中20%的数据作为测试样本、剩余80%的数据作为训练样本;其中,源域的训练样本用于建立参考模型,对目标域的迁移样本进行预测;目标域的训练样本用于建立目标域的标准模型,用来对比其他迁移模型的性能。然后采用KS算法从源域的训练样本和目标域的训练样本中分别提取50%的数据构成源域的标准样本集和目标域的标准样本集,分别作为本发明的方法中使用的源域数据集{Xs,Y}和目标域数据集{Xm},来建立源域样本与目标域样本之间的传递关系。最终得到测试样本16个;训练样本64个,其中标准样本32个。
步骤2:对源域数据集和目标域数据集进行中心化处理,以减少误差,得到中心化处理后的源域数据集{Xs_center,Ycenter}和目标域数据集{Xm_center}。
步骤3:基于OPLS算法,对中心化处理后的源域数据集{Xs_center,Ycenter}进行去正交化处理,求出矩阵Xs_center与Ycenter的正交部分的得分矩阵Tortho、载荷矩阵Portho,提取源域潜结构为Xs_center_new。
步骤4:基于PLS算法对源域潜结构建立标定模型Ycenter=Xs_center_newB,求出系数矩阵B。
参数选择是决定模型精确度的核心因素。本实施例中,对谷物数据集分别用PLS模型、SBC模型、MSC模型、PDS模型、OPLS_PDS模型进行预测。PLS模型为直接用目标域数据进行建模的模型。这些模型均含有采用PLS算法建立多元标定模型的步骤,因此需要对此进行最佳主成分数参数的选择。因为OPLS_PDS需要对两个最佳主成分数进行选择(一个是在对数据集进行正交投影的过程中,一个是建立源域和目标域的转移矩阵过程中)。
本实施例中,PLS算法最佳主成分数的选择结果分析如下:采用10折交叉验证方法对PLS方法的主成分数进行选取,主成分数变化引起的谷物数据集中目标域训练集的四种物质浓度变量模型交叉验证误差的变化情况如图4所示。图4中,子图(a)、子图(b)、子图(c)和子图(d)分别是水分含量、油分含量、蛋白质含量以及淀粉含量的PLS模型交叉验证误差随主成分数的变化过程;从图4中可以看到,四种成分中仅有水分的交叉验证误差在主成分数为14时达到了全局最小。其余三种成分的RMSECV均未在此过程中达到全局最小,且与主成分数的大小呈反比关系,均在主成分数为15时,交叉验证误差最小。因为主成分数设置过大时,往往会导致过拟合,因此我们对水分、油分、蛋白质、淀粉的最佳主成分数分别设为14、15、15、15。
步骤5:使用{Tortho,Portho}对中心化处理后的目标域数据集{Xm_center}进行去正交化处理,提取目标域潜结构为Xm_center_new。
步骤6:基于PDS算法使目标域潜结构映射到源域潜结构:Xs_center_new=Xm_center_new×M,求出转移矩阵M。
在运用PDS和OPLS_PDS算法进行建模时,还均需对窗口大小进行设置。本实施例中采用5折交叉验证方法对窗口大小进行选择。最小窗口数设为3,最大窗口数设为15,间隔为2。窗口大小变化引起的谷物数据集中目标域训练集的四种成分含量模型交叉验证误差的变化情况如图5所示。图5中,子图(a)、子图(b)、子图(c)和子图(d)分别是水分含量、油分含量、蛋白质含量以及淀粉含量的PDS模型交叉验证误差随窗口大小的变化过程;从图5中可以看到,四种成分的RMSECV均未在此过程中达到全局最小,且与窗口的大小呈正比关系,均在窗口大小为3时,交叉验证误差最小。因此,四种成分PDS模型的最佳窗口大小均是3。
步骤7:对被测对象的物质浓度变量进行预测:
步骤7.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xm_test;
步骤7.2:对Xm_test进行中心化处理为Xm_test_center;
步骤7.3:使用{Tortho,Portho}对Xm_test_center进行去正交化处理,提取潜结构为Xm_test_center_new;
步骤7.4:预测被测对象的物质浓度变量构成的矩阵为Ytest_pre=Xm_test_center_new*M*B。
在标准样本数为32的情况下,对谷物数据集进行模型迁移前后的模型预测能力比较。
图6中子图(a)、子图(b)、子图(c)、子图(d)依次代表各算法对谷物数据集中四种成分,即水分、油分、蛋白质、淀粉的OPLS_PDS迁移模型的预测值和未进行迁移的模型(使用源数据建立的PLS模型)的预测值比较图。各个子图中,五角星表示用源域建立的PLS模型对目标域测试样本数据进行预测的预测值与真实值与之间的关系点,×型表示使用OPLS_PDS算法标定迁移模型对目标域测试集样本进行预测的预测值与真实值之间的关系点。在关于水分、蛋白质、淀粉三种成分的比较图中,五角星均严重偏离y=x直线,+型点均在y=x直线周围,意味着源域模型对目标域模型的预测存在明显偏差,OPLS_PDS迁移模型和源域模型比起来对目标域具有良好的预测性能。
各模型的预测值与真实值之间的比较图如图7所示。图7中,子图(a)、子图(b)、子图(c)、子图(d)依次代表各算法(PDS,PLS,MSC,SBC,OPLS_PDS)对水分、油分、蛋白质、淀粉含量的预测。在各个子图中,横坐标轴代表真实值,纵坐标轴代表预测值,直线代表y=x函数关系,即预测值等于真实值。当各模型的预测点越接近y=x直线,则说明模型预测性能越好。从图7中可以大致看出,MSC预测性能最差,与直线偏离较远,其余模型分散比较接近,无法进行明确的比较,需使用改善率和秩和检验比较OPLS_PDS与其他算法。本实施例中,计算了谷物数据集各成分含量在不同模型下的RMSEP(预测误差)如表2所示;还计算了OPLS_PDS算法对其余四种算法预测误差的改善率和秩和检验的p值,其中,蛋白质含量OPLS_PDS算法对比其他算法的改善率和p值如表3所示。可以看出,SBC、MSC、PDS、OPLS_PDS四种迁移算法中,OPLS_PDS算法的预测性能最优,PDS和SBC算法预测性能次之,MSC算法预测性能最差。并且,本实施例中p值整体大于0.05,说明OPLS_PDS算法与其他算法之间整体不存在显著性差异。
表2
表3
实施例二
本实施例二中,样本为药片。药片数据集由国际漫反射会议(IDRC)在2002年发布(www.eigenvector.com/data/tablets/index.html)。药片数据集包含由两台光谱仪分别对同一样本的三种活性成分(活性成分1、活性成分2、活性成分3)含量的测量数据。光谱的波长范围是600-1898nm并以2nm间隔测得,共J=650个频道,药片数据集中的变量解释如表4。
表4
本实施例二中,将calibrate_1和calibrate_2分别作为源域和目标域的训练样本集,各包含155个样本;将test_1和test_2分别作为源域和目标域的测试样本集,各包含460个样本;通过KS算法,分别取源域和目标域训练集中的50%的样本作为样本标准集,分别为78个。
药片数据集的红外光谱图如图8所示。其中,子图(a)表示源域光谱(主光谱),子图(b)表示目标域光谱(从光谱),子图(c)表示源域光谱与目标域光谱之间的光谱差异图。从子图(c)中可以看出源域光谱和目标域光谱之间变异较小,且集中于样本数据前端处,于0.5cm-1周围。
本实施例中,使用目标域训练集数据分别建立关于活性成分1、活性成分2、活性成分3的线性回归模型,并用目标域中的测试集进行验证。
采用10折交叉验证方法对PLS方法的主成分数进行选取,主成分数变化引起的药片数据集中目标域训练集的三种成分含量模型交叉验证误差的变化情况如图9所示。图9中,子图(a)、子图(b)、子图(c)分别给出了活性成分1、活性成分2、活性成分3含量的PLS模型交叉验证误差随主成分数的变化过程;从图中可以看到,三种成分的最佳主成分数分别是6、2、5。
本实施例中,训练误差、交叉验证误差、预测误差以及最佳主成分数如表5所示。从表5可以看到,模型的训练误差、交叉验证误差、预测误差相差不大,说明未出现过拟合现象;预测误差较小,说明未出现欠拟合现象。因此,最佳主成分数选择合理。
表5
本实施例采用5折交叉验证方法对窗口大小进行选择。最小窗口数设为3,最大窗口数设为15,间隔为2。窗口大小变化引起的药片数据集中目标域训练集的三种成分含量模型交叉验证误差的变化情况如10所示。图10中,子图(a)、子图(b)、子图(c)分别给出了活性成分1、活性成分2、活性成分3的PDS模型交叉验证误差随窗口大小的变化过程;从图10中可以看到,活性成分1、活性成分2、活性成分3的PDS模型的最佳窗口大小分别为5、3、9。
对药片数据集分别用PLS模型、SBC模型、MSC模型、PDS模型、OPLS_PDS模型进行预测。在标准样本数为32的情况下,对药片数据集进行模型迁移前后的模型预测能力比较。
图11中子图(a)、子图(b)、子图(c)依次代表各算法对药片数据集中活性成分1、活性成分2、活性成分3的OPLS_PDS迁移模型的预测值和未进行迁移的模型的预测值比较图。从图11,我们可以发现x型的点和五角星型的标注点相比,与直线y=x更加接近,说明通过本发明的OPLS_PDS方法建立的标定迁移模型与原模型相比,具有更好的预测性能。
各模型的预测值与真实值之间的比较图如图12所示。图12中,子图(a)、子图(b)、子图(c)依次代表各算法(PDS,PLS,MSC,SBC,OPLS_PDS)对活性成分1、活性成分2、活性成分3含量的预测。从图12中可以大致看出,MSC预测性能最差,与直线偏离较远,其余模型分散比较接近,无法进行明确的比较,需使用改善率和秩和检验比较OPLS_PDS与其他算法。本实施例中,计算了药片数据集各成分含量在不同模型下的RMSEP(预测误差)如表6所示;还计算了OPLS_PDS算法对其余四种算法预测误差的改善率和秩和检验的p值,其中,活性成分3含量OPLS_PDS算法对比其他算法的改善率和p值如表7所示。可以看出,SBC、MSC、PDS、OPLS_PDS四种迁移算法中,OPLS_PDS算法的预测性能最优,甚至在对活性成分2和活性成分3进行预测时,预测效果好于直接对目标域数据建立的PLS模型,PDS和SBC算法预测性能次之,MSC算法预测性能不稳定。并且,本实施例中,由p值可以得到OPLS_PDS迁移算法与其他算法有显著性差异。
表6
表7
由上述两个实施例可以看出,本发明基于OPLS方法对高维样本进行预处理,以提取源域潜结构,增强了PLS模型的解释性并减少了模型的复杂度。本发明基于PLS算法对源域潜结构建立标定模型,并使用PDS算法构建目标域潜结构到源域潜结构的映射,在此基础上进行预测,大大提高了预测精度和标定迁移的效率。
显然,上述实施例仅仅是本发明的一部分实施例,而不是全部的实施例。上述实施例仅用于解释本发明,并不构成对本发明保护范围的限定。基于上述实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等,均落在本发明要求的保护范围内。
Claims (3)
1.一种基于OPLS和PDS的红外光谱测量仪器标定迁移方法,其特征在于,包括下述步骤:
步骤1:将红外光谱测量主仪器对应到源域、将红外光谱测量从仪器对应到目标域,使用红外光谱测量主仪器、红外光谱测量从仪器采集每个样本的光谱,分别得到主光谱、从光谱,对主光谱、从光谱分别在波长范围内间隔anm提取光谱数据,并采集每个样本的物质浓度变量值,得到源域数据集{Xs,Y}和目标域数据集{Xm};
其中,Xs=(Xs1,Xs2,...,Xsi,...,XsI)T,Xsi=(xsi1,xsi2,...,xsij,...,xsiJ),Xm=(Xm1,Xm2,…,Xmi,…,XmI)T,Xmi=(xmi1,xmi2,…,xmij,…,xmiJ),xsij、xmij分别为第i个样本的第j个主光谱数据、从光谱数据,i=1,2,…,I,j=1,2,...,J,I为样本总数,J为提取的光谱数据点总数;Y=(Y1,Y2,...,Yi,...,YI)T,Yi=(yi1,yi2,...,yik,...,yiK),yik为第i个样本的第k个物质浓度变量的值,k=1,2,...,K,K为物质浓度变量总数;
步骤2:对源域数据集和目标域数据集进行中心化处理,得到中心化处理后的源域数据集{Xs_center,Ycenter}和目标域数据集{Xm_center};
步骤3:基于OPLS算法,对中心化处理后的源域数据集{Xs_center,Ycenter}进行去正交化处理,求出矩阵Xs_center与Ycenter的正交部分的得分矩阵Tortho、载荷矩阵Portho,提取源域潜结构为Xs_center_new;
步骤4:基于PLS算法对源域潜结构建立标定模型Ycenter=Xs_center_newB,求出系数矩阵B;
步骤5:使用{Tortho,Portho}对中心化处理后的目标域数据集{Xm_center}进行去正交化处理,提取目标域潜结构为Xm_center_new;
步骤6:基于PDS算法使目标域潜结构映射到源域潜结构:Xs_center_new=Xm_center_new×M,求出转移矩阵M;
步骤7:对被测对象的物质浓度变量进行预测:
步骤7.1:使用红外光谱测量从仪器采集被测对象的光谱,使用与步骤1中相同的方法提取光谱数据,得到被测对象的J个从光谱数据构成的矩阵Xm_test;
步骤7.2:对Xm_test进行中心化处理为Xm_test_center;
步骤7.3:使用{Tortho,Portho}对Xm_test_center进行去正交化处理,提取潜结构为Xm_test_center_new;
步骤7.4:预测被测对象的物质浓度变量构成的矩阵为Ytest_pre=Xm_test_center_new*M*B。
2.根据权利要求1所述的基于OPLS和PDS的红外光谱测量仪器标定迁移方法,其特征在于,所述步骤1中,所述样本为谷物,所述光谱数据为吸收度,所述物质浓度变量包括谷物的水分含量、油分含量、蛋白质含量、淀粉含量。
3.根据权利要求1所述的基于OPLS和PDS的红外光谱测量仪器标定迁移方法,其特征在于,所述步骤1中,所述样本为药片,所述光谱数据为吸收度,所述物质浓度变量为药片中的活性成分含量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045991.0A CN111220566A (zh) | 2020-01-16 | 2020-01-16 | 基于opls和pds的红外光谱测量仪器标定迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010045991.0A CN111220566A (zh) | 2020-01-16 | 2020-01-16 | 基于opls和pds的红外光谱测量仪器标定迁移方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111220566A true CN111220566A (zh) | 2020-06-02 |
Family
ID=70826870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010045991.0A Pending CN111220566A (zh) | 2020-01-16 | 2020-01-16 | 基于opls和pds的红外光谱测量仪器标定迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111220566A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160903A (zh) * | 2021-04-23 | 2021-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001063441A1 (en) * | 2000-02-22 | 2001-08-30 | Johan Trygg | Orthogonal signal projection |
US20040142496A1 (en) * | 2001-04-23 | 2004-07-22 | Nicholson Jeremy Kirk | Methods for analysis of spectral data and their applications: atherosclerosis/coronary heart disease |
CN104949936A (zh) * | 2015-07-13 | 2015-09-30 | 东北大学 | 基于优化偏最小二乘回归模型的样品成份测定方法 |
CN106596450A (zh) * | 2017-01-06 | 2017-04-26 | 东北大学秦皇岛分校 | 基于红外光谱分析物质成分含量的增量式方法 |
CN106680238A (zh) * | 2017-01-06 | 2017-05-17 | 东北大学秦皇岛分校 | 基于红外光谱分析物质成分含量的方法 |
CN108152239A (zh) * | 2017-12-13 | 2018-06-12 | 东北大学秦皇岛分校 | 基于特征迁移的样品成分含量测定方法 |
CN108645815A (zh) * | 2018-08-13 | 2018-10-12 | 中国农业科学院油料作物研究所 | 一种植物油料中脂肪酸含量的近红外检测方法 |
-
2020
- 2020-01-16 CN CN202010045991.0A patent/CN111220566A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001063441A1 (en) * | 2000-02-22 | 2001-08-30 | Johan Trygg | Orthogonal signal projection |
US20030200040A1 (en) * | 2000-02-22 | 2003-10-23 | Johan Trygg | Orthogonal signal projection |
US20040142496A1 (en) * | 2001-04-23 | 2004-07-22 | Nicholson Jeremy Kirk | Methods for analysis of spectral data and their applications: atherosclerosis/coronary heart disease |
CN104949936A (zh) * | 2015-07-13 | 2015-09-30 | 东北大学 | 基于优化偏最小二乘回归模型的样品成份测定方法 |
CN106596450A (zh) * | 2017-01-06 | 2017-04-26 | 东北大学秦皇岛分校 | 基于红外光谱分析物质成分含量的增量式方法 |
CN106680238A (zh) * | 2017-01-06 | 2017-05-17 | 东北大学秦皇岛分校 | 基于红外光谱分析物质成分含量的方法 |
CN108152239A (zh) * | 2017-12-13 | 2018-06-12 | 东北大学秦皇岛分校 | 基于特征迁移的样品成分含量测定方法 |
CN108645815A (zh) * | 2018-08-13 | 2018-10-12 | 中国农业科学院油料作物研究所 | 一种植物油料中脂肪酸含量的近红外检测方法 |
Non-Patent Citations (3)
Title |
---|
PENGSHAN: "A nonlinear partial least squares with slice transform based piecewise linear inner relation", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 * |
邹婷婷: "采用正交投影偏最小二乘法快速无损分析乳粉蛋白质含量", 《分析与检测》 * |
陈嘉威: "滤光片型近红外仪器模型传递的研究", 《光谱学与光谱分析》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160903A (zh) * | 2021-04-23 | 2021-07-23 | 中国科学院西安光学精密机械研究所 | 一种基于迁移学习的硝酸盐浓度预测模型泛化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weng et al. | Hyperspectral imaging for accurate determination of rice variety using a deep learning network with multi-feature fusion | |
Deng et al. | A bootstrapping soft shrinkage approach for variable selection in chemical modeling | |
Chen et al. | 1D convolutional neural network for the discrimination of aristolochic acids and their analogues based on near-infrared spectroscopy | |
Khakimov et al. | Trends in the application of chemometrics to foodomics studies | |
He et al. | Study on lossless discrimination of varieties of yogurt using the Visible/NIR-spectroscopy | |
CN111563436B (zh) | 一种基于ct-cdd的红外光谱测量仪器标定迁移方法 | |
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN105842190B (zh) | 一种基于谱回归的近红外模型转移方法 | |
CN108152239A (zh) | 基于特征迁移的样品成分含量测定方法 | |
Andersson et al. | Algorithmic approaches for studies of variable influence, contribution and selection in neural networks | |
CN105092519A (zh) | 基于增量偏最小二乘法的样品成份测定方法 | |
US8631057B2 (en) | Alignment of multiple liquid chromatography-mass spectrometry runs | |
CN112285056B (zh) | 一种用于光谱样品个性化校正集选择及建模方法 | |
Ni et al. | Near infrared spectral calibration model transfer without standards by screening spectral points with scale invariant feature transform from master samples spectra | |
Liu et al. | Function-on-scalar quantile regression with application to mass spectrometry proteomics data | |
CN111220566A (zh) | 基于opls和pds的红外光谱测量仪器标定迁移方法 | |
Bogomolov et al. | Mutual peak matching in a series of HPLC–DAD mixture analyses | |
Li et al. | Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features | |
Bitetto et al. | A nonlinear principal component analysis to study archeometric data | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 | |
CN113408616A (zh) | 基于pca-uve-elm的光谱分类方法 | |
CN107918718A (zh) | 基于在线顺序极限学习机的样品成分含量测定方法 | |
CN112651173A (zh) | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统 | |
Hulot et al. | A unified framework for the integration of multiple hierarchical clusterings or networks from multi-source data | |
CN111125629A (zh) | 一种域自适应的pls回归模型建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |
|
RJ01 | Rejection of invention patent application after publication |