CN106529008B - 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 - Google Patents
一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 Download PDFInfo
- Publication number
- CN106529008B CN106529008B CN201610966001.0A CN201610966001A CN106529008B CN 106529008 B CN106529008 B CN 106529008B CN 201610966001 A CN201610966001 A CN 201610966001A CN 106529008 B CN106529008 B CN 106529008B
- Authority
- CN
- China
- Prior art keywords
- sample
- subset
- lasso
- prediction
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 241000208125 Nicotiana Species 0.000 claims abstract description 11
- 235000002637 Nicotiana tabacum Nutrition 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 239000003208 petroleum Substances 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 80
- 238000005070 sampling Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 6
- 239000012491 analyte Substances 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims 2
- 235000008216 herbs Nutrition 0.000 claims 1
- 239000003814 drug Substances 0.000 abstract description 5
- 235000013305 food Nutrition 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000002329 infrared spectrum Methods 0.000 description 9
- 239000003921 oil Substances 0.000 description 9
- 235000019198 oils Nutrition 0.000 description 9
- 240000008042 Zea mays Species 0.000 description 8
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 8
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 8
- 235000005822 corn Nutrition 0.000 description 8
- 239000003502 gasoline Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004445 quantitative analysis Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 239000008159 sesame oil Substances 0.000 description 3
- 235000011803 sesame oil Nutrition 0.000 description 3
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 229960002715 nicotine Drugs 0.000 description 2
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000002211 ultraviolet spectrum Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 125000001797 benzyl group Chemical group [H]C1=C([H])C([H])=C(C([H])=C1[H])C([H])([H])* 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012569 chemometric method Methods 0.000 description 1
- 235000005687 corn oil Nutrition 0.000 description 1
- 239000002285 corn oil Substances 0.000 description 1
- 239000002283 diesel fuel Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- -1 monocyclic aromatic hydrocarbon Chemical class 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000003549 soybean oil Substances 0.000 description 1
- 235000012424 soybean oil Nutrition 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明属于分析化学技术领域,具体为一种基于蒙特卡罗及LASSO的双集成偏最小二乘建模方法。本发明首先采用蒙特卡罗技术选取一定数目的样品作为样品子集,然后采用LASSO技术从该样品子集中选择部分变量,作为样品变量子子集,重复多次,建立多个子模型,将这些模型的预测结果直接平均得到最终预测结果。该方法能有效地改善模型的预测能力,提高模型的预测精度,在预测精度和稳定性方面具有明显优势。本发明适用于石油、烟草、食品、中药等复杂样品定量分析。
Description
技术领域
本发明属于分析化学技术领域,具体涉及一种基于蒙特卡罗及LASSO的双集成偏最小二乘建模方法。
背景技术
光谱分析技术以其简便、快速、绿色以及无损等优点在农业、食品、医药、环境等领域得到了广泛应用。然而,由于光谱吸收峰重叠现象严重,信号吸收较弱,背景干扰严重等问题,因此,在进行复杂样品定性、定量分析时需借助化学计量学手段。而建立一个稳定性好、预测精度高的模型一直是复杂样品定量分析的关键。
传统建模方法采用单一模型在光谱和待测目标值之间建立定量分析模型,预测效果往往不尽如人意。因此,发展了集成建模技术,该技术通过将多个模型的结果进行融合得到最终预测结果。目前主要有基于样品及基于变量方法方向的集成建模方法,前者如boosting PLS(X.G. Shao, X.H. Bian, W.S. Cai, An improved boosting partialleast squares method for near-infrared spectroscopic quantitative analysis,Anal. Chim. Acta,2010, 666, 32-37)、bagging ELM(卞希慧,李淑娟,谭小耀,王江江,王治国,刘维国,陈宗蓬,王晨,Bagging极限学习机集成建模方法,2015,中国专利,ZL201510466504),后者如变量聚类-多元线性回归(C. Tan, X. Qin, M. Li, Subspaceregression ensemble method based on variable clustering for near-infraredspectroscopic calibration, Analytical Letters,2009, 42,1693-1710)。上述方法只在样品或者变量方向进行单一的集成,如果在这两个方向同时集成建模(G.R.Du,W.S.Cai, X.G.Shao,A variable differential consensus method for improvingthequantitative near-infrared spectroscopic analysis,Science China,2012, 55,1946-1952),则有望进一步提高模型的预测精度。
蒙特卡罗(Monte Carlo,MC)方法,也称统计模拟方法、随机抽样技术,是基于“随机数”、以概率统计理论为基础的一种非常重要且被广泛应用的数值计算方法。LASSO变量选择方法是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而较严格地使系数本该为0的化为0,相应的变量被删除,进而达到变量选择的目的。通过LASSO方法进行变量选择建立偏最小二乘模型(卞希慧,颜鼎荷,李淑娟,谭小耀,李翔,一种基于LASSO的近红外光谱变量选择方法,2015,中国专利,ZL201510581659),既克服了传统方法在选择变量上的不足,又可以处理高维问题。本发明引进蒙特卡罗及LASSO变量选择,在样品及变量方向进行双集成建模,来进一步提高模型的预测精度。
发明内容
本发明的目的是针对上述存在的问题,提供一种基于蒙特卡罗(MC)及LASSO的样品和变量方向进行双集成的偏最小二乘建模方法(简记为MC-LASSO-PLS),并用于复杂样品定量分析。该方法既保留了两种方法的优势,又克服了单一方法建模预测精确度不高的缺点。
本发明提供的基于蒙特卡罗(MC)及LASSO的样品和变量方向进行双集成的偏最小二乘建模方法,首先采用蒙特卡罗技术选取一定数目的样品作为样品子集,然后采用LASSO技术从该样品子集中选择部分变量,作为样品变量子子集,重复(即迭代)多次,建立多个子模型,将这些模型的预测结果直接作算术平均,即得到最终预测结果。
具体步骤为:
(1)收集一定数目的复杂样品,测量其光谱,确定并测定目标分析物含量,采用一定的分组方式将数据集划分为训练集和预测集;这里,所述复杂样品是指组分多、已知信息少的复杂混合物,如石油、牛奶、中药、农产品、血液等样品;所述分组方式如KS分组、随机分组等;
(2)确定PLS模型的因子数LV:
计算不同因子数下的交叉验证均方根误差(RMSECV),最小的RMSECV对应的因子数即为最佳因子数LV。RMSECV计算公式如下:
其中,m为总样品数,为第i个样品的预测值,为第i个样品的真实值;
(3)确定迭代次数T:
迭代次数(即模型个数)从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差(RMSEP),当RMSEP相对稳定时对应的迭代次数为最佳迭代次数T;
(4)确定训练子集样品百分数P:
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对预测集预测的RMSEP,RMSEP最小值对应的训练子集样品百分数为最佳训练子集样品百分数P;
(5)建立模型并预测未知样品
采用确定好的因子数LV、迭代次数T、训练子集样品百分数P,通过MC方法从训练集随机选取最佳训练子集样品百分数P对应的样品数目作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型;
对上述过程重复T次建立T个子模型,并对这T个子模型的预测结果直接平均,得到最终预测结果。
本发明中,所述的复杂样品,可以是石油、烟草、中药、农产品、食品、生物或环境领域的样品等。
本发明方法能有效地改善模型的预测能力,提高模型的预测精度,在预测精度和稳定性方面具有明显优势。本发明适用于石油、烟草、食品、中药等复杂样品定量分析。
附图说明
图1是MC-LASSO-PLS流程图。
图2是玉米近红外数据的训练集光谱图。
图3是玉米近红外数据预测均方根误差值随着迭代次数的变化图。
图4是玉米近红外数据预测均方根误差值随着训练子集样品百分数的变化图。
图5是玉米近红外数据采用不同建模方法预测的预测值与真实值的关系图,其中(a) PLS,(b) LASSO-PLS,(c) MC-LASSO-PLS。
图6是汽油紫外数据的训练集光谱图。
图7是汽油紫外数据预测均方根误差值随着迭代次数的变化图。
图8是汽油紫外数据预测均方根误差值随着训练子集样品百分数变化图。
图9是汽油紫外数据采用不同建模方法预测的预测值与真实值的关系图,其中(a)PLS,(b) LASSO-PLS,(c) MC-LASSO-PLS。
图10是四元调和油近红外的训练集光谱图。
图11是四元调和油近红外数据预测均方根误差值随着迭代次数的变化图。
图12是四元调和油近红外数据预测均方根误差值随着训练集样品百分数的变化图。
图13是四元调和油近红外光谱数据采用不同建模方法预测的预测值与真实值的关系图,其中(a) PLS,(b) LASSO-PLS,(c) MC-LASSO-PLS。
图14是烟草近红外数据的训练集光谱图。
图15是烟草近红外数据预测均方根误差值随着迭代次数的变化图。
图16是烟草近红外数据预测均方根误差值随着训练集样品百分数的变化图。
图17是烟草近红外数据采用不同建模方法预测的预测值与真实值的关系图,其中(a) PLS,(b) LASSO-PLS,(c) MC-LASSO-PLS。
具体实施方式
为更好地理解本发明,下面结合实施例对本发明做进一步地详细说明,但是本发明要求保护的范围并不局限于实施例所表示的范围。
实施例1:
本实施例是应用于近红外光谱数据分析,对玉米样品中油含量进行测定。具体的步骤如下:
1)收集80个玉米样品,采用三个不同的近红外光谱仪(M5,MP5,MP6)测量玉米的近红外光谱数据,将油含量作为目标值。近红外光谱的波长范围为2498~1100nm(4003~9091cm-1),采样间隔为2nm,共700个波长数据点。该数据从http: // software.eigenvector. com /Data/ Corn / index. html下载。采用KS分组方法,53个样品用作训练集,剩余27个品用作预测集。该数据的训练集近红外光谱如图2所示。
2)确定PLS模型的因子数LV
计算不同因子数下的交叉验证均方根误差(RMSECV),最小的RMSECV对应的因子数即为最佳因子数。其中RMSECV计算公式如下:
其中m为总样品数,为第i个样品的预测值,为第i个样品的真实值。该实施例中最佳因子数LV为6。
3)确定迭代次数T
迭代次数(即模型个数)从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差(RMSEP)。图3显示了RMSEP值随着迭代次数的变化,当RMSEP相对稳定时对应的迭代次数500即为最佳迭代次数T。
4)确定训练子集样品百分数P
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对训练集预测的RMSEP。图4显示了RMSEP值随着迭代次数的变化,RMSEP最小值对应的训练子集样品百分数55%即为最佳训练子集样品百分数P。
5)建立模型并预测未知样品
采用确定好的因子数6、迭代次数500、训练子集样品百分数55%,通过MC方法从训练集随机选取最佳训练子集样品百分数55%对应的30个样品作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型。对上述过程重复500次建立500个子模型。对这500个子模型的预测结果直接平均得到最终预测结果。
图5 (a)、(b)及(c)分别显示了PLS、LASSO-PLS及MC-LASSO-PLS三种不同建模方法对预测集进行预测的预测值与真实值的关系图。结果表明,MC-LASSO明显的提高了PLS模型的预测能力,达到较好的预测效果。
实施例2:
本实施例是应用于紫外光谱数据分析,对汽油样品中的单环芳烃含量进行测定。具体的步骤如下:
1)收集115个轻汽油和柴油燃料样品,紫外光谱波长范围为200~400nm,采样间隔约为0.35nm,共572个波长数据点。单环芳烃含量通过HP model G1205A超临界流体色谱仪器(Hewlett-Packard,Palo Alto,Calif)测定。该数据从http://myweb.dal.ca/pdwentze/downloads.html下载。训练集及预测集的划分按照网上的说明,前70个样品用作训练集,后44个样品用作预测集。该数据的训练集紫外光谱如图6所示。
2)确定PLS模型的因子数LV
计算不同因子数下的交叉验证均方根误差(RMSECV),最小的RMSECV对应的因子数即为最佳因子数。其中RMSECV计算公式如下:
其中m为总样品数,为第i个样品的预测值,为第i个样品的真实值。该实施例中最佳因子数LV为7。
3)确定迭代次数T
迭代次数(即模型个数)从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差(RMSEP),图7显示了RMSEP值随着迭代次数的变化,当RMSEP相对稳定时对应的迭代次数500即为最佳迭代次数T。
4)确定训练子集样品百分数P
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对训练集预测的RMSEP,图8显示了RMSEP值随着训练子集样品百分数变化,RMSEP最小值对应的训练子集样品百分数40%即为最佳训练子集样品百分数P。
5)建立模型并预测未知样品
采用确定好的因子数7、迭代次数500、训练子集样品百分数40%,通过MC方法从训练集随机选取最佳训练子集样品百分数40%对应的28个样品作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型。对上述过程重复500次来建立500个子模型。对这500个子模型的预测结果直接平均得到最终预测结果。
图9 (a)、(b)及(c)分别显示了PLS、LASSO-PLS及MC-LASSO-PLS三种不同建模方法对预测集进行预测的预测值与真实值的关系图。结果表明,MC-LASSO明显提高了PLS模型的预测能力,达到较好的预测效果。
实施例3:
本实施例是应用于近红外光谱数据分析,对四元调和油样品中的香油品含量进行测定。具体的步骤如下:
1)收集51个含有香油、玉米油、大豆油和稻米油的四元调和油样品。使用Vertex70多波段红外/近红外光谱仪(德国Bruker公司)进行近红外光谱数据测量,波数范围为4000~12000cm-1,采样间隔为1.93cm-1,共4148个数据点。将香油含量作为目标值。采用KS分组方法,34个样品用作训练集,剩余17个样品用作预测集。该数据的训练集近红外光谱如图10所示。
2)确定PLS模型的因子数LV
计算不同因子数下的交叉验证均方根误差(RMSECV),最小的RMSECV对应的因子数即为最佳因子数。其中RMSECV计算公式如下:
其中m为总样品数,为第i个样品的预测值,为第i个样品的真实值。该实施例中最佳因子数LV为8。
3)确定迭代次数T
迭代次数(即模型个数)从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差(RMSEP),图11显示了RMSEP值随着迭代次数的变化,当RMSEP相对稳定时对应的迭代次数500即为最佳迭代次数T。
4)确定训练子集样品百分数P
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对训练集预测的RMSEP,图12显示了RMSEP值随着训练集样品百分数的变化,RMSEP最小值对应的训练子集样品百分数65%即为最佳训练子集样品百分数P。
5)建立模型并预测未知样品
采用确定好的因子数8、迭代次数500、训练子集样品百分数65%,通过MC方法从训练集随机选取最佳训练子集样品百分数65%对应的23个样品作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型。对上述过程重复500次建立500个子模型。对这500个子模型的预测结果直接平均得到最终预测结果。
图13 (a)、(b)及(c)分别显示了PLS、LASSO-PLS及MC-LASSO-PLS三种不同建模方法对预测集进行预测的预测值与真实值的关系图。结果表明,MC-LASSO明显提高了PLS模型的预测能力,达到较好的预测效果。
实施例4:
本实施例是应用于近红外光谱数据分析,对烟草样品中的尼古丁含量进行测定。具体的步骤如下:
1)收集373个烟草叶片样品。采用Bruker Vector 22/N的傅里叶近红外光谱仪(德国Bruker公司)进行测定波数范围为4000~9000cm-1,采样间隔为3.9cm-1,共1296个数据点。烟草样品中尼古丁含量采用AAⅢ型连续流动分析仪(德国Bran Luebbe公司)按照标准方法测定。采用KS分组方法,249个样品用作训练集,剩余124个样品用作预测集。该数据的训练集近红外光谱如图14所示。
2)确定PLS模型的因子数LV
计算不同因子数下的交叉验证均方根误差(RMSECV),最小的RMSECV对应的因子数即为最佳因子数。其中RMSECV计算公式如下:
其中m为总样品数,为第i个样品的预测值,为第i个样品的真实值。该实施例中最佳因子数LV为8。
3)确定迭代次数T
迭代次数(即模型个数)从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差(RMSEP),图15显示了RMSEP值随着迭代次数的变化,当RMSEP相对稳定时对应的迭代次数500即为最佳迭代次数T。
4)确定训练子集样品百分数P
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对训练集预测的RMSEP,图16显示了RMSEP值随着训练集样品百分数的变化,RMSEP最小值对应的训练子集样品百分数45%即为最佳训练子集样品百分数P。
5)建立模型并预测未知样品
采用确定好的因子数8、迭代次数500、训练子集样品百分数45%,通过MC方法从训练集随机选取最佳训练子集样品百分数45%对应的23个样品作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型。对上述过程重复500次建立500个子模型。对这500个子模型的预测结果直接平均得到最终预测结果。
图17中(a)、(b)及(c)分别显示了PLS、LASSO-PLS及MC-LASSO-PLS三种不同建模方法对预测集进行预测的预测值与真实值的关系图。结果表明,MC-LASSO提高了PLS模型的预测能力,达到较好的预测效果。
Claims (3)
1.一种基于蒙特卡罗及LASSO的双集成偏最小二乘建模方法,其特征在于,首先采用蒙特卡罗技术选取一定数目的样品作为样品子集,然后采用LASSO技术从该样品子集中选择部分变量,作为样品变量子子集,重复即迭代多次,建立多个子模型,将这些模型的预测结果直接作算术平均,即得到最终预测结果;
具体步骤为:
(1)收集一定数目的复杂样品,测量其光谱,确定并测定目标分析物含量,采用一定的分组方式将数据集划分为训练集和预测集;这里,所述复杂样品是指多种组分的复杂混合物;
(2)确定PLS模型的因子数LV:
计算不同因子数下的交叉验证均方根误差RMSECV,最小的RMSECV对应的因子数即为最佳因子数LV,RMSECV计算公式如下:
其中,m为总样品数,为第i个样品的预测值,为第i个样品的真实值;
(3)确定迭代次数T:
迭代次数即模型个数从1变化到500,间隔为1,依次计算不同迭代次数下模型对训练集预测的预测均方根误差RMSEP,当RMSEP相对稳定时对应的迭代次数为最佳迭代次数T;
(4)确定训练子集样品百分数P:
分别选取训练子集样品总数的5-100%,每隔5%取样一次,依次计算不同训练子集样品百分数下模型对预测集预测的RMSEP,RMSEP最小值对应的训练子集样品百分数为最佳训练子集样品百分数P;
(5)建立模型并预测未知样品
采用确定好的因子数LV、迭代次数T、训练子集样品百分数P,通过MC方法从训练集随机选取最佳训练子集样品百分数P对应的样品数目作为样品子集,然后对样品子集进行LASSO变量选择,得到样品变量子子集,对该子子集建立PLS子模型;
对上述过程重复T次建立T个子模型,并对这T个子模型的预测结果直接作算术平均,得到最终预测结果。
2.根据权利要求1所述的基于蒙特卡罗及LASSO的双集成偏最小二乘建模方法,其特征在于,所述的复杂样品是石油、烟草、中药或农产品。
3.根据权利要求1所述的基于蒙特卡罗及LASSO的双集成偏最小二乘建模方法,其特征在于,所述所述分组方式为KS或随机分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610966001.0A CN106529008B (zh) | 2016-11-01 | 2016-11-01 | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610966001.0A CN106529008B (zh) | 2016-11-01 | 2016-11-01 | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106529008A CN106529008A (zh) | 2017-03-22 |
CN106529008B true CN106529008B (zh) | 2019-11-26 |
Family
ID=58327079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610966001.0A Active CN106529008B (zh) | 2016-11-01 | 2016-11-01 | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106529008B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107356556A (zh) * | 2017-07-10 | 2017-11-17 | 天津工业大学 | 一种近红外光谱定量分析的双集成建模方法 |
CN107290305B (zh) * | 2017-07-19 | 2019-11-01 | 中国科学院合肥物质科学研究院 | 一种基于集成学习的近红外光谱定量建模方法 |
CN108416463B (zh) * | 2018-01-29 | 2019-09-10 | 中南大学 | 一种加氢裂化过程的产品质量预测方法和系统 |
CN108827905B (zh) * | 2018-04-08 | 2020-07-24 | 江南大学 | 一种基于局部加权Lasso的近红外模型在线更新方法 |
CN108805091B (zh) * | 2018-06-15 | 2021-08-10 | 北京字节跳动网络技术有限公司 | 用于生成模型的方法和装置 |
CN109615078A (zh) * | 2018-10-29 | 2019-04-12 | 复旦大学 | 一种计算强几何限制自旋模型的量子蒙特卡洛算法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038277A (zh) * | 2007-04-19 | 2007-09-19 | 东北大学 | 基于最小二乘-支持向量机的制粉过程煤粉细度软测量方法 |
DE102009017487A1 (de) * | 2009-04-15 | 2010-10-21 | Bundesrepublik Deutschland, vertreten durch den Präsidenten der Bundesanstalt für Geowissenschaften und Rohstoffe | Verfahren und Vorrichtung zum Bestimmen eines Mineralanteils eines Tonminerals, insbesondere quellfähigen Tonminerals in einem Gestein |
CN103308507A (zh) * | 2013-05-27 | 2013-09-18 | 广西工学院 | 一种快速测定聚氨酯中游离-nco的分析方法 |
CN103528979A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种经济、智能的水中多种重金属离子同时检测的方法 |
CN105115938A (zh) * | 2015-07-29 | 2015-12-02 | 北京航空航天大学 | 一种饲料原料中三聚氰胺掺假定量检测方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
CN105973828A (zh) * | 2016-04-27 | 2016-09-28 | 湖北大学 | 一种红外光谱定量分析方法及系统 |
CN106018337A (zh) * | 2016-08-04 | 2016-10-12 | 浙江大学 | 一种棉仁粉中植酸含量的测定方法 |
-
2016
- 2016-11-01 CN CN201610966001.0A patent/CN106529008B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101038277A (zh) * | 2007-04-19 | 2007-09-19 | 东北大学 | 基于最小二乘-支持向量机的制粉过程煤粉细度软测量方法 |
DE102009017487A1 (de) * | 2009-04-15 | 2010-10-21 | Bundesrepublik Deutschland, vertreten durch den Präsidenten der Bundesanstalt für Geowissenschaften und Rohstoffe | Verfahren und Vorrichtung zum Bestimmen eines Mineralanteils eines Tonminerals, insbesondere quellfähigen Tonminerals in einem Gestein |
CN103308507A (zh) * | 2013-05-27 | 2013-09-18 | 广西工学院 | 一种快速测定聚氨酯中游离-nco的分析方法 |
CN103528979A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种经济、智能的水中多种重金属离子同时检测的方法 |
CN105115938A (zh) * | 2015-07-29 | 2015-12-02 | 北京航空航天大学 | 一种饲料原料中三聚氰胺掺假定量检测方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
CN105973828A (zh) * | 2016-04-27 | 2016-09-28 | 湖北大学 | 一种红外光谱定量分析方法及系统 |
CN106018337A (zh) * | 2016-08-04 | 2016-10-12 | 浙江大学 | 一种棉仁粉中植酸含量的测定方法 |
Non-Patent Citations (2)
Title |
---|
A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra;Wensheng Cai, Yankun Li, Xueguang Shao;《Chemometrics & Intelligent Laboratory Systems》;20071011;第90卷(第2期);188-194 * |
Evaluation of calibration data for partial least squares modeling by using Monte Carlo cross validation;Wang Jiajun, Li Zhengfeng, Wang Luoping;《Computers and Applied Chemistry》;20151231;第32卷(第12期);1530-1536 * |
Also Published As
Publication number | Publication date |
---|---|
CN106529008A (zh) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106529008B (zh) | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 | |
CN104089911B (zh) | 基于一元线性回归的光谱模型传递方法 | |
Lee et al. | Random forest as a potential multivariate method for near-infrared (NIR) spectroscopic analysis of complex mixture samples: Gasoline and naphtha | |
US5243546A (en) | Spectroscopic instrument calibration | |
Ye et al. | Non-destructive prediction of protein content in wheat using NIRS | |
CN103534578B (zh) | 确定样本中存在的成分的光谱装置以及方法 | |
CN102435556A (zh) | 用于复杂非均相混合物体系的准确光谱定量分析方法 | |
CN105319198A (zh) | 基于拉曼光谱解析技术的汽油苯含量预测方法 | |
CN104990895A (zh) | 一种基于局部区域的近红外光谱信号标准正态校正方法 | |
CN105203498A (zh) | 一种基于lasso的近红外光谱变量选择方法 | |
Jiang et al. | Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn | |
Wang et al. | A new ensemble modeling method for multivariate calibration of near infrared spectra | |
CN103134763B (zh) | 由红外光谱预测原油密度的方法 | |
CN116559110A (zh) | 一种基于相关性和高斯曲线拟合的自适应近红外光谱变换方法 | |
CN107966499B (zh) | 一种由近红外光谱预测原油碳数分布的方法 | |
CN102128805A (zh) | 果品近红外光谱波长选择和快速定量分析方法及装置 | |
CN109060716B (zh) | 基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法 | |
CN103398971A (zh) | 一种测定柴油十六烷值的化学计量学方法 | |
Tian et al. | Application of nir spectral standardization based on principal component score evaluation in wheat flour crude protein model sharing | |
EP3861320B1 (en) | Systems and methods for implicit chemical resolution of vacuum gas oils and fit quality determination | |
CN107356556A (zh) | 一种近红外光谱定量分析的双集成建模方法 | |
Bjørsvik et al. | Data analysis: calibration of NIR instruments by PLS regression | |
Pomerantsev et al. | Nonlinear multivariate curve resolution alternating least squares (NL‐MCR‐ALS) | |
CN106950193B (zh) | 基于自加权变量组合集群分析的近红外光谱变量选择方法 | |
Tan et al. | Calibration transfer between two near-infrared spectrometers based on a wavelet packet transform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 300387 Tianjin city Xiqing District West Binshui Road No. 399 Applicant after: Tianjin Polytechnic University Applicant after: Shanghai Sui Hua Industrial Limited by Share Ltd Address before: 300387 Tianjin city Xiqing District West Binshui Road No. 399 Applicant before: Tianjin Polytechnic University Applicant before: Shanghai Huishan Industrial Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |