CN113607683A - 一种近红外光谱定量分析的自动建模方法 - Google Patents
一种近红外光谱定量分析的自动建模方法 Download PDFInfo
- Publication number
- CN113607683A CN113607683A CN202110908214.9A CN202110908214A CN113607683A CN 113607683 A CN113607683 A CN 113607683A CN 202110908214 A CN202110908214 A CN 202110908214A CN 113607683 A CN113607683 A CN 113607683A
- Authority
- CN
- China
- Prior art keywords
- model
- quantitative analysis
- algorithm
- spectrum
- modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 22
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012795 verification Methods 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 14
- 238000004497 NIR spectroscopy Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 230000036961 partial effect Effects 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013100 final test Methods 0.000 claims description 2
- 238000010238 partial least squares regression Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000005070 sampling Methods 0.000 abstract description 6
- 238000007621 cluster analysis Methods 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 22
- 230000008030 elimination Effects 0.000 description 7
- 238000003379 elimination reaction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000012614 Monte-Carlo sampling Methods 0.000 description 3
- 229960002588 cefradine Drugs 0.000 description 3
- RDLPVSKMFDYCOR-UEKVPHQBSA-N cephradine Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@@H]3N(C2=O)C(=C(CS3)C)C(O)=O)=CCC=CC1 RDLPVSKMFDYCOR-UEKVPHQBSA-N 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 241000208125 Nicotiana Species 0.000 description 2
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012628 principal component regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000000149 argon plasma sintering Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229960002715 nicotine Drugs 0.000 description 1
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明提供一种分析化学领域的化学计量学建模技术,尤其是涉及一种近红外光谱定量分析的自动建模方法,收集一定量的被测样本,采用偏最小二乘回归法作为基础多元校正法,利用模型集群分析,剔除异常样本;采用抽样算法分为若干训练子集和验证子集,针对每个训练子集和验证子集做光谱预处理,波长定量筛选算法对波长进行优选;通过建立一级备选模型库,二级备选模型库,将子模型选择最佳集成最终模型库。本发明的有益效果是采用四集成建模方法,无需使用者具备化学计量学知识背景,无任何参数项,入手方便简单;预测模型数据准确,适合各类复杂样本的定量分析。
Description
技术领域
本发明属于分析化学领域的化学计量学建模技术,尤其是涉及一种近红外光谱定量分析的自动建模方法。
背景技术
近年来,近红外光谱技术因其绿色、快速、高效、适合在线分析等特点收到农业、石油、饲料、食品、烟草、医药等行业的重视,并已成功应用于这些行业的品质分析和质量控制中。
近红外光谱定量分析建模采用多元校正技术,包括多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘回归(PLS)、人工神经网络(ANN)、支持向量回归(SVR)等方法。传统的多元校正技术通常采用一次性建模策略,即利用一定的训练集建立一系列回归模型,并采用交叉验证或其他评价方法从中选择预测效果最好的一个模型,继而将该模型用于预测未知样本。其中 PLS作为一种经典的线性校正技术,目前应用最为广泛。
常见的基于PLS回归方法的建模过程包含四个要素:样本、隐变量数、光谱预处理方法、波长变量筛选。
样本包含光谱与参考值两个概念,又可以细化为光谱质量、代表性样本选择、参考值准确性以及由此衍生的奇异样本识别。多元校正中校正集的数量并非越多越好,其代表性才是优先考虑的。构建稳定的化学模型主要取决于训练集数据样本,如果训练集数据中包括一些远离数据主体的奇异样本,它们将会破坏整个数据结构,从而影响模型的建立以及预测。因此,奇异样本诊断也是稳定化学建模的一个关键步骤。
对于PLS回归来说,隐变量数目太小,模型发生欠拟合,此时模型的偏差偏大;反之,如果模型中的隐变量过多,即模型过于复杂,将发生过拟合,虽然模型拟合的很好,但是预测误差将变大。为了找到一个平衡点,模型验证显得尤为重要。在PLS模型的建立过程中,合适的隐变量数对模型的预测性能至关重要。
近红外光谱分析是从复杂的背景中提取弱信息,近红外光谱仪所采集到的光谱除样本的自身信息外,往往还包含了一些与待测样本性质无关的因素带来的干扰,如样本的状态、光的散射、电噪声和杂散光等,这些干扰数据都会导致近红外光谱的基线漂移和光谱的不重复。
近红外光谱反映的是分子基频振动的倍频与合频吸收,光谱信息复杂、谱峰较宽且重叠严重,采用合适的波长变量筛选方法可以简化模型,剔除不相关或非线性变量,从而得到预测能力更强、更稳健的校正模型。然而,变量选择是一个NP问题,随着变量个数的增加,变量空间成指数增大,找到一个最佳变量组合非常具有挑战性。
对于复杂的分析体系,当近红外光谱建模样本数量较少时,对于这些样本建模,往往只是对实际问题的总体采样而得到的部分样本,所收集的样本不足以表达总体信息,很容易导致所得模型过拟合或不准确。集成学习能有效提高模型的泛化能力,然而要获得好的集成,成员模型应好而不同,即成员模型既要有一定准确性,并且要有多样性。对于同质集成来说,增强成员模型多样性的方法一般是在学习过程中引入随机性,常见做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动。
目前,近红外光谱领域流行的建模软件均需要使用者具备一定的化学计量学知识,需要使用者针对上述4个因素及相互之间的组合进行各种调整及优化,整个建模过程费时费力,建立一个可靠、稳健、高质量的模型并不容易。尽管已有部分化学计量学软件加入了参数优化的选项,能降低使用者的劳动强度,但是用户还是会面对纷繁复杂的参数选择、异常样本剔除等问题,这些问题在一定程度上阻碍了近红外光谱分析技术的普及和推广。
发明内容
为解决上述技术问题,本发明提供一种分析化学领域的化学计量学建模技术,尤其是涉及一种近红外光谱定量分析的自动建模方法。
本发明采用的技术方案是:一种近红外光谱定量分析的自动建模方法,其特征在于包括步骤:
样本光谱采集及参考值测定与模型集群分析;
样本分类、光谱预处理及波长优选;
建立定量子模型,确定子模型最佳因子数;
建立模型并添加至一级备选模型,选择所述一级备选模型中最优选添加至二级备选模型,对所述二级备选模型中优选模型集成为最终预测模型;预测未知样本并计算出最终测试结果。
优选地,其特征在于:所述模型集群分析剔除了极端异常样本,得到cleandata。
优选地,所述样本分类采用Bootstrap或MonteCarlo算法将其划分成多组训练子集和验证子集。
优选地,所述光谱预处理采用光谱预处理算法及其相互之间的组合。
优选地,采用BIPLS、UVE、MCUVE、CARS、RandomFrog等波长变量筛选算法及其之间相互组合应用于所述波长优选。
优选地,采用偏最小二回归法作为基础多元校正算法。
优选地,采用验证集验证方法确定子模型最佳因子数,所述验证集验证方法计算各因子数对应的预测残差平方和(PRESS,记为pi),找到其中最小的 PRESS(记为pmin),计算各因子数对应的pi/pmin(记为fvaluei),通过F检验计算F概率,找到第一个小于0.75的F概率,对应的因子数即为最佳。
优选地,分别针对各个训练子集、波长组合、预处理方法建立的子模型,将与最佳因子数紧邻的若干不同因子数对应的子模型添加到所述一级备选模型库。
优选地,所述一级备选模型库根据RMSRP从小到大排序,选择最佳的若干子模型添加至所述二级备选模型库;所述二级备选模型库根据RMSRP从小到大排序,选择最佳的若干模型进行集成,建立最终预测模型。
优选地,所述光谱预处理算法选择平滑、求导、多元散射校正、矢量归一化、标准正态变量变换、均值中心化、标准化等及其相互之间的组合。
本发明具有的优点和积极效果是:
针对传统建模方法及建模软件参数多、对使用者要求高等不足,提出一种近红外光谱定量分析的基于集成学习策略的自动建模方法,利用模型集群分析剔除极端异常样本,采用Bootstrap或MonteCarlo抽样算法将其划分成多组训练子集和验证子集,使用不同光谱预处理方法,采用波长变量筛选方法来优选波长,将不同因子数的子模型作为备选模型。针对训练样本、预处理方法、波长变量、因子数等四个方面对子模型加以扰动,得到若干子模型,按照RMSEP从小到大排序,选择最佳的若干子模型进行集成,对各个模型的结果进行简单平均得到最终预测结果。
采用四集成建模方法,无需使用者具备化学计量学知识背景,无任何参数项,入手方便简单;预测模型数据准确,适合各类复杂样本的定量分析。
附图说明
图1是本发明的流程示意图;
图2是本发明的实验预测头孢拉定含量的数据图;
图3是本发明的实验预测盐碱含量的数据图。
具体实施方式
下面结合附图对本发明的实施例做出说明。
如图1所示,为实现本发明所提供的的技术方案包括以下步骤:
1、收集一定数目的被测样本,采集样本的近红外光谱,采用常规方法测定其组成成分或性质的参考值;
2、采用偏最小二乘回归法作为基础多元校正算法;
3、利用模型集群分析剔除极端异常样本,得到cleandata;
4、根据样本数量的不同,采用Bootstrap或MonteCarlo抽样算法将其划分成多组训练子集和验证子集;
5、针对每一组训练子集和验证子集,逐一使用不同的光谱预处理算法对光谱进行预处理;
6、采用BIPLS、UVE、MCUVE、CARS、RandomFrog等波长变量筛选算法对波长进行优选;
7、采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
8、采用验证集验证方法确定子模型最佳因子数;
9、分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的j个因子数对应的子模型添加到一级备选模型库;
10、将前述一级备选模型根据RMSEP从小到大排序,选择最佳的p个模型添加到二级备选模型库;
11、将前述二级备选模型RMSEP从小到大排序,选择最佳的k个模型进行集成,得到最终的预测模型;
12、预测未知样本时,对k个模型的预测结果进行简单平均得到最终预测结果。
结合附图对本发明实施例进行说明,实施例1:
本实施例是应用近红外光谱数据分析,对头孢拉定颗粒中的头孢拉定含量进行快速测定。该数据集包含96个样本,采用徐彤抽样方法选择70%作为训练集(68个),剩余30%作为测试集(28个)。具体步骤如下:
S1:采用模型集群分析,剔除极端的异常样本,其序号分别为:64、93.
S2:采用Bootstrap抽样方法,将前述剔除异常样本后的训练集划分成 200组对应的训练子集和验证子集。
S3:分别采用均值中心化、一阶+均值中心化、多元散射校正+均值中心化、矢量归一化+均值中心化、标准正态变量变换+均值中心化、消除常数偏移量+均值中心化、减去一条直线+均值中心化、去趋势+均值中心化、最大最小归一化+均值中心化、标准正态变量变换+去趋势+均值中心化、一阶导+ 多元散射校正+均值中心化、一阶导+标准正态变量变换+均值中心化、一阶导+减去一条直线+均值中心化、一阶导+矢量归一化+均值中心化等方法对光谱进行预处理。
S4:采用BiPLS算法对波长进行优选;采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
S5:采用验证集验证方法确定子模型最佳因子数;分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的 5个不同因子数对应的子模型添加到一级备选模型库;
S6:将前述一级备选模型根据RMSEP从小到大排序,选择最佳的50个模型添加到二级备选模型库;
S7:将前述二级备选模型RMSEP从小到大排序,选择最佳的100个模型进行集成,得到最终的预测模型;
S8:预测前述28个测试样本,对100个模型的预测结果进行简单平均得到最终预测结果。
本实施例预测结果的R2为0.99164,RMSEP为0.25099。
作为比较,我们采用常规PLS建模方法,运用不同的光谱预处理方法,选择竞争自适应重加权采样(CARS)作为光谱波长变量筛选方法,针对训练集建立对应模型,采用十折交叉验证确定最佳因子数,同时手动剔除明显异常的样本,使用该模型预测上述测试集,得到的预测结果如图2所示。
实施例2:
本实施例是应用近红外光谱数据分析,对烟草粉末中的烟碱含量进行快速测定。该数据集包含1000个样本,采用KS抽样方法选择80%作为训练集 (800个),剩余20%作为测试集(200个)。具体步骤如下:
S1:采用模型集群分析,剔除极端的异常样本,其序号分别为:175、 202、250、252、543、614、718、748、816。
S2:采用MonteCarlo抽样方法,将前述剔除异常样本后的训练集划分成100组对应的训练子集和验证子集。
S3:分别采用均值中心化、一阶+均值中心化、多元散射校正+均值中心化、矢量归一化+均值中心化、标准正态变量变换+均值中心化、消除常数偏移量+均值中心化、减去一条直线+均值中心化、去趋势+均值中心化、最大最小归一化+均值中心化、标准正态变量变换+去趋势+均值中心化、一阶导+ 多元散射校正+均值中心化、一阶导+标准正态变量变换+均值中心化、一阶导+减去一条直线+均值中心化、一阶导+矢量归一化+均值中心化等方法对光谱进行预处理。
S4:采用BiPLS算法对波长进行优选;采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
S5:采用验证集验证方法确定子模型最佳因子数;分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的 3个不同因子数对应的子模型添加到一级备选模型库;
S6:将前述一级备选模型根据RMSEP从小到大排序,选择最佳的30个模型添加到二级备选模型库;
S7:将前述二级备选模型RMSEP从小到大排序,选择最佳的50个模型进行集成,得到最终的预测模型;
S8:预测前述200个测试样本,对50个模型的预测结果进行简单平均得到最终预测结果。
本实施例预测结果的R2为0.99288,RMSEP为0.08793。
作为比较,我们采用常规PLS建模方法,运用不同的光谱预处理方法,选择后向区间偏最小二乘法(BiPLS)作为光谱波长变量筛选方法,针对训练集建立对应模型,采用十折交叉验证确定最佳因子数,同时手动剔除明显异常的样本,使用该模型预测上述测试集,得到的预测结果如图3所示。
通过本发明的两个实施例,可以看出该方法对较小的样本集和较大的样本集均能取得很好的效果,该方法的R2和RMSEP均优于单个模型的结果。更重要的是,本方法无需使用者调整或优化任何参数,可以非常简便地应用于WindowsApp;基于C/S架构或B/S架构的云端自动建模;也可以嵌入近红外大数据平台系统,系统基于一定规则定时自动更新模型。
基于WindowsApp的自动建模:将建模软件部署到用户PC机中,用户只需完成光谱数据和参考值数据的导入,然后通过一键式操作即可完成模型的建立。
基于C/S架构的云端自动建模:客户机通过局域网与服务器相连,接受用户的请求,并通过网络向服务器提出请求。使用此开发方式,能充分发挥客户端PC的处理能力,很多工作可以在客户端处理后再提交给服务器,将近红外光谱定量分析的处理提升了一个高度。
基于B/S架构的云端自动建模:与操作系统平台无关,任何时间、任何地点、任何系统,只要可以使用浏览器上网,就可以使用B/S系统的终端,更多的系统用户加入时只需设立账号、培训即可,并支持移动办公和分布式办公。每一个Web服务器可以通过各种方式与数据库服务器连接,大量的数据实际存放在数据库服务器中,云端自动建模可以通过在Internet上对数据进行储存;在使用B/S架构的云端自动建模,可以不用安装任何专门的软件就能实现在任何地方进行操作,使近红外光谱的定量分析发展更为方便,无需具备化学计量学知识的工作人员上手操作,成本低、维护方便、分布性强、开发简单、客户端零维护,系统的扩展非常容易。
嵌入近红外大数据平台系统:充分利用现有近红外大数据平台及物联网技术的成果,对测量过参考值的被测样本进行标记并上传至大数据系统,建模系统基于样本数量、时间周期等规则定时自动更新模型。
以上所描述的实施例仅仅是示意性的,其中所述基于C/S架构和B/S架构的云端自动建模,可根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的,本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以去除地了解到各实施方式可通过软件加必需的通用硬件平台的方式来实现。
最后应说明的是:以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (10)
1.一种近红外光谱定量分析的自动建模方法,其特征在于包括步骤:
测试样本采集测定与模型集群分析;
样本分类、光谱预处理及波长优选;
建立定量子模型,确定子模型最佳因子数;
建立模型并添加至一级备选模型,选择所述一级备选模型中最优选添加至二级备选模型,对所述二级备选模型中优选模型集成为最终预测模型;预测未知样本并计算出最终测试结果。
2.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述模型集群分析剔除极端异常样本,得到cleandata。
3.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述样本分类采用Bootstrap或MonteCarlo算法将其划分成多组训练子集和验证子集。
4.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述光谱预处理采用光谱预处理算法及其相互之间的组合。
5.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述波长优选采用如下BIPLS、UVE、MCUVE、CARS、RandomFrog波长筛选算法中的一种和多种组合。
6.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:采用偏最小二回归法作为基础多元校正算法。
7.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:采用验证集验证方法确定子模型最佳因子数,所述验证集验证方法计算各因子数对应的预测残差平方和(PRESS,记为pi),找到其中最小的PRESS(记为pmin),计算各因子数对应的pi/pmin(记为fvaluei),通过F检验计算F概率,找到第一个小于0.75的F概率,对应的因子数即为最佳。
8.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:分别针对各个训练子集、波长组合、预处理方法建立的子模型,将与最佳因子数紧邻的若干不同因子数对应的子模型添加到所述一级备选模型库。
9.根据权利要求1所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述一级备选模型库根据RMSRP从小到大排序,选择最佳的若干子模型添加至所述二级备选模型库;所述二级备选模型库根据RMSRP从小到大排序,选择最佳的若干模型进行集成,建立最终预测模型。
10.根据权利要求4所述的一种近红外光谱定量分析的自动建模方法,其特征在于:所述光谱预处理采用如下平滑、求导、多元散射校正、矢量归一化、标准正态变量变换、均值中心化、标准化算法中一种及其相互之间的组合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908214.9A CN113607683B (zh) | 2021-08-09 | 2021-08-09 | 一种近红外光谱定量分析的自动建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908214.9A CN113607683B (zh) | 2021-08-09 | 2021-08-09 | 一种近红外光谱定量分析的自动建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113607683A true CN113607683A (zh) | 2021-11-05 |
CN113607683B CN113607683B (zh) | 2024-09-06 |
Family
ID=78339971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908214.9A Active CN113607683B (zh) | 2021-08-09 | 2021-08-09 | 一种近红外光谱定量分析的自动建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113607683B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115031643A (zh) * | 2022-05-19 | 2022-09-09 | 山东大学 | 流化床包衣过程中包衣膜厚度在线测量方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002010726A2 (en) * | 2000-08-01 | 2002-02-07 | Sensys Medical, Inc. | Combinative multivariate calibration that enhances prediction ability through removal of over-modeled regions |
US20060190137A1 (en) * | 2005-02-18 | 2006-08-24 | Steven W. Free | Chemometric modeling software |
CN104833653A (zh) * | 2015-04-15 | 2015-08-12 | 北京理工大学 | 一种混合炸药中黑索金含量的快速分析方法 |
CN107290305A (zh) * | 2017-07-19 | 2017-10-24 | 中国科学院合肥物质科学研究院 | 一种基于集成学习的近红外光谱定量建模方法 |
CN107356556A (zh) * | 2017-07-10 | 2017-11-17 | 天津工业大学 | 一种近红外光谱定量分析的双集成建模方法 |
CN107389592A (zh) * | 2017-07-10 | 2017-11-24 | 天津工业大学 | 一种复杂样品光谱信号选择性集成预处理建模方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN109612961A (zh) * | 2018-12-13 | 2019-04-12 | 温州大学 | 海岸环境微塑料的开集识别方法 |
CN111007040A (zh) * | 2019-12-27 | 2020-04-14 | 黑龙江八一农垦大学 | 大米食味品质近红外光谱快速评价方法 |
CN111768096A (zh) * | 2020-06-24 | 2020-10-13 | 平安银行股份有限公司 | 基于算法模型的评级方法、装置、电子设备及存储介质 |
CN112749466A (zh) * | 2019-10-30 | 2021-05-04 | 北京中医药大学 | 智能制造测量控制集成模型及其建立方法应用 |
CN112903625A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于偏最小二乘法分析药物中活性物质含量的集成参数优化建模方法 |
-
2021
- 2021-08-09 CN CN202110908214.9A patent/CN113607683B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002010726A2 (en) * | 2000-08-01 | 2002-02-07 | Sensys Medical, Inc. | Combinative multivariate calibration that enhances prediction ability through removal of over-modeled regions |
US20060190137A1 (en) * | 2005-02-18 | 2006-08-24 | Steven W. Free | Chemometric modeling software |
CN104833653A (zh) * | 2015-04-15 | 2015-08-12 | 北京理工大学 | 一种混合炸药中黑索金含量的快速分析方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN107356556A (zh) * | 2017-07-10 | 2017-11-17 | 天津工业大学 | 一种近红外光谱定量分析的双集成建模方法 |
CN107389592A (zh) * | 2017-07-10 | 2017-11-24 | 天津工业大学 | 一种复杂样品光谱信号选择性集成预处理建模方法 |
CN107290305A (zh) * | 2017-07-19 | 2017-10-24 | 中国科学院合肥物质科学研究院 | 一种基于集成学习的近红外光谱定量建模方法 |
CN109612961A (zh) * | 2018-12-13 | 2019-04-12 | 温州大学 | 海岸环境微塑料的开集识别方法 |
CN112749466A (zh) * | 2019-10-30 | 2021-05-04 | 北京中医药大学 | 智能制造测量控制集成模型及其建立方法应用 |
CN111007040A (zh) * | 2019-12-27 | 2020-04-14 | 黑龙江八一农垦大学 | 大米食味品质近红外光谱快速评价方法 |
CN111768096A (zh) * | 2020-06-24 | 2020-10-13 | 平安银行股份有限公司 | 基于算法模型的评级方法、装置、电子设备及存储介质 |
CN112903625A (zh) * | 2021-01-25 | 2021-06-04 | 北京工业大学 | 基于偏最小二乘法分析药物中活性物质含量的集成参数优化建模方法 |
Non-Patent Citations (2)
Title |
---|
HUI CHEN ET AL: "Ensemble of extreme learning machines for multivariate calibration of near-infrared spectroscopy", SPECTROCHIMICA ACTA PART A MOLECULAR AND BIOMOLECULAR SPECTROSCOPY, no. 229, 31 December 2019 (2019-12-31), pages 117982 * |
张磊;丁香乾;宫会丽;吴丽君;白晓莉;罗林;: "改进和声搜索算法的近红外光谱特征变量选择", 光谱学与光谱分析, vol. 40, no. 06, 30 June 2020 (2020-06-30), pages 1869 - 1875 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115031643A (zh) * | 2022-05-19 | 2022-09-09 | 山东大学 | 流化床包衣过程中包衣膜厚度在线测量方法及系统 |
CN115031643B (zh) * | 2022-05-19 | 2024-03-08 | 山东大学 | 流化床包衣过程中包衣膜厚度在线测量方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113607683B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109115692B (zh) | 一种光谱数据分析方法及装置 | |
CN110987862A (zh) | 一种柴油在线调和方法 | |
CN103344600B (zh) | 一种蚁群优化算法的近红外光谱特征波长选择方法 | |
CN103528990A (zh) | 一种近红外光谱的多模型建模方法 | |
CN107817223A (zh) | 快速无损实时预测原油性质模型的构建方法及其应用 | |
CN110687072A (zh) | 一种基于光谱相似度的校正集和验证集选择及建模方法 | |
CN105717066B (zh) | 一种基于加权相关系数的近红外光谱识别模型 | |
Chen et al. | A hybrid optimization method for sample partitioning in near-infrared analysis | |
CN104062258A (zh) | 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法 | |
CN106248621A (zh) | 一种评价方法与系统 | |
CN114088661A (zh) | 一种基于迁移学习和近红外光谱的烟叶烘烤过程化学成分在线预测方法 | |
CN115221927A (zh) | 一种紫外-可见光谱的溶解有机碳检测方法 | |
CN113607683B (zh) | 一种近红外光谱定量分析的自动建模方法 | |
Li et al. | Improvement of NIR prediction ability by dual model optimization in fusion of NSIA and SA methods | |
CN109283153B (zh) | 一种酱油定量分析模型的建立方法 | |
CN112630180B (zh) | 水体中有机磷农药浓度检测的紫外/可见光吸收光谱模型 | |
Tian et al. | Application of nir spectral standardization based on principal component score evaluation in wheat flour crude protein model sharing | |
CN104596976A (zh) | 近红外漫反射光谱技术测定造纸法再造烟叶蛋白质的方法 | |
CN115398552A (zh) | 遗传算法用于基于拉曼光谱识别样品特征的用途 | |
CN108120694B (zh) | 用于晒红烟化学成分分析的多元校正方法及系统 | |
Liu et al. | Sample selection method using near‐infrared spectral information entropy as similarity criterion for constructing and updating peach firmness and soluble solids content prediction models | |
CN111415715B (zh) | 一种基于多元光谱数据的智能校正方法、系统及装置 | |
CN115931773A (zh) | 一种近红外光谱定量分析中的波长选择方法 | |
CN116484989A (zh) | 一种基于深度迁移学习的烟叶近红外多组分预测方法 | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |