CN101825567A - 一种近红外光谱和拉曼光谱波长的筛选方法 - Google Patents
一种近红外光谱和拉曼光谱波长的筛选方法 Download PDFInfo
- Publication number
- CN101825567A CN101825567A CN201010137956A CN201010137956A CN101825567A CN 101825567 A CN101825567 A CN 101825567A CN 201010137956 A CN201010137956 A CN 201010137956A CN 201010137956 A CN201010137956 A CN 201010137956A CN 101825567 A CN101825567 A CN 101825567A
- Authority
- CN
- China
- Prior art keywords
- wavelength
- model
- spectrum
- sample
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 30
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 29
- 238000012216 screening Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 27
- 239000000203 mixture Substances 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000010238 partial least squares regression Methods 0.000 claims description 19
- 238000007689 inspection Methods 0.000 claims description 18
- 230000001174 ascending effect Effects 0.000 claims description 4
- 238000007796 conventional method Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 20
- 238000004445 quantitative analysis Methods 0.000 abstract description 10
- 230000003595 spectral effect Effects 0.000 abstract description 3
- 241000208125 Nicotiana Species 0.000 description 16
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 16
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 15
- 229960002715 nicotine Drugs 0.000 description 15
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 15
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 8
- 239000002253 acid Substances 0.000 description 8
- 235000013905 glycine and its sodium salt Nutrition 0.000 description 8
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 8
- 239000002207 metabolite Substances 0.000 description 7
- 239000000470 constituent Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000003556 assay Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004451 qualitative analysis Methods 0.000 description 3
- 238000012113 quantitative test Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- DPJRMOMPQZCRJU-UHFFFAOYSA-M thiamine hydrochloride Chemical compound Cl.[Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N DPJRMOMPQZCRJU-UHFFFAOYSA-M 0.000 description 3
- 101000797262 Mus musculus N-acyl-aromatic-L-amino acid amidohydrolase (carboxylate-forming) Proteins 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005206 flow analysis Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/129—Using chemometrical methods
- G01N2201/1293—Using chemometrical methods resolving multicomponent spectra
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biochemistry (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
一种近红外光谱和拉曼光谱波长的筛选方法,把采集的近红外或拉曼光谱及对应的被测成分浓度数据分成训练集、检验集和预测集;利用原始光谱和被测成分浓度建立PLS模型,得到真实PLS模型系数;将被测成分浓度随机排序,利用被测成分浓度向量与原始光谱矩阵建立大量PLS模型;根据这些模型,分别统计单个波长模型系数大于其真实PLS模型系数的次数,可得到对应概率值;概率值小于域值的波长被保留;利用保留的波长建立最优模型,对预测集样本被测成分浓度进行预测。该方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一种新的波长筛选技术。
Description
技术领域
本方法发明属于分析化学领域的无损分析技术,特别涉及一种近红外光谱和拉曼光谱波长的筛选方法。
背景技术
近红外光谱(NIR)是一种无损分析技术,具有处理简单、分析速度快、稳定性好等优点,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱谱带重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。拉曼光谱分析法可提供快速、简单、可重复、无损伤的定性定量分析,在生物学、考古学和天文学等领域具有很好的应用前景。目前,拉曼光谱的分析主要还是利用典型物质的光谱或标准谱图对未知光谱实现比较、鉴别和定性分析。由于标准谱库建立的难度和光谱数据处理与分析的复杂性,多组分混合物样品拉曼光谱的定量分析还存在很多困难,而利用计量学方法就可以使拉曼光谱定量分析变得简单快速。因此,化学计量学方法已成为近红外光谱以及拉曼光谱分析中的研究热点,其中主成分分析方法(PCA)、偏最小二乘法(PLS)就是常用的多元建模方法。实践证明,多元建模方法结合近红外光谱分析方法非常实用有效,已被用于无创血糖浓度的定量分析的全新领域(U.S.Pat.No.4,975,581)。利用PCA方法结合拉曼光谱分析,可以实现在线分析和控制流化床反应器中的聚合物性能(U.S.Pat.No.7,116,414)。
在近红外光谱和拉曼光谱分析中,波长筛选一直是多元校正分析中的重要内容,可以解决波长中背景、噪声等信息对模型的干扰。波长筛选的基本方法之一就是找到一种评价波长对模型定量分析重要性的方法,根据波长评价值来筛选波长,保留对建模贡献较大的波长。大量的研究工作表明,有效的波长筛选可以改善模型的预测能力和减少模型的复杂程度。目前,光谱分析中波长筛选的方法主要包括:遗传算法(GA)、无信息变量消除法(UVE)、间隔偏最小二乘法(iPLS)以及连续投影算法(SPA)等。但是这些方法中,比如遗传算法(GA)计算周期较长而且容易陷入局部最优的局限;无信息变量消除法(UVE)中采用留一交叉验证法,使模型具有过拟合的风险。因此,如何建立预测能力好、稳健性强的模型,且在模型构建中避免过拟合现象都是以后研究中需要解决的问题和努力的方向。
统计学是研究如何有效地运用数据收集与数据处理、多种模型与技术分析等对数据进行推理,以便对问题进行推断或预测,从而为决策和行动提供依据和建议的应用广泛的基础性学科。由于统计分析是基于大量数据进行分析,通过统计得到的规律往往比较具有全局代表性和真实可靠性。波长筛选与统计分析结合的思想将会是以后的研究发展趋势。
本方法发明是通过统计学方法与化学计量学相结合,来实现对近红外光谱的波长选择。本方法通过建立大量的模型来实现,与单一模型相比可以从更多方面考虑光谱与浓度间的关系,所以可以减少模型过拟合风险,且根据模型的系数统计得到的结论更加可靠。
发明内容
本发明的目的是针对上述存在问题,提供一种近红外光谱和拉曼光谱波长的筛选方法,该方法可改善模型的预测能力、增强模型的稳健性、避免过拟合现象,使根据模型的系数统计得到的结论更加可靠。
本发明利用计量学方法建立多模型,结合统计学方法,通过对模型系数的统计分析来评价波长,实现近红外光谱和拉曼光谱波长筛选。
一种近红外光谱和拉曼光谱波长的筛选方法,包括以下步骤:
1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;
2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;
3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;
4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本被测成分的浓度含量。
所述系列偏最小二乘回归随机模型为1000个,模型回归系数矩阵为B(1000×p)。
所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本被测成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。
本发明的优点是:该筛选方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一种新的筛选技术,具有较高的实用价值。
附图说明
图1为烟草样本近红外光谱尼古丁模型第200个波长点(对应波数:8234.7cm-1)的模型回归系数的频数分布直方图。
图2为烟草样本近红外光谱尼古丁模型波长的概率分布和保留波长分布图。
图3为烟草样本近红外光谱总糖模型波长的概率分布和保留波长分布图。
图4为代谢物样本拉曼光谱肌氨酸模型波长的概率分布和保留波长分布图。
图5为代谢物样本拉曼光谱甘氨酸模型波长的概率分布和保留波长分布图。
具体实施方式
实施例1:
本实施例是应用于近红外光谱分析,对烟草样本中的尼古丁成分含量值进行测定。具体的步骤如下:
1)通过测定800个烟草的近红外光谱建立定量分析模型,光谱采用MPAFT-NIR光谱仪(Bruker,Germany)测定,波数范围为3999.7-9002.3cm-1(2500.2-833.7nm),采样间隔约为4个波数,共1298个波长点,在建模前把烟草样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为400,检验集和预测集样本数均为200,样本中尼古丁的含量采用AAIII型连续流动分析仪(BRAN+LUBBE,Germany)按照标准方法测定;
2)利用训练集样本的光谱和尼古丁成分浓度,进行偏最小二乘回归,模型因子数为10,得到真实模型回归系数向量b(1×1298);
3)将上述训练集样本的尼古丁成分浓度向量随机排序,利用这种随机化后的尼古丁成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,模型因子数为10,得到随机模型;
4)重复步骤3,得到1000个偏最小二乘回归随机模型及其模型回归系数矩阵B(1000×1298);
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本尼古丁成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本尼古丁成分的含量。预测的精确度的评价采用相关系数(R)和预测均方根误差(RMSEP)这2个参数来表示。
所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本尼古丁成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。该实施例中通过计算得到N=101。
图1所示为第200个波长点(对应波数:8234.7cm-1)的模型回归系数的频数分布直方图,即取步骤4所得的随机模型回归系数矩阵B(1000×1298)的第200列做频数分布直方图。图2所示为烟草样本近红外光谱预测尼古丁含量模型波长的概率分布和保留波长分布图。图2中的棒状图横坐标对应步骤7保留的概率值小于最优域值的波长。从图2可以看出,采用该方法可以有效的进行波长筛选,只需要保留少量的波长,从而使模型更加精简。利用模型对尼古丁成分含量未知的检测集样本进行浓度测定,结果显示:利用传统PLS建模,需要1298个波长点,对烟草中尼古丁成分含量进行预测分析,其预测均方根误差RMSEP=0.097,相关系数R=0.9909;通过该方法仅需要保留101个波长,对烟草中尼古丁成分含量进行测定,其预测均方根误差RMSEP=0.087,相关系数R=0.9932。通过比较可以得出,该方法可以使模型更加简单而且预测精度提高,尼古丁成分预测结果与化学测定结果之间的线性关系提高。
实施例2:
本实施例是应用于近红外光谱分析,对烟草样本中的总糖成分含量值进行测定。具体的步骤如下:
1)通过测定400个烟草的近红外光谱建立定量分析模型,光谱采用MPAFT-NIR光谱仪(Bruker,Germany)测定,波数范围为3999.7-9002.3cm-1(2500.2-833.7nm),采样间隔约为4个波数,共1298个波长点,在建模前把烟草样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为200,检验集和预测集样本数均为100,样本中总糖的含量采用AAIII型连续流动分析仪(BRAN+LUBBE,Germany)按照标准方法测定;
2)利用训练集样本的光谱和总糖成分浓度,进行偏最小二乘回归,模型因子数为10,得到真实模型回归系数向量b(1×1298);
3)将上述训练集样本的总糖成分浓度向量随机排序,利用这种随机化后的总糖成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,模型因子数为10,得到随机模型;
4)重复步骤3,得到1000个偏最小二乘回归随机模型及其模型回归系数矩阵B(1000×1298);
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本总糖成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本总糖成分的含量,预测的精确度的评价采用相关系数(R)和预测均方根误差(RMSEP)这2个参数来表示。
所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本总糖成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。该例子中通过计算得到N=117。
图3所示为烟草样本近红外光谱预测总糖含量模型波长的概率分布和保留波长分布图。图3中的棒状图横坐标对应步骤7保留的概率值小于最优域值的波长。从图3可以看出,采用该方法可以有效的进行波长筛选,只需利用少量的波长建模,从而使模型更加精简。利用模型对总糖成分含量未知的检测集样本进行浓度测定,结果显示:利用传统PLS建模,需要1298个波长点,对烟草中总糖成分含量进行的预测分析,其预测均方根误差RMSEP=1.46,相关系数R=0.9049;通过该方法仅需要保留117个波长,对烟草中总糖成分含量进行测定的预测均方根误差RMSEP=0.91,相关系数R=0.9220。通过比较可以得出,该方法可以使模型更加简单而且预测精度提高,总糖成分预测结果与化学测定结果之间的线性关系提高。
实施例3:
本实施例是应用于拉曼光谱分析,对生物代谢物样本中的肌氨酸、甘氨酸成分含量值分别进行测定。通过测定86个生物代谢物样本的拉曼光谱建立定量分析模型,拉曼光谱采用RP-1Raman Identification System(Spectracode Inc.,Purdue Research Park,West Lafayette,Indiana,USA)测定,波数范围为473.59-2636.3cm-1,采样间隔约为5个波数,共含有422个波长点。在建模前把生物代谢物样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为36,检验集和预测集样本数均为25。生物代谢物样本中肌氨酸、甘氨酸成分含量按照常规方法配制。实施步骤与实施例1和2基本相同,其中偏最小二乘回归的模型因子数为10。
图4和5分别表示生物代谢物样本拉曼光谱预测肌氨酸、甘氨酸成分含量模型波长的概率分布和保留波长分布图。图中的棒状图横坐标表示模型最后保留的波长点位置。从图4和5可以看出,采用该方法可以有效的进行波长筛选,只需利用少量的波长建模,从而使模型更加精简。利用模型对生物代谢物样本肌氨酸成分含量未知的检测集样本进行浓度测定,结果发现,采用传统PLS建模,需要422个波长点,对肌氨酸成分含量测定的预测均方根误差RMSEP=1.7899,相关系数R=0.7137;通过该方法仅需要保留37个波长,对肌氨酸成分含量测定的预测均方根误差RMSEP=0.1278,相关系数R=0.8954。利用模型对生物代谢物样本甘氨酸成分含量未知的检测集样本进行浓度测定,结果表明:采用传统PLS建模,需要422个波长点,对甘氨酸成分含量进行测定的预测均方根误差RMSEP=0.9984,相关系数R=0.7762。通过该方法仅需保留30个波长,对预测集样本甘氨酸成分含量进行测定的预测均方根误差RMSEP=0.2839,相关系数R=0.9529。与传统PLS方法比较发现,利用该方法对肌氨酸、甘氨酸成分的预测结果和化学测定结果之间的线性关系均得到很大的提高,且模型更加精简、预测精度更高。
上述实施例所采用的波长筛选方法结合了统计学知识,结果更加可靠;而且能够更好的发掘光谱中的特征信息,从而提高烟草近红外光谱和代谢物拉曼光谱定量分析模型的预测精度,具有较高的实用价值。
Claims (3)
1.一种近红外光谱和拉曼光谱波长的筛选方法,其特征在于包括以下步骤:
1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;
2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;
3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;
4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本被测成分的浓度含量。
2.根据权利要求1所述近红外光谱和拉曼光谱波长的筛选方法,其特征在于:所述系列偏最小二乘回归随机模型为1000个,模型回归系数矩阵为B(1000×p)。
3.根据权利要求1所述近红外光谱和拉曼光谱波长的筛选方法,其特征在于:所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本被测成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010137956A CN101825567A (zh) | 2010-04-02 | 2010-04-02 | 一种近红外光谱和拉曼光谱波长的筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010137956A CN101825567A (zh) | 2010-04-02 | 2010-04-02 | 一种近红外光谱和拉曼光谱波长的筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101825567A true CN101825567A (zh) | 2010-09-08 |
Family
ID=42689608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010137956A Pending CN101825567A (zh) | 2010-04-02 | 2010-04-02 | 一种近红外光谱和拉曼光谱波长的筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101825567A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760197A (zh) * | 2011-04-26 | 2012-10-31 | 电子科技大学 | 基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测 |
CN102798607A (zh) * | 2012-08-13 | 2012-11-28 | 浙江大学 | 一种利用中红外光谱技术估测土壤有机碳含量的方法 |
CN104020124A (zh) * | 2014-05-29 | 2014-09-03 | 暨南大学 | 基于吸收率择优的分光波长筛选方法 |
CN104502306A (zh) * | 2014-12-09 | 2015-04-08 | 西北师范大学 | 基于变量重要性的近红外光谱波长选择方法 |
CN104964943A (zh) * | 2015-05-28 | 2015-10-07 | 中北大学 | 一种基于自适应Group Lasso的红外光谱波长选择方法 |
CN105911046A (zh) * | 2016-07-04 | 2016-08-31 | 哈尔滨工业大学(威海) | 一种基于频数分布原理的滤波方法 |
CN106770155A (zh) * | 2016-11-22 | 2017-05-31 | 武汉轻工大学 | 一种物质含量分析方法 |
CN106845051A (zh) * | 2015-12-04 | 2017-06-13 | 北京光巨力信息技术有限公司 | 一种基于组合优化的近红外无创血糖检测波长变量筛选方法 |
CN107110776A (zh) * | 2014-11-11 | 2017-08-29 | 光谱传感器公司 | 具有复杂背景成分的样品气体中的目标分析物检测和量化 |
CN109145403A (zh) * | 2018-07-31 | 2019-01-04 | 温州大学 | 一种基于样本共识的近红外光谱建模方法 |
CN109409350A (zh) * | 2018-10-23 | 2019-03-01 | 桂林理工大学 | 一种基于pca建模反馈式载荷加权的波长选择方法 |
CN109709064A (zh) * | 2019-01-03 | 2019-05-03 | 云南中烟工业有限责任公司 | 基于回归系数二次函数激活的烟叶热水可溶物测定方法 |
CN110646403A (zh) * | 2019-10-25 | 2020-01-03 | 陕西中烟工业有限责任公司 | 一种烟用香精香料挥发分总量测定方法 |
CN111795944A (zh) * | 2020-06-30 | 2020-10-20 | 江南大学 | 一种改进团队进步算法的近红外光谱波长筛选方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN112154218A (zh) * | 2018-05-14 | 2020-12-29 | 杰富意钢铁株式会社 | 熔融金属成分推断装置、熔融金属成分推断方法和熔融金属的制造方法 |
CN112912716A (zh) * | 2018-10-23 | 2021-06-04 | 美国安进公司 | 用于实时预测的拉曼光谱模型的自动校准和自动维护 |
CN113030010A (zh) * | 2021-03-11 | 2021-06-25 | 贵州省生物技术研究所(贵州省生物技术重点实验室、贵州省马铃薯研究所、贵州省食品加工研究所) | 一种基于逐步缩短步长优中选优的近红外光谱特征波数的筛选方法 |
CN114199814A (zh) * | 2020-08-28 | 2022-03-18 | 贵州中烟工业有限责任公司 | 一种基于回归系数的近红外定量分析模型更新方法 |
CN114611582A (zh) * | 2022-02-16 | 2022-06-10 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000047980A1 (en) * | 1999-02-09 | 2000-08-17 | Acordis Industrial Fibers Gmbh | Process for determining the dye uptake of polyethylene terephthalate fibres |
CN101292875A (zh) * | 2008-06-06 | 2008-10-29 | 天津市先石光学技术有限公司 | 利用基准波长测量成分浓度的方法 |
-
2010
- 2010-04-02 CN CN201010137956A patent/CN101825567A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000047980A1 (en) * | 1999-02-09 | 2000-08-17 | Acordis Industrial Fibers Gmbh | Process for determining the dye uptake of polyethylene terephthalate fibres |
CN101292875A (zh) * | 2008-06-06 | 2008-10-29 | 天津市先石光学技术有限公司 | 利用基准波长测量成分浓度的方法 |
Non-Patent Citations (2)
Title |
---|
《Chemometrics and Intelligent Laboratory Systems》 20090503 Heng Xu et al A wavelength selection method based on randomization test for near-infrared spectral analysis 189-192 , 第97期 * |
《烟草科技》 20021231 王芳等 红外光谱与卷烟样品常规成分的关系模型研究 , 第5期 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102760197A (zh) * | 2011-04-26 | 2012-10-31 | 电子科技大学 | 基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测 |
CN102798607A (zh) * | 2012-08-13 | 2012-11-28 | 浙江大学 | 一种利用中红外光谱技术估测土壤有机碳含量的方法 |
CN104020124A (zh) * | 2014-05-29 | 2014-09-03 | 暨南大学 | 基于吸收率择优的分光波长筛选方法 |
CN107110776A (zh) * | 2014-11-11 | 2017-08-29 | 光谱传感器公司 | 具有复杂背景成分的样品气体中的目标分析物检测和量化 |
CN107110776B (zh) * | 2014-11-11 | 2021-10-08 | 光谱传感器公司 | 具有复杂背景成分的样品气体中的目标分析物检测和量化 |
US10643008B2 (en) | 2014-11-11 | 2020-05-05 | Spectrasensors, Inc. | Target analyte detection and quantification in sample gases with complex background compositions |
CN104502306A (zh) * | 2014-12-09 | 2015-04-08 | 西北师范大学 | 基于变量重要性的近红外光谱波长选择方法 |
CN104502306B (zh) * | 2014-12-09 | 2017-03-15 | 西北师范大学 | 基于变量重要性的近红外光谱波长选择方法 |
CN104964943A (zh) * | 2015-05-28 | 2015-10-07 | 中北大学 | 一种基于自适应Group Lasso的红外光谱波长选择方法 |
CN104964943B (zh) * | 2015-05-28 | 2017-07-18 | 中北大学 | 一种基于自适应Group Lasso的红外光谱波长选择方法 |
CN106845051A (zh) * | 2015-12-04 | 2017-06-13 | 北京光巨力信息技术有限公司 | 一种基于组合优化的近红外无创血糖检测波长变量筛选方法 |
CN105911046A (zh) * | 2016-07-04 | 2016-08-31 | 哈尔滨工业大学(威海) | 一种基于频数分布原理的滤波方法 |
CN105911046B (zh) * | 2016-07-04 | 2018-09-04 | 哈尔滨工业大学(威海) | 一种基于频数分布原理的滤波方法 |
CN106770155A (zh) * | 2016-11-22 | 2017-05-31 | 武汉轻工大学 | 一种物质含量分析方法 |
US11966669B2 (en) | 2018-05-14 | 2024-04-23 | Jfe Steel Corporation | Molten metal component estimation device, method of estimating molten metal component, and method of manufacturing molten metal |
CN112154218A (zh) * | 2018-05-14 | 2020-12-29 | 杰富意钢铁株式会社 | 熔融金属成分推断装置、熔融金属成分推断方法和熔融金属的制造方法 |
CN109145403A (zh) * | 2018-07-31 | 2019-01-04 | 温州大学 | 一种基于样本共识的近红外光谱建模方法 |
CN109145403B (zh) * | 2018-07-31 | 2022-12-13 | 温州大学 | 一种基于样本共识的近红外光谱建模方法 |
CN109409350A (zh) * | 2018-10-23 | 2019-03-01 | 桂林理工大学 | 一种基于pca建模反馈式载荷加权的波长选择方法 |
CN112912716A (zh) * | 2018-10-23 | 2021-06-04 | 美国安进公司 | 用于实时预测的拉曼光谱模型的自动校准和自动维护 |
CN109709064A (zh) * | 2019-01-03 | 2019-05-03 | 云南中烟工业有限责任公司 | 基于回归系数二次函数激活的烟叶热水可溶物测定方法 |
CN110646403A (zh) * | 2019-10-25 | 2020-01-03 | 陕西中烟工业有限责任公司 | 一种烟用香精香料挥发分总量测定方法 |
CN111795944B (zh) * | 2020-06-30 | 2021-06-25 | 江南大学 | 一种改进团队进步算法的近红外光谱波长筛选方法 |
WO2022001829A1 (zh) * | 2020-06-30 | 2022-01-06 | 江南大学 | 一种改进团队进步算法的近红外光谱波长筛选方法 |
US11340160B2 (en) | 2020-06-30 | 2022-05-24 | Jiangnan University | Method for near-infrared spectral wavelength selection based on improved team progress algorithm |
CN111795944A (zh) * | 2020-06-30 | 2020-10-20 | 江南大学 | 一种改进团队进步算法的近红外光谱波长筛选方法 |
CN111999258B (zh) * | 2020-07-03 | 2022-06-17 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN114199814A (zh) * | 2020-08-28 | 2022-03-18 | 贵州中烟工业有限责任公司 | 一种基于回归系数的近红外定量分析模型更新方法 |
CN114199814B (zh) * | 2020-08-28 | 2024-04-26 | 贵州中烟工业有限责任公司 | 一种基于回归系数的近红外定量分析模型更新方法 |
CN113030010A (zh) * | 2021-03-11 | 2021-06-25 | 贵州省生物技术研究所(贵州省生物技术重点实验室、贵州省马铃薯研究所、贵州省食品加工研究所) | 一种基于逐步缩短步长优中选优的近红外光谱特征波数的筛选方法 |
CN114611582A (zh) * | 2022-02-16 | 2022-06-10 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及系统 |
CN114611582B (zh) * | 2022-02-16 | 2024-05-14 | 温州大学 | 一种基于近红外光谱技术分析物质浓度的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101825567A (zh) | 一种近红外光谱和拉曼光谱波长的筛选方法 | |
CN101430276B (zh) | 光谱分析中波长变量优选的方法 | |
CN103528990A (zh) | 一种近红外光谱的多模型建模方法 | |
CN110455722A (zh) | 橡胶树叶片磷含量高光谱反演方法和系统 | |
CN110531054B (zh) | 基于Bootstrap抽样的土壤有机碳预测不确定性估测方法 | |
CN101915744A (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
CN104062257A (zh) | 一种基于近红外光谱测定溶液中总黄酮含量的方法 | |
CN105486655A (zh) | 基于红外光谱智能鉴定模型的土壤有机质快速检测方法 | |
CN105203498A (zh) | 一种基于lasso的近红外光谱变量选择方法 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
CN108956583A (zh) | 用于激光诱导击穿光谱分析的特征谱线自动选择方法 | |
Fadock et al. | Visible-near infrared reflectance spectroscopy for nondestructive analysis of red wine grapes | |
CN106018331B (zh) | 多通道光谱系统的稳定性评价方法及预处理优化方法 | |
CN106950192A (zh) | 一种基于近红外光谱分析技术的植物蛋白饮料中主要成分含量快速检测的方法 | |
WO2020248961A1 (zh) | 一种无参考值的光谱波数选择方法 | |
CN111693487A (zh) | 基于遗传算法和极限学习机的水果糖度检测方法及系统 | |
CN115993344A (zh) | 一种近红外光谱分析仪质量监测分析系统及方法 | |
CN102128805A (zh) | 果品近红外光谱波长选择和快速定量分析方法及装置 | |
CN104502306B (zh) | 基于变量重要性的近红外光谱波长选择方法 | |
CN111999258A (zh) | 一种面向光谱基线校正的加权建模局部优化方法 | |
CN101788459B (zh) | 一种准连续方式的分光波长组合方法 | |
CN109283153B (zh) | 一种酱油定量分析模型的建立方法 | |
CN107247033B (zh) | 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法 | |
CN107271389B (zh) | 一种基于指标极值的光谱特征变量快速匹配方法 | |
CN109060716A (zh) | 基于窗口竞争性自适应重加权采样策略的近红外特征光谱变量选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100908 |