CN107271389A - 一种基于指标极值的光谱特征变量快速匹配方法 - Google Patents
一种基于指标极值的光谱特征变量快速匹配方法 Download PDFInfo
- Publication number
- CN107271389A CN107271389A CN201710489763.0A CN201710489763A CN107271389A CN 107271389 A CN107271389 A CN 107271389A CN 201710489763 A CN201710489763 A CN 201710489763A CN 107271389 A CN107271389 A CN 107271389A
- Authority
- CN
- China
- Prior art keywords
- variable
- model
- spectrum
- index
- characteristic variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于指标极值的光谱特征变量快速匹配方法。该方法利用简单的线性模型为光谱校正预测模型挑选有效的特征变量。以朗伯比尔定律为基础,对光谱变量集合中的每一个变量(波长)建立一元线性回归模型,以模型预测指标极值为目标,选择峰值和谷值所对应的一元特征变量,并进一步寻找与每一个一元特征变量形成最佳匹配的第二变量,组成离散特征变量集合,利用此特征变量集合建立光谱校正模型能够有效克服简单的线性模型中常出现的光谱共线性问题。该方法具有模型简便、计算量少、遴选自由度大等优点,可推广应用到拉曼、近红外、中红外、紫外光谱分析领域,为设计小型便携式专用光谱仪提出有效的技术支持。
Description
技术领域
本发明属于光谱分析中的模型优化技术领域,具体涉及一种基于指标极值的光谱特征变量快速匹配方法。
背景技术
光谱分析是根据物质的光谱通过定性或定量来确定物质的化学成分及其含量的一种技术。它具有简便快速、非破坏性、实时在线、多成分同时检测等优点,在环境、食品、农业、生物医学等众多领域得到广泛的应用。红外光谱、紫外光谱、拉曼光谱等光谱分析技术的应用首先需要采用相应的光谱仪测量光谱数据。全谱段通用型光谱仪器体型庞大,不便于携带;对于不同对象都不作区分地进行全谱扫描,并不能实现实时在线的快速测定。因此,有必要研发便携式的小型专用光谱仪,这其中涉及的关键技术是如何快速有效地选取高信噪比的光谱波长(特征变量)组合进行建模优化。
由于光谱检测对象通常是包含有多种组分的复杂体系,每一种组分所对应的光谱吸收带各不相同;而光谱测量数据中不同组分的信息往往重叠在一起,特征吸收峰不突出、信息不明显(特别是近红外光谱),所以必须通过模型指标分析,根据建模效果选择不同的波长组成离散波长点组合,通过进一步的优化构建特征波长数据库,为小型便携式光谱分析仪器的设计提供理论基础和技术支持。
光谱测量的波长点很多,以近红外为例,整个近红外波段为780-2526nm(或记为12821-3958cm-1)(ASTM标准),如果波长间隔是0.5nm,那么一共有3493个波长。实验证明,如果通过全谱波长随机任意组合进行全局筛选,其计算复杂度太大,达不到快速检测的效果,而且光谱的共线性问题影响模型预测精度的提高。因此,在全谱段波长变量中有效地选取特征变量组合是实现数据降维的必要途径,特征变量的选取必须趋于离散化波长变量组合,它对于建立高精度分析模型、降低模型复杂性和分光系统的设计等方面具有重要意义。如果能够找到待测组分对应的若干离散特征波长点,线性回归模型也可以得到良好的预测效果。于是,本发明提出了一种基于指标极值的光谱特征变量快速匹配(Speed Matchingof Characteristic Variables based on Extremums, SMCVE)的方法。
发明内容
本发明所要解决的技术问题是为光谱分析提供一种基于指标极值的光谱特征变量快速匹配方法(SMCVE)。该方法能够针对不同的分析对象选择其对应的光谱特征波长组合。
具体步骤为:
步骤一,根据朗伯比尔定律,待测组分的浓度值与其纯光谱的吸光度数据成正比,对光谱的全部变量集合即全谱波长集合中的每一个变量即波长点建立一元线性回归模型。
步骤二,根据模型预测效果绘制模型评价指标曲线,从全谱波长集合中挑选出指标极值对应的若干波长点,从而筛选出了若干个离散特征变量即特征波长,称为一元特征变量。
步骤三,在一元模型的基础上,寻找与一元特征变量能够达到最佳匹配效果的第二变量即第二波长,于是,以每一个一元特征变量作为基本变量,在全谱波长集合中的每一个波长与之组合,建立二元模型,根据模型预测指标极大值或极小值挑选出最优的二元模型所对应的第二波长,称之为最佳匹配变量。
步骤四,经过反复实验,选中所有的一元特征变量和最佳匹配变量,去除重复变量以后组成离散特征变量集合。
所述指标的选择选用预测相关系数谱线R或者预测误差曲线E,寻找预测相关系数谱线R或者预测误差曲线E的极值,即波峰或波谷,以此确定一元特征变量;通过合理选择指标极值,所选的一元特征变量和它们所对应的最佳匹配变量组成的离散特征变量集合将会直接指向该待测组分的特征信息。
本发明方法的优势在于,由于本方法选择的离散特征变量集合在一定程度上反映了待测组分的特征信息,采用离散特征变量集合进行线性、非线性建模有望克服光谱数据中的共线性,进而获得模型预测效果的提高;以线性回归模型为基础,能够大大减低光谱建模的复杂度,计算自由度大幅度提升。且本发明方法计算量少、模型简便、遴选自由度大、定标效果好,可为小型专用分析仪器中分光系统的设计提出有效的解决方案,适用于拉曼(Raman)、近红外(NIR)、中红外(MIR)、紫外(UV)等光谱分析领域,已经在土壤总氮的FT-NIR分析、柚子皮果胶的FT-IR分析、鱼粉蛋白的NIR分析中得到验证。本发明方法能够为光谱分析模型的变量筛选优化过程提高效率。结合待测目标成分的参考浓度值进行建模预测,通过比较校正集样本和预测集样本的内部相关系数,保证快速匹配优选的离散特征变量集合对光谱分析模型具有足够大的贡献率。应用此方法可以为指定待测对象快速优选出合适的离散特征波长组合。在这个意义下,本发明提出的SMCVE方法为光谱分析建模优化提供了快速实现的可能性,并且技术方法简单,容易操作;该方法适用于红外、紫外、拉曼等光谱分析的数据建模优化及模型验证系统,为优选连续波段、离散波长组合,以及原光谱、导数光谱的峰值优选等模型优化的快速实现提供了理论上和技术上的支撑。
附图说明
图1为本发明实施例中基于指标极值的光谱特征变量快速匹配方法的工作流程图,该图以两个一元特征变量为例,表示了SMCVE方法选最佳匹配变量的过程。
图2为本发明实施例中根据指标极值(预测均方根误差曲线的波峰和波谷)挑选一元特征变量的图示。
图3为本发明实施例中一元特征变量对应寻找最佳匹配变量的图示。
图中:全谱段范围是10000-4000cm-1,包含了可见光和近红外谱段,以每一个变量(波长点)的光谱数据结合样本的参考浓度值建立一元回归模型,根据预测结果绘制均方根误差曲线,并找到曲线的峰值和谷值,进一步利用二元校正模型寻找每一个一元特征变量的最佳匹配变量,依此,校正模型始终以寻找特征变量为目标,在一定程度上保证所挑选的特征变量较高的模型贡献度。
具体实施方式
以下实施例将对本发明予以进一步的说明,但并不因此而限制本发明。
实施例:
以土壤总氮的近红外分析为例,共有135个土壤样品,每个样品通过光谱实验测量得到1512个波长变量的光谱值,将样品划分为校正集和预测集,采用本发明的SMCVE方法定量检测土壤样品中的总氮含量,本案例选择使用预测均方根偏差(RMSEP)曲线的极值作为寻找特征变量的目标,具体步骤为:
步骤一,对光谱的全部变量集合(全谱波长集合)中的每一个变量(波长点)建立一元线性回归模型,所得每个波长的一元回归模型的RMSEP曲线如图2所示;步骤二,从图2中挑选RMSEP曲线的波峰和波谷,针对土壤总氮含量定量检测,确定18个一元特征变量;步骤三,以18个一元特征变量作为基本变量,在全谱波长集合中逐个寻找其对应的最佳匹配变量(如图3所示);步骤四,将18个一元特征变量和18个最佳匹配变量组合,去除重复变量,形成离散特征变量集合,共包含32个特征变量。
利用32个离散特征变量的光谱数据作为建模自变量,结合常规化学检测的土壤总氮浓度值,建立光谱校正模型,校正方法采用经典的偏最小二乘法(PLS),所得预测结果和基于全谱段光谱数据的预测结果进行对比,结果见表1。结果表明,采用本发明的基于指标极值的光谱特征变量快速匹配(SMCVE)方法进行校正模型变量筛选,可以找到光谱的特征信息,有效地实现模型降维,降低计算复杂度,同时能够提高模型的预测结果,总体改善近红外的检测能力。
表1 基于SMCVE方法筛选变量建模和基于全谱数据建模的预测结果对比
变量个数 | 预测均方根误差(RMSEP) | 预测相关系数(RP) | |
基于离散特征变量集合的PLS模型 | 32 | 0.0140 | 0.923 |
基于全谱段光谱数据的 PLS模型 | 1512 | 0.0194 | 0.862 |
Claims (1)
1.一种基于指标极值的光谱特征变量快速匹配方法,其特征在于具体步骤为:
步骤一,根据朗伯比尔定律,待测组分的浓度值与其纯光谱的吸光度数据成正比,对光谱的全部变量集合即全谱波长集合中的每一个变量即波长点建立一元线性回归模型;
步骤二,根据模型预测效果绘制模型评价指标曲线,从全谱波长集合中挑选出指标极值对应的若干波长点,从而筛选出了若干个离散特征变量即特征波长,称为一元特征变量;
步骤三,在一元模型的基础上,寻找与一元特征变量能够达到最佳匹配效果的第二变量即第二波长,于是,以每一个一元特征变量作为基本变量,在全谱波长集合中的每一个波长与之组合,建立二元模型,根据模型预测指标极大值或极小值挑选出最优的二元模型所对应的第二波长,称之为最佳匹配变量;
步骤四,经过反复实验,选中所有的一元特征变量和最佳匹配变量,去除重复变量以后组成离散特征变量集合;
所述指标的选择选用预测相关系数谱线R或者预测误差曲线E,寻找预测相关系数谱线R或者预测误差曲线E的极值,即波峰或波谷,以此确定一元特征变量;通过合理选择指标极值,所选的一元特征变量和它们所对应的最佳匹配变量组成的离散特征变量集合将会直接指向该待测组分的特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710489763.0A CN107271389B (zh) | 2017-06-24 | 2017-06-24 | 一种基于指标极值的光谱特征变量快速匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710489763.0A CN107271389B (zh) | 2017-06-24 | 2017-06-24 | 一种基于指标极值的光谱特征变量快速匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107271389A true CN107271389A (zh) | 2017-10-20 |
CN107271389B CN107271389B (zh) | 2019-10-11 |
Family
ID=60069678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710489763.0A Active CN107271389B (zh) | 2017-06-24 | 2017-06-24 | 一种基于指标极值的光谱特征变量快速匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107271389B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145887A (zh) * | 2018-10-23 | 2019-01-04 | 桂林理工大学 | 一种基于光谱潜变量混淆判别的阈值分析方法 |
CN109409350A (zh) * | 2018-10-23 | 2019-03-01 | 桂林理工大学 | 一种基于pca建模反馈式载荷加权的波长选择方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597744A (zh) * | 2009-09-03 | 2012-07-18 | 澳大利亚国家Ict有限公司 | 照明谱恢复 |
CN102819839A (zh) * | 2012-07-19 | 2012-12-12 | 北京市遥感信息研究所 | 多特征多级别的红外与高光谱图像的高精度配准方法 |
CN104751179A (zh) * | 2015-04-01 | 2015-07-01 | 河海大学 | 一种基于博弈论的多目标高光谱遥感影像波段选择方法 |
CN106251310A (zh) * | 2016-08-08 | 2016-12-21 | 长安大学 | 一种多光谱遥感异常信息提取方法 |
CN106529680A (zh) * | 2016-10-27 | 2017-03-22 | 天津工业大学 | 一种基于经验模态分解的多尺度极限学习机集成建模方法 |
CN106709941A (zh) * | 2016-12-07 | 2017-05-24 | 中国工程物理研究院流体物理研究所 | 一种用于光谱影像序列配准的关键点筛选方法 |
-
2017
- 2017-06-24 CN CN201710489763.0A patent/CN107271389B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102597744A (zh) * | 2009-09-03 | 2012-07-18 | 澳大利亚国家Ict有限公司 | 照明谱恢复 |
CN102819839A (zh) * | 2012-07-19 | 2012-12-12 | 北京市遥感信息研究所 | 多特征多级别的红外与高光谱图像的高精度配准方法 |
CN104751179A (zh) * | 2015-04-01 | 2015-07-01 | 河海大学 | 一种基于博弈论的多目标高光谱遥感影像波段选择方法 |
CN106251310A (zh) * | 2016-08-08 | 2016-12-21 | 长安大学 | 一种多光谱遥感异常信息提取方法 |
CN106529680A (zh) * | 2016-10-27 | 2017-03-22 | 天津工业大学 | 一种基于经验模态分解的多尺度极限学习机集成建模方法 |
CN106709941A (zh) * | 2016-12-07 | 2017-05-24 | 中国工程物理研究院流体物理研究所 | 一种用于光谱影像序列配准的关键点筛选方法 |
Non-Patent Citations (2)
Title |
---|
DANIEL A. DALE ET AL: "THE INFRARED SPECTRAL ENERGY DISTRIBUTION OF NORMAL STAR-FORMING GALAXIES: CALIBRATION AT FAR-INFRARED AND SUBMILLIMETER WAVELENGTHS", 《THE ASTROPHYSICAL JOURNAL》 * |
刘振尧 等: "特征峰值投影技术应用于鱼粉蛋白近红外波长优选", 《科学技术与工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145887A (zh) * | 2018-10-23 | 2019-01-04 | 桂林理工大学 | 一种基于光谱潜变量混淆判别的阈值分析方法 |
CN109409350A (zh) * | 2018-10-23 | 2019-03-01 | 桂林理工大学 | 一种基于pca建模反馈式载荷加权的波长选择方法 |
CN109145887B (zh) * | 2018-10-23 | 2022-03-22 | 桂林理工大学 | 一种基于光谱潜变量混淆判别的阈值分析方法 |
CN109409350B (zh) * | 2018-10-23 | 2022-05-31 | 桂林理工大学 | 一种基于pca建模反馈式载荷加权的波长选择方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN111999258B (zh) * | 2020-07-03 | 2022-06-17 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107271389B (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Nondestructive measurement of soluble solids content in apple using near infrared hyperspectral imaging coupled with wavelength selection algorithm | |
Lee et al. | Prediction of crude protein and oil content of soybeans using Raman spectroscopy | |
Luo et al. | Robustness improvement of NIR-based determination of soluble solids in apple fruit by local calibration | |
Liu et al. | Linear and nonlinear multivariate regressions for determination sugar content of intact Gannan navel orange by Vis–NIR diffuse reflectance spectroscopy | |
Xue et al. | Application of particle swarm optimization (PSO) algorithm to determine dichlorvos residue on the surface of navel orange with Vis-NIR spectroscopy | |
Song et al. | Chlorophyll content estimation based on cascade spectral optimizations of interval and wavelength characteristics | |
CN102590129B (zh) | 近红外检测花生中氨基酸含量的方法 | |
CN101825567A (zh) | 一种近红外光谱和拉曼光谱波长的筛选方法 | |
Beghi et al. | Rapid evaluation of grape phytosanitary status directly at the check point station entering the winery by using visible/near infrared spectroscopy | |
Liu et al. | Prediction of soil organic carbon with different parent materials development using visible-near infrared spectroscopy | |
Li et al. | Nondestructive detection of frying times for soybean oil by NIR-spectroscopy technology with Adaboost-SVM (RBF) | |
He et al. | Hyperspectral imaging combined with chemometrics for rapid detection of talcum powder adulterated in wheat flour | |
CN107271389B (zh) | 一种基于指标极值的光谱特征变量快速匹配方法 | |
CN102937575B (zh) | 一种基于二次光谱重组的西瓜糖度快速建模方法 | |
Zhang et al. | Use of signal to noise ratio and area change rate of spectra to evaluate the Visible/NIR spectral system for fruit internal quality detection | |
CN104778349B (zh) | 一种用于水稻表土氮肥施用等级评定方法 | |
Wang et al. | Onsite nutritional diagnosis of tea plants using micro near-infrared spectrometer coupled with chemometrics | |
Liu et al. | Determination of total protein and wet gluten in wheat flour by Fourier transform infrared photoacoustic spectroscopy with multivariate analysis | |
CN102854151B (zh) | 一种光谱分析中样品集划分的化学计量学方法 | |
CN101788459B (zh) | 一种准连续方式的分光波长组合方法 | |
Zhao et al. | Determination of residual levels of procymidone in rapeseed oil using near-infrared spectroscopy combined with multivariate analysis | |
CN107356556A (zh) | 一种近红外光谱定量分析的双集成建模方法 | |
CN107796779A (zh) | 橡胶树叶片氮素含量的近红外光谱诊断方法 | |
Ghosh et al. | Regional soil organic carbon prediction models based on a multivariate analysis of the Mid-infrared hyperspectral data in the middle Indo-Gangetic plains of India | |
CN113049526B (zh) | 一种基于太赫兹衰减全反射的玉米种子水分含量测定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |