CN105158200B - 一种提高近红外光谱定性分析准确度的建模方法 - Google Patents
一种提高近红外光谱定性分析准确度的建模方法 Download PDFInfo
- Publication number
- CN105158200B CN105158200B CN201510418591.9A CN201510418591A CN105158200B CN 105158200 B CN105158200 B CN 105158200B CN 201510418591 A CN201510418591 A CN 201510418591A CN 105158200 B CN105158200 B CN 105158200B
- Authority
- CN
- China
- Prior art keywords
- training set
- spectrum
- desired value
- matrix
- near infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
一种提高近红外光谱定性分析准确度的建模方法,把采集的近红外光谱及对应的类别目标值分成训练集和预测集;用经验模态分解(EMD)对训练集光谱进行分解;将分解得到的IMFs以及残差矩阵按频率高低分为高频和低频两个矩阵;把这两个矩阵沿变量方向扩展为增广矩阵;将单列多类的类别目标值用转化为多列两类的目标值矩阵;在增广矩阵与多列目标值之间分别建立模型;对预测集光谱以及目标值进行与预测集光谱及目标值同样处理后代入模型中预测;最后将多列两类的预测目标值矩阵转化为单列多类的预测值向量。该方法将光谱通过经验模态分解展开为增广矩阵,使定性分析的准确率大幅提高。本发明适用于分析化学领域。
Description
技术领域
本发明属于分析化学领域的无损分析技术,具体涉及一种提高近红外光谱定性分析准确度的建模方法。
背景技术
近红外光谱(NIR)是近年来分析化学领域迅猛发展的无损分析技术,与传统分析技术相比,近红外光谱分析技术具有诸多优点,它能在几分钟内,仅通过对被测样品完成一次近红外光谱的采集测量,即可完成其多项性能指标的测定;光谱测量时不需要对分析样品进行前处理;分析过程中不消耗其它材料或破坏样品;分析重现性好、成本低。因此在农业、石化、医疗等行业等领域得到了广泛应用。然而由于近红外光谱信号较弱,有用信息经常与背景和噪声信息迭生,谱峰重叠严重,必须借助化学计量学方法才能进行定性定量分析。因此,化学计量学方法已成为近红外光谱分析中的热点。
化学模式识别是化学计量学的一个重要内容,借助化学模式识别方法来建立近红外光谱与类别信息的数学模型,对于未知样品代入模型中进行预测。常用的化学模式识别方法有聚类分析、主成分分析、偏最小二乘-判别分析(PLS-DA)、支持向量机(SVM)、人工神经网络(ANN)等方法。但是传统的化学模式识别方法采用单一的模型,当样本数较少或者奇异样本存在时模型的预测效果较差。因此发展了多模型建模方法,即对原始数据采用一定的取样方式建立多个子模型,再将多个子模型的预测结果融合得到一个最终结果。多模型建模能有效地减少单个模型中随机因素的影响,因而可以达到更好的预测准确度、稳定性与稳健性。但是bagging、boosting等常用的多模型建模方法只考虑了不同的取样方式,如从样本方向或者从变量方向取样,每个样品信号还是作为一个整体使用。由于每条光谱信号构成复杂,除有用信息外还存在背景、噪声等干扰信息。因此,如果采用一定的信号分解方法对信号进行分解,对分解后的信号建立模型,更能合理有效地利用数据的信息。
小波变换是一种性能优良的信号分解方法,通过小波变换,可以将光谱分解成不同频率成分。权重多尺度回归(Z.C.Liu,W.S.Cai,X.G.Shao,A weighted multiscaleregression for multivariate calibration of near infrared spectra,Analyst,2009,134:261-266)就是将小波分解后的不同频率成分分别建立PLSR模型,不同模型结果加权集成得到最终结果。然而光谱信号具有非稳态、非线性的特点,小波变换虽然在理论上能处理非线性非平稳信号,然而实际算法实现中却只能处理线性非平稳信号。小波变换存在的另一个问题是需要预先选定小波基以及分解尺度等参数,选择不同的小波基或分解尺度可能产生不同的处理结果,对一组数据最优的参数换一组数据还需要重新优化参数,因此,参数的选择是难点。1998年,美籍华人N.E.Huang等人提出了经验模态分解(EmpiricalMode Decomposition,简称EMD)法,通过EMD,可以将信号完全自适应地分解成从高频到低频排列的有限个固有模态函数(IMF)以及残差项,非常适用于非线性非平稳信号的分析。所以,EMD方法一经提出就得到了广泛关注,目前已应用在生物医学信号分析、桥梁和建筑物状况监测分析、非平稳海洋数据分析等领域,但是该方法在光谱建模领域的研究还较少。
因此,本发明利用EMD的优势,建立一种基于EMD的高低频展开的定性建模方法,以提高单一模型预测正确率。
发明内容
本发明目的是针对上述存在问题,提供一种提高近红外光谱定性分析模型预测准确度的方法,过程如图1所示。该方法通过对原始光谱信号进行EMD分解、扩展,再建立模型,可以提高单一模型预测准确度。
为实现本发明所提供的技术方案包括以下步骤:
1)数据采集
收集一定数目的分析物样本,采集样本的近红外光谱数据,通过标准方法确定样本的类别信息作为目标值。
2)数据分组
每类样本采用KS分组方法分成训练集和预测集两部分,将所有类的训练集和预测集集合并为总的训练集和预测集。其中训练集样本用来建立模型并优化参数,预测集样本用来检验模型的预测能力。
3)训练集光谱EMD扩展矩阵的生成
将训练集光谱通过EMD展开为训练集增广矩阵,具体步骤如下:
①EMD分解,每条光谱得到一定数目的IMFs向量以及一个残差向量rn。所有训练集的光谱就构成一定数目的IMFs矩阵以及一个残差矩阵。
②根据EMD分解得到的IMFs以及残差图,将上述的IMF分量按频率高低合并为高频和低频两个矩阵:把前i个IMFs矩阵合并成为高频矩阵;剩余IMFs以及残差信息合并成为低频矩阵。
③将高频矩阵和低频矩阵在变量方向扩展为训练集增广矩阵。
4)训练集目标值处理
将单列多类的训练集目标值通过0,1的方式扩展为多列(列数与类别数相等)两类的训练集目标值矩阵。即原始训练集目标值如果有p类,那么用p个0,1数字来表示每个样本的目标值,其中第i个样本属于第j类,那么表示第i个样本的向量除了第j个数值为1外,其它p-1个数值都为0。
5)模型构建
采用基础建模方法在训练集增广矩阵和每列目标值之间分别建立定性分析模型。偏最小二乘-判别分析(PLS-DA),支持向量机(SVM)、人工神经网络(ANN)等基础建模方法都可以使用。
6)未知样品预测
对预测集光谱以及目标值分别进行与3)、4)同样的处理方法,代入到步骤5)所建立的模型进行预测,得到p个预测目标值向量。将p个目标值向量经过与步骤4)相反的过程得到预测集样本所属类别的1个预测目标值向量。
本发明的优点是:该方法通过引入经验模态分解,无需选择参数,可以自适应地对非线性非稳态的近红外光谱进行分解,在分解后的扩展信号与目标值之间建立定性模型,提高了传统模型的预测准确度,为近红外光谱定性分析提供了一种新的建模思路,具有较高的实用价值。
附图说明
图1是基于经验模态分解的建模流程图。
图2是训练集的样本1进行EMD分解得到的5个IMFs以及残差图。
具体实施方式
为更好理解本发明,下面结合实施例对本发明做进一步地详细说明,但是本发明要求保护的范围并不局限于实施例表示的范围。
实施例:
1)数据采集
从不同超市购买海河三种不同价位的牛奶,分别为袋装特优利乐、盒装利乐及盒装特优牛奶,每个价位20个样品,共60个样品。使用便携式激光近红外光谱仪(XL-410,美国Axsun科技公司)采集60个牛奶样品的近红外光谱,波长范围1350-1800nm,采样间隔0.5nm,变量数为901。
2)数据分组
对三类牛奶样品的每一类都分别进行KS分组,其中2/3样品作为训练集(每类13个样品为训练集),1/3样品作为预测集(每类7个样品为预测集)。再将每类的训练集样本和预测集样本合并,得到训练集样品39个,用来建立模型并优化参数;预测集样品21个,用来检验模型的预测能力。
3)训练集光谱EMD扩展矩阵的生成
将39个训练集光谱通过EMD展开为训练集增广矩阵,具体步骤如下:
①EMD分解,每条光谱得到5个IMFs向量以及一个残差向量rn。39个训练集的光谱就构成5个IMFs矩阵以及1个残差矩阵。
②根据EMD分解得到的IMFs以及残差图,如图2所示。从图中可以明显看出,前3个IMF为高频分量,后面IMF为低频分量。因此,把前3个IMFs矩阵合并成为高频矩阵;剩余IMFs以及残差矩阵合并成为低频矩阵。
③将高频矩阵和低频矩阵在变量方向扩展为训练集增广矩阵。
4)训练集目标值处理
将单列3类的训练集目标值通过0,1的方式扩展为3列(列数与类别数相等)两类的训练集目标值矩阵。即原始训练集目标值有3类,那么用3个0,1数字来表示每个样本的目标值,其中第i个样本属于第j类,那么表示第i个样本的向量除了第j个数值为1外,其它2个数值都为0。
5)模型构建
采用偏最小二乘-判别分析(PLS-DA)建模方法在训练集增广矩阵和每列目标值之间分别建立判别分析模型。
6)未知样品预测
对预测集光谱以及目标值分别进行与3)、4)同样的处理方法,代入到步骤5)所建立的模型进行预测,得到21个预测目标值向量。将3个目标值向量经过与步骤3)相反的过程得到预测集样本所属类别的1个预测目标值向量。
利用传统PLS-DA方法对三种价位牛奶进行鉴别,其预测正确率为85.71%,相关系数R为0.9562;而通过本发明提出的方法对牛奶进行鉴别,其预测正确率为95.24%,相关系数R为0.9861。通过比较可以看出,该方法可以提高近红外光谱对牛奶样品进行鉴别的准确度。
Claims (4)
1.一种提高近红外光谱定性分析准确度的建模方法,其特征在于:
1)数据采集;
2)数据分组;
3)训练集光谱EMD扩展矩阵的生成:①对每条光谱进行EMD分解,得到一定数目的IMFs向量以及一个残差向量rn;所有训练集的光谱都经过EMD分解就构成一定数目的IMFs矩阵以及一个残差矩阵;②其次,根据EMD分解得到的IMFs以及残差图,将上述的IMF分量按频率高低合并为高频和低频两个矩阵:把前i个IMFs矩阵合并成为高频矩阵;剩余IMFs以及残差信息合并成为低频矩阵;③将高频矩阵和低频矩阵在变量方向扩展为训练集光谱EMD扩展矩阵;
4)训练集目标值处理;
5)模型构建;
6)未知样品预测。
2.根据权利要求1所述的提高近红外光谱定性分析准确度的建模方法,其特征在于:步骤2)的数据分组方法为:每类样本采用KS分组方法分成训练集和预测集两部分,将所有类的训练集和预测集集合并为总的训练集和预测集。
3.根据权利要求1所述的提高近红外光谱定性分析准确度的建模方法,其特征在于:步骤4)的训练集目标值处理方法为:原始训 练集目标值如果有p类,那么用p个0,1数字来表示每个样本的目标值,其中第i个样本属于第j类,那么表示第i个样本的向量除了第j个数值为1外,其它p-1个数值都为0。
4.根据权利要求1所述的提高近红外光谱定性分析准确度的建模方法,其特征在于:步骤5)所述的模型构建的方法包括偏最小二乘-判别分析(PLS-DA)、支持向量机(SVM)、人工神经网络(ANN)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510418591.9A CN105158200B (zh) | 2015-07-16 | 2015-07-16 | 一种提高近红外光谱定性分析准确度的建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510418591.9A CN105158200B (zh) | 2015-07-16 | 2015-07-16 | 一种提高近红外光谱定性分析准确度的建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105158200A CN105158200A (zh) | 2015-12-16 |
CN105158200B true CN105158200B (zh) | 2017-09-29 |
Family
ID=54799135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510418591.9A Active CN105158200B (zh) | 2015-07-16 | 2015-07-16 | 一种提高近红外光谱定性分析准确度的建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105158200B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105651727B (zh) * | 2015-12-28 | 2018-06-12 | 中国计量学院 | 基于jade和elm的近红外光谱分析鉴别苹果货架期的方法 |
CN106529680B (zh) * | 2016-10-27 | 2019-01-29 | 天津工业大学 | 一种基于经验模态分解的多尺度极限学习机集成建模方法 |
CN107727592B (zh) * | 2017-10-10 | 2020-10-09 | 中国矿业大学 | 一种基于煤岩高光谱反射特性的煤岩界面识别方法 |
CN109668856B (zh) * | 2017-10-17 | 2021-06-11 | 中国石油化工股份有限公司 | 预测lco加氢原料与产物的烃族组成的方法和装置 |
CN109668854B (zh) * | 2017-10-17 | 2021-06-11 | 中国石油化工股份有限公司 | 预测lco加氢原料与产物的烃族组成的方法和装置 |
CN109883990B (zh) * | 2019-02-28 | 2021-07-06 | 吉林大学 | 一种药用真菌近红外光谱分析方法 |
CN110702806A (zh) * | 2019-09-09 | 2020-01-17 | 米津锐 | 一种逆向工程动态解析方法 |
CN116818739A (zh) * | 2023-08-29 | 2023-09-29 | 天津博霆光电技术有限公司 | 一种基于光学的吲哚菁绿检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1992939A1 (en) * | 2007-05-16 | 2008-11-19 | National University of Ireland, Galway | A kernel-based method and apparatus for classifying materials or chemicals and for quantifying the properties of materials or chemicals in mixtures using spectroscopic data. |
CN101694460A (zh) * | 2009-10-16 | 2010-04-14 | 东南大学 | 烟气污染物浓度的自适应差分吸收光谱测量方法及装置 |
CN103472008A (zh) * | 2013-08-30 | 2013-12-25 | 黑龙江八一农垦大学 | 孵化前期近红外种蛋内鸡胚性别识别方法 |
CN103750845A (zh) * | 2014-01-06 | 2014-04-30 | 西安交通大学 | 一种自动去除近红外光谱信号运动伪迹的方法 |
-
2015
- 2015-07-16 CN CN201510418591.9A patent/CN105158200B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1992939A1 (en) * | 2007-05-16 | 2008-11-19 | National University of Ireland, Galway | A kernel-based method and apparatus for classifying materials or chemicals and for quantifying the properties of materials or chemicals in mixtures using spectroscopic data. |
CN101694460A (zh) * | 2009-10-16 | 2010-04-14 | 东南大学 | 烟气污染物浓度的自适应差分吸收光谱测量方法及装置 |
CN103472008A (zh) * | 2013-08-30 | 2013-12-25 | 黑龙江八一农垦大学 | 孵化前期近红外种蛋内鸡胚性别识别方法 |
CN103750845A (zh) * | 2014-01-06 | 2014-04-30 | 西安交通大学 | 一种自动去除近红外光谱信号运动伪迹的方法 |
Non-Patent Citations (3)
Title |
---|
High and low frequency unfolded partial least squares regression based on empirical mode decomposition for quantitative analysis of fuel oil samples;Xihui Bian et al.;《Analytica Chimica Acta》;20160425;第925卷;第16-22页 * |
Wavelet unfolded partial least squares for near-infrared spectral quantitative analysis of blood and tobacco powder samples;Min Zhang et al.;《Analyst》;20111231;第136卷;第4217–4221页 * |
基于经验模态分解的近红外光谱预处理方法;蔡剑华 等;《光学学报》;20100131;第30卷(第1期);第267-271页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105158200A (zh) | 2015-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105158200B (zh) | 一种提高近红外光谱定性分析准确度的建模方法 | |
Ni et al. | Variable weighted convolutional neural network for the nitrogen content quantization of Masson pine seedling leaves with near-infrared spectroscopy | |
Dyar et al. | Comparison of baseline removal methods for laser-induced breakdown spectroscopy of geological samples | |
CN109324013B (zh) | 利用高斯过程回归模型构建原油性质近红外快速分析方法 | |
CN101915744A (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
CN109409350B (zh) | 一种基于pca建模反馈式载荷加权的波长选择方法 | |
CN104020127A (zh) | 一种利用近红外光谱快速测量烟叶中无机元素的方法 | |
CN101413884B (zh) | 近红外光谱分析仪及其分辨率的校正方法 | |
CN207198034U (zh) | 太赫兹光谱分析系统及设备 | |
CN107515202A (zh) | 太赫兹光谱分析方法、系统及设备 | |
CN103955711B (zh) | 一种成像光谱目标识别分析中的模式识别方法 | |
Ruan et al. | A novel hybrid filter/wrapper method for feature selection in archaeological ceramics classification by laser-induced breakdown spectroscopy | |
Lei et al. | Achieving joint calibration of soil Vis-NIR spectra across instruments, soil types and properties by an attention-based spectra encoding-spectra/property decoding architecture | |
CN115436407A (zh) | 一种随机森林回归结合主成分分析的元素含量定量分析方法 | |
Tan et al. | Mutual information-induced interval selection combined with kernel partial least squares for near-infrared spectral calibration | |
Li et al. | Improvement of NIR prediction ability by dual model optimization in fusion of NSIA and SA methods | |
Du et al. | Quantitative detection of azodicarbonamide in wheat flour by near-infrared spectroscopy based on two-step feature selection | |
CN106529680B (zh) | 一种基于经验模态分解的多尺度极限学习机集成建模方法 | |
Wei et al. | Confocal Raman microspectroscopy combined with spectral screening algorithms for quantitative analysis of starch in rice | |
Xia et al. | Non-destructive analysis the dating of paper based on convolutional neural network | |
Yu et al. | When process analysis technology meets transfer learning: A model transfer strategy between different spectrometers for quantitative analysis | |
CN113295674B (zh) | 一种基于s变换的激光诱导击穿光谱特征非线性处理方法 | |
Bi et al. | Apple internal quality fusion prediction by multi-pattern recognition technology and evidence theory | |
Bertsimas et al. | Novel mixed integer optimization sparse regression approach in chemometrics | |
Huang | Linear calibration methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210906 Address after: 621000 Room 301, Mianyang export processing zone, No. 261, east section of Feiyun Avenue, Mianyang high tech Zone, Mianyang City, Sichuan Province Patentee after: Sichuan sfitek Scientific Instrument Co.,Ltd. Address before: No. 399 Bingshui Road, Xiqing District, Tianjin, Tianjin Patentee before: TIANJIN POLYTECHNIC University Patentee before: TIANJIN GREEN SECURITY TECHNOLOGY Co.,Ltd. |