CN109063767A - 一种基于样本和变量共识的近红外光谱建模方法 - Google Patents
一种基于样本和变量共识的近红外光谱建模方法 Download PDFInfo
- Publication number
- CN109063767A CN109063767A CN201810857673.7A CN201810857673A CN109063767A CN 109063767 A CN109063767 A CN 109063767A CN 201810857673 A CN201810857673 A CN 201810857673A CN 109063767 A CN109063767 A CN 109063767A
- Authority
- CN
- China
- Prior art keywords
- sample
- variable
- weight coefficient
- matrix
- common recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于样本和变量共识的近红外光谱建模方法,包括以下步骤:选取样本,测定某一有机物的样本参考值,采集该样本的近红外光谱数据并进行预处理,应用自组织神经网络聚类方法将变量分为4类,并分别将每一类与样本参考值合并组成数据矩阵,分别从4个数据矩阵中选取建立预测集和建模集,得到偏最小二乘回归子模型,再采用样本共识算法计算出该模型的权重系数,在对权重系数进行共识计算,从而得到基于样本和变量的近红外光谱模型。本发明的有益效果是利用样本共识方法和变量共识方法充分利用样本和变量的信息,提高近红外光谱数据模型的准确性和鲁棒性,解决样本数据量较少的问题。
Description
技术领域
本发明涉及化学计量学和光谱学领域,特别涉及一种基于样本和变量共识的近红外光谱建模方法。
背景技术
近红外光谱主要来源于有机物含氢官能团的倍频和合频吸收光谱,该光谱信息可以反应样品中有机物分子的结构组成和状态信息。近红外光谱技术作为近年来迅猛发展的一种快速检测技术,具有高效、快速、无损、样本无需预处理、样本无破坏、多成分同时分析、适用样品形态多样(固态、液态、气态)等优点,使得近红外光谱技术在农业食品、石油化工、生物医学等领域得到了广泛的应用。
虽然近红外光谱技术具有上述多种优点,但在实际的应用过程中仍存在以下问题:(1)样本量过少;(2)光谱变量信息未充分利用;(3)单个定量模型的检测精度较低,这些问题使得建立的近红外光谱定量模型预测精度较低。
发明内容
本发明的目的在于,在实际实验或生产过程中出现样本较少和变量信息无法充分利用的情况下,提供一种基于样本和变量共识的近红外光谱的建模方法。
为解决上述技术问题,本发明是通过以下技术方案实现的:一种一种基于样本和变量共识的近红外光谱建模方法,包括以下步骤:
S1,选取n个样本,通过标准化学方法测定某一有机物的样本参考值,记为列向量Y;
S2,采集n个样本的近红外光谱数据,记为矩阵X;
S3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre;
S4,应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y]。
S5,选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到相应s个偏最小二乘回归子模型;
S6,将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归模型预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f1s(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f2s(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f3s(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f4s(x);
S7,分别计算Z1、Z2、Z3和Z4中的s个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的s个子模型权重系数w11、w12、w13……w1s,Z2的s个子模型权重系数w21、w22、w23……w2s,Z3的s个子模型权重系数w31、w32、w33……w3s和Z4的s个子模型权重系数w41、w42、w43……w4s,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
S8,分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
F4(x)=∑kw4kf4k(x);
S9,分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4;
S10,基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
通过上述操作,得到基于样本和变量公式的近红外光谱的定量预测模型F(x)。
进一步的,所述r=0.6,所述s=30。
通过上述操作,得到r和s的最优参数组合,提高模型的准确性。
本发明的有益效果是利用样本共识方法和变量共识方法充分利用样本和变量的信息,提高近红外光谱数据模型的准确性和鲁棒性,解决样本数据量较少的问题。
附图说明
图1为本发明的实施流程图。
具体实施方式
为了使本发明的技术方案更加清楚明白,以下结合附图及实施例,对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1,本发明提供一种基于样本共识的近红外光谱建模方法,下面以玉米样本为例解释本发明,包括以下步骤:
S1:选取80个玉米目标样本,测定玉米的定分含量作为样本参考值,记为列向量Y。
S2:采集80个玉米样本的近红外光谱数据,记为矩阵X,光谱范围为1100-2498nm,间隔为2nm,共700个波段。
S3:对矩阵X进行一阶导数的Savitzky–Golay预处理,记为矩阵Xpre;
S4:应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y]。
S5:选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r=0.6对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到30个偏最小二乘回归子模型;
S6:将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归模型预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f130(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f230(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f330(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f430(x);
S7:分别计算Z1、Z2、Z3和Z4中的30个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的30个子模型权重系数w11、w12、w13……w130,Z2的30个子模型权重系数w21、w22、w23……w230,Z3的30个子模型权重系数w31、w32、w33……w330和Z4的30个子模型权重系数w41、w42、w43……w430,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
S8:分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
F4(x)=∑kw4kf4k(x);
S9:分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4;
S10:基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
对样本选择比例r和重复选择次数s进行正交组合筛选,即计算选择比例r在0.5至0.9和重复选择次数s为10到50次时的条件下的共识模型,而后根据不同参数组合下的模型表现确定最优参数组合,最终确定的最优选择比例r=0.6,选择次数s为30次。
以上实施例仅仅是对本发明的解释,其并不是对本发明的限制,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围,因此本发明专利的保护范围应以权利要求为准。
Claims (2)
1.一种基于样本和变量共识的近红外光谱建模方法,其特征在于包括以下步骤:
步骤1,选取n个样本,其中n为小于100的正整数,通过标准化学方法测定某一有机物的样本参考值,记为列向量Y;
步骤2,采集n个样本的近红外光谱数据,记为矩阵X;
步骤3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre;
步骤4,应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y];
步骤5,选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到s个的偏最小二乘回归子模型;
步骤6,将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归子模型的预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f1s(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f2s(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f3s(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f4s(x);
步骤7,分别计算Z1、Z2、Z3和Z4中的s个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的s个子模型权重系数w11、w12、w13……w1s,Z2的s个子模型权重系数w21、w22、w23……w2s,Z3的s个子模型权重系数w31、w32、w33……w3s和Z4的s个子模型权重系数w41、w42、w43……w4s,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
步骤8,分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
步骤9,分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4;
步骤10,基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
2.根据权利要求1所述的一种基于样本和变量共识的近红外光谱建模方法,其特征在于:所述r=0.6,s=30。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810857673.7A CN109063767B (zh) | 2018-07-31 | 2018-07-31 | 一种基于样本和变量共识的近红外光谱建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810857673.7A CN109063767B (zh) | 2018-07-31 | 2018-07-31 | 一种基于样本和变量共识的近红外光谱建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063767A true CN109063767A (zh) | 2018-12-21 |
CN109063767B CN109063767B (zh) | 2021-12-07 |
Family
ID=64831914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810857673.7A Active CN109063767B (zh) | 2018-07-31 | 2018-07-31 | 一种基于样本和变量共识的近红外光谱建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063767B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111595834A (zh) * | 2020-05-27 | 2020-08-28 | 浙江大学 | 一种桑叶中重金属元素铜的快速定量检测模型的构建方法 |
CN115345239A (zh) * | 2022-08-17 | 2022-11-15 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102072767A (zh) * | 2010-12-23 | 2011-05-25 | 华东交通大学 | 基于波长相似性共识回归红外光谱定量分析方法和装置 |
US20110249261A1 (en) * | 2010-04-09 | 2011-10-13 | Mertens Daniel C | Direct Match Spectrographic Determination of Fuel Properties |
CN102546059A (zh) * | 2012-01-04 | 2012-07-04 | 中国人民解放军理工大学 | 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法 |
CN105426588A (zh) * | 2015-11-05 | 2016-03-23 | 广东药学院 | 一种红外光谱建模工具包及其开发方法和应用 |
US20160161459A1 (en) * | 2013-07-16 | 2016-06-09 | R. Rouse | Apparatus for detection and delivery of volatilized compounds and related methods |
CN108120694A (zh) * | 2016-11-30 | 2018-06-05 | 上海烟草集团有限责任公司 | 用于晒红烟化学成分分析的多元校正方法及系统 |
-
2018
- 2018-07-31 CN CN201810857673.7A patent/CN109063767B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110249261A1 (en) * | 2010-04-09 | 2011-10-13 | Mertens Daniel C | Direct Match Spectrographic Determination of Fuel Properties |
CN102072767A (zh) * | 2010-12-23 | 2011-05-25 | 华东交通大学 | 基于波长相似性共识回归红外光谱定量分析方法和装置 |
CN102546059A (zh) * | 2012-01-04 | 2012-07-04 | 中国人民解放军理工大学 | 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法 |
US20160161459A1 (en) * | 2013-07-16 | 2016-06-09 | R. Rouse | Apparatus for detection and delivery of volatilized compounds and related methods |
CN105426588A (zh) * | 2015-11-05 | 2016-03-23 | 广东药学院 | 一种红外光谱建模工具包及其开发方法和应用 |
CN108120694A (zh) * | 2016-11-30 | 2018-06-05 | 上海烟草集团有限责任公司 | 用于晒红烟化学成分分析的多元校正方法及系统 |
Non-Patent Citations (5)
Title |
---|
OSAMAH ABDULHAMEED ALREZJ等: "Coupling Scatter Correction with bandpass filtering for preprocessing in the quantitative analysis of glucose from near infrared spectra", 《2017 39TH ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC)》 * |
SHAO L等: "Using Multiple Calibration Sets to Improve the Quantitative Accuracy of Partial Least Squares (PLS) Regression on Open-Path Fourier Transform Infrared (OP/FT-IR) Spectra of Ammonia over Wide Concentration Ranges", 《APPLIED SPECTROSCOPY》 * |
刘波平等: "基于PLS-自组织竞争神经网络近红外光谱技术对鲜乳和掺假乳的检测方法研究", 《分析测试学报》 * |
刘科: "共识建模方法在光谱分析中的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
来永杰: "基于SOM聚类变量选择方法的共识模型在近红外光谱数据中的应用", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111595834A (zh) * | 2020-05-27 | 2020-08-28 | 浙江大学 | 一种桑叶中重金属元素铜的快速定量检测模型的构建方法 |
CN111595834B (zh) * | 2020-05-27 | 2021-05-04 | 浙江大学 | 一种桑叶中重金属元素铜的快速定量检测模型的构建方法 |
CN115345239A (zh) * | 2022-08-17 | 2022-11-15 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN115345239B (zh) * | 2022-08-17 | 2023-10-13 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN117171566A (zh) * | 2022-08-17 | 2023-12-05 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
CN117171566B (zh) * | 2022-08-17 | 2024-05-10 | 无锡迅杰光远科技有限公司 | 样品含量识别方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109063767B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103528990B (zh) | 一种近红外光谱的多模型建模方法 | |
Grabarnik et al. | Correct testing of mark independence for marked point patterns | |
Schuhfried et al. | Classification of 7 monofloral honey varieties by PTR-ToF-MS direct headspace analysis and chemometrics | |
CN110455722A (zh) | 橡胶树叶片磷含量高光谱反演方法和系统 | |
CN105158200B (zh) | 一种提高近红外光谱定性分析准确度的建模方法 | |
CN105117525B (zh) | Bagging极限学习机集成建模方法 | |
Zhao et al. | An improved independent component regression modeling and quantitative calibration procedure | |
CN109740631B (zh) | 基于对象的obia-svm-cnn遥感影像分类方法 | |
Jiang et al. | Qualitative and quantitative analysis in solid-state fermentation of protein feed by FT-NIR spectroscopy integrated with multivariate data analysis | |
CN111198165A (zh) | 一种基于光谱数据标准化进行水质参数的测定方法 | |
CN109063767A (zh) | 一种基于样本和变量共识的近红外光谱建模方法 | |
CN112289391A (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
Zhao et al. | Determination of quality and maturity of processing tomatoes using near-infrared hyperspectral imaging with interpretable machine learning methods | |
CN112651173B (zh) | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统 | |
CN109145403A (zh) | 一种基于样本共识的近红外光谱建模方法 | |
Goh et al. | Time evolution of entropy in a growth model: Dependence on the description | |
CN113610817B (zh) | 一种特征峰识别方法及计算设备、存储介质 | |
CN105092509A (zh) | 一种基于pcr-elm算法的样品成份测定方法 | |
Huang et al. | A segmented PLS method based on genetic algorithm | |
He et al. | An active learning representative subset selection method using net analyte signal | |
CN118518625B (zh) | 用于鲜玉米全株关键营养参数近红外建模的预处理方法 | |
CN113379002B (zh) | 一种基于深度偏最小二乘模型的工业软测量方法 | |
CN116952893B (zh) | 一种近红外检测猪粪堆肥过程中的腐殖化程度的方法 | |
CN116429721B (zh) | 一种基于mpa框架的松子近红外光谱波段选择方法 | |
WO2017169444A1 (ja) | 溶液分析システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |