CN109063767A - 一种基于样本和变量共识的近红外光谱建模方法 - Google Patents

一种基于样本和变量共识的近红外光谱建模方法 Download PDF

Info

Publication number
CN109063767A
CN109063767A CN201810857673.7A CN201810857673A CN109063767A CN 109063767 A CN109063767 A CN 109063767A CN 201810857673 A CN201810857673 A CN 201810857673A CN 109063767 A CN109063767 A CN 109063767A
Authority
CN
China
Prior art keywords
sample
variable
weight coefficient
matrix
common recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810857673.7A
Other languages
English (en)
Other versions
CN109063767B (zh
Inventor
陈孝敬
李理敏
石文
袁雷明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201810857673.7A priority Critical patent/CN109063767B/zh
Publication of CN109063767A publication Critical patent/CN109063767A/zh
Application granted granted Critical
Publication of CN109063767B publication Critical patent/CN109063767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于样本和变量共识的近红外光谱建模方法,包括以下步骤:选取样本,测定某一有机物的样本参考值,采集该样本的近红外光谱数据并进行预处理,应用自组织神经网络聚类方法将变量分为4类,并分别将每一类与样本参考值合并组成数据矩阵,分别从4个数据矩阵中选取建立预测集和建模集,得到偏最小二乘回归子模型,再采用样本共识算法计算出该模型的权重系数,在对权重系数进行共识计算,从而得到基于样本和变量的近红外光谱模型。本发明的有益效果是利用样本共识方法和变量共识方法充分利用样本和变量的信息,提高近红外光谱数据模型的准确性和鲁棒性,解决样本数据量较少的问题。

Description

一种基于样本和变量共识的近红外光谱建模方法
技术领域
本发明涉及化学计量学和光谱学领域,特别涉及一种基于样本和变量共识的近红外光谱建模方法。
背景技术
近红外光谱主要来源于有机物含氢官能团的倍频和合频吸收光谱,该光谱信息可以反应样品中有机物分子的结构组成和状态信息。近红外光谱技术作为近年来迅猛发展的一种快速检测技术,具有高效、快速、无损、样本无需预处理、样本无破坏、多成分同时分析、适用样品形态多样(固态、液态、气态)等优点,使得近红外光谱技术在农业食品、石油化工、生物医学等领域得到了广泛的应用。
虽然近红外光谱技术具有上述多种优点,但在实际的应用过程中仍存在以下问题:(1)样本量过少;(2)光谱变量信息未充分利用;(3)单个定量模型的检测精度较低,这些问题使得建立的近红外光谱定量模型预测精度较低。
发明内容
本发明的目的在于,在实际实验或生产过程中出现样本较少和变量信息无法充分利用的情况下,提供一种基于样本和变量共识的近红外光谱的建模方法。
为解决上述技术问题,本发明是通过以下技术方案实现的:一种一种基于样本和变量共识的近红外光谱建模方法,包括以下步骤:
S1,选取n个样本,通过标准化学方法测定某一有机物的样本参考值,记为列向量Y;
S2,采集n个样本的近红外光谱数据,记为矩阵X;
S3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre
S4,应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y]。
S5,选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到相应s个偏最小二乘回归子模型;
S6,将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归模型预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f1s(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f2s(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f3s(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f4s(x);
S7,分别计算Z1、Z2、Z3和Z4中的s个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的s个子模型权重系数w11、w12、w13……w1s,Z2的s个子模型权重系数w21、w22、w23……w2s,Z3的s个子模型权重系数w31、w32、w33……w3s和Z4的s个子模型权重系数w41、w42、w43……w4s,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
S8,分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
F4(x)=∑kw4kf4k(x);
S9,分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4
S10,基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
通过上述操作,得到基于样本和变量公式的近红外光谱的定量预测模型F(x)。
进一步的,所述r=0.6,所述s=30。
通过上述操作,得到r和s的最优参数组合,提高模型的准确性。
本发明的有益效果是利用样本共识方法和变量共识方法充分利用样本和变量的信息,提高近红外光谱数据模型的准确性和鲁棒性,解决样本数据量较少的问题。
附图说明
图1为本发明的实施流程图。
具体实施方式
为了使本发明的技术方案更加清楚明白,以下结合附图及实施例,对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参考图1,本发明提供一种基于样本共识的近红外光谱建模方法,下面以玉米样本为例解释本发明,包括以下步骤:
S1:选取80个玉米目标样本,测定玉米的定分含量作为样本参考值,记为列向量Y。
S2:采集80个玉米样本的近红外光谱数据,记为矩阵X,光谱范围为1100-2498nm,间隔为2nm,共700个波段。
S3:对矩阵X进行一阶导数的Savitzky–Golay预处理,记为矩阵Xpre
S4:应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y]。
S5:选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r=0.6对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到30个偏最小二乘回归子模型;
S6:将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归模型预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f130(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f230(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f330(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f430(x);
S7:分别计算Z1、Z2、Z3和Z4中的30个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的30个子模型权重系数w11、w12、w13……w130,Z2的30个子模型权重系数w21、w22、w23……w230,Z3的30个子模型权重系数w31、w32、w33……w330和Z4的30个子模型权重系数w41、w42、w43……w430,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
S8:分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
F4(x)=∑kw4kf4k(x);
S9:分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4
S10:基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
对样本选择比例r和重复选择次数s进行正交组合筛选,即计算选择比例r在0.5至0.9和重复选择次数s为10到50次时的条件下的共识模型,而后根据不同参数组合下的模型表现确定最优参数组合,最终确定的最优选择比例r=0.6,选择次数s为30次。
以上实施例仅仅是对本发明的解释,其并不是对本发明的限制,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围,因此本发明专利的保护范围应以权利要求为准。

Claims (2)

1.一种基于样本和变量共识的近红外光谱建模方法,其特征在于包括以下步骤:
步骤1,选取n个样本,其中n为小于100的正整数,通过标准化学方法测定某一有机物的样本参考值,记为列向量Y;
步骤2,采集n个样本的近红外光谱数据,记为矩阵X;
步骤3,对矩阵X选用一阶导数、二阶导数、矢量归一化、多远散射校正或平滑处理中的一种或多种方法进行预处理,记为矩阵Xpre
步骤4,应用自组织神经网络聚类方法将Xpre中的变量聚为4类,分别为V1、V2、V3、V4,并分别与样本参考值Y进行合并组成数据矩阵Z1=[V1Y]、Z2=[V2Y]、Z3=[V3Y]和Z4=[V4Y];
步骤5,选取矩阵Z1中n/4样本作为预测集Z1p,按照选择比例r对矩阵Z1中剩余的3n/4的样本数据进行s次随机选取,得到s个矩阵Z1c;以Z1p为预测集,分别以s个Z1c为建模集,建立基于数据矩阵Z1的s个偏最小二乘回归子模型;同理对数据矩阵Z2、Z3和Z4进行相同的操作,分别得到s个的偏最小二乘回归子模型;
步骤6,将样本数据分别代入得到的偏最小二乘回归子模型,计算出Z1的偏最小二乘回归子模型的预测值向量f11(x)、f12(x)、f13(x)…f1k(x)…f1s(x),Z2的预测值向量f21(x)、f22(x)、f23(x)…f2k(x)…f2s(x),Z3的预测值向量f31(x)、f32(x)、f33(x)…f3k(x)…f3s(x),Z4的预测值向量f41(x)、f42(x)、f43(x)…f4k(x)…f4s(x);
步骤7,分别计算Z1、Z2、Z3和Z4中的s个偏最小二乘回归子模型预测值与测定参考值之间的误差,再应用共识算法分别计算出Z1的s个子模型权重系数w11、w12、w13……w1s,Z2的s个子模型权重系数w21、w22、w23……w2s,Z3的s个子模型权重系数w31、w32、w33……w3s和Z4的s个子模型权重系数w41、w42、w43……w4s,权重系数w的共识算法的计算公式为:
其中f1k(x)、f2k(x)、f3k(x)和f4k(x)为步骤6中计算出的预测结果;
步骤8,分别用Z1、Z2、Z3和Z4的子模型权重系数对子模型进行共识计算,得到定量模型F1(x)、F2(x)、F3(x)和F4(x),共识计算方法为:
步骤9,分别计算F1(x)、F2(x)、F3(x)和F4(x)预测值与参考值之间的误差,并再次利用共识模型的算法计算出4个定量模型的权重系数W1、W2、W3、W4
步骤10,基于权重系数W1、W2、W3、W4对4个定量模型F1(x)、F2(x)、F3(x)和F4(x)进行变量共识,建立最终的定量预测模型F(x)。
2.根据权利要求1所述的一种基于样本和变量共识的近红外光谱建模方法,其特征在于:所述r=0.6,s=30。
CN201810857673.7A 2018-07-31 2018-07-31 一种基于样本和变量共识的近红外光谱建模方法 Active CN109063767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810857673.7A CN109063767B (zh) 2018-07-31 2018-07-31 一种基于样本和变量共识的近红外光谱建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810857673.7A CN109063767B (zh) 2018-07-31 2018-07-31 一种基于样本和变量共识的近红外光谱建模方法

Publications (2)

Publication Number Publication Date
CN109063767A true CN109063767A (zh) 2018-12-21
CN109063767B CN109063767B (zh) 2021-12-07

Family

ID=64831914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810857673.7A Active CN109063767B (zh) 2018-07-31 2018-07-31 一种基于样本和变量共识的近红外光谱建模方法

Country Status (1)

Country Link
CN (1) CN109063767B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595834A (zh) * 2020-05-27 2020-08-28 浙江大学 一种桑叶中重金属元素铜的快速定量检测模型的构建方法
CN115345239A (zh) * 2022-08-17 2022-11-15 无锡迅杰光远科技有限公司 样品含量识别方法、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102072767A (zh) * 2010-12-23 2011-05-25 华东交通大学 基于波长相似性共识回归红外光谱定量分析方法和装置
US20110249261A1 (en) * 2010-04-09 2011-10-13 Mertens Daniel C Direct Match Spectrographic Determination of Fuel Properties
CN102546059A (zh) * 2012-01-04 2012-07-04 中国人民解放军理工大学 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法
CN105426588A (zh) * 2015-11-05 2016-03-23 广东药学院 一种红外光谱建模工具包及其开发方法和应用
US20160161459A1 (en) * 2013-07-16 2016-06-09 R. Rouse Apparatus for detection and delivery of volatilized compounds and related methods
CN108120694A (zh) * 2016-11-30 2018-06-05 上海烟草集团有限责任公司 用于晒红烟化学成分分析的多元校正方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110249261A1 (en) * 2010-04-09 2011-10-13 Mertens Daniel C Direct Match Spectrographic Determination of Fuel Properties
CN102072767A (zh) * 2010-12-23 2011-05-25 华东交通大学 基于波长相似性共识回归红外光谱定量分析方法和装置
CN102546059A (zh) * 2012-01-04 2012-07-04 中国人民解放军理工大学 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法
US20160161459A1 (en) * 2013-07-16 2016-06-09 R. Rouse Apparatus for detection and delivery of volatilized compounds and related methods
CN105426588A (zh) * 2015-11-05 2016-03-23 广东药学院 一种红外光谱建模工具包及其开发方法和应用
CN108120694A (zh) * 2016-11-30 2018-06-05 上海烟草集团有限责任公司 用于晒红烟化学成分分析的多元校正方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
OSAMAH ABDULHAMEED ALREZJ等: "Coupling Scatter Correction with bandpass filtering for preprocessing in the quantitative analysis of glucose from near infrared spectra", 《2017 39TH ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC)》 *
SHAO L等: "Using Multiple Calibration Sets to Improve the Quantitative Accuracy of Partial Least Squares (PLS) Regression on Open-Path Fourier Transform Infrared (OP/FT-IR) Spectra of Ammonia over Wide Concentration Ranges", 《APPLIED SPECTROSCOPY》 *
刘波平等: "基于PLS-自组织竞争神经网络近红外光谱技术对鲜乳和掺假乳的检测方法研究", 《分析测试学报》 *
刘科: "共识建模方法在光谱分析中的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
来永杰: "基于SOM聚类变量选择方法的共识模型在近红外光谱数据中的应用", 《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595834A (zh) * 2020-05-27 2020-08-28 浙江大学 一种桑叶中重金属元素铜的快速定量检测模型的构建方法
CN111595834B (zh) * 2020-05-27 2021-05-04 浙江大学 一种桑叶中重金属元素铜的快速定量检测模型的构建方法
CN115345239A (zh) * 2022-08-17 2022-11-15 无锡迅杰光远科技有限公司 样品含量识别方法、装置和存储介质
CN115345239B (zh) * 2022-08-17 2023-10-13 无锡迅杰光远科技有限公司 样品含量识别方法、装置和存储介质
CN117171566A (zh) * 2022-08-17 2023-12-05 无锡迅杰光远科技有限公司 样品含量识别方法、装置和存储介质
CN117171566B (zh) * 2022-08-17 2024-05-10 无锡迅杰光远科技有限公司 样品含量识别方法、装置和存储介质

Also Published As

Publication number Publication date
CN109063767B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN103528990B (zh) 一种近红外光谱的多模型建模方法
Grabarnik et al. Correct testing of mark independence for marked point patterns
Schuhfried et al. Classification of 7 monofloral honey varieties by PTR-ToF-MS direct headspace analysis and chemometrics
CN110455722A (zh) 橡胶树叶片磷含量高光谱反演方法和系统
CN105158200B (zh) 一种提高近红外光谱定性分析准确度的建模方法
CN105117525B (zh) Bagging极限学习机集成建模方法
Zhao et al. An improved independent component regression modeling and quantitative calibration procedure
CN109740631B (zh) 基于对象的obia-svm-cnn遥感影像分类方法
Jiang et al. Qualitative and quantitative analysis in solid-state fermentation of protein feed by FT-NIR spectroscopy integrated with multivariate data analysis
CN111198165A (zh) 一种基于光谱数据标准化进行水质参数的测定方法
CN109063767A (zh) 一种基于样本和变量共识的近红外光谱建模方法
CN112289391A (zh) 一种基于机器学习的阳极铝箔性能预测系统
Zhao et al. Determination of quality and maturity of processing tomatoes using near-infrared hyperspectral imaging with interpretable machine learning methods
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
CN109145403A (zh) 一种基于样本共识的近红外光谱建模方法
Goh et al. Time evolution of entropy in a growth model: Dependence on the description
CN113610817B (zh) 一种特征峰识别方法及计算设备、存储介质
CN105092509A (zh) 一种基于pcr-elm算法的样品成份测定方法
Huang et al. A segmented PLS method based on genetic algorithm
He et al. An active learning representative subset selection method using net analyte signal
CN118518625B (zh) 用于鲜玉米全株关键营养参数近红外建模的预处理方法
CN113379002B (zh) 一种基于深度偏最小二乘模型的工业软测量方法
CN116952893B (zh) 一种近红外检测猪粪堆肥过程中的腐殖化程度的方法
CN116429721B (zh) 一种基于mpa框架的松子近红外光谱波段选择方法
WO2017169444A1 (ja) 溶液分析システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant