CN117033993A - 一种基于最小角排序选择的优选训练集的方法 - Google Patents

一种基于最小角排序选择的优选训练集的方法 Download PDF

Info

Publication number
CN117033993A
CN117033993A CN202210476127.5A CN202210476127A CN117033993A CN 117033993 A CN117033993 A CN 117033993A CN 202210476127 A CN202210476127 A CN 202210476127A CN 117033993 A CN117033993 A CN 117033993A
Authority
CN
China
Prior art keywords
training set
sample
samples
spectrum
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210476127.5A
Other languages
English (en)
Inventor
刘燕德
王昱麒
李斌
胡军
姜小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210476127.5A priority Critical patent/CN117033993A/zh
Publication of CN117033993A publication Critical patent/CN117033993A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于最小角排序选择的优选训练集的方法,解决定量分析任务中样本过多引入误差的问题。包括:采集待测样品的光谱数据和参比值;使用样本划分方法将样本集划分为训练集和预测集;计算优选训练集的近似理想光谱作为排序时的目标光谱;采用最小角对训练集样本重新排序,建立训练子集和PLS子模型;根据模型结果确定优选训练集。该方法通过最小角对训练集样本进行排序选择,能够压缩样本容量并优化样本分布,优选训练集更接近预测集的分布,有效提升模型预测效果。

Description

一种基于最小角排序选择的优选训练集的方法
技术领域
本发明涉及一种基于最小角排序选择的优选训练集的方法。
背景技术
得益于近红外光谱分析具有简单,快速,无损、具有成本效益的特点,化学计量学结合近红外光谱技术建立定性和定量分析预测模型成为了农业食品领域的流行分析工具。然而,现代分析仪器的飞速发展及其强大的快速产生数据的能力,使得分析化学工作者能够容易地得到大量样本的光谱数据,且采集到的光谱具有很高的维数。但是,当训练集的样本已经具有代表性,建立出的模型已经可以在验证集上获得很好的预测效果后,训练集再增加建模样本就会引入分析误差,带来冗余,覆盖有用的信息,降低模型性能,增加光谱分析的成本效益。选择合理有效的建模样本不仅可以改善上述问题,当遇到模型界外样本时,还便于更新和维护模型,并且样本的选择在多元校正模型的传递中也非常重要。因此,对建模样本进行优选是非常必要的,从这些样本的近红外光谱中剔除冗余和噪声波长也十分必要。然而,目前大多数建模过程并没有对训练集进行二次选择,也没有研究过二次选择后的训练集与原训练集样本在数量和分布上的情况。
发明内容
本发明的目的是提出一种最小角排序选择的方法对训练集样本进行优选,达到有效压缩原始训练集样本容量并提高模型预测能力的目的。该方法包括以下步骤:
采集待测样品的光谱数据X和参比值y;
采用最小角对训练集样本重新排序:
①计算训练集的理想光谱,用训练集样本的平均光谱近似。/>是每一次在已选样本子集中添加新样本后获得的/>的估计值,ε为给定的精确度,n为训练集样本数。/>与各样本xi之间的关系为:
该算法从和与/>最为接近的样本x1=Xi开始,此时/>
②在连续的循环中从尚未被使用的样本子集S中选择出与已选样本线性空间L相关性最大的样本xi,在样本xi的方向上移动步长θi
③循环步骤②直至无多余样本或估计值距离目标光谱/>小于ε,此时获得重新排序的光谱数据/>
当循环进行到第j次时,获得与L的相关性最大的样本xj计算公式如下:
argmax{L(LTL)-1LTxi},xi∈S
则此时的估计值/>为:
此时,移动步长θj的约束条件如下:
对重新排序的光谱进行二次选择的步骤是:
①从20个样本开始依次添加进训练子集建立PLS模型,PLS模型的因子数LVs默认为20,共建立n-19个PLS模型;
②计算训练子集的交互验证均方根误差(RMSECV),共获得n-19个RMSECV值;
③比较n-19个RMSECV值,选择RMSECV最小时对应的训练子集作为优选的训练集。
附图说明
本发明结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1(a)为本发明专利提供的总体流程图。
图1(b)为本发明专利提供的最小角对训练集样本排序过程的流程图。
图2为本发明一实施例的样本集光谱图。
图3(a)为本发明一实施例中,PLS模型计算的训练集均方根误差(RMSECV)和预测集均方根误差(RMSEP)随训练集样本数变化的曲线。
图3(b)为本发明一实施例中,原始训练集、预测集和优选训练集的箱线图。
图4(a)为本发明一实施例中,优选训练集光谱残差与杠杆值的关系图。
图4(b)为本发明一实施例中,优选训练集参比值与偏差的关系图。
图5(a)为本发明一实施例中,预测集光谱残差与杠杆值的关系图。
图5(b)为本发明一实施例中,预测集参比值与偏差的关系图。
图6为本发明一实施例中,参比值与预测值的拟合图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。图1(b)是本发明专利提供的最小角对训练集样本重新排序过程的流程图,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
本发明具体包括以下步骤:
采集待测样品的光谱数据和参比值。本实例待测样本为90个红富士苹果,采集每个样本四个面的光谱和糖度值。光谱仪波长范围为350-1150nm,1044个波长点。光照强度、积分时间和装置运动速度设置为6.5A、120ms和0.5m/s。糖度值采用折射式数字糖度仪(PR-101a,日本)测量。使用python对数据进行分析。样本集光谱图如图2所示。
采用3σ法进行异常样本检测,未发现有异常样本。使用train_test_split(X,y,test_size=0.25)将样本集按3:1划分为训练集样本和测试集样本。样本集统计结果如下表所示。
采用最小角排序选择对训练集优选,排序结果如图3(a)所示,优选训练集与初始训练集样本的分布箱线图如图3(b)所示,两个训练集建立的模型结果如下表所示。图3(a)中,RMSECV曲线在训练集样本数为139时最小,此时RMSECV=0.6838。当训练集样本数继续增加,RMSECV突增0.15左右并一直维持,这是由于冗余的样本引入了分析误差,且随着训练集样本增多这样的误差也没有减小。冗余的样本的引入对未知样本的预测能力产生影响,RMSEP曲线在样本为140个时也突增0.15左右。因此,确定优选训练集为前139个样本。图3(b)中,优选训练集的范围比原始训练集小,缩小了模型的适应范围,不过对那些样本的预测也不准确。优选训练集的离散程度更接近预测集,提高了适应范围内样本的预测准确度。
获得优选训练集后,根据国家标准GB/T 29858-2013的规定,通过杠杆值与光谱残差关系图剔除第一类异常样本,通过参比值与预测值关系图剔除第二类异常样本。
图4(a)为本发明一实施例中,优选训练集光谱残差与杠杆值的关系图。
图4(b)为本发明一实施例中,优选训练集参比值与偏差的关系图。
图5(a)为本发明一实施例中,预测集光谱残差与杠杆值的关系图。
图5(b)为本发明一实施例中,预测集参比值与偏差的关系图。
图4(a)~图5(b)中圆形标识为异常样本,为减少这些离群样本对建模的影响,从优选训练集和验证集中剔除。根据国家标准GB/T 29858-2013的规定,图4(a)中,剔除掉杠杆值大于3k/n=3*10/139≈0.2158的样本0号和50号;图4(b)中,剔除掉样本43号,66号和68号;图5(a)中,剔除掉杠杆值大于3k/n=3*10/90≈0.3333的样本66号和44号;图5(b)中,剔除掉样本5号。
剔除异常样本后与蒙特卡罗无变量信息消除(MCUVE)、RT和MSVC筛选的波段建立模型,结果如下表所示,图6为最好模型的参比值与预测值的拟合图。
本方案到此结束。以上所述实施例仅表达了本发明的实施方式,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于最小角排序选择的优选训练集的方法,其特征在于:将样本集划分为训练集和预测集后,计算训练集样本光谱的近似理想光谱作为排序时的目标光谱,采用最小角对训练集样本重新排序,根据排序后的训练子集建立PLS子模型,根据模型结果完成优选。
2.根据权利要求1所述的方法,其中,所述基于最小角排序选择的优选训练集的方法用于定量分析。
3.根据权利要求1所述的方法,其中,所述样本集的容量为大于或等于100个。
4.根据权利要求1所述的方法,其中,所述模型结果为训练集均方根误差RMSECV。
5.根据权利要求3所述的方法,其中,所述优选训练集是样本集划分为训练集和预测集后,对训练集再次进行样本选择建立优选训练集,使用优选训练集的样本光谱进行剔除异常样本、波长选择和模型建立等后续步骤。
6.根据权利要求5所述的方法,其中,所述训练集样本的光谱与理想光谱必须是近似线性关系。
7.根据权利要求6所述的方法,其中,所述训练集样本的理想光谱通常用平均光谱近似。
CN202210476127.5A 2022-04-29 2022-04-29 一种基于最小角排序选择的优选训练集的方法 Pending CN117033993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210476127.5A CN117033993A (zh) 2022-04-29 2022-04-29 一种基于最小角排序选择的优选训练集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210476127.5A CN117033993A (zh) 2022-04-29 2022-04-29 一种基于最小角排序选择的优选训练集的方法

Publications (1)

Publication Number Publication Date
CN117033993A true CN117033993A (zh) 2023-11-10

Family

ID=88628632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210476127.5A Pending CN117033993A (zh) 2022-04-29 2022-04-29 一种基于最小角排序选择的优选训练集的方法

Country Status (1)

Country Link
CN (1) CN117033993A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN108509997A (zh) * 2018-04-03 2018-09-07 深圳市药品检验研究院(深圳市医疗器械检测中心) 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法
WO2020029851A1 (zh) * 2018-08-08 2020-02-13 浙江大学 一种基于工作流的振动光谱分析模型优化方法
CN111742370A (zh) * 2017-05-12 2020-10-02 密歇根大学董事会 个体和队列药理学表型预测平台
WO2022042002A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN105203498A (zh) * 2015-09-11 2015-12-30 天津工业大学 一种基于lasso的近红外光谱变量选择方法
CN111742370A (zh) * 2017-05-12 2020-10-02 密歇根大学董事会 个体和队列药理学表型预测平台
CN108509997A (zh) * 2018-04-03 2018-09-07 深圳市药品检验研究院(深圳市医疗器械检测中心) 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法
WO2020029851A1 (zh) * 2018-08-08 2020-02-13 浙江大学 一种基于工作流的振动光谱分析模型优化方法
WO2022042002A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备

Similar Documents

Publication Publication Date Title
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN110411957B (zh) 水果货架期及新鲜程度的无损快速预测方法及装置
US20060249668A1 (en) Automatic detection of quality spectra
CN102564993B (zh) 一种利用傅里叶变换红外光谱识别大米品种方法及其应用
CN104024830A (zh) 时间和/或空间序列文件的多组分回归/多组分分析
CN109409350B (zh) 一种基于pca建模反馈式载荷加权的波长选择方法
UA86820C2 (uk) Спосіб створення незалежних багатомірних градуювальних моделей
CN109839358B (zh) 农产品品质分析方法及装置
CN110736707B (zh) 一种主仪器向从仪器光谱模型传递的光谱检测优化方法
WO2015070128A1 (en) Texture analysis of a coated surface using pivot-normalization
WO1998033047A1 (en) Calibration system for spectrographic analyzing instruments
CN110503156B (zh) 一种基于最小相关系数的多变量校正特征波长选择方法
CN109324015A (zh) 基于光谱相似的烟叶替代方法
CN112285056B (zh) 一种用于光谱样品个性化校正集选择及建模方法
CN1659574A (zh) 用于集成电路的光学计量的波长选择
CN110632017A (zh) 一种基于形态分析的转基因大豆快速鉴别优化模型
US7230235B2 (en) Automatic detection of quality spectra
CN108120694B (zh) 用于晒红烟化学成分分析的多元校正方法及系统
CN111795944B (zh) 一种改进团队进步算法的近红外光谱波长筛选方法
CN117033993A (zh) 一种基于最小角排序选择的优选训练集的方法
CN112485217A (zh) 一种应用于产地溯源的肉类鉴别模型的构建方法以及装置
CN108267422B (zh) 基于近红外光谱分析的异常样本剔除法
CN115630332A (zh) 一种小麦粉粉质特性预测方法
CN115824996A (zh) 基于近红外光谱的烟叶常规化学成分通用模型建模方法
CN112881333B (zh) 一种基于改进免疫遗传算法的近红外光谱波长筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination