CN117033993A - 一种基于最小角排序选择的优选训练集的方法 - Google Patents
一种基于最小角排序选择的优选训练集的方法 Download PDFInfo
- Publication number
- CN117033993A CN117033993A CN202210476127.5A CN202210476127A CN117033993A CN 117033993 A CN117033993 A CN 117033993A CN 202210476127 A CN202210476127 A CN 202210476127A CN 117033993 A CN117033993 A CN 117033993A
- Authority
- CN
- China
- Prior art keywords
- training set
- sample
- samples
- spectrum
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 238000004445 quantitative analysis Methods 0.000 claims abstract description 3
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002329 infrared spectrum Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 235000010724 Wisteria floribunda Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3563—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于最小角排序选择的优选训练集的方法,解决定量分析任务中样本过多引入误差的问题。包括:采集待测样品的光谱数据和参比值;使用样本划分方法将样本集划分为训练集和预测集;计算优选训练集的近似理想光谱作为排序时的目标光谱;采用最小角对训练集样本重新排序,建立训练子集和PLS子模型;根据模型结果确定优选训练集。该方法通过最小角对训练集样本进行排序选择,能够压缩样本容量并优化样本分布,优选训练集更接近预测集的分布,有效提升模型预测效果。
Description
技术领域
本发明涉及一种基于最小角排序选择的优选训练集的方法。
背景技术
得益于近红外光谱分析具有简单,快速,无损、具有成本效益的特点,化学计量学结合近红外光谱技术建立定性和定量分析预测模型成为了农业食品领域的流行分析工具。然而,现代分析仪器的飞速发展及其强大的快速产生数据的能力,使得分析化学工作者能够容易地得到大量样本的光谱数据,且采集到的光谱具有很高的维数。但是,当训练集的样本已经具有代表性,建立出的模型已经可以在验证集上获得很好的预测效果后,训练集再增加建模样本就会引入分析误差,带来冗余,覆盖有用的信息,降低模型性能,增加光谱分析的成本效益。选择合理有效的建模样本不仅可以改善上述问题,当遇到模型界外样本时,还便于更新和维护模型,并且样本的选择在多元校正模型的传递中也非常重要。因此,对建模样本进行优选是非常必要的,从这些样本的近红外光谱中剔除冗余和噪声波长也十分必要。然而,目前大多数建模过程并没有对训练集进行二次选择,也没有研究过二次选择后的训练集与原训练集样本在数量和分布上的情况。
发明内容
本发明的目的是提出一种最小角排序选择的方法对训练集样本进行优选,达到有效压缩原始训练集样本容量并提高模型预测能力的目的。该方法包括以下步骤:
采集待测样品的光谱数据X和参比值y;
采用最小角对训练集样本重新排序:
①计算训练集的理想光谱,用训练集样本的平均光谱近似。/>是每一次在已选样本子集中添加新样本后获得的/>的估计值,ε为给定的精确度,n为训练集样本数。/>与各样本xi之间的关系为:
该算法从和与/>最为接近的样本x1=Xi开始,此时/>
②在连续的循环中从尚未被使用的样本子集S中选择出与已选样本线性空间L相关性最大的样本xi,在样本xi的方向上移动步长θi;
③循环步骤②直至无多余样本或估计值距离目标光谱/>小于ε,此时获得重新排序的光谱数据/>
当循环进行到第j次时,获得与L的相关性最大的样本xj计算公式如下:
argmax{L(LTL)-1LTxi},xi∈S
则此时的估计值/>为:
此时,移动步长θj的约束条件如下:
对重新排序的光谱进行二次选择的步骤是:
①从20个样本开始依次添加进训练子集建立PLS模型,PLS模型的因子数LVs默认为20,共建立n-19个PLS模型;
②计算训练子集的交互验证均方根误差(RMSECV),共获得n-19个RMSECV值;
③比较n-19个RMSECV值,选择RMSECV最小时对应的训练子集作为优选的训练集。
附图说明
本发明结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1(a)为本发明专利提供的总体流程图。
图1(b)为本发明专利提供的最小角对训练集样本排序过程的流程图。
图2为本发明一实施例的样本集光谱图。
图3(a)为本发明一实施例中,PLS模型计算的训练集均方根误差(RMSECV)和预测集均方根误差(RMSEP)随训练集样本数变化的曲线。
图3(b)为本发明一实施例中,原始训练集、预测集和优选训练集的箱线图。
图4(a)为本发明一实施例中,优选训练集光谱残差与杠杆值的关系图。
图4(b)为本发明一实施例中,优选训练集参比值与偏差的关系图。
图5(a)为本发明一实施例中,预测集光谱残差与杠杆值的关系图。
图5(b)为本发明一实施例中,预测集参比值与偏差的关系图。
图6为本发明一实施例中,参比值与预测值的拟合图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。图1(b)是本发明专利提供的最小角对训练集样本重新排序过程的流程图,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
本发明具体包括以下步骤:
采集待测样品的光谱数据和参比值。本实例待测样本为90个红富士苹果,采集每个样本四个面的光谱和糖度值。光谱仪波长范围为350-1150nm,1044个波长点。光照强度、积分时间和装置运动速度设置为6.5A、120ms和0.5m/s。糖度值采用折射式数字糖度仪(PR-101a,日本)测量。使用python对数据进行分析。样本集光谱图如图2所示。
采用3σ法进行异常样本检测,未发现有异常样本。使用train_test_split(X,y,test_size=0.25)将样本集按3:1划分为训练集样本和测试集样本。样本集统计结果如下表所示。
采用最小角排序选择对训练集优选,排序结果如图3(a)所示,优选训练集与初始训练集样本的分布箱线图如图3(b)所示,两个训练集建立的模型结果如下表所示。图3(a)中,RMSECV曲线在训练集样本数为139时最小,此时RMSECV=0.6838。当训练集样本数继续增加,RMSECV突增0.15左右并一直维持,这是由于冗余的样本引入了分析误差,且随着训练集样本增多这样的误差也没有减小。冗余的样本的引入对未知样本的预测能力产生影响,RMSEP曲线在样本为140个时也突增0.15左右。因此,确定优选训练集为前139个样本。图3(b)中,优选训练集的范围比原始训练集小,缩小了模型的适应范围,不过对那些样本的预测也不准确。优选训练集的离散程度更接近预测集,提高了适应范围内样本的预测准确度。
获得优选训练集后,根据国家标准GB/T 29858-2013的规定,通过杠杆值与光谱残差关系图剔除第一类异常样本,通过参比值与预测值关系图剔除第二类异常样本。
图4(a)为本发明一实施例中,优选训练集光谱残差与杠杆值的关系图。
图4(b)为本发明一实施例中,优选训练集参比值与偏差的关系图。
图5(a)为本发明一实施例中,预测集光谱残差与杠杆值的关系图。
图5(b)为本发明一实施例中,预测集参比值与偏差的关系图。
图4(a)~图5(b)中圆形标识为异常样本,为减少这些离群样本对建模的影响,从优选训练集和验证集中剔除。根据国家标准GB/T 29858-2013的规定,图4(a)中,剔除掉杠杆值大于3k/n=3*10/139≈0.2158的样本0号和50号;图4(b)中,剔除掉样本43号,66号和68号;图5(a)中,剔除掉杠杆值大于3k/n=3*10/90≈0.3333的样本66号和44号;图5(b)中,剔除掉样本5号。
剔除异常样本后与蒙特卡罗无变量信息消除(MCUVE)、RT和MSVC筛选的波段建立模型,结果如下表所示,图6为最好模型的参比值与预测值的拟合图。
本方案到此结束。以上所述实施例仅表达了本发明的实施方式,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于最小角排序选择的优选训练集的方法,其特征在于:将样本集划分为训练集和预测集后,计算训练集样本光谱的近似理想光谱作为排序时的目标光谱,采用最小角对训练集样本重新排序,根据排序后的训练子集建立PLS子模型,根据模型结果完成优选。
2.根据权利要求1所述的方法,其中,所述基于最小角排序选择的优选训练集的方法用于定量分析。
3.根据权利要求1所述的方法,其中,所述样本集的容量为大于或等于100个。
4.根据权利要求1所述的方法,其中,所述模型结果为训练集均方根误差RMSECV。
5.根据权利要求3所述的方法,其中,所述优选训练集是样本集划分为训练集和预测集后,对训练集再次进行样本选择建立优选训练集,使用优选训练集的样本光谱进行剔除异常样本、波长选择和模型建立等后续步骤。
6.根据权利要求5所述的方法,其中,所述训练集样本的光谱与理想光谱必须是近似线性关系。
7.根据权利要求6所述的方法,其中,所述训练集样本的理想光谱通常用平均光谱近似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210476127.5A CN117033993A (zh) | 2022-04-29 | 2022-04-29 | 一种基于最小角排序选择的优选训练集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210476127.5A CN117033993A (zh) | 2022-04-29 | 2022-04-29 | 一种基于最小角排序选择的优选训练集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033993A true CN117033993A (zh) | 2023-11-10 |
Family
ID=88628632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210476127.5A Pending CN117033993A (zh) | 2022-04-29 | 2022-04-29 | 一种基于最小角排序选择的优选训练集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033993A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
CN108509997A (zh) * | 2018-04-03 | 2018-09-07 | 深圳市药品检验研究院(深圳市医疗器械检测中心) | 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法 |
WO2020029851A1 (zh) * | 2018-08-08 | 2020-02-13 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
CN111742370A (zh) * | 2017-05-12 | 2020-10-02 | 密歇根大学董事会 | 个体和队列药理学表型预测平台 |
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
-
2022
- 2022-04-29 CN CN202210476127.5A patent/CN117033993A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
CN111742370A (zh) * | 2017-05-12 | 2020-10-02 | 密歇根大学董事会 | 个体和队列药理学表型预测平台 |
CN108509997A (zh) * | 2018-04-03 | 2018-09-07 | 深圳市药品检验研究院(深圳市医疗器械检测中心) | 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法 |
WO2020029851A1 (zh) * | 2018-08-08 | 2020-02-13 | 浙江大学 | 一种基于工作流的振动光谱分析模型优化方法 |
WO2022042002A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN110411957B (zh) | 水果货架期及新鲜程度的无损快速预测方法及装置 | |
US20060249668A1 (en) | Automatic detection of quality spectra | |
CN102564993B (zh) | 一种利用傅里叶变换红外光谱识别大米品种方法及其应用 | |
CN104024830A (zh) | 时间和/或空间序列文件的多组分回归/多组分分析 | |
CN109409350B (zh) | 一种基于pca建模反馈式载荷加权的波长选择方法 | |
UA86820C2 (uk) | Спосіб створення незалежних багатомірних градуювальних моделей | |
CN109839358B (zh) | 农产品品质分析方法及装置 | |
CN110736707B (zh) | 一种主仪器向从仪器光谱模型传递的光谱检测优化方法 | |
WO2015070128A1 (en) | Texture analysis of a coated surface using pivot-normalization | |
WO1998033047A1 (en) | Calibration system for spectrographic analyzing instruments | |
CN110503156B (zh) | 一种基于最小相关系数的多变量校正特征波长选择方法 | |
CN109324015A (zh) | 基于光谱相似的烟叶替代方法 | |
CN112285056B (zh) | 一种用于光谱样品个性化校正集选择及建模方法 | |
CN1659574A (zh) | 用于集成电路的光学计量的波长选择 | |
CN110632017A (zh) | 一种基于形态分析的转基因大豆快速鉴别优化模型 | |
US7230235B2 (en) | Automatic detection of quality spectra | |
CN108120694B (zh) | 用于晒红烟化学成分分析的多元校正方法及系统 | |
CN111795944B (zh) | 一种改进团队进步算法的近红外光谱波长筛选方法 | |
CN117033993A (zh) | 一种基于最小角排序选择的优选训练集的方法 | |
CN112485217A (zh) | 一种应用于产地溯源的肉类鉴别模型的构建方法以及装置 | |
CN108267422B (zh) | 基于近红外光谱分析的异常样本剔除法 | |
CN115630332A (zh) | 一种小麦粉粉质特性预测方法 | |
CN115824996A (zh) | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 | |
CN112881333B (zh) | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |