CN111474124B - 一种基于补偿的光谱波长选择方法 - Google Patents

一种基于补偿的光谱波长选择方法 Download PDF

Info

Publication number
CN111474124B
CN111474124B CN202010479733.3A CN202010479733A CN111474124B CN 111474124 B CN111474124 B CN 111474124B CN 202010479733 A CN202010479733 A CN 202010479733A CN 111474124 B CN111474124 B CN 111474124B
Authority
CN
China
Prior art keywords
model
wavelength
samples
type
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010479733.3A
Other languages
English (en)
Other versions
CN111474124A (zh
Inventor
潘涛
张静
陈洁梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202010479733.3A priority Critical patent/CN111474124B/zh
Publication of CN111474124A publication Critical patent/CN111474124A/zh
Application granted granted Critical
Publication of CN111474124B publication Critical patent/CN111474124B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于补偿的光谱波长选择方法,包括以下步骤:1、测量需要用于光谱判别分析的两类样品的光谱;2、把全部样品划分为建模集和检验集,并将建模集进一步划分为定标集、预测集;3、确定波长模型的搜索范围;4、建立光谱判别分析模型;5、计算识别准确率及其标准偏差;6、确定波长模型。本发明与现有技术比较,具有如下优点和有益效果:本发明具有应用范围宽、方法简便、预测效果好等优点;应用于光谱定性分析,为光谱判别分析专用仪器的分光系统设计提出有效的解决方案。

Description

一种基于补偿的光谱波长选择方法
技术领域
本发明涉及波长模型筛选技术领域,具体涉及一种基于补偿的光谱波长选择方法。
背景技术
近年发展起来的模型融合方法,运用多个模型的互补性,可以取得比单个模型更好的综合预测效果。问题在于如何提出波长模型,实现相互补偿的模型融合效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对光谱(紫外-可见、近红外、中红外等)的波长筛选方法,提出基于补偿的光谱波长选择方法。
本发明的目的通过下述技术方案实现:一种基于补偿的光谱波长选择方法,包括以下步骤:
1、测量需要用于光谱判别分析的两类样品的光谱;
2、把全部样品划分为建模集和检验集,并将建模集进一步划分为定标集、预测集;
3、确定波长模型的搜索范围;
4、建立光谱判别分析模型;
5、计算识别准确率及其标准偏差;
6、确定两类判别效果平衡的最优波长模型;并分别确定第一类、第二类判别效果优先的补偿波长模型;组建联合模型,进行综合判别分析。
进一步的,定标集和预测集用于优选模型及参数,检验集用于评价模型。
进一步的,步骤3之前,可对光谱进行预处理。
进一步的,步骤3中,确定波长模型的搜索范围,可以采用全扫描谱区,也可根据实际对象的光谱特征,采用特定的波长范围。
进一步的,步骤4之后要进行波长模型选择。
进一步的,步骤4之后,采用等间隔组合偏最小二乘法判别分析(EC-PLS-DA)或其它波长选择方法,进行波长模型选择。具体采用起点波长、波长个数和波长间隔数作为波长筛选的循环参数,分别建立光谱判别分析的定标预测模型。
进一步的,步骤5计算识别准确率及其标准偏差,是计算定标集、预测集和建模集的两类样品分别及总和的九个识别准确率及其标准偏差。
进一步的,步骤6确定波长模型,是根据建模总识别准确率最大,同等条件下兼顾准确率标准偏差最小,确定最优波长模型;根据两类样品的识别准确率差最大,兼顾总识别准确率大,分别确定单类判别效果优先补偿的两个判别分析模型及对应的波长模型。
进一步的,基于确定的波长模型,进行光谱判别分析的模型融合,组建联合模型及其综合评价。
更进一步的,采用三个波长模型进行三次判别分析,得出两类样品的三次投票结果,根据最高总分确定样品类别;同时计算该组合模型的全部识别准确率及其标准偏差;并采用检验集进行检验,同时计算检验的两类样品分别及总和的识别准确率。
本发明与现有技术比较,具有如下优点和有益效果:
本发明具有应用范围宽、方法简便、预测效果好等优点;应用于光谱定性分析,为光谱判别分析专用仪器的分光系统设计提出有效的解决方案。
附图说明
图1是实施例方法流程图。
图2是A类血清样品原光谱。
图3是B类血清样品原光谱。
图4是A类血清样品SNV光谱。
图5是B类血清样品SNV光谱。
图6是最优模型(NIR合频区)对预测样品的识别效果图。
图7是A类补偿模型(NIR低倍频区)对预测样品的识别效果图。
图8是B类补偿模型(可见-NIR高倍频区)对预测样品的识别效果图。
图9是联合模型对预测样品的识别效果图。
图10是最优模型(NIR合频区)对检验样品的识别效果图。
图11是A类补偿模型(NIR低倍频区)对检验样品的识别效果图。
图12是B类补偿模型(可见-NIR高倍频区)对检验样品的识别效果图。
图13是联合模型对检验样品的识别效果图。
具体实施方式
本专利以两类血清样品的可见-近红外光谱判别分析为实施例,详细说明基于补偿的波长选择方法的实施方式与效果,但本发明的实施方式不限于此。
一种基于补偿的光谱波长选择方法,包括如下步骤:
S1、收集经过标准方法确认的两类样品,分别简称“A类”、“B类”样品;并测量样品的光谱,用于光谱判别分析;
S2、把全部样品随机(或均匀)划分为建模集和检验集;建模集进一步随机(或均匀)划分为定标集、预测集;定标集和预测集用于优选模型及参数,检验集用于评价模型;
S3、采用适当的方法对光谱进行预处理,或根据实际情况不进行光谱预处理;
S4、确定波长模型的搜索范围(波长总数:n),它可以采用全扫描谱区,也可根据实际对象的光谱特征,采用特定的波长范围;建立偏最小二乘法判别分析(PLS-DA)模型或主成分分析-线性判别分析(PCA-LDA)模型或其他光谱判别分析模型;
S5、采用等间隔组合偏最小二乘法判别分析(EC-PLS-DA)或其它波长选择方法,进行波长模型选择;具体采用起点波长(I)、波长个数(N)和波长间隔数(G)作为波长筛选的循环参数,分别建立光谱判别分析的定标预测模型;计算定标集、预测集和建模集的A类、B类、两类总和的九个识别准确率及其标准偏差(RARSD);
S6、根据建模总识别准确率(RARTotal)最大,同等条件下兼顾准确率标准偏差(RARSD)最小,确定最优波长模型;根据A类、B类识别准确率差最大,兼顾总识别准确率(RARTotal)大,确定A类补偿EC-PLS-DA模型及对应的波长模型;根据B类、A类识别准确率差最大,兼顾总识别准确率(RARTotal)大,确定B类补偿EC-PLS-DA模型及对应的波长模型;
S7、基于S6的三个波长模型,进行光谱判别分析的模型融合,组建联合模型及其综合评价;具体采用三个波长模型进行三次判别分析,得出A类、B类样品的三次投票结果,根据最高总分确定样品类别;同时计算该组合模型的全部识别准确率及其标准偏差;并采用检验集进行检验,同时计算检验的A类、B类、两类总和的识别准确率。
上述三个波长模型组成的联合模型即为筛选出的最优波长模型组合。
本发明与现有技术比较,具有如下优点和有益效果:
1、本发明提出的一种基于补偿的光谱波长选择方法,提出了一种新的基于模型融合的波长模型选择方法。它首先确定A类、B类判别效果平衡的最优波长模型;然后分别确定A类、B类判别效果优先的补偿波长模型;基于三个波长模型的互补性,构建光谱判别分析的模型融合评价,通常可以获得比单个最优模型更好的综合评价效果,进一步提升光谱判别分析的预测准确率。
2、本发明基于集成学习的Voting策略提出了新型波长选择方法,具有应用范围宽、方法简便、预测效果好等优点,为光谱判别分析专用仪器的分光系统设计提出有效的解决方案。
具体实施例
本实施例以两类血清样品(A类、B类)的可见-近红外光谱判别分析为例,阐明所提出的基于补偿的波长选择方法的适用性。通过与性能优良的等间隔组合偏最小二乘判别分析(EC-PLS-DA)方法的结果比较,说明本发明所提出的基于补偿的分光波长选择方法更适用于两类血清样品的判别。但本发明的实施方式不限于此。
具体实施步骤如下:
S1、收集经医院确认的A、B两类血清样品,各65个。采用XDS Rapid ContentTM型近红外光栅光谱分析仪(丹麦,FOSS)及透射样本附件,采集每个样品的透射光谱3次(采用平均光谱),光谱扫描范围是400-2498nm,波长间隔2nm,共1050个波长(n=1050)。
S2、按照样品收集的时间顺序,A、B两类的65个样品分别被划分为定标(25)、预测(20)、检验集(20)。综上,得到定标集(A类25,B类25,总和50)、预测集(A类20,B类20,总和40)和检验集(A类20,B类20,总和40)。定标集和预测集用于优选模型及参数,检验集用于评价模型。
S3、采用标准正态变量变换(SNV)方法对光谱进行预处理。两类样品预处理前后的可见-近红外光谱。如图1所示。
S4-S7、参照上述S4-S7的方法,采用EC-PLS-DA方法,建立A、B两类样品光谱判别分析的定标预测模型。根据样品的真实类别(A类、B类),计算关于定标集、预测集和建模集的A类、B类及两类总和的9个识别准确率(Recognition Accuracy Rate,RAR,单位%)。其中,关于定标集样品的A类、B类及两类总和的识别准确率如下:
Figure BDA0002516906980000041
关于预测集样品的A类、B类及两类总和的识别准确率如下:
Figure BDA0002516906980000042
关于建模集全体A类、B类的识别准确率及建模总识别准确率如下:
Figure BDA0002516906980000043
Figure BDA0002516906980000044
其中
Figure BDA0002516906980000051
分别为A类、B类的定标、预测样品的真实个数;
Figure BDA0002516906980000052
分别为被准确识别的A类、B类的定标、预测样品的个数。并计算上述9个识别准确率的标准偏差,记为RARSD,用于描述针对不同样品属性(A类、B类、定标、预测等)的识别效果均衡性,也称为属性波动值。
关于检验集样品的A类、B类及两类总和的识别准确率如下:
Figure BDA0002516906980000053
其中
Figure BDA0002516906980000054
分别为A类、B类的检验样品的真实个数;
Figure BDA0002516906980000055
分别为被准确识别的A类、B类的检验样品的个数。
根据RARTotal最大(兼顾RARSD),确定最优EC-PLS-DA模型,对应波长模型位于NIR合频区;同时确定A类补偿EC-PLS-DA模型,对应波长模型位于NIR高倍频区;B类补偿EC-PLS-DA模型,对应波长模型位于Vis-NIR低倍频区;基于上述三个EC-PLS-DA模型,进行光谱判别分析的模型融合,得到联合模型及综合评价,判别分析效果如表1所示,图2是三个模型及其联合模型对预测样品的识别效果图。结果表明,联合模型取得了显著最优的建模判别分析效果。
采用不参与建模的检验样品进行独立检验。三个EC-PLS-DA模型及其联合模型的检验效果如表2所示。图3是三个模型及其联合模型对检验样品的识别效果图。结果表明,联合模型也取得了显著最优的检验判别分析效果。
表1最优EC-PLS-DA模型、A类、B类补偿模型及其联合模型的建模识别准确率(%)
Figure BDA0002516906980000056
表2最优EC-PLS-DA模型、A类、B类补偿模型及其联合模型的检验识别准确率(%)
Figure BDA0002516906980000057
实验证实:基于本发明的一种基于补偿的波长选择方法,获得了三个位于不同谱区的适当的EC-PLS-DA模型;由它们组建的联合模型进行建模和检验,均取得了比最优EC-PLS-DA模型更好的判别分析效果。该方法基于三个波长模型的互补性,构建光谱判别分析的模型融合评价,获得了比单个最优模型更好的综合评价效果,进一步提升了光谱判别分析的预测准确率。该专利拓宽波长筛选的方式和适用范围,对于建立高精度模型、设计专用光谱仪的分光系统均有重要意义。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于补偿的光谱波长选择方法,其特征在于包括以下步骤:
S1、测量需要用于光谱判别分析的两类样品的光谱,两类样品包括A类样品、B类样品;
S2、把全部样品划分为建模集和检验集,并将建模集进一步划分为定标集、预测集;
S3、确定波长模型的搜索范围;
S4、建立光谱判别分析模型,采用等间隔组合偏最小二乘法判别分析(EC-PLS-DA)进行波长模型选择;具体采用起点波长、波长个数和波长间隔数作为波长筛选的循环参数,分别建立A类样品、B类样品光谱判别分析的定标预测模型;
S5、计算识别准确率及其标准偏差,具体为计算定标集、预测集和建模集的A类样品、B类样品以及两类样品总和的九个识别准确率及其标准偏差;
S6、确定两类判别效果平衡的最优波长模型;并分别确定A类样品、B类样品判别效果优先的补偿波长模型;组建联合模型,进行综合判别分析;
根据建模集全体A类样品、B类样品的建模总识别准确率(RARTotal)最大,同等条件下兼顾准确率标准偏差(RARSD)最小,确定最优波长模型;根据A类样品、B类样品识别准确率差最大,兼顾总识别准确率(RARTotal)大,确定A类样品判别效果优先补偿的判别分析模型及对应的波长模型;根据B类样品、A类样品识别准确率差最大, 兼顾总识别准确率(RARTotal)大,确定B类样品判别效果优先补偿的判别分析模型及对应的波长模型;
基于三个波长模型即所述最优波长模型、A类样品判别效果优先的补偿波长模型、B类样品判别效果优先的补偿波长模型,进行光谱判别分析的模型融合,组建联合模型及其综合评价,具体采用上述三个波长模型进行三次判别分析,得出A类样品、B类样品的三次投票结果,根据最高总分确定样品类别;同时计算该联合模型的全部识别准确率及其标准偏差;并采用检验集进行检验,同时计算检验的A类样品、B类样品、两类样品总和的识别准确率;
上述三个波长模型组成的联合模型即为筛选出的最优波长模型组合。
2.根据权利要求1 所述的一种基于补偿的光谱波长选择方法,其特征在于,定标集和预测集用于筛选模型及参数,检验集用于评价模型。
3.根据权利要求 1 所述的一种基于补偿的光谱波长选择方法,其特征在于,步骤 S3之前对光谱进行预处理。
4.根据权利要求1 所述的一种基于补偿的光谱波长选择方法,其特征在于,步骤 S3中确定波长模型的搜索范围,可以采用全扫描谱区,也可根据实际对象的光谱特征,采用特定的波长范围。
CN202010479733.3A 2020-05-29 2020-05-29 一种基于补偿的光谱波长选择方法 Expired - Fee Related CN111474124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010479733.3A CN111474124B (zh) 2020-05-29 2020-05-29 一种基于补偿的光谱波长选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010479733.3A CN111474124B (zh) 2020-05-29 2020-05-29 一种基于补偿的光谱波长选择方法

Publications (2)

Publication Number Publication Date
CN111474124A CN111474124A (zh) 2020-07-31
CN111474124B true CN111474124B (zh) 2023-04-07

Family

ID=71765159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010479733.3A Expired - Fee Related CN111474124B (zh) 2020-05-29 2020-05-29 一种基于补偿的光谱波长选择方法

Country Status (1)

Country Link
CN (1) CN111474124B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112326574B (zh) * 2020-11-04 2023-11-14 暨南大学 一种基于贝叶斯分类的光谱波长选择方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6512937B2 (en) * 1999-07-22 2003-01-28 Sensys Medical, Inc. Multi-tier method of developing localized calibration models for non-invasive blood analyte prediction
US9435735B1 (en) * 2012-05-08 2016-09-06 Kla-Tencor Corporation Optical parametric model optimization
CN104215591A (zh) * 2014-09-25 2014-12-17 暨南大学 一种可见-近红外光谱无损判别的方法
CN105806803B (zh) * 2016-03-15 2019-07-02 潘涛 一种多指标协同分析波长组合及其选择方法
CN109100315B (zh) * 2018-08-21 2020-11-13 暨南大学 一种基于噪信比的波长选择方法

Also Published As

Publication number Publication date
CN111474124A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN103534578B (zh) 确定样本中存在的成分的光谱装置以及方法
CN110687072B (zh) 一种基于光谱相似度的校正集和验证集的选择及建模方法
CN102445544B (zh) 一种提高单同位素峰判断准确率的方法和系统
CN104062257B (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
CN107703097B (zh) 利用近红外光谱仪构建快速预测原油性质的模型的方法
CN105630743A (zh) 一种光谱波数的选择方法
CN108872129A (zh) 一种基于偏最小二乘法的绝缘纸近红外光谱解析方法
CN108956583A (zh) 用于激光诱导击穿光谱分析的特征谱线自动选择方法
CN107917897A (zh) 近红外光谱测定特医食品多组分含量的方法
CN106248621A (zh) 一种评价方法与系统
CN111474124B (zh) 一种基于补偿的光谱波长选择方法
CN107966420B (zh) 一种由近红外光谱预测原油性质的方法
CN104297201A (zh) 一种快速、准确定量调和油中各种油份比例的检测方法
CN109100315B (zh) 一种基于噪信比的波长选择方法
CN109540837A (zh) 近红外快速检测苎麻叶片木质纤维素含量的方法
CN105806803A (zh) 一种多指标协同分析波长组合及其选择方法
WO2023207453A1 (zh) 一种基于光谱聚类的中药成分分析方法及系统
CN102841124B (zh) 用于质谱分析的离子选择优化
CN108489928B (zh) 一种短波红外消光光谱纺织品纤维成分检测方法
CN106485049A (zh) 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法
CN104181125A (zh) 快速测定啤酒麦芽中库尔巴哈值的方法
CN107845047A (zh) 一种动态评分系统、方法以及计算机可读存储介质
CN113916817A (zh) 用于城镇生活饮用水的光谱法色度在线测量方法
CN114067169A (zh) 一种基于卷积神经网络的拉曼光谱分析方法
CN112326574A (zh) 一种基于贝叶斯分类的光谱波长选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230407