CN110763660B - 基于集成学习的libs定量分析方法 - Google Patents

基于集成学习的libs定量分析方法 Download PDF

Info

Publication number
CN110763660B
CN110763660B CN201911008476.9A CN201911008476A CN110763660B CN 110763660 B CN110763660 B CN 110763660B CN 201911008476 A CN201911008476 A CN 201911008476A CN 110763660 B CN110763660 B CN 110763660B
Authority
CN
China
Prior art keywords
training
value
learner
libs
quantitative analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911008476.9A
Other languages
English (en)
Other versions
CN110763660A (zh
Inventor
龚革联
徐红云
曾健
田岑熙
陆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Guangzhou Institute of Geochemistry of CAS
Original Assignee
South China University of Technology SCUT
Guangzhou Institute of Geochemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Guangzhou Institute of Geochemistry of CAS filed Critical South China University of Technology SCUT
Priority to CN201911008476.9A priority Critical patent/CN110763660B/zh
Publication of CN110763660A publication Critical patent/CN110763660A/zh
Application granted granted Critical
Publication of CN110763660B publication Critical patent/CN110763660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/129Using chemometrical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于集成学习的LIBS定量分析方法。所述方法包括如下步骤:目标元素原始特征提取;使用遗传算法筛选原始特征;使用前向序列选择算法筛选特征;合并各基学习器筛选特征;训练筛选基学习器;使用Stacking集成选择的基学习器;训练筛选元学习器,并用效果最佳的学习器作为集成模型元学习器构成集成模型。本发明具有预测精度高、抗干扰能力强、减小基体效应、可在不同数据集中通用等优点。

Description

基于集成学习的LIBS定量分析方法
技术领域
本发明涉及一种基于集成学习的LIBS定量分析方法,特别是针对不同数据集场景下的LIBS定量分析。该方法通过分析不同算法在不同数据集的表现情况来筛选出适合当前数据集的机器学习算法,并使用Stacking的集成方法综合集成不同定量分析学习器。通过在有关数据集上的实验证明,该方法可用于不同数据集的LIBS定量分析,并可以提高LIBS定量分析的预测精度。
背景技术
激光诱导击穿光谱学技术(Laser-Induced Breakdown Spectroscopy,LIBS)是一项被广泛应用于材料特征识别、元素定性和定量分析、海洋成分探究等领域的光谱学分析技术。其利用高能量的脉冲激光聚焦于样品之上并由此形成等离子体,利用各种光谱仪对激发产生的等离子体的发光进行光谱的采集与分析。由于LIBS几乎不需要样品制备,可以快速有效地直接分析样品、且可同时分析几乎所有元素以及可以检测多种基态样品的特点而被广泛运用。近年来,科研工作者常常会将LIBS技术运用于元素的定量分析中,希望通过建立合适的算法模型来寻找光谱中所蕴含的元素信息。
由于对于每种分析元素而言分析特征谱线都有很多,且光谱中特征峰的光谱相对强度与分析目标元素含量有确定的函数关系。一般来说,某种元素的含量越高,其对应的特征峰的光谱光强也越大,因此可以通过建立一条线性回归方程来根据采集到的特征峰值预测出光谱对应的元素含量值。在本领域比较经典的方法有:定标法,其主要内容如下:
定标法相关文献为A.Ciucci等人的文章《New Procedure for QuantitativeElemental Analysis by Laser-Induced Plasma Spectroscopy》,其主要工作内容是:提出基于线性回归的思想,使用定标法进行LIBS定量分析,从而达到可以使用最少两个样本画出一条回归分析线并用于预测未知样本;
使用定标法进行LIBS定量分析的相关文献为P.Stavropoulos等人的《Calibration measurements in laser-induced breakdown spectroscopy usingnanosecond and picosecond lasers》,其主要工作内容为:通过在现实场景中,使用定标法进行LIBS定量分析实验来验证使用定标法进行LIBS定量分析的准确性和可行性。
由于其便于操作的特性,定标法得到了学界的一致青睐,被广泛运用于LIBS的各类研究中。但现有的这些方法存在一定的局限性,由于在LIBS定量分析实验中,目标元素可能会受到基体效应的影响,从而导致定量分析产生误差。同时在选取定标法的分析谱线时,倘若选取的单条分析谱线周围存在杂质的特征谱线,则会对定量分析结果产生巨大影响。因此为了提高LIBS定量分析的准确性,解决单一输入变量可能存在的误差问题,科研人员提出使用多变量机器学习方法来解决内标法的不足,如神经网络、支持向量回归、随机森林回归等:
Sirven J B等人的著作《Qualitative and quantitative investigation of
chromium-polluted soils by laser-induced breakdown spectroscopycombined with neural networks analysis》中首次提出采用神经网络来进行LIBS定量分析。
Ferreira E J E C等人的著作《Artificial neural network for Cuquantitative determination in soil using a portable Laser Induced BreakdownSpectroscopy system》将神经网络的LIBS定量分析方法运用于铜矿石中的铜元素的定量分析。
Li K等人的著作《Quantitative analysis of steel samples using laser-induced breakdown spectroscopy with an artificial neural networkincorporating a genetic algorithm》提出将神经网络与遗传算法相结合,运用于钢铁样本的Cu和V元素定量分析中,并将目标元素(Cu和V)的特征峰值与基体元素Fe的特征峰值相除得到的比值作为输入特征,通过遗传算法筛选输入神经网络的特征,不仅大大降低了神经网络的复杂度、减少了训练用时,同时还提高了预测精度。
Yan C等人的著作《Determination of carbon and sulfur content in coal bylaser induced breakdown spectroscopy combined with kernel-based extremelearning machine》则对传统的全神经网络进行改进,提出使用K-ELM(超限学习机)对LIBS进行定量分析,可以在一定程度上避免神经网络陷入局部最小值,因而在LIBS定量分析中效果更好。
Zhang T等人的著作《Quantitative and classification analysis of slagsamples by laser induced breakdown spectroscopy(LIBS)coupled with supportvector machine(SVM)and partial least square(PLS)methods》采用支持向量回归(SupportVectorRegression,SVR)的方法对矿渣中元素含量进行了分析,并通过实验证明了支持向量回归可以运用在多种不同元素的LIBS光谱定量分析中,且其精度比传统偏最小二乘法回归更高。
Zhang T等人的著作《A novel approach for the quantitative analysis ofmultiple elements in steel based on laser-induced breakdown spectroscopy(LIBS)and random forest regression(RFR)》提出了使用随机森林回归(Random ForestRegression,RFR)的定量分析方法,并通过实验证明了随机森林回归的定量分析结果比支持向量回归更好。
同样,这些方法也存在不足之处,Sirven J B等人使用的全连接的神经网络训练耗时较长、容易产生过拟合、容易陷入局部最小值。Zhang T等人使用的支持向量回归和随机森林回归的方法对于不同的训练集,使用不同的学习器进行训练拟合得到的效果迥异。
经过阅读和对比,虽然这些方案所涉及的领域与本发明的相同,但其存在上文所述的几个问题,针对上文所述的问题,本发明提出相应的解决方案,以更好地平衡样本中误差和方差的关系,综合利用不同学习器的优点,进一步提高LIBS定量分析的精度并减小误差。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于集成学习的LIBS定量分析方法,该方法是一种基于集成学习,可针对不同基态、不同场景以及不同数据集下的LIBS定量分析问题的方法。该方法通过使用遗传算法筛选出有用的相关元素特征谱线,并通过分析不同的基础模型不同数据集的表现情况,使用Stacking的集成方法综合集成不同的定量分析学习器,并最终通过该方法预测未知样本的元素含量信息。
本发明目的为:为缺少机器学习相关背景的化学分析研究人员提供一种便利、快捷、精准的LIBS定量分析方法,并将计算机领域的集成学习的概念引入LIBS定量分析中,通过分析不同基学习器的训练预测结果最终可将多种学习器预测结果进行集成,可针对不同的数据集、不同场景和不同基态自动训练合适的集成模型。最后,本发明公开了利用上述方法来实现基于集成学习的LIBS定量分析的完整过程。该方法具有预测精度高、模型泛化效果好,符合实际应用情况的优点。
本发明的目的至少通过如下技术方案之一实现。
一种基于集成学习的LIBS定量分析方法,包括如下步骤:
步骤1、根据给定的分析目标元素以及美国国家标准与技术研究院(NIST)的元素谱线标准库,对使用激光诱导击穿技术(LIBS)技术获取得到的样本光谱图,将目标分析元素的所有特征谱线选取出来;
步骤2、根据设定的比例,将整个数据集随机划分为训练集和测试集;
步骤3、根据步骤1选取的目标元素的所有特征谱线,将所选取的特征谱线的光谱强度值消除环境噪声,然后将处理后的光谱强度值与所采集到的LIBS光谱的最大值相除,得到光谱特征比值集合;使用遗传算法对光谱特征比值进行特征筛选;
步骤4、将经过遗传算法筛选过后的特征集使用前向序列选择再次筛选,评价指标为验证集中的目标元素浓度预测误差,得到候选训练特征集;
步骤5、在不同的基学习器中重复进行步骤3和步骤4,进行特征选取工作,所选取出来的候选训练特征集wj的集合为{w1,w2,…,wn},最终确定的训练特征集为{w1∩w2∩...∩wn},其中,j=1,…,n,n为基学习器的数量;
步骤6、依据最终确定的训练特征集使用划分好的训练集和测试集对基学习器使用交叉验证的方法进行重复训练和评估,将训练误差低于阈值ε的基学习器选取为待用基学习器;
步骤7、将训练集进行k折交叉验证,其中k为待用基学习器的数量,得到集成的基学习器,并对基学习器进行k折交叉验证进行训练,并用训练完成得到的基学习器对交叉验证测试集的数据进行预测,得到新的预测特征值;
步骤8、根据步骤7得到新的预测特征值,使用不同的元学习器,基于Stacking集成的训练框架进行训练和预测,并最终选取预测效果最好,即预测误差最小的元学习器作为集成模型的元学习器,得到最终的集成模型;
步骤9、用最终的集成模型对未知的样品通过LIBS技术得到的光谱进行LIBS定量分析预测,以获得对应目标元素的含量信息。
进一步地,步骤2中,采用8:2的比例,将整个数据集随机划分为训练集和测试集。
进一步地,步骤3中,通过对光谱特征比值进行01编码生成遗传算法的初始种群,其中0代表未选取当前的光谱特征比值,1代表已选取当前的光谱特征比值。
进一步地,步骤3中,使用遗传算法对光谱特征比值进行特征筛选时,以训练集的目标元素浓度预测误差MSE作为适应度函数,以r作为适应度函数的阈值。
进一步地,在使用遗传算法对种群中的每个个体即种群中的已进行01编码的特征集合进行适应度评估时,需要用到的评价指标为均方误差MSE,其计算公式为:
Figure GDA0003020534480000041
式中,yi为标定值,yi'为预测值,nmse为训练集样本的数量。
进一步地,在使用遗传算法对特征集选取时,适应度都超过阈值的01编码的个体进行下一轮的迭代;若所有个体的适应度都超过阈值,则选取前80%的个体加入下一轮的迭代并随机选取两个个体进行异或、与、或的二进制运算产生新个体将其加入下一轮的迭代中。
进一步地,在步骤3中,在处理光谱强度值的环境噪声和杂质信息时使用了区间噪声源去除的技术,采用的方法是寻找当前光谱中无信号或者信号较弱的部分,取该部分50-100个信号作为噪声源区间,并对该噪声源区间的信号求和后求该噪声源区间的平均值;随后,以此噪声平均值作为实验的背景噪声值,对于该光谱中的每一个信号都要扣除该背景噪声值得到一个扣除后的光强净值;具体的噪声值的计算公式为:
Figure GDA0003020534480000051
式中Ni表示背景噪声源区间第i个信号的光强值,nnoise表示信号的个数,avg函数表示对所求和再求平均。
进一步地,步骤7中,每一次的交叉验证包含以下过程:
过程1.基于交叉验证训练集数据对模型进行训练;
过程2.使用训练好的模型对交叉验证验证集进行预测,在第一次交叉验证完成之后将会得到关于当前验证集的预测值,记为ak;
过程3.对数据集的测试集进行预测,生成预测值,这些预测值将作为元学习器测试集的一部分,记为bk;
进一步地,所述交叉验证的过程的重复次数与待用基学习器的数量相等,最终将每次得到的ak合并为矩阵a作为训练数据集,将每次得到的bk合并得到一个矩阵b作为测试数据集,给元学习器进行进一步训练。
本发明相对于现有技术具有如下优点以及效果:
1、本发明将计算机领域的集成学习引入LIBS定量分析中,相较于单一学习模型而言,可以更好地利用不同学习器的优点,平衡样本中误差和方差的关系,使得LIBS定量分析误差更小。
2、本发明提出了针对不同基态、不同场景或不同数据集下的LIBS定量分析通用机器学习算法。通过自动筛选特征、自动调参、自动选取学习器等机制帮助实验人员完成LIBS定量分析相关实验。
附图说明
图1是本发明方法进行LIBS定量分析时的详细流程图。
图2是数据集中一个样本的光谱图实例示意图。
图3a和图3b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用支持向量回归模型进行定量分析的参考值和预测值的比值分布图。
图4a和图4b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用随机森林回归模型进行定量分析的参考值和预测值的比值分布图。
图5a和图5b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用弹性网络回归模型进行定量分析的参考值和预测值的比值分布图。
图6a和图6b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用梯度提升回归模型进行定量分析的参考值和预测值的比值分布图。
图7a和图7b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用LASSO回归模型进行定量分析的参考值和预测值的比值分布图。
图8a和图8b是分别在加拿大航天局LIBS数据集和Nasa ChemLIBS数据集使用本发明方法进行实验后与此前的方法重复100次试验后得出的误差情况统计图。
具体实施方式
下面结合实施例及附图对本发明的具体实施作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
基于集成学习的LIBS定量分析方法,如图1所示,包括如下步骤:
步骤1、根据给定的分析目标元素以及美国国家标准与技术研究院(NIST)的元素谱线标准库,对使用激光诱导击穿技术(LIBS)技术获取得到的样本光谱图,将目标分析元素的所有特征谱线选取出来;
本实施例中,通过在参考值左右0.5nm的范围内寻找峰值,从而寻找到该样本中对应参考值的实际特征峰位置;例如Al元素中的一条灵敏特征谱线309.271,则在寻峰的过程中,需要在[309.271-0.5,309.271+0.5]的范围中寻找相对应的实际特征峰位置,并将其峰值强度对应于309.271nm的特征强度。
步骤2、根据8:2的比例,将整个数据集随机划分为训练集和测试集。
步骤3、根据步骤1选取的目标元素的所有特征谱线,将所选取的特征谱线的光谱强度值消除环境噪声,然后将处理后的光谱强度值与所采集到的LIBS光谱的最大值相除,得到光谱特征比值集合;使用遗传算法对光谱特征比值进行特征筛选;
在处理光谱强度值的环境噪声和杂质信息时使用了区间噪声源去除的技术,采用的方法是寻找当前光谱中无信号或者信号较弱的部分,取该部分50-100个信号作为噪声源区间,并对该噪声源区间的信号求和后求该噪声源区间的平均值;随后,以此噪声平均值作为实验的背景噪声值,对于该光谱中的每一个信号都要扣除该背景噪声值得到一个扣除后的光强净值;具体的噪声值的计算公式为:
Figure GDA0003020534480000071
式中Ni表示背景噪声源区间第i个信号的光强值,nnoise表示信号的个数,avg函数表示对所求和再求平均。
进行特征筛选时,通过对光谱特征比值进行01编码生成遗传算法的初始种群,其中0代表未选取当前的光谱特征比值,1代表已选取当前的光谱特征比值;
例如,Al元素中有[309.271,308.216,309.284,394.430,396.153]这几个常用的特征谱线,在使用遗传算法对其进行特征筛选时,首先需要对其进行01编码,倘若此时选择的特征子集为[309.271,308.216,309.284,394.430],则对应的编码为11110,1代表当前特征谱线被选中,0代表未被选中;同理若选取的子集为[309.271,308.216,309.284,396.153]则编码为11101。
使用遗传算法对光谱特征比值进行特征筛选时,以训练集的目标元素浓度预测误差MSE作为适应度函数,以r作为适应度函数的阈值。
在使用遗传算法对种群中的每个个体即种群中的已进行01编码的特征集合进行适应度评估时,需要用到的评价指标为均方误差MSE,其计算公式为:
Figure GDA0003020534480000072
式中,yi为标定值,yi'为预测值,nmse为训练集样本的数量。
在使用遗传算法对特征集选取时,适应度都超过阈值的01编码的个体进行下一轮的迭代;若所有个体的适应度都超过阈值,则选取前80%的个体加入下一轮的迭代并随机选取两个个体进行异或、与、或的二进制运算产生新个体将其加入下一轮的迭代中。
倘若在使用遗传算法对特征集选取的时候,有五个个体的适应度值分别为50、20、10、16、25,此时适应度阈值为8,则由于五个个体中最小的适应度10>8,则需要进行下一轮迭代。若对应的个体编码分别为11011、10101、10001、01101、01110,若所有个体的适应度都超过阈值,则选取前80%的个体加入下一轮的迭代,即选取10101、10001、01101、01110加入迭代。同时由于需要产生新个体一个,因此随机选取两个个体进行杂交10101∩01110=00100。并将该个体加入下一轮的迭代训练中。
步骤4、将经过遗传算法筛选过后的特征集使用前向序列选择再次筛选,评价指标为验证集中的目标元素浓度预测误差,得到候选训练特征集;
例如步骤3选择后的Al元素的特征谱线集合为[309.271,308.216,309.284,394.430,396.153],则在使用前向序列选择时先从一条特征谱线的集合开始,比较使用一条特征谱线的模型训练效果最佳的一条加入候选集,然后以候选集开始,加入另外的特征谱线再次训练比较找到训练效果最佳的两条作为候选集。例如第一次五条特征谱线单独训练发现396.153nm的谱线训练效果最佳,则将396.153nm加入候选集,第二轮尝试分别将309.271,308.216,309.284,394.430加入候选集进行训练,查看训练集最佳的组合。以此不断迭代,最终结束条件为误差值小于阈值或者全部元素被选。
步骤5、在不同的基学习器中重复进行步骤3和步骤4,进行特征选取工作,所选取出来的候选训练特征集wj的集合为{w1,w2,…,wn},最终确定的训练特征集为{w1∩w2∩...∩wn},其中,j=1,…,n,n为基学习器的数量;
例如在步骤4后使用支持向量回归选取的特征谱线集合为[309.271,308.216,396.153],使用随机森林回归作为基学习器选取的特征谱线集合为[308.216,309.284,394.430,396.153],则最终的特征集合为两者交集,即[308.216,396.153]。
步骤6、依据最终确定的训练特征集使用划分好的训练集和测试集对基学习器使用交叉验证的方法进行重复训练和评估,将训练误差低于阈值ε的基学习器选取为待用基学习器。
例如当前设置的阈值ε为20,若使用支持向量回归模型和随机森林回归模型得到的误差均小于20,则两者均被选作基学习器。
步骤7、将训练集进行k折交叉验证,其中k为待用基学习器的数量,得到集成的基学习器,并对基学习器进行k折交叉验证进行训练,并用训练完成得到的基学习器对交叉验证测试集的数据进行预测,得到新的预测特征值;
例如在步骤6后选择的待用基学习器的数量为5,假设整个训练集包含1000行数据,测试集包含230行数据,那么每一次对训练集进行划分,训练集800行,验证集为200行。
每一次的交叉验证包含以下过程:
过程1.基于交叉验证训练集数据对模型进行训练;
过程2.使用训练好的模型对交叉验证验证集进行预测,在第一次交叉验证完成之后将会得到关于当前验证集的预测值,这是个200行的数据集,记为a1。
过程3.对数据集的测试集进行预测,这个过程会生成230个预测值,这些预测值将作为元学习器测试集的一部分,记为b1。
所述交叉验证的过程的重复次数与待用基学习器的数量相等,最终将每次得到的ak合并为矩阵a作为训练数据集,将每次得到的bk合并得到一个矩阵b作为测试数据集,给元学习器进行进一步训练。
因为基学习器数量为5个,所以以上过程将重复五次,最终将每次得到的ak(k=1~5)合并为1000行5列的矩阵a作为训练数据集,将每次得到的bk(k=1~5)合并得到一个230行5列的矩阵b作为测试数据集,给元学习器进行进一步训练。
步骤8、根据步骤7得到新的预测特征值,使用不同的元学习器,基于Stacking集成的训练框架进行训练和预测,并最终选取预测效果最好,即预测误差最小的元学习器作为集成模型的元学习器,得到最终的集成模型;
步骤9、用最终的集成模型对未知的样品通过LIBS技术得到的光谱进行LIBS定量分析预测,以获得对应目标元素的含量信息。
本实施例中,所述基于集成学习的LIBS定量分析方法主要基于以下模块:
1)特征谱线提取模块:该模块通过与美国国家标准与技术研究院(NIST)的元素谱线标准库进行比对,将样本中对应的特征谱线强度选取出来。
2)特征筛选模块:用于筛选待测目标元素的特征谱线特征集,该模块通过遗传算法和前向序列选择来对维度较高的目标元素的特征谱线进行特征筛选。
3)基学习器选取模块:用来选取构建集成学习模型的基础学习器,该模块筛选出适合于该数据集和基态的基础学习器。
4)基学习器训练模块:本模块首先对训练集进行随机划分,使用不同的随机训练集对不同的基学习器进行训练,最终得到经过不同训练子集训练的不同基学习器。
5)元学习器选取模块:本模块通过比较使用不同学习模型作为元学习器时的训练和预测效果,最终选取出一个预测效果最佳、定量分析预测精度最高的学习器作为最终选定的元学习器。
6)模型超参数设置模块:用于设置和调整模型的超参数,运用自动调参的方法为模型设置合适的超参数值,该模块根据给定的各基学习器的可调超参数以及元学习器的可调参数来进行模型超参数的自动调参。
7)集成模型预测评估模块:该模块通过测试集来验证集成模型的预测精度和泛化效果。
为进一步解释本实施例中的上述几个模块,下面详细介绍几个模块的关键算法实现。
算法1为使用遗传算法进行特征集合筛选的过程。
Figure GDA0003020534480000101
Figure GDA0003020534480000111
算法1先设置适应度阈值r,并随机生成若干个个体组成的种群,其中每个个体都是一个初始特征集的一个随机生成的子集,并用01进行编码,0代表当前特征未被选,1代表当前特征被选择加入特征集。首先对初始种群进行个体的解码,计算初始种群中的个体代表的特征集在当前的模型下fitness值,在这里fitness的值为模型预测值和实际值的均方误差。
倘若fitness值的最小值小于阈值,则取fitness最小时的特征集作为筛选后的特征集。否则,根据fitness值对应的特征集进行排序,选取fitness值相对较小的前80%的个体添加到下一轮迭代的种群中,并通过交叉变异等方式生成新的20%的个体加入种群。
算法2为基学习器筛选的伪代码。
Figure GDA0003020534480000112
算法2主要作用是筛选合适于当前的数据集的基学习器。将各类不同学习器在训练集上拟合,并选取误差在可接受范围内的加入后续的集成模型中。在完成stacking集成后对二级元学习器也要进行类似处理。
算法3是元学习器选取和训练模块的伪代码。
Figure GDA0003020534480000121
算法3首先将训练集按照算法2筛选出来的基学习器的数量划分为n份,每次对一个基学习器使用n-1份进行训练,并使用训练出来的模型对留下的1份进行预测,并将其作为新的特征值给下一级学习器训练和预测,最终在确定最后的元学习器时通过训练比较找出预测效果最好的学习器作为元学习器。
上述介绍了本实施例所包含的概念及功能模块,结合伪代码,详细讲解了本实施例的执行过程,并以例子进行辅助解释。
在NASA CHEMLIBS数据集以及加拿大航天局LIBS数据集中对所得到的实施结果进行分析如下。表1为本次实施的具体参数。
表1 LIBS实验设置参数
Figure GDA0003020534480000131
使用支持向量回归、随机森林回归、Lasso回归、梯度提升(Gradient Boosting)、弹性网络得到的预测值和参考值的对比图(P-R diagram)如图3a和图3b、图4a和图4b、图7a和图7b、图6a和图6b、图5a和图5b所示。横坐标为样本的参考值,纵坐标为使用模型预测的预测值。在P-R图中,查看预测值和参考值的坐标所在的点到y=x的理想预测模型线的距离,即可直观地观察到模型预测的误差大小。
对于单一的模型,如图7a和图7b所示,Lasso回归会产生较大的偏差,预测值和参考值的对应点离y=x的理想线的偏差较大。说明了在当前的数据集中Lasso回归不适合作为基础学习器来训练。
同样的情况也出现在弹性网络中,如图5a和图5b所示,虽然这种算法和模型可以比较好地预测出浓度信息的大致趋势,但是通过训练可以发现两者产生的MSE都比较大,不符合要求,因此也不适合单独用于当前的数据集。
而从图4a和图4b、图3a和图3b、图6a和图6b可以看出,使用随机森林回归、支持向量回归以及梯度提升算法得到的模型在预测当前数据集时的误差较小。参考值-预测值对应的点比较均匀地分布在y=x的直线两侧。因此,当前数据集比较适合使用随机森林回归以及梯度提升作为基础学习器。
当本发明运用在相同的数据集时,和此前的模型比较的结果如图8a和图8b所示。可以发现,使用了本发明的St-LIBS对应的误差曲线在两个数据集的实验中均比此前的任何模型都要小,因此可以判断,本发明的预测精度更高。
综上,本发明针对现存方法的局限性,使用Stacking集成框架的St-LIBS,通过第一级学习器的训练拟合可以提取出一些有用的特征,并预测出一个合适的值作为次级学习器的特征。通过这样的方法可以进一步地提高LIBS定量分析的预测精度,且模型的泛化效果更佳。具有自动选取合适学习器、合适特征谱线集合特性的St-LIBS算法可以简化研究人员手动选择合适学习器的工作,并可以自动选取特征以获得最佳的LIBS定量分析泛化模型。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于集成学习的LIBS定量分析方法,其特征在于,包括如下步骤:
步骤1、根据给定的分析目标元素以及美国国家标准与技术研究院(NIST)的元素谱线标准库,对使用激光诱导击穿技术(LIBS)技术获取得到的样本光谱图,将目标分析元素的所有特征谱线选取出来;
步骤2、根据设定的比例,将整个数据集随机划分为训练集和测试集;
步骤3、根据步骤1选取的目标元素的所有特征谱线,将所选取的特征谱线的光谱强度值消除环境噪声,然后将处理后的光谱强度值与所采集到的LIBS光谱的最大值相除,得到光谱特征比值集合;使用遗传算法对光谱特征比值进行特征筛选;
步骤4、将经过遗传算法筛选过后的特征集使用前向序列选择再次筛选,评价指标为验证集中的目标元素浓度预测误差,得到候选训练特征集;
步骤5、在不同的基学习器中重复进行步骤3和步骤4,进行特征选取工作,所选取出来的候选训练特征集wj的集合为{w1,w2,…,wn},最终确定的训练特征集为{w1∩w2∩...∩wn},其中,j=1,…,n,n为基学习器的数量;
步骤6、依据最终确定的训练特征集使用划分好的训练集和测试集对基学习器使用交叉验证的方法进行重复训练和评估,将训练误差低于阈值ε的基学习器选取为待用基学习器;
步骤7、将训练集进行k折交叉验证,其中k为待用基学习器的数量,得到集成的基学习器,并对基学习器进行k折交叉验证进行训练,并用训练完成得到的基学习器对交叉验证测试集的数据进行预测,得到新的预测特征值;
步骤8、根据步骤7得到新的预测特征值,使用不同的元学习器,基于Stacking集成的训练框架进行训练和预测,并最终选取预测误差最小的元学习器作为集成模型的元学习器,得到最终的集成模型;
步骤9、用最终的集成模型对未知的样品通过LIBS技术得到的光谱进行LIBS定量分析预测,以获得对应目标元素的含量信息。
2.根据权利要求1所述的基于集成学习的LIBS定量分析方法,其特征在于,步骤2中,采用8:2的比例,将整个数据集随机划分为训练集和测试集。
3.根据权利要求1所述的基于集成学习的LIBS定量分析方法,其特征在于,步骤3中,通过对光谱特征比值进行01编码生成遗传算法的初始种群,其中0代表未选取当前的光谱特征比值,1代表已选取当前的光谱特征比值。
4.根据权利要求1所述的基于集成学习的LIBS定量分析方法,其特征在于,步骤3中,使用遗传算法对光谱特征比值进行特征筛选时,以训练集的目标元素浓度预测误差MSE作为适应度函数,以r作为适应度函数的阈值。
5.根据权利要求4所述的基于集成学习的LIBS定量分析方法,其特征在于,在使用遗传算法对种群中的每个个体即种群中的已进行01编码的特征集合进行适应度评估时,需要用到的评价指标为均方误差MSE,其计算公式为:
Figure FDA0003063600110000021
式中,yi为标定值,yi'为预测值,nmse为训练集样本的数量。
6.根据权利要求5所述的基于集成学习的LIBS定量分析方法,其特征在于,在使用遗传算法对特征集选取时,适应度都超过阈值的01编码的个体进行下一轮的迭代;若所有个体的适应度都超过阈值,则选取前80%的个体加入下一轮的迭代并随机选取两个个体进行异或、与、或的二进制运算产生新个体将其加入下一轮的迭代中。
7.根据权利要求1所述的基于集成学习的LIBS定量分析方法,其特征在于,在步骤3中,在处理光谱强度值的环境噪声和杂质信息时使用了区间噪声源去除的技术,采用的方法是寻找当前光谱中无信号或者信号较弱的部分,取该部分50-100个信号作为噪声源区间,并对该噪声源区间的信号求和后求该噪声源区间的平均值;随后,以此噪声平均值作为实验的背景噪声值,对于该光谱中的每一个信号都要扣除该背景噪声值得到一个扣除后的光强净值;具体的噪声值的计算公式为:
Figure FDA0003063600110000022
式中Ni表示背景噪声源区间第i个信号的光强值,nnoise表示信号的个数,avg函数表示对所求和再求平均。
8.根据权利要求1所述的基于集成学习的LIBS定量分析方法,其特征在于,步骤7中,每一次的交叉验证包含以下过程:
过程1.基于交叉验证训练集数据对模型进行训练;
过程2.使用训练好的模型对交叉验证验证集进行预测,在第一次交叉验证完成之后将会得到关于当前验证集的预测值,记为ak;
过程3.对数据集的测试集进行预测,生成预测值,这些预测值将作为元学习器测试集的一部分,记为bk。
9.根据权利要求8所述的基于集成学习的LIBS定量分析方法,其特征在于,所述交叉验证的过程的重复次数与待用基学习器的数量相等,最终将每次得到的ak合并为矩阵a作为训练数据集,将每次得到的bk合并得到一个矩阵b作为测试数据集,给元学习器进行进一步训练。
CN201911008476.9A 2019-10-22 2019-10-22 基于集成学习的libs定量分析方法 Active CN110763660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911008476.9A CN110763660B (zh) 2019-10-22 2019-10-22 基于集成学习的libs定量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911008476.9A CN110763660B (zh) 2019-10-22 2019-10-22 基于集成学习的libs定量分析方法

Publications (2)

Publication Number Publication Date
CN110763660A CN110763660A (zh) 2020-02-07
CN110763660B true CN110763660B (zh) 2021-07-30

Family

ID=69332900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911008476.9A Active CN110763660B (zh) 2019-10-22 2019-10-22 基于集成学习的libs定量分析方法

Country Status (1)

Country Link
CN (1) CN110763660B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111504981B (zh) * 2020-04-26 2021-10-22 上海交通大学 测定粉末物质中化学组分和水分含量的方法
CN111683048B (zh) * 2020-05-06 2021-05-07 浙江大学 一种基于多周期模型stacking的入侵检测系统
CN111832477A (zh) * 2020-07-13 2020-10-27 华中科技大学 一种新型冠状病毒的检测方法及系统
CN112051256B (zh) * 2020-07-22 2023-01-24 中国地质大学(武汉) 基于cnn模型的待测元素含量libs测量方法、系统
CN113095440B (zh) * 2020-09-01 2022-05-17 电子科技大学 基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法
CN112116104B (zh) * 2020-09-17 2024-06-18 京东科技控股股份有限公司 自动集成机器学习的方法、装置、介质及电子设备
CN112257868A (zh) * 2020-09-25 2021-01-22 建信金融科技有限责任公司 构建和训练用于预测客流量的集成预测模型的方法及装置
CN112951332A (zh) * 2021-02-25 2021-06-11 北京博富瑞基因诊断技术有限公司 一种基于aGVHD biomarker的重度肠道aGVHD模型的方法
CN113723844B (zh) * 2021-09-06 2024-04-19 东南大学 一种基于集成学习的低压台区理论线损计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法
CN109918708A (zh) * 2019-01-21 2019-06-21 昆明理工大学 一种基于异质集成学习的材料性能预测模型构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304884A (zh) * 2018-02-23 2018-07-20 华东理工大学 一种基于特征逆映射的代价敏感堆叠集成学习框架
CN109918708A (zh) * 2019-01-21 2019-06-21 昆明理工大学 一种基于异质集成学习的材料性能预测模型构建方法
CN109781706A (zh) * 2019-02-11 2019-05-21 上海应用技术大学 基于PCA-Stacking建立的食源性致病菌拉曼光谱识别模型的训练方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"A genetic algorithm-based stacking algorithm for preding soil organic matter from vis-NIR spectral data";Nikolaos L. Tsakiridis et al.;《Soil Science》;20181117;第578-590页 *
"Stacking算法的研究及改进";徐慧丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181215;全文 *
"Stacking集成分类器优化算法研究";覃智全;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;全文 *
"基于梯度提升树的土壤速效磷高光谱回归预测方法";金秀 等;《激光与光电子学进展》;20190731;第56卷(第13期);第131102-1至131102-7页 *
"基于自适应集成学习模型的信用风险评估研究";何红亮;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》;20190415;全文 *

Also Published As

Publication number Publication date
CN110763660A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN110763660B (zh) 基于集成学习的libs定量分析方法
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
EP1967846A1 (en) En ensemble method and apparatus for classifying materials and quantifying the composition of mixtures
EP2525213A1 (en) Spectroscopic apparatus and methods for determining components present in a sample
CN113177919B (zh) Libs与深度学习结合的岩性分类及主量元素含量检测方法
CN104483292B (zh) 一种采用多谱线比值法提高激光探针分析精确度的方法
CN113155809A (zh) 一种矿石分类与实时定量分析的光谱检测新方法
CN112712108A (zh) 一种拉曼光谱多元数据分析方法
Duan et al. Automatic variable selection method and a comparison for quantitative analysis in laser-induced breakdown spectroscopy
CN114813709A (zh) 土壤成分检测方法、设备及系统
CN116030310A (zh) 一种基于激光诱导击穿光谱技术的样品分类方法及系统
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN106936561B (zh) 一种侧信道攻击防护能力评估方法和系统
JP6280910B2 (ja) 分光システムの性能を測定するための方法
CN114002204B (zh) 一种基于光谱抖动的激光诱导击穿光谱分析方法
Xie et al. Quantitative analysis of steel samples by laser-induced-breakdown spectroscopy with wavelet-packet-based relevance vector machines
US20220252516A1 (en) Spectroscopic apparatus and methods for determining components present in a sample
Zhang et al. A method derived from genetic algorithm, principal component analysis and artificial neural networks to enhance classification capability of laser-induced breakdown spectroscopy
CN114141316A (zh) 一种基于谱图分析的有机物生物毒性预测方法及系统
Xie et al. Efficient comprehensive element identification in large scale spectral analysis with interpretable dimension reduction
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
CN112595706A (zh) 一种激光诱导击穿光谱变量选择方法及系统
KR101941193B1 (ko) 레이저 유도 붕괴 분광장치(libs)에 의한 금속을 분류하기 위한 방법 및 이에 관한 컴퓨터-판독가능 저장매체
CN118193977A (zh) 基于紫外波段和模型堆叠策略的libs光谱定量金矿的方法
CN117949436B (zh) 应用于钛合金熔炼下的金属元素成分检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Gong Gelian

Inventor after: Xu Hongyun

Inventor after: Zeng Jian

Inventor after: Tian Cenxi

Inventor after: Lu Tao

Inventor before: Xu Hongyun

Inventor before: Zeng Jian

Inventor before: Gong Gelian

Inventor before: Tian Cenxi

Inventor before: Lu Tao

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20210128

Address after: 510640 rooms 101 and 103, building 13, wushandihua office, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Institute of Geochemistry, Chinese Academy of Sciences

Applicant after: SOUTH CHINA University OF TECHNOLOGY

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Applicant before: SOUTH CHINA University OF TECHNOLOGY

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant