CN109557080B - 一种基于机器学习的光谱数据回归方法 - Google Patents

一种基于机器学习的光谱数据回归方法 Download PDF

Info

Publication number
CN109557080B
CN109557080B CN201810829668.5A CN201810829668A CN109557080B CN 109557080 B CN109557080 B CN 109557080B CN 201810829668 A CN201810829668 A CN 201810829668A CN 109557080 B CN109557080 B CN 109557080B
Authority
CN
China
Prior art keywords
concentration
sample
generalized
vector
spectral intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810829668.5A
Other languages
English (en)
Other versions
CN109557080A (zh
Inventor
孙琛
俞进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810829668.5A priority Critical patent/CN109557080B/zh
Publication of CN109557080A publication Critical patent/CN109557080A/zh
Application granted granted Critical
Publication of CN109557080B publication Critical patent/CN109557080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/71Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light thermally excited

Landscapes

  • Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供了一种基于机器学习的光谱数据回归方法,包括如下步骤:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;超空间中的广义光谱强度矢量定义;校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度矢量对应一个广义模长,即待测元素浓度的预测值;校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于0.1%,认为校准模型优化完成;含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度矢量,输入校准模型中,给出待测元素浓度含量预测值。本发明对元素浓度测量精准度达到定量分析的要求;对检测未知样品待测元素浓度的计算时间达到工业在线监测的要求。

Description

一种基于机器学习的光谱数据回归方法
技术领域
本发明属于光谱数据处理领域,尤其涉及到一种基于机器学习的光谱数据回归方法。
背景技术
目前,在工业生产、环境保护等实际应用相关领域,物质中元素的在线检测和定量分析在工业流程和排放实时监控中的应用需求非常迫切。在这样的应用中,数据采集的实验条件经常不能人为控制且往往比较恶劣,例如利用激光诱导击穿光谱(LIBS)技术在野外作业、检测排污口废气、废液等排放是否达到国家标准、传送带上的产品是否合格等。因此,实际应用中采集到的光谱数据具有较强的波动性,通常源自于两个方面:1)实验条件的不稳定性,比如激光脉冲强度,激光入射样品表面角度,激光聚焦焦点位置与样品表面之间的距离等在测量中的起伏;2)样品的基体效应,比如待测样品的物理特性,化学组份,表面形貌及几何形状等在实验中的差异。目前单从设备硬件优化来克服或减轻上述的由于实验条件的不可控性和样品本身的差异性所引起的测量数据的抖动和起伏已经趋于饱和。
在硬件优化已经出现天花板的情况下,通过数据处理对光谱的稳定性和可靠性做进一步的优化似乎成了唯一的方法。对于LIBS光谱数据来讲,目前已经有一些通过数据处理进行分析结果优化的方法,比较普遍的是通过物理模型的免定标法和通过化学计量学的多变量模型分析法。前者,免定标法是在样品的所有元素的谱线强度、所有元素的浓度、等离子体物理参数(例如温度、密度等)之间建立一个依赖的物理模型。模拟中需要使用跃迁几率等误差较大,所需测量的激光诱导等离子体物理参数误差较大,及需对样品中所有元素(主量、微量、恒量)进行归一化,再得到待测元素含量。对待测元素,特别是微量、恒量元素浓度的测量精度一般来说只能局限于10%以上。因此该方法实际运用不多,一般只作为半定量分析手段。后者,多变量模型分析法是利用各种化学计量统计方法,包括多元线性回归、偏最小二乘回归、主成分回归、人工神经网络等。针对具体的分析对象,基于一定的物理和化学过程的解释,建立数学统计模型,通过一定的典型样品来拟合分析获得模型参数,从而进行待测物质的元素定标预测。这种方法通常需要进行有人工干预的光谱预处理,合理提取光谱信息作为输入变量,建立数学模型。这不仅需要较大的计算量,以及专业人员的人工干预。通过人工干预和有关物理、化学信息的提取,其目的偏重于对所使用的化学分析方法中所涉及的物理、化学过程进行研究和优化。
在这同时,随着人工智能和大数据算法的发展,基于机器学习的算法正在为解决越来越多的工程问题提供有效的方法,这就为研发新型的光谱数据处理方法,弥补上述两种现有的光谱数据,特别是LIBS光谱数据,处理方法所存在的不足创造了条件。
发明内容
本发明的目的在于针对现有光谱分析检测技术中存在的不足和缺陷,提供一种基于机器学习的光谱数据回归方法,将大数据和机器学习的方法结合起来,采用人工智能的理念,使用先进的计算机计算手段对光谱数据进行更深层次的挖掘和更高速、更精准的信息提取,从而实现更准、更快、全自动化的光谱分析结果的导出。具体地是指,本发明将通过把在线检测所获取的样品的包含有随机的和系统偏差的LIBS光谱数据直接导入训练好的校准模型,最大限度上消除实验条件和样品基体等属性所带来的光谱数据的起伏和不确定性,快速地获得准确、可靠的待测元素浓度。
本发明是根据以下技术方案实现的:
一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;
步骤S2:超空间中的广义光谱强度矢量定义;
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度矢量对应一个广义模长,即待测元素浓度的预测值;
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;
步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度矢量,输入校准模型中,给出待测元素的浓度含量预测值。
上述技术方案中,步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量
Figure GDA0002331396710000021
其中
Figure GDA0002331396710000022
Figure GDA0002331396710000023
其中M1为样品信息总数,样品参数信息通过
Figure GDA0002331396710000024
囊括在广义光谱强度矢量里。记录的样品信息向量为
Figure GDA0002331396710000031
其中样品信息向量总数为S,S为正整数,s为大于等于1并小于等于S的整数;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量
Figure GDA0002331396710000032
获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室环境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量
Figure GDA0002331396710000033
其中
Figure GDA0002331396710000034
M2为实验条件信息总数,实验条件信息通过
Figure GDA0002331396710000035
囊括在广义光谱强度矢量里;记录的实验条件信息向量为
Figure GDA0002331396710000036
其中实验条件信息向量总数为K,K为正整数,k为大于等于1并小于等于K的整数;
步骤S104:光谱数据的采集,在给定的实验条件信息向量
Figure GDA0002331396710000037
和样品信息向量
Figure GDA0002331396710000038
的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数;采集到的光谱强度向量
Figure GDA0002331396710000039
M为原始光谱强度的总数。记录的实验条件信息向量为
Figure GDA00023313967100000310
其中光谱强度向量总数为J,J为正整数,j为大于等于1并小于等于J的整数。
上述技术方案中,步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量
Figure GDA00023313967100000311
样品信息向量
Figure GDA00023313967100000312
实验条件信息向量
Figure GDA00023313967100000313
三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量
Figure GDA00023313967100000314
样品信息向量
Figure GDA00023313967100000315
实验条件信息向量
Figure GDA00023313967100000316
三个部分构成,即
Figure GDA00023313967100000317
在M+M1+M2维的超空间中,广义光谱强度矢量可表示如下:
Figure GDA00023313967100000318
对于给定的n,s,k,j,都对应一个广义光谱强度矢量
Figure GDA00023313967100000319
其中,n对应于待测元素浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数;
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量
Figure GDA0002331396710000041
存在一个标量与其对应,被称为其广义模长,矢量
Figure GDA0002331396710000042
的广义模长对应于待测元素浓度期望值Con,映射表示为:
Figure GDA0002331396710000043
上述技术方案中,步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量
Figure GDA0002331396710000048
的广义模长,对应于待测元素浓度的预测值,表示为
Figure GDA0002331396710000044
Figure GDA0002331396710000045
步骤S303:确定选定算法fs在优化中可改变的参数。
上述技术方案中,步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为
Figure GDA0002331396710000046
与Con的相对差的平方总和小于10-3即0.1%,即
Figure GDA0002331396710000047
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
上述技术方案中,其特征在于,步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用。采集未知样品的原始光谱强度向量
Figure GDA0002331396710000051
样品基体信息向量
Figure GDA0002331396710000052
以及实验条件信息向量
Figure GDA0002331396710000053
如无样品基体信息向量
Figure GDA0002331396710000054
作缺省值Null处理;
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
Figure GDA0002331396710000055
步骤S503:将未知样品的广义光谱强度矢量
Figure GDA0002331396710000056
输入校准模型ff中,则快速得到未知样品中待测元素的浓度预测值Cou
与现有技术相比,本发明具有如下的有益效果:
1、对元素浓度的测量精确度、准确度等达到定量分析的要求;
2、对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求;
3、不需要专业人员介入。
4、本发明具有普适性,也适合LIBS光谱方法之外的别的光谱方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为二维空间中广义光谱强度矢量示意图;
图2为二维空间中广义光谱强度矢量的广义模长示意图;
图3为训练前的超空间数据散点分布示意图;
图4为待测元素浓度预测值与期望值相关性图;
图5为训练后的超空间数据散点分布示意图;
图6为本发明的方法整体流程示意图;
图7为本发明的数据格式化的示意图;
图8为本发明的模型使用示意图;
图9为未使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图;
图10为使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本方法提出并实现了一种基于机器学习的光谱数据回归方法,编制了相应的程序,得到的回归模型可以用于满足上述要求的定量和定性分析。
本方法所用参数定义如表1所示:
表1本方法所用参数定义
Figure GDA0002331396710000061
本发明的一种基于机器学习的光谱数据回归方法,该种方法流程图如图6所示,其具体步骤如下:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据,即广义光谱强度矢量。其中数据格式化的流程图见图7;
步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量
Figure GDA0002331396710000062
其中
Figure GDA0002331396710000063
Figure GDA0002331396710000064
其中M1为样品信息总数,样品参数信息通过
Figure GDA0002331396710000065
囊括在广义光谱强度矢量里。记录的样品信息向量为
Figure GDA0002331396710000066
其中样品信息向量总数为S,s为大于等于1并小于等于S的整数。为了方便表述,下文中,样品信息向量
Figure GDA0002331396710000067
中只含有一个元素,例如样品的型号,即取M1=1;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量
Figure GDA0002331396710000071
获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室环境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益等,这些实验条件记录后进行数值化,组成实验条件信息向量
Figure GDA0002331396710000072
其中
Figure GDA0002331396710000073
M2为实验条件信息总数,实验条件信息通过
Figure GDA0002331396710000074
囊括在广义光谱强度矢量里。记录的实验条件信息向量为
Figure GDA0002331396710000075
其中实验条件信息向量总数为K,k为大于等于1并小于等于K的整数。为了方便表述,下文中,实验条件信息向量
Figure GDA0002331396710000076
中只含有一个元素,例如压强,即取M2=1;
步骤S104:光谱数据的采集,在给定的实验条件信息向量
Figure GDA0002331396710000077
和样品信息向量
Figure GDA0002331396710000078
的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数。采集到的光谱强度向量
Figure GDA0002331396710000079
M为原始光谱强度的总数。记录的实验条件信息向量为
Figure GDA00023313967100000710
其中光谱强度向量总数为J,j为大于等于1并小于等于J的整数。
步骤S2:超空间中的广义光谱强度矢量定义;
步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量
Figure GDA00023313967100000711
样品信息向量
Figure GDA00023313967100000712
实验条件信息向量
Figure GDA00023313967100000713
三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量
Figure GDA00023313967100000714
样品信息向量
Figure GDA00023313967100000715
实验条件信息向量
Figure GDA00023313967100000716
三个部分构成,即
Figure GDA00023313967100000717
在M+M1+M2维的超空间中,广义光谱强度矢量可表示如下:
Figure GDA00023313967100000718
对于给定的n,s,k,j,都对应一个广义光谱强度矢量
Figure GDA00023313967100000719
其中,n对应于待测元素浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数。
为了方便表达,下面举例给出在二维空间中的广义光谱强度矢量的图像,如图1所示。
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量
Figure GDA0002331396710000081
存在一个标量与其对应,被称为其广义模长,矢量
Figure GDA0002331396710000082
的广义模长对应于待测元素浓度期望值Con,映射表示为:
Figure GDA0002331396710000083
为了方便表达,作为例子,下面给出在二维空间中的广义光谱强度矢量和所对应的广义模长的图像,如图2所示。
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度矢量对应一个广义模长,即待测元素浓度的预测值;
步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs,例如随机森林回归算法、岭回归、Lasso、前向逐步回归等;
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量
Figure GDA0002331396710000084
的广义模长,对应于待测元素浓度的预测值,表示为
Figure GDA0002331396710000085
Figure GDA0002331396710000086
一般情况下,待测元素浓度的预测值
Figure GDA0002331396710000087
与期望值Con之间有差异。
如图3所示,以二维空间举例,广义光谱强度矢量
Figure GDA0002331396710000088
分别用圆圈、菱形、星形的散点来表示。待测元素浓度期望值Co1,Co2,Co3即是半径分别为Co1,Co2,Co3的圆,分别用实线、虚线、点线表示。待测元素浓度的预测值
Figure GDA0002331396710000089
与期望值Con之间有差异,
Figure GDA00023313967100000810
在二维空间中的散点并不完全分布在半径分别为Co1,Co2,Co3的圆上。以下优化算法的任务使待测元素浓度的预测值
Figure GDA00023313967100000811
趋向于期望值Con,即广义光谱强度矢量
Figure GDA00023313967100000812
散点分布在Co1,Co2,Co3的圆上。
步骤S303:确定选定算法fs在优化中可改变的参数。例如,选定的算法为随机森林回归算法,优化中可变参数为决策树个数(n_estimators)和最大特征数(max_features);
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的相对误差小于10-3即0.1%,认为校准模型优化完成;
步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为
Figure GDA0002331396710000091
与Con的相对差的平方总和小于10-3即0.1%,即
Figure GDA0002331396710000092
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;
该评估标准(err<10-3)达到的同时,
Figure GDA0002331396710000093
此时,对于整个浓度系列样品,方法所给出的预测值
Figure GDA0002331396710000094
与期望值Con的相关系数呈现接近1的最大值。
相关系数的计算公式如下:
Figure GDA0002331396710000095
其中,
Figure GDA0002331396710000096
Figure GDA0002331396710000097
与Con的协方差,
Figure GDA0002331396710000098
Figure GDA0002331396710000099
的方差,Var(Con)为Con的方差。
Figure GDA00023313967100000910
的条件下,
Figure GDA00023313967100000911
接近1,见图4。
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
步骤S4得到的优化算法ff,算法ff计算出广义光谱强度矢量
Figure GDA00023313967100000912
的广义模长,即待测元素浓度预测值
Figure GDA00023313967100000913
与待测元素浓度的预测值近似相等,表示为:
Figure GDA00023313967100000914
以二维空间为例,如图5所示,广义光谱强度矢量
Figure GDA00023313967100000915
在这个二维空间中用圆圈、菱形、星形的散点表示。待测元素浓度Co1,Co2,Co3,即是半径分别为Co1,Co2,Co3的圆,
Figure GDA00023313967100000916
使用实线、虚线、点线表示。由于
Figure GDA00023313967100000917
与Con之间近似相等,在二维空间中的散点几乎同时完全地分布在半径分别为Co1,Co2,Co3的圆上。
步骤S5:该步骤是发明的模型的实际应用情况,整个过程的流程图见图8,含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度矢量,输入校准模型中,给出待测元素的浓度含量预测值。
步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用。采集未知样品的原始光谱强度向量
Figure GDA0002331396710000101
样品基体信息向量
Figure GDA0002331396710000102
以及实验条件信息向量
Figure GDA0002331396710000103
如没有样品信息向量
Figure GDA0002331396710000104
作缺省值Null处理。
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
Figure GDA0002331396710000105
如没有样品信息向量
Figure GDA0002331396710000106
未知样品的广义光谱强度矢量写为:
Figure GDA0002331396710000107
步骤S503:将未知样品的广义光谱强度矢量
Figure GDA0002331396710000108
输入校准模型ff中,则可快速(<1s)得到未知样品中待测元素的浓度预测值Cou
下面以土壤中重金属检测为例,来说明该方法的优点。
以本方法检测土壤中的重金属含量为例,在这个例子中,有4组不同的土壤基体样品(NIST2587,NIST2710,自采样品No.3,自采样品No.7),对每种土壤基体进行以下7组重金属银(Ag)浓度(20、50、100、200、400、600、800ppm)的掺杂,对这28组掺杂样品分别进行5次重复的LIBS光谱数据采集,根据本方法对这140组光谱数据进行处理,获得一个优化的光谱校准模型,拿未知银浓度的土壤样品的LIBS光谱数据导入校准模型,在低于1s的时间内,输出此样品的银浓度分析值的偏差在1%以下。
未使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下图9表示。
相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下图10表示。可明显看出相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性更好。
本发明实现步骤以检测泥土粉末状样品中的银元素为例来说明:
1、数据收集及其格式化
(1)准备4种不同的泥土粉末,在样品信息向量
Figure GDA0002331396710000111
中含有一个元素,即样品型号,取M1=1。此时,
Figure GDA0002331396710000112
4种不同泥土粉末的样品信息向量分别标为
Figure GDA0002331396710000113
Figure GDA0002331396710000114
(2)浓度系列样品制备。
对给定一种泥土基体
Figure GDA0002331396710000115
(s=1,2,3,4),以氧化物粉末的形式掺入银元素,对该样品基体
Figure GDA0002331396710000116
制备8种含有不同浓度待测元素银(Ag)的实验样品,由样品基体
Figure GDA0002331396710000117
组成了一系列浓度分别为Co1,Co2,…,Co8的待测样品。
标记 Co<sub>1</sub> Co<sub>2</sub> Co<sub>3</sub> Co<sub>4</sub> Co<sub>5</sub> Co<sub>6</sub> Co<sub>7</sub> Co<sub>8</sub>
浓度(ppm) 0 20 50 100 200 400 600 800
(3)2种不同的实验条件,在实验条件信息向量
Figure GDA0002331396710000118
中含有一个元素,即信号增益,取M2=1。此时,
Figure GDA0002331396710000119
2种不同的实验条件信息向量分别标为
Figure GDA00023313967100001110
Figure GDA00023313967100001111
(4)数据重复采集。
在给定的实验条件
Figure GDA00023313967100001112
(k=1,2),和样品信息向量
Figure GDA00023313967100001113
(s=1,2,3,4)下,选取一含有待测元素浓度Con(n=1,2,3,…,8)的样品进行重复的光谱数据采集,重复次数为5次,获得光谱强度向量
Figure GDA00023313967100001114
分别为
Figure GDA00023313967100001115
(5)广义光谱强度矢量
在给定的实验条件
Figure GDA00023313967100001116
(k=1,2),和样品信息向量
Figure GDA00023313967100001117
(s=1,2,3,4)下,选取一含有待测元素浓度Con(n=1,2,3,…,8)的样品,第j次采集到的光谱强度向量
Figure GDA00023313967100001118
(j=1,2,3,…,5),构成广义光谱强度矢量
Figure GDA00023313967100001119
在M+2(即M+M1+M2)维的超空间中,广义光谱强度矢量可表示如下:
Figure GDA00023313967100001120
2、模型初始化
(1)选定随机森林回归算法,标记为fs。该算法中选定的可调参数为n_estimators和max_features。
(2)对于给定(n,s,k),得到5次重复实验的广义光谱数据中,随机的选出3组作为训练集,剩余2组作为测试集。将测试集输入到选定算法,进行训练。
3、模型的优化
计算算法fs是否满足评估标准(err<10-3),即
Figure GDA0002331396710000121
(1)满足,则得到优化算法。
(2)未满足,则改变选定的可调参数,再计算err。
4、模型的使用
训练好的模型可以用来测试未知土壤样品的重金属银浓度。
虽然本发明以LIBS光谱为切入点和验证实例,这种新的数据处理方法也普适于其它的光谱或质谱数据。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (5)

1.一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;
步骤S2:超空间中的广义光谱强度矢量定义;
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度矢量对应一个广义模长,即待测元素浓度的预测值;
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;
步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度矢量,输入校准模型中,给出待测元素的浓度含量预测值;
步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量
Figure FDA0002372029130000011
样品信息向量
Figure FDA0002372029130000012
实验条件信息向量
Figure FDA0002372029130000013
三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量
Figure FDA0002372029130000014
样品信息向量
Figure FDA0002372029130000015
实验条件信息向量
Figure FDA0002372029130000016
三个部分构成,即
Figure FDA0002372029130000017
在M+M1+M2维的超空间中,广义光谱强度矢量表示如下:
Figure FDA0002372029130000018
对于给定的n,s,k,j,都对应一个广义光谱强度矢量
Figure FDA0002372029130000019
其中,n对应于待测元素浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数;
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量
Figure FDA00023720291300000110
存在一个标量与其对应,被称为其广义模长,矢量
Figure FDA00023720291300000111
的广义模长对应于待测元素浓度期望值Con,映射表示为:
Figure FDA00023720291300000112
2.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量
Figure FDA0002372029130000021
其中
Figure FDA0002372029130000022
Figure FDA0002372029130000023
其中M1为样品信息总数,样品参数信息通过
Figure FDA0002372029130000024
囊括在广义光谱强度矢量里,记录的样品信息向量为
Figure FDA0002372029130000025
其中样品信息向量总数为S,S为正整数,s为大于等于1并小于等于S的整数;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量
Figure FDA0002372029130000026
获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室环境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量
Figure FDA0002372029130000027
其中
Figure FDA0002372029130000028
M2为实验条件信息总数,实验条件信息通过
Figure FDA0002372029130000029
囊括在广义光谱强度矢量里;记录的实验条件信息向量为
Figure FDA00023720291300000210
其中实验条件信息向量总数为K,K为正整数,k为大于等于1并小于等于K的整数;
步骤S104:光谱数据的采集,在给定的实验条件信息向量
Figure FDA00023720291300000211
和样品信息向量
Figure FDA00023720291300000212
的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数;采集到的光谱强度向量
Figure FDA00023720291300000213
Figure FDA00023720291300000214
M为原始光谱强度的总数;记录的实验条件信息向量为
Figure FDA00023720291300000215
其中光谱强度向量总数为J,J为正整数,j为大于等于1并小于等于J的整数。
3.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量
Figure FDA00023720291300000216
的广义模长,对应于待测元素浓度的预测值,表示为
Figure FDA00023720291300000217
Figure FDA00023720291300000218
步骤S303:确定选定算法fs在优化中可改变的参数。
4.根据权利要求3所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为
Figure FDA0002372029130000031
与Con的相对差的平方总和小于10-3即0.1%,即
Figure FDA0002372029130000032
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
5.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用,采集未知样品的原始光谱强度向量
Figure FDA0002372029130000033
样品基体信息向量
Figure FDA0002372029130000034
以及实验条件信息向量
Figure FDA0002372029130000035
Figure 107250DEST_PATH_IMAGE001
,如无样品基体信息向量
Figure FDA0002372029130000036
作缺省值Null处理;
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
Figure FDA0002372029130000037
步骤S503:将未知样品的广义光谱强度矢量
Figure FDA0002372029130000038
输入校准模型ff中,则快速得到未知样品中待测元素的浓度预测值Cou
CN201810829668.5A 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法 Active CN109557080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810829668.5A CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810829668.5A CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Publications (2)

Publication Number Publication Date
CN109557080A CN109557080A (zh) 2019-04-02
CN109557080B true CN109557080B (zh) 2020-07-14

Family

ID=65864439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810829668.5A Active CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Country Status (1)

Country Link
CN (1) CN109557080B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110161013B (zh) * 2019-05-14 2020-12-29 上海交通大学 基于机器学习的激光诱导击穿光谱数据处理方法和系统
CN111504981B (zh) * 2020-04-26 2021-10-22 上海交通大学 测定粉末物质中化学组分和水分含量的方法
CN112834485B (zh) * 2021-02-07 2022-03-29 西南交通大学 激光诱导击穿光谱元素定量分析的一种非定标方法
CN115629057A (zh) * 2022-10-19 2023-01-20 杭州谱育科技发展有限公司 基于libs技术的锂电池正极材料的分析方法
CN118161952B (zh) * 2024-05-14 2024-08-02 青岛兆星环保设备有限公司 一种激光处理工业废气的方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563043A (zh) * 2011-03-31 2014-02-05 马泰奥·弗洛里迪亚 用于样品定量化学分析的具有对仪器响应的校准的特别是医学领域的系统及其对应方法
CN107525797A (zh) * 2017-07-27 2017-12-29 上海交通大学 一种微米量级粉末物质微量元素的libs分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3259567A4 (en) * 2015-01-06 2018-10-10 MASTInc. Mems implementation for detection of wear metals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563043A (zh) * 2011-03-31 2014-02-05 马泰奥·弗洛里迪亚 用于样品定量化学分析的具有对仪器响应的校准的特别是医学领域的系统及其对应方法
CN107525797A (zh) * 2017-07-27 2017-12-29 上海交通大学 一种微米量级粉末物质微量元素的libs分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A study of machine learning regression methods for major elemental analysis of rocks using laser-induced breakdown spectroscopy;Thomas F. Boucher et al.;《Spectrochimica Acta Part B》;20150212(第107期);第1-10页 *
基于LIBS技术的钢铁合金中元素多变量定量分析方法研究;谷艳红等;《光谱学与光谱分析》;20140831;第34卷(第8期);第2244-2249页 *

Also Published As

Publication number Publication date
CN109557080A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109557080B (zh) 一种基于机器学习的光谱数据回归方法
Zhang et al. Chemometrics in laser‐induced breakdown spectroscopy
Bilicki et al. Bright galaxy sample in the Kilo-Degree Survey Data Release 4-Selection, photometric redshifts, and physical properties
Armitage et al. An application of machine learning techniques to galaxy cluster mass estimation using the MACSIS simulations
CN112231621B (zh) 基于BP-adaboost降低元素检出限的方法
CN107895136B (zh) 一种煤矿区域识别方法及系统
CN108830253B (zh) 筛选模型建立方法、光谱筛选装置及方法
van Rossum et al. A method for optimization and validation of moving average as continuous analytical quality control instrument demonstrated for creatinine
CN111351757B (zh) 用于预测食用油样品的油掺杂的定量量度的方法和系统
CN106452934A (zh) 一种网络性能指标变化趋势的分析方法和装置
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
López-García et al. Statistical processing of compositional data. The case of ceramic samples from the archaeological site of Xalasco, Tlaxcala, Mexico
Wang et al. Estimation of soil organic matter by in situ Vis-NIR spectroscopy using an automatically optimized hybrid model of convolutional neural network and long short-term memory network
Chen et al. Probabilistic multivariable calibration for major elements analysis of MarSCoDe Martian laser-induced breakdown spectroscopy instrument on Zhurong rover
TW201321739A (zh) 訊號分析裝置、訊號分析方法及電腦程式產品
Snee Graphical analysis of process variation studies
CN112630180A (zh) 水体中有机磷农药浓度检测的紫外/可见光吸收光谱模型
Liu et al. Sample selection method using near‐infrared spectral information entropy as similarity criterion for constructing and updating peach firmness and soluble solids content prediction models
CN115795225A (zh) 一种近红外光谱校正集的筛选方法及装置
CN105954206B (zh) 紫玉米叶片花色苷含量的测量方法及系统
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模系统及方法
CN109829513B (zh) 一种顺序式波长色散x射线荧光光谱智能分析方法
Gulyanon et al. A comparative study of noise augmentation and deep learning methods on Raman spectral classification of contamination in hard disk drive
Zhang et al. A method derived from genetic algorithm, principal component analysis and artificial neural networks to enhance classification capability of laser-induced breakdown spectroscopy
CN109614954B (zh) 一种土壤重金属污染高光谱迁移的定性分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant