CN109557080A - 一种基于机器学习的光谱数据回归方法 - Google Patents

一种基于机器学习的光谱数据回归方法 Download PDF

Info

Publication number
CN109557080A
CN109557080A CN201810829668.5A CN201810829668A CN109557080A CN 109557080 A CN109557080 A CN 109557080A CN 201810829668 A CN201810829668 A CN 201810829668A CN 109557080 A CN109557080 A CN 109557080A
Authority
CN
China
Prior art keywords
sample
vector
broad sense
concentration
spectral intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810829668.5A
Other languages
English (en)
Other versions
CN109557080B (zh
Inventor
孙琛
俞进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810829668.5A priority Critical patent/CN109557080B/zh
Publication of CN109557080A publication Critical patent/CN109557080A/zh
Application granted granted Critical
Publication of CN109557080B publication Critical patent/CN109557080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/71Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light thermally excited

Landscapes

  • Health & Medical Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供了一种基于机器学习的光谱数据回归方法,包括如下步骤:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;超空间中的广义光谱强度定义;校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于0.1%,认为校准模型优化完成;含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。本发明对元素浓度的测量精确度、准确度达到定量分析的要求;对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求。

Description

一种基于机器学习的光谱数据回归方法
技术领域
本发明属于光谱数据处理领域,尤其涉及到一种基于机器学习的光谱数据回归方法。
背景技术
目前,在工业生产、环境保护等实际应用相关领域,物质中元素的在线检测和定量分析在工业流程和排放实时监控中的应用需求非常迫切。在这样的应用中,数据采集的 实验条件经常不能人为控制且往往比较恶劣,例如利用激光诱导击穿光谱(LIBS)技术 在野外作业、检测排污口废气、废液等排放是否达到国家标准、传送带上的产品是否合 格等。因此,实际应用中采集到的光谱数据具有较强的波动性,通常源自于两个方面: 1)实验条件的不稳定性,比如激光脉冲强度,激光入射样品表面角度,激光聚焦焦点 位置与样品表面之间的距离等在测量中的起伏;2)样品的基体效应,比如待测样品的 物理特性,化学组份,表面形貌及几何形状等在实验中的差异。目前单从设备硬件优化 来克服或减轻上述的由于实验条件的不可控性和样品本身的差异性所引起的测量数据 的抖动和起伏已经趋于饱和。
在硬件优化已经出现天花板的情况下,通过数据处理对光谱的稳定性和可靠性做进 一步的优化似乎成了唯一的方法。对于LIBS光谱数据来讲,目前已经有一些通过数据处理进行分析结果优化的方法,比较普遍的是通过物理模型的免定标法和通过化学计量学的多变量模型分析法。前者,免定标法是在样品的所有元素的谱线强度、所有元素的 浓度、等离子体物理参数(例如温度、密度等)之间建立一个依赖的物理模型。模拟中 需要使用跃迁几率等误差较大,所需测量的激光诱导等离子体物理参数误差较大,及需 对样品中所有元素(主量、微量、恒量)进行归一化,再得到待测元素含量。对待测元 素,特别是微量、恒量元素浓度的测量精度一般来说只能局限于10%以上。因此该方法 实际运用不多,一般只作为半定量分析手段。后者,多变量模型分析法是利用各种化学 计量统计方法,包括多元线性回归、偏最小二乘回归、主成分回归、人工神经网络等。 针对具体的分析对象,基于一定的物理和化学过程的解释,建立数学统计模型,通过一 定的典型样品来拟合分析获得模型参数,从而进行待测物质的元素定标预测。这种方法 通常需要进行有人工干预的光谱预处理,合理提取光谱信息作为输入变量,建立数学模 型。这不仅需要较大的计算量,以及专业人员的人工干预。通过人工干预和有关物理、 化学信息的提取,其目的偏重于对所使用的化学分析方法中所涉及的物理、化学过程进 行研究和优化。
在这同时,随着人工智能和大数据算法的发展,基于机器学习的算法正在为解决越 来越多的工程问题提供有效的方法,这就为研发新型的光谱数据处理方法,弥补上述两种现有的光谱数据,特别是LIBS光谱数据,处理方法所存在的不足创造了条件。
发明内容
本发明的目的在于针对现有光谱分析检测技术中存在的不足和缺陷,提供一种基于机器学习的光谱数据回归方法,将大数据和机器学习的方法结合起来,采用人工 智能的理念,使用先进的计算机计算手段对光谱数据进行更深层次的挖掘和更高速、 更精准的信息提取,从而实现更准、更快、全自动化的光谱分析结果的导出。具体 地是指,本发明将通过把在线检测所获取的样品的包含有随机的和系统偏差的LIBS 光谱数据直接导入训练好的校准模型,最大限度上消除实验条件和样品基体等属性 所带来的光谱数据的起伏和不确定性,快速地获得准确、可靠的待测元素浓度。
本发明是根据以下技术方案实现的:
一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的 输入数据;
步骤S2:超空间中的广义光谱强度定义;
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;
步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度, 输入校准模型中,给出待测元素的浓度含量预测值。
上述技术方案中,步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中M1为样品信息总数,样品参数信息通过囊括在广 义光谱强度里。记录的样品信息向量为其中样品信息向量 总数为S,S为正整数,s为大于等于1并小于等于S的整数;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考 样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实 验条件记录后进行数值化,组成实验条件信息向量其中 M2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里;记录的实验条 件信息向量为其中实验条件信息向量总数为K,K为正整数,k 为大于等于1并小于等于K的整数;
步骤S104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集, 光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于 等于N的整数;采集到的光谱强度向量 M为原始光谱强度的总数。 记录的实验条件信息向量为其中光谱强度向量总数为J,J为正整数, j为大于等于1并小于等于J的整数。
上述技术方案中,步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im, m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在M+M1+M2维 的超空间中,广义光谱强度矢量可表示如下:
对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素 浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j 对应于光谱强度向量的序数;
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱 强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值Con,映射表示为:
上述技术方案中,步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进 行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值, 表示为
步骤S303:确定选定算法fs在优化中可改变的参数。
上述技术方案中,步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为与Con的相对差的平方总和小于10-3即0.1%,即
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对 给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系 列的标定浓度和模型映射浓度的相关性;
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
上述技术方案中,其特征在于,步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用。采集未知样品的原始光谱强度向量样品基体信息向量以及实验条件信息向量如无样品基体信息向量作缺省值Null处理;
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
步骤S503:将未知样品的广义光谱强度矢量输入校准模型ff中,则快速得到未知样品中待测元素的浓度预测值Cou
与现有技术相比,本发明具有如下的有益效果:
1、对元素浓度的测量精确度、准确度等达到定量分析的要求;
2、对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求;
3、不需要专业人员介入。
4、本发明具有普适性,也适合LIBS光谱方法之外的别的光谱方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为二维空间中广义光谱强度矢量示意图;
图2为二维空间中广义光谱强度矢量的广义模长示意图;
图3为训练前的超空间数据散点分布示意图;
图4为待测元素浓度预测值与期望值相关性图;
图5为训练后的超空间数据散点分布示意图;
图6为本发明的方法整体流程示意图;
图7为本发明的数据格式化的示意图;
图8为本发明的模型使用示意图;
图9为未使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图;
图10为使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。 这些都属于本发明的保护范围。
本方法提出并实现了一种基于机器学习的光谱数据回归方法,编制了相应的程序,得到的回归模型可以用于满足上述要求的定量和定性分析。
本方法所用参数定义如表1所示:
表1本方法所用参数定义
本发明的一种基于机器学习的光谱数据回归方法,该种方法流程图如图6所示,其具体步骤如下:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的 输入数据,即广义光谱强度。其中数据格式化的流程图见图7;
步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中其中M1为样品信息总数,样品参数信息通过囊括在广 义光谱强度里。记录的样品信息向量为其中样品信息向量 总数为S,s为大于等于1并小于等于S的整数。为了方便表述,下文中,样品信息向量中 只含有一个元素,例如样品的型号,即取M1=1;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考 样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益等,这些 实验条件记录后进行数值化,组成实验条件信息向量其中 M2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里。记录的实验条 件信息向量为其中实验条件信息向量总数为K,k为大于等于1 并小于等于K的整数。为了方便表述,下文中,实验条件信息向量中只含有一个元素, 例如压强,即取M2=1;
步骤S104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集, 光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于 等于N的整数。采集到的光谱强度向量 M为原始光谱强度的总数。 记录的实验条件信息向量为其中光谱强度向量总数为J,j为大于等 于1并小于等于J的整数。
步骤S2:超空间中的广义光谱强度定义;
步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im, m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在M+M1+M2维 的超空间中,广义光谱强度矢量可表示如下:
对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素 浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j 对应于光谱强度向量的序数。
为了方便表达,下面举例给出在二维空间中的广义光谱强度矢量的图像,如图1所示。
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱 强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值Con,映射表示为:
为了方便表达,作为例子,下面给出在二维空间中的广义光谱强度矢量和所对应的 广义模长的图像,如图2所示。
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;
步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs,例如随机森林回归算法、岭回归、Lasso、前向逐步回归等;
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进 行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值, 表示为
一般情况下,待测元素浓度的预测值与期望值Con之间有差异。
如图3所示,以二维空间举例,广义光谱强度矢量分别用圆圈、菱形、星形的散点来表示。待测元素浓度期望值Co1,Co2,Co3即是半径分别为Co1,Co2,Co3的圆,分别用实线、虚线、点线表示。待测元素浓度的预测值与期望值Con之间有 差异,在二维空间中的散点并不完全分布在半径分别为 Co1,Co2,CO3的圆上。以下优化算法的任务使待测元素浓度的预测值趋向于期望值 Con,即广义光谱强度矢量散点分布在Co1,Co2,Co3的圆上。
步骤S303:确定选定算法fs在优化中可改变的参数。例如,选定的算法为随机森林回归算法,优化中可变参数为决策树个数(n_estimators)和最大特征数 (max_features);
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的相对误差小于10-3即0.1%,认为校准模型优化完成;
步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为与Con的相对差的平方总和小于10-3即0.1%,即
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对 给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系 列的标定浓度和模型映射浓度的相关性;
该评估标准(err<10-3)达到的同时,此时,对于整个浓度系列样品,方法所给出的预测值与期望值Con的相关系数呈现接近1的最大值。
相关系数的计算公式如下:
其中,与Con的协方差,的方差,Var(Con)为Con的方差。
的条件下,接近1,见图4。
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-3,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
步骤S4得到的优化算法ff,算法ff计算出广义光谱强度矢量的广义模长,即待 测元素浓度预测值与待测元素浓度的预测值近似相等,表示为:
以二维空间为例,如图5所示,广义光谱强度矢量在这个二维空间中用圆圈、菱形、星形的散点表示。待测元素浓度Co1,Co2,Co3,即是半径分别为 Co1,Co2,Co3的圆,使用实线、虚线、点线表示。由于与Con之 间近似相等,在二维空间中的散点几乎同时完全地分布在半径分别为Co1,Co2,Co3的圆 上。
步骤S5:该步骤是发明的模型的实际应用情况,整个过程的流程图见图8,含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中, 给出待测元素的浓度含量预测值。
步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用。采集未知样品的原始光谱强度向量样品基体信息向量以及实验条件信息向量如没有样品信息向量作缺省值Null处 理。
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
如没有样品信息向量未知样品的广义光谱强度矢量写为:
步骤S503:将未知样品的广义光谱强度矢量输入校准模型ff中,则可快速(<1s)得 到未知样品中待测元素的浓度预测值Cou
下面以土壤中重金属检测为例,来说明该方法的优点。
以本方法检测土壤中的重金属含量为例,在这个例子中,有4组不同的土壤基体样品(NIST2587,NIST2710,自采样品No.3,自采样品No.7),对每种土壤基体进行以下7 组重金属银(Ag)浓度(20、50、100、200、400、600、800ppm)的掺杂,对这28组掺 杂样品分别进行5次重复的LIBS光谱数据采集,根据本方法对这140组光谱数据进行处 理,获得一个优化的光谱校准模型,拿未知银浓度的土壤样品的LIBS光谱数据导入校准 模型,在低于1s的时间内,输出此样品的银浓度分析值的偏差在1%以下。
未使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下图9表示。
相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性如下 图10表示。可明显看出相同的光谱数据,使用该方法,得到的样品的标定浓度和模型预测浓度相关性更好。
本发明实现步骤以检测泥土粉末状样品中的银元素为例来说明:
1、数据收集及其格式化
(1)准备4种不同的泥土粉末,在样品信息向量中含有一个元素,即样品型号,取M1=1。此时,4种不同泥土粉末的样品信息向量分别标为
(2)浓度系列样品制备。
对给定一种泥土基体(s=1,2,3,4),以氧化物粉末的形式掺入银元素,对 该样品基体制备8种含有不同浓度待测元素银(Ag)的实验样品,由样品基体组 成了一系列浓度分别为Co1,Co2,…,Co8的待测样品。
标记 Co<sub>1</sub> Co<sub>2</sub> Co<sub>3</sub> Co<sub>4</sub> Co<sub>5</sub> Co<sub>6</sub> Co<sub>7</sub> Co<sub>8</sub>
浓度(ppm) 0 20 50 100 200 400 600 800
(3)2种不同的实验条件,在实验条件信息向量中含有一个元素,即信号增益,取M2=1。此时,2种不同的实验条件信息向量分别标为
(4)数据重复采集。
在给定的实验条件(k=1,2),和样品信息向量(s=1,2,3,4)下,选取 一含有待测元素浓度Con(n=1,2,3,…,8)的样品进行重复的光谱数据采集,重复 次数为5次,获得光谱强度向量分别为
(5)广义光谱强度矢量
在给定的实验条件(k=1,2),和样品信息向量(s=1,2,3,4)下,选取 一含有待测元素浓度Con(n=1,2,3,…,8)的样品,第j次采集到的光谱强度向量(j=1, 2,3,…,5),构成广义光谱强度矢量在M+2(即M+M1+M2)维的超空间 中,广义光谱强度矢量可表示如下:
2、模型初始化
(1)选定随机森林回归算法,标记为fs。该算法中选定的可调参数为n_estimators和max_features。
(2)对于给定(n,s,k),得到5次重复实验的广义光谱数据中,随机的选出3组作 为训练集,剩余2组作为测试集。将测试集输入到选定算法,进行训练。
3、模型的优化
计算算法fs是否满足评估标准(err<10-3),即
(1)满足,则得到优化算法。
(2)未满足,则改变选定的可调参数,再计算err。
4、模型的使用
训练好的模型可以用来测试未知土壤样品的重金属银浓度。
虽然本发明以LIBS光谱为切入点和验证实例,这种新的数据处理方法也普适于其它的光谱或质谱数据。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改, 这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的 特征可以任意相互组合。

Claims (6)

1.一种基于机器学习的光谱数据回归方法,其特征在于,包括如下步骤:
步骤S1:光谱数据以及相关实验条件及样品信息收集及其格式化,作为校准模型的输入数据;
步骤S2:超空间中的广义光谱强度定义;
步骤S3:校准模型的建立和初始化,将机器学习中的算法引入校准模型,每一组广义光谱强度对应一个广义模长,即待测元素浓度的预测值;
步骤S4:校准模型的优化,当待测元素浓度的预测值与其期望值的误差小于10-3即0.1%,认为校准模型优化完成;
步骤S5:含有待测元素的未知样品,通过测定光谱数据,建立相应的广义光谱强度,输入校准模型中,给出待测元素的浓度含量预测值。
2.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S1具体包括如下步骤:
步骤S101:样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化,组成样品信息向量其中 其中M1为样品信息总数,样品参数信息通过囊括在广义光谱强度里。记录的样品信息向量为其中样品信息向量总数为S,S为正整数,s为大于等于1并小于等于S的整数;
步骤S102:浓度系列样品获取或制备,对给定的样品信息向量获取或制备N种一系列的含有待测元素浓度分别为Co1,Co2,…,Con,…CoN的标准样品或实验室参考样品,其中n为大于等于1并小于等于N的整数;
步骤S103:实验条件的记录,实验条件包括实验室坏境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益,这些实验条件记录后进行数值化,组成实验条件信息向量其中M2为实验条件信息总数,实验条件信息通过囊括在广义光谱强度里;记录的实验条件信息向量为其中实验条件信息向量总数为K,K为正整数,k为大于等于1并小于等于K的整数;
步骤S104:光谱数据的采集,在给定的实验条件信息向量和样品信息向量的浓度系列实验样品中,选取含有待测元素浓度Con的样品进行重复的光谱数据采集,光谱采集重复的总次数为J次,k为大于等于1并小于等于K的整数,n为大于等于1而小于等于N的整数;采集到的光谱强度向量 M为原始光谱强度的总数;记录的实验条件信息向量为其中光谱强度向量总数为J,J为正整数,j为大于等于1并小于等于J的整数。
3.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S2具体包括如下步骤:
步骤S201:超空间定义,由光谱强度向量样品信息向量实验条件信息向量三个部分共同构成M+M1+M2维的超空间,每个维度的坐标轴即为im,m=1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2;
步骤S202:广义光谱强度矢量的定义,广义光谱强度矢量由光谱强度向量样品信息向量实验条件信息向量三个部分构成,即在M+M1+M2维的超空间中,广义光谱强度矢量表示如下:
对于给定的n,s,k,j,都对应一个广义光谱强度矢量其中,n对应于待测元素浓度期望值Con,s对应于样品信息向量的序数,k对应于实验条件信息向量的序数,j对应于光谱强度向量的序数;
步骤S203:定义广义光谱强度矢量的广义模长,对于在超空间中一给定的广义光谱强度矢量存在一个标量与其对应,被称为其广义模长,矢量的广义模长对应于待测元素浓度期望值Con,映射表示为:
4.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S3具体包括如下步骤:
步骤S301:选定机器学习算法,将选择的算法标记为fs
步骤S302:将格式化的输入矩阵分别输入到选定机器学习算法,通过输入的数据进行训练,其目的使广义模长在数值上等于相应样品的待测元素含量的浓度;算法fs通过默认状态计算出广义光谱强度矢量的广义模长,对应于待测元素浓度的预测值,表示为
步骤S303:确定选定算法fs在优化中可改变的参数。
5.根据权利要求4所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S4具体包括如下步骤:
步骤S401:确定评估算法标准,评估标准为与Con的相对差的平方总和小于10-3即0.1%,即
其总体优化的评估标准包括:对给定待测元素浓度、样品、实验条件情况下,降低重复测量之间的误差;对给定待测元素浓度、样品,降低实验条件引起的数据误差;对给定待测元素浓度,降低样品,特别是样品基体不同引起的实验误差;提高整个浓度系列的标定浓度和模型映射浓度的相关性;
步骤S402:根据评估算法标准err<10-3,评价算法fs,判断算法fs的err是否为小于10-t,如果满足评价标准,则优化完成,获得校准模型为ff,直接进入步骤S5;
步骤S403:如果算法fs不满足err<10-3,修改步骤S303选定的可调参数,进入步骤S401;
步骤S404:重复步骤S401、S402、S403的循环过程,如果运算时间大于20分钟,则强制中断,模型报错。
6.根据权利要求1所述的一种基于机器学习的光谱数据回归方法,其特征在于,步骤S5具体包括如下步骤:
步骤S501:优化的校准模型的使用,采集未知样品的原始光谱强度向量样品基体信息向量以及实验条件信息向量如无样品基体信息向量作缺省值Null处理;
步骤S502:未知样品数据格式化,对上述的广义光谱数据进行格式化,未知样品的广义光谱强度矢量写为:
步骤S503:将未知样品的广义光谱强度矢量输入校准模型ff中,则快速得到未知样品中待测元素的浓度预测值Cou
CN201810829668.5A 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法 Active CN109557080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810829668.5A CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810829668.5A CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Publications (2)

Publication Number Publication Date
CN109557080A true CN109557080A (zh) 2019-04-02
CN109557080B CN109557080B (zh) 2020-07-14

Family

ID=65864439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810829668.5A Active CN109557080B (zh) 2018-07-25 2018-07-25 一种基于机器学习的光谱数据回归方法

Country Status (1)

Country Link
CN (1) CN109557080B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110161013A (zh) * 2019-05-14 2019-08-23 上海交通大学 基于机器学习的激光诱导击穿光谱数据处理方法和系统
CN111504981A (zh) * 2020-04-26 2020-08-07 上海交通大学 测定粉末物质中化学组分和水分含量的方法
CN112834485A (zh) * 2021-02-07 2021-05-25 西南交通大学 激光诱导击穿光谱元素定量分析的一种非定标方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563043A (zh) * 2011-03-31 2014-02-05 马泰奥·弗洛里迪亚 用于样品定量化学分析的具有对仪器响应的校准的特别是医学领域的系统及其对应方法
US20160195509A1 (en) * 2015-01-06 2016-07-07 Mastinc. Mems implementation for detection of wear metals
CN107525797A (zh) * 2017-07-27 2017-12-29 上海交通大学 一种微米量级粉末物质微量元素的libs分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103563043A (zh) * 2011-03-31 2014-02-05 马泰奥·弗洛里迪亚 用于样品定量化学分析的具有对仪器响应的校准的特别是医学领域的系统及其对应方法
US20160195509A1 (en) * 2015-01-06 2016-07-07 Mastinc. Mems implementation for detection of wear metals
CN107525797A (zh) * 2017-07-27 2017-12-29 上海交通大学 一种微米量级粉末物质微量元素的libs分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS F. BOUCHER ET AL.: "A study of machine learning regression methods for major elemental analysis of rocks using laser-induced breakdown spectroscopy", 《SPECTROCHIMICA ACTA PART B》 *
谷艳红等: "基于LIBS技术的钢铁合金中元素多变量定量分析方法研究", 《光谱学与光谱分析》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110161013A (zh) * 2019-05-14 2019-08-23 上海交通大学 基于机器学习的激光诱导击穿光谱数据处理方法和系统
CN111504981A (zh) * 2020-04-26 2020-08-07 上海交通大学 测定粉末物质中化学组分和水分含量的方法
CN111504981B (zh) * 2020-04-26 2021-10-22 上海交通大学 测定粉末物质中化学组分和水分含量的方法
CN112834485A (zh) * 2021-02-07 2021-05-25 西南交通大学 激光诱导击穿光谱元素定量分析的一种非定标方法

Also Published As

Publication number Publication date
CN109557080B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
Lippich et al. Comparing approximate methods for mock catalogues and covariance matrices–I. Correlation function
Vallini et al. High [O III]/[C II] surface brightness ratios trace early starburst galaxies
Israel et al. The 400d Galaxy Cluster Survey weak lensing programme-III. Evidence for consistent WL and X-ray masses at z≈ 0.5
Ríos et al. Quality assurance of qualitative analysis in the framework of the European project’MEQUALAN’
Bilicki et al. Bright galaxy sample in the Kilo-Degree Survey Data Release 4-Selection, photometric redshifts, and physical properties
CN109557080A (zh) 一种基于机器学习的光谱数据回归方法
CN105447323A (zh) 一种数据异常波动检测方法和装置
Carlotti et al. GMTR: Two-dimensional geo-fit multitarget retrieval model for Michelson Interferometer for Passive Atmospheric Sounding/Environmental Satellite observations
CN108830253B (zh) 筛选模型建立方法、光谱筛选装置及方法
Wolz et al. Intensity mapping cross-correlations II: HI halo models including shot noise
CN105486655A (zh) 基于红外光谱智能鉴定模型的土壤有机质快速检测方法
CN112231621B (zh) 基于BP-adaboost降低元素检出限的方法
CN113108918B (zh) 一种极轨气象卫星热红外遥感数据反演气温方法
CN110018294A (zh) 土壤重金属检测值校正方法、装置和计算机存储介质
Thepsuriya et al. Accuracy of cosmological parameters using the baryon acoustic scale
Barbaresi et al. A method for the validation of measurements collected by different monitoring systems applied to aquaculture processing plants
Prettyman et al. Generalized early warning signals in multivariate and gridded data with an application to tropical cyclones
Langeroudy et al. Enhanced intelligent approach for determination of crude oil viscosity at reservoir conditions
CN109596545B (zh) 全光谱水质监测设备质控方法
Müller et al. Indoor localisation using aroma fingerprints: A first sniff
Chown et al. The mid-infrared Leavitt law for classical Cepheids in the Magellanic Clouds
Xu et al. Modified self‐adaptive model for improving the prediction accuracy of soil organic matter by laser‐induced breakdown spectroscopy
Cheema et al. LARgE Survey–II. The dark matter haloes and the progenitors and descendants of ultramassive passive galaxies at cosmic noon
Lincy et al. Deep residual network for soil nutrient assessment using optical sensors
Compernolle et al. Quality assessment of QA4ECV climate data records of atmospheric composition: terminology, methodology and application to tropospheric NO2, HCHO and CO from the GOME-2, IASI and OMI satellites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant