CN109557080B

CN109557080B - 一种基于机器学习的光谱数据回归方法

Info

Publication number: CN109557080B
Application number: CN201810829668.5A
Authority: CN
Inventors: 孙琛; 俞进
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2020-07-14
Anticipated expiration: 2038-07-25
Also published as: CN109557080A

Abstract

本发明提供了一种基于机器学习的光谱数据回归方法，包括如下步骤：光谱数据以及相关实验条件及样品信息收集及其格式化，作为校准模型的输入数据；超空间中的广义光谱强度矢量定义；校准模型的建立和初始化，将机器学习中的算法引入校准模型，每一组广义光谱强度矢量对应一个广义模长，即待测元素浓度的预测值；校准模型的优化，当待测元素浓度的预测值与其期望值的误差小于0.1％，认为校准模型优化完成；含有待测元素的未知样品，通过测定光谱数据，建立相应的广义光谱强度矢量，输入校准模型中，给出待测元素浓度含量预测值。本发明对元素浓度测量精准度达到定量分析的要求；对检测未知样品待测元素浓度的计算时间达到工业在线监测的要求。

Description

一种基于机器学习的光谱数据回归方法

技术领域

本发明属于光谱数据处理领域，尤其涉及到一种基于机器学习的光谱数据回归方法。

背景技术

目前，在工业生产、环境保护等实际应用相关领域，物质中元素的在线检测和定量分析在工业流程和排放实时监控中的应用需求非常迫切。在这样的应用中，数据采集的实验条件经常不能人为控制且往往比较恶劣，例如利用激光诱导击穿光谱(LIBS)技术在野外作业、检测排污口废气、废液等排放是否达到国家标准、传送带上的产品是否合格等。因此，实际应用中采集到的光谱数据具有较强的波动性，通常源自于两个方面：1)实验条件的不稳定性，比如激光脉冲强度，激光入射样品表面角度，激光聚焦焦点位置与样品表面之间的距离等在测量中的起伏；2)样品的基体效应，比如待测样品的物理特性，化学组份，表面形貌及几何形状等在实验中的差异。目前单从设备硬件优化来克服或减轻上述的由于实验条件的不可控性和样品本身的差异性所引起的测量数据的抖动和起伏已经趋于饱和。

在硬件优化已经出现天花板的情况下，通过数据处理对光谱的稳定性和可靠性做进一步的优化似乎成了唯一的方法。对于LIBS光谱数据来讲，目前已经有一些通过数据处理进行分析结果优化的方法，比较普遍的是通过物理模型的免定标法和通过化学计量学的多变量模型分析法。前者，免定标法是在样品的所有元素的谱线强度、所有元素的浓度、等离子体物理参数(例如温度、密度等)之间建立一个依赖的物理模型。模拟中需要使用跃迁几率等误差较大，所需测量的激光诱导等离子体物理参数误差较大，及需对样品中所有元素(主量、微量、恒量)进行归一化，再得到待测元素含量。对待测元素，特别是微量、恒量元素浓度的测量精度一般来说只能局限于10％以上。因此该方法实际运用不多，一般只作为半定量分析手段。后者，多变量模型分析法是利用各种化学计量统计方法，包括多元线性回归、偏最小二乘回归、主成分回归、人工神经网络等。针对具体的分析对象，基于一定的物理和化学过程的解释，建立数学统计模型，通过一定的典型样品来拟合分析获得模型参数，从而进行待测物质的元素定标预测。这种方法通常需要进行有人工干预的光谱预处理，合理提取光谱信息作为输入变量，建立数学模型。这不仅需要较大的计算量，以及专业人员的人工干预。通过人工干预和有关物理、化学信息的提取，其目的偏重于对所使用的化学分析方法中所涉及的物理、化学过程进行研究和优化。

在这同时，随着人工智能和大数据算法的发展，基于机器学习的算法正在为解决越来越多的工程问题提供有效的方法，这就为研发新型的光谱数据处理方法，弥补上述两种现有的光谱数据，特别是LIBS光谱数据，处理方法所存在的不足创造了条件。

发明内容

本发明的目的在于针对现有光谱分析检测技术中存在的不足和缺陷，提供一种基于机器学习的光谱数据回归方法，将大数据和机器学习的方法结合起来，采用人工智能的理念，使用先进的计算机计算手段对光谱数据进行更深层次的挖掘和更高速、更精准的信息提取，从而实现更准、更快、全自动化的光谱分析结果的导出。具体地是指，本发明将通过把在线检测所获取的样品的包含有随机的和系统偏差的LIBS光谱数据直接导入训练好的校准模型，最大限度上消除实验条件和样品基体等属性所带来的光谱数据的起伏和不确定性，快速地获得准确、可靠的待测元素浓度。

本发明是根据以下技术方案实现的：

一种基于机器学习的光谱数据回归方法，其特征在于，包括如下步骤：

步骤S1：光谱数据以及相关实验条件及样品信息收集及其格式化，作为校准模型的输入数据；

步骤S2：超空间中的广义光谱强度矢量定义；

步骤S3：校准模型的建立和初始化，将机器学习中的算法引入校准模型，每一组广义光谱强度矢量对应一个广义模长，即待测元素浓度的预测值；

步骤S4：校准模型的优化，当待测元素浓度的预测值与其期望值的误差小于10^-3即0.1％，认为校准模型优化完成；

步骤S5：含有待测元素的未知样品，通过测定光谱数据，建立相应的广义光谱强度矢量，输入校准模型中，给出待测元素的浓度含量预测值。

上述技术方案中，步骤S1具体包括如下步骤：

步骤S101：样品参数及其制备条件的记录,包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化，组成样品信息向量

其中

其中M1为样品信息总数，样品参数信息通过

囊括在广义光谱强度矢量里。记录的样品信息向量为

其中样品信息向量总数为S，S为正整数，s为大于等于1并小于等于S的整数；

步骤S102：浓度系列样品获取或制备，对给定的样品信息向量

获取或制备N种一系列的含有待测元素浓度分别为Co₁,Co₂,…,Co_n,…Co_N的标准样品或实验室参考样品，其中n为大于等于1并小于等于N的整数；

步骤S103：实验条件的记录，实验条件包括实验室环境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益，这些实验条件记录后进行数值化，组成实验条件信息向量

其中

M2为实验条件信息总数，实验条件信息通过

囊括在广义光谱强度矢量里；记录的实验条件信息向量为

其中实验条件信息向量总数为K，K为正整数，k为大于等于1并小于等于K的整数；

步骤S104：光谱数据的采集，在给定的实验条件信息向量

和样品信息向量

的浓度系列实验样品中，选取含有待测元素浓度Co_n的样品进行重复的光谱数据采集，光谱采集重复的总次数为J次，k为大于等于1并小于等于K的整数，n为大于等于1而小于等于N的整数；采集到的光谱强度向量

M为原始光谱强度的总数。记录的实验条件信息向量为

其中光谱强度向量总数为J，J为正整数，j为大于等于1并小于等于J的整数。

上述技术方案中，步骤S2具体包括如下步骤：

步骤S201：超空间定义，由光谱强度向量

样品信息向量

实验条件信息向量

三个部分共同构成M+M1+M2维的超空间，每个维度的坐标轴即为i_m，m＝1,2,…M,M+1,…,M+M1,M+M1+1,…,M+M1+M2；

步骤S202：广义光谱强度矢量的定义，广义光谱强度矢量由光谱强度向量

样品信息向量

实验条件信息向量

三个部分构成，即

在M+M1+M2维的超空间中，广义光谱强度矢量可表示如下：

对于给定的n,s,k,j，都对应一个广义光谱强度矢量

其中，n对应于待测元素浓度期望值Co_n，s对应于样品信息向量的序数，k对应于实验条件信息向量的序数，j对应于光谱强度向量的序数；

步骤S203：定义广义光谱强度矢量的广义模长，对于在超空间中一给定的广义光谱强度矢量

存在一个标量与其对应，被称为其广义模长，矢量

的广义模长对应于待测元素浓度期望值Co_n，映射表示为：

上述技术方案中，步骤S3具体包括如下步骤：

步骤S301：选定机器学习算法，将选择的算法标记为f_s；

步骤S302：将格式化的输入矩阵分别输入到选定机器学习算法，通过输入的数据进行训练，其目的使广义模长在数值上等于相应样品的待测元素含量的浓度；算法f_s通过默认状态计算出广义光谱强度矢量

的广义模长，对应于待测元素浓度的预测值，表示为

步骤S303：确定选定算法f_s在优化中可改变的参数。

上述技术方案中，步骤S4具体包括如下步骤：

步骤S401：确定评估算法标准，评估标准为

与Co_n的相对差的平方总和小于10^-3即0.1％，即

其总体优化的评估标准包括：对给定待测元素浓度、样品、实验条件情况下，降低重复测量之间的误差；对给定待测元素浓度、样品，降低实验条件引起的数据误差；对给定待测元素浓度，降低样品，特别是样品基体不同引起的实验误差；提高整个浓度系列的标定浓度和模型映射浓度的相关性；

步骤S402：根据评估算法标准err<10^-3，评价算法f_s，判断算法f_s的err是否为小于10^-3，如果满足评价标准，则优化完成，获得校准模型为f_f，直接进入步骤S5；

步骤S403：如果算法f_s不满足err<10^-3，修改步骤S303选定的可调参数，进入步骤S401；

步骤S404：重复步骤S401、S402、S403的循环过程，如果运算时间大于20分钟，则强制中断，模型报错。

上述技术方案中，其特征在于，步骤S5具体包括如下步骤：

步骤S501：优化的校准模型的使用。采集未知样品的原始光谱强度向量

样品基体信息向量

以及实验条件信息向量

如无样品基体信息向量

作缺省值Null处理；

步骤S502：未知样品数据格式化，对上述的广义光谱数据进行格式化，未知样品的广义光谱强度矢量写为：

步骤S503：将未知样品的广义光谱强度矢量

输入校准模型f_f中，则快速得到未知样品中待测元素的浓度预测值Co^u。

与现有技术相比，本发明具有如下的有益效果：

1、对元素浓度的测量精确度、准确度等达到定量分析的要求；

2、对检测未知样品的待测元素浓度的计算时间达到工业在线监测的要求；

3、不需要专业人员介入。

4、本发明具有普适性，也适合LIBS光谱方法之外的别的光谱方法。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为二维空间中广义光谱强度矢量示意图；

图2为二维空间中广义光谱强度矢量的广义模长示意图；

图3为训练前的超空间数据散点分布示意图；

图4为待测元素浓度预测值与期望值相关性图；

图5为训练后的超空间数据散点分布示意图；

图6为本发明的方法整体流程示意图；

图7为本发明的数据格式化的示意图；

图8为本发明的模型使用示意图；

图9为未使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图；

图10为使用本发明的方法得到的样品的标定浓度和模型预测浓度相关性示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本方法提出并实现了一种基于机器学习的光谱数据回归方法，编制了相应的程序，得到的回归模型可以用于满足上述要求的定量和定性分析。

本方法所用参数定义如表1所示：

表1本方法所用参数定义

本发明的一种基于机器学习的光谱数据回归方法，该种方法流程图如图6所示，其具体步骤如下：

步骤S1：光谱数据以及相关实验条件及样品信息收集及其格式化，作为校准模型的输入数据，即广义光谱强度矢量。其中数据格式化的流程图见图7；

步骤S1具体包括如下步骤：

其中

其中M1为样品信息总数，样品参数信息通过

囊括在广义光谱强度矢量里。记录的样品信息向量为

其中样品信息向量总数为S，s为大于等于1并小于等于S的整数。为了方便表述，下文中，样品信息向量

中只含有一个元素，例如样品的型号，即取M1＝1；

步骤S102：浓度系列样品获取或制备，对给定的样品信息向量

步骤S103：实验条件的记录，实验条件包括实验室环境温度、压强、湿度、激光波长、激光脉冲能量、脉宽、光谱检测设备的延时和曝光门宽宽度、检测器增益等，这些实验条件记录后进行数值化，组成实验条件信息向量

其中

M2为实验条件信息总数，实验条件信息通过

囊括在广义光谱强度矢量里。记录的实验条件信息向量为

其中实验条件信息向量总数为K，k为大于等于1并小于等于K的整数。为了方便表述，下文中，实验条件信息向量

中只含有一个元素，例如压强，即取M2＝1；

步骤S104：光谱数据的采集，在给定的实验条件信息向量

和样品信息向量

的浓度系列实验样品中，选取含有待测元素浓度Co_n的样品进行重复的光谱数据采集，光谱采集重复的总次数为J次，k为大于等于1并小于等于K的整数，n为大于等于1而小于等于N的整数。采集到的光谱强度向量

M为原始光谱强度的总数。记录的实验条件信息向量为

其中光谱强度向量总数为J，j为大于等于1并小于等于J的整数。

步骤S2：超空间中的广义光谱强度矢量定义；

步骤S2具体包括如下步骤：

步骤S201：超空间定义，由光谱强度向量

样品信息向量

实验条件信息向量

样品信息向量

实验条件信息向量

三个部分构成，即

在M+M1+M2维的超空间中，广义光谱强度矢量可表示如下：

对于给定的n,s,k,j，都对应一个广义光谱强度矢量

其中，n对应于待测元素浓度期望值Co_n，s对应于样品信息向量的序数，k对应于实验条件信息向量的序数，j对应于光谱强度向量的序数。

为了方便表达，下面举例给出在二维空间中的广义光谱强度矢量的图像，如图1所示。

存在一个标量与其对应，被称为其广义模长，矢量

的广义模长对应于待测元素浓度期望值Co_n，映射表示为：

为了方便表达，作为例子，下面给出在二维空间中的广义光谱强度矢量和所对应的广义模长的图像，如图2所示。

步骤S3具体包括如下步骤：

步骤S301：选定机器学习算法，将选择的算法标记为f_s，例如随机森林回归算法、岭回归、Lasso、前向逐步回归等；

步骤S302：将格式化的输入矩阵分别输入到选定机器学习算法，通过输入的数据进行训练，其目的使广义模长在数值上等于相应样品的待测元素含量的浓度；算法fs通过默认状态计算出广义光谱强度矢量

的广义模长，对应于待测元素浓度的预测值，表示为

一般情况下，待测元素浓度的预测值

与期望值Co_n之间有差异。

如图3所示，以二维空间举例，广义光谱强度矢量

分别用圆圈、菱形、星形的散点来表示。待测元素浓度期望值Co₁,Co₂,Co₃即是半径分别为Co₁,Co₂,Co₃的圆，分别用实线、虚线、点线表示。待测元素浓度的预测值

与期望值Co_n之间有差异，

在二维空间中的散点并不完全分布在半径分别为Co₁,Co₂,Co₃的圆上。以下优化算法的任务使待测元素浓度的预测值

趋向于期望值Co_n，即广义光谱强度矢量

散点分布在Co₁,Co₂,Co₃的圆上。

步骤S303：确定选定算法f_s在优化中可改变的参数。例如，选定的算法为随机森林回归算法，优化中可变参数为决策树个数(n_estimators)和最大特征数(max_features)；

步骤S4：校准模型的优化，当待测元素浓度的预测值与其期望值的相对误差小于10^-3即0.1％，认为校准模型优化完成；

步骤S4具体包括如下步骤：

步骤S401：确定评估算法标准，评估标准为

与Co_n的相对差的平方总和小于10^-3即0.1％，即

该评估标准(err<10^-3)达到的同时，

此时，对于整个浓度系列样品，方法所给出的预测值

与期望值Co_n的相关系数呈现接近1的最大值。

Claims

1.一种基于机器学习的光谱数据回归方法，其特征在于，包括如下步骤：

步骤S2：超空间中的广义光谱强度矢量定义；

步骤S5：含有待测元素的未知样品，通过测定光谱数据，建立相应的广义光谱强度矢量，输入校准模型中，给出待测元素的浓度含量预测值；

步骤S2具体包括如下步骤：

步骤S201：超空间定义，由光谱强度向量

样品信息向量

实验条件信息向量

三个部分共同构成M+M1+M2维的超空间，每个维度的坐标轴即为i_m，m＝1，2，…M，M+1，…，M+M1，M+M1+1，…，M+M1+M2；

样品信息向量

实验条件信息向量

三个部分构成，即

在M+M1+M2维的超空间中，广义光谱强度矢量表示如下：

对于给定的n，s，k，j，都对应一个广义光谱强度矢量

存在一个标量与其对应，被称为其广义模长，矢量

的广义模长对应于待测元素浓度期望值Co_n，映射表示为：

2.根据权利要求1所述的一种基于机器学习的光谱数据回归方法，其特征在于，步骤S1具体包括如下步骤：

步骤S101：样品参数及其制备条件的记录，包括样品的型号、基体、形态、取样和制备方法的条件记录后进行数值化，组成样品信息向量

其中

其中M1为样品信息总数，样品参数信息通过

囊括在广义光谱强度矢量里，记录的样品信息向量为

步骤S102：浓度系列样品获取或制备，对给定的样品信息向量

获取或制备N种一系列的含有待测元素浓度分别为Co₁，Co₂，…，Co_n，…Co_N的标准样品或实验室参考样品，其中n为大于等于1并小于等于N的整数；

其中

M2为实验条件信息总数，实验条件信息通过

囊括在广义光谱强度矢量里；记录的实验条件信息向量为

步骤S104：光谱数据的采集，在给定的实验条件信息向量

和样品信息向量

M为原始光谱强度的总数；记录的实验条件信息向量为

3.根据权利要求1所述的一种基于机器学习的光谱数据回归方法，其特征在于，步骤S3具体包括如下步骤：

步骤S301：选定机器学习算法，将选择的算法标记为f_s；

的广义模长，对应于待测元素浓度的预测值，表示为

步骤S303：确定选定算法f_s在优化中可改变的参数。

4.根据权利要求3所述的一种基于机器学习的光谱数据回归方法，其特征在于，步骤S4具体包括如下步骤：

步骤S401：确定评估算法标准，评估标准为

与Co_n的相对差的平方总和小于10^-3即0.1％，即

步骤S402：根据评估算法标准err＜10^-3，评价算法f_s，判断算法f_s的err是否为小于10^-3，如果满足评价标准，则优化完成，获得校准模型为f_f，直接进入步骤S5；

步骤S403：如果算法f_s不满足err＜10^-3，修改步骤S303选定的可调参数，进入步骤S401；

5.根据权利要求1所述的一种基于机器学习的光谱数据回归方法，其特征在于，步骤S5具体包括如下步骤：

步骤S501：优化的校准模型的使用，采集未知样品的原始光谱强度向量

样品基体信息向量

以及实验条件信息向量

，如无样品基体信息向量

作缺省值Null处理；

步骤S503：将未知样品的广义光谱强度矢量