CN109142251B

CN109142251B - 随机森林辅助人工神经网络的libs定量分析方法

Info

Publication number: CN109142251B
Application number: CN201811078336.4A
Authority: CN
Inventors: 李阔湖; 代克杰; 赵志敏; 杜豪杰; 李鹏飞; 袁书卿
Original assignee: Pingdingshan University
Current assignee: Pingdingshan University
Priority date: 2018-09-17
Filing date: 2018-09-17
Publication date: 2020-11-03
Anticipated expiration: 2038-09-17
Also published as: CN109142251A

Abstract

本发明涉及一种随机森林辅助人工神经网络的LIBS定量分析方法，具体为：1、使用LIBS对n个标准样品采集光谱数据；2、得到内标后的光谱变量；3、对光谱变量进行权重标定，得到平均权重值；4、以平均权重值作为选择光谱变量的标准，并利用标准样品中被分析元素的已知含量，对人工神经网络进行训练，获得人工神经网络分析模型和被分析元素的最优光谱变量集的构成规则；5、使用LIBS采集被测物的光谱，并得到内标后的光谱变量，按照最优光谱变量集的构成规则构建被测物的光谱变量集；6、将被测物的光谱变量集中的光谱变量作为输入值代入人工神经网络分析模型，输出被测物中被分析元素的含量。本发明具有较高的准确度。

Description

随机森林辅助人工神经网络的LIBS定量分析方法

(一)、技术领域：

本发明涉及一种成分分析方法，特别涉及一种随机森林辅助人工神经网络的LIBS定量分析方法。

(二)、背景技术：

LIBS(laser-induced breakdown spectroscopy，激光诱导击穿光谱)是一种原子发射光谱技术，它利用高强度脉冲激光烧蚀样品产生等离子体，通过采集分析等离子体发射光谱，得到样品中元素种类及含量。LIBS技术具有可快速检测，较少或不需样品制备，较低的样品损耗，可在线、原位检测，可分析多种物态等优点，越来越广泛地应用于生物医学，冶金，环境监测，文物分析鉴定，太空探索和能源开发等诸多领域。

最常用的LIBS定量分析方法是校准曲线法，即使用被分析元素的某条谱线强度与校准样品中该元素的含量建立校准曲线，然后依据被测物中该元素的谱线强度由校准曲线求得被测物中该元素含量。校准曲线法虽然在一定程度上能减弱等离子体光谱波动带来的影响，但其分析准确度和精密度仍然不高，难以得到令人满意的结果。LIBS光谱不稳定且受多种因素影响，校准曲线分析法使用很少的光谱信息，无法精确地反映元素含量和光谱变量之间的映射关系，从而限制了LIBS分析准确度的提高。

(三)、发明内容：

本发明要解决的技术问题是：提供一种随机森林辅助人工神经网络的LIBS定量分析方法，该分析方法具有较高的准确度。

本发明的技术方案：

一种随机森林辅助人工神经网络(Random-forest-assisting artificial-neural-network，简称RFA-ANN)的LIBS定量分析方法，具体为：

第1步、光谱数据的采集：选用n个和被测物基体构成尽可能一致的标准样品，n个标准样品中被分析元素含量已知且各不相同，使用LIBS系统对n个标准样品采集光谱数据；n为大于1的自然数；

第2步、对光谱数据进行内标处理：按照内标法的标准找到一种内标元素的m条谱线作为内标线，m为大于等于1的自然数；对于每个标准样品的每幅光谱进行如下操作：

当m等于1时，用这一条内标线对所有光谱进行内标处理，即所有光谱的强度分别除以这一条内标线的强度，得到的比值作为内标后的光谱变量；

当m大于1时，以相邻内标线的波长中点为界，把采集的光谱分成m个光谱区域；对每个光谱区域，用该光谱区域内的内标线对光谱进行内标处理，即该光谱区域的所有光谱的强度分别除以该光谱区域内的内标线的强度，得到的比值作为内标后的光谱变量；

第3步、对所有光谱变量进行权重标定：用所有光谱变量作为输入量，以选定一定的决策树棵数(ntree)，以一定步长逐步增加使用的特征变量数(mtry)，建立随机森林回归模型，对标准样品进行去一交叉验证法(Leave-One-Out Cross-Validation，简写为LOOCV)分析，直至交叉验证的均方根误差(root-mean-square error of cross-validation，简写为RMSECV)最小；把每个光谱变量在所有特征变量数情况下取得的权重值求平均，得到每个光谱变量平均后的权重值，该平均后的权重值称为平均权重值；用这些平均权重值表示不同光谱变量的重要性，作为判断光谱变量优劣的依据；

第4步、建立人工神经网络分析模型：以平均权重值作为选择光谱变量的标准，选取平均权重值大于光谱变量选择阈值Q_E的光谱变量作为人工神经网络的输入值，并利用标准样品中被分析元素的已知含量，对人工神经网络进行训练，获得人工神经网络分析模型和被分析元素的最优光谱变量集S1的构成规则；

第5步、使用LIBS系统采集被测物的光谱，对于被测物的每幅光谱进行如下操作：

按照被分析元素的最优光谱变量集S1的构成规则构建被测物中被分析元素的光谱变量集S2；

第6步、将被测物中被分析元素的光谱变量集S2中的光谱变量作为输入值代入训练好的人工神经网络分析模型，输出被测物中被分析元素的含量。

第4步的具体过程如下：

第4.1步、计算光谱变量选择阈值Q_E：Q_E＝Q_C-△Q，△Q＝(Q_C-Q_D)/H，Q_C为所有光谱变量的平均权重值中的最大值，Q_D为所有光谱变量的平均权重值中的最小值，参数H为100～1000；

第4.2步、选择平均权重值大于光谱变量选择阈值Q_E的光谱变量作为人工神经网络的输入值，并利用标准样品中被分析元素的已知含量，对人工神经网络进行训练，按照使用人工神经网络时对输入值和输出值进行归一化和反归一化操作的规则对人工神经网络的输入值和输出值进行归一化和反归一化操作；采用去一交叉验证法对n个标准样品中被分析元素含量进行预测，该预测重复l次，l为大于等于2的自然数；

第4.3步、若l次预测结果一致，则执行第4.4步；若l次预测结果不一致，则按照人工神经网络参数选取的一般规律对人工神经网络参数选取不同的值，然后执行第4.2步；

由于计算机执行时预测结果的数值并不会完全相等，只要在标准样品的被分析元素含量的有效数字精度范围内一致即可；

第4.4步、计算交叉验证的均方根误差R1：

其中：

y_i是第i个标准样品中被分析元素的已知含量，y_ij是第i个标准样品的第j幅光谱对应的预测值，每个标准样品采集的光谱幅数均为k；计算交叉验证的均方根误差R1时，从n个标准样品的分析结果中除去2个标准样品的分析结果，该2个标准样品为：被分析元素已知含量最大的标准样品和被分析元素已知含量最小的标准样品；

将该次计算出的交叉验证的均方根误差R1和此时对应的光谱变量选择阈值Q_E记录下来；

第4.5步、使光谱变量选择阈值Q_E＝Q_E-△Q，然后判断光谱变量选择阈值Q_E是否大于△Q；如果Q_E大于△Q，执行第4.2步；如果Q_E不大于△Q，则根据每次测得的交叉验证的均方根误差R1和对应的光谱变量选择阈值Q_E做关系曲线，并找出关系曲线上交叉验证的均方根误差R1的最小值，该最小值对应的光谱变量选择阈值Q_E就是最优光谱变量选择阈值；

第4.6步、选取平均权重值大于最优光谱变量选择阈值的光谱变量组成最优光谱变量集，光谱变量优化完成；把计算最小的交叉验证的均方根误差R1时所用的人工神经网络参数和训练参数作为分析模型参数和训练参数，并记录最优光谱变量集的构成规则，即最优光谱变量集里的光谱变量在光谱数据中的位置；

第4.7步、使用最优光谱变量集作为输入值，并利用标准样品中被分析元素的已知含量，以第4.6步中选定的分析模型参数和训练参数对人工神经网络进行训练，得到训练好的人工神经网络分析模型。

人工神经网络为MATLAB(Ver.:R2016a,MathWorks Corporation,USA)中的后向传播人工神经网络(Back-Propagating Artificial Neural Network，简写为BP-ANN)。

第4.1步中，参数H为100或500或1000。

第4.2步中，使用MATLAB中的归一化函数和反归一化函数对人工神经网络的输入值和输出值进行归一化和反归一化操作。

第4.2步中，采用去一交叉验证法对n个标准样品中被分析元素含量进行预测的方法为：

第4.2.1步、设Z＝1；

第4.2.2步、从n个标准样品中去掉第Z个标准样品，将剩余的n-1个标准样品的光谱变量作为训练集，对人工神经网络进行训练；

第4.2.3步、将第Z个标准样品的光谱变量作为测试集输入由训练集训练好的人工神经网络，预测并记录第Z个标准样品中被测元素的含量；

第4.2.4步、令Z＝Z+1，然后判断Z是否大于n；如果Z不大于n，则执行第4.2.2步；如果Z大于n，则预测结束。

人工神经网络参数含有：网络层数、每层的节点数、节点神经元的类型、学习速率、预期精度、终止训练的最小权值调整梯度和训练终止循环次数。

第2步中，相邻内标线的波长中点是指：相邻内标线的波长数值的中间值(可认为是两条相邻内标线波长的平均值)。

进一步优选n为大于10的自然数。

本发明的有益效果：

人工神经网络具有极好的非线性回归能力，但在变量数目大的时候，由于其权重参数矩阵庞大，不易训练且极易过拟合，使人工神经网络无法从冗杂的数据中找到数据与结果之间的映射关系。本发明用LIBS系统获得的LIBS光谱拥有非常丰富的光谱变量，直接把所有光谱变量用于训练人工神经网络几乎不可能且极易过拟合而得不到正确的映射规律，若只选取若干特征谱线对人工神经网络进行训练建立分析模型，又容易漏掉有用的光谱信息，从而降低分析模型的效能。而随机森林可以建立变量与结果之间的映射关系并据此给出每个变量的重要性权重，并且在大数目变量情况下仍能很好地训练。因此，使用随机森林算法预先给光谱变量进行权重(重要性)标记，然后根据权重对光谱变量选择并构建人工神经网络分析模型，防止了冗余变量引起的人工神经网络训练难、无法得到光谱和元素间映射规律和过拟合的问题，同时发挥了人工神经网络极好的非线性回归能力，从而使人工神经网络在大数目光谱变量情况下应用成为可能，很好地提高了LIBS的分析准确度。

(四)、附图说明：

图1为LIBS系统的结构示意图；

图2为Cr元素预测含量和标准含量符合程度的对比图；

图3为V元素预测含量和标准含量符合程度的对比图；

图4为Cr元素预测相对标准偏差的对比图；

图5为V元素预测相对标准偏差的对比图。

(五)、具体实施方式：

随机森林辅助人工神经网络(Random-forest-assisting artificial-neural-network，简称RFA-ANN)的LIBS定量分析方法为：

第1步、光谱数据的采集：选用n个和被测物基体构成尽可能一致的标准样品，n个标准样品中被分析元素含量已知且各不相同，使用LIBS系统对n个标准样品采集光谱数据；n为大于10的自然数；

第4步的具体过程如下：

第4.4步、计算交叉验证的均方根误差R1：

其中：

第4.1步中，参数H为100。

第4.2.1步、设Z＝1；

如图1所示，LIBS系统含有激光器1、激光波长反射镜2、聚焦透镜3、电动平台4、光收集器5、光纤6、光谱仪7、增强电荷耦合器件(ICCD)8、触发线9、数据线10、系统控制及数据处理计算机11；激光器1采用Quantel公司的Brilliant B型Nd:YAG脉冲激光器(波长532nm，脉宽6ns)，激光重复频率设定为1Hz，脉冲激光经激光波长反射镜2反射后从竖直方向通过焦距f＝100mm的聚焦透镜3聚焦到样品表面；等离子体发光通过光收集5器进入光谱仪7，光谱仪7采用的是Andor公司的结合ICCD(Andor Tech,iStar DH-334T)的中阶梯光栅光谱仪(ME5000型，探测波长范围200-900nm，光谱解析度为λ/Δλ＝5000)；由计算机控制的电动平台4用于移动样品。

激光脉冲能量为60mJ，激光焦点位于样品表面下方1.5mm处；延时2μs，门宽30μs，曝光时间0.1s；样品置于电动平台4上，通过软件控制做弓形运动，确保激光不会打在样品表面的同一位置；每个样品在不同位置采集100个光谱，每个光谱由一个激光脉冲激发。

如表1所示，分析Cr元素的校准样品为碳钢样品3个(中国抚顺钢铁厂，GBW01211-01216)，低合金钢样品5个(美国国家标准与技术研究所，National Institute ofStandards and Technology，简称VST)，微合金钢样品3个(中国钢铁研究总院，GSB 03-2453-2008)，共11个样品。

表1

序号	标签	Cr元素含量
			1	C-1	0.28
2	C-3	0.223
			3	C-6	0.377
4	1270	2.34
			5	1761a	0.222
6	1762a	0.923
			7	1763a	0.498
8	1764a	1.468
			9	1	0.164
10	4	0.409
			11	5	0.601

如表2所示，分析Cr元素的验证样品为碳钢样品2个(中国抚顺钢铁厂，GBW01211-01216)，低合金钢样品2个(美国国家标准与技术研究所，National Institute ofStandards and Technology，简称VST)，微合金钢样品1个(中国钢铁研究总院，GSB 03-2453-2008)，共5个样品。

表2

序号	标签	Cr元素含量
			1	C-2	0.162
2	C-4	0.493
			3	1286	1.53
4	C1285	0.8
			5	2	0.322

如表3所示，分析V元素的校准样品为碳钢样品4个(中国抚顺钢铁厂，GBW01211-01216)，低合金钢样品6个(美国国家标准与技术研究所，National Institute ofStandards and Technology，简称VST)，微合金钢样品4个(中国钢铁研究总院，GSB 03-2453-2008)，共14个样品。

表3

序号	标签	V元素含量
			1	C-1	0.108
2	C-3	0.172
			3	C-4	0.242
4	C-5	0.049
			5	1270	0.013
6	1286	0.0057
			7	1761a	0.054
8	1763a	0.307
			9	1764a	0.1063
10	C1285	0.15
			11	1	0.01
12	3	0.0095
			13	4	0.04
14	5	0.053

如表4所示，分析V元素的验证样品为碳钢样品2个(中国抚顺钢铁厂，GBW01211-01216)，低合金钢样品2个(美国国家标准与技术研究所，National Institute ofStandards and Technology，简称VST)，微合金钢样品1个(中国钢铁研究总院，GSB 03-2453-2008)，共5个样品。

表4

序号	标签	V元素含量
			1	C-2	0.063
2	C-6	0.286
			3	1264a	0.106
4	1762a	0.201
			5	2	0.023

为了评价随机森林辅助的人工神经网络LIBS分析方法的效果，使用了2个指标：准确度和精密度。

(1)预测含量和真实含量按函数y＝x拟合的决定系数R²；(2)预测的均方根误差(RMSEP)，由公式(B)进行计算；(1)和(2)评价预测的准确度。

(3)预测值的相对标准偏差(Relative Standard Deviation，简写为RSD)；(4)预测相对标准偏差的平均值(ARSD)。(3)和(4)评价预测值的精密度；其中，RSD和ARSD可以用公式(C)、(D)来计算。

其中，

y_i是样品中待测元素标准含量，y_ij是第i个样品的第j幅光谱对应的预测值，k为一个样品的采集光谱幅数，t为评价分析模型所使用的测试样品数目。

本实施例中选取的后向传播人工神经网络(BP-ANN)为3层结构，输入层节点数和最优谱线集中谱线比值数相等。隐含层为对数型(logsig)非线性神经元，输出层为1个线性(purelin)神经元。训练方法采用Levenberg-Marquardt法(trainlm)。

为了证实随机森林辅助的人工神经网络LIBS分析方法提高LIBS分析准确度和精密度的效果，用随机森林辅助人工神经网络分析法对Cr元素和V元素进行了分析，验证了随机森林辅助的人工神经网络LIBS分析方法的效果。对Cr元素，使用11个校准样品作为训练样品用于获得ANN分析模型，另使用5个标准样品做为测试样品，用于预测被测元素的含量。对V元素，使用14个标准样品作为校准样品用于获得ANN分析模型，另使用5个标准样品做为测试样品，用于预测被测元素的含量。按公式(B)算出RMSEP值。内标法的结果分别使用相同的校准样品和测试样品进行分析，在内标法中，由二次函数曲线做校准曲线。

表5是RMSEP的对比，随机森林辅助的人工神经网络LIBS分析方法可获得更低的RMSEP值，Cr和V的RMSEP分别从内标法的0.062wt.％和0.020wt.％降低到了随机森林辅助的人工神经网络LIBS分析方法的0.019wt.％和0.006wt.％，分别降低了69.4％和70.0％。

表5

图2是Cr元素标准含量和预测含量符合情况对比，从图中可以看出，Cr元素预测含量和真实含量按方程y＝x拟合决定系数R²从内标法的0.9844提高到了随机森林辅助的人工神经网络LIBS分析方法的0.9986。

图3是V元素标准含量和预测含量符合情况对比，从图中可以看出，V元素预测含量和标准含量按方程y＝x拟合的决定系数R²从内标法的0.9660提高到了随机森林辅助的人工神经网络LIBS分析方法的0.9966。

表5、图2和图3的结果说明随机森林辅助的人工神经网络LIBS分析方法预测含量偏离标准含量更小，显著地提高了分析的准确度。

表6是ARSD的对比，随机森林辅助的人工神经网络LIBS分析方法可获得更低的ARSD，Cr和V的ARSD分别从内标法的24.9％和32.5％降低到了随机森林辅助的人工神经网络LIBS分析方法的7.2％和14.4％，分别降低了71.1％和55.7％。

表6

图4是Cr元素预测含量的相对标准偏差对比情况，从图中可以看出，随机森林辅助的人工神经网络LIBS分析方法预测的含量的相对标准偏差比内标法显著地降低了。

图5是V元素预测含量的相对标准偏差对比情况，从图中可以看出，随机森林辅助的人工神经网络LIBS分析方法预测的含量的相对标准偏差比内标法显著地降低了。

表6、图4和图5的结果表明，随机森林辅助的人工神经网络LIBS分析方法能显著地降低预测含量的相对标准偏差，提高了分析的精密度。

Claims

1.一种随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：

第1步、光谱数据的采集：选用n个和被测物基体构成一致的标准样品，n个标准样品中被分析元素含量已知且各不相同，使用LIBS系统对n个标准样品采集光谱数据；n为大于1的自然数；

第3步、对所有光谱变量进行权重标定：用所有光谱变量作为输入量，以选定决策树棵数，逐步增加使用的特征变量数，建立随机森林回归模型，对标准样品进行去一交叉验证法分析，直至交叉验证的均方根误差最小；把每个光谱变量在所有特征变量数情况下取得的权重值求平均，得到每个光谱变量平均后的权重值，该平均后的权重值称为平均权重值；

第4步、建立人工神经网络分析模型：以平均权重值作为选择光谱变量的标准，选取平均权重值大于光谱变量选择阈值Q_E的光谱变量作为人工神经网络的输入值，并利用标准样品中被分析元素的已知含量，对人工神经网络进行训练，获得人工神经网络分析模型和被分析元素的最优光谱变量集的构成规则；

按照被分析元素的最优光谱变量集的构成规则构建被测物中被分析元素的光谱变量集；

第6步、将被测物中被分析元素的光谱变量集中的光谱变量作为输入值代入训练好的人工神经网络分析模型，输出被测物中被分析元素的含量；

第4步的具体过程如下：

第4.3步、若l次预测结果一致，则执行第4.4步；若l次预测结果不一致，则按照人工神经网络参数选取的规律对人工神经网络参数选取不同的值，然后执行第4.2步；

第4.4步、计算交叉验证的均方根误差R1：

其中：

第4.6步、选取平均权重值大于最优光谱变量选择阈值的光谱变量组成最优光谱变量集；把计算最小的交叉验证的均方根误差R1时所用的人工神经网络参数和训练参数作为分析模型参数和训练参数，并记录最优光谱变量集的构成规则，即最优光谱变量集里的光谱变量在光谱数据中的位置；

2.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述人工神经网络为MATLAB中的后向传播人工神经网络。

3.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述第4.1步中，参数H为100或500或1000。

4.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述第4.2步中，使用MATLAB中的归一化函数和反归一化函数对人工神经网络的输入值和输出值进行归一化和反归一化操作。

5.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述第4.2步中，采用去一交叉验证法对n个标准样品中被分析元素含量进行预测的方法为：

第4.2.1步、设Z＝1；

6.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述人工神经网络参数含有：网络层数、每层的节点数、节点神经元的类型、学习速率、预期精度、终止训练的最小权值调整梯度和训练终止循环次数。

7.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述第2步中，相邻内标线的波长中点是指：相邻内标线的波长数值的中间值。

8.根据权利要求1所述的随机森林辅助人工神经网络的LIBS定量分析方法，其特征是：所述n为大于10的自然数。