CN115392636A

CN115392636A - 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法

Info

Publication number: CN115392636A
Application number: CN202210873336.3A
Authority: CN
Inventors: 李福生; 李智琪; 杨婉琪
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-25

Abstract

本发明公开了一种基于CARS的1D‑CNN算法的XRF光谱元素土壤污染风险筛选方法，属于X荧光光谱元素检测技术领域。该方法包括利用CARS算法对光谱数据进行采样，得到特征集；将该特征集作为构建的1D‑CNN模型的输入数据。然后从目标样本中随机选取部分样本，将其划分为训练集和测试集，基于训练集训练1D‑CNN模型，基于测试集判断土壤是否存在污染风险，得到评价模型的判断准确率。本发明运算过程简便合理，筛选精度高，可以高效率地对土壤XRF光谱进行分析，简便有效地对土壤中的重金属污染进行风险筛选判断。

Description

基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法

技术领域

本发明属于X荧光光谱元素检测技术领域，具体涉及一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法。

背景技术

人类活动导致土壤中的重金属含量不断增加，尤其是随着工业的飞速发展，其对土壤带来的危害越来越严重。当土壤中重金属元素含量超过其风险筛选值时，存在影响人体健康的风险，非常有必要对其开展进一步的详细调查和风险评估。

基于X射线荧光(X-ray fluorescence spectrometry，XRF)光谱对物质所含元素进行定量分析是一种精度高、成本低、速度快、环境友好的元素检测技术，广泛应用于土壤、矿石、药材等所含元素的检验。为实现基于人工智能算法的XRF光谱土壤重金属污染风险筛选，传统方法是：用相关系数法对XRF光谱数据进行降维，用降维后的数据输入BP神经网络模型，通过BP神经网络模型对目标元素及其干扰元素的光谱特征峰面积进行定量分析，得到土壤重金属元素的具体含量，根据重金属元素的具体含量来定性判断土壤是否具有污染风险。由于XRF光谱数据中包含未知信息多，传统方法降维过程复杂，且降维后得到的特征中冗余数据过多，导致土壤污染风险筛选过程复杂且准确度低。

发明内容

本发明的目的在于提供一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，以解决现有土壤污染风险筛选过程中存在的过程复杂且准确率低等问题。

为解决上述问题，本发明采用如下技术方案：

基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，包括以下步骤：

步骤1、选取P个含有待测元素的标准土壤样品作为目标样本，测试得到目标样本2048个通道的光谱计数数据和待测元素的含量数据；

步骤2、采用蒙特卡罗采样从目标样本中随机选取a份样本作为建模集，剩余P-a份样本作为预测集；

步骤3、以建模集中的光谱计数数据和待测元素含量数据构建PLS模型，得到该模型的回归系数；然后将预测集中的光谱计数数据和待测元素含量数据输入PLS模型进行预测，得到预测集样本待测元素的含量预测值；

步骤4、计算PLS模型回归系数的绝对值权重ω_i，利用指数衰减函数EDF结合其绝对值权重选择需要保留的数据点作为特征；同时计算步骤3得到的待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差；

步骤5、重复步骤2～4的步骤N次，得到N组与待测元素含量真实值的交叉验证均方根误差数据，然后从中选取最小的一组数据作为最终的特征集；在每次进行蒙特卡罗采样时，其采样数据均从上一次剩余的m个变量中选择，其中m个变量指的是待测样本的光谱计数数据；

步骤6、以步骤5得到的特征集为输入，构建一维神经网络(1D-CNN)模型,，并将待测元素含量是否超过预设风险筛选值作为该模型的标签，即超过风险筛选值时标签为1，未超过时为0；

步骤7、从目标样本中随机选取部分样本，将其划分为训练集和测试集；

步骤8、基于训练集对一维神经网络模型进行训练，得到优化后的一维神经网络模型，然后将步骤7得到的测试集输入到优化后的一维神经网络模型中，得到网络的分类结果，完成土壤重金属污染的风险筛选。

进一步的，所述步骤1的光谱计数数据和待测元素的含量数据是由ED-XRF荧光光谱仪测试所得。

进一步的，所述待测元素的含量预测值计算详细过程为：

步骤3.1、构建PLS模型：设X为含2048个通道的光谱计数数据，Y为元素含量数据，使得式(1)、(2)、(3)成立；

X＝TP^T (1)

Y＝UQ^T (2)

U＝XB (3)

其中，T和U为X、Y矩阵得分值，P和Q反映X和Y的值，光谱计数数据和元素含量的回归系数矩阵B，其中b_i为矩阵B中第i个变量的回归系数；

步骤3.2、以建模集的光谱计数数据和待测元素含量优化PLS模型，得到回归系数矩阵B；代入预测集数据得到预测集样品的元素含量预测值。

进一步的，所述步骤4计算PLS模型回归系数的绝对值权重ω_i，利用指数衰减函数EDF结合PLS模型回归系数的绝对值权重选择需要保留的数据点作为特征的详细过程为：

步骤4.1、计算矩阵B回归系数的绝对值权重

其中m(2≤m≤2048)为剩余通道数，即剩余特征变量数；

步骤4.2、利用指数衰减函数EDF去除回归系数绝对值权重较小的点，第一次采样时所有特征点被保留；最后一次采样时，即第N次采样时，保留的特征点数为2，则保留的特征点为在第i(1＜i≤N)次重复时，根据EDF得到保留的数据点的比例R_i为：

R_i＝μe^-ki (4)

式中的μ和k为常数，其计算公式为：

其中，n为原始特征点数，N为设定的蒙特卡罗采样次数。

进一步的，所述步骤4中待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差的计算公式为：

其中y_i为预测集第i个样品待测元素含量真实值，

为第i(i＝1,2,3,……,p-a)个样品待测元素含量预测值。

进一步的，所述步骤8还包括利用模型评价公式

对一维卷积神经网络模型的准确率评价；其中TP为被检索到正样本，实际也是正样本的数量，TN未被检索到正样本，实际也是负样本的数量，ALL则代表样品总数，即准确率代表分类正确的样本数与样本总数之比。

采用上述技术方案后，本发明的有益效果为：

本发明提出了基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，通过采用CARS算法针对性筛选出有效的光谱特征点作为特征集，将该特征集作为构建一维神经网络(1D-CNN)模型的输入数据；随后从目标样本中随机选取部分样本，将其划分为训练集和测试集，通过训练集对模型进行优化，使得优化后的一维神经网络模型在更小计算量的条件下能够获得较为准确的风险筛选结果。本发明流程简明，便于操作，可以高效率地对土壤XRF光谱进行分析，简便有效地对土壤中的重金属污染进行风险筛选。

附图说明

图1为本发明的土壤污染风险筛选方法流程图；

图2为实施例1的土壤重金属污染风险筛选预测结果图；

图3为为传统方法的土壤重金属污染风险筛选预测结果图；

图4为实施例1采用的一维神经网络(1D-CNN)模型结构图。

具体实施方式

为使本发明的目的、过程和优势更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

实施例1

如图1所示，一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，包括以下步骤：

步骤1、以预测Cu元素为例，选取P＝59个含有待测元素的国家标准样品作为目标样本，通过XRF光谱仪对目标样本进行测量，得到2048个通道的光谱计数数据和Cu元素含量。

采用竞争性自适应重加权采样算法即CARS算法进行采样，按照步骤2～步骤5进行采样：

步骤2、设定蒙特卡罗的采样次数为N＝20。用蒙特卡罗采样，从59个目标样本中随机选取48个目标样本对应的数据为建模集，剩余11个目标样本对应的数据为为预测集。

步骤3、以建模集中的光谱计数数据和待测元素含量数据构建PLS模型，得到该模型的回归系数；然后将预测集中的光谱计数数据和待测元素含量数据输入PLS模型进行预测，得到待测元素的含量预测值。具体的：

3.1、设X为含2048个通道的光谱计数数据，Y为元素含量数据，使得式(1)、(2)、(3)成立。

X＝TP^T (7)

Y＝UQ^T (8)

U＝XB (9)

其中，T和U为X、Y矩阵得分值，P和Q反映X和Y的值，光谱计数数据和元素含量的回归系数矩阵B，其中b_i为矩阵B中第i个变量的回归系数。

3.2、以建模集的光谱计数数据和待测元素含量优化PLS模型，得到回归系数矩阵B；代入预测集数据得到预测集样品的元素含量预测值。

步骤4、根据步骤3.2得到的回归系数矩阵B，计算矩阵B回归系数的绝对值权重

其中m(2≤m≤2048)为剩余通道数，即剩余特征变量数；然后利用指数衰减函数EDF去除回归系数绝对值权重较小的点，第一次采样时所有特征点被保留，在第i(1＜i≤N)次重复时，根据EDF得到保留的数据点的比例R_i为：

R_i＝μe^-ki (10)

式中的μ和k为常数，其计算公式为：

其中，n＝2048为原始特征点数，N＝20为设定的蒙特卡罗采样次数。

计算待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差的计算公式为：

其中y_i为预测集第i个样品待测元素含量真实值，

为第i(i＝1,2,3,……,p-a)个样品待测元素含量预测值。

步骤5、将步骤2～4重复20次，得到20组与待测元素含量真实值的交叉验证均方根误差数据，然后从中选取最小的一组数据作为最终的特征集，得到CARS算法的采样结果。在每次进行蒙特卡罗采样时，其采样数据均从上一次剩余的2048个变量中选择。本实施例中，针对Cu元素，最终有53个特征数据点被采样，为原来变量个数的2.59％，并且被采样的数据点在Cu元素特征X射线的K_a峰的能量范围内。

步骤6、构建一维神经网络模型，该模型的输入为步骤5得到的特征集，标签为待测元素含量是否超过预设风险筛选值的判断结果，即超过风险筛选值时标签为1，未超过时为0。如图4所示，本实施例中一维神经网络模型包括依次连接的输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2和输出层。输入层接收步骤5得到的特征集数据，卷积层用于对接收的数据进行卷积处理，池化层用于对接收的数据进行池化处理，全连接层用于对接收的数据进行全连接处理，输出层基于全连接层2输出的向量进行分类并输出结果。

步骤7、设置一维卷积神经网络的学习率、批大小、迭代次数、激活函数、损失函数、优化器，具体参数数值、函数及优化器可以根据模型的损失进行调整。本实施例中设置的各种参数为：设置一维卷积神经网络的学习率为10e-6、批大小为32、迭代次数为5000、激活函数为ReLu、损失函数为MSEloss、优化器为Adam，在Pytorch框架下进行训练和预测。

步骤8、使用10折交叉验证方法，将目标样本均分成10份后，每次选取9份样本的光谱数据作为训练集，1份为测试集，重复10次；训练一维神经网络1D-CNN模型，经过多次前向传播和反向传播得到训练好的网络。

步骤9、将测试集作为训练好的网络的输入，得到网络的分类结果，完成土壤重金属污染的风险筛选。

模型预测结果准确率的评价公式为

其中P表示模型判断预测结果准确率，TP为被检索到正样本，实际也是正样本的数量，TN未被检索到正样本，实际也是负样本的数量，ALL则代表样品总数，即准确率代表分类正确的样本数与样本总数之比。本实施例利用该公式计算后发现，Cu元素土壤重金属污染风险筛选的预测结果准确率为93.22％。

为更好的阐述本实施例方法的优点，将本实施例的土壤重金属污染风险筛选方法与传统土壤重金属污染风险筛选方法进行了比较，如表1所示：

通过对表1的阅读不难发现，本实施例采用CARS采样得到的特征数据点共有53个，模型筛选的准确率最高达到93.22％，说明基于CARS-1DCNN算法能够有效得进行XRF光谱元素土壤污染风险筛选，提高了土壤污染风险筛选的准确性和计算效率，体现了本发明方法的优越性。

图2为实施例1的土壤重金属污染风险筛选预测结果图；图3为传统方法即不进行采样的土壤重金属污染风险筛选预测结果图。对比图2、图3可知，本实施例采用CARS算法采样的数据作为一维卷积神经网络模型的输入后，一维卷积神经网络模型的计算量减少且准确率更高。

综上可见，本实施例基于CARS的1D-CNN算法XRF光谱土壤污染风险筛选方法，通CARS算法结合1D-CNN算法后，实现了土壤中重金属元素的污染风险筛选，且筛选结果准确更高。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：包括以下步骤：

步骤4、计算PLS模型回归系数的绝对值权重ω_i，利用指数衰减函数EDF结合其绝对值权重选择需要保留的数据点作为特征；同时计算步骤3得到的待测元素含量预测值与待测元素含量真实值的交叉验证均方根误误差；

步骤6、以步骤5得到的特征集为输入，构建一维神经网络模型,，并将待测元素含量是否超过预设风险筛选值作为该模型的标签，即超过风险筛选值时标签为1，未超过时为0；

步骤8、基于训练集对一维神经网络模型进行训练，得到训练好的一维神经网络模型，然后将步骤7得到的测试集输入到优化后的一维神经网络模型中，得到网络的分类结果，完成土壤重金属污染的风险筛选。

2.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：所述待测元素的含量预测值计算详细过程为：

X＝TP^T (1)

Y＝UQ^T (2)

U＝XB (3)

3.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：所述步骤4计算PLS模型回归系数的绝对值权重ω_i，利用指数衰减函数EDF结合PLS模型回归系数的绝对值权重选择需要保留的数据点作为特征的详细过程为：

步骤4.1、计算矩阵B回归系数的绝对值权重

其中m(2≤m≤2048)为剩余通道数，即剩余特征变量数；

R_i＝μe^-ki (4)

式中的μ和k为常数，其计算公式为：

其中，n为原始特征点数，N为设定的蒙特卡罗采样次数。

4.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：所述步骤4中待测元素含量预测值与待测元素含量真实值的交叉验证均方根误误差的计算公式为：

其中y_i为预测集第i个样品待测元素含量真实值，

为第i(i＝1,2,3,……,p-a)个样品待测元素含量预测值。

5.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：所述步骤8还包括利用模型评价公式

6.根据权利要求1～5任一项所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法，其特征在于：所述步骤1的光谱计数数据和待测元素的含量数据是由ED-XRF荧光光谱仪测试所得。