CN115392636A - 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 - Google Patents
基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 Download PDFInfo
- Publication number
- CN115392636A CN115392636A CN202210873336.3A CN202210873336A CN115392636A CN 115392636 A CN115392636 A CN 115392636A CN 202210873336 A CN202210873336 A CN 202210873336A CN 115392636 A CN115392636 A CN 115392636A
- Authority
- CN
- China
- Prior art keywords
- content
- samples
- data
- detected
- cars
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于CARS的1D‑CNN算法的XRF光谱元素土壤污染风险筛选方法,属于X荧光光谱元素检测技术领域。该方法包括利用CARS算法对光谱数据进行采样,得到特征集;将该特征集作为构建的1D‑CNN模型的输入数据。然后从目标样本中随机选取部分样本,将其划分为训练集和测试集,基于训练集训练1D‑CNN模型,基于测试集判断土壤是否存在污染风险,得到评价模型的判断准确率。本发明运算过程简便合理,筛选精度高,可以高效率地对土壤XRF光谱进行分析,简便有效地对土壤中的重金属污染进行风险筛选判断。
Description
技术领域
本发明属于X荧光光谱元素检测技术领域,具体涉及一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法。
背景技术
人类活动导致土壤中的重金属含量不断增加,尤其是随着工业的飞速发展,其对土壤带来的危害越来越严重。当土壤中重金属元素含量超过其风险筛选值时,存在影响人体健康的风险,非常有必要对其开展进一步的详细调查和风险评估。
基于X射线荧光(X-ray fluorescence spectrometry,XRF)光谱对物质所含元素进行定量分析是一种精度高、成本低、速度快、环境友好的元素检测技术,广泛应用于土壤、矿石、药材等所含元素的检验。为实现基于人工智能算法的XRF光谱土壤重金属污染风险筛选,传统方法是:用相关系数法对XRF光谱数据进行降维,用降维后的数据输入BP神经网络模型,通过BP神经网络模型对目标元素及其干扰元素的光谱特征峰面积进行定量分析,得到土壤重金属元素的具体含量,根据重金属元素的具体含量来定性判断土壤是否具有污染风险。由于XRF光谱数据中包含未知信息多,传统方法降维过程复杂,且降维后得到的特征中冗余数据过多,导致土壤污染风险筛选过程复杂且准确度低。
发明内容
本发明的目的在于提供一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,以解决现有土壤污染风险筛选过程中存在的过程复杂且准确率低等问题。
为解决上述问题,本发明采用如下技术方案:
基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,包括以下步骤:
步骤1、选取P个含有待测元素的标准土壤样品作为目标样本,测试得到目标样本2048个通道的光谱计数数据和待测元素的含量数据;
步骤2、采用蒙特卡罗采样从目标样本中随机选取a份样本作为建模集,剩余P-a份样本作为预测集;
步骤3、以建模集中的光谱计数数据和待测元素含量数据构建PLS模型,得到该模型的回归系数;然后将预测集中的光谱计数数据和待测元素含量数据输入PLS模型进行预测,得到预测集样本待测元素的含量预测值;
步骤4、计算PLS模型回归系数的绝对值权重ωi,利用指数衰减函数EDF结合其绝对值权重选择需要保留的数据点作为特征;同时计算步骤3得到的待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差;
步骤5、重复步骤2~4的步骤N次,得到N组与待测元素含量真实值的交叉验证均方根误差数据,然后从中选取最小的一组数据作为最终的特征集;在每次进行蒙特卡罗采样时,其采样数据均从上一次剩余的m个变量中选择,其中m个变量指的是待测样本的光谱计数数据;
步骤6、以步骤5得到的特征集为输入,构建一维神经网络(1D-CNN)模型,,并将待测元素含量是否超过预设风险筛选值作为该模型的标签,即超过风险筛选值时标签为1,未超过时为0;
步骤7、从目标样本中随机选取部分样本,将其划分为训练集和测试集;
步骤8、基于训练集对一维神经网络模型进行训练,得到优化后的一维神经网络模型,然后将步骤7得到的测试集输入到优化后的一维神经网络模型中,得到网络的分类结果,完成土壤重金属污染的风险筛选。
进一步的,所述步骤1的光谱计数数据和待测元素的含量数据是由ED-XRF荧光光谱仪测试所得。
进一步的,所述待测元素的含量预测值计算详细过程为:
步骤3.1、构建PLS模型:设X为含2048个通道的光谱计数数据,Y为元素含量数据,使得式(1)、(2)、(3)成立;
X=TPT (1)
Y=UQT (2)
U=XB (3)
其中,T和U为X、Y矩阵得分值,P和Q反映X和Y的值,光谱计数数据和元素含量的回归系数矩阵B,其中bi为矩阵B中第i个变量的回归系数;
步骤3.2、以建模集的光谱计数数据和待测元素含量优化PLS模型,得到回归系数矩阵B;代入预测集数据得到预测集样品的元素含量预测值。
进一步的,所述步骤4计算PLS模型回归系数的绝对值权重ωi,利用指数衰减函数EDF结合PLS模型回归系数的绝对值权重选择需要保留的数据点作为特征的详细过程为:
步骤4.2、利用指数衰减函数EDF去除回归系数绝对值权重较小的点,第一次采样时所有特征点被保留;最后一次采样时,即第N次采样时,保留的特征点数为2,则保留的特征点为在第i(1<i≤N)次重复时,根据EDF得到保留的数据点的比例Ri为:
Ri=μe-ki (4)
式中的μ和k为常数,其计算公式为:
其中,n为原始特征点数,N为设定的蒙特卡罗采样次数。
进一步的,所述步骤4中待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差的计算公式为:
进一步的,所述步骤8还包括利用模型评价公式对一维卷积神经网络模型的准确率评价;其中TP为被检索到正样本,实际也是正样本的数量,TN未被检索到正样本,实际也是负样本的数量,ALL则代表样品总数,即准确率代表分类正确的样本数与样本总数之比。
采用上述技术方案后,本发明的有益效果为:
本发明提出了基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,通过采用CARS算法针对性筛选出有效的光谱特征点作为特征集,将该特征集作为构建一维神经网络(1D-CNN)模型的输入数据;随后从目标样本中随机选取部分样本,将其划分为训练集和测试集,通过训练集对模型进行优化,使得优化后的一维神经网络模型在更小计算量的条件下能够获得较为准确的风险筛选结果。本发明流程简明,便于操作,可以高效率地对土壤XRF光谱进行分析,简便有效地对土壤中的重金属污染进行风险筛选。
附图说明
图1为本发明的土壤污染风险筛选方法流程图;
图2为实施例1的土壤重金属污染风险筛选预测结果图;
图3为为传统方法的土壤重金属污染风险筛选预测结果图;
图4为实施例1采用的一维神经网络(1D-CNN)模型结构图。
具体实施方式
为使本发明的目的、过程和优势更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
实施例1
如图1所示,一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,包括以下步骤:
步骤1、以预测Cu元素为例,选取P=59个含有待测元素的国家标准样品作为目标样本,通过XRF光谱仪对目标样本进行测量,得到2048个通道的光谱计数数据和Cu元素含量。
采用竞争性自适应重加权采样算法即CARS算法进行采样,按照步骤2~步骤5进行采样:
步骤2、设定蒙特卡罗的采样次数为N=20。用蒙特卡罗采样,从59个目标样本中随机选取48个目标样本对应的数据为建模集,剩余11个目标样本对应的数据为为预测集。
步骤3、以建模集中的光谱计数数据和待测元素含量数据构建PLS模型,得到该模型的回归系数;然后将预测集中的光谱计数数据和待测元素含量数据输入PLS模型进行预测,得到待测元素的含量预测值。具体的:
3.1、设X为含2048个通道的光谱计数数据,Y为元素含量数据,使得式(1)、(2)、(3)成立。
X=TPT (7)
Y=UQT (8)
U=XB (9)
其中,T和U为X、Y矩阵得分值,P和Q反映X和Y的值,光谱计数数据和元素含量的回归系数矩阵B,其中bi为矩阵B中第i个变量的回归系数。
3.2、以建模集的光谱计数数据和待测元素含量优化PLS模型,得到回归系数矩阵B;代入预测集数据得到预测集样品的元素含量预测值。
步骤4、根据步骤3.2得到的回归系数矩阵B,计算矩阵B回归系数的绝对值权重其中m(2≤m≤2048)为剩余通道数,即剩余特征变量数;然后利用指数衰减函数EDF去除回归系数绝对值权重较小的点,第一次采样时所有特征点被保留,在第i(1<i≤N)次重复时,根据EDF得到保留的数据点的比例Ri为:
Ri=μe-ki (10)
式中的μ和k为常数,其计算公式为:
其中,n=2048为原始特征点数,N=20为设定的蒙特卡罗采样次数。
计算待测元素含量预测值与待测元素含量真实值的交叉验证均方根误差的计算公式为:
步骤5、将步骤2~4重复20次,得到20组与待测元素含量真实值的交叉验证均方根误差数据,然后从中选取最小的一组数据作为最终的特征集,得到CARS算法的采样结果。在每次进行蒙特卡罗采样时,其采样数据均从上一次剩余的2048个变量中选择。本实施例中,针对Cu元素,最终有53个特征数据点被采样,为原来变量个数的2.59%,并且被采样的数据点在Cu元素特征X射线的Ka峰的能量范围内。
步骤6、构建一维神经网络模型,该模型的输入为步骤5得到的特征集,标签为待测元素含量是否超过预设风险筛选值的判断结果,即超过风险筛选值时标签为1,未超过时为0。如图4所示,本实施例中一维神经网络模型包括依次连接的输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2和输出层。输入层接收步骤5得到的特征集数据,卷积层用于对接收的数据进行卷积处理,池化层用于对接收的数据进行池化处理,全连接层用于对接收的数据进行全连接处理,输出层基于全连接层2输出的向量进行分类并输出结果。
步骤7、设置一维卷积神经网络的学习率、批大小、迭代次数、激活函数、损失函数、优化器,具体参数数值、函数及优化器可以根据模型的损失进行调整。本实施例中设置的各种参数为:设置一维卷积神经网络的学习率为10e-6、批大小为32、迭代次数为5000、激活函数为ReLu、损失函数为MSEloss、优化器为Adam,在Pytorch框架下进行训练和预测。
步骤8、使用10折交叉验证方法,将目标样本均分成10份后,每次选取9份样本的光谱数据作为训练集,1份为测试集,重复10次;训练一维神经网络1D-CNN模型,经过多次前向传播和反向传播得到训练好的网络。
步骤9、将测试集作为训练好的网络的输入,得到网络的分类结果,完成土壤重金属污染的风险筛选。
模型预测结果准确率的评价公式为其中P表示模型判断预测结果准确率,TP为被检索到正样本,实际也是正样本的数量,TN未被检索到正样本,实际也是负样本的数量,ALL则代表样品总数,即准确率代表分类正确的样本数与样本总数之比。本实施例利用该公式计算后发现,Cu元素土壤重金属污染风险筛选的预测结果准确率为93.22%。
为更好的阐述本实施例方法的优点,将本实施例的土壤重金属污染风险筛选方法与传统土壤重金属污染风险筛选方法进行了比较,如表1所示:
通过对表1的阅读不难发现,本实施例采用CARS采样得到的特征数据点共有53个,模型筛选的准确率最高达到93.22%,说明基于CARS-1DCNN算法能够有效得进行XRF光谱元素土壤污染风险筛选,提高了土壤污染风险筛选的准确性和计算效率,体现了本发明方法的优越性。
图2为实施例1的土壤重金属污染风险筛选预测结果图;图3为传统方法即不进行采样的土壤重金属污染风险筛选预测结果图。对比图2、图3可知,本实施例采用CARS算法采样的数据作为一维卷积神经网络模型的输入后,一维卷积神经网络模型的计算量减少且准确率更高。
综上可见,本实施例基于CARS的1D-CNN算法XRF光谱土壤污染风险筛选方法,通CARS算法结合1D-CNN算法后,实现了土壤中重金属元素的污染风险筛选,且筛选结果准确更高。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (6)
1.一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,其特征在于:包括以下步骤:
步骤1、选取P个含有待测元素的标准土壤样品作为目标样本,测试得到目标样本2048个通道的光谱计数数据和待测元素的含量数据;
步骤2、采用蒙特卡罗采样从目标样本中随机选取a份样本作为建模集,剩余P-a份样本作为预测集;
步骤3、以建模集中的光谱计数数据和待测元素含量数据构建PLS模型,得到该模型的回归系数;然后将预测集中的光谱计数数据和待测元素含量数据输入PLS模型进行预测,得到预测集样本待测元素的含量预测值;
步骤4、计算PLS模型回归系数的绝对值权重ωi,利用指数衰减函数EDF结合其绝对值权重选择需要保留的数据点作为特征;同时计算步骤3得到的待测元素含量预测值与待测元素含量真实值的交叉验证均方根误误差;
步骤5、重复步骤2~4的步骤N次,得到N组与待测元素含量真实值的交叉验证均方根误差数据,然后从中选取最小的一组数据作为最终的特征集;在每次进行蒙特卡罗采样时,其采样数据均从上一次剩余的m个变量中选择,其中m个变量指的是待测样本的光谱计数数据;
步骤6、以步骤5得到的特征集为输入,构建一维神经网络模型,,并将待测元素含量是否超过预设风险筛选值作为该模型的标签,即超过风险筛选值时标签为1,未超过时为0;
步骤7、从目标样本中随机选取部分样本,将其划分为训练集和测试集;
步骤8、基于训练集对一维神经网络模型进行训练,得到训练好的一维神经网络模型,然后将步骤7得到的测试集输入到优化后的一维神经网络模型中,得到网络的分类结果,完成土壤重金属污染的风险筛选。
2.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,其特征在于:所述待测元素的含量预测值计算详细过程为:
步骤3.1、构建PLS模型:设X为含2048个通道的光谱计数数据,Y为元素含量数据,使得式(1)、(2)、(3)成立;
X=TPT (1)
Y=UQT (2)
U=XB (3)
其中,T和U为X、Y矩阵得分值,P和Q反映X和Y的值,光谱计数数据和元素含量的回归系数矩阵B,其中bi为矩阵B中第i个变量的回归系数;
步骤3.2、以建模集的光谱计数数据和待测元素含量优化PLS模型,得到回归系数矩阵B;代入预测集数据得到预测集样品的元素含量预测值。
3.根据权利要求1所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,其特征在于:所述步骤4计算PLS模型回归系数的绝对值权重ωi,利用指数衰减函数EDF结合PLS模型回归系数的绝对值权重选择需要保留的数据点作为特征的详细过程为:
步骤4.2、利用指数衰减函数EDF去除回归系数绝对值权重较小的点,第一次采样时所有特征点被保留;最后一次采样时,即第N次采样时,保留的特征点数为2,则保留的特征点为在第i(1<i≤N)次重复时,根据EDF得到保留的数据点的比例Ri为:
Ri=μe-ki (4)
式中的μ和k为常数,其计算公式为:
其中,n为原始特征点数,N为设定的蒙特卡罗采样次数。
6.根据权利要求1~5任一项所述的一种基于CARS的1D-CNN算法的XRF光谱土壤污染风险筛选方法,其特征在于:所述步骤1的光谱计数数据和待测元素的含量数据是由ED-XRF荧光光谱仪测试所得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873336.3A CN115392636A (zh) | 2022-07-22 | 2022-07-22 | 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210873336.3A CN115392636A (zh) | 2022-07-22 | 2022-07-22 | 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115392636A true CN115392636A (zh) | 2022-11-25 |
Family
ID=84117179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210873336.3A Pending CN115392636A (zh) | 2022-07-22 | 2022-07-22 | 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115392636A (zh) |
-
2022
- 2022-07-22 CN CN202210873336.3A patent/CN115392636A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109799195B (zh) | 一种激光诱导击穿光谱的高精度定量分析方法 | |
CN105630743A (zh) | 一种光谱波数的选择方法 | |
CN107727676A (zh) | 一种基于向前间隔偏最小二乘算法的土壤重金属含量建模方法 | |
CN109902411B (zh) | 土壤重金属含量检测建模方法及装置、检测方法及装置 | |
CN110569566A (zh) | 一种板带力学性能预测方法 | |
CN113155809A (zh) | 一种矿石分类与实时定量分析的光谱检测新方法 | |
CN112231621A (zh) | 基于BP-adaboost降低元素检出限的方法 | |
CN115112699A (zh) | 一种xrf土壤重金属元素定量分析方法 | |
CN109557080B (zh) | 一种基于机器学习的光谱数据回归方法 | |
CN103487410A (zh) | 基于模型集群分析的激光诱导击穿光谱变量选择方法 | |
CN111597762B (zh) | 一种x射线荧光光谱重叠峰分解方法 | |
CN115392636A (zh) | 基于cars的1d-cnn算法的xrf光谱土壤污染风险筛选方法 | |
CN114460116B (zh) | 一种支持向量机回归结合灵敏度分析的元素含量定量分析方法 | |
CN114354666B (zh) | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 | |
CN112801936B (zh) | 一种x射线荧光光谱自适应本底扣除方法 | |
CN113960090A (zh) | 基于LSTM神经网络算法的土壤Cd元素光谱定性分析方法 | |
CN115130377A (zh) | 一种boss-sapso优化极限学习机的土壤重金属预测方法 | |
CN113092447B (zh) | 一种基于循环变量筛选非线性pls的libs定量分析方法 | |
CN111062118B (zh) | 一种基于神经网络预测分层的多层软测量建模系统及方法 | |
CN113866204A (zh) | 一种基于贝叶斯正则化的土壤重金属定量分析方法 | |
CN115310472A (zh) | 基于核脉冲峰值序列的一维卷积神经网络核素识别方法 | |
CN117894394A (zh) | 一种基于ConvBiLSTM-Attention深度神经网络的微量元素含量预测方法 | |
CN114861541A (zh) | 一种基于xrf-egan模型的土壤xrf谱图本底扣除方法 | |
CN117805024B (zh) | 一种酥梨糖精度检测方法、装置、云端设备及计算机装置 | |
CN117131788B (zh) | 一种聚合物板材的优化成型方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |