CN115436407A - 一种随机森林回归结合主成分分析的元素含量定量分析方法 - Google Patents

一种随机森林回归结合主成分分析的元素含量定量分析方法 Download PDF

Info

Publication number
CN115436407A
CN115436407A CN202210982806.XA CN202210982806A CN115436407A CN 115436407 A CN115436407 A CN 115436407A CN 202210982806 A CN202210982806 A CN 202210982806A CN 115436407 A CN115436407 A CN 115436407A
Authority
CN
China
Prior art keywords
pca
content
data
principal component
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210982806.XA
Other languages
English (en)
Inventor
李福生
叶俊廷
杨婉琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210982806.XA priority Critical patent/CN115436407A/zh
Publication of CN115436407A publication Critical patent/CN115436407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N23/00Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00
    • G01N23/22Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material
    • G01N23/223Investigating or analysing materials by the use of wave or particle radiation, e.g. X-rays or neutrons, not covered by groups G01N3/00 – G01N17/00, G01N21/00 or G01N22/00 by measuring secondary emission from the material by irradiating the sample with X-rays or gamma-rays and by measuring X-ray fluorescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2223/00Investigating materials by wave or particle radiation
    • G01N2223/07Investigating materials by wave or particle radiation secondary emission
    • G01N2223/076X-ray fluorescence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种随机森林回归结合主成分分析的元素含量定量分析方法,属于X射线荧光仪(XRF)元素定量分析领域。本发明从获取的XRF光谱数据中提取待测元素信息、干扰元素信息作为特征,通过PCA算法对特征进行降维处理,将降维处理的数据划分为训练样本集和测试样本集,基于训练样本集得到PCA‑RFR模型,通过该模型实现元素的定量分析。本发明通过在随机森林回归的基础上加入PCA特征降维,消除了训练样品集中特征的冗余数据,使得数据具有更强的线性度,从而达到提高定量分析模型的精度以及泛化能力。

Description

一种随机森林回归结合主成分分析的元素含量定量分析方法
技术领域
本发明涉及X射线荧光仪(XRF)元素定量分析领域,特别涉及一种随机森林回归结合主成分分析的元素含量定量分析方法。
背景技术
随着光谱学的快速发展,在线检测技术成为了趋势,经过近十年的技术积累,利用X射线荧光来预测元素含量成为了一种新型主流分析技术。作为一种重要的多元素分析手段,XRF光谱仪因其具有操作简便、不破坏原始样品、快速检测、无需对样品做复杂预处理等优点,在环境检测、食品安全、建材、矿石等领域被广泛应用。在基于XRF的元素定量分析中,对土壤元素的含量计算,常规分析方法是:通过测量元素在光谱中所对应的特征峰强度来建立校正模型,采用偏最小二乘回归(Partial Least Squares Regression,PLSR)进行元素含量等拟合分析预测得到XRF光谱的元素含量。但在实际的XRF元素含量预测中,由于XRF光谱中混杂着很多对光谱数据干扰的非线性因素,会导致常规分析方法得到的预测结果不准确。
发明内容
本发明的目的在于提供一种随机森林回归结合主成分分析的元素含量定量分析方法,以解决传统XRF光谱仪在元素分析过程中,由于非线性因素干扰而导致分析结果不准确的问题。
为实现上述目的,本发明采用如下技术方案:
一种随机森林回归结合主成分分析的元素含量定量分析方法,包括以下步骤:
步骤1、选定待测元素a,采集n个国家标准样品作为目标样本;
步骤2、使用光谱仪测得各目标样本的XRF光谱数据,并对每个光谱数据进行归一化处理;
步骤3、从步骤2归一化处理后的XRF光谱数据中,筛选出待测元素a的峰值信息和含量信息、待测元素a的m个干扰元素的峰值信息和含量信息,得到XRF光谱的原始数据集A;
步骤4、根据应用需求确定降维后的特征维数;对步骤3得到的XRF光谱原始数据集A中的m个干扰元素的峰值信息做PCA降维处理,得到压缩后含有p个特征的目标样本集;同时将PCA降维后的m个干扰元素的峰值信息作为特征集;
步骤5、将步骤4得到的目标样本集随机划分为训练样本集和测试样本集;
步骤6、基于训练样本集进行训练得到PCA-RFR模型;该模型的输入数据为待测元素a的峰值信息和经PCA降维后的特征集,输出数据为待测元素a的含量;
步骤7、将测试样本集中的输入数据代入步骤6所得PCA-RFR模型进行预测,得到测试样本集中待测元素a的含量预测结果。
进一步的,所述随机森林回归结合主成分分析降维的元素定量分析方法还包括步骤8和步骤9,通过步骤8和步骤9完成PCA-RFR模型的验证,具体的:
步骤8、对步骤7得到的待测元素a的含量预测结果反归一化处理;
步骤9、根据步骤8的反归一化处理结果,分别计算PCA-RFR模型的均方误差(Mean-Square Error,MSE)、拟合优度(Goodness of Fit,R2)两种性能指标,根据计算结果发现PCA-RFR模型的均方误差和拟合优度性能均在标准范围内;所述PCA-RFR模型的均方误差和拟合优度计算公式如下:
Figure BDA0003800872530000021
Figure BDA0003800872530000022
其中,yi为第i个测试样本集中待测元素a的含量值,
Figure BDA0003800872530000023
为经反归一化处理后的第i个测试样本集中待测元素a的含量预测值,
Figure BDA0003800872530000024
为所有测试样本集中待测元素a的含量真实值的平均值;R=1,2,...,n。
进一步地,所述步骤2中得到的各目标样本的XRF光谱数据是由ED-XRF荧光光谱仪测试所得。
进一步地,所述步骤4中PCA降维过程如下:
步骤4.1、假设原始数据集A={Y1,Y2,Y3,...,Yn},每个样本有s维特征值
Figure BDA0003800872530000025
对所有特征进行中心化:
Figure BDA0003800872530000026
Figure BDA0003800872530000027
其中,
Figure BDA0003800872530000031
为第j个特征的特征均值,
Figure BDA0003800872530000032
第i个样本的第j维特征值;
步骤4.2、利用步骤4.1中所得到的特征均值
Figure BDA0003800872530000033
更新原始数据集Yi,得到Yi *
Figure BDA0003800872530000034
步骤4.3、根据步骤4.2中所得到的Yi *建立协方差矩阵B:
Figure BDA0003800872530000035
Figure BDA0003800872530000036
其中,xb与xc分别为样本中第b个特征和第c个特征,b=1,...,s,c=1,...,s,
Figure BDA0003800872530000037
Figure BDA0003800872530000038
为第b个特征与第c个特征的均值,矩阵B的对角线是特征的方差,其余非对角线上的元素为对应特征的协方差;
步骤4.4、确定降维后特征维数p,利用线性代数相关知识对协方差矩阵进行特征值分解,得到s个特征值λ={λ1,λ2,λ3,...,λs}及其对应的特征向量μ={μ1,μ2,μ3,...,μs},将全部特征向量标准化,并将其组成特征向量矩阵W;其中p<s;
步骤4.5、计算s个特征向量所对应的主成分:
Zr=(ur)TB (7)
其中,r=1,2,...,s;
步骤4.6、求解s个特征值所对应的主成分贡献率:
Figure BDA0003800872530000039
其中,Wt为第t个特征值对应的主成分贡献率,λt为第t个特征值,t=1,...,6;
步骤4.7、根据步骤4.6中所得到的主成分贡献率大小进行降序排序,并选取前p大的特征值作为降维后的特征值,得到这p个特征值的特征向量矩阵W*;
步骤4.8、利用步骤4.7中所得到的特征向量矩阵W*,对原始特征通过公式(7)计算转化为新特征:
zi=(W*)Txi (9)
其中,zi为转化后的第i个特征;i=1,2,...,p
步骤4.9、根据步骤4.8中所得到的新特征数据,得到降维后的特征集D:
D=(z1,z2,...,zp) (10)
进一步的,步骤6中训练构建PCA-RFR模型过程如下:
步骤6.1、根据网格搜索法得到决策树数量h,使用bootstrap方法对训练样本集进行重采样,采样次数设为h,即生成h个新训练集θ1,θ2,...,θh,在训练集的基础上学习并生成与之相对应的决策树{T(x,θ1),T(x,θ2),...,T(x,θh)};其中T(x,θh)为第h个决策树;
步骤6.2、从步骤4,7降维后的P个特征中随机生成若干个特征,并将它们作为当前决策树分裂时的特征集,通过若干个特征中的最优分裂方式来确定分裂方式,且对于单棵树而言,让其最大程度生长,不进行剪枝操作;
步骤6.3、通过观测叶节点l(x,θ)的值同时取其平均,得到当输入新数据时单棵决策树T(θ)的预测结果;当叶子节点l(x,θ)存在不为零的观测值时,令其权重wi(x,θ)为:
Figure BDA0003800872530000041
其中Xi与为Xj分别为第i个与第j个观测值i=1,2,...,k,j=1,2,...,k,Rl为决策树的所有叶子节点空间;
步骤6.4、利用步骤6.3设定的权重wi(x,θ),对因变量的观测值Yp(p=1,2,...,k)加权平均得到单棵决策树的预测值;单棵决策树的预测值表示为:
Figure BDA0003800872530000042
步骤6.5、由步骤6.4通过对决策树权重wi(x,θt)(t=1,2,...,h)取平均,得到每个观测值的权重:
Figure BDA0003800872530000043
步骤6.6、通过步骤6.5得到的所有观测值对应的权重,则PCA-RFR最终的预测值
Figure BDA0003800872530000051
为:
Figure BDA0003800872530000052
本发明提出了一种随机森林回归结合主成分分析的元素含量定量分析方法,是基于样本特征与元素含量具有明确对应关系这一特点,来完成模型的构建与预测过程。具体的:从获取的XRF光谱数据提取待测元素信息以及干扰元素信息作为特征,通过PCA对特征进行降维数据预处理,将预处理后的数据划分为训练样本集和测试样本集,基于训练样本集得到PCA-RFR模型,通过该模型来实现元素的定量分析。由于XRF光谱数据具有大量通道,即存在大量冗余数据,这些冗余数据会严重影响最终定量分析模型的精度。为了克服这一问题,本发明在随机森林回归的基础上加入数据的预处理过程,即PCA特征降维,来消除训练样品集中特征的冗余数据,使得数据具有更强的线性度,从而达到提高定量分析模型的精度以及泛化能力。
与现有技术相比,本发明通过在输入回归模型之前对原始数据做降维预处理,分析计算过程简单,能够大幅提高运算效率,使得输入数据线性度更高,定量分析精度及模型泛化能力提升显著,可以广泛应用于元素的XRF定量分析领域。
附图说明
图1为本发明的流程图;
图2为本发明中PCA降维的各特征主成分贡献率;
图3为本发明土壤Cu元素测试集含量预测结果图。
具体实施方式
基于以上思想,本实施例提供了一种随机森林回归结合主成分分析的元素含量定量分析方法,并利用该分析方法完成了对土壤重金属元素含量进行定量分析。其分析过程包括以下步骤,如图1所示:
步骤1:指定Cu元素为待测元素a,采用59个国家标准样品作为目标样本,使用光谱仪测得各目标样本的2048个全通道光谱谱图。本实例中所使用的光谱仪是由泰克松德公司生产制造的手持式ED-XRF光谱仪,其型号为TS-XH4000-SOIL,该设备在正常工作下的X射线管参数为45KV和25uA。
步骤2:分别对每个样本的光谱数据进行归一化处理,即将每个样本光谱数据中的峰值与所有元素含量信息归一化到[0,1]区间;
步骤3:在步骤2归一化处理好后的XRF光谱数据中取出待测元素Cu的峰值与含量信息、对待测元素Cu产生干扰的对应5个干扰元素Fe、Ni、P、Co和Mn的峰值信息,得到原始数据集A={Y1,Y2,Y3,...,Y59};
步骤4:确定降维后特征维数p=5;
步骤5:根据确定的降维后特征维数p,对步骤3中所得到的原始数据集A={Y1,Y2,Y3,...,Y59}做PCA降维。
本实施例中采用的每个样本均有6维特征值
Figure BDA0003800872530000061
按如下方式进行降维:
先对所有特征进行中心化得到特征均值
Figure BDA0003800872530000062
后,利特征均值
Figure BDA0003800872530000063
更新原始数据集Yi得到Yi *
Figure BDA0003800872530000064
Figure BDA0003800872530000065
其中,
Figure BDA0003800872530000066
为第j个特征的特征均值,
Figure BDA0003800872530000067
为第i个样本的第j维特征值;
再通过协方差求解公式,建立协方差矩阵B:
Figure BDA0003800872530000068
Figure BDA0003800872530000069
其中,xe与xf分别为样本中第e个特征和第f个特征,e=1,...,6,f=1,...,6,
Figure BDA00038008725300000610
Figure BDA00038008725300000611
为第e个特征与第f个特征的均值,矩阵B中对角线是特征x1、x2、x3...x6的方差,其余非对角线上的的元素为对应特征的协方差;
求取协方差矩阵的特征值,得到6个特征值λ={λ1,λ2,λ3,...,λ6}及其对应的特征向量μ={μ1,μ2,μ3,...,μ6},将全部特征向量标准化,并将其组成特征向量矩阵W并计算6个特征向量所对应的主成分:
Zr=(ur)TB (19)
其中,r=1,2,...,6;
求6个特征值对应的主成分贡献率:
Figure BDA0003800872530000071
其中,Wt为第t个特征值对应的主成分贡献率,λt为第t个特征值,t=1,...,6;
为了使得最终的模型更加精确,选取累计贡献率之和大于95%的前5个特征作为降维后的特征,图2为PCA降维的各特征主成分贡献率条形图;
然后将原始特征转化为新特征:
zi=WTxi (21)
其中,zi为转化后的第i个特征;i=1,2,...,5;
最后得到降维后的特征集D:
D=(z1,z2,z3,z4,z5) (22)
步骤6:在步骤5的基础上,将经过PCA降维后得到的特征集与Cu元素的含量数据随机划分训练样本集与测试样本集,前49个目标样本数据为训练样本集。其中待测元素Cu的峰值数据以及经PCA降维后得到的特征集作为PCA-RFR模型的输入数据,待测元素Cu的含量为模型的输出数据;后面10个目标样本数据为测试样本集,其中待测元素Cu的峰值数据以及经PCA降维后得到的特征集作为PCA-RFR模型的输入数据,待测元素Cu的含量为模型的输出数据;
步骤7:基于步骤6中的训练样本集训练并构建PCA-RFR模型;
运用bootstrap法对训练集样本进行重采样,结合网格搜索法得到最优决策树数量800,并设置采样次数为800,从输入训练样本集中采样得到800个新样本集,分别学习训练新样本集,构建800个决策树模型{T(x,θ1),T(x,θ2),...,T(x,θ800)};
输入训练样本集中特征维数为5,选取小于5的随机数作为新特征数,并从新特征中选取1个作为当前节点的分裂特征;
将上述生成的800棵决策树组成随机森林,其形成过程中每个节点分裂方式都为从新特征中选取1个作为当前节点的分裂特征;
对于本发明中的回归预测问题,模型的预测值即为800棵决策树预测结果的平均值,从而得到PCA-RFR模型;
步骤8:将步骤6中10个测试样本集中的输入数据带入步骤7中训练完成的PCA-RFR模型进行预测,得到10个测试样本集中待测元素Cu的含量预测结果;
步骤9:将步骤8所得到的Cu元素含量预测结果反归一化;
步骤10:计算PCA-RFR模型的均方误差(Mean-Square Error,MSE)与拟合优度(Goodness of Fit,R2)两种性能指标:
Figure BDA0003800872530000081
Figure BDA0003800872530000082
其中,yi为第i个样本集中待测元素Cu的含量值,
Figure BDA0003800872530000083
为经反归一化处理后的第i个样本集中待测元素Cu的含量预测值,
Figure BDA0003800872530000084
为训练或预测样本集中待测元素Cu的含量真实值的平均值。
为更加清楚的展示本实施例的效果,分别利用本实施例方法和传统方法对土壤中待测元素Cu进行预测,两者的预测结果如图3所示。由图3可知,PCA-RFR的预估值合格率更高。
下面利用表格对比实施例与对比例1训练集及预测集评价指标数据:
表1 PCA-RFR与RFR模型的Cu元素含量训练集及预测集性能指标
Figure BDA0003800872530000085
表1给出了PCA-RFR与RFR模型预测Cu元素含量的训练集、测试集的R2与RMSE两种模型性能评价指标。由表可知,采用PCA-RFR训练集R2与RMSE分别为0.973与36.94,测试集R2与RMSE分别为0.935与20.18,而未采用PCA的RFR模型的训练集R2与RMSE分别为0.968与39.75,测试集R2与RMSE分别为0.886与24.93,说明所建立的PCA-RFR模型对Cu元素的预测性能相对于RFR模型有较为显著的提高,能够较好的拟合建模数据;且PCA-RFR模型的RMSE均小于40,误差在可接受的范围内。此外,测试集与训练集相比,模型评价指标相差不大,说明模型未出现过拟合,泛化性能较好。通过比较PCA-RFR与RFR的模型评价指标可知,测试集采用PCA-RFR建模R2至少增加了4%,RMSE均小于RFR模型。
综上可见,本实施例基于PCA-RFR的元素含量定量分析预估精度更高,是XRF元素定量分析中提高预测精度的一种可靠方法。

Claims (5)

1.一种随机森林回归结合主成分分析的元素含量定量分析方法,其特征在于:包括以下步骤:
步骤1、选定待测元素a,采集n个国家标准样品作为目标样本;
步骤2、使用光谱仪测得各目标样本的XRF光谱数据,并对每个光谱数据进行归一化处理;
步骤3、从步骤2归一化处理后的XRF光谱数据中,筛选出待测元素a的峰值信息和含量信息、待测元素a的m个干扰元素的峰值信息和含量信息,得到XRF光谱的原始数据集A;
步骤4、根据应用需求确定降维后的特征维数;对步骤3得到的XRF光谱原始数据集A中的m个干扰元素的峰值信息做PCA降维处理,得到压缩后含有p个特征的目标样本集;同时将PCA降维后的m个干扰元素的峰值信息作为特征集;
步骤5、将步骤4得到的目标样本集随机划分为训练样本集和测试样本集;
步骤6、基于训练样本集进行训练得到PCA-RFR模型;该模型的输入数据为待测元素a的峰值数据和经PCA降维后的特征集,输出数据为待测元素a的含量;
步骤7、将测试样本集中的输入数据代入步骤6所得PCA-RFR模型进行预测,得到测试样本集中待测元素a的含量预测结果。
2.根据权利要求1所述的一种随机森林回归结合主成分分析的元素含量定量分析方法,其特征在于:还包括了PCA-RFR模型的验证过程,该过程包括步骤8和步骤9:
步骤8、对步骤7得到的待测元素a的含量预测结果反归一化处理;
步骤9、根据步骤8的反归一化处理结果,分别计算PCA-RFR模型的均方误差与拟合优度两种性能指标,根据计算结果发现PCA-RFR模型的均方误差和拟合优度性能均在标准范围内;所述PCA-RFR模型的均方误差和拟合优度计算公式如下:
Figure FDA0003800872520000011
Figure FDA0003800872520000012
其中,yi为第i个测试样本集中待测元素a的含量值,
Figure FDA0003800872520000013
为经反归一化处理后的第i个测试样本集中待测元素a的含量预测值,
Figure FDA0003800872520000014
为所有测试样本集中待测元素a的含量真实值的平均值;R=1,2,...n。
3.根据权利要求1所述的一种随机森林回归结合主成分分析的元素含量定量分析方法,其特征在于:所述步骤4中PCA降维过程如下:
步骤4.1、假设原始数据集A={Y1,Y2,Y3,...,Yn},每个样本有s维特征值
Figure FDA0003800872520000021
对所有特征进行中心化:
Figure FDA0003800872520000022
Figure FDA0003800872520000023
其中,
Figure FDA0003800872520000024
为第j个特征的特征均值,
Figure FDA0003800872520000025
第i个样本的第j维特征值;
步骤4.2、利用步骤4.1中所得到的特征均值
Figure FDA0003800872520000026
更新原始数据集Yi,得到Yi *
Figure FDA0003800872520000027
步骤4.3、根据步骤4.2中所得到的Yi *建立协方差矩阵B:
Figure FDA0003800872520000028
Figure FDA0003800872520000029
其中,xb与xc分别为样本中第b个特征和第c个特征,b=1,...,s,c=1,...,s,
Figure FDA00038008725200000210
Figure FDA00038008725200000211
为第b个特征与第c个特征的均值,矩阵B的对角线是特征的方差,其余非对角线上的元素为对应特征的协方差;
步骤4.4、确定降维后特征维数p,利用线性代数相关知识对协方差矩阵进行特征值分解,得到s个特征值λ={λ1,λ2,λ3,...,λs}及其对应的特征向量μ={μ1,μ,μ,...,μs},将全部特征向量标准化,并将其组成特征向量矩阵W;其中p<s;
步骤4.5、计算s个特征向量所对应的主成分:
Zr=(ur)TB (7)
其中,r=1,2,...,s;
步骤4.6、求解s个特征值所对应的主成分贡献率:
Figure FDA0003800872520000031
其中,Wt为第t个特征值对应的主成分贡献率,λt为第t个特征值,t=1,...,6;
步骤4.7、根据步骤4.6中所得到的主成分贡献率大小进行降序排序,并选取前p大的特征值作为降维后的特征值,得到这p个特征值的特征向量矩阵W*
步骤4.8、利用步骤4.7中所得到的特征向量矩阵W*,对原始特征通过公式(7)计算转化为新特征:
zi=(W*)Txi (9)
其中,zi为转化后的第i个特征;i=1,2,...,p
步骤4.9、根据步骤4.8中所得到的新特征数据,得到降维后的特征集D:
D=(z1,z2,...,zp) (10)
4.根据权利要求3所述的一种随机森林回归结合主成分分析的元素含量定量分析方法,其特征在于:所述步骤6中训练构建PCA-RFR模型过程如下:
步骤6.1、根据网格搜索法得到决策树数量h,使用bootstrap方法对训练样本集进行重采样,采样次数设为h,即生成h个新训练集θ1,θ2,...,θh,在训练集的基础上学习并生成与之相对应的决策树{T(x,θ1),T(x,θ2),...,T(x,θh)};其中T(x,θh)为第h个决策树;
步骤6.2、从步骤4,7降维后的P个特征中随机生成若干个特征,并将它们作为当前决策树分裂时的特征集,通过若干个特征中的最优分裂方式来确定分裂方式,且对于单棵树而言,让其最大程度生长,不进行剪枝操作;
步骤6.3、通过观测叶节点l(x,θ)的值同时取其平均,得到当输入新数据时单棵决策树T(θ)的预测结果;当叶子节点l(x,θ)存在不为零的观测值时,令其权重wi(x,θ)为:
Figure FDA0003800872520000032
其中Xi与为Xj分别为第i个与第j个观测值i=1,2,...,k,j=1,2,...,k,Rl为决策树的所有叶子节点空间;
步骤6.4、利用步骤6.3设定的权重wi(x,θ),对因变量的观测值Yp(p=1,2,...,k)加权平均得到单棵决策树的预测值;单棵决策树的预测值表示为:
Figure FDA0003800872520000041
步骤6.5、由步骤6.4通过对决策树权重wi(x,θt)(t=1,2,...,h)取平均,得到每个观测值的权重:
Figure FDA0003800872520000042
步骤6.6、通过步骤6.5得到的所有观测值对应的权重,则PCA-RFR最终的预测值
Figure FDA0003800872520000043
为:
Figure FDA0003800872520000044
5.根据权利要求1~4任一项所述的一种随机森林回归结合主成分分析的元素含量定量分析方法,其特征在于:所述步骤2中得到的各目标样本的XRF光谱数据是由ED-XRF荧光光谱仪测试所得。
CN202210982806.XA 2022-08-16 2022-08-16 一种随机森林回归结合主成分分析的元素含量定量分析方法 Pending CN115436407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210982806.XA CN115436407A (zh) 2022-08-16 2022-08-16 一种随机森林回归结合主成分分析的元素含量定量分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210982806.XA CN115436407A (zh) 2022-08-16 2022-08-16 一种随机森林回归结合主成分分析的元素含量定量分析方法

Publications (1)

Publication Number Publication Date
CN115436407A true CN115436407A (zh) 2022-12-06

Family

ID=84242445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210982806.XA Pending CN115436407A (zh) 2022-08-16 2022-08-16 一种随机森林回归结合主成分分析的元素含量定量分析方法

Country Status (1)

Country Link
CN (1) CN115436407A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117740727A (zh) * 2024-02-19 2024-03-22 南京信息工程大学 一种基于红外高光谱的纺织品成分定量反演方法
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117789038B (zh) * 2024-02-26 2024-05-10 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117740727A (zh) * 2024-02-19 2024-03-22 南京信息工程大学 一种基于红外高光谱的纺织品成分定量反演方法
CN117740727B (zh) * 2024-02-19 2024-05-14 南京信息工程大学 一种基于红外高光谱的纺织品成分定量反演方法
CN117789038A (zh) * 2024-02-26 2024-03-29 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法
CN117789038B (zh) * 2024-02-26 2024-05-10 聊城莱柯智能机器人有限公司 一种基于机器学习的数据处理与识别模型的训练方法

Similar Documents

Publication Publication Date Title
CN109493287B (zh) 一种基于深度学习的定量光谱数据分析处理方法
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
CN103959426B (zh) 用于通过质谱术识别微生物的方法
CN109253985B (zh) 基于神经网络的近红外光谱识别古筝面板用木材等级的方法
CN109324013B (zh) 利用高斯过程回归模型构建原油性质近红外快速分析方法
CN105158200B (zh) 一种提高近红外光谱定性分析准确度的建模方法
CN105431854B (zh) 用于分析生物样品的方法和设备
CN109324014B (zh) 一种自适应的原油性质近红外快速预测方法
CN108956584B (zh) 一种桑椹中重金属元素铬的快速准确检测方法
CN109409350A (zh) 一种基于pca建模反馈式载荷加权的波长选择方法
CN116559110A (zh) 一种基于相关性和高斯曲线拟合的自适应近红外光谱变换方法
CN111693487A (zh) 基于遗传算法和极限学习机的水果糖度检测方法及系统
CN108663334B (zh) 基于多分类器融合寻找土壤养分光谱特征波长的方法
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
CN114460116B (zh) 一种支持向量机回归结合灵敏度分析的元素含量定量分析方法
CN107796779A (zh) 橡胶树叶片氮素含量的近红外光谱诊断方法
CN115436407A (zh) 一种随机森林回归结合主成分分析的元素含量定量分析方法
CN109829513B (zh) 一种顺序式波长色散x射线荧光光谱智能分析方法
CN112801172A (zh) 一种模糊模式识别的白菜农药残留定性分析方法
CN114694771A (zh) 样品分类方法、分类器的训练方法、设备和介质
CN111693484A (zh) 一种基于太赫兹时域光谱的芝麻油品种识别方法
CN114994109A (zh) 基于isomap-elm的xrf微量元素定量分析方法
CN113848225B (zh) 基于pca-svr的xrf元素定量分析方法
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
CN117589741B (zh) 基于光学特征的吲哚菁绿智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination