CN113868960B - 一种基于典型相关森林的土壤重金属特征选取方法及系统 - Google Patents
一种基于典型相关森林的土壤重金属特征选取方法及系统 Download PDFInfo
- Publication number
- CN113868960B CN113868960B CN202111207773.3A CN202111207773A CN113868960B CN 113868960 B CN113868960 B CN 113868960B CN 202111207773 A CN202111207773 A CN 202111207773A CN 113868960 B CN113868960 B CN 113868960B
- Authority
- CN
- China
- Prior art keywords
- bag
- model
- typical
- error
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002689 soil Substances 0.000 title claims abstract description 79
- 229910001385 heavy metal Inorganic materials 0.000 title claims abstract description 45
- 238000010187 selection method Methods 0.000 title claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000008030 elimination Effects 0.000 claims abstract description 3
- 238000003379 elimination reaction Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 39
- 238000003066 decision tree Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 230000002596 correlated effect Effects 0.000 claims description 13
- 238000012952 Resampling Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010521 absorption reaction Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007605 air drying Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于典型相关森林的土壤重金属特征选取方法及系统,方法包括:获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始样本重新分组,得到n组样本数据;对所述样本数据进行特征预选,确定特征值矩阵;对所述特征值矩阵进行去冗余处理,选取相应的特征值,根据选取的特征值建立K个独立的典型相关森林回归子模型;利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取。本发明提高了土壤重金属特征选取的准确性、精度以及效率。
Description
技术领域
本发明涉及土壤重金属领域,特别是涉及一种基于典型相关森林的土壤重金属特征选取方法及系统。
背景技术
土壤光谱数据集固有的时空异质性是影响土壤重金属特征波段优选准确率的重要因素。由于重金属不具有直接光谱响应,导致重金属所对应的敏感波段非常少,原始光谱含有冗余的以及不相关的特征,直接使用原始光谱构建回归反演模型不仅准确率和稳定性偏低,而且运算效率较差。目前,主流的重金属高光谱特征选取方法一般选用线性建模方法以及固定权值的特征空间随机采样方式与收缩方式。线性建模方法无法准确描述样本响应变量与输入特征值之间的非线性关系,固定权值的特征空间随机采样方式与收缩方式无法快速准确地从高冗余的土壤高光谱特征空间中识别土壤重属性的敏感波段。因此,主流的重金属高光谱特征选取方法在处理高维、高冗余以及非线性的土壤高光谱数据时特征选取困难,使得选取准确率低,进而影响反演模型的精度。
发明内容
本发明的目的是提供一种基于典型相关森林的土壤重金属特征选取方法及系统,以解决目前主流的重金属高光谱特征选取方法选取高光谱特征准确率低的问题。
为实现上述目的,本发明提供了如下方案:
一种基于典型相关森林的土壤重金属特征选取方法,包括:
获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据;所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量;
利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型;
利用所述训练好的典型相关森林回归模型,得到每个所述高光谱数据的特征值的变量重要性得分;
根据所述变量重要性得分,确定特征值矩阵;
根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型;
利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
可选的,所述获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据,具体包括:
获取每份所述原始土壤样本的Munsell颜色值;
将所述Munsell颜色值转换为CIE XYZ三刺激值;
将所述CIE XYZ三刺激值转化成多个颜色参数,多个所述颜色参数作为高光谱数据的特征值;
基于所述特征值,对所述高光谱数据进行主成分变换,确定每份所述原始土壤样本的主成分得分;
基于所述主成分得分,采用模糊K平均聚类算法确定最佳聚类数目;
根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。
可选的,所述利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型,具体包括:
将每一组所述样本数据转换成原始特征值向量Mi(i∈[1,n]),利用训练集对典型相关森林模型进行训练,得到训练好的典型相关森林模型;所述训练集从n个所述原始特征值向量中选取;
可选的,所述利用所述训练好的典型相关森林回归模型,得到每个特征值的变量重要性得分,具体包括:
计算所述训练好的典型相关森林回归模型中每棵决策树的第一袋外估计均方误差;
随机置换袋外数据集中第j个特征值,计算每棵决策树的第二袋外估计均方误差;
根据所述第一袋外估计均方误差和所述第二袋外估计均方误差,计算每棵决策树的袋外估计均方误差的减少量;
将所有决策树的所述减少量取平均值,得到每个特征值的变量重要性得分。
可选的,所述根据所述变量重要性得分,确定特征值矩阵,具体包括:
将所述变量重要性得分降序排序并选取预设个数的特征值;
根据选取后的特征值确定特征值矩阵。
可选的,所述对所述特征值矩阵进行去冗余处理,选取相应的特征值作为输入建立K个独立的典型相关森林回归子模型,具体包括:
根据一致权重向量将所述特征值矩阵转换成二进制矩阵A;
对所述二进制矩阵A进行初等行变换,确定所述二进制矩阵A的最大无关组,根据所述最大无关组对所述二进制矩阵A重新赋值,得到二进制矩阵B;
根据所述二进制矩阵B每一行中“1”的位置选取相应的特征值,根据选中的特征值建立K个独立的典型相关森林回归子模型。
可选的,所述利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,具体包括:
利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差;其中,OOBMES为所述典型相关森林回归子模型的袋外数据集的平均袋外误差;yr为第i个样本数据在袋外数据集上的真实值;yp为第i个样本数据在袋外数据集上的预测值;i表示样本编号;n表示样本数据的数量;
选取预设个数的所述平均袋外误差,将与所述平均袋外误差相对应的所述典型相关森林回归子模型作为候选子模型;
根据公式计算得出所述候选子模型中每个特征值的权重向量,将所述权重向量作为下一次迭代的重采样权重向量;其中,/>为重采样权重向量,Ui为对二进制矩阵B的每一列求和;K为典型相关森林回归子模型的个数;α为最佳子模型选取比例;
将预设个数的所述平均袋外误差取平均值,得到当前候选子模型的平均袋外误差,并设定一个最低平均袋外误差;
判断所述当前候选子模型的平均袋外误差是否大于所述最低平均袋外误差;如果所述当前候选子模型的平均袋外误差小于或者等于所述最低平均袋外误差,将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差,利用重采样权重向量更新所述候选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差”;
如果所述当前候选子模型的平均袋外误差大于所述最低平均袋外误差,将所述最低平均袋外误差对应的候选子模型作为优选子模型,设定一个最优平均袋外误差,判断当前优选子模型的平均袋外误差是否大于或者等于所述最优平均袋外误差;所述最优平均袋外误差小于所述最低平均袋外误差;
如果当前优选子模型的平均袋外误差小于所述最优平均袋外误差,根据一致权重向量对调整权重向量赋值,利用赋值后的调整权重向量更新所述当前优选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差”;如果当前优选子模型的平均袋外误差大于或者等于所述最优平均袋外误差,算法终止,输出当前优选子模型,将所述当前优选子模型作为最优特征子集。
一种基于典型相关森林的土壤重金属特征选取系统,包括:
分组模块,用于获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据;所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量;
训练模块,用于利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型;
重要性得分计算模块,用于利用所述训练好的典型相关森林回归模型,得到每个特征值的变量重要性得分;
特征值矩阵确定模块,用于根据所述变量重要性得分,确定特征值矩阵;
冗余去除模块,用于根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型;
特征精选模块,用于利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过采用模糊K平均聚类算法,并基于颜色参数降低同组内高光谱数据的差异性,在具有相似光谱吸收特征的高光谱数据上,利用典型相关森林变量重要性评估方法作为特征预选策略,剔除冗余与不相关特征,初步筛选出与重金属含量相关的敏感波段,提高了特征选取的准确性。从较短的子模型中搜寻最优特征子集,比传统特征选择方法更快地接近最优子空间,从而显著提高了算法的精度和执行效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法的流程图;
图2为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法步骤101的流程图;
图3为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法步骤106的流程图;
图4为本发明不同颜色空间系统之间的转换顺序和方式的示意图;
图5为本发明提供的一种基于典型相关森林的土壤重金属特征选取系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于典型相关森林的土壤重金属特征选取方法及系统,以解决目前主流的重金属高光谱特征选取方法选取高光谱特征准确率低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的一种基于典型相关森林的土壤重金属特征选取方法的流程图,如图1所示,一种基于典型相关森林的土壤重金属特征选取方法,包括:
步骤101:获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据。所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量。
在实际应用中,获取N份原始土壤样本之后还包括:获取N份原始土壤样本后,先风干处理,然后对原始土壤样本进行研磨和过筛,将每一份原始土壤样本分成两份,一份用于高光谱数据采集,N份原始土壤样本的高光谱数据组成特征矩阵X(X为N×P的矩阵,其中P为特征值数量);一份按照国家标准进行土壤重金属浓度测定,N份原始土壤样本对应的重金属浓度组成原始土壤样本的响应变量Y。
在一个具体实施方式中,所述步骤101具体包括:
步骤201:获取每份所述原始土壤样本的Munsell颜色值。在实际应用中,采用中国科学院南京土壤研究所1989年编制的中国标准土壤色卡在自然光下(光线强度4300~4500Lux时)对每份土壤样品进行比色,获取每份原始土壤样本的Munsell颜色值。
步骤202:将所述Munsell颜色值转换为CIE XYZ三刺激值。在实际应用中,利用颜色匹配函数将每份原始土壤样本的Munsell颜色值转换为国际标准色系坐标系下的CIEXYZ三刺激值X,Y,Z。
步骤203:将所述CIE XYZ三刺激值转化成多个颜色参数,多个所述颜色参数作为高光谱数据的特征值。在实际应用中,按照图4不同颜色空间系统之间的转换顺序和方式,使用蒙塞尔转换软件将CIE XYZ坐标下的XYZ值转化成其他色系系统中的20个颜色参数。表1为20个颜色参数以及20个颜色参数的缩写表,如表1所示。
表1 20个颜色参数以及20个颜色参数的缩写表
步骤204:基于所述特征值,对所述高光谱数据进行主成分变换,确定每份所述原始土壤样本的主成分得分。
在实际应用中,根据公式
PC1=(B1·e1,1)+(B2·e1,2)+…+(Bk·e1,k)
PC2=(B1·e2,1)+(B2·e2,2)+…+(Bk·e2,k)
…
PCN=(B1·eN,1)+(B2·eN,2)+…+(Bk·eN,k)
对以20个颜色参数为特征值的高光谱数据进行主成份变换。式中,PC是主成分得分;B是颜色参数;e是每个颜色参数的贡献率;k是颜色参数的数量。
步骤205:基于所述主成分得分,采用模糊K平均聚类算法确定最佳聚类数目。在实际应用中,将模糊K平均(Fuzzy k-means,FKM)聚类算法应用于颜色变量主成分得分值;依据主成分得分、划分系数与划分熵确定最佳聚类数目。
划分系数:其中,k表示聚类数目;uij是隶属度函数,表示第j个样本属于第i个分类的隶属度;n是样本数据的个数。
划分熵:
步骤206:根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。在实际应用中,根据所述最佳聚类数目将原始土壤样本的高光谱数据划分成不同的分组,将所述高光谱数据对应的响应变量归类于对应的分组。各分组中所有高光谱数据的平均光谱均表现出相似的光谱吸收峰特征。
步骤102:利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型。
在一个具体实施方式中,所述步骤102,具体包括:
将每一组所述样本数据转换成原始特征值向量Mi(i∈[1,n]),利用训练集对典型相关森林模型进行训练,得到训练好的典型相关森林模型;所述训练集从n个所述原始特征值向量中选取。在实际应用中,选取n个所述原始特征值向量的三分之二作为训练集。
步骤103:利用所述训练好的典型相关森林回归模型,得到每个特征值的变量重要性得分。
在一个具体实施方式中,所述步骤103,具体包括:
在实际应用中,根据公式计算所述训练好的典型相关森林回归模型中每棵决策树的第一袋外估计均方误差。MSE表示均方误差(mean-squareerror);/>表示第一袋外估计均方误差;t表示决策树;m表示决策树的个数;yt为第t棵决策树在袋外数据集上的真实值;/>为第t棵决策树在袋外数据集上的预测值。
在模型训练过程中,选取初始样本数的三分之二作为训练样本构建决策树。
将剩余三分之一的样本作为袋外数据集(Out-of-Bag,OOB)输入到训练好的典型相关森林回归模型中。
依据式计算袋外估计均方误差,作为内部校验方式评价模型的预测准确率。
随机置换袋外数据集中第j个特征值,计算每棵决策树的第二袋外估计均方误差。在实际应用中,随机置换并改变袋外数据集中第j个特征值λj,依据式计算每棵决策树的第二袋外估计均方误,/>表示第j个特征值;p表示置换第j列特征值后的决策树的个数;/>为对第i组样本数据置换第j列特征值后第t棵决策树在袋外数据集上的真实值,/>为对第i组样本数据置换第j列特征值后第t棵决策树在袋外数据集上的预测值。
根据所述第一袋外估计均方误差和所述第二袋外估计均方误差,计算每棵决策树的袋外估计均方误差的减少量,每棵决策树的袋外估计均方误差的减少量即为每棵决策树的变量重要性得分(Variable Importance Measure,VIM)。
将所有决策树的所述减少量取平均值,得到每个特征值的变量重要性得分。
根据公式计算每个特征值的变量重要性得分,VIM’j为每个特征值的变量重要性得分。
步骤104:根据所述变量重要性得分,确定特征值矩阵。
在一个具体实施方式中,所述步骤104,具体包括:
将所述变量重要性得分降序排序并选取预设个数的特征值;根据选取后的特征值确定特征值矩阵。在实际应用中,对每个特征值的变量重要性得分进行m次计算,将每个特征值计算得到的所有变量重要性得分取平均值,然后根据每个特征值的变量重要性得分平均值对所有特征值进行降序排序,选取变量重要性得分位于前1000个的特征值,将这1000个特征值在原始特征值向量Mi中对应位置的高光谱数据组成特征值矩阵M。
步骤105:根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型。
在一个具体实施方式中,所述步骤105,具体包括:
根据一致权重向量将所述特征值矩阵转换成二进制矩阵A。在实际应用中一致权重向量wu=0.005,所述二进制矩阵A为N×1000维。在二进制矩阵A中只包含“1”或“0”两个元素。二进制矩阵A中的每一行代表一个子模型,其中某一位置的数字“1”表示所述特征值矩阵中被选择的特征值,而数字“0”表示该特征值未被选中。
对所述二进制矩阵A进行初等行变换,确定所述二进制矩阵A的最大无关组,根据所述最大无关组对所述二进制矩阵A重新赋值,得到二进制矩阵B。
根据所述二进制矩阵B每一行中“1”的位置选取相应的特征值,根据选中的特征值建立K个独立的典型相关森林回归子模型。
在实际应用中,在选中的特征值中,选取最优特征值作为节点,建立决策树,多个决策树组成典型相关森林回归子模型。
步骤106:利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取。所述特征空间为样本数量和特征值数量组成的矩阵。
在一个具体实施方式中,所述步骤106,具体包括:
步骤301:利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差;其中,OOBMES为所述典型相关森林回归子模型的袋外数据集的平均袋外误差;yr为第i个样本数据在袋外数据集上的真实值;yp为第i个样本数据在袋外数据集上的预测值;i表示样本编号;n表示样本数据的数量。
步骤302:选取预设个数的所述平均袋外误差,将与所述平均袋外误差相对应的所述典型相关森林回归子模型作为候选子模型。在实际应用中,将所述平均袋外误差按升序排序,选取K=K*α个所述平均袋外误差,K为典型相关森林回归子模型的个数,K=15000,α为最佳子模型选取比例。袋外误差越低,模型性能越好,选取前K=K*α个所述典型相关森林回归子模型作为候选子模型。
步骤303:根据公式计算得出所述候选子模型中每个特征值的权重向量,将所述权重向量作为下一次迭代的重采样权重向量。其中,/>为重采样权重向量,Ui为对二进制矩阵B的每一列求和。重采样权重向量为候选子模型中特征值在种群中出现的次数/种群数量。
步骤304:将预设个数的所述平均袋外误差取平均值,得到当前候选子模型的平均袋外误差,并设定一个最低平均袋外误差。
步骤305:判断当前候选子模型的平均袋外误差是否大于最低平均袋外误差。若否,执行步骤306;若是,执行步骤307。
步骤306:将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差,利用重采样权重向量更新所述候选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“步骤301”。循环变量i=1,j=1。在实际应用中,如果未得到最低平均袋外误差,则根据重采样权重向量重新建立多个典型相关森林回归子模型,重新计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差,以完成对特征空间的筛选与缩减。
步骤307:将所述最低平均袋外误差对应的候选子模型作为优选子模型,设定一个最优平均袋外误差,判断当前优选子模型的平均袋外误差是否大于或者等于所述最优平均袋外误差;若否,执行步骤308;若是,执行步骤309。
步骤308:根据一致权重向量对调整权重向量赋值,利用赋值后的调整权重向量更新所述当前优选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“步骤301”。调整权重向量可以将候选子模型中选出特征值的权值改为0.5,其余特征值的权值保持不变。在实际应用中,采用加权二进制矩阵采样(Weighted Binary Matrix Sampling,WBMS)抽样创建新的典型相关森林回归子模型种群,重新计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差,以完成对特征空间的筛选与缩减。
步骤309:算法终止,输出当前优选子模型,将所述当前优选子模型作为最优特征子集。
本发明提出了一种基于典型相关森林土壤重金属特征选取方法,该方法的优点为:
首先,本发明使用基于颜色参数的聚类分组策略结合典型相关森林构建重金属反演模型,通过降低同组内数据的差异性,为后续特征选择方法提供具有相似光谱吸收特征的输入数据分组,有助于降低土壤异质性对本发明性能的影响。
其次,在具有相似光谱吸收特征的光谱分组数据上,本发明利用典型相关森林变量重要性评估方法作为特征预选策略,剔除冗余与不相关特征,初步筛选出与重金属含量相关的敏感波段,有效降低了特征精选阶段的计算复杂性,并有助于提高本发明进行特征提取的准确性。
然后,该方法在特征精选阶段,从较短的子模型(自底向上的方法)中搜寻最优特征子集,比传统特征选择方法更快地接近最优子空间,从而显著提高了算法的精度和执行效率。同时,为了节省宝贵的CPU资源,对于初始种群数规模采用逐步缩减的方式,大大缩减了算法的建模时间,提高了算法的效率。
最后,该方法在上述三个阶段中所有涉及到建模的机器学习方法均选用典型相关森林。作为一种决策树集成建模策略,典型相关森林模型在预测准确性和建模效率上均优于传统的随机森林模型和其他一些线性建模方法。因此,本发明最大程度的确保了关键特征波段选出的准确性与稳定性。
图5为本发明提供的一种基于典型相关森林的土壤重金属特征选取系统的结构图,如图5所示,所述系统包括:
分组模块501,用于收集N份原始土壤样本,采用模糊K平均聚类算法,基于颜色参数对N组所述原始土壤样本重新分组,得到n组高光谱数据。
训练模块502,用于利用n组所述高光谱数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型。
重要性得分计算模块503,用于利用所述训练好的典型相关森林回归模型,得到每个所述高光谱数据的特征值的变量重要性得分。
特征值矩阵确定模块504,用于根据所述变量重要性得分,确定特征值矩阵。
冗余去除模块505,用于根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型。
特征精选模块506,用于利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于典型相关森林的土壤重金属特征选取方法,其特征在于,包括:
获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据;所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量;
利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型;
利用所述训练好的典型相关森林回归模型,得到每个所述高光谱数据的特征值的变量重要性得分;
根据所述变量重要性得分,确定特征值矩阵;
根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型;
利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
2.根据权利要求1所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据,具体包括:
获取每份所述原始土壤样本的Munsell颜色值;
将所述Munsell颜色值转换为CIE XYZ三刺激值;
将所述CIE XYZ三刺激值转化成多个颜色参数,多个所述颜色参数作为高光谱数据的特征值;
基于所述特征值,对所述高光谱数据进行主成分变换,确定每份所述原始土壤样本的主成分得分;
基于所述主成分得分,采用模糊K平均聚类算法确定最佳聚类数目;
根据所述最佳聚类数目将N份所述原始土壤样本重新划分成n组样本数据。
3.根据权利要求1所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型,具体包括:
将每一组所述样本数据转换成原始特征值向量Mi(i∈[1,n]),利用训练集对典型相关森林模型进行训练,得到训练好的典型相关森林模型;所述训练集从n个所述原始特征值向量中选取。
4.根据权利要求1所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述利用所述训练好的典型相关森林回归模型,得到每个特征值的变量重要性得分,具体包括:
计算所述训练好的典型相关森林回归模型中每棵决策树的第一袋外估计均方误差;
随机置换袋外数据集中第j个特征值,计算每棵决策树的第二袋外估计均方误差;
根据所述第一袋外估计均方误差和所述第二袋外估计均方误差,计算每棵决策树的袋外估计均方误差的减少量;
将所有决策树的所述减少量取平均值,得到每个特征值的变量重要性得分。
5.根据权利要求1所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述根据所述变量重要性得分,确定特征值矩阵,具体包括:
将所述变量重要性得分取平均值降序排序并选取预设个数的特征值;
根据选取后的特征值确定特征值矩阵。
6.根据权利要求1所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述对所述特征值矩阵进行去冗余处理,选取相应的特征值作为输入建立K个独立的典型相关森林回归子模型,具体包括:
根据一致权重向量将所述特征值矩阵转换成二进制矩阵A;
对所述二进制矩阵A进行初等行变换,确定所述二进制矩阵A的最大无关组,根据所述最大无关组对所述二进制矩阵A重新赋值,得到二进制矩阵B;
根据所述二进制矩阵B每一行中“1”的位置选取相应的特征值,根据选中的特征值建立K个独立的典型相关森林回归子模型。
7.根据权利要求6所述的基于典型相关森林的土壤重金属特征选取方法,其特征在于,所述利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,具体包括:
利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差;其中,OOBMES为所述典型相关森林回归子模型的袋外数据集的平均袋外误差;yr为第i个样本数据在袋外数据集上的真实值;yp为第i个样本数据在袋外数据集上的预测值;i表示样本编号;n表示样本数据的数量;
选取预设个数的所述平均袋外误差,将与所述平均袋外误差相对应的所述典型相关森林回归子模型作为候选子模型;
根据公式计算得出所述候选子模型中每个特征值的权重向量,将所述权重向量作为下一次迭代的重采样权重向量;其中,/>为重采样权重向量,Ui为对二进制矩阵B的每一列求和;K为典型相关森林回归子模型的个数;α为最佳子模型选取比例;
将预设个数的所述平均袋外误差取平均值,得到当前候选子模型的平均袋外误差,并设定一个最低平均袋外误差;
判断所述当前候选子模型的平均袋外误差是否大于所述最低平均袋外误差;如果所述当前候选子模型的平均袋外误差小于或者等于所述最低平均袋外误差,将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差,利用重采样权重向量更新所述候选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差”;
如果所述当前候选子模型的平均袋外误差大于所述最低平均袋外误差,将所述当前候选子模型的平均袋外误差作为所述最低平均袋外误差,设定一个最优平均袋外误差,判断当前优选子模型的平均袋外误差是否小于所述最优平均袋外误差;所述最优平均袋外误差小于所述最低平均袋外误差;
如果当前优选子模型的平均袋外误差小于所述最优平均袋外误差,根据一致权重向量对调整权重向量赋值,利用赋值后的调整权重向量更新所述当前优选子模型的权重,建立所述预设个数的典型相关森林回归子模型,并返回“利用公式计算每一个所述典型相关森林回归子模型的袋外数据集的平均袋外误差”;如果当前优选子模型的平均袋外误差大于或者等于所述最优平均袋外误差,算法终止,输出当前优选子模型,将所述当前优选子模型作为最优特征子集。
8.一种基于典型相关森林的土壤重金属特征选取系统,其特征在于,包括:
分组模块,用于获取N份原始土壤样本,采用模糊K平均聚类算法,并基于颜色参数对N份所述原始土壤样本重新分组,得到n组样本数据;所述样本数据包括高光谱数据和与所述高光谱数据对应的响应变量;
训练模块,用于利用n组所述样本数据对典型相关森林回归模型进行训练,得到训练好的典型相关森林模型;
重要性得分计算模块,用于利用所述训练好的典型相关森林回归模型,得到每个特征值的变量重要性得分;
特征值矩阵确定模块,用于根据所述变量重要性得分,确定特征值矩阵;
冗余去除模块,用于根据所述特征值矩阵,建立K个独立的典型相关森林回归子模型;
特征精选模块,用于利用K个所述典型相关森林回归子模型对特征空间进行筛选与缩减变化,获得最优特征子集,完成土壤重金属特征的选取;所述特征空间为样本数量和特征值数量组成的矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111207773.3A CN113868960B (zh) | 2021-10-18 | 2021-10-18 | 一种基于典型相关森林的土壤重金属特征选取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111207773.3A CN113868960B (zh) | 2021-10-18 | 2021-10-18 | 一种基于典型相关森林的土壤重金属特征选取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113868960A CN113868960A (zh) | 2021-12-31 |
CN113868960B true CN113868960B (zh) | 2024-04-16 |
Family
ID=78999894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111207773.3A Active CN113868960B (zh) | 2021-10-18 | 2021-10-18 | 一种基于典型相关森林的土壤重金属特征选取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868960B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227692B (zh) * | 2023-02-06 | 2023-09-26 | 中国科学院生态环境研究中心 | 一种农作物重金属富集风险量化方法、系统及可存储介质 |
CN117292768A (zh) * | 2023-10-12 | 2023-12-26 | 生态环境部环境规划院 | 一种基于机器学习的区域土壤重金属污染风险分区与管控方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
CN111488713A (zh) * | 2020-04-14 | 2020-08-04 | 中国交通建设股份有限公司吉林省分公司 | 一种混凝土早期碳化预测的方法、预测系统及存储介质 |
CN111985796A (zh) * | 2020-08-07 | 2020-11-24 | 华中科技大学 | 基于随机森林和智能算法预测混凝土结构耐久性的方法 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112070356A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11436395B2 (en) * | 2018-06-27 | 2022-09-06 | Dalian University Of Technology | Method for prediction of key performance parameter of an aero-engine transition state acceleration process based on space reconstruction |
-
2021
- 2021-10-18 CN CN202111207773.3A patent/CN113868960B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242206A (zh) * | 2020-01-08 | 2020-06-05 | 吉林大学 | 一种基于层次聚类和随机森林的高分辨率海洋水温计算方法 |
CN111488713A (zh) * | 2020-04-14 | 2020-08-04 | 中国交通建设股份有限公司吉林省分公司 | 一种混凝土早期碳化预测的方法、预测系统及存储介质 |
CN111985796A (zh) * | 2020-08-07 | 2020-11-24 | 华中科技大学 | 基于随机森林和智能算法预测混凝土结构耐久性的方法 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
CN112070356A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法 |
Non-Patent Citations (2)
Title |
---|
基于高光谱反射率的喀斯特地区土壤重金属锌元素含量反演;王金凤;王世杰;白晓永;刘方;路茜;田诗琪;王明明;;光谱学与光谱分析;20191215(第12期);全文 * |
混合式随机森林的土壤钾含量高光谱反演;王轩慧;郑西来;韩仲志;王轩力;王娟;;光谱学与光谱分析;20181215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113868960A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485262B (zh) | 一种母线负荷预测方法 | |
CN113868960B (zh) | 一种基于典型相关森林的土壤重金属特征选取方法及系统 | |
CN105786860B (zh) | 一种数据建模中的数据处理方法及装置 | |
CN109190442B (zh) | 一种基于深度级联卷积神经网络的快速人脸检测方法 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN109492748B (zh) | 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法 | |
CN108460486A (zh) | 一种基于改进聚类算法和神经网络的电压偏差预测方法 | |
CN104318515B (zh) | 基于nnia进化算法的高光谱图像波段降维方法 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN111738477A (zh) | 基于深层特征组合的电网新能源消纳能力预测方法 | |
CN111985845B (zh) | 一种异构Spark集群的节点优先级调优方法 | |
CN111338950A (zh) | 一种基于谱聚类的软件缺陷特征选择方法 | |
CN111062425A (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN110569883A (zh) | 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法 | |
CN111309577B (zh) | 一种面向Spark的批处理应用执行时间预测模型构建方法 | |
CN113657472B (zh) | 一种基于子空间学习的多源遥感数据融合方法 | |
CN113408616B (zh) | 基于pca-uve-elm的光谱分类方法 | |
CN109460872B (zh) | 一种面向移动通信用户流失不平衡数据预测方法 | |
CN114067169A (zh) | 一种基于卷积神经网络的拉曼光谱分析方法 | |
CN114091794A (zh) | 专利价值评估模型训练方法、评估方法、装置及其设备 | |
CN111398238A (zh) | 一种食用油掺杂蓖麻油的激光诱导荧光光谱识别方法 | |
CN115206455B (zh) | 基于深度神经网络的稀土元素组分含量预测方法及系统 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN116318773A (zh) | 基于ae模型优化的对抗训练式无监督入侵检测系统及方法 | |
CN114117876A (zh) | 基于改进哈里斯鹰算法的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |