CN117370899B

CN117370899B - 一种基于主成分-决策树模型的控矿因素权重确定方法

Info

Publication number: CN117370899B
Application number: CN202311680776.8A
Authority: CN
Inventors: 董坤; 孔春芳; 徐凯; 吴冲龙; 李岩; 岳云锋; 田宜平; 武永进; 向世泽; 董阳; 刘艨; 王子杨; 冯子恒; 李瑜; 赵思源; 陈安琪
Original assignee: Wuhan Dida Quanty Technology Co ltd; China University of Geosciences
Current assignee: Wuhan Dida Quanty Technology Co ltd; China University of Geosciences
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-02-20
Anticipated expiration: 2043-12-08
Also published as: CN117370899A

Abstract

本发明公开了一种基于主成分‑决策树模型的控矿因素权重确定方法，属于成矿预测技术领域，包括：S1、采集非矿点、已知矿点的地物化遥综合数据，对所有成矿预测控矿因素的特征量进行编码处理，生成向量空间，构建模型数据集；S2、采用改进CART算法，通过预剪枝操作建立决策树模型；S3、输入特征向量到决策树模型中构建决策树；S4、使用主成分分析法，提取矿点样本主特征，计算各个控矿因素在数据集上对应的信息权重；S5、将主成分分析法处理得到的信息权重加入到决策树节点中，通过信息权重和改进CART算法全局计算决策树中的每种控矿因素权重。本发明采用上述的一种基于主成分‑决策树模型的控矿因素权重确定方法，有效提高矿点预测的概率。

Description

一种基于主成分-决策树模型的控矿因素权重确定方法

技术领域

本发明涉及成矿预测技术领域，尤其是涉及一种基于主成分-决策树模型的控矿因素权重确定方法。

背景技术

矿产资源是人类社会生产与发展的重要物质基础，寻找未知矿产资源具有重要的社会和经济意义。控矿因素是控制矿床形成的地质因素，针对找矿预测过程诸多成矿条件与控矿因素，研究哪个因素更多地影响了成矿过程，对矿产资源的开发起到了至关重要的作用。

目前，面对众多的控矿因素与成矿条件，如何有针对性的做出选择，基本完全依赖专家知识，由经验丰富的地质专家给出指导性的意见，但是该方法人为干涉过多，主观性影响较强。随着信息化的发展，机器学习算法现已被广泛应用于各行各业，在对矿产资源进行的各项研究之中，各种学习算法也都起到了良好的辅助作用。鉴于此，通过机器学习算法来替代专家知识，对抽象的成矿预测控矿因素进行一个量化处理，可以更加直观的反映控矿因素对成矿过程的影响。

发明内容

本发明的目的是提供一种基于主成分-决策树模型的控矿因素权重确定方法，可以在众多成矿预测控矿因素中优先选出对成矿远景区具有重要影响的控矿因素，有效提高矿点预测的概率，在成矿预测领域具有重大意义。

为实现上述目的，本发明提供了一种基于主成分-决策树模型的控矿因素权重确定方法，包括以下步骤：

S1、采集非矿点、已知矿点的地物化遥综合数据，对所有成矿预测控矿因素的特征量进行编码处理，生成向量空间，构建模型数据集；

其中，非矿点数量与已知矿点数量比为100~120：1，已知矿点数量最少为100组；

S2、采用改进CART算法，通过预剪枝操作建立决策树模型；

S3、输入特征向量到决策树模型中，构建决策树；

S4、使用主成分分析法，提取矿点样本主特征，计算各个控矿因素在数据集上对应的信息权重；

S5、将主成分分析法处理得到的信息权重加入到决策树节点中，通过信息权重和改进CART算法全局计算决策树中的每种控矿因素权重。

优选的，步骤S1中，控矿因素来源于地物化遥综合数据；控矿因素特征量由钻孔数据提取和反距离插值计算得到；

设S为控矿因素的集合，为各个控矿因素，则/>；设/>为所取数据的标签集合，则总样本数据集合/>。

优选的，步骤S1中，对所有成矿预测控矿因素的特征量进行编码处理，生成向量空间是指对原始的连续特征通过K-Means++聚类算法进行重分类。

优选的，步骤S2中，改进CART算法是通过改进基尼指数得到的，具体操作为：在传统的基尼指数前添加系数，用于解析基尼指数中矿点样本所占成分，改进基尼指数公式如下：

（1）

其中，为样本的某一个控矿因素；/>为矿点所占比例；数据集共有/>个类别；表示样本属于第/>个类别的概率。

优选的，步骤S2中，通过预剪枝操作建立决策树模型，具体操作为：通过设置预定义的停止条件来控制决策树的生长，以防止过拟合；

其中，预定义停止条件包括：max_depth、min_samples_split、min_samples_leaf；

max_depth为限制树的最大深度；min_samples_split为限制节点分裂所需要的最少样本数；min_samples_leaf为限制叶子节点必须包含的最少样本数。

优选的，步骤S3中，输入特征向量到决策树模型中，构建决策树，具体操作为：每个节点根据改进CART算法为依据进行分裂，选择分裂指标最小的控矿因素进行节点分裂，计算公式如下：

（2）

其中，为根据控矿因素/>对总样本集合/>进行划分的子集；/>为在子集/>中矿点所占比例。

优选的，步骤S5中，决策树的每个节点包括分裂条件、改进基尼指数、信息权重、该节点中的总样本数和正负样本数。

优选的，步骤S5中，根据信息权重和改进CART算法全局计算决策树中每种控矿因素权重，当某种控矿因素多次参与节点分裂，分别计算当前节点下控矿因素的权重，并求取平均值，最后进行归一化处理，给出各个控矿因素所对应的权重。

优选的，计算决策树中每种控矿因素权重，其中/>由控矿因素/>所在的节点重要性/>计算而来，/>由/>和/>组成，/>为基于改进CART算法计算的控矿因素重要性，/>为基于主成分分析计算的信息权重，/>为总样本数，/>为当前节点样本数，/>为右节点样本数，/>为左节点样本数，/>和/>分别为左右节点的改进基尼指数，/>和/>分别为左右节点的信息权重，/>具体公式如下：

（3）

当某种控矿因素多次参与节点分裂，设/>参与分裂次数为/>次，那么将会得到/>个/>，设为/>，则控矿因素/>的权重为：

（4）。

优选的，根据全局计算决策树中的每种控矿因素权重，对其进行归一化处理，给出各个特征所对应的权重，归一化公式如下：

（5）

其中，s表示依次取S中的属性。

因此，本发明采用上述一种基于主成分-决策树模型的控矿因素权重确定方法，可以在众多成矿预测控矿因素中优先选出对成矿远景区具有重要影响的控矿因素，有效提高矿点预测的概率，在成矿预测领域具有重大意义。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于主成分-决策树模型的控矿因素权重确定方法的流程图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

实施例一

在本实施例中，以贵州省毕节市猪拱塘铅锌矿试验园区为研究区域，对采集的地物化遥等多源数据进行成矿预测控矿因素权重确定。

如图1所示，为本发明一种基于主成分-决策树模型的控矿因素权重确定方法的流程图，具体包括以下步骤：

步骤S01，采集12000份非矿点，100份已知矿点的地物化遥综合数据，对原始的连续特征数据通过K-Means++聚类算法进行重分类，其他数据类型映射成离散型数字。

其他数据类型映射成离散型数字，处理具体步骤为：

（1）从数据集中随机选择一个样本点作为第一个初始聚类中心；

（2）计算样本数据中每一个样本点到已经初始化的聚类中心之间的最短欧式距离/>；

设，/>，/>，/>为空间维度，在/>维空间下，两点之间的欧氏距离定义如下：

（1）

（3）计算样本中的每一个样本点与已经初始化的聚类中心之间的距离，选择最短距离/>；

（4）计算每个样本点被选为下一个聚类中心的概率，最后选择最大概率值所对应的样本点作为下一个簇中心；概率计算公式如下：

（2）

（5）重复上述步骤（3）和步骤（4），直到k个聚类中心都被确定；

（6）计算每个样本中的连续特征值与k个聚类中心的距离，将样本划分到距离最短的簇中，并将每个簇映射成一个离散值，进行重分类。

将离散化后的多源数据形成多维向量空间，如下表1所示，数据表字段包括特征向量的id号、航磁、地化、地层、褶皱、标签，其中标签为1表示矿点，0为非矿点。

表1 部分离散数据展示

；

步骤S02，采用改进CART算法，通过预剪枝操作建立决策树模型。

通过改进基尼指数进而改进CART算法，在传统基尼指数前添加系数，用于解析基尼指数中矿点样本所占成分。改进基尼指数公式如下：

（3）

其中，为样本的某一个控矿因素，/>为矿点所占比例，数据集共有/>个类别，/>表示样本属于第/>个类别的概率。

在模型搭建之前，预定义停止条件来控制决策树的生长，随后进行网格化搜索，对max_depth（限制树的最大深度）、min_samples_split（限制节点分裂所需要的最少样本数）、min_samples_leaf（限制叶子节点必须包含的最少样本数）三组参数的可能取值组合进行枚举，逐一尝试每组组合对模型性能的影响，最终确定最佳预定义停止条件，完成模型构建。

将特征向量空间输入到决策树模型中，每个节点根据改进的基尼指数为依据进行分裂，选择分裂指标最小的控矿因素进行节点分裂。其计算公式如下：

（4）

其中，为总样本集合，/>为样本的某一个控矿因素，/>为矿点所占比例，/>为根据控矿因素/>对总样本集合/>进行划分的子集，/>为在子集/>中矿点所占比例。

步骤S03，使用主成分分析法，提取矿点样本主特征，计算各个控矿因素在数据集上对应的信息权重。

对于矿点样本数据，假设有M个样本，每个样本含有k个控矿因素，则，该样本空间为：

（5）

（1）中心化处理。设样本均值为，则更新坐标：

（6）

（2）计算协方差矩阵C与相关系数矩阵R：

（7）

其中为协方差，其公式如下：

（8）

（9）

其中为相关系数，其公式如下：

（10）

其中，，/>为/>，/>的方差。

（3）计算特征值与成分矩阵。

求解特征方程得出特征值/>和单位特征向量/>，使得特征值大小降序排列。

令特征值的累积贡献率/>，当，确定/>个主成分。

以重力、航磁、铅锌含量、地化、地层、褶皱为例，借助SPSS Statistics26软件进行相关系数矩阵和成分矩阵求解。

表2 相关系数矩阵

；

表3 相关系数矩阵的特征值及累积贡献率

；

表4 成分矩阵

；

（4）计算信息权重，具体步骤如下：

（4.1）设成分矩阵（k为控矿因素个数，m为主成分个数），提取主成分特征值，特征值对应贡献率/>。

（4.2）以列为单位遍历成分矩阵，设第/>列元素为/>，，其中/>大小为/>，设中间过渡矩阵为，其大小为/>。

（4.3）重复步骤（4.2），直至遍历完所有列，将得到的过度矩阵进行拼接，得到矩阵/>。

（4.4）以行为单位遍历矩阵，设第i行元素为，其中/>大小为/>。

（4.5）设第i个控矿因素的信息权重为，其计算公式如下：

（11）

步骤S05，将计算得出的信息权重加入决策节点中，此时每个/>节点的基本结构为/>，其中/>为当前节点样本数，/>和/>为该特征对应的信息权重和改进基尼指数。

计算决策树中每种控矿因素权重，其中/>由控矿因素/>所在的节点重要性/>计算而来。

由/>和/>组成，/>为基于改进基尼指数计算的控矿因素重要性，为基于主成分分析计算的信息权重，N为总样本数，/>为当前节点样本数，/>为右节点样本数，/>为左节点样本数，/>和/>分别为左右节点的改进基尼指数，/>和/>分别左右节点的信息权重，具体公式如下：

（12）

当某种控矿因素多次参与节点分裂，设/>参与分裂次数为/>次，那么将会得到/>个/>，设为/>。则控矿因素/>的权重为：

（13）

根据全局计算决策树中的每种控矿因素权重，对其进行归一化处理，给出各个特征所对应的权重。归一化公式如下：

（14）。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，包括以下步骤：

S2、采用改进CART算法，通过预剪枝操作建立决策树模型；

S3、输入特征向量到决策树模型中，构建决策树；

S5、将主成分分析法处理得到的信息权重加入到决策树节点中，通过信息权重和改进CART算法全局计算决策树中的每种控矿因素权重；

步骤S2中，改进CART算法是通过改进基尼指数得到的，具体操作为：在传统的基尼指数前添加系数，用于解析基尼指数中矿点样本所占成分，改进基尼指数公式如下：

（1）

其中，为样本的某一个控矿因素；/>为矿点所占比例；数据集共有k个类别；/>表示样本属于第i个类别的概率；

步骤S3中，输入特征向量到决策树模型中，构建决策树，具体操作为：每个节点根据改进CART算法为依据进行分裂，选择分裂指标最小的控矿因素进行节点分裂，计算公式如下：

（2）

其中，为根据控矿因素/>对总样本集合/>进行划分的子集；/>为在子集/>中矿点所占比例；

步骤S5中，计算决策树中每种控矿因素权重，其中/>由控矿因素/>所在的节点重要性/>计算而来，/>由/>和/>组成，/>为基于改进CART算法计算的控矿因素重要性，/>为基于主成分分析计算的信息权重，N为总样本数，/>为当前节点样本数，/>为右节点样本数，/>为左节点样本数/>和/>分别为左右节点的改进基尼指数，/>和/>分别为左右节点的信息权重，/>具体公式如下：

（3）

当某种控矿因素多次参与节点分裂，设/>参与分裂次数为/>次，那么将会得到个/>，设为/>，则控矿因素/>的权重为：

（4）。

2.根据权利要求1所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，步骤S1中，控矿因素来源于地物化遥综合数据；控矿因素特征量由钻孔数据提取和反距离插值计算得到；

设S为控矿因素的集合，为各个控矿因素，则/>；设为所取数据的标签集合，则总样本数据集合/>。

3.根据权利要求2所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，步骤S1中，对所有成矿预测控矿因素的特征量进行编码处理，生成向量空间是指对原始的连续特征通过K-Means++聚类算法进行重分类。

4.根据权利要求3所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，步骤S2中，通过预剪枝操作建立决策树模型，具体操作为：通过设置预定义的停止条件来控制决策树的生长，以防止过拟合；

5.根据权利要求4所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，步骤S5中，决策树的每个节点包括分裂条件、改进基尼指数、信息权重、该节点中的总样本数和正负样本数。

6.根据权利要求5所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，步骤S5中，根据信息权重和改进CART算法全局计算决策树中每种控矿因素权重，当某种控矿因素多次参与节点分裂，分别计算当前节点下控矿因素的权重，并求取平均值，最后进行归一化处理，给出各个控矿因素所对应的权重。

7.根据权利要求6所述的一种基于主成分-决策树模型的控矿因素权重确定方法，其特征在于，根据全局计算决策树中的每种控矿因素权重，对其进行归一化处理，给出各个特征所对应的权重，归一化公式如下：

（5）

其中，s表示依次取S中的属性。