CN118039028A - 基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 - Google Patents
基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 Download PDFInfo
- Publication number
- CN118039028A CN118039028A CN202410234029.XA CN202410234029A CN118039028A CN 118039028 A CN118039028 A CN 118039028A CN 202410234029 A CN202410234029 A CN 202410234029A CN 118039028 A CN118039028 A CN 118039028A
- Authority
- CN
- China
- Prior art keywords
- apatite
- model
- sample
- data set
- magma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011435 rock Substances 0.000 title claims abstract description 140
- 229910052586 apatite Inorganic materials 0.000 title claims abstract description 138
- VSIIXMUUUJUKCM-UHFFFAOYSA-D pentacalcium;fluoride;triphosphate Chemical compound [F-].[Ca+2].[Ca+2].[Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O VSIIXMUUUJUKCM-UHFFFAOYSA-D 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002378 acidificating effect Effects 0.000 title claims description 40
- 239000002253 acid Substances 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims description 64
- 238000011156 evaluation Methods 0.000 claims description 40
- 229910052761 rare earth metal Inorganic materials 0.000 claims description 38
- YDZQQRWRVYGNER-UHFFFAOYSA-N iron;titanium;trihydrate Chemical class O.O.O.[Ti].[Fe] YDZQQRWRVYGNER-UHFFFAOYSA-N 0.000 claims description 27
- SZVJSHCCFOBDDC-UHFFFAOYSA-N iron(II,III) oxide Inorganic materials O=[Fe]O[Fe]O[Fe]=O SZVJSHCCFOBDDC-UHFFFAOYSA-N 0.000 claims description 25
- 230000000717 retained effect Effects 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 13
- 239000011573 trace mineral Substances 0.000 claims description 11
- 235000013619 trace mineral Nutrition 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000011835 investigation Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 229910052500 inorganic mineral Inorganic materials 0.000 description 6
- 239000011707 mineral Substances 0.000 description 6
- 235000010755 mineral Nutrition 0.000 description 6
- 229910052769 Ytterbium Inorganic materials 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 229910052727 yttrium Inorganic materials 0.000 description 4
- 229910052691 Erbium Inorganic materials 0.000 description 3
- 229910052688 Gadolinium Inorganic materials 0.000 description 3
- 229910052746 lanthanum Inorganic materials 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 229910052693 Europium Inorganic materials 0.000 description 2
- 229910052772 Samarium Inorganic materials 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 150000002910 rare earth metals Chemical class 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- AWXLLPFZAKTUCQ-UHFFFAOYSA-N [Sn].[W] Chemical compound [Sn].[W] AWXLLPFZAKTUCQ-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 229910052712 strontium Inorganic materials 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Geophysics And Detection Of Objects (AREA)
Abstract
本发明公开一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统,通过对已知类型的中酸性岩浆岩中磷灰石含有的元素数据开展机器学习训练,构建能够识别中酸性岩浆岩类型的机器学习模型,实现对磁铁矿系列中酸性岩浆岩与钛铁矿系列中酸性岩浆岩的类型判别。为运用磷灰石元素特征判别中酸性岩浆岩类型、指导区域找矿勘查活动提供了强有力的指导和支持,提高了岩石类型判别效率,更加高效准确的对源岩类型进行分类,有利于地质数字化进程推进,提高生产与科研效率。
Description
技术领域
本发明属于岩石成因分析技术领域,具体涉及一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统。
背景技术
中酸性岩浆岩类岩石是地球区别于太阳系内其他行星的重要标志,也是大陆壳的重要组成部分,对研究大陆的形成和演化过程至关重要,对金属矿床成因研究和勘查也具有十分重要的科学意义和战略价值。
根据中酸性岩浆岩中特征副矿物磁铁矿和钛铁矿的发育情况,人们将中酸性岩浆岩划分为磁铁矿系列中酸性岩浆岩和钛铁矿系列中酸性岩浆岩。其中,磁铁矿系列中酸性岩浆岩中通常发育磁铁矿副矿物,指示岩浆活动发生在火山弧区域,且岩浆氧逸度较高,并且通常与斑岩-矽卡岩型铜矿床具有成因联系;钛铁矿系列中酸性岩浆岩中通常发育钛铁矿副矿物,指示岩浆活动发生在陆陆碰撞造山带,且岩浆氧逸度较低,与钨锡矿床关系密切。
鉴于磁铁矿系列和钛铁矿系列中酸性岩浆岩可以指示地球动力学背景,同时具有不同的成矿专属性。因此,正确识别磁铁矿系列中酸性岩浆岩和钛铁矿系列中酸性岩浆岩一直是地质学家关注的问题。尽管不同类型的中酸性岩浆岩具有不同的特征矿物(如磁铁矿和钛铁矿)组成,但由于这些特征矿物在岩体中含量低且分布非常不均匀,导致在手标本尺度上有时难以发现,因此单纯依赖岩相学特征区分岩石类型极易引发误判。当前,大部分研究依靠全岩地球化学成分来区分磁铁矿系列中酸性岩浆岩和钛铁矿系列中酸性岩浆岩,但是由于全岩成分易受蚀变、结晶分异等影响,导致该方法也常常受到质疑。
发明内容
本发明实施例提供一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统,以解决现有技术易引发误判,准确率较低的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明的一个方面提供一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法,所述磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩;所述方法包括:
获取多个磷灰石样品的信息数据,所述信息数据至少包括磷灰石样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,所述中酸性岩浆岩类型为磁铁矿系列或钛铁矿系列;
根据磷灰石样品的信息数据构建磷灰石数据集,所述磷灰石数据集中每个样本均包含多种预设元素特征的数据及对应的中酸性岩浆岩类型;
对磷灰石数据集中的样本进行预处理;
将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集;
利用训练数据集,采用随机森林RF算法训练RF模型;
基于训练数据集对RF模型进行性能评估,获得性能评估结果;
采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型;
基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型;
获取待预测磷灰石中含有元素的名称和含量值并生成输入数据,所述输入数据具有所有种预设元素特征;
将所述输入数据输入所述预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
可选的,所述根据磷灰石样品的信息数据构建磷灰石数据集,包括:
判断是否存在信息数据一致的两个或两个以上磷灰石样品,
如果是,将信息数据一致的磷灰石样品作为一组重复样品;
针对每组重复样品,均保留其中一个样品的信息数据并删除剩余样品的信息数据;
预先选取第一预设数量种稀土元素特征和第二预设数量种微量元素特征作为预设元素特征;
根据样品中含有元素的名称及含量值,判断是否存在具有所有种预选微量元素特征的样品,
如果是,将所述样品作为待保留样品;
针对每个待保留样品,均执行以下步骤:
判断所述待保留样品是否具有所有种预选稀土元素特征,
如果是,根据所述待保留样品的信息数据生成一个样本加入磷灰石数据集;
如果否,确定所述待保留样品中缺少的预选稀土元素特征;
针对所述待保留样品中缺少的每种预选稀土元素特征,均执行以下步骤:
判断所述待保留样品是否具有与所述缺少的预选稀土元素特征在元素周期表中相邻的两种稀土元素特征,
如果是,利用相邻两种稀土元素特征的数据,采用内插法计算得到所述缺少的预选稀土元素特征的数据,并补充至所述待保留样品的信息数据,直至所述待保留样品具有所有种预选稀土元素特征;
根据补充完全的待保留样品的信息数据生成一个样本加入磷灰石数据集。
可选的,所述对磷灰石数据集中的样本进行预处理,包括:
统计磷灰石数据集中,每种中酸性岩浆岩类型对应的样本数量;对样本数量小于预设样本量的中酸性岩浆岩类型所对应的样本进行过采样处理,或者,对样本数量大于预设样本量的中酸性岩浆岩类型所对应的样本进行欠采样处理,得到数据平衡的磷灰石数据集;
针对数据平衡后的磷灰石数据集中每一个样本,均采用对数转换的方式对所述样本中每个预设元素特征的数据进行标准化处理。
可选的,所述利用训练数据集,采用随机森林RF算法训练RF模型,包括:
基于训练数据集生成多个训练数据子集,其中,针对每个训练数据子集,均采用有放回的方式,在训练数据集中随机抽取预设样本数量个样本生成所述训练数据子集;
根据所述训练数据子集构建多个独立的决策树分类器,训练数据子集与决策树分类器一一对应;
基于所有决策树分类器,采用多数投票的方式训练RF模型。
可选的,所述基于训练数据集对RF模型进行性能评估,获得性能评估结果;包括:
基于训练数据集对RF模型采用5折交叉验证方法进行性能评估,得到性能评估结果;所述性能评估结果包括准确率、精确率、召回率和F1分数。
可选的,所述采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型,包括:
采用网格搜索参数优化方法对RF模型的参数进行多次更改,并在每次更改后计算对应RF模型的准确率;
将准确率最高的RF模型作为优化后的RF模型。
可选的,所述基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型,包括:
基于测试数据集,计算优化后RF模型的准确率;
判断所述准确率是否超过85%,
如果是,将优化后RF模型作为中酸性岩浆岩类型的预测模型;
如果否,重新采用训练数据集对RF模型进行训练及优化,直至优化后的RF模型基于测试数据集的准确率超过85%。
本发明的另一个方面提供一种基于磷灰石成分智能识别中酸性岩浆岩类型的系统,所述磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩;所述系统包括:
信息数据获取模块,被配置为获取多个磷灰石样品的信息数据,所述信息数据至少包括磷灰石样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,所述中酸性岩浆岩类型为磁铁矿系列或钛铁矿系列;
数据集构建模块,被配置为根据磷灰石样品的信息数据构建磷灰石数据集,所述磷灰石数据集中每个样本均包含多种预设元素特征的数据及对应的中酸性岩浆岩类型;
预处理模块,被配置为对磷灰石数据集中的样本进行预处理;
数据集划分模块,被配置为将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集,所述训练数据集和所述测试数据集中的样本均仅包含训练元素特征的数据及对应的中酸性岩浆岩类型;
模型训练模块,被配置为利用训练数据集,采用随机森林RF算法训练RF模型;
性能评估模块,被配置为基于训练数据集对RF模型进行性能评估,获得性能评估结果,所述性能评估结果至少包括准确率;
模型优化模块,被配置为采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型;
预测模型确定模块,被配置为基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型;
输入数据获取模块,被配置为获取待预测磷灰石中含有元素的名称和含量值并生成输入数据,所述输入数据具有所有种预设元素特征;
中酸性岩浆岩类型预测模块,被配置为将所述输入数据输入所述预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
本发明实施例提供的一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统,通过对已知类型中酸性岩浆岩中磷灰石含有的元素数据开展机器学习训练,构建能够识别中酸性岩浆岩类型的机器学习模型,实现对磁铁矿系列中酸性岩浆岩与钛铁矿系列中酸性岩浆岩的类型判别。为运用磷灰石元素特征判别中酸性岩浆岩类型、指导区域找矿勘查活动提供了强有力的指导和支持,提高了岩石类型判别效率,更加高效准确的对源岩类型进行分类,有利于地质数字化进程推进,提高生产与科研效率。
附图说明
图1为本发明实施例公开的一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法流程示意图;
图2为本发明实施例公开的一种基于磷灰石成分智能识别中酸性岩浆岩类型的系统结构示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
磷灰石是一种富含稀土和微量元素的常见岩浆副矿物,在磁铁矿系列中酸性岩浆岩和钛铁矿系列中酸性岩浆岩中均十分发育。相较于全岩易受蚀变作用的影响,磷灰石成分相对稳定。因此,使用磷灰石的地球化学成分对中酸性岩浆岩类型识别具有可行性。
以下为对本发明具体实现方法提供的实施例。
图1为一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法流程示意图,在本发明公开实施例中,磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩。如图1所示,该方法包括以下步骤:
步骤S101:获取多个磷灰石样品的信息数据。
在本发明公开的实施例中,可以根据已发表的文献记录或地学领域专业数据库获取大量已知类型的磷灰石样品的信息数据。每个磷灰石样品的信息数据至少包括该样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,即,磷灰石样品原本所属中酸性岩浆岩的类型。在本发明公开实施例中,仅对磁铁矿系列或钛铁矿系列的中酸性岩浆岩类型进行分析。
例如,磷灰石样品含有元素可以为La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu,Sr、Y。
步骤S102:根据磷灰石样品的信息数据构建磷灰石数据集。
磷灰石数据集中每个样本均对应一个磷灰石样品,不同样本对应不同的磷灰石样品。针对每一个样本,其数据均基于对应磷灰石样品的信息数据得到,每个样本均包含预设数量种预设元素特征的数据及对应磷灰石样品源岩的中酸性岩浆岩类型。
在本发明公开的一个具体实施例中,预设元素特征包括14个稀土元素特征:La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu;3个微量元素特征:Sr、Y和Eu/Eu*,其中,Eu*的数值由Sm和Gd的含量值通过公式计算得到,其中Sm为Sm元素的含量值,Gd为Gd元素的含量值。
在本发明公开的一个实施例中,可采用以下方式构建磷灰石数据集:
(1)判断是否存在信息数据一致的两个或两个以上磷灰石样品,
如果存在信息数据一致的两个或两个以上磷灰石样品,即存在两个或多个磷灰石样品的信息数据完全一致,则将信息数据一致的磷灰石样品作为一组重复样品。在实际应用中,可能会出现多组重复样品的情况。针对每组重复样品,均保留其中一个样品的信息数据并删除剩余样品的信息数据,使不存在重复的样品。
如果不存在信息数据一致的两个或两个以上磷灰石样品,则认为没有重复样品。
(2)预先选取第一预设数量种稀土元素特征和第二预设数量种微量元素特征作为预设元素特征。在本发明公开的一个具体实施例中,选取14个稀土元素特征,分别为La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu;3个微量元素特征Sr、Y和Eu/Eu*。将以上元素特征共同作为预设元素特征。
(3)在确定没有信息数据完全一致的磷灰石样品之后,根据样品中含有元素的名称及含量值,判断是否存在具有所有种预选微量元素特征的样品。例如,某样本中含有Sm和Gd元素,能够获得Eu/Eu*的数值,则认为该样本具有所有种预选微量元素特征。
如果存在具有所有种微量元素特征的样品,则将这样的样品作为待保留样品。
一般不会出现不存在待保留样品的情况,若出现这种情况,说明获取的磷灰石样品全部不合格,需要重新执行步骤S101。
(4)针对每个待保留样品,均执行以下步骤:
A、判断该待保留样品是否具有所有种预选稀土元素特征。
如果该待保留样品具有所有种预选稀土元素特征,即该保留样本包含La、Ce、Pr、Nd、Sm、Eu、Gd、Tb、Dy、Ho、Er、Tm、Yb、Lu,Sr和Y元素,则根据该待保留样品的信息数据生成一个样本加入磷灰石数据集,该样本包括所有的预选稀土元素特征、所有的预选微量元素特征以及对应的中酸性岩浆岩类型的数据。
如果该待保留样品不具有所有种预选稀土元素特征,确定该待保留样品中缺少的预选稀土元素特征。
例如,确定某待保留样品缺少Tm元素特征。
B、针对该待保留样品中缺少的每种预选稀土元素,均执行以下步骤:
判断该待保留样品是否具有与缺少的预选稀土元素特征在元素周期表中相邻的两种稀土元素特征。
例如,Tm在元素周期表中相邻的两种稀土元素分别为Er和Yb,则判断该待保留样品中是否具有Er和Yb这两种稀土元素特征,即判断待保留样品中是否包含Er和Yb,并具有这两种元素的含量值。
如果是,利用相邻两种稀土元素特征的数据,采用内插法计算得到缺少的预选稀土元素特征的数据,即,该待保留样品中缺少预选稀土元素的含量值。例如,可采用以下公式计算待保留样品中所缺少的Tm元素的含量值:
其中,TmN为计算出的第N个待保留样品中Tm元素的含量值;ErN为第N个待保留样品中Er元素的含量值;YbN为第N个待保留样品中Yb元素的含量值。
将缺少预选稀土元素特征的数据,即缺少预选稀土元素的名称和含量值补充至待保留样品的信息数据,直至该待保留样品的信息数据中具有所有种预选稀土元素特征。
C、根据补充完全的待保留样品的信息数据生成一个样本加入磷灰石数据集。
按照以上方式完成构建磷灰石数据集的构建,使磷灰石数据集中的每一个样本均包含所有种预设元素特征以及对应的中酸性岩浆岩类型。
步骤S103:对磷灰石数据集中的样本进行预处理。
在本发明公开的一个实施例中,采用以下方式对磷灰石数据集中的样本进行预处理:
首先,统计磷灰石数据集中,每种中酸性岩浆岩类型对应的样本数量;对样本数量小于预设样本量的中酸性岩浆岩类型所对应的样本进行过采样处理,或者,对样本数量大于预设样本量的中酸性岩浆岩类型所对应的样本进行欠采样处理,得到数据平衡的磷灰石数据集。
例如,预设样本量为磷灰石数据集样本数量的二分之一,若某一种中酸性岩浆岩类型,例如钛铁矿系列中酸性岩浆岩所对应的样本数量少于预设样本量,则对该种中酸性岩浆岩类型的样本进行过采样处理,使该种中酸性岩浆岩类型的样本数量与另一种中酸性岩浆岩类型(磁铁矿系列中酸性岩浆岩)所对应的样本数量相同;或者,若钛铁矿系列中酸性岩浆岩所对应的样本数量多于预设样本量,则对该种中酸性岩浆岩类型的样本进行欠采样处理,使该种中酸性岩浆岩类型的样本数量与磁铁矿系列中酸性岩浆岩所对应的样本数量相同。从而,使磷灰石数据集中每种分类的数据量达到平衡。
然后,针对数据平衡后的磷灰石数据集中每一个样本,均采用对数转换的方式对样本中每个预设元素特征的数据进行标准化处理,以减少异常值的影响。
步骤S104:将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集。
在本发明公开的一个具体实施例中,可以按照9:1的比例划分训练数据集和测试数据集。
步骤S105:利用训练数据集,采用随机森林RF算法训练RF模型。
RF随机森林算法是一种集成学习算法,通过结合多个弱学习器(通常是决策树)的预测结果来提高整体模型的性能。
在本发明公开的一个实施例中,可采用以下方式训练RF模型:
(1)基于训练数据集生成多个训练数据子集,其中,针对每个训练数据子集,均采用有放回的方式,在训练数据集中随机抽取预设样本数量个样本生成训练数据子集。
(2)根据训练数据子集构建多个独立的决策树分类器,训练数据子集与决策树分类器一一对应。
(3)基于所有决策树分类器,采用多数投票的方式训练RF模型。
步骤S106:基于训练数据集对RF模型进行性能评估,获得性能评估结果。
在本发明公开的实施例中,可采用混淆矩阵和受试者特征曲线的方式对RF模型进行性能评估。
混淆矩阵可以得到RF模型分类结果的精确率、准确率、召回率和F1分数,在本发明公开的实施例中,主要使用准确率值对RF模型分类性能进行评价。通常情况下,模型的准确率值越高,RF模型分类效果越好。
受试者特征曲线是以假阳性率为横坐标,真阳性率为纵坐标,在[0,1]范围内画出的曲线。其值越接近1,模型分类准确率越高。
在本发明公开的实施例中,基于训练数据集对RF模型采用5折交叉验证方法进行性能评估,得到性能评估结果。性能评估结果包括准确率、精确率、召回率和F1分数。
以下是对5折交叉验证方法的简单介绍:
1、划分数据集:将整个磷灰石数据集分成五个互斥的子集,每个子集都代表了整个数据的一部分。
2、模型训练与验证:迭代五次,每次使用其中的四个子集进行训练,而剩下的一个子集用于验证(评估)模型的性能。这意味着每个子集都会充当一次验证集,而模型在其他四个子集上进行训练。
3、性能评估:在每次迭代中,使用验证集来评估模型的性能,在本发明中使用性能指标(准确率、召回率和F1分数)来衡量模型的表现。
4、汇总结果:对五次迭代的性能指标结果进行平均,得到最终的性能评估结果。
五折交叉验证的优势在于充分利用了数据,同时减小了过拟合的风险。
在本发明公开的具体实施例中,可采用以下方式计算混淆矩阵中的准确率、精确率、召回率和F1分数:
1、准确率(Accuracy):是所有正确预测的样本数占总样本数的比例。
计算公式为:Accuracy=(TP+TN)/(TP+FP+FN+TN)
2、精确度(Precision):是所有被模型正确预测为正类别的样本数占所有被模型预测为正类别的样本数的比例。
计算公式为:Precision=TP/(TP+FP)
3、召回率(Recall):是所有被模型正确预测为正类别的样本数占所有实际正类别的样本数的比例。
计算公式为:Recall=TP/(TP+FN)
4、F1分数(F1 Score):是精确度和召回率的调和平均数。
计算公式为:F1Score=2×Precision×Recall/(Precision+Recall)
其中,TP为模型正确地将正类别样本预测为正类别的数量;TN为模型正确地将负类别样本预测为负类别的数量;FP:模型错误地将负类别样本预测为正类别的数量;FN:模型错误地将正类别样本预测为负类别的数量。正类别是关注的目标类别,是希望模型能够准确地识别和预测的类别。负类别是除了正类别以外的其他类别,是希望模型能够正确地排除的类别。
本发明公开实施例中,采用以下方式获得受试者特征曲线ROC的模型评估结果值:
1、在绘制ROC曲线之前,利用不同的分类阈值,根据RF模型的预测结果计算真阳性率和假阳性率。真阳性率(TPR)是指被正确地预测为正类别的样本占所有实际正类别样本的比例,而假阳性率(FPR)是指被错误地预测为正类别的样本占所有实际负类别样本的比例。
2、绘制ROC曲线:在计算出不同阈值下的真阳性率和假阳性率后,绘制ROC曲线。横轴是FPR,纵轴是TPR。每个点代表了在不同的阈值下模型的性能表现。
3、评估曲线下面积(AUC):ROC曲线下的面积(AUC)被用来衡量RF分类模型的性能。AUC的取值范围在0到1之间,值越接近1表示模型性能越好。
在对本发明实施例进行具体验证的过程中,得到准确率值为0.97,受试者特征曲线值为0.99,这两个指标都很接近1,证明本发明实施例所训练的RF模型对钛铁矿系列中酸性岩浆岩与磁铁矿系列中酸性岩浆岩具有较好的分类能力。
步骤S107:采用网格搜索参数优化方法,以及,性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型。
在本发明公开的实施例中,可采用以下步骤对RF模型进行优化:
1)采用网格搜索参数优化方法对RF模型的参数进行多次更改,每次更改参数后,相当于得到一个新的RF模型。在每次更改模型参数后计算对应RF模型的准确率。
具体地,首先计算RF模型在默认超参数情况下的准确率。然后采用网格搜索参数优化方法改变超参数,并在改变超参数过程中计算RF模型的准确率变化情况。
网格搜索参数优化方法是一种通过遍历给定的参数组合来寻找最优模型参数的技术。它是一种穷举搜索方法,通过指定参数的可能取值范围,对所有可能的参数组合进行评估,从而找到使模型性能最佳的参数组合。
2)将准确率最高的RF模型作为优化后的RF模型。
具体地,选取准确率最高时对应的超参数指标作为机器学习模型最终的超参数选取值,得到优化后的RF模型。
步骤S108:基于测试数据集,计算优化后RF模型的准确率,在准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型。
在本发明公开的一个实施例中,可采用以下方式实现步骤S108。
1)基于测试数据集,计算优化后RF模型的准确率。
2)判断所述准确率是否超过85%,
如果是,将优化后RF模型作为中酸性岩浆岩类型的预测模型。
如果否,重新采用训练数据集对RF模型进行训练及优化,直至优化后的RF模型基于测试数据集的准确率超过85%。
步骤S109:获取待预测磷灰石中含有元素的名称和含量值并生成输入数据。
根据待预测磷灰石样品中含有元素的名称和含量值,得到所有预设元素特征的数据作为模型的输入数据。例如,根据Sm和Gd的含量值,得到预设元素特征Eu/Eu*的数据。
若待预测磷灰石样品缺少某些必须的元素,例如,缺少Sr,则更换新的待预测磷灰石样品,重新生成输入数据。
若待预测磷灰石样品缺少Tm,则利用在元素周期表中相邻的两种稀土元素Er和Yb经内插法计算得到Tm元素的含量值。
步骤S110:将输入数据输入预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
在获得待预测磷灰石样品的对应的输入数据之后,将输入数据输入预测模型,可根据输出数据确定待预测磷灰石样品的源岩所对应的中酸性岩浆岩类型。
图2为本发明公开实施例提供的一种基于磷灰石成分智能识别中酸性岩浆岩类型的系统结构示意图,其中,磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩。如图2所示,该系统包括以下模块:
信息数据获取模块11,被配置为获取多个磷灰石样品的信息数据,信息数据至少包括磷灰石样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,中酸性岩浆岩类型为磁铁矿系列或钛铁矿系列;
数据集构建模块12,被配置为根据磷灰石样品的信息数据构建磷灰石数据集,磷灰石数据集中每个样本均包含多种预设元素特征的数据及对应的中酸性岩浆岩类型;
预处理模块13,被配置为对磷灰石数据集中的样本进行预处理;
数据集划分模块14,被配置为将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集;
模型训练模块15,被配置为利用训练数据集,采用随机森林RF算法训练RF模型;
性能评估模块16,被配置为基于训练数据集对RF模型进行性能评估,获得性能评估结果;
模型优化模块17,被配置为采用网格搜索参数优化方法,以及,性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型;
预测模型确定模块18,被配置为基于测试数据集,计算优化后RF模型的准确率,在准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型;
输入数据获取模块19,被配置为获取待预测磷灰石中含有元素的名称和含量值并生成输入数据,输入数据具有所有种预设元素特征;
中酸性岩浆岩类型预测模块20,被配置为将输入数据输入预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (8)
1.一种基于磷灰石成分智能识别中酸性岩浆岩类型的方法,所述磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩;其特征在于,所述方法包括:
获取多个磷灰石样品的信息数据,所述信息数据至少包括磷灰石样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,所述中酸性岩浆岩类型为磁铁矿系列或钛铁矿系列;
根据磷灰石样品的信息数据构建磷灰石数据集,所述磷灰石数据集中每个样本均包含多种预设元素特征的数据及对应的中酸性岩浆岩类型;
对磷灰石数据集中的样本进行预处理;
将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集;
利用训练数据集,采用随机森林RF算法训练RF模型;
基于训练数据集对RF模型进行性能评估,获得性能评估结果;
采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型;
基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型;
获取待预测磷灰石中含有元素的名称和含量值并生成输入数据,所述输入数据具有所有种预设元素特征;
将所述输入数据输入所述预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
2.根据权利要求1所述的方法,其特征在于,所述根据磷灰石样品的信息数据构建磷灰石数据集,包括:
判断是否存在信息数据一致的两个或两个以上磷灰石样品,
如果是,将信息数据一致的磷灰石样品作为一组重复样品;
针对每组重复样品,均保留其中一个样品的信息数据并删除剩余样品的信息数据;
预先选取第一预设数量种稀土元素特征和第二预设数量种微量元素特征作为预设元素特征;
根据样品中含有元素的名称及含量值,判断是否存在具有所有种预选微量元素特征的样品,
如果是,将所述样品作为待保留样品;
针对每个待保留样品,均执行以下步骤:
判断所述待保留样品是否具有所有种预选稀土元素特征,
如果是,根据所述待保留样品的信息数据生成一个样本加入磷灰石数据集;
如果否,确定所述待保留样品中缺少的预选稀土元素特征;
针对所述待保留样品中缺少的每种预选稀土元素特征,均执行以下步骤:
判断所述待保留样品是否具有与所述缺少的预选稀土元素特征在元素周期表中相邻的两种稀土元素特征,
如果是,利用相邻两种稀土元素特征的数据,采用内插法计算得到所述缺少的预选稀土元素特征的数据,并补充至所述待保留样品的信息数据,直至所述待保留样品具有所有种预选稀土元素特征;
根据补充完全的待保留样品的信息数据生成一个样本加入磷灰石数据集。
3.根据权利要求2所述的方法,其特征在于,所述对磷灰石数据集中的样本进行预处理,包括:
统计磷灰石数据集中,每种中酸性岩浆岩类型对应的样本数量;对样本数量小于预设样本量的中酸性岩浆岩类型所对应的样本进行过采样处理,或者,对样本数量大于预设样本量的中酸性岩浆岩类型所对应的样本进行欠采样处理,得到数据平衡的磷灰石数据集;
针对数据平衡后的磷灰石数据集中每一个样本,均采用对数转换的方式对所述样本中每个预设元素特征的数据进行标准化处理。
4.根据权利要求1所述的方法,其特征在于,所述利用训练数据集,采用随机森林RF算法训练RF模型,包括:
基于训练数据集生成多个训练数据子集,其中,针对每个训练数据子集,均采用有放回的方式,在训练数据集中随机抽取预设样本数量个样本生成所述训练数据子集;
根据所述训练数据子集构建多个独立的决策树分类器,训练数据子集与决策树分类器一一对应;
基于所有决策树分类器,采用多数投票的方式训练RF模型。
5.根据权利要求1所述的方法,其特征在于,所述基于训练数据集对RF模型进行性能评估,获得性能评估结果;包括:
基于训练数据集对RF模型采用5折交叉验证方法进行性能评估,得到性能评估结果;所述性能评估结果包括准确率、精确率、召回率和F1分数。
6.根据权利要求1所述的方法,其特征在于,所述采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型,包括:
采用网格搜索参数优化方法对RF模型的参数进行多次更改,并在每次更改后计算对应RF模型的准确率;
将准确率最高的RF模型作为优化后的RF模型。
7.根据权利要求1所述的方法,其特征在于,所述基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型,包括:
基于测试数据集,计算优化后RF模型的准确率;
判断所述准确率是否超过85%,
如果是,将优化后RF模型作为中酸性岩浆岩类型的预测模型;
如果否,重新采用训练数据集对RF模型进行训练及优化,直至优化后的RF模型基于测试数据集的准确率超过85%。
8.一种基于磷灰石成分智能识别中酸性岩浆岩类型的系统,所述磷灰石的源岩为磁铁矿系列中酸性岩浆岩或钛铁矿系列中酸性岩浆岩;其特征在于,所述系统包括:
信息数据获取模块,被配置为获取多个磷灰石样品的信息数据,所述信息数据至少包括磷灰石样品中含有元素的名称和含量值,以及,磷灰石样品的源岩所对应的中酸性岩浆岩类型,所述中酸性岩浆岩类型为磁铁矿系列或钛铁矿系列;
数据集构建模块,被配置为根据磷灰石样品的信息数据构建磷灰石数据集,所述磷灰石数据集中每个样本均包含多种预设元素特征的数据及对应的中酸性岩浆岩类型;
预处理模块,被配置为对磷灰石数据集中的样本进行预处理;
数据集划分模块,被配置为将预处理后的磷灰石数据集按照预设比例随机划分为训练数据集和测试数据集;
模型训练模块,被配置为利用训练数据集,采用随机森林RF算法训练RF模型;
性能评估模块,被配置为基于训练数据集对RF模型进行性能评估,获得性能评估结果;
模型优化模块,被配置为采用网格搜索参数优化方法,以及,所述性能评估结果,对RF模型的参数进行优化处理,得到优化后的RF模型;
预测模型确定模块,被配置为基于测试数据集,计算优化后RF模型的准确率,在所述准确率超过预设阈值时将优化后RF模型作为中酸性岩浆岩类型的预测模型;
输入数据获取模块,被配置为获取待预测磷灰石中含有元素的名称和含量值并生成输入数据,所述输入数据具有所有种预设元素特征;
中酸性岩浆岩类型预测模块,被配置为将所述输入数据输入所述预测模型,根据输出数据确定待预测磷灰石的源岩所对应的中酸性岩浆岩类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410234029.XA CN118039028A (zh) | 2024-03-01 | 2024-03-01 | 基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410234029.XA CN118039028A (zh) | 2024-03-01 | 2024-03-01 | 基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118039028A true CN118039028A (zh) | 2024-05-14 |
Family
ID=91001978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410234029.XA Pending CN118039028A (zh) | 2024-03-01 | 2024-03-01 | 基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118039028A (zh) |
-
2024
- 2024-03-01 CN CN202410234029.XA patent/CN118039028A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115276006B (zh) | 一种用于电力集成系统的负荷预测的方法及系统 | |
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
KR101811270B1 (ko) | 화물을 검사하는 방법 및 그 시스템 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
JP6715451B2 (ja) | マススペクトル解析システム,方法およびプログラム | |
CN107807221B (zh) | 一种地球化学普查实验室样品分析的异常点抽查检查方法 | |
CN104156565B (zh) | 基于离线can总线数据的系统状态分析方法及分析装置 | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
CN103245714A (zh) | 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法 | |
CN115148299A (zh) | 一种基于XGBoost的矿床类型鉴别方法及系统 | |
CN113355421A (zh) | 肺癌早筛标志物、模型构建方法、检测装置以及计算机可读取介质 | |
US8543625B2 (en) | Methods and systems for analysis of multi-sample, two-dimensional data | |
CN110600135A (zh) | 一种基于改进随机森林算法的乳腺癌预测系统 | |
CN116522250A (zh) | 基于多种算法的矿床类型预测方法及系统 | |
CN115343676A (zh) | 密封电子设备内部多余物定位技术的特征优化方法 | |
CN115660407A (zh) | 污染场地风险等级预测模型的训练方法和训练装置 | |
US9400868B2 (en) | Method computer program and system to analyze mass spectra | |
CN115186776B (zh) | 一种红宝石产地分类的方法、装置及存储介质 | |
CN118039028A (zh) | 基于磷灰石成分智能识别中酸性岩浆岩类型的方法及系统 | |
CN115906669A (zh) | 一种顾及负样本选取策略的密集残差网络滑坡易发性评价方法 | |
CN116151107A (zh) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 | |
CN112102882B (zh) | 一种用于肿瘤样本ngs检测流程的质控系统和方法 | |
WO2007063972A1 (ja) | 有効因子抽出システムとその方法とそのプログラム | |
CN118039029A (zh) | 基于机器学习和锆石成分识别花岗岩类型的方法及系统 | |
CN111524555A (zh) | 一种基于人肠道菌群的自动化分型方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |