CN115148299A - 一种基于XGBoost的矿床类型鉴别方法及系统 - Google Patents

一种基于XGBoost的矿床类型鉴别方法及系统 Download PDF

Info

Publication number
CN115148299A
CN115148299A CN202210832809.5A CN202210832809A CN115148299A CN 115148299 A CN115148299 A CN 115148299A CN 202210832809 A CN202210832809 A CN 202210832809A CN 115148299 A CN115148299 A CN 115148299A
Authority
CN
China
Prior art keywords
xgboost
apatite
data
ore deposit
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210832809.5A
Other languages
English (en)
Inventor
邱昆峰
邓军
周统
周飞
王瑀
于皓丞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Original Assignee
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing filed Critical China University of Geosciences Beijing
Priority to CN202210832809.5A priority Critical patent/CN115148299A/zh
Publication of CN115148299A publication Critical patent/CN115148299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

本发明公开了一种基于XGBoost的矿床类型鉴别方法及系统,收集磷灰石微量元素数据,并构建训练集和测试集;基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。相比于传统方法,机器学习模型具有更高的准确率和可信度;可通过磷灰石微量元素鉴别矿床成因类型,和预测未知岩体的成矿潜力;该方法适用性更广,更加便捷。

Description

一种基于XGBoost的矿床类型鉴别方法及系统
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于XGBoost的矿床类型鉴别方法及系统。
背景技术
磷灰石是一种常见的副矿物,广泛存在于岩浆岩、变质岩和沉积岩中。微量元素通常以类质同象的形式进入磷灰石晶格,在不同环境下其微量元素特征存在显著的差异。因此磷灰石微量元素特征可作为追踪物质来源,反演岩石成因和判别矿床类型的有力工具。
传统方法以磷灰石的微量元素或多种微量元素的计算结果为端元,建立二元或三元图解,以图解中的不同区域来判别不同的岩石或矿床类型。然而,随着磷灰石地球化学数据的大量积累,传统分析方法已逐渐无法有效利用这些数据所携带的信息,进而二元或三元的图解无法准确判别岩石或矿床类型。
近年来,智能数据处理方法为数据的超常增长提供了有效的解决方法。机器学习被认为是人工智能的核心。通过机器学习方法,智能处理磷灰石微量元素数据能够寻找更准确,更高效的矿床判别方法。
发明内容
为此,本发明提供一种基于XGBoost的矿床类型鉴别方法及系统,以解决现有技术无法准确高效的判别矿床类型的问题。
为了实现上述目的,本发明提供如下技术方案:
根据本发明实施例的第一方面,提出了一种基于XGBoost的矿床类型鉴别方法,所述方法包括:
收集磷灰石微量元素数据,并构建训练集和测试集;
基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
进一步地,收集磷灰石微量元素数据,具体包括:
获取不同矿床类型以及未矿化的磷灰石微量元素数据,所述不同矿床类型包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床。
进一步地,所述方法还包括数据预处理,具体包括:
筛选14种常见且数据交集最多的元素构建典型磷灰石微量元素数据集,14种磷灰石微量元素为La,Ce,Pr,Nd,Sm,Eu,Gd,Dy,Yb,Lu,Sr,Y,Th和U;
进行数据清洗;对微量元素数据进行对数处理,使其符合正态分布;对数据进行标准化;在保证每个类别比例不变的前提下,将数据随机划分为训练集和测试集。
进一步地,所述数据预处理,还包括:
使用人工少数类过采样法,过采样数据量较少的类别,以解决类间不平衡问题。
进一步地,基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,具体包括:
利用网格搜索与交叉验证进行模型超参数调优。
进一步地,使用所述测试集对训练的模型进行测试,具体包括:
选取精确率、召回率、F1分数和准确率作为模型评估指标。
根据本发明实施例的第二方面,提出了一种基于XGBoost的矿床类型鉴别系统,所述系统包括:
数据集构建模块,用于收集磷灰石微量元素数据,并构建训练集和测试集;
模型训练及评估模块,用于基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
矿床类型预测模块,用于将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
进一步地,所述数据集构建模块,具体还用于:
获取不同矿床类型以及未矿化的磷灰石微量元素数据,所述不同矿床类型包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床。
根据本发明实施例的第三方面,提出了一种计算机存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种基于XGBoost的矿床类型鉴别系统执行如上任一项所述的方法。
本发明具有如下优点:
本发明提出的一种基于XGBoost的矿床类型鉴别方法及系统,收集磷灰石微量元素数据,并构建训练集和测试集;基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。相比于传统方法,机器学习模型具有更高的准确率和可信度;可通过磷灰石微量元素鉴别矿床成因类型,和预测未知岩体的成矿潜力;该方法适用性更广,更加便捷。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种基于XGBoost的矿床类型鉴别方法的流程示意图;
图2为本发明实施例1提供的一种基于XGBoost的矿床类型鉴别方法的具体实施流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出了一种基于XGBoost的矿床类型鉴别方法,所述方法包括:
S100、收集磷灰石微量元素数据,并构建训练集和测试集;
S200、基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
S300、将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
如图2所示,具体实施过程如下:
数据收集:
从近50年已发表的245篇经典文献以及代表性地球化学数据库GEOROC中,收集来自全球47个国家,共8396个磷灰石微量元素数据(包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床共五种不同矿床类型中的磷灰石,以及未矿化的磷灰石)。
数据预处理:
1、筛选14种常见且数据交集最多的元素(La,Ce,Pr,Nd,Sm,Eu,Gd,Dy,Yb,Lu,Sr,Y,Th和U)构建典型磷灰石微量元素数据集。
2、进行数据清洗,以1/2检测限的值填充由于低于检测限而导致的空缺值,删除包含随机缺失导致空缺值的数据
3、对微量元素数据进行对数处理,使其符合正态分布;使用“Standardscaler”对数据进行标准化,使数据均值为0,方差为1,符合标准正态分布
4、在保证每个类别比例不变的前提下,将数据随机划分为训练集(80%)和测试集(20%)
5、使用人工少数类过采样法(Synthetic Minority Over-Sampling Technique,SMOTE),过采样数据量较少的类别,以解决类间不平衡问题。
模型训练及评估:
1、基于XGBoost算法,使用训练集数据训练机器学习模型
2、利用网格搜索(grid search)与交叉验证(cross-validation)进行超参数调优。选取n_estimator,gamma和max_depth作为模型超参数。网格搜索遍历所有超参数取值组合,进行训练与验证。使用10折交叉验证,将数据随机划分为10份,其中九份作为训练集进行,一份作为验证集进行验证。训练与验证共进行10次,保证每组数据均作为验证集进行验证,最终得到交叉验证分数最高的超参数取值组合为最优超参数。最优超参数为:n_estimator=148,gamma=0,max_depth=7。
3、使用测试集对机器学习模型进行评估。选取精确率、召回率、F1分数和准确率作为模型评估指标。由于模型具有一定随机性,对模型进行50次训练测试,以得到更加准确的模型表现。模型最终分数为:精确率=0.89±0.02,召回率=0.89±0.02,F1分数=0.89±0.02,准确率=0.94±0.01。
该模型可用于(1)区分矿化与未矿化磷灰石;(2)判别斑岩型、矽卡岩型、造山型、基律纳型和IOCG共五种常见矿床类型。
为了验证本实施例算法模型的优势,训练并对比了四种常见的机器学习算法,即K近邻(KNN)、随机森林(RF)、支持向量机(SVM)以及XGBoost,分别得到四个分类器。使用测试集分别进行评估,结果为KNN的F1分数为0.901,RF的F1分数为0.891,SVM的F1分数为0.896,XGBoost的F1分数为0.907。结果表明,本实施例选择的XGBoost算法是评估分数最高且更加平衡的最优算法。
实施例2
与上述实施例1相对应的,本实施例提出了一种基于XGBoost的矿床类型鉴别系统,所述系统包括:
数据集构建模块,用于收集磷灰石微量元素数据,并构建训练集和测试集;
模型训练及评估模块,用于基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
矿床类型预测模块,用于将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
进一步地,所述数据集构建模块,具体还用于:
获取不同矿床类型以及未矿化的磷灰石微量元素数据,所述不同矿床类型包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床。
本发明实施例提供的一种基于XGBoost的矿床类型鉴别系统中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
实施例3
与上述实施例相对应的,本实施例提出了一种计算机存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被一种基于XGBoost的矿床类型鉴别系统执行如实施例1的方法。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种基于XGBoost的矿床类型鉴别方法,其特征在于,所述方法包括:
收集磷灰石微量元素数据,并构建训练集和测试集;
基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
2.根据权利要求1所述的一种基于XGBoost的矿床类型鉴别方法,其特征在于,收集磷灰石微量元素数据,具体包括:
获取不同矿床类型以及未矿化的磷灰石微量元素数据,所述不同矿床类型包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床。
3.根据权利要求1所述的一种基于XGBoost的矿床类型鉴别方法,其特征在于,所述方法还包括数据预处理,具体包括:
筛选14种常见且数据交集最多的元素构建典型磷灰石微量元素数据集,14种磷灰石微量元素为La,Ce,Pr,Nd,Sm,Eu,Gd,Dy,Yb,Lu,Sr,Y,Th和U;
进行数据清洗;对微量元素数据进行对数处理,使其符合正态分布;对数据进行标准化;在保证每个类别比例不变的前提下,将数据随机划分为训练集和测试集。
4.根据权利要求3所述的一种基于XGBoost的矿床类型鉴别方法,其特征在于,所述数据预处理,还包括:
使用人工少数类过采样法,过采样数据量较少的类别,以解决类间不平衡问题。
5.根据权利要求1所述的一种基于XGBoost的矿床类型鉴别方法,其特征在于,基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,具体包括:
利用网格搜索与交叉验证进行模型超参数调优。
6.根据权利要求1所述的一种基于XGBoost的矿床类型鉴别方法,其特征在于,使用所述测试集对训练的模型进行测试,具体包括:
选取精确率、召回率、F1分数和准确率作为模型评估指标。
7.一种基于XGBoost的矿床类型鉴别系统,其特征在于,所述系统包括:
数据集构建模块,用于收集磷灰石微量元素数据,并构建训练集和测试集;
模型训练及评估模块,用于基于XGBoost算法构建机器学习模型,使用所述训练集对机器学习模型进行训练,并使用所述测试集对训练的模型进行评估;
矿床类型预测模块,用于将待鉴别的磷灰石微量元素数据输入至得到的机器学习模型,得到矿床成因类型预测结果。
8.根据权利要求7所述的一种基于XGBoost的矿床类型鉴别系统,其特征在于,所述数据集构建模块,具体还用于:
获取不同矿床类型以及未矿化的磷灰石微量元素数据,所述不同矿床类型包括斑岩型矿床、矽卡岩型矿床、基律纳型矿床、IOCG矿床和造山型矿床。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被一种基于XGBoost的矿床类型鉴别系统执行如权利要求1-6中任一项所述的方法。
CN202210832809.5A 2022-07-15 2022-07-15 一种基于XGBoost的矿床类型鉴别方法及系统 Pending CN115148299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210832809.5A CN115148299A (zh) 2022-07-15 2022-07-15 一种基于XGBoost的矿床类型鉴别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210832809.5A CN115148299A (zh) 2022-07-15 2022-07-15 一种基于XGBoost的矿床类型鉴别方法及系统

Publications (1)

Publication Number Publication Date
CN115148299A true CN115148299A (zh) 2022-10-04

Family

ID=83412232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210832809.5A Pending CN115148299A (zh) 2022-07-15 2022-07-15 一种基于XGBoost的矿床类型鉴别方法及系统

Country Status (1)

Country Link
CN (1) CN115148299A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151107A (zh) * 2023-02-02 2023-05-23 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备
CN117113162A (zh) * 2023-05-23 2023-11-24 南华大学 一种融合机器学习的埃达克质岩构造背景判别图解方法
CN117272181A (zh) * 2023-08-04 2023-12-22 中国地质大学(北京) 采用机器学习建模来判别锆石宿主岩石和成矿环境的方法
CN117766068A (zh) * 2024-01-08 2024-03-26 中国地质大学(北京) 基于锆石成分预测斑岩型矿床类型和储量的机器学习方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151107A (zh) * 2023-02-02 2023-05-23 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备
CN116151107B (zh) * 2023-02-02 2023-09-05 中国地质大学(北京) 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备
CN117113162A (zh) * 2023-05-23 2023-11-24 南华大学 一种融合机器学习的埃达克质岩构造背景判别图解方法
CN117113162B (zh) * 2023-05-23 2024-02-02 南华大学 一种融合机器学习的埃达克质岩构造背景判别图解方法
CN117272181A (zh) * 2023-08-04 2023-12-22 中国地质大学(北京) 采用机器学习建模来判别锆石宿主岩石和成矿环境的方法
CN117766068A (zh) * 2024-01-08 2024-03-26 中国地质大学(北京) 基于锆石成分预测斑岩型矿床类型和储量的机器学习方法
CN117766068B (zh) * 2024-01-08 2024-06-11 中国地质大学(北京) 基于锆石成分预测斑岩型矿床类型和储量的机器学习方法

Similar Documents

Publication Publication Date Title
CN115148299A (zh) 一种基于XGBoost的矿床类型鉴别方法及系统
Campbell et al. Assessing colour-dependent occupation statistics inferred from galaxy group catalogues
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN105095238B (zh) 用于检测欺诈交易的决策树生成方法
CN106203377B (zh) 一种煤粉尘图像识别方法
CN104503874A (zh) 一种云计算平台的硬盘故障预测方法
CN104699755B (zh) 一种基于数据挖掘的智能化多目标综合识别方法
CN105447525A (zh) 一种数据预测分类方法及装置
CN105893876A (zh) 芯片硬件木马检测方法和系统
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103245714A (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN106228190A (zh) 针对居民异常用水的决策树判别方法
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN111709775A (zh) 一种房产价格评估方法、装置、电子设备及存储介质
CN116522250A (zh) 基于多种算法的矿床类型预测方法及系统
CN114776304A (zh) 一种深海矿产异常区识别的方法、装置、设备及介质
CN114064459A (zh) 基于生成对抗网络和集成学习的软件缺陷预测方法
CN108931815A (zh) 一种岩性的分级识别方法
CN112529112B (zh) 一种矿物识别的方法和装置
CN112329804A (zh) 基于特征随机的朴素贝叶斯岩相分类集成学习方法及装置
CN106847306A (zh) 一种异常声音信号的检测方法及装置
CN114782211B (zh) 一种海山分布范围信息的获取方法及系统
CN105989095A (zh) 顾及数据不确定性的关联规则显著性检验方法及装置
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination