CN117610733A - 一种基于深度森林的矿产预测方法、装置、设备及介质 - Google Patents
一种基于深度森林的矿产预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117610733A CN117610733A CN202311648525.1A CN202311648525A CN117610733A CN 117610733 A CN117610733 A CN 117610733A CN 202311648525 A CN202311648525 A CN 202311648525A CN 117610733 A CN117610733 A CN 117610733A
- Authority
- CN
- China
- Prior art keywords
- prediction
- mineral
- data set
- model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 229910052500 inorganic mineral Inorganic materials 0.000 title claims abstract description 139
- 239000011707 mineral Substances 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 230000008901 benefit Effects 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 26
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 238000011835 investigation Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 230000005855 radiation Effects 0.000 claims description 5
- 238000012732 spatial analysis Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000003631 expected effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013277 forecasting method Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 86
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000011435 rock Substances 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013049 sediment Substances 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Mining & Mineral Resources (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及矿产资源预测技术领域,公开了一种基于深度森林的矿产预测方法、装置、设备及介质,该方法包括:获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;将多源数据集分为训练数据集和测试数据集;基于深度森林算法构建深度森林模型,利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;将测试数据集输入矿产预测模型中得到预测结果,对矿产预测模型的预测能力进行验证。本发明基于矿产资源相关的多源数据集,并结合深度森林模型的优势性能,能够有效提高矿产预测的准确度和普适性。
Description
技术领域
本发明涉及矿产资源预测技术领域,具体涉及一种基于深度森林的矿产预测方法、装置、设备及介质。
背景技术
矿产资源勘探中,易于寻找的地表矿已逐渐减少,找矿工作重点已逐步转向难度更大的深部、矿体周边找矿产预测发展,找矿难度增大且成本提高;而深部、矿体周边找矿区具有弱信息、混杂信息等特征,传统找矿方法成效不佳,为满足人类日益增长的矿产资源需求,降低找矿成本,需要新的技术应用于矿产勘查。
随着计算机与大数据科学的引入,机器学习和深度学习的相关算法研究极大的丰富了对地学数据处理分析的手段:以随机森林、支持向量机为代表的机器学习方法,通过地质、地球物理、地球化学和遥感等手段获取的多源勘查数据提取其中与矿产资源形成相关的特征信息,进而挖掘多源找矿信息与矿床之间的关系建立参数化模型;深度神经网络作为一种具有多级非线性变换的层级算法,也可有效地挖掘复杂的、非线性的地学空间数据,并提取地质过程的未知模式建立模型,从而实现对预测区较好的分类评价与预测精度,继而开展矿产预测,结果以成矿有利度、相似性、概率等形式体现。
综上,利用机器学习、深度学习方法对地质数据进行深层次的挖掘和提取,开发智能找矿模型预测方法得到成功实践,正在成为矿产预测领域的重要工具。
其中深度神经网络虽然具有充足的表达能力,但是模型复杂,计算效率低,易受超参数的影响,构建依赖大量数据训练学习,而矿产预测往往面临训练数据较少以及样本非平衡问题,且深度神经网络针对不同数据集的可用性较低,也难以成矿机制开展预测,导致其决策结果与领域认知不能完全保持一致,对决策机理也难以验证与理解,导致不能对矿产进行准确的预测。
发明内容
有鉴于此,本发明实施例提供了一种基于深度森林的矿产预测方法、装置、设备及介质,以克服现有技术矿产预测不准确的问题,可以提高矿产预测的准确度和普适性。
第一方面,发明实施例提供了一种基于深度森林的矿产预测方法,包括:
获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;
将所述多源数据集分为训练数据集和测试数据集;
基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;
将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证。
本发明实施例提供的基于深度森林的矿产预测方法,所述获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集,包括:
获取地球化学数据,通过统计分析剔除其中的异常数据,并通过插值分析对地球化学数据缺失的区域进行补全,得到预测区域的地球化学数据证据图层作为地球化学数据集;
获取地质数据,对其进行空间分析得到预测区域的地质数据证据图层作为地质数据集;
获取布格重力异常数据,得到预测区域的地球物理数据证据图层作为地球物理数据集;
将所述地球化学数据集、地质数据集和地球物理数据集组成所述多源数据集。
本发明实施例通过获取地质、地球物理、地球化学多源勘查数据,通过预处理提取其中与矿产资源形成相关的特征信息,用于后续挖掘多源找矿信息与矿床之间的关系,有助于更加精准的矿产资源预测。
在一种可选的实施方式中,所述将所述多源数据集分为训练数据集和测试数据集,包括:
将所述多源数据集对应的像素样本集与已知的矿产点位区进行投图映射,与矿点重合的像素样本集为正样本集,未与矿点重合且远离地质数据影响辐射范围区的区域像素样本集为负样本集;
以正样本集为依据从负样本集中随机抽取与正样本数目相同的样本,组成预测使用的样本集使正负样本数比1:1;
将预测使用的样本集按照预设比例对训练集与测试集进行划分,生成用于输入预测模型的训练数据集与后续检测预期效果的测试数据集。
在一种可选的实施方式中,所述利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型,包括:
将训练数据集输入所述深度森林模型的多粒度扫描模块,利用不同的滑动窗口对输入样本进行多粒度扫描采样得到不同维度的子数据集对应的特征向量;
将所述不同维度的子数据集对应的特征向量输入到级联森林层进行训练,所述级联森林每一层都由若干个随机森林和完全随机林学习器组成,输入的不同维度的子数据集经过每层的学习器生成一个类向量,所述每层生成的类向量与对应的多粒度扫描生成的特征向量组成新向量作为该层的结果向量并输入下一层;层层传递后直到最后一层得到模型最终输出结果;
通过自适应调节级联森林的层数确定最终级联结构,如果在当前层的测试数据集准确率与前一层相比没有提升则停止构造下一层,通过每层学习器的数量及每个学习器中的相应参数,得到最优模型作为矿产预测模型。
本发明实施例中采用深度森林通过多粒度扫描更多注意到了原始数据中各个特征之间的关联,在不影响数据原始特征的情况下引入模型,通过再在各级联层中加入多粒度扫描结果,避免某单一层中学习过程中忽略多粒度扫描结果少数样本数据特征;且因多层多分类器具有更强的鲁棒性和容错能。
在一种可选的实施方式中,所述将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证,包括:
基于测试数据集输入所述矿产预测模型中得到预测结果来生成roc曲线,基于roc曲线下的面积大小得到的准确度来定量评估矿产预测模型的预测效果。
在一种可选的实施方式中,所述方法,还包括:
将预测区域的多源数据集输入所述矿产预测模型中,得到预测区域的成矿有利度图。
本发明实施例通过生成预测区域的成矿有利度图充分的可视化展示预测结果及其变化趋势。
在一种可选的实施方式中,所述方法,还包括:将所述预测区域的成矿有利度图与实际预测区域勘查报告结论进行对比,为实际找矿工作提供支持验证。
本发明实施例不仅通过测试数据集对矿产预测模型对其预测能力进行验证,还利用成矿有利度图与实际预测区域勘查报告进行对比为实际工作提供支持,从而保证了矿产预测的准确性。
第二方面,本发明实施例提供了一种基于深度森林的矿产预测装置,包括:
多源数据集获取模块,用于获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;
多源数据集划分模块,用于将所述多源数据集分为训练数据集和测试数据集;
矿产预测模型构建模块,用于基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;
预测结果验证模块,用于将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证。
第三方面,本发明实施例提供了一种计算机设备,包括:
存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行本发明实施例提供的基于深度森林的矿产预测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行本发明实施例提供的基于深度森林的矿产预测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于深度森林的矿产预测方法的流程图示意图;
图2是根据本发明实施例的对深度森林模型进行训练过程的示意图;
图3是根据本发明实施例的基于深度森林和深度神经网络预测结果对应的roc曲线对比图;
图4是根据本发明实施例的另一基于深度森林的矿产预测方法的流程图示意图;
图5是根据本发明实施例的预测区域的成矿有利度图;
图6是根据本发明实施例的基于深度森林的矿产预测装置的功能模块的示意图;
图7是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种基于深度森林的矿产预测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于深度森林的矿产预测方法,可用于上述的计算机等,图1是根据本发明实施例的基于深度森林的矿产预测方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101:获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集。
具体的,本发明实施例所选预测区域为美国爱达荷地区作为示例,通过从美国联邦地质调查局公开的数据获取美国爱达荷地区的地球化学数据、地球物理数据和地质数据。其中地球化学数据包括水系沉积物,地质数据包括岩浆岩、断层等,地球物理数据包括重力数据。进一步的,对获取的数据预处理后形成用于矿产预测的多源数据集,具体过程为:
a1:获取地球化学数据,通过统计分析剔除其中的异常数据,并通过插值分析对地球化学数据缺失的区域进行补全,得到预测区域的地球化学数据证据图层作为地球化学数据集;具体的,本发明实施例选择水系沉积物地球化学数据,通过IQR统计分析剔除其中的异常数据,再通过克里金插值分析,对地球化学数据缺失的区域进行补全。
a2:获取地质数据,对进行空间分析得到预测区域的地质数据证据图层作为地质数据集;实际中对地质数据进行空间分析的方法,包括缓冲区分析、密度分析、网络分析等,本发明实施例采用的是缓冲区分析,得到各类数据的影响辐射范围区,并对缓冲区的分析结果进行欧式距离分析,并根据欧式距离分析结果为预测区域不同地点赋予各地质数据的影响权重值,得到预测区域的地质数据证据图层作为地质数据集;具体的,本发明实施例是将岩浆岩、断层等地质数据做缓冲区分析后进行欧式距离分析来确定不同地点质数据的影响权重值,其中距离岩浆岩、断层等地质数据越近的地点对应的影响权重值越大,利用该信息有利于更加准确的预测矿产地点。
a3:获取布格重力异常数据,得到预测区域的地球物理数据证据图层作为地球物理数据集;
a4:将地球化学数据集、地质数据集和地球物理数据集组成多源数据集。
本发明实施例通过获取地质、地球物理、地球化学多源勘查数据,通过预处理提取其中与矿产资源形成相关的特征信息,用于后续挖掘多源找矿信息与矿床之间的关系,有助于更加精准的矿产资源预测。
步骤S102:将多源数据集分为训练数据集和测试数据集。
具体的,本发明实施例将多源数据集对应的像素样本集与已知的矿产点位区进行投图映射,与矿点重合的像素样本集为正样本集,未与矿点重合且远离地质数据影响辐射范围区的区域像素样本集为负样本集;以正样本集为依据从负样本集中随机抽取与正样本数目相同的样本,组成预测使用的样本集使正负样本数比1:1;将预测使用的样本集按照训练集与测试集比值为2:1划分(仅作为示例不以此为限,也可以为按照实际情况进行分配),生成用于输入预测模型的训练数据集与后续检测预期效果的测试数据集。
步骤S103:基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型。
具体的,本发明实施例采用的深度森林模型是作为基于神经网络思维构建的模型,深度森林通过多粒度扫描更多注意到了原始数据中各个特征之间的关联,在不影响数据原始特征的情况下引入模型,通过再在各级联层中加入多粒度扫描结果,避免某单一层中学习过程中忽略多粒度扫描结果少数样本数据特征;且因多层多分类器具有更强的鲁棒性和容错能,在给予样本数据中存在噪声的情况下,依然能得到良好的结果。
具体的,本发明实施例利用训练数据集对深度森林模型进行训练过程如图2所示,包括以下步骤:
b1:将训练数据集输入深度森林模型的多粒度扫描模块,利用不同的滑动窗口对输入样本进行多粒度扫描采样得到不同维度的子数据集对应的特征向量;
b2:将不同维度的子数据集对应的特征向量输入到级联森林层进行训练,级联森林每一层都由若干个随机森林和完全随机林学习器组成,输入的不同维度的子数据集经过每层的学习器生成一个类向量,每层生成的类向量与对应的多粒度扫描生成的特征向量组成新向量作为该层的结果向量并输入下一层;层层传递后直到最后一层得到模型最终输出结果;
需要说明的是,向量的每一维分别代表相应类别的概率值,这样层层传递,对最后一层中所有学习器产生的各个类别的概率求平均,模型最终的输出结果即为类别中概率最大者,若干个随机森林和完全随机林学习器在训练过程中的各特征重要性进行输出,并层层计算输出对应概率最大者情况下的各个特征对于成矿问题的特征重要性。具体的,深度森林包含多层而各层中又含有多个随机森林类分类器,故各个随机森林类分类器都能得到该分类器上输入特征向量对于分类器结果向量的特征重要性,一层中有多个森林就可得到多个森林结果向量的特征重要性(如第一层中有2个分类器一和二,每个分类器都输入相同的4个特征向量,第一层会输出2个结果向量,将会得到关于分类器一的结果向量的4个特征重要性和关于分类器二的结果向量的4个特征重要性,共2组特征重要性);而在深度森林的多层级联传递中,上层的结果向量将会传入下一层,作为该层分类器的输入特征,各分类器会再得到新的结果向量及其特征重要性,并继续传递至下一层(第二层仍有2个分类器一和二,每个分类器都输入第一层的两个结果向量,第二层会输出2个结果向量,将会得到关于分类器一的结果向量的2个特征重要性和关于分类器二的结果向量的2个特征重要性,共2组特征重要性);直至最后一层,得到最终的一个结果向量(是否成矿)和其特征重要性,该特征重要性反应上一层结果(输入)对于最后一层结果向量(输出)的特征重要性,而再前一层结果(输入)对于上一层结果向量(输出)的特征重要性又是已知的,故可通过计算得到上上一层结果对于最终的一个结果向量(是否成矿)的特征重要性,以此类推,可得到初始层输入各特征对于最终结果向量(是否成矿)的特征重要性(第三层作为最后一层,具有1个分类器,输入特征为第二层两个结果向量,将得到关于分类器的1个最终结果向量的2个特征重要性,共1组特征重要性;通过第二层的2组特征重要性,可计算第二层输入的2个特征向量对于最终结果的2个特征重要性,共1组特征重要性,再通过第一层的2组特征重要性,可计算第一层输入的4个特征向量对于最终结果的4个特征重要性,共1组特征重要性,至此得到第一层输入的4个特征向量对于最终结果的特征重要性)。
b3:通过自适应调节级联森林的层数确定最终级联结构,如果在当前层的测试数据集准确率与前一层相比没有提升则停止构造下一层,通过每层学习器的数量及每个学习器中的相应参数(例如:森林的最大深度、分割所需最小样本数等),得到最优模型作为矿产预测模型。
步骤S104:将测试数据集输入矿产预测模型中得到预测结果,对矿产预测模型的预测能力进行验证。
本发明实施例采用的深度森林与深度神经网络结构类似,是通过多级结构进行表征学习。但深度森林以简单的训练模型,极高的计算效率与分类精度,以及不依赖于大量数据进行训练和对输入特征重要性评估的特点,可将决策机理与成矿机制进行对比验证,十分适合被应用于矿产预测中。
本发明实施例通过利用测试数据集矿产预测模型的预测结果进行验证,绘制出模型对应的roc曲线图3所示,并将深度神经网络成矿预测结果与其进行对比,以深度森林和深度神经网络两种方法在roc曲线下的面积大小得到准确度AUC来定量评估模型成矿预测的效果,可以看出本发明实施例采用的深度森林模型的准确度明显高于深度神经网络模型。
通过上述步骤S101至步骤S104,本发明实施例提供的基于深度森林的矿产预测方法,基于矿产资源相关的多源数据集并结合深度森林模型的优势性能,能够有效提高矿产预测的准确度和普适性。
在本实施例中提供了一种基于深度森林的矿产预测方法,可用于上述的计算机,图4是根据本发明实施例的基于深度森林的矿产预测方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S402,将多源数据集分为训练数据集和测试数据集;详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S403,基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;详细请参见图所示实施例的步骤S103,在此不再赘述。
步骤S404,将测试数据集输入矿产预测模型中得到预测结果,对矿产预测模型的预测能力进行验证。详细请参见图1所示实施例的步骤S104,在此不再赘述。
步骤S405,将预测区域的多源数据集输入矿产预测模型中,得到预测区域的成矿有利度图。本发明实施例中生成的成矿有利度图如图5所示,成矿有利度图可以看作是成矿预测图,因该地区未实际找矿勘查,不知地区成矿实际情况作为预测图成矿有利度可类似看作是成矿概率(0.1%-99.7%)但并非为成矿概率,具有高成矿有利度的区域更有可能会成矿。本发明实施例通过生成预测区域的成矿有利度图充分的可视化展示预测结果及其变化趋势。
步骤S406,将预测区域的成矿有利度图与实际预测区域勘查报告结论进行对比,为实际找矿工作提供支持验证。
本发明实施例不仅通过测试验证集对矿产预测模型对其预测能力进行验证,还利用成矿有利度图与实际预测区域勘查报告进行对比为实际工作提供支持,从而保证了矿产寻找的准确性。
在本实施例中还提供了一种基于深度森林的矿产预测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种基于深度森林的矿产预测装置,如图6所示,包括:
多源数据集获取模块601,用于获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;
多源数据集划分模块602,用于将多源数据集分为训练数据集和测试数据集;
矿产预测模型构建模块603,用于基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;
预测结果验证模块604,用于将测试数据集输入矿产预测模型中得到预测结果,对矿产预测模型的预测能力进行验证。
在一些可选的实施方式中,多源数据集获取模块601,包括:
地球化学数据集获取单元,用于获取地球化学数据,通过统计分析剔除其中的异常数据,并通过插值分析对地球化学数据缺失的区域进行补全,得到预测区域的地球化学数据证据图层作为地球化学数据集;
地质数据集获取单元,用于获取地质数据,对其进行空间分析得到预测区域的地质数据证据图层作为地质数据集;
地球物理数据集获取单元,用于获取布格重力异常数据,得到预测区域的地球物理数据证据图层作为地球物理数据集;
多源数据集生成单元,用于将地球化学数据集、地质数据集和地球物理数据集组成多源数据集。
在一些可选的实施方式中,多源数据集划分模块602,包括:
正负样本集划分单元,用于将多源数据集对应的像素样本集与已知的矿产点位区进行投图映射,与矿点重合的像素样本集为正样本集,未与矿点重合且远离地质数据影响辐射范围区的区域像素样本集为负样本集;以正样本集为依据从负样本集中随机抽取与正样本数目相同的样本,组成预测使用的样本集使正负样本数比1:1;
训练数据集与测试数据集划分单元,用于将预测使用的样本集按照预设比例对训练集与测试集进行划分,生成用于输入预测模型的训练数据集与后续检测预期效果的测试数据集。
在一些可选的实施方式中,矿产预测模型构建模块603,包括:
多粒度扫描单元,用于将训练数据集输入深度森林模型的多粒度扫描模块,利用不同的滑动窗口对输入样本进行多粒度扫描采样得到不同维度的子数据集对应的特征向量;
级联森林层训练单元,用于将不同维度的子数据集对应的特征向量输入到级联森林层进行训练,级联森林每一层都由若干个随机森林和完全随机林学习器组成,输入的不同维度的子数据集经过每层的学习器生成一个类向量,每层生成的类向量与对应的多粒度扫描生成的特征向量组成新向量作为该层的结果向量并输入下一层;层层传递后直到最后一层得到模型最终输出结果;
矿产预测模型生成单元,用于通过自适应调节级联森林的层数确定最终级联结构,如果在当前层的测试数据集准确率与前一层相比没有提升则停止构造下一层,通过每层学习器的数量及每个学习器中的相应参数,得到最优模型作为矿产预测模型。
在一些可选实施例中,预测结果验证模块604中基于测试数据集输入矿产预测模型中得到预测结果来生成roc曲线,基于roc曲线下的面积大小得到的准确度来定量评估矿产预测模型的预测效果。
在一些可选实施例中,上述的预测装置还包括:
成矿有利度图生成模块,用于将预测区域的多源数据集输入矿产预测模型中,得到预测区域的成矿有利度图;
对比模块,用于将预测区域的成矿有利度图与实际预测区域勘查报告结论进行对比,为实际找矿工作提供支持验证。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的基于深度森林的矿产预测装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种计算机设备,具有上述图6所示的基于深度森林的矿产预测装置。
请参阅图7,图7是本发明可选实施例提供的一种计算机设备的结构示意图,如图7所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种基于深度森林的矿产预测方法,其特征在于,包括:
获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;
将所述多源数据集分为训练数据集和测试数据集;
基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;
将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证。
2.根据权利要求1所述的基于深度森林的矿产预测方法,其特征在于,所述获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集,包括:
获取地球化学数据,通过统计分析剔除其中的异常数据,并通过插值分析对地球化学数据缺失的区域进行补全,得到预测区域的地球化学数据证据图层作为地球化学数据集;
获取地质数据,对其进行空间分析得到预测区域的地质数据证据图层作为地质数据集;
获取布格重力异常数据,得到预测区域的地球物理数据证据图层作为地球物理数据集;
将所述地球化学数据集、地质数据集和地球物理数据集组成所述多源数据集。
3.根据权利要求2所述的基于深度森林的矿产预测方法,其特征在于,所述将所述多源数据集分为训练数据集和测试数据集,包括:
将所述多源数据集对应的像素样本集与已知的矿产点位区进行投图映射,与矿点重合的像素样本集为正样本集,未与矿点重合且远离地质数据影响辐射范围区的区域像素样本集为负样本集;
以正样本集为依据从负样本集中随机抽取与正样本数目相同的样本,组成预测使用的样本集使正负样本数比1:1;
将预测使用的样本集按照预设比例对训练集与测试集进行划分,生成用于输入预测模型的训练数据集与后续检测预期效果的测试数据集。
4.根据权利要求1所述的基于深度森林的矿产预测方法,其特征在于,所述利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型,包括:
将训练数据集输入所述深度森林模型的多粒度扫描模块,利用不同的滑动窗口对输入样本进行多粒度扫描采样得到不同维度的子数据集对应的特征向量;
将所述不同维度的子数据集对应的特征向量输入到级联森林层进行训练,所述级联森林每一层都由若干个随机森林和完全随机林学习器组成,输入的不同维度的子数据集经过每层的学习器生成一个类向量,所述每层生成的类向量与对应的多粒度扫描生成的特征向量组成新向量作为该层的结果向量并输入下一层;层层传递后直到最后一层得到模型最终输出结果;
通过自适应调节级联森林的层数确定最终级联结构,如果在当前层的测试数据集准确率与前一层相比没有提升则停止构造下一层,通过每层学习器的数量及每个学习器中的相应参数,得到最优模型作为矿产预测模型。
5.根据权利要求3所述的基于深度森林的矿产预测方法,其特征在于,所述将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证,包括:
基于测试数据集输入所述矿产预测模型中得到预测结果来生成roc曲线,基于roc曲线下的面积大小得到的准确度来定量评估矿产预测模型的预测效果。
6.根据权利要求1所述的基于深度森林的矿产预测方法,其特征在于,还包括:
将预测区域的多源数据集输入所述矿产预测模型中,得到预测区域的成矿有利度图。
7.根据权利要求6所述的基于深度森林的矿产预测方法,其特征在于,还包括:将所述预测区域的成矿有利度图与实际预测区域勘查报告结论进行对比,为实际找矿工作提供支持验证。
8.一种基于深度森林的矿产预测装置,其特征在于,包括:
多源数据集获取模块,用于获取预测区域的地球化学数据、地球物理数据和地质数据,并进行预处理后生成用于矿产预测的多源数据集;
多源数据集划分模块,用于将所述多源数据集分为训练数据集和测试数据集;
矿产预测模型构建模块,用于基于深度森林算法构建深度森林模型,并利用训练数据集对深度森林模型进行训练,将训练好的模型作为矿产预测模型;
预测结果验证模块,用于将所述测试数据集输入所述矿产预测模型中得到预测结果,对所述矿产预测模型的预测能力进行验证。
9.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的基于深度森林的矿产预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的基于深度森林的矿产预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648525.1A CN117610733A (zh) | 2023-12-04 | 2023-12-04 | 一种基于深度森林的矿产预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648525.1A CN117610733A (zh) | 2023-12-04 | 2023-12-04 | 一种基于深度森林的矿产预测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117610733A true CN117610733A (zh) | 2024-02-27 |
Family
ID=89951423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311648525.1A Pending CN117610733A (zh) | 2023-12-04 | 2023-12-04 | 一种基于深度森林的矿产预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117610733A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711597A (zh) * | 2018-11-14 | 2019-05-03 | 东莞理工学院 | 一种基于分层随机森林模型的铜镍硫化物矿床成矿预测方法 |
US20200293906A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Deep forest model development and training |
CN113205205A (zh) * | 2021-04-08 | 2021-08-03 | 安徽农业大学 | 一种基于深度森林算法的小麦赤霉病预测方法 |
CN116422452A (zh) * | 2023-03-03 | 2023-07-14 | 中钢集团马鞍山矿山研究总院股份有限公司 | 一种自动控制参数优化磨矿溢流粒度区间的方法 |
-
2023
- 2023-12-04 CN CN202311648525.1A patent/CN117610733A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711597A (zh) * | 2018-11-14 | 2019-05-03 | 东莞理工学院 | 一种基于分层随机森林模型的铜镍硫化物矿床成矿预测方法 |
US20200293906A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Deep forest model development and training |
CN113205205A (zh) * | 2021-04-08 | 2021-08-03 | 安徽农业大学 | 一种基于深度森林算法的小麦赤霉病预测方法 |
CN116422452A (zh) * | 2023-03-03 | 2023-07-14 | 中钢集团马鞍山矿山研究总院股份有限公司 | 一种自动控制参数优化磨矿溢流粒度区间的方法 |
Non-Patent Citations (2)
Title |
---|
肖克炎等: "矿床成矿系列综合信息预测理论方法及其应用", 《地球学报》, vol. 44, no. 05, 30 September 2023 (2023-09-30), pages 769 - 780 * |
薛永超等: "基于深度森林算法的油井产量预测", 《科学技术与工程》, vol. 22, no. 11, 30 April 2022 (2022-04-30), pages 4327 - 4334 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ross et al. | P wave arrival picking and first‐motion polarity determination with deep learning | |
Dias et al. | Automatic detection of fractures and breakouts patterns in acoustic borehole image logs using fast-region convolutional neural networks | |
CN110443293A (zh) | 基于双判别生成对抗网络文本重构的零样本图像分类方法 | |
CN113792936A (zh) | 一种随钻岩性智能识别方法、系统、设备和存储介质 | |
Konaté et al. | Application of dimensionality reduction technique to improve geophysical log data classification performance in crystalline rocks | |
US11893495B2 (en) | Dual neural network architecture for determining epistemic and aleatoric uncertainties | |
Gu et al. | Data-driven lithology prediction for tight sandstone reservoirs based on new ensemble learning of conventional logs: A demonstration of a Yanchang member, Ordos Basin | |
US20230078158A1 (en) | High-resolution Seismic Fault Detection with Adversarial Neural Networks and Regularization | |
CN114997501A (zh) | 基于样本失衡的深度学习矿产资源分类预测方法及系统 | |
CN116307123A (zh) | 一种基于知识图谱驱动的矿产资源预测方法、存储介质 | |
Kim et al. | Selection of augmented data for overcoming the imbalance problem in facies classification | |
Leung et al. | Sample truncation strategies for outlier removal in geochemical data: the MCD robust distance approach versus t-SNE ensemble clustering | |
WO2022221803A1 (en) | Method and system for evaluating radiograph testing inspection of pipe welding | |
Feng et al. | Comparative Study on Three Autoencoder‐Based Deep Learning Algorithms for Geochemical Anomaly Identification | |
St-Charles et al. | A deep learning benchmark for first break detection from hardrock seismic reflection data | |
Xie et al. | Learning from prior geological information for geotechnical soil stratification with tree-based methods | |
CN117610733A (zh) | 一种基于深度森林的矿产预测方法、装置、设备及介质 | |
Gu et al. | Lithofacies prediction driven by logging‐based Bayesian‐optimized ensemble learning: A case study of lacustrine carbonate reservoirs | |
CN115795353A (zh) | 一种基于不均衡数据集的地下金属目标分类方法及系统 | |
US11434757B2 (en) | Direct hydrocarbon indicators analysis informed by machine learning processes | |
Jacinto et al. | Lithostratigraphy Modeling with Transformer-Based Deep Learning and Natural Language Processing Techniques | |
Houran et al. | USING GIS DATA AND MACHINE LEARNING FOR MINERAL MAPPING. STUDY CASE, BOU SKOUR EASTERN ANTI-ATLAS, MOROCCO | |
Molossi et al. | Efficient Logging-While-Drilling Image Logs Interpretation Using Deep Learning | |
CN118194162B (zh) | 基于多元数据的找矿靶区定位方法、系统、电子设备及存储介质 | |
CN117421642B (zh) | 基于深度学习的智能检波器数据存储方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |