CN117113162A - 一种融合机器学习的埃达克质岩构造背景判别图解方法 - Google Patents
一种融合机器学习的埃达克质岩构造背景判别图解方法 Download PDFInfo
- Publication number
- CN117113162A CN117113162A CN202310582917.6A CN202310582917A CN117113162A CN 117113162 A CN117113162 A CN 117113162A CN 202310582917 A CN202310582917 A CN 202310582917A CN 117113162 A CN117113162 A CN 117113162A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- data
- discrimination
- rock
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000011435 rock Substances 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000010586 diagram Methods 0.000 claims abstract description 38
- 238000010276 construction Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000013107 unsupervised machine learning method Methods 0.000 claims abstract description 4
- 238000012706 support-vector machine Methods 0.000 claims description 29
- 238000007637 random forest analysis Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- PZZHMLOHNYWKIK-UHFFFAOYSA-N eddha Chemical compound C=1C=CC=C(O)C=1C(C(=O)O)NCCNC(C(O)=O)C1=CC=CC=C1O PZZHMLOHNYWKIK-UHFFFAOYSA-N 0.000 claims description 6
- 229910004298 SiO 2 Inorganic materials 0.000 claims description 5
- 229910010413 TiO 2 Inorganic materials 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 229910018072 Al 2 O 3 Inorganic materials 0.000 claims description 4
- 229910052770 Uranium Inorganic materials 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 229910052689 Holmium Inorganic materials 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 229910052727 yttrium Inorganic materials 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 9
- 238000000513 principal component analysis Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 11
- 235000013619 trace mineral Nutrition 0.000 description 8
- 239000011573 trace mineral Substances 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 229910052779 Neodymium Inorganic materials 0.000 description 2
- 229910052769 Ytterbium Inorganic materials 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000005755 formation reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 229910052761 rare earth metal Inorganic materials 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000011179 visual inspection Methods 0.000 description 2
- KKCBUQHMOMHUOY-UHFFFAOYSA-N Na2O Inorganic materials [O-2].[Na+].[Na+] KKCBUQHMOMHUOY-UHFFFAOYSA-N 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Geophysics And Detection Of Objects (AREA)
Abstract
本发明公开了一种融合机器学习的埃达克质岩构造背景判别图解方法,包括以下步骤:S1、收集埃达克质岩主微量元素数据,建立埃达克质岩主微量元素数据集;S2、数据预处理:均值规范化预处理;S3、使用无监督机器学习方法对数据集进行特征分析;S4、机器学习算法训练、调参及评估,构建埃达克质岩构造背景机器学习判别模型;S5、穷举并筛选特征元素端元;S6、机器学习算法训练并绘制决策边界;S7、综合模型评估及视觉审查结果得出可视化判别图解。本发明采用上述融合机器学习的埃达克质岩构造背景判别图解方法,将机器学习与地质大数据相结合,构建高精度构造背景判别模型和可视化图解,为构造‑岩浆作用研究带来新的思路。
Description
技术领域
本发明涉及地学大数据技术领域,尤其涉及一种融合机器学习的埃达克质岩构造背景判别图解方法。
背景技术
埃达克质岩是一类富集轻稀土元素(LREE),强烈亏损重稀土元素(如Yb≤1.9×10-6)和Y元素(≤18×10-6),富Sr(一般≥400×10-6),高La/Yb(≥20)与Sr/Y(≥40)值,无明显Eu负异常的中酸性岩浆岩,其构造背景识别是解决岩石成因、地球动力学和金属成矿意义的第一步。
埃达克质岩为岩浆起源、熔体-地幔作用、板块构造启动、地壳生长和恢复构造演化过程提供关键证据。尽管不同构造背景下形成的埃达克质岩具有不同的地球化学特征,但是埃达克质岩的源区、热源、产生机制、迁移和演化过程复杂,所以利用地球化学特征去破译地质历史时期的古构造环境充满挑战和争议。主微量元素图解((Yb+Ta)vs.Rb;(Y+Nb)vs.Rb;Rh/30vs.Hf vs.Ta×3;Nb/Yb vs.Th/Yb;Hf/3vs.Th vs.Nb/16;Th vs.La/Yb;Mg#vsSiO2;和TiO2 vs.SiO2等)被广泛的应用于判别埃达克质岩构造背景。尽管上述图解基于地球化学演化过程提出,但是实际应用过程中仅依靠有限的数据和特征,并不能很好的约束岩石构造背景。相反,这些图解常给出模棱两可或互相矛盾的解释,使得传统低维度地球化学手段在识别构造背景时存在局限性。
同时,随着地学数据的指数增长和人工智能的发展,机器学习为解决该问题提供了新方法。
具体可知,机器学习是多领域交叉学科,涉及的学科较多,如概率论、统计学、逼近论、凸分析和算法复杂度理论等。它是人工智能的核心,是让计算机更加智能化的根本方法,是一个源于数据训练过程的模型,最终给出一个最优的性能度量决策。地球大数据和人工智能技术的发展推动了新研究范式的产生,新世纪的地学发展日益呈现密集数据驱动和学科交叉的趋势。
机器学习可以分为无监督学习和有监督学习。在无监督式学习中,数据并没有被特别标识,学习模型是为了对数据内部的一些结构进行推断,主成分分析(PCA)和t分布-随机近邻嵌入(t-SNE)是两种常用的无监督学习方法。其中PCA通常以原始变量的某种线性组合来表示,其通过降维技术将多个原始变量重新组合成几个互不相关的少数主成分的一种统计分析方法,主成分可以反映原始变量的绝大部分信息。t-SNE是一种非线性无监督降维技术,通过对两个分布之间的距离散度进行优化,得到低维空间的样本分布,能够有效解决数据拥挤问题。
随机森林、高斯核支持向量机、人工神经网络和K近邻是当前机器学习领域普遍使用的四种经典监督学习分类算法。在有监督学习中,每组训练数据都有一个标识值或者结果值。监督式学习在建立预测模型时,建立一个学习过程,将预测结果与训练数据的实际结果相比较,不断对预测模型进行调整,直到模型的预测结果达到预期的准确度为止。
现有技术中,例如焦守涛,周永章,张旗等在《基于GEOROC数据库的全球辉长岩大数据的大地构造环境智能判别研究》中开展了对辉长岩构造背景智能判别的研究;ZHAO Y,ZHANG Y,GENG M等在《Involvement of Slab〥erived Fluid in the Generation ofCenozoic Basalts in Northeast China Inferred From Machine Learning》中分析了中国东北新生代玄武岩,揭示其形成与太平洋板块的俯冲流体密切相关。DOUCET L S,TETLEYM G,LI Z等在《Geochemical fingerprinting of continental and oceanic basalts:Amachine learning approach》中分析地质历史时期的玄武岩,结合板块重建模型,完善全球古地理恢复工作。
可知现有将融合机器学习应用于岩石构造背景的主要研究如下:分析地质历史时期的玄武岩,结合板块重建模型,完善全球古地理恢复工作。
虽然机器学习在揭示岩石构造背景中具有良好的应用前景,但已有的研究较少且集中在玄武岩等基性岩构造背景与源区性质领域。且目前尚未开展融合机器学习揭示埃达克质岩构造背景的研究。
发明内容
为解决上述问题,本发明提供一种融合机器学习的埃达克质岩构造背景判别图解方法,将机器学习与地质大数据相结合,构建高精度构造背景判别模型和可视化图解,为构造-岩浆作用研究带来新的思路。
为实现上述目的,本发明提供了一种融合机器学习的埃达克质岩构造背景判别图解方法,包括以下步骤:
S1、收集埃达克质岩主微量元素数据,建立埃达克质岩主微量元素数据集;
S2、数据预处理:异常数据清洗、删除空缺值和零-均值规范化预处理;
S3、使用无监督机器学习方法对数据集进行特征分析;
S4、机器学习算法训练、调参及评估,构建埃达克质岩构造背景机器学习判别模型;
S5、穷举并筛选特征元素端元;
S6、机器学习算法训练并绘制决策边界;
S7、综合模型评估及视觉审查结果得出可视化判别图解。
优选的,步骤S1中所述的埃达克质岩主微量元素数据为由9个主量元素和22个微量元素组成的31个特征元素;
主量元素包括SiO2、MgO、Al2O3、Na2O、K2O、TiO2、CaO、MnO、P2O5;
微量元素包括Sr、Rb、Zr、Y、Ba、La、Nb、Nd、Th、Yb、Ce、Eu、Sm、Ni、U、Dy、Hf、Er、Lu、Gd、Pr和Ho。
优选的,步骤S2所述的异常数据清洗具体为:首先删除负值和异常值,而后采用数据插补的方式对空白值进行插值处理,获得利于机器学习训练分布相对集中的数据集。
优选的,在步骤S3使用PCA与t-SNE相结合的方式进行特征分析和数据深层次关系分析,其具体包括以下步骤:
S31、利用PCA输出载荷图,展示原始数据和主成分之间的关系;
S32、利用t-SNE将高维数据映射到二维或三维空间,降低数据的维度。
优选的,步骤S4具体包括以下步骤:
S41、分别使用随机森林、高斯核支持向量机、人工神经网络或者K近邻方法进行机器学习算法训练;
S42、使用网格搜索结合K折交叉验证的方式进行调参:
通过网格搜索5折交叉验证,以设定分数作为评价模型的标准,针对每个特征元素的机器学习模型,寻找上述四种机器学习方法埃达克质岩构造背景类型分类最优的超参数;
S43、使用数据集中未用过的测试数据利用混淆矩阵或者学习曲线进行预测评估;
S44、选出准确率最高的机器学习方法:高斯核支持向量机作为埃达克质岩构造背景判别模型,埃达克质岩构造背景判别模型用于区分汇聚板块边缘、板内火山活动和太古代克拉通。
优选的,步骤S5具体包括以下步骤:
S51、将31特征元素与计算后的特征元素含量比值联合,进行对数转换,得到图解的端元;
S52、对二维图解的轮廓系数进行计算,并将其降序排列。
优选的,步骤S51具体包括以下步骤:
S511、使用穷举端元法计算31个特征元素中任意两个特征元素的比值,得到465个元素比值;
S512、将31个特征元素与计算后的465个元素比值联合,进行对数转换,得到496个构建图解的端元。
优选的,步骤S52具体包括以下步骤:
S521、利用正态化的数据,穷举投图得到122760幅二维图解;
S522、计算二维图解的轮廓系数并降序,为使得二维图解显示更多元素信息,取出横纵坐标无重复元素的端元组合,得到埃达克质岩判别效果最好的前9个二维图解分别为Ba vs.Sr/Nd图解,轮廓系数为0.505;
S523、结合PCA输出结果,使用Ba和Sr/Nd组合作为判别图解的端元元素。
优选的,步骤S6具体包括以下步骤:
S61、将数据集分为训练集和测试集;
S62、利用高斯核支持向量机对Ba和Sr/Nd特征元素的训练集进行训练,然后使用测试集对所拟合的模型进行评测,得到最佳图解端元的特征数据训练机器学习分类器;
S63、以最佳图解端元的特征数据训练机器学习分类器,再利用所得分类模型对二维平面中的所有点数据进行预测计算,推断出决策边界。
优选的,步骤S7具体包括以下步骤:
将随机森林、高斯核支持向量机、人工神经网络或者K近邻方法的预测准确率作为权重,按照随机森林、K近邻、高斯核支持向量机和人工神经网络的决策边界线的顺序,选择符合要求的线条进行边界拟合,得到最终的判别图解图。
本发明具有以下有益效果:
(1)本发明经过超参数调整优化,对比多种机器学习算法,得出准确率为98.5%的基于高斯核支持向量机的埃达克质岩构造背景判别模型,可用来区分汇聚板块边缘、板内火山活动和太古代克拉通(包括绿岩带)三种埃达克质岩构造背景类型。
(2)本发明在二维可视化的基础上运用机器学习方法,高维度的研究目标特征,进行穷举端元和PCA分析,得出Ba vs.Sr/Nd端元图解,此图解具有约82.3%的准确率,能有效区分构造背景类型,为可视化研究埃达克质岩主微量元素提供借鉴。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的实施例一种融合机器学习的埃达克质岩构造背景判别图解方法的流程图;
图2为本发明的实施例的PCA载荷图;
图3为本发明的实施例的t-SNE图;
图4为本发明的实施例的四种机器学习分类算法在不同埃达克质岩构造背景判别的决策边界问题上的比较结果图;
图5为本发明的实施例的埃达克质岩构造背景判别图解图。
具体实施方式
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,一种融合机器学习的埃达克质岩构造背景判别图解方法,包括以下步骤:
S1、收集埃达克质岩主微量元素数据,建立埃达克质岩主微量元素数据集;
优选的,步骤S1中所述的埃达克质岩主微量元素数据为由9个主量元素和22个微量元素组成的31个特征元素(主量元素单位为%,微量元素单位为ppm);主量元素包括SiO2、MgO、Al2O3、Na2O、K2O、TiO2、CaO、MnO、P2O5;微量元素包括Sr、Rb、Zr、Y、Ba、La、Nb、Nd、Th、Yb、Ce、Eu、Sm、Ni、U、Dy、Hf、Er、Lu、Gd、Pr和Ho。
需要说明的是,采集数据时由于埃达克质岩中主量元素中的Fe2O3以及微量元素中的Co空缺率均大于50%,为避免过度填充空缺值而导致结果不确定性增大,故将其数据删除。
且数据预处理在数据挖掘过程中占有重要地位,在收集到的各种数据中,数据缺失是非常常见的现象。如果对于数据空缺值,采用KNN填充使用缺失点附近的数据点对缺失值进行估计并填充,经实验得到填充后准确率最高的机器学习算法为人工神经网络,准确率为91.0%。为进一步提高准确率,删除数据空缺值,对于无空缺值特征元素数据进行机器学习训练,得到了高斯核支持向量机98.5%的准确率,较KNN填充处理的准确率提升了7.5%,说明采集到的数据较填充的数据更具有真实性,因此本实施例使用31个特征元素无空缺值的数据进行下一步分析。
同时,对埃达克质岩主微量元素数据进行PCA和t-SNE分析,PCA载荷图(如图2所示)结果显示,主成分1(PC1)和主成分2(PC2)分别占数据集的47.1%和17%的方差,能解释数据集64.1%的信息,因此采用PC1和PC2的载荷图来进一步分析元素数据。从图2载荷图中可看出,第三象限中无元素分布,即这31种元素在PC1或者PC2上都具有一定的贡献率。同时,尝试删除Na2O、Al2O3、Ni、Ba、Lu、Zr、MnO、Nb、K2O、U和Hf等多种元素组合,但是删除元素后的机器学习判别模型准确率都较现在的98.5%有所降低,因此,本发明保留31个特征元素进行机器学习模型训练。t-SNE图(如图3所示)显示,埃达克质岩三种构造背景类型的数据分布交集极少且存在聚类现象,表明可以尝试通过机器学习方法对其进行分类,进一步表明此方法的可行性及有效性。
S2、数据预处理:异常数据清洗、删除空缺值和零-均值规范化预处理;
优选的,步骤S2所述的异常数据清洗具体为:首先删除负值和异常值,而后采用数据插补的方式对空白值进行插值处理,获得利于机器学习训练分布相对集中的数据集。
S3、使用无监督机器学习方法对数据集进行特征分析;
优选的,在步骤S3使用PCA与t-SNE相结合的方式进行特征分析和数据深层次关系分析,其具体包括以下步骤:
S31、利用PCA输出载荷图,展示原始数据和主成分之间的关系;
PCA是一种线性降维方法,PCA的载荷图(Loading Plot)是分析PCA结果的重要工具。载荷图中的向量可以用三种方式解释:长度、方向和向量之间的角度,展示了原始数据和主成分之间的关系,其中每个数据点代表一个变量,每个主成分的方向代表了该主成分与原始变量之间的线性关系。主成分分析结果为变量的线性组合,它可以影响元素特征选择决策。
S32、利用t-SNE将高维数据映射到二维或三维空间,降低数据的维度。
主成分分析结果为变量的线性组合,它可以影响后续的元素选择决策。而t-SNE是一种非线性无监督的降维算法,通过保留数据之间的相对距离,从而降低数据的维度,将高维数据映射到二维或三维空间中,以便于可视化。由于t-SNE本身是不同维度空间下条件概率的映射,其结果没有任何明确的表达式,但在可视化的应用中,t-SNE比PCA效果要好。因此拟使用PCA与t-SNE相结合的方式进行数据深层次关系分析。
S4、机器学习算法训练、调参及评估,构建埃达克质岩构造背景机器学习判别模型;
优选的,步骤S4具体包括以下步骤:
S41、分别使用随机森林、高斯核支持向量机、人工神经网络或者K近邻方法进行机器学习算法训练;
随机森林RF(Random Forest)是一种基于决策树的集成学习方法,通过对多棵决策树的投票来进行分类或回归预测,比传统决策树具有更强的泛化能力和更好的分类效果。支持向量机SVM(Support Vector Machine)是一种通过找到最大化间隔的超平面来进行分类或回归预测的模型。除了典型线性分类预测,可以使用不同的核函数来实现非线性分类,例如多项式核、高斯核等。人工神经网络ANN(Artificial Neural Network)是一种模拟人脑神经元之间的连接关系来进行学习和预测的模型。它由多个神经元层组成,每层神经元将输入数据进行加权和激活函数的处理,输出给下一层神经元。通过对神经元之间的权重和偏置不断调整来实现模型的优化,使其能够对数据进行更精确的分类或回归预测。K近邻KNN(k-Nearest Neighbor)是以实例为基础的学习方法,它通过计算未知样本与训练数据集中距离最近的K个样本的类别来预测此样本的类别。K值的选择和距离度量方法是影响模型性能的重要参数,需要根据具体问题进行调整。可知上述机器学习算法在不同的数据集和任务中具有不同的优势和适用性,故在实际应用中,需要针对特定问题和数据特点选择恰当的模型。
S42、使用网格搜索结合K折交叉验证的方式进行调参:
通过网格搜索5折交叉验证,以设定分数作为评价模型的标准,针对每个特征元素的机器学习模型,寻找上述四种机器学习方法埃达克质岩构造背景类型分类最优的超参数;
其中,网格搜索(Grid Search)是一种常用的机器学习超参数优化方法,它通过穷举所有可能的超参数组合进行训练和评估,从而找到最优的超参数组合。在网格搜索中,需要预先设定每个超参数的取值范围,并针对特定问题和数据特点选择恰当的超参数。此外,为了避免过拟合,提高模型性能。
K折交叉验证(K-fold Cross Validation)是一种常用的机器学习模型评估方法,它将数据集分成K个子集,将其中一个子集作为验证集,其余K-1个子集作为训练集,然后重复这个过程K次,每次将不同的子集作为验证集,最终将K次评估结果的平均值作为模型的评估结果。
如图4所示,本实施例中使用测试集对网格搜索后所拟合的模型进行评测的结果为:支持向量机准确率为0.985;K近邻准确率为0.983;人工神经网络准确率为0.951;随机森林准确率为0.924。根据混淆矩阵和准确率的综合评判,最优的分类器模型为“参数C=10,gamma=0.1”的高斯核支持向量机模型,准确率为0.985,97%的汇聚板块边缘、100%的板内火山活动和100%的太古代克拉通得到正确分类。
S43、使用数据集中未用过的测试数据利用混淆矩阵或者学习曲线进行预测评估;
其中混淆矩阵预测评估包括以下步骤:首先将预测结果分类:真正类、真负类、假正类和假负类,其中真正类表示模型正确预测为正例的样本数;真负类表示模型正确预测为负例的样本数;假正类表示模型错误地将负例预测为正例的样本数;假负类表示模型错误地将正例预测为负例的样本数;然后计算出模型的各种性能指标:准确率、召回率、精确率、F1-score;
学习曲线预测评估可将训练集大小与模型性能之间关系表示出来的图像。通常情况下,学习曲线包括两条曲线,分别表示训练集和验证集的性能随着数据量增加而变化的趋势。当模型过于简单或数据量不足时,学习曲线会呈现欠拟合的趋势,也就是训练集和验证集的误差都较高且相似。而当模型复杂度过高或数据量过多时,学习曲线会呈现过拟合的趋势,也就是训练集误差非常低,但验证集误差非常高。通过学习曲线,故可根据训练集和验证集的性能趋势,判断模型是否欠拟合或过拟合,并且可以根据需要增加或减少训练集样本数量。
S44、选出准确率最高的机器学习方法:高斯核支持向量机作为埃达克质岩构造背景判别模型,埃达克质岩构造背景判别模型用于区分汇聚板块边缘、板内火山活动和太古代克拉通。
S5、穷举并筛选特征元素端元;
优选的,步骤S5具体包括以下步骤:
S51、将31特征元素与计算后的特征元素含量比值联合,进行对数转换,得到图解的端元;
优选的,步骤S51具体包括以下步骤:
S511、使用穷举端元法计算31个特征元素中任意两个特征元素的比值,得到465个元素比值;
S512、将31个特征元素与计算后的465个元素比值联合,进行对数转换,得到496个构建图解的端元。
其中穷举端元图解(Pictorial Representation of Exhaustive Enumeration)通过列举所有可能的情况,从而得出结论。在穷举端元图解中,将所有可能的情况用图形化的方式表示出来,并对每种情况进行分类和统计,最终得出结论。
本实施例中,为确定组合特征的重要性,对9个图解中的端元元素进行主成分分析,即Sr/Nd、Ba、Ce、SiO2/La、Al2O3/Ba、Sr/Hf、Rb/Ni、Sr/Pr、Sr/Zr、Sr/La、TiO2/CaO和Pr等12个端元组合元素。在这9个二维图解中,Ba元素出现5次,Sr元素出现6次,证明Ba、Sr对埃达克构造背景判别效果较好。同时,根据PCA分得出Sr/Nd和Ba是PC1和PC2非常重要的两个特征元素,与二维图解轮廓系数值指向一致,因此拟使用Ba和Sr/Nd组合作为判别图解的端元元素。
S52、为量化且准确地筛选有效的埃达克质岩构造背景二元分类图解,引入轮廓系数,对二维图解的轮廓系数进行计算,并将其降序排列。
其中轮廓系数是无监督学习中常用来衡量聚类算法效果的指标,取值范围在-1到1之间,越接近1表示聚类效果越好,即表示各类型构造背景的区分度越好。
优选的,步骤S52具体包括以下步骤:
S521、利用正态化的数据,穷举投图得到122760幅二维图解;
S522、计算二维图解的轮廓系数并降序,为使得二维图解显示更多元素信息,取出横纵坐标无重复元素的端元组合,得到埃达克质岩判别效果最好的前9个二维图解分别为Ba vs.Sr/Nd图解,轮廓系数为0.505;
S523、结合PCA输出结果,使用Ba和Sr/Nd组合作为判别图解的端元元素。
S6、机器学习算法训练并绘制决策边界;决策边界是机器学习模型中的一个关键概念,它是将数据分为不同类别的“分界线”。所呈现的决策边界即为图解中埃达克质岩不同构造背景的边界,即可得到埃达克质岩构造背景的二元判别图解。
优选的,步骤S6具体包括以下步骤:
S61、将数据集分为训练集和测试集;
S62、利用高斯核支持向量机对Ba和Sr/Nd特征元素的训练集进行训练,然后使用测试集对所拟合的模型进行评测,得到最佳图解端元的特征数据训练机器学习分类器;
S63、以最佳图解端元的特征数据训练机器学习分类器,再利用所得分类模型对二维平面中的所有点数据进行预测计算,推断出决策边界。
S7、综合模型评估及视觉审查结果得出可视化判别图解。
优选的,步骤S7具体包括以下步骤:
本实施例中的模型预测结果为:随机森林准确率为0.823;K近邻准确率为0.792;线性内核支持向量机准确率为0.775;人工神经网络准确率为0.765。虽然在Ba和Sr/Nd特征元素可视化图解端元的机器学习模型中,随机森林算法的准确率最高,即0.823。但是综合决策边界图的视觉审查可看出(图4),K近邻和随机森林可视化决策边界图的边界线不规整较嘈杂,线性支持向量机和人工神经网络的边界线较清晰明了。因此,不宜使用上述决策边界图直接作为判别图解。为了使得判别图解判别更有效,所以将随机森林、高斯核支持向量机、人工神经网络或者K近邻方法的预测准确率作为权重,按照随机森林、K近邻、高斯核支持向量机和人工神经网络的决策边界线的顺序,选择符合要求(线条规整清晰)的线条进行边界拟合,得到最终的判别图解图。
在本实施例中收集了1075条全球埃达克质岩主微量地球化学数据。并借助sklearn库进行机器学习;pandas和numpy库进行数据分析和操作;geopandas库进行地理空间数据分析;itertools库进行端元穷举;matplotlib库进行图表绘制;mlxtend库进行决策边界绘制。
在Ba和Sr/Nd特征元素可视化图解端元的机器学习模型中,随机森林算法的准确率最高,即0.823。但是由图4所示的综合决策边界图的视觉审查可看出,K近邻和随机森林可视化决策边界图的边界线不规整较嘈杂,线性支持向量机和人工神经网络的边界线较清晰明了。因此,不宜使用上述决策边界图直接作为判别图解。同时,为了使得判别图解判别更有效,将根据四种机器学习算法的准确率作为权重,按照随机森林、K近邻、线性内核支持向量机和人工神经网络决策边界线的顺序,优先选择规整清晰的线条进行边界拟合,从而得到如图5所示的最终的判别图解图。
因此,本发明采用上述结构的融合机器学习的埃达克质岩构造背景判别图解方法,使用主成分分析和t分布-随机近邻嵌入等无监督学习方法进行高维数据降维,采用随机森林、高斯核支持向量机、人工神经网络和K近邻的机器学习方法训练,得出准确率为98.5%的高斯核支持向量机作为埃达克质岩构造背景判别器,并提出Ba vs.Sr/Nd图解,为汇聚板块边缘、板内火山活动和太古代克拉通(包括绿岩带)三种构造背景判别提供依据,拓展了机器学习在埃达克质岩构造背景研究中的应用,为构造-岩浆作用研究带来新的思路。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (10)
1.一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:包括以下步骤:
S1、收集埃达克质岩主微量元素数据,建立埃达克质岩主微量元素数据集;
S2、数据预处理:异常数据清洗、删除空缺值和零-均值规范化预处理;
S3、使用无监督机器学习方法对数据集进行特征分析;
S4、机器学习算法训练、调参及评估,构建埃达克质岩构造背景机器学习判别模型;
S5、穷举并筛选特征元素端元;
S6、机器学习算法训练并绘制决策边界;
S7、综合模型评估及视觉审查结果得出可视化判别图解。
2.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S1中所述的埃达克质岩主微量元素数据为由9个主量元素和22个微量元素组成的31个特征元素;
主量元素包括SiO2、MgO、Al2O3、Na2O、K2O、TiO2、CaO、MnO、P2O5;
微量元素包括Sr、Rb、Zr、Y、Ba、La、Nb、Nd、Th、Yb、Ce、Eu、Sm、Ni、U、Dy、Hf、Er、Lu、Gd、Pr和Ho。
3.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S2所述的异常数据清洗具体为:首先删除负值和异常值,而后采用数据插补的方式对空白值进行插值处理,获得利于机器学习训练分布相对集中的数据集。
4.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:在步骤S3使用PCA与t-SNE相结合的方式进行特征分析和数据深层次关系分析,其具体包括以下步骤:
S31、利用PCA输出载荷图,展示原始数据和主成分之间的关系;
S32、利用t-SNE将高维数据映射到二维或三维空间,降低数据的维度。
5.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S4具体包括以下步骤:
S41、分别使用随机森林、高斯核支持向量机、人工神经网络或者K近邻方法进行机器学习算法训练;
S42、使用网格搜索结合K折交叉验证的方式进行调参:
通过网格搜索5折交叉验证,以设定分数作为评价模型的标准,针对每个特征元素的机器学习模型,寻找上述四种机器学习方法埃达克质岩构造背景类型分类最优的超参数;
S43、使用数据集中未用过的测试数据利用混淆矩阵或者学习曲线进行预测评估;
S44、选出准确率最高的机器学习方法:高斯核支持向量机作为埃达克质岩构造背景判别模型,埃达克质岩构造背景判别模型用于区分汇聚板块边缘、板内火山活动和太古代克拉通。
6.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S5具体包括以下步骤:
S51、将31特征元素与计算后的特征元素含量比值联合,进行对数转换,得到图解的端元;
S52、对二维图解的轮廓系数进行计算,并将其降序排列。
7.根据权利要求6所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S51具体包括以下步骤:
S511、使用穷举端元法计算31个特征元素中任意两个特征元素的比值,得到465个元素比值;
S512、将31个特征元素与计算后的465个元素比值联合,进行对数转换,得到496个构建图解的端元。
8.根据权利要求6所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S52具体包括以下步骤:
S521、利用正态化的数据,穷举投图得到122760幅二维图解;
S522、计算二维图解的轮廓系数并降序,为使得二维图解显示更多元素信息,取出横纵坐标无重复元素的端元组合,得到埃达克质岩判别效果最好的前9个二维图解分别为Bavs.Sr/Nd图解,轮廓系数为0.505;
S523、结合PCA输出结果,使用Ba和Sr/Nd组合作为判别图解的端元元素。
9.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S6具体包括以下步骤:
S61、将数据集分为训练集和测试集;
S62、利用高斯核支持向量机对Ba和Sr/Nd特征元素的训练集进行训练,然后使用测试集对所拟合的模型进行评测,得到最佳图解端元的特征数据训练机器学习分类器;
S63、以最佳图解端元的特征数据训练机器学习分类器,再利用所得分类模型对二维平面中的所有点数据进行预测计算,推断出决策边界。
10.根据权利要求1所述的一种融合机器学习的埃达克质岩构造背景判别图解方法,其特征在于:步骤S7具体包括以下步骤:
将随机森林、高斯核支持向量机、人工神经网络或者K近邻方法的预测准确率作为权重,按照随机森林、K近邻、高斯核支持向量机和人工神经网络的决策边界线的顺序,选择符合要求的线条进行边界拟合,得到最终的判别图解图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582917.6A CN117113162B (zh) | 2023-05-23 | 2023-05-23 | 一种融合机器学习的埃达克质岩构造背景判别图解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310582917.6A CN117113162B (zh) | 2023-05-23 | 2023-05-23 | 一种融合机器学习的埃达克质岩构造背景判别图解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117113162A true CN117113162A (zh) | 2023-11-24 |
CN117113162B CN117113162B (zh) | 2024-02-02 |
Family
ID=88800868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310582917.6A Active CN117113162B (zh) | 2023-05-23 | 2023-05-23 | 一种融合机器学习的埃达克质岩构造背景判别图解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117113162B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370744A (zh) * | 2023-12-07 | 2024-01-09 | 国网天津市电力公司营销服务中心 | 一种电力用户用电异常数据动态清洗方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
AU2018102051A4 (en) * | 2017-02-08 | 2019-02-28 | Changjiang River Scientiffic Research Institute Of Changjiang Water Resources Commission | Method for digital restoration of historic morphology of river |
CN111259601A (zh) * | 2020-01-16 | 2020-06-09 | 南华大学 | 基于随机ga-bp神经网络群的爆破块度预测方法、装置及介质 |
CN112396130A (zh) * | 2020-12-09 | 2021-02-23 | 中国能源建设集团江苏省电力设计院有限公司 | 静力触探试验岩层智能识别方法、系统、计算机设备及介质 |
CN114358427A (zh) * | 2022-01-07 | 2022-04-15 | 西南石油大学 | 一种预测页岩气井最终可采储量的方法 |
CN115148299A (zh) * | 2022-07-15 | 2022-10-04 | 中国地质大学(北京) | 一种基于XGBoost的矿床类型鉴别方法及系统 |
CN115809601A (zh) * | 2022-12-06 | 2023-03-17 | 自然资源陕西省卫星应用技术中心 | 一种沉积岩构造背景判别方法 |
CN115937568A (zh) * | 2022-09-29 | 2023-04-07 | 中国地质大学(北京) | 一种玄武岩构造背景分类方法、系统、装置及存储介质 |
-
2023
- 2023-05-23 CN CN202310582917.6A patent/CN117113162B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133434A1 (en) * | 2004-11-12 | 2008-06-05 | Adnan Asar | Method and apparatus for predictive modeling & analysis for knowledge discovery |
AU2018102051A4 (en) * | 2017-02-08 | 2019-02-28 | Changjiang River Scientiffic Research Institute Of Changjiang Water Resources Commission | Method for digital restoration of historic morphology of river |
CN111259601A (zh) * | 2020-01-16 | 2020-06-09 | 南华大学 | 基于随机ga-bp神经网络群的爆破块度预测方法、装置及介质 |
CN112396130A (zh) * | 2020-12-09 | 2021-02-23 | 中国能源建设集团江苏省电力设计院有限公司 | 静力触探试验岩层智能识别方法、系统、计算机设备及介质 |
CN114358427A (zh) * | 2022-01-07 | 2022-04-15 | 西南石油大学 | 一种预测页岩气井最终可采储量的方法 |
CN115148299A (zh) * | 2022-07-15 | 2022-10-04 | 中国地质大学(北京) | 一种基于XGBoost的矿床类型鉴别方法及系统 |
CN115937568A (zh) * | 2022-09-29 | 2023-04-07 | 中国地质大学(北京) | 一种玄武岩构造背景分类方法、系统、装置及存储介质 |
CN115809601A (zh) * | 2022-12-06 | 2023-03-17 | 自然资源陕西省卫星应用技术中心 | 一种沉积岩构造背景判别方法 |
Non-Patent Citations (2)
Title |
---|
SURENDRA P VERMA ET AL: "Discriminating for tectonic setting:five new geochemical diagrams for basic and ultrabasic volcanic rocks based on log-ratio transformation of major-element data", 《JOURNAL OF EARTH SYSTEM SCIENCE》, vol. 115, pages 485 - 528 * |
郭鹏: "机器学习揭示玄武岩构造背景与源区性质", 《矿物岩石地球化学通报》, vol. 42, no. 01, pages 26 - 33 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370744A (zh) * | 2023-12-07 | 2024-01-09 | 国网天津市电力公司营销服务中心 | 一种电力用户用电异常数据动态清洗方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117113162B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Si et al. | A novel approach for coal seam terrain prediction through information fusion of improved D–S evidence theory and neural network | |
CN105760673B (zh) | 一种河流相储层地震敏感参数模板分析方法 | |
CN117113162B (zh) | 一种融合机器学习的埃达克质岩构造背景判别图解方法 | |
CN110765878A (zh) | 一种短时降雨预测方法 | |
Zhao et al. | On-line least squares support vector machine algorithm in gas prediction | |
CN113642666B (zh) | 一种基于样本扩充和筛选的主动增强软测量方法 | |
Xiongyan et al. | Computational intelligent methods for predicting complex ithologies and multiphase fluids | |
CN112199862B (zh) | 纳米粒子运移的预测方法、其影响因子分析方法及系统 | |
CN117726181B (zh) | 一种煤矿典型灾害风险异构信息协同融合与分级预测方法 | |
CN116522250A (zh) | 基于多种算法的矿床类型预测方法及系统 | |
CN114776304B (zh) | 一种深海矿产异常区识别的方法、装置、设备及介质 | |
Ristanto et al. | Machine learning applied to multiphase production problems | |
CN104751254A (zh) | 基于非等距加权灰色模型和模糊聚类排序线损率预测方法 | |
Leung et al. | Sample truncation strategies for outlier removal in geochemical data: the MCD robust distance approach versus t-SNE ensemble clustering | |
Zhou et al. | Sequential data-driven cross-domain lithology identification under logging data distribution discrepancy | |
Shi et al. | Optimization and data mining for fracture prediction in geosciences | |
CN115660221B (zh) | 基于混合神经网络的油气藏经济可采储量评估方法及系统 | |
Olatunji et al. | Modeling permeability prediction using extreme learning machines | |
Al-anazi et al. | Innovative data-driven permeability prediction in a heterogeneous reservoir | |
CN116151107B (zh) | 一种岩浆型镍钴成矿潜力的识别方法、系统及电子设备 | |
Zhang et al. | Application of machine-learning algorithms to the stratigraphic correlation of Archean shale units based on lithogeochemistry | |
CN112818603B (zh) | 自适应选择最优成矿预测要素的方法、终端及存储介质 | |
CN115937568A (zh) | 一种玄武岩构造背景分类方法、系统、装置及存储介质 | |
CN115272798A (zh) | 一种利用信息量扩充成矿预测训练正样本的方法及系统 | |
CN114819344A (zh) | 一种基于关键影响因子的全局时空气象农灾预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |