CN112199886B

CN112199886B - 一种prb数据深度学习地质图预测模型的处理方法

Info

Publication number: CN112199886B
Application number: CN202011028574.1A
Authority: CN
Inventors: 李超岭; 刘畅; 李丰丹; 刘园园; 孙钰; 付偲; 吕霞; 汤建荣; 唐振; 施璐; 林闽
Original assignee: Command Center Of Natural Resources Comprehensive Survey Of China Geological Survey
Current assignee: Command Center Of Natural Resources Comprehensive Survey Of China Geological Survey
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2024-04-16
Anticipated expiration: 2040-09-27
Also published as: CN112199886A

Abstract

本申请公开了一种PRB数据深度学习地质图预测模型的处理方法，包括：处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签；根据不同预测空间分辨率要求，按照所述分类标签对地质专业数据和不同成像方式遥感数据进行处理，获得地质证据样本数据集；对地质证据样本数据集采用以标签点为中心的变距离二次采样，得到地质填图单位及岩性分类训练样本；基于所述地质填图单位及岩性分类训练样本，进行多模态数据中间层融合全连接地质图预测建模；按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据。本发明的优点是：实现简单，最大化给出更优的地质图预测模型，提高地质图预测模型的精度和预测能力。

Description

一种PRB数据深度学习地质图预测模型的处理方法

技术领域

本发明涉及一种PRB数据深度学习地质图预测模型的处理方法。

背景技术

地质图深度学习预测地质图模型核心就是把近百年地质人员填图的方法、经验和知识形成可计算的知识库，通过人工智能将各种原始数据转化为高维特征表达，最大化去发现和融合相关填图单位及岩性与多专业(涉及地物化遥)、多模态(矢量数据、栅格数据或空间数据和属性数据)、多尺度数据(最高精度0.8米，一般精度为10-2000米之间)、可反映地表及一定深度下(去部分掩盖层)等地质特征的数据特点，精度最大化地预测地质填图单位，最终使地质图最基本的地质对象---填图单位及岩性在空间的分布形态和展布方向、分布位置、地质对象之间的相邻关系等指标可以准确性最大化的体现和表达。这项技术突破后，将彻底变革现有地质调查工作模式存在的问题，变地质填图为地质路线+地质知识图谱+地质大数据+深度学习算法为一体的新型地质填图模式。从学习以线为特征地质路线知识到预测以面为特征的地质图，要保证有高识别的预测的能力和精度，就要保障深度学习模型有充分的学习样本，而地质路线所获取数据的线状特点，恰恰给面上获得多样本带来了的困难。

目前，类似的做法可以通过已有的地质图，通过深度学习建模来预测地质图。但这种方法与本发明相比，存在以下问题：

(1)对正在工作的区域，如果没有地质图，就无法采用该方法；

(2)即使有前人的地质图，该方法不可能按填图单位的岩石分类来预测，只能按填图单位分类来预测。填图单位的粒度比较大，是一套岩石组合，其标签代表性不强。其次地质图界线推测较多，容易造成多义性，采样的准确性无法控制。同时，也很难获得该区域每一个填图单位有一定数量的样本，因此很难达到训练学习对样本要求的条件，模型的精度基本达不到应用的要求。

发明内容

本发明的目的在于克服上述不足，提供一种PRB数据深度学习地质图预测模型的处理方法，其解决提高地质图预测模型的精度和预测能力的技术问题。

为了实现上述目的，本发明采用的技术方案为：一种PRB数据深度学习地质图预测模型的处理方法，其特征在于，包括：

处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签；

根据不同预测空间分辨率要求，按照所述分类标签对地质专业数据和不同成像方式遥感数据进行处理，获得地质证据样本数据集；

对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，得到地质填图单位及岩性分类训练样本；

基于所述地质填图单位及岩性分类训练样本，进行多模态数据中间层融合全连接地质图预测建模；

按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据。

在一个实施例中，处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签，包括：

将地质路线地质点P数据、地质路线R数据与地质采样数据转有效标注点处理，得到处理结果；

对所述处理结果进行合并，形成标准化地质PRB数据；

按填图单位及岩性对PRB数据进行分类排序，获得排序结果；

基于所述排序结果，进行地质填图单位及岩性设色标准化；

按照所述设色标准化形成地质路线PRB数据标签。

在一个实施例中，对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，包括：

设置第一次采样半径值，初次建模训练采样点的坐标信息，读取训练采样点对应的证据数据，以得到全连接混合输入模型，即初始模型；

设置第二次采样半径值，得到扩充后的初始采样点，利用初始模型对本次扩充后的采样点进行分类预测；

按照标签顺序逐类预测各类标签数据二次扩充后的采样点类型，将采样点类型与其对应类别标签进行对比处理，预测正确的留下作为该类标签进行第二次采样后最终扩充的采样点，最后形成二次建模的训练采样点。

在一个实施例中，所述进行多模态数据中间层融合全连接地质图预测建模，包括：

对证据数据进行补值和归一化处理；

根据训练采样点坐标从处理后的证据数据中读取数据信息；

获取训练采样点基础数据与遥感数据；

判断所述数据是否一次性读入内存，如果是，直接输入模型训练，如果否，从数据存储路径分组输入模型训练。

在一个实施例中，按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据，包括：

逐行读取图幅中每个栅格点坐标对应的基础数据及遥感数据；

将得到的基础数据及遥感数据输入训练好的模型；

模型对每个栅格点进行预测；

将每个栅格点坐标信息保存至其预测标签的存储文件中，存储文件为pkl 格式；

创建数据矩阵D；

根据标签样本数据中标签顺序逐类读取标签的存储文件；

根据存储文件中的坐标信息，在D中相应的坐标位置将其值修改为该存储文件对应的标签的RGB值；

运用keras.preprocessing.image模块中array_to_img方法将数据矩阵D转换为图像，该图像记为I，图像I即为预测地质图；

对所述预测地质图采用精确率和召回率进行评价。

本发明的有益效果为：

实现简单，包括：处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签；根据不同预测空间分辨率要求，按照所述分类标签对地质专业数据和不同成像方式遥感数据进行处理，获得地质证据样本数据集；对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，得到地质填图单位及岩性分类训练样本；基于所述地质填图单位及岩性分类训练样本，进行多模态数据中间层融合全连接地质图预测建模；按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据。以从以线为特征地质路线(PRB数据)中，以填图(比例尺)不同精度控制为基础，通过变采样距离和二次采样自动的对地质路线上确认的地质填图单位或岩性进行最大化标注，并根据标注对多尺度、多数据类型、多专业数据进行训练数据采集，用以提高地质图预测模型的精度和预测能力。通过多模态数据中间层融合全连接地质图预测建模方法可以有效最大化地学习地质人员如何在地质路线上确定填图单位及岩性的知识，为预测不同填图单位的沉积岩层、火成岩体、变质岩、地质构造和相关等各种地质体在不同空间的分布、形态，最大化的给出更优的地质图预测模型。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明的PRB数据深度学习地质图预测模型的处理方法的流程图；

图2是本发明的地质路线PRB数据按填图单位岩性分类标签处理方法的流程图；

图3是图2所示方法的实施例示意图；

图4是分解地质界线点为单一岩性地质点的位置和距离移动示意图；

图5为本发明的证据数据训练集形成流程图；

图6是面向地质图深度学习模型的全国样本库组织目录结构示意图；

图7是本发明的地质路线PRB数据变距离二次采样方法的流程图；

图8是图7所示方法的实施例示意图；

图9是本发明的多模态数据中间层融合全连接地质图预测模型的处理方法的流程图；

图10是图9所示方法的实施例示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

请参照图1，本发明的一种PRB数据深度学习地质图预测模型的处理方法，包括：

步骤S101，处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签；

步骤S102，根据不同预测空间分辨率要求，按照所述分类标签对地质专业数据和不同成像方式遥感数据进行处理，获得地质证据样本数据集；

步骤S103，对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，得到地质填图单位及岩性分类训练样本；

步骤S104，基于所述地质填图单位及岩性分类训练样本，进行多模态数据中间层融合全连接地质图预测建模；

步骤S105，按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据。

对所述处理结果进行合并，形成标准化地质PRB数据；

按填图单位及岩性对PRB数据进行分类排序，获得排序结果；

基于所述排序结果，进行地质填图单位及岩性设色标准化；

按照所述设色标准化形成地质路线PRB数据标签。

对证据数据进行补值和归一化处理；

根据训练采样点坐标从处理后的证据数据中读取数据信息；

获取训练采样点基础数据与遥感数据；

将得到的基础数据及遥感数据输入训练好的模型；

模型对每个栅格点进行预测；

创建数据矩阵D；

根据标签样本数据中标签顺序逐类读取标签的存储文件；

对所述预测地质图采用精确率和召回率进行评价。

在一个实施例中，对所述处理结果进行合并，形成标准化地质PRB数据，包括：把点的类型、采样类型与分段路线号合并与定的类型同一字段。

在一个实施例中，按填图单位及岩性分类排序，包括：根据填图单位和岩性作为排序关键字进行排序。

在一个实施例中，所述进行地质填图单位及岩性设色标准化，包括：通过测区地质图填图单位及岩性分类整理，依据国家标准或各省地质志标准，分别对地质填图单位设色。

在一个实施例中，所述对地质填图单位设色，包括：

按填图单位岩性分类、按填图单位岩性设色RGB值，填图单位岩性色标三个字段的值；

通过填图单位代号+岩性名称形成按填图单位与岩性分类，通过地质填图单位设色的基本值，给每一个填图的岩性设色。

作为具体的实施例，本发明的方法包括：

(1)地质路线地质点P数据转有效标注点处理

①地质路线是地质人员在野外观察直接获取的第一手地质数据。地质点是地质人员在通过前人研究资料、实测剖面和实地踏勘路线等综合研究基础上在野外实地定下的，加上地质点上的标本大多数都有岩性薄片鉴定，因此所得的地质信息可信度是比较高的也比较准确，因此作为深度学习的标签其依据是充分的。

地质点的点性分类有：填图单位界线控制点、岩性控制点、标志层控制点、岩相变化控制点、矿化带控制点、矿体控制点、岩体接触带控制点、蚀变带控制点、褶皱枢纽控制点、断层带控制点、节理观测点、片理观测点、劈理观测点、线理观测点、产状要素观测点、山地工程控制点、钻孔位观测点、地球化学勘探工作点、地球物理勘探工作点、水文工作点、地貌点、出土文物点、采样点、化石点、岩脉控制点、蚀变点、矿化点等。对于地质图预测模型来说，最常用的为填图单位界线控制点、岩性控制点和采样点。填图单位界线控制点是地质填图最为重要的地质观察点之一，也是地质连图的重要依据，在地质图填图中，这类地质点至少占全部地质点总数的95％以上。

根据地质路线PRB数据特点，如果要使这些数据可以充分利用，必须满足地质对象(可按填图单位或填图单位的不同岩性分类)标注的要求，即每一位置只能有唯一的标志，不能出现一个位置为A又为B(或C)的情况，为此需要对地质界线点进行处理。为避免出现同一位置出现两个填图单位(即多义性)，在制作标签时，需要通过地质员或软件依据地质定点的规则，把填图单位界线控制点分解两个(或多个)地质点，点性由界线点转为岩性点。即在填图单位界线控制点位置上，根据地质界线的方向，沿地质路线向各填图单位内各退回X米，增加类似岩性地质点的两个地质点，并用原地质点号的基础上采用-1，-2区别，如图4箭头所示。

②X米距离的确定由填图精度确定。对于1∶50000地质填图，根据地质定点的精度要求，野外调查工作中的地质观测点、线误差范围，一般不得大于50m。为此，分解地质界线点为单一地质填图单位点的距离如下公式计算：

X＝Dmin

其中，X为分解地质界线点为单一地质填图单位点的距离，单位为米。 Dmin为地质填图地质定点精度要求，单位为米。

在分解地质界线点为单一地质填图单位点时，必须把相应的地质属性分别继承到对应的上，最为重要的是填图单位名称、填图单位代号、填图单位点处岩性及分解后的位置。上述数据处理可以在数字填图系统中自动处理和实现。

其他类似的地质点也可参照此方法处理。如地质构造(断层点)。

③直接从PRB总图导出，形成改造地质点Excel表，该表包括所有的地质点的属性。

④通常在野外地质填图过程中，通过相邻路线的对比、薄片鉴定材料及综合分析，会对野外观察定的填图单位或岩性进行修正，在填图中，专业人员称为批注。如果有批注内容，则会在地质点批注内容的字段上会填上相应的内容，这是需要把批注的内容更新到(替换)相应批注对应的内容，如批注填图单位1替代填图单位1，批注岩石名称A替代岩石名称A等。

⑤在改造地质点Excel表中，删除地质点类型为界线点的点。由于多义性，这部分点不能作为标签。

(2)地质路线R(地质分段路线)数据由线转为有效标注点预处理

在地质填图中，从当前地质点到下一个地质点路线观察，可以分为1个至n个分段地质路线(见图1)。由于地质填图单位及岩性的标注是以地质点为基础的，所以，需要把地质路线分解为以点形式的有效标注点。处理方法如下：

①在野外手图上或PRB野外总图上，把地质分段路线少于三点构成路线的线，在线的中间增加一个节点，保证每个分段路线构成线的点数不少于3 个。

②在野外手图上或PRB野外总图上，利用PRB功能工具，把地质路线转为构成线的点。也可GIS软件直接提取线上的结点(node)，同时把地质路线的属性继承给每个结点，并通过电子表输出，地质路线R(地质分段路线)数据由线转为点后的数据结构和内容见表1。其每一节点的属性仍为该分段路线的属性，通过复制继承。

表1

由表1可以看出，序号806至813是地质点DK027的2段分段路线，其中序号806-809，为第一段分段路线。该线段有4个点构成，填图单位为J3m，岩性为灰红色粗安质凝灰岩。序号810-813为第2段分段路线.该线段有4个点构成，填图单位为J3m，岩性为灰红色粗安岩。

③与地质点一样，通常在野外地质填图过程中，通过相邻路线的对比、薄片鉴定材料及综合分析，会对野外观察定的填图单位或岩性进行修正，在填图中，专业人员称为批注。如果有批注内容，则会在地质点批注内容的字段上会填上相应的内容，这是需要把批注的内容更新到(替换)相应批注对应的内容，如批注填图单位1替代填图单位1，批注岩石名称A替代岩石名称A等。

④按地质填图规则，分段路线一般在同一地质点同一填图单位内描述，但也可能出现同一地质点但不同填图单位的情况。因此在分段路线的两端(端结点)可能会有以下情况：填图单位界线、同一填图单位不同岩性的界线、或相同的岩性。因为路线分段的原因是出现了与上一段分段路线不同的地质现象(在数字填图可以是填图单位界线，也可是同一填图单位的不同岩性) 或出现了掩盖情况或已经走过很长一段距离，按规范要求分段描述沿路观察的现象。在这种情况下，同一位置(指相邻两条分段路线首尾相连的位置) 出现两个填图单位或两种不同的岩性(即多义性)的情况，这时可以直接删除相同坐标不同岩性的地质路线点。如表1的序号809-810是第一分段路线和第二段分段路线的结点，是同一地质点号、同一填图单位两种岩性的分界点，这时需要删除，以保证每一点地质属性的唯一性。出现这种情况还可能是不同地质点号的分段路线首尾相接的情况。

(3)地质采样数据处理

①直接从PRB总图导出，形成地质路采样点Excel表。

②与地质点一样，在野外地质填图过程中，通过相邻路线的对比、薄片鉴定材料及综合分析，会对野外观察定的填图单位或岩性进行修正。在地质采样记录中，同样含有采样的填图单位、岩性及相应的批注等字段。如果有批注内容，需要把批注的内容更新到(替换)相应对应字段的内容。

(4)合并形成标准化地质PRB数据Excel表，由程序自动完成以下步骤：

①从P(地质点)、R(分段路线)、S(地质采样)数据Excel表中删除冗余字段，形成保留字段后的电子表文件。

由于数字填图系统的地质路线地质定点、地质剖面、地质采样、地质路线数据字段非常丰富，标签文件并不需要所有的字段，保留基本字段主要有：原始ID号，地质路线号、分段路线号、地质点号、X坐标、Y坐标，点的类型、采样类型，填图单位代号、岩性名称。

②合并P、R、地质采样S数据Excel表，并把点的类型、采样类型与分段路线号合并与定的类型同一字段。

③增加3个字段，填图单位+岩性分类、填图单位及岩性设色RGB值，地质填图单位及岩性色标(颜色)。

(5)按填图单位及岩性分类排序

①在电子表中，根据填图单位和岩性作为排序关键字进行排序。排序中，对于岩性不考虑颜色的影响，如灰白色流纹质凝灰岩和灰黄色流纹质凝灰岩作为一类。该方法处理可采用编程可自动实现。

②填图单位及岩性排序后，还需根据填图单位的新老关系(可以从地质志或地质人员提供的数据得到)，由新到老顺序二次排序，目前只考虑填图单位的新老关系即可。该排序主要为预测地质图的预测单元顺序输出，以便更好的反映新老覆盖关系。

(6)地质填图单位及岩性设色标准化

①通过测区地质图填图单位及岩性分类整理，依据国家标准或各省地质志标准，分别对地质填图单位设色，见表2。

表2

②自动形成按填图单位岩性分类、按填图单位岩性设色RGB值，填图单位岩性色标三个字段的值。通过填图单位代号+岩性名称形成按填图单位与岩性分类，通过地质填图单位设色的基本值，给每一个填图的岩性设色，如表3上侏罗统满克头鄂博组J3m基本色是RGB值是178，255，242。那么， J3m填图单位内的岩性设色原则是在最后一位变化，如178，255，242， 178，255，243，178，255，244....。由于岩性很多，不可能把色区的值拉开很多，虽然同一填图单位岩性的颜色肉眼难以区分，但保持了同一填图单位色标基调的一致性，有利于宏观读图。在微观上，可以通过分别输出区分。

表3

(7)上述(1)-(6)步骤完成后，级形成地质路线PRB数据完整标签。

2、形成地质证据基本训练数据集

测区前人开展地质调查工作所获取的地球化学、地球物理和不同成像方式的遥感数据，在建模中，本发明统称为“证据数据”。

根据我国地质调查工作程度和可以方便获取的证据数据有：①1∶20万地球化学数据(氧化物含量、微量元素约39种)，矢量数据；②1∶50000、1∶100000、 1∶250000(或航磁5公里、10公里间距)航磁数据，矢量数据；③ALOS卫星、高分三号SAR数据(5米分辨率)，栅格数据；④遥感Landsat8数据(30米分辨率)，栅格数据；⑤DEM数据，矢量数据。

有些地区工作程度高的还有(均属于矢量数据)：①1∶50000区域地球化学数据；②1∶50000地面高精度磁测；③其它地球物理方法测量数据；④1∶5000 岩石化学数据。

为了使证据数据形成可方便复用的训练样本数据集，针对地质图预测以国际分幅的特点，本发明证据数据训练集形成流程见图5。具体方法原理及步骤如下：

(1)尽量收集预测区已有的证据数据，包括地球化学、地球物理数据(矢量数据)及不同成像方式遥感数据(栅格数据)。

(2)预测空间分辨率确定

虽然预测空间分辨率越高越好，但至少应与证据数据空间分辨率基本匹配。为了能够充分利用高分辨率数据所提供的信息，预测空间分辨率的选取，采用了类似“木桶原理”的方法，即在所有参加建模的数据中选取最高分辨率的哪个值作为预测空间分辨率。目前所获取的数据，ALOS卫星、高分三号SAR数据空间分辨率最高为5米分辨率，其他的数据空间分辨率或类似相当空间分辨率均在30米至2000米不等。因此在1∶50000地质图预测模型中，预测空间分辨率定为5米。

(3)矢量数据处理

网格大小设定为5米。为保证数据能比较客观的反映数据分布情况，插值的搜索半径一般控制在数据采集网距或线据的2.5倍。可以采用专用处理软件，如ArcGIS、DGSGIS、GeoExpl，进行插值网格化处理，最后形成具有连续表面的栅格数据，栅格像元值代表了该空间位置处的元素含量或地球物理相关测量值。数据处理要采用数据扩边处理技术以保证与相邻图幅数据的连续性。

(4)遥感数据处理

①遥感数据不同波段数据组合处理

根据地质调查遥感数据应用的经验，对Landsat8采用4、3、2，6、3、2，7、 5、2与7、5、3波段进行组合，形成四组单独的遥感数据，参加建模。

②栅格数据重采样处理

目前所获取的数据，所得的ALOS卫星、高分三号SAR数据为5米分辨率，其他的数据空间分辨率或类似相当空间分辨率均在30米至2000米不等。为了在空间上使证据数据在空间分辨率保持一致，利用三次卷积内插法完成重采样，统一把遥感数据进行了5米栅格化，最终全部转成栅格文件格式。

(5)证据数据组织

证据数据组织采用了证据数据可直接复用(不用在重新处理)、可共用、可随机定位获取，可同时多尺度多专业获取，逐渐形成全国面向地质图深度学习模型样本库技术路线，形成了证据数据目录组织结构。以福建省和5米分辨率为例，见图6。

该组织结构具有以下特点：

①第一级和第二级目录，根据地质填图的特点，均以国际分幅为单位进行地质填图，故在考虑地理分布特点基础上，再按国际分幅进行组织证据数据。国际分幅第三位代码表示了国际分幅比例尺的概念，如C、D、E、F分别代表了1∶25000，1∶100000，1∶50000，1∶25000。这种组织方式可以把国际分幅不同比例尺的数据统一在同一级目录表示。

②第三级目录，为证据数据空间分辨率目录。通常，在数据组织时，会根据数据本身的精度进行合理的划分，转成一定分辨率的数据。目前，根据地质填图的精度，一般会采用30米、10米和5米分辨率的数据组织，也就是说，各种数据会采用插值处理或重采样，按不同分辨率数据组织，故分辨率应放在专业数据上一层目录。

③第四级目录为具体的证据数据目录，根据数据的特点，会把本发明称 “基础数据”的地质调查的数据和不同成像方式的遥感数据并列放在同一级目录。历史地质调查积累的地质数据具有多尺度多专业的特点。在数据组织过程中，按上一级分辨率大小，对多专业地质数据进行插值网格化处理后放入该目录，遥感数据按上一级分辨率大小重新采样后放入目录。

本发明的一种地质路线PRB数据变距离二次采样方法，包括：

设置第一次采样半径值，初次建模训练采样点的坐标信息，读取训练采样点对应的证据数据，输入到全连接混合输入模型，形成初始模型；

设置第二次采样半径值，得到扩充后的初始采样点，按标签顺序逐类读取各类标签数据采样点坐标信息和对应的证据数据；

按照标签顺序依次输入初始模型，逐类预测各类标签数据二次扩充后的采样点类型；

将采样点类型与其对应类别标签进行对比处理，形成第二次采样后最终扩充的采样点。

在一个实施例中，所述设置第一次采样半径值采用地质填图地质定点的精度值。

在一个实施例中，所述初次建模训练采样点的坐标信息，包括：利用 ArcGis软件进行点转栅格，得到标签数据的原始采样点坐标转换后的原始采样点分布图，从标签数据的原始采样点分布图中得到转换分辨率后的原始采样点坐标。

在一个实施例中，将采样点类型与其对应类别标签进行对比处理，包括：若该采样点预测结果为该类标签，则表示预测正确，并将该采样点坐标信息保存。

在一个实施例中，还包括：将所有预测正确的采样点坐标信息存储。

本发明的采样方法，主要是把以线为特征地质路线(PRB数据)，以填图(比例尺)不同精度控制为基础，通过变采样距离和二次采样来扩大地质路线上确认的地质填图单位或岩性的最大化标注。标注样本采样距离采用两次，第一次采样距离的目的，就是在地质填图的精度要求内，保证标注样本的标签最大概率准确，减少出现二义性的标注，其效果偏重于预测准确性。第二次采样距离的确定，侧重地质体的宏观特征预测准确性。这样就需要使该类的有效样本，在精度保证的基础上，使标注的样本尽量达到最大化。最终目标就是确保根据标注样本对多模态、多尺度、多数据类型、多专业数据进行训练数据采集，用以提高地质图预测模型的精度和预测能力。

(1)设置第一次采样半径值

第一次采样半径要充分考虑地质点本身控制的精度和有效范围。确保分类标签的唯一性和最大可能的正确性。对于1∶50000地质填图，根据地质定点的精度要求，野外调查工作中的地质观测点、线误差范围，一般不得大于 50m。为此，设置第一次采样半径值直接采用地质填图地质定点的精度值50 米，这样可以保证围绕此地质点范围的区域都在控制范围内。

(2)形成初次建模训练采样点坐标信息

①地质路线PRB数据标签样本数据坐标转换

通常标签数据的坐标系与证据数据坐标系一致，均采用高斯平面直角坐标系。但为保证标签数据与证据数据的分辨率一致，需要将标签数据的原始采样点坐标转换为证据数据在分辨率一致的数据处理。可以选择基础数据中的任一数据如高磁数据作为参考底图，来设置相应的环境参数，利用ArcGis 软件进行点转栅格，得到标签数据的原始采样点坐标转换后的原始采样点分布图，从标签数据的原始采样点分布图中得到转换分辨率后的原始采样点坐标。

②标签样本第一次采样

对①中标签数据的原始采样点进行第一次采样点扩充，采样点扩充方法为：以原始采样点为采样中心点，设置第一次采样的采样半径值，距离采样中心点半径范围内的点都属于该类的采样点，本发明中称原始点采样扩充区域。然后在扩充区域的基础上，把采样扩充区域最右边的一列以及最上面的一行不作为采样图的一部分，以保证采样数的区域与半径平方的乘积对应：如下式：

S＝(r×r)×(r×r)

式中，S为采样数的总和，r为采样半径。

为了区分最原始采样点，本发明中把单个原始采样点采样图形成的点，称为次原始采样点。

若采样范围内有采样点所在位置已超过证据数据处理范围，则舍弃该采样点。扩充后的采样点均为初次建模的训练采样点。

下面以单个原始采样点扩充步骤对此采样点扩充方法进行具体说明：

a、以原始采样点坐标作为采样的中心点，设置第一次采样的采样半径值为Radius，通过原始采样点及采样半径得到扩充后的采样区域。假设原始采样点坐标为(X，Y)，采样区域左下角采样点坐标为(X-Radius，Y-Radius)，采样区域右上角采样点坐标为(X+Radius，Y+Radius)；

为了确保采样区域不会超出证据数据的处理范围，Height代表该处理范围的高度值，Width代表该处理范围的宽度值，则采样区域内采样点横坐标 X必须在[0，Height]之间，纵坐标Y必须在[0，Width]之间。根据这一限制条件对采样区域做进一步的调整，使用min和max函数得到最终采样区域的左下角采样点坐标(X1，Y1)以及右上角采样点坐标(X2，Y2)。X1、Y1、X2 及Y2计算公式如下：

X₁＝max(0，X-Radius)

Y₁＝max(0，Y-Radius)

X₂＝min(X+Radius，Height)

Y₂＝min(Y+Radius，Width)

通过采样区域左下角采样点坐标以及右上角采样点坐标，得到该原始采样点扩充后的所有采样点坐标。该采样区域内采样点横坐标在[X1，X2)之间，采样点纵坐标在[Y1，Y2)之间，由于是栅格数据，因此采样点坐标值均为整数。

(3)读取训练采样点对应的证据数据

从次原始采样点坐标信息中得到每个采样点对应的证据数据。例如，采样点坐标为(X，Y)，则从证据数据中读取坐标(X，Y)下的数据作为该采样点的证据数据。

(4)采用全连接混合输入模型进行初次建模

通过(2)中②中训练采样点的坐标在证据数据中得到相应的训练采样点数据，将训练采样点数据输入全连接混合输入模型，完成初次建模，相当于初级预测模型。

第一次建模的训练采样点是根据各类标签数据原始采样点根据第一次采样半径扩充后采样点预测结果得到的，预测过程是按标签顺序逐类预测，每类标签数据预测流程一致。使用第一次采样得到的训练采样点数据进行建模得到初次建模的模型，记该模型为初始模型；

(5)设置第二次采样半径

第一次采样把单个最原始的地质采样点以最尽可能最可靠的方式变成了次原始采样点群。由于半径大小的苛刻，还是不能获取足够量的训练样本，这时需要根据地质路线和地质图的特点，再次确立第二次样本，以便最大获取每个岩石地层单位及岩性的样本标签。根据地质填图精度的要求：“有效路线平均间距一般控制在500m～600m左右。地质路线上的点距，一般不作严格规定(500米左右)，但所通过的地质界线，重要接触关系，重要地质构造，或重要地质现象等必须要有地质观测点控制，对该类观测控制点要求记录务必详实，测量数据参数准确齐全，并附有必要的照片和素描图，以及必要的实物标本”。所以第二次采样半径可以控制在500米，就可以把地质体控制在同一条地质路线相邻区域内，不会跨路线而采到其他路线上的样本。其他比例尺的填图可以参照此参数选取方法。

(6)形成各类标签数据二次采样扩充后的初始采样点

①二次采样原理

设置第二次采样的采样半径值后，可以使用与第一次采样中相同的采样点扩充方法对(2)中②点对标签数据的原始采样点进行第二次的采样点扩充。为更好说明扩充方法，本发明中采用半径为2作为实例对方法进行说明，实际上二次半径的取值远远大于此。本发明中把形成各类标签数据二次采样扩充后的初始采样点也称二次建模训练采样点。

由于第二次采样半径设置明显大于第一次采样半径，易导致不同类别标签数据采样区域重复问题，为保证采样区域内采样点标签正确，需要利用(3) 中初次建模得到的模型对本次扩充后的采样点进行分类预测，预测时按标签顺序依次对每类标签数据的采样点进行预测，预测正确的留下作为该类标签进行第二次采样后最终扩充的采样点，预测错误的舍弃。

②保存第二次采样扩充后的初始采样点坐标信息

采用第二次采样的采样半径，使用与第一次采样中相同的采样点扩充方法对上述(2)中该类标签数据的原始采样点进行第二次的采样点扩充，得到该类标签数据第二次采样扩充后的初始采样点坐标信息，将该信息存储为pkl 格式文件；

(7)按标签顺序逐类读取各类标签数据采样点坐标信息

从该类标签数据的pkl格式文件中读取二次采样扩充后的采样点坐标信息；

(8)按标签顺序逐类读取各类标签数据采样点对应的证据数据

从二次采样点坐标信息中得到每个采样点对应的证据数据。二次采样点坐标为(X，Y)，则从证据数据中读取坐标(X，Y)下的数据作为该采样点的证据数据。

(9)将每个采样点的证据数据依次输入初始模型，对每个采样点进行预测；预测过程是按标签顺序逐类预测，每类标签数据预测流程一致。

将每个采样点的预测结果与该类标签进行对比；

(11)若该采样点预测结果为该类标签，则表示预测正确，并将该采样点坐标信息保存；

(12)将所有预测正确的采样点坐标信息存储为pkl格式文件，作为该类标签数据进行第二次采样后最终扩充的采样点。

请参照图9至图10，本发明的一种多模态数据中间层融合全连接地质图预测模型的处理方法，包括：

对证据数据进行补值和归一化处理；

根据训练采样点坐标从处理后的证据数据中读取数据信息；

获取训练采样点基础数据与遥感数据；

在一个实施例中，所述对证据数据进行补值，包括：

读取遥感数据为数据矩阵，记为A；

创建与基础数据处理范围一致的数据矩阵，矩阵内数据初始值均为0，该数据矩阵记为B；

从A的左下角开始逐行读取与基础数据处理范围一致的数据并将数据存储至B中相应的位置；

若B中矩阵上半部分有数据为0，则将该数据替换为其所在列的第一个不为0的值，若B中矩阵下半部分有数据为0，则将该数据替换为其所在列的最后一个不为0的值；

若B中矩阵左半部分有数据为0，则将该数据替换为其所在行的第一个不为0的值，若B中矩阵右半部分有数据为0，则将该数据替换为其所在行的最后一个不为0的值；

B为补值过后的证据数据。

在一个实施例中，所述归一化处理采用算法：

其中，X表示基础数据或遥感数据在每个通道或者每类化学元素上读取到的数据，X_MIN表示数据矩阵X中的最小值，X_MAX表示数据矩阵X 中的最大值。

在一个实施例中，所述模型包括：

输入层：将训练采样点的基础数据和遥感数据同时通过输入层输入到全连接混合输入模型；

基础数据特征提取层：该特征提取层由三个全连接层构成，通过全连接神经网络进行全连接操作，利用权重值来提取网络特征即基础数据特征，将原始数据转化为高维特征表达；

遥感数据特征提取层：该特征提取层由三个全连接层构成，通过全连接神经网络进行全连接操作，利用权重值来提取网络特征即遥感数据特征，将原始数据转化为高维特征表达；

融合层：将基础数据特征与遥感数据特征进行特征融合；

全连接层：利用全连接神经网络获取基础数据和遥感数据在高维空间上的共性特征；

输出层：输出采样点预测为各类的概率值。

各种证据数据空间边界一致性处理及证据数据补值方法

由于数据是多模态，加上数据的来源和处理方式是多种软件的缘故，可能会导致边界数据没有充满整个图框区域，导致数据不匹配，出现了空白区 (无值区)，为充分利用所用的数据，保证预测区可以充满整个图框区域，需要进行各种证据数据空间边界一致性处理。

数据补值过程如下：

①读取遥感数据为数据矩阵，记为A；

②创建与基础数据处理范围一致的数据矩阵，矩阵内数据初始值均为0，该数据矩阵记为B；

③从A的左下角开始逐行读取与基础数据处理范围一致的数据并将数据存储至B中相应的位置；

④若B中矩阵上半部分有数据为0，则将该数据替换为其所在列的第一个不为0的值，若B中矩阵下半部分有数据为0，则将该数据替换为其所在列的最后一个不为0的值；

⑤若B中矩阵左半部分有数据为0，则将该数据替换为其所在行的第一个不为0的值，若B中矩阵右半部分有数据为0，则将该数据替换为其所在行的最后一个不为0的值；

⑥B为补值过后的证据数据。

(2)地质证据数据归一化

地质证据涉及到各种专业数据，每种数据的量纲也基本不一致。因此需要将有量纲表达式变成无量纲(不含实际数据的物理单位)表达式，这样有利于不同单位或量级的指标能够进行比较和加权，这种过程称为归一化。归一化把数据变成(0，1)或者(-1，1)之间的小数，它是一种线性变换，可以保证对数据进行归一化处理后不会造成数据“失效”，相反可以提高数据的表现力，实现数据增强。本发明采用了如下归一化公式：

其中X表示基础数据或遥感数据在每个通道或者每类化学元素上读取到的数据，X_MIN表示数据矩阵X中的最小值，X_MAX表示数据矩阵X中的最大值。

对证据数据进行归一化处理，一是防止过大或过小的数值范围会导致计算时的浮点上溢或下溢；二是不同的数值范围会导致不同属性对模型的重要性不同，归一化处理数据后达到不同属性对模型训练的均衡；三是对数据进行归一化处理后可以加快梯度下降的求解速度，即提升模型的收敛速度。

多模态数据中间层融合全连接地质图预测模型网络结构包括：

融合层：将基础数据特征与遥感数据特征进行特征融合；

输出层：输出采样点预测为各类的概率值。

全连接混合输入模型选择SGD(随机梯度下降算法)作为参数优化器，相较于经典梯度下降算法更新参数时遍历所有训练数据，随机梯度下降算法用单个训练样本的损失来近似所有训练样本的平均损失，大大加快了网络训练速度。在学习率的选择上，选择0.001作为初始学习率，并在网络训练中采用衰减学习速率的方法即一开始采用较大的学习速率，每次参数更新后，在下一次更新参数时减小学习率对参数做更精细的调整。

本发明的变距二次采样方法，充分兼顾了1∶50000地质填图精度两个重要参数，有效兼顾了地质体的宏观特征的表达及地质体预测的准确性。

本发明针对1∶50000区域地质调查中，提供一种基于PRB(地质路线) 数据深度学习地质图预测模型的训练数据采样方法，可以从以线为特征地质路线(PRB数据)中，以填图(比例尺)不同精度控制为基础，通过变采样距离和二次采样方法，把单一的填图单位的识别与分类提升到地质图预测的水平。通过一次采样解决填图单位识别分类的可靠性，通过二次采样不仅解决了自动对地质路线上确认的地质填图单位或岩性进行最大化标注，为根据标注对多尺度、多数据类型、多专业数据进行训练数据的最大化采集提供了条件，为最优揭露了面上不同填图单位客观的相互关系提供了样本保障。大大提高地质图预测模型的精度和预测能力。该方法可以有效最大化的地学习地质人员如何在地质路线上确定填图单位及岩性的知识，为预测不同填图单位的沉积岩层、火成岩体、变质岩、地质构造和相关等各种地质体在不同空间的分布、形态，给出更优地质图预测模型奠定基础。

本发明的有益效果为：

实现简单，包括：处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签；根据不同预测空间分辨率要求，按照所述分类标签对地质专业数据和不同成像方式遥感数据进行处理，获得地质证据样本数据集；对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，得到地质填图单位及岩性分类训练样本；基于所述地质填图单位及岩性分类训练样本，进行多模态数据中间层融合全连接地质图预测建模；按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据。以从以线为特征地质路线(PRB数据)中，以填图(比例尺)不同精度控制为基础，通过变采样距离和二次采样自动的对地质路线上确认的地质填图单位或岩性进行最大化标注，并根据标注对多尺度、多数据类型、多专业数据进行训练数据采集，用以提高地质图预测模型的精度和预测能力。通过多模态数据中间层融合全连接地质图预测建模方法可以有效最大化的地学习地质人员如何在地质路线上确定填图单位及岩性的知识，为预测不同填图单位的沉积岩层、火成岩体、变质岩、地质构造和相关等各种地质体在不同空间的分布、形态，最大化的给出更优的地质图预测模型。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种PRB数据深度学习地质图预测模型的处理方法，其特征在于，包括：

按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据；

其中，对所述地质证据样本数据集采用以标签点为中心的变距离二次采样，包括：

2.根据权利要求1所述的PRB数据深度学习地质图预测模型的处理方法，其特征在于，处理地质路线PRB数据标签数据，生成地质填图单位及岩性分类标签，包括：

对所述处理结果进行合并，形成标准化地质PRB数据；

按填图单位及岩性对PRB数据进行分类排序，获得排序结果；

基于所述排序结果，进行地质填图单位及岩性设色标准化；

按照所述设色标准化形成地质路线PRB数据标签。

3.根据权利要求1所述的PRB数据深度学习地质图预测模型的处理方法，其特征在于，所述进行多模态数据中间层融合全连接地质图预测建模，包括：

对证据数据进行补值和归一化处理；

根据训练采样点坐标从处理后的证据数据中读取数据信息；

获取训练采样点基础数据与遥感数据；

4.根据权利要求3所述的PRB数据深度学习地质图预测模型的处理方法，其特征在于，按照地质图图例，地质填图单位新老关系输出预测地质图及各类预测精度指标统计评价数据，包括：

将得到的基础数据及遥感数据输入训练好的模型；

模型对每个栅格点进行预测；

将每个栅格点坐标信息保存至其预测标签的存储文件中，存储文件为pkl格式；

创建数据矩阵D；

根据标签样本数据中标签顺序逐类读取标签的存储文件；

对所述预测地质图采用精确率和召回率进行评价。