CN117891883A - 一种矿产勘查数据优化存储方法 - Google Patents
一种矿产勘查数据优化存储方法 Download PDFInfo
- Publication number
- CN117891883A CN117891883A CN202410288728.2A CN202410288728A CN117891883A CN 117891883 A CN117891883 A CN 117891883A CN 202410288728 A CN202410288728 A CN 202410288728A CN 117891883 A CN117891883 A CN 117891883A
- Authority
- CN
- China
- Prior art keywords
- deposit
- ore
- mineral
- data
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 229910052500 inorganic mineral Inorganic materials 0.000 title claims abstract description 213
- 239000011707 mineral Substances 0.000 title claims abstract description 213
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000035772 mutation Effects 0.000 claims abstract description 52
- 238000011835 investigation Methods 0.000 claims abstract description 42
- 238000000513 principal component analysis Methods 0.000 claims abstract description 21
- 239000002184 metal Substances 0.000 claims description 98
- 229910052751 metal Inorganic materials 0.000 claims description 98
- 239000000203 mixture Substances 0.000 claims description 76
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000013500 data storage Methods 0.000 claims description 13
- 230000001174 ascending effect Effects 0.000 claims description 6
- 150000002739 metals Chemical class 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数字数据处理技术领域,具体涉及一种矿产勘查数据优化存储方法,具体包括:根据各矿床的矿产资源勘察信息数据中突变数据的变化构建各矿床的矿产资源奇异指数;结合各矿床的矿产资源勘察信息数据之间的相似度及相关性构建各矿床的资源一致性变化系数,根据所有矿床的资源一致性变化系数获取待降维矿床信息集合及待存储矿床信息集合,利用PCA主成分分析算法基于待降维矿床信息集合获取降维后的数据,利用分布式存储算法基于降维后的数据及待存储矿床信息集合进行数据存储。从而实现矿产勘查数据优化存储,避免了直接采用PCA主成分分析算法进行数据降维导致较多有用信息丢失的影响,提高降维优化存储的效果。
Description
技术领域
本申请涉及数字数据处理技术领域,具体涉及一种矿产勘查数据优化存储方法。
背景技术
矿产勘察是地球科学的重要分支,涉及到对矿产资源分布和矿产资源潜力的研究和评估,对矿产资源的开发具有重大的作用。前期矿产勘察过程中的数据往往需要进行存储,目的是为后期的矿产资源的开发提供决策支持。但是,由于矿产勘察中的数据涉及时间、空间和属性特征上的数据,矿产勘察过程中的数据复杂性较高,其中包含冗余数据、无效信息数据的内容,这些冗余数据、无效信息数据不仅会对后期的调用产生困难,而且会极大地消耗存储资源,产生较大的存储负担。
为了给后期矿产资源的开发提供准确性、可靠性的矿产勘察数据,同时降低矿产勘察数据的存储负担,往往需要对矿产勘察数据进行优化存储。针对矿产勘察数据中冗余数据以及无效信息数据产生的影响,采用数据降维的方式剔除冗余数据以及无效信息数据,并进行存储,以求优化矿产勘察数据的存储信息以及存储空间。
PCA主成分分析是一种传统的数据降维技术,作为一种经典的线性降维算法,能够有效地去除冗余数据以及无效信息数据,但是对数据线性特征的要求较高。而矿产勘察数据的复杂性,极易出现线性特征较差的数据,会导致数据降维的准确性较差,无法有效地优化矿产勘察数据,进而导致优化存储的效果较差。
发明内容
为了解决上述技术问题,本发明提供一种矿产勘查数据优化存储方法,以解决现有的问题。
本发明的一种矿产勘查数据优化存储方法采用如下技术方案:
本发明一个实施例提供了一种矿产勘查数据优化存储方法,该方法包括以下步骤:
采集各矿床的矿产资源勘察信息数据,包括矿床中矿石类型及各类型矿石的勘测时间、矿石量数据,以及各矿床中金属类型及各类型金属的勘测时间、金属量数据;
根据各类型矿石的勘测时间、矿石量和金属的勘测时间、金属量得到各矿床的矿石量组成序列和金属量组成序列;根据各矿床的矿石量组成序列中突变数据的数值变化得到各矿床的矿石量差异指数;获取各矿床的金属量差异指数;根据各矿床的矿石量、金属量差异指数得到各矿床的矿产资源奇异指数;根据各矿床的矿石量组成序列中数据变化得到各矿床的矿石量趋势性变化序列;获取各矿床的金属量趋势性变化序列;根据各矿床的矿石量、金属量趋势性变化序列之间的差异得到各矿床的相似性异变指数;根据各矿床的矿石量、金属量组成序列之间的相关性及相似性异变指数得到各矿床的资源相关性指数;根据各矿床的资源相关性指数及矿产资源奇异指数得到各矿床的资源一致性变化系数;
根据各矿床的资源一致性变化系数之间的差异得到各待降维矿床信息集合及各待存储矿床信息集合;根据各待降维矿床信息集合及各待存储矿床信息集合结合主成分分析算法及分布式数据存储算法进行数据存储。
优选的,所述根据各类型矿石的勘测时间、矿石量和金属的勘测时间、金属量得到各矿床的矿石量组成序列和金属量组成序列,具体为:对于各矿床,将矿床中所有类型矿石的矿石量按勘测时间升序排列组成的序列作为矿床的矿石量组成序列;获取矿床的金属量组成序列。
优选的,所述根据各矿床的矿石量组成序列中突变数据的数值变化得到各矿床的矿石量差异指数,具体包括:
通过BG分割算法获取每个矿石量组成序列中各突变数据点,将各矿石量组成序列中所有突变数据点组成的集合作为各矿石量突变集合;
计算各矿床的矿石量突变集合中所有数据的变异系数及均值;计算各个矿床与第x个矿床的矿石量突变集合的所述变异系数之间的差值绝对值,记为第一差值绝对值;计算各个矿床的矿石量突变集合中每个数据与第x个矿床的所述均值之间的差值绝对值,记为第二差值绝对值;计算各个矿床的所有第二差值绝对值的平均值;计算第一差值绝对值与所述平均值的和值;将所有矿床的所述和值的平均值作为第x个矿床的矿石量差异指数。
优选的,所述根据各矿床的矿石量、金属量差异指数得到各矿床的矿产资源奇异指数,具体包括:
计算以自然常数为底数、以各矿床的金属量差异指数的相反数为指数的指数函数的计算结果;计算1与各矿床的矿石量差异指数的和值;计算所述计算结果与所述和值的比值;将1与所述比值的差值作为各矿床的矿产资源奇异指数。
优选的,所述根据各矿床的矿石量组成序列中数据变化得到各矿床的矿石量趋势性变化序列,具体包括:
对于各矿床,将矿床的矿石量组成序列中所有数据拟合成的曲线作为矿床的矿石量变化曲线;将矿石量组成序列中所有数据在矿石量变化曲线上对应的斜率组成的序列作为矿床的矿石量趋势性变化序列。
优选的,所述根据各矿床的矿石量、金属量趋势性变化序列之间的差异得到各矿床的相似性异变指数,具体包括:
通过时间序列规整算法计算各矿床与第x个矿床的矿石量趋势性变化序列之间的dtw距离,记为第一距离;获取各矿床与第x个矿床的金属量趋势性变化序列之间的dtw距离,记为第二距离;将第一、第二距离的和值与预设比例常数的比值作为距离比例值;将所有矿床的距离比例值的均值作为第x个矿床的相似性异变指数。
优选的,所述根据各矿床的矿石量、金属量组成序列之间的相关性及相似性异变指数得到各矿床的资源相关性指数,具体包括:
计算各矿床与第x个矿床的矿石量组成序列之间的皮尔逊相关系数的绝对值,记为第一绝对值;计算各矿床与第x个矿床的金属量组成序列之间的皮尔逊相关系数的绝对值,记为第二绝对值;将第一、第二绝对值的和值与预设比例常数的比值作为相关系数比例值;计算所有矿床的相关系数比例值的平均值;计算以自然常数为底数、以各矿床的相似性异变指数的相反数为指数的指数函数的计算结果;将所述计算结果与各矿床的所述平均值的乘积作为各矿床的资源相关性指数。
优选的,所述根据各矿床的资源相关性指数及矿产资源奇异指数得到各矿床的资源一致性变化系数,具体包括:
计算以自然常数为底数、以各矿床的矿产资源奇异指数的相反数为指数的指数函数的计算结果;将所述计算结果与各矿床的资源相关性指数的乘积作为各矿床的资源一致性变化系数。
优选的,所述根据各矿床的资源一致性变化系数之间的差异得到各待降维矿床信息集合及各待存储矿床信息集合,具体为:
通过DPC密度峰值聚类算法对所有矿床的资源一致性变化系数进行聚类得到各聚类簇;
通过最大类间方差算法获取所有矿床的资源一致性变化系数的分割阈值;
计算所有元素均值大于等于分割阈值的聚类簇作为待降维矿床信息集合;将所有元素均值小于分割阈值的聚类簇作为待存储矿床信息集合。
优选的,所述根据各待降维矿床信息集合及各待存储矿床信息集合结合主成分分析算法及分布式数据存储算法进行数据存储,具体为:
通过PCA主成分分析算法获取各待降维矿床信息集合中元素对应矿床的矿产资源勘察信息数据的降维数据;将各待降维矿床信息集合中所有元素的所述降维数据通过分布式数据存储算法存储到服务器,将各待存储矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据存储到服务器。
本发明至少具有如下有益效果:
本发明通过对矿产资源奇异程度的分析,构建资源一致性变化系数,基于资源一致性变化系数确定进行降维的数据并进行数据存储,避免出现线性特征较差的数据而导致数据降维的准确性较差的问题,提高了数据降维的准确性,提高了降维优化存储的效果;
本发明根据矿产资源勘察信息数据获取矿石量组成序列及金属量组成序列,根据矿石量组成序列及金属量组成序列获取矿石量突变集合及金属量突变集合,根据矿石量突变集合及金属量突变集合获取矿石量差异指数及金属量差异指数,根据矿石量差异指数及金属量差异指数获取矿产资源奇异指数,初步反映了矿床的矿石信息之间的相关性以及金属信息之间的相关性;根据矿石量、金属量组成序列获取各矿床的相似性异变指数,根据相似性异变指数获取各矿床的资源相关性指数,根据资源相关性指数及矿产资源奇异指数获取资源一致性变化系数,进一步度量各矿床的信息之间的线性相关性;根据所有矿床的资源一致性变化系数获取待降维矿床信息集合及待存储矿床信息集合,利用PCA主成分分析算法基于待降维矿床信息集合获取降维后的数据,利用分布式存储算法基于降维后的数据及待存储矿床信息集合完成数据的优化存储,降低了直接采用PCA主成分分析算法导致较多有用信息丢失的影响,提高降维优化存储的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种矿产勘查数据优化存储方法的流程图;
图2为矿石量差异指数序列、金属量差异指数序列以及矿产资源奇异指数序列的示意图;
图3为矿床的资源一致性变化系数分布示意图图;
图4为一种矿产勘查数据优化存储方法的实验结果图;
图5为矿产勘查数据优化存储方法的步骤示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种矿产勘查数据优化存储方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种矿产勘查数据优化存储方法的具体方案。
本发明一个实施例提供的一种矿产勘查数据优化存储方法。
具体的,提供了如下的一种矿产勘查数据优化存储方法,请参阅图1,该方法包括以下步骤:
步骤S001,获取各矿床的矿产资源勘察信息数据。
本实施例的目的在于对矿产资源勘察数据进行优化存储,通过对矿产资源勘察数据进行降维,以消除冗余数据、无效数据以及噪声数据,提高了矿产资源勘察数据的准确性和可靠性,同时降低了矿产资源勘察数据的存储空间,以求达到矿产资源勘察数据优化存储的目的。
本实施例通过矿产资源勘察数据平台获取某地区的矿床总数以及每个矿床的矿产资源勘察信息数据,所述每个矿床的矿产资源勘察信息数据包括每个矿床中矿石类型的总数和每个矿床中每种类型矿石的勘测时间以及矿石量、每个矿床中金属类型的总数和每个矿床中每种类型金属的勘测时间以及金属量。
至此,得到矿产资源勘察信息数据,用于后续的降维优化存储。
步骤S002,根据矿产资源勘察信息数据中突变数据变化构建各矿床的矿产资源奇异指数;结合各矿床的矿产资源勘察信息数据之间的相似度及相关性构建各矿床的资源一致性变化系数。
由于矿产资源勘察信息数据中不同矿床上的矿产资源信息不同,当区域上不同矿床之间的矿产资源信息变化较大时,此时矿产资源勘察信息数据内的线性关系较为混乱,而PCA主成分分析算法(Principal Components Analysis,PCA)对线性关系的要求较高,往往会导致数据降维的准确性较差。因此,需要根据矿产资源勘察信息数据的具体特征进行分析,以求提高对矿产资源勘察信息数据进行数据降维的准确性,进行完成对矿产资源勘察信息数据的优化存储,为后期的矿产资源的开发提供更加准确的决策支持。
具体地,对于每个矿床,将矿床中所有类型矿石的矿石量按照勘测时间升序的顺序组成的序列作为矿床的矿石量组成序列,将矿床中所有类型金属的金属量按照勘测时间升序的顺序组成的序列作为矿床的金属量组成序列。对于每个矿床,为了清晰的反映矿石量组成序列和金属量组成序列内部的突变情况,将矿床的矿石量组成序列、金属量组成序列分别作为BG分割算法(Bernaola Galvan,BG)的输入,将BG分割算法的输出分别作为矿石量组成序列中所有突变数据点、金属量组成序列中所有的突变数据点,将矿石量组成序列中所有突变数据点组成的集合作为矿石量突变集合,将金属量组成序列中所有突变数据点组成的集合作为金属量突变集合,BG分割算法为公知技术,具体过程不再赘述。
进一步地,计算每个矿床的矿产资源奇异指数:
式中,表示第x个矿床的矿石量差异指数,/>表示矿床总数,/>和/>分别表示第x个、第y个矿床的矿石量组成序列内所有数据的变异系数,其中,变异系数为标准差与均值的比值,其计算公式为公知技术,具体过程不再赘述,/>表示第y个矿床的矿石量突变集合中数据的数目,/>表示第x个矿床的矿石量突变集合中数据均值,/>表示第y个矿床的矿石量突变集合中第j个数据的数值;
表示第x个矿床的金属量差异指数,/>和/>分别表示第x个、第y个矿床的金属量组成序列内所有数据的变异系数,/>表示第x个矿床的金属量突变集合中数据均值,/>表示第y个矿床的金属量突变集合中第j个数据的数值;
表示第x个矿床的矿产资源奇异指数,/>表示以自然常数为底数的指数函数。变异系数的计算为公知技术,具体过程不再赘述。
第x个、第y个矿床的矿石量组成序列内所有数据的变异系数之间的差异越大,并且第x个矿床的矿石量突变集合中数据均值与第y个矿床的矿石量突变集合中第j个数据的数值之间的差异/>越大,说明第x个矿床的矿石量与其他矿床的矿石量之间差异性越大,一定程度上反映了第x个矿床的矿石量发生较大的变化,即此时矿床的矿石量信息与其他矿床的矿石量信息之间的相关性的较差,则矿石量差异指数越大。另外,第x个、第y个矿床的金属量组成序列内所有数据的变异系数之间的差异/>越大,并且第x个矿床的金属量突变集合中数据均值与第y个矿床的金属量突变集合中第j个数据的数值之间的差异/>越大,说明第x个矿床的金属量与其他矿床的金属量之间差异性越大,一定程度上反映了第x个矿床的金属量发生较大的变化,即此时矿床的金属量信息与其他矿床的金属量信息之间的相关性的较差,则矿石量差异指数越大。因此,第x个矿床的矿石量差异指数/>越大,且第x个矿床的金属量差异指数/>越大,一定程度上反映了勘察区域内第x个矿床的矿产资源信息出现较大的变化,与其他矿产资源之间的相关性差,即第x个矿床的矿产资源信息的奇异程度越大,则矿产资源奇异指数越大。所有矿床的矿石量差异指数组成的序列、金属量差异指数组成的序列以及矿产资源奇异指数组成的序列的示意图如图2所示;其中将上述三个序列分别记为矿石量差异指数序列、金属量差异指数序列以及矿产资源奇异指数序列。
进一步地,基于矿产资源奇异指数分析不同矿床的矿产资源勘察信息之间的线性相关性情况。由于PCA主成分分析算法对数据之间的线性相关性要求较高,当数据之间的线性相关性较低时,利用PCA主成分分析算法对数据进行降维会损失较大的有效信息,导致数据降维的准确性较低,进而对存储信息的准确性和可靠性产生影响。矿产资源奇异指数一定程度上反映矿床的矿产资源变化的奇异程度,当某个矿床的矿产资源奇异指数越大,说明勘察区域内该矿床的矿产资源出现较大的变化,此时与其他矿床的矿产资源信息之间的线性相关性程度越弱,此时越不适合对该矿床的矿产信息进行降维优化存储。
具体地,对于每个矿床,将矿石量组成序列内的数据通过曲线拟合算法进行拟合,将拟合得到的曲线作为矿床的矿石量变化曲线。计算矿床的矿石量组成序列内每个数据在矿石量变化曲线的斜率,将矿床的矿石量变化曲线上这些数据点的斜率按照时间升序的顺序组成的序列作为矿石量趋势性变化序列。同理,通过金属量组成序列内的数据获取矿床的金属量变化曲线,计算矿床的金属量组成序列内每个数据在金属量变化曲线上的斜率,并将其按照时间升序的顺序组成的序列作为矿床的金属量趋势性变化序列。需要说明的是,本实施例使用MATLAB软件获取曲线及其斜率,在具体应用中,实施者可根据具体情况进行设置。
进一步地,为区分各矿床的信息之间的相关性差异,则计算每个矿床的资源一致性变化系数,资源一致性变化系数可以包括:
首先计算各矿床的相似性异变指数:
式中,表示第x个矿床的相似性异变指数,/>表示矿床总数,/>表示通过动态时间规整算法计算序列之间/>距离的函数,/>和/>分别表示第x个、第y个矿床的矿石量趋势性变化序列,/>和/>分别表示第x个、第y个矿床的金属量趋势性变化序列,表示第x个、第y个矿床的矿石量趋势性变化序列之间的/>距离,/>表示第x个、第y个矿床的金属量趋势性变化序列之间的/>距离,/>为比例常数,比例常数的经验取值为2。
第x个、第y个矿床的矿石量趋势性变化序列之间的距离/>越大,并且第x个、第y个矿床的金属量趋势性变化序列之间的/>距离/>越大,说明矿床的矿石量趋势性变化序列之间以及金属量趋势性变化序列之间相似性较小,由于矿石量趋势性变化序列以及金属量趋势性变化序列是由斜率组成,表征趋势性变化,即矿床的矿石量趋势性变化序列之间以及金属量趋势性变化序列之间线性相关性程度越差,则相似性异变指数越大。
然后,根据各矿床的相似性异变指数结合矿石量、金属量组成序列之间的相关性计算各矿床的资源相关性指数:
式中,表示第x个矿床的资源相关性指数,/>表示以自然常数为底数的指数函数,/>表示皮尔逊相关系数函数,/>和/>分别表示第x个、第y个矿床的矿石量组成序列,/>和/>分别表示第x个、第y个矿床的金属量组成序列,/>表示第x个、第y个矿床的矿石量组成序列之间的皮尔逊相关系数,/>表示第x个、第y个矿床的金属量组成序列之间的皮尔逊相关系数。
第x个矿床的相似性异变指数越大,说明矿床的矿石量趋势性变化序列之间以及金属量趋势性变化序列之间线性相关性程度越差,即矿床的矿产资源勘察信息之间的线性关系较差,同时第x个、第y个矿床的矿石量组成序列之间的皮尔逊相关系数的绝对值越小,并且第x个、第y个矿床的金属量组成序列之间的皮尔逊相关系数的绝对值/>越小,说明矿床的矿石量组成序列之间以及金属量组成序列之间线性相关性越差,即矿床的矿产资源勘察信息之间的线性关系较差,则资源相关性指数越小。
最后,根据各矿床的资源相关性指数及矿产资源奇异指数计算各矿床的资源一致性变化系数:
式中,表示第x个矿床的资源一致性变化系数,/>表示第x个矿床的矿产资源奇异指数。其中动态时间规整算法及皮尔逊相关系数为公知技术,具体过程不再赘述。
第x个矿床的资源相关性指数越小,第x个矿床的矿产资源奇异指数/>越大,一定程度上反映了第x个矿床与其他矿床的矿产资源勘察信息之间的线性关系较差,同时反映了勘察区域内第x个矿床的矿产资源信息出现较大的变化,即矿产资源的奇异程度较大,说明第x个矿床的与其他矿产资源之间的相关性差,则资源一致性变化系数较小。矿床的资源一致性变化系数分布示意图如图3所示。
资源一致性变化系数一定程度上度量了矿床的矿产资源勘察信息数据之间的线性相关性,资源一致性变化系数越大,说明矿床的矿产资源勘察信息数据之间的线性相关性越强,越适合对数据进行降维优化存储;资源一致性变化系数越小,说明矿床的矿产资源勘察信息数据之间的线性相关性越弱,越不适合对数据进行降维优化存储。
至此,得到每个矿床的资源一致性变化系数。
步骤S003,根据所有矿床的资源一致性变化系数获取待降维矿床信息集合及待存储矿床信息集合,通过PCA主成分分析算法获取待降维矿床信息集合的降维数据,利用分布式存储算法对降维数据及待存储矿床信息集合进行数据存储。
进一步地,将所有矿床的资源一致性变化系数组成的集合作为DPC密度峰值聚类算法(Density Peaks Clustering,DPC)的输入,将DPC密度峰值聚类算法的输出作为所有矿床的资源一致性变化系数的聚类结果,DPC密度峰值聚类算法为公知技术,具体过程不再赘述。
为了选择具备较强线性关系的矿床的矿产资源勘察信息数据进行数据降维,将所有矿床的资源一致性变化系数作为最大类间方差算法的输入,将最大类间方差算法的输出作为所有矿床的资源一致性变化系数的分割阈值,最大类间方差算法为公知技术,具体过程不再赘述。计算聚类结果中每个聚类簇内元素均值,将元素均值大于等于所述分割阈值的每个聚类簇作为每个待降维矿床信息集合,将元素均值小于所述分割阈值的每个聚类簇作为每个待存储矿床信息集合。
进一步地,待降维矿床信息集合内元素对应的矿床的矿产资源勘察信息数据之间具有较好的线性关系,利用PCA主成分分析算法能够得到较好的降维后的数据;而待存储矿床信息集合内元素对应的矿床的矿产资源勘察信息数据之间线性关系较差,此时利用PCA主成分分析算法进行降维会损失大量的有效信息,此类数据不适合进行降维。
具体地,将每个待降维矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据作为PCA主成分分析算法的输入,将PCA主成分分析算法的输出作为每个待降维矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据的降维后的数据,PCA主成分分析算法为公知技术,具体过程不再赘述。
将每个待降维矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据的降维后的数据、每个待存储矿床信息集合所有元素对应的矿床的矿产资源勘察信息数据分别作为分布式数据存储算法的输入,利用分布式数据存储算法将每个待降维矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据的降维后的数据、每个待存储矿床信息集合所有元素对应的矿床的矿产资源勘察信息数据存储到服务器内,以此提高矿产资源勘察信息数据的存储效率以及存储质量。上述方法的实验结果图如图4所示。上述方法的步骤示意图如图5所示。
综上所述,本发明实施例通过对矿产资源奇异程度的分析,构建资源一致性变化系数,基于资源一致性变化系数确定进行降维的数据并进行数据存储,避免出现线性特征较差的数据而导致数据降维的准确性较差的问题,提高了数据降维的准确性,提高了降维优化存储的效果;
本实施例根据矿产资源勘察信息数据获取矿石量组成序列及金属量组成序列,根据矿石量组成序列及金属量组成序列获取矿石量突变集合及金属量突变集合,根据矿石量突变集合及金属量突变集合获取矿石量差异指数及金属量差异指数,根据矿石量差异指数及金属量差异指数获取矿产资源奇异指数,初步反映了矿床的矿石信息之间的相关性以及金属信息之间的相关性;根据矿石量、金属量组成序列获取各矿床的相似性异变指数,根据相似性异变指数获取各矿床的资源相关性指数,根据资源相关性指数及矿产资源奇异指数获取资源一致性变化系数,进一步度量各矿床的信息之间的线性相关性;根据所有矿床的资源一致性变化系数获取待降维矿床信息集合及待存储矿床信息集合,利用PCA主成分分析算法基于待降维矿床信息集合获取降维后的数据,利用分布式存储算法基于降维后的数据及待存储矿床信息集合完成数据的优化存储,降低了直接采用PCA主成分分析算法导致较多有用信息丢失的影响,提高降维优化存储的效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种矿产勘查数据优化存储方法,其特征在于,该方法包括以下步骤:
采集各矿床的矿产资源勘察信息数据,包括矿床中矿石类型及各类型矿石的勘测时间、矿石量数据,以及各矿床中金属类型及各类型金属的勘测时间、金属量数据;
根据各类型矿石的勘测时间、矿石量和金属的勘测时间、金属量得到各矿床的矿石量组成序列和金属量组成序列;根据各矿床的矿石量组成序列中突变数据的数值变化得到各矿床的矿石量差异指数;获取各矿床的金属量差异指数;根据各矿床的矿石量、金属量差异指数得到各矿床的矿产资源奇异指数;根据各矿床的矿石量组成序列中数据变化得到各矿床的矿石量趋势性变化序列;获取各矿床的金属量趋势性变化序列;根据各矿床的矿石量、金属量趋势性变化序列之间的差异得到各矿床的相似性异变指数;根据各矿床的矿石量、金属量组成序列之间的相关性及相似性异变指数得到各矿床的资源相关性指数;根据各矿床的资源相关性指数及矿产资源奇异指数得到各矿床的资源一致性变化系数;
根据各矿床的资源一致性变化系数之间的差异得到各待降维矿床信息集合及各待存储矿床信息集合;根据各待降维矿床信息集合及各待存储矿床信息集合结合主成分分析算法及分布式数据存储算法进行数据存储。
2.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各类型矿石的勘测时间、矿石量和金属的勘测时间、金属量得到各矿床的矿石量组成序列和金属量组成序列,具体为:对于各矿床,将矿床中所有类型矿石的矿石量按勘测时间升序排列组成的序列作为矿床的矿石量组成序列;获取矿床的金属量组成序列。
3.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的矿石量组成序列中突变数据的数值变化得到各矿床的矿石量差异指数,具体包括:
通过BG分割算法获取每个矿石量组成序列中各突变数据点,将各矿石量组成序列中所有突变数据点组成的集合作为各矿石量突变集合;
计算各矿床的矿石量突变集合中所有数据的变异系数及均值;计算各个矿床与第x个矿床的矿石量突变集合的所述变异系数之间的差值绝对值,记为第一差值绝对值;计算各个矿床的矿石量突变集合中每个数据与第x个矿床的所述均值之间的差值绝对值,记为第二差值绝对值;计算各个矿床的所有第二差值绝对值的平均值;计算第一差值绝对值与所述平均值的和值;将所有矿床的所述和值的平均值作为第x个矿床的矿石量差异指数。
4.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的矿石量、金属量差异指数得到各矿床的矿产资源奇异指数,具体包括:
计算以自然常数为底数、以各矿床的金属量差异指数的相反数为指数的指数函数的计算结果;计算1与各矿床的矿石量差异指数的和值;计算所述计算结果与所述和值的比值;将1与所述比值的差值作为各矿床的矿产资源奇异指数。
5.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的矿石量组成序列中数据变化得到各矿床的矿石量趋势性变化序列,具体包括:
对于各矿床,将矿床的矿石量组成序列中所有数据拟合成的曲线作为矿床的矿石量变化曲线;将矿石量组成序列中所有数据在矿石量变化曲线上对应的斜率组成的序列作为矿床的矿石量趋势性变化序列。
6.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的矿石量、金属量趋势性变化序列之间的差异得到各矿床的相似性异变指数,具体包括:
通过时间序列规整算法计算各矿床与第x个矿床的矿石量趋势性变化序列之间的dtw距离,记为第一距离;获取各矿床与第x个矿床的金属量趋势性变化序列之间的dtw距离,记为第二距离;将第一、第二距离的和值与预设比例常数的比值作为距离比例值;将所有矿床的距离比例值的均值作为第x个矿床的相似性异变指数。
7.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的矿石量、金属量组成序列之间的相关性及相似性异变指数得到各矿床的资源相关性指数,具体包括:
计算各矿床与第x个矿床的矿石量组成序列之间的皮尔逊相关系数的绝对值,记为第一绝对值;计算各矿床与第x个矿床的金属量组成序列之间的皮尔逊相关系数的绝对值,记为第二绝对值;将第一、第二绝对值的和值与预设比例常数的比值作为相关系数比例值;计算所有矿床的相关系数比例值的平均值;计算以自然常数为底数、以各矿床的相似性异变指数的相反数为指数的指数函数的计算结果;将所述计算结果与各矿床的所述平均值的乘积作为各矿床的资源相关性指数。
8.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的资源相关性指数及矿产资源奇异指数得到各矿床的资源一致性变化系数,具体包括:
计算以自然常数为底数、以各矿床的矿产资源奇异指数的相反数为指数的指数函数的计算结果;将所述计算结果与各矿床的资源相关性指数的乘积作为各矿床的资源一致性变化系数。
9.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各矿床的资源一致性变化系数之间的差异得到各待降维矿床信息集合及各待存储矿床信息集合,具体为:
通过DPC密度峰值聚类算法对所有矿床的资源一致性变化系数进行聚类得到各聚类簇;
通过最大类间方差算法获取所有矿床的资源一致性变化系数的分割阈值;
计算所有元素均值大于等于分割阈值的聚类簇作为待降维矿床信息集合;将所有元素均值小于分割阈值的聚类簇作为待存储矿床信息集合。
10.如权利要求1所述的一种矿产勘查数据优化存储方法,其特征在于,所述根据各待降维矿床信息集合及各待存储矿床信息集合结合主成分分析算法及分布式数据存储算法进行数据存储,具体为:
通过PCA主成分分析算法获取各待降维矿床信息集合中元素对应矿床的矿产资源勘察信息数据的降维数据;将各待降维矿床信息集合中所有元素的所述降维数据通过分布式数据存储算法存储到服务器,将各待存储矿床信息集合中所有元素对应的矿床的矿产资源勘察信息数据存储到服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410288728.2A CN117891883B (zh) | 2024-03-14 | 2024-03-14 | 一种矿产勘查数据优化存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410288728.2A CN117891883B (zh) | 2024-03-14 | 2024-03-14 | 一种矿产勘查数据优化存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117891883A true CN117891883A (zh) | 2024-04-16 |
CN117891883B CN117891883B (zh) | 2024-06-18 |
Family
ID=90646005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410288728.2A Active CN117891883B (zh) | 2024-03-14 | 2024-03-14 | 一种矿产勘查数据优化存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117891883B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745129B1 (en) * | 2002-10-29 | 2004-06-01 | The University Of Tulsa | Wavelet-based analysis of singularities in seismic data |
CN103886072A (zh) * | 2014-03-24 | 2014-06-25 | 河南理工大学 | 煤矿搜索引擎中检索结果聚类系统 |
CN105808866A (zh) * | 2016-03-16 | 2016-07-27 | 中国地质大学(武汉) | 一种基于分形方法度量地质要素与矿床的空间关系的方法 |
CN109580497A (zh) * | 2018-12-13 | 2019-04-05 | 中国国土资源航空物探遥感中心 | 一种基于奇异性理论的高光谱矿物异常信息提取方法 |
WO2019127504A1 (zh) * | 2017-12-29 | 2019-07-04 | 深圳配天智能技术研究院有限公司 | 一种相似度的度量方法、装置及存储装置 |
CN110209989A (zh) * | 2019-06-13 | 2019-09-06 | 中山大学 | 一种基于空间加权技术的各向异性奇异性指数计算方法 |
KR102138295B1 (ko) * | 2019-12-03 | 2020-07-27 | 한국광물자원공사 | 광물자원 시장전망지표 산출 방법 및 그 시스템 |
CN114626230A (zh) * | 2022-03-18 | 2022-06-14 | 杨邦会 | 一种地质矿产资源储量的模拟方法 |
CN116523136A (zh) * | 2023-05-05 | 2023-08-01 | 中国自然资源航空物探遥感中心 | 基于多模型集成学习的矿产资源空间智能预测方法及装置 |
CN116778223A (zh) * | 2023-05-06 | 2023-09-19 | 北京工业大学 | 一种基于零标注的多类别目标域数据集标注方法及系统 |
CN117435145A (zh) * | 2023-12-20 | 2024-01-23 | 北京清水爱派建筑设计股份有限公司 | 一种数字化建筑信息优化存储方法及系统 |
-
2024
- 2024-03-14 CN CN202410288728.2A patent/CN117891883B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745129B1 (en) * | 2002-10-29 | 2004-06-01 | The University Of Tulsa | Wavelet-based analysis of singularities in seismic data |
CN103886072A (zh) * | 2014-03-24 | 2014-06-25 | 河南理工大学 | 煤矿搜索引擎中检索结果聚类系统 |
CN105808866A (zh) * | 2016-03-16 | 2016-07-27 | 中国地质大学(武汉) | 一种基于分形方法度量地质要素与矿床的空间关系的方法 |
WO2019127504A1 (zh) * | 2017-12-29 | 2019-07-04 | 深圳配天智能技术研究院有限公司 | 一种相似度的度量方法、装置及存储装置 |
CN109580497A (zh) * | 2018-12-13 | 2019-04-05 | 中国国土资源航空物探遥感中心 | 一种基于奇异性理论的高光谱矿物异常信息提取方法 |
CN110209989A (zh) * | 2019-06-13 | 2019-09-06 | 中山大学 | 一种基于空间加权技术的各向异性奇异性指数计算方法 |
KR102138295B1 (ko) * | 2019-12-03 | 2020-07-27 | 한국광물자원공사 | 광물자원 시장전망지표 산출 방법 및 그 시스템 |
CN114626230A (zh) * | 2022-03-18 | 2022-06-14 | 杨邦会 | 一种地质矿产资源储量的模拟方法 |
CN116523136A (zh) * | 2023-05-05 | 2023-08-01 | 中国自然资源航空物探遥感中心 | 基于多模型集成学习的矿产资源空间智能预测方法及装置 |
CN116778223A (zh) * | 2023-05-06 | 2023-09-19 | 北京工业大学 | 一种基于零标注的多类别目标域数据集标注方法及系统 |
CN117435145A (zh) * | 2023-12-20 | 2024-01-23 | 北京清水爱派建筑设计股份有限公司 | 一种数字化建筑信息优化存储方法及系统 |
Non-Patent Citations (4)
Title |
---|
成秋明;: "地质异常的奇异性度量与隐伏源致矿异常识别", 地球科学(中国地质大学学报), no. 02, 15 March 2011 (2011-03-15) * |
成秋明;: "非线性成矿预测理论:多重分形奇异性-广义自相似性-分形谱系模型与方法", 地球科学(中国地质大学学报), no. 03, 25 May 2006 (2006-05-25) * |
朱晓芬;陈彬;俞炜炜;林俊辉;黄雅琴;廖建基;: "厦门湾大型底栖动物分类学多样性指数及分类充分性", 生态学报, no. 15, 19 April 2018 (2018-04-19) * |
王玉国;: "基于复杂地质的矿产资源勘查找矿方法研究", 中国金属通报, no. 07, 15 July 2020 (2020-07-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117891883B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102044205B1 (ko) | 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법 | |
CN111507412B (zh) | 一种基于历史数据辅助场景分析的电压缺失值填补方法 | |
CN110796173B (zh) | 一种基于改进kmeans的负荷曲线形态聚类算法 | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN112819299A (zh) | 一种基于中心优化的差分K-means负荷聚类方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN117498735B (zh) | 一种步进电机动态平稳驱动方法及系统 | |
CN115858476A (zh) | 用于web开发系统中自定义表单获取数据的高效存储方法 | |
CN117891883B (zh) | 一种矿产勘查数据优化存储方法 | |
CN112149052B (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN113420506A (zh) | 掘进速度的预测模型建立方法、预测方法及装置 | |
CN111192638B (zh) | 高维度低样本基因数据筛选及蛋白质网络分析方法及系统 | |
CN116777452A (zh) | 智能电表的预付费系统及其方法 | |
CN115858719B (zh) | 一种基于大数据分析的sim卡活跃度预测方法及系统 | |
CN115630964B (zh) | 面向高维隐私数据的相关性数据交易框架的构造方法 | |
CN115270959B (zh) | 基于递归特征消除融合随机森林的页岩岩性识别法及装置 | |
CN114266423B (zh) | 基于多模型的电力能源需求预测方法、装置及存储介质 | |
CN115116616A (zh) | 基于组内组间优化的多重插补的乳腺癌缺失数据插补模型 | |
CN115630173A (zh) | 一种基于兴趣度分析的用户数据管理方法 | |
CN114978931A (zh) | 基于流形学习的网络流量预测方法、装置及存储介质 | |
CN114925975A (zh) | 一种考虑时序曲线特征的源荷功率典型日集生成方法 | |
CN114626606A (zh) | 一种考虑特征重要性值波动的mi-bilstm预测方法 | |
CN107302222B (zh) | 一种基于粗糙集的无功优化设备动作次数分析方法 | |
CN116843368B (zh) | 基于arma模型的营销数据处理方法 | |
CN116955119B (zh) | 一种基于数据分析的系统性能测试方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |