CN116779055B - 一种基于图模型的煤成分数据分析方法 - Google Patents
一种基于图模型的煤成分数据分析方法 Download PDFInfo
- Publication number
- CN116779055B CN116779055B CN202310758527.XA CN202310758527A CN116779055B CN 116779055 B CN116779055 B CN 116779055B CN 202310758527 A CN202310758527 A CN 202310758527A CN 116779055 B CN116779055 B CN 116779055B
- Authority
- CN
- China
- Prior art keywords
- coal
- elements
- analysis
- occurrence
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000003245 coal Substances 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007405 data analysis Methods 0.000 title claims abstract description 13
- 239000000203 mixture Substances 0.000 title claims description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 32
- 238000005065 mining Methods 0.000 claims abstract description 25
- 239000002864 coal component Substances 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000926 separation method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000003012 network analysis Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000006698 induction Effects 0.000 claims description 2
- 238000012800 visualization Methods 0.000 abstract description 2
- 238000007621 cluster analysis Methods 0.000 description 8
- 238000000513 principal component analysis Methods 0.000 description 8
- 238000007619 statistical method Methods 0.000 description 8
- 229910052500 inorganic mineral Inorganic materials 0.000 description 5
- 239000011707 mineral Substances 0.000 description 5
- 235000010755 mineral Nutrition 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- PNEYBMLMFCGWSK-UHFFFAOYSA-N aluminium oxide Inorganic materials [O-2].[O-2].[O-2].[Al+3].[Al+3] PNEYBMLMFCGWSK-UHFFFAOYSA-N 0.000 description 3
- 239000004927 clay Substances 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 229910052593 corundum Inorganic materials 0.000 description 3
- 239000011028 pyrite Substances 0.000 description 3
- NIFIFKQPDTWWGU-UHFFFAOYSA-N pyrite Chemical compound [Fe+2].[S-][S-] NIFIFKQPDTWWGU-UHFFFAOYSA-N 0.000 description 3
- 229910052683 pyrite Inorganic materials 0.000 description 3
- 229910001845 yogo sapphire Inorganic materials 0.000 description 3
- 229910018125 Al-Si Inorganic materials 0.000 description 2
- 229910018520 Al—Si Inorganic materials 0.000 description 2
- 229910052791 calcium Inorganic materials 0.000 description 2
- 239000011575 calcium Substances 0.000 description 2
- 150000004649 carbonic acid derivatives Chemical class 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 230000001143 conditioned effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 239000010453 quartz Substances 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 239000011573 trace mineral Substances 0.000 description 2
- 235000013619 trace mineral Nutrition 0.000 description 2
- 229910052726 zirconium Inorganic materials 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- UCKMPCXJQFINFW-UHFFFAOYSA-N Sulphide Chemical compound [S-2] UCKMPCXJQFINFW-UHFFFAOYSA-N 0.000 description 1
- 229910052770 Uranium Inorganic materials 0.000 description 1
- 238000002441 X-ray diffraction Methods 0.000 description 1
- QCWXUUIWCKQGHC-UHFFFAOYSA-N Zirconium Chemical compound [Zr] QCWXUUIWCKQGHC-UHFFFAOYSA-N 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000012267 brine Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007417 hierarchical cluster analysis Methods 0.000 description 1
- 229910052746 lanthanum Inorganic materials 0.000 description 1
- 238000002386 leaching Methods 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000000399 optical microscopy Methods 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000190 proton-induced X-ray emission spectroscopy Methods 0.000 description 1
- 229910052761 rare earth metal Inorganic materials 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 125000006853 reporter group Chemical group 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229910021646 siderite Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- HPALAKNZSZLMCH-UHFFFAOYSA-M sodium;chloride;hydrate Chemical compound O.[Na+].[Cl-] HPALAKNZSZLMCH-UHFFFAOYSA-M 0.000 description 1
- 150000004763 sulfides Chemical class 0.000 description 1
- 229910052720 vanadium Inorganic materials 0.000 description 1
- 229910052845 zircon Inorganic materials 0.000 description 1
- GFQYVLUOOAAOGM-UHFFFAOYSA-N zirconium(iv) silicate Chemical compound [Zr+4].[O-][Si]([O-])([O-])[O-] GFQYVLUOOAAOGM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图模型的煤成分数据分析方法,包括以下步骤:步骤一,煤炭数据预处理;步骤二,借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态;步骤三,元素赋存状态的组合分析。本发明采用上述基于图模型的煤成分数据分析方法,使用贝叶斯网络结构学习算法,发掘不同矿区中煤成分数据的网络结构,进而得到基于贝叶斯网络的煤中元素的赋存状态分析结果;同时,结合不同矿区的地质背景对可能出现的赋存状态进行对比总结和归纳。本发明通过以上流程形成的组合分析提供了矿区的煤中元素赋存状态的精确分析和可视化解决方案。
Description
技术领域
本发明涉及煤成分数据分析技术领域,尤其是涉及一种基于图模型的煤成分数据分析方法。
背景技术
煤炭是一种重要的不可再生资源,作为一种特殊的沉积有机岩石,其资源量和产量巨大,分布范围广阔。
煤是一种极其复杂的,不均匀的物质。认为不同等级、不同地区、不同煤种、不同地质年代的煤中元素的赋存状态相似是不合理的。然而,作为共同的因素,所有的煤都是由降解的植物物质形成的,所有的煤都接受了来自普通地壳岩石的碎屑颗粒,所有的煤都经历了地质时期的还原条件和广泛的高温高压。这些普遍的条件往往导致许多元素出现相同的赋存状态。例如:硅通常以石英和粘土的形式出现;铝主要赋存于粘土中;黄铁矿和菱铁矿中的铁;各种碳酸盐中的钙;锆石中的锆。但是大多数元素,都有多种赋存状态,准确分析煤中元素的赋存状态具有非常重要的意义:(1)通过分析煤中元素的赋存状态可以推断出元素的来源并进而分析煤形成的地质过程;(2)关键元素可以从煤的燃烧产物中回收利用,所以研究煤和煤的燃烧产物中元素的赋存状态对充分合理地规划和利用煤炭资源、实现煤炭经济循环发展有重要意义;(3)了解煤中元素的赋存状态有助于解决采矿、加工和煤炭利用中遇到的许多技术问题,推动相关技术的发展;(4)了解煤中元素的赋存状态对于预测其对环境和人类健康的潜在影响、减少煤炭利用过程中所带来的环境污染问题具有至关重要的现实意义。
测定煤中元素赋存状态的分析方法有两类:直接法和间接法。直接方法包括光学显微镜、质子诱导X射线发射(PIXE)、X射线衍射(XRD)等。间接方法包括浮沉法(或称密度分离法)、选择性浸出法和统计分析方法(主要包括相关分析、聚类分析和主成分分析)。目前被广泛用于推断煤中元素赋存状态的统计分析方法通常包括相关分析、聚类分析和主成分分析。但是统计分析方法始终存在一些争议。Eskanazy等人指出了在使用统计分析方法确定煤中元素赋存状态时可能存在的一些问题,并警告必须认真考虑地球化学原理。Dai等人回顾了煤地球化学中常用的统计分析方法,如聚类分析、相关分析等,并指出统计分析在解释煤中元素的赋存状态时并不总是正确的。值得注意的是,无论采用哪种统计方法来确定煤中元素的赋存状态,所有的元素都将符合Goldschmidt的普遍地球化学原则。
相关分析用于确定煤中元素浓度与灰分产量或定量矿物之间的统计相关性。正相关和负相关分别表示元素可能是无机和有机关联;弱相关可能表示有机-无机混合关联。虽然从统计学上推断元素与矿物的关联是很简单的,甚至可以根据常量和微量元素的存在来假设矿物的存在,但无论多少次证明它是正确的,这种方法都是有内在缺陷的。许多学者,包括Finkelman、Glick和Davis、Eskanazy等人、Geboy等人和Dai等人已经敦促在使用相关性时非常谨慎。没有办法替代对样本进行仔细的调查来确认或否认统计相关性。而且在进行评估时必须考虑多种可能性,因为具备百分比浓度的灰分产量和主要氧化物与具有百万分比浓度的微量元素之间的相关性可能具有欺骗性,这意味着统计学和地质学意义不一定能等同起来。另外,数据的基础是一个至关重要的信息,在某些情况下,基于不同的基础(如全煤基和灰基)的统计分析结果得出的煤中元素的赋存状态是不一致的。例如,Zhao等人发现在中国大青山煤田大炭壕煤矿的晚古生代全煤基样品中Zr和Al2O3、Nb和Al2O3之间存在可观测的相关性;但在灰基上Zr、Nb与Al2O3之间均不存在相关性。Zhao等人将这种不一致的关系归因于煤地球化学数据的组成性质和相关元素的实际赋存状态。如果其中一种或两种元素都有部分有机关联,那么两种元素之间的关系在灰基上似乎没有太大意义;然而,如果这两种元素都有唯一的矿物关联,则使用未被有机质稀释的灰基数据可能比使用全煤基数据更合理。此外,Dai等人指出仅基于相关系数的评估是有问题的,少量的离群点相对于一组距离较远且随机的点可能会产生没有现实基础的高相关系数。因此,展示X-Y图是很重要的,可以让研究人员辨别此类统计信息的有效性。
多变量分析技术(如聚类分析和主成分分析)也可用于分析煤成分数据中元素的赋存状态。聚类分析是一种可以将煤中元素分组的技术。与在不同组中的元素相比,同一组中的元素彼此的赋存状态更加相似。聚类分析方法被用来生成聚类图,说明元素赋存状态的相似性或差异程度,从而深入了解煤成分数据中元素可能的共同或不同的赋存状态。主成分分析通过最大化每个维度的方差将高维的煤成分数据投射到低维空间中,同时尽可能多地保留住统计信息。这两种方法的一个潜在问题是煤成分数据之间通常会相差几个数量级,这可能会导致分析结果精确度的损失,特别是在常量元素和微量元素数据被组合时,这种影响会格外明显,在这种情况下,需要考虑使用加权因子,以保持准确性。
Geboy等人指出,尽管同一套样品的相关系数测量结果可能因为使用的报告基不同而有很大差异,但这种差异是由地球化学数据的恒和封闭性导致的。Xu等人提出一种改进的加性对数比转换方法,来解决通过不同数据基础(全煤基和灰基)推导出的赋存状态的不一致问题;然后基于层次聚类算法,建立了针对全煤基和灰基的性能评估预测模型。Xu等人提出的改进的加性对数比方法在预测煤中元素赋存状态方面比稳定性方法(stability)更有效,因此可以用于对煤成分数据进行一致性解释。Glick和Davis使用主成分分析和聚类分析检查了来自美国6个煤炭省份的335种煤炭。主成分分析特别表明,U、Na和Mn可能存在有机关联。它们的第一个无机组分由强Al-Si和粘土组成,含有Si、Al、K、Rb、Ti、Sc、V、Yb、Ga、Y和La。第二组分反映了与硫化物的关联,以Fe、Zn和S形式为主。第三组表明碳酸盐和潜在的低等级煤的有机关联,主要是Ca、Mn和Mg。Collins使用主成分分析和聚类分析检查了美国的东肯塔基煤。主成分一被解释为有机物与石英和Al-Si矿物之间的对比,表明与灰分产量、Al、Si、REE和K有正的相关系数。主成分二被解释为与煤中的有机物和等级与黄铁矿有关,与Fe、硫铁矿、As和灰分有负相关。主成分三被解释为有机和硫化物关联与盐水和等级参数之间的对比。其他的主成分也被发现了,但是没有前三种成分那么明显,支持它们的地质推理也没有那么有力。虽然Glick和Davis以及Collins的评估结果之间存在一些相似之处,但不同之处在于覆盖范围的性质,Collins研究区域较小,样本数量较多,分析的广度也较大。
总的来说,煤中元素的赋存状态,可分为无机、有机、亲密有机联系。尽管许多元素在煤中有共同的赋存状态,但也有许多例外,大多数(如果不是全部)元素有多种赋存状态。元素的每一种赋存状态可以表现出不同的置信水平:即确定、大概率、可能、可疑、不可能;并且可能以不同的频率出现在煤中,即丰富、常见、不常见、罕见、不可能。不同煤中不同元素的不同赋存状态取决于煤形成的地质条件,但是由于所使用的分析方法的局限性,一些煤中元素赋存状态的分析结果不能令人信服,在某些情况下是无效的甚至是有误导性的。总的来说,虽然精确地测定煤中许多元素的浓度并不困难,但是确定某些元素的赋存状态,特别是那些低浓度且高挥发性的元素,仍然是一个难题。
目前主流的煤炭地质成分数据处理方法包括相关系数、层次聚类、主成分分析等算法。其中相关系数可能会导致误解,层次聚类、主成分分析受到算法原理的局限,存在无法真实展现元素间复杂关系的缺点。
发明内容
本发明的目的是提供一种基于图模型的煤成分数据分析方法,解决上述背景技术中提出的问题。
为实现上述目的,本发明提供了一种基于图模型的煤成分数据分析方法,包括以下步骤:
步骤一,煤炭数据预处理;
步骤二,借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态;
步骤三,元素赋存状态的组合分析。
优选的,步骤一中,对煤炭化学数据进行清洗,删除缺失样本并将低于检测限的数据删除。
优选的,步骤二中,以偏相关系数为基础,在完成费雪变换后进行显著性检验,得到煤中元素的贝叶斯网络骨架,然后根据算法规则确定每条边的方向得到完整的贝叶斯网络结构图,进而对不同矿区煤中元素可能存在的赋存状态进行分析。
优选的,步骤二中,使用Peter-Clark算法来学习给定的来自不同矿区的煤成分数据的网络结构;一个有向无环图G=(V,E)包括一个顶点集合V={1,......,p}和一个边集合设M、N和Z是图G中的三个不同的顶点子集,则当且仅当对于从M中的顶点到N中的顶点所有路径,都有一个顶点z满足以下两个条件之一时,M和N被称为是被Z方向分离的;
两个条件:z具备汇聚箭头且z及其后代节点都不属于集合Z;z不具备汇聚箭头而且z属于集合Z。
优选的,步骤二中,依赖关系确立:
设V是输入点集,包括步骤为:
在V上生成完全无向图,
对于G中的两个相邻点,如果i和j能在给定节点k时条件独立,则删除i和j之间的边;
后得到一个无向图,图中的无向边表示它连接的两个节点之间有依赖关系,这种无向图叫作骨架,通过Peter-Clark算法把上述过程转化为方向分离问题。
在无向图的基础上,通过方向判定规则得到最终的有向无环图或完备的部分有向无环图。具体过程为,每次判定节点对之间的方向分离关系时,记录分离集S(i,j)。然后对于所有具有共同邻居k的不相邻节点对(i,j),判断k是否属于(i,j)的分离集,如果不属于,则用i→k←j替换无向图中的i-k-j。在此过程结束后得到的部分有向无环图中,通过循环地应用以下规则给尽可能多的无向边确定方向:
规则1:只要存在一个有向边i→j,使i和k不相邻,将j-k修改为j→k;
规则2:只要存在一个链式结构i→k→j,将i-j修改为i→j;
规则3:当存在两个链式结构i-k→j和i-l→j,使得k和l不相邻,将i-j修改为i→j;
规则4:当存在两个链式结构i-k→l和k→l→j,使得k和l不相邻,将i-j修改为i→j。
优选的,步骤二中,相关公式为:
偏相关系数:
任意两个变量i,j的h阶偏相关系数为:
变量对应于煤成分数据表中的列数据,任意一个变量都对应一个元素,即煤成分数据贝叶斯网络结构中的节点,变量顺序与输入数据的列顺序一致。变量之间的偏相关系数代表元素成分之间的偏向关系。
费雪变换:为了判断偏相关系数是否为0,需要将偏相关系数通过费雪变换转换成正态分布,公式如下:
假设检验规则:
其中,α代表假设检验的显著性水平,Φ(·)代表正态分布N(0,1)的累积分布函数;
零假设和对立假设,零假设成立,则转换后的偏相关系数等于0成立,说明变量(i,j)在给定变量k时是方向分离的,即(i,j)之间的边可以被删除且k属于(i,j)的分离集S(i,j),反之则(i,j)不是方向分离的:
H0(i,j|k):ρi,j|k=0
H1(i,j|k):ρi,j|k≠0
若经假设检验得到对立假设H1成立,则通过假设检验规则计算得到的数值最终会在煤成分数据的贝叶斯网络结构中以元素节点之间边的宽度的形式体现出来,两个元素节点之间的边越宽,代表其关联越强,越可能存在相同或相似的赋存状态。
优选的,步骤三中,首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理,并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证,得到元素赋存状态分析结论。
因此,本发明采用上述基于图模型的煤成分数据分析方法,具有以下有益效果:
(1)本发明提出了一种新的煤中元素赋存状态的分析方法,该方法注重对全煤基数据的观察,在样本数据集的基础上使用贝叶斯网络结构学习算法来分析煤中元素的赋存状态,借助图像直观地反映元素之间的关联。
(2)本发明借助贝叶斯网络结构学习算法发现新的元素赋存状态进而得出可能的地质成因分析结果,在此基础上,将实验结果与根据实际地质背景得到的元素赋存状态分析结果进行综合对比,本发明采用的方法具有可行性和有效性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于图模型的煤成分数据分析方法的流程示意图;
图2为本发明实施例哈尔乌苏煤矿的煤成分数据图;
图3为本发明实施例哈尔乌苏矿区元素数据的贝叶斯网络结构图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例
图1为本发明一种基于图模型的煤成分数据分析方法的流程示意图;图2为本发明实施例哈尔乌苏煤矿的煤成分数据图;图3为本发明实施例哈尔乌苏矿区元素数据的贝叶斯网络结构图。
本实施例以内蒙古准格尔煤田哈尔乌苏矿区的元素数据分析为例。
如图1所示,本发明所述的一种基于图模型的煤成分数据分析方法,包括以下步骤:
步骤一,煤炭数据预处理:对煤炭化学数据进行清洗,删除缺失样本并将低于检测限的数据删除。
哈尔乌苏煤矿的煤成分数据进行数据预处理如图2所示。
步骤二,借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态。
以偏相关系数为基础,在完成费雪变换后进行显著性检验,得到煤中元素的贝叶斯网络骨架,然后根据算法规则确定每条边的方向得到完整的贝叶斯网络结构图,进而对不同矿区煤中元素可能存在的赋存状态进行分析。
因为成分数据是一种特殊且常见的数据类型,包括化学组分数据、微生物组成数据等。由于成分数据的组成部分之间具有约束关系,传统的数据分析方法(如PCA、回归分析等)可能无法直接应用于这类数据。贝叶斯网络结构学习算法可以通过建立变量之间的概率关系来分析成分数据。例如,在煤地区化学组分数据中,可以使用贝叶斯网络结构学习算法来研究不同化学成分之间的关系。通过构建贝叶斯网络,可以揭示各个化学成分之间的条件依赖性和独立性关系,帮助分析人员更好地理解和解释数据。
Peter-Clark算法是非常有效的著名的贝叶斯网络结构学习算法。在本发明中使用Peter-Clark算法来学习给定的来自不同矿区的煤成分数据的网络结构,即元素之间的依赖关系。在Peter-Clark算法执行结束时,可以得到基于当前数据集的贝叶斯网络结构。贝叶斯网络基础结构中的边代表了变量节点之间的依赖关系,直接相邻的元素赋存状态被认为是相似的。因此,本发明借助Peter-Clark算法得到的贝叶斯网络来分析煤中元素之间的依赖关系,进而分析各个矿区的煤成分数据集中元素之间的赋存状态。哈尔乌苏矿区元素数据的贝叶斯网络结构图如图3所示。
一个有向无环图G=(V,E)包括一个顶点集合V={1,......,p}和一个边集合(即,边集合E是不同顶点的有序对集合的子集),设M、N和Z是图G中的三个不同的(交集为空)顶点子集,则当且仅当对于从M中的顶点到N中的顶点所有路径,都有一个顶点z满足以下两个条件之一时,M和N被称为是被Z方向分离的。两个条件:z具备汇聚箭头且z及其后代节点都不属于集合Z;z不具备汇聚箭头而且z属于集合Z。
(1)依赖关系确立:
设V是输入点集,有以下步骤:
①在V上生成完全无向图,
②对于G中的两个相邻点,如果i和j能在给定节点k时条件独立,则删除i和j之间的边。
这样会得到一个无向图,图中的无向边表示它连接的两个节点之间有依赖关系,这种无向图叫作骨架。通过Peter-Clark算法把上述过程转化为方向分离问题。
在无向图的基础上,通过方向判定规则得到最终的有向无环图或完备的部分有向无环图。具体过程为,每次判定节点对之间的方向分离关系时,记录分离集S(i,j)。然后对于所有具有共同邻居k的不相邻节点对(i,j),判断k是否属于(i,j)的分离集,如果不属于,则用i→k←j替换无向图中的i-k-j。在此过程结束后得到的部分有向无环图中,通过循环地应用以下规则给尽可能多的无向边确定方向:
规则1:只要存在一个有向边i→j,使i和k不相邻,将j-k修改为j→k;
规则2:只要存在一个链式结构i→k→j,将i-j修改为i→j;
规则3:当存在两个链式结构i-k→j和i-l→j,使得k和l不相邻,将i-j修改为i→j;
规则4:当存在两个链式结构i-k→l和k→l→j,使得k和l不相邻,将i-j修改为i→j。
(2)步骤二中的相关公式为:
偏相关系数:偏相关系数指校正其它变量后某一变量与另一变量的相关关系。
任意两个变量i,j的h阶(排除其他h个变量的影响后,h<=k-2)偏相关系数为:
变量对应于煤成分数据表中的列数据,任意一个变量都对应一个元素,即煤成分数据贝叶斯网络结构中的节点,变量顺序与输入数据的列顺序一致。变量之间的偏相关系数代表元素成分之间的偏向关系。
费雪变换:为了判断偏相关系数是否为0,需要将偏相关系数通过费雪变换转换成正态分布,公式如下:
假设检验规则:
其中,α代表假设检验的显著性水平,Φ(·)代表正态分布N(0,1)的累积分布函数。
零假设和对立假设,零假设成立,则转换后的偏相关系数等于0成立,说明变量(i,j)在给定变量k时是方向分离的,即(i,j)之间的边可以被删除且k属于(i,j)的分离集S(i,j),反之则(i,j)不是方向分离的:
H0(i,j|k):ρi,j|k=0
H1(i,j|k):ρi,j|k≠0
若经假设检验得到对立假设H1成立,则通过假设检验规则计算得到的数值最终会在煤成分数据的贝叶斯网络结构中以元素节点之间边的宽度的形式体现出来,两个元素节点之间的边越宽,代表其关联越强,越可能存在相同或相似的赋存状态。
步骤三,元素赋存状态的组合分析。
首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理,并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证,得到元素赋存状态分析结论。
本实施例中以不同矿区的地质背景资料为基础,结合传统的相关系数、层次聚类等方法,整理归纳不同矿区元素可能出现的赋存状态,通过贝叶斯网络图模型和地质背景的组合分析来达到精准分析煤中元素的赋存状态的目的。
因此,本发明采用上述基于图模型的煤成分数据分析方法,使用贝叶斯网络结构学习算法,发掘不同矿区中煤成分数据的网络结构,进而得到基于贝叶斯网络的煤中元素的赋存状态分析结果;同时,结合不同矿区的地质背景对可能出现的赋存状态进行对比总结和归纳。本发明通过以上流程形成的组合分析提供了矿区的煤中元素赋存状态的精确分析和可视化解决方案。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (1)
1.一种基于图模型的煤成分数据分析方法,其特征在于:包括以下步骤:
步骤一,煤炭数据预处理;
步骤二,借助贝叶斯网络结构挖掘不同矿区元素存在的赋存状态;
步骤三,元素赋存状态的组合分析;
步骤一中,对煤炭化学数据进行清洗,删除缺失样本并将低于检测限的数据删除;
步骤二中,以偏相关系数为基础,在完成费雪变换后进行显著性检验,得到煤中元素的贝叶斯网络骨架,根据算法规则确定每条边的方向得到贝叶斯网络结构图,对不同矿区煤中元素存在的赋存状态进行分析;
步骤二中,使用Peter-Clark算法学习来自不同矿区的煤成分数据的网络结构;一个有向无环图G=(V,E)包括一个顶点集合V={1,......,p}和一个边集合设M、N和Z是图G中的三个不同的顶点子集,对于从M中的顶点到N中的顶点的路径,均有一个顶点z满足以下两个条件之一时,M和N称为是被Z方向分离的;
两个条件:z具备汇聚箭头且z及其后代节点不属于集合Z;z不具备汇聚箭头而且z属于集合Z;
步骤二中,依赖关系确立:
设V是输入点集,包括步骤为:
在V上生成完全无向图,
对于G中的两个相邻点,如果i和j在给定节点k时条件独立,删除i和j之间的边;
后得到一个无向图,此无向图叫作骨架,通过Peter-Clark算法把上述过程转化为方向分离问题;
在无向图的基础上,通过方向判定规则得到最终的有向无环图,每次判定节点对之间的方向分离关系时,记录分离集S(i,j),对于所有具有共同邻居k的不相邻节点对(i,j),判断k是否属于(i,j)的分离集;如果不属于,用i→k←j替换无向图中的i-k-j;
步骤二中,相关公式为:
偏相关系数:
任意两个变量i,j的h阶偏相关系数为:
费雪变换:判断偏相关系数是否为0,将偏相关系数通过费雪变换转换成正态分布,公式如下:
假设检验规则:
其中,α代表假设检验的显著性水平,Φ(·)代表正态分布N(0,1)的累积分布函数;
零假设和对立假设,零假设成立,转换后的偏相关系数等于0成立,变量(i,j)在给定变量k时是方向分离的:
H0(i,j|k):ρi,j|k=0
H1(i,j|k):ρi,j|k≠0
若经假设检验得到对立假设H1成立,通过假设检验规则计算得到的数值会在煤成分数据的贝叶斯网络结构中以元素节点之间边的宽度的形式体现;
步骤三中,首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理,并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证,得到元素赋存状态分析结论。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758527.XA CN116779055B (zh) | 2023-06-26 | 2023-06-26 | 一种基于图模型的煤成分数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310758527.XA CN116779055B (zh) | 2023-06-26 | 2023-06-26 | 一种基于图模型的煤成分数据分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116779055A CN116779055A (zh) | 2023-09-19 |
CN116779055B true CN116779055B (zh) | 2024-03-15 |
Family
ID=88009594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310758527.XA Active CN116779055B (zh) | 2023-06-26 | 2023-06-26 | 一种基于图模型的煤成分数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779055B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001157851A (ja) * | 1999-12-02 | 2001-06-12 | Mitsubishi Heavy Ind Ltd | 石炭粉砕性自動推定方法とその装置 |
WO2005083447A1 (fr) * | 2004-02-27 | 2005-09-09 | Zhen Wang | Procede et dispositif de controle en ligne pour un appareil de conversion de combustible fossile |
JP2007207101A (ja) * | 2006-02-03 | 2007-08-16 | Infocom Corp | グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム |
CN107103000A (zh) * | 2016-02-23 | 2017-08-29 | 广州启法信息科技有限公司 | 一种基于关联规则与贝叶斯网络集成的推荐技术 |
CN108489912A (zh) * | 2018-05-11 | 2018-09-04 | 东北大学 | 一种基于煤炭光谱数据的煤炭成分分析方法 |
KR20220033673A (ko) * | 2020-09-10 | 2022-03-17 | 정원희 | 석탄의 공업 분석 데이터를 활용한 원소 및 회성분을 추정하기 위한 장치 및 방법 |
CN115565623A (zh) * | 2022-10-19 | 2023-01-03 | 中国矿业大学(北京) | 一种煤地质成分的分析方法、系统、电子设备及存储介质 |
-
2023
- 2023-06-26 CN CN202310758527.XA patent/CN116779055B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001157851A (ja) * | 1999-12-02 | 2001-06-12 | Mitsubishi Heavy Ind Ltd | 石炭粉砕性自動推定方法とその装置 |
WO2005083447A1 (fr) * | 2004-02-27 | 2005-09-09 | Zhen Wang | Procede et dispositif de controle en ligne pour un appareil de conversion de combustible fossile |
JP2007207101A (ja) * | 2006-02-03 | 2007-08-16 | Infocom Corp | グラフ生成方法、グラフ生成プログラム並びにデータマイニングシステム |
CN107103000A (zh) * | 2016-02-23 | 2017-08-29 | 广州启法信息科技有限公司 | 一种基于关联规则与贝叶斯网络集成的推荐技术 |
CN108489912A (zh) * | 2018-05-11 | 2018-09-04 | 东北大学 | 一种基于煤炭光谱数据的煤炭成分分析方法 |
KR20220033673A (ko) * | 2020-09-10 | 2022-03-17 | 정원희 | 석탄의 공업 분석 데이터를 활용한 원소 및 회성분을 추정하기 위한 장치 및 방법 |
CN115565623A (zh) * | 2022-10-19 | 2023-01-03 | 中国矿业大学(北京) | 一种煤地质成分的分析方法、系统、电子设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
Advocating the Use of Bayesian Network in Analyzing the Modes of Occurrence of Elements in Coal;Na Xu 等;《ACS Omega》;A-N * |
Selection of machine learning algorithms in coalbed methane content predictions;Guo Yan-Sheng;《APPLIED GEOPHYSICS》;第19卷(第4期);1-16 * |
基于多源信息融合技术的煤层气风险控制模型研究;王玉婷;《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》(第9期);B019-63 * |
天然源面波在采空区探测中的应用;于淼 等;《煤炭技术》;第32卷(第12期);85-86 * |
机器学习在煤的地球化学中的应用;许娜 等;《煤炭学报》;第47卷(第5期);1895-1907 * |
Also Published As
Publication number | Publication date |
---|---|
CN116779055A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Mapping geochemical anomalies through integrating random forest and metric learning methods | |
Huang et al. | Discovering colocation patterns from spatial data sets: a general approach | |
Harris et al. | Effective use and interpretation of lithogeochemical data in regional mineral exploration programs: application of Geographic Information Systems (GIS) technology | |
Abedi et al. | Clustering of mineral prospectivity area as an unsupervised classification approach to explore copper deposit | |
Deng et al. | Compass: Towards better causal analysis of urban time series | |
Li et al. | Prospectivity mapping for tungsten polymetallic mineral resources, Nanling metallogenic belt, south China: Use of random forest algorithm from a perspective of data imbalance | |
Liu et al. | Maximum entropy modeling for orogenic gold prospectivity mapping in the Tangbale-Hatu belt, western Junggar, China | |
Yang et al. | Quantification of uncertainty associated with evidence layers in mineral prospectivity mapping using direct sampling and convolutional neural network | |
Zhang et al. | Geochemically constrained prospectivity mapping aided by unsupervised cluster analysis | |
Chen et al. | Metallogenic prediction based on fractal theory and machine learning in Duobaoshan Area, Heilongjiang Province | |
Li et al. | Visual analysis of air pollution spatio-temporal patterns | |
CN116779055B (zh) | 一种基于图模型的煤成分数据分析方法 | |
Yu et al. | Land use classification of open-pit mine based on multi-scale segmentation and random forest model | |
Wang et al. | Determination of predictive variables in mineral prospectivity mapping using supervised and unsupervised methods | |
Zhao et al. | Lithofacies identification of shale reservoirs using a tree augmented Bayesian network: A case study of the lower Silurian Longmaxi formation in the changning block, South Sichuan basin, China | |
Chen et al. | The anomaly detector, semi-supervised classifier, and supervised classifier based on k-nearest neighbors in geochemical anomaly detection: a comparative study | |
Liu et al. | A process-oriented spatiotemporal clustering method for complex trajectories of dynamic geographic phenomena | |
Cracknell et al. | Catchment-based gold prospectivity analysis combining geochemical, geophysical and geological data across northern Australia | |
Medjadba et al. | Combining graph clustering and quantitative association rules for knowledge discovery in geochemical data problem | |
Yang et al. | Mineralized-anomaly identification based on convolutional sparse autoencoder network and isolated forest | |
Zhao et al. | Investigating the spatial distribution of antimony geochemical anomalies located in the Yunnan-Guizhou-Guangxi region, China | |
Fang et al. | An adaptive Origin-Destination flows cluster-detecting method to identify urban mobility trends | |
Granek et al. | Advanced geoscience targeting via focused machine learning applied to the QUEST project dataset, British Columbia | |
Fang et al. | Graph convolutional network for lithological classification and mapping using stream sediment geochemical data and geophysical data | |
Chatterjee et al. | Exploring the uncertainty of machine learning models and geostatistical mapping of rare earth element potential in Indiana coals, USA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |