CN116779055B

CN116779055B - 一种基于图模型的煤成分数据分析方法

Info

Publication number: CN116779055B
Application number: CN202310758527.XA
Authority: CN
Inventors: 许娜; 李强; 朱伟; 王志玮; 汪茹
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2024-03-15
Anticipated expiration: 2043-06-26
Also published as: CN116779055A

Abstract

本发明公开了一种基于图模型的煤成分数据分析方法，包括以下步骤：步骤一，煤炭数据预处理；步骤二，借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态；步骤三，元素赋存状态的组合分析。本发明采用上述基于图模型的煤成分数据分析方法，使用贝叶斯网络结构学习算法，发掘不同矿区中煤成分数据的网络结构，进而得到基于贝叶斯网络的煤中元素的赋存状态分析结果；同时，结合不同矿区的地质背景对可能出现的赋存状态进行对比总结和归纳。本发明通过以上流程形成的组合分析提供了矿区的煤中元素赋存状态的精确分析和可视化解决方案。

Description

一种基于图模型的煤成分数据分析方法

技术领域

本发明涉及煤成分数据分析技术领域，尤其是涉及一种基于图模型的煤成分数据分析方法。

背景技术

煤炭是一种重要的不可再生资源，作为一种特殊的沉积有机岩石，其资源量和产量巨大，分布范围广阔。

煤是一种极其复杂的，不均匀的物质。认为不同等级、不同地区、不同煤种、不同地质年代的煤中元素的赋存状态相似是不合理的。然而，作为共同的因素，所有的煤都是由降解的植物物质形成的，所有的煤都接受了来自普通地壳岩石的碎屑颗粒，所有的煤都经历了地质时期的还原条件和广泛的高温高压。这些普遍的条件往往导致许多元素出现相同的赋存状态。例如：硅通常以石英和粘土的形式出现；铝主要赋存于粘土中；黄铁矿和菱铁矿中的铁；各种碳酸盐中的钙；锆石中的锆。但是大多数元素，都有多种赋存状态，准确分析煤中元素的赋存状态具有非常重要的意义：(1)通过分析煤中元素的赋存状态可以推断出元素的来源并进而分析煤形成的地质过程；(2)关键元素可以从煤的燃烧产物中回收利用，所以研究煤和煤的燃烧产物中元素的赋存状态对充分合理地规划和利用煤炭资源、实现煤炭经济循环发展有重要意义；(3)了解煤中元素的赋存状态有助于解决采矿、加工和煤炭利用中遇到的许多技术问题，推动相关技术的发展；(4)了解煤中元素的赋存状态对于预测其对环境和人类健康的潜在影响、减少煤炭利用过程中所带来的环境污染问题具有至关重要的现实意义。

测定煤中元素赋存状态的分析方法有两类：直接法和间接法。直接方法包括光学显微镜、质子诱导X射线发射(PIXE)、X射线衍射(XRD)等。间接方法包括浮沉法(或称密度分离法)、选择性浸出法和统计分析方法(主要包括相关分析、聚类分析和主成分分析)。目前被广泛用于推断煤中元素赋存状态的统计分析方法通常包括相关分析、聚类分析和主成分分析。但是统计分析方法始终存在一些争议。Eskanazy等人指出了在使用统计分析方法确定煤中元素赋存状态时可能存在的一些问题，并警告必须认真考虑地球化学原理。Dai等人回顾了煤地球化学中常用的统计分析方法，如聚类分析、相关分析等，并指出统计分析在解释煤中元素的赋存状态时并不总是正确的。值得注意的是，无论采用哪种统计方法来确定煤中元素的赋存状态，所有的元素都将符合Goldschmidt的普遍地球化学原则。

相关分析用于确定煤中元素浓度与灰分产量或定量矿物之间的统计相关性。正相关和负相关分别表示元素可能是无机和有机关联；弱相关可能表示有机-无机混合关联。虽然从统计学上推断元素与矿物的关联是很简单的，甚至可以根据常量和微量元素的存在来假设矿物的存在，但无论多少次证明它是正确的，这种方法都是有内在缺陷的。许多学者，包括Finkelman、Glick和Davis、Eskanazy等人、Geboy等人和Dai等人已经敦促在使用相关性时非常谨慎。没有办法替代对样本进行仔细的调查来确认或否认统计相关性。而且在进行评估时必须考虑多种可能性，因为具备百分比浓度的灰分产量和主要氧化物与具有百万分比浓度的微量元素之间的相关性可能具有欺骗性，这意味着统计学和地质学意义不一定能等同起来。另外，数据的基础是一个至关重要的信息，在某些情况下，基于不同的基础(如全煤基和灰基)的统计分析结果得出的煤中元素的赋存状态是不一致的。例如，Zhao等人发现在中国大青山煤田大炭壕煤矿的晚古生代全煤基样品中Zr和Al2O3、Nb和Al2O3之间存在可观测的相关性；但在灰基上Zr、Nb与Al2O3之间均不存在相关性。Zhao等人将这种不一致的关系归因于煤地球化学数据的组成性质和相关元素的实际赋存状态。如果其中一种或两种元素都有部分有机关联，那么两种元素之间的关系在灰基上似乎没有太大意义；然而，如果这两种元素都有唯一的矿物关联，则使用未被有机质稀释的灰基数据可能比使用全煤基数据更合理。此外，Dai等人指出仅基于相关系数的评估是有问题的，少量的离群点相对于一组距离较远且随机的点可能会产生没有现实基础的高相关系数。因此，展示X-Y图是很重要的，可以让研究人员辨别此类统计信息的有效性。

多变量分析技术(如聚类分析和主成分分析)也可用于分析煤成分数据中元素的赋存状态。聚类分析是一种可以将煤中元素分组的技术。与在不同组中的元素相比，同一组中的元素彼此的赋存状态更加相似。聚类分析方法被用来生成聚类图，说明元素赋存状态的相似性或差异程度，从而深入了解煤成分数据中元素可能的共同或不同的赋存状态。主成分分析通过最大化每个维度的方差将高维的煤成分数据投射到低维空间中，同时尽可能多地保留住统计信息。这两种方法的一个潜在问题是煤成分数据之间通常会相差几个数量级，这可能会导致分析结果精确度的损失，特别是在常量元素和微量元素数据被组合时，这种影响会格外明显，在这种情况下，需要考虑使用加权因子，以保持准确性。

Geboy等人指出，尽管同一套样品的相关系数测量结果可能因为使用的报告基不同而有很大差异，但这种差异是由地球化学数据的恒和封闭性导致的。Xu等人提出一种改进的加性对数比转换方法，来解决通过不同数据基础(全煤基和灰基)推导出的赋存状态的不一致问题；然后基于层次聚类算法，建立了针对全煤基和灰基的性能评估预测模型。Xu等人提出的改进的加性对数比方法在预测煤中元素赋存状态方面比稳定性方法(stability)更有效，因此可以用于对煤成分数据进行一致性解释。Glick和Davis使用主成分分析和聚类分析检查了来自美国6个煤炭省份的335种煤炭。主成分分析特别表明，U、Na和Mn可能存在有机关联。它们的第一个无机组分由强Al-Si和粘土组成，含有Si、Al、K、Rb、Ti、Sc、V、Yb、Ga、Y和La。第二组分反映了与硫化物的关联，以Fe、Zn和S形式为主。第三组表明碳酸盐和潜在的低等级煤的有机关联，主要是Ca、Mn和Mg。Collins使用主成分分析和聚类分析检查了美国的东肯塔基煤。主成分一被解释为有机物与石英和Al-Si矿物之间的对比，表明与灰分产量、Al、Si、REE和K有正的相关系数。主成分二被解释为与煤中的有机物和等级与黄铁矿有关，与Fe、硫铁矿、As和灰分有负相关。主成分三被解释为有机和硫化物关联与盐水和等级参数之间的对比。其他的主成分也被发现了，但是没有前三种成分那么明显，支持它们的地质推理也没有那么有力。虽然Glick和Davis以及Collins的评估结果之间存在一些相似之处，但不同之处在于覆盖范围的性质，Collins研究区域较小，样本数量较多，分析的广度也较大。

总的来说，煤中元素的赋存状态，可分为无机、有机、亲密有机联系。尽管许多元素在煤中有共同的赋存状态，但也有许多例外，大多数(如果不是全部)元素有多种赋存状态。元素的每一种赋存状态可以表现出不同的置信水平：即确定、大概率、可能、可疑、不可能；并且可能以不同的频率出现在煤中，即丰富、常见、不常见、罕见、不可能。不同煤中不同元素的不同赋存状态取决于煤形成的地质条件，但是由于所使用的分析方法的局限性，一些煤中元素赋存状态的分析结果不能令人信服，在某些情况下是无效的甚至是有误导性的。总的来说，虽然精确地测定煤中许多元素的浓度并不困难，但是确定某些元素的赋存状态，特别是那些低浓度且高挥发性的元素，仍然是一个难题。

目前主流的煤炭地质成分数据处理方法包括相关系数、层次聚类、主成分分析等算法。其中相关系数可能会导致误解，层次聚类、主成分分析受到算法原理的局限，存在无法真实展现元素间复杂关系的缺点。

发明内容

本发明的目的是提供一种基于图模型的煤成分数据分析方法，解决上述背景技术中提出的问题。

为实现上述目的，本发明提供了一种基于图模型的煤成分数据分析方法，包括以下步骤：

步骤一，煤炭数据预处理；

步骤二，借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态；

步骤三，元素赋存状态的组合分析。

优选的，步骤一中，对煤炭化学数据进行清洗，删除缺失样本并将低于检测限的数据删除。

优选的，步骤二中，以偏相关系数为基础，在完成费雪变换后进行显著性检验，得到煤中元素的贝叶斯网络骨架，然后根据算法规则确定每条边的方向得到完整的贝叶斯网络结构图，进而对不同矿区煤中元素可能存在的赋存状态进行分析。

优选的，步骤二中，使用Peter-Clark算法来学习给定的来自不同矿区的煤成分数据的网络结构；一个有向无环图G＝(V,E)包括一个顶点集合V＝{1,......,p}和一个边集合设M、N和Z是图G中的三个不同的顶点子集，则当且仅当对于从M中的顶点到N中的顶点所有路径，都有一个顶点z满足以下两个条件之一时，M和N被称为是被Z方向分离的；

两个条件：z具备汇聚箭头且z及其后代节点都不属于集合Z；z不具备汇聚箭头而且z属于集合Z。

优选的，步骤二中，依赖关系确立：

设V是输入点集，包括步骤为：

在V上生成完全无向图，

对于G中的两个相邻点，如果i和j能在给定节点k时条件独立，则删除i和j之间的边；

后得到一个无向图，图中的无向边表示它连接的两个节点之间有依赖关系，这种无向图叫作骨架，通过Peter-Clark算法把上述过程转化为方向分离问题。

在无向图的基础上，通过方向判定规则得到最终的有向无环图或完备的部分有向无环图。具体过程为，每次判定节点对之间的方向分离关系时，记录分离集S(i,j)。然后对于所有具有共同邻居k的不相邻节点对(i,j)，判断k是否属于(i,j)的分离集，如果不属于，则用i→k←j替换无向图中的i-k-j。在此过程结束后得到的部分有向无环图中，通过循环地应用以下规则给尽可能多的无向边确定方向：

规则1：只要存在一个有向边i→j，使i和k不相邻，将j-k修改为j→k；

规则2：只要存在一个链式结构i→k→j，将i-j修改为i→j；

规则3：当存在两个链式结构i-k→j和i-l→j，使得k和l不相邻，将i-j修改为i→j；

规则4：当存在两个链式结构i-k→l和k→l→j，使得k和l不相邻，将i-j修改为i→j。

优选的，步骤二中，相关公式为：

偏相关系数：

任意两个变量i，j的h阶偏相关系数为：

变量对应于煤成分数据表中的列数据，任意一个变量都对应一个元素，即煤成分数据贝叶斯网络结构中的节点，变量顺序与输入数据的列顺序一致。变量之间的偏相关系数代表元素成分之间的偏向关系。

费雪变换：为了判断偏相关系数是否为0，需要将偏相关系数通过费雪变换转换成正态分布，公式如下：

假设检验规则：

其中，α代表假设检验的显著性水平，Φ(·)代表正态分布N(0,1)的累积分布函数；

零假设和对立假设，零假设成立，则转换后的偏相关系数等于0成立，说明变量(i,j)在给定变量k时是方向分离的，即(i,j)之间的边可以被删除且k属于(i,j)的分离集S(i,j)，反之则(i,j)不是方向分离的：

H₀(i,j|k):ρ_i,j|k＝0

H₁(i,j|k):ρ_i,j|k≠0

若经假设检验得到对立假设H₁成立，则通过假设检验规则计算得到的数值最终会在煤成分数据的贝叶斯网络结构中以元素节点之间边的宽度的形式体现出来，两个元素节点之间的边越宽，代表其关联越强，越可能存在相同或相似的赋存状态。

优选的，步骤三中，首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理，并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证，得到元素赋存状态分析结论。

因此，本发明采用上述基于图模型的煤成分数据分析方法，具有以下有益效果：

(1)本发明提出了一种新的煤中元素赋存状态的分析方法，该方法注重对全煤基数据的观察，在样本数据集的基础上使用贝叶斯网络结构学习算法来分析煤中元素的赋存状态，借助图像直观地反映元素之间的关联。

(2)本发明借助贝叶斯网络结构学习算法发现新的元素赋存状态进而得出可能的地质成因分析结果，在此基础上，将实验结果与根据实际地质背景得到的元素赋存状态分析结果进行综合对比，本发明采用的方法具有可行性和有效性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于图模型的煤成分数据分析方法的流程示意图；

图2为本发明实施例哈尔乌苏煤矿的煤成分数据图；

图3为本发明实施例哈尔乌苏矿区元素数据的贝叶斯网络结构图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

图1为本发明一种基于图模型的煤成分数据分析方法的流程示意图；图2为本发明实施例哈尔乌苏煤矿的煤成分数据图；图3为本发明实施例哈尔乌苏矿区元素数据的贝叶斯网络结构图。

本实施例以内蒙古准格尔煤田哈尔乌苏矿区的元素数据分析为例。

如图1所示，本发明所述的一种基于图模型的煤成分数据分析方法，包括以下步骤：

步骤一，煤炭数据预处理：对煤炭化学数据进行清洗，删除缺失样本并将低于检测限的数据删除。

哈尔乌苏煤矿的煤成分数据进行数据预处理如图2所示。

步骤二，借助贝叶斯网络结构挖掘不同矿区元素可能存在的赋存状态。

以偏相关系数为基础，在完成费雪变换后进行显著性检验，得到煤中元素的贝叶斯网络骨架，然后根据算法规则确定每条边的方向得到完整的贝叶斯网络结构图，进而对不同矿区煤中元素可能存在的赋存状态进行分析。

因为成分数据是一种特殊且常见的数据类型，包括化学组分数据、微生物组成数据等。由于成分数据的组成部分之间具有约束关系，传统的数据分析方法(如PCA、回归分析等)可能无法直接应用于这类数据。贝叶斯网络结构学习算法可以通过建立变量之间的概率关系来分析成分数据。例如，在煤地区化学组分数据中，可以使用贝叶斯网络结构学习算法来研究不同化学成分之间的关系。通过构建贝叶斯网络，可以揭示各个化学成分之间的条件依赖性和独立性关系，帮助分析人员更好地理解和解释数据。

Peter-Clark算法是非常有效的著名的贝叶斯网络结构学习算法。在本发明中使用Peter-Clark算法来学习给定的来自不同矿区的煤成分数据的网络结构，即元素之间的依赖关系。在Peter-Clark算法执行结束时，可以得到基于当前数据集的贝叶斯网络结构。贝叶斯网络基础结构中的边代表了变量节点之间的依赖关系，直接相邻的元素赋存状态被认为是相似的。因此，本发明借助Peter-Clark算法得到的贝叶斯网络来分析煤中元素之间的依赖关系，进而分析各个矿区的煤成分数据集中元素之间的赋存状态。哈尔乌苏矿区元素数据的贝叶斯网络结构图如图3所示。

一个有向无环图G＝(V,E)包括一个顶点集合V＝{1,......,p}和一个边集合(即，边集合E是不同顶点的有序对集合的子集)，设M、N和Z是图G中的三个不同的(交集为空)顶点子集，则当且仅当对于从M中的顶点到N中的顶点所有路径，都有一个顶点z满足以下两个条件之一时，M和N被称为是被Z方向分离的。两个条件：z具备汇聚箭头且z及其后代节点都不属于集合Z；z不具备汇聚箭头而且z属于集合Z。

(1)依赖关系确立：

设V是输入点集，有以下步骤：

①在V上生成完全无向图，

②对于G中的两个相邻点，如果i和j能在给定节点k时条件独立，则删除i和j之间的边。

这样会得到一个无向图，图中的无向边表示它连接的两个节点之间有依赖关系，这种无向图叫作骨架。通过Peter-Clark算法把上述过程转化为方向分离问题。

规则2：只要存在一个链式结构i→k→j，将i-j修改为i→j；

(2)步骤二中的相关公式为：

偏相关系数：偏相关系数指校正其它变量后某一变量与另一变量的相关关系。

任意两个变量i，j的h阶(排除其他h个变量的影响后，h<＝k-2)偏相关系数为：

假设检验规则：

其中，α代表假设检验的显著性水平，Φ(·)代表正态分布N(0,1)的累积分布函数。

H₀(i,j|k):ρ_i,j|k＝0

H₁(i,j|k):ρ_i,j|k≠0

步骤三，元素赋存状态的组合分析。

首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理，并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证，得到元素赋存状态分析结论。

本实施例中以不同矿区的地质背景资料为基础，结合传统的相关系数、层次聚类等方法，整理归纳不同矿区元素可能出现的赋存状态，通过贝叶斯网络图模型和地质背景的组合分析来达到精准分析煤中元素的赋存状态的目的。

因此，本发明采用上述基于图模型的煤成分数据分析方法，使用贝叶斯网络结构学习算法，发掘不同矿区中煤成分数据的网络结构，进而得到基于贝叶斯网络的煤中元素的赋存状态分析结果；同时，结合不同矿区的地质背景对可能出现的赋存状态进行对比总结和归纳。本发明通过以上流程形成的组合分析提供了矿区的煤中元素赋存状态的精确分析和可视化解决方案。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于图模型的煤成分数据分析方法，其特征在于：包括以下步骤：

步骤一，煤炭数据预处理；

步骤二，借助贝叶斯网络结构挖掘不同矿区元素存在的赋存状态；

步骤三，元素赋存状态的组合分析；

步骤一中，对煤炭化学数据进行清洗，删除缺失样本并将低于检测限的数据删除；

步骤二中，以偏相关系数为基础，在完成费雪变换后进行显著性检验，得到煤中元素的贝叶斯网络骨架，根据算法规则确定每条边的方向得到贝叶斯网络结构图，对不同矿区煤中元素存在的赋存状态进行分析；

步骤二中，使用Peter-Clark算法学习来自不同矿区的煤成分数据的网络结构；一个有向无环图G＝(V,E)包括一个顶点集合V＝{1,......,p}和一个边集合设M、N和Z是图G中的三个不同的顶点子集，对于从M中的顶点到N中的顶点的路径，均有一个顶点z满足以下两个条件之一时，M和N称为是被Z方向分离的；

两个条件：z具备汇聚箭头且z及其后代节点不属于集合Z；z不具备汇聚箭头而且z属于集合Z；

步骤二中，依赖关系确立：

设V是输入点集，包括步骤为：

在V上生成完全无向图，

对于G中的两个相邻点，如果i和j在给定节点k时条件独立，删除i和j之间的边；

后得到一个无向图，此无向图叫作骨架，通过Peter-Clark算法把上述过程转化为方向分离问题；

在无向图的基础上，通过方向判定规则得到最终的有向无环图，每次判定节点对之间的方向分离关系时，记录分离集S(i,j)，对于所有具有共同邻居k的不相邻节点对(i,j)，判断k是否属于(i,j)的分离集；如果不属于，用i→k←j替换无向图中的i-k-j；

步骤二中，相关公式为：

偏相关系数：

任意两个变量i，j的h阶偏相关系数为：

费雪变换：判断偏相关系数是否为0，将偏相关系数通过费雪变换转换成正态分布，公式如下：

假设检验规则：

零假设和对立假设，零假设成立，转换后的偏相关系数等于0成立，变量(i,j)在给定变量k时是方向分离的：

H₀(i,j|k):ρ_i,j|k＝0

H₁(i,j|k):ρ_i,j|k≠0

若经假设检验得到对立假设H₁成立，通过假设检验规则计算得到的数值会在煤成分数据的贝叶斯网络结构中以元素节点之间边的宽度的形式体现；

步骤三中，首先结合不同矿区实际的地质背景对元素可能出现的赋存状态进行归纳整理，并将借助贝叶斯网络分析得到的赋存状态分析结果与其对比进行验证，得到元素赋存状态分析结论。