CN112699595A

CN112699595A - 一种基于特征选择与gbdt模型的矿井突水水源判别方法

Info

Publication number: CN112699595A
Application number: CN202011090956.7A
Authority: CN
Inventors: 单耀; 郭瑞强; 朱加锋; 马兆峰; 杨连超
Original assignee: North China Institute of Science and Technology; Shanxi Luan Environmental Energy Development Co Ltd
Current assignee: North China Institute of Science and Technology; Shanxi Luan Environmental Energy Development Co Ltd
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-04-23

Abstract

本发明公开了一种基于特征选择与GBDT模型的矿井突水水源判别方法，包括：步骤S1：确定参与建模的含水层，在含水层采集水样，水样的数量为至少60组；步骤S2：测试每组水样的水质信息；步骤S3：利用R语言将多组水质信息按照7：3的比例分为训练数据集和测试数据集；步骤S4：对训练数据集采用随机森林的方法进行特征选择，选取3‑6个参数，并得到第一数据集；步骤S5：建立第一GBDT模型；步骤S6，建立第二GBDT模型。根据本发明的基于特征选择与GBDT模型的矿井突水水源判别方法，使用了随机森林方法进行特征选择，使用GBDT模型框架进行建模，可以提升模型结果的准确性。

Description

一种基于特征选择与GBDT模型的矿井突水水源判别方法

技术领域

本发明涉及煤矿水害防治技术领域，尤其是涉及一种基于特征选择与GBDT模型的矿井突水水源判别方法。

背景技术

矿井突水是煤矿五大灾害之一，给煤矿的安全高效生产，工作人员的人身安全带来了威胁。随着开采效率的提高，开采深度的加深，水害的威胁日益严重。在预防阶段，突水预兆显现阶段，水害治理阶段，准确确定突水的水源，是煤矿防治水工作的关键。

相关技术中，判别突水水源的方法有水文水位法、特征离子法、数理分析法等。水温水位法可作为突水水源初期的判断，同时在复杂的情况下，其判别的可操作性与准确性均有欠缺。特征离子法使用一些区分度强的离子为目标，建立判别准则。该方法主要应用了地球化学的技术手段。缺点在于特征离子的选择难以做到准确，其次特征离子所代表的维度较低，可以达到的区分度也较低。数理分析法有线性分析法与多元统计法等。多元分析法受到样本的限制。线性分析法常有多重共线性的问题，导致模型的不稳定。可见，上述几种方法均存在测试结果不准确的问题。

发明内容

本发明提出了一种基于特征选择与GBDT模型的矿井突水水源判别方法，利用所述基于特征选择与GBDT模型的矿井突水水源判别方法可以提升检测的准确性。

根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法，包括：步骤S1：确定参与建模的含水层，在所述含水层采集水样，所述水样的数量为至少60组；步骤S2：测试每组所述水样的水质信息，所述水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值；步骤S3：利用多组所述水质信息建立Excel 表，将所述Excel表导入R语言，利用所述R语言将多组所述水质信息按照7：3的比例分为训练数据集和测试数据集；步骤S4：对所述训练数据集采用随机森林的方法进行特征选择，选取3-6个参数，并得到第一数据集；步骤S5：将GBDT模型框架应用于所述第一数据集，建立第一GBDT模型；步骤S6：将所述第一GBDT模型应用于所述第一数据集，删除所述第一数据集中的错误样本以形成第二数据集，将GBDT模型框架应用于所述第二数据集，建立第二GBDT模型。

根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法，使用了随机森林的方法和GBDT模型框架进行建模，考虑到每个判别参量的重要性有所差别，使用随机森林的方法进行特征选择，也就说可以在样本的角度选择更加具有代表性的数据进行建模，然后在模型参数解释方面使用准确度更好的GBDT模型，由此可以提升模型结果的准确性。

根据本发明的一些实施例，在所述步骤S2之后，且在所述步骤S3之前，所述方法还包括：将所述常量元素含量换算成当量浓度百分数，将所述微量元素含量换算成当量浓度。

根据本发明的一些实施例，在所述步骤S6后，所述方法还包括：利用所述测试数据集的数据对所述第二GBDT模型的准确性进行评价。

在本发明的一些实施例中，在所述步骤S6后，所述方法还包括：将所述第二GBDT模型应用于实际的预测判别环境进行验证。

根据本发明的一些实施例，所述含水层包括地表水、第四系含水层、煤系砂岩含水层、老空水和灰岩含水层中的至少两个，且应同时包含煤系砂岩含水层和灰岩含水层。

根据本发明的一些实施例，所述建立第一GBDT模型和所述建立第二GBDT模型应用所述R语言的gbm包完成。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。

下面参考附图描述根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法。

如图1所示，根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法，包括：步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。

具体地，如图1所示，步骤S1为确定参与建模的含水层，在含水层采集水样，水样的数量为至少60组。可以理解的是，水样的数量可以为60组、70组、80组或更多组。由此，可以提升样本的数量，从而提升模型的准确性。具体地，在本发明的一些实例中，水样的数量为至少60组，且重要含水层的水样各在30个以上。

在本发明的一些实施例中，水样包括煤系砂岩含水层水和灰岩含水层水，可包括地表水、第四系含水层水、老空水中的一个或多个。换言之，水样可以包括煤系砂岩含水层水和灰岩含水层水；或者，煤系砂岩含水层水、灰岩含水层水和地表水；或者，煤系砂岩含水层水、灰岩含水层水和第四系含水层水；或者，煤系砂岩含水层水、灰岩含水层水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水和第四系含水层水；或者，煤系砂岩含水层水、灰岩含水层水、第四系含水层水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水和老空水；或者，煤系砂岩含水层水、灰岩含水层水、地表水、第四系含水层水和老空水。例如，在发明的一个示例中，含水层包括华北型煤矿区的第四系含水层、煤系砂岩含水层、老空水和灰岩含水层，煤系砂岩含水层与灰岩含水层水样的数量各在30个以上，其余水样的数量在15个以上。

如图1所示，步骤S2为测试每组水样的水质信息，水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值。可以理解的是，不同位置的水样的常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值是不同的，通过对常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值的分析可以获取是不是突水。

如图1所示，步骤S3为利用多组水质信息建立Excel表，将Excel表导入R语言，利用R语言将多组水质信息按照7：3的比例分为训练数据集和测试数据集。可以理解的是，可以在R软件中导入Excel表并将多组水质信息按照7：3的比例随机分为训练数据集和测试数据集，利用训练数据集获取模型，利用测试数据集检测模型的准确性。

如图1所示，步骤S4为对训练数据集采用随机森林的方法进行特征选择，选取3-6个参数，并得到第一数据集。为方便使用计算，尽量用常量元素作为建模使用的特征参数，如有具有明显区分特征的微量元素也可作为建模使用的特征参数。由此，可以去处无关的或者关系较小的水质信息，避免这些水质信息干扰模型结果的准确性。

例如，在本发明的一个示例中，采用随机森林的方法进行特征选择的步骤如下：

(1)、设数据集X共包含N各样本，使用自助法(Bootstrap)从数据集中随机放回式抽取N各样本装入袋中，作为训练数据集。在这个过程中，每个样本没有被选中的概率是 p＝(1-1/N)^N。在N趋于+∞时，p≈0.37。这说明在自助法采样时，约有37％的样品没有被选中，称为袋外数据(OOB)。袋内数据用来训练模型，袋外数据用来评估模型。

(2)、共进行k次抽取，故可获得k个训练数据集。采用无剪枝的方法用每一个训练数据集建立决策树。在每一个节点的位置，从总数M个特征中随机选择m个特征，并计算 m个特征中每一个特征的Gini指数，Gin指数越小时，说明该特征的区分效果越好，选择最优的特征作为该分支节点。按照这种策略建立一个完整的决策树。

(3)、用k个数据集共可得到k个决策树，形成一个随机森林的模型。模型的质量可以用袋外数据(OOB)的预测准确率来评估。袋外数据的均方误差(MSE_OOB)和决定系数 (R_RF ²)如公式(1-a)和(1-b)，其中均方误差越小，决定系数越大，则说明该模型越优秀。

其中，n是袋外数据的数量，y_i是袋外数据的观测值，

是模型预测值，

是袋外数据预测方差。

(4)、使用平均不纯度减少值来选择重要的预测特征。在每一棵树的每个节点，应用公式(1-c)计算每个变量的Gini指数，计算每一棵树每一个节点上各特征的Gini指数，按照特征将所有的Gini指数取平均值，计算平均不纯度减少值。然后对每一个特征进行排序，就可以对各特征在模型中的重要性进行评分，以选择合适的特征进行建模。

其中pi是某个样本属于第i枝的概率，N是该节点处枝的总数，I_Gini是Gini指数。综合随机森林的分析方法与地球化学的分析确定重要的变量，以备建模使用，重要变量的选择以常量元素为主，微量元素、同位素及其它参数作为辅助，数量一般为3-6个。

如图1所示，步骤S5为：将GBDT模型框架应用于第一数据集，建立第一GBDT模型；步骤S6为：将第一GBDT模型应用于第一数据集，删除第一数据集中的错误样本以形成第二数据集，将GBDT模型框架应用于第二数据集，建立第二GBDT模型。

应用GBDT算法建立机器学习模型的步骤如下：

(1)初始化损失函数

其中N是数据集中数据的个数，y代表预测值，c代表基线模型的预测值 (2)对m＝1,2,…,M(M是训练的轮数)

(2.1)对i＝1,2,…,N(N是数据的个数)，计算

本例中计算的类型是分类，因此损失函数是由错判书决定的，其负梯度，即r_mi为

(2.2)对r_mi拟合一个回归树，得到第m棵树的叶节点区域R_mj，其中j＝1,2,…,J，

J是回归树的复杂度，表现为叶节点的个数

(2.3)对j＝1,2,…,J，计算

其中R_mj为回归水的叶节点区域，c为该叶节点的预测目标值

(2.4)更新

其中I为指示函数(条件成立时返回1，否则为0)

(3)得到最终模型

可以理解的是，利用第一GBDT模型可以检测第一数据集中的数据是否正确，并及时将错误的数据删除，以避免这些错误的数据干扰模型结果的准确性，同时利用新的正确的第二数据集得到最终的准确度较高的第二GBDT模型，可以提升模型结果的准确性。

需要说明的是，建模的时候有多个参量需要设定及优化，比较重要的参数有划分时考虑的最大特征数、决策树最大深度、其它可能需要考虑的参数主要有内部节点再划分时所需的最小样本数、叶子节点最少样本数、叶子节点最少样本权重、最大叶子节点数等。例如，模型中有3-6个变量计，该参数可优化为2或3。具体参数的优化还需要根据模型的判别表现来确定。将第一GBDT模型、第二GBDT模型回代，可以分析误判的数据，需要注意的是，除非明显错误，一般不再删除训练数据集中数据，如删除了部分数据，则需要再次训练数据。

在本发明的一个示例中，建立第一GBDT模型和建立第二GBDT模型在R语言的gbm包中完成。

根据本发明的一些实施例，在步骤S2之后，且在步骤S3之前，方法还包括：将常量元素含量换算成当量浓度百分数，将微量元素含量换算成当量浓度。由此，可以降低计算的难度，提升计算的效率，节省计算的时长。

根据本发明的一些实施例，在步骤S6后，方法还包括：利用测试数据集的数据对第二 GBDT模型的准确性进行评价。由此，可以利用测试数据集的数据对第二GBDT模型的准确性，并通过检测结果适应性的修改模型，从而可以进一步提升检测结果的可靠性。

在本发明的一些实施例中，在步骤S6后，方法还包括：将第二GBDT模型应用于实际的预测判别环境进行验证。由此，可以利用实际的预测判别环境对第二岭回归模型的准确性，并通过检测结果适应性的修改模型，从而可以进一步提升检测结果的可靠性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，包括：

步骤S1：确定参与建模的含水层，在所述含水层采集水样，所述水样的数量为至少60组；

步骤S2：测试每组所述水样的水质信息，所述水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值；

步骤S3：利用多组所述水质信息建立Excel表，将所述Excel表导入R语言，利用所述R语言将多组所述水质信息按照7：3的比例分为训练数据集和测试数据集；

步骤S4：对所述训练数据集采用随机森林的方法进行特征选择，选取3-6个参数，并得到第一数据集；

步骤S5：将GBDT模型框架应用于所述第一数据集，建立第一GBDT模型；

步骤S6：将所述第一GBDT模型应用于所述第一数据集，删除所述第一数据集中的错误样本以形成第二数据集，将GBDT模型框架应用于所述第二数据集，建立第二GBDT模型。

2.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，在所述步骤S2之后，且在所述步骤S3之前，所述方法还包括：将所述常量元素含量换算成当量浓度百分数，将所述微量元素含量换算成当量浓度。

3.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，在所述步骤S6后，所述方法还包括：利用所述测试数据集的数据对所述第二GBDT模型的准确性进行评价。

4.根据权利要求3所述的基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，在所述步骤S6后，所述方法还包括：将所述第二GBDT模型应用于实际的预测判别环境进行验证。

5.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，所述含水层包括地表水、第四系含水层、煤系砂岩含水层、老空水和灰岩含水层中的至少两个，且应同时包含煤系砂岩含水层和灰岩含水层。

6.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法，其特征在于，所述建立第一GBDT模型和所述建立第二GBDT模型在所述R语言的gbm包中完成。