CN112699595A - 一种基于特征选择与gbdt模型的矿井突水水源判别方法 - Google Patents

一种基于特征选择与gbdt模型的矿井突水水源判别方法 Download PDF

Info

Publication number
CN112699595A
CN112699595A CN202011090956.7A CN202011090956A CN112699595A CN 112699595 A CN112699595 A CN 112699595A CN 202011090956 A CN202011090956 A CN 202011090956A CN 112699595 A CN112699595 A CN 112699595A
Authority
CN
China
Prior art keywords
gbdt model
water
data set
feature selection
aquifer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011090956.7A
Other languages
English (en)
Inventor
单耀
郭瑞强
朱加锋
马兆峰
杨连超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Institute of Science and Technology
Shanxi Luan Environmental Energy Development Co Ltd
Original Assignee
North China Institute of Science and Technology
Shanxi Luan Environmental Energy Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Science and Technology, Shanxi Luan Environmental Energy Development Co Ltd filed Critical North China Institute of Science and Technology
Priority to CN202011090956.7A priority Critical patent/CN112699595A/zh
Publication of CN112699595A publication Critical patent/CN112699595A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于特征选择与GBDT模型的矿井突水水源判别方法,包括:步骤S1:确定参与建模的含水层,在含水层采集水样,水样的数量为至少60组;步骤S2:测试每组水样的水质信息;步骤S3:利用R语言将多组水质信息按照7:3的比例分为训练数据集和测试数据集;步骤S4:对训练数据集采用随机森林的方法进行特征选择,选取3‑6个参数,并得到第一数据集;步骤S5:建立第一GBDT模型;步骤S6,建立第二GBDT模型。根据本发明的基于特征选择与GBDT模型的矿井突水水源判别方法,使用了随机森林方法进行特征选择,使用GBDT模型框架进行建模,可以提升模型结果的准确性。

Description

一种基于特征选择与GBDT模型的矿井突水水源判别方法
技术领域
本发明涉及煤矿水害防治技术领域,尤其是涉及一种基于特征选择与GBDT模型的矿 井突水水源判别方法。
背景技术
矿井突水是煤矿五大灾害之一,给煤矿的安全高效生产,工作人员的人身安全带来了 威胁。随着开采效率的提高,开采深度的加深,水害的威胁日益严重。在预防阶段,突水 预兆显现阶段,水害治理阶段,准确确定突水的水源,是煤矿防治水工作的关键。
相关技术中,判别突水水源的方法有水文水位法、特征离子法、数理分析法等。水温 水位法可作为突水水源初期的判断,同时在复杂的情况下,其判别的可操作性与准确性均 有欠缺。特征离子法使用一些区分度强的离子为目标,建立判别准则。该方法主要应用了 地球化学的技术手段。缺点在于特征离子的选择难以做到准确,其次特征离子所代表的维 度较低,可以达到的区分度也较低。数理分析法有线性分析法与多元统计法等。多元分析 法受到样本的限制。线性分析法常有多重共线性的问题,导致模型的不稳定。可见,上述几种方法均存在测试结果不准确的问题。
发明内容
本发明提出了一种基于特征选择与GBDT模型的矿井突水水源判别方法,利用所述基 于特征选择与GBDT模型的矿井突水水源判别方法可以提升检测的准确性。
根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法,包括:步 骤S1:确定参与建模的含水层,在所述含水层采集水样,所述水样的数量为至少60组;步骤S2:测试每组所述水样的水质信息,所述水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值;步骤S3:利用多组所述水质信息建立Excel 表,将所述Excel表导入R语言,利用所述R语言将多组所述水质信息按照7:3的比例分 为训练数据集和测试数据集;步骤S4:对所述训练数据集采用随机森林的方法进行特征选 择,选取3-6个参数,并得到第一数据集;步骤S5:将GBDT模型框架应用于所述第一数 据集,建立第一GBDT模型;步骤S6:将所述第一GBDT模型应用于所述第一数据集, 删除所述第一数据集中的错误样本以形成第二数据集,将GBDT模型框架应用于所述第二 数据集,建立第二GBDT模型。
根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法,使用了随 机森林的方法和GBDT模型框架进行建模,考虑到每个判别参量的重要性有所差别,使用随机森林的方法进行特征选择,也就说可以在样本的角度选择更加具有代表性的数据进行建模,然后在模型参数解释方面使用准确度更好的GBDT模型,由此可以提升模型结果的 准确性。
根据本发明的一些实施例,在所述步骤S2之后,且在所述步骤S3之前,所述方法还包括:将所述常量元素含量换算成当量浓度百分数,将所述微量元素含量换算成当量浓度。
根据本发明的一些实施例,在所述步骤S6后,所述方法还包括:利用所述测试数据集 的数据对所述第二GBDT模型的准确性进行评价。
在本发明的一些实施例中,在所述步骤S6后,所述方法还包括:将所述第二GBDT模型应用于实际的预测判别环境进行验证。
根据本发明的一些实施例,所述含水层包括地表水、第四系含水层、煤系砂岩含水层、 老空水和灰岩含水层中的至少两个,且应同时包含煤系砂岩含水层和灰岩含水层。
根据本发明的一些实施例,所述建立第一GBDT模型和所述建立第二GBDT模型应用所述R语言的gbm包完成。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明 显,或通过本发明的实践了解到。
附图说明
图1是根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法的流 程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本 发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目 的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复 是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。此外, 本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他 工艺的可应用于性和/或其他材料的使用。
下面参考附图描述根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源 判别方法。
如图1所示,根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方 法,包括:步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。
具体地,如图1所示,步骤S1为确定参与建模的含水层,在含水层采集水样,水样的数量为至少60组。可以理解的是,水样的数量可以为60组、70组、80组或更多组。由此, 可以提升样本的数量,从而提升模型的准确性。具体地,在本发明的一些实例中,水样的 数量为至少60组,且重要含水层的水样各在30个以上。
在本发明的一些实施例中,水样包括煤系砂岩含水层水和灰岩含水层水,可包括地表 水、第四系含水层水、老空水中的一个或多个。换言之,水样可以包括煤系砂岩含水层水 和灰岩含水层水;或者,煤系砂岩含水层水、灰岩含水层水和地表水;或者,煤系砂岩含水层水、灰岩含水层水和第四系含水层水;或者,煤系砂岩含水层水、灰岩含水层水和老 空水;或者,煤系砂岩含水层水、灰岩含水层水、地表水和第四系含水层水;或者,煤系 砂岩含水层水、灰岩含水层水、第四系含水层水和老空水;或者,煤系砂岩含水层水、灰 岩含水层水、地表水和老空水;或者,煤系砂岩含水层水、灰岩含水层水、地表水、第四 系含水层水和老空水。例如,在发明的一个示例中,含水层包括华北型煤矿区的第四系含 水层、煤系砂岩含水层、老空水和灰岩含水层,煤系砂岩含水层与灰岩含水层水样的数量 各在30个以上,其余水样的数量在15个以上。
如图1所示,步骤S2为测试每组水样的水质信息,水质信息包括常量元素含量、微量 元素含量、pH值、总可溶性固体、硬度和同位素的δ值。可以理解的是,不同位置的水样的常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值是不同的, 通过对常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值的分析 可以获取是不是突水。
如图1所示,步骤S3为利用多组水质信息建立Excel表,将Excel表导入R语言,利用R语言将多组水质信息按照7:3的比例分为训练数据集和测试数据集。可以理解的是, 可以在R软件中导入Excel表并将多组水质信息按照7:3的比例随机分为训练数据集和测 试数据集,利用训练数据集获取模型,利用测试数据集检测模型的准确性。
如图1所示,步骤S4为对训练数据集采用随机森林的方法进行特征选择,选取3-6个 参数,并得到第一数据集。为方便使用计算,尽量用常量元素作为建模使用的特征参数,如有具有明显区分特征的微量元素也可作为建模使用的特征参数。由此,可以去处无关的或者关系较小的水质信息,避免这些水质信息干扰模型结果的准确性。
例如,在本发明的一个示例中,采用随机森林的方法进行特征选择的步骤如下:
(1)、设数据集X共包含N各样本,使用自助法(Bootstrap)从数据集中随机放回式抽取N各样本装入袋中,作为训练数据集。在这个过程中,每个样本没有被选中的概率是 p=(1-1/N)N。在N趋于+∞时,p≈0.37。这说明在自助法采样时,约有37%的样品没有被 选中,称为袋外数据(OOB)。袋内数据用来训练模型,袋外数据用来评估模型。
(2)、共进行k次抽取,故可获得k个训练数据集。采用无剪枝的方法用每一个训练数据集建立决策树。在每一个节点的位置,从总数M个特征中随机选择m个特征,并计算 m个特征中每一个特征的Gini指数,Gin指数越小时,说明该特征的区分效果越好,选择 最优的特征作为该分支节点。按照这种策略建立一个完整的决策树。
(3)、用k个数据集共可得到k个决策树,形成一个随机森林的模型。模型的质量可以用袋外数据(OOB)的预测准确率来评估。袋外数据的均方误差(MSEOOB)和决定系数 (RRF 2)如公式(1-a)和(1-b),其中均方误差越小,决定系数越大,则说明该模型越优 秀。
Figure BDA0002722092080000041
Figure RE-GDA0002966976280000042
其中,n是袋外数据的数量,yi是袋外数据的观测值,
Figure BDA0002722092080000043
是模型预测值,
Figure BDA0002722092080000044
是袋外数据 预测方差。
(4)、使用平均不纯度减少值来选择重要的预测特征。在每一棵树的每个节点,应用 公式(1-c)计算每个变量的Gini指数,计算每一棵树每一个节点上各特征的Gini指数,按照特征将所有的Gini指数取平均值,计算平均不纯度减少值。然后对每一个特征进行排序,就可以对各特征在模型中的重要性进行评分,以选择合适的特征进行建模。
Figure BDA0002722092080000045
其中pi是某个样本属于第i枝的概率,N是该节点处枝的总数,IGini是Gini指数。综合随机森林的分析方法与地球化学的分析确定重要的变量,以备建模使用,重要变量的选择以常量元素为主,微量元素、同位素及其它参数作为辅助,数量一般为3-6个。
如图1所示,步骤S5为:将GBDT模型框架应用于第一数据集,建立第一GBDT模 型;步骤S6为:将第一GBDT模型应用于第一数据集,删除第一数据集中的错误样本以 形成第二数据集,将GBDT模型框架应用于第二数据集,建立第二GBDT模型。
应用GBDT算法建立机器学习模型的步骤如下:
(1)初始化损失函数
Figure BDA0002722092080000051
其中N是数据集中数据的个数,y代表预测值,c代表基线模型的预测值 (2)对m=1,2,…,M(M是训练的轮数)
(2.1)对i=1,2,…,N(N是数据的个数),计算
Figure BDA0002722092080000052
本例中计算的类型是分类,因此损失函数是由错判书决定的,其负梯度,即rmi
Figure BDA0002722092080000053
(2.2)对rmi拟合一个回归树,得到第m棵树的叶节点区域Rmj,其中j=1,2,…,J,
J是回归树的复杂度,表现为叶节点的个数
(2.3)对j=1,2,…,J,计算
Figure BDA0002722092080000054
其中Rmj为回归水的叶节点区域,c为该叶节点的预测目标值
(2.4)更新
Figure BDA0002722092080000055
其中I为指示函数(条件成立时返回1,否则为0)
(3)得到最终模型
Figure BDA0002722092080000056
可以理解的是,利用第一GBDT模型可以检测第一数据集中的数据是否正确,并及时 将错误的数据删除,以避免这些错误的数据干扰模型结果的准确性,同时利用新的正确的 第二数据集得到最终的准确度较高的第二GBDT模型,可以提升模型结果的准确性。
需要说明的是,建模的时候有多个参量需要设定及优化,比较重要的参数有划分时考 虑的最大特征数、决策树最大深度、其它可能需要考虑的参数主要有内部节点再划分时所 需的最小样本数、叶子节点最少样本数、叶子节点最少样本权重、最大叶子节点数等。例 如,模型中有3-6个变量计,该参数可优化为2或3。具体参数的优化还需要根据模型的判别表现来确定。将第一GBDT模型、第二GBDT模型回代,可以分析误判的数据,需要注 意的是,除非明显错误,一般不再删除训练数据集中数据,如删除了部分数据,则需要再 次训练数据。
在本发明的一个示例中,建立第一GBDT模型和建立第二GBDT模型在R语言的gbm包中完成。
根据本发明实施例的基于特征选择与GBDT模型的矿井突水水源判别方法,使用了随 机森林的方法和GBDT模型框架进行建模,考虑到每个判别参量的重要性有所差别,使用随机森林的方法进行特征选择,也就说可以在样本的角度选择更加具有代表性的数据进行建模,然后在模型参数解释方面使用准确度更好的GBDT模型,由此可以提升模型结果的 准确性。
根据本发明的一些实施例,在步骤S2之后,且在步骤S3之前,方法还包括:将常量元素含量换算成当量浓度百分数,将微量元素含量换算成当量浓度。由此,可以降低计算的难度,提升计算的效率,节省计算的时长。
根据本发明的一些实施例,在步骤S6后,方法还包括:利用测试数据集的数据对第二 GBDT模型的准确性进行评价。由此,可以利用测试数据集的数据对第二GBDT模型的准确性,并通过检测结果适应性的修改模型,从而可以进一步提升检测结果的可靠性。
在本发明的一些实施例中,在步骤S6后,方法还包括:将第二GBDT模型应用于实际的预测判别环境进行验证。由此,可以利用实际的预测判别环境对第二岭回归模型的准确性,并通过检测结果适应性的修改模型,从而可以进一步提升检测结果的可靠性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、 或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包 含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须 针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一 个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技 术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合 和组合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离 本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发 明的范围由权利要求及其等同物限定。

Claims (6)

1.一种基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,包括:
步骤S1:确定参与建模的含水层,在所述含水层采集水样,所述水样的数量为至少60组;
步骤S2:测试每组所述水样的水质信息,所述水质信息包括常量元素含量、微量元素含量、pH值、总可溶性固体、硬度和同位素的δ值;
步骤S3:利用多组所述水质信息建立Excel表,将所述Excel表导入R语言,利用所述R语言将多组所述水质信息按照7:3的比例分为训练数据集和测试数据集;
步骤S4:对所述训练数据集采用随机森林的方法进行特征选择,选取3-6个参数,并得到第一数据集;
步骤S5:将GBDT模型框架应用于所述第一数据集,建立第一GBDT模型;
步骤S6:将所述第一GBDT模型应用于所述第一数据集,删除所述第一数据集中的错误样本以形成第二数据集,将GBDT模型框架应用于所述第二数据集,建立第二GBDT模型。
2.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,在所述步骤S2之后,且在所述步骤S3之前,所述方法还包括:将所述常量元素含量换算成当量浓度百分数,将所述微量元素含量换算成当量浓度。
3.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,在所述步骤S6后,所述方法还包括:利用所述测试数据集的数据对所述第二GBDT模型的准确性进行评价。
4.根据权利要求3所述的基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,在所述步骤S6后,所述方法还包括:将所述第二GBDT模型应用于实际的预测判别环境进行验证。
5.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,所述含水层包括地表水、第四系含水层、煤系砂岩含水层、老空水和灰岩含水层中的至少两个,且应同时包含煤系砂岩含水层和灰岩含水层。
6.根据权利要求1所述的基于特征选择与GBDT模型的矿井突水水源判别方法,其特征在于,所述建立第一GBDT模型和所述建立第二GBDT模型在所述R语言的gbm包中完成。
CN202011090956.7A 2020-10-13 2020-10-13 一种基于特征选择与gbdt模型的矿井突水水源判别方法 Withdrawn CN112699595A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011090956.7A CN112699595A (zh) 2020-10-13 2020-10-13 一种基于特征选择与gbdt模型的矿井突水水源判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011090956.7A CN112699595A (zh) 2020-10-13 2020-10-13 一种基于特征选择与gbdt模型的矿井突水水源判别方法

Publications (1)

Publication Number Publication Date
CN112699595A true CN112699595A (zh) 2021-04-23

Family

ID=75505785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090956.7A Withdrawn CN112699595A (zh) 2020-10-13 2020-10-13 一种基于特征选择与gbdt模型的矿井突水水源判别方法

Country Status (1)

Country Link
CN (1) CN112699595A (zh)

Similar Documents

Publication Publication Date Title
CN108777873B (zh) 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN112989708B (zh) 一种基于lstm神经网络的测井岩性识别方法及系统
CN108897066B (zh) 碳酸盐岩裂缝密度定量预测方法及装置
CN103473540B (zh) 智能交通系统车辆轨迹增量式建模与在线异常检测方法
CN111222683B (zh) 一种基于pca-knn的tbm施工围岩综合分级预测方法
CN110210084B (zh) 基于时间融合的力学变化判断滑坡可能性的方法及系统
CN111539450B (zh) 地震区滑坡易发性评价方法
CN108985327A (zh) 一种基于因子分析的地形匹配区自组织优化分类方法
CN110852364A (zh) 矿井突水水源识别方法、装置与电子设备
CN112948932A (zh) 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法
CN115358285B (zh) 待勘测区块关键地质参数的选取方法、装置、及设备
CN108280289B (zh) 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN105046080A (zh) 一种岩体质量评价方法
CN116427915A (zh) 基于随机森林的常规测井曲线裂缝密度预测方法及系统
CN114580940A (zh) 基于灰色关联度分析法的注浆效果模糊综合评价方法
CN109779622B (zh) 特高含水期油藏低效注水带表征方法及装置
CN113323676B (zh) 用主成分分析-长短记忆模型确定盾构机刀盘扭矩的方法
CN112257336B (zh) 一种基于特征选择与支持向量机模型的矿井突水水源判别方法
CN111140244A (zh) 一种硬岩掘进机支护等级智能推荐方法
CN112257763A (zh) 一种基于特征选择与AdaBoost模型的矿井突水水源判别方法
CN112699595A (zh) 一种基于特征选择与gbdt模型的矿井突水水源判别方法
CN117235632A (zh) 一种大型蒸发传感器水位异常数据检测方法
CN106485049A (zh) 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法
CN111428820A (zh) 基于特征选择的矿井突水水源判别方法
CN113687411B (zh) 一种基于微地震的地应力方位预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210423