CN114662405A - 基于少样本度量和集成学习的岩爆预测方法 - Google Patents
基于少样本度量和集成学习的岩爆预测方法 Download PDFInfo
- Publication number
- CN114662405A CN114662405A CN202210381289.0A CN202210381289A CN114662405A CN 114662405 A CN114662405 A CN 114662405A CN 202210381289 A CN202210381289 A CN 202210381289A CN 114662405 A CN114662405 A CN 114662405A
- Authority
- CN
- China
- Prior art keywords
- data
- rock burst
- model
- prediction
- rock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000011435 rock Substances 0.000 title claims abstract description 192
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000005259 measurement Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000012360 testing method Methods 0.000 claims abstract description 84
- 238000005215 recombination Methods 0.000 claims abstract description 34
- 230000006798 recombination Effects 0.000 claims abstract description 34
- 230000010354 integration Effects 0.000 claims description 22
- 238000012795 verification Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 230000005489 elastic deformation Effects 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000007636 ensemble learning method Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于少样本度量和集成学习的岩爆预测方法,包括选取影响岩爆等级定量预测指标和岩爆等级划分定性标准;构建岩爆分级数据集并分为训练集和测试集;将训练集的每组数据依次与训练集中所有数据进行两两交叉重组并重新标定数据标签构成模型训练集;构建集成学习模型并采用模型训练集训练得到岩爆预测初级模型;将测试集中的每组数据依次与训练集中所有数据进行两两交叉重组并重新标定数据标签构成模型测试集;采用模型测试集测试岩爆预测初级模型并优化得到岩爆预测模型;采用岩爆预测模型在实际工程中进行岩爆的预测。本发明提高了机器学习训练过程的有效性,训练标签种类少,训练过程简单,可靠性高、准确度高且科学稳定。
Description
技术领域
本发明属于岩土工程领域,具体涉及一种基于少样本度量和集成学习的岩爆预测方法。
背景技术
为适应现代化、工业化对空间和资源的迫切需求,水利、矿山、隧道交通等工程建设和资源开发正向地球深部快速迈进。在此类深地工程中,岩体结构受到较高地应力,能量聚集突出,当受到开挖、地震等扰动时,极易发生岩爆灾害,表现为围岩爆裂、剥离、碎片高速弹射,对现场作业人员和设备安全造成极大威胁。更为严重地,岩爆的强度和频次随着工程埋深的增加而进一步加剧,俨然成为威胁我国深部岩体工程安全的最主要灾害。如何实现岩爆的准确预测是深地工程防灾减灾的关键,也是岩爆研究领域亟待突破的瓶颈问题。
为预测岩爆的发生,人们在试验和理论的基础上,提出了多个岩爆判据,主要分为应力-强度判据(如Hoek判据、Russense判据、Barton判据等)和能量判据(弹性能指数判据、冲击能指数判据等)两大类。以上判据为科学预测岩爆灾害提供了理论和方法,但由于各判据考虑的因素和指标不同,导致不同方法的评价结果常常相互矛盾,岩爆灾害预测精度不甚理想,岩爆事故率居高不下。
人工智能技术作为计算机科学的分支,能够智能挖掘和学习已有数据中隐藏的、有效的、可理解的信息,从而解决未知问题,为大数据环境下复杂非线性问题提供了新的解决方案。近年来大量学者将各种机器学习方法应用到岩爆预测领域,如神经网络、支持向量机、线性判别分析、决策树、K近邻法、集成学习等方法,取得了大量有意义成果。此外,为提高预测准确率,不少学者运用智能优化算法,如粒子群法、遗传算法、蚁群算法等,对现有机器学习方法中的超参数进行优化,或者利用各算法的优势,综合多种方法预测岩爆,取得了较好的效果。
但是,目前的基于人工智能的岩爆预测方法仍存在如下问题:(1)理论上,机器学习需要大量样本来训练已达到最佳效果。然而,大量工程缺少详细的岩爆实录,目前岩爆案例数据总量仅200组左右。受限于样本数量,以致训练出的模型简单,难以准确表征岩爆等级与其影响因素之间复杂的非线性关系,导致预测准确率低下;(2)为了提高预测准确率,许多学者优化了模型超参数调节过程,提高了模型的泛化能力,但这种方式只是模型内的优化,使模型达到样本条件下的最优化,而无法从本质上提升模型精度上限。
发明内容
本发明的目的在于提供一种可靠性高、准确度高且科学稳定的基于少样本度量和集成学习的岩爆预测方法。
本发明提供的这种基于少样本度量和集成学习的岩爆预测方法,包括如下步骤:
S1.分析并选取影响岩爆等级的定量预测指标和岩爆等级划分的定性标准;
S2.收集现有的岩爆工程案例并进行分析,获取各个案例的定量预测指标和岩爆等级,构建岩爆分级数据集;
S3.将步骤S2得到的岩爆分级数据集,在保证各个岩爆等级案例占比一致的前提下,按比例随机分为训练集和测试集;
S4.将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型训练集;
S5.采用集成学习方法,对步骤S4得到的模型训练集进行训练和超参数优化,得到岩爆预测初始模型;
S6.将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集;
S7.将步骤S6得到的模型测试集带入步骤S5得到的岩爆预测初始模型进行测试,并根据测试结果进行优化,从而得到岩爆预测模型;
S8.采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测。
步骤S1所述的影响岩爆等级的定量预测指标,具体包括如下步骤:
步骤S1所述的岩爆等级划分的定性标准,具体包括如下步骤:
根据现有的国标规范,将岩爆等级划分为高、中、低和无四级。
步骤S2所述的获取各个案例的定量预测指标和岩爆等级,构建岩爆分级数据集,具体包括如下步骤:
获取第i个案例的定量预测指标:围岩切向应力σθi采用字母ai表示,岩石单轴抗压强度σci采用字母bi表示,岩石单轴抗拉强度σti采用字母ci表示,围岩切向应力与岩石单轴抗压强度比采用字母di表示,单轴抗压强度和单轴抗拉强度比值采用字母ei表示,岩石的弹性变形能量指数Weti采用字母fi表示,以及岩爆等级数值采用字母gi表示,然后将第i个案例在岩爆分级数据集中表示为第i组数据[ai,bi,ci,di,ei,fi,gi];其中岩爆等级数值gi取值为3、2、1和0,并依次分别对应岩爆等级的高、中、低和无;i取值为1~n的正整数;
获取所有n个案例的定量预测指标和岩爆等级,最终构建岩爆分级数据集。
步骤S4所述的将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,具体包括如下步骤:
将第i组数据[ai,bi,ci,di,ei,fi,gi],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[ai,bi,ci,di,ei,fi,a1,b1,c1,d1,e1,f1,Gi1]~[ai,bi,ci,di,ei,fi,an,bn,cn,dn,en,fn,Gin];第j组数据为[ai,bi,ci,di,ei,fi,aj,bj,cj,dj,ej,fj,Gij],其中Gij为交叉重组后的训练数据标签且j的取值为1~n的正整数;
将训练集中的n组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型训练集。
步骤S5所述的采用集成学习方法,对步骤S4得到的模型训练集进行训练和超参数优化,得到岩爆预测初始模型,具体包括如下步骤:
采用决策树作为基学习器;
采用随机搜索算法,对如下超参数进行调优:
超参数:数据的集成方式;搜索范围包括Bagging集成、AdaBoost集成、RUSBoost集成、GentleBoost集成和LogitBoost集成;
超参数:基学习器的数量;搜索范围为[10,500];
超参数:学习率;搜索范围为[0.001,1];
超参数:最大分裂数;搜索范围为[1,N];其中N为模型训练集中的数据量;
采用K折交叉验证法用于模型训练过程的验证。
步骤S6所述的将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集,具体包括如下步骤:
将测试集中的第q组数据[a'q,b'q,c'q,d'q,e'q,f′q,g'q],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[a'q,b'q,c'q,d'q,e'q,f′q,a1,b1,c1,d1,e1,f1,G'q1]~[a'q,b'q,c'q,d'q,e'q,f′q,an,bn,cn,dn,en,fn,G'qn];第r组数据为[a'q,b'q,c'q,d'q,e'q,f′q,ar,br,cr,dr,er,fr,G'qr],其中G'qr为交叉重组后的测试数据标签且q的取值为1~m的正整数;r的取值为1~n的正整数;
将测试集中的m组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型测试集。
步骤S7所述的将步骤S6得到的模型测试集带入步骤S5得到的岩爆预测初始模型进行测试,具体包括如下步骤:
将步骤S6的模型测试集代入步骤S5得到的岩爆预测初始模型进行测试,以最大概率归属的方式将“0-1”标签还原为岩爆等级结果;
测试时,岩爆预测初级模型针对输入的模型测试集,得到的输出结果为[a′1,b′1,c′1,d′1,e′1,f′1,a1,b1,c1,d1,e1,f1,G″′11]~[a'm,b'm,c'm,d'm,e'm,f′m,an,bn,cn,dn,en,fn,G″′mn];针对岩爆预测初级模型的岩爆预测结果G″′xy,x的取值为1~m的正整数,y取值为1~n的正整数;
分别统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=0的数量,以及统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=1的数量;
采用如下公式计算属于每种等级的概率:
式中I(G″′xy=1|gy=i)表示当gy=i时G″′xy=1的数量;I(G″′xy=0|gy=i)表示当gy=i时G″′xy=0的数量;i取值为0、1、2和3;N为模型训练集中的数据个数;Pi为测试集数据属于各个等级的概率;为测试集数据不属于各个等级的概率;R表示Pi取最大值时所对应的岩爆等级;表示取最大值时所对应的岩爆等级,用于反向验证;
以计算得到的最大概率值所对应的等级,作为岩爆预测初级模型输出的岩爆预测等级。
步骤S8所述的采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测,具体为在实际工程中获取对应的数据,按照步骤S6的方式处理后代入步骤S7得到的岩爆预测模型进行预测,并将预测结果还原得到最终的岩爆等级结果,完成最终的岩爆预测。
本发明提供的这种基于少样本度量和集成学习的岩爆预测方法,对原少量样本的数据集进行了交叉重组的数据增强处理,该处理过程不增添新信息也不删除任何原数据中信息,增强后的数据量为原数据量的平方,数据量的增加提高了机器学习训练过程的有效性;同时本发明采用数据度量的方式,通过数据训练,重在找到相同岩爆等级数据之间的相似性以及不同岩爆等级数据之间的差异性,训练标签种类少,训练过程简单;而且本发明方法可靠性高、准确度高且科学稳定。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的实施例的新训练集迭代过程最小分类误差曲线示意图。
图3为本发明的实施例的原训练集迭代过程最小分类误差曲线示意图。
图4为本发明的实施例的新测试集分类混淆矩阵示意图。
图5为本发明的实施例的原测试集分类混淆矩阵示意图。
图6为本发明的实施例的两种模型得到的准确率示意图。
图7为本发明的实施例的测试集最终分类结果混淆矩阵示意图。
具体实施方式
如图1所示为本发明的方法流程示意图:本发明提供的这种基于少样本度量和集成学习的岩爆预测方法,包括如下步骤:
S1.分析并选取影响岩爆等级的定量预测指标和岩爆等级划分的定性标准;
具体实施时,影响岩爆等级的定量预测指标具体包括:
岩爆等级划分的定性标准具体包括:
根据现有的国标规范,将岩爆等级划分为高、中、低和无四级;具体划分标准如表1所示:
表1岩爆等级定性划分示意表
S2.收集现有的岩爆工程案例并进行分析,获取各个案例的定量预测指标和岩爆等级,构建岩爆分级数据集;具体包括如下步骤:
获取第i个案例的定量预测指标:围岩切向应力σθi采用字母ai表示,岩石单轴抗压强度σci采用字母bi表示,岩石单轴抗拉强度σti采用字母ci表示,围岩切向应力与岩石单轴抗压强度比采用字母di表示,单轴抗压强度和单轴抗拉强度比值采用字母ei表示,岩石的弹性变形能量指数Weti采用字母fi表示,以及岩爆等级数值采用字母gi表示,然后将第i个案例在岩爆分级数据集中表示为第i组数据[ai,bi,ci,di,ei,fi,gi];其中岩爆等级数值gi取值为3、2、1和0,并依次分别对应岩爆等级的高、中、低和无;i取值为1~n的正整数;
获取所有n个案例的定量预测指标和岩爆等级,最终构建岩爆分级数据集;
S3.将步骤S2得到的岩爆分级数据集,在保证各个岩爆等级案例占比一致的前提下,按比例随机分为训练集和测试集;
S4.将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型训练集;具体包括如下步骤:
将第i组数据[ai,bi,ci,di,ei,fi,gi],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[ai,bi,ci,di,ei,fi,a1,b1,c1,d1,e1,f1,Gi1]~[ai,bi,ci,di,ei,fi,an,bn,cn,dn,en,fn,Gin];第j组数据为[ai,bi,ci,di,ei,fi,aj,bj,cj,dj,ej,fj,Gij],其中Gij为交叉重组后的训练数据标签且j的取值为1~n的正整数;
将训练集中的n组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型训练集;
通过两两交叉重组后,数据集的特征数量变为原来的两倍,且原训练集的数据量为n,而新训练集数据量变为n2,数据标签由岩爆等级变为“0”和“1”两种;
S5.采用集成学习方法,对步骤S4得到的模型训练集进行训练和超参数优化,得到岩爆预测初始模型;具体包括如下步骤:
由于决策树算法计算速度快、准确性高、可以处理包含多种类型的数据集、且不需要任何领域知识和参数假设,因此采用决策树作为基学习器;
随机搜索法在同时对多个超参数调优且数据量大时效率更高,因此采用随机搜索算法,对如下超参数进行调优:
超参数:数据的集成方式;搜索范围包括Bagging集成、AdaBoost集成、RUSBoost集成、GentleBoost集成和LogitBoost集成;不同的集成方式对模型的精度影响很大,因此将集成方式作为一种超参数进行后续调节;
超参数:基学习器的数量;搜索范围为[10,500];
超参数:学习率;搜索范围为[0.001,1];
超参数:最大分裂数;搜索范围为[1,N];其中N为模型训练集中的数据量;
具体的超参数如表2所示:
表2超参数示意表
采用K折交叉验证法(优选为10折交叉验证法)用于模型训练过程的验证;即将训练集随机分成数量基本相等的十个部分,第一次将前九个部分组成训练子集,最后一部分作为验证集,训练子集用于训练模型,验证集用于评估模型,第二次将第九部分作为验证集,其余部分作为训练子集,此过程重复十次,直至每个部分均被选为验证集一次;
S6.将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集;具体包括如下步骤:
将测试集中的第q组数据[a'q,b'q,c'q,d'q,e'q,fq',g'q],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[a'q,b'q,c'q,d'q,e'q,f′q,a1,b1,c1,d1,e1,f1,G'q1]~[a'q,b'q,c'q,d'q,e'q,f′q,an,bn,cn,dn,en,fn,G'qn];第r组数据为[a'q,b'q,c'q,d'q,e'q,fq',ar,br,cr,dr,er,fr,G'qr],其中G'qr为交叉重组后的测试数据标签且q的取值为1~m的正整数;r的取值为1~n的正整数;
将测试集中的m组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型测试集;
S7.将步骤S6得到的模型测试集带入步骤S5得到的岩爆预测初始模型进行测试,并根据测试结果进行优化,从而得到岩爆预测模型;
将步骤S6的模型测试集代入步骤S5得到的岩爆预测初始模型进行测试,以最大概率归属的方式将“0-1”标签还原为岩爆等级结果;
测试时,岩爆预测初级模型针对输入的模型测试集,得到的输出结果为[a′1,b′1,c′1,d′1,e′1,f′1,a1,b1,c1,d1,e1,f1,G″′11]~[a'm,b'm,c'm,d'm,e'm,f′m,an,bn,cn,dn,en,fn,G″′mn];针对岩爆预测初级模型的岩爆预测结果G″′xy,x的取值为1~m的正整数,y取值为1~n的正整数;
分别统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=0的数量,以及统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=1的数量;
采用如下公式计算属于每种等级的概率:
式中I(G″′xy=1|gy=i)表示当gy=i时G″′xy=1的数量;I(G″′xy=0|gy=i)表示当gy=i时G″′xy=0的数量;i取值为0、1、2和3;N为模型训练集中的数据个数;Pi为测试集数据属于各个等级的概率;为测试集数据不属于各个等级的概率;R表示Pi取最大值时所对应的岩爆等级;表示取最大值时所对应的岩爆等级,用于反向验证;
以计算得到的最大概率值所对应的等级,作为岩爆预测初级模型输出的岩爆预测等级;
根据测试结果进行优化,具体为:
根据测试的结果,若测试的岩爆预测初始模型的准确度达到了设定的要求,那么就将该岩爆预测初始模型作为最终的岩爆预测模型;
若测试的岩爆预测初始模型的准确度未达到设定的要求,则表明步骤S5训练得到的岩爆预测初始模型不符合要求,此时则需要重复回到步骤S5并调整训练参数,得到新的岩爆预测初始模型并再次进行测试,直至得到的岩爆预测初始模型满足设定要求,从而得到最终的岩爆预测模型;
S8.采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测;具体实施时,在实际工程中获取对应的数据,按照步骤S6的方式处理后代入步骤S7得到的岩爆预测模型进行预测,并将预测结果还原得到最终的岩爆等级结果,完成最终的岩爆预测
以下结合一个实施例,对本发明方法进行进一步说明:
将岩爆等级划分为高、中、低和无四级,依次采用3、2、1和0进行表示:
S2.收集现有的岩爆工程案例并进行分析,获取各个案例的定量预测指标和岩爆等级,构建一个包含212组数据的数据库;数据库中各指标分布情况如表3所示:
表3岩爆数据库信息示意表
σ<sub>θ</sub> | σ<sub>c</sub> | σ<sub>t</sub> | σ<sub>θ</sub>/σ<sub>t</sub> | σ<sub>c</sub>/σ<sub>t</sub> | W<sub>et</sub> | |
最小值 | 2.60 | 20.00 | 0.40 | 0.05 | 0.15 | 0.81 |
最大值 | 297.80 | 304.20 | 22.60 | 3.45 | 76.67 | 30.00 |
平均值 | 54.77 | 119.70 | 7.16 | 0.50 | 21.15 | 4.86 |
标准差 | 46.43 | 49.95 | 4.37 | 0.48 | 13.10 | 3.69 |
S3.将步骤S2得到的岩爆分级数据集,在保证各个岩爆等级案例占比一致的前提下,按照3:1的比例分为训练集和测试集;训练集包含156组数据,测试集包含56组数据;
S4.将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成包含24336组数据的模型训练集;
S5.构建集成学习模型,并采用步骤S4得到的模型训练集对集成学习模型进行训练,得到岩爆预测初级模型;
采用集成学习算法,基学习器为决策树,需要调节的超参数有集成方法、最大分裂数、学习器数量、学习率。采用随机搜索方法进行参数调优,迭代次数为30次,训练过程中采用10折交叉验证的方式进行验证,得到利用新训练集训练好的模型,同时按照上述同样的方式利用原训练集训练出另一个模型用于对比;图2和图3分别为新训练集和原训练集训练过程中的最小误差曲线以及最优的超参数结果。图2为新训练集训练模型,图中的A点,集成方法为LogitBoost,学习器数量为212,学习率为0.4353,最大分裂数为6311;图3为原训练集训练模型,图中的B点,集成方法为AdaBoost,学习器数量为87,学习率为0.0108,最大分裂数为7;最终新训练集训练的模型的验证集准确率达到了97.7%,而原训练集训练的模型再验证集上的准确率仅有56.4%。
S6.将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集;
S7.采用步骤S6得到的模型测试集,对步骤S5得到的岩爆预测初级模型进行测试,并根据测试结果进行优化,从而得到岩爆预测模型;将模型测试集输入到模型中,测试模型的泛化能力,两种模型在测试集上的分类混淆矩阵分别如图4(对应于模型测试集混淆矩阵)和图5(对应于原测试集混淆矩阵)所示;两种模型再验证集和测试集上的准确率如图6所示,由此可以看出,采用本发明方法训练出的模型可靠度更高;
然后,分析模型在新测试上的分类结果,统计每组数据中标签“0”和标签“1”的数量,计算属于每种等级的概率,以概率最大的等级作为预测的最终岩爆等级,将两标签还原成岩爆等级结果,测试集中的56组数据的实际岩爆结果及预测的分类结果如表4所示,其分类混淆矩阵如附图7所示。
表4模型测试集分类结果示意表
在测试集56组数据中,本发明方法有14组数据分类有误,其分类准确率达到75.00%;原方法存在26组分类错误,准确率仅有的53.57%;本发明方法在准确率上提高了20多个百分点,说明本发明方法训练的模型泛化性能好,对未知数据具有较高的预测准确率,可以用于实际的岩爆预测;
S8.采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测。
Claims (9)
1.一种基于少样本度量和集成学习的岩爆预测方法,包括如下步骤:
S1.分析并选取影响岩爆等级的定量预测指标和岩爆等级划分的定性标准;
S2.收集现有的岩爆工程案例并进行分析,获取各个案例的定量预测指标和岩爆等级,构建岩爆分级数据集;
S3.将步骤S2得到的岩爆分级数据集,在保证各个岩爆等级案例占比一致的前提下,按比例随机分为训练集和测试集;
S4.将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型训练集;
S5.采用集成学习方法,对步骤S4得到的模型训练集进行训练和超参数优化,得到岩爆预测初始模型;
S6.将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集;
S7.将步骤S6得到的模型测试集带入步骤S5得到的岩爆预测初始模型进行测试,并根据测试结果进行优化,从而得到岩爆预测模型;
S8.采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测。
3.根据权利要求2所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S1所述的岩爆等级划分的定性标准,具体包括如下步骤:
根据现有的国标规范,将岩爆等级划分为高、中、低和无四级。
4.根据权利要求3所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S2所述的获取各个案例的定量预测指标和岩爆等级,构建岩爆分级数据集,具体包括如下步骤:
获取第i个案例的定量预测指标:围岩切向应力σθi采用字母ai表示,岩石单轴抗压强度σci采用字母bi表示,岩石单轴抗拉强度σti采用字母ci表示,围岩切向应力与岩石单轴抗压强度比采用字母di表示,单轴抗压强度和单轴抗拉强度比值采用字母ei表示,岩石的弹性变形能量指数Weti采用字母fi表示,以及岩爆等级数值采用字母gi表示,然后将第i个案例在岩爆分级数据集中表示为第i组数据[ai,bi,ci,di,ei,fi,gi];其中岩爆等级数值gi取值为3、2、1和0,并依次分别对应岩爆等级的高、中、低和无;i取值为1~n的正整数;
获取所有n个案例的定量预测指标和岩爆等级,最终构建岩爆分级数据集。
5.根据权利要求4所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S4所述的将步骤S3得到的训练集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,具体包括如下步骤:
将第i组数据[ai,bi,ci,di,ei,fi,gi],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[ai,bi,ci,di,ei,fi,a1,b1,c1,d1,e1,f1,Gi1]~[ai,bi,ci,di,ei,fi,an,bn,cn,dn,en,fn,Gin];第j组数据为[ai,bi,ci,di,ei,fi,aj,bj,cj,dj,ej,fj,Gij],其中Gij为交叉重组后的训练数据标签且j的取值为1~n的正整数;
将训练集中的n组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型训练集。
6.根据权利要求5所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S5所述的采用集成学习方法,对步骤S4得到的模型训练集进行训练和超参数优化,得到岩爆预测初始模型,具体包括如下步骤:
采用决策树作为基学习器;
采用随机搜索算法,对如下超参数进行调优:
超参数:数据的集成方式;搜索范围包括Bagging集成、AdaBoost集成、RUSBoost集成、GentleBoost集成和LogitBoost集成;
超参数:基学习器的数量;搜索范围为[10,500];
超参数:学习率;搜索范围为[0.001,1];
超参数:最大分裂数;搜索范围为[1,N];其中N为模型训练集中的数据量;
采用K折交叉验证法用于模型训练过程的验证。
7.根据权利要求6所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S6所述的将步骤S3得到的测试集中的每组数据,依次与训练集中的所有数据进行两两交叉重组并重新标定数据标签,构成模型测试集,具体包括如下步骤:
将测试集中的第q组数据[a'q,b'q,c'q,d'q,e'q,f'q,g'q],依次与训练集中的n组数据[a1,b1,c1,d1,e1,f1,g1]~[an,bn,cn,dn,en,fn,gn]进行交叉重组,交叉重组后得到的n组数据为:
[a'q,b'q,c'q,d'q,e'q,f'q,a1,b1,c1,d1,e1,f1,G'q1]~[a'q,b'q,c'q,d'q,e'q,f'q,an,bn,cn,dn,en,fn,G'qn];第r组数据为[a'q,b'q,c'q,d'q,e'q,f'q,ar,br,cr,dr,er,fr,G'qr],其中G'qr为交叉重组后的测试数据标签且q的取值为1~m的正整数;r的取值为1~n的正整数;
将测试集中的m组数据,依次与训练集中的所有数据按照以上步骤进行两两交叉重组并重新标定数据标签,最终构建模型测试集。
8.根据权利要求7所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S7所述的将步骤S6得到的模型测试集带入步骤S5得到的岩爆预测初始模型进行测试,具体包括如下步骤:
将步骤S6的模型测试集代入步骤S5得到的岩爆预测初始模型进行测试,以最大概率归属的方式将“0-1”标签还原为岩爆等级结果;
测试时,岩爆预测初级模型针对输入的模型测试集,得到的输出结果为[a′1,b′1,c′1,d′1,e′1,f1',a1,b1,c1,d1,e1,f1,G″′11]~[a'm,b'm,c'm,d'm,e'm,f'm,an,bn,cn,dn,en,fn,G″′mn];针对岩爆预测初级模型的岩爆预测结果G″′xy,x的取值为1~m的正整数,y取值为1~n的正整数;
分别统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=0的数量,以及统计gy=0时、gy=1时、gy=2时和gy=3时G″′xy=1的数量;
采用如下公式计算属于每种等级的概率:
式中I(G″′xy=1|gy=i)表示当gy=i时G″′xy=1的数量;I(G″′xy=0|gy=i)表示当gy=i时G″′xy=0的数量;i取值为0、1、2和3;N为模型训练集中的数据个数;Pi为测试集数据属于各个等级的概率;为测试集数据不属于各个等级的概率;R表示Pi取最大值时所对应的岩爆等级;表示取最大值时所对应的岩爆等级,用于反向验证;
以计算得到的最大概率值所对应的等级,作为岩爆预测初级模型输出的岩爆预测等级。
9.根据权利要求8所述的基于少样本度量和集成学习的岩爆预测方法,其特征在于步骤S8所述的采用步骤S7得到的岩爆预测模型,在实际工程中进行岩爆的预测,具体为在实际工程中获取对应的数据,按照步骤S6的方式处理后代入步骤S7得到的岩爆预测模型进行预测,并将预测结果还原得到最终的岩爆等级结果,完成最终的岩爆预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381289.0A CN114662405A (zh) | 2022-04-12 | 2022-04-12 | 基于少样本度量和集成学习的岩爆预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381289.0A CN114662405A (zh) | 2022-04-12 | 2022-04-12 | 基于少样本度量和集成学习的岩爆预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114662405A true CN114662405A (zh) | 2022-06-24 |
Family
ID=82034415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381289.0A Pending CN114662405A (zh) | 2022-04-12 | 2022-04-12 | 基于少样本度量和集成学习的岩爆预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662405A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312951A (zh) * | 2023-09-27 | 2023-12-29 | 安徽理工大学 | 基于平均独赖性估计与增量学习的岩爆分类模型生成方法 |
CN117332240A (zh) * | 2023-12-01 | 2024-01-02 | 中铁四局集团有限公司 | 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统 |
-
2022
- 2022-04-12 CN CN202210381289.0A patent/CN114662405A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312951A (zh) * | 2023-09-27 | 2023-12-29 | 安徽理工大学 | 基于平均独赖性估计与增量学习的岩爆分类模型生成方法 |
CN117332240A (zh) * | 2023-12-01 | 2024-01-02 | 中铁四局集团有限公司 | 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统 |
CN117332240B (zh) * | 2023-12-01 | 2024-04-16 | 中铁四局集团有限公司 | 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232280B (zh) | 一种基于树结构卷积神经网络的软件安全漏洞检测方法 | |
CN114662405A (zh) | 基于少样本度量和集成学习的岩爆预测方法 | |
CN109918505B (zh) | 一种基于文本处理的网络安全事件可视化方法 | |
CN104281525B (zh) | 一种缺陷数据分析方法及利用其缩减软件测试项目的方法 | |
CN106681305A (zh) | 一种Fast RVM污水处理在线故障诊断方法 | |
CN115130375A (zh) | 一种岩爆烈度预测方法 | |
CN113516228A (zh) | 一种基于深度神经网络的网络异常检测方法 | |
Zhang et al. | Interpretable learning algorithm based on XGBoost for fault prediction in optical network | |
CN115327041A (zh) | 一种基于关联性分析的空气污染物浓度预测方法 | |
CN116307103A (zh) | 一种基于硬参数共享多任务学习的交通事故预测方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN111737993B (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN107577738A (zh) | 一种通过svm文本挖掘处理数据的fmeca方法 | |
CN117150232B (zh) | 一种大模型非时序训练数据质量评价方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN113449072A (zh) | 基于深度学习的挖掘机故障知识图谱的构建方法 | |
CN114091549A (zh) | 一种基于深度残差网络的设备故障诊断方法 | |
CN111090679B (zh) | 基于时序影响和图嵌入的时序数据表示学习方法 | |
CN116707918A (zh) | 基于CBAM- EfficientNet异常检测的网络安全态势评估方法 | |
CN112001436A (zh) | 一种基于改进的极限学习机的水质分类方法 | |
CN116992522A (zh) | 深基坑围护结构变形预测方法、装置、设备及存储介质 | |
Yu et al. | Prediction method of rock burst proneness based on rough set and genetic algorithm | |
CN113762394B (zh) | 一种爆破块度预测方法 | |
CN115470854A (zh) | 信息系统故障分类方法及分类系统 | |
CN113935023A (zh) | 一种数据库异常行为检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |