CN116776260A - 基于机器学习的岩爆等级双模型分步预测方法 - Google Patents

基于机器学习的岩爆等级双模型分步预测方法 Download PDF

Info

Publication number
CN116776260A
CN116776260A CN202310498319.0A CN202310498319A CN116776260A CN 116776260 A CN116776260 A CN 116776260A CN 202310498319 A CN202310498319 A CN 202310498319A CN 116776260 A CN116776260 A CN 116776260A
Authority
CN
China
Prior art keywords
rock burst
model
prediction
rock
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310498319.0A
Other languages
English (en)
Inventor
罗丹旎
陶洪辉
苏国韶
刘谢伶
巫祥平
卢思航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Energy Engineering Group Guangxi Electric Power Design Institute Co ltd
Original Assignee
China Energy Engineering Group Guangxi Electric Power Design Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Energy Engineering Group Guangxi Electric Power Design Institute Co ltd filed Critical China Energy Engineering Group Guangxi Electric Power Design Institute Co ltd
Priority to CN202310498319.0A priority Critical patent/CN116776260A/zh
Publication of CN116776260A publication Critical patent/CN116776260A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • EFIXED CONSTRUCTIONS
    • E21EARTH OR ROCK DRILLING; MINING
    • E21DSHAFTS; TUNNELS; GALLERIES; LARGE UNDERGROUND CHAMBERS
    • E21D9/00Tunnels or galleries, with or without linings; Methods or apparatus for making thereof; Layout of tunnels or galleries
    • E21D9/006Tunnels or galleries, with or without linings; Methods or apparatus for making thereof; Layout of tunnels or galleries by making use of blasting methods
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F42AMMUNITION; BLASTING
    • F42DBLASTING
    • F42D3/00Particular applications of blasting techniques
    • F42D3/06Particular applications of blasting techniques for seismic purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mining & Mineral Resources (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Geochemistry & Mineralogy (AREA)
  • Geology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的岩爆等级双模型分步预测方法,包括:(1)确定主模型中影响岩爆等级的定量预测指标,建立基于机器学习的岩爆等级智能预测模型,进行岩爆等级预测获得预测结果;(2)确定辅助模型中影响岩爆等级的定量预测指标,建立岩爆等级调整模型,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低。本发明方法,充分利用现有的岩爆数据,并更全面考虑岩爆主要影响因素,通过机器学习构建岩爆等级预测“主模型+辅助模型”。利用主模型对岩爆等级进行初步预测,再利用辅助模型对岩爆等级进行更为精细的预测,以此提高岩爆等级预测的准确率。

Description

基于机器学习的岩爆等级双模型分步预测方法
技术领域
本发明涉及岩土工程灾害防治技术领域,特别涉及一种基于机器学习的岩爆等级双模型分步预测方法。
背景技术
岩爆是指高地应力地区深埋地下工程由于开挖卸荷或外部扰动致使硬脆性岩石突然释放所聚积的应变能、发生围岩弹射性破裂的现象,是高地应力地区地下岩石工程中特有的一种地质灾害。岩爆灾害的发生不仅影响工程的进度,而且还会严重威胁到现场工作人员和机械设备的安全,同时从围岩弹射出的大块岩体还会造成超挖、初期支护失效等影响,更严重的还会诱发地震,对周围的地质环境造成极大影响。鉴于此,国内外专家学者在岩爆等级预测方面进行了长期不懈的探索,并获得许多卓有成效的成果。
目前岩爆预测的方法主要可以分为四类,第一类是根据岩爆发生机理及岩爆信息统计学理论建立的经验指标评估方法。第二类是以力学分析和数值计算为理论基础,通过应力变形或能量等特征指标进行岩爆预测的数值分析方法。第三类是通过现场监测实时获取岩爆灾害的声光电等信息,从而发现岩爆孕育演化过程或储能状态的现场监测检测方法。第四类是借鉴数学和系统工程学等相关学科的方法和工具,建立考虑各种因素综合影响的智能综合预测方法。
以上四类方法存在其优点,但也存在缺点。第一类、二类方法可以归结为基于岩爆机理的岩爆等级预测方法,该方法使用的评价指标单一,而岩爆的发生受到多因素的共同影响,因此从机理出发,用单一指标对岩爆等级进行预测的准确率较为低下。第三类方法进一步可以分为两个亚类,即:(1)基于岩体变形和力学性质评估岩爆风险,该方法通过观察开挖面及其附近的地理环境和生物异常预报,分析岩石的动态特性,主要包括岩体内部发出的各种声响和局部岩体表面的剥落等,采用工程类比法进行宏观预报。(2)基于实时监测的岩体动态信息评估岩爆风险,包括地质雷达方法以及微震或声发射方法,该方法是当探测器探测到的声发射数或微震事件数大于某一阈值时,就意味着可能有岩爆发生。这些现场监测检测方法很多在工程中推广应用并取得了一定成效,但是这些声光电信号与不同类型、不同等级岩爆孕育过程的关系,尚不清楚,根据这些方法只能对岩爆是否发生做出预测,但却无法预测出岩爆发生的等级。第四类方法综合考虑了岩爆发生的多个影响因素,一般采用多个指标对岩爆等级进行综合评价,准确率较高,且不必建立复杂的数学方程或力学计算模型,可基于工程实例资料的先验知识通过智能方法综合考虑多种因素的共同影响,具有简单实用、易于被工程技术人员掌握的优点。
但在岩爆等级预测时,还是存在考虑的岩爆主要影响因素不够全面,不能充分利用现有的岩爆数据以挖掘其中岩爆发生的内在规律,且均是基于单次预测得到岩爆等级最终预测结果,无法紧跟工程进度所获得的岩体信息(如:工程环境含水状态、岩体完整性、岩石晶粒大小等)对初次预测得到的结果进行动态调整,预测准确率相对较低。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于机器学习的岩爆等级双模型分步预测方法,从而克服岩爆等级预测准确率低的缺点。
为实现上述目的,本发明提供了一种基于机器学习的岩爆等级双模型分步预测方法,包括:
(1)确定主模型中影响岩爆等级的定量预测指标,建立基于机器学习的岩爆等级智能预测模型,进行岩爆等级预测获得预测结果;
(2)确定辅助模型中影响岩爆等级的定量预测指标,建立岩爆等级调整模型,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低。
优选地,上述技术方案中,步骤(1)主模型的定量预测指标包括:围岩最大切向应力、岩石单轴抗压强度、岩石单轴抗拉强度、岩石弹性能指数、强度应力比、脆性系数B1和脆性系数B2;
优选地,上述技术方案中,步骤(2)辅助模型的定量预测指标包括:环境含水状态、岩体完整度级别和岩石晶粒大小。
优选地,上述技术方案中,主模型中岩爆等级分为无岩爆、轻微岩爆、中等岩爆和强烈岩爆;辅助模型中岩爆等级调整模型包括:工程实际发生的岩爆等级>主模型预测岩爆等级;工程实际发生的岩爆等级≥主模型预测岩爆等级;工程实际发生的岩爆等级=主模型预测岩爆等级;工程实际发生的岩爆等级≤主模型预测岩爆等级;工程实际发生的岩爆等级<主模型预测岩爆等级;无岩爆。
优选地,上述技术方案中,步骤(1)的预测模型包括K近邻分类器、集成分类器、决策树分类器和高斯过程分类器中的一种。
优选地,上述技术方案中,岩爆等级K近邻分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于K近邻分类器学习,依照以下原则对样本数据进行标准化处理:
3)根据给定的距离度量,计算待预测数据与每个训练样本的距离;
4)通过比对得到待预测数据的K个最邻近样本;
5)统计K个最近邻样本中每种岩爆等级出现的次数,出现频率最大的岩爆等级即为待预测数据所属的岩爆等级。
优选地,上述技术方案中,岩爆等级集成分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于Bagging学习,依照以下原则对样本数据进行标准化处理:
3)通过自助法(有放回抽样)生成若干个数据集,即在所有的样本中通过有放回的随机抽样,生成若干个数据集;
4)对这若干组数据集分别进行算法模型训练,从而得到若干个分类器;
5)将这若干个分类器组合,各个分类器的权重相同,从而得到最终的分类器。
优选地,上述技术方案中,岩爆等级决策树分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于决策树分类器学习,依照以下原则对样本数据进行标准化处理:
3)对于输入的岩爆训练样本集,可得不同岩爆等级的概率为P1、P2、P3、P4
则岩爆等级Y的信息熵定义为:
4)计算其在特征因素X下岩爆等级Y的条件概率分布的熵对X的数学期望,即条件熵;
5)计算特征X条件下,岩爆Y的不确定性减少的程度,即其信息增益;
6)通过计算每个属性的信息增益,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成能分类训练样本的决策树;
7)在所需预测的岩爆数据输入后,通过自顶向下的贪婪搜索遍历可能的决策空间,来判断该组数据所属的岩爆等级类别。
优选地,上述技术方案中,岩爆等级高斯过程分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本是否属于当前岩爆等级,其中,是取1,否为-1,n代表学习样本个数;
2)主要特征因素的数量级不在同一级别时,不利于高斯过程分类器学习,依照以下原则对样本数据进行标准化处理:
3)采用GP对训练样本进行学习,通过极大化训练样本的边缘似然获得最优超参数;
4)利用训练后的高斯过程分类器二元分类模型,获得待预测样本X*潜在函数y*的近似后验分布,进一步获得预测分类概率p*并判定岩爆等级,当p*≥0.5时,判定样本属于当前岩爆等级;否则,判定其不属于该类别。
优选地,上述技术方案中,步骤(1)预测模型中机器算法的选择方法包括:
1)选择多个机器学习算法,然后构建预测模型;
2)模型验证及参数优化:对多组岩爆数据集分别进行随机打乱处理,并采用十折交叉验证进行模型训练,每次训练取数据集的一部分作为训练集训练模型,余下一部分作为测试集测试模型的可靠性和泛化能力,评估模型机器学习算法性能;模型训练过程中进行模型的参数调优,以获得算法准确率最高时的最优参数;
3)性能评估指标:采用宏平均的准确率比较各机器学习算法模型的预测效果,评估模型的泛化能力;准确率的计算表达式如下式所示:
式中:TP(True Positive):将正类预测为正类数;TN(True Negative):将负类预测为负类数;FP(False Positive):将负类预测为正类数;FN(False Negative):将正类预测为负类数;
4)对多个机器学习算法模型的分类性能进行分析,选取表现优异的分类器。
与现有技术相比,本发明具有如下有益效果:
(1)本发明一种基于机器学习的岩爆等级双模型分步预测方法,充分利用现有的岩爆数据,并更全面考虑岩爆主要影响因素,通过机器学习构建岩爆等级预测“主模型+辅助模型”。利用主模型对岩爆等级进行初步预测,再利用辅助模型对岩爆等级进行更为精细的预测,以此提高岩爆等级预测的准确率。
(2)选出表现优秀(预测准确率高)的4个机器学习方法建立岩爆预测的主模型与辅助模型。对于主模型,利用容易获得大量数据的七个主要影响指标:围岩最大切向应力、岩石抗压强度、岩石抗拉强度、岩石弹性能指数、强度应力比、脆性指数B1、脆性指数B2作为主模型的输入值,并以此为基础进行初次预测。对于辅助模型,将较为特殊且当前可获得数据量较少的指标:环境含水状态、岩体完整度级别、岩石晶粒大小作为输入值,进行二次精细预测,对初次预测结果进行调整。此外,所用的训练数据量大,信息较为全面,岩爆数据集包括国内外各种地下工程的岩爆实例数据。本发明同时使用十个指标作为岩爆预测模型输入值且对岩爆进行分步预测的岩爆智能预测方法,提高岩爆等级预测结果的准确率。
附图说明
图1是根据本发明的基于机器学习的岩爆等级双模型分步预测方法中岩爆等级预测模型图;
图2是根据本发明的基于机器学习的岩爆等级双模型分步预测方法中岩爆等级调整模型图;
图3是17种机器学校算法模型的预测结果图。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
如图1至图3所示,根据本发明具体实施方式的一种基于机器学习的岩爆等级双模型分步预测方法,包括:(1)确定主模型中影响岩爆等级的定量预测指标,建立基于机器学习的岩爆等级智能预测模型,进行岩爆等级预测获得预测结果;(2)确定辅助模型中影响岩爆等级的定量预测指标,建立岩爆等级调整模型,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低。
“主模型+辅助模型”预测方法的具体思路如下:首先利用考虑因素较多且较易获得大量数据的主模型——“基于机器学习的岩爆等级智能预测模型”,进行岩爆等级预测获得预测结果后,然后进一步利用考虑若干特殊因素且仅能获得极少数据的辅助模型——“岩爆等级调整模型”,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低,从而实现岩爆等级精准预测。
一、主模型——基于机器学习的岩爆等级预测模型
在建立岩爆等级预测主模型时,将围岩最大切向应力(MTS)作为预测模型输入参数之一,来考虑地应力、洞室形状、地质条件、开挖方式等因素的影响。将岩石单轴抗压强度(UCS)、岩石单轴抗拉强度(UTS)、岩石弹性能指数(Wet)、脆性系数B1和脆性系数B2这几个参数作为预测模型输入参数,来考虑岩石岩性及力学性能的影响。将强度应力比作为预测模型输入参数之一,来考虑围岩应力极限状态的影响。这些参数都是相对容易获得的,本发明从已发表的文献中收集整理了380组岩爆样本数据,有足够的样本可进行机器学习训练。岩爆样本数据具体见表1。
表1岩爆样本数据
/>
/>
/>
/>
本发明在建立基于机器学习的岩爆等级智能预测主模型时,就主要选择这7个参数作为模型输入参数,岩爆等级作为输出参数,如图1所示。其中,围岩最大切向应力通过数值计算获得,岩石力学性能相关参数通过试验获得,强度应力比通过试验和数值计算获得。
二、辅助模型——岩爆等级调整模型
基于一些最新研究成果以及本项目所开展的不同倾角裂隙岩石、不同饱水度岩石的岩爆试验,可知工程环境含水状态、岩体完整性、岩石晶粒这些因素对岩爆的发生及其等级也有明显影响。但是这些数据以往较少统计记录,目前已发表的文献中给出的数据极少且较为孤立,难以与以上7大指标组合进行机器学习训练。仅可构造出少量数据辅助判断岩爆等级偏向性,即对主模型预测的岩爆等级,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低。我们称之为岩爆等级调整模型,该模型的输入和输出参数如图2所示。岩爆影响指标取值参见表2和表3。输出结果标识的意义参见表4。
表2岩爆等级调整模型的指标取值
表3岩体完整度级别划分
表4岩爆等级调整模型的结果标识内涵
综合来看,该预测方法具有预测精准高效、简单实用、易于被工程技术人员采用、便于推广应用等优点,并且不局限于特定的工程背景或影响因素指标,使用灵活,可有效避免岩爆预测理论判据推导复杂以及传统方法过度依赖个人经验的问题,适用于引水/输水隧洞、地下厂房、公路/铁路隧道、矿井等多种地下工程的岩爆倾向性预测,具有良好的工程应用前景。
三、岩爆等级智能预测模型的机器学习算法选择及建模方法
为建立基于机器学习的岩爆等级智能预测模型,本项目基于所收集的380组岩爆样本,在考虑岩爆影响因素完成特征参数选择后,通过采用有监督的机器学习算法训练学习,比如高斯过程分类法、最近邻法、集成分类法、决策树法、神经网络法、支持向量机法等算法,对它们进行准确率测试,最后比选出其中准确率高、效率优的若干算法建立出岩爆等级预测模型。于是,通过该分类模型即可将某数据对象映射到某个岩爆等级中,从而实现岩爆等级的预测。
为建立基于机器学习的岩爆等级智能预测模型,本项目比选了近二十种机器学习算法,包括K近邻分类器(KneighborsClassifier)、集成分类器(BaggingClassifier)、决策树分类器(DecisionTreeClassifier)、高斯过程分类器(GaussianProcessClassifier)、极度随机树分类器(ExtraTreesClassifier)、堆叠法(StackingClassifier)、神经网络分类器(MLPClassifier)、随机森林分类分类器(RandomForestClassifier)、线性判别分析(LinearDiscriminantAnalysis)、高斯朴素贝叶斯(GaussianNB)、线性支持向量分类(LinearSVM)、岭回归分类器(RidgeClassifier)、在线主动攻击型分类分类器(PassiveAggressiveClassifier)、自适应增强分类器(AdaBoostClassifier)、随机梯度下降分类器(SGDClassifier)、线性回归分类器(LinearRegression)、支持向量机(SVM)、最近邻中心分类器(NearestCentroid)、伯努利贝叶斯分类器(BernoulliNB)。
几种常见算法原理简介及预测模型建立
1、岩爆等级高斯过程分类(GPC)预测模型
(1)GPC方法原理简介
高斯过程是基于贝叶斯学习理论提出的一种机器学习方法,该方法中任意整数n≥1个有限随机变量的分布均为对应维数的高斯分布。通过对已有训练样本集学习,总结内在复杂相关规律,建立高斯过程模型,若有新的预测样本输入,高斯过程能够预测出输出状态。
依照高斯过程机器学习基本原理建立高斯过程二元分类模型。假设矢量x为训练样本影响因素输入值,对应的二元分类标志为y,y∈{-1,1},则训练样本集合表示为D={(xi,yi)|i=1,...m}。当有新的预测样本输入x*时,GPC模型的目标就是通过训练样本的学习,预测对应的类别y*
由概率论知识可知:当x确定时,p(y|x)服从伯努利分布;若取y=1,则对应的概率为p(y=1|x)=Φ(f(x)),其中Φ(·)为标准高斯分布的累计概率密度函数,该函数能够将分类标记限定到[0,1]区间内,通常选取sigmoid函数Φ(z)=1/(1+e-z),f(x)为潜在函数。为行文方便,简写为:fi=f(xi),f=[f1...,fm]T,y=[y1...,ym]T,X=[x1...,xm]T
当潜在函数确定后,训练样本是独立的伯努利分布变量,其似然函数为:
潜在函数的先验分布为:
p(f|X,θ)=N(0,K) (2)
其中θ={σf,l}为超参数,通过潜在函数f的极大似然优化确定;K为m×m阶协方差矩阵,Kij=k(xi,xj,θ),k(·)表示与θ有关的正定协方差函数。
协方差函数在GPC预测中起到至关重要的作用,常见的有平方指数型、有理二次型、马特恩型等多种型式,协方差函数均须满足:对任一点集,能够产生非负正定协方差矩阵。本项目采用最常用的平方指数型协方差函数:
当获得一定规模训练样本集合后,依据贝叶斯原理,可得潜在函数f的后验分布为:
/>
至此,GPC完成对训练样本的学习。当有新的预测样本输入x*时,对应的预测样本潜在函数值f*的条件概率为:
p(f*|D,θ,x*)=∫p(f*|f,X,θ,x*)p(f|D,θ)df (5)
对应的类别y*的预测概率为:
p(y*|D,θ,x*)=∫p(y*|f*)p(f*|D,θ,x*)df* (6)
在GPC中,以预测概率p(y*|D,θ,x*)=0.5作为分类阀值,当预测概率大于0.5时属于某一类,当预测概率不大于0.5时属于另外一类。
由于(5-5)式和(5-6)式均没有解析解,需采用Laplace或Expectationpropagation等逼近方法获取近似解。
假设m和A分别为近似解的均值和方差,训练样本潜在函数f后验分布的近似高斯分布为:
p(f|D,θ)≈q(f|D,θ)=N(m,A) (7)
同理,预测样本潜在函数值f*后验分布可表示为:
该近似高斯分布中的均值和方差为:
其中k*=[k(x1,x*),...,k(xm,x*)]T,表示x*与训练输入X之间的先验协方差矢量。
假定x*属于标志为“1”的预测概率见下式:
(2)岩爆等级GPC分类模型构建
建立岩爆等级GPC分类模型的思路是将多元分类问题分解成若个二元分类问题,分别对岩爆等级进行多次“是与非”的判别。具体实现步骤如下:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本是否属于当前岩爆等级(是取1,否为-1),n代表学习样本个数。
2)主要特征因素的数量级不在同一级别时,不利于GP学习,依照以下原则对样本数据进行标准化处理:
3)采用GP对训练样本进行学习,通过极大化训练样本的边缘似然获得最优超参数。
4)利用训练后的GPC二元分类模型,获得待预测样本X*潜在函数y*的近似后验分布,进一步获得预测分类概率p*并判定岩爆等级,当p*≥0.5时,判定样本属于当前岩爆等级;否则,判定其不属于该类别。
2、岩爆等级K近邻算(KNN)预测模型
(1)KNN方法基本原理简介
k近邻学习是一种常用的监督学习方法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法的工作机制为:给定测试样本,基于距离度量找出训练集中与其最靠近的k个训练样本,之后基于这k个“邻居”的信息来进行预测。分类时,对新的实例,根据其k个最邻近的训练实例的类别(通过距离度量求得),通过多数表决的方式进行预测,也即“投票法”(选择k个样本中出现次数最多的类别标记作为预测结果)。k近邻法实际上利用训练数据集对特征空间进行划分,并作为其分类的“模型”;k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。
其主要使用的距离度量有以下三种:
1.欧氏距离(Euclidean Distance)
欧几里得度量(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离为:
2.曼哈顿距离(Manhattan Distance)
曼哈顿距离是在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离为:
3.切比雪夫距离(Chebyshev Distance)
切比雪夫距离或是L∞度量,是向量空间中的一种度量,二个点之间的距离定义为其各座标数值差绝对值的最大值。
两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的切比雪夫距离为:
K近邻法中,当训练集、距离度量、k值以及分类决策规则确定后,对于任何一个新的输入实例,它所属的类唯一地确定。这相当于根据上诉要素将特征空间划分为一些子空间,确定子空间里的每个点的属性的类。
在该算法中,训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)},其中,xi∈X=Rn为实例的特征向量,yi∈Y=(c1,c2,…,ck)为实例的类别,i=1,2,...,N。当输入未知类别的特征向量x时,根据给定的距离度量,在训练数据集T中找出与x最邻近的k个点,涵盖这k个点的x的领域记作Nk(x)。在Nk(x)中根据分类决策规则(多数表决)决定x的所属类别y。
(2)岩爆等级KNN预测模型构建
建立岩爆等级KNN分类模型的思路是基于已有岩爆样本数据库,对所需预测数据x在训练数据集中找出与x最邻近的k(本算法中默认取k=1)个点。根据最近邻点的岩爆等级决定x所属岩爆等级y。具体实现步骤如下:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级。
2)主要特征因素的数量级不在同一级别时,不利于KNN学习,依照以下原则对样本数据进行标准化处理:
3)根据给定的距离度量,计算待预测数据与每个训练样本的距离。
4)通过比对得到待预测数据的K个最邻近样本。
5)统计K个最近邻样本中每种岩爆等级出现的次数,出现频率最大的岩爆等级即为待预测数据所属的岩爆等级。
3、岩爆等级决策树(DT)预测模型
(1)DT方法基本原理简介
决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的划分方法。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。样本所有特征中的一些特征在分类时起到决定性作用,决策树的构造过程就是找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树--决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一类。所以,构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程。
一棵决策树的生成过程主要分为以下3个部分:
1.特征选择。从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准,如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。
2.决策树生成。根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树生长。树结构来说,递归结构是最容易理解的方式。
3.剪枝。决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。
划分数据集的最大原则是:使无序的数据变的有序。这就必须采用量化的方法来判断。基于信息论的决策树算法有ID3、CART和C4.5等算法,其中C4.5和CART两种算法从ID3算法中衍生而来。
在概率论中,信息熵给了我们一种度量不确定性的方式,用来衡量随机变量的不确定性,即为信息的期望值。若待分类的事物可能划分在N类中,分别是x1,x2,…,xn与,每一种取到的概率分别是p1,p2,…,pn,那么X的熵就定义为:
熵值越高,则数据混合的种类越多,其蕴含的变化可能越多,携带的信息量就越大。
假设有随机变量(X,Y),其联合概率分布为:
P(X=xi,Y=yi)=pij,i=1,2,…,n;j=1,2,…,m
则条件熵(H(Y∣X))表示在已知随机变量X的条件下随机变量Y的不确定性,其定义为X在给定条件下Y的条件概率分布的熵对X的数学期望:
/>
信息增益表示得知特征X的信息后,而使得Y的不确定性减少的程度。定义为:
g(Y,X)=H(Y)-H(Y|X)
对于输入岩爆训练样本集,将其通过岩爆等级划分为y1,y2,y3,y4,则不同岩爆等级的概率为P1、P2、P3、P4
则岩爆等级Y的信息熵定义为:
(2)岩爆等级DT预测模型构建
(1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级。
(2)主要特征因素的数量级不在同一级别时,不利于DT学习,依照以下原则对样本数据进行标准化处理:
(3)对于输入的岩爆训练样本集,可得不同岩爆等级的概率为P1、P2、P3、P4
则岩爆等级Y的信息熵定义为:
(4)计算其在特征因素X下岩爆等级Y的条件概率分布的熵对X的数学期望,即条件熵。
(5)计算特征X条件下,岩爆Y的不确定性减少的程度,即其信息增益。
(6)通过计算每个属性的信息增益,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成能分类训练样本的决策树。
(7)在所需预测的岩爆数据输入后,通过自顶向下的贪婪搜索遍历可能的决策空间,来判断该组数据所属的岩爆等级类别。
4、岩爆等级集成分类器(Bagging)预测模型
(1)Bagging方法基本原理简介
Bagging的全称为Bootstrap aggregating。该算法的思想是让学习算法训练多轮,每轮的训练集由从初始的训练集中随机取出的n个训练样本组成,某个初始训练样本在某轮训练集中可以出现多次或根本不出现(即所谓的有放回抽样),训练之后可得到一个预测函数序列x1,x2,…,xn,最终的预测函数X对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。
Bagging通过降低基分类器的方差,改善了泛化误差。其性能依赖于基分类器的稳定性;如果基分类器不稳定,Bagging有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器的误差主要由基分类器的偏倚引起。由于每个样本被选中的概率相同,因此Bagging并不侧重于训练数据集中的任何特定实例。
通过分别训练几个不同的模型,然后让所有模型表决测试样例的输出,这是机器学习中的常规策略,被称为模型平均(modelaveraging),模型平均(model averaging)能有效减少泛化误差的原因是不同的模型通常不会在测试集上产生完全相同的误差。采用这种策略的技术被称为集成方法。
在集成算法中,首先从输入的训练样本集{(x1,y1),(x2,y2),...,(xn,yn)}里,随机取n个样本,允许重复,生成若干个与原始训练样本集有些许差异的新样本集。
通过对若干略有不同的训练样本进行学习,得到多个稍微不同的弱分类器
对所有的弱学习器求平均值,得到一个强学习器δ,即
(2)岩爆等级Bagging预测模型构建
(1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级。
(2)主要特征因素的数量级不在同一级别时,不利于Bagging学习,依照以下原则对样本数据进行标准化处理:
(3)通过自助法(有放回抽样)生成若干个数据集,即在所有的样本中通过有放回的随机抽样,生成若干个数据集。
(4)对这若干组数据集分别进行算法模型训练,从而得到若干个分类器。
(5)将这若干个分类器组合,各个分类器的权重相同,从而得到最终的分类器。
四、模型性能分类性能评估
为获得预测准确高效、实现容易、通用性强、可移植性好的算法建立岩爆等级预测主模型,本项目主要考查高斯过程分类法、最近邻法、集成分类法、决策树法、神经网络法、支持向量机法等近二十种算法,对各类算法的模型进行分类性能评估,选出其中性能优异的预测模型。
1、模型验证及参数优化
模型训练前为了提升模型的泛化能力,防止模型过拟合,对380组岩爆数据集分别进行随机打乱处理,并采用十折交叉验证(GridSearchCV)进行模型训练,每次训练取数据集的1/10作为训练集训练模型,余下1/10作为测试集测试模型的可靠性和泛化能力,评估模型分类性能。
同时,模型训练过程中进行模型的参数调优,以获得算法准确率最高时的最优参数。在算法自动调参过程中,首先给出算法相关参数一系列的先验候选值,通过一定原则遍历尝试所有参数取值组合,进而获取使算法表现最优时的参数取值组合。
2、性能评估指标
岩爆预测属于多分类问题,对其性能评估方法有宏平均(Macro avg)、微平均(Micro avg)和加权平均(Weighted avg)。微平均不区分样本的类别;加权平均是对宏平均的改进,考虑了不同类别样本数目的比例。但岩爆数据集经过预处理后各等级岩爆样本数目基本保持一致,宏平均方法较为适用。度量指标方面,机器学习模型的性能比较通常使用准确率、精确率、召回率、F1值等性能度量值进行比较。
综合考虑,本项目采用宏平均的准确率(Accuracy)比较各分类模型的预测效果,评估模型的泛化能力。准确率的计算表达式如式(18)所示。
式中:TP(True Positive):将正类预测为正类数;TN(True Negative):将负类预测为负类数;FP(False Positive):将负类预测为正类数;FN(False Negative):将正类预测为负类数。
3、模型分类性能对比分析
17种不同算法所构建的岩爆等级预测模型的准确率如图3和表5所示。通常而言,模型准确率排序,排名越靠前则模型性能越好。由图和表可知,不同算法的模型准确率在0.42~0.88范围,其中,K近邻分类器表现最好,其准确率平均值为0.88;其次是集成分类器,其准确率平均值为0.87;然后是决策树分类器、高斯过程分类器,他们的准确率平均值分别为0.87和0.86;之后的神经网络分类器、随机森林分类分类器、线性判别分析分类器等13种分类器效果就较为一般,模型准确率仅在0.42~0.64范围。可见,前4个模型性能十分优异,对于岩爆等级分类问题,它们有着良好的分类性能,预测准确,效率高。
表5 17种模型的预测准确率
为了提高岩爆等级预测结果的准确率。选出17种机器学习方法,进行岩爆等级预测训练,从中选出表现优秀(预测准确率高)的4个机器学习方法建立岩爆预测的主模型与辅助模型。对于主模型,利用容易获得大量数据的七个主要影响指标:围岩最大切向应力、岩石抗压强度、岩石抗拉强度、岩石弹性能指数、强度应力比、脆性指数B1、脆性指数B2作为主模型的输入值,并以此为基础进行初次预测;对于辅助模型,将较为特殊且当前可获得数据量较少的指标:环境含水状态、岩体完整度级别、岩石晶粒大小作为输入值,进行二次精细预测,对初次预测结果进行调整。此外,所用的训练数据量大,信息较为全面,岩爆数据集包括国内外各种地下工程的岩爆实例数据。最为重要的是,提出一个同时使用十个指标作为岩爆预测模型输入值且对岩爆进行分步预测的岩爆智能预测方法尚属首次,预测结果的准确度相对提高了。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (10)

1.一种基于机器学习的岩爆等级双模型分步预测方法,其特征在于,包括:
(1)确定主模型中影响岩爆等级的定量预测指标,建立基于机器学习的岩爆等级智能预测模型,进行岩爆等级预测获得预测结果;
(2)确定辅助模型中影响岩爆等级的定量预测指标,建立岩爆等级调整模型,判断实际发生的岩爆等级可能较主模型预测结果偏高抑或偏低。
2.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,步骤(1)主模型的定量预测指标包括:围岩最大切向应力、岩石单轴抗压强度、岩石单轴抗拉强度、岩石弹性能指数、强度应力比、脆性系数B1和脆性系数B2。
3.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,步骤(2)辅助模型的定量预测指标包括:环境含水状态、岩体完整度级别和岩石晶粒大小。
4.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,主模型中岩爆等级分为无岩爆、轻微岩爆、中等岩爆和强烈岩爆;
辅助模型中岩爆等级调整模型包括:工程实际发生的岩爆等级>主模型预测岩爆等级;工程实际发生的岩爆等级≥主模型预测岩爆等级;工程实际发生的岩爆等级=主模型预测岩爆等级;工程实际发生的岩爆等级≤主模型预测岩爆等级;工程实际发生的岩爆等级<主模型预测岩爆等级;无岩爆。
5.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,岩爆等级智能预测主模型和岩爆等级调整模型的算法包括K近邻分类器、集成分类器、决策树分类器和高斯过程分类器中的一种。
6.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,岩爆等级K近邻分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于K近邻分类器学习,依照以下原则对样本数据进行标准化处理:
3)根据给定的距离度量,计算待预测数据与每个训练样本的距离;
4)通过比对得到待预测数据的K个最邻近样本;
5)统计K个最近邻样本中每种岩爆等级出现的次数,出现频率最大的岩爆等级即为待预测数据所属的岩爆等级。
7.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,岩爆等级集成分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于集成分类器学习,依照以下原则对样本数据进行标准化处理:
3)通过自助法(有放回抽样)生成若干个数据集,即在所有的样本中通过有放回的随机抽样,生成若干个数据集;
4)对这若干组数据集分别进行算法模型训练,从而得到若干个分类器;
5)将这若干个分类器组合,各个分类器的权重相同,从而得到最终的分类器。
8.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,岩爆等级决策树分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本表示所属岩爆等级;
2)主要特征因素的数量级不在同一级别时,不利于决策树分类器学习,依照以下原则对样本数据进行标准化处理:
3)对于输入的岩爆训练样本集,可得不同岩爆等级的概率为P1、P2、P3、P4
则岩爆等级Y的信息熵定义为:
4)计算其在特征因素X下岩爆等级Y的条件概率分布的熵对X的数学期望,即条件熵;
5)计算特征X条件下,岩爆Y的不确定性减少的程度,即其信息增益;
6)通过计算每个属性的信息增益,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成能分类训练样本的决策树;
7)在所需预测的岩爆数据输入后,通过自顶向下的贪婪搜索遍历可能的决策空间,来判断该组数据所属的岩爆等级类别。
9.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,岩爆等级高斯过程分类器预测模型的构建方法包括:
1)根据大量岩爆实例资料建立训练样本(xi,yi),i=1,…,n,输入向量xi表示影响岩爆等级分类的主要特征因素,输出标量yi样本是否属于当前岩爆等级,其中,是取1,否为-1,n代表学习样本个数;
2)主要特征因素的数量级不在同一级别时,不利于高斯过程分类器学习,依照以下原则对样本数据进行标准化处理:
3)采用GP对训练样本进行学习,通过极大化训练样本的边缘似然获得最优超参数;
4)利用训练后的高斯过程分类器二元分类模型,获得待预测样本X*潜在函数y*的近似后验分布,进一步获得预测分类概率p*并判定岩爆等级,当p*≥0.5时,判定样本属于当前岩爆等级;否则,判定其不属于该类别。
10.根据权利要求1所述的基于机器学习的岩爆等级双模型分步预测方法,其特征在于,步骤(1)预测模型中机器算法的选择方法包括:
1)选择多个机器学习算法,然后构建预测模型;
2)模型验证及参数优化:对多组岩爆数据集分别进行随机打乱处理,并采用十折交叉验证进行模型训练,每次训练取数据集的一部分作为训练集训练模型,余下一部分作为测试集测试模型的可靠性和泛化能力,评估模型机器学习算法性能;模型训练过程中进行模型的参数调优,以获得算法准确率最高时的最优参数;
3)性能评估指标:采用宏平均的准确率比较各机器学习算法模型的预测效果,评估模型的泛化能力;准确率的计算表达式如下式所示:
式中:TP(True Positive):将正类预测为正类数;TN(True Negative):将负类预测为负类数;FP(False Positive):将负类预测为正类数;FN(False Negative):将正类预测为负类数;
4)对多个机器学习算法模型的分类性能进行分析,选取表现优异的分类器。
CN202310498319.0A 2023-05-05 2023-05-05 基于机器学习的岩爆等级双模型分步预测方法 Pending CN116776260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310498319.0A CN116776260A (zh) 2023-05-05 2023-05-05 基于机器学习的岩爆等级双模型分步预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310498319.0A CN116776260A (zh) 2023-05-05 2023-05-05 基于机器学习的岩爆等级双模型分步预测方法

Publications (1)

Publication Number Publication Date
CN116776260A true CN116776260A (zh) 2023-09-19

Family

ID=87993825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310498319.0A Pending CN116776260A (zh) 2023-05-05 2023-05-05 基于机器学习的岩爆等级双模型分步预测方法

Country Status (1)

Country Link
CN (1) CN116776260A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332240A (zh) * 2023-12-01 2024-01-02 中铁四局集团有限公司 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332240A (zh) * 2023-12-01 2024-01-02 中铁四局集团有限公司 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统
CN117332240B (zh) * 2023-12-01 2024-04-16 中铁四局集团有限公司 岩爆预测模型构建方法、存储介质、岩爆预测方法及系统

Similar Documents

Publication Publication Date Title
Zhu et al. Application of machine learning techniques for predicting the consequences of construction accidents in China
CN113837477B (zh) 数据双驱动的台风灾害下电网故障预测方法、装置和设备
Sainct et al. Efficient methodology for seismic fragility curves estimation by active learning on Support Vector Machines
CN113642849B (zh) 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN112784881A (zh) 网络异常流量检测方法、模型及系统
YANG Power grid fault prediction method based on feature selection and classification algorithm
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN112506990A (zh) 一种基于时空信息的水文数据异常检测方法
Shashaani et al. Multi-stage prediction for zero-inflated hurricane induced power outages
CN110909924A (zh) 基于交叉熵优化器的城市扩张多情景模拟元胞自动机方法
CN116776260A (zh) 基于机器学习的岩爆等级双模型分步预测方法
CN109947806A (zh) 一种基于案例推理的超高层施工安全事故应急辅助决策方法
CN112232526A (zh) 一种基于集成策略的地质灾害易发性评价方法及系统
CN109308411A (zh) 基于人工智能决策树的分层检测软件行为缺陷的方法和系统
CN115877483A (zh) 一种基于随机森林和gru的台风路径预报方法
CN113626929A (zh) 多阶段多拓扑的船舶交通复杂度度量方法及系统
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams
CN116522790A (zh) 一种确定暴雨导致滑坡链式灾害影响区域的方法和系统
Zhao et al. Bayesian network based imprecise probability estimation method for wind power ramp events
Nababan et al. Air Quality Prediction Based on Air Pollution Emissions in the City Environment Using XGBoost with SMOTE
CN115618610A (zh) 一种基于信息变权重的地下工程岩爆烈度评价方法
CN115659253A (zh) 一种基于多维模型融合的水下目标识别方法
CN111047079B (zh) 一种风电场风速时间序列预测方法及系统
CN114880954A (zh) 一种基于机器学习的滑坡敏感性的评估方法
CN114548306A (zh) 一种基于误分类代价的钻井早期溢流智能监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination