CN115017791A

CN115017791A - 隧道围岩级别识别方法和装置

Info

Publication number: CN115017791A
Application number: CN202111557315.2A
Authority: CN
Inventors: 王同军; 黎庶; 吴川; 解亚龙; 宋树宝; 梁策; 鲍榴; 郝蕊; 王泽彦; 李飞; 孙安培; 刘红峰; 邵磐
Original assignee: China Academy of Railway Sciences Corp Ltd CARS; China State Railway Group Co Ltd; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Current assignee: China Academy of Railway Sciences Corp Ltd CARS; China State Railway Group Co Ltd; Institute of Computing Technologies of CARS; Beijing Jingwei Information Technology Co Ltd
Priority date: 2021-12-18
Filing date: 2021-12-18
Publication date: 2022-09-06

Abstract

本发明提供一种隧道围岩级别识别方法和装置，方法包括：获取不同隧道围岩级别的数据样本来形成包含训练样本的训练集，训练样本包括电脑型凿岩台车采集的钻爆法施工隧道的随钻参数；将获取的训练样本的数据进行特征的向量化，采用基于人工少数类过采样法的自适应综合过采样法进行样本数均衡；利用随机森林算法将样本数平衡的样本集中的特征按重要程度进行排序；基于特征排序结果按照重要程度从高到低的顺序提取样本数平衡的样本集中样本的预定数量的特征，基于提取的特征来训练预定的机器模型；采集不同隧道围岩级别的待测试数据样本，基于特征排序结果提取预定数量的特征生成特征向量，输入至已训练的机器模型，输出隧道围岩级别识别。

Description

隧道围岩级别识别方法和装置

技术领域

本发明涉及隧道施工技术领域，尤其涉及一种隧道围岩级别识别方法和装置。

背景技术

隧道建设主要有钻爆法、盾构法、沉管法等施工方法，其中采用钻爆法的隧道施工比例达到80％。复杂艰险山区钻爆法隧道修建过程中常因不能准确判识前方岩体性质，无法对当前隧道各项超前及洞身支护措施动态调控，直接影响隧道施工质量及效率。

当前，铁路修建隧道开挖断面面积可达160m²，受断层、密集节理、局部风化和地层分界线等因素影响，须及时对设计参数做出局部优化调整。目前主要依靠现场地质人员对围岩级别变化做出判识，其手段单一、时效性较差，并受人员技术水平的影响。现阶段智能型凿岩台车可进行超前支护钻孔施工、掌子面炮孔施工、锚杆钻孔施工并生产相应的施工日志信息，虽然具备自动定位、自动标记钻孔位置、自动传输数据等智能化功能，但多为机械自身运行状态的离散传感数据，同时数据增长快、结构差异大、表示形式具有多样性，在存储方案、数据交互格式都存在较大差异，无法直接用于掌子面围岩的智能分级并指导支护结构类型与参数自适应调整。后期主要根据工程经验、人工输入基础参数再匹配的方式来实现对当前施工状态的动态调控。这会直接影响隧道各项超前支护措施及洞身支护措施安全、快速、高效、高质量的施作到位，进而影响隧道掌子面的稳定性，影响隧道施工质量。

近年来，随着智能时代的到来，对铁路隧道建设技术创新发展提出了新的机遇与挑战。随着机器学习研究的不断深入，机器学习理论逐步应用于岩体质量分析，Wedged等人利用卷积神经网络和矿物勘探中采集的钻进参数，通过算法判断地层岩性、地层分界面等信息并于人工判断结果进行对比。Nishitsujiy等人对比了支持向量机、深度学习与线性分类器及贝叶斯分类器等模型在岩相类型划分方面的表现，认为深度学习方法更具备成为未来岩性划分的主要方法的潜力。Valentinmb等人利用超声波和微电阻率成像测井数据作为输入，通过深度残差网络构建了井眼图像数据分类模型，识别了钙质岩、辉绿岩、页岩和粉砂岩4类岩性。蔡世明等人选择围岩强度、自重应力、岩体完整程度和开采影响等7类参数作为神经网络输入，判识了巷道工程围岩稳定性状态。学者们的研究表明，利用机器学习理论和钻进参数识别地层岩性、岩层厚度和节理发育等地质构造信息是可行的，但如何在实际工程中进一步定量判识掌子面不同区域的围岩情况，并指导施工设计参数调整，还有待深入研究。

隧道围岩级别是评判围岩性质、判断隧道围岩稳定性、选择隧道支护类型、指导安全施工的重要依据，如何克服现有技术中过于依赖人工经验且低时效的识别围岩级别手段来提供一种高效准确的围岩级别识别方法，是一个亟待解决的问题。

发明内容

鉴于此，本发明实施例提供了一种隧道围岩级别识别方法和装置，通过利用电脑型凿岩台车监测数据，构建SMOTE算法进行数据集平衡，并利用机器学习实现了对隧道围岩的自动分级与动态预测。

本发明的一个方面提供了一种隧道围岩级别识别方法，该方法包括以下步骤：

获取不同隧道围岩级别的数据样本来形成包含训练样本的训练集，所述训练样本包括电脑型凿岩台车采集的钻爆法施工隧道的随钻参数，所述随钻参数包括实时运行参数和循环日志数据；

将获取的训练样本的数据进行特征向量化，并在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集；

利用随机森林算法将样本数平衡的样本集中的特征按重要程度进行排序，获得特征排序结果；

基于所述特征排序结果按照重要程度从高到低的顺序选择样本数平衡的样本集中样本的预定数量的特征，将选择的特征作为输入特征来训练预定的机器模型；

采集不同隧道围岩级别的待测试数据样本，基于所述特征排序结果提取预定数量的特征生成特征向量，输入至已训练的机器模型，输出隧道围岩级别识别结果。

在本发明的一些实施例中，所述在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集，包括：

对训练集的数据样本进行归一化和标准化处理，并删除异常值；

针对训练集中的每一隧道围岩级别的训练样本，计算不平衡度；

在不平衡度不满足预定的样本平衡条件的情况下，基于训练集中当前少数类和多数类的数量确定当前少数类样本要生成的合成样本数量；

对于每个属于当前少数类的样本实例，查找最近的邻居，基于查找的最近的邻居中属于多数类的实例数计算每个少数类样本需要生成的合成样本的数量；

对于每个少数类样本，执行与合成样本的数量对应的样本合成操作，在每次样本合成操作中通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本。

在本发明的一些实施例中，所述基于训练集中当前少数类和多数类的数量确定当前少数类样本要生成的合成样本数量包括以下步骤：基于当前少数类实例和多数类实例的数量以及平衡指示参数计算需要为少数类样本生成的合成样本的数量；

所述对于每个属于当前少数类的样本实例，查找最近的邻居，基于查找的最近的邻居中属于多数类的实例数计算每个少数类样本需要生成的合成样本的数量，包括：

对于每一个属于少数类的样本示例，基于其特征空间中的欧式距离找到最近的邻居，并基于最近的邻居计算密度分布参数；

基于计算的密度分布参数来计算每个少数类样本实例需要生成的合成样本的数量。

在本发明的一些实施例中，基于如下公式计算需要为少数类样本生成的合成样本的数量：

G＝(m_l-m_s)*β；

其中，G表示需要生成的合成样本的数量，m_s表示当前少数类实例的数量，m_l表示当前多数类实例的数量，β为指示合成数据生成后所需的平衡水平的参数；

基于如下公式计算密度分布参数；

其中，r_i表示密度分布，K表示当前属于少数类的样本示例的特征空间中的欧式距离找到最近的邻居，Δ_i是K个最近邻中的属于多数类的实例数；

基于如下公式来计算每个少数类样本实例需要生成的合成样本的数量：

其中，g_i为每个少数类样本实例需要生成的合成样本的数量，

在本发明的一些实施例中，所述通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本包括：

基于如下公式来生成合成样本：

s_i＝x_i+(x_zi-x_i)*λ；

其中，s_i表示第i个少数类样本x_i的一个合成样本，x_zi表示从当前少数类样本的最近邻居中选择的一个少数类样本，λ是随机数。

在本发明的一些实施例中，所述实时状态数据包括以下数据中的部分或全部：推进压力、推进速度、冲击压力、回转压力、水压力、水流量、当前工作状态、整机总电流、总电压。

在本发明的一些实施例中，在将获取的训练样本的数据进行特征向量化之前，所述方法还包括：对获取的不同隧道围岩级别的训练样本中的特征变量进行数据清洗预处理，以剔除低相关性数据和冗余特征；对数据清洗预处理后的样本的数据进行标准化处理以消除量纲影响。

在本发明的一些实施例中，所述预定的机器模型为XGBoost机器学习模型或者所述预定的机器模型包括XGBoost、BPNN和AdaBoost机器学习模型在内的多个机器学习模型；

在所述预定的机器模型包括多个机器学习模型的情况下，所述训练集还包括验证样本；所述方法还包括：利用验证样本来获得已训练的多个机器模型的准确率，基于获得的准确率来选择一个机器模型作为用于进行测试的机器模型。

在本发明一些实施例中，所述方法还包括：利用网络搜索法进行对XGBoost机器学习模型进行参数寻优。

本发明的另一方面还提供了一种隧道围岩级别识别方法和装置，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前所述方法的步骤。

本发明的隧道围岩级别识别方法和装置，能够快速准确地识别出隧道围岩级别，从而能够基于识别结果做出快速地响应。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明一实施例中能够实现隧道围岩级别识别的整体应用架构示意图。

图2为本发明一实施例中隧道围岩级别识别方法的流程示意图。

图3为本发明一实施例中样本的特征重要性排序示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

本发明基于数字孪生的钻爆法隧道智能机械化施工过程，提出了一种利用电脑型凿岩台车监测数据对掌子面围岩自动分级与动态预测的方法，为施工现场动态支护智能化决策提供辅助支撑。

一般围岩分级采用定性划分和定量指标这两种方法综合确定。定性划分指采用现场掌子面地质素描获取其岩石坚硬程度和岩体完整程度的定性描述；定量是指采用岩石回弹试验、岩石抗压强度试验、岩石波速试验和岩体波速试验等方法，并引入地下水、地应力和主要结构面产状指标获取其围岩分级指标。

实际工程对围岩级别的判定以定性为主，定量为辅。在本发明实施例中，是将通过现场掌子面素描结果定性得出的围岩级别，作为本次有监督机器学习分类问题的样本数据。另外，由于围岩级别标签正确性会影响围岩级别预测的准确性，因此本发明通过少量岩石回弹试验、岩石抗压强度试验、岩石波速试验和岩体波速试验等方法验证现场地质工程师标注围岩级别标签的正确性。

现有技术中影响专业人员对隧道围岩级别准确判识的因素众多，如前期勘察设计地质分析、超前地质预报、施工中钻孔摄像、光谱成像、三维数码摄像、激光扫描、随钻测量等技术对围岩参数评价均有参考意义，随着大型配套机械化装备的推广使用，机械本身自感知系统实时采集的凿岩钻进参数(或称随钻参数)对围岩级别的判断可以起到关键且迅速响应反馈的效果，因此本发明重点关注岩质较复杂的隧道，选取电脑三臂凿岩台车凿岩过程中产生的钻进参数，诸如推进速度、回转压力、推进压力、回转速度、冲击压力等与掌子面地质素描判识到的围岩级别，构建机器学习样本库。

本发明的目的在于对智能装备(如电脑型凿岩台车)实时采集的随钻数据进行准确感知和分析识别，并进行相应决策，用以支撑隧道智能建造过程中的围岩判识、设计交互、施工监管、质量评价等关键环节由传统工作模式向智能化转型升级。

图1所示为本发明一实施例中能够实现隧道围岩级别识别的整体流程架构示意图。如图1所示，本发明的隧道围岩级别识别流程主要分为3个阶段：

(1)数据感知(采集)阶段：通过智能型凿岩台车来采集钻爆法施工隧道的随钻参数，随钻参数可包括定位数据、实时运行参数数据和循环日志数据，从而获得不同隧道围岩级别的、包括训练样本的训练集。

通常，由于隧道的地质情况、施工进度有差异，采集到的不同隧道围岩级别的样本数目不一致，存在样本比例失调现象。根据试验隧道采集上来的数据，围岩级别样本主要分为III级围岩样本、Ⅳ级围岩样本和Ⅴ级围岩样本三种类型，不同围岩级别的样本数目通常不同，即存在不平衡现象。

(2)数据预处理(清洗与整理)阶段：将采集的原始数据进行数据的清洗整理，如剔除缺失变量数量过多的数据、冗余数据和低相关性数据，然后进行特征向量化，得到特征向量。由于通过数据采集得到的训练集中，不同类别的样本数存在不平衡现象，因此，本发明进一步使用SMOTE算法来平衡数据集中的样本。

(3)模型训练与测试阶段：将平衡后的数据集作为XGBoost模型的输入来进行模型训练，可进一步通过与反向传播神经网络(BPNN，Back propagation neural network)、AdaBoost模型在预测准确率各方面做对比，寻找预测效果以及稳定性最好的预测模型。

图2所示为本发明一实施例中隧道围岩级别识别方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S110，获取不同隧道围岩级别的数据样本来形成包含训练样本的训练集。

智能型凿岩台车的钻进参数反映了在恒定冲击能作用下，凿岩机对不同围岩地质的反应情况。智能型凿岩台车实时自动采集凿岩机的一系列作业过程数据，详细记录了智能施工装备各项系统运转实测值、参数、状态等信息，其具有采集频率高、数据量大特征，是整个作业过程最为详细的过程记录数据。

本发明实施例中，训练样本包括电脑型凿岩台车采集的钻爆法施工隧道的随钻参数，随钻参数包括定位数据、实时运行参数数据和循环日志数据，如下面的表1所示。

表1.电脑型凿岩台车主要数据集

以上采集的数据内容仅为示例，本发明并不限于此，还可以包括更多或更少的内容。

本发明在进行数据采集时选取岩性较为复杂的隧道工点进行样本收集，重点监控分析电脑型凿岩台车的随钻参数，并且针对的主要是呈现为III级、Ⅳ级，部分为Ⅴ级围岩的隧道围岩。

作为一示例，通过针对不同隧道围岩级别进行数据采集，得到一共500条训练样本，其中III级围岩级别的样本共162条，Ⅳ级围岩级别的样本为278条，Ⅴ级围岩级别的样本数据60条，可以看出这些不同类别的样本的类不平衡程度较高。这些样本可用于后面的机器模型训练。这些样本被置于训练集中。

步骤S120，将获取的训练样本的数据进行特征的向量化，并在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集。

在本发明的实施例中，为了满足研究要求，提升数据质量，以准确性、完整性和一致性的目标，在将获取的训练样本的数据进行特征的向量化之前，通常对原始数据先进行预处理，如数据清洗和标准化处理。数据清洗过程用于剔除缺失变量数量过多的数据、冗余数据、低相关性数据和取值数量过多的离散变量。

关于冗余数据，由于ID是每条样本数据的唯一标识，所以可以基于ID对数据进行重复查找来删除重复的数据，重复查找后，无需进行重复剔除操作。

关于缺失变量，对于连续型变量的缺失，可填充该变量上数据总体的均值；对于离散型变量，可填充该变量上数据总体出现频率最高的值；当其缺失变量数量过多时，可直接剔除该条数据。

对特征变量进行初步筛选，在本发明一实施例中，定位里程(台车当前桩号)，不能提供对围岩判识有用的信息，将其剔除；实时运行参数数据中，当前工作状态在全体数据上仅有唯一取值(正常工作无预警状态)，将其剔除；循环日志数据中的钻孔数量、钻孔总进尺等变量与输出变量“围岩级别”无关，将其剔除；对于钻孔起止时间、卡钻时间、冲洗/其他时间的四个时间取值数量过多的离散变量将产生维度过高的稀疏矩阵，影响分类学习效果，所以亦将其剔除。

通过剔除低相关性和冗余特征等对数据进行降维后，缩减了数据集合大小，可以有效提升机器学习效率。

在进行数据清洗后，可进一步对数据进行标准化处理以消除量纲影响。不同变量往往具有不同量纲，可能存在数量级上的差异，在分类中数值较大的特征容易获得更高的权重。为了避免分类器在不同特征间倾斜，对数据进行标准化处理，将特征的数值区间缩放至特定范围内，使得不同特征变量在分类中具有相同的权重，提升模型效率。

在本发明实施例中，采用Z-score标准化方法。Z-score标准化又称为标准差标准化，是数据标准化中最常用的方法。处理后每维特征的均值为0，标准差为1。对于每个维度特征的原始值v_i，实现标准化公式如下：

其中，mean是原数据在其维度上的均值，std是原数据在其维度上的标准差。v′_i为标准化后的值。

数据清洗和标准化后，便形成满足围岩实时动态智能分级等业务功能需要的数据格式。

本发明实施例中，由于收集到的不同围岩级别的样本数目是差别较大的，即存在明显的不平衡现象，因此在对原始数据进行筛选后，本发明进一步进行样本数均衡，以得到样本数平衡的样本集。

作为示例，本发明采用基于人工少数类过采样法(Synthetic MinorityOversampling Technique，SMOTE)的自适应综合过采样法进行样本数均衡。

一般研究认为，数据样本的比例保持在1:1左右，才能使分类模型更好的体现分类效果。

SMOTE算法是通过在少数类样本之间进行插值来产生额外的样本的算法。该算法根据少数样本的k个最近邻样本生成新的合成样本，合成样本是端点为两个最近邻少数类样本对应的线段上的随机点。

式中，x_new为新的合成样本，x为一个少数类样本；

为最邻近样本；||·||表示距离公式；rand(0,1)表示随机数。

但是，由于缺乏多样性，SMOTE算法对于每个原少数类样本产生相同数量的合成数据样本，而没有考虑其邻近样本的分布特点，这就使得类间发生重复的可能性加大。对此，有一些其他改进的算法被提出，例如Hui Han提出的边界线少数类样本合成技术(BorderlineSMOTE)、Haibo He提出的自适应综合过采样(Adaptive Synthetic Sampling，ADASYN)。通过分析发现，BorderlineSMOTE只会对邻近边界的少数类样本生成合成数据，导致模型泛化性较弱；ADASYN是根据少数类数据样本的分布自适应地生成少数类数据样本，与那些更容易学习的少数类样本相比，更难学习的少数类样本会生成更多的合成数据。因此本发明采用ADASYN算法对不平衡样本数据进行数据扩增。

数据扩增处理过程如下：

输入：具有m个样本(x_i，y_i)(i＝1，···，m)的训练集D_tr，x_i是n维特征空间X中的一个实例，y_i∈Y＝{1，-1}是与x_i相关联的类标识标签。

若用m_s和m_l分别表示少数类示例的数量和多数类示例的数量，则m_s≤m_l且m_s+m_l＝m。

算法过程包括如下步骤：

(1)对训练集中的数据样本进行归一化和标准化处理，并删除异常值。

如果在前面的数据预处理过程中已经进行了数据筛选和标准化的处理，本步骤可以省略。

(2)针对训练集中的每一隧道围岩级别的训练样本，计算不平衡度d：

(3)如果d<d_th，则表示不平衡度不满足预设阈不平衡度值(预设的样本平衡条件)，则要基于训练集中当前少数类和多数类的数量计算需要为少数样本生成的合成样本的数量。

更具体地，可基于当前少数类实例和多数类实例的数量以及平衡指示参数计算需要为少数类样本生成的合成样本的数量G：

G＝(m_l-m_s)*β；

β∈[0,1]是一个参数，用于指定合成数据生成后所需的平衡水平，β＝1表示在泛化过程之后创建了完全平衡的数据集。

(4)对于每个属于当前少数类的样本实例，查找最近的邻居，基于查找的最近的邻居中属于多数类的实例数计算每个少数类样本需要生成的合成样本的数量。

更具体地，首先对于每个属于少数类的样本实例x_i，基于其n维特征空间中的欧式距离找到K个最近的邻居，并基于最近的邻居计算比例r_i：

其中，Δ_i是K个最近邻中的属于多数类的实例数，r_i∈[0,1]；

根据

归一化r_i，r_i表示密度分布，

然后，基于计算的密度分布参数来计算每个少数类样本x_i需要生成的合成样本的数量：

(5)对于每个少数类样本，执行与合成样本的数量对应的样本合成操作，在每次样本合成操作中通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本。

更具体的，对于每个少数类样本x_i，按照以下合成样本生成步骤生成g_i个合成样本：

首先生成第一个合成样本，此时从x_i的K个最近邻居中随机选择一个少数类样本x_zi。

然后，基于如下公式生成合成数据样本：

s_i＝x_i+(x_zi-x_i)*λ；

其中，s_i表示第i个少数类样本x_i的一个合成样本，x_zi表示从当前少数类样本的最近邻居中选择的一个少数类样本，(x_zi-x_i)是x_i的n维特征空间中的差向量，λ是随机数：λ∈(0，1]。

生成后续合成样本的步骤与生成第一个合成样本的步骤相同，也即重复上述合成样本生成步骤，直至生成第g_i个合成样本。

基于SMOTE的ADASYN算法不仅可以减少原始不平衡数据分布带来的学习偏差，还可以自适应地将决策边界转移到难以学习的样本上，ADASYN后得到的数据集不仅将提供数据分布的平衡表示(根据β系数定义的期望平衡水平)，还将迫使学习算法关注那些难以学习的样本。

步骤S130，利用随机森林算法将样本数平衡的样本集中的特征按重要程度进行排序，获得特征排序结果。

智能型凿岩台车采集的主要数据如前面表1所示，即便经过特征筛选后数据样本的维度降低，数据样本的特征空间维度仍然较高，特征空间中不同特征与围岩级别的关联性是不同的，也即在识别围岩级别方面的重要程度不同，且目前很难准确确定这些特征对围岩级别的重要程度，因此有需要评估这些特征在机器学习中的价值。

智能型凿岩台车在主电机电流、电压正常施工运行状态下机械自身动力系统输出总能量通常被认为能较好地反映围岩质量和围岩级别。通常认为，破岩所需的能量越低，围岩质量越差，围岩级别越高；所需的钻机动力系统输出总能量越高，围岩质量越好，围岩级别越低。多臂凿岩台车不同机械臂均有不同的钻进参数，在实际工程预判中不可能对所有的影响因素参数均逐一进行考虑，一方面因为参数过多会给实际工程现场数据采集带来麻烦，另一方面过多的参数会使得神经网络模型构建复杂化，延长训练时间，同时这些影响因素参数间也并非相互独立，而是存在着一定的耦合关系，全部考虑可能会产生过度拟合的问题而对预测结果不利。

基于此，在对原数据进行数据筛选后，本发明实施例进一步利用随机森林算法对围岩级别分类预测的过程中得到样本各个特征的重要性得分，从而形成对影响围岩分级结果的各相关性较强的特征参数重要程度排序，可以衡量特征在模型中的价值。

将特征筛选后的训练样本中的特征向量输入至随机森林算法后，获得围岩级别分类预测模型的前6个重要特征包括：推进速度、推进压力、冲击压力、回转压力、水压力、水流量，排序如下表2所示。

表2.特征名称排序及描述

重要特征的可视化排序结果如图3所示。如表2和图3所示，整机总电流和总电压并不是体现围岩级别的最关键因素。在后续训练和测试步骤中，可保留对预测结果影响较大的特征，剔除影响较小的特征,从而增强模型泛化能力,减小过拟合风险。

步骤S140，基于特征排序结果按照重要程度从高到低的顺序提取样本数平衡的样本集中样本的预定数量的特征，基于提取的特征来训练预定的机器模型。

更具体的，可基于特征排序结果选择训练样本中最重要的6个特征作为输入，来输入至机器学习模型进行训练。

在本发明实施例中，优选采用极端梯度提升(XGBoost)算法模型作为机器学习模型来进行训练。

XGBoost算法是一个基于决策树的算法，其定义的目标函数为:

式中，Obj^(t)为第t轮的目标函数，y_i为第i个样本的真实分类值；

为第i个样本的第t-1轮的预测值；f_t(x_i)为样本i在第t轮的得分函数；Ω(f_t)为损失函数。

其中，

为第t轮的预测值；f_k(x_i)为样本i在第k轮的得分函数。

Ω(f_t)值越小,决策树的复杂度越低,泛化能力越强，即：

其中，T为叶子节点的个数；w为节点的类别；λ和γ为比例系数；‖w‖²表示对w进行L₂正则化处理。

利用二阶泰勒展开式展开上面的目标函数，并对其求一阶导数与二阶导数,经整理后可得:

其中，G_j为一阶导数的和；H_j为二阶导数的和。

XGBoost算法为集成算法，其训练速度较快并且预测准确度较高，能够良好的解决分类问题与回归问题；在对目标函数进行优化的同时做了预剪枝，减少了过拟合现象的发生；同时，在XGBoost算法中存在着大量的超参数，选择不同的参数值对于模型的影响是非常大的，模型的预测效果以及泛化能力是否良好在很大程度上取决于这些超参数的选择，因此参数的优化是XGBoost建模过程中必不可少的一个步骤。

XGBoost算法有几十个参数，默认参数不一定是最优参数，因此往往需要参数优化使得模型结果和真实值达到最佳拟合程度。在本发明实施例中，对于参数的确定，采用的网格搜索法(Grid Validation)。网格搜索法本质上是一种优化方法，它能从提供的参数列表中为所优化的问题选择最佳参数，是一种自动化的“试错”方法。在这些参数下模型精度可以达到最佳状态。

网格搜索法通过不断地调节参数观察模型变化，其过程用合页损失函数(HingeLoss)来衡量，该函数是评价模型对输入数据分类预测结果好坏的依据，分类越好则损失函数值越小，越能反映输入数据与输出类别标签的关系。调参过程中的目标函数为损失函数的负值，其目标函数值越大则损失函数越小。

其中，N为样本个数，y_i表示真实的类别，s_yi是样本在真实类别上的得分，s_j,j≠y_j是预测错误时的得分，L则表示在全体训练样本上的平均损失。

由于参数调整的顺序对于调参的效果以及模型的预测的效果有着极其重要的影响，本发明对参数进行了优化，在优化过程中优先选择那些对模型影响较大的参数进行调整。表3展示了本发明中选取的需要进行调整的具体参数地含义及其默认值。

表3.XGBoost算法的重要参数以及其含义：

下面描述本发明实施例中采用网格搜索法进行参数优化的过程。

首先采用默认参数进行建模，接下来再采用网格搜索与进行参数调优。网格搜索法是一种基于交叉验证法的调参方法，它是在交叉验证法循环估计和评估方法的基础上发展而来的。在进行网格搜索调参的过程中，首先需要给定所调参数一个具体的范围，在范围内的参数值会交叉形成网格点，接下来采用交叉验证的方法对每个网格点的参数进行多次的验证以及评估，将误差数据取平均值进行评估。循环进行多次，直到找到给定范围内的参数的最优值。

XGBoost参数调优的具体步骤：

步骤1：选择较高的学习速率(learning rate)。一般情况下，学习速率的值为0.1。但是，对于不同的问题，理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。需要先给其他参数一个初始值，本发明中参数的初始值均设置为其默认值。具体取值如表4所示:

表4.参数的初始值：

步骤2:max_depth和min_child_weight参数调优。这两个参数分别决定了树的最大深度和最小叶节点样本权重和,对模型的预测结果起到了至关重要的作用，因此需要优先进行调整。首先使用网格搜索进行大范围的粗略估计，接下来再将范围调小进行测试，在这个部分一般需要的测试时间较长。

步骤3:gamma参数调优。在已经调整好上述几个参数的基础上进行gamma参数的调整，其取值范围较大。

步骤4:调整subsample和colsample_bytree参数。

步骤5:正则化参数调优。gamma指定了节点分裂所需的最小损失函数下降值。在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。

步骤6:降低学习速率，增加决策树个数。最后使用较低的学习速率，同时使用更多的决策树,learning rate取值为0.01和0.05。

(2)参数优化结果

通过上述一系列的参数优化过程得到了最优参数,模型经过参数优化后得到的最优值如表5所示:

表5.参数优化后得到的最优值：

在本发明另一实施例中，为了验证算法在不同分类模型上的适用性以及对围岩级别分类效果的影响，本发明选择了反向传播神经网络(Back propagation neuralnetwork，BPNN，BP神经功能网络)、和AdaBoost算法模型进行对比实验，来对比XGBoost模型的识别效果。

可通过网格搜索法(GridSearchCV)对各个机器分类模型的超参数进行寻优。各个模型超参列表如下表6：

表6模型超参列表

步骤S150，采集不同隧道围岩级别的待测试数据样本，基于特征排序结果提取预定数量的特征生成特征向量，输入至已训练的机器模型，输出隧道围岩级别识别结果。

更具体地，可利用电脑型凿岩台车实时采集钻爆法施工隧道的随钻参数，作为测试样本，基于特征排序结果选择实时采集的测试样本中最重要的预定个数的特征(如6个特征)作为输入，来输入至训练好的机器学习模型进行测试，获得隧道围岩级别识别结果。

为了保证实验结果的稳定性，模型训练过程优选地基于K折交叉验证方法(K-foldCross Validation)进行五折交叉验证，即：将数据集划分成5个互斥等份子集，并进行5轮训练测试，不重复地在每轮抽取1个子集作为测试集，其余4个子集作为训练集；对五轮训练测试后的评价指标结果进行平均，输出最终评价结果。在此，划分的子集数量仅为示例，本发明并不限于此。

沿用上文预处理和特征筛选后的训练集与预测集样本，计算得到的预测集判识结果如下表所示。由表7可知，在相同的训练集和预测集情况下，XGBoost的预测准确率为87.5％效果最好；BP神经网络围岩分级模型预测集分级准确度为79.2％；AdaBoost训练时间过长，对样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性，准确率为62.9％。

表7模型训练与测试结果

无论选取多么高效的模型，其预测结果总是会有一定的误差，基于表8所示的混淆矩阵可以对多个分类模型在测试集上的评价结果与性能进行分析评估。

表8混淆矩阵示例：

其中，P代表正类，N代表负类，TP(True Positive)为真正例，表示被正确分类的正例；FP(False Positive)为假正例，表示被错误分类为正例的负例；FN(False Negative)为假负例，表示被错误分类为负例的正例；TN(Ture Negative)为真负例，表示被正确分类的负例。

查准率(precision，P)是所有被分类为正例的例子中，真实正例所占的比重，其值越接近1，表明对正类例子的分类性能越好。

召回率(precision，R)是所有真实正例中，被正确分为正例的例子所占的比重。

其值越接近1，表明对正类例子的分类性能越好。

F1值(F1-measure，F1)是查准率和召回率的调和平均，是综合且以同等权重考察两者的平均指标。其值越接近1，表明对正类样本的综合分类性能越好。

BPNN、XGBoost、AdaBoost三个分类模型的评价结果如下表9：

表9分类模型评价结果

本发明通过构建上述不同分类模型，在仅已知机械自身运行状态情况下已经较好的快速预测出了围岩等级，也说明了隧道围岩级别与钻爆机械施工参数密切相关，通过围岩级别分类建立与凿岩机械钻进参数之间的联系，未来又可以依据预测的围岩级别反分析优化钻进参数，对于隧道智能可视化施工研究具有重要意义。

上述可知，本发明依托涵盖不同级别不同岩性某隧道的500份钻进参数样本，通过对表征机械自身状态参数采用基于SMOTE的ADASYN算法进行分析和模拟，添加新样本到数据集中，一定程度上解决了由于隧道施工进度有差异，围岩级别数目不一致、类样本不平衡，导致分类器重视多数类而忽略少数类的问题。其次，本发明利用随机森林方法对特征样本进行重要程度筛选。最后，建立基于机器学习的隧道掌子面围岩分级模型，构建了AdaBoost模型分别对处理后的数据进行预测，结果表明XGBoost模型在样本数量较少条件下的围岩分级准确度更高，平均准确度为87.5％。

本发明实现了对艰险山区地质环境复杂的隧道围岩信息的自动采集、自动分析与自动分级，进一步地，本发明可以将自动分级的结果应用于虚拟仿真训练模型和施工现场随时随地进行动态交互，共享数据，在算法模型的驱动下进行自我学习、自我优化。建立基于隧道工程机械超前预报和监控量测大数据信息的智能反馈分析模型，可以对稳定性条件较差的隧道围岩进行包括超前变形、超前破坏以及加固有效性进行有效判别，对变形主动控制支护体系的洞室稳定性及支护参数的合理性进行评估，进而动态智能调整支护结构设计参数，实现隧道支护设计的智能化、精细化与动态化，为工程设计施工及管理人员提供准确、高效、全面的综合辅助决策。切实加强隧道质量控制和安全管理，提高隧道施工机械化水平，在确保质量安全的前提下，加快工程进度，提升施工工效。

通过围岩信息的“快速采集—实时传输—远程评价”的智能化分级，本发明实现了智能感知与智能装备、后台服务器的智能化连接。可帮助隧道施工中围岩质量渐进性评价，不断积累完善各类地质条件下的隧道设计与施工方法，上述由装备原始信号端到隧道围岩自动化分级的新型人工智能决策模型，可应用于隧道建造过程中围岩判识、设计交互、施工监管、质量评价等关键环节与应用场景，支撑隧道建造过程由传统工作模式向智能化转型升级。

与上述方法相应地，本发明还提供了一种隧道围岩级别识别装置，该装置统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种隧道围岩级别识别方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述在各隧道围岩级别间的样本不平衡度不符合预定的样本平衡条件的情况下，采用基于人工少数类过采样法SMOTE的自适应综合过采样法进行样本数均衡，以得到样本数平衡的样本集，包括：

3.根据权利要求2所述的方法，其特征在于，

所述基于训练集中当前少数类和多数类的数量确定当前少数类样本要生成的合成样本数量包括以下步骤：基于当前少数类实例和多数类实例的数量以及平衡指示参数计算需要为少数类样本生成的合成样本的数量；

4.根据权利要求3所述的方法，其特征在于，

基于如下公式计算需要为少数类样本生成的合成样本的数量：

G＝(m_l-m_s)*β；

基于如下公式计算密度分布参数；

5.根据权利要求3所述的方法，其特征在于，所述通过从当前少数类样本的最近邻居中选择一个少数类样本并基于选择的少数样本来生成一个合成样本包括：

基于如下公式来生成合成样本：

s_i＝x_i+(x_zi-x_i)*λ；

6.根据权利要求1所述的方法，其特征在于，所述实时状态数据包括以下数据中的部分或全部：推进压力、推进速度、冲击压力、回转压力、水压力、水流量、当前工作状态、整机总电流、总电压。

7.根据权利要求1所述的装置，其特征在于，在将获取的训练样本的数据进行特征向量化之前，所述方法还包括：

对获取的不同隧道围岩级别的训练样本中的特征变量进行数据清洗预处理，以剔除低相关性数据和冗余特征；

对数据清洗预处理后的样本的数据进行标准化处理以消除量纲影响。

8.根据权利要求1所述的装置，其特征在于，所述预定的机器模型为XGBoost机器学习模型或者所述预定的机器模型包括XGBoost、BPNN和AdaBoost机器学习模型在内的多个机器学习模型；

9.根据权利要求8所述的装置，其特征在于，所述方法还包括：

利用网络搜索法进行对XGBoost机器学习模型进行参数寻优。

10.一种隧道围岩级别识别装置，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1至9中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。