CN113779880B

CN113779880B - 一种基于超前钻探数据的隧道围岩二维质量评价方法

Info

Publication number: CN113779880B
Application number: CN202111040028.4A
Authority: CN
Inventors: 梁铭; 彭浩; 宋冠先; 朱孟龙; 马文安; 解威威; 马必聪; 杨康; 张亚飞; 胡以婵; 赵婷婷
Original assignee: Guangxi Road and Bridge Engineering Group Co Ltd
Current assignee: Guangxi Road and Bridge Engineering Group Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2024-04-12
Anticipated expiration: 2041-09-06
Also published as: CN113779880A

Abstract

本发明涉及隧道工程技术领域，特别涉及一种基于超前钻探数据的隧道围岩二维质量评价方法，包括步骤一，通过超前钻探技术对待挖掘隧道进行随机采样，获取待挖掘隧道的钻探数据并进行预处理；钻探数据包括推进速度、推进力、扭矩和旋转速度四项指标；步骤二，将预处理后的钻探数据输入到预先搭建的CC‑GA‑XGBoost模型进行二维质量评价，输出二维质量评价结果，评价结果包括围岩完整程度和围岩等级两个维度，围岩完整程度的评价结果包括较完整、较破碎、破碎和泥质填充空腔，围岩等级的评价结果包括Ⅲ、Ⅳ与Ⅴ级；其中CC‑GA‑XGBoost模型是采用GA算法对XGBoost模型进行训练后调用CC算法进行多标签分类的模型。实现模型超参数自动寻优与多标签输出，降低建模难度，提高预测准确度。

Description

一种基于超前钻探数据的隧道围岩二维质量评价方法

技术领域

本发明涉及隧道工程技术领域，特别涉及一种基于超前钻探数据的隧道围岩二维质量评价方法。

背景技术

伴随巨大的建设规模与高速的建设速度，我国隧道建设整体向大埋深、长洞线的方向转变，选址远、高应力、强岩溶、高水压、构造复杂等特点也逐步凸显，为保障隧道施工安全，确保隧道超前地质预报的合理性与准确性面临越来越严峻的挑战。就隧道超前地质预报而言，常规的物探方法如地质雷达、TSP、红外探水等在预报距离、对各类不良地质体的预报效果等方面均存在一定程度的局限性及多解性，而超前钻探法通过对掌子面前方围岩进行钻进，能最直观的反映掌子面前方的真实地质信息。但目前钻探数据解译工作主要依赖技术人员结合现场实际钻探情况进行开展，虽然钻机搭载的随钻测量系统可实时记录并提供各项钻探参数，但只是作为解译参考，并未被充分利用。该种解译方式未跳脱经验判断的范畴，较为粗糙，是一种“伪定量”解译。

随着大数据、计算机技术等信息化技术的发展，机器学习的理念已逐步渗入各个领域，为数据分析提供了新的思路。近些年开始有研究者将机器学习的方法引入到隧道超前地质预报中以用于围岩质量评价，并已分别在各类超前地质预报手段中取得了一定的研究成果。

以钻探(包括超前钻探及TBM)为解译数据来源并进行围岩质量评价是其中研究的重点，这得益于钻机配备的随钻测量系统(Measurement While Drilling，MWD)可直接提取大量的定量钻进参数供机器学习模型进行训练，且前人研究成果也表明包括钻进速度、推进力、扭矩等在内的钻进参数与围岩质量关系密切。但以上研究普遍存在以下技术问题：1、在对钻探定量数据进行预处理并组成机器学习模型训练集的过程中，都是以隧道断面为单位进行，这样用单个“面”来解译隧道“段落”的真实情况其真实性与科学性大打折扣，且以“面”为单位容易受到数据噪点的影响。且直接提取的一级定量指标各自的离散程度较大，不利于组成训练集供模型进行学习与训练。2、超前钻探数据定量的解译标签大多以单一围岩等级或者地层属性为预报结果，对隧道施工而言指导意义较为有限。3、所选用的机器学习模型具有一定缺点，且极其重要的模型超参数都是依赖于人为设定，致使模型难以发挥最佳性能。

发明内容

本发明的目的在于克服现有技术中用单个“面”不能解译隧道“段落”的真实情况、标签单一、模型超参数依赖于人为设定的不足，提出了一种基于超前钻探数据的隧道围岩二维质量评价方法。

一种基于超前钻探数据的隧道围岩二维质量评价方法，包括以下步骤：

步骤一，对待挖掘隧道进行随机采样，获取待挖掘隧道的钻探数据；所述钻探数据包括深度，还包括推进速度、推进力、扭矩和旋转速度四项定量指标；

步骤二，对所述钻探数据中四项定量指标进行预处理，实现对钻探数据的精选和二次计算；

步骤三，将所述预处理后的钻探数据输入到预先构建的GA-XGBoost模型，调用CC分类器链算法进行多标签预测，输出不同深度下对应的隧道围岩二维质量评价结果，所述二维质量评价结果包括围岩完整程度和围岩等级两个维度，所述围岩完整程度的评价结果包括较完整、较破碎、破碎和泥质填充空腔，所述围岩等级的评价结果包括Ⅲ、Ⅳ与Ⅴ级。

进一步的，所述预处理包括以下步骤：

a：对输入数据降噪；降噪的方法包括：

删除上升段数据，所述上升段数据为超前钻探的钻机未达到稳定状态时采集的数据；

查找输入数据中的缺失值，并通过所述缺失值对应指标数据的均值对所述缺失值进行填充；

删除贯入度在无效区间以内的数据；所述贯入度的计算公式为P＝v/n，其中P为贯入度，v为推进速度，n为旋转速度；

b：以预设的分割间距将降噪后的所述输入数据等距分割为若干段落；

c：计算等距分割后每个段落中各个定量指标的二级指标；其中，所述二级指标包括各个定量指标的均值与方差；

d：采用标准差法对所述二级指标进行数据标准化。

优选的，所述无效区间为贯入度P∈(0.9，1.2)以及P>1.8。

优选的，所述预设的分割间距为0.5米。

进一步的，步骤三中调用CC分类器链算法进行多标签预测，具体包括：

1)，建立特征向量和标签向量，所述特征向量为预处理后的钻探数据，所述标签向量为所述预处理后的钻探数据中每组数据对应的在围岩完整程度上的编码值和在围岩等级上的编码值；

2)，生成标签分类顺序，按照所述标签分类顺序训练分类器；所述分类器包括围岩完整程度分类器和围岩等级分类器；

3)，标签分类顺序在前的分类器输入所述特征向量，输出在前预测值，标签分类顺序在后的分类器输入所述特征向量和所述在前预测值，输出在后预测值，所述在前预测值和在后预测值为隧道围岩二维质量评价结果。

进一步的，构建所述GA-XGBoost模型包括以下步骤：

S1：输入样本数据；

其中，所述样本数据包括若干条反映岩体质量的钻探数据，每条所述钻探数据包括推进速度、推进力、扭矩和旋转速度四项定量指标；

S2：对所述样本数据进行预处理，实现对所述若干条钻探数据的精选和二次计算；

S3：将预处理后的所述样本数据输入XGBoost模型，并通过GA算法对XGBoost模型进行模型训练，确定XGBoost模型的最佳参数组合。

进一步的，步骤S3中模型训练包括：

S31：根据所述XGBoost模型中超参数的取值范围制定搜索空间；

S32：将预处理后的所述样本数据作为输入，通过遗传算法进行超参数寻优，并输出模型性能评价指标值；

S33：当寻优次数小于预设次数时，进入步骤S31；当寻优次数大于或等于预设次数时，获取寻优过程中模型性能评价指标值最高的XGBoost模型，所述模型性能评价指标值最高的XGBoost模型的超参数组合为最佳参数组合。

进一步的，步骤S31中所述超参数包括弱评估器数量、树模型最大深度、学习率、叶子节点二阶导数、随机抽样抽取的样本比例与随机抽取特征的比例。

进一步的，步骤S33中所述预设次数设为25次。

基于相同的发明构思，提出一种基于超前钻探数据的隧道围岩二维质量评价装置，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果：

1、本发明通过结合XGBoost机器学习模型强大的预测分类性能以及GA遗传算法的超参数寻优能力，在预设的寻优次数以内，能够高效的搜寻充分发挥XGBoost模型性能的超参数组合，从中选取模型性能评价指标值最高的模型作为输出，进而在保证了隧道不良地质体识别与分类的准确度的前提下大大降低了模型调参的难度，也避开了人工调参的不良影响；在确定了最佳参数组合的XGBoost模型基础上，调用CC算法进行多标签分类，构建CC-GA-XGBoost二维围岩质量评价模型，提供基于超前钻探数据的隧道围岩二维质量评价方法，以钻进速度、推进力、扭矩与旋转速度作为二维围岩质量评价的一级指标体系，使用CC链式分类方法，有效挖掘并利用了多标签分类中各标签内在的相关性，提高分类准确率，最终输出围岩完整程度与围岩等级的二维评价结果，并根据评价结果及时调整施工方式，进而指导隧道现场施工。

2.本发明通过设置二维标签，可提供较为详尽的超前钻探地质预报解译信息，即输出围岩完整程度和围岩等级两个维度的预测结果，告诉现场施工人员前方的岩体到底是较完整、较破碎、破碎岩体还是软泥填充空腔，以及围岩等级的具体级别，技术人员可以二维质量评价结果为依据，对超前钻探地质预报进行整理总结，预报准确率满足工程实际应用的需求，更加适合现场施工，指导作用更强。

3.本发明通过在预处理时剔除无解译价值的上升段数据以及填充了稳定段中的缺失数据，提高了数据质量；由于施工现场存在电磁噪声和强机械振动，即使在正常掘进工作状态，也有部分不正常的数据点，考虑各隧道工程地质条件的差异性，CC-GA-XGBoost二维围岩质量评价模型在新开隧道应用时，剔除贯入度异常大或者异常小的非正常数据点，进行有效数据的积累，在具备一定量有效数据的前提下对模型进行训练与学习，将有效提高模型对该隧道的工程适用性与预测准确性；并通过数据分割步骤，在保证了预测准确度的前提下，避免了用隧道“面”解译结果推定隧道“段”真实结果的情况，使后续输出结果更加直观可靠；同时本发明通过计算各一级指标的均值和方差作为二级指标，由于不同不良地质体的数字钻进数据都存在一定的取值范围，均值是该取值范围的重要体现，且通过取均值的方式可以降低分割间距内异常数据对整体真实数据的影响，另外由于钻探数据受围岩、机械等客观因素影响，都会在采样过程中出现不同程度的振幅，即离散程度，该离散程度在各类不良地质体中表现得尤为突出，如较完整围岩的采样数据相较于均值离散程度小，破碎围岩的采样数据相较于均值离散程度大，通过取方差的方式可以较为科学与合理的反正各类不良地质体的采样数据离散程度，从而提高预测结果的准确率，采用各一级指标的均值和方差作为二级指标准确反映了各类不良地质体在各个段落内的数据特征，为后续计算提供了良好的数据基础。

4.本发明通过将分割间距d设置为0.5m，从而避免了当分割间距过小例如小于0.5m时，钻机在作业过程中，由于机械系统及机手操作的原因导致采样数据比实际数据偏高或偏低，且无法通过降噪进行剔除，分割间距过小会增加对这些异常数据的考虑权重，导致预测结果与实际不符的情况；还避免了当分割间距过大例如大于0.5m时，过大的分割间距会造成忽略该分割间距内占比低于50％的不良地质体，如软弱层夹杂在岩层中间时，其厚度通常在0.5m左右，极易造成机器学习模型漏判的情况；在保证了预测准确度的前提下尽可能的提升了本发明的预测精度。

5.本发明通过绘制一级指标推进速度、推进力、扭矩、旋转速度两两组合的散点图以及几组数据的核密度估计，对散点图和核密度估计图进行图像分析，分析各一级指标的相关性和区分度，为达到较为理想的多分类效果，对原始数据如何进行预处理以提高数据质量提供了依据；通过对各二级指标绘制相关性热力图，进行相关性分析，保证样本数据中的定量指标相关性较低，在不影响模型准确度的前提下降低模型训练的计算量，进而减少了模型训练的时间成本。

附图说明：

图1为一种基于超前钻探数据的隧道围岩二维质量评价方法的流程图；

图2为实施例一隧道超前钻探原始采样数据(一级指标)的特征示意图；

图3a为实施例一推进速度、推进力、扭矩、旋转速度两两组合在围岩完整程度维度的散点图和核密度估计；

图3b为实施例一推进速度、推进力、扭矩、旋转速度两两组合在围岩等级维度的散点图和核密度估计；

图4为实施例一样本数据贯入度计算值分布情况；

图5a为实施例一样本数据一级指标推进速度降噪前的数据；

图5b为实施例一样本数据一级指标推进速度降噪后的数据；

图6为实施例一二级指标相关性分析热力图；

图7为GA遗传算法原理示意图；

图8为一种基于超前钻探数据的隧道围岩二维质量评价方法中CC-GA-XGBoost模型构建及应用流程图；

图9为实施例一调参过程中适应度值(Accuracy)的变化趋势图；

图10a为实施例一样本数据在围岩完整程度上的预测结果与实际标签的对比图；

图10b为实施例一样本数据在围岩等级上的预测结果与实际标签的对比图；

图11为实施例二进行实际应用时采样的YK109+960～YK109+985一级指标数据。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

本实施例提供了一种基于超前钻探数据的隧道围岩二维质量评价方法，如图1所示，包括以下步骤：

步骤一，通过超前钻探技术对待挖掘隧道进行随机采样，获取待挖掘隧道的钻探数据；所述钻探数据包括深度、还包括推进速度、推进力、扭矩和旋转速度四项定量指标。

在步骤二中，所述预处理包括以下步骤：

a：对输入数据降噪；降噪的方法包括：

d：采用标准差法对所述二级指标进行数据标准化。

步骤三，将所述预处理后的钻探数据输入到预先构建的GA-XGBoost模型，调用CC分类器链算法进行多标签预测，输出不同深度下对应的隧道围岩二维质量评价结果，所述二维质量评价结果包括围岩完整程度和围岩等级两个维度，所述围岩完整程度的评价结果包括较完整、较破碎、破碎和泥质填充空腔，所述围岩等级的评价结果包括Ⅲ、Ⅳ与Ⅴ级；

本发明所述CC-GA-XGBoost模型是采用GA算法对XGBoost模型进行训练优化后调用CC算法进行多标签分类的模型。

本发明通过设置二维标签，可提供较为详尽的超前钻探地质预报解译信息，即输出围岩完整程度和围岩等级两个维度的预测结果，告诉现场施工人员前方的岩体到底是较完整、较破碎、破碎岩体还是软泥填充空腔，以及围岩等级的具体级别，技术人员可以二维质量评价结果为依据，对超前钻探地质预报进行整理总结，预报准确率满足工程实际应用的需求，更加适合现场施工，指导作用更强。

在步骤三中，构建GA-XGBoost模型具体包括以下步骤：

S1，输入样本数据；

本实施例中，样本数据来源于拟建的柳州某隧道，隧道区属岩溶峰丛洼地地貌，隧道穿越山体，设计隧道为分离式+小净距长隧道，隧道设计长度约为1500m，最大埋深约240m，隧址区工程地质条件复杂，主要穿越中较破碎～破碎的风化砂岩地层，且岩溶较为发育，极易发生涌水突泥等不良地质灾害；为保障隧道施工安全，现场使用Casagrande厂家生产的C6-2型多功能履带式钻机进行超前钻探作业并基于钻探数据及现场情况进行地质预报。根据前期已积累的超前钻探地质预报数据进行原始数据的收集，共收集包括YK109+118～YK109+130(1号孔)、YK109+215～YK109+235(1号孔)等钻探采样数据共11233条，数据涵盖的隧道长度累计约160米，涉及到的数据标签在隧道不良地质体方面包括较完整、较破碎、破碎岩体及软泥填充空腔共四类，在围岩等级方面包括Ⅲ级、Ⅳ及与Ⅴ级共三类。

在隧道超前钻探过程中，随钻测量系统随进尺变化进行随机数据采样，每米采集数据约50条，每一条采样数据除深度(Depth)外，主要采集定量的四项一级指标，包括推进速度(Drilling rate)、推进力(Thrust pressure)、扭矩(Torque)与旋转速度(Rotation)，具体如如图2所示。

通过钻探采样数据进行结构分析，其主要具备以下三个特点：

(1)采样阶段性：采样过程整体具有较强的连续性，同时呈现出明显阶段划分，及钻探采样开始的上升段及采样过程中的稳定段，其中上升段通常集中在0～1m的进尺范围内，具体参数意义涉及空钻及初喷混凝土钻探，对隧道围岩的二维质量评价无参考意义。

(2)数据非线性：各定量指标之间呈现较为明显的非线性相关，四项一级指标随深度的采样数据取值变化趋势缺乏统一性与规律性。

(3)离散程度大：钻进速度、扭矩与旋转速度指标的具体采样参数都表现出了较大的离散性，具体的离散程度与不同质量的围岩密切相关，如随着围岩破碎程度的增加，推进速度的离散程度明显增高。

除了定性对数据进行特点分析，定量的指标相关性分析也必不可少。图3a和图3b分别是推进速度、推进力、扭矩、旋转速度两两组合在围岩完整程度维度和在围岩等级维度的散点图，图中对角线上图形为这几组数据的核密度估计。由图3a和图3b可以获知两个有关原始采样一级指标数据的结论：一是四项一级指标之前相关性较差，这点由位于对角线两侧的散点图中的拟合关系线可以明显看出；二是一级指标数据的各项指标对应围岩完整程度及围岩等级两项分类标签的区分度较差，其数值分布区域在较完整、较破碎与破碎三类中均有大量重叠部分，这点在其它指标中也普遍存在。因此想要达到较为理想的多分类效果，仅考虑超前钻探原始数据本身是远远不够的，应对原始数据进行预处理以提高数据质量；

本发明通过绘制一级指标推进速度、推进力、扭矩、旋转速度两两组合的散点图以及几组数据的核密度估计，对散点图和核密度估计图进行图像分析，分析各一级指标的相关性和区分度，为达到较为理想的多分类效果，对原始数据如何进行预处理以提高数据质量提供了依据。

S2，对所述样本数据进行预处理，实现对所述若干条钻探数据的精选和二次计算；

在钻机钻探过程中，受作业环境、机手操作等原因，采集的大量一级指标数据中难免存在异常数据以及一些特殊钻进状态的数据，因此在使用钻探数据进行机器学习模型的训练之前，需要对已有数据进行降噪处理；本步骤S2中对数据进行预处理的步骤与步骤一中的预处理的a～d步骤相同或类似：

S21，对输入数据降噪；降噪的方法包括：

删除上升段数据，避免无价值数据对围岩质量评价模型的影响，所述上升段数据为超前钻探的钻机未达到稳定状态时采集的数据；具体地，将钻探数据中的上升段(0～1m)数据剔除；

查找输入数据中的缺失值，并通过所述缺失值对应指标数据的均值对所述缺失值进行填充：由于在钻探系统对指标定量数据进行采集时，有时会因为机手的操作导致个别指标的数据少量缺失，针对这种数据缺失的情况，采用Scikit-learn中的impute.SimpleImputer模块进行缺失值的填充，具体选取参数为“strategy”中输入“mean”，即采用训练集中该指标数据的均值进行填充，以确保数据的完整性；

删除贯入度在无效区间以内的数据：由于施工现场存在电磁噪声和强机械振动，即使在正常掘进工作状态，也有部分不正常的数据点，非正常数据点的特征为数据的贯入度异常大或者异常小。贯入度P与推进速度v和旋转速度n的关系如公式(1)所示：

P＝v/n (1)

根据贯入度的定义，对共计11233条钻探原始采样数据的贯入度进行计算，最终计算及统计结果如图4所示，从图中可知，①贯入度P取值为0～2.5(因>2.5部分频次过少，图中无法显示故不予统计)，且大致以P＝1为分界点，右侧为软泥填充空腔的一级指标原始采样数据，左侧为其余围岩情况的一级指标原始采样数据，且二者均近似呈正态分布；②由累计频率统计可以明显发现贯入度多集中于0～0.9及1.2～1.8的范围内，前者累计92％，后者累计7.3％，二者共计99.3％，以此为依据并结合工程实际经验，将贯入度P∈(0.9，1.2)以及P>1.8的数据进行过滤。

为说明通过步骤S21对超前钻探原始采样数据进行降噪处理后的效果，选取YK109+215～YK109+235(1号孔)中前10m的推进速度原始采样数据进行举例说明，其数据降噪前后的图片如图5a和图5b所示。

本发明通过在预处理时剔除无解译价值的上升段数据以及填充了稳定段中的缺失数据，提高了数据质量；由于施工现场存在电磁噪声和强机械振动，即使在正常掘进工作状态，也有部分不正常的数据点，考虑各隧道工程地质条件的差异性，CC-GA-XGBoost二维围岩质量评价模型在新开隧道应用时，剔除贯入度异常大或者异常小的非正常数据点，进行有效数据的积累，在具备一定量有效数据的前提下对模型进行训练与学习，将有效提高模型对该隧道的工程适用性与预测准确性。

S22，以预设的分割间距将降噪后的所述输入数据等距分割为若干段落；

为实现对隧道以段落为单位进行围岩质量评价的目的，在完成一级指标数据降噪的处理后，进行钻探数据的等距分割，数据分割间距d定为0.5m，原因主要为以下两点：

(1)当分割间距d<0.5m，分割间距过小，钻机在作业过程中，由于机械系统及机手操作的原因，会不可避免的导致采样数据比实际数据偏高或偏低，且无法通过降噪进行剔除，分割间距过小会增加对这些异常数据的考虑权重，导致预测结果与实际不符。

(2)当分割间距d>0.5m，分割间距过大，过大的分割间距会造成忽略该分割间距内占比低于50％的不良地质体，如软弱层夹杂在岩层中间时，其厚度通常在0.5m左右，极易造成机器学习模型漏判的情况发生。

本发明通过数据分割步骤，在保证了预测准确度的前提下，避免了用隧道“面”解译结果推定隧道“段”真实结果的情况，并通过将分割间距d设置为0.5m，保证了预测准确度的前提下尽可能的提升了本发明的预测精度，使后续输出结果更加直观可靠。

S23，计算等距分割后每个段落中各个定量指标的二级指标；其中，所述二级指标包括各个定量指标的均值与方差；

在完成数据分割后，为了深度挖掘钻探数据对应各类不良地质体的数据规律，对指标各自分割段落内的数据进行二次计算，形成二级指标作为最终机器学习模型训练集的指标体系。本文确定选取均值与方差作为二级指标，理由如下：

(1)均值：不同不良地质体的数字钻进数据都存在一定的取值范围，均值是该取值范围的重要体现，且通过取均值的方式可以降低分割间距内异常数据对整体真实数据的影响，从而提高预测结果的准确率；均值x按如下公式(2)进行计算：

其中n为样本数量。

(2)方差：钻探数据受围岩、机械等客观因素影响，都会在采样过程中出现不同程度的振幅，即离散程度，该离散程度在各类不良地质体中表现得尤为突出，如较完整围岩的采样数据相较于均值离散程度小，破碎围岩的采样数据相较于均值离散程度大，通过取方差的方式可以较为科学与合理的反正各类不良地质体的采样数据离散程度，从而提高预测结果的准确率；方差按如下公式(3)进行计算。

最终所形成的二级指标体系包括：推进速度均值、推进力均值、扭矩均值、旋转速度均值及推进速度方差、推进力方差、扭矩方差、旋转速度方差共8项。将降噪处理后的原始采样数据经过等距分割与二级指标计算后，形成的机器学习模型训练集共有数据324条；同时，为使机器学习模型准确对各类不良地质体进行解译判别，需要对数据集分类标签进行编码设置，具体为对二维标签即围岩完整程度与围岩等级的分类标签进行编码设置；

在隧道工程领域，常用岩石完整性系数K_v来定量表示岩石完整程度，其计算公式为：

K_v＝(V_pm/V_pr)²

其中，V_pm和V_pr分别表示岩体纵波速度与岩石纵波速度。

K_v与完整程度的定性关系划分如下表2所示

表2 K_v与岩石完整程度定性划分的关系

此外，由于现场往往不具备做试验获取波速的条件，因此现场主要根据下表3进行完整程度的划分：

表3岩体完整程度的定性划分

至于软泥填充，由于其是空洞，不是连续性的岩石结构，因此不在上述范围之内，仅作为一种隧道施工过程中常见的不良地质体类型；

将围岩完整程度与围岩等级分别编码为Y1与Y2，其中前者按照较完整、较破碎、破碎与泥质填充空腔的顺序将标签依次编码为“0”、“1”、“2”、“3”；后者按照Ⅲ、Ⅳ与Ⅴ级的顺序将标签依次编码为“0”、“1”、“2”。训练集数据分布情况见表4所示。

表4二维评价标签组合形式及分布情况

本发明通过计算各一级指标的均值和方差作为二级指标，由于不同不良地质体的数字钻进数据都存在一定的取值范围，均值是该取值范围的重要体现，且通过取均值的方式可以降低分割间距内异常数据对整体真实数据的影响，另外由于钻探数据受围岩、机械等客观因素影响，都会在采样过程中出现不同程度的振幅，即离散程度，该离散程度在各类不良地质体中表现得尤为突出，如较完整围岩的采样数据相较于均值离散程度小，破碎围岩的采样数据相较于均值离散程度大，通过取方差的方式可以较为科学与合理的反正各类不良地质体的采样数据离散程度，从而提高预测结果的准确率，采用各一级指标的均值和方差作为二级指标准确反映了各类不良地质体在各个段落内的数据特征，为后续计算提供了良好的数据基础。

S24，采用标准差法对所述二级指标进行数据标准化；

由于训练集中数据取值范围的巨大差距往往会对模型预测效果产生影响，为了避免这种情况的发生通常要进行数据标准化。如下公式(4)所示，

x*＝(x-μ)/σ (4)

当数据x按均值μ中心化后，再按标准差σ缩放，数据就会服从为均值为0，方差为1的正态分布(即标准正态分布)，这个过程就叫做数据标准化。

在完成二级指标的确定与计算后，还对所确定的8项二级指标绘制相关性热力图，进行相关性分析，如图6所示，将相关性较高的指标进行筛选剔除以提高数据集质量。从图6中可知，8项指标之间相关性最高的两组为推进速度方差(Drilling rate_mean)与扭矩方差(Torqur_var)，相关系数为0.55，整体相关性较低，因此8项指标均应该保留；

本发明通过对各二级指标绘制相关性热力图，进行相关性分析，保证样本数据中的定量指标相关性较低，在不影响模型准确度的前提下降低模型训练的计算量，进而减少了模型训练的时间成本。

S3，将预处理后的所述样本数据输入XGBoost模型，并通过GA算法对XGBoost模型进行模型训练，确定XGBoost模型的最佳参数组合，使用最佳参数组合的XGBoost模型为GA-XGBoost模型，然后调用CC算法进行多标签分类，得到CC-GA-XGBoost模型；

①XGBoost模型概述及原理：

全称是Extreme Gradient Boosting，可译为极限梯度提升算法，与传统算法不同，它是由传统机器学习分类回归树算法(CART)发展演变而来的一种高效率的机器学习算法。作为集成算法中提升法(Boosting)的代表算法，XGBoost通过在数据上逐一构建多个弱评估器，即CART，经过多次迭代逐渐累积并汇总多个弱评估器的建模结果，以获取比单个模型更好的回归或分类表现。这种以单个决策树作为弱评估器的叠加策略，可表示成一种加法的形式，如公式(5)所示：

式(5)中：表示整个模型在这个样本上的预测结果，K表示弱评估器的总数量，f_k表示第k棵决策树，x_i表示样本i对应的特征向量。

XGBoost引入了模型复杂度来衡量算法的运算效率，因此目标函数由传统损失函数与模型复杂度两部分构成，公式表达如式(6)所示：

Ω(f_k)＝γT+λ||ω||²/2 (7)

式(6)中：Obj表示模型的目标函数，n表示导入第k棵树的数据总量，第一项代表传统的损失函数，衡量真实标签y_i和预测值之间的差异，第二项代表模型的复杂度，使用树模型的某种变换Ω表示，这个变化代表了一个从树的结构来衡量树模型复杂度的式子，展开如式(7)所示。

为了求解目标函数，可以使用泰勒展开对式(6)进行运算，结果如式(8)所示：

式(8)中：γ、λ表示模型复杂度的系数，T表示模型决策树叶子节点个数，g_i、h_i分别表示样本x_i的一阶导数和二阶导数，j表示每个叶子节点的索引，ω_j表示第j个叶子节点上的样本权重，I_j表示第j个叶子节点的样本子集。

将树的结构带入损失函数，即对ω_j求导并且令导函数等于零，可求得目标函数的最小值Obj_min。Obj_min是衡量模型好坏的一个重要的指标，其最小值越小，就认为该模型的表现越好。计算公式如式(9)～式(10)所示：

求解Obj_min的核心是基于梯度提升树实现的集成算法，整体来说由集成算法本身，用于集成的弱评估器，以及应用中的其他过程三个部分组成，三个部分共涉及的模型超参数多达近三十个，其中对模型影响程度最大的主要有弱评估器数量n_estimators、树模型最大深度max_depth、学习率learning_rate、叶子节点二阶导数min_child_weight、随机抽样抽取的样本比例subsample与随机抽取特征的比例colsample_bytree。

②引入GA遗传算法：

针对XGBoost模型超参数众多，人工调参无法发挥模型最优性能的问题，需要对其进行全局参数自动寻优。遗传算法(Genetic Algorithm，GA)是一类通过模拟自然界生物自然选择和自然进化的随机搜索算法。与传统搜索算法如二分法、牛顿法、抛物线法等相比，进化算法有着高鲁棒性和求解高度复杂的非线性问题的能力，目前被常用于模型寻参及寻找最优解的问题之中，其算法示意如图7所示，在输入参数中，maxf(x)表示所要求解的最大约束优化问题，d为问题的规模或维数，N为初始种群个体，P_c和P_m分别为交叉与变异过程中的交叉概率与变异概率，MaxIt为该算法的迭代进化次数，P₁(t)与P₂(t)为迭代生成的临时种群，Z_i(t)与B(t)为第t次迭代后遗传进化产生的个体及其中的最优个体；

首先将数据集导入GA-XGBoost模型，以Y1(完整程度)为基准进行GA自动超参数寻优处理。根据XGBoost模型寻参个数以及训练集特征，设置初始种群数量为30，使用均匀交叉的方法进行种群迭代，并根据适应度值每次从上一代中选择出最优的3个个体直接进入下一代。从而保证每次迭代后个体的最佳适应度值至少与上一代相同。同时，过程中设置突变概率为0.1，这样既提高种群的多样性，又可以降低参数寻优过程陷入局部最优解的风险。

在该GA中，适应度值定义为5折交叉验证的准确率(Accuracy)指标，设置的算法终止条件为迭代次数25次，数据集划分比例为7：3，即70％数据用作训练集，剩余30％用来做验证集。最终GA-XGBoost调参过程适应度值变化如图9所示；

由图9可知，经过18次迭代之后，后续种群中个体适应度的最大值、最小值与均值达到最高并保持稳定，其中最优个体的适应度值为0.9591，即个体所携带的XGBoost超参数组合使得模型预测准确率为95.91％。提取该个体的超参数组合信息如表5所示。

表5 XGBoost模型超参数取值

序号	代码	含义	取值
				1	n_estimators	弱评估器数量	25
2	max_depth	树模型最大深度	6
				3	leamning_rate	学习率	0.40
4	min_child_weight	叶子节点二阶导数和	0.47
				5	subsample	随机抽样抽取的样本比例	0.62
6	colsample_bytree	随机抽样特征的比例	0.87

③在GA算法确定XGBoost模型的最优超参数，得到GA-XGBoost模型的基础上，调用Classifier Chains链式分类法进行多标签分类：

目前，在机器学习领域主要利用算法适应策略和问题转换策略来解决多标签(Multi-Lable)分类问题：算法适应策略将多标签分类问题转换成聚类等其他形式的问题进行处理，但由于该种方法往往需要建立更复杂的学习模型来进行模型训练和实例标签的特征表示，因此算法模型复杂度较高；问题转换策略则以简化多标签分类的思想出发，将其拆解成一个多分类问题或多个二分类问题，在保证分类准确率的前提下使算法模型相对简单。

分类器链(classifier chains，CC)模型作为一种最典型的基于问题转换策略的多标签分类算法，因其简单易用而得到广泛地应用和发展。CC模型基于二元相关性(binaryrelevance，BR)原理，通过将前面分类器的结果添加到当前分类器来实现分类器的串行连接，克服了BR模型在训练数据中忽略标签间相关关系的局限性，从而获得了较好的预测性能。其主要步骤如下：

1)，建立输入特征向量和标签向量，所述输入特征向量为预处理后的所述样本数据，所述标签向量为所述样本数据中每一条钻探数据对应的在围岩完整程度上的编码值和在围岩等级上的编码值；

例如，样本数据中共有N条钻探数据，x_i＝(x_i1，x_i2，...，x_ik)为第i条钻探数据的k维实例输入特征向量，其中i的取值范围为1～N，在本发明中由于二级指标包括推进速度均值、推进力均值、扭矩均值、旋转速度均值及推进速度方差、推进力方差、扭矩方差、旋转速度方差共8项，因此k的值取8；y_i＝(y_i1，y_i2，y_i3，...，y_iq)为第i条钻探数据所对应的标签向量，在本发明中即围岩完整程度上的编码值和在围岩等级上的编码值，q为标签种类的数量，在本发明中由于在本发明中标签种类包括2个维度，即围岩完整程度和围岩等级，因此q的值取2。由N条钻探数据组成的训练样本集D，表示为D＝{(x_i，y_i)}，i＝1，2，...，N；

以表6数据为例进行解释(表中数据仅用于举例，数据取值无具体意义)：

表6样本数据与特征向量、标签向量之间的关系

序号(i)	x_i1	x_i2	…	x_i8	y_i1	y_i2
							1	1	3	…	6	3	0
2	4	2	…	1	1	2
							3	8	3	…	2	0	1
…	…	…	…	…	…	…
							N	6	3	…	7	2	1

在表6中，样本数据中共有N条钻探数据，x_i1～x_i8表示每条钻探数据中包含的输入特征，输入特征数量为8，y_i1～y_i2表示输出标签，标签数量为2，表6的全部数据构成了样本数据集D。因此k＝8，q＝2，x_i为第i条钻探数据的8条输入特征值，y_i为第i条钻探数据所对应的2标签值，如x₁＝(1，3，...，6)，y₁＝(3，0)，因此所有的x_i与y_i构成了D，即D＝{(x_i，y_i)}。

具体地，可以根据order命令生成标签分类顺序，记为τ:shuffle_sourted:Y＝{l,2,…,q}，然后CC模型按照分类器链的序列训练一组分类器f₁，f₂，f₃，…，f_q；本发明中，order＝[0，1]，即先预测围岩完整程度，再预测围岩等级，有利的提高了围岩等级的分类预测准确率。

3)，标签分类顺序在前的分类器输入特征向量，输出在前预测值，标签分类顺序在后的分类器输入特征向量和所述在前预测值，输出在后预测值，所述在后预测值为多标签分类结果；

在训练阶段，每个分类器f_j(1≤j≤q)都是基于当前标签与在其标签分类顺序前的标签之间的关联性，例如，当先预测围岩完整程度再预测围岩等级时，围岩完整程度分类器为标签分类顺序在前的分类器，围岩等级分类器为标签分类顺序在后的分类器，围岩完整程度分类器输入特征向量x_i，输出在前预测值y_i1，围岩等级分类器的输入特征向量为特征向量x_i和在前预测值y_i1，输出在后预测值y_i2。

4)在测试阶段，该方法以贪心方式来预测未知的实例x*的值f_j(x*)。通过查询每个分类器f_j(1≤j≤q)，来对预测实例x*的最终多标签分类结果。

GA-XGBoost模型基础上调用Classifier Chains链式分类法进行多标签分类，得到最终的CC-GA-XGBoost模型(具体流程如图8所示)，并对模型性能进行了评估，以上述CC-GA-XGBoost模型为基础，将钻探数据训练集导入模型进行训练并预测二维多分类结果，训练集链式关系设置为order＝[0,1]，数据划分与4.1保持一致，即训练集与预测集比例为7：3。98例预测集样本的两项标签预测分类具体结果如图10a、图10b所示。图10a、图10b分别为围岩完整程度及围岩等级两项标签的分类预测结果，其中围岩完整程度错判4例，分类准确率为95.91％，围岩等级错判2例，分类准确率为97.95％，二维标签共错判6例，最终综合二维质量评价准确率为93.88％。同时，为了说明GA与CC的对XGBoost模型多标签分类优化的有效性，分别将CC-GA-XGBoost与XGBoost、GA-XGBoost与CC-XGBoost模型进行性能对比，结果如表7所示。

表7CC-GA-XGBoost模型性能对比

由表7可知：XGBoost模型在默认超参数组合的状态下，标签Y1与Y2的分类准确率分别为91.84％与92.85％，二维综合分类准确率仅为88.78％；在配合GA超参数寻优后，各项分类准确率均有所提高，分别为95.91％、96.93％与90.81％；与GA-XGBoost模型相比，CC-XGBoost仅能在默认参数组合的前提下建立Y2与Y1之间的相关性，因此Y1标签的分类准确率仍与单独的XGBoost模型保持一致，为91.84％，但Y2标签的分类准确率提高至94.90％；而CC-GA-XGBoost模型综合了GA与CC模型优化效果，三项分类准确率最高。

本发明通过结合XGBoost机器学习模型强大的预测分类性能以及GA遗传算法的超参数寻优能力，在预设的寻优次数以内，能够高效的搜寻充分发挥XGBoost模型性能的超参数组合，从中选取模型性能评价指标值最高的模型作为输出，进而在保证了隧道不良地质体识别与分类的准确度的前提下大大降低了模型调参的难度，也避开了人工调参的不良影响；在确定了最佳参数组合的XGBoost模型基础上，调用CC算法进行多标签分类，构建CC-GA-XGBoost二维围岩质量评价模型，提供基于超前钻探数据的隧道围岩二维质量评价方法，以钻进速度、推进力、扭矩与旋转速度作为二维围岩质量评价的一级指标体系，使用CC链式分类方法，有效挖掘并利用了多标签分类中各标签内在的相关性，提高分类准确率，最终输出围岩完整程度与围岩等级的二维评价结果，并根据评价结果及时调整施工方式，进而指导隧道现场施工。

实施例2

本实施例为采用实施例1建立模型进行实际预测的实例。为验证CC-GA-XGBoost隧道围岩二维质量评价模型的实际工程可用性，在凤凰山隧道YK109+960～YK109+985里程段超前钻探作业结束后对其进行围岩二维质量评价。其中，YK109+960～YK109+985一级指标原始采样数据如图11所示。

提出该部分一级指标原始采样数据，按照2.1～2.3流程进行数据预处理后，导入CC-GA-XGBoost模型进行二维标签分类预测。分类预测结果如下表8所示。

表8YK109+960～YK109+985模型预测情况

根据表8，从围岩完整程度及围岩等级两个维度对YK109+960～YK109+980里程段共20m范围的超前地质预报总结如下：1～5.5m完整程度为较破碎，围岩等级为Ⅲ级；5.5～8.5m完整程度为较破碎～破碎，围岩等级为Ⅳ级；8.5～13.0m完整程度为较破碎，围岩等级为Ⅲ级；13～13.5m疑似软泥填充空腔，围岩等级为Ⅴ级；13.5～20.0m整体完整程度为破碎，围岩等级为Ⅴ级，其中16～16.5m的范围内疑似软泥填充空腔。

通过设置二维标签，如本实施例所述，可提供较为详尽的超前钻探地质预报解译信息，即输出围岩完整程度和围岩等级两个维度的预测结果，告诉现场施工人员前方的岩体到底是较完整、较破碎、破碎岩体还是软泥填充空腔，以及围岩等级的具体级别，技术人员可以二维质量评价结果为依据，对超前钻探地质预报进行整理总结，预报准确率满足工程实际应用的需求，更加适合现场施工，指导作用更强。

本发明通过结合XGBoost机器学习模型强大的预测分类性能以及GA遗传算法的超参数寻优能力，在预设的寻优次数以内，能够高效的搜寻充分发挥XGBoost模型性能的超参数组合，从中选取模型性能评价指标值最高的模型作为输出，进而在保证了隧道不良地质体识别与分类的准确度的前提下大大降低了模型调参的难度，也避开了人工调参的不良影响；在确定了最佳参数组合的XGBoost模型基础上，调用CC算法进行多标签分类，构建CC-GA-XGBoost二维围岩质量评价模型，提供基于超前钻探数据的隧道围岩二维质量评价方法，以钻进速度、推进力、扭矩与旋转速度作为二维围岩质量评价的一级指标体系，使用CC链式分类方法，有效挖掘并利用了多标签分类中各标签内在的相关性，提高分类准确率，最终输出围岩完整程度与围岩等级的二维评价结果，并根据评价结果及时调整施工方式，进而指导隧道现场施工

显然，CC-GA-XGBoost隧道围岩二维质量评价模型在实际工程应用中，可提供较为详尽的超前钻探地质预报解译信息，根据数据等距分割的设定，最小精度为0.5m，这对全面掌握隧道超前岩体的地质信息较为有利。同时，技术人员可以二维质量评价结果为依据，对超前钻探地质预报进行整理总结，预报准确率满足工程实际应用的需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，包括以下步骤：

步骤一，对待挖掘隧道进行随机采样，获取待挖掘隧道的钻探数据；所述钻探数据包括深度、还包括推进速度、推进力、扭矩和旋转速度四项定量指标；

步骤三，将所述预处理后的钻探数据输入到预先构建的GA-XGBoost模型，调用CC分类器链算法进行多标签预测，输出不同深度对应的隧道围岩二维质量评价结果，所述二维质量评价结果包括围岩完整程度和围岩等级两个维度，所述围岩完整程度的评价结果包括较完整、较破碎、破碎和泥质填充空腔，所述围岩等级的评价结果包括Ⅲ、Ⅳ与Ⅴ级；

其中，步骤三中调用CC分类器链算法进行多标签预测，具体包括：

2.根据权利要求1所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，所述预处理包括以下步骤：

a，对输入数据降噪；降噪的方法包括：

d：采用标准差法对所述二级指标进行数据标准化。

3.根据权利要求2所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，所述无效区间为贯入度P∈(0.9，1.2)以及P>1.8。

4.根据权利要求2所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，所述预设的分割间距为0.5米。

5.根据权利要求1～4任一项所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，构建所述GA-XGBoost模型包括以下步骤：

S1：输入样本数据；

6.根据权利要求5所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，步骤S3中模型训练包括：

S31：根据所述XGBoost模型中超参数的取值范围制定搜索空间；

7.根据权利要求6所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，步骤S31中所述超参数包括弱评估器数量、树模型最大深度、学习率、叶子节点二阶导数、随机抽样抽取的样本比例与随机抽取特征的比例。

8.根据权利要求6所述的一种基于超前钻探数据的隧道围岩二维质量评价方法，其特征在于，步骤S33中所述预设次数设为25次。

9.一种基于超前钻探数据的隧道围岩二维质量评价装置，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。