CN113762360B

CN113762360B - 一种基于smote+adacost算法的tbm掘进过程中的围岩等级预测方法

Info

Publication number: CN113762360B
Application number: CN202110960161.5A
Authority: CN
Inventors: 杜庆峰; 李晓军; 张双俐; 徐锦程
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-03-29
Anticipated expiration: 2041-08-20
Also published as: CN113762360A

Abstract

本发明涉及一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，包括步骤：1)获取TBM掘进参数数据和各个桩号的围岩等级数据；2)数据清洗、特征提取及围岩等级标注处理，作为机器学习模型的输入；3)样本不均衡处理；4)利用K折交叉验证选择机器学习模型的最优模型参数；5)进行模型训练、评估与比对，获取用于围岩等级预测的机器学习模型，并设置比对模型对该模型的预测效果进行比对验证；6)采用训练好的模型进行围岩等级预测并对软弱围岩进行预警。与现有技术相比，本发明具有预测模型预测准确率高，训练速度快，适用于TBM盾构过程中的围岩等级预测等优点。

Description

一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法

技术领域

本发明涉及围岩分级预测技术领域，尤其是涉及一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法。

背景技术

在隧道的掘进与施工中，正确的围岩等级分类是评价围岩稳定性和采取合理防护措施的重要依据之一。隧道围岩的分类常采用指标评分的方法将围岩进行等级的划分，划分出的每种等级围岩稳定性不同。常见的方法如国外的施工中岩体质量(Q)指标分类法、地质力学分类法(RMR)，国内公路、铁路隧道设计中对围岩的分类方法、工程岩体分级标准等。这些方法都是一些半定性、半定量的方法，考虑的指标有限。在隧道实际施工过程中，若能通过设备采集到的各种数据对当前围岩分级情况进行智能的预测，对于辅助施工人员进行及时的决策具有重要的意义。

近年来出现了图像识别法、计算模型法和机器学习法对隧道掘进过程中的围岩等级进行实时判断。

(1)图像识别法，如基于照相测量围岩分级系统的分级方法，通过对掌子面图像进行识别分析生成对应的三维图再量化其结构，通过量化后的某些岩体特征参数对掌子面岩体等级进行划分。该方法能对隧道开挖过程中掌子面的围岩等级进行快速划分，但由于采集的图像资料数量及采集的范围有限，且采集图像为地表资料，对预测结果有一定的局限性。

(2)计算模型法，旨在将定性指标定量化，通过软件或者理论公式构建一定的计算模型，将实际测得的参数代入模型即可获得围岩的分级情况。如利用数值模拟软件FLAC3D，通过模拟围岩沉降情况对围岩稳定性进行评价；基于熵权-云模型的隧道围岩分级方法等。该方法受限于指标数量的限制，无法适用于地质条件多变、指标变化大的情况。

(3)机器学习法，如通过BP神经网络、广义神经网络、ADACOST算法等构建围岩等级预测模型。BP神经网络构建的模型在样本数据分布不均衡的条件下效果不佳；广义神经网络构建的模型预测精度高，但是模型本身计算复杂度和空间复杂度高，不适用于地质条件多变的情况。ADACOST算法修改了ADABOOST算法的权重更新策略，能够适应不平衡数据下的学习，训练速度比神经网络模型快且得到的模型预测精度高。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，该方法在学习层面采用ADACOST算法，在数据层面加入了SMOTE算法缓解数据不均衡问题，能够进一步提高模型的整体稳健性和对软弱围岩的预测稳健性，能够在采用TBM的隧道掘进过程中向施工人员提供更为准确的围岩分级信息并对软弱围岩进行预警，为隧道施工人员提前做好防护措施起更好的指导作用。

本发明的目的可以通过以下技术方案来实现：

一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，该方法包括下列步骤：

S1：获取TBM掘进参数数据和各个桩号的围岩等级数据。

S2：对获取的TBM掘进参数数据进行数据清洗、特征提取及围岩等级标注处理，将处理后的数据与各个桩号的围岩等级数据作为机器学习模型的输入。

S3：对S2处理后的数据进行样本不均衡处理。

S4：利用K折交叉验证选择机器学习模型的最优模型参数。

S5：进行模型训练、评估与比对，获取用于围岩等级预测的机器学习模型，并设置比对模型对该模型的预测效果进行比对验证。

S6：采用训练好的模型进行围岩等级预测并对软弱围岩进行预警。

进一步地，S1中，获取的TBM掘进参数数据为TMB3标段数据，数据采集频率为1HZ。所述TMB3标段数据包括TBM掘进过程中各个时刻的所有掘进参数值和各个桩号的围岩分级信息，两类数据通过桩号信息进行对应，各个时刻的所有掘进参数值不包括时间戳、运行时间和桩号。

S2具体包括下列步骤：

21)对于掘进参数数值进行空值处理；

22)将每个掘进段划分为空推段、上升段和稳定段；

23)对划分后的掘进段进行特征提取；

24)在时序的稳定段数据中，对各个稳定段进行围岩等级标注；

25)对步骤23)提取的特征数据进行归一化处理。

其中，步骤23)的具体内容为：

采用最小二乘法对一定窗口长度内的刀盘扭矩、总推进力和推进速度值进行直线拟合，通过拟合直线斜率的变化情况对空推段、上升段和稳定段进行划分，采用均值法计算稳定段一定时间段内各个掘进参数的特征值，取稳定段一定窗口长度内的各个掘进参数的均值作为特征值。

进一步地，由于参数列众多，通过随机森林特征重要性分析提取特征重要性大于0.02的掘进参数特征列，总共得到15个特征列。特征1～特征15依次为：稳定段泵1润滑压力均值、稳定段刀盘扭矩均值、稳定段推进压力均值、稳定段撑靴压力均值、稳定段润滑泵电机电流均值、稳定段左侧护盾位移均值、稳定段钢拱架泵压力均值、稳定段控制泵压力均值、稳定段刀盘功率均值、稳定段撑靴泵压力均值、稳定段冷水泵压力均值、稳定段泵4润滑压力均值、稳定段EP2外密封压力均值、稳定段内水泵压力均值、稳定段齿轮密封压力均值和稳定段刀盘转速均值。

进一步地，S3中，采用SMOTE算法在数据层面处理样本不均衡问题。

进一步地，S4中，利用K折交叉验证选择机器学习模型的最优模型参数的具体步骤包括：

41)对S3得到的样本数据划分为训练集样本和测试集样本，将训练集样本数据随机打乱顺序，近似等分成K份；

42)选择其中一份作为验证集，其余K-1份作为训练集，在训练集上训练模型并用该模型在验证集上做测试，保存模型的各个评价指标值；

43)重复步骤42)K次，保证每个子集都有一次机会作为验证集；

44)计算K组得到的各个评价指标的均值作为当前K折交叉验证下模型的性能指标。

进一步地，S5中，采用ADACOST算法进行模型训练，模型的评价指标采用总体精确率、总体召回率、总体f1-score、总体准确率以及各个类别的精确率、召回率和f1-score。

进一步地，S6中的具体步骤包括：

61)实时采集TBM掘进过程中各个掘进参数时序变化值；

62)对步骤61)中采集到的数据进行数据清洗与特征提取；

63)利用训练好的模型对围岩等级进行实时预测，若围岩等级为软弱围岩，则给出软弱围岩的预警。

本发明提供的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，相较于现有技术至少包括如下有益效果：

(1)使用结构化的TBM掘进参数数据，无需进行复杂耗时的半结构化、非结构化数据处理；

(2)取稳定段均值作为特征值，且采用随机森林算法从众多特征中选取重要特征列，降低了特征的数据维度；

(3)运用K折交叉验证选择模型的最优参数，避免了人为选择参数造成的模型效果差的问题；

(4)使用SMOTE算法在数据层面缓解样本不均衡问题，使用ADACOST算法在学习层面缓解样本不均衡学习问题，进一步提高了模型的整体稳健性和对少样本的软弱围岩的预测稳健性，能在TBM盾构掘进过程中为施工人员判断围岩稳定性并提前采取合理的防护措施起一定的指导作用。

附图说明

图1为实施例中本发明基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法的基于SMOTE+ADACOST的围岩等级预测模型的构建流程图；

图2为实施例中本发明基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法的利用围岩等级预测模型进行围岩等级预测与软弱围岩预警流程图；

图3为实施例中随机森林特征重要性分析结果图；

图4为实施例中总体精确率、总体召回率、总体f1-score、总体准确率随弱分类器个数变化折线图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本发明涉及一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，致力于在使用TBM的隧道盾构掘进过程中，辅助施工人员对施工过程中的围岩状态进行实时的、准确的判断。本发明通过对采集到的TBM掘进参数历史数据进行数据清洗、特征提取与围岩等级标注，构建分类模型对围岩等级进行预测，以期在实际工程中，通过对实时采集到的TBM掘进参数的分析与计算，对围岩等级进行实时的预测并对软弱围岩进行预警。

参照图1、图2所示流程图，本发明基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法具体包括以下步骤：

步骤一、获取TBM掘进参数数据和各个桩号的围岩等级数据。

在本实施例中，从吉林引松供水工程中，获取TBM3标段中在1HZ的频率下记录的TBM掘进参数数据和该标段中各个桩号的围岩等级数据。从吉林引松供水工程中获取的TBM3标段数据，包含TBM掘进过程中各个时刻的所有掘进参数值和各个桩号的围岩分级信息。两类数据通过桩号信息进行对应。一个桩号可能对应多个掘进段，一个掘进段也可能包含多个桩号。TBM3标段中在1HZ的频率下记录的TBM掘进参数数据和该标段中各个桩号的围岩等级数据中共记录了802天的掘进参数数据，以天为单位进行保存。掘进参数数据总共有195种(不包含时间戳、运行时间和桩号)。掘进参数数据中的桩号列记录了每一时刻的掘进桩号信息。

步骤二、数据清洗、特征提取及围岩等级标注。流程如图1所示，具体包括下列步骤：

(2.1)空值处理。对于掘进参数数值出现空值的情况，直接删除该时刻的掘进参数记录行。各个桩号的围岩等级数据无空值的情况。

(2.2)掘进段及各个掘进段中上升段、稳定段的划分。TBM的掘进阶段呈现周期性变化，每个掘进段可划分为空推段、上升段和稳定段。在实际工程使用中，刀盘首先被启动，刀盘转速被设置为定值，此时刀盘扭矩逐渐上升并稳定在一定数值，TBM处于空转状态；在刀盘未接触岩壁前，推进速度被设置为恒定值，总推进力变化，此时为空推段；刀盘接触岩壁后，刀盘扭矩极速上升，总推进力抖动明显，为上升段；当刀盘扭矩、总推进力和推进速度都趋于稳定并在一定范围内波动时，为稳定段。本发明采用最小二乘法对窗口长度为30s、步长为1s的刀盘扭矩、总推进力和推进速度值进行直线拟合，通过拟合直线斜率的变化情况对空推段、上升段和稳定段进行划分。最终得到掘进循环段共4508个。

(2.3)特征提取。采用均值法计算稳定段中部左右各30s(总共60s)时间内各个掘进参数的均值。由于参数列众多，通过随机森林特征重要性分析提取特征重要性大于0.02的掘进参数特征列，总共得到15个特征列。随机森林的分析结果如图3所示。其中特征1～特征15依次为：稳定段左侧护盾位移均值、稳定段左拖拉油缸压力均值、稳定段撑靴泵压力均值、稳定段推进泵压力均值、稳定段钢拱架泵压力均值、稳定段泵4润滑压力均值、稳定段撑靴压力均值、稳定段冷水泵压力均值、稳定段内水泵压力均值、稳定段润滑泵电机电流均值、稳定段控制泵压力均值、稳定段刀盘功率均值、稳定段EP2外密封压力均值、稳定段齿轮密封压力均值、稳定段刀盘转速均值。

(2.4)围岩等级标注。在时序的稳定段数据中，考虑到一个稳定段可能跨越不同的桩号，故取截取的60s稳定段时序数据中桩号的众数作为该稳定段对应的桩号，从而完成对各个稳定段围岩等级的标注。

(2.5)数据的归一化处理。本发明采用z-score的方法对(2.3)中提取出来的特征进行归一化处理。假设所有特征都是零均值且具有同一阶数上的方差，对每个特征，设该特征取值为x，该特征所有取值的均值为μ、标准差为σ。当σ＝0时，不对该特征进行归一化处理。当σ≠0时，将该特征取值减去特征所有取值的均值再除以标准差进行缩放，缩放后的值

步骤三、样本不均衡处理。

在本步骤中，采用SMOTE算法处理样本不均衡问题。类别不均衡是分类器模型训练过程中常见的问题之一。在类别不均衡的情况下训练得到的分类器对各个类别的识别精度存在一定的差异，此种情况下应注意让分类器能够最大程度识别着重关注的类别。步骤二得到的数据样本总共4508个，其中围岩等级II的样本315个，围岩等级III的样本3675个，围岩等级IV的样本502个，围岩等级V的样本16个。样本量过少的V级围岩属于软弱围岩，是重点识别对象。SMOTE算法(SyntheticMinority Oversampling Technique)即合成少数类过采样技术，是一种对随机采样算法的改进算法，能够避免模型的过拟合。SMOTE算法的基本思想是对少数类样本进行分析，根据少数类样本人工合成新样本添加到数据集中，算法流程包含以下步骤：

(3.1)对于少数类中的每一个样本x，以欧氏距离为标准计算其到所在少数类样本集S中所有样本的距离，取其k近邻；

(3.2)对于少数类中的每一个样本x，从其k近邻中随机选取M个样本；

(3.3)对于少数类中的每一个样本x，计算其同每一个随机选出的近邻的欧氏距离，乘上[0，1]范围中的一个随机数，即可合成新的样本。其公式如下：

本发明直接使用python的imblearn包提供的SMOTE类对样本不均衡进行处理，设置近邻数k＝5，将II级围岩样本数扩展至1000个、IV级围岩样本数扩展至1500个、V级围岩样本数扩展至500个。

将本步骤得到的样本数据按照4∶1的比例划分为训练集样本和测试集样本。

步骤四、K折交叉验证选择最优模型参数。具体步骤包括：

(4.1)将训练集样本数据随机打乱顺序，近似等分成K份；

(4.2)选择其中一份作为验证集，其余K-1份作为训练集，在训练集上训练模型并用该模型在验证集上做测试，保存模型的各个评价指标值，包括总体精确率、总体召回率、总体f1-score、总体准确率以及各个类别的精确率、召回率和f1-score，其中总体精确率、总体召回率和总体f1-score是各个类别的精确率、召回率和f1-score值的均值；

(4.3)重复步骤(4.2)K次，保证每个子集都有一次机会作为验证集；

(4.4)计算K组得到的各个评价指标的均值作为当前K折交叉验证下模型的性能指标。

本发明使用python的sklearn包提供的函数实现K折交叉验证过程，其中K取10。

步骤五、模型训练、评估与比对。

本发明采用ADACOST算法构建模型。SMOTE算法是从数据层面解决不均衡数据学习的方法，基于代价敏感的学习算法是从学习算法层面解决不均衡数据学习的方法。代价敏感学习方法的核心是代价矩阵，代价矩阵常为一个N×N的矩阵，N代表类别个数，Cost_i，j表示将i类对象错分到j类中的代价。ADACOST算法是代价敏感学习算法的一种，其在ADABOOST算法的基础上更改了权重更新策略。其基本思想是大大提高代价高的误分类样本的权重，适当降低代价高的正确分类样本的权重。考虑到软弱围岩(V级围岩)是重点识别对象，故提高V级围岩样本对象被预测为其他类别的代价。本发明中采用的代价敏感矩阵如表1所示。

表1各级围岩样本对象预测为某一级围岩的代价矩阵

在树深度为10，学习率为0.01，从5到50以5的间隔增大弱分类器的个数，在训练集上进行K折交叉验证，图4展示了总体的精确率、召回率、f1-score和准确率随弱分类器个数增大的变化折线图。当弱分类器个数取55时，总体精确率、总体召回率、总体f1-score和总体准确率均达到了0.94，各类围岩的预测精确率、召回率和f1-score均达到了0.95，模型总体效果最优。表2给出了在弱分类器个数为55时，经过K折交叉验证的模型在测试集上的总体精确率、总体召回率、总体f1-score和总体准确率以及各个类别的预测精确率、召回率和f1-score值。

表2模型在测试集上的总体精确率、总体召回率、总体f1-score和总体准确率以及各个类别的预测精确率、召回率和f1-score值

本实施例还设立了比对模型来进一步验证基于SMOTE和ADACOST算法构建的围岩等级分类预测模型的效果。比对模型包括ADABOOST、SMOTE+ADABOOST和ADACOST。表3给出了各个模型在树深度为10，学习率为0.01，经过K折交叉验证以后的最优模型的弱分类器个数以及在测试集上的预测效果。

表3ADABOOST，SMOTE+ADABOOST，ADACOST和SMOTE+ADACOST树深度为10，学习率为0.01，从5到50以5的间隔增大弱分类器的个数，经过K折交叉验证以后最优模型的弱分类器个数以及在测试集上的总体精确率、总体召回率、总体f1-score、总体准确率和各个类别的精确率、召回率、f1-score

ADACOST模型对于V级围岩的召回率和f1-score低，表明该模型仍旧受到样本不均衡的影响，模型不稳健。SMOTE算法的加入大大提升了ADABOOST算法模型的预测效果，也在很大程度上提高了ADACOST算法模型的整体稳健性以及对于软弱围岩(V级围岩)的预测效果。

步骤六、使用训练好的模型进行围岩等级预测并对软弱围岩进行预警。

在本步骤中，通过对TBM掘进过程中的掘进参数进行分析与计算，对围岩分级情况进行预测并对软弱围岩进行预警，如图2所示，可辅助司机决策。

本发明使用结构化的TBM掘进参数数据，无需进行复杂耗时的半结构化、非结构化数据处理。取稳定段均值作为特征值，且采用随机森林算法从众多特征中选取重要特征列，降低了特征的数据维度。运用K折交叉验证选择模型的最优参数，避免了人为选择参数造成的模型效果差的问题。使用SMOTE算法在数据层面缓解样本不均衡问题，使用ADACOST算法在学习层面缓解样本不均衡学习问题，进一步提高了模型的整体稳健性和对少样本的软弱围岩的预测稳健性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，包括下列步骤：

1)获取TBM掘进参数数据和各个桩号的围岩等级数据；

2)对获取的TBM掘进参数数据进行数据清洗、特征提取及围岩等级标注处理，将处理后的数据与各个桩号的围岩等级数据作为机器学习模型的输入；

3)对步骤2)处理后的数据进行样本不均衡处理；

4)利用K折交叉验证选择机器学习模型的最优模型参数；

5)进行模型训练、评估与比对，获取用于围岩等级预测的机器学习模型，并设置比对模型对该模型的预测效果进行比对验证；

6)采用训练好的模型进行围岩等级预测并对软弱围岩进行预警；

步骤3)中，采用SMOTE算法在数据层面处理样本不均衡问题；

步骤4)中利用K折交叉验证选择机器学习模型的最优模型参数的具体步骤包括：

41)对步骤3)得到的样本数据划分为训练集样本和测试集样本，将训练集样本数据随机打乱顺序，等分成K份；

43)重复步骤42)K次，保证每个子集都有一次机会作为验证集；

44)计算K组得到的各个评价指标的均值作为当前K折交叉验证下模型的性能指标；

步骤5)中，采用ADACOST算法进行模型训练，模型的评价指标采用总体精确率、总体召回率、总体f1-score、总体准确率以及各个类别的精确率、召回率和f1-score。

2.根据权利要求1所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，步骤1)中，获取的TBM掘进参数数据为TMB3标段数据，数据采集频率为1HZ。

3.根据权利要求2所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，所述TMB3标段数据包括TBM掘进过程中各个时刻的所有掘进参数值和各个桩号的围岩分级信息，两类数据通过桩号信息进行对应，各个时刻的所有掘进参数值不包括时间戳、运行时间和桩号。

4.根据权利要求3所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，步骤2)具体包括下列步骤：

21)对于掘进参数数值进行空值处理；

22)将每个掘进段划分为空推段、上升段和稳定段；

23)对划分后的掘进段进行特征提取；

25)对步骤23)提取的特征数据进行归一化处理。

5.根据权利要求4所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，步骤23)的具体内容为：

6.根据权利要求5所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，提取的特征包括稳定段泵1润滑压力均值、稳定段刀盘扭矩均值、稳定段推进压力均值、稳定段撑靴压力均值、稳定段润滑泵电机电流均值、稳定段左侧护盾位移均值、稳定段钢拱架泵压力均值、稳定段控制泵压力均值、稳定段刀盘功率均值、稳定段撑靴泵压力均值、稳定段冷水泵压力均值、稳定段泵4润滑压力均值、稳定段EP2外密封压力均值、稳定段内水泵压力均值、稳定段齿轮密封压力均值和稳定段刀盘转速均值。

7.根据权利要求1所述的基于SMOTE+ADACOST算法的TBM掘进过程中的围岩等级预测方法，其特征在于，步骤6)中的具体步骤包括：

61)实时采集TBM掘进过程中各个掘进参数时序变化值；

62)对步骤61)中采集到的数据进行数据清洗与特征提取；