CN113011094B - 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法 - Google Patents

混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法 Download PDF

Info

Publication number
CN113011094B
CN113011094B CN202110297054.9A CN202110297054A CN113011094B CN 113011094 B CN113011094 B CN 113011094B CN 202110297054 A CN202110297054 A CN 202110297054A CN 113011094 B CN113011094 B CN 113011094B
Authority
CN
China
Prior art keywords
data
parameters
muck
model
slag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110297054.9A
Other languages
English (en)
Other versions
CN113011094A (zh
Inventor
林琳
郭昊
刘飞香
郭丰
廖金军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
China Railway Construction Heavy Industry Group Co Ltd
Original Assignee
Harbin Institute of Technology
China Railway Construction Heavy Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, China Railway Construction Heavy Industry Group Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202110297054.9A priority Critical patent/CN113011094B/zh
Publication of CN113011094A publication Critical patent/CN113011094A/zh
Application granted granted Critical
Publication of CN113011094B publication Critical patent/CN113011094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Excavating Of Shafts Or Tunnels (AREA)

Abstract

混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,属于土压平衡盾构机渣土改良领域。本发明解决了目前针对渣土改良方法中泡沫剂的用量不精确导致对渣土改良效果不理想,进而导致盾构机工作时出渣效率低的问题。本发明方法包括:对施工数据和地质数据进行预处理;利用GBDT算法建立回归模型,对地质数据进行特征选择;从预处理后的施工数据中处理得到关键出渣质量参数;利用随机森林算法建立N个渣土改良模型,并优化模型超参数,得到N个渣土改良模型的最优超参数;对N个渣土改良模型进行精度对比,精度最高的模型作为最优出渣质量模型;由最优出渣质量模型计算泡沫剂用量,并对渣土进行改良。本发明用于土压平衡盾构机的渣土改良。

Description

混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法
技术领域
本发明涉及混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法。属于土压平衡盾构机的渣土改良领域。
背景技术
盾构机是工程机械领域极其重要的大型装备,广泛应用于地铁、铁路、市政等隧道工程。据统计,发达国家中采用盾构法施工的隧道掘进量占其隧道掘进总量的90%以上。其中,土压平衡盾构法(EPBshield)因其机械化程度高、施工速度快、环境适应性强、施工质量可控等优点,在盾构机中占60%以上,是应用最广的盾构施工方法。土压平衡盾构机的主要工作流程为前端刀盘旋转掘削地层土体,切削下来的土体进入土舱。当土体充满土仓时,其被动土压与开挖面上的土压、水压基本平衡,使得开挖面与盾构面处于平衡状态,同时利用螺旋输送机向外输送渣土。
土压平衡盾构机对于开挖的土料有较高的要求,原因有二。一是开挖土料作为支撑介质进入土仓,需要有较稳定的岩土学性质,包括良好的塑性变形、软稠度、内摩擦角小、渗透率小等;二是为保证土压平衡,螺旋输送机要平稳持续地向外输送渣土,需要土料具有合适的含水率、含砂率等(胡国良et al.,2008;杨旸et al.,2017)。岩土特性不良的土料极易造成喷涌、泥饼等现象,增大刀具和螺旋机的扭矩和磨损,进而损坏盾构设备,影响施工质量。因此,工程中需要改良开挖土料的特性以满足盾构工作条件,改良方法通常为加入泡沫剂(Foams)、膨润土、泥岩分散剂(Mudstone dispersant)、聚合物(Polymers)等改良剂。目前,泡沫剂是应用最普遍的渣土改良剂,其优点为适合多种土质(universal)、输送和使用便捷、消泡后渣土能复原等(Quebaud et al.,1998;闫鑫et al.,2010;王海波et al.,2018)。
利用泡沫剂进行渣土改良方案决策的主要目标是根据一定的土体地质条件和需求的出渣质量,确定泡沫剂的用法和用量(浓度、发泡倍率等)。目前,相关的理论和技术分为基于专家经验的方法和基于数据驱动的方法。基于专家经验的方法主要依据工程实践中积累的技术报告、经验手册、历史数据等,并进行针对性实验测试,归纳形成渣土改良相关经验规则,利用检索的方式获取目标地质环境下的泡沫剂改良参考方案。该方法将渣土改良知识结构化,检索效率较高。魏康林研究了渣土改良剂与特定地质条件的作用机理,归纳出不同改良剂的适用地质环境表单(魏康林,2007);胡长明等优化了改良富水砂卵石地质时泡沫剂主要参数(溶液浓度和注入率)取值(胡长明et al.,2017);杨益等人分析了黏土地质下分散剂对土体含水率、稠度指数等参数的影响,提出了渣土堵塞处理方案(杨益etal.,2019);XuQW等人研究了砂卵石土地质下土壤含水率与改良剂用量的关系,提出了不同含水率的最佳土壤改良方案(Xu et al.,2020);Selmi等人通过试验法研究了泡沫剂注入率(FIR)对砂土孔隙比的影响,一定程度上揭示了作用机理,并归纳出不同等级FIR下的渣土性能(Selmi et al.,2020)。该类方法存在的问题是只能根据有限的经验规则选择相对合理的方案,不能进一步进行方案优化;且当地质条件未被经验规则覆盖时,无法进行渣土改良决策。
基于数据驱动的渣土改良决策方法指挖掘渣土改良决策相关参数的数据关联,建立合理的渣土改良决策模型,以预测渣土改良目标参数。与专家经验法相比,该类方法对数据的挖掘和利用程度高、响应速度快、综合分析性能强、泛化能力好。目前利用数据驱动进行渣土改良的研究内容不多,钟嘉政等人提出了基于流变学的泡沫剂改良砾砂的可压缩宾汉姆流体本构模型,提升了泡沫剂改良土体压缩系数和塑性黏度等指标的精度(钟嘉政etal.,2020);QuTM等人建立了渣土摩擦系数与刀盘扭矩、螺旋机土压等施工参数的关系模型,可作为渣土改良的理论参考(Qu et al.,2019);Pourmand等人提出了利用泡沫剂和聚合物进行砂土改良的流程,建立了砂土关键地质参数(剪切强度和塑性等)与泡沫剂最佳注入率(FIR)的关系模型,提高了砂土的性能改良程度(Pourmand et al.,2020)。
在地铁、铁路、市政等隧道挖掘工程中,现有基于数据驱动的方法仍存在一下问题,没有同时考虑施工数据和特定的地质条件与泡沫剂用量的映射关系,导致计算出的泡沫剂的用量不够精确,影像渣土改良效果,导致了土压平衡盾构机输送渣土的效率低、质量差。
发明内容
本发明是为了解决目前针对修建地铁等隧道中采用土压平衡盾构机进行渣土改良方法中泡沫剂的用量不精确,对渣土改良效果不理想,导致盾构机工作时地铁隧道中渣土输出效率低的问题,现提供混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法。
混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,包括:
步骤一、获取施工数据和地质数据,对施工数据和地质数据进行预处理;其中,施工数据包括刀盘转矩、螺旋机压力、螺旋机转矩、螺旋机土压和泡沫剂用量参数;地质数据包括:黏粒含量、孔隙比、塑性指数、液性指数、粉粒含量、压缩系数、土层剪切波速、压缩模量、含水率、凝聚力、湿密度、摩擦角;
步骤二、利用GBDT算法建立回归模型,以地质数据作为回归模型输入,以泡沫剂用量参数作为回归模型输出,计算回归模型权重,作为地质数据的权重,并对地质数据进行特征选择,形成N类地质数据子集Gi,G={G1,G2,...,Gi,...,GN},G表示地质数据集;
步骤三、从预处理后的施工数据中提取刀盘转矩、螺旋机压力、螺旋机转矩以及螺旋机土压作为出渣质量参数,排除强线性相关参数,得到关键出渣质量参数;
步骤四、以地质数据子集Gi和关键出渣质量参数作为输入,以泡沫剂用量参数作为输出,利用随机森林算法建立N个渣土改良模型,并优化模型超参数,得到N个渣土改良模型的最优超参数;
步骤五、对N个渣土改良模型进行预测精度对比,选用精度最高的模型作为最优出渣质量模型;
步骤六、采集地下工作空间中待输出渣土,根据最优出渣质量模型计算出泡沫剂用量,根据泡沫剂用量对渣土进行改良,将改良后的渣土输出地下工作空间。有益效果
本发明渣土改良模型对施工数据和地质数据按环处理,作为数据基础。提取渣土改良相关参数,利用GBDT算法确定对目标参数影响权重最大的若干地质参数,形成多类地质参数集。基于地质数据集,分别利用随机森林建立渣土改良模型,并利用贝叶斯方法优化模型的超参数;通过精度和残差分析,得到最优模型。通过利用决策树、k近邻、GBDT、BPNN等机器学习方法建立模型,通过实施例对比发现本模型在决定系数和预测误差上均有明显优势。同传统的渣土改良方法相比,该模型对地质条件的适应范围更广、泛化能力增强、响应速度更快、对泡沫剂用量参数的决策精度更高。
附图说明
图1为本发明流程图;
图2为施工地层剖面图;
图3为渣土改良模型相关参数分类和关联关系;
图4为基于GBDT算法的特征选择流程图;
图5为随机森林算法原理和流程图;
图6为地质数据-泡沫原液流量模型权重;
图7为地质数据-泡沫混合液流量模型权重;
图8为地质数据-空气流量模型权重;
图9为12个地质参数的综合权重图;
图10为模型1的标准化残差正态概率分布;
图11为模型2的标准化残差正态概率分布;
图12为模型3的标准化残差正态概率分布。
具体实施方式
具体实施方式一:结合图1具体说明本实施方式,本实施方式所述的混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,包括:
步骤一、获取施工数据和地质数据,对施工数据和地质数据进行预处理;其中,施工数据包括刀盘转矩、螺旋机压力、螺旋机转矩、螺旋机土压和泡沫剂用量参数;地质数据包括:黏粒含量、孔隙比、塑性指数、液性指数、粉粒含量、压缩系数、土层剪切波速、压缩模量、含水率、凝聚力、湿密度、摩擦角;
步骤二、利用GBDT算法建立一个回归模型,以地质数据作为回归模型输入,以泡沫剂用量参数作为回归模型输出,计算模型的权重,并对地质数据进行特征选择,形成N类地质数据子集Gi,G={G1,G2,...,Gi,...,GN},G表示地质数据集;
步骤三、从预处理后的施工数据中提取所有影响出渣质量的参数,根据工程经验,出渣质量的常用衡量指标是反映出渣质量的关键施工参数,具体包括刀盘转矩、螺旋机压力、螺旋机转矩和螺旋机土压;作为出渣质量参数,利用Pearson相关系数检验参数的两两相关性;利用相关性分析剔除强线性相关的参数,得到关键出渣质量参数;
步骤四、以地质数据子集Gi和关键出渣质量参数作为输入,以泡沫剂用量参数作为输出,利用随机森林算法建立N个渣土改良模型,利用贝叶斯方法优化模型超参数,得到N个渣土改良模型的最优超参数;
步骤五、对N个渣土改良模型进行预测精度对比,选用精度最高的模型作为最优出渣质量模型;
步骤六、采集地下工作空间(如地铁隧道)中待输出渣土,根据最优出渣质量模型计算出泡沫剂用量,根据泡沫剂用量对渣土进行改良,将改良后的渣土输出地下工作空间。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一获取施工数据和地质数据,对施工数据和地质数据进行预处理;其中,施工数据包括刀盘转矩、螺旋机压力、螺旋机转矩、螺旋机土压和泡沫剂用量参数;地质数据包括:黏粒含量、孔隙比、塑性指数、液性指数、粉粒含量、压缩系数、土层剪切波速、压缩模量、含水率、凝聚力、湿密度、摩擦角;具体过程为:
对施工数据中存在的缺失值和非数值数据用“0”代替;
若施工数据中存在某数据的方差小于0.01,则认为该数据在整个工程中没有变化,剔除此数据;
施工数据和地质数据构成的数据集数据量很大,存在大量非工作状态的无效数据,去除这些非工作状态的无效数据(无效数据一般占总数据量的40%左右);
考虑到数据量较大,且在工程中操作人员一般以盾构机工作一环(简称环)为周期调整施工数据,因此依次对数据按环取均值,需要注意的是,这里仅对每环中某特征的工作状态值(非零)取均值;
将盾构机每环的地理位置对应到地层剖面图中,如图2所示;
测算各环中每种地层占该环比例的均值,作为本环的各地层比例;
Qn=Pn×M(1)
其中,Pn表示环n中各地层所占比例;Qn表示环n中地质数据的实际取值;M表示各地层的地质数据标准取值矩阵,M可通过查阅地质手册获取;
将地质数据和施工数据按盾构环对应起来,作为后续特征选择和建模的基础。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二利用GBDT算法建立回归模型,以地质数据作为回归模型输入,以泡沫剂用量参数作为回归模型输出,计算回归模型权重,作为地质数据的权重,并对地质数据进行特征选择,形成N类地质数据子集Gi,G={G1,G2,...,Gi,...,GN},G表示地质数据集;具体过程为:
根据地质数据的权重结果,设置阈值以获取各类地质数据集;设所有地质数据的权重集合为W,将W中的元素按降序排列,设前i个权重之和记为Wi;设定阈值集T={T1,T2,…,Ti,…,TN},该集合中的阈值可根据实际需求设置;地质数据子集Gi的计算方法为:
min(Wi)>Ti (2)
即,计算各地质数据权重之和Wi,与阈值Ti比较,获得最少地质数据构成的集合min(Wi),作为地质数据子集Gi
本实施方式中,一般常用的特征选择方法有过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)三类。过滤式方法按照发散性、相关性等指标对特征进行评分,设置阈值等指标用于筛选特征,该类方法计算代价较小,但在特征选择时对目标参数和后续学习器考虑较少。包裹式方法直接把要使用的学习器的性能作为特征选择的评价函数,然后对特征子集的所有组合分别训练学习器,通过性能度量选择最优特征子集,该类方法的精确度很高,但计算开销极大。嵌入式方法先选择某类机器学习算法中效率较高的算法训练模型,得到各特征的权值系数进行特征选择;然后选择该类机器学习算法中精度较高的算法,进一步训练模型并进行优化,以提高模型的有效性。综合考虑计算开销和模型精度,采取嵌入式方法进行特征选择;在各类机器学习算法中,树模型在进行叶节点划分时,通过信息熵等指标给出了特征的重要程度,自然生成了特征选择的子集搜索和评价机制,因此经常被用于特征选择。选择树模型中的GBDT算法进行特征选择,该算法进行特征选择的本质是生成CARTTREE,并计算所有的非叶子节点在分裂时加权不纯度的减少量,减少量越大说明特征越重要,特征选择相关流程如图4所示;
通过预实验确定GBDT模型的关键参数(查阅相关资料,并利用公共数据集测试,得到关键的参数),模型的关键参数设置为弱分类器个数为100,学习率为0.1,此时GBDT模型的精度较高。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三从预处理后的施工数据中提取刀盘转矩、螺旋机压力、螺旋机转矩以及螺旋机土压作为出渣质量参数,排除强线性相关参数,得到关键出渣质量参数;具体过程为:
利用Pearson相关系数检验参数的两两相关性,通过计算各参数的相关性,得到参数之间的相关系数p;根据相关性分析原理,若p>0.8,说明两个参数之间的相关性极强,即两个参数可能可以互相代替,提取出相关系数p>0.8的参数;
对于p>0.8的参数对的关联关系进行曲线估计,初步判断二者在常用数学模型中的拟合精度(体现为决定系数R2)的高低,选择R2最高的模型确定为回归分析的模型类型;
模型类型如上曲线估计所述,建立一个回归模型;对回归模型进行精度和有效性评价;精度评价的指标为决定系数R2和预测误差RMSE;R2表征了模型中因变量的变化可由预测变量解释部分所占的比例,R2>0.85认为模型精度较高;RMSE表征了模型误差累积情况,模型误差越小越好;有效性评价的指标为F-test和t-test;F-test对模型进行全局数据检验,衡量模型是否具有统计学意义;t-test衡量了预测变量对模型的显著性水平,一般地,检验置信度为95%的前提下,模型的F-test和t-test具有显著性意义,即当决定系数R2且检验置信度为95%或高于95%时,可将参数对中其一剔除,并确定最终出关键渣质量参数,排除其中一个参数,降低了后续渣土改良模型的参数维度;。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤四以地质数据子集Gi和关键出渣质量参数作为输入,以泡沫剂用量参数作为输出,利用随机森林算法建立N个渣土改良模型,并优化模型超参数,得到N个渣土改良模型的最优超参数;具体过程为:
对地质数据、关键出渣质量参数以及泡沫剂用量参数进行标准化处理:
Figure BDA0002984726950000071
其中,
Figure BDA0002984726950000072
表示参数i1标准化后的取值;
Figure BDA0002984726950000073
表示参数i1标准化前的取值;
Figure BDA0002984726950000074
表示参数i1的均值;
Figure BDA0002984726950000075
表示参数i1数据的方差;
以每个地质数据子集Gi和关键出渣质量参数作为输入,建立N个渣土改良模型,利用贝叶斯方法对N个渣土改良模型进行超参数优化,得到N个渣土改良模型对应的超参数,构成超参数集合HP={HP1,HP2,...,HPN}。
本实施方式中,在利用基于树模型的GBDT算法完成了地质参数的特征选择后,根据嵌入式特征选择原理,为保证被选特征在后续训练模型中的有效性,模型选择树模型类算法中随机森林作为训练渣土改良模型的算法。随机森林算法计算开销小,实现难度低,同时较其他集成算法有较好的泛化性能,主要是因为其中基学习器的多样性来自样本扰动和属性扰动两方面,提高了个体学习器间的差异度,进而提高模型的泛化性能。利用随机森林算法建立渣土改良模型的基本流程如图5所示。
模型训练的核心步骤是预设并不断调整随机森林模型的超参数,通过比较不同超参数下模型的预测精度,确定较为合理的模型。超参数是模型的框架参数,对预测精度有重要影响,模型中超参数的合理取值和组合可以极大提高模型的拟合精度和泛化能力。常用的调参方法有网格搜索、随机搜索、贝叶斯优化等。其中网格搜索的运算时间过长,易出现组合爆炸;随机搜索的优化过程随机性较强,优化结果不稳定。贝叶斯优化是一种自动调整超参数的方法,基于目标函数的过去评估结果建立概率模型,来找到最小化目标函数的值,从而确定超参数的最优取值。该方法与随机搜索或网格搜索的不同之处在于,它在尝试下一组超参数时,会参考之前的评估结果,提高了搜索效率,且性能较好。
利用贝叶斯方法对N个渣土改良模型进行超参数优化,得到N个渣土改良模型对应的超参数集合HP={HP1,HP2,...,HPN};具体过程为:
I.确定目标函数:
目标函数即贝叶斯优化进行超参数寻优需要最小化或最大化的指标,这里指模型的精度;对于回归问题,通常采取k折交叉验证渣土改良模型在验证集上的预测误差(RMSE),取k=10;
II.设置域空间:
域空间指每个超参数的取值范围构成的集合。在迭代搜索过程中,贝叶斯优化算法按每个参数的概率分布从域空间中选择一组超参数,进行模型精度评价。因此,需要为每个超参数设置采样的概率分布形式;分布形式的确定通常要综合考虑参数的数据类型、取值范围、经验规则等。结果如表1所示;
表1随机森林模型关键超参数表
Figure BDA0002984726950000081
其中,决策树的数量的取值范围有数量级上的变化,一般认为,当决策树的数量较多时,较小的增量不会引起模型性能较大的变化,为减小计算量,采取对数分布进行采样;其它超参数的可选范围较少,选择离散均匀分布以包含尽可能多的参数取值;
III.设置优化算法:
基于步骤I~步骤III,可以得到模型的最优超参数集HP={HP1,HP2,...,HPN},分别对应N个优化模型。
本实施方式中,随机森林模型的超参数有20个左右,根据算法原理,提取出对模型精度影响最大的关键超参数为决策树最大特征数、决策树的数量、决策树的最大深度和叶结点最少样本数4个。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤五对N个渣土改良模型进行预测精度对比,选用精度最高的模型作为最优出渣质量模型;具体过程为:
对不同的地质数据集的N个渣土改良模型进行拟合精度对比,评价指标为模型的决定系数R2和预测误差RMSE;其中决定系数R2表征了因变量的变化有多少可以由自变量解释,R2越大,表示模型的拟合效果越好,R2的计算公式如下:
Figure BDA0002984726950000091
其中,yj表示输出数据的的实际值;
Figure BDA0002984726950000092
表示输出数据的预测值;
Figure BDA0002984726950000093
表示输出数据的平均值;n表示出渣质量数据的个数;j表示第j个出渣质量数据;
预测误差(RMSE>0)表征了因变量预测结果的准确度,RMSE越小,表示模型的预测效果越好,其计算公式为:
Figure BDA0002984726950000094
由于2个评价指标本身的变化趋势不同,且在训练集和测试集上也有很大差异,需要利用综合评价方法选择最优模型。本发明利用优劣解距离法(TOPSIS)计算模型的每个指标与当前最优解的距离,得到综合距离Distance作为衡量模型精度的综合指标;综合距离Distance越小则证明该模型拟合精度越高;
对N个优化模型在数据集上的预测结果进行残差对比,以检验残差的随机性和独立性。对于残差的随机性问题,需要进行正态性检验。将残差标准化后,绘制正态概率分布图(P-P图)。对于残差的独立性问题,需要进行方差齐性检验。对标准化预测值和标准化残差绘制;残差越小,该模型拟合精度越高;
根据以上拟合精度分析结果和残差分析结果,确定最优模型。
其它步骤及参数与具体实施方式一至五之一相同。
实施例
为验证基于GBDT和随机森林混合算法的渣土改良决策模型的预测精度,收集得到广州轨道交通十八号线工程万顷沙站-横沥站区间土压平衡盾构机施工数据,用于建模。数据按环处理后,得到土压平衡盾构机274环施工数据。提取得到共12个地质参数,关键试验结果如下:
(1)基于GDBT的地质参数特征选择试验:
以12个地质参数为输入,3个目标参数(原液流量、混合液流量、空气流量)为输出,利用GBDT算法建立回归模型,调整模型参数以提高精度。确定较好的模型后,输出模型中各地质参数的权重。对该模型重复训练100次,对模型中各地质参数的权重数据取均值,结果如图6-8所示。可得如下结论:
I.对于3个目标参数,地质参数权重的均值(Me)大于中位数(M0),属于右偏分布。在该分布中,P(X>M0)>P(X>Me)。在特征选择中,既要考虑特征尽可能少,又要考虑包含尽可能多有效特征。这里选择中位数(M0)作为提取有效特征的阈值(threshold)。
II.对于3个目标参数,共同满足阈值要求的地质参数为:土层剪切波速、压缩模量和摩擦角,说明上述参数对所有目标参数的建模均有意义,在后续建模时,考虑对这3个参数预设较高的权重。
III.黏粒含量、含水率、湿密度3个地质参数,对于3个目标参数的影响权重均小于阈值,说明上述参数对于决策模型有效性很低,在后续建模时不再考虑。
IV.其余地质参数对目标参数的权重大小不一,有效性一般。在后续建模时,可以作为优化模型、提高模型精度的备选参数。
考虑到工程中,泡沫原液流量、混合液流量、空气流量3个目标参数的重要性均等,没有优先级顺序,因此将上述数据按等权重取均值,得到地质参数的综合权重如图9所示,结论如下:
I.确定了综合权重大于中位数的关键特征为:塑性指数、粉粒含量、土层剪切波速、压缩模量、凝聚力、摩擦角6个。
II.综合以上分析结果,确定了6个关键特征参数和3个备选特征参数的权重分配,如表2所示:
表2渣土地质参数的特征选择结果
Figure BDA0002984726950000101
(2)决策模型建模和基于贝叶斯优化的超参数寻优试验:
I.在模型构建时,根据(1),考虑三种情况。
模型1:以6个关键地质参数为输入参数,赋予权重并建模;
模型2:以9个重要地质参数(6个关键地质参数和3个备用地质参数)为输入参数,分别赋权建模;
模型3:将12个地质参数全部作为输入参数建模。
对上述3个模型分别进行超参数优化,对比模型的精度,确定最优模型。
II.超参数寻优结果
对3个渣土改良决策模型进行超参数寻优,设置最大迭代次数为500次,得到最优模型,模型的关键参数取值如表3所示。可得如下结论:
I.从3个模型的超参数优化结果看,决策树最大特征数和树最大深度2个参数的结果相同,即最大特征数为Auto(指选择全部特征),树最大深度为-1(指决策树完全生长)时,模型的训练效果最佳。
II.从决策树的数量看,随着模型中输入地质参数的增加,最优模型中所需决策树的数量减少。这可能是因为输入参数越多,对训练集数据的学习能力越强,因此随机森林算法最后投票时达到同等精度所需决策树越少。
表3 3个决策模型的超参数优化结果
Figure BDA0002984726950000111
(3)模型精度分析试验:
对对上述3个决策模型进行精度分析,结果如表4所示:
I.从模型在数据集上的拟合效果看,模型2的综合距离指标最小,其在训练集和测试集上决定系数较大,预测误差较小,拟合精度相对最高。
II.模型1在训练集上拟合精度低于模型2和模型3,在测试集上低于模型2,优于模型3,该模型的泛化能力较强,但精度稍低。
III.模型3在训练集上拟合精度最高,但在测试集上最低,说明模型学习了训练集的噪声导致泛化能力下降,存在过拟合现象。
表4 3个模型在数据集上的拟合效果
Figure BDA0002984726950000112
Figure BDA0002984726950000121
对上述三个决策模型进行残差分析,结果如图10-12所示;
从正态概率分布图上看,模型2的标准化残差的累计概率与正态分布曲线的累计概率线拟合效果最好,说明该模型的残差随机性最好。
从方差齐性散点图上看,随着预测值的变化,模型2的残差在0附近平稳波动,其他2个模型有较为明显的下降趋势,说明模型2残差的方差齐性最好,独立性最强。
(4)本模型的预测精度对比验证试验
为对比证明超参数后的随机森林决策模型的优势,利用多种常用的多输出回归算法建立了决策模型,并进行参数调整确定了最佳模型。评价上述模型的性能指标仍选择决定系数(R2)和RMSE。分别选择了多元线性回归算法、决策树回归算法、k近邻回归算法、BP神经网络回归算法和极限树(Extra Tree)回归算法建立决策模型。模型的精度评价结果如表5所示。
表5基于不同智能算法的渣土改良决策模型精度对比
算法类型 R2 RMSE Distance
多元线性回归 0.3864 0.7557 3.2373
决策树回归 0.6833 0.5499 1.9288
k近邻回归 0.5637 0.6433 2.462
BP神经网络 0.5313 0.6653 2.5959
极限树回归 0.3773 0.7648 3.3019
随机森林回归 0.8540 0.1888 0
据此可得如下结论:
I.模型欠拟合:多元线性回归模型和极限树回归模型在训练集(R2)和测试集(RMSE)上表现均不好,说明模型对数据集拟合不好,学习能力较弱。
II.模型过拟合:k近邻回归模型和BPNN模型,在训练集上表现较好,在测试集上表现较差,说明模型学习能力过强,导致泛化能力较低。
III.较为合理的模型:随机森林回归模型和决策树模型在训练集和测试集上表现均很好;前者在R2和RMSE上均优于后者,是最合理的渣土改良决策模型;综合评价指标(Distance)最小,也证明了此结论。

Claims (11)

1.混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,包括:
步骤一、获取施工数据和地质数据,对施工数据和地质数据进行预处理;其中,施工数据包括刀盘转矩、螺旋机压力、螺旋机转矩、螺旋机土压和泡沫剂用量参数;地质数据包括:黏粒含量、孔隙比、塑性指数、液性指数、粉粒含量、压缩系数、土层剪切波速、压缩模量、含水率、凝聚力、湿密度、摩擦角;
步骤二、利用GBDT算法建立回归模型,以地质数据作为回归模型输入,以泡沫剂用量参数作为回归模型输出,计算回归模型权重,作为地质数据的权重,并对地质数据进行特征选择,形成N类地质数据子集Gi,G={G1,G2,...,Gi,...,GN},G表示地质数据集;
步骤三、从预处理后的施工数据中提取刀盘转矩、螺旋机压力、螺旋机转矩以及螺旋机土压作为出渣质量参数,排除强线性相关参数,得到关键出渣质量参数;
步骤四、以地质数据子集Gi和关键出渣质量参数作为输入,以泡沫剂用量参数作为输出,利用随机森林算法建立N个渣土改良模型,并优化模型超参数,得到N个渣土改良模型的最优超参数;
步骤五、对N个渣土改良模型进行预测精度对比,选用精度最高的模型作为最优出渣质量模型;
步骤六、采集地下工作空间中待输出渣土,根据最优出渣质量模型计算出泡沫剂用量,根据泡沫剂用量对渣土进行改良,将改良后的渣土输出地下工作空间。
2.根据权利要求1所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述步骤一获取施工数据和地质数据,对施工数据和地质数据进行预处理;其中,施工数据包括刀盘转矩、螺旋机压力、螺旋机转矩、螺旋机土压和泡沫剂用量参数;地质数据包括:黏粒含量、孔隙比、塑性指数、液性指数、粉粒含量、压缩系数、土层剪切波速、压缩模量、含水率、凝聚力、湿密度、摩擦角;具体过程为:
对于施工数据,将施工数据中存在的缺失值和非数值数据用“0”代替;施工数据中若存在某数据的方差小于0.01,则认为该数据在工程中没有变化,排除此数据;并排除施工数据中非工作状态的无效数据;对处理后的施工数据按环取均值,得到预处理后的施工数据;
对于地质数据,将盾构机每环的地理位置对应到地层剖面图中,测算各环中每种地层占该环比例的均值,作为本环的各地层比例,得到预处理后的地质数据,表示为:
Qn=Pn×M (1)
其中,Pn表示第n环中各地层所占比例;Qn表示第n环中地质数据的实际取值;M表示各地层的地质数据标准取值矩阵。
3.根据权利要求2所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述步骤二中从步骤一中预处理后的地质数据中提取地质数据,利用GBDT算法建立一个回归模型,以地质数据作为回归模型输入,以泡沫剂用量参数作为回归模型输出,计算回归模型权重,作为地质数据的权重,并对地质数据进行特征选择,形成N类地质数据子集Gi,G={G1,G2,...,Gi,...,GN},G表示地质数据集;具体过程为:
设权重集合W中前i个权重之和为Wi,并设定阈值集T={T1,T2,...,Ti,...,TN},地质数据子集Gi通过如下公式计算:
min(Wi)>Ti (2)
获取最少地质数据构成的集合min(Wi),作为地质数据子集Gi
4.根据权利要求2所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述步骤三中从预处理后的施工数据中提取刀盘转矩、螺旋机压力、螺旋机转矩以及螺旋机土压作为出渣质量参数,排除强线性相关参数,得到关键出渣质量参数;具体过程为:
步骤三一、计算出渣质量参数中任两个参数的相关性,得到相关系数p,提取出相关系数p>0.8的参数;
步骤三二、对相关系数p>0.8的参数对的关联关系进行曲线估计,得到关键出渣质量参数。
5.根据权利要求3所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述步骤三二对相关系数p>0.8的参数对的关联关系进行曲线估计,得到关键出渣质量参数;具体过程为:
比较相关系数p>0.8的参数的决定系数R2和检验置信度,当参数的决定系数R2>0.85,且检验置信度大于等于95%时,排除参数对中其一,直至计算完所有相关系数p>0.8的参数对,得到关键出渣质量参数。
6.根据权利要求3或4所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述步骤四中以地质数据子集Gi和关键出渣质量参数作为输入,以泡沫剂用量参数作为输出,利用随机森林算法建立N个渣土改良模型,并优化模型超参数,得到N个渣土改良模型的最优超参数;具体过程为:
对地质数据、关键出渣质量参数以及泡沫剂用量参数进行标准化处理:
Figure FDA0003800627540000031
其中,
Figure FDA0003800627540000032
表示参数i1标准化后的取值;
Figure FDA0003800627540000033
表示参数i1标准化前的取值;
Figure FDA0003800627540000034
表示参数i1的均值;
Figure FDA0003800627540000035
表示参数i1的方差;
以每个地质数据子集Gi和关键出渣质量参数作为输入,建立N个渣土改良模型,对N个渣土改良模型进行超参数优化,得到N个渣土改良模型对应的超参数,构成超参数集合HP={HP1,HP2,...,HPN}。
7.根据权利要求6所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述对N个渣土改良模型进行超参数优化,所用方法为贝叶斯方法。
8.根据权利要求5所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述决定系数R2通过如下公式计算:
Figure FDA0003800627540000036
其中:yj表示输出数据的实际值,
Figure FDA0003800627540000037
表示输出数据的预测值,
Figure FDA0003800627540000038
表示输出数据的平均值,n表示出渣质量数据的个数,j表示第j个出渣质量数据。
9.根据权利要求4所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述每两个关键出渣质量参数的相关性通过Pearson计算。
10.根据权利要求1所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述GBDT算法中,弱分类器个数为100。
11.根据权利要求1所述混合GBDT和随机森林算法的土压平衡盾构机渣土改良方法,其特征在于,所述GBDT算法中,学习率为0.1。
CN202110297054.9A 2021-03-19 2021-03-19 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法 Active CN113011094B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110297054.9A CN113011094B (zh) 2021-03-19 2021-03-19 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110297054.9A CN113011094B (zh) 2021-03-19 2021-03-19 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法

Publications (2)

Publication Number Publication Date
CN113011094A CN113011094A (zh) 2021-06-22
CN113011094B true CN113011094B (zh) 2022-10-04

Family

ID=76403429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110297054.9A Active CN113011094B (zh) 2021-03-19 2021-03-19 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法

Country Status (1)

Country Link
CN (1) CN113011094B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408080B (zh) * 2021-07-26 2022-05-13 中国铁建重工集团股份有限公司 一种土压动态特性建模方法、盾构机控制系统及盾构机
CN113822344B (zh) * 2021-08-30 2024-05-31 龙源(北京)新能源工程技术有限公司 基于数据驱动的风电机组发电机前轴承状态监测方法
CN113868943B (zh) * 2021-09-15 2024-06-25 中铁十九局集团矿业投资有限公司 一种基于数据增强的神经网络的爆破块度预测方法
CN114139381B (zh) * 2021-12-01 2024-07-05 北京交通大学 一种考虑桩土参数不确定性的桩基础损伤普查和评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291500A (zh) * 2020-03-06 2020-06-16 盾构及掘进技术国家重点实验室 一种基于土压平衡盾构机参数数据的反演建模方法
CN111680446A (zh) * 2020-01-11 2020-09-18 哈尔滨理工大学 一种基于改进多粒度级联森林的滚动轴承剩余寿命预测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104453923B (zh) * 2014-10-21 2016-04-06 中南大学 一种以泡沫为添加剂的粘性地层土压平衡盾构渣土改良参数的选取方法
CN107292457A (zh) * 2017-08-03 2017-10-24 哈尔滨工业大学(威海) 适用于小样本预测的消极支持向量机模型
CN109344556B (zh) * 2018-11-30 2023-02-28 中南大学 一种基于现场渣土状态的土压平衡盾构渣土改良参数修正方法
CN111140244B (zh) * 2020-01-02 2021-04-23 中铁工程装备集团有限公司 一种硬岩掘进机支护等级智能推荐方法
CN111881550B (zh) * 2020-06-16 2024-08-20 中建五局土木工程有限公司 基于掘进能量的土压平衡盾构渣土改良效果评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680446A (zh) * 2020-01-11 2020-09-18 哈尔滨理工大学 一种基于改进多粒度级联森林的滚动轴承剩余寿命预测方法
CN111291500A (zh) * 2020-03-06 2020-06-16 盾构及掘进技术国家重点实验室 一种基于土压平衡盾构机参数数据的反演建模方法

Also Published As

Publication number Publication date
CN113011094A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113011094B (zh) 混合gbdt和随机森林算法的土压平衡盾构机渣土改良方法
CN110276827B (zh) 一种基于泥页岩储层的有效性的评价方法
CN109241627A (zh) 概率分级的动态支护方法及自动设计支护方案的装置
CN104657601A (zh) 隧道围岩的安全性分级方法
CN105005712B (zh) 灰岩含水层富水性评价方法
CN113570226A (zh) 断层破碎带隧道突涌水灾害发生概率等级评价方法
Xue et al. Classification model for surrounding rock based on the PCA-ideal point method: an engineering application
CN104200284A (zh) 矿井断层构造预测方法
CN117252236B (zh) 一种基于dbn-lstm-bwoa的隧道爆破振动峰值预测方法、系统、设备及介质
CN109117556B (zh) 一种基于盾构刀盘刀具分区切削性能的盾构推进距离预测方法
CN107942383A (zh) 煤层顶板砂岩富水性等级预测方法
CN112765791A (zh) 一种基于数值样本和随机森林的tbm卡机风险预测方法
CN115438823A (zh) 一种井壁失稳机制分析与预测方法及系统
Bajolvand et al. Optimization of controllable drilling parameters using a novel geomechanics-based workflow
CN114357678A (zh) 一种新型区域地下水位监测网优化设计方法
CN116025324A (zh) 水平井压裂等级智能分段分簇方法
Lin et al. A machine learning method for soil conditioning automated decision-making of EPBM: Hybrid GBDT and Random Forest Algorithm
Miranda et al. Application of Data Mining techniques for the development of new geomechanical characterization models for rock masses
CN112948746A (zh) 一种基于模糊综合评价的复合路基工后沉降预测方法
CN117094222A (zh) 基于神经网络的岩土体物性参数推演物理力学指标方法
Kovacevic et al. The use of neural networks to develop CPT correlations for soils in northern Croatia
CN115526036A (zh) 一种岩爆规模等级的判别方法及系统
CN112064617B (zh) 一种土石混合料地基质量检测方法
CN108898286B (zh) 储层裂缝发育程度的评价方法及装置
Zaki et al. Analysis Ultimate Bearing Capacity on Bored Pile with Using Artificial Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant