CN113486463B - 基于深度强化学习的盾构最优自主掘进控制方法 - Google Patents

基于深度强化学习的盾构最优自主掘进控制方法 Download PDF

Info

Publication number
CN113486463B
CN113486463B CN202110748572.8A CN202110748572A CN113486463B CN 113486463 B CN113486463 B CN 113486463B CN 202110748572 A CN202110748572 A CN 202110748572A CN 113486463 B CN113486463 B CN 113486463B
Authority
CN
China
Prior art keywords
tunneling
shield
value
actual value
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110748572.8A
Other languages
English (en)
Other versions
CN113486463A (zh
Inventor
贾连辉
龚国芳
张亚坤
郑康泰
王帅
周小磊
郇泉
詹晨菲
孙佳椿
郑永光
韩冬
陈玉羲
周星海
杨华勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
China Railway Engineering Equipment Group Co Ltd CREG
Original Assignee
Zhejiang University ZJU
China Railway Engineering Equipment Group Co Ltd CREG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, China Railway Engineering Equipment Group Co Ltd CREG filed Critical Zhejiang University ZJU
Priority to CN202110748572.8A priority Critical patent/CN113486463B/zh
Publication of CN113486463A publication Critical patent/CN113486463A/zh
Application granted granted Critical
Publication of CN113486463B publication Critical patent/CN113486463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/17Mechanical parametric or variational design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Excavating Of Shafts Or Tunnels (AREA)

Abstract

本发明提出了基于深度强化学习的盾构最优自主掘进控制方法。深度强化学习决策模块根据观测到的反馈的传感器实测参数,地质前勘测量的参数以及从奖励函数模块反馈的奖励函数值处理获得总推进力期望值和刀盘扭矩期望值;最优控制模块处理输出总推进力实际值和刀盘扭矩实际值;奖励函数模块生成奖励函数值,反馈到通过深度强化学习决策模块;最优控制模块输出的总推进力实际值和刀盘扭矩实际值施加到盾构机上,通过盾构环境交互模块处理获得经过盾构环境交互后的传感器实测参数。本发明减轻盾构司机的工作量,能够实现完全自主控制的基础上提升综合掘进性能,同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化,显著提高综合掘进性能。

Description

基于深度强化学习的盾构最优自主掘进控制方法
技术领域
本发明涉及盾构智能掘进技术领域的一种掘进控制方法,尤其涉及一种基于深度强化学习的盾构最优自主掘进控制方法。
背景技术
开挖掘进是盾构掘进机的核心任务,如何应对复杂地质环境的变化,实现刀盘扭矩、推进力等掘进参数的智能决策、优化盾构掘进性能是盾构掘进操控智能的核心关键问题之一。
盾构掘进相关参数的调控目前依然依赖人类操作员的经验与直觉,遭遇地层变化或复杂地质条件时,难以做出掘进参数和控制策略的及时有效调整,导致类似事故在工程中反复发生。操作人员的决策原则是尽力将当前时刻的掘进速度、贯入度、推力、扭矩、能耗等几个性能参数控制在允许的安全范围内,由于隧道施工周期长、不同司机水平存在差异,很难对人类司机操控的长期效果进行评价。然而对于隧道掘进过程,盾构长期掘进性能远比当前时刻性能要重要,例如某一时间段内的累计能耗、平均掘进速度远比某一时刻的能耗和掘进速度更能反映盾构掘进性能的优劣。由于人-机-环境之间的理解与协作水平受限,人类操作人员很难在选择当前掘进参数时考虑到它们的长期效果,人类操控逐渐成为盾构掘进性能进一步提升的主要瓶颈。
基于灰色系统模型的盾构掘进参数预测方法(专利号:201810179834.1)建立了基于灰色系统理论的掘进参数灰色预测模型,通过输入历史施工数据的取样值得到掘进参数的预测值(包括刀盘扭矩、总推进力、贯入度、刀盘转速和推进速度中的至少一项)。一种基于多项式回归的盾构机掘进参数的预测方法(专利号:201910382960.1)提出了一种盾构机掘进参数的多项式回归预测方法,将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力当做观测数据输入到多项式回归模型中,得到作为预测数据的盾构机推进速度。一种基于深度神经网络的盾构机参数优化方法(专利号:201910382961.6)提出了一种基于深度神经网络的盾构机推进速度预测方法,将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力以及当前推进速度作为样本数据,预测数据为盾构机推进速度。一种基于LSTM算法的TBM掘进参数的预测方法(专利号:201911414846.9)提出了一种基于LSTM算法的TBM掘进参数的预测方法,根据上升阶段预测稳定阶段刀盘转速n、推进速度v,为TBM司机提供后续操作参数建议。张社荣(张社荣,方鑫,孙文.基于MIV-BP模型和AIC准则的盾构掘进参数优化研究[J].铁道标准构建,2019(8):95-101.)等将平均影响值(Mean Impact Value)算法引入BP神经网络模型,以刀盘转速、刀盘扭矩、总推力、推进速度等13个参数作为输入,地表沉降量作为输出,从统计角度分析了影响地表沉降量的主要影响因素,在此基础上,基于AIC(AkaikeInformation Criterion,简称AIC)准则对其进行最优分布拟合,提出以50%和90%置信水平下的置信区间,分别作为掘进参数的控制区间和预警区设置的指导值。上海大学胡珉(胡珉,樊杰.基于K-means聚类算法的盾构掘进参数设定方法研究[J].隧道建设,2018,038(011):1772-1777.)等将K-mean聚类算法与经验公式设定方法相结合,提出了盾构掘进参数的相似工况类比设定方法。天津大学路平等基于盾构施工参数现场数据,采用模糊集合理论确定了掘进参数的最优取值范围,用于地表沉降的优化控制。华中科技大学丁保军(丁保军,吴贤国,张立茂,等.基于DBN的盾构隧道施工参数优化方法研究[J].岩石力学与工程学报,2015(S1):631-638.)等采用动态贝叶斯网络建立了由掘进参数计算地表沉降的预测模型,基于该模型进行反向诊断推理,确定各施工参数的最优设定区间。中山大学颜波(颜波,杨国龙,林辉,等.盾构隧道施工参数优化与地表沉降控制研究[J].地下空间与工程学报,2011,007(0z2):1683-1687.)等通过对现场施工数据的整理,给出了密封舱压力、总推力、推进速度、螺旋输送机出土量等参数设置值的经验推荐值。何同继等通过回归方法拟合了推进速度、刀盘转速和土体切削率之间的函数关系,给出了推进速度、刀盘转速的建议值。
大连理工大学Wang(Wang L,Sun W,Long Y,et al.Reliability-basedperformance optimization of tunnel boring machine considering geologicaluncertainties[J].IEEE Access,2018:1-1.)等开发了一种基于可靠性的多学科优化方法,用于硬岩隧道掘进机的滚刀高度、角度等刀盘结构参数和推进速度、刀盘转速、撑靴油缸压力等操作参数的优化。Sun(Sun W,Wang X,Shi M,et al.Multidisciplinary designoptimization of hard rock tunnel boring machine using collaborativeoptimization[J].Advances in Mechanical Engineering,2018,10(1):168781401875472.)等以施工周期最短为目标,采用协作优化架构确定了硬岩隧道掘进机最优刀盘半径、滚刀安装角度、滚刀数量、贯入度、刀盘转速等参数。这些工作为掘进性能的优化提供了良好的思路。目前多数研究采用静态优化(Static Optimization)方法,只能在固定的地质条件下优化即时或当前时刻性能参数,难以应对不断变化的地质条件,也不能用于优化长期掘进性能参数。现有研究对盾构掘进参数智能决策与性能的优化提供了一定的基础,从实现操控智能的角度而言,仍然存在以下不足:
(1)操作参数间的因果关系与耦合作用机理不明。
(2)缺乏综合掘进性能定量评价方法。
(3)缺乏长期掘进性能在线动态优化技术。
发明内容
本发明为了克服现有技术的缺陷和背景技术中提出的问题,提出了一种基于深度强化学习的盾构最优自主掘进控制方法,解决现有技术的不完善以及盾构司机依靠经验设定盾构操作参数值存在的不可避免的误操作、调节不够及时和有效以及缺乏长期掘进性能优化等导致的施工效果不理想以及效率低等问题。
为实现上述目的,本发明采用了以下技术方案:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure GDA0003921268480000031
地质前勘测量的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角
Figure GDA0003921268480000032
以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值
Figure GDA0003921268480000033
和刀盘扭矩期望值
Figure GDA0003921268480000034
(2)最优控制模块接收第k时刻的总推进力期望值
Figure GDA0003921268480000035
和刀盘扭矩期望值
Figure GDA0003921268480000036
处理输出第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk
所述的最优控制模块采用数据驱动直接自动构建与整定(Direct automaticdesignand tuning,以下简称DADT)方法,以实现第k时刻的总推进力实际值Fk和刀盘扭矩实际值Tk的良好跟踪,使得总推进力实际值Fk和刀盘扭矩实际值Tk分别与总推进力期望值
Figure GDA0003921268480000037
和刀盘扭矩期望值
Figure GDA0003921268480000038
接近。
(3)通过奖励函数模块接收最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk以及第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure GDA0003921268480000039
处理生成奖励函数值rk,反馈到通过深度强化学习决策模块;
奖励函数模块是本发明针对盾构掘进过程特殊构建构建。
(4)最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk施加到盾构机上,通过盾构环境交互模块处理获得经过盾构环境交互后的第k时刻的刀盘转速实际值nc,k及推进速度实际值
Figure GDA00039212684800000310
所述的盾构环境交互模块具体实施中可以采用神经网络。
所述的深度强化学习决策模块采用深度确定性策略梯度(Deep deterministicpolicygradient,以下简称DDPG)模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
所述的奖励函数模块中,具体为:
针对盾构掘进过程构建的奖励函数是基于提出的盾构掘进多目标综合性能评价参数。
(3-1)按照以下公式计算获得第k时刻的性能参数Jk,如下式所示:
Figure GDA0003921268480000041
式中,k1、k2分别为第一、第二相对重要性权值常数,
Figure GDA0003921268480000042
为第k时刻的无量纲掘进比速度,
Figure GDA0003921268480000043
为第k时刻的无量纲掘进比能耗;
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
Figure GDA0003921268480000044
Figure GDA0003921268480000045
Figure GDA0003921268480000046
式中,Psgn,k为符号惩罚项,当
Figure GDA0003921268480000047
的值有一项为负时,则Psgn,k为负数,反之则Psgn,k为零;Pmin,k为最小值惩罚项,当
Figure GDA0003921268480000048
有一项小于各自对应的最小值
Figure GDA0003921268480000049
时,则Pmin,k为负数,反之则为零;Pmax,k为最大值惩罚项,当观测值
Figure GDA00039212684800000410
中有一项大于各自对应的最大值时,则Pmax,k为负值,反之则为零;N()表示第一惩罚函数,L()表示第二惩罚函数,即当自变量小于0时,则因变量也小于0,此时会使奖励函数值整体减小,从而起到惩罚的作用。
所述的第k时刻的无量纲掘进比能耗
Figure GDA00039212684800000411
计算为:
Figure GDA00039212684800000412
Figure GDA00039212684800000413
Figure GDA00039212684800000414
Figure GDA00039212684800000415
Figure GDA0003921268480000051
式中,D为盾构刀盘直径,
Figure GDA0003921268480000052
Figure GDA0003921268480000053
分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力,
Figure GDA0003921268480000054
nmax、Tmax和Fmax分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值;
Figure GDA0003921268480000055
表示无量纲掘进比速度的分段函数;
分段函数L(x)计算为:
Figure GDA0003921268480000056
所述的第一惩罚函数N()计算为:
Figure GDA0003921268480000057
式中,y表示第一自变量,
Figure GDA0003921268480000058
或者
Figure GDA0003921268480000059
或者
Figure GDA00039212684800000510
所述的第二惩罚函数L()计算为:
Figure GDA00039212684800000511
式中,x表示第一自变量,
Figure GDA00039212684800000512
或者
Figure GDA00039212684800000513
在实际问题中,奖励函数是基于提出的盾构掘进多目标综合性能评价参数,建立作用于盾构-环境交互动态过程的实际刀盘扭矩与总推进力及所得到的观测状态最大值和最小值的约束。
本发明与背景技术相比,具有的有益效果是:
本发明采用深度强化学习技术与最优控制方法,建立了一种盾构最优自主掘进方法,可以减轻盾构司机的工作量,而且在能够实现完全自主控制的基础上提升综合掘进性能,同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化,显著提高综合掘进性能。
附图说明
图1是基于深度强化学习的盾构最优自主掘进方法框图。
图2是基于深度强化学习的盾构最优自主掘进系统与盾构司机决策特性的比较结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明的实施例及其实施情况包括:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure GDA0003921268480000061
地质前勘测量形成的地质数据表中的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角
Figure GDA0003921268480000062
以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值
Figure GDA0003921268480000063
和刀盘扭矩期望值
Figure GDA0003921268480000064
深度强化学习决策模块采用深度确定性策略梯度(Deep deterministic policygradient,以下简称DDPG)模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
(2)最优控制模块接收第k时刻的总推进力期望值
Figure GDA0003921268480000065
和刀盘扭矩期望值
Figure GDA0003921268480000066
处理输出第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk,并反馈到盾构环境交互模块和奖励函数模块中;
(3)通过奖励函数模块接收最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk以及第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure GDA0003921268480000067
处理生成奖励函数值rk,反馈到通过深度强化学习决策模块;
奖励函数模块中,具体为:
(3-1)按照以下公式计算获得第k时刻的性能参数Jk,如下式所示:
Figure GDA0003921268480000068
式中,k1、k2分别为第一、第二相对重要性权值常数,
Figure GDA0003921268480000069
为第k时刻的无量纲掘进比速度,
Figure GDA00039212684800000610
为第k时刻的无量纲掘进比能耗;
第k时刻的无量纲掘进比能耗
Figure GDA00039212684800000611
其物理意义是盾构掘进1m所消耗的比能量,计算为:
Figure GDA00039212684800000612
Figure GDA00039212684800000613
Figure GDA00039212684800000614
Figure GDA00039212684800000615
Figure GDA00039212684800000616
式中,D为盾构刀盘直径,
Figure GDA00039212684800000617
Figure GDA00039212684800000618
分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力,
Figure GDA00039212684800000619
nmax、Tmax和Fmax分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值;
Figure GDA0003921268480000071
表示无量纲掘进比速度的分段函数;
分段函数L(x)计算为:
Figure GDA0003921268480000072
这样设置了分段函数L(x)将
Figure GDA0003921268480000073
的最小值限制在10-5,也防止了分母出现零。
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
Figure GDA0003921268480000074
Figure GDA0003921268480000075
Figure GDA0003921268480000076
式中,Psgn,k为符号惩罚项,当
Figure GDA0003921268480000077
的值有一项为负时,则Psgn,k为负数,降低奖励值,反之则Psgn,k为零;Pmin,k为最小值惩罚项,当
Figure GDA0003921268480000078
有一项小于各自对应的最小值
Figure GDA0003921268480000079
时,则Pmin,k为负数,反之则为零;
Figure GDA00039212684800000710
分别表示第k时刻的比扭矩
Figure GDA00039212684800000711
和比推力
Figure GDA00039212684800000712
的最小值;Pmax,k为最大值惩罚项,当观测值
Figure GDA00039212684800000713
中有一项大于各自对应的最大值时,则Pmax,k为负值,反之则为零;N及L分别表示第一、第二惩罚函数,即当自变量小于0时,则因变量也小于0,此时会使奖励函数值整体减小,从而起到惩罚的作用。
第一惩罚函数N计算为:
Figure GDA00039212684800000714
式中,y表示第一自变量,
Figure GDA00039212684800000715
或者
Figure GDA00039212684800000716
或者
Figure GDA00039212684800000717
第二惩罚函数L计算为:
Figure GDA00039212684800000718
式中,x表示第二自变量,
Figure GDA00039212684800000719
或者
Figure GDA00039212684800000720
在实际问题中,奖励函数是基于提出的盾构掘进多目标综合性能评价参数,建立作用于盾构-环境交互动态过程的实际刀盘扭矩与总推进力及所得到的观测状态最大值和最小值的约束。
(4)最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk施加到盾构机上,通过盾构机的盾构环境交互模块处理获得经过盾构环境交互后的第k时刻传感器实测的刀盘转速nc,k及推进速度
Figure GDA0003921268480000081
利用施工现场数据,利用基于深度强化学习的盾构最优自主掘进系统与人工操作的性能进行比较的方式来研究所提出的基于深度强化学习的盾构最优自主掘进控制方法的性能。仿真结果如表1及图2所示,从表1中数据可得出,如表1所示,在常规地质下,基于深度强化学习的盾构最优自主掘进系统将综合掘进性能参数平均
Figure GDA0003921268480000082
提升5.56%,在困难地质下,基于深度强化学习的盾构最优自主掘进系统在降低推进力及驱动扭矩的同时还可将综合掘进性能参数平均
Figure GDA0003921268480000083
提升63.76%。人工操作输出动作的变化幅度远大于基于深度强化学习的盾构最优自主掘进系统,为了更好地观察它们各自的趋势,图2中前两幅图使用了双Y轴坐标,从图2中可以观察到基于深度强化学习的盾构最优自主掘进系统输出的动作与地质参数之间存在很强的对应关系,而人类司机的动作与地质参数则没有明显的关联,这是基于深度强化学习的盾构最优自主掘进系统的性能能够优于人工操作的一个重要原因。
表1不同地质条件下性能的比较
Figure GDA0003921268480000084
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (6)

1.一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是,方法包括以下步骤:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure FDA0003921268470000011
地质前勘测量的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角
Figure FDA0003921268470000012
以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值
Figure FDA0003921268470000013
和刀盘扭矩期望值
Figure FDA0003921268470000014
(2)最优控制模块接收第k时刻的总推进力期望值
Figure FDA0003921268470000015
和刀盘扭矩期望值
Figure FDA0003921268470000016
处理输出第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk
(3)通过奖励函数模块接收最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk以及第k时刻的刀盘转速实际值nc,k和推进速度实际值
Figure FDA0003921268470000017
处理生成奖励函数值rk,反馈到通过深度强化学习决策模块;
(4)最优控制模块输出的第k时刻总推进力实际值Fk和刀盘扭矩实际值Tk施加到盾构机上,通过盾构环境交互模块处理获得经过盾构环境交互后的第k时刻的刀盘转速实际值nc,k及推进速度实际值
Figure FDA0003921268470000018
2.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的深度强化学习决策模块采用深度确定性策略梯度Deep deterministicpolicy gradient,以下简称DDPG模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
3.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的奖励函数模块中,具体为:
(3-1)按照以下公式计算获得第k时刻的盾构掘进多目标综合性能评价参数值Jk,如下式所示:
Figure FDA0003921268470000019
式中,k1、k2分别为第一、第二相对重要性权值常数,
Figure FDA00039212684700000110
为第k时刻的无量纲掘进比速度,
Figure FDA00039212684700000111
为第k时刻的无量纲掘进比能耗;
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
Figure FDA0003921268470000021
Figure FDA0003921268470000022
Figure FDA0003921268470000023
式中,Psgn,k为符号惩罚项,当
Figure FDA0003921268470000024
的值有一项为负时,则Psgn,k为负数,反之则Psgn,k为零;Pmin,k为最小值惩罚项,当
Figure FDA0003921268470000025
有一项小于各自对应的最小值
Figure FDA0003921268470000026
时,则Pmin,k为负数,反之则为零;Pmax,k为最大值惩罚项,当观测值
Figure FDA0003921268470000027
中有一项大于各自对应的最大值时,则Pmax,k为负值,反之则为零;N()表示第一惩罚函数,L()表示第二惩罚函数;
Figure FDA0003921268470000028
Figure FDA0003921268470000029
分别为第k时刻的刀盘比转速、比扭矩和比推力。
4.根据权利要求3所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的第k时刻的无量纲掘进比能耗
Figure FDA00039212684700000210
计算为:
Figure FDA00039212684700000211
Figure FDA00039212684700000212
Figure FDA00039212684700000213
Figure FDA00039212684700000214
Figure FDA00039212684700000215
式中,D为盾构刀盘直径,
Figure FDA00039212684700000216
Figure FDA00039212684700000217
分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力,
Figure FDA00039212684700000218
nmax、Tmax和Fmax分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值;
Figure FDA00039212684700000219
表示无量纲掘进比速度的分段函数;
分段函数L(x)计算为:
Figure FDA00039212684700000220
5.根据权利要求3所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的第一惩罚函数N()计算为:
Figure FDA00039212684700000221
式中,y表示第一自变量,
Figure FDA0003921268470000031
或者
Figure FDA0003921268470000032
或者
Figure FDA0003921268470000033
6.根据权利要求3所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的第二惩罚函数L()计算为:
Figure FDA0003921268470000034
式中,x表示第一自变量,
Figure FDA0003921268470000035
或者
Figure FDA0003921268470000036
CN202110748572.8A 2021-07-02 2021-07-02 基于深度强化学习的盾构最优自主掘进控制方法 Active CN113486463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748572.8A CN113486463B (zh) 2021-07-02 2021-07-02 基于深度强化学习的盾构最优自主掘进控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748572.8A CN113486463B (zh) 2021-07-02 2021-07-02 基于深度强化学习的盾构最优自主掘进控制方法

Publications (2)

Publication Number Publication Date
CN113486463A CN113486463A (zh) 2021-10-08
CN113486463B true CN113486463B (zh) 2023-05-02

Family

ID=77940148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748572.8A Active CN113486463B (zh) 2021-07-02 2021-07-02 基于深度强化学习的盾构最优自主掘进控制方法

Country Status (1)

Country Link
CN (1) CN113486463B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114019795B (zh) * 2021-10-15 2023-10-20 中铁高新工业股份有限公司 一种基于强化学习的盾构掘进纠偏智能决策方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019140794A1 (zh) * 2018-01-16 2019-07-25 天津大学 一种基于量纲分析的盾构掘进总推力计算方法
CN110096827A (zh) * 2019-05-09 2019-08-06 中铁工程服务有限公司 一种基于深度神经网络的盾构机参数优化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
JP7061893B2 (ja) * 2018-02-21 2022-05-02 清水建設株式会社 シールド掘削機制御システム及びシールド掘削機制御方法
CN110195592B (zh) * 2019-04-30 2021-02-05 华中科技大学 基于混合深度学习的盾构掘进位姿智能预测方法及系统
CN110084322A (zh) * 2019-05-09 2019-08-02 中铁工程服务有限公司 一种基于神经网络的盾构机掘进参数的预测方法
JP7219180B2 (ja) * 2019-07-12 2023-02-07 株式会社奥村組 シールド掘進工法における掘進予測モデルの作成方法
CN111144635B (zh) * 2019-12-20 2022-07-12 山东大学 基于深度学习的tbm操作参数决策方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019140794A1 (zh) * 2018-01-16 2019-07-25 天津大学 一种基于量纲分析的盾构掘进总推力计算方法
CN110096827A (zh) * 2019-05-09 2019-08-06 中铁工程服务有限公司 一种基于深度神经网络的盾构机参数优化方法

Also Published As

Publication number Publication date
CN113486463A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Liu et al. Optimal earth pressure balance control for shield tunneling based on LS-SVM and PSO
CN109630154B (zh) 一种用于隧道掘进的掘进机器人及远程移动终端指挥系统
CN103870677B (zh) 一种掘进机的掘进参数设定方法
CN103362507B (zh) 一种提高采煤机记忆截割执行精度的方法
KR102211421B1 (ko) 터널 굴진면의 전방 지질 상태 예측에 기반한 tbm 제어 파라미터 결정 방법 및 시스템
CN106545327B (zh) 智能司钻钻机控制系统
CN110096827B (zh) 一种基于深度神经网络的盾构机参数优化方法
CN113486463B (zh) 基于深度强化学习的盾构最优自主掘进控制方法
CN101210495A (zh) 全断面大型掘进装备的动态协调控制系统
Wang et al. Prediction of axis attitude deviation and deviation correction method based on data driven during shield tunneling
CN105045091B (zh) 基于模糊神经控制系统的疏浚工艺智能决策分析方法
Zhang et al. A new index for cutter life evaluation and ensemble model for prediction of cutter wear
CN110185463A (zh) 一种盾构掘进姿态的控制方法
CN104790948B (zh) 一种采煤机滚筒自动调高的控制方法
CN110084322A (zh) 一种基于神经网络的盾构机掘进参数的预测方法
Kirmanli et al. An expert system for hydraulic excavator and truck selection in surface mining
CN115773127A (zh) 一种泥水平衡盾构智能决策方法、系统、设备及介质
CN113935546A (zh) 一种基于rf-pso的泥水平衡式盾构掘进参数优化方法
Qin et al. An adaptive operating parameters decision-making method for shield machine considering geological environment
CN115841170A (zh) 一种煤与瓦斯共采作业协调状态实时判识与动态调控方法
Wang et al. Multiparameter control strategy and method for cutting arm of roadheader
Feng et al. Shield construction multiobjective optimization of surface settlement safety control based on machine learning
Chernyi The problems of automation technological process of drilling oil and gas wells
CN110847272B (zh) 一种绞吸挖泥船智能疏浚控制方法
CN115456376A (zh) 一种基于迁移学习的盾构机土仓压力实时预测调整方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant