CN113486463B - 基于深度强化学习的盾构最优自主掘进控制方法 - Google Patents
基于深度强化学习的盾构最优自主掘进控制方法 Download PDFInfo
- Publication number
- CN113486463B CN113486463B CN202110748572.8A CN202110748572A CN113486463B CN 113486463 B CN113486463 B CN 113486463B CN 202110748572 A CN202110748572 A CN 202110748572A CN 113486463 B CN113486463 B CN 113486463B
- Authority
- CN
- China
- Prior art keywords
- tunneling
- shield
- value
- actual value
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/17—Mechanical parametric or variational design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Geometry (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Excavating Of Shafts Or Tunnels (AREA)
Abstract
本发明提出了基于深度强化学习的盾构最优自主掘进控制方法。深度强化学习决策模块根据观测到的反馈的传感器实测参数,地质前勘测量的参数以及从奖励函数模块反馈的奖励函数值处理获得总推进力期望值和刀盘扭矩期望值;最优控制模块处理输出总推进力实际值和刀盘扭矩实际值;奖励函数模块生成奖励函数值,反馈到通过深度强化学习决策模块;最优控制模块输出的总推进力实际值和刀盘扭矩实际值施加到盾构机上,通过盾构环境交互模块处理获得经过盾构环境交互后的传感器实测参数。本发明减轻盾构司机的工作量,能够实现完全自主控制的基础上提升综合掘进性能,同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化,显著提高综合掘进性能。
Description
技术领域
本发明涉及盾构智能掘进技术领域的一种掘进控制方法,尤其涉及一种基于深度强化学习的盾构最优自主掘进控制方法。
背景技术
开挖掘进是盾构掘进机的核心任务,如何应对复杂地质环境的变化,实现刀盘扭矩、推进力等掘进参数的智能决策、优化盾构掘进性能是盾构掘进操控智能的核心关键问题之一。
盾构掘进相关参数的调控目前依然依赖人类操作员的经验与直觉,遭遇地层变化或复杂地质条件时,难以做出掘进参数和控制策略的及时有效调整,导致类似事故在工程中反复发生。操作人员的决策原则是尽力将当前时刻的掘进速度、贯入度、推力、扭矩、能耗等几个性能参数控制在允许的安全范围内,由于隧道施工周期长、不同司机水平存在差异,很难对人类司机操控的长期效果进行评价。然而对于隧道掘进过程,盾构长期掘进性能远比当前时刻性能要重要,例如某一时间段内的累计能耗、平均掘进速度远比某一时刻的能耗和掘进速度更能反映盾构掘进性能的优劣。由于人-机-环境之间的理解与协作水平受限,人类操作人员很难在选择当前掘进参数时考虑到它们的长期效果,人类操控逐渐成为盾构掘进性能进一步提升的主要瓶颈。
基于灰色系统模型的盾构掘进参数预测方法(专利号:201810179834.1)建立了基于灰色系统理论的掘进参数灰色预测模型,通过输入历史施工数据的取样值得到掘进参数的预测值(包括刀盘扭矩、总推进力、贯入度、刀盘转速和推进速度中的至少一项)。一种基于多项式回归的盾构机掘进参数的预测方法(专利号:201910382960.1)提出了一种盾构机掘进参数的多项式回归预测方法,将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力当做观测数据输入到多项式回归模型中,得到作为预测数据的盾构机推进速度。一种基于深度神经网络的盾构机参数优化方法(专利号:201910382961.6)提出了一种基于深度神经网络的盾构机推进速度预测方法,将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力以及当前推进速度作为样本数据,预测数据为盾构机推进速度。一种基于LSTM算法的TBM掘进参数的预测方法(专利号:201911414846.9)提出了一种基于LSTM算法的TBM掘进参数的预测方法,根据上升阶段预测稳定阶段刀盘转速n、推进速度v,为TBM司机提供后续操作参数建议。张社荣(张社荣,方鑫,孙文.基于MIV-BP模型和AIC准则的盾构掘进参数优化研究[J].铁道标准构建,2019(8):95-101.)等将平均影响值(Mean Impact Value)算法引入BP神经网络模型,以刀盘转速、刀盘扭矩、总推力、推进速度等13个参数作为输入,地表沉降量作为输出,从统计角度分析了影响地表沉降量的主要影响因素,在此基础上,基于AIC(AkaikeInformation Criterion,简称AIC)准则对其进行最优分布拟合,提出以50%和90%置信水平下的置信区间,分别作为掘进参数的控制区间和预警区设置的指导值。上海大学胡珉(胡珉,樊杰.基于K-means聚类算法的盾构掘进参数设定方法研究[J].隧道建设,2018,038(011):1772-1777.)等将K-mean聚类算法与经验公式设定方法相结合,提出了盾构掘进参数的相似工况类比设定方法。天津大学路平等基于盾构施工参数现场数据,采用模糊集合理论确定了掘进参数的最优取值范围,用于地表沉降的优化控制。华中科技大学丁保军(丁保军,吴贤国,张立茂,等.基于DBN的盾构隧道施工参数优化方法研究[J].岩石力学与工程学报,2015(S1):631-638.)等采用动态贝叶斯网络建立了由掘进参数计算地表沉降的预测模型,基于该模型进行反向诊断推理,确定各施工参数的最优设定区间。中山大学颜波(颜波,杨国龙,林辉,等.盾构隧道施工参数优化与地表沉降控制研究[J].地下空间与工程学报,2011,007(0z2):1683-1687.)等通过对现场施工数据的整理,给出了密封舱压力、总推力、推进速度、螺旋输送机出土量等参数设置值的经验推荐值。何同继等通过回归方法拟合了推进速度、刀盘转速和土体切削率之间的函数关系,给出了推进速度、刀盘转速的建议值。
大连理工大学Wang(Wang L,Sun W,Long Y,et al.Reliability-basedperformance optimization of tunnel boring machine considering geologicaluncertainties[J].IEEE Access,2018:1-1.)等开发了一种基于可靠性的多学科优化方法,用于硬岩隧道掘进机的滚刀高度、角度等刀盘结构参数和推进速度、刀盘转速、撑靴油缸压力等操作参数的优化。Sun(Sun W,Wang X,Shi M,et al.Multidisciplinary designoptimization of hard rock tunnel boring machine using collaborativeoptimization[J].Advances in Mechanical Engineering,2018,10(1):168781401875472.)等以施工周期最短为目标,采用协作优化架构确定了硬岩隧道掘进机最优刀盘半径、滚刀安装角度、滚刀数量、贯入度、刀盘转速等参数。这些工作为掘进性能的优化提供了良好的思路。目前多数研究采用静态优化(Static Optimization)方法,只能在固定的地质条件下优化即时或当前时刻性能参数,难以应对不断变化的地质条件,也不能用于优化长期掘进性能参数。现有研究对盾构掘进参数智能决策与性能的优化提供了一定的基础,从实现操控智能的角度而言,仍然存在以下不足:
(1)操作参数间的因果关系与耦合作用机理不明。
(2)缺乏综合掘进性能定量评价方法。
(3)缺乏长期掘进性能在线动态优化技术。
发明内容
本发明为了克服现有技术的缺陷和背景技术中提出的问题,提出了一种基于深度强化学习的盾构最优自主掘进控制方法,解决现有技术的不完善以及盾构司机依靠经验设定盾构操作参数值存在的不可避免的误操作、调节不够及时和有效以及缺乏长期掘进性能优化等导致的施工效果不理想以及效率低等问题。
为实现上述目的,本发明采用了以下技术方案:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值地质前勘测量的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值和刀盘扭矩期望值
所述的最优控制模块采用数据驱动直接自动构建与整定(Direct automaticdesignand tuning,以下简称DADT)方法,以实现第k时刻的总推进力实际值Fk和刀盘扭矩实际值Tk的良好跟踪,使得总推进力实际值Fk和刀盘扭矩实际值Tk分别与总推进力期望值和刀盘扭矩期望值接近。
奖励函数模块是本发明针对盾构掘进过程特殊构建构建。
所述的盾构环境交互模块具体实施中可以采用神经网络。
所述的深度强化学习决策模块采用深度确定性策略梯度(Deep deterministicpolicygradient,以下简称DDPG)模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
所述的奖励函数模块中,具体为:
针对盾构掘进过程构建的奖励函数是基于提出的盾构掘进多目标综合性能评价参数。
(3-1)按照以下公式计算获得第k时刻的性能参数Jk,如下式所示:
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk:
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
式中,Psgn,k为符号惩罚项,当的值有一项为负时,则Psgn,k为负数,反之则Psgn,k为零;Pmin,k为最小值惩罚项,当有一项小于各自对应的最小值时,则Pmin,k为负数,反之则为零;Pmax,k为最大值惩罚项,当观测值中有一项大于各自对应的最大值时,则Pmax,k为负值,反之则为零;N()表示第一惩罚函数,L()表示第二惩罚函数,即当自变量小于0时,则因变量也小于0,此时会使奖励函数值整体减小,从而起到惩罚的作用。
式中,D为盾构刀盘直径,和分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力,nmax、Tmax和Fmax分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值;表示无量纲掘进比速度的分段函数;
分段函数L(x)计算为:
所述的第一惩罚函数N()计算为:
所述的第二惩罚函数L()计算为:
在实际问题中,奖励函数是基于提出的盾构掘进多目标综合性能评价参数,建立作用于盾构-环境交互动态过程的实际刀盘扭矩与总推进力及所得到的观测状态最大值和最小值的约束。
本发明与背景技术相比,具有的有益效果是:
本发明采用深度强化学习技术与最优控制方法,建立了一种盾构最优自主掘进方法,可以减轻盾构司机的工作量,而且在能够实现完全自主控制的基础上提升综合掘进性能,同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化,显著提高综合掘进性能。
附图说明
图1是基于深度强化学习的盾构最优自主掘进方法框图。
图2是基于深度强化学习的盾构最优自主掘进系统与盾构司机决策特性的比较结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明的实施例及其实施情况包括:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值地质前勘测量形成的地质数据表中的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值和刀盘扭矩期望值
深度强化学习决策模块采用深度确定性策略梯度(Deep deterministic policygradient,以下简称DDPG)模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
奖励函数模块中,具体为:
(3-1)按照以下公式计算获得第k时刻的性能参数Jk,如下式所示:
式中,D为盾构刀盘直径,和分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力,nmax、Tmax和Fmax分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值;表示无量纲掘进比速度的分段函数;
分段函数L(x)计算为:
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk:
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
式中,Psgn,k为符号惩罚项,当的值有一项为负时,则Psgn,k为负数,降低奖励值,反之则Psgn,k为零;Pmin,k为最小值惩罚项,当有一项小于各自对应的最小值时,则Pmin,k为负数,反之则为零;分别表示第k时刻的比扭矩和比推力的最小值;Pmax,k为最大值惩罚项,当观测值中有一项大于各自对应的最大值时,则Pmax,k为负值,反之则为零;N及L分别表示第一、第二惩罚函数,即当自变量小于0时,则因变量也小于0,此时会使奖励函数值整体减小,从而起到惩罚的作用。
第一惩罚函数N计算为:
第二惩罚函数L计算为:
在实际问题中,奖励函数是基于提出的盾构掘进多目标综合性能评价参数,建立作用于盾构-环境交互动态过程的实际刀盘扭矩与总推进力及所得到的观测状态最大值和最小值的约束。
利用施工现场数据,利用基于深度强化学习的盾构最优自主掘进系统与人工操作的性能进行比较的方式来研究所提出的基于深度强化学习的盾构最优自主掘进控制方法的性能。仿真结果如表1及图2所示,从表1中数据可得出,如表1所示,在常规地质下,基于深度强化学习的盾构最优自主掘进系统将综合掘进性能参数平均提升5.56%,在困难地质下,基于深度强化学习的盾构最优自主掘进系统在降低推进力及驱动扭矩的同时还可将综合掘进性能参数平均提升63.76%。人工操作输出动作的变化幅度远大于基于深度强化学习的盾构最优自主掘进系统,为了更好地观察它们各自的趋势,图2中前两幅图使用了双Y轴坐标,从图2中可以观察到基于深度强化学习的盾构最优自主掘进系统输出的动作与地质参数之间存在很强的对应关系,而人类司机的动作与地质参数则没有明显的关联,这是基于深度强化学习的盾构最优自主掘进系统的性能能够优于人工操作的一个重要原因。
表1不同地质条件下性能的比较
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
Claims (6)
1.一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是,方法包括以下步骤:
(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值nc,k和推进速度实际值地质前勘测量的第k时刻的水土压力Pgw,k、粘聚力ck、摩擦角以及从奖励函数模块反馈的在第k时刻的奖励函数值rk处理获得第k时刻总推进力期望值和刀盘扭矩期望值
2.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的深度强化学习决策模块采用深度确定性策略梯度Deep deterministicpolicy gradient,以下简称DDPG模型,是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络;每个深度神经网络均含有3个连续依次的隐藏层,每个隐藏层包含并列的200个神经元,相邻隐藏层之间的神经元连接,3个隐藏层构成了多层感知器结构。
3.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法,其特征是:所述的奖励函数模块中,具体为:
(3-1)按照以下公式计算获得第k时刻的盾构掘进多目标综合性能评价参数值Jk,如下式所示:
(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值Jk中加入惩罚项,处理获得以下公式的第k时刻的奖励函数值rk:
rk=Jk+Psgn,k+Pmin,k+Pmax,k
其中:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748572.8A CN113486463B (zh) | 2021-07-02 | 2021-07-02 | 基于深度强化学习的盾构最优自主掘进控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748572.8A CN113486463B (zh) | 2021-07-02 | 2021-07-02 | 基于深度强化学习的盾构最优自主掘进控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486463A CN113486463A (zh) | 2021-10-08 |
CN113486463B true CN113486463B (zh) | 2023-05-02 |
Family
ID=77940148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110748572.8A Active CN113486463B (zh) | 2021-07-02 | 2021-07-02 | 基于深度强化学习的盾构最优自主掘进控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486463B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114019795B (zh) * | 2021-10-15 | 2023-10-20 | 中铁高新工业股份有限公司 | 一种基于强化学习的盾构掘进纠偏智能决策方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019140794A1 (zh) * | 2018-01-16 | 2019-07-25 | 天津大学 | 一种基于量纲分析的盾构掘进总推力计算方法 |
CN110096827A (zh) * | 2019-05-09 | 2019-08-06 | 中铁工程服务有限公司 | 一种基于深度神经网络的盾构机参数优化方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
JP7061893B2 (ja) * | 2018-02-21 | 2022-05-02 | 清水建設株式会社 | シールド掘削機制御システム及びシールド掘削機制御方法 |
CN110195592B (zh) * | 2019-04-30 | 2021-02-05 | 华中科技大学 | 基于混合深度学习的盾构掘进位姿智能预测方法及系统 |
CN110084322A (zh) * | 2019-05-09 | 2019-08-02 | 中铁工程服务有限公司 | 一种基于神经网络的盾构机掘进参数的预测方法 |
JP7219180B2 (ja) * | 2019-07-12 | 2023-02-07 | 株式会社奥村組 | シールド掘進工法における掘進予測モデルの作成方法 |
CN111144635B (zh) * | 2019-12-20 | 2022-07-12 | 山东大学 | 基于深度学习的tbm操作参数决策方法及系统 |
-
2021
- 2021-07-02 CN CN202110748572.8A patent/CN113486463B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019140794A1 (zh) * | 2018-01-16 | 2019-07-25 | 天津大学 | 一种基于量纲分析的盾构掘进总推力计算方法 |
CN110096827A (zh) * | 2019-05-09 | 2019-08-06 | 中铁工程服务有限公司 | 一种基于深度神经网络的盾构机参数优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113486463A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Optimal earth pressure balance control for shield tunneling based on LS-SVM and PSO | |
CN109630154B (zh) | 一种用于隧道掘进的掘进机器人及远程移动终端指挥系统 | |
CN103870677B (zh) | 一种掘进机的掘进参数设定方法 | |
CN103362507B (zh) | 一种提高采煤机记忆截割执行精度的方法 | |
KR102211421B1 (ko) | 터널 굴진면의 전방 지질 상태 예측에 기반한 tbm 제어 파라미터 결정 방법 및 시스템 | |
CN106545327B (zh) | 智能司钻钻机控制系统 | |
CN110096827B (zh) | 一种基于深度神经网络的盾构机参数优化方法 | |
CN113486463B (zh) | 基于深度强化学习的盾构最优自主掘进控制方法 | |
CN101210495A (zh) | 全断面大型掘进装备的动态协调控制系统 | |
Wang et al. | Prediction of axis attitude deviation and deviation correction method based on data driven during shield tunneling | |
CN105045091B (zh) | 基于模糊神经控制系统的疏浚工艺智能决策分析方法 | |
Zhang et al. | A new index for cutter life evaluation and ensemble model for prediction of cutter wear | |
CN110185463A (zh) | 一种盾构掘进姿态的控制方法 | |
CN104790948B (zh) | 一种采煤机滚筒自动调高的控制方法 | |
CN110084322A (zh) | 一种基于神经网络的盾构机掘进参数的预测方法 | |
Kirmanli et al. | An expert system for hydraulic excavator and truck selection in surface mining | |
CN115773127A (zh) | 一种泥水平衡盾构智能决策方法、系统、设备及介质 | |
CN113935546A (zh) | 一种基于rf-pso的泥水平衡式盾构掘进参数优化方法 | |
Qin et al. | An adaptive operating parameters decision-making method for shield machine considering geological environment | |
CN115841170A (zh) | 一种煤与瓦斯共采作业协调状态实时判识与动态调控方法 | |
Wang et al. | Multiparameter control strategy and method for cutting arm of roadheader | |
Feng et al. | Shield construction multiobjective optimization of surface settlement safety control based on machine learning | |
Chernyi | The problems of automation technological process of drilling oil and gas wells | |
CN110847272B (zh) | 一种绞吸挖泥船智能疏浚控制方法 | |
CN115456376A (zh) | 一种基于迁移学习的盾构机土仓压力实时预测调整方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |