CN113486463B

CN113486463B - 基于深度强化学习的盾构最优自主掘进控制方法

Info

Publication number: CN113486463B
Application number: CN202110748572.8A
Authority: CN
Inventors: 贾连辉; 龚国芳; 张亚坤; 郑康泰; 王帅; 周小磊; 郇泉; 詹晨菲; 孙佳椿; 郑永光; 韩冬; 陈玉羲; 周星海; 杨华勇
Original assignee: Zhejiang University ZJU; China Railway Engineering Equipment Group Co Ltd CREG
Current assignee: Zhejiang University ZJU; China Railway Engineering Equipment Group Co Ltd CREG
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-05-02
Anticipated expiration: 2041-07-02
Also published as: CN113486463A

Abstract

本发明提出了基于深度强化学习的盾构最优自主掘进控制方法。深度强化学习决策模块根据观测到的反馈的传感器实测参数，地质前勘测量的参数以及从奖励函数模块反馈的奖励函数值处理获得总推进力期望值和刀盘扭矩期望值；最优控制模块处理输出总推进力实际值和刀盘扭矩实际值；奖励函数模块生成奖励函数值，反馈到通过深度强化学习决策模块；最优控制模块输出的总推进力实际值和刀盘扭矩实际值施加到盾构机上，通过盾构环境交互模块处理获得经过盾构环境交互后的传感器实测参数。本发明减轻盾构司机的工作量，能够实现完全自主控制的基础上提升综合掘进性能，同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化，显著提高综合掘进性能。

Description

基于深度强化学习的盾构最优自主掘进控制方法

技术领域

本发明涉及盾构智能掘进技术领域的一种掘进控制方法，尤其涉及一种基于深度强化学习的盾构最优自主掘进控制方法。

背景技术

开挖掘进是盾构掘进机的核心任务，如何应对复杂地质环境的变化，实现刀盘扭矩、推进力等掘进参数的智能决策、优化盾构掘进性能是盾构掘进操控智能的核心关键问题之一。

盾构掘进相关参数的调控目前依然依赖人类操作员的经验与直觉，遭遇地层变化或复杂地质条件时，难以做出掘进参数和控制策略的及时有效调整，导致类似事故在工程中反复发生。操作人员的决策原则是尽力将当前时刻的掘进速度、贯入度、推力、扭矩、能耗等几个性能参数控制在允许的安全范围内，由于隧道施工周期长、不同司机水平存在差异，很难对人类司机操控的长期效果进行评价。然而对于隧道掘进过程，盾构长期掘进性能远比当前时刻性能要重要，例如某一时间段内的累计能耗、平均掘进速度远比某一时刻的能耗和掘进速度更能反映盾构掘进性能的优劣。由于人-机-环境之间的理解与协作水平受限，人类操作人员很难在选择当前掘进参数时考虑到它们的长期效果，人类操控逐渐成为盾构掘进性能进一步提升的主要瓶颈。

基于灰色系统模型的盾构掘进参数预测方法(专利号：201810179834.1)建立了基于灰色系统理论的掘进参数灰色预测模型，通过输入历史施工数据的取样值得到掘进参数的预测值(包括刀盘扭矩、总推进力、贯入度、刀盘转速和推进速度中的至少一项)。一种基于多项式回归的盾构机掘进参数的预测方法(专利号：201910382960.1)提出了一种盾构机掘进参数的多项式回归预测方法，将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力当做观测数据输入到多项式回归模型中，得到作为预测数据的盾构机推进速度。一种基于深度神经网络的盾构机参数优化方法(专利号：201910382961.6)提出了一种基于深度神经网络的盾构机推进速度预测方法，将盾构机的环号、总功率、刀盘扭矩、刀盘压力、刀盘转速、推进压力、总推进力、泡沫混合液当前累计量、左中土仓压力、左上土仓压力、左下土仓压力、右下土仓压力、右中土仓压力以及当前推进速度作为样本数据，预测数据为盾构机推进速度。一种基于LSTM算法的TBM掘进参数的预测方法(专利号：201911414846.9)提出了一种基于LSTM算法的TBM掘进参数的预测方法，根据上升阶段预测稳定阶段刀盘转速n、推进速度v，为TBM司机提供后续操作参数建议。张社荣(张社荣,方鑫,孙文.基于MIV-BP模型和AIC准则的盾构掘进参数优化研究[J].铁道标准构建,2019(8):95-101.)等将平均影响值(Mean Impact Value)算法引入BP神经网络模型，以刀盘转速、刀盘扭矩、总推力、推进速度等13个参数作为输入，地表沉降量作为输出，从统计角度分析了影响地表沉降量的主要影响因素，在此基础上，基于AIC(AkaikeInformation Criterion，简称AIC)准则对其进行最优分布拟合，提出以50％和90％置信水平下的置信区间，分别作为掘进参数的控制区间和预警区设置的指导值。上海大学胡珉(胡珉,樊杰.基于K-means聚类算法的盾构掘进参数设定方法研究[J].隧道建设,2018,038(011):1772-1777.)等将K-mean聚类算法与经验公式设定方法相结合，提出了盾构掘进参数的相似工况类比设定方法。天津大学路平等基于盾构施工参数现场数据，采用模糊集合理论确定了掘进参数的最优取值范围，用于地表沉降的优化控制。华中科技大学丁保军(丁保军,吴贤国,张立茂,等.基于DBN的盾构隧道施工参数优化方法研究[J].岩石力学与工程学报,2015(S1):631-638.)等采用动态贝叶斯网络建立了由掘进参数计算地表沉降的预测模型，基于该模型进行反向诊断推理，确定各施工参数的最优设定区间。中山大学颜波(颜波,杨国龙,林辉,等.盾构隧道施工参数优化与地表沉降控制研究[J].地下空间与工程学报,2011,007(0z2):1683-1687.)等通过对现场施工数据的整理，给出了密封舱压力、总推力、推进速度、螺旋输送机出土量等参数设置值的经验推荐值。何同继等通过回归方法拟合了推进速度、刀盘转速和土体切削率之间的函数关系，给出了推进速度、刀盘转速的建议值。

大连理工大学Wang(Wang L,Sun W,Long Y,et al.Reliability-basedperformance optimization of tunnel boring machine considering geologicaluncertainties[J].IEEE Access,2018:1-1.)等开发了一种基于可靠性的多学科优化方法，用于硬岩隧道掘进机的滚刀高度、角度等刀盘结构参数和推进速度、刀盘转速、撑靴油缸压力等操作参数的优化。Sun(Sun W,Wang X,Shi M,et al.Multidisciplinary designoptimization of hard rock tunnel boring machine using collaborativeoptimization[J].Advances in Mechanical Engineering,2018,10(1):168781401875472.)等以施工周期最短为目标，采用协作优化架构确定了硬岩隧道掘进机最优刀盘半径、滚刀安装角度、滚刀数量、贯入度、刀盘转速等参数。这些工作为掘进性能的优化提供了良好的思路。目前多数研究采用静态优化(Static Optimization)方法，只能在固定的地质条件下优化即时或当前时刻性能参数，难以应对不断变化的地质条件，也不能用于优化长期掘进性能参数。现有研究对盾构掘进参数智能决策与性能的优化提供了一定的基础，从实现操控智能的角度而言，仍然存在以下不足：

(1)操作参数间的因果关系与耦合作用机理不明。

(2)缺乏综合掘进性能定量评价方法。

(3)缺乏长期掘进性能在线动态优化技术。

发明内容

本发明为了克服现有技术的缺陷和背景技术中提出的问题，提出了一种基于深度强化学习的盾构最优自主掘进控制方法，解决现有技术的不完善以及盾构司机依靠经验设定盾构操作参数值存在的不可避免的误操作、调节不够及时和有效以及缺乏长期掘进性能优化等导致的施工效果不理想以及效率低等问题。

为实现上述目的，本发明采用了以下技术方案：

(1)通过深度强化学习决策模块根据观测到的反馈的第k时刻的刀盘转速实际值n_c,k和推进速度实际值

地质前勘测量的第k时刻的水土压力P_gw,k、粘聚力c_k、摩擦角

以及从奖励函数模块反馈的在第k时刻的奖励函数值r_k处理获得第k时刻总推进力期望值

和刀盘扭矩期望值

(2)最优控制模块接收第k时刻的总推进力期望值

和刀盘扭矩期望值

处理输出第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k；

所述的最优控制模块采用数据驱动直接自动构建与整定(Direct automaticdesignand tuning，以下简称DADT)方法，以实现第k时刻的总推进力实际值F_k和刀盘扭矩实际值T_k的良好跟踪，使得总推进力实际值F_k和刀盘扭矩实际值T_k分别与总推进力期望值

和刀盘扭矩期望值

接近。

(3)通过奖励函数模块接收最优控制模块输出的第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k以及第k时刻的刀盘转速实际值n_c,k和推进速度实际值

处理生成奖励函数值r_k，反馈到通过深度强化学习决策模块；

奖励函数模块是本发明针对盾构掘进过程特殊构建构建。

(4)最优控制模块输出的第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k施加到盾构机上，通过盾构环境交互模块处理获得经过盾构环境交互后的第k时刻的刀盘转速实际值n_c,k及推进速度实际值

所述的盾构环境交互模块具体实施中可以采用神经网络。

所述的深度强化学习决策模块采用深度确定性策略梯度(Deep deterministicpolicygradient，以下简称DDPG)模型，是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络；每个深度神经网络均含有3个连续依次的隐藏层，每个隐藏层包含并列的200个神经元，相邻隐藏层之间的神经元连接，3个隐藏层构成了多层感知器结构。

所述的奖励函数模块中，具体为：

针对盾构掘进过程构建的奖励函数是基于提出的盾构掘进多目标综合性能评价参数。

(3-1)按照以下公式计算获得第k时刻的性能参数J_k，如下式所示：

式中，k₁、k₂分别为第一、第二相对重要性权值常数，

为第k时刻的无量纲掘进比速度，

为第k时刻的无量纲掘进比能耗；

(3-2)通过步骤(3-1)中设置的第k时刻的盾构掘进多目标综合性能评价参数值J_k中加入惩罚项，处理获得以下公式的第k时刻的奖励函数值r_k：

r_k＝J_k+P_sgn,k+P_min,k+P_max,k

其中：

式中，P_sgn,k为符号惩罚项，当

的值有一项为负时，则P_sgn,k为负数，反之则P_sgn,k为零；P_min,k为最小值惩罚项，当

有一项小于各自对应的最小值

时，则P_min,k为负数，反之则为零；P_max,k为最大值惩罚项，当观测值

中有一项大于各自对应的最大值时，则P_max,k为负值，反之则为零；N()表示第一惩罚函数，L()表示第二惩罚函数，即当自变量小于0时，则因变量也小于0，此时会使奖励函数值整体减小，从而起到惩罚的作用。

所述的第k时刻的无量纲掘进比能耗

计算为：

式中，D为盾构刀盘直径，

和

分别为第k时刻的无量纲掘进比速度、刀盘比转速、比扭矩和比推力，

n_max、T_max和F_max分别为推进速度最大值、刀盘转速最大值、刀盘扭矩最大值和总推进力最大值；

表示无量纲掘进比速度的分段函数；

分段函数L(x)计算为：

所述的第一惩罚函数N()计算为：

式中，y表示第一自变量，

或者

或者

所述的第二惩罚函数L()计算为：

式中，x表示第一自变量，

或者

在实际问题中，奖励函数是基于提出的盾构掘进多目标综合性能评价参数，建立作用于盾构-环境交互动态过程的实际刀盘扭矩与总推进力及所得到的观测状态最大值和最小值的约束。

本发明与背景技术相比，具有的有益效果是：

本发明采用深度强化学习技术与最优控制方法，建立了一种盾构最优自主掘进方法，可以减轻盾构司机的工作量，而且在能够实现完全自主控制的基础上提升综合掘进性能，同时实现掘进参数的智能决策与长期综合掘进性能的多目标动态优化，显著提高综合掘进性能。

附图说明

图1是基于深度强化学习的盾构最优自主掘进方法框图。

图2是基于深度强化学习的盾构最优自主掘进系统与盾构司机决策特性的比较结果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明的实施例及其实施情况包括：

地质前勘测量形成的地质数据表中的第k时刻的水土压力P_gw,k、粘聚力c_k、摩擦角

和刀盘扭矩期望值

深度强化学习决策模块采用深度确定性策略梯度(Deep deterministic policygradient，以下简称DDPG)模型，是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络；每个深度神经网络均含有3个连续依次的隐藏层，每个隐藏层包含并列的200个神经元，相邻隐藏层之间的神经元连接，3个隐藏层构成了多层感知器结构。

(2)最优控制模块接收第k时刻的总推进力期望值

和刀盘扭矩期望值

处理输出第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k，并反馈到盾构环境交互模块和奖励函数模块中；

奖励函数模块中，具体为：

式中，k₁、k₂分别为第一、第二相对重要性权值常数，

为第k时刻的无量纲掘进比速度，

为第k时刻的无量纲掘进比能耗；

第k时刻的无量纲掘进比能耗

其物理意义是盾构掘进1m所消耗的比能量，计算为：

式中，D为盾构刀盘直径，

和

表示无量纲掘进比速度的分段函数；

分段函数L(x)计算为：

这样设置了分段函数L(x)将

的最小值限制在10^-5，也防止了分母出现零。

r_k＝J_k+P_sgn,k+P_min,k+P_max,k

其中：

式中，P_sgn,k为符号惩罚项，当

的值有一项为负时，则P_sgn,k为负数，降低奖励值，反之则P_sgn,k为零；P_min,k为最小值惩罚项，当

有一项小于各自对应的最小值

时，则P_min,k为负数，反之则为零；

分别表示第k时刻的比扭矩

和比推力

的最小值；P_max,k为最大值惩罚项，当观测值

中有一项大于各自对应的最大值时，则P_max,k为负值，反之则为零；N及L分别表示第一、第二惩罚函数，即当自变量小于0时，则因变量也小于0，此时会使奖励函数值整体减小，从而起到惩罚的作用。

第一惩罚函数N计算为：

式中，y表示第一自变量，

或者

或者

第二惩罚函数L计算为：

式中，x表示第二自变量，

或者

(4)最优控制模块输出的第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k施加到盾构机上，通过盾构机的盾构环境交互模块处理获得经过盾构环境交互后的第k时刻传感器实测的刀盘转速n_c,k及推进速度

利用施工现场数据，利用基于深度强化学习的盾构最优自主掘进系统与人工操作的性能进行比较的方式来研究所提出的基于深度强化学习的盾构最优自主掘进控制方法的性能。仿真结果如表1及图2所示，从表1中数据可得出，如表1所示，在常规地质下，基于深度强化学习的盾构最优自主掘进系统将综合掘进性能参数平均

提升5.56％，在困难地质下，基于深度强化学习的盾构最优自主掘进系统在降低推进力及驱动扭矩的同时还可将综合掘进性能参数平均

提升63.76％。人工操作输出动作的变化幅度远大于基于深度强化学习的盾构最优自主掘进系统，为了更好地观察它们各自的趋势，图2中前两幅图使用了双Y轴坐标，从图2中可以观察到基于深度强化学习的盾构最优自主掘进系统输出的动作与地质参数之间存在很强的对应关系，而人类司机的动作与地质参数则没有明显的关联，这是基于深度强化学习的盾构最优自主掘进系统的性能能够优于人工操作的一个重要原因。

表1不同地质条件下性能的比较

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于深度强化学习的盾构最优自主掘进控制方法，其特征是，方法包括以下步骤：

地质前勘测量的第k时刻的水土压力P_gw,k、粘聚力c_k、摩擦角

和刀盘扭矩期望值

(2)最优控制模块接收第k时刻的总推进力期望值

和刀盘扭矩期望值

处理输出第k时刻总推进力实际值F_k和刀盘扭矩实际值T_k；

2.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法，其特征是：所述的深度强化学习决策模块采用深度确定性策略梯度Deep deterministicpolicy gradient，以下简称DDPG模型，是采用两个深度神经网络作为DDPG模型中的Actor网络和Critic网络；每个深度神经网络均含有3个连续依次的隐藏层，每个隐藏层包含并列的200个神经元，相邻隐藏层之间的神经元连接，3个隐藏层构成了多层感知器结构。

3.根据权利要求1所述的一种基于深度强化学习的盾构最优自主掘进控制方法，其特征是：所述的奖励函数模块中，具体为：

(3-1)按照以下公式计算获得第k时刻的盾构掘进多目标综合性能评价参数值J_k，如下式所示：