CN113191055A

CN113191055A - 一种基于深度强化网络的大坝材料性能参数反演方法

Info

Publication number: CN113191055A
Application number: CN202110490385.4A
Authority: CN
Inventors: 齐慧君; 刘晓青; 李同春; 季威; 高林钢; 林潮宁; 戴永琪; 徐俊豪
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-30
Anticipated expiration: 2041-05-06
Also published as: CN113191055B

Abstract

本发明公开了一种基于深度强化网络的大坝材料性能参数反演方法，包括以下步骤：步骤一，建立大坝的离散有限元模型，输入与大坝变形相关的参数；步骤二，根据不同的所述参数构造计算样本；步骤三，选取合适的深度学习网络，并利用所述计算样本对深度学习网络进行训练；步骤四，将步骤三中训练完毕的深度学习网络嵌入强化学习框架，形成代理模型；步骤五，导入大坝实测数据，构造目标样本；步骤六，率定初始材料参数，使用所述代理模型测试目标样本；步骤七，根据测试结果选择合适的动作调整材料参数；步骤八，根据调整后的材料参数，随机提取目标样本进行测试；步骤九，重复步骤七、步骤八，直至测试结果达到反演的预期目标。

Description

一种基于深度强化网络的大坝材料性能参数反演方法

技术领域

本发明属于工程非线性参数识别问题数值计算领域，具体涉及一种基于深度强化网络的大坝材料性能参数反演方法。

背景技术

水利工程建筑物完建以后，安全监控是其运维期的首要任务。世界范围内因监控方式不全面及分析手段不到位等原因，致使溃坝事件时有发生，如2020年5月美国密歇根州发生Edenvilled大坝溃决，泄露洪流连续冲垮下游Smallwood和Sanfor两座大坝，给周围城市造成严重损害。

水利工程失事主要出现在坝体溃决以及地基或者坝肩滑动两个方面。混凝土坝在长期运行过程中受到环境因素作用，在微观方面坝体材料与地基材料参数出现物理化学反应，导致其力学参数缓慢变化着，造成譬如结构位移加大、渗流量上升之类的宏观响应，因此坝体以及地基变形和混凝土渗流是重点监控目标。其中变形监测分为正向分析和反演分析两个方面。正向分析主要是通过建立回归模型用于映射环境监测数据和位移监测数据之间的线性或者非线性关系，预测工程及周围环境的短期未来发展状态。反演分析的目标是通过对工程运行的结构状态数据以及环境变化数据计算，得出有关构件以及地基材料参数，进而进行强度校核以及稳定性校核，根据相关安全监控指标评判工程的安全状态。因为实际工程本构均为复杂非线性响应关系，采用常规数学手段难以直接进行精确求解。启发式算法通过引入将目标函数取最值的方式，对参数空间进行寻优计算，因而群体智能算法成为主流方式，例如粒子群算法以及遗传算法较早用于结构参数寻优。

现今采用的位移反演方法都是基于有限元方法：在不同的材料参数组合状态下，根据不同环境状态通过有限元模型计算出目标节点的变形值与位移值，导致计算量呈指数型增长，在工程实际应用可行性较低。众多启发式算法虽然在可行域内提供了全局搜索的可能性，但是因为其本质均是对参数空间进行取样后的比较计算，所以在多维度的连续参数空间中无法保证全局最优，而且计算量的限制使其在实际操作中的收敛性较差。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种基于深度强化网络的大坝材料性能参数反演方法。

为实现上述目的，本发明采用的技术方案是：

一种基于深度强化网络的大坝材料性能参数反演方法，包括以下步骤：

步骤一，建立大坝的离散有限元模型，输入与大坝变形相关的参数；

步骤二，根据不同的所述参数构造计算样本；

步骤三，选取合适的深度学习网络，并利用所述计算样本对深度学习网络进行训练；

步骤四，将步骤三中训练完毕的深度学习网络嵌入强化学习框架，形成代理模型；

步骤五，导入大坝实测数据，构造目标样本；

步骤六，率定初始材料参数，使用所述代理模型测试目标样本；

步骤七，根据测试结果选择合适的动作调整材料参数；

步骤八，根据调整后的材料参数，随机提取目标样本进行测试；

步骤九，重复步骤七、步骤八，直至测试结果达到反演的预期目标。

具体地，步骤一中，与大坝变形相关的参数包括大坝材料的弹性模量E、坝前水位高度H、有限元模型目标节点的坐标(x,y)和目标节点的顺河向位移值u_c。

进一步地，步骤二中，所述计算样本为

进一步地，步骤三中，所述深度学习网络的输入向量为[E,H,x,y]，输出节点O的计算目标为u_c；深度学习网络模型表示如下：

O＝f(E,H,x,y)

其中，f为深度学习网络从输入到输出的函数表达；

所述深度学习网络模型的输出层误差表示如下：

其中，W和b分别表示深度学习网络节点连接权值和阈值。

进一步地，步骤四中，所述强化学习框架包括智能体Agent、环境Env、状态S、动作A以及奖励r，所述智能体Agent根据当前输入的状态S产生动作A，由环境Env接收本次产生的动作A，并对该动作进行评估，产生奖励r，继而提供下一个状态S’。

进一步地，步骤六、步骤八在测试过程中，通过累加每个周期的奖励r来确定当前环境中的策略π的价值，计算如下：

V_π(S)＝E_π[G_t|S_t＝S]

q_π(S,A)＝E_π[G_t|S_t＝S,G_t＝A]

其中，G_t是整个计算周期的奖励总值；γ是对未来时间步奖励值的折扣因子，γ∈[0,1]，V_π(S)为状态值函数；q_π(S,A)为状态动作值函数；E_π为当前策略的期望值；S_t为当前状态；

通过智能体Agent完成对当前状态S的动作A的选择，通过环境Env对该动作A进行评估，产生相应的奖励值r，计算如下：

error＝u_cal-u_true

r＝-|error|

其中，u_cal是智能体的计算结果位移值，u_true是环境监测仪器测量的实际位移值。

进一步地，步骤七中，根据测试结果选择合适的动作调整材料参数的方法如下：

差值error存在正负两种情况，分别代表当前状态S中的弹性模量E相对于环境中真实的弹性模量偏大或者偏小；

所述智能体中存在两种不同的动作，分别对应0和1，前者代表当前状态S中的弹性模量E偏大，此时的调整增量ΔE为负值，需要缩小当前状态S中的弹性模量；后者代表当前状态S中的弹性模量E偏小，此时的调整增量ΔE为正值，需要扩大当前状态S中的弹性模量；所述增量ΔE的大小与奖励值r的绝对值呈线性相关；

调整材料参数的公式如下：

ΔE＝-r*E_step*(a-0.5)

E_t+1＝E_t+ΔE

其中，E_step为调整因子，用于控制对弹性模量E的调整速率；E_t为当前环境中弹性模量，E_t+1为下一周期环境中的弹性模量；a为动作选择，包括0或者1两种动作。

进一步地，步骤九中，所述反演的预期目标是得到最佳弹性模量，使得环境Env所产生的状态S在智能体Agent中计算所得的奖励值r的绝对值最小。

与现有技术相比，本发明的有益效果是：本发明通过将代理模型和强化学习框架首次引入对工程结构参数反演，将有限元模型计算结果作为训练样本，使用深度神经网络通过对前述样本进行学习以后，使得该代理模型在不同材料参数和环境荷载组合下，代替有限元模型，对目标节点的位移进行近似映射，从而做到在保证计算精度的前提下大幅度提升计算效率。

附图说明

图1为本发明实施例中大坝材料性能参数反演方法的流程示意图；

图2为本发明实施例中DNN代理模型结构图；

图3为本发明实施例中确定当前环境中策略价值的流程示意图；

图4为本发明实施例中智能体Agent的运行流程示意图；

图5为本发明实施例中DNQ算法框架示意图；

图6为本发明实施例中坝体分区示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了一种基于深度强化网络的大坝材料性能参数反演方法，包括以下步骤：

步骤二，根据不同的所述参数构造计算样本；

步骤五，导入大坝实测数据，构造目标样本；

步骤七，根据测试结果选择合适的动作调整材料参数；

本实施例的反演方法主要是通过坝体变形监测数据和环境量之间的关系，计算坝体弹性模量。坝体顺河向位移disp可由水压分量δ_H、时效分量δ_T以及温度分量δ_θ三部分累加，回归模型如下：

其中，β与C中为回归系数，Hⁱ为坝前水深的i次方，t为监测日期数值；t₀为起始日期，τ为随机误差项；T为时间序列减去初值后的缩放的结果。

提取水压分量表示为：

随着上游水位的升高，坝体承受的顺河向水体压力同步增长，相应的顺河向位移加大。因此水压分量δ_H的大小与水位的变动、结构以及地基材料弹性模量和目标位置的坐标存在着强关联性；混凝土坝本构模型表达如下式：

u_c＝F(E,H,x,y)

E＝[E₁,E₂,…,E_n]

其中，F表示为有限元模型节点在不同的材料参数和环境荷载作用下与节点位移之间的映射关系，E为有限元模型各个区域不同弹性模量组成的向量，H为坝前水位高度(不考虑下游水位高度)，(x,y)为有限元模型目标节点的坐标，u_c为目标节点的顺河向位移值。

反演的目标是找出合适的力学参数，使得通过有限元计算的目标节点位移值序列同实际测点测量所得位移值所经过分离得来的水压分量的误差f_e达到最小；误差f_e计算如下式：

由上可知，有限元节点顺河向位移u_c的影响特征为工程材料力学参数E,环境水压力(坝前水位高度)H以及该节点所在的位置(x,y)，因此DNN模型所需的样本格式为

即其中输入向量为[E,H,x,y]，输出节点O的计算目标为u_c，如图2所示，表达式如下：

O＝f(E,H,x,y)

其中，f为DNN从输入到输出的函数表达；确定输入层和输出层以后，中间的隐含层的层数和每层的节点数需要根据具体的计算模型要求通过试算确定合理的网络结构；式中，J为本模型输出层误差，W和b分别是DNN网络节点连接权值和阈值。

DNN样本构造过程如下：

流程1

输入：有限元本构模型F，m组合理的材料力学参数E，n组合理的环境水位高度H；

输出：节点位移样本

for i＝1to m:

for j＝1to n:

本构模型计算节点位移u_c＝F(E,H,x,y)；

储存样本

输出所有样本；

根据上述计算样本构造DNN代理模型的过程如下：

流程2

输入:总层数,以及各隐藏层与输出层的神经元个数,激活函数,损失函数,选代步长α,最大迭代次数N，停止迭代阈值∈,样本每批数量为m；

输出:参数权重矩阵W和偏置向量b迭代完成的网络模型；

1.随机初始化各隐藏层与输出层的线性关系系数矩阵W和偏置向量b；

2.for iter＝1to N:

DNN输入向量[E,H,x,y]；

后向传播计算

O＝f(E,H,x,y)

计算本次迭代的损失loss值：

根据本次loss进行误差前向传播计算；

更新权重矩阵W和偏置向量b；

判断权重W和偏置b增量是否小于阈值∈，成立则终止iter循环；

输出固定结构和参数的DNN代理模型；

根据流程1构造DNN代理训练样本以及强化学习智能体目标样本，格式均为

对于目标样本中的u_c是在本构模型F中取目标材料力学参数E时，不同的环境荷载H下有限元节点的位移值；根据流程2，选定网络结构等超参数，使用训练样本

训练DNN代理网络，并保存学习完毕的DNN模型。

将保存的DNN模型，作为强化学习框架中智能体Agent的一部分，用于计算代理位移值ucal，与目标样本中的位移值u_c/u_true进行差值计算，计算结果用于对动作Action的选择，并完成相应的动作状态价值计算，流程见图4。

图4中，强化学习由五部分组成，分别为智能体Agent，环境Env，状态S，动作A以及奖励r。

环境Env提供一个当前状态S，作为智能体Agent的一个输入，智能体Agent根据当前输入的状态S产生动作A，由环境接收本次产生的动作A，并对其进行评估，产生奖励r，继而提供下一个状态r’。

如图3所示，通过累加每个周期的r来确定当前环境中的策略π的价值，计算方式如下式所示：

V_π(S)＝E_π[G_t|S_t＝S]

q_π(S,A)＝E_π[G_t|S_t＝S,G_t＝A]

其中，G_t是整个计算周期的奖励总值；γ是对未来时间步奖励值的折扣因子，γ∈[0,1]，V_π(S)为状态值函数；q_π(S,A)为状态动作值函数；Eπ为当前策略的期望值；S_t为当前状态；

通过智能体完成对当前状态的动作A的选择，通过环境对该动作进行评估，产生相应的奖励值r，计算如下：

error＝u_cal-u_true

r＝-|error|

强化学习算法目标是搜索最佳计算弹模E，使得环境Env所产生的状态在智能体Agent中计算所得r绝对值越小，则表明计算弹模与环境的实际弹模越接近。因此需要状态S的中弹性模量在模型迭代过程中不断靠近环境真实弹模参数。

此处需对DQN框架中智能体与环境的交互信息的方式进行改进，即通过选择的动作Action对环境中的参数进行调整，调整方式如下：

差值error存在正负两种情况，代表状态S中的弹性模量对于环境真实的弹模偏大或者偏小；因此本模型设定两种智能体中存在两种不同的动作，分别对应0和1，前者代表环境状态S中的弹模参数偏大，调整增量ΔE为负值，需要将状态S中的弹模进行一定程度缩小；后者代表状态S中的弹模需要一定程度扩大，而增量缩扩与奖励r的绝对值大小有着一定的线性关系。因此不同动作对环境状态中的弹性模量调整方式如下式：

ΔE＝-r*E_step*(a-0.5)

E_t+1＝E_t+ΔE

本方法采用DNQ算法框架如图5所示；

算法流程如下：

1)初始化经验区D、最大周期epochs、折扣因子γ、调整因子E_step、随机动作概率ε₀；

2)初始化actor网络参数θ和critic网络参数θ^-＝θ；

3)for周期epoch from 1to epochs；

a)初始化状态s_t,当前状态对应水压位移值disp_t；

b)fortfrom 1to T；

i.根据ε-greedy在选择随机a_t∈A或者有actor网络计算

a_t＝max_aq(s_t,disp_t,a,θ)；

ii.更新随机动作概率

iii.在Env中执行a_t得到奖励r_t；

iv.修正环境状态E＝E-r_t*E_step*(a_t-0.5)；

v.获取下一状态s_t+1,disp_t；

vi.储存经验样本[s_t,disp_t,a_t,r_t,s_t+1,disp_t]；

vii.并令s_t＝s_t+1,disp_t＝disp_t+1；

viii.从经验池从取出小批量样本[s_t,disp_t,a_t,r_t,s_t+1,disp_t+1]；

ix.actor网络计算q(s_t,disp_t,a_t,θ)和critic网络计算

x.output＝if t≥T-1；

then r_t；

else

xi.损失函数loss＝(q(s_t,disp_t,a_t,θ)-output)²；

xii.使用Adam算法优化actor网络参数θ；

xiii.每隔N个时间步令θ^-＝θ；

在坝体不同分区中，区域之间的节点位移值具有一定程度的相关性但不具备因果性，在全样本对两块区域弹模同时进行同等步长调整是不合理的，或者单独只针对每个样本对应的区域进行调整，忽略不同区域变形之间的相关性也是同样不合理的。

如图6所示，在一定的上游水压力作用下，整个坝段剖面变形需要满足变形协调要求。点P_A的位移值不仅与坝体上部区域Ω1的材料力学参数有关，而且下部区域Ω2的材料参数同样直接影响到点P_A的顺河向位移值大小。

因此，本实施例采用下式表达多区域弹模调整方式的相关性：

E_other＝E_other-r_t*(a_t-0.5)*(randnum*0.1*E_step+0.01)

在对目标节点对非本组区域弹模E_other进行调整时，采用的调整因子是(randnum*0.1*E_step+0.01)，其中randnum是范围为0～1之间的随机数，将调整因子加入一定的随机参数控制调整幅度，并在随机数的基础上加入0.01的因子保证正相关性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，包括以下步骤：

步骤二，根据不同的所述参数构造计算样本；

步骤五，导入大坝实测数据，构造目标样本；

步骤七，根据测试结果选择合适的动作调整材料参数；

2.根据权利要求1所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤一中，与大坝变形相关的参数包括大坝材料的弹性模量E、坝前水位高度H、有限元模型目标节点的坐标(x，y)和目标节点的顺河向位移值u_c。

3.根据权利要求2所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤二中，所述计算样本为

4.根据权利要求3所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤三中，所述深度学习网络的输入向量为[E，H，x，y]，输出节点O的计算目标为u_c；深度学习网络模型表示如下：

O＝f(E，H，x，y)

其中，f为深度学习网络从输入到输出的函数表达；

所述深度学习网络模型的输出层误差表示如下：

其中，W和b分别表示深度学习网络节点连接权值和阈值。

5.根据权利要求1所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤四中，所述强化学习框架包括智能体Agent、环境Env、状态S、动作A以及奖励r，所述智能体Agent根据当前输入的状态S产生动作A，由环境Env接收本次产生的动作A，并对该动作进行评估，产生奖励r，继而提供下一个状态S′。

6.根据权利要求5所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤六、步骤八在测试过程中，通过累加每个周期的奖励r来确定当前环境中的策略π的价值，计算如下：

V_π(S)＝E_π[G_t|S_t＝S]

q_π(S，A)＝E_π[G_t|S_t＝S，G_t＝A]

其中，G_t是整个计算周期的奖励总值；γ是对未来时间步奖励值的折扣因子，γ∈[0，1]，V_π(S)为状态值函数；q_π(S，A)为状态动作值函数；E_π为当前策略的期望值；S_t为当前状态；

error＝u_cal-u_true

r＝-|error|

7.根据权利要求6所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤七中，根据测试结果选择合适的动作调整材料参数的方法如下：

所述智能体中存在两种不同的动作，分别对应0和|，前者代表当前状态S中的弹性模量E偏大，此时的调整增量ΔE为负值，需要缩小当前状态S中的弹性模量；后者代表当前状态S中的弹性模量E偏小，此时的调整增量ΔE为正值，需要扩大当前状态S中的弹性模量；所述增量ΔE的大小与奖励值r的绝对值呈线性相关；

调整材料参数的公式如下：

ΔE＝-r*E_step*(a-0.5)

E_t+1＝E_t+ΔE

8.根据权利要求7所述的一种基于深度强化网络的大坝材料性能参数反演方法，其特征在于，步骤九中，所述反演的预期目标是得到最佳弹性模量，使得环境Env所产生的状态S在智能体Agent中计算所得的奖励值r的绝对值最小。