CN114970239A

CN114970239A - 一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质

Info

Publication number: CN114970239A
Application number: CN202210469070.6A
Authority: CN
Inventors: 黄永; 郏凯亮; 李惠; 张浩宇
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-30
Anticipated expiration: 2042-04-29
Also published as: CN114970239B

Abstract

本发明提出一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质。涉及结构健康监测和随机振动领域。首先，根据工程结构设计信息并依据动力学和随机振动理论建立多类型测点布置的目标函数，随后利用基于深度强化学习及启发式思想的多类型监测数据测点布置优化算法对结构监测数据测点布置进行优化得到最终布置方案。本发明结合了深度强化学习和启发式思想，用于离散的测点优化布置问题，能够较好避免陷入局部最优问题，获得良好的优化效果，可以为多类型监测数据的测点优化布置提供有效的决策支持。此外，该优化算法亦可用于其他类似组合优化问题。

Description

一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质

技术领域

本发明涉及结构健康监测与结构测试技术领域，特别是涉及一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质。

背景技术

先进的结构健康监测系统可以保证关键土木结构在其长期服役过程中的功能和安全。结构健康监测系统的性能在很大程度上取决于数据监测测点的布置。虽然具有多种数据类型的监测网络设计过程复杂，但与单一数据类型监测相比，它可以提供更全面的结构信息。然而，测量信息通常由位于特定位置的较少数据测点获得。监测测点的最佳布置是指使用少量测点来获得更有用和有效的信息。它在结构健康监测系统中起着重要作用，因为系统的性能取决于布置的监测点获得的信息质量。此外，合理的数据测点优化方案不仅可以获得足够的信息，而且可以节约成本。因此，获得最佳数据测点是健康监测系统必须解决的问题。基于这种现状，需要发展一种有效的多类型监测数据的测点优化布置方法。

针对数据测点优化布置问题，传统的优化算法主要有：非线性规划优化算法、随机类方法、高斯-牛顿法、梯度下降法等。然而这类方法的输出结果不能用{0，1}向量表示数据测点的位置，而是介于0和1之间的小数，不能够为测点设置提供精准的方案。近些年随着计算机科学与技术的发展，许多智能算法被用于数据测点布置的优化，其主要有：遗传算法、粒子群算法、以及蚁群等各类仿生算法。但是该类算法存在过早收敛以及陷入局部最优的问题，且该类算法一般用于单一类型监测测点的优化布置。

发明内容

本发明的目的是为了解决现有技术中多类型监测数据的测点布置的问题。在实际工程结构中以更准确识别结构参数为目的布置多种类型的数据测点的问题中本发明结合启发式思想和深度强化学习算法实现多种类型数据测点的优化布置，为多种类型的数据测点优化布置提供决策支持。因此，本发明提出一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质。

本发明是通过以下技术方案实现的，本发明提出一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法，所述方法包括：

步骤一、基于工程结构的相关物理参数θ_S信息，建立结构的动力学模型，对动力学模型施加谱密度为S_f的动态激励，获得结构响应数据

根据结构响应数据计算结构响应的谱密度矩阵均值；

步骤二、基于贝叶斯系统识别理论及信息熵理论，利用结构参数信息熵最小化准则建立数据测点优化布置的目标函数f(Δ)，其中Δ是0和1组成的数据测点布置向量；

步骤三、结合多类型数据测点以及拟定布置数据测点情况建立基于深度强化学习优化模型，设计奖励函数，构建动作空间以及状态空间；

步骤四、利用步骤三建立的模型基于启发式思想引入最优状态库

对多类型数据测点布置进行优化，得到最优布置向量S^*。

进一步地，所述步骤一具体为：

步骤1.1、根据结构动力学理论利用设计结构参数θ_S，建立结构有限元模型A，所述结构参数θ_S包括结构的刚度信息、质量信息以及阻尼系数α与β；

步骤1.2、在步骤1.1建立的结构动力学模型上施加零均值高斯白噪声功率谱密度为 S_f的随机振动激励，采样获得结构多种状态数据

采样总时长以及采样频率分别为T和Δt，测量噪声均方根等于无噪声的10％；

步骤1.3、计算结构状态数据的谱密度：

其中ω_i＝kΔω，Δω＝2π/(NΔt)，k＝0,1,2,...,INT(N/2)，N＝TΔt，INT(N/2)是(N/2) 的整数部分；j是虚数单位，其值等于

步骤1.4、重复N_t次步骤1.1～1.3，获得N_t个独立的数据S_y,N(ω_i)并求其均值

进一步地，所述步骤二具体为：

步骤2.1、删除

中Δ为1的行和列得到与数据测点布置相关的谱密度矩阵

其中数据测点布置向量Δ中0表示不布置数据测点，1表示布置数据测点；

步骤2.2、构建似然函数：

其中κ₂是不随不确定参数变化的常数，符号E[·]、|·|和tr(·)分别是数学期望、行列式以及矩阵的迹；取N_t足够大，利用

近似

步骤2.3、计算鲁棒信息熵：

其中：H(θ_T|Δ，D)是-ln p(D|θ_T,Δ，A)关于需要识别的参数向量θ_T的Hessian矩阵，利用中心差分法计算；N_θ是不确定参数的个数；

步骤2.4、构建多类型数据测点优化布置的目标函数：

其中Δ_all表示元素全为1的数据测点布置向量。

进一步地，所述步骤三具体为：

步骤3.1、基于深度强化学习理论，建立结合DDQN(Double DQN)和Dueling DQN 算法的深度强化学习模型，网络参数规模为N_C-512-1024-1和N_C-512-1024-N_A，其中N_C -512是共享参数，两个神经网络输出值的和作为输出；其中模型包含的两个神经网络分别为Eval_net和Target_net；

步骤3.2、构建状态空间，将数据测点布置向量Δ作为深度强化学习的状态s_t，所有可能的数据测点布置情况组成了状态空间；

步骤3.3、构建动作空间，以改变一个数据测点位置作为动作a_t，所有的动作组成动作空间；

步骤3.4、设计奖励函数：

其中，r_t是步数t奖励值，s_t是当前数据测点布置状态，s_t+1是采取在s_t上的动作后的布置状态。

进一步地，所述步骤四具体为：

步骤4.1、初始化神经网络参数；

步骤4.2、最小目标函数记录值f(s^*)赋值为1×10⁹，随机初始化最优状态s^*；

步骤4.3、按照数据测点个数的约束，随机初始化状态s_t；

步骤4.4、将s_t输入Eval_net得到各个动作的价值q_eval,根据q_eval以及贪婪度系数ξ选择动作a_t并执行该动作获得新状态s_t+1以及奖励值r_t，组成记忆元组(s_t,a_t,r_t,s_t+1)并记录；

步骤4.5、更新最优状态库

并更新记录的最优状态；

步骤4.6、重复步骤4.4～4.5，每w次抽取m个元组(s_t,a_t,r_t,s_t+1)训练Eval_net；Eval_net，网络误差计算公式：

其中q_eval和q_target分别是Eval_net和Target_net的输出；每q次Target_net复制Eval_net 参数；每T_max次在最优状态库

随机抽取一个状态作为当前状态s_t；

步骤4.7、动作执行次数等于设定总步数N_max时，算法停止，最优布置方案S^*＝s^*，最优布置方案的目标函数值为f(s^*)。

进一步地，所述步骤4.5具体为：

步骤4.5.1、若

尚未存满，则存入s_t+1，并记录f(s_t+1)于

若

已存满且

则将s_t+1、f(s_t+1)替换存储在

和

中的

和

为

对应的状态；

步骤4.5.2、若f(s_t+1)<f(s^*)，则执行f(s^*)＝f(s_t+1)、s^*＝s_t+1。

本发明还提出一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法的步骤。

本发明还提出一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时实现所述一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法的步骤。

本发明的有益效果为：

1、多类型测量数据监测系统与单一数据相比，它可以提供更全面的结构信息，基于深度强化学习的启发式多类型数据测点优化布置方法可以实现统一多类型数据测点进行优化布置；

2、本发明在深度强化学习算法的基础上融入启发式思想，较大程度提升了算法性能，一定程度避免了局部最优以及过早收敛的问题；

3、优化得到的数据测点布置方案由{0，1}向量表示数据测点的位置，为多类型数据测点布置提供明确的决策支持；

4、基于深度强化学习的启发式多类型数据测点优化布置方法不仅适用于解决多类型数据测点优化布置，也可以用于其他复杂离散优化问题。

附图说明

图1为本发明中基于深度强化学习的启发式多类型数据测点优化布置方法流程图；

图2为深度强化学习神经网络模型示意图；

图3为基于启发式思想在强化学习算法中加入的最优状态库存取方法示意图；

图4为29个自由度的桁架模型示意图；

图5为本发明中基于深度强化学习的启发式多类型数据测点优化布置方法对目标函数的优化效果图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明以信息熵和随机振动理论在频域上建立统一多类型数据测点建立多类型数据测点优化的目标函数，利用基于深度强化学习融入启发式思想的算法实现对多类型数据测点进行优化布置。在实际工程中本发明以获得尽可能多的结构参数信息为优化目标对多类型数据测点进行优化布置，且数据测点优化布置提供明确的决策支持。

结合图1，本发明提出一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法，具体包括以下步骤：

步骤一、基于工程结构的相关设计参数θ_S信息，建立结构的有限元模型，对动力学模型施加谱密度为S_f的激励，获得结构响应数据

根据结构响应数据计算结构响应的谱密度矩阵均值；

步骤二、基于贝叶斯理论、信息熵以及随机振动理论，利用信息熵最小化(结构参数不确定度最小化)建立数据测点优化布置的目标函数f(Δ)，其中Δ是0和1组成的数据测点布置向量；

步骤三、结合多类型数据测点以及拟定布置数据测点情况建立基于深度强化学习优化模型，设计奖励函数，构建动作空间以及状态空间等；

对多类型数据测点布置进行优化，得到最优布置向量S^*。

所述步骤一具体为：

步骤1.1、根据动力学理论利用设计结构参数θ_S，建立结构动力学模型A，所述结构参数θ_S包括结构的刚度信息、质量信息以及阻尼系数α与β；

步骤1.2、在步骤1.1建立的动力学模型施加零均值高斯白噪声功率谱密度为S_f的随机振动激励，采样获得结构多种状态数据

步骤1.3、计算结构状态数据的谱密度：

ω_i＝kΔω，其中Δω＝2π/(NΔt)，k＝0,1,2,...,INT(N/2)，INT(N/2)是(N/2)的整数部分；j是虚数单位，其值等于

所述步骤二具体为：

步骤2.1、Δ中0表示不布置数据测点，1表示布置数据测点；删除

中Δ为零的行和列得到与数据测点布置相关的谱密度矩阵

步骤2.2、构建似然函数：

其中，κ₂是不随不确定参数变化的常数，符号E[·]、|·|和tr(·)分别是数学期望、行列式以及矩阵的迹；取N_t足够大，利用

近似

步骤2.3、计算鲁棒信息熵：

步骤2.4、构建多类型数据测点优化布置的目标函数：

其中Δ_all表示元素全为1的数据测点布置向量。

所述步骤三具体为：

步骤3.1、基于深度强化学习理论，建立结合DDQN(Double DQN)和Dueling DQN 算法的深度强化学习模型，网络参数规模为N_C-512-1024-1和N_C-512-1024-N_A，如图2，其中N_C-512是共享参数，两个神经网络输出值的和作为输出；模型包含两个上所述神经网络Eval_net和Target_net；

步骤3.4、设计奖励函数：

所述步骤四具体为：

步骤4.1、初始化神经网络参数；

步骤4.3、按照数据测点个数的约束，随机初始化状态s_t；

步骤4.5、更新最优状态库

并更新记录的最优状态；

其中，q_eval和q_target分别是Eval_net和Target_net的输出；每q次Target_net复制Eval_net 参数；每T_max次在最优状态库

随机抽取一个状态作为当前状态s_t；

所述步骤4.5具体为：

步骤4.5.1、结合图3，若

尚未存满，则存入s_t+1，并记录f(s_t+1)于

若

已存满且

则将s_t+1、f(s_t+1)替换存储在

和

中的

和

为

对应的状态；

步骤4.5.2、若f(s_t+1)<f(s^*)，则执行f(s^*)＝f(s_t+1)、s^*＝s_t+1。

实施例

结合图4，对29个自由度的桁架桥进行多类型数据测点的优化布置，桁架高为8m，上下弦杆的长度均为6m；上弦杆、腹杆和下弦杆的采用三种界面不同的构件，面积分别为0.012m²、0.006m²和0.015m²；结构的质量密度ρ和弹性模量E分别为7860Kg/m³和 206GPa；布置数据测点类型为速度、加速度、位移以及应变，拟四种数据类型测点个数均为4个。

利用本发明中基于深度强化学习的启发式多类型数据测点优化布置算法对多类型数据测点布置进行优化。调整结构刚度质量比，使得结构的基频为0.5Hz；桁架使用的前两种模态阻尼比均为2％。

所述步骤一具体为：调整结构刚度质量比，使得结构的基频为0.5Hz；桁架使用的前两种模态阻尼比均为2％。建立结构动力学模型，结构杆件刚度参数化如下： k_i＝θ_s1,i＝1,2,...,8、k_i＝θ_s2,i＝9,10,...,23和k_i＝θ_s3,i＝24,25,...,29，杆件编号见图4，建立识别六个参数的目标函数，分别为三个刚度参数、两个瑞利阻尼系数以及荷载谱密度；结构采样频率Δt＝0.005s，总采样时间为10s，利用采集的数据计算所有测点响应的谱密度矩阵；

所述步骤二具体为：参数个数N_θ＝6，测点布置向量Δ的长度为116，元素1～29、30～58、 59～87和88～116分别位移、速度、加速度以及应变的布置位置；根据测点布置向量Δ为零元素的位置删除谱密度矩阵中对应的行和列计算似然函数，进一步计算初目标函数f(Δ)。

所述步骤三具体为：建立深度强化学习模型，状态s_t为数据测点布置情况，状态空间由所有的布置组成；动作为改变四种数据测点类型中一个数据测点的位置，所有的动作构成动作空间。

所述步骤四具体为：

利用基于深度强化学习融入启发式思想的算法优化多类型数据测点布置，贪婪度系数ξ＝0.95，总探索步数N_max＝20000，训练步数间隔w＝4，替换参数间隔q＝2000；优化过程见图5，目标函数值随着算法探索步数的增加其趋势逐渐降低，即在探索历程中数据测点布置逐渐被优化；经过N_max步探索后，所得数据测点布置编号分别为：

位移测点：1，2，3，6；

速度测点：6，10，16，23；

加速度测点：2，14，19，27；

应变计：8，19，25，29；

前三种测点布置在结点，编号为自由度编号，应变计布置在杆件中心。

以上对本发明所提出的一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法，其特征在于，所述方法包括：

根据结构响应数据计算结构响应的谱密度矩阵均值；

对多类型数据测点布置进行优化，得到最优布置向量S^*。

2.根据权利要求1所述的方法，其特征在于，所述步骤一具体为：

步骤1.2、在步骤1.1建立的结构动力学模型上施加零均值高斯白噪声功率谱密度为S_f的随机振动激励，采样获得结构多种状态数据

步骤1.3、计算结构状态数据的谱密度：

其中ω_i＝kΔω，Δω＝2π/(NΔt)，k＝0,1,2,...,INT(N/2)，N＝TΔt，INT(N/2)是(N/2)的整数部分；j是虚数单位，其值等于

3.根据权利要求2所述的方法，其特征在于，所述步骤二具体为：

步骤2.1、删除

中Δ为1的行和列得到与数据测点布置相关的谱密度矩阵

步骤2.2、构建似然函数：

近似

步骤2.3、计算鲁棒信息熵：

其中：H(θ_T|Δ，D)是-lnp(D|θ_T,Δ，A)关于需要识别的参数向量θ_T的Hessian矩阵，利用中心差分法计算；N_θ是不确定参数的个数；

步骤2.4、构建多类型数据测点优化布置的目标函数：

其中Δ_all表示元素全为1的数据测点布置向量。

4.根据权利要求3所述的方法，其特征在于，所述步骤三具体为：

步骤3.1、基于深度强化学习理论，建立结合DDQN和Dueling DQN算法的深度强化学习模型，网络参数规模为N_C-512-1024-1和N_C-512-1024-N_A，其中N_C-512是共享参数，两个神经网络输出值的和作为输出；其中模型包含的两个神经网络分别为Eval_net和Target_net；

步骤3.4、设计奖励函数：