CN116702292A

CN116702292A - 基于深度强化学习的扁平钢箱梁风嘴气动优化方法

Info

Publication number: CN116702292A
Application number: CN202310783982.5A
Authority: CN
Inventors: 李珂; 彭皓禹; 回忆; 秦跃; 陈增顺
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-05

Abstract

本发明公开了一种基于深度强化学习的扁平钢箱梁风嘴气动优化方法，首先以箱梁主梁断面的气动性能为目标、以风嘴外形设计变量的限制范围为约束构建箱梁风嘴气动优化模型，然后，构建包括策略模型和价值函数模型的智能体，策略模型以当前的环境与奖励函数选择执行的动作以产生新的风嘴外形设计变量，同时价值函数模型对当前策略进行价值评估，通过价值评估的损失函数训练智能体，最终得到最优策略，以最优策略得到的风嘴外形设计变量即为满足目标函数和约束条件的最优设计变量；即本发明基于深度强化学习的扁平钢箱梁风嘴气动优化方法，通过搭建深度强化学习模型，实现对扁平钢箱梁风嘴的气动优化设计。

Description

基于深度强化学习的扁平钢箱梁风嘴气动优化方法

技术领域

本发明属于桥梁抗风设计技术领域，具体的为一种基于深度强化学习的扁平钢箱梁风嘴气动优化方法。

背景技术

扁平钢箱梁风嘴是一种用于结构中的气动装置。在结构的气动设计中，风嘴的气动性能是至关重要的。扁平钢箱梁风嘴由于其结构简单、强度高、制造成本低等特点，被广泛应用于大型建筑结构中。但若扁平钢箱梁风嘴的气动性能存在问题，则会导致气动不稳定性、噪声问题等。现有的气动优化方法主要使用流体力学计算(CFD)结合优化算法的方式，例如遗传算法、粒子群算法等。现有的优化方法虽然能够对风嘴进行较为准确的优化，但存在一些缺点。例如，CFD计算需要大量的计算资源，且优化算法的效率不高，需要大量的运算次数才能获得较好的优化效果。因此，现有技术中，扁平钢箱梁风嘴优化方法仍然主要采用基于经验和试错的方法，存在着设计复杂、效率低下以及优化效果难以保证等问题。

深度强化学习是一种通过智能体与环境交互学习来获得最大化长期累积奖励的机器学习技术。它已经在许多领域取得了成功，如游戏、自然语言处理和机器人等。与传统的优化方法相比，深度强化学习最大的优点在于其能够自动学习和改进策略，适用于复杂的非线性优化问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的扁平钢箱梁风嘴气动优化方法，能够有效提高风嘴的气动性能和优化效率。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的扁平钢箱梁风嘴气动优化方法，包括如下步骤：

步骤一：设计目标函数，所述目标函数以风嘴外形设计变量的限制范围为约束条件，包含气动性能指标，用以评价优化效果；

步骤二：建立仿真环境，所述环境采用计算流体力学数值模拟方法，用于计算风嘴外形变化后的扁平钢箱梁的气动响应，并获得所设计的气动性能指标；

步骤三：建立智能体，所述智能体采用深度强化学习双模型、包括策略模型和价值函数模型，并以箱梁主梁断面的流体力学数值模拟环境作为环境，策略模型以风嘴外形的设计变量为状态，根据环境与奖励值以选择执行的动作并产生新的风嘴外形设计变量；价值函数模型以风嘴外形变化导致的目标函数值的线性组合为奖励函数，对策略模拟选择执行的动作策略进行价值评估；初始化策略模型参数和价值函数模型参数；

步骤四：训练智能体，计算价值函数模型的价值估计值与目标值之间的损失函数；

步骤五：判断损失函数是否小于设定阈值：若是，则得到最优策略，执行步骤七；若否，则执行步骤六；

步骤六：更新策略模型和价值函数模型的参数，执行步骤二；

步骤七：以最优策略得到风嘴外形的设计变量。

进一步，所述步骤一中，目标函数为：

约束条件为：

其中，I(θ)表示目标函数；θ表示目标函数参数；C_l和c_m分别表示箱梁的升力系数和升力矩系数；λ表示比例系数；θ₁表示风嘴上斜面与箱梁顶面之间的夹角；θ₂表示风嘴下斜面与箱梁底面之间的夹角。

进一步，所述步骤二中，奖励函数由各个气动参数值进行线性加权求和得到。

进一步，奖励函数为目标函数值的线性组合：

r＝-|C_l|-λ·|C_m|

其中，r表示奖励函数；C_l和C_m分别表示箱梁的升力系数和升力矩系数；λ表示比例系数。

进一步，所述步骤三中，价值函数模型的价值估计为：

其中，y表示价值函数模型的价值估计值；r表示在状态s′下执行动作a′后所获得的即时奖励；γ表示折扣因子；是目标网络在下一时间歩的输出；s表示状态；s′表示下一时间歩的状态；a表示动作；a′表示下一时间歩的动作；/>为价值函数模型的参数。

进一步，所述步骤四中，损失函数表示为：

其中，Loss表示损失函数；y表示价值函数模型的价值估计值；表示目标值。

进一步，所述步骤六中，采用DNN优化器更新策略模型的参数：

其中，θ为策略模型的参数；α为策略模型的学习率；表示对策略模型参数θ的梯度；N表示经验池中的样本数量；/>对动作a的梯度；/>表示对策略模型参数θ的梯度；s表示状态。

进一步，所述步骤六中，采用DDPG算法更新价值函数模型的参数：

其中，为价值函数模型的参数；β表示价值函数模型的学习率；/>表示对参数/>的梯度；loss表示损失函数，用于衡量预测值y和实际值/>之间的差异；y表示价值函数模型的价值估计值；/>表示目标网络在当前时间歩的输出；s表示状态；a表示动作。

进一步，所述步骤二中，包括如下步骤：

(1)对箱梁主梁断面进行参数化描述，箱梁主梁断面的每一个形状均由一组参数表示；以新的风嘴外形设计变量构成的一组参数得到箱梁主梁断面形状；

(2)对箱梁主梁断面形状进行网格划分，生成流场网格模型，对流场网格模型进行数值模拟以更新流体力学数值模拟环境，同时得到新的气动参数。

本发明的有益效果在于：

本发明基于深度强化学习的扁平钢箱梁风嘴气动优化方法，首先以箱梁主梁断面的气动性能为目标、以风嘴外形设计变量的限制范围为约束构建箱梁风嘴气动优化模型，然后，构建包括策略模型和价值函数模型的智能体，智能体以箱梁主梁断面的流体力学数值模拟环境作为环境、以风嘴外形的设计变量为状态、以箱梁风嘴气动优化模型构建得到奖励函数；策略模型以当前的环境与奖励函数选择执行的动作以产生新的风嘴外形设计变量，同时价值函数模型对当前策略进行价值评估，通过价值评估的损失函数训练智能体，最终得到最优策略，以最优策略得到的风嘴外形设计变量即为满足目标函数和约束条件的最优设计变量；即本发明基于深度强化学习的扁平钢箱梁风嘴气动优化方法，通过搭建深度强化学习模型，实现对扁平钢箱梁风嘴的气动优化设计；与传统监督学习相比，深度强化学习具有自主学习策略、长期奖励最大等特性，更接近于智能化的优化方法。

本发明还具有以下优点：

(1)解决了传统的扁平钢箱梁风嘴气动优化方法无法精确优化目标的问题。传统方法在扁平钢箱梁风嘴气动优化方面存在一定的局限性，而本发明能够更准确地进行气动优化，实现优化目标的最大化。

(2)解决了控制参数手动调节耗时且效率低下的问题。本发明通过基于深度强化学习的方法，实现了风嘴外形设计变量自主学习和智能控制，从而提高了控制效率，减少了人工干预的需要。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明基于深度强化学习的扁平钢箱梁风嘴气动优化方法的流程图；

图2为本发明基于深度强化学习的扁平钢箱梁风嘴气动优化方法的原理图；

图3为箱梁主梁断面的设计空间示意图；

图4为箱梁主梁断面的网格划分图；

图5为风嘴形状设计参数的示意图；

图6为不同步长影响下的气动性能优化曲线；

图7为风嘴气动优化前后箱梁主梁断面的周围压力云图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1-2所示，本实施例基于深度强化学习的扁平钢箱梁风嘴气动优化方法，包括如下步骤。

步骤一：以箱梁主梁断面的气动性能指标为目标函数，以风嘴外形设计变量限制范围为约束条件，构建箱梁风嘴气动优化模型。

具体的，本实施例中，目标函数为：

约束条件为：

其中，I(θ)表示目标函数；θ表示目标函数参数；C_l和C_m分别表示箱梁的升力系数和升力矩系数；λ表示比例系数，本实施例中，λ取值0.2；θ₁表示风嘴上斜面与箱梁顶面之间的夹角；θ₂表示风嘴下斜面与箱梁底面之间的夹角。箱梁主梁断面的设计空间如图3所示，本实施例中，参数θ₁和θ₂即为风嘴外形的设计变量，因此该问题的维度n＝2。当θ₁和θ₂被控制在一定范围内时，两条射线便会相交于一点，从而形成封闭的箱梁主梁断面，如图4所示。改变θ₁和θ₂的值，则风嘴角度、形态及主梁宽度会发生相应变化。

步骤二：建立仿真环境，所述环境采用计算流体力学数值模拟方法，用于计算风嘴外形变化后的扁平钢箱梁的气动响应，并获得所设计的气动性能指标。流体力学数值模拟包括如下步骤：

(1)对箱梁主梁断面进行参数化描述，箱梁主梁断面的每一个形状均由一组参数表示；箱梁主梁断面其他参数不变的条件下，结合新的风嘴外形设计变量构成的一组参数得到箱梁主梁断面形状；

(2)对箱梁主梁断面形状进行网格划分，生成流场网格模型，对流场网格模型进行数值模拟以更新流体力学数值模拟环境，同时得到新的气动参数，如图6所示。具体的，本实施例中，使用计算流体力学方法对箱梁主梁断面进行绕流数值模拟，主控方程为雷诺平均N-S方程，并使用湍流模型进行建模生成流场网格模型，使用开源求解器对该流场网格模型的数学模型进行求解，以更新流体力学数值模拟环境，同时得到新的气动参数。

步骤三：建立智能体，智能体采用深度强化学习双模型，且智能体包括策略模型Actor和价值函数模型Critic，并以箱梁主梁断面的流体力学数值模拟环境作为环境，策略模型以风嘴外形的设计变量为状态，根据环境与奖励值以选择执行的动作并产生新的风嘴外形设计变量；价值函数模型以风嘴外形变化导致的目标函数值的线性组合为奖励函数，对策略模拟选择执行的动作策略进行价值评估。初始化策略模型参数θ₀和价值函数模型参数

本实施例中，策略模型用于输出动作策略，而价值函数模型则用于估计价值，这两个模型都采用了具有两层隐藏层的人工神经网络结构，其中策略模型隐藏层的节点数为64，价值模型隐藏层的节点数为128，且都采用ReLU(Rectified Linear Unit)激活函数。

其中，奖励函数由各个气动参数值进行线性加权求和得到。具体的，本实施例中，奖励函数为目标函数值的线性组合：

r＝-|C_l|-λ·|C_m|

即本实施例中，奖励函数设置为r＝-I(θ)。

策略模型根据环境与奖励值以选择执行的动作并产生新的风嘴外形设计变量；价值函数模型对策略模拟选择执行的动作策略进行价值评估。具体的，价值函数模型的价值估计为：

其中，y表示价值函数模型的价值估计值；r表示在当前状态s′下执行动作a′后所获得的即时奖励；γ表示折扣因子；是目标网络在下一时间歩的输出；s表示状态；s′表示下一时间歩的状态；a表示动作；a′表示下一时间歩的动作；/>为价值函数模型的参数。

步骤四：训练智能体，计算价值函数模型的价值估计值与目标值之间的损失函数。如图5所示，本实施例中，策略模型使用深度神经网络(参数为θ)来近似，其输入是环境，经过神经网络的一系列层进行特征提取和转换，最终输出动作的数值。在训练过程中，通过梯度上升法来最大化期望累积奖励值r以更新策略模型的参数；价值函数模型也通常使用深度神经网络(参数为)来逼近，其输入是状态和动作，经过神经网络的一系列层进行特征提取和转换，最终输出动作的价值估计。在训练过程中，通过最小化当前策略与目标策略之间的误差来更新价值函数模型的参数。根据每次循环得到的状态、动作轨迹和奖励值，构建损失函数，以优化策略模型参数θ和价值函数模型参数/>优化目标是使损失函数最小化。通过使用优化算法，如梯度下降算法，这里采样Adam算法(Adaptive Moment Estimation，Adam)，更新策略模型和价值函数模型的参数，得到新的模型。在DDPG算法中，通常使用均方误差(Mean Squared Error，MSE)作为损失函数来度量价值函数模型的预测值与目标值之间的差距。本实施例中，损失函数表示为：

步骤六：更新策略模型和价值函数模型的参数，执行步骤二。

本实施例中，采用DNN优化器更新策略模型的参数：

其中，θ为策略模型的参数；α为策略模型的学习率；表示对策略模型参数θ的梯度，用于调整参数以最大化或最小化某个目标函数；N表示经验池中的样本数量；对动作a的梯度；/>表示对策略模型参数θ的梯度；s表示状态。

本实施例中，采用DDPG算法更新价值函数模型的参数：

其中，为价值函数模型的参数；β表示价值函数模型的学习率；/>表示对参数/>的梯度，用于调整参数以最小化损失函数；loss表示损失函数，用于衡量预测值y和实际值之间的差异；y表示价值函数模型的价值估计值；/>表示目标网络在当前时间歩的输出；s表示状态；a表示动作。

步骤七：以最优策略得到风嘴外形的设计变量，如图7所示，为风嘴气动优化前后箱梁主梁断面的周围压力云图。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：包括如下步骤：

步骤三：建立智能体，所述智能体采用深度强化学习双模型、包括策略模型和价值函数模型；策略模型以风嘴外形的设计变量为状态，根据环境与奖励值以选择执行的动作并产生新的风嘴外形设计变量；价值函数模型以风嘴外形变化导致的目标函数值的线性组合为奖励函数，对策略模拟选择执行的动作策略进行价值评估；初始化策略模型参数和价值函数模型参数；

步骤七：以最优策略得到风嘴外形的设计变量。

2.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤一中，目标函数为：

约束条件为：

3.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤三中，奖励函数由各个气动参数值进行线性加权求和得到。

4.根据权利要求3所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：奖励函数为目标函数值的线性组合：

r＝-|C_l|-λ·|C_m|

5.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤三中，价值函数模型的价值估计为：

6.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤四中，损失函数表示为：

7.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤六中，采用DNN优化器更新策略模型的参数：

8.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤六中，采用DDPG算法更新价值函数模型的参数：

9.根据权利要求1所述基于深度强化学习的扁平钢箱梁风嘴气动优化方法，其特征在于：所述步骤二中，包括如下步骤：