CN117807895B

CN117807895B - 一种基于深度强化学习的磁流变阻尼器控制方法和装置

Info

Publication number: CN117807895B
Application number: CN202410218474.7A
Authority: CN
Inventors: 杨旸; 张宗亮; 杨再宏; 冯业林; 郑大伟; 黄青富; 宋洋; 王�义; 罗军尧; 李函逾
Original assignee: PowerChina Kunming Engineering Corp Ltd
Current assignee: PowerChina Kunming Engineering Corp Ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-06-04
Anticipated expiration: 2044-02-28
Also published as: CN117807895A

Abstract

本发明公开了一种基于深度强化学习的磁流变阻尼器控制方法和装置，属于人工智能及智能建造技术领域。该方法包括以下步骤：建立磁流变阻尼器控制系统模型，建立磁流变阻尼器控制系统的微分方程，采用Bouc‑Wen模型建立磁流变阻尼器模型；选择深度Q‑learning作为深度强化学习模型并设置模型动作和状态，建立奖励评价函数；采集学习训练数据，模型训练输出模型参数，利用训练得到的模型对结构采用磁流变阻尼器进行减振控制。本发明通过深度强化学习引入深度神经网络函数拟合的方法，以预测连续状态值。该方法的应用有望提高磁流变阻尼器的控制精度，从而进一步增强其减振控制效果，为解决磁流变阻尼器控制中的挑战提供了新的途径。

Description

一种基于深度强化学习的磁流变阻尼器控制方法和装置

技术领域

本发明属于人工智能及智能建造技术领域，具体的涉及一种基于深度强化学习的磁流变阻尼器控制方法和装置。

背景技术

磁流变阻尼器因其显著的非线性特性而备受关注。为充分发挥其瞬变性能，必须采用有效的半主动控制策略。传统的半主动控制方法通常通过调整两个极端电流来操控磁流变阻尼器，然而，这种方法难以最大程度地发挥磁流变阻尼器在不同电流下的耗能减振控制能力。

强化学习作为一种智能体通过与环境交互、探索式学习的方法，已经逐渐成熟，并在机器学习和人工智能领域取得了显著进展。其简单易行、通用性强、鲁棒性好的特点，使其特别适用于解决各种不确定环境下的非线性问题。然而，传统的强化学习方法中的Q-learning算法采用表格存储状态值，这在处理磁流变阻尼器控制结构振动时存在问题。由于磁流变阻尼器的状态是连续的，存在无限个状态动作对，无法以表格形式记录各个状态动作对的Q值。

深度强化学习通过引入深度神经网络函数拟合的思路，以预测连续状态值。这一方法的应用可以提高磁流变阻尼器的控制精度，进一步增强其减振控制效果。本发明创新的方法为解决磁流变阻尼器控制中的挑战提供了新的途径。

发明内容

根据本发明第一方面，本发明请求保护一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，包括：

建立磁流变阻尼器控制系统模型，确定减振结构及磁流变阻尼器数量及控制位置，确定所述磁流变阻尼器控制系统的微分方程，采用Bouc-Wen模型建立磁流变阻尼器模型，计算所述磁流变阻尼器控制系统的控制力；

采用深度Q-learning学习模型，由深度神经网络表示Q值函数，在所述深度Q-learning学习模型中将电流设置为磁流变阻尼器控制动作，将速度作为状态变量，建立奖励评价函数，以评估每个步骤的性能；

求解磁流变阻尼器控制系统的微分方程，在不同状态下施加不同动作，收集对应的数据；

使用收集的数据对所述深度Q-learning学习模型进行训练，通过最小化Q值函数的误差来优化网络参数，输出所述深度Q-learning学习模型的模型参数；

采用训练得到的模型对磁流变阻尼器进行减振控制；

所述使用收集的数据对所述深度Q-learning学习模型进行训练，通过最小化Q值函数的误差来优化网络参数，输出所述深度Q-learning学习模型的模型参数，还包括：

获取环境初始状态，从时间步t=1到T进行循环更新目标网格；

根据当前网络，基于/>-贪婪策略选择动作/>；

执行动作，获得回报/>，环境状态变为/>，将/>储存到回放池R中；若R中数据足够，从R中采用N个数据{/>}i=1,…,N；

对于每个数据，用目标网络计算；

最小化目标损失，以此更新当前网络，更新目标网络直到t=T；

模型验证，在验证集上测试训练好的深度Q-learning学习模型；

采用Bouc-Wen模型建立磁流变阻尼器模型，计算所述磁流变阻尼器控制系统的控制力，还包括：

计算公式如下所示：

；

式中：为磁流变减振器阻尼N；/>为与磁流变屈服应力相关的模型参数N/m；/>为弹簧刚度N/m；/>为磁流变材料屈服后黏性系数N·s/m；/>和/>为磁流变阻尼器活塞和缸体的相对位移m和相对速度m/s；/>为滞变位移m；/>为弹簧的初始变形m；/>为常数，由磁流变阻尼器结构特性决定。

进一步的，所述采用深度Q-learning学习模型，由深度神经网络表示Q值函数，在所述深度Q-learning学习模型中将电流设置为磁流变阻尼器控制动作，将速度作为状态变量，建立奖励评价函数，以评估每个步骤的性能，还包括：

选择深度Q-learning学习模型作为深度强化学习模型，由深度神经网络表示Q值函数，配置更新规则；

在模型中将电流I设置为磁流变阻尼器控制动作，将速度v作为状态变量s；

建立奖励评价函数，以评估每个步骤的性能。

进一步的，所述求解磁流变阻尼器控制系统的微分方程，在不同状态下施加不同动作，收集对应的数据，还包括：

求解磁流变阻尼器控制系统的微分方程，通过引入状态向量，将运动方程转化为状态方程；

将模型的状态参数vt作为深度Q-learning学习模型的输入，构建状态集V，即V={v1,v2,…,vt}，t表示不同时间；将控制电流It作为深度Q-learning学习模型的输出，构建动作集I，即I={I1,I2,…,It}。

进一步的，所述采用训练得到的模型对磁流变阻尼器进行减振控制，还包括：

采用训练得到的模型，通过输入深度Q-learning学习得到的电流值对结构采用磁流变阻尼器进行减振控制；

通过收集磁流变阻尼器对结构的减振后的速度响应与未采用磁流变阻尼器对结构进行减振控制速度响应进行对比，评价基于深度强化学习的磁流变阻尼器控制方法的减振控制效果。

进一步的，所述方法还包括：

磁流变阻尼器控制系统其运动微分方程表示为：

；

式中：K为刚度矩阵；为质量矩阵；/>为阻尼矩阵；

为外部激励；/>为磁流变阻尼器提供的控制力；

和/>为结构加速度、速度和位移向量；

和/>分别为外部激励和磁流变阻尼力指示矩阵。

进一步的，所述选择深度Q-learning学习模型作为深度强化学习模型，由深度神经网络表示Q值函数，配置更新规则，还包括：

更新规则如下：

；

其中，是状态s下采取动作/>的Q值，/>是学习率，r是即时奖励，/>是折扣因子，s'是下一个状态，a'是在s'下选择的动作；

目标网络的Q值更新公式如下：

；

上式中是当前的Q值网络，而/>是用于计算目标Q值的目标网络；目标网络的参数会定期更新为当前网络的参数；

深度Q-learning的损失函数通常采用均方误差MSE来度量Q值的预测误差，即：

；

其中N是样本数量，是经验元组；

所述建立奖励评价函数，以评估每个步骤的性能，还包括：

奖励评价函数如下所示：

；

其中，为所述奖励评价函数；/>为磁流变阻尼器结构在第/>个时刻的结构响应；/>为所述磁流变阻尼器处于激活状态下的结构速度响应；/>为所述磁流变阻尼器处于未激活状态下的结构速度响应。

进一步的，所述求解磁流变阻尼器控制系统的微分方程，通过引入状态向量，将运动方程转化为状态方程，还包括：

通过引入状态向量

；

则运动方程可以转化为状态方程：

；

式中：和/>为描述结构系统特性矩阵；/>和/>为磁流变阻尼器的性能参数矩阵；/>为外部激励的位置矩阵，在磁流变阻尼器减振仿真分析中通过求解状态方程来得到在不同动作It下的结构相应状态vt。

进一步的，所述根据当前网络，基于/>-贪婪策略选择动作/>，还包括：

-贪婪策略的数学表达式为：/>；

对于采用最大化值函数的策略，其最优动作被选中的概率是，每个非最优动作被选中的概率为/>，采用/>贪婪策略时，每个动作都存在被选中的可能，通过多次学习生成不同的学习路径。

根据本发明第二方面，本发明请求保护一种基于深度强化学习的磁流变阻尼器控制装置，其特征在于，包括：

系统模型构建模块，确定减振结构及磁流变阻尼器数量及控制位置，确定所述磁流变阻尼器控制系统的微分方程，采用Bouc-Wen模型建立磁流变阻尼器模型，计算所述磁流变阻尼器控制系统的控制力；

学习模型构建模块，采用深度Q-learning学习模型，由深度神经网络表示Q值函数，在所述深度Q-learning学习模型中将电流设置为磁流变阻尼器控制动作，将速度作为状态变量，建立奖励评价函数，以评估每个步骤的性能；

数据采集模块，求解磁流变阻尼器控制系统的微分方程，在不同状态下施加不同动作，收集对应的数据；

模型训练模块，使用收集的数据对所述深度Q-learning学习模型进行训练，通过最小化Q值函数的误差来优化网络参数，输出所述深度Q-learning学习模型的模型参数；

减振控制模块，采用训练得到的模型对磁流变阻尼器进行减振控制；

所述一种基于深度强化学习的磁流变阻尼器控制装置用于执行所述的一种基于深度强化学习的磁流变阻尼器控制方法。

本发明公开了一种基于深度强化学习的磁流变阻尼器控制方法和装置，属于人工智能及智能建造技术领域。该方法包括以下步骤：建立磁流变阻尼器控制系统模型，建立磁流变阻尼器控制系统的微分方程，采用Bouc-Wen模型建立磁流变阻尼器模型；选择深度Q-learning作为深度强化学习模型并设置模型动作和状态，建立奖励评价函数；采集学习训练数据，模型训练输出模型参数，利用训练得到的模型对结构采用磁流变阻尼器进行减振控制。本发明通过深度强化学习引入深度神经网络函数拟合的方法，以预测连续状态值。该方法的应用有望提高磁流变阻尼器的控制精度，从而进一步增强其减振控制效果，为解决磁流变阻尼器控制中的挑战提供了新的途径。

附图说明

图1为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制方法的流程示意图；

图2为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制方法的二层框架结构模型示意图；

图3为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制方法的神经网络结构示意图；

图4为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制方法的深度强化学习训练过程示意图；

图5为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制方法的深度强化学习减振效果图；

图6为本发明实施例所涉及的一种基于深度强化学习的磁流变阻尼器控制装置的结构模块图。

具体实施方式

下面以一两层框架结构为例，如图1所示，在两层框架楼板分别安装两个阻尼器控制楼板振动。

本发明提供了一种基于深度强化学习的磁流变阻尼器控制方法，其构建流程如图2，包括以下步骤：

步骤1、建立模型；建立磁流变阻尼器控制系统模型。确定减振结构及磁流变阻尼器数量及控制位置，在此基础上建立磁流变阻尼器控制系统的微分方程，采用Bouc-Wen模型建立磁流变阻尼器模型为系统计算控制力。

步骤1-1建立磁流变阻尼器控制系统模型的微分方程，对于磁流变阻尼器控制系统其运动微分方程一般可以表示为：

；

式中：K为刚度矩阵；为质量矩阵；/>为阻尼矩阵；

为外部激励；/>为磁流变阻尼器提供的控制力；

和/>为结构加速度、速度和位移向量；

和/>分别为外部激励和磁流变阻尼力指示矩阵；

步骤1-2采用美国LORD公司生产的RD-8041-1MRD型磁流变阻尼器进行减振控制研究，同时采用Bouc-Wen模型建立磁流变阻尼器模型为系统计算控制力，根据磁流变阻尼器参数可得计算公式如下所示：

；

其中：

；

式中：为电流。

步骤2构建深度强化学习模型；选择深度Q-learning作为深度强化学习模型，该模型由深度神经网络表示Q值函数，在模型中将电流设置为磁流变阻尼器控制动作，将速度作为状态变量，定义状态和动作，建立奖励评价函数。

步骤2-1选择深度Q-learning作为深度强化学习模型，该模型由深度神经网络表示Q值函数，更新规则如下：

；

其中，是状态s下采取动作/>的Q值，/>是学习率，r是即时奖励，/>是折扣因子，s'是下一个状态，a'是在s'下选择的动作。

为了提高算法的稳定性，深度Q-learning引入了目标网络。目标网络的Q值更新公式如下：

；

上式中是当前的Q值网络，而/>是用于计算目标Q值的目标网络。目标网络的参数会定期更新为当前网络的参数。

深度Q-learning的损失函数通常采用均方误差（MSE）来度量Q值的预测误差，即：

；

其中N是样本数量，是经验元组。

步骤2-2在模型中将电流I设置为磁流变阻尼器控制动作，将速度v作为状态变量s；

步骤2-3建立奖励评价函数，以评估每个步骤的性能。奖励评价函数如下所示：

；

步骤3数据采集，通过求解磁流变阻尼器控制系统的微分方程，通过在不同状态下施加不同动作，收集数据用于训练深度Q-learning学习模型，得到Q-learning训练集。

步骤3-1求解磁流变阻尼器控制系统的微分方程，通过引入状态向量

；

则运动方程可以转化为状态方程：

；

式中：和/>为描述结构系统特性矩阵；/>和/>为磁流变阻尼器的性能参数矩阵；/>为外部激励的位置矩阵，在磁流变阻尼器减振仿真分析中通过求解状态方程来得到在不同动作I _t下的结构相应状态v _t。

步骤3-2将模型的状态参数v _t作为深度Q-learning的输入，构建状态集V作为输入集，即V={v₁,v₂,…,v_t}，t表示不同时间；将控制电流I _t作为深度Q-learning的输出，构建动作集I作为输出集，即I={I ₁,I ₂,…,I _t}。

步骤4，深度Q-learning学习模型的模型训练，使用采集的数据对模型进行训练，通过最小化Q值函数的误差来优化网络参数，完成深度Q-learning学习模型训练；模型验证，在验证集上测试训练好的深度Q-learning学习模型，输出模型参数，确保其在未见过的数据上具有良好的泛化性能。神经采用五层全链接神经网络，如图3所示，每次采用32个神经元，以ReLU作为激活函数，同时本次深度强化学习的学习率α=0.8；衰减系数γ=0.4；贪婪策略=0.1；学习次数为1000次。训练过程如图4所示。

步骤4-1获取环境初始状态，从时间步t=1到T进行循环更新目标网格，具体计算根据以下步骤；

步骤4-2根据当前网络，已/>-贪婪策略选择动作/>，贪婪策略/>值选择0.1。

步骤4-3执行动作，获得回报/>，环境状态变为/>，将/>储存到回放池R中；若R中数据足够，从R中采用N个数据{/>}_i=1,…,N。

步骤4-4对于每个数据，用目标网络计算。

步骤4-5最小化目标损失，以此更新当前网络/>，更新目标网络直到t=T。

步骤5采用训练得到的模型，对结构采用磁流变阻尼器进行减振控制，输入学习得到的电流对结构采用磁流变阻尼器进行减振控制，评价减振控制效果。

步骤5-1采用训练得到的模型，通过输入深度Q-learning学习得到的电流值对结构采用磁流变阻尼器进行减振控制。

步骤5-2通过收集磁流变阻尼器对结构的减振后的速度响应与未采用磁流变阻尼器对结构进行减振控制速度响应进行对比，同时采用了简单Bang-Bang、改进的简单Bang-Bang对磁流变阻尼器进行控制，评价基于深度强化学习的磁流变阻尼器控制方法的减振控制效果，减振效果如图5所示。

从表1中可以看出3种半主动控制策略中，深度强化学习策略效果最优，最大位移、速度和加速度响应分别减小了85.21%、88.15%和85.11%。对比其他两种半主动控制策略，强化学习策略相比简单Bang-Bang控制，最大位移、速度、加速度响应减振效果分别提高了5.21%、10.32%、10.85%。对比改进的简单Bang-Bang控制，深度强化学习在最大位移、速度、加速度响应减振效果分别提高了5.21%、8.8%、6.81%。因此本发明提出的一种基于深度强化学习的磁流变阻尼器控制方法取得了较好的减振效果。

综上所述，为解决当前技术面临的问题，本发明采用深度强化学习，并引入深度神经网络函数拟合的方法，以预测连续状态值。该方法的应用有望提升磁流变阻尼器的控制精度，进一步增强其减振控制效果。因此，本发明的创新方法为克服磁流变阻尼器控制中的挑战提供了新的途径。

根据本发明第二实施例，参照附图6，本发明请求保护一种基于深度强化学习的磁流变阻尼器控制装置，包括：

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，包括：

采用训练得到的模型对磁流变阻尼器进行减振控制；

获取环境初始状态，从时间步t=1到T进行循环更新目标网格；

根据当前网络，基于/>-贪婪策略选择动作/>；

执行动作，获得回报/>，环境状态变为/>，将/>储存到回放池R中；若R中数据足够，从R中采用N个数据{/>}_i=1,…,N；

对于每个数据，用目标网络计算；

最小化目标损失，以此更新当前网络，更新目标网络直到t=T，/>是用于计算目标Q值的目标网络，目标网络的参数会定期更新为当前网络的参数；

模型验证，在验证集上测试训练好的深度Q-learning学习模型；

计算公式如下所示：

；

式中：为磁流变减振器阻尼N；/>为与磁流变屈服应力相关的模型参数N/m；/>为弹簧刚度N/m；/>为磁流变材料屈服后黏性系数N·s/m；/>和/>为磁流变阻尼器活塞和缸体的相对位移m和相对速度m/s；/>为滞变位移m；/>为弹簧的初始变形m；/>为常数，由磁流变阻尼器结构特性决定；

所述求解磁流变阻尼器控制系统的微分方程，在不同状态下施加不同动作，收集对应的数据，还包括：

将模型的状态参数v _t作为深度Q-learning学习模型的输入，构建状态集V，即V={v₁,v₂,…,v_t}，t表示不同时间；将控制电流I _t作为深度Q-learning学习模型的输出，构建动作集I，即I={I ₁,I ₂,…,I _t}；

选择深度Q-learning学习模型作为深度强化学习模型，由深度神经网络表示Q值函数，配置更新规则，还包括：

更新规则如下：

；

目标网络的Q值更新公式如下：

；

其中N是样本数量，是经验元组；

所述建立奖励评价函数，以评估每个步骤的性能，还包括：

奖励评价函数如下所示：

；

其中，为所述奖励评价函数；/>为磁流变阻尼器结构在第/>个时刻的结构响应；为所述磁流变阻尼器处于激活状态下的结构速度响应；/>为所述磁流变阻尼器处于未激活状态下的结构速度响应。

2.如权利要求1所述的一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，所述采用深度Q-learning学习模型，由深度神经网络表示Q值函数，在所述深度Q-learning学习模型中将电流设置为磁流变阻尼器控制动作，将速度作为状态变量，建立奖励评价函数，以评估每个步骤的性能，还包括：

建立奖励评价函数，以评估每个步骤的性能。

3.如权利要求1所述的一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，

所述采用训练得到的模型对磁流变阻尼器进行减振控制，还包括：

4.如权利要求1所述的一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，所述方法还包括：

磁流变阻尼器控制系统其运动微分方程表示为：

；

式中：K为刚度矩阵；为质量矩阵；/>为阻尼矩阵；

为外部激励；/>为磁流变阻尼器提供的控制力；

和/>为结构加速度、速度和位移向量；

和/>分别为外部激励和磁流变阻尼力指示矩阵。

5.如权利要求4所述的一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，所述求解磁流变阻尼器控制系统的微分方程，通过引入状态向量，将运动方程转化为状态方程，还包括：

通过引入状态向量

；

则运动方程可以转化为状态方程：

；

6.如权利要求5所述的一种基于深度强化学习的磁流变阻尼器控制方法，其特征在于，所述根据当前网络，基于/>-贪婪策略选择动作/>，还包括：

-贪婪策略的数学表达式为：/>；

7.一种基于深度强化学习的磁流变阻尼器控制装置，其特征在于，包括：

所述一种基于深度强化学习的磁流变阻尼器控制装置用于执行如权利要求2-6任一项所述的一种基于深度强化学习的磁流变阻尼器控制方法。