CN112698572B

CN112698572B - 一种基于强化学习的结构振动控制方法、介质及设备

Info

Publication number: CN112698572B
Application number: CN202011534560.7A
Authority: CN
Inventors: 董龙雷; 周嘉明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-08-16
Anticipated expiration: 2040-12-22
Also published as: CN112698572A

Abstract

本发明公开了一种基于强化学习的结构振动控制方法、介质及设备，建立被控系统的动力学方程和奖励函数；建立策略网络、目标策略网络、价值网络和目标价值网络并初始化；建立回放池；实现数据交互，同时将控制信号、反馈信号和奖励信号存储在回放池中，通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数，采用软更新机制对目标策略网络和目标价值网络的参数进行更新；得到最终的策略神经网络作为控制器；部署控制器，将传感器采集到的反馈信号作为神经网络的输入，通过神经网络的正向计算后输出控制信号，完成结构振动的控制操作。本发明为复杂结构振动控制提高了一种更加智能的控制方法，具有优异的控制性能和工程实用性。

Description

一种基于强化学习的结构振动控制方法、介质及设备

技术领域

本发明属于振动控制技术领域，具体涉及一种基于强化学习的结构振动控制方法、介质及设备。

背景技术

振动控制方法主要有三种:被动控制、主动控制和半主动控制。被动控制不需要外界施加能量，只需一些无源的弹性或阻尼元件，其优势在于结构简单、可靠性高，但是对低频振动的抑制效果较差。随着结构对振动环境要求的不断提高，加之控制理论、作动传感技术和计算机科学的不断发展，振动主动/半主动控制技术已经在航空航天、车辆和土木工程等领域取得了诸多成功的应用。与被动控制相比，主动/半主动控制有较强的灵活性和环境适应性。

影响振动主动/半主动控制效果的关键因素之一是控制算法。PID是一种使用最为广泛的控制算法，目前已经在很多结构上进行了非常成熟的应用，但是PID为代表的经典控制理论仅适用于单输入单输出问题，对于多输入多输出系统就无能为力了。因此，利用状态变量、基于时域分析的的现代控制理论应运而生，这些方法也被应用到振动主动控制领域，其中最常见的算法包括线性二次调节器(Linear Quadratic Regulator，LQR)和线性二次高斯控制(Linear Quadratic Gaussian，LQG)。控制器的设计通常依赖于系统精确的数学模型，但是实际中系统往往存在不确定性、非线性等复杂特征，这使得数学模型的精度较差，或者甚至无法建立数学模型。为此，学者们提出了一些智能控制方法，主要包括模糊控制、专家系统、自适应控制以及神经网络控制等。

现有的智能控制方法非常依赖人类知识，并未体现出真正的智能。比如，模糊控制非常依靠控制专家或操作者的经验知识，但若缺乏这样的控制经验，很难设计出高水平的模糊控制器；神经网络控制由于监督学习的固有范式，需要提供大量标签数据供神经网络进行训练，而标签数据的产生需要人类知识的支撑，所以神经网络控制实际上是人类知识的“拟合器”；自适应控制的主要思路是凑李雅普诺夫(Lyapunov)函数，该过程仍然需要大量的专家知识。因此，针对具有不确定性、非线性特性的复杂系统，需要提供一种更加智能的振动控制方法，减少人类知识在控制器设计中的参与度。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于强化学习的结构振动控制方法、介质及设备，采用强化学习算法设计神经网络控制器，不涉及专家经验，完全由算法自主学习完成，为具有不确定性、非线性等特征的复杂系统提供一种更加智能的振动控制方法。

本发明采用以下技术方案：

一种基于强化学习的结构振动控制方法，包括以下步骤：

S1、建立被控系统的动力学方程和奖励函数；

S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化；建立用于存储学习样本的回放池；

S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程，并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中，实现步骤S1和步骤S2之间的数据交互，同时将控制信号、反馈信号和奖励信号存储在回放池中，通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数，采用软更新机制对目标策略网络和目标价值网络的参数进行更新；记录并观察奖励信号的变化情况，当奖励信号处于收敛平稳趋势时终止训练，得到最终的策略神经网络作为控制器；

S4、将步骤S3得到的控制器部署在软件或硬件平台上，将传感器采集到的反馈信号作为神经网络的输入，通过神经网络的正向计算后输出控制信号，完成结构振动的控制操作。

具体的，步骤S1中，通过经验或者系统辨识方法估计参数分布的形式，确定结构动力学微分方程中参数的不确定性；微分方程采用四阶龙格－库塔法进行数值求解，并定义控制信号的输入接口和反馈信号的输出接口。

具体的，步骤S1中，t时刻的奖励信号r_t为：

其中，x_i,t表示t时刻i位置处的位移响应；α_i表示权重系数。

具体的，步骤S3中，回放池的数据为(s_t,a_t,r_t,s_t+1)，s_t和s_t+1表示t时刻和t+1时刻的观测信号，a_t表示t时刻的控制信号，r_t表示t时刻的奖励信号；采用堆栈溢出的形式对数据进行存储，随机采样的方式进行数据调用；策略网络和目标策略网络为架构相同的多层神经网络，输入为系统的反馈信号，输出为控制信号；价值网络和目标价值网络为架构相同的多层神经网络，输入为系统的反馈信号和控制信号，输出为控制信号的价值。

具体的，步骤S3中，计算策略网络和价值网络损失函数的梯度，利用Adam优化算法对神经网络的参数进行更新；通过软更新方式将策略网络和价值网络复制给对应的目标网络；在训练过程中，对策略网络的输出μ(s_t|θ^μ)添加均值为0的正态分布随机噪声，得到控制信号a_t＝μ(s_t|θ^μ)+N(0,σ)；训练完成后，策略网络的输出作为控制信号，即a_t＝μ(s_t|θ^μ)。

进一步的，策略网络和价值网络损失函数具体为：

y_t＝r_t+γQ′(s_t+1,μ^′(s_t+1|θ^μ′)|θ^Q′)

其中，

和

表示策略网络和价值网络的损失函数；θ^μ、θ^μ′、θ^Q和θ^Q′表示策略网络、目标策略网络、价值网络和目标价值网络的参数；μ(·)、μ′(·)、Q(·)和Q′(·)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数；s_t、a_t和r_t表示t时刻的反馈信号、控制信号和回报；s_t+1表示t+1时刻的测量信号；γ表示回报的衰减系数；N是样本数目，t＝1,2,…,N。

进一步的，软更新机制表示为：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，θ^μ、θ^μ′、θ^Q和θ^Q′表示策略网络、目标策略网络、价值网络和目标价值网络的参数，τ表示更新系数。

具体的，步骤S4中，控制器的计算规模通过下式进行估计，两个隐含层的神经网络具体为：

o_1,t＝g(W₁s_t+b₁)

o_2,t＝g(W₂o_1,t+b₂)

a_t+1＝h(W₃o_2,t+b₃)

其中，o_1,t和o_2,t表示两个隐含层的输出，W和b表示神经网络的权重矩阵和偏置向量，g(·)和h(·)表示激活函数。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

(1)强化学习算法与被控系统通过大量数据交互进行学习，以最大化奖励为目标对神经网络控制器的参数进行优化和更新，不需要提供标签数据，过程不依赖专家经验，控制器完全由强化学习算法自主设计。

(2)控制器可以通过离线和在线两种方式进行设计，通过大量的模拟数据或试验数据，可以使强化学习算法从数据中挖掘出系统中包含的不确定性和非线性特征，进而设计出性能优异的控制器，实现复杂系统的振动智能控制。

(3)控制器的参数是固定的，具有定参数自适应特性，在控制过程中不需要实时更新；其次，该控制器模型规模小，方便部署，可以非常快速地计算反馈信号，在一定程度上缓解了控制器的时滞性；另外，控制器允许高维数据的输入和输出，可以处理更丰富的测量数据，提供更精确的控制信号，非常适用于多输入多输出系统。

(4)通过数小时的学习，强化学习设计的控制器与人类专家设计的控制器在性能上表现相当，甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。

本发明一种基于强化学习的结构振动控制方法，强化学习算法与被控系统通过大量数据交互进行学习，以最大化奖励为目标对神经网络控制器的参数进行优化和更新，不需要提供标签数据，过程不依赖专家经验，控制器完全由强化学习算法自主设计。控制器可以通过离线和在线两种方式进行设计，通过大量的模拟数据或试验数据，可以使强化学习算法从数据中挖掘出系统中包含的不确定性和非线性特征，进而设计出性能优异的控制器，实现复杂系统的振动智能控制。控制器的参数是固定的，具有定参数自适应特性，在控制过程中不需要实时更新；其次，该控制器模型规模小，方便部署，可以非常快速地计算反馈信号，在一定程度上缓解了控制器的时滞性；另外，控制器允许高维数据的输入和输出，可以处理更丰富的测量数据，提供更精确的控制信号，非常适用于多输入多输出系统。通过数小时的学习，强化学习设计的控制器与人类专家设计的控制器在性能上表现相当，甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。

进一步的，建立被控系统的动力学方程可以对系统参数的不确定性进行大量的模拟，从而产生大量的数据供强化学习算法设计神经网络控制器，动力学方程构建的这种虚拟环境可以很大程度上加快控制器设计周期，同时降低设计成本。

进一步的，奖励信号(收益)定义了强化学习的目标，是改变控制策略的主要基础，如果策略网络输出的控制信号导致了低收益，那么强化学习算法会更新策略网络的参数从而优化策略，使得在未来的这种情况下输出其他一些控制信号。

进一步的，从经验池中随机采样数据供强化学习训练，这样可以确保学习样本的独立同分布性，同时减少时序信号中的相关性，从而保证强化学习的稳定性。

进一步的，在训练过程中，对策略网络的输出添加一定的随机噪声作为控制信号，这样可以使算法探索潜在的更优控制策略，噪声的量级随着训练逐渐递减，从而保证“探索”和“开发”之间的平衡，噪声添加主要通过正态分布来实现；一旦完成训练，控制器在后续的使用中不再添加探索噪声。

进一步的，策略网络和价值网络的损失函数用于计算梯度信息，神经网络参数更新均采用基于梯度的BP(Back-propagation)算法，所以梯度是神经网络参数跟新的基础。

进一步的，目标策略网络和目标价值网络的参数更新采用“软更新”机制，这样可以使得目标网络计算的目标值缓慢变化，从而大大提高学习的稳定性。

进一步的，神经网络控制器的隐含层个数和神经元个数很小，对硬件资源的要求不高，可以很容易实现硬件部署，非常快速地计算反馈信号，在一定程度上缓解了控制器的时滞性。

综上所述，本发明为复杂结构振动控制提高了一种更加智能的控制方法，具有优异的控制性能和工程实用性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为强化学习算法DDPG流程示意图；

图2为结构振动智能控制工作示意图；

图3为单自由度系统的动力学模型图；

图4为单自由度系统随机控制时域结果图；

图5为单自由度系统位移减振效果图；

图6为车辆1/4悬架系统的动力学模型图；

图7为车辆1/4悬架系统振动控制时域结果图；

图8为车辆1/4悬架系统位移减振效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

请参阅图1，本发明一种基于强化学习的结构振动控制方法，包括以下步骤：

S1、被控系统动力学方程和奖励函数

S101、建立被控系统的动力学方程，通过经验或者系统辨识方法估计参数分布的形式，从而确定结构动力学微分方程中参数的不确定性；微分方程采用四阶龙格－库塔法进行数值求解，并定义控制信号的输入接口和反馈信号的输出接口；

S102、奖励函数是影响强化学习算法学习的关键因素，奖励信号的设置与控制目标密切相关；

以位移控制目标为例，奖励信号表示为：

其中，r_t表示t时刻的奖励信号，是一个标量；x_i,t表示t时刻i位置处的位移响应；α_i表示权重系数。

奖励信号为单目标或多目标，由控制需求决定；奖励函数是控制器对系统控制能力的评价指标，是强化学习算法对神经网络控制器参数优化的重要依据。

S2、强化学习算法

强化学习算法采用深度确定性策略梯度(Deep Deterministic PolicyGradient，DDPG)，这是一种基于actor-critic框架的强化学习算法，其特点是能够在连续动作空间上更有效地学习，其流程如1所示，具体步骤描述如下：

S201、建立回放池(Replay buffer)

回放池用于存储数据和数据采样，数据为(s_t,a_t,r_t,s_t+1)，s_t和s_t+1表示t时刻和t+1时刻的观测信号，a_t表示t时刻的控制信号，r_t表示t时刻的奖励信号。

采用堆栈溢出的形式对数据进行存储，随机采样的方式进行数据调用，回放池的大小设置为10⁶，采样大小为256；数据回放机制有效地降低数据样本的时序相关性，提升算法的学习能力。

S202、建立策略网络(Policy network)和目标策略网络(Target policynetwork)

策略网络和目标策略网络是架构相同的多层神经网络，其输入为系统的反馈信号，输出为控制信号。神经网络具有2个隐含层，每层32个神经元，隐含层的激活函数采用线性整流函数(ReLU)，输出层的激活函数采用双曲正切函数(tanh)。

S203、建立价值网络(Value network)和目标价值网络(Target value network)

价值网络和目标价值网络是架构相同的多层神经网络，其输入为系统的反馈信号和控制信号，输出为控制信号的价值。神经网络具有2个隐含层，每层32个神经元，隐含层的激活函数采用线性整流函数(ReLU)，输出层采用线性激活函数。

S204、策略网络和价值网络的参数更新

计算策略网络和价值网络损失函数的梯度，利用Adam优化算法对神经网络的参数进行更新，学习率设置为α＝1^-5和β＝1^-4，具体的损失函数为：

y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)

其中，

和

S205、目标网络的参数更新

目标网络参数的更新不需要计算梯度，而是通过一种“软更新(Soft update)”的方式将策略网络和价值网络复制给对应的目标网络。

“软更新”机制表示为：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

其中，τ表示更新系数，一般τ＜＜1。“软更新”的目的是为了减少目标计算与当前值的相关性，从而使学习过程更加稳定，易于收敛。

S3、控制器设计；

S301、数据交互

将神经网络控制器输出的控制信号传递给动力学方程，并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递给强化学习算法，实现强化学习算法和动力学系统之间的数据交互。

S302、探索噪声

在训练过程中，对策略网络的输出添加一定的随机噪声作为控制信号，这样可以使算法探索潜在的更优控制策略，噪声的量级随着训练逐渐递减，从而保证“探索”和“开发”之间的平衡，噪声添加主要通过正态分布实现；一旦完成训练，控制器在后续的使用中不再添加探索噪声。

S303、记录并观察奖励信号的变化，当奖励信号处于收敛平稳趋势时，即可保存策略神经网络的参数，并终止训练。

S4、控制器部署

训练得到的策略神经网络就是所设计的结构振动智能控制器。将策略神经网络的架构和参数部署在软件平台或者硬件平台上即可使用，神经网络控制器的具体使用框架如2所示。

控制器(以两个隐含层的神经网络为例)的计算规模通过下式进行估计

o_1,t＝g(W₁s_t+b₁)

o_2,t＝g(W₂o_1,t+b₂)

a_t+1＝h(W₃o_2,t+b₃)

其中，o_1,t和o_2,t表示两个隐含层的输出，W和b表示神经网络的权重矩阵和偏置向量，g(·)和h(·)表示激活函数，如ReLU、tanh等。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于强化学习的结构振动控制的操作，包括：建立被控系统的动力学方程，根据奖励机制计算奖励信号；建立回放池、策略网络、目标策略网络、价值网络和目标价值网络，更新策略网络和价值网络的参数，采用强化学习算法实现目标网络的参数更新；将神经网络控制器输出的控制信号传递给建立的动力学方程，并将动力学方程计算得到的反馈信号和奖励信号传递给强化学习算法，实现强化学习算法和动力学系统之间的数据交互；记录并观察奖励曲线的变化，当奖励曲线处于收敛平稳趋势时终止训练，得到策略神经网络；根据得到的策略神经网络部署控制器，完成结构振动控制。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：建立被控系统的动力学方程，根据奖励机制计算奖励信号；建立回放池、策略网络、目标策略网络、价值网络和目标价值网络，更新策略网络和价值网络的参数，采用强化学习算法实现目标网络的参数更新；将神经网络控制器输出的控制信号传递给建立的动力学方程，并将动力学方程计算得到的反馈信号和奖励信号传递给强化学习算法，实现强化学习算法和动力学系统之间的数据交互；记录并观察奖励曲线的变化，当奖励曲线处于收敛平稳趋势时终止训练，得到策略神经网络；根据得到的策略神经网络部署控制器，完成结构振动控制。

通过两个数值仿真案例来验证基于强化学习的结构振动智能控制方法的有益效果，第一个是具有参数不确定的单自由度系统，第二个是具有不确定性和非线性的车辆1/4悬架模型。

单自由度系统

单自由度系统的动力学模型如图3所示，其动力学控制方程的表达式为

其中，m、c和k表示系统的质量、阻尼和刚度；

和

表示质量块m的位移、速度和加速度；u和

表示基础激励的位移和速度；f_c表示压电作动器的作动器，与驱动电压成线性关系。

请参阅图4和图5，单自由度系统的不确定性主要考虑m、c和k参数的不确定性。m、c和k参数的不确定性范围设置为20％，即m∈[0.8m₀,1.2m₀]，c∈[0.8c₀,1.2c₀]，k∈[0.8k₀,1.2k₀]，其中m₀＝1kg，c₀＝3Ns/m，k₀＝100N/m。控制器的输入是一个一维向量

输出则是一个标量电压。

位移控制效果如4所示。对于不确定系统，本发明所提的智能控制方法对随机振动控制效果十分优异。为了更直观地体现控制器的效果，在1000组白噪声激励下测试控制器的性能，位移RMS值的对比结果如5所示。随着不确定性的增加，控制器的性能出现极微的下降。在60％不确定性情况下，强化学习控制策略可以实现96.59％的振动量级衰减，方差仅有0.035％，相对于20％的不确定性，控制效果下降幅度不足1％。这表明在系统参数不确定性范围预估保守的情况下，控制器仍具有优异的泛化性能，控制效果仍然非常稳定。

车辆1/4悬架

车辆1/4悬架系统的动力学模型如图6所示，其动力学控制方程的表达式为：

其中，m₁和m₂分别表示簧载质量和非簧载质量；k₁和k₂分别表示弹簧刚度和轮胎刚度；c₁表示不可控阻尼系数；f_c表示磁流变阻尼器的输出阻尼力，α₀、β₀、γ、α₁和β₁均表示描述控制电流与阻尼力关系的参数；i表示控制电流，i∈[0A,3A]。本算例中的磁流变阻尼器具有典型的强非线性特性，这给传统控制器的设计带来了很大的困难。系统参数m₁、m₂、k₁、k₂和c₁的不确定性范围设置为20％。控制器的输入是一个一维向量

输出则是一个标量电流。

车辆1/4悬架系统m₁的位移控制效果如图7所示。对于具有不确定性和非线性的系统，本发明所提的智能控制方法对随机振动控制效果十分优异。为了更好地说明该方法的性能，引入sky-hook控制策略作为对比，sky-hook控制策略是车辆悬架半主动控制领域应用最为广泛的控制策略描述为：

对比被动控制和半主动控制下簧载质量块m₁和非簧载质量块m₂的位移RMS衰减量，结果如图8所示。在20％不确定性下，sky-hook对簧载质量块m₁的控制效果为46.80％，方差为1.55％；而强化学习控制策略可以实现74.39％的控制效果，且方差仅有0.24％，比sky-hook的控制性能至少高出25％，且控制效果更加稳定。对于非簧载质量块m₂，sky-hook的控制效果比强化学习控制策略高出约1％。

综上所述，本发明一种基于强化学习的结构振动控制方法、介质及设备，通过仿真控制分析，该方法可以实现具有参数不确定性和非线性系统的振动控制，通过数小时的学习，强化学习设计的控制器与人类专家设计的控制器在性能上表现相当，甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于强化学习的结构振动控制方法，其特征在于，包括以下步骤：

S1、建立被控系统的动力学方程和奖励函数，t时刻的奖励信号r_t为：

r_t＝-∑α_i|x_i，t-0|

其中，x_i，t表示t时刻i位置处的位移响应；α_i表示权重系数；

计算策略网络和价值网络损失函数的梯度，利用Adam优化算法对神经网络的参数进行更新；通过软更新方式将策略网络和价值网络复制给对应的目标网络；在训练过程中，对策略网络的输出μ(s_t|θ^μ)添加均值为0的正态分布随机噪声，得到控制信号a_t＝μ(s_t|θ^μ)+N(0，σ)；训练完成后，策略网络的输出作为控制信号，即a_t＝μ(s_t|θ^μ)；

策略网络和价值网络损失函数具体为：

y_t＝r_t+γQ′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)

其中，

和

表示策略网络和价值网络的损失函数；θ^μ、θ^μ′、θ^Q和θ^Q′表示策略网络、目标策略网络、价值网络和目标价值网络的参数；μ(·)、μ′(·)、Q(·)和Q′(·)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数；s_t、a_t和r_t表示t时刻的反馈信号、控制信号和回报；s_t+1表示t+1时刻的测量信号；γ表示回报的衰减系数；N是样本数目，t＝1，2，…，N；

软更新机制表示为：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθμ+(1-τ)θ^μ′

其中，θ^μ、θ^μ′、θ^Q和θ^Q′表示策略网络、目标策略网络、价值网络和目标价值网络的参数，τ表示更新系数，回放池的数据为(s_t，a_t，r_t，s_t+1)，s_t和s_t+1表示t时刻和t+1时刻的观测信号，a_t表示t时刻的控制信号，r_t表示t时刻的奖励信号；采用堆栈溢出的形式对数据进行存储，随机采样的方式进行数据调用；策略网络和目标策略网络为架构相同的多层神经网络，输入为系统的反馈信号，输出为控制信号；价值网络和目标价值网络为架构相同的多层神经网络，输入为系统的反馈信号和控制信号，输出为控制信号的价值；

S4、将步骤S3得到的控制器部署在软件或硬件平台上，将传感器采集到的反馈信号作为神经网络的输入，通过神经网络的正向计算后输出控制信号，完成结构振动的控制操作，控制器的计算规模通过下式进行估计，两个隐含层的神经网络具体为：

o_1，t＝g(W₁s_t+b₁)

o_2，t＝g(W₂o_1，t+b₂)

a_t+1＝h(W₃o_2，t+b₃)

其中，o_1，t和o_2，t表示两个隐含层的输出，W和b表示神经网络的权重矩阵和偏置向量，g(·)和h(·)表示激活函数。

2.根据权利要求1所述的基于强化学习的结构振动控制方法，其特征在于，步骤S1中，通过经验或者系统辨识方法估计参数分布的形式，确定结构动力学微分方程中参数的不确定性；微分方程采用四阶龙格-库塔法进行数值求解，并定义控制信号的输入接口和反馈信号的输出接口。

3.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1或2所述的方法中的任一方法。

4.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1或2所述的方法中的任一方法的指令。