CN112698572B - 一种基于强化学习的结构振动控制方法、介质及设备 - Google Patents

一种基于强化学习的结构振动控制方法、介质及设备 Download PDF

Info

Publication number
CN112698572B
CN112698572B CN202011534560.7A CN202011534560A CN112698572B CN 112698572 B CN112698572 B CN 112698572B CN 202011534560 A CN202011534560 A CN 202011534560A CN 112698572 B CN112698572 B CN 112698572B
Authority
CN
China
Prior art keywords
network
strategy
signal
target
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011534560.7A
Other languages
English (en)
Other versions
CN112698572A (zh
Inventor
董龙雷
周嘉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011534560.7A priority Critical patent/CN112698572B/zh
Publication of CN112698572A publication Critical patent/CN112698572A/zh
Application granted granted Critical
Publication of CN112698572B publication Critical patent/CN112698572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习的结构振动控制方法、介质及设备,建立被控系统的动力学方程和奖励函数;建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立回放池;实现数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;得到最终的策略神经网络作为控制器;部署控制器,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。本发明为复杂结构振动控制提高了一种更加智能的控制方法,具有优异的控制性能和工程实用性。

Description

一种基于强化学习的结构振动控制方法、介质及设备
技术领域
本发明属于振动控制技术领域,具体涉及一种基于强化学习的结构振动控制方法、介质及设备。
背景技术
振动控制方法主要有三种:被动控制、主动控制和半主动控制。被动控制不需要外界施加能量,只需一些无源的弹性或阻尼元件,其优势在于结构简单、可靠性高,但是对低频振动的抑制效果较差。随着结构对振动环境要求的不断提高,加之控制理论、作动传感技术和计算机科学的不断发展,振动主动/半主动控制技术已经在航空航天、车辆和土木工程等领域取得了诸多成功的应用。与被动控制相比,主动/半主动控制有较强的灵活性和环境适应性。
影响振动主动/半主动控制效果的关键因素之一是控制算法。PID是一种使用最为广泛的控制算法,目前已经在很多结构上进行了非常成熟的应用,但是PID为代表的经典控制理论仅适用于单输入单输出问题,对于多输入多输出系统就无能为力了。因此,利用状态变量、基于时域分析的的现代控制理论应运而生,这些方法也被应用到振动主动控制领域,其中最常见的算法包括线性二次调节器(Linear Quadratic Regulator,LQR)和线性二次高斯控制(Linear Quadratic Gaussian,LQG)。控制器的设计通常依赖于系统精确的数学模型,但是实际中系统往往存在不确定性、非线性等复杂特征,这使得数学模型的精度较差,或者甚至无法建立数学模型。为此,学者们提出了一些智能控制方法,主要包括模糊控制、专家系统、自适应控制以及神经网络控制等。
现有的智能控制方法非常依赖人类知识,并未体现出真正的智能。比如,模糊控制非常依靠控制专家或操作者的经验知识,但若缺乏这样的控制经验,很难设计出高水平的模糊控制器;神经网络控制由于监督学习的固有范式,需要提供大量标签数据供神经网络进行训练,而标签数据的产生需要人类知识的支撑,所以神经网络控制实际上是人类知识的“拟合器”;自适应控制的主要思路是凑李雅普诺夫(Lyapunov)函数,该过程仍然需要大量的专家知识。因此,针对具有不确定性、非线性特性的复杂系统,需要提供一种更加智能的振动控制方法,减少人类知识在控制器设计中的参与度。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于强化学习的结构振动控制方法、介质及设备,采用强化学习算法设计神经网络控制器,不涉及专家经验,完全由算法自主学习完成,为具有不确定性、非线性等特征的复杂系统提供一种更加智能的振动控制方法。
本发明采用以下技术方案:
一种基于强化学习的结构振动控制方法,包括以下步骤:
S1、建立被控系统的动力学方程和奖励函数;
S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立用于存储学习样本的回放池;
S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中,实现步骤S1和步骤S2之间的数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;记录并观察奖励信号的变化情况,当奖励信号处于收敛平稳趋势时终止训练,得到最终的策略神经网络作为控制器;
S4、将步骤S3得到的控制器部署在软件或硬件平台上,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作。
具体的,步骤S1中,通过经验或者系统辨识方法估计参数分布的形式,确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口。
具体的,步骤S1中,t时刻的奖励信号rt为:
Figure BDA0002852783420000031
其中,xi,t表示t时刻i位置处的位移响应;αi表示权重系数。
具体的,步骤S3中,回放池的数据为(st,at,rt,st+1),st和st+1表示t时刻和t+1时刻的观测信号,at表示t时刻的控制信号,rt表示t时刻的奖励信号;采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用;策略网络和目标策略网络为架构相同的多层神经网络,输入为系统的反馈信号,输出为控制信号;价值网络和目标价值网络为架构相同的多层神经网络,输入为系统的反馈信号和控制信号,输出为控制信号的价值。
具体的,步骤S3中,计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新;通过软更新方式将策略网络和价值网络复制给对应的目标网络;在训练过程中,对策略网络的输出μ(stμ)添加均值为0的正态分布随机噪声,得到控制信号at=μ(stμ)+N(0,σ);训练完成后,策略网络的输出作为控制信号,即at=μ(stμ)。
进一步的,策略网络和价值网络损失函数具体为:
yt=rt+γQ′(st+1(st+1μ′)|θQ′)
Figure BDA0002852783420000041
Figure BDA0002852783420000042
其中,
Figure BDA0002852783420000043
Figure BDA0002852783420000044
表示策略网络和价值网络的损失函数;θμ、θμ′、θQ和θQ′表示策略网络、目标策略网络、价值网络和目标价值网络的参数;μ(·)、μ′(·)、Q(·)和Q′(·)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数;st、at和rt表示t时刻的反馈信号、控制信号和回报;st+1表示t+1时刻的测量信号;γ表示回报的衰减系数;N是样本数目,t=1,2,…,N。
进一步的,软更新机制表示为:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,θμ、θμ′、θQ和θQ′表示策略网络、目标策略网络、价值网络和目标价值网络的参数,τ表示更新系数。
具体的,步骤S4中,控制器的计算规模通过下式进行估计,两个隐含层的神经网络具体为:
o1,t=g(W1st+b1)
o2,t=g(W2o1,t+b2)
at+1=h(W3o2,t+b3)
其中,o1,t和o2,t表示两个隐含层的输出,W和b表示神经网络的权重矩阵和偏置向量,g(·)和h(·)表示激活函数。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
(1)强化学习算法与被控系统通过大量数据交互进行学习,以最大化奖励为目标对神经网络控制器的参数进行优化和更新,不需要提供标签数据,过程不依赖专家经验,控制器完全由强化学习算法自主设计。
(2)控制器可以通过离线和在线两种方式进行设计,通过大量的模拟数据或试验数据,可以使强化学习算法从数据中挖掘出系统中包含的不确定性和非线性特征,进而设计出性能优异的控制器,实现复杂系统的振动智能控制。
(3)控制器的参数是固定的,具有定参数自适应特性,在控制过程中不需要实时更新;其次,该控制器模型规模小,方便部署,可以非常快速地计算反馈信号,在一定程度上缓解了控制器的时滞性;另外,控制器允许高维数据的输入和输出,可以处理更丰富的测量数据,提供更精确的控制信号,非常适用于多输入多输出系统。
(4)通过数小时的学习,强化学习设计的控制器与人类专家设计的控制器在性能上表现相当,甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。
本发明一种基于强化学习的结构振动控制方法,强化学习算法与被控系统通过大量数据交互进行学习,以最大化奖励为目标对神经网络控制器的参数进行优化和更新,不需要提供标签数据,过程不依赖专家经验,控制器完全由强化学习算法自主设计。控制器可以通过离线和在线两种方式进行设计,通过大量的模拟数据或试验数据,可以使强化学习算法从数据中挖掘出系统中包含的不确定性和非线性特征,进而设计出性能优异的控制器,实现复杂系统的振动智能控制。控制器的参数是固定的,具有定参数自适应特性,在控制过程中不需要实时更新;其次,该控制器模型规模小,方便部署,可以非常快速地计算反馈信号,在一定程度上缓解了控制器的时滞性;另外,控制器允许高维数据的输入和输出,可以处理更丰富的测量数据,提供更精确的控制信号,非常适用于多输入多输出系统。通过数小时的学习,强化学习设计的控制器与人类专家设计的控制器在性能上表现相当,甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。
进一步的,建立被控系统的动力学方程可以对系统参数的不确定性进行大量的模拟,从而产生大量的数据供强化学习算法设计神经网络控制器,动力学方程构建的这种虚拟环境可以很大程度上加快控制器设计周期,同时降低设计成本。
进一步的,奖励信号(收益)定义了强化学习的目标,是改变控制策略的主要基础,如果策略网络输出的控制信号导致了低收益,那么强化学习算法会更新策略网络的参数从而优化策略,使得在未来的这种情况下输出其他一些控制信号。
进一步的,从经验池中随机采样数据供强化学习训练,这样可以确保学习样本的独立同分布性,同时减少时序信号中的相关性,从而保证强化学习的稳定性。
进一步的,在训练过程中,对策略网络的输出添加一定的随机噪声作为控制信号,这样可以使算法探索潜在的更优控制策略,噪声的量级随着训练逐渐递减,从而保证“探索”和“开发”之间的平衡,噪声添加主要通过正态分布来实现;一旦完成训练,控制器在后续的使用中不再添加探索噪声。
进一步的,策略网络和价值网络的损失函数用于计算梯度信息,神经网络参数更新均采用基于梯度的BP(Back-propagation)算法,所以梯度是神经网络参数跟新的基础。
进一步的,目标策略网络和目标价值网络的参数更新采用“软更新”机制,这样可以使得目标网络计算的目标值缓慢变化,从而大大提高学习的稳定性。
进一步的,神经网络控制器的隐含层个数和神经元个数很小,对硬件资源的要求不高,可以很容易实现硬件部署,非常快速地计算反馈信号,在一定程度上缓解了控制器的时滞性。
综上所述,本发明为复杂结构振动控制提高了一种更加智能的控制方法,具有优异的控制性能和工程实用性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为强化学习算法DDPG流程示意图;
图2为结构振动智能控制工作示意图;
图3为单自由度系统的动力学模型图;
图4为单自由度系统随机控制时域结果图;
图5为单自由度系统位移减振效果图;
图6为车辆1/4悬架系统的动力学模型图;
图7为车辆1/4悬架系统振动控制时域结果图;
图8为车辆1/4悬架系统位移减振效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
请参阅图1,本发明一种基于强化学习的结构振动控制方法,包括以下步骤:
S1、被控系统动力学方程和奖励函数
S101、建立被控系统的动力学方程,通过经验或者系统辨识方法估计参数分布的形式,从而确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口;
S102、奖励函数是影响强化学习算法学习的关键因素,奖励信号的设置与控制目标密切相关;
以位移控制目标为例,奖励信号表示为:
Figure BDA0002852783420000091
其中,rt表示t时刻的奖励信号,是一个标量;xi,t表示t时刻i位置处的位移响应;αi表示权重系数。
奖励信号为单目标或多目标,由控制需求决定;奖励函数是控制器对系统控制能力的评价指标,是强化学习算法对神经网络控制器参数优化的重要依据。
S2、强化学习算法
强化学习算法采用深度确定性策略梯度(Deep Deterministic PolicyGradient,DDPG),这是一种基于actor-critic框架的强化学习算法,其特点是能够在连续动作空间上更有效地学习,其流程如1所示,具体步骤描述如下:
S201、建立回放池(Replay buffer)
回放池用于存储数据和数据采样,数据为(st,at,rt,st+1),st和st+1表示t时刻和t+1时刻的观测信号,at表示t时刻的控制信号,rt表示t时刻的奖励信号。
采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用,回放池的大小设置为106,采样大小为256;数据回放机制有效地降低数据样本的时序相关性,提升算法的学习能力。
S202、建立策略网络(Policy network)和目标策略网络(Target policynetwork)
策略网络和目标策略网络是架构相同的多层神经网络,其输入为系统的反馈信号,输出为控制信号。神经网络具有2个隐含层,每层32个神经元,隐含层的激活函数采用线性整流函数(ReLU),输出层的激活函数采用双曲正切函数(tanh)。
S203、建立价值网络(Value network)和目标价值网络(Target value network)
价值网络和目标价值网络是架构相同的多层神经网络,其输入为系统的反馈信号和控制信号,输出为控制信号的价值。神经网络具有2个隐含层,每层32个神经元,隐含层的激活函数采用线性整流函数(ReLU),输出层采用线性激活函数。
S204、策略网络和价值网络的参数更新
计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新,学习率设置为α=1-5和β=1-4,具体的损失函数为:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
Figure BDA0002852783420000101
Figure BDA0002852783420000102
其中,
Figure BDA0002852783420000103
Figure BDA0002852783420000104
表示策略网络和价值网络的损失函数;θμ、θμ′、θQ和θQ′表示策略网络、目标策略网络、价值网络和目标价值网络的参数;μ(·)、μ′(·)、Q(·)和Q′(·)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数;st、at和rt表示t时刻的反馈信号、控制信号和回报;st+1表示t+1时刻的测量信号;γ表示回报的衰减系数;N是样本数目,t=1,2,…,N。
S205、目标网络的参数更新
目标网络参数的更新不需要计算梯度,而是通过一种“软更新(Soft update)”的方式将策略网络和价值网络复制给对应的目标网络。
“软更新”机制表示为:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,τ表示更新系数,一般τ<<1。“软更新”的目的是为了减少目标计算与当前值的相关性,从而使学习过程更加稳定,易于收敛。
S3、控制器设计;
S301、数据交互
将神经网络控制器输出的控制信号传递给动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递给强化学习算法,实现强化学习算法和动力学系统之间的数据交互。
S302、探索噪声
在训练过程中,对策略网络的输出添加一定的随机噪声作为控制信号,这样可以使算法探索潜在的更优控制策略,噪声的量级随着训练逐渐递减,从而保证“探索”和“开发”之间的平衡,噪声添加主要通过正态分布实现;一旦完成训练,控制器在后续的使用中不再添加探索噪声。
S303、记录并观察奖励信号的变化,当奖励信号处于收敛平稳趋势时,即可保存策略神经网络的参数,并终止训练。
S4、控制器部署
训练得到的策略神经网络就是所设计的结构振动智能控制器。将策略神经网络的架构和参数部署在软件平台或者硬件平台上即可使用,神经网络控制器的具体使用框架如2所示。
控制器(以两个隐含层的神经网络为例)的计算规模通过下式进行估计
o1,t=g(W1st+b1)
o2,t=g(W2o1,t+b2)
at+1=h(W3o2,t+b3)
其中,o1,t和o2,t表示两个隐含层的输出,W和b表示神经网络的权重矩阵和偏置向量,g(·)和h(·)表示激活函数,如ReLU、tanh等。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于强化学习的结构振动控制的操作,包括:建立被控系统的动力学方程,根据奖励机制计算奖励信号;建立回放池、策略网络、目标策略网络、价值网络和目标价值网络,更新策略网络和价值网络的参数,采用强化学习算法实现目标网络的参数更新;将神经网络控制器输出的控制信号传递给建立的动力学方程,并将动力学方程计算得到的反馈信号和奖励信号传递给强化学习算法,实现强化学习算法和动力学系统之间的数据交互;记录并观察奖励曲线的变化,当奖励曲线处于收敛平稳趋势时终止训练,得到策略神经网络;根据得到的策略神经网络部署控制器,完成结构振动控制。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:建立被控系统的动力学方程,根据奖励机制计算奖励信号;建立回放池、策略网络、目标策略网络、价值网络和目标价值网络,更新策略网络和价值网络的参数,采用强化学习算法实现目标网络的参数更新;将神经网络控制器输出的控制信号传递给建立的动力学方程,并将动力学方程计算得到的反馈信号和奖励信号传递给强化学习算法,实现强化学习算法和动力学系统之间的数据交互;记录并观察奖励曲线的变化,当奖励曲线处于收敛平稳趋势时终止训练,得到策略神经网络;根据得到的策略神经网络部署控制器,完成结构振动控制。
通过两个数值仿真案例来验证基于强化学习的结构振动智能控制方法的有益效果,第一个是具有参数不确定的单自由度系统,第二个是具有不确定性和非线性的车辆1/4悬架模型。
单自由度系统
单自由度系统的动力学模型如图3所示,其动力学控制方程的表达式为
Figure BDA0002852783420000141
其中,m、c和k表示系统的质量、阻尼和刚度;
Figure BDA0002852783420000142
Figure BDA0002852783420000143
表示质量块m的位移、速度和加速度;u和
Figure BDA0002852783420000144
表示基础激励的位移和速度;fc表示压电作动器的作动器,与驱动电压成线性关系。
请参阅图4和图5,单自由度系统的不确定性主要考虑m、c和k参数的不确定性。m、c和k参数的不确定性范围设置为20%,即m∈[0.8m0,1.2m0],c∈[0.8c0,1.2c0],k∈[0.8k0,1.2k0],其中m0=1kg,c0=3Ns/m,k0=100N/m。控制器的输入是一个一维向量
Figure BDA0002852783420000145
输出则是一个标量电压。
位移控制效果如4所示。对于不确定系统,本发明所提的智能控制方法对随机振动控制效果十分优异。为了更直观地体现控制器的效果,在1000组白噪声激励下测试控制器的性能,位移RMS值的对比结果如5所示。随着不确定性的增加,控制器的性能出现极微的下降。在60%不确定性情况下,强化学习控制策略可以实现96.59%的振动量级衰减,方差仅有0.035%,相对于20%的不确定性,控制效果下降幅度不足1%。这表明在系统参数不确定性范围预估保守的情况下,控制器仍具有优异的泛化性能,控制效果仍然非常稳定。
车辆1/4悬架
车辆1/4悬架系统的动力学模型如图6所示,其动力学控制方程的表达式为:
Figure BDA0002852783420000146
Figure BDA0002852783420000147
Figure BDA0002852783420000148
其中,m1和m2分别表示簧载质量和非簧载质量;k1和k2分别表示弹簧刚度和轮胎刚度;c1表示不可控阻尼系数;fc表示磁流变阻尼器的输出阻尼力,α0、β0、γ、α1和β1均表示描述控制电流与阻尼力关系的参数;i表示控制电流,i∈[0A,3A]。本算例中的磁流变阻尼器具有典型的强非线性特性,这给传统控制器的设计带来了很大的困难。系统参数m1、m2、k1、k2和c1的不确定性范围设置为20%。控制器的输入是一个一维向量
Figure BDA0002852783420000151
输出则是一个标量电流。
车辆1/4悬架系统m1的位移控制效果如图7所示。对于具有不确定性和非线性的系统,本发明所提的智能控制方法对随机振动控制效果十分优异。为了更好地说明该方法的性能,引入sky-hook控制策略作为对比,sky-hook控制策略是车辆悬架半主动控制领域应用最为广泛的控制策略描述为:
Figure BDA0002852783420000152
Figure BDA0002852783420000153
对比被动控制和半主动控制下簧载质量块m1和非簧载质量块m2的位移RMS衰减量,结果如图8所示。在20%不确定性下,sky-hook对簧载质量块m1的控制效果为46.80%,方差为1.55%;而强化学习控制策略可以实现74.39%的控制效果,且方差仅有0.24%,比sky-hook的控制性能至少高出25%,且控制效果更加稳定。对于非簧载质量块m2,sky-hook的控制效果比强化学习控制策略高出约1%。
综上所述,本发明一种基于强化学习的结构振动控制方法、介质及设备,通过仿真控制分析,该方法可以实现具有参数不确定性和非线性系统的振动控制,通过数小时的学习,强化学习设计的控制器与人类专家设计的控制器在性能上表现相当,甚至更优。该方法为结构振动主动/半主动控制器的设计提供了新的实现途径。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (4)

1.一种基于强化学习的结构振动控制方法,其特征在于,包括以下步骤:
S1、建立被控系统的动力学方程和奖励函数,t时刻的奖励信号rt为:
rt=-∑αi|xi,t-0|
其中,xi,t表示t时刻i位置处的位移响应;αi表示权重系数;
S2、建立策略网络、目标策略网络、价值网络和目标价值网络并初始化;建立用于存储学习样本的回放池;
S3、将步骤S2策略网络输出的控制信号传递给步骤S1的动力学方程,并将动力学方程计算得到的反馈信号和奖励函数计算得到的奖励信号传递回步骤S2的策略网络、目标策略网络、价值网络和目标价值网络中,实现步骤S1和步骤S2之间的数据交互,同时将控制信号、反馈信号和奖励信号存储在回放池中,通过随机采样的方式提供给强化学习算法用于更新策略网络和价值网络的参数,采用软更新机制对目标策略网络和目标价值网络的参数进行更新;记录并观察奖励信号的变化情况,当奖励信号处于收敛平稳趋势时终止训练,得到最终的策略神经网络作为控制器;
计算策略网络和价值网络损失函数的梯度,利用Adam优化算法对神经网络的参数进行更新;通过软更新方式将策略网络和价值网络复制给对应的目标网络;在训练过程中,对策略网络的输出μ(stμ)添加均值为0的正态分布随机噪声,得到控制信号at=μ(stμ)+N(0,σ);训练完成后,策略网络的输出作为控制信号,即at=μ(stμ);
策略网络和价值网络损失函数具体为:
yt=rt+γQ′(st+1,μ′(st+1μ′)|θQ′)
Figure FDA0003672922870000011
Figure FDA0003672922870000012
其中,
Figure FDA0003672922870000013
Figure FDA0003672922870000014
表示策略网络和价值网络的损失函数;θμ、θμ′、θQ和θQ′表示策略网络、目标策略网络、价值网络和目标价值网络的参数;μ(·)、μ′(·)、Q(·)和Q′(·)表示策略网络、目标策略网络、价值网络和目标价值网络的前向计算函数;st、at和rt表示t时刻的反馈信号、控制信号和回报;st+1表示t+1时刻的测量信号;γ表示回报的衰减系数;N是样本数目,t=1,2,…,N;
软更新机制表示为:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
其中,θμ、θμ′、θQ和θQ′表示策略网络、目标策略网络、价值网络和目标价值网络的参数,τ表示更新系数,回放池的数据为(st,at,rt,st+1),st和st+1表示t时刻和t+1时刻的观测信号,at表示t时刻的控制信号,rt表示t时刻的奖励信号;采用堆栈溢出的形式对数据进行存储,随机采样的方式进行数据调用;策略网络和目标策略网络为架构相同的多层神经网络,输入为系统的反馈信号,输出为控制信号;价值网络和目标价值网络为架构相同的多层神经网络,输入为系统的反馈信号和控制信号,输出为控制信号的价值;
S4、将步骤S3得到的控制器部署在软件或硬件平台上,将传感器采集到的反馈信号作为神经网络的输入,通过神经网络的正向计算后输出控制信号,完成结构振动的控制操作,控制器的计算规模通过下式进行估计,两个隐含层的神经网络具体为:
o1,t=g(W1st+b1)
o2,t=g(W2o1,t+b2)
at+1=h(W3o2,t+b3)
其中,o1,t和o2,t表示两个隐含层的输出,W和b表示神经网络的权重矩阵和偏置向量,g(·)和h(·)表示激活函数。
2.根据权利要求1所述的基于强化学习的结构振动控制方法,其特征在于,步骤S1中,通过经验或者系统辨识方法估计参数分布的形式,确定结构动力学微分方程中参数的不确定性;微分方程采用四阶龙格-库塔法进行数值求解,并定义控制信号的输入接口和反馈信号的输出接口。
3.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1或2所述的方法中的任一方法。
4.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1或2所述的方法中的任一方法的指令。
CN202011534560.7A 2020-12-22 2020-12-22 一种基于强化学习的结构振动控制方法、介质及设备 Active CN112698572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011534560.7A CN112698572B (zh) 2020-12-22 2020-12-22 一种基于强化学习的结构振动控制方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011534560.7A CN112698572B (zh) 2020-12-22 2020-12-22 一种基于强化学习的结构振动控制方法、介质及设备

Publications (2)

Publication Number Publication Date
CN112698572A CN112698572A (zh) 2021-04-23
CN112698572B true CN112698572B (zh) 2022-08-16

Family

ID=75510889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011534560.7A Active CN112698572B (zh) 2020-12-22 2020-12-22 一种基于强化学习的结构振动控制方法、介质及设备

Country Status (1)

Country Link
CN (1) CN112698572B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113759715A (zh) * 2021-08-11 2021-12-07 中国船舶重工集团公司第七一九研究所 一种具有强化学习功能的舰船设备智能振动控制系统
CN113777923A (zh) * 2021-09-09 2021-12-10 西安热工研究院有限公司 一种基于gru神经网络的火电厂智能控制模块及其运行方法
US20240337990A1 (en) * 2021-09-26 2024-10-10 Siemens Aktiengesellschaft Motion Control Method and Apparatus
CN114489167B (zh) * 2021-12-17 2023-04-18 中国船舶重工集团公司第七一九研究所 一种基于监督学习的舰船旋转机械设备前馈振动控制系统
CN114460844B (zh) * 2022-01-12 2023-06-23 山东科技大学 一种自适应神经网络边界减振控制方法
CN114935890B (zh) * 2022-04-18 2023-04-18 西北工业大学 基于强化学习的大型柔性结构传感器作动器优化配置方法
CN114970239B (zh) * 2022-04-29 2023-06-30 哈尔滨工业大学 一种基于贝叶斯系统识别和启发式深度强化学习的多类型监测数据测点布置方法、设备及介质
CN114789443B (zh) * 2022-04-29 2024-02-23 广东工业大学 一种基于多源信息深度强化学习的机械臂控制方法及系统
CN116448362B (zh) * 2023-04-20 2024-02-27 中冶检测认证有限公司 多层框架结构的振动控制方法、振动控制装置及存储介质
CN117578679B (zh) * 2024-01-15 2024-03-22 太原理工大学 基于强化学习的锂电池智能充电控制方法
CN117807895B (zh) * 2024-02-28 2024-06-04 中国电建集团昆明勘测设计研究院有限公司 一种基于深度强化学习的磁流变阻尼器控制方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9828107B1 (en) * 2014-08-25 2017-11-28 Stc.Unm Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN111813143A (zh) * 2020-06-09 2020-10-23 天津大学 一种基于强化学习的水下滑翔机智能控制系统及方法
CN112078318A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于深度强化学习算法的汽车主动悬架智能控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN108803321B (zh) * 2018-05-30 2020-07-10 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110989576B (zh) * 2019-11-14 2022-07-12 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111708355B (zh) * 2020-06-19 2023-04-18 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
CN112052936B (zh) * 2020-07-24 2022-06-03 清华大学 基于生成对抗机制的强化学习探索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9828107B1 (en) * 2014-08-25 2017-11-28 Stc.Unm Redundant component and intelligent computerized control system for multi-rotor VTOL aircraft
CN111487863A (zh) * 2020-04-14 2020-08-04 东南大学 一种基于深度q神经网络的主动悬架强化学习控制方法
CN111813143A (zh) * 2020-06-09 2020-10-23 天津大学 一种基于强化学习的水下滑翔机智能控制系统及方法
CN112078318A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于深度强化学习算法的汽车主动悬架智能控制方法

Also Published As

Publication number Publication date
CN112698572A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112698572B (zh) 一种基于强化学习的结构振动控制方法、介质及设备
Ghaboussi et al. Active control of structures using neural networks
Chen Modeling and control for nonlinear structural systems via a NN-based approach
Chiou et al. A PSO-based adaptive fuzzy PID-controllers
Suresh et al. Fault-tolerant adaptive control of nonlinear base-isolated buildings using EMRAN
Kim et al. Novel bio-inspired smart control for hazard mitigation of civil structures
Lin et al. A robust self-learning PID control system design for nonlinear systems using a particle swarm optimization algorithm
Rego et al. Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems
Mozaffari et al. Learning-based vehicle suspension controller design: A review of the state-of-the-art and future research potentials
Ni et al. Reinforcement learning control based on multi-goal representation using hierarchical heuristic dynamic programming
Rahmani et al. A framework for brain learning-based control of smart structures
Van Kien et al. Adaptive fuzzy sliding mode control for nonlinear uncertain SISO system optimized by differential evolution algorithm
Chen et al. Grey signal predictor and fuzzy controls for active vehicle suspension systems via Lyapunov theory
Aliyari Shoorehdeli et al. Identification using ANFIS with intelligent hybrid stable learning algorithm approaches
Petlenkov NN-ANARX structure based dynamic output feedback linearization for control of nonlinear MIMO systems
Silva et al. Particle swarm optimization of a non-collocated MIMO PPF active vibration control of a composite sandwich plate
Li et al. Adaptive reinforcement learning fault-tolerant control for AUVs with thruster faults based on the integral extended state observer
Lu et al. Friction coefficient estimation in servo systems using neural dynamic programming inspired particle swarm search
Fu et al. Adaptive optimal control of unknown nonlinear systems with different time scales
Zhang et al. Cyber‐physical approach to the optimization of semiactive structural control under multiple earthquake ground motions
Cavallo et al. Robust control of flexible structures with stable bandpass controllers
CN115922706A (zh) 基于评价网络的柔性空间机械臂控制方法、设备及介质
CN112685835B (zh) 车辆自主驾驶的弹性事件触发控制方法及系统
Laflamme et al. Application of self-tuning Gaussian networks for control of civil structures equipped with magnetorheological dampers
Madan General approach for training back-propagation neural networks in vibration control of multidegree-of-freedom structures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant