CN114935890B

CN114935890B - 基于强化学习的大型柔性结构传感器作动器优化配置方法

Info

Publication number: CN114935890B
Application number: CN202210407090.0A
Authority: CN
Inventors: 黄攀峰; 赵卫建; 张帆; 张夷斋
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2023-04-18
Anticipated expiration: 2042-04-18
Also published as: CN114935890A

Abstract

本发明公开了一种基于强化学习的大型柔性结构传感器作动器优化配置方法，首先建立系统动力学模型，再将动力学模型转换到模态空间中表示，根据系统的动态方程和边界条件获得多自由度振动系统的各阶固有频率和相应的振型，然后将多自由度振动系统由模态空间转换到状态空间模型，接下来建立优化目标函数，最后采用强化学习策略的粒子群优化算法进行优化配置。本发明方法使得配置结果更加合理，有效提高了主动振动控制的性能。

Description

基于强化学习的大型柔性结构传感器作动器优化配置方法

技术领域

本发明属于空间结构控制技术领域，具体涉及一种大型柔性结构传感器作动器优化配置方法。

背景技术

随着航天事业的蓬勃发展，火箭发射成功率和载荷能力的不断提高，空间大型结构的需求量变得越来越大。受制于载体空间，现代空间大型结构均被设计成可折叠和展开的形式而被大量采用。现代空间结构正朝着结构大型化、质量轻型化，刚度柔性化的方向不断发展，如大型空间站结构件、太阳能帆板和大型空间天线等。由于此类结构具有柔性大、固有频率低、模态密集等特点，在空间无阻尼的环境中一旦发生振动，将会对整个系统的稳定性和工作性能造成严重影响。

目前对空间大型柔性结构振动问题的研究主要集中在控制方法的研究上，对如何确定作动器的个数和位置问题研究较少。事实上，在大型柔性的振动控制研究中，传感器和作动器的数量和位置优化是一个十分重要的问题，其优化的结果好坏将直接影响控制的优劣。针对大型柔性结构传感器与作动器的优化配置，目前的研究主要可以分为以下两个方面：(1)作动器/传感器优化准则的研究，在这一方面国外的专家学者研究的起点比较早，因此国内的研究基本都是参考国外的研究成果。其中具有代表性的有基于Gram矩阵的系统可控/可观性准则，AMI ARBEL和A HAC等人对基于Gram矩阵的可控性/可观性准则分别做了详细的推导，由此验证了该准则的有效性；基于系统能量的准则也受到学术界的重视并且对其进行了广泛的应用，比如，Schula和Heimbold首次提出了基于系统能量耗散的作动器/传感器优化配置准则；基于系统可靠性的优化准则，由于传感器和作动器存在失效的风险，考虑如何配置使得在个别传感器和作动器失效的情况下仍能满足控制要求；还有考虑控制/观测溢出的优化准则等等。然后根据所求解的具体问题进行分析，选择相应的优化准则。(2)优化算法的研究，目前国内外学者在这方面做出了很多研究，但主要是集中在群体智能优化方法的研究上，如模拟退火算法、粒子群算法和遗传算法及这些方法的相关变体。

虽然针对大型柔性结构主动振动控制的传感器和作动器优化配置已有大量可行方法，但仍然存在问题。要么在寻优过程中由于计算复杂度过大导致收敛速度慢，要么假设配置数目已知只优化传感器和作动器的位置；相应的优化准则设置存在很大的改进空间，使得最终的优化结果并不理想。

发明内容

为了克服现有技术的不足，本发明提供了一种基于强化学习的大型柔性结构传感器作动器优化配置方法，首先建立系统动力学模型，再将动力学模型转换到模态空间中表示，根据系统的动态方程和边界条件获得多自由度振动系统的各阶固有频率和相应的振型，然后将多自由度振动系统由模态空间转换到状态空间模型，接下来建立优化目标函数，最后采用强化学习策略的粒子群优化算法进行优化配置。本发明方法使得配置结果更加合理，有效提高了主动振动控制的性能。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：建立系统动力学模型；

针对多自由度振动系统，通过拉格朗日法建立系统的动力学模型如下：

y＝P_sx

其中M、C和K分别表示系统整体结构的质量矩阵、阻尼矩阵和刚度矩阵，P_a、P_s分别是作动器和传感器的位置矩阵，f_c为作动器施加的作动力；x、y分别表示结构振动的位移和传感器处的观测值；

步骤2：将动力学模型转换到模态空间中表示，根据系统的动态方程和边界条件获得多自由度振动系统的各阶固有频率和相应的振型：

其中Φ_i和q_i分别表示第i阶模态振型和模态空间坐标，由此可知振动位移为无穷阶模态的叠加；

通过模态截断法将系统的振动近似表示为前n_c阶模态的叠加，即：

其中，n_c为所取阶数；

步骤3：将多自由度振动系统由模态空间转换到状态空间模型；

步骤4：建立优化目标函数；

步骤4-1：最大化作动器传递到柔性结构上的能量表示为：

max[trace(W_c)]

前n_c阶模态的每阶模态的最佳控制效果表示为：

其中，W_c为可控性格拉姆矩阵，σ(λ_ic)为可控格拉姆矩阵特征值λ_ic的标准差，n表示选取的模态阶数；

由此导出作动器综合指标为：

步骤4-2：最大化传感器输出能量：

max[trace(W_o)]

前n_c阶模态的每阶模态的最佳观测效果表示为：

W_o为可观性格拉姆矩阵，σ(λ_io)为可观格拉姆矩阵特征值λ_io的标准差；

由此导出传感器综合指标为：

步骤4-3：对于剩余模态，其对系统的影响越小越好，对应的指标越小越好，即：

其中，W_uc为剩余模态的可控性格拉姆矩阵，σ(λ_iuc)为剩余模态可控性格拉姆矩阵特征值λ_iuc的标准差；W_uo为剩余模态的可观性格拉姆矩阵，σ(λ_iuo)为剩余模态可观性格拉姆矩阵特征值λ_iuo的标准差；

步骤4-4：综合考虑截断模态和剩余模态，基于最大最小化方法得到最终的目标优化函数：

作动器：

其中，ρ₁为权重系数；

传感器：

其中，ρ₂为权重系数；

步骤5：采用强化学习策略的粒子群优化算法进行优化配置；

步骤5-1：初始化粒子种群，粒子群优化算法中的粒子指代传感器和作动器，则在三维空间中有以下位置向量需要进行初始化：

粒子的当前位置向量x_i＝[x_i1,x_i2,x_i3]，x_i1,x_i2,x_i3为三维坐标轴上的标量表示；

搜索空间中所有粒子中的历史个体最优位置pbest_i＝[pbest_i1,pbest_i2,pbest_i3]，pbest_i1,pbest_i2,pbest_i3为三维坐标轴上的标量；

指定数量邻居位置向量的均值nm_i＝[nm_i1,nm_i2,nm_i3]；

步骤5-2：第一次强化学习的过程中粒子向历史个体最优位置学习有：

x_i(t+1)＝x_i(t)+c_ir_i(pbest_i(t)-x_i(t))

其中c_i为加速常数，即学习因子，r_i为随机数，在[0，1]范围内变化；x_i(t+1)表示粒子下一时刻的位置，x_i(t)表示粒子当前位置，pbest_i(t)表示历史个体最优位置；

步骤5-3：利用分解策略确定当前粒子邻居，过程包括求每个粒子的惯性权重、每个粒子与种群中其它粒子惯性权重之间的欧式距离、对欧式距离进行排序，并根据惯性权重的距离排序求出给定粒子指定个数的邻居；

取当前粒子N个邻居，则均值x向量表示为：

其中，c_k、r_k、x_k分别表示第k个粒子的加速常数，随机数及位置；

于是粒子的二次强化学习过程表示为：

步骤5-4：根据步骤5-3中的二次强化学习公式对粒子的位置进行更新，直到满足终止条件；

步骤5-5：完成传感器和作动器的优化配置。

本发明的有益效果如下：

本发明针对大型柔性结构的主动振动控制问题，以多自由度振动系统为具体目标，对传感器和作动器的数目和位置进行了优化配置。基于Gram矩阵导出可控性/可观性优化准则，同时考虑观测及控制溢出的影响和系统的能量，建立了相应的优化目标函数。采用强化学习策略的粒子群优化方法进行传感器和作动器的优化配置，避免了粒子群优化算法在迭代后期易出现早熟收敛和种群多样性丢失的问题。通过上述方法使得配置结果更加合理，有效提高了主动振动控制的性能。

附图说明

图1为本发明实施例桁架结构示意图。

图2为本发明实施例大型桁架结构传感器作动器优化配置方法流程图。

图3为本发明所采用的强化学习算法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的是在现有技术的基础上，提出一种针对大型柔性结构主动振动控制的传感器/作动器优化配置方法。基于Gram矩阵，综合考虑系统的可控性/可观测性和系统能量，抑制观测和控制溢出的影响。针对多目标粒子群在迭代后期易出现早熟收敛和种群多样性丢失的问题，采用强化学习策略的粒子群优化方法提高优化效率，改善优化配置结果。

一种基于强化学习的大型柔性结构传感器作动器优化配置方法，包括如下步骤：

步骤1：建立系统动力学模型；

y＝P_sx

其中M、C和K分别表示系统整体结构的质量矩阵、阻尼矩阵和刚度矩阵，P_a、P_s分别是作动器和传感器的位置矩阵，f_c为作动器施加的作动力；

其中，Φ_i和q_i分别表示第i阶模态振型和模态空间坐标，由此可知振动位移为无穷阶模态的叠加；

由于前几阶模态对系统的振动起主要作用，高阶模态不易被激励，所以可以通过模态截断法将系统的振动近似表示为前n_c阶模态的叠加，即：

其中，n_c为所取阶数；

步骤4：确定传感器/作动器配置准则，建立优化目标函数；

对于大型柔性结构的主动振动控制问题

首先应该保证作动器对结构振动的影响尽可能的大；其次作动器对截断的每阶模态都应该有好的作用效果，这样可以避免对某一阶或某几阶模态没有较好的控制效果；

步骤4-1：最大化作动器传递到柔性结构上的能量表示为：

max[trace(W_c)]

使每阶模态都有较好的控制效果可以表示为：

其中，W_c为可控性格拉姆矩阵，σ(λ_ic)为可控格拉姆矩阵特征值λ_ic的标准差；

由此导出作动器综合指标为：

步骤4-2：最大化传感器输出能量：

max[trace(W_o)]

使对应的模态都能很好的被观测到：

由此导出传感器综合指标为：

步骤4-3：虽然剩余模态不易被激励，但还是要考虑其对振动控制的影响，避免观测和控制溢出；

对于剩余模态，其对系统的影响越小越好，对应的指标越小越好，即：

作动器：

其中，ρ₁为权重系数；

传感器：

其中，ρ₂为权重系数；

步骤5：采用强化学习策略的粒子群优化算法进行优化配置；

将强化学习与经典粒子群算法结合，旨在克服粒子群算法在迭代后期易出现早熟收敛和种群多样性丢失的问题，以提高传感器和作动器优化配置的性能。

粒子的当前位置向量x_i＝[x_i1,x_i2,x_i3]；

搜索空间中所有粒子中的历史个体最优位置pbest_i＝[pbest_i1,pbest_i2,pbest_i3]；

指定数量邻居位置向量的均值nm_i＝[nm_i1,nm_i2,nm_i3]；

x_i(t+1)＝x_i(t)+c_ir_i(pbest_i(t)-x_i(t))

其中c_i为加速常数，即学习因子，r_i为随机数，在[0，1]范围内变化；

取当前粒子N个邻居，则均值x向量表示为：

于是粒子的二次强化学习过程表示为：

步骤5-5：完成传感器和作动器的优化配置。

具体实施例：

1、建立系统动力学模型。

针对大型桁架结构，可以通过拉格朗日法建立起系统的动力学模型如下：

y＝P_sx

其中M、C和K分别表示系统整体结构的质量矩阵、阻尼矩阵和刚度矩阵，P_a、P_s分别是作动器和传感器的位置矩阵，f_c为作动器施加的作动力。

2、将上述动力学方程转换到模态空间中表示，即x＝Φq，假定结构的阻尼为瑞利阻尼，有：

y＝P_smq

其中ξ＝diag{ξ₁,ξ₂,…，ξ_n}表示对应各阶模态的阻尼比，ω＝diag{ω₁,ω₂,…,ω_n}表示对应各阶模态频率；P_am＝Φ^TP_a，P_sm＝P_sΦ。

3、建立状态空间模型。

将上述系统模态方程形式转换到状态空间中：

式中

4、建立优化目标函数。

对于作动器来说，应该使其对系统结构的影响最大，同时避免激起不必要的振动，优化准则如下

括号中的前一项保证了被控模态都能尽可能地被控制，后一项保证了剩余模态的能量尽可能地小。

由于

结合状态空间表达式可以得到：

W_c＝diag{W_c1，W_c2，…，W_cn}

对于传感器来说，应该对每一阶模态都有较好的观测效果，同时避免剩余模态的影响，优化准则如下

括号中的前一项保证了可以很好的观测到被控模态，后一项使剩余模态在观测结果中的影响尽可能地小。

由于

结合状态空间表达式可以得到：

W_o＝diag{W₀₁，W_o2，…，W_on}

5、采用强化学习策略的粒子群优化算法进行优化配置。

本实施例将强化学习与经典粒子群算法结合，旨在克服粒子群算法在迭代后期易出现早熟收敛和种群多样性丢失的问题，以提高传感器和作动器优化配置的性能。

(1)、初始化粒子种群，这里的粒子指代传感器和作动器，则在三维空间中有以下位置向量需要进行初始化：

粒子的当前位置向量x_i＝[x_i1,x_i2,x_i3]

搜索空间中所有粒子中的历史个体最优位置pbest_i＝[pbest_i1,pbest_i2,pbest_i3]

指定数量邻居位置向量的均值nm_i＝[nm_i1,nm_i2,nm_i3]

(2)、第一次强化学习的过程中粒子向历史个体最优位置学习有：

x_i(t+1)＝x_i(t)+c_ir_i(pbest_i(t)-x_i(t))

其中c_i为加速常数(学习因子)，r_i为随机数，在[0，1]范围内变化。

(3)、利用分解策略确定当前粒子邻居，过程包括求每个粒子的惯性权重、每个粒子与种群中其它粒子惯性权重之间的欧式距离、对欧式距离进行排序，并根据惯性权重的距离排序求出给定粒子指定个数的邻居。取N个邻居，则均值x向量可以表示为：

于是粒子的二次强化学习过程可表示为：

(4)、根据3中的二次强化学习公式对粒子的位置进行更新，直到满足终止条件。

(5)、完成传感器和作动器的优化配置。

Claims

1.一种基于强化学习的大型柔性结构传感器作动器优化配置方法，其特征在于，包括如下步骤：

步骤1：建立系统动力学模型；

y＝P_sx

其中，n_c为所取阶数；

步骤4：建立优化目标函数；

步骤4-1：最大化作动器传递到柔性结构上的能量表示为：

max[trace(W_c)]

前n_c阶模态的每阶模态的最佳控制效果表示为：

由此导出作动器综合指标为：

步骤4-2：最大化传感器输出能量：

max[trace(W_o)]

前n_c阶模态的每阶模态的最佳观测效果表示为：

由此导出传感器综合指标为：

作动器：

其中，ρ₁为权重系数；

传感器：

其中，ρ₂为权重系数；

步骤5：采用强化学习策略的粒子群优化算法进行优化配置；

粒子的当前位置向量x_i＝[x_i1，x_i2，x_i3]，x_i1，x_i2，x_i3为三维坐标轴上的标量表示；

搜索空间中所有粒子中的历史个体最优位置pbest_i＝[pbest_i1，pbest_i2，pbest_i3]，pbest_i1，pbest_i2，pbest_i3为三维坐标轴上的标量；

指定数量邻居位置向量的均值nm_i＝[nm_i1，nm_i2，nm_i3]；

x_i(t+1)＝x_i(t)+c_ir_i(pbest_i(t)-x_i(t))

取当前粒子N个邻居，则均值x向量表示为：

于是粒子的二次强化学习过程表示为：

步骤5-5：完成传感器和作动器的优化配置。