CN112357120B

CN112357120B - 一种考虑执行机构安装偏差的强化学习姿态约束控制方法

Info

Publication number: CN112357120B
Application number: CN202011138203.9A
Authority: CN
Inventors: 胡庆雷; 杨昊旸; 郑建英; 郭雷
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-05-20
Anticipated expiration: 2040-10-22
Also published as: CN112357120A

Abstract

本发明公开了一种考虑执行机构安装偏差的强化学习姿态约束控制方法，首先，基于修正的罗德里格斯参数，建立考虑执行机构安装偏差和干扰模型的航天器动力学模型，并将姿态运动学约束代数化；然后，根据在轨姿态机动任务的需求设计回报函数；最后，针对安装偏差和干扰提出对应的附加代价项，结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法；这样，通过设计与任务功能相关的回报函数，针对安装偏差和干扰设计对应的附加代价项，利用在线数据设计控制器的实时参数学习律，解决存在安装偏差和干扰情况下航天器的运动约束问题，使控制器从一个简单的控制策略逐步提升为一个次优控制器，从而提升航天器在轨任务的执行效力。

Description

一种考虑执行机构安装偏差的强化学习姿态约束控制方法

技术领域

本发明主要应用于航天器在轨服务、天文重定向观测以及姿态快速机动等，属于航天器控制技术领域，尤其涉及一种考虑执行机构安装偏差的强化学习姿态约束控制方法。

背景技术

随着航天技术的高速发展，航天任务逐步向着深空长距离多样性的方向发展，航天器搭载的科学载荷也日益多样复杂。一方面，这些科学仪器大多以光学仪器为主，需要在轨机动的过程中姿态指向避开强光方向，以保护科学仪器的光学敏感元件，这就需要在设计控制系统时考虑到运动轨迹的安全约束；另一方面，航天器的执行机构存在着安装角精度有限，且在深空任务中也容易在一些外部因素下造成安装角偏移的情况，为了保证高姿态准确度的要求，需要控制系统能够容受执行机构存在安装偏差角及其造成的干扰所带来的影响。另外，考虑到航天器在太空中的资源有限、任务的时效性等因素，航天器的运动控制具有时效和经济的综合最优效应，是未来航天器控制系统设计中的一个非常关键的因素。因此，研究在执行机构安装偏差和姿态运动约束的条件下，航天器的控制性能优化问题就显得尤为重要。

在国内外的相关研究中，一方面，解决姿态运动约束的方法主要有两种，一种是基于人工势能函数法来处理禁止区域规避的问题，还有一种是用轨迹规划的方法来用数值求解出一段轨迹，这两种方法，前者能很好地处理在姿态运动过程中的轨迹规避问题，但无法使得特定设计指标最优，后者虽然能兼顾约束规避和控制性能的优化，但求解优化问题需要的时效不足以满足航天任务的需求。另一方面，针对安装偏差的问题，现有方法都是采用滑模控制的手段来解决，针对控制性能优化的需求也往往难以满足，若再考虑运动约束，传统手段就会更加难以处理。因此，现有的航天器在轨姿态控制方法，在存在安装偏差的情况下，难以同时保证运动约束性能优化以及计算时效。

发明内容

有鉴于此，本发明提供了一种考虑执行机构安装偏差的强化学习姿态约束控制方法，用以解决航天器由于载荷所限存在姿态运动约束和执行机构在安装过程中存在偏差情况下的航天器姿态控制问题。

本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法，包括如下步骤：

S1：根据航天器在轨姿态机动任务中的动力学特性，基于修正的罗德里格斯参数，建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型，并将在轨姿态机动任务中的姿态运动学约束进行代数化表征；

S2：根据在轨姿态机动任务的需求，针对姿态约束区域，基于修正的罗德里格斯参数，设计姿态约束区域的类障碍李雅普诺夫函数，将类障碍李雅普诺夫函数融入回报函数的设计中，并结合期望姿态项设计得到回报函数；

S3：设计针对安装偏差和干扰的附加代价项，并结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法。

在一种可能的实现方式中，在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中，步骤S1中，基于修正的罗德里格斯参数，建立航天器在轨姿态机动任务的动力学模型如下：

定义H(σ_bt)为：

其中，

表示被控航天器与期望姿态的相对姿态，

表示在航天器本体坐标系下被控航天器与期望姿态的相对角速度，J_b表示被控航天器的转动惯量，τ_act表示实际的控制输入，I₃为三阶单位矩阵；

建立执行机构安装偏差和干扰模型如下：

τ_act＝Λτ_c+d (3)

其中，

其中，Λ表示执行机构安装偏差矩阵；τ_c表示执行机构输出的合力矩，τ_x表示在航天器本体坐标系x轴上的执行机构输出的力矩，τ_y表示在航天器本体坐标系y轴上的执行机构输出的力矩，τ_z表示在航天器本体坐标系z轴上的执行机构输出的力矩；Δα₁、Δα₂、Δα₃、Δβ₁、Δβ₂和Δβ₃均为安装偏差角，Δα₁、Δα₂和Δα₃的取值范围为[-α_M,α_M]，Δβ₁、Δβ₂和Δβ₃的取值范围为[-π,π]，α_M表示最大容许误差角；

表示外界干扰；

在轨姿态机动任务中的姿态运动学约束为：在轨姿态机动任务过程中，航天器的特定指向轴避开强光源方向，航天器上光敏载荷的视线轴方向与强光源方向的夹角大于光敏载荷的视线角，通过修正的罗德里格斯参数，将姿态运动学约束代数化表示为：

其中，

其中，b_i和θ_i分别表示第i个光敏载荷的视线轴在航天器本体坐标系下的单位方向向量和视线角，C(σ_bt)表示方向余弦矩阵，n_j表示第j个强光源在惯性坐标系下的单位方向向量。

在一种可能的实现方式中，在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中，步骤S2，根据在轨姿态机动任务的需求，针对姿态约束区域，基于修正的罗德里格斯参数，设计姿态约束区域的类障碍李雅普诺夫函数，将类障碍李雅普诺夫函数融入回报函数的设计中，并结合期望姿态项设计得到回报函数，具体包括：

航天器在轨姿态机动任务的回报函数包括期望姿态项和姿态约束项两个部分；设计回报函数的期望姿态项为：

其中，Q_σ表示姿态的权重矩阵，Q_ω表示角速度的权重矩阵；

针对姿态约束区域，基于修正的罗德里格斯参数，设计约束区域的类障碍李雅普诺夫函数为：

其中，β_ij表示与第i个光敏载荷和第j个强光源相关的姿态约束权重因子，i＝1,2,...,N_i，N_i为光敏载荷的个数，j＝1,2,...,N_j，N_j为强光源的个数；

设计回报函数为：

在一种可能的实现方式中，在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中，步骤S3，设计针对安装偏差和干扰的附加代价项，并结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法，具体包括：

传统的最优控制器τ的设计形式如下：

其中，R表示控制权重矩阵，

表示输入矩阵，V(x)为cost-to-go函数，

表示航天器的姿态运动状态；利用如下网络形式作为对V(x)的近似估计：

其中，

表示网络基底函数；

表示网络基底对应的估计权重向量；将V(x)的近似估计与传统的最优控制器τ结合，得到航天器在轨姿态机动任务的近似最优控制器如下：

设计针对安装偏差和干扰的附加代价项δ_M(x)为：

定义Y(x)为：

其中，α₂和k_M为正系数，λ_M为||Λ-I₃||的上界，

为外界干扰d的上界；通过结合附加代价项δ_M(x)和回报函数

得到cost-to-go函数V(x)：

其中，γ(x)为回报函数

的状态集成表述形式，t₀为当前时刻；

学习更新律为网络基底对应的估计权重向量

的学习更新律，设计如下：

式中，δ_HJB和

分别定义如下：

定义F为：

其中，υ为大于零的系数；δ_HJB表示贝尔曼误差，ε_H表示有界的截断误差，

为网络基底对应的估计权重向量

与最佳权重向量w之差。

本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法，首先，基于修正的罗德里格斯参数，建立考虑执行机构安装偏差和干扰模型的航天器动力学模型，并将姿态运动学约束代数化；然后，根据在轨姿态机动任务的需求，设计回报函数；最后，针对安装偏差和干扰提出对应的附加代价项，并结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法；这样，通过设计与任务功能相关的回报函数，针对执行机构的安装偏差和干扰，设计相对应的附加项作用于代价中，并利用在线数据设计控制器的实时参数学习律，可以解决存在执行机构安装偏差和干扰的情况下，航天器在轨姿态机动任务中的运动约束问题，并且，在保证满足运动约束的条件下，考虑对执行机构安装偏差和干扰的处理，通过实时学习自主改进优化控制器的性能，可以使控制器从一个简单的控制策略通过利用在线数据逐步提升为一个次优控制器，从而可以提升航天器控制系统在轨任务的执行效力。与基于人工势能函数和基于数值优化的现有方法相比，本发明使用基于在线学习控制的方法，不仅能够实现约束区域的规避，还能有效地提升控制性能，并满足实时求解的需求，提升控制系统的经济性以及任务执行力；并且，在保证姿态运动中轨迹安全性的前提下，还将航天器执行机构的安装偏差与干扰设计到控制方法中，可以满足存在执行机构安装偏差和干扰情况下的姿态安全操控的需求。综上，本发明可以实现约束条件和执行机构安装偏差的条件下实时在线学习的控制器设计，可以保证航天器在轨姿态机动任务中运动轨迹安全，并能容受执行机构安装偏差和干扰的前提下根据在线数据实时提升航天器的控制性能。

附图说明

图1为本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法的流程示意图；

图2为本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法的原理框图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法，如图1所示，包括如下步骤：

下面通过一个具体的实施例对本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法的具体实施进行详细说明。

实施例1：

第一步：根据航天器在轨姿态机动任务中的动力学特性，基于修正的罗德里格斯参数，建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型，并将在轨姿态机动任务中的姿态运动学约束进行代数化表征。

基于修正的罗德里格斯参数，建立航天器在轨姿态机动任务的动力学模型如下：

定义H(σ_bt)为：

其中，

表示被控航天器与期望姿态的相对姿态，

表示在航天器本体坐标系下被控航天器与期望姿态的相对角速度，σ_bt和

的初值可以分别选取为[-0.4622,0.4074,0.5100]^T和[0,0,0]^T；J_b表示被控航天器的转动惯量，可以取值J_b＝[20,1.2,0.9；1.2,17,1.4；0.9,1.4,15]；τ_act表示实际的控制输入；I₃为三阶单位矩阵；

建立执行机构安装偏差和干扰模型如下：

τ_act＝Λτ_c+d (3)

其中，

其中，Λ表示执行机构安装偏差矩阵；τ_c表示执行机构输出的合力矩，τ_x表示在航天器本体坐标系x轴上的执行机构输出的力矩，τ_y表示在航天器本体坐标系y轴上的执行机构输出的力矩，τ_z表示在航天器本体坐标系z轴上的执行机构输出的力矩；Δα₁、Δα₂、Δα₃、Δβ₁、Δβ₂和Δβ₃均为安装偏差角，Δα₁、Δα₂和Δα₃的取值范围为[-α_M,α_M]，Δβ₁、Δβ₂和Δβ₃的取值范围为[-π,π]，α_M表示最大容许误差角，可以设置Δα₁＝13.3deg、Δα₂＝15.8deg、Δα₃＝-4.5deg、Δβ₁＝36deg、Δβ₂＝-20deg、Δβ₃＝15.4deg；

表示外界干扰；

在轨姿态机动任务中的姿态运动学约束具体描述为：航天器上的光敏载荷需要避免其敏感元件直接收到强光源(如太阳)的照射，因此需要在轨姿态机动任务过程中，航天器的特定指向轴避开强光源方向，光敏载荷的视线轴方向与强光源方向的夹角大于光敏载荷的视线角，可以通过修正的罗德里格斯参数，将姿态运动学约束代数化表示为：

其中，

其中，b_i和θ_i分别表示第i个光敏载荷的视线轴在航天器本体坐标系下的单位方向向量和视线角，C(σ_bt)表示方向余弦矩阵，n_j表示第j个强光源在惯性坐标系下的单位方向向量。可以设定只有一个姿态约束区域和一台光敏载荷，b₁＝[0,0,1]，n₁＝[-0.3215,0.2297,0.9186]，θ₁＝15deg。

第二步：根据在轨姿态机动任务的需求，针对姿态约束区域，基于修正的罗德里格斯参数，设计姿态约束区域的类障碍李雅普诺夫函数，将类障碍李雅普诺夫函数融入回报函数的设计中，并结合期望姿态项设计得到回报函数。

航天器在轨姿态机动任务的回报函数包括期望姿态项和姿态约束项两个部分。设计回报函数的基本思想是：对期望运动状态(包括姿态和角速度)给予奖励(此处为较小的数值)，对不期望的姿态给予惩罚(此处为较大的数值)。在航天器在轨姿态机动任务中，控制的最终目标是使得被控航天器到达期望的角速度和姿态，因此，可以设计回报函数的期望姿态项为：

其中，Q_σ表示姿态的权重矩阵，Q_ω表示角速度的权重矩阵；可以设置Q_σ＝5I₃，Q_ω＝2I₃；

航天器在轨姿态机动任务中的约束即为被控航天器不期望达到的姿态。针对姿态约束区域，基于修正的罗德里格斯参数，可以设计约束区域的类障碍李雅普诺夫函数为：

其中，β_ij表示与第i个光敏载荷和第j个强光源相关的姿态约束权重因子，i＝1,2,...,N_i，N_i为光敏载荷的个数，j＝1,2,...,N_j，N_j为强光源的个数；针对只有一个姿态约束区域和一台光敏载荷的情况，上式(9)简化为：

其中，β₁₁＝5；

综上所述，可以设计回报函数为：

基于上述设计，可以对航天器的自主控制的实时结果给与相应的结果反馈(奖励或者惩罚)，以满足航天器在轨姿态机动任务的需求。

第三步：设计针对安装偏差和干扰的附加代价项，并结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法。

设计基于强化学习的航天器姿态控制方法，主要包括控制器的设计、针对安装偏差和干扰提出对应的附加代价项的设计，以及学习更新律的设计三部分。

传统的最优控制器τ的设计形式如下：

其中，R表示控制权重矩阵，可以取值R＝5I₃；

表示输入矩阵；V(x)为cost-to-go函数，

表示航天器的姿态运动状态；由于V(x)难以求得解的形式，因此，可以利用如下网络形式作为对V(x)的近似估计：

其中，

表示网络基底函数，设计

σ₁,σ₂,σ₃为σ_bt的三个分量，ω₁,ω₂,ω₃为

的三个分量；

表示网络基底对应的估计权重向量，初始值可以设计为

将V(x)的近似估计与传统的最优控制器τ结合，得到航天器在轨姿态机动任务的近似最优控制器如下：

设计针对安装偏差和干扰的附加代价项δ_M(x)为：

定义Y(x)为：

其中，α₂和k_M为正系数，可以设计为α₂＝1，k_M＝5；λ_M为||Λ-I₃||的上界；

为外界干扰d的上界，假设取值为

通过结合附加代价项δ_M(x)和回报函数

可以得到cost-to-go函数V(x)：

其中，γ(x)为回报函数

的状态集成表述形式，t₀为当前时刻；

学习更新律具体表示为网络基底对应的估计权重向量

的学习更新律，设计如下：

式中，δ_HJB和

分别定义如下：

定义F为：

其中，υ为大于零的系数，可以设计取值为υ＝1；δ_HJB表示贝尔曼误差，ε_H表示有界的截断误差，

为网络基底对应的估计权重向量

与最佳权重向量w之差。

如图2所示，为本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法的原理框图，主要由评判网络、回报网络、学习器、控制器、航天器相对位姿动力学模型、执行机构安装偏差模型和力矩干扰模型等几部分组成。首先，航天器由初始控制器执行控制任务，并由评判网络和回报网络采集数据对控制性能进行评估，同时学习器通过评估结果进行网络权重的实时学习，将控制参数更新到控制器中，以实现在线性能提升。

本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法，首先，基于修正的罗德里格斯参数，建立考虑执行机构安装偏差和干扰模型的航天器动力学模型，并将姿态运动学约束代数化；然后，根据在轨姿态机动任务的需求，设计回报函数；最后，针对安装偏差和干扰提出对应的附加代价项，并结合动力学模型和回报函数，设计基于强化学习的航天器姿态控制方法；这样，通过设计与任务功能相关的回报函数，针对执行机构的安装偏差和干扰，设计相对应的附加项作用于代价中，并利用在线数据设计控制器的实时参数学习律，可以解决存在执行机构安装偏差和干扰的情况下，航天器在轨姿态机动任务中的运动约束问题，并且，在保证满足运动约束的条件下，考虑对执行机构安装偏差和干扰的处理，通过实时学习自主改进优化控制器的性能，可以使控制器从一个简单的控制策略通过利用在线数据逐步提升为一个次优控制器，从而提升航天器控制系统在轨任务的执行效力。与基于人工势能函数和基于数值优化的现有方法相比，本发明使用基于在线学习控制的方法，不仅能够实现约束区域的规避，还能有效地提升控制性能，并满足实时求解的需求，提升控制系统的经济性以及任务执行力；并且，在保证姿态运动中轨迹安全性的前提下，还将航天器执行机构的安装偏差与干扰设计到控制方法中，可以满足存在执行机构安装偏差和干扰情况下的姿态安全操控的需求。综上，本发明可以实现约束条件和执行机构安装偏差的条件下实时在线学习的控制器设计，可以保证航天器在轨姿态机动任务中运动轨迹安全，并能容受执行机构安装偏差和干扰的前提下根据在线数据实时提升航天器的控制性能。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。