CN112357120B - 一种考虑执行机构安装偏差的强化学习姿态约束控制方法 - Google Patents

一种考虑执行机构安装偏差的强化学习姿态约束控制方法 Download PDF

Info

Publication number
CN112357120B
CN112357120B CN202011138203.9A CN202011138203A CN112357120B CN 112357120 B CN112357120 B CN 112357120B CN 202011138203 A CN202011138203 A CN 202011138203A CN 112357120 B CN112357120 B CN 112357120B
Authority
CN
China
Prior art keywords
attitude
spacecraft
representing
constraint
installation deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011138203.9A
Other languages
English (en)
Other versions
CN112357120A (zh
Inventor
胡庆雷
杨昊旸
郑建英
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011138203.9A priority Critical patent/CN112357120B/zh
Publication of CN112357120A publication Critical patent/CN112357120A/zh
Application granted granted Critical
Publication of CN112357120B publication Critical patent/CN112357120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • B64G1/245Attitude control algorithms for spacecraft attitude control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种考虑执行机构安装偏差的强化学习姿态约束控制方法,首先,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器动力学模型,并将姿态运动学约束代数化;然后,根据在轨姿态机动任务的需求设计回报函数;最后,针对安装偏差和干扰提出对应的附加代价项,结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法;这样,通过设计与任务功能相关的回报函数,针对安装偏差和干扰设计对应的附加代价项,利用在线数据设计控制器的实时参数学习律,解决存在安装偏差和干扰情况下航天器的运动约束问题,使控制器从一个简单的控制策略逐步提升为一个次优控制器,从而提升航天器在轨任务的执行效力。

Description

一种考虑执行机构安装偏差的强化学习姿态约束控制方法
技术领域
本发明主要应用于航天器在轨服务、天文重定向观测以及姿态快速机动等,属于航天器控制技术领域,尤其涉及一种考虑执行机构安装偏差的强化学习姿态约束控制方法。
背景技术
随着航天技术的高速发展,航天任务逐步向着深空长距离多样性的方向发展,航天器搭载的科学载荷也日益多样复杂。一方面,这些科学仪器大多以光学仪器为主,需要在轨机动的过程中姿态指向避开强光方向,以保护科学仪器的光学敏感元件,这就需要在设计控制系统时考虑到运动轨迹的安全约束;另一方面,航天器的执行机构存在着安装角精度有限,且在深空任务中也容易在一些外部因素下造成安装角偏移的情况,为了保证高姿态准确度的要求,需要控制系统能够容受执行机构存在安装偏差角及其造成的干扰所带来的影响。另外,考虑到航天器在太空中的资源有限、任务的时效性等因素,航天器的运动控制具有时效和经济的综合最优效应,是未来航天器控制系统设计中的一个非常关键的因素。因此,研究在执行机构安装偏差和姿态运动约束的条件下,航天器的控制性能优化问题就显得尤为重要。
在国内外的相关研究中,一方面,解决姿态运动约束的方法主要有两种,一种是基于人工势能函数法来处理禁止区域规避的问题,还有一种是用轨迹规划的方法来用数值求解出一段轨迹,这两种方法,前者能很好地处理在姿态运动过程中的轨迹规避问题,但无法使得特定设计指标最优,后者虽然能兼顾约束规避和控制性能的优化,但求解优化问题需要的时效不足以满足航天任务的需求。另一方面,针对安装偏差的问题,现有方法都是采用滑模控制的手段来解决,针对控制性能优化的需求也往往难以满足,若再考虑运动约束,传统手段就会更加难以处理。因此,现有的航天器在轨姿态控制方法,在存在安装偏差的情况下,难以同时保证运动约束性能优化以及计算时效。
发明内容
有鉴于此,本发明提供了一种考虑执行机构安装偏差的强化学习姿态约束控制方法,用以解决航天器由于载荷所限存在姿态运动约束和执行机构在安装过程中存在偏差情况下的航天器姿态控制问题。
本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法,包括如下步骤:
S1:根据航天器在轨姿态机动任务中的动力学特性,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型,并将在轨姿态机动任务中的姿态运动学约束进行代数化表征;
S2:根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数;
S3:设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法。
在一种可能的实现方式中,在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中,步骤S1中,基于修正的罗德里格斯参数,建立航天器在轨姿态机动任务的动力学模型如下:
Figure BDA0002737379420000021
定义H(σbt)为:
Figure BDA0002737379420000022
其中,
Figure BDA0002737379420000031
表示被控航天器与期望姿态的相对姿态,
Figure BDA0002737379420000032
表示在航天器本体坐标系下被控航天器与期望姿态的相对角速度,Jb表示被控航天器的转动惯量,τact表示实际的控制输入,I3为三阶单位矩阵;
建立执行机构安装偏差和干扰模型如下:
τact=Λτc+d (3)
其中,
Figure BDA0002737379420000033
Figure BDA0002737379420000034
其中,Λ表示执行机构安装偏差矩阵;τc表示执行机构输出的合力矩,τx表示在航天器本体坐标系x轴上的执行机构输出的力矩,τy表示在航天器本体坐标系y轴上的执行机构输出的力矩,τz表示在航天器本体坐标系z轴上的执行机构输出的力矩;Δα1、Δα2、Δα3、Δβ1、Δβ2和Δβ3均为安装偏差角,Δα1、Δα2和Δα3的取值范围为[-αMM],Δβ1、Δβ2和Δβ3的取值范围为[-π,π],αM表示最大容许误差角;
Figure BDA0002737379420000035
表示外界干扰;
在轨姿态机动任务中的姿态运动学约束为:在轨姿态机动任务过程中,航天器的特定指向轴避开强光源方向,航天器上光敏载荷的视线轴方向与强光源方向的夹角大于光敏载荷的视线角,通过修正的罗德里格斯参数,将姿态运动学约束代数化表示为:
Figure BDA0002737379420000036
其中,
Figure BDA0002737379420000037
其中,bi和θi分别表示第i个光敏载荷的视线轴在航天器本体坐标系下的单位方向向量和视线角,C(σbt)表示方向余弦矩阵,nj表示第j个强光源在惯性坐标系下的单位方向向量。
在一种可能的实现方式中,在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中,步骤S2,根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数,具体包括:
航天器在轨姿态机动任务的回报函数包括期望姿态项和姿态约束项两个部分;设计回报函数的期望姿态项为:
Figure BDA0002737379420000041
其中,Qσ表示姿态的权重矩阵,Qω表示角速度的权重矩阵;
针对姿态约束区域,基于修正的罗德里格斯参数,设计约束区域的类障碍李雅普诺夫函数为:
Figure BDA0002737379420000042
其中,βij表示与第i个光敏载荷和第j个强光源相关的姿态约束权重因子,i=1,2,...,Ni,Ni为光敏载荷的个数,j=1,2,...,Nj,Nj为强光源的个数;
设计回报函数为:
Figure BDA0002737379420000043
在一种可能的实现方式中,在本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法中,步骤S3,设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法,具体包括:
传统的最优控制器τ的设计形式如下:
Figure BDA0002737379420000051
其中,R表示控制权重矩阵,
Figure BDA0002737379420000052
表示输入矩阵,V(x)为cost-to-go函数,
Figure BDA0002737379420000053
表示航天器的姿态运动状态;利用如下网络形式作为对V(x)的近似估计:
Figure BDA0002737379420000054
其中,
Figure BDA0002737379420000055
表示网络基底函数;
Figure BDA0002737379420000056
表示网络基底对应的估计权重向量;将V(x)的近似估计与传统的最优控制器τ结合,得到航天器在轨姿态机动任务的近似最优控制器如下:
Figure BDA0002737379420000057
设计针对安装偏差和干扰的附加代价项δM(x)为:
Figure BDA0002737379420000058
定义Y(x)为:
Figure BDA0002737379420000059
其中,α2和kM为正系数,λM为||Λ-I3||的上界,
Figure BDA00027373794200000510
为外界干扰d的上界;通过结合附加代价项δM(x)和回报函数
Figure BDA00027373794200000511
得到cost-to-go函数V(x):
Figure BDA00027373794200000512
其中,γ(x)为回报函数
Figure BDA00027373794200000513
的状态集成表述形式,t0为当前时刻;
学习更新律为网络基底对应的估计权重向量
Figure BDA00027373794200000514
的学习更新律,设计如下:
Figure BDA00027373794200000515
式中,δHJB
Figure BDA00027373794200000516
分别定义如下:
Figure BDA00027373794200000517
Figure BDA00027373794200000518
定义F为:
Figure BDA0002737379420000061
其中,υ为大于零的系数;δHJB表示贝尔曼误差,εH表示有界的截断误差,
Figure BDA0002737379420000062
为网络基底对应的估计权重向量
Figure BDA0002737379420000063
与最佳权重向量w之差。
本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法,首先,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器动力学模型,并将姿态运动学约束代数化;然后,根据在轨姿态机动任务的需求,设计回报函数;最后,针对安装偏差和干扰提出对应的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法;这样,通过设计与任务功能相关的回报函数,针对执行机构的安装偏差和干扰,设计相对应的附加项作用于代价中,并利用在线数据设计控制器的实时参数学习律,可以解决存在执行机构安装偏差和干扰的情况下,航天器在轨姿态机动任务中的运动约束问题,并且,在保证满足运动约束的条件下,考虑对执行机构安装偏差和干扰的处理,通过实时学习自主改进优化控制器的性能,可以使控制器从一个简单的控制策略通过利用在线数据逐步提升为一个次优控制器,从而可以提升航天器控制系统在轨任务的执行效力。与基于人工势能函数和基于数值优化的现有方法相比,本发明使用基于在线学习控制的方法,不仅能够实现约束区域的规避,还能有效地提升控制性能,并满足实时求解的需求,提升控制系统的经济性以及任务执行力;并且,在保证姿态运动中轨迹安全性的前提下,还将航天器执行机构的安装偏差与干扰设计到控制方法中,可以满足存在执行机构安装偏差和干扰情况下的姿态安全操控的需求。综上,本发明可以实现约束条件和执行机构安装偏差的条件下实时在线学习的控制器设计,可以保证航天器在轨姿态机动任务中运动轨迹安全,并能容受执行机构安装偏差和干扰的前提下根据在线数据实时提升航天器的控制性能。
附图说明
图1为本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法的流程示意图;
图2为本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法的原理框图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式仅仅是作为例示,并非用于限制本发明。
本发明提供的一种考虑执行机构安装偏差的强化学习姿态约束控制方法,如图1所示,包括如下步骤:
S1:根据航天器在轨姿态机动任务中的动力学特性,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型,并将在轨姿态机动任务中的姿态运动学约束进行代数化表征;
S2:根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数;
S3:设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法。
下面通过一个具体的实施例对本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法的具体实施进行详细说明。
实施例1:
第一步:根据航天器在轨姿态机动任务中的动力学特性,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型,并将在轨姿态机动任务中的姿态运动学约束进行代数化表征。
基于修正的罗德里格斯参数,建立航天器在轨姿态机动任务的动力学模型如下:
Figure BDA0002737379420000081
定义H(σbt)为:
Figure BDA0002737379420000082
其中,
Figure BDA0002737379420000083
表示被控航天器与期望姿态的相对姿态,
Figure BDA0002737379420000084
表示在航天器本体坐标系下被控航天器与期望姿态的相对角速度,σbt
Figure BDA0002737379420000085
的初值可以分别选取为[-0.4622,0.4074,0.5100]T和[0,0,0]T;Jb表示被控航天器的转动惯量,可以取值Jb=[20,1.2,0.9;1.2,17,1.4;0.9,1.4,15];τact表示实际的控制输入;I3为三阶单位矩阵;
建立执行机构安装偏差和干扰模型如下:
τact=Λτc+d (3)
其中,
Figure BDA0002737379420000086
Figure BDA0002737379420000087
其中,Λ表示执行机构安装偏差矩阵;τc表示执行机构输出的合力矩,τx表示在航天器本体坐标系x轴上的执行机构输出的力矩,τy表示在航天器本体坐标系y轴上的执行机构输出的力矩,τz表示在航天器本体坐标系z轴上的执行机构输出的力矩;Δα1、Δα2、Δα3、Δβ1、Δβ2和Δβ3均为安装偏差角,Δα1、Δα2和Δα3的取值范围为[-αMM],Δβ1、Δβ2和Δβ3的取值范围为[-π,π],αM表示最大容许误差角,可以设置Δα1=13.3deg、Δα2=15.8deg、Δα3=-4.5deg、Δβ1=36deg、Δβ2=-20deg、Δβ3=15.4deg;
Figure BDA0002737379420000088
表示外界干扰;
在轨姿态机动任务中的姿态运动学约束具体描述为:航天器上的光敏载荷需要避免其敏感元件直接收到强光源(如太阳)的照射,因此需要在轨姿态机动任务过程中,航天器的特定指向轴避开强光源方向,光敏载荷的视线轴方向与强光源方向的夹角大于光敏载荷的视线角,可以通过修正的罗德里格斯参数,将姿态运动学约束代数化表示为:
Figure BDA0002737379420000091
其中,
Figure BDA0002737379420000092
其中,bi和θi分别表示第i个光敏载荷的视线轴在航天器本体坐标系下的单位方向向量和视线角,C(σbt)表示方向余弦矩阵,nj表示第j个强光源在惯性坐标系下的单位方向向量。可以设定只有一个姿态约束区域和一台光敏载荷,b1=[0,0,1],n1=[-0.3215,0.2297,0.9186],θ1=15deg。
第二步:根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数。
航天器在轨姿态机动任务的回报函数包括期望姿态项和姿态约束项两个部分。设计回报函数的基本思想是:对期望运动状态(包括姿态和角速度)给予奖励(此处为较小的数值),对不期望的姿态给予惩罚(此处为较大的数值)。在航天器在轨姿态机动任务中,控制的最终目标是使得被控航天器到达期望的角速度和姿态,因此,可以设计回报函数的期望姿态项为:
Figure BDA0002737379420000093
其中,Qσ表示姿态的权重矩阵,Qω表示角速度的权重矩阵;可以设置Qσ=5I3,Qω=2I3
航天器在轨姿态机动任务中的约束即为被控航天器不期望达到的姿态。针对姿态约束区域,基于修正的罗德里格斯参数,可以设计约束区域的类障碍李雅普诺夫函数为:
Figure BDA0002737379420000101
其中,βij表示与第i个光敏载荷和第j个强光源相关的姿态约束权重因子,i=1,2,...,Ni,Ni为光敏载荷的个数,j=1,2,...,Nj,Nj为强光源的个数;针对只有一个姿态约束区域和一台光敏载荷的情况,上式(9)简化为:
Figure BDA0002737379420000102
其中,β11=5;
综上所述,可以设计回报函数为:
Figure BDA0002737379420000103
基于上述设计,可以对航天器的自主控制的实时结果给与相应的结果反馈(奖励或者惩罚),以满足航天器在轨姿态机动任务的需求。
第三步:设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法。
设计基于强化学习的航天器姿态控制方法,主要包括控制器的设计、针对安装偏差和干扰提出对应的附加代价项的设计,以及学习更新律的设计三部分。
传统的最优控制器τ的设计形式如下:
Figure BDA0002737379420000104
其中,R表示控制权重矩阵,可以取值R=5I3
Figure BDA0002737379420000105
表示输入矩阵;V(x)为cost-to-go函数,
Figure BDA0002737379420000106
表示航天器的姿态运动状态;由于V(x)难以求得解的形式,因此,可以利用如下网络形式作为对V(x)的近似估计:
Figure BDA0002737379420000107
其中,
Figure BDA0002737379420000108
表示网络基底函数,设计
Figure BDA0002737379420000109
σ123为σbt的三个分量,ω123
Figure BDA00027373794200001010
的三个分量;
Figure BDA00027373794200001011
表示网络基底对应的估计权重向量,初始值可以设计为
Figure BDA0002737379420000111
将V(x)的近似估计与传统的最优控制器τ结合,得到航天器在轨姿态机动任务的近似最优控制器如下:
Figure BDA0002737379420000112
设计针对安装偏差和干扰的附加代价项δM(x)为:
Figure BDA0002737379420000113
定义Y(x)为:
Figure BDA0002737379420000114
其中,α2和kM为正系数,可以设计为α2=1,kM=5;λM为||Λ-I3||的上界;
Figure BDA0002737379420000115
为外界干扰d的上界,假设取值为
Figure BDA0002737379420000116
通过结合附加代价项δM(x)和回报函数
Figure BDA0002737379420000117
可以得到cost-to-go函数V(x):
Figure BDA0002737379420000118
其中,γ(x)为回报函数
Figure BDA0002737379420000119
的状态集成表述形式,t0为当前时刻;
学习更新律具体表示为网络基底对应的估计权重向量
Figure BDA00027373794200001110
的学习更新律,设计如下:
Figure BDA00027373794200001111
式中,δHJB
Figure BDA00027373794200001112
分别定义如下:
Figure BDA00027373794200001113
Figure BDA00027373794200001114
定义F为:
Figure BDA00027373794200001115
其中,υ为大于零的系数,可以设计取值为υ=1;δHJB表示贝尔曼误差,εH表示有界的截断误差,
Figure BDA00027373794200001116
为网络基底对应的估计权重向量
Figure BDA00027373794200001117
与最佳权重向量w之差。
如图2所示,为本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法的原理框图,主要由评判网络、回报网络、学习器、控制器、航天器相对位姿动力学模型、执行机构安装偏差模型和力矩干扰模型等几部分组成。首先,航天器由初始控制器执行控制任务,并由评判网络和回报网络采集数据对控制性能进行评估,同时学习器通过评估结果进行网络权重的实时学习,将控制参数更新到控制器中,以实现在线性能提升。
本发明提供的上述考虑执行机构安装偏差的强化学习姿态约束控制方法,首先,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器动力学模型,并将姿态运动学约束代数化;然后,根据在轨姿态机动任务的需求,设计回报函数;最后,针对安装偏差和干扰提出对应的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法;这样,通过设计与任务功能相关的回报函数,针对执行机构的安装偏差和干扰,设计相对应的附加项作用于代价中,并利用在线数据设计控制器的实时参数学习律,可以解决存在执行机构安装偏差和干扰的情况下,航天器在轨姿态机动任务中的运动约束问题,并且,在保证满足运动约束的条件下,考虑对执行机构安装偏差和干扰的处理,通过实时学习自主改进优化控制器的性能,可以使控制器从一个简单的控制策略通过利用在线数据逐步提升为一个次优控制器,从而提升航天器控制系统在轨任务的执行效力。与基于人工势能函数和基于数值优化的现有方法相比,本发明使用基于在线学习控制的方法,不仅能够实现约束区域的规避,还能有效地提升控制性能,并满足实时求解的需求,提升控制系统的经济性以及任务执行力;并且,在保证姿态运动中轨迹安全性的前提下,还将航天器执行机构的安装偏差与干扰设计到控制方法中,可以满足存在执行机构安装偏差和干扰情况下的姿态安全操控的需求。综上,本发明可以实现约束条件和执行机构安装偏差的条件下实时在线学习的控制器设计,可以保证航天器在轨姿态机动任务中运动轨迹安全,并能容受执行机构安装偏差和干扰的前提下根据在线数据实时提升航天器的控制性能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种考虑执行机构安装偏差的强化学习姿态约束控制方法,其特征在于,包括如下步骤:
S1:根据航天器在轨姿态机动任务中的动力学特性,基于修正的罗德里格斯参数,建立考虑执行机构安装偏差和干扰模型的航天器在轨姿态机动任务的动力学模型,并将在轨姿态机动任务中的姿态运动学约束进行代数化表征;
S2:根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数;
S3:设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法;
步骤S1中,基于修正的罗德里格斯参数,建立航天器在轨姿态机动任务的动力学模型如下:
Figure FDA0003574424520000011
定义H(σbt)为:
Figure FDA0003574424520000012
其中,
Figure FDA0003574424520000013
表示被控航天器与期望姿态的相对姿态,
Figure FDA0003574424520000014
表示在航天器本体坐标系下被控航天器与期望姿态的相对角速度,Jb表示被控航天器的转动惯量,τact表示实际的控制输入,I3为三阶单位矩阵;
建立执行机构安装偏差和干扰模型如下:
τact=Λτc+d (3)
其中,
Figure FDA0003574424520000015
Figure FDA0003574424520000021
其中,Λ表示执行机构安装偏差矩阵;τc表示执行机构输出的合力矩,τx表示在航天器本体坐标系x轴上的执行机构输出的力矩,τy表示在航天器本体坐标系y轴上的执行机构输出的力矩,τz表示在航天器本体坐标系z轴上的执行机构输出的力矩;Δα1、Δα2、Δα3、Δβ1、Δβ2和Δβ3均为安装偏差角,Δα1、Δα2和Δα3的取值范围为[-αMM],Δβ1、Δβ2和Δβ3的取值范围为[-π,π],αM表示最大容许误差角;
Figure FDA0003574424520000022
表示外界干扰;
在轨姿态机动任务中的姿态运动学约束为:在轨姿态机动任务过程中,航天器的特定指向轴避开强光源方向,航天器上光敏载荷的视线轴方向与强光源方向的夹角大于光敏载荷的视线角,通过修正的罗德里格斯参数,将姿态运动学约束代数化表示为:
Figure FDA0003574424520000023
其中,
Figure FDA0003574424520000024
其中,bi和θi分别表示第i个光敏载荷的视线轴在航天器本体坐标系下的单位方向向量和视线角,C(σbt)表示方向余弦矩阵,nj表示第j个强光源在惯性坐标系下的单位方向向量。
2.如权利要求1所述考虑执行机构安装偏差的强化学习姿态约束控制方法,其特征在于,步骤S2,根据在轨姿态机动任务的需求,针对姿态约束区域,基于修正的罗德里格斯参数,设计姿态约束区域的类障碍李雅普诺夫函数,将类障碍李雅普诺夫函数融入回报函数的设计中,并结合期望姿态项设计得到回报函数,具体包括:
航天器在轨姿态机动任务的回报函数包括期望姿态项和姿态约束项两个部分;设计回报函数的期望姿态项为:
Figure FDA0003574424520000031
其中,Qσ表示姿态的权重矩阵,Qω表示角速度的权重矩阵;
针对姿态约束区域,基于修正的罗德里格斯参数,设计约束区域的类障碍李雅普诺夫函数为:
Figure FDA0003574424520000032
其中,βij表示与第i个光敏载荷和第j个强光源相关的姿态约束权重因子,i=1,2,...,Ni,Ni为光敏载荷的个数,j=1,2,...,Nj,Nj为强光源的个数;
设计回报函数为:
Figure FDA0003574424520000033
3.如权利要求2所述的考虑执行机构安装偏差的强化学习姿态约束控制方法,其特征在于,步骤S3,设计针对安装偏差和干扰的附加代价项,并结合动力学模型和回报函数,设计基于强化学习的航天器姿态控制方法,具体包括:
传统的最优控制器τ的设计形式如下:
Figure FDA0003574424520000034
其中,R表示控制权重矩阵,
Figure FDA0003574424520000035
表示输入矩阵,V(x)为cost-to-go函数,
Figure FDA0003574424520000036
表示航天器的姿态运动状态;利用如下网络形式作为对V(x)的近似估计:
Figure FDA0003574424520000037
其中,
Figure FDA0003574424520000038
表示网络基底函数;
Figure FDA0003574424520000039
表示网络基底对应的估计权重向量;将V(x)的近似估计与传统的最优控制器τ结合,得到航天器在轨姿态机动任务的近似最优控制器如下:
Figure FDA00035744245200000310
设计针对安装偏差和干扰的附加代价项δM(x)为:
Figure FDA0003574424520000041
定义Y(x)为:
Figure FDA0003574424520000042
其中,α2和kM为正系数,λM为||Λ-I3||的上界,
Figure FDA00035744245200000414
为外界干扰d的上界;通过结合附加代价项δM(x)和回报函数
Figure FDA0003574424520000043
得到cost-to-go函数V(x):
Figure FDA0003574424520000044
其中,γ(x)为回报函数
Figure FDA0003574424520000045
的状态集成表述形式,t0为当前时刻;
学习更新律为网络基底对应的估计权重向量
Figure FDA0003574424520000046
的学习更新律,设计如下:
Figure FDA0003574424520000047
式中,δHJB
Figure FDA0003574424520000048
分别定义如下:
Figure FDA0003574424520000049
Figure FDA00035744245200000410
定义F为:
Figure FDA00035744245200000411
其中,υ为大于零的系数;δHJB表示贝尔曼误差,εH表示有界的截断误差,
Figure FDA00035744245200000412
为网络基底对应的估计权重向量
Figure FDA00035744245200000413
与最佳权重向量w之差。
CN202011138203.9A 2020-10-22 2020-10-22 一种考虑执行机构安装偏差的强化学习姿态约束控制方法 Active CN112357120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138203.9A CN112357120B (zh) 2020-10-22 2020-10-22 一种考虑执行机构安装偏差的强化学习姿态约束控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138203.9A CN112357120B (zh) 2020-10-22 2020-10-22 一种考虑执行机构安装偏差的强化学习姿态约束控制方法

Publications (2)

Publication Number Publication Date
CN112357120A CN112357120A (zh) 2021-02-12
CN112357120B true CN112357120B (zh) 2022-05-20

Family

ID=74511653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138203.9A Active CN112357120B (zh) 2020-10-22 2020-10-22 一种考虑执行机构安装偏差的强化学习姿态约束控制方法

Country Status (1)

Country Link
CN (1) CN112357120B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115092420B (zh) * 2022-06-06 2023-02-17 哈尔滨工业大学(深圳) 一种基于方向余弦矩阵的复杂约束下航天器姿态机动规划方法、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227728A (zh) * 2018-03-29 2018-06-29 北京航空航天大学 一种考虑混合执行机构切换的航天器姿态动态控制分配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108227728A (zh) * 2018-03-29 2018-06-29 北京航空航天大学 一种考虑混合执行机构切换的航天器姿态动态控制分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
考虑安装偏差的联合执行机构自适应控制算法;叶东等;《哈尔滨工业大学学报》;20161130;第48卷(第11期);第1-7页 *

Also Published As

Publication number Publication date
CN112357120A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
Sun et al. Adaptive backstepping control of spacecraft rendezvous and proximity operations with input saturation and full-state constraint
Thakur et al. Adaptive attitude-tracking control of spacecraft with uncertain time-varying inertia parameters
Zhang et al. Approach-angle-based three-dimensional indirect adaptive fuzzy path following of under-actuated AUV with input saturation
Dong et al. Networked flexible spacecraft attitude maneuver based on adaptive fuzzy sliding mode control
Rastegari et al. Multiple impedance control of space free-flying robots via virtual linkages
Liu et al. Prescribed performance tracking control of a free-flying flexible-joint space robot with disturbances under input saturation
Han et al. Active use of restoring moments for motion control of an underwater vehicle-manipulator system
Lee et al. Adaptive variable-structure finite-time mode control for spacecraft proximity operations with actuator saturation
Sun et al. Saturated adaptive relative motion coordination of docking ports in space close-range rendezvous
Zhang et al. Integrated translational and rotational control for the terminal landing phase of a lunar module
Lu et al. Adaptive prescribed performance control for the post-capture tethered combination via dynamic surface technique
CN113619814A (zh) 一种交会对接最后逼近段相对姿轨耦合控制方法
CN112357120B (zh) 一种考虑执行机构安装偏差的强化学习姿态约束控制方法
CN116692030A (zh) 基于事件触发机制的航天器重定向控制方法
Sun Saturated adaptive output-constrained control of cooperative spacecraft rendezvous and docking
Nixon et al. Adaptive sliding mode control of a perturbed satellite in a formation antenna array
Wang et al. Control analysis of an underactuated spacecraft under disturbance
Jia et al. Velocity-free trajectory tracking and active vibration control of flexible space manipulator
Xu et al. Composite adaptive attitude control for combined spacecraft with inertia uncertainties
Lang et al. Non-cooperative differential game based output feedback control for spacecraft attitude regulation
Bingöl et al. Fixed-time neuro-sliding mode controller design for quadrotor UAV transporting a suspended payload
MacKunis et al. Adaptive neural network satellite attitude control in the presence of inertia and CMG actuator uncertainties
Sun et al. Finite-time integrated target tracking for spacecraft with two-dimensional turntable under performance constraints
Zhang et al. Finite-time attitude optimization maneuver control for coupled spacecraft under attitude measurement errors and actuator faults
CN116853523A (zh) 航天器轨迹优化方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant