CN106019950A

CN106019950A - 一种手机卫星自适应姿态控制方法

Info

Publication number: CN106019950A
Application number: CN201610647835.5A
Authority: CN
Inventors: 赵军锁; 吴凤鸽; 许轲
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2016-10-12
Anticipated expiration: 2036-08-09
Also published as: CN106019950B

Abstract

本发明涉及一种手机卫星自适应姿态控制方法，其中自适应姿态控制实现的关键步骤是通过强化学习算法实现对环境产生不可预知的变化时进行系统数学模型和控制策略的实时调整。该方法首先对手机卫星姿态控制系统进行数学建模，分析取得的环境参数变化的特点，制定相应的系统模型修改规则。然后，在手机卫星姿态控制模型中，实施基于强化学习算法的自适应控制。并且对强化学习算法进行了专门的优化，进一步提高了自适应控制算法的性能。

Description

一种手机卫星自适应姿态控制方法

技术领域

本发明涉及一种手机卫星自适应姿态控制方法，属于自动控制领域。

背景技术

自适应控制技术最早于1973年由K.J.Astrom和B.Wittenmark教授提出，是指在描述系统运动规律的数学模型随环境的变化产生不可预知的变化时，可以在控制系统运行中自主识别环境变化，自行调节控制器本身控制策略和模型参数来满足系统性能要求的技术。它是一种克服环境不确定因素，提高控制系统适应性的有效方案，被广泛应用于机器人、无人机、大型船舶、航天器等控制系统之中。

自适应控制技术能够有效的根据环境变化调整控制策略。通过把传感器传入的参数变化与当前控制策略所造成的控制误差进行比较，能够得知当前环境的变化。同时结合人工智能技术，自主确定当前的环境参数及控制策略，并通过计算得到环境改变后的当前最优控制方案。

自适应控制技术的过程主要包括系统参数辨识、系统控制决策和系统调节修正三个方面。系统参数辨识是指不断获取被控对象的参数及传感器得到的环境数据，并加以处理，以了解系统的状态。系统控制决策是根据所辨识的系统状态和事先给定的控制策略做出决策，这些决策既受当前系统的状态影响，也会根据任务的变化而有所不同。系统调节修正则是对决策所计算出来的调节参量进行不断地修正，并由相应的执行机构来实现，以驱使系统不断走向最优或要求的状态。

2009年，美国国家航空航天局艾姆斯研究中心(NASA Ames Research Center)发布了微小航天器技术计划，提出了在立方星标准下，以手机作为卫星计算单元的手机卫星概念。美国加州州立理工大学和斯坦福大学在1999年提出了立方体卫星规范，即大小为10cm*10cm*10cm，重量不超过1.33kg的为1U的卫星，相应的，20cm*10cm*10cm的尺寸为2U，30cm*10cm*10cm的尺寸为3U。随着越来越多的大学和研究机构进入立方星的研究，这一技术标准已逐渐成为微小卫星研究的主流。由于手机拥有比一般卫星更好的计算能力，低功耗，又嵌入了照相机、陀螺仪、加速度计、GPS等传感器，因此将手机作为计算单元搭载在立方星的设计框架上，不仅可以降低成本，同时也为卫星的姿态控制提供了便利，手机强大的计算能力也可以为复杂的控制策略的实现提供十分便捷的平台。

对于传统大卫星的姿态控制，已经可以做到角秒级的高精度自适应控制，然而对于立方星等小卫星，由于受到体积的限制，其计算资源、传感器资源以及执行机构资源都比传统大卫星稀缺，因此其算法执行能力，姿态确定精度和姿态控制精度都远小于传统大卫星，大多数小卫星只能做到角度级的姿态控制。例如Pumpkin公司的姿态确定控制系统(ADCS)，使用三轴磁力计和三轴动量轮，可以实现1°的控制精度；GomSpace公司的ADCS使用磁力计、太阳敏感器和磁力矩器，可以实现5°的姿态控制精度；而BCT公司的XACT系统，使用星敏感器、太阳敏感器、磁力矩器和动量轮，可以做到0.007°的姿态精度，但由于其技术上的封锁，无法得知其实现高精度姿态控制的技术细节。目前猜测其实现了小体积下的高精度星敏感器以及高精度动量轮，从而提高了控制精度。

手机卫星则可以利用计算资源的优势，实现以上小卫星ADCS无法实现的对计算资源要求较高的自适应方法，从软件的角度发挥智能化的优势，克服传感器和执行机构的不足，提高控制的精度、自主性以及对环境的适应性。

目前尚未有相关的技术实现的公开报道。

发明内容

本发明技术解决问题：由于传统小卫星受到计算资源的限制，往往采用经典反馈控制方法进行姿态控制，提供一种手机卫星自适应姿态控制方法，主要针对太空环境中存在的重力、剩磁、气动干扰等问题进行自适应处理；在对手机卫星进行姿态控制的过程中，动态识别系统的数学模型变化，自适应地调节系统参数和控制策略，减轻环境干扰的影响，提高了姿态控制的精度、稳定度和适应性。

本发明的原理：一种手机卫星自适应姿态控制方法，不确定环境为卫星姿态控制系统运行的太空环境，受到重力梯度、太空辐射、剩磁干扰等干扰。

(一)对手机卫星姿态控制系统进行数学建模，包括动力学模型和运动学模型，将陀螺仪的漂移，重力梯度干扰，气动干扰力矩，剩磁干扰力矩作为系统自适应辨识的参数，最终获得随环境变化而变化的系统模型，分析取得的环境参数变化的特点，制定相应的系统模型修改规则；该环节的输入为根据卫星传感器得到的上述环境信息以及执行机构给出的控制输出，输出为更新的卫星动力学模型和运动学模型；

(二)在手机卫星姿态控制模型中，实施基于强化学习算法的自适应控制。强化学习算法作为自适应控制方法的一种，其特点为：每次对被控对象进行姿态控制时，收集程序获取的环境信息和执行器输出信息，解算出当前控制策略的回报值，从而判断当前控制策略是否有进行优化的空间，如果有则根据迭代计算公式对当前控制策略进行优化。不断重复这个过程，最终得到控制算法的收敛最优解，当动态模型发生变化时，控制策略也需要进行相应的调整以适应外部环境的变化。该环节的输入为卫星的动力学模型、运动学模型、姿态确定系统给出的卫星姿态以及相关环境信息，输出为更新的卫星姿态控制策略。

(三)对强化学习方法GTD-SS算法进行了专门的优化。该算法结合了TD算法收敛速度快和GTD2算法收敛精度高的特点，在迭代初期使用TD算法加快收敛速度，迭代后期使用GTD2算法提高收敛精度，在算法切换过程中使用Sigmoid函数作为权重，减少算法切换过程中的抖动。对GTD-SS算法的优化则使用了基于机器学习的非监督学习方法，自适应地调节的切换点和切换速度，使切换过程不再依赖于专家经验，从而进一步提高系统对不确定环境的自主适应能力。

本发明具体方案：一种手机卫星自适应姿态控制系统，采用分层递阶姿态控制系统：分为组织级、协调级和控制级；组织级对卫星的各项参数进行收集和分析，卫星的各项参数包括传感器的数据，卫星的星历信息，实时生成手机卫星姿态控制的动态模型，并根据环境参数变化，在线修正更新动态模型，输出最优控制策略；然后，在手机卫星姿态控制的动态模型中，实施基于强化学习算法的自适应控制，并对强化学习算法进行优化，对环境的变化进行及时的适应，输出智能化控制；协调级利用现有网络连接组织级和控制级，满足手机卫星姿态控制系统对协作能力的需求；控制级将组织级的智能化控制输出转化为直接对执行机构的控制命令输出。

所述强化学习算法的过程是：根据输入的动态模型、姿态确定系统给出的手机卫星姿态以及相关环境信息，每次对被控对象进行姿态控制时，收集获取的环境信息和执行器输出信息，根据实际的控制效果解算出当前控制策略的回报值，从而判断当前控制策略是否有进行优化的空间，如果有则根据迭代计算公式对当前控制策略进行优化；不断重复这个过程，最终得到收敛最优解，当动态模型发生变化时，控制策略也需要进行相应的调整以适应外部环境的变化，输出为更新的卫星姿态控制策略。

所述对强化学习算法进行优化采用GTD-SS算法，GTD-SS算法包括GTD2算法和TD算法，在GTD-SS算法的强化学习算法进行优化，对环境的变化进行及时的适应的切换过程中，使用基于机器学习的非监督学习方法，自适应地调节的切换点和切换速度，使切换过程不再依赖于专家经验，从而进一步提高系统对不确定环境的自主适应能力；当在动态模型的更新初期的时候需要较快的收敛速度，使用TD算法进行更新；而在更新的后期需要更好的收敛精度，此时使用GTD2算法进行更新。

一种手机卫星自适应姿态控制方法，实现为：

(1)对手机卫星姿态控制系统进行数学建模，实时生成手机卫星姿态控制的动态模型，动态模型包括动力学模型和运动学模型，将陀螺仪的漂移，重力梯度干扰，气动干扰力矩，剩磁干扰力矩作为系统自适应辨识的参数，最终获得随环境变化而变化的系统模型，分析取得的环境参数变化的特点，制定相应的系统模型修改规则；该环节的输入为根据卫星姿态敏感器得到的上述环境信息以及执行机构给出的控制输出，输出为更新的卫星动力学模型和运动学模型；

(2)在手机卫星姿态控制的动态模型中，实施基于强化学习算法的自适应控制，强化学习算法作为自适应控制方法是，根据输入的动态模型、姿态确定系统给出的卫星姿态以及相关环境信息，每次对被控对象进行姿态控制时，收集获取的环境信息和执行器输出信息，根据实际的控制效果解算出当前控制策略的回报值，从而判断当前控制策略是否有进行优化的空间，如果有则根据迭代计算公式对当前控制策略进行优化；不断重复这个过程，最终得到收敛最优解，当动态模型发生变化时，控制策略也需要进行相应的调整以适应外部环境的变化，输出更新的卫星姿态控制策略。

本发明与现有技术相比的优点在于：

(1)本发明使用手机作为卫星的计算平台，提高了卫星的计算能力，从而提高了自适应姿态控制算法的信息处理能力，使得卫星在面对环境不可预知的不确定性时可以实时在线的进行高效调整。

(2)本发明在手机计算平台下，使用强化学习算法为自适应控制算法，能够提高卫星姿态控制的精度，控制稳定度以及卫星姿态控制的自主性。

(3)本发明对强化学习算法进行了专门的优化，使用软切换方法结合了TD(λ)算法快速收敛和GTD2算法高精度的优势进一步提高了自适应控制算法的性能。

附图说明

图1为卫星姿态控制系统图；

图2为面向手机卫星的分层递阶自适应卫星姿态控制系统图；

图3为基于强化学习的自适应姿态控制系统流程图；

图4为基于TD(λ)算法和GTD2算法的GTD-SS算法伪代码图；

图5为GTD-SS算法所使用的sigmoid函数示意图；

图6为GTD-SS算法的仿真结果。

具体实施方式

下面结合说明书附图，对本发明的具体实施方式做详细描述。

图1展示的是卫星姿态控制系统的流程图。首先，卫星指令会输入当前所需要的控制目标，比如是对地观测或者是对天观测等，将指令输入给控制器由姿态控制算法进行相应的控制。确定了控制目标之后，姿态敏感器如太阳敏感器和惯性传感器等开始收集包含了各种噪声的原始姿态信息传递给姿态确定机构，通过姿态确定方法对原始信息进行处理，并将解算出的姿态信息传递给控制器，告知当前系统的状态。此时，控制器则会根据系统的数学模型，和自适应控制算法计算出当前的控制策略，并交给执行机构，从而完成姿态控制的任务。

下边针对本发明的一体化自适应姿态控制方法进行详细介绍。

图2展示的是分层递阶姿态控制系统图。在手机卫星的姿态控制系统中应用分层递阶控制系统，可以充分利用手机的计算单元计算能力的优势，在组织级对卫星的各项参数进行收集和分析，实时生成卫星的动态模型，对环境的变化进行及时的适应，并且对姿态控制系统给出智能化的输出；在协调级利用现有网络控制系统对实时性和健壮性的优化，连接组织级和协调级，使强化学习算法对姿态控制系统的整体规划能够实时稳定的传递给不同的执行机构，并且使大量不同传感器的数据也能够实时稳定的将数据传递给组织级，发挥各自的优势，从而满足了手机卫星姿态控制系统对协作能力的需求。在执行级根据组织级发出的控制指令，进行高精度和低智能化的控制，从而发挥出硬件和机械系统的最优性能。自适应姿态控制方法的核心是强化学习算法，下面针对强化学习算法进行详细介绍。

图3为强化学习算法的基本模型，其中系统的动态模型如下：

S_t+1＝A_tS_t+B_ta_t+ω_t

式中A_t为系统状态的转移矩阵，B_t表示执行结果对系统状态的影响，ω_t为系统的噪声,π^*为使系统回报函数达到最大的一系列系统输出的集合。卫星姿态控制系统通过强化学习算法的基本原理，不断更新动态模型和输出最优策略来达到自适应控制卫星姿态的目的。首先，卫星姿态控制系统通过传感器感知到手机卫星的当前状态S_t，然后通过动态模型和最优策略π^*交给控制器作为决策依据，再由控制级根据经过强化学习生成的最优策略发出控制指令u_t，执行机构最后把执行的结果返回动态模型和策略生成机构，即组织级的强化学习机构，负责生成控制策略，验证控制效果并且根据强化学习的算法，实时修正动态模型S_t和执行策略π^*。通过在线修正动态模型和最优控制策略，以达到提高卫星姿态控制自主性，降低系统研发成本和研发周期的目的。

下面介绍具体的学习过程。

图4为GTD-SS算法的流程图，该算法为一种优化的强化学习算法。首先，算法需要对各种变量进行初始化，然后执行算法迭代的过程。该算法包括两种基本算法，GTD2算法和TD算法。

其中，TD(Temporal Difference，时序差分)算法是由Sutton等人提出的经典的强化学习算法，该算法通过定义执行机构每次执行的代价r，如执行机构所消耗的时间，所消耗的能量以及达到的系统新状态，再根据两次执行之后的效果差来计算当前策略的价值函数，通过不断优化该函数从而达到获取最优策略的过程。

而GTD2(Gradient Temporal Difference 2，梯度下降时序差分算法第2代)算法是在TD算法的基础上在2009年由Sutton等人提出的新型强化学习算法，该算法在TD算法的基础上引入了变量w，从而在每次TD算法更新后对δ值进行更新，这样做提高的算法的精度，但却减缓了算法的收敛精度，相当于得到了一种更谨慎的算法。

因此，GTD-SS算法在这两个计算结果的基础上进行了综合，当算法在更新初期的时候需要较快的收敛速度，因此主要使用TD算法进行更新。而在算法更新的后期需要更好的收敛精度，因此此时主要使用GTD2算法进行更新。下面介绍具体的综合原理。

图5为GTD算法更新所使用的SIGMOID函数，该函数被广泛应用于机器学习算法中的人工神经网络中。由该函数可以看出，自变量在接近于0的时候，是该函数值改变比较大的时候。而当自变量在负值处越小，函数值越接近于零。当自变量在正值处越大，函数值越接近于1。通过改变函数中的参数，可以修改算法的切换位置和切换速度。因此可以将强化学习算法的学习进度当作SIGMOID函数的自变量，把两种算法的更新权重作为SIGMOID的函数值，通过调节算法的切换速度和切换位置来调节两种算法所占的比例和改变速度。从而合理的发挥两种算法各自的优势和长处，弥补彼此的短处和不足。

GTD-SS算法的流程如图4所示。切换权重如下列公式所示：

W = \frac{1}{1 + e^{- E (i - B)}}

W为TD算法的权重，1-W为GTD2算法的权重。参数B负责调节算法的切换位置，决定了在学习的哪个阶段将TD算法逐渐切换为GTD2算法，该参数可由当前价值函数与最优解时的价值之差来决定，也可以由学习算法的学习速度来决定，亦可根据工程人员的经验来决定。参数E负责调节算法的切换速度，如果该参数过大导致切换过快，则容易时算法产生不稳定的抖动，如果该参数过小导致切换过慢，又无法使算法起到应有的效果。图5中展示的是当B＝10时，E取不同值所得到的切换函数。然而算法在实际应用的过程中亦需要面对环境的不确定性所带来的影响，提前根据算法的学习速度或专家经验所指定的算法切换位置及切换速度往往会限制算法实际应用的效果。因此在算法实际应用的过程中可以使用基于机器学习的非监督学习方法对两种算法进行在线实时自主评价，从而根据环境变化实时调节切换位置和切换速度，最大限度地发挥两种算法的性能，进一步提高系统的自适应能力。下面介绍GTD-SS算法的实验结果。

图6为基于GTD-SS算法的仿真结果，实验基于随机游走对算法进行仿真。如图可知，算法在初期的收敛速度明显高于GTD2法并且在后期的收敛精度明显高于TD算法。图中所展示的TDC算法为TD算法的改进版本。

本发明未详细阐述部分属于本领域技术人员的公知技术。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书为准。

Claims

1.一种手机卫星自适应姿态控制系统，其特征在于：采用分层递阶姿态控制系统，分为组织级、协调级和控制级；组织级对卫星的各项参数进行收集和分析，卫星的各项参数包括传感器的数据，卫星的星历信息，实时生成手机卫星姿态控制的动态模型，并根据环境参数变化，在线修正更新动态模型，输出最优控制策略；然后，在手机卫星姿态控制的动态模型中，实施基于强化学习算法的自适应控制，并对强化学习算法进行优化，对环境的变化进行及时的适应，输出智能化控制；协调级利用现有网络连接组织级和控制级，满足手机卫星姿态控制系统对协作能力的需求；控制级将组织级的智能化控制输出转化为直接对执行机构的控制命令输出。

2.根据权利要求1所述的手机卫星自适应姿态控制系统，其特征在于：所述强化学习算法的过程是：根据输入的动态模型、姿态确定系统给出的手机卫星姿态以及相关环境信息，每次对被控对象进行姿态控制时，收集获取的环境信息和执行器输出信息，根据实际的控制效果解算出当前控制策略的回报值，从而判断当前控制策略是否有进行优化的空间，如果有则根据迭代计算公式对当前控制策略进行优化；不断重复这个过程，最终得到收敛最优解，当动态模型发生变化时，控制策略也需要进行相应的调整以适应外部环境的变化，输出为更新的卫星姿态控制策略。

3.根据权利要求1所述的手机卫星自适应姿态控制系统，其特征在于：所述对强化学习算法进行优化采用GTD-SS算法，GTD-SS算法包括GTD2算法和TD算法，在GTD-SS算法的强化学习算法进行优化，对环境的变化进行及时的适应的切换过程中，使用基于机器学习的非监督学习方法，自适应地调节的切换点和切换速度，使切换过程不再依赖于专家经验，从而进一步提高系统对不确定环境的自主适应能力；当在动态模型的更新初期的时候需要较快的收敛速度，使用TD算法进行更新；而在更新的后期需要更好的收敛精度，此时使用GTD2算法进行更新。

4.一种手机卫星自适应姿态控制方法，其特征在于实现为：