CN114802817A

CN114802817A - 一种基于多飞轮阵列的卫星姿态控制的方法以及装置

Info

Publication number: CN114802817A
Application number: CN202210593926.0A
Authority: CN
Inventors: 赵军锁; 于佳莉; 吴凤鸽
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-07-29

Abstract

本申请实施例提供一种基于多飞轮阵列的卫星姿态控制的方法以及装置，所述方法包括：获取卫星的当前姿态属性值；根据所述当前姿态属性值与目标姿态值确认对所述卫星的姿态进行调整；将所述当前姿态属性值和所述目标姿态值输入控制器，通过所述控制器得到与各飞轮对应的目标转速调整值，其中，所述控制器是与飞轮阵列中各飞轮对应设置的，所述飞轮阵列分布在多轴中的各轴上。本申请的一些实施例提供一种基于多智能体分层强化学习的飞轮阵列卫星姿态控制方法。

Description

一种基于多飞轮阵列的卫星姿态控制的方法以及装置

技术领域

本申请涉及卫星姿态控制领域，具体而言本申请实施例涉及一种基于多飞轮阵列的卫星姿态控制的方法以及装置。

背景技术

卫星的姿态控制大都使用宇航级器件但成本昂贵，所以相关技术提出使用工业级姿态控制部件飞轮代替宇航级器件来降低成本。

飞轮具有角动量小、输出力矩小的特点，能够实现小卫星高精度姿态控制，被广泛应用于现代小卫星中。传统的卫星姿态控制系统在x轴、y轴和z轴以及辅助轴上分别设置一个飞轮并采用PID控制器控制各飞轮。例如，相关技术主要采用PID控制器，PID控制器可以直接从传感器获取姿态信息，根据目标姿态信息通过比例、积分和微分运算得到控制率。

PID控制器具有实现简单、计算量少、可靠性高的特点，一般适用于线性系统，但对传感器噪声非常敏感，需要过滤器，缺乏环境自适应性，需要专业的背景知识才能进行调整参数，不同的卫星的参数往往不同，这会耗费大量人工进行调整系数。在非线性、强耦合性的多飞轮阵列的复杂环境下，PID控制器无法完成高精度控制任务。

发明内容

本申请实施例的目的在于提供一种基于多飞轮阵列的卫星姿态控制的方法以及装置，为了解决传统控制算法在非线性、强耦合性的多飞轮阵列的复杂环境下无法完成高精度控制任务，本申请的一些实施例将多轴飞轮阵列分解为几个单轴多飞轮控制问题，即本申请的一些实施例提供一种基于多智能体分层强化学习的飞轮阵列卫星姿态控制方法。

第一方面，本申请的一些实施例提供一种基于多飞轮阵列的卫星姿态控制的方法，所述方法包括：获取卫星的当前姿态属性值；根据所述当前姿态属性值与目标姿态值确认对所述卫星的姿态进行调整；将所述当前姿态属性值和所述目标姿态值输入控制器，通过所述控制器得到与各飞轮对应的目标转速调整值，其中，所述控制器是与飞轮阵列中各飞轮对应设置的，所述飞轮阵列分布在多轴中的各轴上；其中，所述控制器是以获取的各轴的轴调整力矩作为训练目标对飞轮策略网络进行训练得到的。

本申请的一些实施例提供了多智能体分层强化学习卫星姿态控制算法的上层任务(即获取各轴的轴调整力矩)和下层任务(获取各轴的轴调整力矩之后获取各飞轮的转速调整值)，即将多轴分轮阵列分解为几个单轴多飞轮控制问题有效解决了采用传统控制算法在非线性、强耦合性的多飞轮阵列的复杂环境下无法完成高精度控制任务。

在一些实施例中，所述多轴包括基于所述卫星的本体坐标系构建的x轴、y轴和z轴，其中，所述x轴、所述y轴以及所述z轴相互垂直。

本申请的一些实施例在三个相互垂直的轴上设置飞轮阵列来实现卫星姿态控制，例如，本申请的一些实施例的多个飞轮以并排、并列或者叠放的方式组成一组飞轮阵列实现卫星姿态控制。

在本申请的一些实施例中，在所述通过所述控制器得到与各飞轮对应的目标转速调整值之前，所述方法还包括：获取所述多轴中各轴的所述轴调整力矩；根据所述轴调整力矩对所述飞轮策略网络进行训练得到所述控制器。

本申请的一些实施例将获取的各轴的轴调整力矩作为下一层智能体训练的辅助目标，提升了得到的智能体的性能。

在一些实施例中，所述轴调整力矩是通过第一智能体得到的，其中，在所述获取所述多轴中各轴的所述轴调整力矩之前，所述方法还包括：根据第一奖励函数对策略网络进行训练得到所述第一智能体，其中，所述第一奖励函数与所述当前姿态属性值和所述目标姿态值之间的距离正相关且与从开始姿态控制的时刻到当前时刻的时间差负相关。

本申请的一些实施例设计了用于训练第一智能体所需的奖励函数，通过该奖励函数使得训练得到的第一智能体具有所需的目标性能。

在一些实施例中，所述第一奖励函数的公式如下：

R₁(q_t，t_x，t_y，t_z)＝-α₁D(q_t+1，q')-β₁T

其中，q_i用于表征训练时获取的当前姿态属性值，q_t+1,表征通过所述策略网络预测得到的下一个姿态属性值，t_x表征所述x轴的轴调整力矩，t_y表征所述y轴的轴调整力矩，t_z表征所述z轴的轴调整力矩，D(q_t+1,q')表示所述下一个姿态属性值和所述目标姿态值之间的距离，T表示从所述开始姿态控制的时刻到所述当前时刻的所述时间差，α₁和β₁是超参数。

本申请的一些实施例设计了一种具体的奖励函数，通过该奖励函数使得训练得到的第一智能体具有所需的目标性能。

在一些实施例中，所述根据第一奖励函数对策略网络进行训练得到所述第一智能体，包括：根据初始卫星姿态值q₀，通过所述策略网络得到三轴中每个轴的轴调整力矩a₀＝(t_x,t_y,t_z)；加入随机的干扰力矩通过卫星动力学模型和卫星运动学模型得到第一次调整后姿态q₁，将所述第一次调整后姿态q₁和所述目标姿态值q′代入所述第一奖励函数得到全局奖励值r₀，重复此步骤，得到一条轨迹q₀,a₀,r₀,q₁,a₁,r₁,……,q_T-1,a_T-1,r_T-1,q_T；将与所述轨迹对应的所有数据放入经验池中，根据所述经验池中的数据完成本次训练；重复上述过程直至对所述策略网络的训练过程结束得到所述第一智能体。

在一些实施例中，所述根据所述轴调整力矩对所述策略网络进行训练得到所述控制器包括：根据第二奖励函数对所述飞轮策略网络进行训练得到所述控制器，其中，所述第二奖励函数与通过所述飞轮策略网络得到的力矩和期望力矩之间的误差负相关，与从开始姿态控制的时刻到当前时刻的时间差负相关，且与调整的角速度值大小负相关。

本申请的一些实施例设计了用于训练控制器所需的奖励函数，通过该奖励函数使得训练得到的控制器具有所需的目标性能。

在一些实施例中，所述第二奖励函数的公式如下：

其中，t′_j是根据当前姿态进行目标分解后j轴需要的总力矩，j∈{X,Y,Z}，

是将j轴各个飞轮的策略网络的输出进行联合得到的联合调整转速，调整转速表示各个飞轮转速增大或减少的量，

为在进行飞轮转速调整后通过飞轮的动力学模型计算出由j轴所有飞轮产生的总力矩，t′_j表示三轴的期望力矩，

表示通过飞轮策略网络得到的力矩和所述期望力矩之间的误差,差距越小奖励值越大；T_j表示从开始姿态控制的时刻到当前时刻的时间差，完成姿态控制的时间越短奖励值越大；平稳控制卫星的姿态，转速的改变不能过于剧烈，转速的改变量越小奖励值越大。其中α_j、β_j、和μ_j为超参数，均大于0，衡量对奖励的影响大小。

在一些实施例中，所述飞轮阵列包括n个飞轮，其中，所述根据第二奖励函数对策略网络进行训练得到所述控制器，包括：将当前卫星姿态q_t输入到所述飞轮策略网络中得到与任一轴对应的n个控制体的联合动作

其中，所述联合动作用于表征联合转速改变量；通过所述联合转速改变量和当前转速可以得到下一时刻的联合转速

将所述联合转速

传入到飞轮的动力学模型中得到更新力矩

将

和当前j轴所需力矩t′_j代入所述第二奖励函数得到奖励值r，然后通过卫星动力学模型和卫星运动学模型得到下一时刻的卫星姿态q_i+1，重复该过程，直到t＞T，t从0开始取值。

本申请的实施例通过值函数训练策略网络得到控制器。

在一些实施例中，所述卫星动力学模型是通过动力学方程建立的，所述卫星运动学模型是通过运动学方程建立的，所述卫星动力学模型用于根据所述制动力矩得到所述卫星的姿态角速度向量，所述卫星运动学模型用于根据所述姿态角速度向量得到所述更新后姿态属性值。

在一些实施例中，所述当前姿态属性值和所述目标姿态值均采用四元数、方向余弦矩阵或者欧拉角中的一种形式进行表征。

在一些实施例中，所述干扰力矩使用随机函数表示；或者，所述干扰力矩是通过一个干扰力矩模型获取的，其中，所述干扰力矩获取模型采用神经网络模拟太空空间干扰。

第二方面，本申请的一些实施例提供一种基于多飞轮阵列的卫星姿态控制的装置，所述装置包括：当前姿态属性值获取模块，被配置为获取卫星的当前姿态属性值；第一判断模块，被配置为根据所述当前姿态属性值与目标姿态值确认对所述卫星姿态进行调整；控制器，被配置为首先根据所述当前姿态属性值得到所述控制器所属轴的轴调整力矩，之后再根据所述轴调整力矩得到与所述控制器对应设置的飞轮的目标转速调整值。

第三方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的基于多飞轮阵列的卫星姿态控制的方法流程；

图2为本申请实施例提供的训练过程中的姿态调整系统架构图；

图3为本申请实施例提供的目标分解训练阶段网络架构图；

图4为本申请实施例提供的用于对获取各飞轮转速调整值的模型进行训练的架构图；

图5为本申请实施例提供的基于多飞轮阵列的卫星姿态控制的装置的组成框图；

图6为本申请实施例提供的电子设备组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请的发明人经过研究发现，为了减少由于单个器件可靠性降低带来的影响，可以采用飞轮阵列来增加对卫星姿态调整的可靠性。例如，多个飞轮以并排、并列或者叠放的方式组成一组飞轮阵列，这组飞轮阵列设置在一个轴上。可以理解的是，在飞轮阵列这样的非线性、强耦合性的多飞轮阵列的复杂环境下，无法采用相关技术的PID控制器完成高精度卫星姿态控制。

每个飞轮都拥有一个单片机，传统PID算法只是将其作为执行机构的控制器，并未充分利用其算力，而本申请的一些实施例将基于多智能体强化学习算法训练好的策略网络(即控制器)布置在单片机上，使得每一个飞轮都能够自主决策，形成自底向上的群体智能。

可以理解的是，本申请一些实施例的基于多智能体强化学习的控制算法无需环境的先验知识，无需对受控对象进行精确地建模，通过智能体与环境进行交互，通过环境给予的反馈，主动调整策略，自主地学习合作，完成复杂的控制任务，能够减少大量的人工调参时间，具有良好的实时性、适应性，使用集中训练分散执行的算法框架，能够避免集中策略因为动作空间随智能体数量呈指数增长带来的维度灾难。本申请的一些实施例基于分层强化学习将复杂的问题分成几个简单的子问题分别解决，将多轴的姿态控制问题转化成单轴多智能体控制问题，降低问题的复杂性，极大地减少训练网络的规模。例如，在对飞轮策略网络进行训练时，本申请的一些实施例通过第一智能体获取各轴的轴调整力矩(即根据当前卫星姿态q_t进行目标分解后得到任一轴j需要的总力矩)，之后在依据轴调整力矩作为与控制器对应的智能体的辅助训练目标，对智能体进行训练得到控制器。在具体应用时，直接将采集的卫星的当前姿态属性值输入控制器，该控制器就会输出满足要求的各飞轮的转速调整值。

在本申请的一些实施例中，多飞轮阵列的飞轮呈三维正交分布，分别安装在卫星本体坐标系的x轴、y轴和z轴上，每个轴上有多个飞轮(多个飞轮组成一个飞轮阵列)，飞轮之间存在着影响，本申请实施例提供的控制算法的目的是确保飞轮阵列能够共同协作完成复杂的姿态控制任务，包括当飞轮阵列出现饱和无法继续完成卫星姿态控制时，对其他执行机构的调配。

近年来，强化学习已经在无人机、自动驾驶、机器人集群控制、实施战略游戏等领域取得了不错的成绩，能够端到端地无需人工干涉地完成多项复杂任务，在控制领域具有巨大的潜力。多智能体强化学习使多个智能体能够在实时动态的环境中，在合作或竞争的场景下，共同协作完成各种复杂的任务。

如图1所示，本申请的一些实施例提供一种基于多飞轮阵列的卫星姿态控制的方法，所述方法包括：S101，获取卫星的当前姿态属性值；S102，根据所述当前姿态属性值与目标姿态值确认对所述卫星的姿态进行调整；S103，将所述当前姿态属性值和所述目标姿态值输入控制器，通过所述控制器得到与各飞轮对应的目标转速调整值，其中，所述控制器是与飞轮阵列中各飞轮对应设置的，所述飞轮阵列分布在多轴中的各轴上；其中，所述控制器是以获取的各轴的轴调整力矩作为训练目标对飞轮策略网络进行训练得到的。

可以理解的是，为了使得控制器具备上述功能需要先对策略网络进行训练才能得到该控制器。下面示例性阐述对策略网络进行训练得到控制器的过程。

例如，为了得到控制器，在本申请的一些实施例中所述通过所述控制器得到与各飞轮对应的目标转速调整值之前，所述方法还包括：获取所述多轴中各轴的所述轴调整力矩；根据所述轴调整力矩对所述策略网络进行训练得到所述控制器。

也就是说，本申请的一些实施例提供了多智能体分层强化学习卫星姿态控制算法的上层任务(即获取各轴的轴调整力矩)和下层任务(获取各轴的轴调整力矩之后获取各飞轮的转速调整值)，即将多轴分轮阵列分解为几个单轴多飞轮控制问题有效解决了采用传统控制算法在非线性、强耦合性的多飞轮阵列的复杂环境下无法完成高精度控制任务。

需要说明的是为了得到控制器需要首先对策略网络模型进行训练使策略网络模型具备根据当前姿态属性值和目标姿态值进行目标分解的功能(即得到与各轴对应的轴调整力矩)并具备根据各轴轴调整力矩得到各轴飞轮阵列中每个飞轮的转速的改变量(即得到转速调整值)的功能。

在本申请的一些实施例中，所述多轴包括基于所述卫星的本体坐标系构建的x轴、y轴和z轴，其中，所述x轴、所述y轴以及所述z轴相互垂直。本申请的一些实施例在三个相互垂直的轴上设置飞轮阵列来实现卫星姿态控制，例如，本申请的一些实施例的多个飞轮以并排、并列或者叠放的方式组成一组飞轮阵列实现卫星姿态控制。

在本申请的一些实施例中实现目标分解功能的为第一智能体(图中未示出，该智能体包括在控制器内部)，下面示例性阐述通过训练获取该第一智能体的过程。通过该第一智能体可以得到各轴的轴调整力矩，之后再依据轴调整力矩对飞轮策略网络进行训练才能得到控制器。

也就是说，在本申请的一些实施例中，所述轴调整力矩是通过第一智能体得到的，其中，在所述获取所述多轴中各轴的所述轴调整力矩之前，包括：根据第一奖励函数对策略网络进行训练得到所述第一智能体，其中，所述第一奖励函数与所述当前姿态属性值和所述目标姿态值之间的距离正相关且与从开始姿态控制的时刻到当前时刻的时间差负相关。本申请的一些实施例设计了用于训练第一智能体所需的奖励函数，通过该奖励函数使得训练得到的第一智能体具有所需的目标性能。

例如，在本申请的一些实施例中，所述第一奖励函数的公式如下：

R₁(q_t，t_x，t_y，t_z)＝-α₁D(q_t+1，q')-β₁T

其中，q_t用于表征训练时获取的当前姿态属性值，q_t+1,表征通过所述策略网络预测得到的下一个姿态属性值，t_x表征所述x轴的轴调整力矩，t_y表征所述y轴的轴调整力矩，t_z表征所述z轴的轴调整力矩，D(q_t+1,q')表示所述下一个姿态属性值和所述目标姿态值之间的距离，T表示从所述开始姿态控制的时刻到所述当前时刻的所述时间差，α₁和β₁是超参数。

例如，在本申请的一些实施例中，所述根据第一奖励函数对策略网络进行训练得到所述第一智能体，包括：根据初始卫星姿态值q₀，通过所述策略网络得到三轴中每个轴的轴调整力矩a₀＝(t_x,t_y,t_z)；加入随机的干扰力矩通过卫星动力学模型和卫星运动学模型得到第一次调整后姿态q₁，将所述第一次调整后姿态q₁和所述目标姿态值q′代入所述第一奖励函数得到全局奖励值r₀，重复此步骤，得到一条轨迹q₀,a₀,r₀,q₁,a₁,r₁,……,q_T-1,a_T-1,r_T-1,q_T；将与所述轨迹对应的所有数据放入经验池中，根据所述经验池中的数据完成本次训练；重复上述过程直至对所述策略网络的训练过程结束得到所述第一智能体。

下面示例性阐述通过轴调整力矩对飞轮策略网络进行训练获取控制器的过程。

在本申请的一些实施例中，所述根据所述轴调整力矩对所述飞轮策略网络进行训练得到所述控制器：根据第二奖励函数对策略网络进行训练得到所述控制器，其中，所述第二奖励函数与通过所述策略网络得到的力矩和期望力矩之间的误差负相关，与从开始姿态控制的时刻到当前时刻的时间差负相关，且与调整的角速度值大小负相关。本申请的一些实施例设计了用于训练控制器所需的奖励函数，通过该奖励函数使得训练得到的控制器具有所需的目标性能。

例如，在本申请的一些实施例中，所述第二奖励函数的公式如下：

表示通过所述飞轮策略网络得到的力矩和所述期望力矩之间的误差,差距越小奖励值越大；T_x表示从开始姿态控制的时刻到当前时刻的时间差，完成姿态控制的时间越短奖励值越大；平稳控制卫星的姿态，转速的改变不能过于剧烈，转速的改变量越小奖励值越大。其中α_j、β_j、和μ_j为超参数，均大于0，衡量对奖励的影响大小。

例如，在本申请的一些实施例中，所述飞轮阵列包括n个飞轮，其中，所述根据第二奖励函数对飞轮策略网络进行训练得到所述控制器，包括：将当前卫星姿态q_t输入到所述飞轮策略网络中得到与任一轴对应的n个控制体的联合动作

j∈{X,Y,Z}，其中，所述联合动作用于表征联合转速改变量；通过所述联合转速改变量和当前转速可以得到下一时刻的联合转速

将所述联合转速

传入到飞轮的动力学模型中得到更新力矩

将

和当前j轴所需力矩t′_j代入所述第二奖励函数得到奖励值r，然后通过卫星动力学模型和卫星运动学模型得到下一时刻的卫星姿态q_t+1，重复该过程，直到t＞T，t从0开始取值。

在一些实施例中，所述动力学模型是通过动力学方程建立的，所述卫星运动学模型是通过运动学方程建立的，所述卫星动力学模型用于根据所述制动力矩得到所述卫星的姿态角速度向量，所述卫星运动学模型用于根据所述姿态角速度向量得到所述更新后姿态属性值。

下面结合图2-图4示例性阐述本申请的训练过程。

请参看图2，图2为本申请一些实施例的架构图，在图2的架构中包括：三轴分别设置的多个飞轮，为每个飞轮设置的控制器，用于获取卫星姿态属性值的传感器、飞轮的动力学模型、卫星的动力学模型以及卫星的运动学模型。例如，图2的传感器采集卫星的当前姿态属性值，各控制器根据目标姿态值和当前姿态属性值得到对应飞轮的转速调整值(即得到目标转速调整值)，其中，在训练控制器的过程中需要根据转速调整值来判断对控制器的训练过程是否已经结束。下文会详细描述根据奖励函数训练策略网络得到控制器的过程，为避免重复在此不做过多赘述。

为了解决传统控制算法在非线性、强耦合性的多飞轮阵列的复杂环境下无法完成高精度控制任务，本申请的一些实施例将多轴分轮阵列分解为几个单轴多飞轮控制问题，本申请的一些实施例提供一种基于多智能体分层强化学习的飞轮阵列卫星姿态控制方法该方法包括如下步骤：

步骤1:从卫星传感器获取当前卫星姿态q_t(即获取当前姿态属性值)；

步骤2：判断是否达到卫星目标姿态(即达到目标姿态值)，若D(q_t+1,q')＜ε，完成目标姿态控制，结束姿态控制，反之，继续步骤3-7；

步骤3:把当前卫星姿态(即当前卫星姿态属性值)q_t和卫星目标姿态(即目标姿态值)q′传入各个飞轮的控制器，可以得到每个飞轮的转速的改变量(即目标转速调整量)。

步骤4:加入一个连续的干扰力矩

(由随机函数表示)，该干扰力矩用来模拟太空空间中的正常干扰的环境力矩，如重力梯度力矩、太阳光压力矩、气动力矩等。

步5：将飞轮的各个转速传入飞轮的动力学模型中，得到飞轮产生的三轴力矩t。

步骤6:将飞轮产生的三轴力矩中加入干扰力矩

得到总力矩t'作为卫星的动力学模型的输入，计算出多轴飞轮阵列所产生的姿态角速度ω；

步骤7：将ω作为卫星的运动学模型的输入，可以得出卫星的下一时刻的姿态q_t+1，传入传感器，更新当前卫星姿态，继续步骤1。

下面逐一解释上述七个步骤。

上述步骤1中，在姿控问题中，四元数因为参数少、计算过程简单而

被广泛使用。四元数表示q＝[q₀,q₁,q₂,q₃]^T，定义为：

其中，e＝[e_x，e_y，e_z]^T欧拉轴，Φ为旋转角，四元数参数需要满足条件

姿态矩阵定义如下：

根据姿态矩阵就可用姿态四元数表示卫星的姿态。

由于本申请的一些实施例需要在卫星仿真环境中进行实验，首先需要搭建卫星的动力学模型和卫星的运动学模型。

将卫星视为一个刚体，根据刚体的动力学方程，可得卫星的动力学方程，如下式：

H＝Jω

二式联立可得

其中，H表示卫星的角动量，J表示卫星的转动惯量，ω表示卫星的姿态角速度向量，u表示三轴制动力矩矢量，d表示卫星受到的干扰力矩。

卫星的运动学模型表示姿态四元数随角速度变化的规律，如下式：

上述步骤2中，根据当前的卫星姿态q和目标姿态q′,计算当前姿态和目标姿态之间的距离，判断D(q,q')是否小于∈,若小于，说明完成卫星姿态控制，结束当前姿控任务，反之，继续以下步骤，调整卫星姿态以实现目标姿态。

上述步骤3中，首先将控制三个轴上的多个飞轮的问题先简化为控制三个轴上的单个飞轮，把每个轴上的多个飞轮视为一个整体，学习目标分解，输入为当前卫星姿态q_t和卫星目标姿态q′，得到x轴、y轴、z轴的所需力矩(t_x,t_y,t_z)(即得到三轴的轴调整力矩)，在目标分解后，每个轴的飞轮拥有对应轴的分解目标，即所需力矩t_i,i∈{x,y,z}，和一个总目标，最终需要达到的一个目标姿态q'，根据设计的每个飞轮的奖励函数训练飞轮的控制算法，最终可以根据当前姿态得到每个飞轮的转速改变量。

首先需要设计目标分解奖励函数(即第一奖励函数)：

R₁(q_t,t_x,t_y,t_z)＝-α₁D(q_t+1,q')-β₁T

其中，D₁(q_t+1,q')表示当前姿态和目标姿态之间的距离，距离越近奖励值越大，t_x表征所述x轴的轴调整力矩，t_y表征所述y轴的轴调整力矩，t_z表征所述z轴的轴调整力矩，T表示从开始姿态控制的时刻到当前时刻的时间差，完成姿态控制的时间越短奖励值越大。α₁和β₁是超参数，均大于0，衡量对奖励的影响大小。

经验池

(存入收集的轨迹)，k表示网络训练迭代次数取值0,1,2,3,……,K,每轮网络迭代的步长为T，批数量B。

a)随机初始化策略网络

和值网络{φ₀}，或使用迁移学习对网络进行预初始化；

b)初始化目标值网络

c)用联合策略

收集一条轨迹；

根据初始卫星姿态值q₀，通过所述策略网络得到三轴中每个轴的轴调整力矩a₀＝(t_x,t_y,t_z)；加入随机的干扰力矩通过卫星动力学模型和卫星运动学模型得到第一次调整后姿态q₁，将所述第一次调整后姿态q₁和所述目标姿态值q′代入所述第一奖励函数得到全局奖励值r₀，重复此步骤，得到一条轨迹q₀,a₀,r₀,q₁,a₁,r₁,……,q_T-1,a_T-1,r_T-1,q_T。

d)将

放入经验池

中；

e)从经验池

中随机采样B条；

f)根据TD算法，更新V(q_t)；

V(q_t)＝r_t+γV(q_t+1)

其中γ表示折扣因子γ∈[0,1]

目标值网络

中输入q_t+1得到

计算值网络梯度

后更新值网络,其中η₁是学习率，0＜η₁＜1

g)更新策略网络；

策略网络的目标函数：

计算优势函数，

表示除智能体

之外的所有智能体的联合动作，对经验池中所有的

进行统计得出期望值

计算策略网络梯度：

更新策略网络参数,其中η₂是学习率，0＜η₂＜1

h)更新目标值网络参数；

i)重复步骤c，直到k＞K,结束网络训练。

在飞轮的控制算法训练阶段时，此目标分解网络的作用如下所述：

不再使用值网络，每个轴对应的策略网络根据当前的卫星姿态q就可以得出相应的力矩q_i。

q_i＝π_i(q),i∈{x,y,z}

因为每个轴具有同质性，相同的状态空间和相同的动作空间，策略网络可以使用参数共享，大大地减少网络的计算。

单轴飞轮阵列的执行器上的策略网络使用基于多智能体强化学习控制算法进行训练，每一个飞轮为一个智能体，拥有一个独立的策略网络。算法使用集中训练分散执行框架，分为训练阶段和执行阶段。利用分层强化学习，将问题抽象为两个简单的子问题，设计下一层的子问题的目标，单轴的飞轮阵列的各个控制器能够根据目标姿态自行输出相应飞轮的转速的改变量。

飞轮阵列控制算法的训练阶段步骤如下所述：

以x轴为例，假设飞轮数量为n，飞轮之间具有异质性(具有不同的动作空间)，不能使用相同策略，阈值为∈，经验池

k表示网络训练迭代次数取值0,1,2,……,K,每轮网络迭代的步长为T，批数量B。

首先设计奖励函数(即与x轴对应的第二奖励函数)：

t′_x是根据当前姿态得到的所需要的目标轴的轴调整力矩，

为当前所有飞轮的联合转速，

是通过每个飞轮的策略网络得到的联合输出，表示飞轮转速增大或减少的量，通过当前转速

与飞轮转速的改变量

可以得到下一时刻飞轮的转速

为当飞轮的联合转速为

时，通过飞轮的动力学模型计算出由x轴所有飞轮产生的总力矩，

表示通过策略网络得到的力矩和期望力矩之间的误差,以及得到下一时刻的q_t+1，差距越小奖励值越大；T_x表示从开始姿态控制的时刻到当前时刻的时间差，完成姿态控制的时间越短奖励值越大；平稳控制卫星的姿态，转速的改变不能过于剧烈，转速的改变量越小奖励值越大。其中，α_x,β_x和μ_x为超参数，均大于0，衡量对奖励的影响大小。

a.随机初始化策略网络

和值网络{φ₀}，或使用迁移学习对网络进行预初始化；

b.初始化目标值网络

c.用联合策略

收集一条轨迹；

将ω_t输入到联合策略网络中得到所有智能体的联合动作

通过联合转速改变量和当前转速可以得到下一时刻的联合转速ω_t+1，将ω_t+1下一时刻的联合转速传入到飞轮的动力学模型中可以得到新的力矩

将

和t'_x代入奖励函数得到奖励值r，然后通过卫星的动力学和运动学模型得到下一时刻的卫星姿态q_t+1,根据目标分解，得到下一时刻的目标力矩，重复该过程，直到t＞T，t从0开始取值。

d.将

放入经验池

中；

e.从经验池

中随机采样B条；

f.根据TD算法，更新V(q_t)；

V(q_t)＝r_t+γV(q_t+1)

其中，γ表示折扣因子γ∈[0,1]。

目标值网络

中输入q_t+1得到

计算值网络梯度

后更新值网络,其中，η₁是学习率，0＜η₁＜1

g.更新策略网络；

策略网络的目标函数：

计算优势函数，

表示除智能体i之外的所有智能体的联合动作，对经验池中所有的

进行统计得出期望值

计算策略网络梯度：

更新策略网络参数,其中η₂是学习率，0＜η₂＜1

h.更新目标值网络参数；

i.重复步骤c，直到k＞K,结束网络训练。

最终飞轮的策略网络执行如下所述：

执行阶段不再使用值网络，每个智能体的策略网络根据q就可以得出相应的飞轮转速的改变量a_i(即目标转速调整值)。

a_i＝π_i(q),i∈N

上述步骤5中，随机函数可以为连续函数表示，

i≠j或

i≠j,每个智能体受到的干扰力矩可以相同也可以不同，但力矩需要连续且智能体之间所受干扰力矩差异不大，最终联合力矩为

该方法的整体流程图如图1所示，算法架构图如图2所示。

需要说明的是，上述步骤1的卫星姿态的表示不止有四元数，可以用其他的复杂的形式进行表示，如方向余弦矩阵、欧拉角，以及卫星的动力学模型和运动学模型可以基于真实的卫星姿控数据使用神经网络进行监督学习对太空环境进行建模。上述步骤5的干扰力矩可以使用随机函数表示，也可以建立一个干扰力矩模型，使用神经网络模拟复杂的太空空间干扰。

图2是姿态控制的流程图，图3和图4属于算法架构图，整体过程的展开说明在上述两次控制器的算法中，参数也是一一对应的，整体过程简单说明如下：

如图3所示，每一个控制器actor从环境中得到当前的卫星姿态，通过自己的策略网络可以得到调整力矩t_i,i∈{x,y,z}，将调整力矩传给值网络，值网络根据联合调整力矩和当前卫星姿态返回给每一个控制器对应的优势函数的值A(t_i,q),i∈{x,y,z}，每个控制器根据优势函数的值更新自己的策略网络。

如图4所示，训练阶段：从环境中得到当前卫星姿态q，先进行目标分解传入到Actori,i∈{X,Y,Z}中，得到x轴、y轴、z轴的调整力矩t_x,t_y,t_z，再将其传入到飞轮对应轴的值网络中，组成训练阶段的值网络的奖励函数。飞轮的控制器从环境中得到当前的卫星姿态q，通过自己的策略网络输出转速调整值

i∈{X,Y,Z},j∈{1,…,n}，将转速调整值传给值网络，值网络根据联合转速调整值和当前卫星姿态返回给每一个控制器对应的优势函数的值

i∈{X,Y,Z},j∈{1,…,n}，每个控制器根据优势函数的值更新自己的策略网络。执行阶段：每个飞轮的控制器根据当前的卫星姿态直接输出飞轮的调整转速

i∈{X,Y,Z},j∈{1,…,n}。

如图5所示，图5示出了本申请实施例提供的基于多飞轮阵列的卫星姿态控制的装置，应理解，该装置与上述图1方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该基于多飞轮阵列的卫星姿态控制的装置包括：当前姿态属性值获取模块101、判断模块102以及控制模块103。

当前姿态属性值获取模块，被配置为获取卫星的当前姿态属性值；判断模块，被配置为根据所述当前姿态属性值与目标姿态值确认对所述卫星姿态进行调整；控制模块，被配置为首先根据所述当前姿态属性值得到所述控制器所属轴的轴调整力矩，之后再根据所述轴调整力矩得到与所述控制器对应设置的飞轮的目标转速调整值。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如图2任一实施例所述的方法。

如图6所示，本申请的一些实施例提供一种电子设备500，包括存储器510、处理器520以及存储在所述存储器510上并可在所述处理器520上运行的计算机程序，其中，所述处理器520通过总线530从存储器520读取程序并执行所述程序时可实现如图1任一实施例所述的方法。

处理器520可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器520可以是微处理器。

存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图1中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于多飞轮阵列的卫星姿态控制的方法，其特征在于，所述方法包括：

获取卫星的当前姿态属性值；

根据所述当前姿态属性值与目标姿态值确认对所述卫星的姿态进行调整；

将所述当前姿态属性值和所述目标姿态值输入控制器，通过所述控制器得到与各飞轮对应的目标转速调整值，其中，所述控制器是与飞轮阵列中各飞轮对应设置的，所述飞轮阵列分布在多轴中的各轴上；

其中，所述控制器是以获取的各轴的轴调整力矩作为训练目标对飞轮策略网络进行训练得到的。

2.如权利要求1所述的方法，其特征在于，所述多轴包括基于所述卫星的本体坐标系构建的x轴、y轴和z轴，其中，所述x轴、所述y轴以及所述z轴相互垂直。

3.如权利要求2所述的方法，其特征在于，在所述通过所述控制器得到与各飞轮对应的目标转速调整值之前，所述方法还包括：

获取所述多轴中各轴的所述轴调整力矩；

根据所述轴调整力矩对所述飞轮策略网络进行训练得到所述控制器。

4.如权利要求3所述的方法，其特征在于，所述轴调整力矩是通过第一智能体得到的，其中，

在所述获取所述多轴中各轴的所述轴调整力矩之前，包括：

根据第一奖励函数对策略网络进行训练得到所述第一智能体，其中，所述第一奖励函数与所述当前姿态属性值和所述目标姿态值之间的距离正相关且与从开始姿态控制的时刻到当前时刻的时间差负相关。

5.如权利要求4所述的方法，其特征在于，所述第一奖励函数的公式如下：

R₁(q_t，t_x，t_y，t_z)＝-α₁D(q_t+1，q′)-β₁T

其中，q_t用于表征训练时获取的当前姿态属性值，q_t+1，表征通过所述策略网络预测得到的下一个姿态属性值，t_x表征所述x轴的轴调整力矩，t_y表征所述y轴的轴调整力矩，t_z表征所述z轴的轴调整力矩，D(q_t+1，q′)表示所述下一个姿态属性值和所述目标姿态值之间的距离，T表示从所述开始姿态控制的时刻到所述当前时刻的所述时间差，α₁和β₁是超参数。

6.如权利要求5所述的方法，其特征在于，所述根据第一奖励函数对策略网络进行训练得到所述第一智能体，包括：

根据初始卫星姿态值q₀，通过所述策略网络得到三轴中每个轴的轴调整力矩a₀＝(t_x，t_y，t_z)；