CN114889848A - 一种卫星姿态的控制方法、控制装置、计算机设备和介质 - Google Patents
一种卫星姿态的控制方法、控制装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN114889848A CN114889848A CN202210356520.0A CN202210356520A CN114889848A CN 114889848 A CN114889848 A CN 114889848A CN 202210356520 A CN202210356520 A CN 202210356520A CN 114889848 A CN114889848 A CN 114889848A
- Authority
- CN
- China
- Prior art keywords
- target
- attitude angle
- time
- current
- satellite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000002787 reinforcement Effects 0.000 claims abstract description 81
- 230000009471 action Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 11
- 238000011217 control strategy Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64G—COSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
- B64G1/00—Cosmonautic vehicles
- B64G1/22—Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
- B64G1/24—Guiding or controlling apparatus, e.g. for attitude control
- B64G1/244—Spacecraft control systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64G—COSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
- B64G1/00—Cosmonautic vehicles
- B64G1/22—Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
- B64G1/24—Guiding or controlling apparatus, e.g. for attitude control
- B64G1/244—Spacecraft control systems
- B64G1/245—Attitude control algorithms for spacecraft attitude control
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请提供了一种卫星姿态的控制方法、控制装置、计算机设备和介质,控制方法包括:获取目标卫星的上一时刻运行信息和目标姿态角;将目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络,计算得到目标卫星中动量轮在当前时刻的控制参数值;根据计算得到的当前时刻的控制参数值,调整目标卫星的当前时刻姿态角,以使目标卫星向着目标姿态角运行。在本申请实施例中,当目标卫星的形状、质量等参数可以随着时间的变化而变化时,本申请提供了一种可以实时调参的强化学习网络,在目标卫星的当前参数的情况下,利用强化学习网络学习出来的一种针对当前目标卫星的最优控制策略,以实现更快更准确的将目标卫星调整到目标姿态角。
Description
技术领域
本申请涉及卫星控制领域,具体而言,涉及一种卫星姿态的控制方法、 控制装置、计算机设备和介质。
背景技术
随着技术的发展,人们所需要的信息也越来越多,但是刚靠人类在地 球表面搜集的信息已经不能满足人类的需求,因此人造卫星就诞生了。现 阶段,人造卫星各自在对应的轨道运行,但是不同的卫星可能功能和用途 是不相同的,一般卫星可以分为通信卫星、气象卫星、资源卫星、侦查卫 星、导航卫星等。卫星在轨道上的姿态并不是固定的,卫星是通过调整不 同的姿态来获取不同的信息。现阶段,每个卫星都会有一个固定的控制算 法来确定卫星的姿态。
发明内容
有鉴于此,本申请的目的在于提供一种卫星姿态的控制方法、控制装 置、计算机设备和介质,用于解决现有技术中无法准确对目标卫星进行姿 态调整的问题。
第一方面,本申请实施例提供了一种卫星姿态的控制方法,包括:
获取目标卫星的上一时刻运行信息和目标姿态角;
将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习 网络,计算得到所述目标卫星中动量轮在当前时刻的控制参数值;
根据计算得到的所述当前时刻的控制参数值,调整所述目标卫星的当 前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行。
可选的,所述控制方法还包括:
获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行 信息,若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角, 则对所述强化学习网络中的参数进行调整;
将当前时刻运行信息中的运行信息作为新的上一时刻运行信息,将调 整参数后的强化学习网络作为新的强化学习网络,重新执行步骤将所述目 标姿态角和新的上一时刻运行信息输入至新的强化学习网络,计算得到所 述目标卫星的动量轮在新的当前时刻的控制参数值,步骤根据计算得到的 所述新的当前时刻的控制参数值,调整所述目标卫星的当前时刻姿态角, 以使所述目标卫星向着所述目标姿态角运行,以及获取所述目标卫星在所 述动量轮调整控制参数值后的当前时刻运行信息,若所述当前时刻运行信 息中的当前时刻姿态角非所述目标姿态角,则对所述强化学习网络中的参 数进行调整,直至所述目标卫星的调整后的姿态角为目标姿态角。
可选的,所述当前时刻动量轮的控制参数值与所述上一时刻运行信息 中动量轮的控制参数值之间的差值小于预设参数变化量。
可选的,所述控制方法还包括:
将所述上一时刻运行信息、所述当前时刻运行信息、目标姿态角、动 作类别和奖励值作为一组经验数据存储在所述实时调参的强化学习网络 的经验池中。
可选的,所述对强化学习网络的调参过程包括:
从经验池中随机采样,得到多个历史经验数据;
利用所述多个历史经验数据和损失函数,对强化学习网络中两个动作 价值网络和演员网络进行参数调整。
可选的,所述奖励值是通过如下步骤确定的:
利用所述经验数据中的当前时刻运行信息的姿态角与所述目标姿态 角的差异,确定奖励值。
可选的,所述动作类别是根据当前时刻运行信息中的转速与上一时刻 运行信息中的上一时刻转速的比较结果确定的。
第二方面,本申请实施例提供了一种卫星姿态的控制装置,包括:
获取模块,用于获取目标卫星的上一时刻运行信息和目标姿态角;
计算模块,用于将所述目标姿态角和上一时刻运行信息输入至实时调 参的强化学习网络,计算得到所述目标卫星中动量轮在当前时刻的控制参 数值;
调整模块,用于根据计算得到的所述当前时刻的控制参数值,调整所 述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运 行。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理 器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处 理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算 机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执 行上述方法的步骤。
本申请实施例提出的目标姿态的控制方法,首先,获取目标卫星的上 一时刻运行信息和目标姿态角;其次,将所述目标姿态角和上一时刻运行 信息输入至实时调参的强化学习网络,计算得到所述目标卫星中动量轮在 当前时刻的控制参数值;最后,根据计算得到的所述当前时刻的控制参数 值,调整所述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目 标姿态角运行。
在某些实施例中,当目标卫星的形状、质量等参数可以随着时间的变 化而变化时,本申请利提供了一种可以实时调参的强化学习网络,在目标 卫星的当前参数的情况下,利用强化学习网络学习出来的一种针对当前目 标卫星的最优控制策略,以实现更快更准确的将目标卫星调整到目标姿态 角。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种卫星姿态的控制方法的流程示意图;
图2为本申请实施例提供的一种详细的卫星姿态的控制方法的流程示 意图;
图3为本申请实施例提供的一种卫星姿态的控制装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。 通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配 置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描 述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实 施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前 提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,卫星姿态控制技术采用的是PID控制算法。针对每个卫星的 PID控制算法,PID控制算法中的各个参数是根据卫星的形状、质量以及各 个器件的参数确定的,也就是说每个卫星对应的PID控制算法只能适用与 这一个卫星,且在卫星的形状,质量以及各器件的状态等随着在轨时间的 变化而变化时,PID控制算法的控制效果也会大打折扣,如果想要对PID 控制算法中的参数进行调整时,需要一定的专家经验和时间成本才能实现调整,调整方法比较繁琐。
基于上述缺陷,本申请实施例提供了一种卫星姿态的控制方法,如图1 所示,包括以下步骤:
S101,获取目标卫星的上一时刻运行信息和目标姿态角;
S102,将所述目标姿态角和上一时刻运行信息输入至实时调参的强化 学习网络,计算得到所述目标卫星中动量轮在当前时刻的控制参数值;
S103,根据计算得到的所述当前时刻的控制参数值,调整所述目标卫 星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行。
在上述步骤S101中,目标卫星是可以用于调整姿态角的人造卫星。上 一时刻与当前时刻之间的时间间隔为预设值。上一时刻运行信息包括以下 信息:上一时刻姿态角、上一时刻角速度、上一时刻转速、上一时刻PWM (Pulse width modulation wave,脉冲宽度调制)值。其中,上一时刻姿 态角和上一时刻角度是目标卫星的自身运动信息,而上一时刻转速和上一 时刻PWM值是目标卫星中动量轮的运行信息。目标卫星中的动量轮通过调 整自身的转速和PWM值,可以实现对目标卫星的角速度进行调整,进而通 过角速度的调整实现姿态角的调整。目标姿态角是目标卫星在指定工作需 求下最合适的姿态角。目标卫星可以是通过地面指令进行控制的,目标卫 星的内部程序会依据地面指令确定出目标姿态角,然后目标卫星会利用本 申请所述提供的控制方法逐渐从当前姿态角向着目标姿态角调整。
具体实施中,目标卫星会获取到地球上的控制中心所发出的地面指令, 在地面指令中携带有目标姿态角,目标卫星会从地面指令中分析出目标姿 态角,并且在接收到地面指令后,根据地面指令的指示信息来控制目标卫 星中的传感器收集目标卫星的当前运行信息。
在上述步骤S102中,实时调参的强化学习网络是在每一次输出结果之 后,都会进行一次参数的更新。计算得到的当前时刻的动量轮的控制参数 是动量轮即将要调整的控制参数值,动量轮的控制装置在接收到携带有当 前时刻的控制参数值的调整指示时,会控制动量轮从当前时刻的运行参数 值调整为当前时刻的控制参数值。控制参数值包括以下参数值中的任意一 种:动量轮的转速和动量轮的PWM值。控制参数值是用于调整动量轮运行 的参数值。
当前时刻运行信息是目标卫星在运行过程中通过传感器获取到的信 息,当前时刻运行信息包括以下信息:当前时刻姿态角、当前时刻角速度、 当前时刻转速、当前时刻PWM(Pulse width modulation wave,脉冲宽度调 制)值。其中,当前时刻姿态角和当前时刻角度是目标卫星的自身运动信 息,而当前时刻转速和当前时刻PWM值是目标卫星中动量轮的运行信息。 目标卫星中的动量轮通过调整自身的转速或PWM值,可以实现对目标卫星的角速度进行调整,进而通过角速度的调整实现姿态角的调整。
具体实施中,实时调参的强化学习网络输出的是动量轮的控制参数的 变化量(可以是转速变化量,也可以是PWM值变化量),通过将控制参数的 变化量与动量轮当前时刻的运行参数值的结合,最终计算得到动量轮在当 前时刻的控制参数值。
在上述步骤S103中,当前时刻的控制参数值是用来对动量轮进行调整 的,利用当前时刻的控制参数值对动量轮的运行参数值(运行参数值是动 量轮正在运行时的参数值,可以是转速或PWM值,运行参数值是与控制参 数值相匹配的,比如,当控制参数值为转速时,运行参数值也为转速;当 控制参数值为PWM值时,运行参数值也为PWM值)进行调整后,通过动量 轮的运行参数值的变化实现对目标卫星的角速度的调整,进而通过角速度 的调整实现对目标卫星的姿态角的调整,当然调整过程并不是一蹴而就的, 而是一个循序渐进的过程,所以利用实时调参的强化学习网络对目标卫星 调整后的姿态角只是越来越接近目标姿态角,当目标卫星调整后的姿态角 达到目标姿态角的时候,才算是目标卫星的调整结束。
在上述三个步骤中,当目标卫星的形状、质量等参数可以随着时间的 变化而变化时,本申请提供了一种可以实时调参的强化学习网络,在目标 卫星的当前参数的情况下,利用强化学习网络学习出来的一种针对当前目 标卫星的最优控制策略,以实现更快更准确的将目标卫星调整到目标姿态 角。
实时调参的强化学习网络指的是将强化学习网络运用到目标卫星之 后,会根据目标卫星实时产生的运行信息,实现强化学习网络中参数的调 整,在上述步骤S103中,计算得到当前时刻的控制参数后,将动量轮从 当前时刻的运行参数调整为当前时刻的控制参数,在运行参数值调整的过 程中会影响目标卫星整体姿态发生改变,这种改变表现为目标卫星从上一 姿态角向着目标姿态角进行调整,也就是说,目标卫星调整后的姿态角相较于调整前的运行信息中的姿态角更接近目标姿态角。为了让强化学习网 络输出的结果能够让目标卫星更快、更准确的接近目标姿态角,所以在强 化学习网络每输出一次结果之后都会进行一次调参,并用调参后的强化学 习网络继续对目标卫星的下一状态对应的动量轮的控制参数值进行预测, 进而持续对目标卫星的姿态进行调整,以达到目标卫星处于目标姿态角的 状态,如图2所示:
S104,获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻 运行信息,若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态 角,则对所述强化学习网络中的参数进行调整;
S105,将当前时刻运行信息中的运行信息作为新的上一时刻运行信 息,将调整参数后的强化学习网络作为新的强化学习网络,重新执行步骤 将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习网络,计 算得到所述目标卫星的动量轮在新的当前时刻的控制参数值,步骤根据计 算得到的所述新的当前时刻的控制参数值,调整所述目标卫星的当前时刻 姿态角,以使所述目标卫星向着所述目标姿态角运行,以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息,若所述当前时 刻运行信息中的当前时刻姿态角非所述目标姿态角,则对所述强化学习网 络中的参数进行调整,直至所述目标卫星的调整后的姿态角为目标姿态 角。
在上述步骤S104中,当前时刻的运行信息是目标卫星中的动量轮根 据当前时刻的控制参数值对运行参数值进行调整后,目标卫星在运行时获 取的运行信息。
具体实施中,如果获取到的当前时刻的运行信息中当前时刻的姿态角 并不是目标姿态角,则说明目标卫星还未达到目标状态,需要继续进行姿 态调整,并为了保证调整的更精确,也需要更新强化学习网络中的参数。
在上述步骤S105中,仅利用强化学习网络进行一次当前时刻的控制 参数值的预测,可能并不能实现将目标卫星的姿态直接调整为目标姿态, 因此,本申请会重复执行步骤S102、S103、S104和S105,直至目标卫星 的姿态角达到目标姿态角。而在这个调整的过程中,强化学习网络是在不 断的更新的,这样使得更新后的强化学习网络预测出的当前时刻的控制参 数值能够能更快的使目标卫星向着目标姿态角调整。
在调整目标卫星的姿态角的过程中,之所以会通过多次调整才将目标 卫星的姿态角调整为目标姿态角,是为了保护动量轮,如果动量轮的运行 参数值调整的过快或过慢(也就是上一时刻的运行参数值与当前时刻的运 行参数值之间差值的绝对值过大)的话,会增加动量轮的损耗。而将相邻 两个时刻之间运行参数值的差值控制在一定的可控范围内,让动量轮的运 行参数值调整跨度降低,进而保护动量轮减少损耗,提高动量轮的使用寿 命。
当然在调整目标卫星的姿态角的过程中,虽然说相邻两个时刻的运行 参数值之间的差值会控制在一定的可控范围内,但是在这个可控范围内的 差值越大,目标卫星调整到目标姿态角的速度越快,所需的时间越短,差 值越小,目标卫星调整到目标姿态角的速度越慢,所需的时间越长。而在 某些情况下,目标卫星是需要在指定时间内将姿态角调整到目标姿态角的, 所以结合上述保护动量轮的角度考虑,会在调整目标卫星的姿态角的过程 中设置动量轮的控制频率,利用控制频率确定目标卫星每次调整姿态角的 调整周期,也就是,强化学习网络的调参周期。比如以控制参数值为动量 轮的转速为例,我们要让目标卫星在一秒内到达目标姿态角,而动量轮的 控制频率为50hz,也就是0.02秒控制动量轮一次,那么每一个0.02秒, 强化学习网络都会输出动量轮所需的转速,动量轮的控制装置按照强化学 习网络输出的转速对动量轮进行调整,以使目标卫星每0.02秒就会调整一 次姿态角,并最终在一秒内达到目标姿态角。
实时调参的强化学习网络的调参过程是一个不断试错的过程,需要经 过大量的试错才会让强化学习网络能变得更加精准,试错的过程就会需要 大量的数据,这些数据存储在强化学习网络的经验池中,成为用于强化学 习用于试错的经验数据,这些经验数据包括以下数据:所述当前时刻运行 信息、所述上一时刻的运行信息、目标姿态角、动作类别和奖励值。而上 述这些数据都是目标卫星在运行过程中所获取的数据,因此,本申请的控 制方法还包括:
步骤106,将所述上一时刻运行信息、所述当前时刻的运行信息、目 标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的强 化学习网络的经验池中。
在上述步骤106中,动作类别包括加速类别和减速类别。加速类别表 示当前时刻转速大于上一时刻转速。减速类别表示当前时刻转速小于上一 时刻转速。奖励值表征当前时刻的运行信息中目标卫星的姿态角与目标姿 态角之间的接近程度。奖励值越大,说明当前时刻的运行信息中目标卫星 的姿态角与目标姿态角之间越接近,奖励值越小,说明当前时刻的运行信 息中目标卫星的姿态角与目标姿态角之间越相差较大。将上述经验数据存储在强化学习网络的经验池中,可供强化学习网络快速进行学习,提高试 错效率。当然,强化学习网络每预测一次(相当于目标卫星每调整一次姿 态角),都会获取调整运行参数值后的目标卫星的运行信息(也就是当前时 刻的运行信息),然后利用上一时刻运行信息和当前时刻运行信息来确定动 作类别和奖励值。
具体的,本申请的控制方法中,所述经验数据中的奖励值是通过如下 步骤确定的:
步骤107,利用所述经验数据中的当前时刻运行信息的姿态角与所述目 标姿态角的差,确定奖励值。
在上述步骤107中,使用如下公式,基于当前时刻运行信息的姿态角 与所述目标姿态角的差异,计算奖励值。
具体的,本申请的控制方法中,所述动作类别是根据上一时刻运行信 息中的转速与当前时刻运行信息中的下一时刻转速的比较结果确定的。如 果当前时刻运行信息中的当前时刻转速大于上一时刻运行信息中的转速, 则说明是加速类别;如果当前时刻运行信息中的当前时刻转速小于上一时 刻运行信息中的转速,则说明是减速类别。
上文中有提到了目标卫星每调整一次姿态角就会获取一次运行信息, 并和上一时刻运行信息经过处理组成经验数据存储在强化学习网络的经验 池中,因此,在强化学习网络的经验池中会有多个历史时刻对应的经验数 据。经验池中的经验数据按照时间先后顺序存入那么新的样本会将时间上 最久远的经验数据覆盖。而对采样来说,如果每次都取出最新序列的经验 数据,那么强化学习网络就和在线学习相差不多,学习效果不好,如果是 随机采样,也就是随机从历史的经验数据中获取用于强化学习试错的多个 不同时刻的经验数据,每次学习过程中的经验数据通常来自多个交互序列, 这样单一序列的波动就被减轻很多,训练效果也就更加稳定。同时,一份 经验数据也可以被多次训练,提高了经验数据的利用率。具体的,本申请 的控制方法还包括:
步骤108,从经验池中随机采样,得到多个历史经验数据;
步骤109,利用所述多个历史经验数据和损失函数,对强化学习网络中 两个动作价值网络和演员网络进行参数调整。
在上述步骤108中,历史经验数据是历史时刻存储的经验数据,历史 经验数据包括历史时刻的运行信息、历史时刻的上一时刻的运行信息、历 史时刻的动作类别和历史时刻额奖励值。
在上述步骤109中,损失函数计算得到的结果用于对强化学习网络中 的参数进行更新。具体的,首先会利用目标函数和历史经验数据,计算目 标值。
ytarget=r+γ(1-d)(min(Qtarget,1(s′,a′),Qtarget,2(s′,a′))-αlog(πθ(a′|s′)))
其中,ytarget是目标值,r是历史经验数据中的奖励值,γ表征的是历 史经验数据中的奖励值对于后续的目标卫星的运行信息所对应的奖励值的 影响程度,d是表征目标卫星在历史经验数据对应的历史时刻是否处于目标 姿态角的标签,α是预设系数,s’是历史经验数据对应的历史时刻的运行 信息,a’是历史经验数据对应的历史时刻的动作类别,πθ是参数为θ的演 员网络,min(Qtarget,1(s’,a’),Qtarget,2(s’,a’))是在S’和a’的情况下 两个动作价值网络分别输出的Qtar get中的最小值,Qtar get,1(s’,a’)是强 化学习网络中一个动作价值网络在s’和a’的情况下输出的值, Qtar get,2(s’,a’)是强化学习网络中另一个动作价值网络在S’和a’的情 况下输出的值。
在计算出目标值后,利用第一损失函数更新强化学习网络中的两个动 作价值网络,第一损失函数如下:
Lφ=∑(s,a,r,s′,d)∈D(Qi(s,a)-ytarget)2
其中,ytar get是目标值,r是奖励值,s是历史经验数据对应的历史时 刻的上一时刻的运行信息,a是历史经验数据对应的历史时刻的上一时刻的 动作类别,d是表征目标卫星在历史经验数据对应的历史时刻是否处于目标 姿态角的标签,s’是历史经验数据对应的历史时刻的运行信息,Qi(s,a)是 第i个动作价值网络在历史时刻的上一时刻的运行信息和动作类别的情况 下输出的值,其中,i∈(1,2),是用于更新动作价值函数中参数的损 失函数,D是经验池中的历史经验数据所组成的集合。
利用第二损失函数更新强化学习网络中的动作分布网络,第二损失函 数如下:
Lθ=∑s∈D(min(Q1(s,a′θ),Q2(s,a′θ))-αlog(πθ(a′θ|s))) 其中,r是奖励值,s是历史经验数据对应的历史时刻的上一时刻的运行信 息,α是预设系数,πθ是参数为θ的演员网络,a′θ是参数为θ的演员网络在 历史时刻的上一时刻的运行信息的情况下预测出的动作类别, min(Q1(s,a′θ),Q2(s,a′θ))是在s和a′θ的情况下两个动作价值网络分别输出结 果中的最小值,D是经验池中的历史经验数据所组成的集合。
在本申请中的强化学习网络用了两个动作价值估计网络来进行预测, 且这两个动作价值估计网络是不同的,利用两个不同的动作价值网络对同 一组历史经验数据进行预测,可以得到两个不同的预测结果,最后从两个 不同的预测结果中选一个较为准确的结果,进一步提高了强化学习网络预 测的准确度。
一般强化学习网络是采用Python语言编写的,具体用了Python语言 中的pytorch框架,而强化学习网络中参数更新的过程是采用了pytorch 框架中的优化器实现的,可选的优化器有很多,比如Adam,SGD,RMSprop 等等。
本申请提供了一种卫星姿态的控制装置,如图3所示,包括:
获取模块301,用于获取目标卫星的上一时刻运行信息和目标姿态角;
计算模块302,用于将所述目标姿态角和上一时刻运行信息输入至实 时调参的强化学习网络,计算得到所述目标卫星中动量轮在当前时刻的控 制参数值;
调整模块303,用于根据计算得到的所述当前时刻的控制参数值,调整 所述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角 运行;
可选的,所述控制装置还包括:
判断模块,用于获取所述目标卫星在所述动量轮调整控制参数值后的 当前时刻运行信息,若所述当前时刻运行信息中的当前时刻姿态角非所述 目标姿态角,则对所述强化学习网络中的参数进行调整;
循环模块,用于将当前时刻运行信息中的运行信息作为新的上一时刻 运行信息,将调整参数后的强化学习网络作为新的强化学习网络,重新执 行步骤将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习 网络,计算得到所述目标卫星的动量轮在新的当前时刻的控制参数值,步 骤根据计算得到的所述新的当前时刻的控制参数值,调整所述目标卫星的 当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行,以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息,若所 述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角,则对所述强 化学习网络中的参数进行调整,直至所述目标卫星的调整后的姿态角为目 标姿态角。
可选的,所述当前时刻动量轮的控制参数值与所述上一时刻运行信息 中动量轮的控制参数值之间的差值小于预设参数变化量。
可选的,所述控制装置还包括:
存储模块,用于将所述上一时刻运行信息、所述当前时刻运行信息、 目标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的 强化学习网络的经验池中。
可选的,所述控制装置包括:
采样模块,用于从经验池中随机采样,得到多个历史经验数据;
调整模块,用于利用所述多个历史经验数据和损失函数,对强化学习 网络中两个动作价值网络和演员网络进行参数调整。
可选的,所述奖励值是通过如下步骤确定的:
确定模块,用于利用所述经验数据中的当前时刻运行信息的姿态角与 所述目标姿态角的差异,确定奖励值。
可选的,所述动作类别是根据当前时刻运行信息中的转速与上一时刻 运行信息中的上一时刻转速的比较结果确定的。
对应于图1中的卫星姿态的控制方法,本申请实施例还提供了一种计 算机设备400,如图4所示,该设备包括存储器401、处理器402及存储 在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述 处理器402执行上述计算机程序时实现上述卫星姿态的控制方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器, 这里不做具体限定,当处理器402运行存储器401存储的计算机程序时, 能够执行上述卫星姿态的控制方法,解决了现有技术中无法准确对目标卫 星进行姿态调整的问题。
对应于图1中的卫星姿态的控制方法,本申请实施例还提供了一种计 算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算 机程序被处理器运行时执行上述卫星姿态的控制方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等, 该存储介质上的计算机程序被运行时,能够执行上述卫星姿态的控制方法, 解决了现有技术中无法准确对目标卫星进行姿态调整的问题,当目标卫星 的形状、质量等参数可以随着时间的变化而变化时,本申请提供了一种可 以实时调参的强化学习网络,在目标卫星的当前参数的情况下,利用强化 学习网络学习出来的一种针对当前目标卫星的最优控制策略,以实现更快更准确的将目标卫星调整到目标姿态角。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以 通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如, 所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划 分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦 合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦 合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单 元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成 在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申 请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光 盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述, 而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用 以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于 此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术 人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围 内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都 应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利 要求的保护范围为准。
Claims (10)
1.一种卫星姿态的控制方法,其特征在于,包括:
获取目标卫星的上一时刻运行信息和目标姿态角;
将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络,计算得到所述目标卫星中动量轮在当前时刻的控制参数值;
根据计算得到的所述当前时刻的控制参数值,调整所述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行。
2.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括:
获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息,若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角,则对所述强化学习网络中的参数进行调整;
将当前时刻运行信息中的运行信息作为新的上一时刻运行信息,将调整参数后的强化学习网络作为新的强化学习网络,重新执行步骤将所述目标姿态角和新的上一时刻运行信息输入至新的强化学习网络,计算得到所述目标卫星的动量轮在新的当前时刻的控制参数值,步骤根据计算得到的所述新的当前时刻的控制参数值,调整所述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行,以及获取所述目标卫星在所述动量轮调整控制参数值后的当前时刻运行信息,若所述当前时刻运行信息中的当前时刻姿态角非所述目标姿态角,则对所述强化学习网络中的参数进行调整,直至所述目标卫星的调整后的姿态角为目标姿态角。
3.根据权利要求1所述的控制方法,其特征在于,所述当前时刻动量轮的控制参数值与所述上一时刻运行信息中动量轮的控制参数值之间的差值小于预设参数变化量。
4.根据权利要求2所述的控制方法,其特征在于,所述控制方法还包括:
将所述上一时刻运行信息、所述当前时刻运行信息、目标姿态角、动作类别和奖励值作为一组经验数据存储在所述实时调参的强化学习网络的经验池中。
5.根据权利要求4所述的控制方法,其特征在于,所述对强化学习网络的调参过程包括:
从经验池中随机采样,得到多个历史经验数据;
利用所述多个历史经验数据和损失函数,对强化学习网络中两个动作价值网络和演员网络进行参数调整。
6.根据权利要求4所述的控制方法,其特征在于,所述奖励值是通过如下步骤确定的:
利用所述经验数据中的当前时刻运行信息的姿态角与所述目标姿态角的差,确定奖励值。
7.根据权利要求4所述的控制方法,其特征在于,所述动作类别是根据当前时刻运行信息中的转速与上一时刻运行信息中的上一时刻转速的比较结果确定的。
8.一种卫星姿态的控制装置,其特征在于,包括:
获取模块,用于获取目标卫星的上一时刻运行信息和目标姿态角;
计算模块,用于将所述目标姿态角和上一时刻运行信息输入至实时调参的强化学习网络,计算得到所述目标卫星中动量轮在当前时刻的控制参数值;
调整模块,用于根据计算得到的所述当前时刻的控制参数值,调整所述目标卫星的当前时刻姿态角,以使所述目标卫星向着所述目标姿态角运行。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356520.0A CN114889848A (zh) | 2022-03-30 | 2022-03-30 | 一种卫星姿态的控制方法、控制装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356520.0A CN114889848A (zh) | 2022-03-30 | 2022-03-30 | 一种卫星姿态的控制方法、控制装置、计算机设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114889848A true CN114889848A (zh) | 2022-08-12 |
Family
ID=82715483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210356520.0A Pending CN114889848A (zh) | 2022-03-30 | 2022-03-30 | 一种卫星姿态的控制方法、控制装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114889848A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
-
2022
- 2022-03-30 CN CN202210356520.0A patent/CN114889848A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758704A (zh) * | 2022-11-10 | 2023-03-07 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、模型、获取方法 |
CN115758704B (zh) * | 2022-11-10 | 2023-05-05 | 北京航天驭星科技有限公司 | 卫星南北保持策略模型的建模方法、系统、获取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3593292B1 (en) | Training action selection neural networks | |
US10733502B2 (en) | Training policy neural networks using path consistency learning | |
US11663441B2 (en) | Action selection neural network training using imitation learning in latent space | |
US20200175364A1 (en) | Training action selection neural networks using a differentiable credit function | |
JP6824382B2 (ja) | 複数の機械学習タスクに関する機械学習モデルのトレーニング | |
US11036211B2 (en) | Orchestration of learning and execution of model predictive control tool for manufacturing processes | |
CN111316295B (zh) | 使用分布式优先化回放的强化学习 | |
CN110235148A (zh) | 训练动作选择神经网络 | |
US9298172B2 (en) | Method and apparatus for improved reward-based learning using adaptive distance metrics | |
EP4273757A2 (en) | Selecting actions using multi-modal inputs | |
US11501215B2 (en) | Hierarchical clustered reinforcement machine learning | |
CN113168566A (zh) | 通过使用熵约束来控制机器人 | |
CN110688920B (zh) | 一种无人驾驶控制方法、装置及服务器 | |
CN114889848A (zh) | 一种卫星姿态的控制方法、控制装置、计算机设备和介质 | |
CN111449040A (zh) | 一种最小误差变量施药控制方法及系统 | |
CN109087124B (zh) | 一种应用程序价值预测方法及装置 | |
CN118089765A (zh) | 一种扫地机器人及路径规划规划方法、装置、存储介质 | |
CN112334914B (zh) | 使用生成式前导神经网络的模仿学习 | |
CN118259660A (zh) | 一种基于ppo改进算法的路径规划方法及系统 | |
CN115805947A (zh) | 一种个性化车辆轨迹预测方法、系统、设备和存储介质 | |
EP3477493A1 (en) | Machine learning system | |
US11992943B2 (en) | Method for optimizing a policy for a robot | |
JP2003090888A (ja) | 気象予測システム、気象予測方法及び気象予測プログラム | |
CN111290118A (zh) | 一种变形镜的解耦控制方法及装置 | |
CN117830708B (zh) | 一种目标检测模型的训练方法、系统、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |