CN115391924A

CN115391924A - 一种数字孪生环境下智能卫星的深度强化学习设计方法

Info

Publication number: CN115391924A
Application number: CN202211353769.2A
Authority: CN
Inventors: 邓岳; 杨李俊; 章修惠; 李洪珏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2022-11-25
Anticipated expiration: 2042-11-01
Also published as: CN115391924B

Abstract

本发明公开了一种数字孪生环境下智能卫星的深度强化学习设计方法，涉及卫星设计技术领域。本发明通过建立一套完整的卫星仿真数字孪生模型，评估卫星的运行状况，反馈卫星布局优劣，为卫星设计提供低成本试错空间；其次，本发明通过深度强化学习网络生成大量卫星安装数据，在数字孪生空间中不断试错，学习卫星总体设计最优策略，为设计人员提供所需情况下的最优布局。

Description

一种数字孪生环境下智能卫星的深度强化学习设计方法

技术领域

本发明涉及卫星设计技术领域，更具体的说是涉及一种数字孪生环境下智能卫星的深度强化学习设计方法。

背景技术

在卫星设计时，目前的卫星设计过程主要依靠技术人员手动设计。人工进行卫星总体设计通常由多个设计部门协同配合，在设计过程中，卫星内部部件的设计，安装，使用大多数情况下是单独完成的，缺乏与其他部件之间的联系。这就使得卫星各模块组成完整卫星后难以进行总体的优化，需要大量的迭代设计，从而导致在卫星设计的效率以及时间上造成了大量的浪费。即人工设计的卫星可能无法达到当前卫星设计条件下的最优解。且在设计过程中，设计进度一定程度上依赖于不同部门之间的协调沟通。

此外，卫星的高成本也会进一步对卫星设计产生不良影响。卫星零部件以及整星价格高昂，以及现有技术条件下缺乏对卫星的回收能力，即卫星部件不能重复利用，导致了卫星的设计处于相对保守的状态，创新与试错的成本大大增加。

而且，当前神经网络的训练依赖于大量数据集，而卫星作为高精尖科技，缺少足够的数据集。即使使用强化学习进行无监督学习，在高昂成本下也无法提供足够多的试错机会。

因此，如何提供一种数字孪生环境下智能卫星的深度强化学习设计方法是迫切需要的。

发明内容

有鉴于此，本发明提供了一种数字孪生环境下智能卫星的深度强化学习设计方法，主要的用途在于辅助卫星设计人员进行卫星总体规划设计。

为了实现上述目的，本发明采用如下技术方案：

一种数字孪生环境下智能卫星的深度强化学习设计方法，包括以下步骤：

S1、根据卫星真实部件构造卫星数字孪生部件，并创建卫星模拟运行环境；

S2、构建深度强化学习神经网络，所述深度强化学习神经网络输入卫星数字孪生部件参数信息及卫星数字孪生部件安装信息，输出卫星数字孪生部件组装后的数字卫星；

S3、在卫星模拟运行环境中模拟数字卫星发射及运行流程，并根据数字卫星运行情况返回数字卫星各项性能指标以及奖励值；

S4、根据数字卫星各项性能指标以及奖励值对卫星数字孪生部件进行修改，将修改后的卫星数字孪生部件再次输入所述深度强化学习神经网络；

S5、循环执行步骤S2-S4直到奖励值达到稳定。

优选的，步骤S2中所述卫星数字孪生部件安装信息包括卫星数字孪生部件的添加、删除以及移动信息。

优选的，步骤S2中卫星数字孪生部件组装过程包括以下步骤：

在卫星模拟运行环境中将离散的卫星数字孪生部件视为多个正方体的组合体，利用多个正方体的有序组合描述卫星数字孪生部件的物理形状，其中，卫星数字孪生部件物理形状的精细程度取决于正方体数量级；

根据多个正方体组成的卫星数字孪生部件的物理形状信息进行碰撞检测，输出各卫星数字孪生部件之间的相对位置信息；

深度强化学习神经网络智能体读取卫星数字孪生部件安装信息，结合卫星数字孪生部件之间的相对位置信息将卫星数字孪生部件组装成数字卫星。

优选的，卫星数字孪生部件组装步骤中采用OpenGL引擎来实现安装过程的可视化。

优选的，步骤S3中数字卫星发射及运行流程包括：卫星稳定，太阳捕获，地球捕获，以及卫星绕地运行。

优选的，步骤S3中根据数字卫星运行情况返回数字卫星各项性能指标以及奖励值，还包括以下步骤：

根据真实卫星轨道高度将真实卫星对应的数字卫星划分为不同的类型；

针对低轨数字卫星，计算其在轨道保持阶段的燃料消耗值及控制精度值，并将所述燃料消耗值及控制精度值对低轨数字卫星运行的评估结果作为奖励值；

针对中高轨数字卫星，计算其在轨道转移阶段的燃料消耗值、飞行时间及控制精度值，并将所述燃料消耗值、飞行时间及控制精度值对中高轨数字卫星运行的评估结果作为奖励值。

优选的，将运行数据的评估结果作为奖励值时，不同类型的数字卫星中运行数据的权重不同，所述运行数据包括燃料消耗值、飞行时间及控制精度值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种数字孪生环境下智能卫星的深度强化学习设计方法，具有以下有益效果：

首先，本发明通过建立一套完整的卫星仿真数字孪生环境模型，评估卫星的运行状况，反馈卫星布局优劣，为卫星设计提供低成本试错空间；其次，本发明通过深度强化学习网络生成大量卫星安装数据，在数字孪生空间中不断试错，学习卫星总体设计最优策略，为设计人员提供所需情况下的最优布局。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的方法整体流程示意图；

图2为本发明提供的方法流程框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例公开了一种数字孪生环境下智能卫星的深度强化学习设计方法，包括以下步骤：

S5、循环执行步骤S2-S4直到奖励值达到稳定。

为了进一步优化上述技术方案，卫星数字孪生部件安装信息包括卫星数字孪生部件的添加、删除以及移动信息；

卫星数字孪生部件组装具体可采用以下方法：

在卫星模拟运行环境中将离散的卫星数字孪生部件视为多个正方体的组合体，利用多个正方体的有序组合描述卫星数字孪生部件的物理形状，卫星数字孪生部件物理形状的精细程度取决于正方体数量级；

步骤S3中数字卫星发射及运行流程包括：卫星稳定，太阳捕获，地球捕获，以及卫星绕地运行。具体的，卫星发射及运行流程可在完整卫星部件安装完成后，以星载计算机为核心进行卫星各流程的实现，主要分为卫星稳定，太阳捕获，地球捕获，以及卫星绕地运行，下面对数字孪生环境中各个流程进行分别介绍。

1）卫星稳定:这一过程中，星载计算机依据陀螺仪获取卫星当前角速度信息，利用推力器安装信息生成相关指令，将指令发送给推力器，推力器依照计算机指令进行喷气操作。数字环境根据推力器信息计算出卫星受力，在其内置的积分器中完成积分后不断更新卫星的位置，姿态，朝向等信息。一段时间后，卫星三轴角速度均小于设定值，则卫星稳定模式完成。如若推力器安装不合规，则无法生成正确指令，卫星无法稳定，该模式失效。

2）太阳捕获:卫星稳定后进入太阳捕获模式。星载计算机利用陀螺，太阳敏感器，GPS获取卫星当前角速度，位置信息以及当前太阳相对于卫星的位置。计算机控制推力器使卫星绕轴旋转，数字环境根据推力器信息计算出卫星受力，在其内置的积分器中完成积分后不断更新卫星的位置，姿态，朝向等信息。太阳敏感器持续不断对当前所视环境进行跟踪，其视角，焦距等均保持现实中真实敏感器一致。当太阳敏感器检测到太阳后，星载计算机根据这一信息进入太阳捕获模式。星载计算机输出推力器控制指令使卫星太阳帆板对准太阳。当太阳敏感器检测到与太阳的角度偏差处于阈值范围之类时，卫星将张开太阳帆，继续进入地球捕获模式。

3）地球捕获:在地球捕获过程中，地球敏感器持续追踪太阳位置，星载计算机根据当前所得角速度，姿态信息生成推力器指令。卫星绕轴旋转，环境中的积分器更新卫星新的姿态，位置信息。当卫星旋转过程中地球敏感器检测到地球时，星载计算机根据相平面控制算法生成新的推力器指令，控制卫星指向地球，开始对地观测。

4）卫星绕地运行:由于卫星绕地球公转，在这一过程中卫星相对于地球的姿态角会发生变化，星载计算机读取当前角速度，位置信息，根据反作用轮控制算法输出控制力矩，控制反作用轮的旋转。同时记录当前卫星相对于目前地球转角，若在一段时间内该角度均出于正常水平内，则卫星可正常运行。

其中，2）太阳捕获、3）地球捕获、4）卫星绕地运行流程又可统一称作卫星姿轨控制，在姿轨控制模式中，其成功与否取决于太阳敏感器和地球敏感器的安装位置。鉴于对太阳捕获或地球捕获的高要求，敏感器（太阳敏感器或地球敏感器）的摄像头需考虑到是否存在遮挡以及在卫星上的安装角度问题。数字卫星正常运行后，由于地球自转的影响，星载计算机通过数字动量轮进行姿态控制。数字环境输出卫星运行过程中的相关信息并在单次卫星仿真完成后将其反馈给智能体。对于特殊任务卫星的评估，则可在此后继续添加相关任务，检测数字卫星设计情况。

如图2所示，在基于强化学习的神经网络学习卫星安装的过程中，现有的卫星设计水平难以提供足以支撑智能体进行监督学习的庞大卫星设计数据集，因此常规的监督学习神经网络学习方法不适用于卫星设计神经网络的训练。因此可以将卫星的安装过程视为一个标准的马尔可夫决策过程，使用强化学习对智能体进行训练，神经网络每一步都对一个部件进行操作，每一步后都将当前情况下的卫星进行评估，获得当前卫星设计状态下的奖励值。

在本发明实施例中构建的深度强化学习神经网络模型即为对卫星进行装配的智能体（agent），这一模型在学习或者卫星安装过程中需要实时获取其所安装的卫星的运行状况，而卫星运行状况的获取则来自于卫星运行的数字孪生环境，将深度强化学习神经网络模型置于所搭建的卫星运行的数字环境中，通过得到卫星当前运行的状况，评估生成奖励，将这一奖励反馈给强化学习神经网络模型，使其根据卫星运行状况和奖励进行更新，产生下一个动作。即在本发明中数字孪生环境是基于深度强化学习神经网络的强化学习模型环境（environment）的一部分，数字孪生环境通过与强化学习模型（agent）所装配的数字卫星进行交互共同作为强化学习环境（environment）的一部分产生反馈。强化学习中环境（environment）的不同状态即卫星与数字孪生环境每次交互所得到的结果，强化学习模型（agent）对于卫星的每次变动，如放置移动部件等都将对其结果产生变化。

agent通过“观察”数字孪生环境中卫星的状态来对数字孪生环境中的卫星进行编辑，即与环境（environment）产生交互，例如添加，移动卫星中某些部件。这些操作会使数字孪生环境中的卫星的状态发生改变，数字孪生环境通过对数字孪生环境中agent所组装的卫星进行评估，生成奖励，例如，agent在不影响卫星其他功能的前提下通过改变某一部件的位置使得卫星太阳捕获的时间更短，则此时数字孪生环境所反馈给代理的奖励值将会高于代理对部件进行移动前的奖励值。

深度强化学习神经网络的搭建。深度强化学习神经网络的搭建并不是一个线性的过程，而是许多种神经网络模块的结合。在卫星设计任务中，希望强化学习模型能够对之前的安装结果进行记忆，因此在强化学习模型中引入LSTM，以期神经网络能够达到预期结果。在数字卫星安装过程中神经网络的输入中包含openGL处理下的卫星安装三维模型图像，因此考虑使用卷积神经网络CNN来对输入的图像进行处理，考虑到大型神经网络不容易进行训练的特点，因此要引入残差网络来改善卷积神经网络CNN的性能。最终的强化学习神经网络是所描述的多种神经网络的结合，这一最终神经网络输入数字孪生环境所反馈的包括卫星图像在内的多种信息，输入强化学习模型对于卫星设计下一步的决策，例如零部件的增加修改等。

深度强化学习神经网络的奖励值设置。深度强化学习网络的奖励值来自于数字孪生环境中对于卫星状态的评估。将卫星运行过程中各目标的实现予以量化。卫星各部件之间未出现碰撞，则该部分奖励值为1；卫星稳定模式中，根据卫星能否稳定以及稳定模式从启动到结束时间t所需时间设置奖励值r ₁，即r ₁= ±1+ f(t) 。太阳捕获模式奖励值r ₂以及地球捕获模式奖励值r ₃也按照此方式设置。公式中，±1取决于卫星是否达到稳定，f（）表示时间函数，时间越短则时间函数f表示的值越大。卫星绕地运行模式（卫星正常运行模式）的奖励值r ₄则由卫星PID控制的调节时间确定，时间越短则奖励值越大。数字环境返回的总体奖励值r则由各部分加权求和得到，权重大小取决于具体设计指标，即：

r = k ₁ r ₁+ k ₂ r ₂ +k ₃ r ₃ +k ₄ r ₄

其中k ₁，k ₂，k ₃，k ₄分别为各模式下的权重值。

因为在数字孪生模型中对于卫星的评估是分步骤进行的，故需要计算总体的奖励值来反馈给强化学习模型。完美的设计结果应该是在设计者需要的权重下使得卫星的奖励达到最大，例如对某一卫星进行设计的过程中更倾向于其在正常模式下快速达到稳定，而对于太阳捕获或者地球捕获的时间要求不高，则可以相应的增加正常模式奖励值所占权重，然后利用这一情况下的奖励值由强化学习模型去学习设计满足该情况的最优卫星。

深度强化学习神经网络损失函数的构建以及训练。在此使用强化学习中的Q-Learning算法来对强化学习神经网络中的参数进行更新，使得深度强化学习中损失函数达到最小，即让奖励值达到最大。在这里定义损失函数为

其中S _t表示t时刻时的状态，即当前卫星安装信息以及运行状况，S _t+1表示t时刻的下一时刻的卫星安装信息以及运行状况；a为当前执行的动作； a'为当前时刻的下一时刻执行的动作；θ表示当前时刻智能体的策略函数，策略函数的输入为当前状态，输出为执行的动作；

表示下一时刻智能体的策略； r _t表示此时刻接收到的奖励；Q为神经网络中的状态-价值函数，

表示在采用策略θ时，在状态为S _t时刻的情况下，采用当前执行动作a的好坏，衡量在某状态实行某动作的效果；γ为折扣因子，表示之前动作对之后收到奖励的贡献程度，工程师根据实际表现可调节；

表示通过遍历所有动作a'，找到所有a'中对应最大的Q函数值，代表下一时刻的最好表现情况。通过梯度下降更新强化学习神经网络参数值。

深度强化学习神经网络的训练过程。在训练过程中，模型输入当前数字卫星安装信息，运行情况以及卫星各组成部件参数，推理得到下一步对卫星所执行的动作，包括卫星某部件的移动，删除，添加等。执行完成后将新的卫星信息输入到数字环境，获取新的卫星的安装，运行情况以及环境所返回的奖励值，不断循环。最终智能体将朝着使奖励最大的方向学习。

卫星的评估是分步骤进行的，故需要计算总体的奖励值来反馈给强化学习模型。完美的设计结果应该是在设计者需要的权重下使得卫星的奖励达到最大，例如对某一卫星进行设计的过程中更倾向于其在正常模式下快速达到稳定，而对于太阳捕获或者地球捕获的时间要求不高，则可以相应的增加正常模式奖励值所占权重，然后利用这一情况下的奖励值由强化学习模型去学习设计满足该情况的最优卫星。

步骤S3中根据数字卫星运行情况返回数字卫星各项性能指标以及奖励值，还包括以下步骤：

根据真实卫星轨道高度将真实卫星对应的数字卫星划分为不同的类型，主要包括低轨数字卫星和中高轨数字卫星。

此外，将运行数据的评估结果作为奖励值时，不同类型的数字卫星中运行数据的权重不同，所述运行数据包括燃料消耗值、飞行时间及控制精度值。

对于数字卫星的运行流程来说，卫星稳定，太阳捕获，地球捕获，以及卫星绕地运行这一系列过程属于卫星通用初始流程，对于不同卫星来说还应该进行具体的划分，也就是数字环境还将对卫星的运行进行更加细分的仿真，例如，对于低轨卫星来说，这一类卫星受到大气阻力的影响较大，在运行过程中持续消耗能量导致轨道高度不断降低，因此现实中需要一定周期内对卫星进行一次轨道保持，通过对卫星进行加速来抬高卫星轨道。在智能卫星组装过程中，当输入的卫星属于低轨卫星时，数字孪生环境便会对这一过程进行模拟，计算该低轨数字卫星的燃料消耗，控制精度等，其对卫星的考核指标也相应的会涵盖卫星寿命(与卫星燃料消耗以及所携带的能源装置有关)以及卫星轨道对地保持的精度等方面，并最终将这一系列评估结果汇总到最终的对智能体的奖励中。考虑到低轨情况下不同卫星执行任务的高度随着卫星功能的不同而不同，这一高度可由工程师在数字孪生环境中手动设置。对于高轨卫星，现实中不具备直接将卫星送入高轨的能力，因此需要将卫星送入轨道后卫星自主进行轨道机动，转移至工作轨道，在对智能体设计的高轨道智能卫星进行评估时，数字孪生卫星也将考虑到这个情况，在卫星运行的数字环境中模拟卫星的轨道转移阶段，进而计算出该种卫星在这一阶段的燃料消耗，飞行时间，控制精度等过程，并最终将这一过程中卫星的各项评估结果汇总到奖励函数中。

除了上述依据轨道而进行的卫星不同评估方式之外，在数字孪生环境中还将依据卫星的功能等多方面进行相应的考核。例如对于上述高轨卫星，还能进行更进一步的划分，比如高轨卫星中位于地球静止轨道的卫星，相比于一般高轨卫星来说，这一类卫星的轨道保持包括东西位保和南北位保，在数字孪生系统对这一卫星进行评估的过程中最终的奖励值就与这两种位置保持模式的燃料消耗以及精度挂钩。对于中低轨道诸如侦察、气象等对地观测卫星来说，这一类卫星对于姿态控制精度的要求相对于其他卫星要高，因此数字孪生系统在评估过程中对于这一方面的侧重更多，最终的奖励函数中轨道控制控制方面的权重占比更。

数字孪生环境相比于其他卫星设计方法所特有的点在于，每种奖励的计算可以根据卫星设计的要求去定制，卫星设计专家可以根据不同的卫星功能评估方式，改变各项的权重值来实现不同的奖励函数偏好，最终智能体所设计出来的卫星在更大的权重方面表现的更好。例如在对卫星进行评估时，侧重于卫星寿命，则最终智能体设计出的卫星在姿轨控以及变轨方面所消耗的燃料较小。如果侧重于姿轨控制精度，则最终卫星在这一方面的调控更加精细，但相应的卫星燃料消耗方面可能较大。

在另外一个实施例中，在对气象卫星进行数字孪生环境下时气象卫星相较于普通卫星，额外携带了用于气象任务的专用传感器，包括多光谱红外扫描仪，高分辨率辐射探测仪等，需要在数字孪生环境中针对这一部件功能的实现进行检测，例如其能否正确对地球进行扫描，其功耗散热等情况。对于气象卫星的设计，本发明实施例中在数字孪生环境中对专用传感器的功能进行仿真。区别于对于真实数据进行复现，本发明实施例气象卫星集中于卫星功能的实现，即传感器探测效果的建模。例如，当传感器正对地球或传感器背对地球时的不同表现以及不同表现下的奖励信息。

本发明通过对具体任务进行数字孪生环境的定制，强化学习模型可以针对不同种类的卫星进行设计，针对不同的卫星来说，仅需在数字孪生环境下对相关参数进行修改，并不需要对强化学习模型进行较大的改动，仍可根据这一强化学习模型，结合普通卫星下预训练的相关网络参数在新的数字孪生环境下进行训练，使得泛化能力大大提高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，所述方法包括以下步骤：

S1、根据卫星真实部件构造对应的卫星数字孪生部件，并创建卫星模拟运行环境；

S5、循环执行步骤S2-S4直到奖励值达到稳定。

2.根据权利要求1所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，步骤S2中所述卫星数字孪生部件安装信息包括卫星数字孪生部件的添加、删除以及移动信息。

3.根据权利要求1所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，步骤S2中卫星数字孪生部件组装过程包括以下步骤：

4.根据权利要求3所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，卫星数字孪生部件组装步骤中采用OpenGL引擎来实现安装过程的可视化。

5.根据权利要求1所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，步骤S3中数字卫星发射及运行流程包括：卫星稳定，太阳捕获，地球捕获，以及卫星绕地运行。

6.根据权利要求1所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，步骤S3中根据数字卫星运行情况返回数字卫星各项性能指标以及奖励值，还包括以下步骤：

7.根据权利要求6所述的数字孪生环境下智能卫星的深度强化学习设计方法，其特征在于，将运行数据的评估结果作为奖励值时，不同类型的数字卫星中运行数据的权重不同，所述运行数据包括燃料消耗值、飞行时间及控制精度值。