CN117068393A

CN117068393A - 一种基于混合专家经验回放的星群协同任务规划方法

Info

Publication number: CN117068393A
Application number: CN202311052210.0A
Authority: CN
Inventors: 张秀云; 刘达; 宗群; 刘文静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-17

Abstract

本发明公开了一种基于混合专家经验回放的星群协同任务规划方法，涉及强化学习、卫星调度和多智能体技术领域，包括以下步骤：S1：建立面向星座紧急任务规划的优化模型；S2：建立面向星座任务规划的马尔科夫决策模型，设计基于混合专家经验回放的深度Q‑Learning任务规划算法；S3：在线决策，利用训练好的网络进行实时任务规划。本发明采用上述的一种基于混合专家经验回放的星群协同任务规划方法，考虑用户需求、唯一性观测和星上观测资源的影响，以任务完成率、任务延迟时间及星上资源均衡度为指标，建立了面向对地紧急观测的决策模型，利用专家经验数据，设计基于专家经验的深度Q‑Learning星座任务规划算法，获得最优在线任务规划策略，规划卫星对目标的观测窗口。

Description

一种基于混合专家经验回放的星群协同任务规划方法

技术领域

本发明涉及强化学习、卫星调度和多智能体技术领域，尤其是涉及一种基于混合专家经验回放的星群协同任务规划方法。

背景技术

随着空天技术的快速发展，卫星逐渐对人类社会发挥了越来越重要的作用。其中敏捷成像小卫星，因其具备快速响应、空间指向能力强、稳定性较高等特点，在对地观测中应对突发事件具备较强的优势，同时随着强化学习等人工智能方法不断成熟，将强化学习与卫星对地观测相结合的任务规划技术，具备广泛的应用前景。利用神经网络的拟合能力强，在线速度快等特点，采用深度强化学习进行卫星的任务规划具备实时性好、最优性强等优势。在卫星对地观测的任务规划过程中，由于星座卫星在轨运行的特点，每个卫星对于实时到达的静态观测任务需求的观测性能是在不断变化的，随着任务需求的不断增多，星座的任务规划的难度也逐渐增加。因此，对于星座卫星面向静态目标的任务规划问题来说存在以下几个难点：1)考虑实时到达任务需求与星座卫星的高速运动的特点，实现星座卫星的实时在线任务规划对于任务规划算法的单步决策时间提出了更高的要求；2)由于星上观测资源有限，针对对地紧急观测问题，如何综合考虑静态任务目标的任务完成率、观测延迟时间并均匀消耗星上观测资源同时保证实时在线任务规划增加了星座任务规划的难度。3)针对现有的专家经验。如何利用现有的专家经验来辅助提升在线任务规划算法的离线训练的收敛速度。

因此，有必要提供一种基于混合专家经验回放的星群协同任务规划方法，来解决上述问题。

发明内容

本发明的目的是提供一种基于混合专家经验回放的星群协同任务规划方法，考虑用户需求、唯一性观测和星上观测资源的影响，以任务完成率、任务延迟时间及星上资源均衡度为指标，建立了面向对地紧急观测的决策模型，然后利用专家经验数据，设计基于专家经验的深度Q-Learning星座任务规划算法，获得最优在线任务规划策略，规划卫星对目标的观测窗口。

为实现上述目的，本发明提供了一种基于混合专家经验回放的星群协同任务规划方法，混合专家经验指的是利用粒子群先到先得等已有算法获得的初始决策数据，包括以下步骤：

S1：建立面向星座紧急任务规划的优化模型；

S2：建立面向星座任务规划的马尔科夫决策模型，设计基于混合专家经验回放的深度Q-Learning任务规划算法；首先，考虑在星座卫星的对地观测任务中，任务规划中心根据卫星对于基于优先级排列的任务可见性窗口信息，实现多个卫星的自主协同任务规划离线训练，因此基于之前建立任务规划优化模型，建立面向对地观测任物的马尔科夫决策模型，确定任务规划算法的状态集、动作集、奖励函数以及折扣因子；然后针对传统的DQN算法容易陷入局部极小，导致算法收敛速度变慢的问题，设计基于混合专家经验回放的深度Q-Learning任务规划算法，建立自身决策与专家经验回放数据库，设计当前值网络与目标值网络，实现离线参数训练。

S3：在线决策，用训练好的网络进行实时任务规划。通过S1-S2完成离线学习过程之后，当前值网络和目标值网络的网络参数也被确定下来，此时当前值网络根据所有卫星对于待观测地面目标的可见性信息，估计分配策略的未来累计收益，确定观测卫星以及观测的时间窗口，经过离线学习的神经网络在线计算实时性较好，因此基于混合专家经验回放的深度Q-Learning任务规划算法满足在线规划的实时性要求，对地面静态观测目标，实现在线实时任务规划。

优选的，在步骤S1中，星座任务规划过程中有三种约束条件与综合收益目标，具体包括用户需求约束、唯一性观测约束和存储空间容量约束；其中用户需求约束需满足分配的观测窗口可用时间范围的有效性，唯一性观测约束与满足在同一时刻观测目标的唯一性同时切换观测目标时需满足切换时间，存储空间约束需满足星上有限观测资源；

用户需求约束：

式中，TimeTask_i表示任务i的任务需求到达规划中心的时刻，表示为任务i分配的时间窗口的开始执行时刻；

唯一性观测约束：

式中，i,j是两个相邻的分配给卫星s的任务，其观测开始和结束时刻分别为和/>且/>

存储空间约束：

式中，表示卫星s执行任务i前卫星的剩余存贮空间，/>表示卫星s完成任务i需要占用的星上存储空间；

目标函数为：

其中，代表系统对第i个观测任务的决策，π是决策过程中采取的决策策略，w_i是第i个观测任务的综合观测收益，done_rate,σ_i代表任务完成率和剩余存储方差，σ_i为第i个观测任务完成后的星上资源方差，α₁,α₂,α₃分别代表任务完成率、延迟时间、剩余资源均衡的收益权重。

优选的，在步骤S2中，建立面向对地观测任务的马尔科夫决策模型，具体步骤如下：

S2A：建立状态集S，将观测任务的到达时刻，观测任务的优先级，卫星与目标的距离、卫星与目标相对运动、卫星可观测时间窗口以及星群中各个卫星的空闲存储空间记为状态s，S＝{TimeTask_i,Pri_i,Dis,R_m,T_w,S₁,…,S_num}；

式中，num表示星群中包含的卫星总数，Dis,R_m分别表示目标与卫星的距离以及相对运动关系，T_w表示对目标的可视时间窗口，S₁,…,S_num表示所有卫星的剩余存储容量；

S2B：建立动作集A，规划决策中心为观测任务分配的可视时间窗口种类作为动作a，a＝type(Win_i)∈Win，动作集A表示为：

A＝{type(Win₁),…,type(Win_i),…,type(Win_num)}；

S2C：计算立即收益值R，

其中，R为执行任务i获得的任务收益；

S2D：γ表示未来收益值相对于当前收益值的重要程度，0＜γ＜1；

γ＝0，只考虑当前收益不考虑未来收益；

γ＝1，表示将未来收益和当前收益同等重要。

优选的，在步骤S2中，基于混合专家经验回放的深度Q-Learning任务规划算法设计，包括以下步骤：

S21：建立规划网络与混合专家经验数据库；基于深度Q-Learning任务规划网络主要包括当前值网络与目标值网络，其中目标值网络与当前值网络的网络结构与初始参数完全相同，当前值网络由全连接神经网络组成，神经网络包括1个输入层，2个隐藏层和1个输出层，输入节点数为所有卫星的状态集组合后的维度，输出为64维，分别对应星座32个卫星的2个可行时间窗口获得的期望累计收益；

S22：基于混合专家经验回放的深度Q-Learning任务规划网络参数更新；当前值网络与目标值网络分别用Q-eval网络和Q-target网络表示，参数分别为θ,θ′，采用Adam优化器对当前值网络进行优化，基于Bellman方程构建损失函数如下：

式中，D₁,D₂是分别是自身经验回放池与专家经验回放池，s_t表示当前状态，r_t表示立即奖励，a_t表示动作，s_t+1表示下一步状态数据，Q_θ′表示目标值网络累计收益权值，Q_θ表示当前值网络累计收益权值。

优选的，在步骤S3中，针对任务的紧急程度，利用训练好的网络进行实时决策，包括以下步骤：

S3A：对观测任务进行优先级排序；

S3B：针对当前观测任务、当前值网络根据状态信息以及离线训练过程中拟合的神经网络参数，确定当前观测任务所选的任务卫星以及观测窗口对应的开始结束时间；

S3C：当前值网络实现星座卫星对于对地观测任务的协同规划；

S3D：重复上述过程，直到所有待观测目标完成观测。

因此，本发明采用上述一种基于混合专家经验回放的星群协同任务规划方法，具备以下有益效果：

(1)本发明针对星座卫星对地紧急观测问题，通过考虑综合考虑用户需求、唯一性观测和星上观测资源等约束条件，以任务完成率、任务延迟时间及星上资源均衡度为指标，构建了马尔可夫决策过程，建立了面向星座紧急任务规划的决策模型，该决策模型可以很好的描述星座卫星在轨运行状态与待观测目标的相互关系，并直接应用到强化学习算法的求解中去。

(2)本发明将先进智能方法与传统静态任务规划方法结合起来，通过引入专家经验的方式加快了深度Q学习任务规划算法的收敛时间，使其能够在离线训练过程中考虑多个约束条件，综合优化多个收益目标，采用混合专家经验回放的算法，避免陷入局部极小，在线应用过程中便不再依赖专家经验，实现快速智能任务规划。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种基于混合专家经验回放的星群协同任务规划方法的流程图；

图2是本发明一种基于混合专家经验回放的星群协同任务规划方法的地面观测目标场景图；

图3是本发明一种基于混合专家经验回放的星群协同任务规划方法的任务收益曲线图；

图4是本发明一种基于混合专家经验回放的星群协同任务规划方法的任务完成率曲线图；

图5是本发明一种基于混合专家经验回放的星群协同任务规划方法的任务延迟时间曲线图；

图6是本发明一种基于混合专家经验回放的星群协同任务规划方法的星座剩余资源方差曲线图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明中使用的“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其它要素的可能。术语“内”、“外”、“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。在本发明中，除非另有明确的规定和限定，术语“附着”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

如图1所示，本发明提供了一种基于混合专家经验回放的星群协同任务规划方法，包括以下步骤：

S1：建立面向星座紧急任务规划的优化模型；星座任务规划过程中有三种约束条件与综合收益目标，具体包括用户需求约束、唯一性观测约束和存储空间容量约束；其中用户需求约束需满足分配的观测窗口可用时间范围的有效性，唯一性观测约束与满足在同一时刻观测目标的唯一性同时切换观测目标时需满足切换时间，存储空间约束需满足星上有限观测资源；

用户需求约束：

唯一性观测约束：

存储空间约束：

目标函数为：

在步骤S2中，建立面向对地观测任务的马尔科夫决策模型，具体步骤如下：

A＝{type(Win₁),…,type(Win_i),…,type(Win_num)}；

S2C：计算立即收益值R，

其中，R为执行任务i获得的任务收益；

γ＝0，只考虑当前收益不考虑未来收益；

γ＝1，表示将未来收益和当前收益同等重要。

在步骤S2中，基于混合专家经验回放的深度Q-Learning任务规划算法设计，包括以下步骤：

S22：基于混合专家经验回放的深度Q-Learning任务规划网络参数更新；当前值网络与目标值网络分别用Q-eval网络和Q-target网络表示，参数分别为θ,θ′，其中Q-eval网络用来评估当前状态下对应动作的Q值，而Q-target网络用来计算下一个状态对应动作的Q值，以作为Q网络训练时的标签Q值。同时，Q-target网络延迟于Q-eval网络更新，具体做法是每隔固定步数，将Q-eval网络参数同步复制给Q-target网络。采用Adam优化器对当前值网络进行优化，基于Bellman方程构建损失函数如下：

式中，D₁,D₂是分别是自身经验回放池与专家经验回放池，s_t表示当前状态，r_t表示立即奖励，a_t表示动作，s_t+1表示下一步状态数据，Q_θ′表示目标值网络累计收益权值，Q_θ表示当前值网络累计收益权值。训练过程中对于经验数据来源选择概率是在变化的，初始训练时采用较大的概率抽取专家经验进行训练，随着训练的进行，抽取专家经验数据的概率降低，抽取自身决策数据进行训练的概率增加，从而提高了训练的速度。

在步骤S3中，针对任务的紧急程度，利用训练好的网络进行实时决策，包括以下步骤：

S3A：对观测任务进行优先级排序；

S3D：重复上述过程，直到所有待观测目标完成观测。

因此，本发明采用上述一种基于混合专家经验回放的星群协同任务规划方法，考虑用户需求、唯一性观测和星上观测资源的影响，以任务完成率、任务延迟时间及星上资源均衡度为指标，建立了面向对地紧急观测的决策模型，然后利用专家经验数据，设计基于专家经验的深度Q-Learning星座任务规划算法，获得最优在线任务规划策略，规划卫星对目标的观测窗口。

实施例一

在全球区域(纬度-60°～60°，经度-30°～30°范围，随机生成了4500个地面静态目标，每组实验的仿真场景中均设置相应区域内动态到达的目标观测任务数为150个，选择观测卫星星座为Walker星座，且由4个轨道面及每个轨道面上8颗卫星组成。星座中轨道面与同一轨道面中卫星围绕地球均匀分布，轨道面的高度为1500km，轨道倾角为60°。

实施例二

如图3-图6所示，虚线为基于混合经验回放的方法，实线为基于随机经验回放的训练方法，通过以下训练过程的证明，专家经验有助于加快收敛速度。以下是具体分析：图3为任务收益曲线图，根据目标函数公式计算可知，综合考虑了任务完成率、任务延迟时间与剩余资源均衡度等因素，可以看出，基于混合专家经验回放的深度Q-Learning任务规划算法在任务收益上能够较快收敛。图4为任务完成率曲线图，在训练过程中，看出混合经验回放算法收敛速度较快，其中任务完成率较小的原因是150个任务较多，由于存储空间的限制，使得卫星不能完成更多的任务。图5显示了任务延迟时间与星上资源均衡度的迭代曲线图，曲线表明，基于混合专家经验的Q网络任务规划算法能够对多个优化目标进行同时优化，同时相较于普通的深度Q-Learning任务规划算法，具有较快的收敛速度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于混合专家经验回放的星群协同任务规划方法，其特征在于：包括以下步骤：

S1：建立面向星座紧急任务规划的优化模型；

S2：建立面向星座任务规划的马尔科夫决策模型，设计基于混合专家经验回放的深度Q-Learning任务规划算法；

S3：在线决策。

2.根据权利要求1所述的一种基于混合专家经验回放的星群协同任务规划方法，其特征在于：在步骤S1中，星座任务规划过程中有三种约束条件与综合收益目标，具体包括用户需求约束、唯一性观测约束和存储空间容量约束；

用户需求约束：

唯一性观测约束：

式中，i,j是两个相邻的分配给卫星s的任务，其观测开始和结束时刻分别为和且/>

存储空间约束：

目标函数为：

3.根据权利要求2所述的一种基于混合专家经验回放的星群协同任务规划方法，其特征在于：在步骤S2中，建立面向对地观测任务的马尔科夫决策模型，具体步骤如下：

A＝{type(Win₁),...,type(Win_i),…,type(Win_num)}；

S2C：计算立即收益值R，

其中，R为执行任务i获得的任务收益；

γ＝0，只考虑当前收益不考虑未来收益；

γ＝1，表示将未来收益和当前收益同等重要。

4.根据权利要求3所述的一种基于混合专家经验回放的星群协同任务规划方法，其特征在于：在步骤S2中，基于混合专家经验回放的深度Q-Learning任务规划算法设计，包括以下步骤：

5.根据权利要求4所述的一种基于混合专家经验回放的星群协同任务规划方法，其特征在于：在步骤S3中，针对任务的紧急程度，利用训练好的网络进行实时决策，包括以下步骤：

S3A：对观测任务进行优先级排序；

S3D：重复上述过程，直到所有待观测目标完成观测。