CN112270435A

CN112270435A - 一种基于深度强化学习的多星自主任务分配方法

Info

Publication number: CN112270435A
Application number: CN202011140091.0A
Authority: CN
Inventors: 王云鹏; 袁利; 朱琦; 张聪; 张斯航; 郝策; 孙栋
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-26
Anticipated expiration: 2040-10-22
Also published as: CN112270435B

Abstract

本发明公开了一种基于深度强化学习的多星自主任务分配方法，该方法包括如下步骤：步骤一：将地球轨道上由N个卫星组成的星群构建为主从结构星群步骤二：根据步骤一中的主从结构星群，地面建立深度强化学习多星任务自主分配模型；步骤三：利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练；步骤四：将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星，主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。本发明使得任务分配求解过程的复杂度就降低到了多项式级，大幅提高了计算效率，适应星上计算能力有限的环境。

Description

一种基于深度强化学习的多星自主任务分配方法

技术领域

本发明属于星群自主星上任务分配技术领域，尤其涉及一种基于深度强化学习的多星自主任务分配方法。

背景技术

面对未来复杂多变的任务环境，单个卫星无法保证任务执行的连续性和完整性，星群是未来执行任务的基础单位。星群同时接收多个任务，多星任务分配就是要找出一种最优的分配方案。目前卫星任务分配技术大多依赖于地面管控系统，地面管控系统接收任务后，在地面完成任务分配，然后再将分配好的任务上传到卫星执行。由于星地之间只能通过有限的地面测控站进行通信，而且还存在较长的通信时延，地面无法完全掌握星群系统的实时状态，因此传统的地面任务分配策略无法保证分配方案的最优性。而且地面分配星上执行的方法也无法保证对突发事件任务的快速响应。

卫星通过星间通讯可以快速全面掌握星群实时状态，星上分配可以保证分配方案的最优性的同时保证快速响应。最优分配方案，应当使整个系统在执行任务过程姿态机动最小，能量消耗最少，这是一个典型的组合优化问题。当问题规模较小时可以采用枚举遍历的方法，找出最优方案。当规模变大时常用法方法包括遗传算法、模拟退火算法、蚁群算法和K值聚类等方法。依靠地面设备强大的计算能力，这些方法能够找到较为满意的优化解，但受限于卫星星载计算机有限的计算能力，这些方法无法直接移植到卫星上进行应用。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种基于深度强化学习的多星自主任务分配方法，利用深度强化学习方法将繁杂的计算被留在了地面训练环节，利用地面计算机强大的计算能力，可以训练得到成熟稳定的深度强化学习多星自主任务分配模型，并利用该模型，任务分配求解过程的复杂度就降低到了多项式级，大幅提高了计算效率，适应星上计算能力有限的环境。

本发明目的通过以下技术方案予以实现：一种基于深度强化学习的多星自主任务分配方法，所述方法包括如下步骤：步骤一：将地球轨道上由N个卫星组成的星群构建为主从结构星群，其中，主星负责接收任务和分配任务，从星接收主星分配的任务并负责执行；步骤二：根据步骤一中的主从结构星群，地面建立深度强化学习多星任务自主分配模型，其中，深度强化学习多星任务自主分配模型包括5层神经网络；其中，第一层为输入层，第二层和第三层均为卷积层，第四层和第五层均为全连接层，最后一层是输出层；步骤三：利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练；步骤四：将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星，主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。

上述基于深度强化学习的多星自主任务分配方法中，在步骤一中，主从结构星群的特征为：主从结构星群中卫星分为主星和从星，主星通过星间通讯链路与其他卫星快速通信，主星通过星间通讯链路收集从星状态，发布任务；从星通过星间通信链路反馈自身状态，接收任务；主星接收任务集合为

其中M<M_max，M_max为主星一次可分配任务数的上限；其中，m₁为待分配任务1，m₂为待分配任务2，m_M为待分配任务M，M为待分配任务数量；所有任务存在时序关系，m₁最先执行，m_M最后执行；所有任务要求在T时间内执行完毕，T被分为L个最小时间窗口T＝T₁∪T₂∪…∪T_L，每个最小时间窗口只能执行一个任务，而且每一任务都在最小时间窗口内执行完毕。

上述基于深度强化学习的多星自主任务分配方法中，在步骤二中，深度强化学习多星任务自主分配模型的输入层为多星系统在当前任务集合下的状态矩阵集合。

上述基于深度强化学习的多星自主任务分配方法中，多星系统在当前任务集合下的状态矩阵集合通过以下步骤得到：(21)主星将任务发送给所有从星；(22)从星计算所有任务在所有最小时间窗口的收益，组成收益矩阵；(23)从星将收益矩阵反馈给主星，主星将收益矩阵重新组合得到每个任务对应的输入状态矩阵；(24)根据每个任务对应的输入状态矩阵得到多星系统在当前任务集合下的状态矩阵集合X＝{B₁,B₂,…,B_M}。

上述基于深度强化学习的多星自主任务分配方法中，在步骤二中，卷积层和全连接层均由一组参数向量W＝(w₁,w₂,…,w_P)^T表示；其中，w₁为权值1，w₂为权值2，w_P为权值P。

上述基于深度强化学习的多星自主任务分配方法中，在步骤二中，深度强化学习多星任务自主分配模型的输出层为二维收益矩阵，其中，二维收益矩阵为：

其中，q_i,j表示将任务m₁分配给卫星s_i的时间窗口T_j时的收益，i＝1、2、…、N，j＝1、2、…、L。

上述基于深度强化学习的多星自主任务分配方法中，在步骤三中，利用地面计算机对第二步的深度强化学习多星任务自主分配模型进行训练包括如下步骤：

(31)利用地面计算系统得到最优任务分配方案和最优分配方案下的收益

其中，ω_i为任务i的权重，s(i)为执行任务i的卫星，t(i)为执行任务i的时间窗口；

(32)如果二维收益矩阵Q的最大元素为q_i,j，且|q_i,j-b_b|<ε，那么将任务集合

中的任务m₁分配给卫星i的时间窗口T_j，同时将任务m₁从任务集合删除，并令m₁＝m₂,m₂＝m₃,…,m_M＝m_M-1；否则利用反向误差传播算法对参数向量W＝(w₁,w₂,…,w_P)^T进行修正，使q_i,j接近b_b；其中，ε＞0，ε为阈值；

(33)如果M≠0则返回步骤(31)；否则转步骤(34)；

(34)对参数向量W进行评价，如果满足要求则训练结束。

上述基于深度强化学习的多星自主任务分配方法中，在步骤(34)中，对参数向量W进行评价包括如下步骤：

(341)预先选定K组待分配任务集合

(342)取待分配任务集合

(343)如果二维收益矩阵Q的最大元素为q_i,j，且|q_i,j-b_b|≥ε，那么参数向量W不满足要求，评价结束；否则任务m₁分配给卫星i的时间窗口T_j，同时将任务m₁从任务集合

删除，并令m₁＝m₂,m₂＝m₃,…,m_M＝m_M-1；

(344)如果M≠0返回步骤(343)，否则令K＝K-1；

(345)如果K＝0，那么W满足要求，评价结束。

上述基于深度强化学习的多星自主任务分配方法中，在步骤四中，主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配包括如下步骤：

(41)搜索二维收益矩阵Q的最大元素，如果最大元素为q_i,j，那么将任务m₁分配给卫星i的时间窗口T_j；

(42)更新任务集合中m₁＝m₂,…,m_M-1＝m_M，M＝M-1，如果M＝0则分配结束，否则返回步骤(41)。

上述基于深度强化学习的多星自主任务分配方法中，在步骤(22)中，卫星s_i的收益矩阵

如下：

其中，b_i,k,l表示卫星i在时间窗口T_l执行任务m_k所能获得的收益；B_i1＝[b_i,1,1,b_i,1,2,…,b_i,1,L]为卫星i执行任务m₁的收益向量，B_i2＝[b_i,2,1,b_i,2,2,…,b_i,2,L]为卫星i执行任务m₂的收益向量，B_iM为卫星i执行任务m_M的收益向量，k＝1、2、…、M，l＝1、2、…、L；

在步骤(23)中，任务m_i的输入状态矩阵B_i如下：

其中，B_1i＝[b_1,i,1,b_1,i,2,…,b_1,i,L]为卫星1执行任务m_i的收益向量，B_2i＝[b_2,i,1,b_2,i,2,…,b_2,i,L]为卫星2执行任务m_i的收益向量，B_Ni＝[b_N,i,1,b_N,i,2,…,b_N,i,L]为卫星N执行任务m_i的收益向量。

本发明与现有技术相比具有如下有益效果：

(1)星任务分配问题是一个组合优化问题，传统算法的复杂度一般都是指数级的，随着问题规模的增加，这会带来维数爆炸的问题。因此传统方法无法短时间内求解到问题的解。本发明利用深度强化学习方法将繁杂的计算被留在了地面训练环节，利用地面计算机强大的计算能力，可以训练得到成熟稳定的深度强化学习多星自主任务分配模型。利用该模型，任务分配求解过程的复杂度就降低到了多项式级，大幅提高了计算效率，适应星上计算能力有限的环境。

(2)对系统状态的描述方法以及动作的描述是DQN方法应用的前提。本发明利用卫星执行不同任务的收益来描述多星系统状态，第一个任务被分配的卫星和时间窗口作为动作的方式，简单有效。解决了多星系统状态复杂、不易描述，动作组合过多无法列举的问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的基于深度强化学习模型的多星任务分配方法流程图；

图2是本发明实施例提供的基于深度强化学习的任务分配模型的示意图；

图3是本发明实施例提供的输入状态计算流程图；

图4是本发明实施例提供的多星任务分配深度强化学习模型训练流程图；

图5是本发明实施例提供的基于深度强化学习模型的多星自主任务分配流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例提供的基于深度强化学习模型的多星任务分配方法流程图。如图1所示，该方法包括如下步骤：

(1)将地球轨道上由N个卫星组成的星群构建为主从式分配结构，主星负责接收任务、分配任务，从星接收主星分配的任务并负责执行。

(2)针对第一步建立的主从结构星群，地面建立深度强化学习多星任务分配模型，模型由如图2所示的5层神经网络组成：第一层为输入层，第二、三层为卷积层，第四、五层为全连接层，最后一层也是输出层。

(3)利用地面计算机对第二步建立的深度强化学习任务分配模型进行训练。

(4)将训练成熟的深度强化学习任务分配模型的参数向量上传至星群中的主星，主星利用该模型对接收到任务序进行分配，给出分配方案。

步骤(1)中主从式分配结构如下：

(1a)星群中卫星分为主星和从星，主星通过星间通讯链路可以与其他卫星快速通信。主星通过星间通讯链路收集从星状态，发布任务；从星通过星间通信链路反馈自身状态，接收任务。

(1b)主星接收的待分配任务集合为

假设M<M_max，其中为主星一次可分配任务数的上限。

(1c)所有任务存在时序关系，m₁最先执行，m_M最后执行。

(1d)所有任务要求在T时间内执行完毕，T被分为L个最小时间窗口T＝T₁∪T₂∪…∪T_L，每个最小时间窗口只能执行一个任务，而且每一任务都可以在最小时间窗口内执行完毕。

步骤(2)中模型输入层为多星系统在当前任务集合下的状态矩阵集合,计算输入状态矩阵集合的流程如图3所示，具体步骤为：

(2a)主星将待分配的任务发送给所有从星。

(2b)从星计算所有任务在所有最小时间窗口的收益，组成收益矩阵。比如对于卫星s_i可以得到收益矩阵如下

其中b_i,k,l表示卫星i在时间窗口T_l执行任务m_k所能获得的收益。

(2c)从星将收益矩阵反馈给主星，主星将其重新组合得到每个任务对应的输入状态矩阵，对于任务m_i其输入状态矩阵如下

(2d)当前多星系统状态由集合X＝{B₁,B₂,…,B_M}表示，状态集合X的所有元素就是深度强化学习任务分配模型的输入。

第(2)步中卷积层和全连接层由一组参数向量W＝(w₁,w₂,…,w_P)^T表示。

第(2)步中模型输出层为二维收益矩阵,具体形式为

其中q_i,j表示将任务m₁分配给卫星s_i的时间窗口T_j时的收益，值越大收益越高。将任务m₁分配给卫星i的时间窗口T_j的行为记为动作A_ij。收益值参数向量W和模型输入X和动作共同决定，因此q_i,j也可以写为

q_i,j＝Q(X,W,A)，

其中A＝{A_ij|i＝1,2,…,N；j＝1,2,…,L}为所有动作的集合。

第(3)步中深度强化学习任务分配模型进行训练流程如图4所示，具体步骤如下：

(3a)选一组待分配任务集合。

(3b)根据步骤(2a)至(2d)计算多星任务分配模型的输入状态X。

(3c)计算当前状态X下，模型参数为W时的收益矩阵Q；

(3d)采用传统任务分配方法，利用地面计算系统，计算最优任务分配方案和最优分配方案下的收益

其中ω_i为任务i的权重，s(i)为执行任务i的卫星，t(i)为执行卫星i的时间窗口；

(3e)如果Q矩阵的最大元素为q_i,j，且|q_i,j-b_b|<ε(ε＞0为阈值)那么立刻将任务m₁分配给卫星i的时间窗口T_j，同时将任务m₁从任务集合删除，并令m₁＝m₂,m₂＝m₃,…,M＝M-1；否则利用反向误差传播算法对参数向量W＝(w₁,w₂,…,w_P)^T进行修正，使q_i,j接近b_b。

(3f)如果M≠0则返回3b)；否则转3f)。

(3g)对当前参数向量W进行评价，如果满足要求则训练结束，否则返回3a)开始下一轮训练。

步骤3f)对参数向量W进行评价的方法如下：

(3g-1)预先选定K组待分配任务集合

(3g-2)取待分配任务集合

(3g-3)根据步骤3b)至步骤3d)，计算收益矩阵Q和收益矩阵b_b。

(3g-4)如果Q矩阵的最大元素为q_i,j，且|q_i,j-b_b|≥ε，那么参数向量W不满足要求，评价结束；否则任务m₁分配给卫星s_i的时间窗口T_j，同时将任务m₁从任务集合

删除，并令m₁＝m₂,m₂＝m₃,…,M＝M-1。

(3g-5)如果M≠0返回(3f-3)，否则令K＝K-1。

(3g-6)如果K＝0，那么W满足要求，评价结束，否则返回(3f-2)。

第(4)步中主星利用深度强化学习的多星自主任务分配模型进行任务分配的流程如图5所示，具体步骤如下：

(4a)主星接收的待分配任务集合为

M<M_max。

(4b)根据步骤2c)的方法计算当前状态矩阵B。

(4c)将当前状态矩阵B和利用参数向量W作为输入，计算收益矩阵Q。

(4d)搜索Q矩阵的最大元素，如果最大元素为q_i,j，那么将任务m₁分配给卫星i的时间窗口T_j。

(4e)更新任务分配集合m₁＝m₂,…,m_M-1＝m_M，M＝M-1，如果M＝0则分配结束，否则返回(4a)。

具体的，输入层为多星系统在当前任务集合下的状态矩阵集合,计算输入状态矩阵集合的具体步骤为：

a1)主星将待分配的任务发送给所有从星。

a2)从星计算所有任务在所有最小时间窗口的收益，组成收益矩阵。比如对于卫星i可以得到收益矩阵

如下

上表中b_i,j,k可以通过下式计算：

b_i,j,k＝bf(m_i,s_j,T_k)，

表示任务m_i由卫星j在T_k时间窗口执行的收益，其计算原则为：卫星j无法完成m_i或者T_k中已分配任务，则bf(m_i,s_j,T_k)＝0；如果T_k时间内j姿态机动越小，载荷开机时间越短，能源消耗越少则bf(m_i,s_j,T_k)越大。

a3)收益矩阵反馈给主星，主星将其重新组合得到每个任务对应的输入状态矩阵，对于任务m_i其输入状态矩阵如下

a4)星系统状态由集合X＝{B₁,B₂,…,B_M}表示，状态集合X的所有元素就是深度强化学习任务分配模型的输入。

卷积层和全连接层由一组参数向量W＝(w₁,w₂,…,w_P)^T表示。

模型输出层为二维收益矩阵Q,具体形式为

其中，q_i,j表示将任务m₁分配给卫星s_i的时间窗口T_j时的收益，值越大收益越高。将任务m₁分配给卫星i的时间窗口T_j的行为记为动作A_ij。收益值参数向量W和模型输入X和动作共同决定，因此q_i,j也可以写为

q_i,j＝Q(X,W,A)，

其中A＝{A_ij|i＝1,2,…,N；j＝1,2,…,L}为所有动作的集合。

利用地面计算机对第二步建立的深度强化学习任务分配模型进行训练，训练流程如图4所示，具体步骤如下：

a)选一组待分配任务集合

b)计算多星任务分配模型的输入状态X。

c)计算当前状态X下，模型参数为W时的收益矩阵Q；

d)采用传统任务分配方法，利用地面计算系统，计算最优任务分配方案和最优分配方案下的收益

其中ω_i为任务i的权重，s(i)为执行任务i的卫星，t(i)为执行卫星i的时间窗口。

e)如果Q矩阵的最大元素为q_i,j，且|q_i,j-b_b|<ε(ε＞0为阈值)那么立刻将任务m₁分配给卫星i的时间窗口T_j，同时将任务m₁从任务集合删除，并令m₁＝m₂,m₂＝m₃,…,M＝M-1；否则利用反向误差传播算法对参数向量W＝(w₁,w₂,…,w_P)^T进行修正，使q_i,j接近b_b。

f)如果M≠0则返回b)；否则转g)。

g)对当前参数向量W进行评价，如果满足要求则训练结束，否则返回a)开始下一轮训练。对参数向量W进行评价的具体步骤如下：

g1)预先选定K组待分配任务集合

g2)取待分配任务集合

g3)计算收益矩阵Q和收益矩阵b_b。

g4)如果Q矩阵的最大元素为q_i,j，且|q_i,j-b_b|≥ε，那么参数向量W不满足要求，评价结束；否则任务m₁分配给卫星i的时间窗口T_j，同时将任务m₁从任务集合

删除，并令m₁＝m₂,m₂＝m₃,…,M＝M-1。

g5)如果M≠0返回g3)，否则令K＝K-1。

g6)如果K＝0，那么W满足要求，评价结束。

星任务分配问题是一个组合优化问题，传统算法的复杂度一般都是指数级的，随着问题规模的增加，这会带来维数爆炸的问题。因此传统方法无法短时间内求解到问题的解。本发明利用深度强化学习方法将繁杂的计算被留在了地面训练环节，利用地面计算机强大的计算能力，可以训练得到成熟稳定的深度强化学习多星自主任务分配模型。利用该模型，任务分配求解过程的复杂度就降低到了多项式级，大幅提高了计算效率，适应星上计算能力有限的环境。

对系统状态的描述方法以及动作的描述是DQN方法应用的前提。本发明利用卫星执行不同任务的收益来描述多星系统状态，第一个任务被分配的卫星和时间窗口作为动作的方式，简单有效。解决了多星系统状态复杂、不易描述，动作组合过多无法列举的问题。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于深度强化学习的多星自主任务分配方法，其特征在于，所述方法包括如下步骤：

步骤一：将地球轨道上由N个卫星组成的星群构建为主从结构星群，其中，主星负责接收任务和分配任务，从星接收主星分配的任务并负责执行；

步骤二：根据步骤一中的主从结构星群，地面建立深度强化学习多星任务自主分配模型，其中，深度强化学习多星任务自主分配模型包括5层神经网络；其中，第一层为输入层，第二层和第三层均为卷积层，第四层和第五层均为全连接层，最后一层是输出层；

步骤三：利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练；

步骤四：将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星，主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。

2.根据权利要求1所述的基于深度强化学习的多星自主任务分配方法，其特征在于：在步骤一中，主从结构星群的特征为：

主从结构星群中卫星分为主星和从星，主星通过星间通讯链路与其他卫星快速通信，主星通过星间通讯链路收集从星状态，发布任务；从星通过星间通信链路反馈自身状态，接收任务；

主星接收任务集合为

其中M<M_max，M_max为主星一次可分配任务数的上限；其中，m₁为待分配任务1，m₂为待分配任务2，m_M为待分配任务M，M为待分配任务数量；

所有任务存在时序关系，m₁最先执行，m_M最后执行；

所有任务要求在T时间内执行完毕，T被分为L个最小时间窗口T＝T₁∪T₂∪…∪T_L，每个最小时间窗口只能执行一个任务，而且每一任务都在最小时间窗口内执行完毕。

3.根据权利要求2所述的基于深度强化学习的多星自主任务分配方法，其特征在于：在步骤二中，深度强化学习多星任务自主分配模型的输入层为多星系统在当前任务集合下的状态矩阵集合。

4.根据权利要求3所述的基于深度强化学习的多星自主任务分配方法，其特征在于：多星系统在当前任务集合下的状态矩阵集合通过以下步骤得到：

(21)主星将任务发送给所有从星；

(22)从星计算所有任务在所有最小时间窗口的收益，组成收益矩阵；

(23)从星将收益矩阵反馈给主星，主星将收益矩阵重新组合得到每个任务对应的输入状态矩阵；

(24)根据每个任务对应的输入状态矩阵得到多星系统在当前任务集合下的状态矩阵集合X＝{B₁,B₂,…,B_M}。

5.根据权利要求4所述的基于深度强化学习的多星自主任务分配方法，其特征在于：在步骤二中，卷积层和全连接层均由一组参数向量W＝(w₁,w₂,…,w_P)^T表示；其中，w₁为权值1，w₂为权值2，w_P为权值P。

6.根据权利要求5所述的基于深度强化学习的多星自主任务分配方法，其特征在于：在步骤二中，深度强化学习多星任务自主分配模型的输出层为二维收益矩阵，其中，二维收益矩阵为：

7.根据权利要求6所述的基于深度强化学习的多星自主任务分配方法，其特征在于：在步骤三中，利用地面计算机对第二步的深度强化学习多星任务自主分配模型进行训练包括如下步骤：