CN112270435A - 一种基于深度强化学习的多星自主任务分配方法 - Google Patents

一种基于深度强化学习的多星自主任务分配方法 Download PDF

Info

Publication number
CN112270435A
CN112270435A CN202011140091.0A CN202011140091A CN112270435A CN 112270435 A CN112270435 A CN 112270435A CN 202011140091 A CN202011140091 A CN 202011140091A CN 112270435 A CN112270435 A CN 112270435A
Authority
CN
China
Prior art keywords
task
satellite
star
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011140091.0A
Other languages
English (en)
Other versions
CN112270435B (zh
Inventor
王云鹏
袁利
朱琦
张聪
张斯航
郝策
孙栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202011140091.0A priority Critical patent/CN112270435B/zh
Publication of CN112270435A publication Critical patent/CN112270435A/zh
Application granted granted Critical
Publication of CN112270435B publication Critical patent/CN112270435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的多星自主任务分配方法,该方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。本发明使得任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。

Description

一种基于深度强化学习的多星自主任务分配方法
技术领域
本发明属于星群自主星上任务分配技术领域,尤其涉及一种基于深度强化学习的多星自主任务分配方法。
背景技术
面对未来复杂多变的任务环境,单个卫星无法保证任务执行的连续性和完整性,星群是未来执行任务的基础单位。星群同时接收多个任务,多星任务分配就是要找出一种最优的分配方案。目前卫星任务分配技术大多依赖于地面管控系统,地面管控系统接收任务后,在地面完成任务分配,然后再将分配好的任务上传到卫星执行。由于星地之间只能通过有限的地面测控站进行通信,而且还存在较长的通信时延,地面无法完全掌握星群系统的实时状态,因此传统的地面任务分配策略无法保证分配方案的最优性。而且地面分配星上执行的方法也无法保证对突发事件任务的快速响应。
卫星通过星间通讯可以快速全面掌握星群实时状态,星上分配可以保证分配方案的最优性的同时保证快速响应。最优分配方案,应当使整个系统在执行任务过程姿态机动最小,能量消耗最少,这是一个典型的组合优化问题。当问题规模较小时可以采用枚举遍历的方法,找出最优方案。当规模变大时常用法方法包括遗传算法、模拟退火算法、蚁群算法和K值聚类等方法。依靠地面设备强大的计算能力,这些方法能够找到较为满意的优化解,但受限于卫星星载计算机有限的计算能力,这些方法无法直接移植到卫星上进行应用。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于深度强化学习的多星自主任务分配方法,利用深度强化学习方法将繁杂的计算被留在了地面训练环节,利用地面计算机强大的计算能力,可以训练得到成熟稳定的深度强化学习多星自主任务分配模型,并利用该模型,任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
本发明目的通过以下技术方案予以实现:一种基于深度强化学习的多星自主任务分配方法,所述方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群,其中,主星负责接收任务和分配任务,从星接收主星分配的任务并负责执行;步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型,其中,深度强化学习多星任务自主分配模型包括5层神经网络;其中,第一层为输入层,第二层和第三层均为卷积层,第四层和第五层均为全连接层,最后一层是输出层;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。
上述基于深度强化学习的多星自主任务分配方法中,在步骤一中,主从结构星群的特征为:主从结构星群中卫星分为主星和从星,主星通过星间通讯链路与其他卫星快速通信,主星通过星间通讯链路收集从星状态,发布任务;从星通过星间通信链路反馈自身状态,接收任务;主星接收任务集合为
Figure BDA0002737967080000021
其中M<Mmax,Mmax为主星一次可分配任务数的上限;其中,m1为待分配任务1,m2为待分配任务2,mM为待分配任务M,M为待分配任务数量;所有任务存在时序关系,m1最先执行,mM最后执行;所有任务要求在T时间内执行完毕,T被分为L个最小时间窗口T=T1∪T2∪…∪TL,每个最小时间窗口只能执行一个任务,而且每一任务都在最小时间窗口内执行完毕。
上述基于深度强化学习的多星自主任务分配方法中,在步骤二中,深度强化学习多星任务自主分配模型的输入层为多星系统在当前任务集合下的状态矩阵集合。
上述基于深度强化学习的多星自主任务分配方法中,多星系统在当前任务集合下的状态矩阵集合通过以下步骤得到:(21)主星将任务发送给所有从星;(22)从星计算所有任务在所有最小时间窗口的收益,组成收益矩阵;(23)从星将收益矩阵反馈给主星,主星将收益矩阵重新组合得到每个任务对应的输入状态矩阵;(24)根据每个任务对应的输入状态矩阵得到多星系统在当前任务集合下的状态矩阵集合X={B1,B2,…,BM}。
上述基于深度强化学习的多星自主任务分配方法中,在步骤二中,卷积层和全连接层均由一组参数向量W=(w1,w2,…,wP)T表示;其中,w1为权值1,w2为权值2,wP为权值P。
上述基于深度强化学习的多星自主任务分配方法中,在步骤二中,深度强化学习多星任务自主分配模型的输出层为二维收益矩阵,其中,二维收益矩阵为:
Figure BDA0002737967080000031
其中,qi,j表示将任务m1分配给卫星si的时间窗口Tj时的收益,i=1、2、…、N,j=1、2、…、L。
上述基于深度强化学习的多星自主任务分配方法中,在步骤三中,利用地面计算机对第二步的深度强化学习多星任务自主分配模型进行训练包括如下步骤:
(31)利用地面计算系统得到最优任务分配方案和最优分配方案下的收益
Figure BDA0002737967080000032
其中,ωi为任务i的权重,s(i)为执行任务i的卫星,t(i)为执行任务i的时间窗口;
(32)如果二维收益矩阵Q的最大元素为qi,j,且|qi,j-bb|<ε,那么将任务集合
Figure BDA0002737967080000033
中的任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合删除,并令m1=m2,m2=m3,…,mM=mM-1;否则利用反向误差传播算法对参数向量W=(w1,w2,…,wP)T进行修正,使qi,j接近bb;其中,ε>0,ε为阈值;
(33)如果M≠0则返回步骤(31);否则转步骤(34);
(34)对参数向量W进行评价,如果满足要求则训练结束。
上述基于深度强化学习的多星自主任务分配方法中,在步骤(34)中,对参数向量W进行评价包括如下步骤:
(341)预先选定K组待分配任务集合
Figure BDA0002737967080000041
(342)取待分配任务集合
Figure BDA0002737967080000042
(343)如果二维收益矩阵Q的最大元素为qi,j,且|qi,j-bb|≥ε,那么参数向量W不满足要求,评价结束;否则任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合
Figure BDA0002737967080000043
删除,并令m1=m2,m2=m3,…,mM=mM-1
(344)如果M≠0返回步骤(343),否则令K=K-1;
(345)如果K=0,那么W满足要求,评价结束。
上述基于深度强化学习的多星自主任务分配方法中,在步骤四中,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配包括如下步骤:
(41)搜索二维收益矩阵Q的最大元素,如果最大元素为qi,j,那么将任务m1分配给卫星i的时间窗口Tj
(42)更新任务集合中m1=m2,…,mM-1=mM,M=M-1,如果M=0则分配结束,否则返回步骤(41)。
上述基于深度强化学习的多星自主任务分配方法中,在步骤(22)中,卫星si的收益矩阵
Figure BDA0002737967080000044
如下:
Figure BDA0002737967080000051
其中,bi,k,l表示卫星i在时间窗口Tl执行任务mk所能获得的收益;Bi1=[bi,1,1,bi,1,2,…,bi,1,L]为卫星i执行任务m1的收益向量,Bi2=[bi,2,1,bi,2,2,…,bi,2,L]为卫星i执行任务m2的收益向量,BiM为卫星i执行任务mM的收益向量,k=1、2、…、M,l=1、2、…、L;
在步骤(23)中,任务mi的输入状态矩阵Bi如下:
Figure BDA0002737967080000052
其中,B1i=[b1,i,1,b1,i,2,…,b1,i,L]为卫星1执行任务mi的收益向量,B2i=[b2,i,1,b2,i,2,…,b2,i,L]为卫星2执行任务mi的收益向量,BNi=[bN,i,1,bN,i,2,…,bN,i,L]为卫星N执行任务mi的收益向量。
本发明与现有技术相比具有如下有益效果:
(1)星任务分配问题是一个组合优化问题,传统算法的复杂度一般都是指数级的,随着问题规模的增加,这会带来维数爆炸的问题。因此传统方法无法短时间内求解到问题的解。本发明利用深度强化学习方法将繁杂的计算被留在了地面训练环节,利用地面计算机强大的计算能力,可以训练得到成熟稳定的深度强化学习多星自主任务分配模型。利用该模型,任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
(2)对系统状态的描述方法以及动作的描述是DQN方法应用的前提。本发明利用卫星执行不同任务的收益来描述多星系统状态,第一个任务被分配的卫星和时间窗口作为动作的方式,简单有效。解决了多星系统状态复杂、不易描述,动作组合过多无法列举的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的基于深度强化学习模型的多星任务分配方法流程图;
图2是本发明实施例提供的基于深度强化学习的任务分配模型的示意图;
图3是本发明实施例提供的输入状态计算流程图;
图4是本发明实施例提供的多星任务分配深度强化学习模型训练流程图;
图5是本发明实施例提供的基于深度强化学习模型的多星自主任务分配流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
图1是本发明实施例提供的基于深度强化学习模型的多星任务分配方法流程图。如图1所示,该方法包括如下步骤:
(1)将地球轨道上由N个卫星组成的星群构建为主从式分配结构,主星负责接收任务、分配任务,从星接收主星分配的任务并负责执行。
(2)针对第一步建立的主从结构星群,地面建立深度强化学习多星任务分配模型,模型由如图2所示的5层神经网络组成:第一层为输入层,第二、三层为卷积层,第四、五层为全连接层,最后一层也是输出层。
(3)利用地面计算机对第二步建立的深度强化学习任务分配模型进行训练。
(4)将训练成熟的深度强化学习任务分配模型的参数向量上传至星群中的主星,主星利用该模型对接收到任务序进行分配,给出分配方案。
步骤(1)中主从式分配结构如下:
(1a)星群中卫星分为主星和从星,主星通过星间通讯链路可以与其他卫星快速通信。主星通过星间通讯链路收集从星状态,发布任务;从星通过星间通信链路反馈自身状态,接收任务。
(1b)主星接收的待分配任务集合为
Figure BDA0002737967080000071
假设M<Mmax,其中为主星一次可分配任务数的上限。
(1c)所有任务存在时序关系,m1最先执行,mM最后执行。
(1d)所有任务要求在T时间内执行完毕,T被分为L个最小时间窗口T=T1∪T2∪…∪TL,每个最小时间窗口只能执行一个任务,而且每一任务都可以在最小时间窗口内执行完毕。
步骤(2)中模型输入层为多星系统在当前任务集合下的状态矩阵集合,计算输入状态矩阵集合的流程如图3所示,具体步骤为:
(2a)主星将待分配的任务发送给所有从星。
(2b)从星计算所有任务在所有最小时间窗口的收益,组成收益矩阵。比如对于卫星si可以得到收益矩阵如下
Figure BDA0002737967080000072
其中bi,k,l表示卫星i在时间窗口Tl执行任务mk所能获得的收益。
(2c)从星将收益矩阵反馈给主星,主星将其重新组合得到每个任务对应的输入状态矩阵,对于任务mi其输入状态矩阵如下
Figure BDA0002737967080000081
(2d)当前多星系统状态由集合X={B1,B2,…,BM}表示,状态集合X的所有元素就是深度强化学习任务分配模型的输入。
第(2)步中卷积层和全连接层由一组参数向量W=(w1,w2,…,wP)T表示。
第(2)步中模型输出层为二维收益矩阵,具体形式为
Figure BDA0002737967080000082
其中qi,j表示将任务m1分配给卫星si的时间窗口Tj时的收益,值越大收益越高。将任务m1分配给卫星i的时间窗口Tj的行为记为动作Aij。收益值参数向量W和模型输入X和动作共同决定,因此qi,j也可以写为
qi,j=Q(X,W,A),
其中A={Aij|i=1,2,…,N;j=1,2,…,L}为所有动作的集合。
第(3)步中深度强化学习任务分配模型进行训练流程如图4所示,具体步骤如下:
(3a)选一组待分配任务集合。
(3b)根据步骤(2a)至(2d)计算多星任务分配模型的输入状态X。
(3c)计算当前状态X下,模型参数为W时的收益矩阵Q;
(3d)采用传统任务分配方法,利用地面计算系统,计算最优任务分配方案和最优分配方案下的收益
Figure BDA0002737967080000083
其中ωi为任务i的权重,s(i)为执行任务i的卫星,t(i)为执行卫星i的时间窗口;
(3e)如果Q矩阵的最大元素为qi,j,且|qi,j-bb|<ε(ε>0为阈值)那么立刻将任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合删除,并令m1=m2,m2=m3,…,M=M-1;否则利用反向误差传播算法对参数向量W=(w1,w2,…,wP)T进行修正,使qi,j接近bb
(3f)如果M≠0则返回3b);否则转3f)。
(3g)对当前参数向量W进行评价,如果满足要求则训练结束,否则返回3a)开始下一轮训练。
步骤3f)对参数向量W进行评价的方法如下:
(3g-1)预先选定K组待分配任务集合
Figure BDA0002737967080000091
(3g-2)取待分配任务集合
Figure BDA0002737967080000092
(3g-3)根据步骤3b)至步骤3d),计算收益矩阵Q和收益矩阵bb
(3g-4)如果Q矩阵的最大元素为qi,j,且|qi,j-bb|≥ε,那么参数向量W不满足要求,评价结束;否则任务m1分配给卫星si的时间窗口Tj,同时将任务m1从任务集合
Figure BDA0002737967080000093
删除,并令m1=m2,m2=m3,…,M=M-1。
(3g-5)如果M≠0返回(3f-3),否则令K=K-1。
(3g-6)如果K=0,那么W满足要求,评价结束,否则返回(3f-2)。
第(4)步中主星利用深度强化学习的多星自主任务分配模型进行任务分配的流程如图5所示,具体步骤如下:
(4a)主星接收的待分配任务集合为
Figure BDA0002737967080000094
M<Mmax
(4b)根据步骤2c)的方法计算当前状态矩阵B。
(4c)将当前状态矩阵B和利用参数向量W作为输入,计算收益矩阵Q。
(4d)搜索Q矩阵的最大元素,如果最大元素为qi,j,那么将任务m1分配给卫星i的时间窗口Tj
(4e)更新任务分配集合m1=m2,…,mM-1=mM,M=M-1,如果M=0则分配结束,否则返回(4a)。
具体的,输入层为多星系统在当前任务集合下的状态矩阵集合,计算输入状态矩阵集合的具体步骤为:
a1)主星将待分配的任务发送给所有从星。
a2)从星计算所有任务在所有最小时间窗口的收益,组成收益矩阵。比如对于卫星i可以得到收益矩阵
Figure BDA0002737967080000101
如下
Figure BDA0002737967080000102
上表中bi,j,k可以通过下式计算:
bi,j,k=bf(mi,sj,Tk),
表示任务mi由卫星j在Tk时间窗口执行的收益,其计算原则为:卫星j无法完成mi或者Tk中已分配任务,则bf(mi,sj,Tk)=0;如果Tk时间内j姿态机动越小,载荷开机时间越短,能源消耗越少则bf(mi,sj,Tk)越大。
a3)收益矩阵反馈给主星,主星将其重新组合得到每个任务对应的输入状态矩阵,对于任务mi其输入状态矩阵如下
Figure BDA0002737967080000103
a4)星系统状态由集合X={B1,B2,…,BM}表示,状态集合X的所有元素就是深度强化学习任务分配模型的输入。
卷积层和全连接层由一组参数向量W=(w1,w2,…,wP)T表示。
模型输出层为二维收益矩阵Q,具体形式为
Figure BDA0002737967080000111
其中,qi,j表示将任务m1分配给卫星si的时间窗口Tj时的收益,值越大收益越高。将任务m1分配给卫星i的时间窗口Tj的行为记为动作Aij。收益值参数向量W和模型输入X和动作共同决定,因此qi,j也可以写为
qi,j=Q(X,W,A),
其中A={Aij|i=1,2,…,N;j=1,2,…,L}为所有动作的集合。
利用地面计算机对第二步建立的深度强化学习任务分配模型进行训练,训练流程如图4所示,具体步骤如下:
a)选一组待分配任务集合
Figure BDA0002737967080000112
b)计算多星任务分配模型的输入状态X。
c)计算当前状态X下,模型参数为W时的收益矩阵Q;
d)采用传统任务分配方法,利用地面计算系统,计算最优任务分配方案和最优分配方案下的收益
Figure BDA0002737967080000113
其中ωi为任务i的权重,s(i)为执行任务i的卫星,t(i)为执行卫星i的时间窗口。
e)如果Q矩阵的最大元素为qi,j,且|qi,j-bb|<ε(ε>0为阈值)那么立刻将任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合删除,并令m1=m2,m2=m3,…,M=M-1;否则利用反向误差传播算法对参数向量W=(w1,w2,…,wP)T进行修正,使qi,j接近bb
f)如果M≠0则返回b);否则转g)。
g)对当前参数向量W进行评价,如果满足要求则训练结束,否则返回a)开始下一轮训练。对参数向量W进行评价的具体步骤如下:
g1)预先选定K组待分配任务集合
Figure BDA0002737967080000121
g2)取待分配任务集合
Figure BDA0002737967080000122
g3)计算收益矩阵Q和收益矩阵bb
g4)如果Q矩阵的最大元素为qi,j,且|qi,j-bb|≥ε,那么参数向量W不满足要求,评价结束;否则任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合
Figure BDA0002737967080000123
删除,并令m1=m2,m2=m3,…,M=M-1。
g5)如果M≠0返回g3),否则令K=K-1。
g6)如果K=0,那么W满足要求,评价结束。
星任务分配问题是一个组合优化问题,传统算法的复杂度一般都是指数级的,随着问题规模的增加,这会带来维数爆炸的问题。因此传统方法无法短时间内求解到问题的解。本发明利用深度强化学习方法将繁杂的计算被留在了地面训练环节,利用地面计算机强大的计算能力,可以训练得到成熟稳定的深度强化学习多星自主任务分配模型。利用该模型,任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
对系统状态的描述方法以及动作的描述是DQN方法应用的前提。本发明利用卫星执行不同任务的收益来描述多星系统状态,第一个任务被分配的卫星和时间窗口作为动作的方式,简单有效。解决了多星系统状态复杂、不易描述,动作组合过多无法列举的问题。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (10)

1.一种基于深度强化学习的多星自主任务分配方法,其特征在于,所述方法包括如下步骤:
步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群,其中,主星负责接收任务和分配任务,从星接收主星分配的任务并负责执行;
步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型,其中,深度强化学习多星任务自主分配模型包括5层神经网络;其中,第一层为输入层,第二层和第三层均为卷积层,第四层和第五层均为全连接层,最后一层是输出层;
步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;
步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。
2.根据权利要求1所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤一中,主从结构星群的特征为:
主从结构星群中卫星分为主星和从星,主星通过星间通讯链路与其他卫星快速通信,主星通过星间通讯链路收集从星状态,发布任务;从星通过星间通信链路反馈自身状态,接收任务;
主星接收任务集合为
Figure FDA0002737967070000011
其中M<Mmax,Mmax为主星一次可分配任务数的上限;其中,m1为待分配任务1,m2为待分配任务2,mM为待分配任务M,M为待分配任务数量;
所有任务存在时序关系,m1最先执行,mM最后执行;
所有任务要求在T时间内执行完毕,T被分为L个最小时间窗口T=T1∪T2∪…∪TL,每个最小时间窗口只能执行一个任务,而且每一任务都在最小时间窗口内执行完毕。
3.根据权利要求2所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤二中,深度强化学习多星任务自主分配模型的输入层为多星系统在当前任务集合下的状态矩阵集合。
4.根据权利要求3所述的基于深度强化学习的多星自主任务分配方法,其特征在于:多星系统在当前任务集合下的状态矩阵集合通过以下步骤得到:
(21)主星将任务发送给所有从星;
(22)从星计算所有任务在所有最小时间窗口的收益,组成收益矩阵;
(23)从星将收益矩阵反馈给主星,主星将收益矩阵重新组合得到每个任务对应的输入状态矩阵;
(24)根据每个任务对应的输入状态矩阵得到多星系统在当前任务集合下的状态矩阵集合X={B1,B2,…,BM}。
5.根据权利要求4所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤二中,卷积层和全连接层均由一组参数向量W=(w1,w2,…,wP)T表示;其中,w1为权值1,w2为权值2,wP为权值P。
6.根据权利要求5所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤二中,深度强化学习多星任务自主分配模型的输出层为二维收益矩阵,其中,二维收益矩阵为:
Figure FDA0002737967070000021
其中,qi,j表示将任务m1分配给卫星si的时间窗口Tj时的收益,i=1、2、…、N,j=1、2、…、L。
7.根据权利要求6所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤三中,利用地面计算机对第二步的深度强化学习多星任务自主分配模型进行训练包括如下步骤:
(31)利用地面计算系统得到最优任务分配方案和最优分配方案下的收益
Figure FDA0002737967070000031
其中,ωi为任务i的权重,s(i)为执行任务i的卫星,t(i)为执行任务i的时间窗口;
(32)如果二维收益矩阵Q的最大元素为qi,j,且|qi,j-bb|<ε,那么将任务集合
Figure FDA0002737967070000032
中的任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合删除,并令m1=m2,m2=m3,…,mM=mM-1;否则利用反向误差传播算法对参数向量W=(w1,w2,…,wP)T进行修正,使qi,j接近bb;其中,ε>0,ε为阈值;
(33)如果M≠0则返回步骤(31);否则转步骤(34);
(34)对参数向量W进行评价,如果满足要求则训练结束。
8.根据权利要求7所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤(34)中,对参数向量W进行评价包括如下步骤:
(341)预先选定K组待分配任务集合
Figure FDA0002737967070000033
(342)取待分配任务集合
Figure FDA0002737967070000034
(343)如果二维收益矩阵Q的最大元素为qi,j,且|qi,j-bb|≥ε,那么参数向量W不满足要求,评价结束;否则任务m1分配给卫星i的时间窗口Tj,同时将任务m1从任务集合
Figure FDA0002737967070000035
删除,并令m1=m2,m2=m3,…,mM=mM-1
(344)如果M≠0返回步骤(343),否则令K=K-1;
(345)如果K=0,那么W满足要求,评价结束。
9.根据权利要求7所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤四中,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配包括如下步骤:
(41)搜索二维收益矩阵Q的最大元素,如果最大元素为qi,j,那么将任务m1分配给卫星i的时间窗口Tj
(42)更新任务集合中m1=m2,…,mM-1=mM,M=M-1,如果M=0则分配结束,否则返回步骤(41)。
10.根据权利要求4所述的基于深度强化学习的多星自主任务分配方法,其特征在于:在步骤(22)中,卫星si的收益矩阵
Figure FDA0002737967070000041
如下:
Figure FDA0002737967070000042
其中,bi,k,l表示卫星i在时间窗口Tl执行任务mk所能获得的收益;Bi1=[bi,1,1,bi,1,2,…,bi,1,L]为卫星i执行任务m1的收益向量,Bi2=[bi,2,1,bi,2,2,…,bi,2,L]为卫星i执行任务m2的收益向量,BiM为卫星i执行任务mM的收益向量,k=1、2、…、M,l=1、2、…、L;
在步骤(23)中,任务mi的输入状态矩阵Bi如下:
Figure FDA0002737967070000043
其中,B1i=[b1,i,1,b1,i,2,…,b1,i,L]为卫星1执行任务mi的收益向量,B2i=[b2,i,1,b2,i,2,…,b2,i,L]为卫星2执行任务mi的收益向量,BNi=[bN,i,1,bN,i,2,…,bN,i,L]为卫星N执行任务mi的收益向量。
CN202011140091.0A 2020-10-22 2020-10-22 一种基于深度强化学习的多星自主任务分配方法 Active CN112270435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011140091.0A CN112270435B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的多星自主任务分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011140091.0A CN112270435B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的多星自主任务分配方法

Publications (2)

Publication Number Publication Date
CN112270435A true CN112270435A (zh) 2021-01-26
CN112270435B CN112270435B (zh) 2023-11-14

Family

ID=74341729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011140091.0A Active CN112270435B (zh) 2020-10-22 2020-10-22 一种基于深度强化学习的多星自主任务分配方法

Country Status (1)

Country Link
CN (1) CN112270435B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890596A (zh) * 2021-11-03 2022-01-04 军事科学院系统工程研究院网络信息研究所 基于深度强化学习的分布式星群动态组网方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894367A (zh) * 2010-05-26 2010-11-24 中国人民解放军国防科学技术大学 成像卫星观测调度的目标聚类方法
KR20190019733A (ko) * 2017-08-18 2019-02-27 한국전력공사 조상 장치 및 이의 제어 방법
CN110825510A (zh) * 2019-11-05 2020-02-21 中国人民解放军国防科技大学 任务驱动的多星协同任务分配方法及系统
CN111311074A (zh) * 2020-01-20 2020-06-19 中国人民解放军国防科技大学 面向应急任务的多星分布式协同重调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894367A (zh) * 2010-05-26 2010-11-24 中国人民解放军国防科学技术大学 成像卫星观测调度的目标聚类方法
KR20190019733A (ko) * 2017-08-18 2019-02-27 한국전력공사 조상 장치 및 이의 제어 방법
CN110825510A (zh) * 2019-11-05 2020-02-21 中国人民解放军国防科技大学 任务驱动的多星协同任务分配方法及系统
CN111311074A (zh) * 2020-01-20 2020-06-19 中国人民解放军国防科技大学 面向应急任务的多星分布式协同重调度方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890596A (zh) * 2021-11-03 2022-01-04 军事科学院系统工程研究院网络信息研究所 基于深度强化学习的分布式星群动态组网方法

Also Published As

Publication number Publication date
CN112270435B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN113128828B (zh) 一种基于多智能体强化学习的卫星观测分布式在线规划方法
CN111199360B (zh) 无人机任务分配规划方法
WO2019127946A1 (zh) 一种基于学习型遗传算法的多任务多资源滚动分配方法
CN108717572B (zh) 基于结构化神经网络的成像任务可调度性预测方法
CN109544998B (zh) 一种基于分布估计算法的航班时隙分配多目标优化方法
CN112766813A (zh) 一种空天协同观测复杂任务调度方法及系统
CN109901616B (zh) 一种异构无人机群分布式任务规划方法
CN107562066B (zh) 一种航天器多目标启发式排序任务规划方法
CN113132232B (zh) 一种能量路由优化方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN113051815A (zh) 一种基于独立指针网络的敏捷成像卫星任务规划方法
CN114035913B (zh) 一种卫星多目标重复观测任务规划方法及终端
CN113325875B (zh) 一种实现无人机数目最小化的无人机路径规划方法
CN112270435A (zh) 一种基于深度强化学习的多星自主任务分配方法
CN114003059A (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
CN115016537A (zh) 一种seda场景下异构无人机配置与任务规划联合优化方法
CN116362327A (zh) 一种模型训练方法、系统及电子设备
CN116610144A (zh) 基于扩展一致性包算法的无人机协同动态任务分配方法
CN109343554B (zh) 一种基于状态转换代价值的启发式航天器任务规划方法
CN114021914B (zh) 一种无人机集群飞防调度方法及装置
CN114091754B (zh) 一种多无人机移动基站协同部署及调度方法
CN112348361B (zh) 基于状态转移路径重构的启发式航天器任务规划方法
CN112073110B (zh) 流量需求下无人机协同中继网络快速生成方法和系统
CN112183777A (zh) 一种基于深度强化学习的复杂网络局部破坏控制方法
Wang et al. Multi-task cooperative assignment of two-stage heterogeneous multi-UAV based on improved CBBA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant