CN111950873B - 基于深度强化学习的卫星实时引导任务规划方法及系统 - Google Patents

基于深度强化学习的卫星实时引导任务规划方法及系统 Download PDF

Info

Publication number
CN111950873B
CN111950873B CN202010754302.3A CN202010754302A CN111950873B CN 111950873 B CN111950873 B CN 111950873B CN 202010754302 A CN202010754302 A CN 202010754302A CN 111950873 B CN111950873 B CN 111950873B
Authority
CN
China
Prior art keywords
satellite
time
target
task planning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010754302.3A
Other languages
English (en)
Other versions
CN111950873A (zh
Inventor
陈占胜
伍国威
崔本杰
曲耀斌
钱丰
杨勇
童庆为
曹岸杰
邓武东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Satellite Engineering
Original Assignee
Shanghai Institute of Satellite Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Satellite Engineering filed Critical Shanghai Institute of Satellite Engineering
Priority to CN202010754302.3A priority Critical patent/CN111950873B/zh
Publication of CN111950873A publication Critical patent/CN111950873A/zh
Application granted granted Critical
Publication of CN111950873B publication Critical patent/CN111950873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于深度强化学习的卫星实时引导任务规划方法及系统,包括:场景建立步骤:建立“时间‑姿态”二维化的卫星成像任务规划训练场景;提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。本发明采用将卫星轨道和目标经纬度进行“时间‑侧摆”二维化映射的方法,在不牺牲数据精度的前提下,降低强化学习环境状态空间的维度,可以在保留所有有效信息的前提下,提升智能体训练收敛的速度。

Description

基于深度强化学习的卫星实时引导任务规划方法及系统
技术领域
本发明涉及卫星任务规划领域,具体地,涉及一种基于深度强化学习的卫星实时引导任务规划方法及系统,尤其是一种用于遥感卫星实时引导任务规划深度强化学习训练的实现方法。
背景技术
当前遥感卫星领域存在着有限的观测资源和日益复杂化、即时化成像需求之间的矛盾,提高对观测资源的调度水平,可以使有限的观测资源更好地适应复杂高时效性的任务需求,这使得卫星任务规划成为了一个研究热点。
近年来,成像卫星领域开始兴起使用发现载荷和确认载荷配合进行目标发现及成像的实时引导成像体制,本发明面向此类常见的卫星对地实时发现目标并确认的场景,对地成像卫星正在向前飞行,部分潜在的目标分布在卫星过顶该区域前不可知,大范围的视场是卫星的目标发现视场,小范围视场为成像载荷的视场。仅发现目标不等于有效成像,只有将进入发现视场后的目标进行规划和成像,使散点被纳入可见光相机对地机动成像的安排并成功覆盖,才代表成像成功。这样的场景为卫星自主决策能力提出了较高要求,也为强化学习方法提供了实践的可能。
在强化学习中,智能体在一个设定的环境中获得环境的状态信息,并在此基础上采取动作,相应的动作会使智能体获得一定的反馈(奖励或惩罚),同时智能体所处环境会进入新的状态,在从此不断的反馈获得和状态变化中,智能体的策略和决策机制将逐渐向奖励最优化进化,最终学到完成相应任务的最优动作(最优策略),以上就是强化学习的过程。
常规的任务规划研究,是多约束条件下的寻优算法研究,随着在轨的卫星系统常建常新,规划问题的约束也会有改变,使用深度强化学习的方法,可以通过训练使智能体适应约束变化,提高规划表现,专利文献:张宇喆等,采用病毒进化遗传算法进行多星任务规划的搜索处理方法(CN101975946A),通过在遗传算法的基础上通过病毒干扰和删减进行进化解的传递,但其在解决问题前需要获得所有的输入条件。对比已公开方法:王冲,基于Agent的对地观测卫星分布式协同任务规划研究(博士论文,国防科技大学2011年),基于多智能体强化学习的思想迭代搜索协同规划学习策略,但其仍存在学习时间较长的情况。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度强化学习的卫星实时引导任务规划方法及系统。
根据本发明提供的一种基于深度强化学习的卫星实时引导任务规划方法,包括:
场景建立步骤:建立“时间-姿态”二维化的卫星成像任务规划训练场景;
提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;
对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;
强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。
优选地,场景建立步骤包括:
步骤S101:建立卫星任务规划训练环境;
场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);
步骤S102:目标分布的“时间-侧摆”二维化映射化;
解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解。
优选地,提取转化步骤包括:
步骤S201:将卫星成像任务规划过程转化为多阶段决策过程;
卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数
Figure BDA0002611037550000021
每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;
步骤S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角
Figure BDA0002611037550000031
的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1
步骤S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
步骤S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
步骤S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。
优选地,对接步骤包括:
步骤S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;
步骤S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。
优选地,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。
根据本发明提供的一种基于深度强化学习的卫星实时引导任务规划系统,包括:
场景建立模块:建立“时间-姿态”二维化的卫星成像任务规划训练场景;
提取转化模块:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;
对接模块:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;
强化学习模块:利用深度强化学习对卫星成像任务规划过程进行学习。
优选地,场景建立模块包括:
模块S101:建立卫星任务规划训练环境;
场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);
模块S102:目标分布的“时间-侧摆”二维化映射化;
解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解。
优选地,提取转化模块包括:
模块S201:将卫星成像任务规划过程转化为多阶段决策过程;
卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数
Figure BDA0002611037550000041
每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;
模块S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角
Figure BDA0002611037550000042
的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1
模块S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
模块S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
模块S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。
优选地,对接模块包括:
模块S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;
模块S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。
优选地,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明采用将卫星轨道和目标经纬度进行“时间-侧摆”二维化映射的方法,在不牺牲数据精度的前提下,降低强化学习环境状态空间的维度,可以在保留所有有效信息的前提下,提升智能体训练收敛的速度;
(2)设置了目标网络,并在其中使用梯度下降法更新值函数,将值函数更新作为一次监督学习的过程,可以解决传统时间差分算法中的TD偏差;
(3)通过实验验证,本发明所构建的智能体,在同一环境下,通过强化学习训练,其方案输出表现逐渐提升,最终超越传统算法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是单星实时引导成像任务规划实际工作环境示意图;
图2是“时间-侧摆”二维化映射后的单星任务规划场景示意图;
图3是卫星成像任务规划强化学习框架;
图4是本次强化学习训练采用的仿真环境示意图;
图5是算例1模型训练收益曲线。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明描述了一种基于深度强化学习的遥感卫星实时引导任务规划方法,包括:
步骤S1:建立“时间-姿态”二维化的卫星成像任务规划训练场景,步骤S1具体包括以下步骤:
步骤S101:建立卫星任务规划训练环境;
具体地,环境内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);图1是单星实时引导成像任务规划实际工作环境示意图;图中即为单个的对地成像卫星正在向前飞行,散点即为潜在的点目标分布,圆锥形的视场是卫星的发现视场,卫星对地的窄条为可见光相机的视场。仅仅是发现目标不等于有效成像,只有将进入发现视场后的目标进行自主任务规划和引导成像,使散点被纳入可见光相机对地机动成像的安排并成功覆盖,才代表成像成功。
步骤S102:目标分布的“时间-侧摆”二维化映射;
具体地,解出卫星对特定目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心准确指向地面目标的解。即相对于初始时刻T0后卫星对目标的过顶时刻ti与该时刻载荷视场中心准确指向地面目标的侧摆角
Figure BDA0002611037550000061
此后,卫星携带发现载荷可实时引导星上摆镜或姿态机动指向目标推扫成像(一维机动),将卫星轨道、地球自转、目标分布等时空参数转换为卫星对目标可见性结果
Figure BDA0002611037550000062
整个过程可在二维坐标中描述,该场景任务规划模型转化为卫星沿纵轴运动,调整视场捕获目标,使动态总收益最大,如附图2。
步骤S2:智能体训练要素状态、动作、代价、奖励、结束条件的提取与转化;
步骤S2具体包括以下步骤:
步骤S201:将任务规划过程转化为多阶段决策过程;
整个任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数
Figure BDA0002611037550000063
每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策,k、i∈[1,N]。
Figure BDA0002611037550000064
Figure BDA0002611037550000065
其中,N为规划过程的阶段数,Δt为时间间隔,T为整个任务规划过程的时长,Tk为本阶段所有的目标信息,fi为目标i的有效性,ti为目标i的成像时刻,
Figure BDA0002611037550000066
为目标i的成像侧摆角,pi为目标i的价值。
步骤S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角
Figure BDA0002611037550000071
的转移,为离散化智能体的动作空间,加快收敛速度,根据载荷的幅宽,将侧摆范围进行划分,可以将-45°到45°的侧摆范围以5°到15°的颗粒度划分,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1
sk+1=ak(sk)
步骤S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
Figure BDA0002611037550000073
ω为卫星侧摆的角速度,Δγ为侧摆的角度量,tR为偏流角修正时间。
具体到阶段化的执行步骤,需要将时间长度转化为执行阶段,代价阶段数nk为限制时长相对于阶段单位时间的倍数,向上取整得到。
Figure BDA0002611037550000074
步骤S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
步骤S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到;
具体地,本实施例中,为了使智能体可以学习卫星任务规划方法,需要使用强化学习的主框架为智能体提供规划数据。环境及状态空间的确定会直接影响到智能体最终的学习效果,所以其可靠性在本实施例中尤为重要。可靠的训练环境可以由卫星的当前状态及目标的分布信息描述,再使用强化学习的框架进行训练。强化学习是智能体在一个未知训练环境中自主优化其行为的一种途径,该过程符合马尔科夫决策过程。强化学习中,状态到动作的映射称为策略,在学习的过程中,智能体逐步训练出当前设定下获得最大化累计奖赏的策略:
Figure BDA0002611037550000072
式中:μ*为最优的策略;β为折扣率;Rk为k阶段的即时奖励。
利用强化学习方法进行卫星任务规划训练,首先确定状态空间与动作空间,总结步骤S201中相关的特征,可以使用5个特征向量表征状态空间。
Figure BDA0002611037550000081
式中:fT为当前时刻所有视场内目标的有效性,t为当前时刻所有视场内目标的过顶时刻,
Figure BDA0002611037550000082
为当前时刻所有视场内目标的成像侧摆角,p为当前时刻所有视场内目标的成像收益,fS为当前时刻卫星成像载荷的有效性,γ为当前时刻卫星的侧摆角。
动作空间的定义与步骤S202中进行的侧摆范围划分有直接关系,动作空间可以定义为{position1,position2,position3…positionM},M为将总侧摆范围划分出的机动范围个数。
步骤S3:使用深度Q-Learning(Deep Q-Learning,DQN)算法与训练环境进行对接;
步骤S3具体包括以下步骤:
步骤S301:使用深度Q-Learning(Deep Q-Learning,DQN)算法与训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置了目标网络,建立好的神经网络结构用行为值函数Q(s,a;θ)表示,s、a为已定义好的状态及动作,θ为卷积神经网络的参数,卫星任务规划强化学习的更新过程,最终是通过更新θ达到的;
步骤S302:将建立起包括状态、动作、动作代价、奖励的训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数;
Figure BDA0002611037550000083
其中α和β为单次训练的可调参数。
具体地,本实施例中,为了提高深度强化学习的效率,本实施例可以改变DQN网络结构的层数,以尝试不同的训练方式。训练前建立经验回放存储空间,经验用字母D表示,经验包括状态转移起点终点及过程中发生的动作与收益,设定空间内部可存储的记忆条数为M,训练开始时使用初始参数θ更新初始值函数Q(s,a;θ),如为首次训练则θ随机生成,第二次以后的训练参数θ继承上一次的训练结果,计算智能体的动作行为值Q,一次强化学习训练分为多个阶段:
阶段I:初始化事件的第一个状态s1,通过“时间-姿态”二维化参数转化完成状态对应的特征输入预处理;
阶段II:循环推进一次训练过程的每一个阶段,智能体在每个阶段都进行一次决策,在动作空间{position1,position2,position3…positionM}中通过概率ε随机一个动作ak,若随机的动作不在动作空间内,则用贪婪策略计算各个动作对应的值函数,并选择使值函数最大的动作,用ak=argmaxaQ表示;
阶段III:执行动作ak,观测回报Rk以及图像xk+1,完成一次状态转移;
阶段IV:智能体每进行一次状态转移,则获得一条经验Dk=(sk,ak,Rk,sk+1),将该次转移存储在回放经验D中;
阶段V:利用经验回放进行训练,从所有经验中随机采样一条Di,并计算其TD目标yi,再利用梯度下降法的方式更新值函数,即步骤S302;
Figure BDA0002611037550000091
Figure BDA0002611037550000092
其中α和β为单次训练的可调参数。
阶段VI:按周期将计算的网络参数θ更新为整个值函数的全局参数,带入下次训练;
步骤S4:利用深度强化学习对卫星任务规划过程进行学习,进而提高成像收益。
上述技术方案中,步骤S4具体包括以下步骤:
步骤S401:开始强化学习训练;
步骤S402:检测到所有训练步骤结束,记录整个训练过程的收益总和,重置训练环境;
步骤S403:重复步骤训练过程指定训练次数,结束训练过程。
具体地,算例的主要实验变量为视野范围、目标数量、侧摆动作空间、动作代价以及DQN网络结构:
视野范围:决定智能体的状态空间,取值范围为50s~180s;
目标数量:目标数量与规划复杂度成正比,取值范围为200~1800;
侧摆动作空间:决定智能体的动作空间,取值范围为5~10;
动作代价:即侧摆动作所对应的收益惩罚系数,取值范围为0.1~0.5;
DQN网络结构:本文算例采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。
图4为仿真环境示意图,横轴表示卫星侧摆动作空间,纵轴表示视野范围,各种图形表示任务点,以形状或颜色标识空间,以面积大小标识任务权重。
作为对照,采用常用的贪婪算法与强化学习方法进行对照,贪婪算法是指在对问题求解时总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,它所做出的是在某种规则策略上的局部最优解。
共使用9各算例与贪婪算法进行对照,得到结果如表1。
表1深度强化学习与贪婪算法对照试验结果
Figure BDA0002611037550000101
图5是算例1的模型训练收益曲线,蓝色线为贪婪算法的收益曲线,橙色线DQN强化学习的收益曲线,经多次训练强化学习智能体超过贪婪算法。
相比贪婪算法,DQN在不同视野范围、目标数量、动作空间、动作代价、网络结构的参数范围下,均可不同程度的获得更高的收益,证明了基于DQN的卫星任务规划方法的有效性。在各项变量中,动作代价对贪婪算法有显著影响,动作代价的增加,会使贪婪算法更易陷入局部最优,而DQN通过神经网络建立全局状态空间和动作间的Q值关系,对动作代价的影响更具鲁棒性。
本发明还提供一种基于深度强化学习的卫星实时引导任务规划系统,包括:
场景建立模块:建立“时间-姿态”二维化的卫星成像任务规划训练场景。
提取转化模块:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化。
对接模块:使用深度学习算法与所述卫星成像任务规划训练场景进行对接。
强化学习模块:利用深度强化学习对卫星成像任务规划过程进行学习。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种基于深度强化学习的卫星实时引导任务规划方法,其特征在于,包括:
场景建立步骤:建立“时间-姿态”二维化的卫星成像任务规划训练场景;
提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;
对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;
强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习;
场景建立步骤包括:
步骤S101:建立卫星任务规划训练环境;
场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);
步骤S102:目标分布的“时间-侧摆”二维化映射化;
解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解;
提取转化步骤包括:
步骤S201:将卫星成像任务规划过程转化为多阶段决策过程;
卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数
Figure FDA0003720002190000011
每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;
步骤S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角
Figure FDA0003720002190000012
的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1
步骤S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
步骤S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
步骤S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。
2.根据权利要求1所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,对接步骤包括:
步骤S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;
步骤S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。
3.根据权利要求2所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。
4.一种基于深度强化学习的卫星实时引导任务规划系统,其特征在于,包括:
场景建立模块:建立“时间-姿态”二维化的卫星成像任务规划训练场景;
提取转化模块:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;
对接模块:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;
强化学习模块:利用深度强化学习对卫星成像任务规划过程进行学习;
场景建立模块包括:
模块S101:建立卫星任务规划训练环境;
场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);
模块S102:目标分布的“时间-侧摆”二维化映射化;
解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解;
提取转化模块包括:
模块S201:将卫星成像任务规划过程转化为多阶段决策过程;
卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数
Figure FDA0003720002190000031
每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;
模块S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角
Figure FDA0003720002190000032
的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1
模块S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
模块S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
模块S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。
5.根据权利要求4所述的基于深度强化学习的卫星实时引导任务规划系统,其特征在于,对接模块包括:
模块S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;
模块S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。
6.根据权利要求5所述的基于深度强化学习的卫星实时引导任务规划系统,其特征在于,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。
CN202010754302.3A 2020-07-30 2020-07-30 基于深度强化学习的卫星实时引导任务规划方法及系统 Active CN111950873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010754302.3A CN111950873B (zh) 2020-07-30 2020-07-30 基于深度强化学习的卫星实时引导任务规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010754302.3A CN111950873B (zh) 2020-07-30 2020-07-30 基于深度强化学习的卫星实时引导任务规划方法及系统

Publications (2)

Publication Number Publication Date
CN111950873A CN111950873A (zh) 2020-11-17
CN111950873B true CN111950873B (zh) 2022-11-15

Family

ID=73338795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010754302.3A Active CN111950873B (zh) 2020-07-30 2020-07-30 基于深度强化学习的卫星实时引导任务规划方法及系统

Country Status (1)

Country Link
CN (1) CN111950873B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507614B (zh) * 2020-12-01 2021-09-07 广东电网有限责任公司中山供电局 一种分布式电源高渗透率地区电网综合优化方法
CN113514866B (zh) * 2021-04-19 2023-04-21 中国科学院微小卫星创新研究院 在轨伽马射线暴观测方法
CN113342054A (zh) * 2021-06-29 2021-09-03 哈尔滨工业大学 利用深度强化学习的可变构航天器在轨自变构规划方法
CN114040447A (zh) * 2021-10-19 2022-02-11 中国电子科技集团公司第五十四研究所 一种面向大速率星地链路通信业务智能流量负载均衡方法
CN114676471B (zh) * 2022-04-21 2022-09-13 北京航天飞行控制中心 火星车的任务规划模型建立方法、装置、电子设备及介质
CN115021799B (zh) * 2022-07-11 2023-03-10 北京理工大学 一种基于多智能体协同的低轨卫星切换方法
CN114978295B (zh) * 2022-07-29 2022-10-21 中国人民解放军战略支援部队航天工程大学 一种面向卫星互联网的跨层抗干扰方法和系统
CN116307241B (zh) * 2023-04-04 2024-01-05 暨南大学 基于带约束多智能体强化学习的分布式作业车间调度方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032245A1 (en) * 2015-07-01 2017-02-02 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Providing Reinforcement Learning in a Deep Learning System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110958680A (zh) * 2019-12-09 2020-04-03 长江师范学院 面向能量效率的无人机群多智能体深度强化学习优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
在轨实时引导多星成像任务规划方法研究;伍国威;《航天器工程》;20191031;正文第1节,图2 *
基于深度强化学习算法的卫星姿态控制算法研究;许瀚;《中国优秀博硕士学位论文全文数据库(硕士) 工程科技Ⅱ辑》;20200215;正文第4章 *

Also Published As

Publication number Publication date
CN111950873A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950873B (zh) 基于深度强化学习的卫星实时引导任务规划方法及系统
CN109933086B (zh) 基于深度q学习的无人机环境感知与自主避障方法
Liu et al. Reinforcement learning based two-level control framework of UAV swarm for cooperative persistent surveillance in an unknown urban area
CN111982137B (zh) 生成路线规划模型的方法、装置、设备和存储介质
EP3568810A1 (en) Action selection for reinforcement learning using neural networks
CN110991972A (zh) 一种基于多智能体强化学习的货物运输系统
US20220198793A1 (en) Target state estimation method and apparatus, and unmanned aerial vehicle
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
US20210325891A1 (en) Graph construction and execution ml techniques
KR20160048530A (ko) 자율 이동 차량의 경로 생성 방법 및 경로 생성 장치
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN112379681A (zh) 无人机避障飞行方法、装置及无人机
CN112378397A (zh) 无人机跟踪目标的方法、装置及无人机
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
Fu et al. Memory-enhanced deep reinforcement learning for UAV navigation in 3D environment
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112380933B (zh) 无人机识别目标的方法、装置及无人机
Montella et al. Reinforcement learning for autonomous dynamic soaring in shear winds
Kushleyev et al. Planning for landing site selection in the aerial supply delivery
Lehman et al. Addressing undesirable emergent behavior in deep reinforcement learning uas ground target tracking
Yue et al. A new search scheme using multi‐bee‐colony elite learning method for unmanned aerial vehicles in unknown environments
CN115542947A (zh) 一种四旋翼无人机的自主导航方法及无人机装置
CN115525062A (zh) 面向返回式航天器测量任务无人机实时在线航迹规划方法
Janji et al. Neural Networks for Path Planning
Le Floch et al. Trajectory planning for autonomous parafoils in complex terrain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Zhansheng

Inventor after: Wu Guowei

Inventor after: Cui Benjie

Inventor after: Qu Yaobin

Inventor after: Qian Feng

Inventor after: Yang Yong

Inventor after: Tong Qingwei

Inventor after: Cao Anjie

Inventor after: Deng Wudong

Inventor before: Wu Guowei

Inventor before: Cui Benjie

Inventor before: Qu Yaobin

Inventor before: Qian Feng

Inventor before: Yang Yong

Inventor before: Tong Qingwei

Inventor before: Cao Anjie

Inventor before: Deng Wudong

GR01 Patent grant
GR01 Patent grant