CN115320890A - 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 - Google Patents

一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 Download PDF

Info

Publication number
CN115320890A
CN115320890A CN202211000653.0A CN202211000653A CN115320890A CN 115320890 A CN115320890 A CN 115320890A CN 202211000653 A CN202211000653 A CN 202211000653A CN 115320890 A CN115320890 A CN 115320890A
Authority
CN
China
Prior art keywords
pursuit
spacecraft
game
escape
spacecrafts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211000653.0A
Other languages
English (en)
Inventor
赵力冉
党朝辉
唐生勇
卫国宁
许旭升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211000653.0A priority Critical patent/CN115320890A/zh
Publication of CN115320890A publication Critical patent/CN115320890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/242Orbits and trajectories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Remote Sensing (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Hardware Design (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

本发明涉及航空航天技术领域,特别是涉及在空间轨道博弈的应用,公开了一种基于PRD‑MADDPG算法的脉冲式轨道追逃博弈方法,通过脉冲式轨道追逃博弈问题建模,并针对脉冲式轨道追逃博弈中双方航天器的任务目标,设计脉冲式轨道追逃博弈双方的奖励函数,基于所设计的博弈模型和奖励函数,设计预测奖励检测训练框架,基于所设计的预测奖励检测训练框架,结合MADDPG算法完成追逃博弈智能控制策略网络训练,航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现航天器脉冲式轨道追逃博弈的智能控制。

Description

一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法
技术领域
本发明涉及航空航天技术领域,特别是涉及在空间轨道博弈的应用,具体为一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法。
背景技术
随着航天技术的不断发展,越来越多的国家和机构开展、参与到空间活动中,仅2021年全球就有40个国家、地区进行了共144次航天发射活动,合计将1816个航天器送入太空。面对空间中有限的轨道资源,不断增加的航天器也意味着空间中的轨道博弈日益激烈。事实上关于空间轨道博弈方面的研究也持续得到了学者的广泛关注,其中航天器轨道追逃博弈(Orbital Pursuit-Evasion Game,OPEG)作为最常见的轨道博弈类型更是航天领域的一大研究热点,自20世纪90年代以来大量学者对其开展了研究。
微分博弈理论在无人机和导弹的追逃博弈问题中有着广泛的研究和应用,但是对于航天器的OPEG问题,轨道动力学的约束导致传统方法的求解过程复杂、计算量增大。除此之外,因为实际航天工程任务中,连续喷力发动机的机动能力很小,目前还是以脉冲式轨道机动为主流,而微分博弈适用于连续控制系统,导致目前针对脉冲式机动的OPEG问题研究很少,因此需要寻找更为合适、高效、智能的方法。多智能体深度确定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法可以解决多智能体间的竞争、协同以及协同博弈场景,近几年MADDPG算法已经在多无人机的协同任务决策、路径规划、协同围捕等任务中有所应用。但是在航天任务中,不同于其他任务场景,空间轨道追逃博弈问题由于存在轨道动力学、航天器自身机动方式及能力等约束,需要针对OPEG的这些特性提出有针对性的算法模型和训练环境构造方法,但是目前针对空间中航天器追逃问题的现有研究中,绝大多数的研究都是假设航天器的机动方式是基于连续控制的,同时也很少考虑到航天器的控制约束,因此,针对空间脉冲式轨道追逃博弈问题,目前还是无法实现有效的智能控制。
发明内容
针对现有技术中存在的空间脉冲式轨道追逃博弈问题,本发明提供一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,有效的实现对航天器脉冲式轨道追逃博弈控制。
本发明是通过以下技术方案来实现:
一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,包括如下步骤:
S1、对脉冲式轨道追逃博弈问题建模得到博弈模型,并根据脉冲式轨道追逃博弈中双方航天器的任务目标得到脉冲式轨道追逃博弈双方奖励函数;
S2、根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框架;
S3、将预测奖励检测训练框架结合MADDPG算法训练追逃博弈智能控制策略网络;
S4、追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令,完成航天器脉冲式轨道追逃博弈控制。
优选的,脉冲式轨道追逃博弈问题建模的过程如下:
设计脉冲式轨道追逃博弈场景,并根据航天器间的相对距离相对于轨道半径选择两个航天器附近的圆轨道作为参考轨道,进行CW方程计算。
优选的,在CW方程下建立航天器脉冲式轨道机动模型,CW方程计算公式如下:
Figure BDA0003807287070000021
φ(t,t0)=[φ1(Δt) φ2(Δt)];
φv(t,ti)=φ2(t-ti)=φ2(Δt);
Δvi=[Δvi,x Δvi,y Δvi,z]T
Figure BDA0003807287070000031
其中,φ(t,t0)为根据C-W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵;Δvi表示航天器i的速度增量向量;φv(t,ti)表示从ti时刻到t时刻航天器速度增量部分的状态转移矩阵;N表示航天器总的脉冲机动次数;φ1(Δt)表示;φ2(Δt)表示;Δvi,x表示航天器i在x方向的速度增量;Δvi,y表示航天器i在y方向的速度增量;Δvi,z表示航天器i在z方向的速度增量;
Figure BDA0003807287070000032
μ为引力常数,a为参考轨道的轨道半径;Δt表示脉冲之间的时间间隔。
优选的,脉冲式轨道追逃博弈双方奖励包括距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项。
进一步的,脉冲式轨道追逃博弈双方奖励函数为距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项的加权和。
优选的,预测奖励检测训练框架流程如下:
S2.1、在ti时刻,双方航天器分别根据环境反馈的状态信息,基于自身当前的策略网络Actor进行决策,输出航天器所采取的脉冲控制,并将施加脉冲控制前的追逃双方航天器的状态改变为施加脉冲控制后追逃双方航天器的状态;
S2.2、定义脉冲控制施加的时刻ti为决策点,两个决策点ti到ti+1之间每隔ΔTd时刻设立一个检测点,共设置σ个检测点,定义
Figure BDA0003807287070000041
为决策点[ti,ti+1]之间第m个检测点,则m∈[1,2…,σ],σ的大小根据自然转移时间的长短、航天器的机动能力强弱、轨道转移范围的大小进行设计;
S2.3、根据CW方程,通过ti时刻下施加脉冲控制前后的追逃双方航天器的状态,计算得到ti时刻决策点后第m个检测点
Figure BDA0003807287070000042
的状态
Figure BDA0003807287070000043
Figure BDA0003807287070000044
S2.4、根据脉冲式轨道追逃博弈双方奖励函数结合预测检测点的状态计算在检测点的即时奖励,并计算双方航天器的累计预测奖励;
S2.5、根据预测检测点的状态判断追逃任务是否终止,若追逃任务终止则直接将当前环境信息、双方的累计预测奖励和任务终止信号存入经验池,该次任务过程结束;若追逃任务没有终止,则判断该检测点是否为最后一个检测点,若该检测点是最后一个检测点,则将当前环境信息、双方的累计预测奖励与任务继续的信号传递给各航天器的策略网络进行下一次决策,若该检测点不是最后一个检测点,则进入下一个检测点,重复执行S2.3至S2.5。
优选的,追逃博弈智能控制策略网络的训练过程如下:
S3.1,初始化追逃双方航天器的策略网络Actor与评价网咯Critic网络的参数与航天器的状态空间;
S3.2,双方航天器按照所设计的预测检测奖励训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;
S3.3,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数;
S3.4,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。
优选的,通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络Actor,航天器以自身对环境的观测信息作为策略网络Actor的输入,输出为航天器所要采取的控制指令。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供了一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,通过脉冲式轨道追逃博弈问题建模,并针对脉冲式轨道追逃博弈中双方航天器的任务目标,设计脉冲式轨道追逃博弈双方的奖励函数,基于所设计的博弈模型和奖励函数,设计预测奖励检测训练框架,基于所设计的预测奖励检测训练框架,结合MADDPG算法完成追逃博弈智能控制策略网络训练,航天器利用训练好的策略网络,根据自身对环境的观测信息输出控制指令,实现航天器脉冲式轨道追逃博弈的智能控制。本发明充分结合轨道动力学约束以及航天器运动特点,建立了脉冲式轨道追逃博弈模型,并成功结合多智能体强化学习理论与航天器运动特点设计了预测奖励检测多智能体深度确定性策略梯度算法(PRD-MADDPG)解决了考虑轨道动力学、机动方式及能力、燃料消耗等约束条件下的脉冲式轨道追逃博弈问题。这在航天器空间轨道追逃博弈方面具有重要价值。
附图说明
图1为本发明中脉冲式轨道追逃博弈方法流程图;
图2为本发明中LVLH与ECI坐标系示意图;
图3为本发明中空间脉冲式轨道追逃博弈过程示意图;
图4为本发明中基于预测奖励检测的多智能体深度强化学习训练框架;
图5为本发明中追击航天器的奖励随训练次数变化图;
图6为本发明中逃跑航天器的奖励随训练次数变化图;
图7为本发明中追击成功率(每一千次)随训练次数变化图;
图8为本发明中追击航天器与逃跑航天器在LVLH坐标系中的追逃轨迹图;
图9为本发明中相对距离随任务时间的变化图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
本发明提供一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,有效的实现对航天器脉冲式轨道追逃博弈控制。
具体的,该脉冲式轨道追逃博弈方法,包括如下步骤:
S1、对脉冲式轨道追逃博弈问题建模得到博弈模型,并根据脉冲式轨道追逃博弈中双方航天器的任务目标得到脉冲式轨道追逃博弈双方奖励函数;
具体的,航天器脉冲式轨道机动模型:
空间轨道追逃博弈属于一种航天器间特殊的相对运动,而且追逃双方间距离相对于轨道半径为小量,因此在CW方程下建立航天器脉冲式轨道机动模型。由于与轨道转移时间相比脉冲式机动施加控制的时间很短,因此一般认为脉冲控制是在机动点瞬时获得一个速度增量,在脉冲机动点之间的运动过程为航天器的自然轨道漂移,可以建立航天器脉冲式机动的控制模型,公式如下:
Figure BDA0003807287070000061
φ(t,t0)=[φ1(Δt) φ2(Δt)];
φv(t,ti)=φ2(t-ti)=φ2(Δt);
Δvi=[Δvi,x Δvi,y]T
Figure BDA0003807287070000071
其中,φ(t,t0)为根据C-W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵;;Δvi表示航天器i的速度增量向量;φv(t,ti)表示从ti时刻到t时刻航天器速度增量部分的状态转移矩阵;N表示航天器总的脉冲机动次数;φ1(Δt)表示;φ2(Δt)表示;Δvi,x表示航天器i在x方向的速度增量;Δvi,y表示航天器i在y方向的速度增量;
Figure BDA0003807287070000072
μ为引力常数,a为参考轨道的轨道半径;Δt表示脉冲之间的时间间隔。
脉冲式轨道追逃博弈场景设计:
在脉冲式轨道追逃博弈场景中,航天器间的相对距离相对于轨道半径而言通常比较近,可以选择两个航天器附近的圆轨道作为参考轨道,满足CW方程条件。在本专利研究的脉冲式轨道追逃博弈问题中,记博弈参与者集合为N={P,E},追逃双方在LVLH坐标系下t时刻的运动状态分别为:
Figure BDA0003807287070000073
Figure BDA0003807287070000074
其中
Figure BDA0003807287070000075
分别表示t时刻追击航天器在x,y方向上的位置和速度;
Figure BDA0003807287070000076
分别表示t时刻逃跑航天器在x,y方向上的位置和速度;记追逃航天器在t时刻施加脉冲控制获得的速度增量分别为
Figure BDA0003807287070000077
Figure BDA0003807287070000078
其中
Figure BDA0003807287070000081
分别表示t时刻追击航天器在x,y三个方向上的速度增量;
Figure BDA0003807287070000082
分别表示t时刻逃跑航天器在x,y三个方向上的速度增量;。考虑到实际工程任务中航天器两次脉冲控制之间需要有一段时间间隔Δt,而在生存型追逃博弈中双方会尽最大能力进行控制,因此如图2所示,假设追逃双方的脉冲时间间隔相同,且双方每隔Δt时间间隔后会同时实施一次脉冲控制
Figure BDA0003807287070000083
Figure BDA0003807287070000084
其中ti表示双方施加第i次脉冲控制的时刻,i=1,2…n。除此之外结合实际的工程背景,还需要考虑航天器机动能力有限,即航天器单次脉冲控制获得的速度增量存在上限约束,定义追逃双方的单次速度增量上限分别为
Figure BDA0003807287070000085
Figure BDA0003807287070000086
Figure BDA0003807287070000087
满足
Figure BDA0003807287070000088
其中,
Figure BDA0003807287070000089
分别表示ti时刻追击航天器在x,y方向上速度增量的绝对值;
Figure BDA00038072870700000810
分别表示ti时刻逃跑航天器在x,y方向上速度增量的绝对值;
在航天器追逃博弈中,追方航天器的目标是以最短时间追上目标,而逃逸航天器的目标是尽可能的远离追方航天器,避免被捕获或者最大化自身的生存时间,因此航天器追逃博弈中双方的目标可以用以下式子描述:
Figure BDA00038072870700000811
Figure BDA00038072870700000812
式中Tc为追方航天器成功追上逃逸航天器所需的时间,即追逐时间,上式表示追方航天器的目标是找到自身能够使追逐时间最短的脉冲控制序列
Figure BDA00038072870700000813
与之相反逃方航天器的目标是找到自身能够最大化追逐时间的脉冲控制序列
Figure BDA00038072870700000814
当追逃双方航天器的距离首次满足下式关系则认定追方任务成功:
||rE-rP||≤Δrmax (5)
式中rP=[xP,yP,zP]为追方航天器在LVLH中的坐标,rE=[xE,yE,zE]为逃跑航天器位置坐标,Δrmax为判定追击任务成功的最大相对距离。任务失败的判定条件为追逐时间超出任务设定的最大时间,即当以下条件成立则判定任务失败:
Figure BDA0003807287070000091
其中rP(t)表示t时刻追击航天器的位置坐标;rE(t)表示t时刻逃跑航天器的位置坐标,||rP(t)-rE(t)||表示t时刻追击航天器和逃跑航天器间的距离。
具体的,脉冲式轨道追逃博弈双方奖励包括距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项。
其中,距离引导项rL
定义在t时刻双方航天器间的相对距离为ΔL(t),ΔL=||rP(t)-rE(t)||,追方航天器的目标是缩短相对距离,而逃方与之相反,设计追逃双方的距离引导奖励如下:
Figure BDA0003807287070000092
Figure BDA0003807287070000093
式中αl为距离奖励系数,用于将距离奖励控制在合理的范围内。
时间奖励项rt
由于追逃博弈任务中追方航天器需要尽快追上目标,而逃方的目的是尽可能增大自身的生存时间,因此设计时间奖励项如下:
Figure BDA0003807287070000094
Figure BDA0003807287070000095
式中ρ为一个正常数,代表时间奖励值。对于追方航天器而言,只要追击任务没有结束,每个监测点上都会获得一个固定的负奖励回报-ρ,而对于逃方则相反,每个检测点都会获得一个正奖励回报。
燃料消耗奖励项rΔv
双方航天器还需要考虑在完成自身目标的前提下尽可能的减小自身的燃料消耗,因此在奖励回报函数中设计双方的燃料消耗奖励项如下:
Figure BDA0003807287070000101
Figure BDA0003807287070000102
式中αΔv为燃料消耗奖励系数,通过在航天器每次施加脉冲机动的时刻添加负奖励回报达到使航天器尽可能的减小燃料消耗的目的。
结果奖励项rdone
该项属于稀疏奖励类型,在航天器的追逃博弈任务场景中,不同的任务结果双方航天器会对应着不同的奖励回报,在本文的场景中有三种任务终止的条件:a.追击成功;b.超过最大任务时长。接下来给出追逃双方的结果奖励项表达式:
Figure BDA0003807287070000103
Figure BDA0003807287070000104
式中
Figure BDA0003807287070000105
均为正常数,代表不同结果下追逃双方航天器的结果奖励值,系数的正负代表了奖励的正负,正奖励回报代表对于该结果的激励作用,而负奖励回报代表对该结果的惩罚。
奖励函数设计
综合上述四种类型的奖励项,航天器在t时刻的奖励函数就是这四项的加权和,公式如下:
Figure BDA0003807287070000111
Figure BDA0003807287070000112
其中
Figure BDA0003807287070000113
分别为追逃双方航天器的回报奖励加权系数,满足
Figure BDA0003807287070000114
可以通过调整加权系数更改双方航天器各自在任务中的关注重点。
S2、根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框架;
具体的,预测奖励检测训练框架流程如下:
如图3和图4所示,接下来以第i次脉冲控制到第i+1次脉冲为例讲解该训练框架的流程:
S2.1,状态改变
首先在ti时刻,双方航天器分别根据环境反馈的状态信息,基于自身当前的策略网络Actor进行决策,输出航天器所采取的脉冲控制
Figure BDA0003807287070000115
然后追逃双方航天器的状态分别由
Figure BDA0003807287070000116
变为
Figure BDA0003807287070000117
其中
Figure BDA0003807287070000118
Figure BDA0003807287070000119
分别表示在ti时刻施加脉冲控制前后的状态,即
Figure BDA00038072870700001110
下标P和E分别表示追击方和逃跑方。
S2.2,设置检测点
定义脉冲控制施加的时刻ti为决策点,两个决策点ti到ti+1之间每隔ΔTd时刻设立一个检测点,共设置σ个检测点,定义
Figure BDA00038072870700001111
为决策点[ti,ti+1]之间第m个检测点,则m∈[1,2…,σ],σ的大小需要考虑自然转移时间的长短、航天器的机动能力强弱、轨道转移范围的大小等因素进行设计。
S2.3,预测状态
根据CW方程的解析解,只需要知道ti时刻的状态
Figure BDA00038072870700001112
就可以计算得到ti时刻决策点后第m个检测点
Figure BDA0003807287070000121
的状态
Figure BDA0003807287070000122
Figure BDA0003807287070000123
其中,
Figure BDA0003807287070000124
分别表示第m个检测点
Figure BDA0003807287070000125
时追击和逃跑航天器的状态,
Figure BDA0003807287070000126
表示航天器从ti时刻到
Figure BDA0003807287070000127
时刻的状态转移矩阵,
Figure BDA0003807287070000128
分别表示ti时刻追击和逃跑航天器施加完速度增量后的状态。
S2.4,计算累计奖励
首先分别根据双方航天器的即时奖励公式(15)、(16)结合预测检测点的状态计算在检测点的即时奖励
Figure BDA0003807287070000129
然后给出双方航天器的累计预测奖励
Figure BDA00038072870700001210
计算公式如下:
Figure BDA00038072870700001211
其中,
Figure BDA00038072870700001212
分别表示
Figure BDA00038072870700001213
时刻追击和逃跑航天器的累计预测奖励,γ表示奖励折扣因子,
Figure BDA00038072870700001214
Figure BDA00038072870700001215
分别表示
Figure BDA00038072870700001216
时刻追击和逃跑航天器的即时奖励。
S2.5,判定任务是否终止
根据预测状态
Figure BDA00038072870700001217
判断追逃任务是否终止,如果终止则直接将当前环境信息、双方的累计预测奖励和任务终止信号存入经验池,该次任务过程结束。如果任务没有终止,则判断该检测点是否为最后一个检测点:如果是则将当前环境信息、双方的累计预测奖励与任务继续的信号传递给各航天器的策略网络进行下一次决策;如果不是则进入下一个检测点(m=m+1),重复上述步骤S2.3—S2.5。
S3、将预测奖励检测训练框架结合MADDPG算法训练追逃博弈智能控制策略网络;
具体的,追逃博弈智能控制策略网络的训练过程如下:
S3.1,初始化追逃双方航天器的策略网络Actor与评价网咯Critic网络的参数与航天器的状态空间;
S3.2,双方航天器按照所设计的预测检测奖励训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;
S3.3,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数;
S3.4,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。
S4、追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令,完成航天器脉冲式轨道追逃博弈控制。
具体的,通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络Actor,航天器以自身对环境的观测信息作为策略网络Actor的输入,输出为航天器所要采取的控制指令。
实施例
为了说明所提算法的有效性,以发生在GEO轨道面内的1V1脉冲式追逃博弈场景为例验证算法的有效性。首先给出算法训练中用到的算法参数极其物理意义进行介绍,脉冲式追逃博弈场景参数设置如表1所示:
Figure BDA0003807287070000131
Figure BDA0003807287070000141
表1脉冲式2v1追拦逃博弈场景参数表
接下来给出两个追方航天器和逃跑方航天器的奖励函数设计,如表2所示:
Figure BDA0003807287070000142
表2脉冲式2v1追拦逃博弈场景参数表
实验采用的仿真环境全部基于Python语言编写,利用Spyder5.05和Anaconda3平台,深度学习环境采用Tensorflow1.8.0和gym0.10.5,计算机配置为CPU Inter i7-9700F@3.00GHz,内存32GB。航天器通过观察环境状态,根据设定的控制策略得到控制量,再利用环境的反馈调整控制策略,形成一个闭环训练过程。
通过训练每个航天器可以得到一组Actor网络参数,可以根据自身对环境的观测进行控制,接下来针对1V1脉冲式追逃博弈任务训练结果进行展示。首先是训练过程,如图5和图6所示,随着PRD-MADDPG算法训练次数的增加,追击航天器得奖励值上升至30左右并保持稳定,而逃跑航天器的奖励降低至100左右并趋于稳定,结合图7中追击成功率随训练次数变化图可以看出,PRD-MADDPG算法经过训练后可以将追击成功率稳定在97%左右,说明了所提算法的有效性和稳定性。
在PRD-MADDPG算法训练完成后可以得到一组博弈策略网络,各航天器通过自身的策略网络执行控制,为了验证策略网络的有效性,选取追击方初始位置坐标为m,逃跑方初始位置为,双方采用训练得到的策略网络开展追逃博弈。追逃博弈效果如图8、图9所示,进一步验证了训练得到的策略网络的有效性。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (8)

1.一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,包括如下步骤:
S1、对脉冲式轨道追逃博弈问题建模得到博弈模型,并根据脉冲式轨道追逃博弈中双方航天器的任务目标得到脉冲式轨道追逃博弈双方奖励函数;
S2、根据博弈模型和脉冲式轨道追逃博弈双方奖励函数设计得到预测奖励检测训练框架;
S3、将预测奖励检测训练框架结合MADDPG算法训练追逃博弈智能控制策略网络;
S4、追逃博弈智能控制策略网络接收航天器自身对环境的观测信息并输出控制指令,完成航天器脉冲式轨道追逃博弈控制。
2.根据权利要求1所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,脉冲式轨道追逃博弈问题建模的过程如下:
设计脉冲式轨道追逃博弈场景,并根据航天器间的相对距离相对于轨道半径选择两个航天器附近的圆轨道作为参考轨道,进行CW方程计算。
3.根据权利要求2所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,在CW方程下建立航天器脉冲式轨道机动模型,CW方程计算公式如下:
Figure FDA0003807287060000011
φ(t,t0)=[φ1(Δt)φ2(Δt)];
φv(t,ti)=φ2(t-ti)=φ2(Δt);
Δvi=[Δvi,xΔvi,yΔvi,z]T
Figure FDA0003807287060000021
其中,φ(t,t0)为根据C-W方程解析解整理得到的从t0时刻到t时刻的状态转移矩阵;Δvi表示航天器i的速度增量向量;φv(t,ti)表示从ti时刻到t时刻航天器速度增量部分的状态转移矩阵;N表示航天器总的脉冲机动次数;φ1(Δt)表示;φ2(Δt)表示;Δvi,x表示航天器i在x方向的速度增量;Δvi,y表示航天器i在y方向的速度增量;Δvi,z表示航天器i在z方向的速度增量;
Figure FDA0003807287060000022
μ为引力常数,a为参考轨道的轨道半径;Δt表示脉冲之间的时间间隔。
4.根据权利要求1所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,脉冲式轨道追逃博弈双方奖励包括距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项。
5.根据权利要求4所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,脉冲式轨道追逃博弈双方奖励函数为距离引导项奖励、时间奖励项、燃料消耗奖励项和结果奖励项的加权和。
6.根据权利要求1所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,预测奖励检测训练框架流程如下:
S2.1、在ti时刻,双方航天器分别根据环境反馈的状态信息,基于自身当前的策略网络Actor进行决策,输出航天器所采取的脉冲控制,并将施加脉冲控制前的追逃双方航天器的状态改变为施加脉冲控制后追逃双方航天器的状态;
S2.2、定义脉冲控制施加的时刻ti为决策点,两个决策点ti到ti+1之间每隔ΔTd时刻设立一个检测点,共设置σ个检测点,定义
Figure FDA0003807287060000031
为决策点[ti,ti+1]之间第m个检测点,则m∈[1,2…,σ],σ的大小根据自然转移时间的长短、航天器的机动能力强弱、轨道转移范围的大小进行设计;
S2.3、根据CW方程,通过ti时刻下施加脉冲控制前后的追逃双方航天器的状态,计算得到ti时刻决策点后第m个检测点
Figure FDA0003807287060000032
的状态
Figure FDA0003807287060000033
Figure FDA0003807287060000034
S2.4、根据脉冲式轨道追逃博弈双方奖励函数结合预测检测点的状态计算在检测点的即时奖励,并计算双方航天器的累计预测奖励;
S2.5、根据预测检测点的状态判断追逃任务是否终止,若追逃任务终止则直接将当前环境信息、双方的累计预测奖励和任务终止信号存入经验池,该次任务过程结束;若追逃任务没有终止,则判断该检测点是否为最后一个检测点,若该检测点是最后一个检测点,则将当前环境信息、双方的累计预测奖励与任务继续的信号传递给各航天器的策略网络进行下一次决策,若该检测点不是最后一个检测点,则进入下一个检测点,重复执行S2.3至S2.5。
7.根据权利要求1所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,追逃博弈智能控制策略网络的训练过程如下:
S3.1,初始化追逃双方航天器的策略网络Actor与评价网咯Critic网络的参数与航天器的状态空间;
S3.2,双方航天器按照所设计的预测检测奖励训练框架,根据自身的观测信息采取动作,与环境模型交互,获得奖励、动作、下一时刻状态空间的训练数据,存入回放经验池;
S3.3,按照MADDPG的方法更新策略网络Actor和评价网络Critic的参数;
S3.4,当回报奖励长期维持在一定范围内不再上升时,停止更新,训练完成。
8.根据权利要求1所述的一种基于PRD-MADDPG算法的脉冲式轨道追逃博弈方法,其特征在于,通过追逃博弈智能控制策略网络的训练得到追逃双方航天器的各自的策略网络Actor,航天器以自身对环境的观测信息作为策略网络Actor的输入,输出为航天器所要采取的控制指令。
CN202211000653.0A 2022-08-19 2022-08-19 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 Pending CN115320890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211000653.0A CN115320890A (zh) 2022-08-19 2022-08-19 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211000653.0A CN115320890A (zh) 2022-08-19 2022-08-19 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法

Publications (1)

Publication Number Publication Date
CN115320890A true CN115320890A (zh) 2022-11-11

Family

ID=83925050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211000653.0A Pending CN115320890A (zh) 2022-08-19 2022-08-19 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法

Country Status (1)

Country Link
CN (1) CN115320890A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116039957A (zh) * 2022-12-30 2023-05-02 哈尔滨工业大学 一种考虑障碍约束的航天器在线博弈规划方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116039957A (zh) * 2022-12-30 2023-05-02 哈尔滨工业大学 一种考虑障碍约束的航天器在线博弈规划方法、装置及介质
CN116039957B (zh) * 2022-12-30 2024-01-30 哈尔滨工业大学 一种考虑障碍约束的航天器在线博弈规划方法、装置及介质

Similar Documents

Publication Publication Date Title
Martinsen et al. Straight-path following for underactuated marine vessels using deep reinforcement learning
Virtanen et al. Modeling air combat by a moving horizon influence diagram game
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
Duan et al. Non-linear dual-mode receding horizon control for multiple unmanned air vehicles formation flight based on chaotic particle swarm optimisation
CN111666631A (zh) 犹豫模糊和动态深度强化学习相结合的无人机机动决策方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111580544A (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN108319132A (zh) 用于无人机空中对抗的决策系统及方法
CN112001120B (zh) 一种基于强化学习的航天器对多拦截器自主规避机动方法
Qu et al. Pursuit-evasion game strategy of USV based on deep reinforcement learning in complex multi-obstacle environment
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
Cheng et al. Fuzzy categorical deep reinforcement learning of a defensive game for an unmanned surface vessel
CN115320890A (zh) 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法
CN116991067A (zh) 一种脉冲式轨道追逃拦协同博弈智能决策控制方法
CN116974197A (zh) 一种回合制轨道追逃博弈的智能控制方法
CN117590867B (zh) 基于深度强化学习的水下自主航行器接驳控制方法和系统
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN116107213A (zh) 一种基于sac和lgvf的航天器追捕任务组合优化控制方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN115098939A (zh) 一种航天器脉冲机动鲁棒追击方法
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
Zhou et al. On deep recurrent reinforcement learning for active visual tracking of space noncooperative objects
CN117908565A (zh) 基于最大熵多智能体强化学习的无人机安全路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination