CN117332684B - 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 - Google Patents
一种基于强化学习的多航天器追逃博弈下的最优捕获方法 Download PDFInfo
- Publication number
- CN117332684B CN117332684B CN202311242135.4A CN202311242135A CN117332684B CN 117332684 B CN117332684 B CN 117332684B CN 202311242135 A CN202311242135 A CN 202311242135A CN 117332684 B CN117332684 B CN 117332684B
- Authority
- CN
- China
- Prior art keywords
- spacecraft
- chase
- game
- optimal
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 21
- 230000003416 augmentation Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 2
- 238000011426 transformation method Methods 0.000 claims description 2
- 238000011217 control strategy Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000251729 Elasmobranchii Species 0.000 description 1
- 241000052079 Erioneuron Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/042—Backward inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:建立多航天器动态方程;获取追逃博弈双方的初始位置,对多航天器进行任务分配;针对外部扰动设计补偿器;对动态方程进行坐标变换;根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;设计基于强化学习的无模型迭代策略;初始化控制器,并采集博弈双方动态信息;根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;根据最优控制器控制追击航天器捕获逃逸航天器,实现追逃博弈的纳什均衡。与现有技术相比,本发明可以克服外部系统带来的扰动,在未知模型的情况下完成追击任务并实现纳什均衡。
Description
技术领域
本发明涉及对抗博弈领域,尤其是涉及一种基于强化学习的多航天器追逃博弈下的最优捕获方法。
背景技术
对抗博弈作为无人装备的重要应用场景,在导弹拦截,无人舰船编队攻防以及车辆自动驾驶中发挥着重要的作用。在军事科学研究领域中,鱼雷与船舶、导弹与战斗机的对抗,无人机集群的对抗等,已经被抽象为一类特定的问题---追逃博弈。
在博弈过程中,博弈的策略用来寻找最大/小化的支付函数,在全局信息已知的情形下可以通过求解Hamilton-Jacobi-Isaacs(HJI)方程获得显式解。随着无人装备的智能化发展,基于微分博弈的固定式控制策略难以适应现代智能装备的对抗,针对智能装备的博弈策略问题亟待解决。并且在实际博弈情形中,可能会遇见未知动力学系统的博弈方,此时利用可以观测的信息设计最优控制器成为难题。
发明内容
本发明的目的是为了提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法,针对追击航天器受外部扰动的影响,建立动态补偿器进行坐标变换,提出基于增广系统的博弈问题,消除外部扰动的影响;同时,针对具有一种不对称信息的博弈情形:逃逸者知道全部系统矩阵,而对于追逐者来说这部分信息未知,提出一种基于强化学习的在线求解方案,克服系统模型获取的困难,根据博弈过程中采集的数据,利用最小二乘法得到最优策略的近似解,并证明其可以成功捕获,并且实现纳什均衡。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的多航天器追逃博弈下的最优捕获方法,包括以下步骤:
步骤1)根据博弈航天器动力学特性建立多航天器动态方程;
步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;
步骤3)针对外部扰动设计补偿器;
步骤4)根据补偿器对多航天器动态方程进行坐标变换;
步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;
步骤6)设计基于强化学习的无模型迭代策略;
步骤7)初始化控制器,并采集博弈双方的动态信息;
步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;
步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡。
所述步骤1)中,多航天器动态方程为:
其中,分别为航天器沿着参考坐标系的位置与速度,σ表示航天器的角速度,uα,uβ,uγ分别表示在航天器在各个坐标轴方向的控制输入;
定义系统状态系统控制器U=[uα,uβ,uγ],则多个航天器表示为/>i=1,…,N,/>j=1,…M;
其中,N,M分别表示逃逸者与追击者的数量,Xei,Xpj分别表示逃逸与追击者的系统状态,Uei表示逃逸者的系统输入,Upj表示追击者的系统输入,A,B矩阵表示其在LVLH坐标下用状态空间描述的系统矩阵:
所述步骤2)中,对多航天器进行任务分配具体为:建立二分图,分别表示双方航天器i=1,…,M,j=1,…,N,其中,Pj表示第j个追击者,Ei表示第i个逃逸者;在二分图中画一条从Pj到Ei的边,Pj到Ei的初始距离作为成本;使用最大匹配算法来为每一个追击航天器分配一个追击任务。
所述步骤3)中,外部扰动为:d=C0w,其中C0,A0为常数矩阵,并且A0满足Re(λ(A0))≤0,d表示航天受到的扰动,由外部系统w产生,其微分为/>
所述步骤3)中,针对外部扰动,存在正整数sr,以及实数r=1,2,3,使得:
定义:令为一个可控矩阵对且/>为赫尔维茨矩阵,则存在非奇异矩阵Tr满足以下方程:
其中,
则定义动态补偿器为:
其中,Upj表示追击者的系统输入,ηj为动态补偿器。
所述步骤4)中,坐标变换的方法为:其中,θj=col(θ1,θ2,θ3,),Γ=block diag(Γ1,Γ2,Γ3),T=block diag(T1,T2,T3),Upj表示追击者的系统输入;
经过坐标变换后,追击航天器动态方程表示为:
相对状态量为:
定义新的增广系统变量则其动态变量表示为:
所述步骤5)包括以下步骤:
步骤5-1)考虑无限时域下的博弈场景,引入以下博弈的性能指标函数:
其中Q为半正定矩阵,Rp,Re为正定矩阵,纳什均衡为
步骤5-2)根据性能指标函数定义航天器追逃博弈问题:
定义追逃双方的值函数为:
定义零和微分对策如下:
即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标Jpj=Jji=-Jei.,博弈双方都最小化它们各自的性能指标
所述步骤6)具体为:定义追逃双方的控制增益分别为:
航天器相对距离的动态方程为:
对值函数进行偏导得到:
则:
其中,在迭代求取/> 的过程中不依赖于系统的状态方程,从而得到无模型的迭代策略。
所述步骤7)中,采集博弈双方的动态信息为:
所述步骤8)具体为:将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程 的求解,通过最小二乘法迭代求解/>直到算法收敛,满足/>得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/>
与现有技术相比,本发明具有以下有益效果:
(1)本发明设计的动态补偿器,在坐标变换后基于增广系统的博弈问题抑制了外部扰动的影响;
(2)本发明设计的基于强化学习的追击控制器,解决了追击过程中对精准模型的需求;该控制器使用二分图框架设计的追击指标,采用最大匹配算法进行最小化指标来进行任务分配,可以在总最小路径-最小能耗下完成追击,可以在预先给定性能指标后,以确保完成追击。
(3)本发明针对具有一种不对称信息的博弈情形:逃逸者知道全部系统矩阵,而对于追逐者来说这部分信息未知,提出一种基于强化学习的在线求解方案,克服系统模型获取的困难,根据博弈过程中采集的数据,利用最小二乘法得到最优策略的近似解,并证明其可以成功捕获,并且实现纳什均衡。
附图说明
图1为本发明的方法流程图;
图2为一种实施例中求解航天器追逃博弈问题时的迭代过程;
图3为一种实施例中求解航天器追逃博弈问题时的迭代过程;
图4为一种实施例中航天器相对距离变化曲线;
图5为一种实施例中航天器的追逃轨迹。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明公开了一种基于强化学习的多航天器追逃博弈下的最优捕获方法,针对多航天器运动状态,基于内模原理设计补偿器,消除外部扰动的影响,根据坐标变化后的系统建立无限时域下的追逃博弈模型;根据航天器初始状态设计任务分配的策略,最小化成本;对于给定的博弈性能指标函数,提出一种基于强化学习的在线求解方案,采用最小二乘法得到最优策略的近似解,克服真实场景中系统的精确模型难以获取的困难。本发明可以在线求取多航天器追逃博弈鞍点,克服外部系统带来的扰动,并且在未知模型的情况下可以完成追击任务并实现博弈的纳什均衡,为多航天器追逃博弈提供了重要的技术支撑。
具体的,本实施例提供一种基于强化学习的多航天器追逃博弈下的最优捕获方法,如图1所示,包括以下步骤:
步骤1)根据博弈航天器动力学特性建立多航天器动态方程;
设定LVLH(Local Vertical Local Horzontal)坐标系,则可以通过下式中的多航天器动态方程表达航天器的运动状态:
其中,分别为航天器沿着参考坐标系的位置与速度,σ表示航天器的角速度,uα,uβ,uγ分别表示在航天器在各个坐标轴方向的控制输入;
定义系统状态系统控制器U=[uα,uβ,uγ],则多个航天器表示为/>i=1,…,N,/>j=1,…M;
其中,N,M分别表示逃逸者与追击者的数量,Xei,Xpj分别表示逃逸与追击者的系统状态,Uei表示逃逸者的系统输入,Upj表示追击者的系统输入,A,B矩阵表示其在LVLH坐标下用状态空间描述的系统矩阵:
系统的相对状态为Xji,由博弈双方的动态方程可以得到
系统扰动由外部系统产生:其中C0,A0为常数矩阵,并且A0满足Re(λ(A0))≤0,d表示航天受到的扰动,由外部系统w产生,其微分为/>
步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;
本实例中,考虑博弈双方数量一致,每个追求者只需要成功抓住一个逃避者来完成任务。因为操纵性是一样的,没有必要指派更多的追兵给一个逃避者。在这种情况下,取初始相对以距离为目标的任务分配与算法设计以最小化该距离总和。具体的,建立二分图,分别表示双方航天器i=1,…,M,j=1,…,N,其中,Pj表示第j个追击者,Ei表示第i个逃逸者;在二分图中画一条从Pj到Ei的边,Pj到Ei的初始距离作为成本;使用最大匹配算法来为每一个追击航天器分配一个追击任务。
步骤3)针对外部扰动设计基于内模原理的补偿器,消除外部系统的扰动;
针对外部扰动,存在正整数sr,以及实数r=1,2,3,使得:
定义:可以得到
其中,
令为一个可控矩阵对且/>为赫尔维茨矩阵Hurwitz,则存在非奇异矩阵Tr满足以下方程:
令θ=col(θ1,θ2,θ3)Υ=block diag(Υ1,Υ2,Υ3),
则定义动态补偿器为:
其中,Upj表示追击者的系统输入,ηj为动态补偿器。
步骤4)根据补偿器对多航天器动态方程进行坐标变换;
基于上一步设计的动态补偿器进行坐标变换:
其中,θj=col(θ1,θ2,θ3,),Γ=block diag(Γ1,Γ2,Γ3),T=block diag(T1,T2,T3),Upj表示追击者的系统输入。
经过坐标变换后,追击航天器动态方程表示为:
相对状态量为:
定义新的增广系统变量则其动态变量表示为:
步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;
步骤5-1)考虑无限时域下的博弈场景,引入以下博弈的性能指标函数:
其中Q为半正定矩阵,Rp,Re为正定矩阵,纳什均衡为
步骤5-2)根据性能指标函数定义航天器追逃博弈问题:
定义追逃双方的值函数为:
定义零和微分对策如下:
即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标Jpj=Jji=-Jei.,博弈双方都最小化它们各自的性能指标同时在该最优控制器下,追击航天器可以成果捕获所有逃逸航天器,即他们之间的相对距离/>i=1,…,M,j=1,…,N。
步骤6)设计基于强化学习的无模型迭代策略;
为求解最优逃逸控制器,设定零和博弈的哈密尔顿函数为:
通过对哈密尔顿函数求偏导,可以得到最优追击、逃逸控制器:
其中表示值函数的梯度。
将最优控制器带入哈密尔顿函数,可以得到HJI(Hamilton-Jacobi-Isaacs)方程为:
假定最优值函数表示为控制器为/> 可以通过求解黎卡提方程/> 来获得/>逃逸航天器预知精准状态信息,可以求解黎卡提方程获得最优控制器。
以下给出求解黎卡提方程的等价计算方式:
为追击者设计未知模型的控制器。定义控制器其中Kpj,Kei为反馈增益,则最优控制器可以表示为/>对于追击航天器,可以通过在线采集数据和在线策略迭代的方式获取最优控制器,用下式迭代求解/>等价求解黎卡提方程:
以下提出不依赖模型的迭代方法。
定义追逃双方的控制增益分别为:
航天器相对距离的动态方程为:
为了获取不依赖模型的迭代策略,对值函数进行偏导得到:
则:
其中,在迭代求取/> 的过程中不依赖于系统的状态方程,从而得到无模型的迭代策略。
步骤7)初始化控制器,并采集博弈双方的动态信息;
给定一个初始的可以使得系统镇定的控制器,采集系统状态信息:
其中,q为系统采集的数据次数,需要满足来保证/>满秩。
步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;
利用在线采集的数据,根据最小二乘法,可以求解出最优追击控制器增益:
随着迭代次数的增加,逐步迭代求解,直到算法收敛,满足得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/> 可以得到替换掉初始给定的控制器,从而实现追击博弈的均衡,即实现了给定性能指标下的最优追击策略。
步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡。
追击条件:对于给定的相同动力学的航天器,针对给定的性能指标,在的情形下,追击航天器成功捕获逃逸航天器,即航天器之间相对距离的收敛。
首先,本实施例对控制器功能进行证明。
针对步骤2)中的航天器的状态方向,步骤5)设定的博弈双方的性能指标,步骤9)给出的条件成立,应用基于强化学习的最优追击控制器,可以解决步骤5)提出的航天器追击问题。证明流程如下:
(1)构造Lyapunov能量函数为定义的值函数:Vji(Zji);
(2)计算能量函数沿着步骤一中的闭环系统的导数: 根据步骤6)的HJI方程可以得到/> 显然,在条件/>满足的情况下,可以得到/>因此相对距离回渐进地收敛到0,从而航天器追击策略的控制问题的理论证明完成。
其次,本实施例航天器博弈的纳什均衡进行证明。
纳什均衡要求:为博弈的鞍点,满足/> 且迭代完成的/> 即/>
证明流程如下:
(1)根据上述证明的控制器功能可以得到Vji(Zji(∞))=Vji(0)=0,则博弈双方的性能指标可以表示为
(2)根据相对距离的动态方程以及最优控制器,性能指标可以表示为:
(3)根据HJI方程,则/> 为博弈的鞍点,满足/>即实现了博弈的纳什均衡;
(4)考虑给出的迭代策略,当给出初始可镇定控制策略时,则可以通过步骤6)提出的等价黎卡提方程唯一求解出这样唯一决定了追击控制策略/> 根据步骤7)的/>满秩实现,通过步骤8)的求解方式同样唯一确定了/>与给定的一致,因此可以得到/>从而证明了迭代策略给出的策略可以渐进逼近最优策略/>从而本发明给出的控制器可以实现纳什均衡的理论证明完成。
最后,本实施例进行航天器追逃博弈的仿真验证。
将双方航天器的数量定义相同N=M=3,将步骤二给定的性能指标中参数选择为Q=I6×6;Rp=1×104I3×3,Re=6×104I3×3,取外部扰动为正弦信号:d=sin(0.2t)选择逃逸者的初始状态为:
追击者的初始状态为:
由图2,3给出的迭代过程仿真结果可以看出在迭代十二次后,可以或者最优追击控制器的增益;由图4给出的仿真结果所有追击航天器都可以成功捕获逃逸航天器;航天器追逃过程的轨迹如图5所示。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
Claims (1)
1.一种基于强化学习的多航天器追逃博弈下的最优捕获方法,其特征在于,包括以下步骤:
步骤1)根据博弈航天器动力学特性建立多航天器动态方程;
步骤2)获取追逃博弈双方的初始位置,对多航天器进行任务分配;
步骤3)针对外部扰动设计补偿器;
步骤4)根据补偿器对多航天器动态方程进行坐标变换;
步骤5)根据增广系统,利用坐标变换后的动态方程构建航天器追逃博弈问题;
步骤6)设计基于强化学习的无模型迭代策略;
步骤7)初始化控制器,并采集博弈双方的动态信息;
步骤8)根据无模型迭代策略迭代求解航天器追逃博弈问题,得到最优追击策略,再次进行坐标变换得到最优控制器;
步骤9)根据最优控制器控制追击航天器,捕获逃逸航天器,实现追逃博弈的纳什均衡;
所述步骤1)中,多航天器动态方程为:
其中,α,β,γ,分别为航天器沿着参考坐标系的位置与速度,σ表示航天器的角速度,uα,uβ,uγ分别表示在航天器在各个坐标轴方向的控制输入;
定义系统状态系统控制器U=[uα,uβ,uγ],则多个航天器表示为
其中,N,M分别表示逃逸者与追击者的数量,Xei,Xpj分别表示逃逸与追击者的系统状态,Uei表示逃逸者的系统输入,Upj表示追击者的系统输入,A,B矩阵表示其在LVLH坐标下用状态空间描述的系统矩阵:
所述步骤2)中,对多航天器进行任务分配具体为:建立二分图,分别表示双方航天器其中,Pj表示第j个追击者,Ei表示第i个逃逸者;在二分图中画一条从Pj到Ei的边,Pj到Ei的初始距离作为成本;使用最大匹配算法来为每一个追击航天器分配一个追击任务;
所述步骤3)中,外部扰动为:d=C0w,其中C0,A0为常数矩阵,并且A0满足Re(λ(A0))≤0,d表示航天受到的扰动,由外部系统w产生,其微分为/>
所述步骤3)中,针对外部扰动,存在正整数sr,以及实数使得:
定义:令/>为一个可控矩阵对且/>为赫尔维茨矩阵,则存在非奇异矩阵Tr满足以下方程:
其中,
则定义动态补偿器为:
其中,Upj表示追击者的系统输入,ηj为动态补偿器;
所述步骤4)中,坐标变换的方法为:
其中,θj=col(θ1,θ2,θ3,),Γ=block diag(Γ1,Γ3,Γ3),T=block diag(T1,T2,T3),Upj表示追击者的系统输入;
经过坐标变换后,追击航天器动态方程表示为:
相对状态量为:
定义新的增广系统变量则其动态变量表示为:
所述步骤5)包括以下步骤:
步骤5-1)考虑无限时域下的博弈场景,引入以下博弈的性能指标函数:
其中Q为半正定矩阵,Rp,Re为正定矩阵,纳什均衡为
步骤5-2)根据性能指标函数定义航天器追逃博弈问题:
定义追逃双方的值函数为:
定义零和微分对策如下:
即追击者的目标是最小化值函数,而逃避者则试图最大化值函数,这相当于定义两个性能指标Jpj=Jji=-Jei.,博弈双方都最小化它们各自的性能指标
所述步骤6)具体为:定义追逃双方的控制增益分别为:
航天器相对距离的动态方程为:
对值函数进行偏导得到:
则:
其中,在迭代求取/>的过程中不依赖于系统的状态方程,从而得到无模型的迭代策略;
所述步骤7)中,采集博弈双方的动态信息为:
所述步骤8)具体为:将航天器追逃博弈问题的求解转化为黎卡提方程的等价方程 的求解,通过最小二乘法迭代求解/>直到算法收敛,满足∥∥Pji l-Pji l-1∥∥≤∈,得到最优追击策略/>再次进行坐标变换得到最优追击控制器为/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311242135.4A CN117332684B (zh) | 2023-09-25 | 2023-09-25 | 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311242135.4A CN117332684B (zh) | 2023-09-25 | 2023-09-25 | 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332684A CN117332684A (zh) | 2024-01-02 |
CN117332684B true CN117332684B (zh) | 2024-04-26 |
Family
ID=89278280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311242135.4A Active CN117332684B (zh) | 2023-09-25 | 2023-09-25 | 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332684B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9776741B1 (en) * | 2016-06-02 | 2017-10-03 | Beihang University | Method for refined attitude control based on output feedback for flexible spacecraft |
CN109062243A (zh) * | 2018-10-31 | 2018-12-21 | 长光卫星技术有限公司 | 一种多约束下航天器能量最优的自主碰撞规避方法 |
GB201910670D0 (en) * | 2018-07-25 | 2019-09-11 | Univ Northwestern Polytechnical | Neural network-based method for pursuit-evasion game of spacecrafts |
CN110673486A (zh) * | 2019-10-22 | 2020-01-10 | 北京航空航天大学 | 一种基于动态博弈理论的多航天器追逃控制方法 |
CN114911167A (zh) * | 2022-05-25 | 2022-08-16 | 中国人民解放军国防科技大学 | 一种航天器有限时间追逃博弈控制的解析求解方法与系统 |
CN116449714A (zh) * | 2023-04-20 | 2023-07-18 | 四川大学 | 一种多航天器追捕博弈轨道控制方法 |
CN116680509A (zh) * | 2023-04-04 | 2023-09-01 | 北京理工大学 | 一种用于多航天器追逃博弈任务的动态匹配方法 |
CN116702903A (zh) * | 2023-04-28 | 2023-09-05 | 西北工业大学 | 一种基于深度强化学习的航天器集群博弈智能决策方法 |
CN116800467A (zh) * | 2023-03-17 | 2023-09-22 | 西北工业大学深圳研究院 | 一种基于多航天器星间攻击的追逃博弈控制方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9954897B2 (en) * | 2016-03-01 | 2018-04-24 | Intelligent Fusion Technology, Inc. | Methods and systems providing cyber security |
US10180686B2 (en) * | 2016-03-17 | 2019-01-15 | Mitsubishi Electric Research Laboratories, Inc. | Concurrent station keeping, attitude control, and momentum management of spacecraft |
-
2023
- 2023-09-25 CN CN202311242135.4A patent/CN117332684B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9776741B1 (en) * | 2016-06-02 | 2017-10-03 | Beihang University | Method for refined attitude control based on output feedback for flexible spacecraft |
GB201910670D0 (en) * | 2018-07-25 | 2019-09-11 | Univ Northwestern Polytechnical | Neural network-based method for pursuit-evasion game of spacecrafts |
CN109062243A (zh) * | 2018-10-31 | 2018-12-21 | 长光卫星技术有限公司 | 一种多约束下航天器能量最优的自主碰撞规避方法 |
CN110673486A (zh) * | 2019-10-22 | 2020-01-10 | 北京航空航天大学 | 一种基于动态博弈理论的多航天器追逃控制方法 |
CN114911167A (zh) * | 2022-05-25 | 2022-08-16 | 中国人民解放军国防科技大学 | 一种航天器有限时间追逃博弈控制的解析求解方法与系统 |
CN116800467A (zh) * | 2023-03-17 | 2023-09-22 | 西北工业大学深圳研究院 | 一种基于多航天器星间攻击的追逃博弈控制方法及系统 |
CN116680509A (zh) * | 2023-04-04 | 2023-09-01 | 北京理工大学 | 一种用于多航天器追逃博弈任务的动态匹配方法 |
CN116449714A (zh) * | 2023-04-20 | 2023-07-18 | 四川大学 | 一种多航天器追捕博弈轨道控制方法 |
CN116702903A (zh) * | 2023-04-28 | 2023-09-05 | 西北工业大学 | 一种基于深度强化学习的航天器集群博弈智能决策方法 |
Non-Patent Citations (3)
Title |
---|
Zixuan Zheng ; Peng Zhang ; Jianping Yuan.Nonzero-Sum Pursuit-Evasion Game Control for Spacecraft Systems: A Q-Learning Method.《IEEE Transactions on Aerospace and Electronic Systems》.2023,全文. * |
三维空间中追逃对抗定性微分对策模型研究;王发坤;秦艳琳;;舰船电子工程;20080720(第07期);全文 * |
基于追逃博弈的非合作目标接近控制;柴源;罗建军;王明明;韩楠;;宇航总体技术;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117332684A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109901403A (zh) | 一种自主水下机器人神经网络s面控制方法 | |
CN108021754A (zh) | 一种无人机自主空战决策框架及方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN112462792B (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN113159266B (zh) | 基于麻雀搜索神经网络的空战机动决策方法 | |
CN114020021B (zh) | 一种多导弹分布式协同制导律的设计方法及系统 | |
CN109582030A (zh) | 一种调整无人机姿态控制中待整定参数方法及相关装置 | |
CN111898201A (zh) | 一种空战模拟环境中的战斗机高精度自主攻击引导方法 | |
CN116107213A (zh) | 一种基于sac和lgvf的航天器追捕任务组合优化控制方法 | |
CN114003050A (zh) | 一种基于微分博弈的三体对抗策略的主动防御制导方法 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN115877871A (zh) | 一种基于强化学习的非零和博弈无人机编队控制方法 | |
Wang et al. | Deep reinforcement learning-based impact time control guidance law with constraints on the field-of-view | |
Xianyong et al. | Research on maneuvering decision algorithm based on improved deep deterministic policy gradient | |
CN117332684B (zh) | 一种基于强化学习的多航天器追逃博弈下的最优捕获方法 | |
Cui et al. | Fixed-time distributed adaptive attitude control for multiple QUAVs with quantized input | |
Wu et al. | Dynamic multitarget assignment based on deep reinforcement learning | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN116432030A (zh) | 一种基于深度强化学习的空战多意图策略自主生成方法 | |
CN116401752A (zh) | 基于超扭曲观测器的自适应滑模多飞行器协同末制导律设计方法 | |
CN114371729B (zh) | 一种基于距离优先经验回放的无人机空战机动决策方法 | |
CN115857548A (zh) | 一种基于深度强化学习的末制导律设计方法 | |
CN113255234B (zh) | 一种对导弹群进行在线目标分配的方法 | |
CN113485099B (zh) | 一种非线性离散时间系统的在线学习控制方法 | |
CN114859704A (zh) | 一种针对四旋翼无人机姿态的强化学习优化控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |