CN113759717A - 一种近实时机动轨迹生成与跟踪的控制方法 - Google Patents

一种近实时机动轨迹生成与跟踪的控制方法 Download PDF

Info

Publication number
CN113759717A
CN113759717A CN202110962512.6A CN202110962512A CN113759717A CN 113759717 A CN113759717 A CN 113759717A CN 202110962512 A CN202110962512 A CN 202110962512A CN 113759717 A CN113759717 A CN 113759717A
Authority
CN
China
Prior art keywords
state
node
sequence
tree
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110962512.6A
Other languages
English (en)
Inventor
刘佩
冯煜捷
姜超
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Flight Automatic Control Research Institute of AVIC
Original Assignee
Xian Flight Automatic Control Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Flight Automatic Control Research Institute of AVIC filed Critical Xian Flight Automatic Control Research Institute of AVIC
Priority to CN202110962512.6A priority Critical patent/CN113759717A/zh
Publication of CN113759717A publication Critical patent/CN113759717A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及但不限于航空技术领域,尤指一种近实时机动轨迹生成与跟踪的控制方法。包括:定义飞机的初始状态S0,以初始状态S0作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a1,...,ak,其中k为单次滚动迭代的步长;选取该次滚动迭代所生成动作序列a1,...,ak中的前h个动作a1,...,ah作为飞机模型的输入对飞机状态进行更新并得到更新后的飞机状态;以更新后的飞机状态作为搜索模型的新输入进行搜索,将每次滚动迭代过程中选取的h个动作a1,...,ah依次放入动作序列中;重复滚动迭代数次后,在到达指定时间或终止状态时得到一个最优动作序列,h小于等于k。本发明实现了边飞边解算的近实时轨迹生成与控制,解决了机动轨迹生成与跟踪的实时性问题。

Description

一种近实时机动轨迹生成与跟踪的控制方法
技术领域
本发明涉及但不限于航空技术领域,尤指一种近实时机动轨迹生成与跟踪的控制方法。
背景技术
未来战争中空中战场的态势愈将趋于复杂,取得制空权至关重要。战术机动是无人作战飞机进行空战的关键技术。空中作战的激烈性和复杂性对机动轨迹生成的实时性提出了要求。先前研究是基于离线方法求解机动参考轨迹,具体思路是通过多目标蒙特卡洛树搜索(MOMCTS,Multi-Object Monte-Carlo Tree Search)算法反复计算和寻优得到最优离线参考轨迹,然后设计控制律进行轨迹跟踪。该方法可以解决机动轨迹生成问题,但无法解决实时性问题。
发明内容
本发明的目的:提供一种近实时机动轨迹生成与跟踪的控制方法,解决机动轨迹生成与跟踪的实时性问题。
本发明的技术方案:
第一方面,提供了一种近实时机动轨迹生成与跟踪的控制方法,所述方法利用飞机模型、搜索模型和滚动时域模型结合进行,所述方法包括:
定义飞机的初始状态S0,以初始状态S0作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a1,...,ak,其中k为单次滚动迭代的步长;
选取该次滚动迭代所生成动作序列a1,...,ak中的前h个动作a1,...,ah作为飞机模型的输入对飞机状态进行更新并得到更新后的飞机状态;
以更新后的飞机状态作为搜索模型的新输入进行搜索,将每次滚动迭代过程中选取的h个动作a1,...,ah依次放入动作序列中;
重复滚动迭代数次后,在到达指定时间或终止状态时得到一个最优动作序列,其中,h小于等于k。
进一步地,所述飞机模型的输出为状态向量s=(V,α,β,θ,φ,ψ,q,p,r,x,y,h)T,其中包含空速V,迎角α,侧滑角β,俯仰角θ,滚转角Φ,偏航角ψ,滚转角速率p,俯仰角速率q,偏航角速率r,轴向坐标x,横向坐标y,以及高度H。
进一步地,建立飞机模型,具体包括:
建立状态向量s与升降舵、副翼、方向舵的偏度以及油门杆位置的函数s=f(Δδe,Δδa,Δδr,ΔδT)并定义飞机模型的状态变量更新周期为ts,其中Δδe,Δδa,Δδr,ΔδT分别为升降舵、副翼、方向舵的偏度以及油门杆位置;
定义驾驶杆、脚蹬和油门杆的动作空间A,离散形式A={a1,a2,...,aL},L为可选动作总数,动作空间是驾驶杆、脚蹬和油门杆组合操纵不同结果的集合;
根据预定周期ts,在动作空间A中进行动作选择,得到动作序列a1,...,aN
根据函数s=f(Δδe,Δδa,Δδr,ΔδT)和动作序列a1,...,aN得到状态序列S=s1,1,s2,1,...,sM,1,s1,2,...,sM,2,...,sM,N,其中,每个动作持续固定时长ta,要求ta>ts,M=ta/ts,策略深度为N。
进一步地,以更新后的飞机状态作为搜索模型的新输入进行搜索,具体为:
根据状态序列S和评价机制建立多维激励向量r,其中,r(s1,1,s2,1,...,sM,N)=(r1,r2,...,rd);
利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a1,...,aN进行搜索,在给定的预算内对所述搜索过程重复进行得到多个符合条件的动作序列;
从多个符合条件的动作序列中选择得到最优的一个动作序列。
进一步地,利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a1,...,aN进行搜索,具体包括:
树内游走阶段,
以As来表示节点O下所有可选的子节点(s,a)集合;
以选择过的动作序列作为帕累托向量集P中的元素,将新选择的动作序列与帕累托向量集P中的元素进行比较选优;
在新选择的动作序列优于帕累托向量集P中的所有元素的情况下,赋予此次游走的激励ru;dom=1,否则激励ru;dom=0,建立衡量指标g(s,a),其中,下标u表示到达树内游走的终止状态,下标dom表示激励类型为帕累托最优激励;
根据衡量指标g(s,a)选择下一步的子节点,
Figure BDA0003222596790000031
树增长阶段,
当树内游走抵达叶子节点时树增长结束,或当树内游走抵达未完成节点时,随机选择一个动作,并将节点(s,a)添加为所述未完成节点的子节点;
随机游走阶段,
添加了叶子节点后,根据所选择的a更新s得到下一节点的(s,a),直到抵达终止状态u或者动作序列长度达到策略深度所限值为止;
更新回溯阶段,
根据
Figure BDA0003222596790000032
ts,a←t;ns,a←ns,a+1;ns←ns+1,对树内游走和树增长阶段访问过的所有节点的
Figure BDA0003222596790000033
ns和ns,a信息进行更新,根据更新后的
Figure BDA0003222596790000034
ns和ns,a确定游走经过的节点信息,并将经过的所有节点组成动作序列a1,...,aN,其中,ns表示被访问次数,ns,a表示各子节点的被访问次数,t表示当前已进行的游走次数,δ表示衰减系数取值在0-1之间,ts,a表示在t次游走过程中节点(s,a)上一次被访问时的次数,Δt=t-ts,a,每次游走的激励ru;dom
进一步地,衡量指标g(s,a)为
Figure BDA0003222596790000035
其中,
Figure BDA0003222596790000036
ce为探索-继承权衡系数取值在0-1之间。
进一步地,从多个符合条件的动作序列中选择得到最优的一个动作序列,具体为:
根据
Figure BDA0003222596790000037
从多个符合条件的动作序列中选择得到最优的一个动作序列。
进一步地,树内游走阶段,每次游走从根节点开始,迭代式地下移到当前节点的子节点,直到抵达搜索树中的叶子节点或未完成节点为止。
本发明的优点:
解决机动轨迹生成与跟踪的实时性问题,通过基于滚动时域优化(RHO,RecedingHorizon Optimize)的改进算法实现边飞边解算的近实时轨迹生成与控制。
附图说明:
图1为无人机非线性六自由度模型结构图。
图2为MOMCTS算法概述。
图3为基于滚动时域优化的机动问题解决流程图。
具体实施方式:
针对上述依赖于标准机动动作库或者驾驶员经验的机动控制问题提出基于滚动时域优化实现近实时机动轨迹生成与跟踪的控制方法,实现边飞边解算的近实时轨迹控制。
通过建立基于MOMCTS算法的搜索模型在每一步迭代中寻找最优机动序列,然后建立飞机模型更新飞机状态,最后建立滚动时域模型不断向前迭代去逐渐逼近最终状态,直到得到完整的机动控制动作序列。
技术方案包括:步骤1、建立飞机模型,确定飞机操纵与飞行状态之间的关系;步骤2、建立基于MOMCTS算法的搜索模型,实现最优机动参考轨迹的生成;步骤3、建立滚动时域模型,通过调用步骤1建立的飞机模型和步骤2建立的搜索模型,进行滚动迭代,实现边搜索边跟踪的近实时轨迹生成与跟踪的目的。
下面结合附图详细说明。
步骤1:飞机仿真建模。
飞机模型介绍:
将机动控制问题可被抽象成一个马尔可夫决策过程(MDP,Markov DecisionProcess),并对飞机的状态进行描述以完成飞机建模。飞机的空速V,迎角α,侧滑角β,俯仰角θ,滚转角Φ,偏航角ψ,滚转角速率p,俯仰角速率q,偏航角速率r,轴向坐标x,横向坐标y,以及高度H共同定义了飞机在运动过程中的状态向量。某型无人机的非线性六自由度模型结构如图1所示。首先通过大气模型计算出的空气密度、飞机的气动数据以及操纵机构的偏度等进行空气动力的计算,然后将计算出的空气动力、气动力矩以及推力代入飞机的运动方程中即可输出飞机的各飞行状态参数。
在机体坐标系下建立飞机质心动力学方程,如下式所示:
Figure BDA0003222596790000051
在机体坐标系下建立的绕飞机质心转动的动力学方程,如下式所示:
Figure BDA0003222596790000052
建立飞机质心的运动学方程,如下式所示:
Figure BDA0003222596790000053
建立绕飞机质心转动的运动学方程,如下式所示:
Figure BDA0003222596790000054
将飞机模型输出的12个状态量组成一个状态向量s=(V,α,β,θ,φ,ψ,q,p,r,x,y,h)T。由飞机运动方程可知,s是升降舵、副翼、方向舵的偏度以及油门杆位置的函数,记为s=f(Δδe,Δδa,Δδr,ΔδT)。设状态变量更新的时间间隔为ts
由于无人机的控制可通过地面站操纵虚拟驾驶杆、脚蹬和油门杆来进行,而驾驶杆、脚蹬和油门杆的操纵可控制飞机产生升降舵偏度Δδe、副翼偏度Δδa、方向舵偏度Δδa以及油门杆移动位置ΔδT。因此将驾驶杆、脚蹬和油门杆组合操纵不同结果的集合定义为动作空间A,用集合A={a1,a2,...,aL}表示,其中,L为可选动作总数,a为可选择的机动动作。定义的动作空间A即可生成相应的Δδe,Δδa,Δδr,ΔδT,从而建立了动作a与飞机状态s的联系。
根据函数s=f(Δδe,Δδa,Δδr,ΔδT)和动作序列a1,...,aN得到状态序列S=s1,1,s2,1,...,sM,1,s1,2,...,sM,2,...,sM,N。其中,每个动作持续固定时长ta,要求ta>ts,M=ta/ts,策略深度为N。
由此,机动控制问题的解决方案可以描述为用一个动作序列a1,...,aN来表示机动控制。该动作序列通过控制舵面偏转使飞机运动并产生如上所述的一个状态序列(或称“机动轨迹”)S=s1,1,s2,1,...,sM,1,s1,2,...,sM,2,...,sM,N,每个si,j都是一个12元组,其中i,j表示动作序列中第j个动作拍内的第i个模型拍。
si,j=(Vi,ji,ji,ji,ji,ji,j,qi,j,pi,j,ri,j,xi,j,yi,j,hi,j)i=1,2,…,M;j=1,2,…,N (5)
步骤2:基于MOMCTS算法的离线轨迹生成。
多目标蒙特卡洛搜索树是经典蒙特卡洛搜索树算法在多目标优化问题上的扩展。在一个MOMCTS树上,每个节点代表一个被访问过的状态,并记录着该状态对应的平均激励值向量,被访问次数ns,和各子节点的被访问次数ns,a。节点O的每个子节点(s,a)代表在状态s下的一个可选动作a。
动作序列搜索:
从只有一个根节点存在的初始状态开始,MOMCTS算法通过一次次的“游走”逐渐开发出一棵搜索树。每次游走都由树内游走阶段、树增长阶段、随机游走和更新回溯阶段四部分组成(如图2所示)。
1)树内游走阶段
每次游走从根节点开始,迭代式地下移到当前节点的子节点,直到抵达搜索树中的叶子节点(无子节点的节点)或未完成节点(有未开发子节点的节点)为止。以As表示节点O下所有可选的子节点(s,a)集合。
选择帕累托最优激励作为衡量指标。如果某次游走发现了一个没有被现有帕累托向量集P中元素支配的激励向量,则赋予此次游走的激励ru;dom=1;否则,激励ru;dom=0。其中下标u表示到达树内游走的终止状态,下标dom表示激励类型为帕累托最优激励。
记Δt=t–ts,a,此处t表示当前已进行的游走次数,ts,a表示在t次游走过程中节点(s,a)上一次被访问时的t值。我们在搜索树中每个节点上维护一个随Δt衰减的可积累的激励值(CDD,Cumulative Discounti-ng Dominance),并按照下述公式更新这个值:
Figure BDA0003222596790000071
ts,a←t;ns,a←ns,a+1;ns←ns+1 (7)
记δ为衰减系数,用于降低激励中较久远信息对决策的影响程度,以使决策偏重于考虑更能反映近期情况的信息。定义如下基于CDD激励的节点选择指标:
Figure BDA0003222596790000072
其中,ce为探索-继承权衡系数。在继承已具有优势的节点和探索未被开发但具有希望的节点之中进行平衡。
依据给定的衡量指标g(s,a)来选择下一步的子节点:
Figure BDA0003222596790000073
2)树增长阶段
当树内游走抵达叶子节点时树增长结束,或当树内游走抵达未完成节点时,随机选择一个动作,并将节点(s,a)添加为O的子节点。可以发现,每次游走都会在树增长阶段为搜索树添加一个叶子节点,因此搜索树的大小等同于游走次数。
3)随机游走阶段
添加了叶子节点后,从该节点开始迭代并进行随机动作的选择,根据所选动作进行状态更新,直到抵达终止状态u或者动作序列长度达到策略深度所限值为止。
4)更新回溯阶段
游走结束后,需要对到达状态u所经过的所有节点组成的动作序列进行评估,以获得多维激励向量ru。如果ru没有被现有帕累托向量集P中任何元素支配,则将ru加入P中,并剔除P中被ru支配的所有向量,记此次游走获得的激励ru;dom=1;否则记ru;dom=0。
根据
Figure BDA0003222596790000081
ts,a←t;ns,a←ns,a+1;ns←ns+1,对树内游走和树增长阶段访问过的所有节点的
Figure BDA0003222596790000082
ns和ns,a信息进行更新,根据更新后的
Figure BDA0003222596790000083
ns和ns,a确定游走经过的节点信息,并将经过的所有节点组成动作序列a1,...,aN,其中,ns表示被访问次数,ns,a表示各子节点的被访问次数,t表示当前已进行的游走次数,δ表示衰减系数取值在0-1之间,ts,a表示在t次游走过程中节点(s,a)上一次被访问时的次数,Δt=t-ts,a,每次游走的激励为ru;dom。每次搜索都会得到一个动作序列。
最优动作序列选择:
根据状态序列S和评价机制建立多维激励向量r,其中,r(s1,1,s2,1,...,sM,N)=(r1,r2,...,rd),其中d为收益值的个数;此处设计多维激励向量是为了从多个角度衡量一个状态序列(机动轨迹)的质量。不失一般性地,我们认为所有激励都应被最大化,因此一个机动飞行问题就可以被定义为寻找动作序列π*={a1,a2,...,aN},使得收益最大化的问题。
Figure BDA0003222596790000084
利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a1,...,aN进行搜索,在给定的预算内对所述搜索过程重复进行得到多个符合条件的动作序列;
根据
Figure BDA0003222596790000085
从多个符合条件的动作序列中选择得到最优的一个动作序列。
步骤3:基于滚动时域优化改进MOMCTS算法的近实时轨迹生成。
滚动时域优化是20世纪70年代由工业界首先构思出来的一种控制方法,其核心是在线滚动优化。这是一种近实时计算的方法,将广义控制全局问题的求解转化为在线滚动进行的一系列局部优化问题,使得计算的复杂性和计算资源消耗都大幅降低。
滚动时域优化把整个任务过程分成一个个相互重叠的(单步预测时是不重叠的)但是不断向前推进的优化区间,在某一滚动时域的开始,用系统当前的状态作为初始条件,在线求解该有限时域的开环最优控制问题,得到最优控制序列。并在该时刻只取用第一个控制信号实际作用到系统中,在下一滚动时域,重复以上过程,随着动态过程的延续,控制算法推进预测时域向前滚动,从而形成滚动优化。对于含约束等限制条件下,在不知道未来运动信息的条件下,滚动时域控制是一种有效的控制方法。
通过建立搜索模型、飞机模型和滚动时域优化模型来描述机动问题解决方案,各模型交联关系如图3所示:
搜索模型负责在每步迭代过程中解算机动动作序列。假设飞机的初始状态为S0(包含12个状态的集合),搜索模型在该状态下执行MOMCTS算法解算,以初始状态S0作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a1,...,ak,其中k为单次滚动迭代的步长。
飞机模型基于搜索得到的动作序列更新飞机状态Si→Si+1,其中,该次滚动迭代所生成动作序列a1,...,ak中的前h个动作a1,...,ah选取作为为飞机模型的输入。从而实现大时间尺度上的边飞边解算的可能,离实时搜索更靠近一步。
滚动时域优化模型负责迭代更新动作序列并得到最终动作序列。每步迭代都以更新后的飞机状态作为搜索模型的新输入进行搜索,将每次滚动迭代过程中选取的h个动作a1,...,ah依次放入动作序列中。每向前迭代一步,动作序列长度增加。直到最终实现机动目标或者达到搜索的步长时迭代停止,生成最终动作序列。

Claims (8)

1.一种近实时机动轨迹生成与跟踪的控制方法,所述方法利用飞机模型、搜索模型和滚动时域模型结合进行,所述方法包括:
定义飞机的初始状态S0,以初始状态S0作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a1,...,ak,其中k为单次滚动迭代的步长;
选取该次滚动迭代所生成动作序列a1,...,ak中的前h个动作a1,...,ah作为飞机模型的输入对飞机状态进行更新并得到更新后的飞机状态;
以更新后的飞机状态作为搜索模型的新输入进行搜索,将每次滚动迭代过程中选取的h个动作a1,...,ah依次放入动作序列中;
重复滚动迭代数次后,在到达指定时间或终止状态时得到一个最优动作序列,其中,h小于等于k。
2.根据权利要求1所述的方法,其特征在于,所述飞机模型的输出为状态向量s=(V,α,β,θ,φ,ψ,q,p,r,x,y,h)T,其中包含空速V,迎角α,侧滑角β,俯仰角θ,滚转角Φ,偏航角ψ,滚转角速率p,俯仰角速率q,偏航角速率r,轴向坐标x,横向坐标y,以及高度H。
3.根据权利要求2所述的方法,其特征在于,建立飞机模型,具体包括:
建立状态向量s与升降舵、副翼、方向舵的偏度以及油门杆位置的函数s=f(Δδe,Δδa,Δδr,ΔδT)并定义飞机模型的状态变量更新周期为ts,其中Δδe,Δδa,Δδr,ΔδT分别为升降舵、副翼、方向舵的偏度以及油门杆位置;
定义驾驶杆、脚蹬和油门杆的动作空间A,离散形式A={a1,a2,...,aL},L为可选动作总数,动作空间是驾驶杆、脚蹬和油门杆组合操纵不同结果的集合;
根据预定周期ts,在动作空间A中进行动作选择,得到动作序列a1,...,aN
根据函数s=f(Δδe,Δδa,Δδr,ΔδT)和动作序列a1,...,aN得到状态序列S=s1,1,s2,1,...,sM,1,s1,2,...,sM,2,...,sM,N,其中,每个动作持续固定时长ta,要求ta>ts,M=ta/ts,策略深度为N。
4.根据权利要求1所述的方法,其特征在于,以更新后的飞机状态作为搜索模型的新输入进行搜索,具体为:
根据状态序列S和评价机制建立多维激励向量r,其中,r(s1,1,s2,1,...,sM,N)=(r1,r2,...,rd);
利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a1,...,aN进行搜索,在给定的预算内对所述搜索过程重复进行得到多个符合条件的动作序列;
从多个符合条件的动作序列中选择得到最优的一个动作序列。
5.根据权利要求4所述的方法,其特征在于,利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a1,...,aN进行搜索,具体包括:
树内游走阶段,
以As来表示节点O下所有可选的子节点(s,a)集合;
以选择过的动作序列作为帕累托向量集P中的元素,将新选择的动作序列与帕累托向量集P中的元素进行比较选优;
在新选择的动作序列优于帕累托向量集P中的所有元素的情况下,赋予此次游走的激励ru;dom=1,否则激励ru;dom=0,建立衡量指标g(s,a),其中,下标u表示到达树内游走的终止状态,下标dom表示激励类型为帕累托最优激励;
根据衡量指标g(s,a)选择下一步的子节点,
Figure FDA0003222596780000021
树增长阶段,
当树内游走抵达叶子节点时树增长结束,或当树内游走抵达未完成节点时,随机选择一个动作,并将节点(s,a)添加为所述未完成节点的子节点;
随机游走阶段,
添加了叶子节点后,根据所选择的a更新s得到下一节点的(s,a),直到抵达终止状态u或者动作序列长度达到策略深度所限值为止;
更新回溯阶段,
根据
Figure FDA0003222596780000022
δ∈[0,1],ts,a←t;ns,a←ns,a+1;ns←ns+1,对树内游走和树增长阶段访问过的所有节点的
Figure FDA0003222596780000023
ns和ns,a信息进行更新,根据更新后的
Figure FDA0003222596780000024
ns和ns,a确定游走经过的节点信息,并将经过的所有节点组成动作序列a1,...,aN,其中,ns表示被访问次数,ns,a表示各子节点的被访问次数,t表示当前已进行的游走次数,δ表示衰减系数取值在0-1之间,ts,a表示在t次游走过程中节点(s,a)上一次被访问时的次数,Δt=t-ts,a,每次游走的激励ru;dom
6.根据权利要求5所述的方法,其特征在于,衡量指标g(s,a)为
Figure FDA0003222596780000031
其中,
Figure FDA0003222596780000032
δ∈[0,1],ce为探索-继承权衡系数取值在0-1之间。
7.根据权利要求4所述的方法,其特征在于,从多个符合条件的动作序列中选择得到最优的一个动作序列,具体为:
根据
Figure FDA0003222596780000033
从多个符合条件的动作序列中选择得到最优的一个动作序列。
8.根据权利要求5所述的方法,其特征在于,树内游走阶段,每次游走从根节点开始,迭代式地下移到当前节点的子节点,直到抵达搜索树中的叶子节点或未完成节点为止。
CN202110962512.6A 2021-08-20 2021-08-20 一种近实时机动轨迹生成与跟踪的控制方法 Pending CN113759717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962512.6A CN113759717A (zh) 2021-08-20 2021-08-20 一种近实时机动轨迹生成与跟踪的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962512.6A CN113759717A (zh) 2021-08-20 2021-08-20 一种近实时机动轨迹生成与跟踪的控制方法

Publications (1)

Publication Number Publication Date
CN113759717A true CN113759717A (zh) 2021-12-07

Family

ID=78790701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962512.6A Pending CN113759717A (zh) 2021-08-20 2021-08-20 一种近实时机动轨迹生成与跟踪的控制方法

Country Status (1)

Country Link
CN (1) CN113759717A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112356830A (zh) * 2020-11-25 2021-02-12 同济大学 一种基于模型强化学习的智能泊车方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111884213A (zh) * 2020-07-27 2020-11-03 国网北京市电力公司 一种基于深度强化学习算法的配电网电压调节方法
CN112356830A (zh) * 2020-11-25 2021-02-12 同济大学 一种基于模型强化学习的智能泊车方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏文领等: "基于蒙特卡罗搜索树的机动控制研究", 《测控技术》, vol. 39, no. 11, pages 126 - 132 *

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN114048889B (zh) 基于长短期记忆网络的飞行器轨迹预测的方法
CN112198870B (zh) 基于ddqn的无人机自主引导机动决策方法
CN110308740B (zh) 一种面向移动目标追踪的无人机群动态任务分配方法
CN112162555B (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN111897353B (zh) 基于gru的飞行器机动轨迹预测方法
CN111006693B (zh) 智能飞行器航迹规划系统及其方法
CN116243729B (zh) 一种基于固定翼集群无人机在线分组的相位协同规划方法
CN112987799A (zh) 一种基于改进rrt算法的无人机路径规划方法
CN114253296A (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
WO2023197092A1 (zh) 一种基于改进rrt算法的无人机路径规划方法
CN112947541A (zh) 一种基于深度强化学习的无人机意图航迹预测方法
CN115826601A (zh) 基于逆向强化学习的无人机路径规划方法
CN112819303A (zh) 基于pce代理模型的飞行器追踪效能评估方法及系统
Jackson et al. Tracking controllers for small UAVs with wind disturbances: Theory and flight results
CN113268074A (zh) 一种基于联合优化的无人机航迹规划方法
CN114819068A (zh) 一种混合型目标航迹预测方法及系统
CN116974299A (zh) 基于延迟经验优先回放机制的强化学习无人机航迹规划方法
CN106980262A (zh) 基于核递归最小二乘算法的自适应飞行器鲁棒控制方法
Zhang et al. UAV path planning based on receding horizon control with adaptive strategy
CN113759717A (zh) 一种近实时机动轨迹生成与跟踪的控制方法
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
CN116518982A (zh) 一种低空林业监测遥感无人机路径多目标规划方法
Zhu et al. Multi-constrained intelligent gliding guidance via optimal control and DQN
Lei et al. Kb-tree: Learnable and continuous monte-carlo tree search for autonomous driving planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination