CN113759717A

CN113759717A - 一种近实时机动轨迹生成与跟踪的控制方法

Info

Publication number: CN113759717A
Application number: CN202110962512.6A
Authority: CN
Inventors: 刘佩; 冯煜捷; 姜超; 王昊
Original assignee: Xian Flight Automatic Control Research Institute of AVIC
Current assignee: Xian Flight Automatic Control Research Institute of AVIC
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-07

Abstract

本发明涉及但不限于航空技术领域，尤指一种近实时机动轨迹生成与跟踪的控制方法。包括：定义飞机的初始状态S₀，以初始状态S₀作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a₁,...,a_k，其中k为单次滚动迭代的步长；选取该次滚动迭代所生成动作序列a₁,...,a_k中的前h个动作a₁,...,a_h作为飞机模型的输入对飞机状态进行更新并得到更新后的飞机状态；以更新后的飞机状态作为搜索模型的新输入进行搜索，将每次滚动迭代过程中选取的h个动作a₁,...,a_h依次放入动作序列中；重复滚动迭代数次后，在到达指定时间或终止状态时得到一个最优动作序列，h小于等于k。本发明实现了边飞边解算的近实时轨迹生成与控制，解决了机动轨迹生成与跟踪的实时性问题。

Description

一种近实时机动轨迹生成与跟踪的控制方法

技术领域

本发明涉及但不限于航空技术领域，尤指一种近实时机动轨迹生成与跟踪的控制方法。

背景技术

未来战争中空中战场的态势愈将趋于复杂，取得制空权至关重要。战术机动是无人作战飞机进行空战的关键技术。空中作战的激烈性和复杂性对机动轨迹生成的实时性提出了要求。先前研究是基于离线方法求解机动参考轨迹，具体思路是通过多目标蒙特卡洛树搜索(MOMCTS，Multi-Object Monte-Carlo Tree Search)算法反复计算和寻优得到最优离线参考轨迹，然后设计控制律进行轨迹跟踪。该方法可以解决机动轨迹生成问题，但无法解决实时性问题。

发明内容

本发明的目的：提供一种近实时机动轨迹生成与跟踪的控制方法，解决机动轨迹生成与跟踪的实时性问题。

本发明的技术方案：

第一方面，提供了一种近实时机动轨迹生成与跟踪的控制方法，所述方法利用飞机模型、搜索模型和滚动时域模型结合进行，所述方法包括：

定义飞机的初始状态S₀，以初始状态S₀作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a₁,...,a_k，其中k为单次滚动迭代的步长；

选取该次滚动迭代所生成动作序列a₁,...,a_k中的前h个动作a₁,...,a_h作为飞机模型的输入对飞机状态进行更新并得到更新后的飞机状态；

以更新后的飞机状态作为搜索模型的新输入进行搜索，将每次滚动迭代过程中选取的h个动作a₁,...,a_h依次放入动作序列中；

重复滚动迭代数次后，在到达指定时间或终止状态时得到一个最优动作序列，其中，h小于等于k。

进一步地，所述飞机模型的输出为状态向量s＝(V,α,β,θ,φ,ψ,q,p,r,x,y,h)^T，其中包含空速V，迎角α，侧滑角β，俯仰角θ，滚转角Φ，偏航角ψ，滚转角速率p，俯仰角速率q，偏航角速率r，轴向坐标x，横向坐标y，以及高度H。

进一步地，建立飞机模型，具体包括：

建立状态向量s与升降舵、副翼、方向舵的偏度以及油门杆位置的函数s＝f(Δδ_e,Δδ_a,Δδ_r,Δδ_T)并定义飞机模型的状态变量更新周期为t_s，其中Δδ_e,Δδ_a,Δδ_r,Δδ_T分别为升降舵、副翼、方向舵的偏度以及油门杆位置；

定义驾驶杆、脚蹬和油门杆的动作空间A，离散形式A＝{a₁,a₂,...,a_L}，L为可选动作总数，动作空间是驾驶杆、脚蹬和油门杆组合操纵不同结果的集合；

根据预定周期t_s，在动作空间A中进行动作选择，得到动作序列a₁,...,a_N；

根据函数s＝f(Δδ_e,Δδ_a,Δδ_r,Δδ_T)和动作序列a₁,...,a_N得到状态序列S＝s_1,1,s_2,1,...,s_M,1,s_1,2,...,s_M,2,...,s_M,N，其中，每个动作持续固定时长t_a，要求t_a>t_s，M＝t_a/t_s，策略深度为N。

进一步地，以更新后的飞机状态作为搜索模型的新输入进行搜索，具体为：

根据状态序列S和评价机制建立多维激励向量r，其中，r(s_1,1,s_2,1,...,s_M,N)＝(r₁,r₂,...,r_d)；

利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a₁,...,a_N进行搜索，在给定的预算内对所述搜索过程重复进行得到多个符合条件的动作序列；

从多个符合条件的动作序列中选择得到最优的一个动作序列。

进一步地，利用所述飞机模型以及多目标蒙特卡洛树搜索算法对动作序列a₁,...,a_N进行搜索，具体包括：

树内游走阶段，

以A_s来表示节点O下所有可选的子节点(s,a)集合；

以选择过的动作序列作为帕累托向量集P中的元素，将新选择的动作序列与帕累托向量集P中的元素进行比较选优；

在新选择的动作序列优于帕累托向量集P中的所有元素的情况下，赋予此次游走的激励r_u；dom＝1，否则激励r_u；dom＝0，建立衡量指标g(s,a)，其中，下标u表示到达树内游走的终止状态，下标dom表示激励类型为帕累托最优激励；

根据衡量指标g(s,a)选择下一步的子节点，

树增长阶段，

当树内游走抵达叶子节点时树增长结束，或当树内游走抵达未完成节点时，随机选择一个动作，并将节点(s,a)添加为所述未完成节点的子节点；

随机游走阶段，

添加了叶子节点后，根据所选择的a更新s得到下一节点的(s,a)，直到抵达终止状态u或者动作序列长度达到策略深度所限值为止；

更新回溯阶段，

根据

t_s,a←t；n_s,a←n_s,a+1；n_s←n_s+1，对树内游走和树增长阶段访问过的所有节点的

n_s和n_s,a信息进行更新，根据更新后的

n_s和n_s,a确定游走经过的节点信息，并将经过的所有节点组成动作序列a₁,...,a_N，其中，n_s表示被访问次数，n_s,a表示各子节点的被访问次数，t表示当前已进行的游走次数，δ表示衰减系数取值在0-1之间，t_s,a表示在t次游走过程中节点(s,a)上一次被访问时的次数，Δt＝t-t_s,a，每次游走的激励r_u；dom。

进一步地，衡量指标g(s,a)为

其中，

c_e为探索-继承权衡系数取值在0-1之间。

进一步地，从多个符合条件的动作序列中选择得到最优的一个动作序列，具体为：

根据

进一步地，树内游走阶段，每次游走从根节点开始，迭代式地下移到当前节点的子节点，直到抵达搜索树中的叶子节点或未完成节点为止。

本发明的优点：

解决机动轨迹生成与跟踪的实时性问题，通过基于滚动时域优化(RHO,RecedingHorizon Optimize)的改进算法实现边飞边解算的近实时轨迹生成与控制。

附图说明：

图1为无人机非线性六自由度模型结构图。

图2为MOMCTS算法概述。

图3为基于滚动时域优化的机动问题解决流程图。

具体实施方式：

针对上述依赖于标准机动动作库或者驾驶员经验的机动控制问题提出基于滚动时域优化实现近实时机动轨迹生成与跟踪的控制方法，实现边飞边解算的近实时轨迹控制。

通过建立基于MOMCTS算法的搜索模型在每一步迭代中寻找最优机动序列，然后建立飞机模型更新飞机状态，最后建立滚动时域模型不断向前迭代去逐渐逼近最终状态，直到得到完整的机动控制动作序列。

技术方案包括：步骤1、建立飞机模型，确定飞机操纵与飞行状态之间的关系；步骤2、建立基于MOMCTS算法的搜索模型，实现最优机动参考轨迹的生成；步骤3、建立滚动时域模型，通过调用步骤1建立的飞机模型和步骤2建立的搜索模型，进行滚动迭代，实现边搜索边跟踪的近实时轨迹生成与跟踪的目的。

下面结合附图详细说明。

步骤1：飞机仿真建模。

飞机模型介绍：

将机动控制问题可被抽象成一个马尔可夫决策过程(MDP，Markov DecisionProcess)，并对飞机的状态进行描述以完成飞机建模。飞机的空速V，迎角α，侧滑角β，俯仰角θ，滚转角Φ，偏航角ψ，滚转角速率p，俯仰角速率q，偏航角速率r，轴向坐标x，横向坐标y，以及高度H共同定义了飞机在运动过程中的状态向量。某型无人机的非线性六自由度模型结构如图1所示。首先通过大气模型计算出的空气密度、飞机的气动数据以及操纵机构的偏度等进行空气动力的计算，然后将计算出的空气动力、气动力矩以及推力代入飞机的运动方程中即可输出飞机的各飞行状态参数。

在机体坐标系下建立飞机质心动力学方程，如下式所示：

在机体坐标系下建立的绕飞机质心转动的动力学方程，如下式所示：

建立飞机质心的运动学方程，如下式所示：

建立绕飞机质心转动的运动学方程，如下式所示：

将飞机模型输出的12个状态量组成一个状态向量s＝(V,α,β,θ,φ,ψ,q,p,r,x,y,h)^T。由飞机运动方程可知，s是升降舵、副翼、方向舵的偏度以及油门杆位置的函数，记为s＝f(Δδ_e,Δδ_a,Δδ_r,Δδ_T)。设状态变量更新的时间间隔为t_s。

由于无人机的控制可通过地面站操纵虚拟驾驶杆、脚蹬和油门杆来进行，而驾驶杆、脚蹬和油门杆的操纵可控制飞机产生升降舵偏度Δδ_e、副翼偏度Δδ_a、方向舵偏度Δδ_a以及油门杆移动位置Δδ_T。因此将驾驶杆、脚蹬和油门杆组合操纵不同结果的集合定义为动作空间A，用集合A＝{a₁,a₂,...,a_L}表示，其中，L为可选动作总数,a为可选择的机动动作。定义的动作空间A即可生成相应的Δδ_e,Δδ_a,Δδ_r,Δδ_T，从而建立了动作a与飞机状态s的联系。

根据函数s＝f(Δδ_e,Δδ_a,Δδ_r,Δδ_T)和动作序列a₁,...,a_N得到状态序列S＝s_1,1,s_2,1,...,s_M,1,s_1,2,...,s_M,2,...,s_M,N。其中，每个动作持续固定时长t_a，要求t_a>t_s，M＝t_a/ts，策略深度为N。

由此，机动控制问题的解决方案可以描述为用一个动作序列a₁,...,a_N来表示机动控制。该动作序列通过控制舵面偏转使飞机运动并产生如上所述的一个状态序列(或称“机动轨迹”)S＝s_1,1,s_2,1,...,s_M,1,s_1,2,...,s_M,2,...,s_M,N，每个s_i,j都是一个12元组，其中i,j表示动作序列中第j个动作拍内的第i个模型拍。

s_i,j＝(V_i,j,α_i,j,β_i,j,θ_i,j,φ_i,j,ψ_i,j,q_i,j,p_i,j,r_i,j,x_i,j,y_i,j,h_i,j)i＝1,2,…,M；j＝1,2,…,N (5)

步骤2：基于MOMCTS算法的离线轨迹生成。

多目标蒙特卡洛搜索树是经典蒙特卡洛搜索树算法在多目标优化问题上的扩展。在一个MOMCTS树上，每个节点代表一个被访问过的状态，并记录着该状态对应的平均激励值向量，被访问次数n_s，和各子节点的被访问次数n_s,a。节点O的每个子节点(s,a)代表在状态s下的一个可选动作a。

动作序列搜索：

从只有一个根节点存在的初始状态开始，MOMCTS算法通过一次次的“游走”逐渐开发出一棵搜索树。每次游走都由树内游走阶段、树增长阶段、随机游走和更新回溯阶段四部分组成(如图2所示)。

1)树内游走阶段

每次游走从根节点开始，迭代式地下移到当前节点的子节点，直到抵达搜索树中的叶子节点(无子节点的节点)或未完成节点(有未开发子节点的节点)为止。以A_s表示节点O下所有可选的子节点(s,a)集合。

选择帕累托最优激励作为衡量指标。如果某次游走发现了一个没有被现有帕累托向量集P中元素支配的激励向量，则赋予此次游走的激励r_u；dom＝1；否则，激励r_u；dom＝0。其中下标u表示到达树内游走的终止状态，下标dom表示激励类型为帕累托最优激励。

记Δt＝t–t_s,a，此处t表示当前已进行的游走次数，t_s,a表示在t次游走过程中节点(s,a)上一次被访问时的t值。我们在搜索树中每个节点上维护一个随Δt衰减的可积累的激励值(CDD，Cumulative Discounti-ng Dominance)，并按照下述公式更新这个值：

t_s,a←t；n_s,a←n_s,a+1；n_s←n_s+1 (7)

记δ为衰减系数,用于降低激励中较久远信息对决策的影响程度，以使决策偏重于考虑更能反映近期情况的信息。定义如下基于CDD激励的节点选择指标：

其中，c_e为探索-继承权衡系数。在继承已具有优势的节点和探索未被开发但具有希望的节点之中进行平衡。

依据给定的衡量指标g(s,a)来选择下一步的子节点：

2)树增长阶段

当树内游走抵达叶子节点时树增长结束，或当树内游走抵达未完成节点时，随机选择一个动作，并将节点(s,a)添加为O的子节点。可以发现，每次游走都会在树增长阶段为搜索树添加一个叶子节点，因此搜索树的大小等同于游走次数。

3)随机游走阶段

添加了叶子节点后，从该节点开始迭代并进行随机动作的选择，根据所选动作进行状态更新，直到抵达终止状态u或者动作序列长度达到策略深度所限值为止。

4)更新回溯阶段

游走结束后，需要对到达状态u所经过的所有节点组成的动作序列进行评估，以获得多维激励向量r_u。如果r_u没有被现有帕累托向量集P中任何元素支配，则将r_u加入P中，并剔除P中被r_u支配的所有向量，记此次游走获得的激励r_u；dom＝1；否则记r_u；dom＝0。

根据

n_s和n_s,a信息进行更新，根据更新后的

n_s和n_s,a确定游走经过的节点信息，并将经过的所有节点组成动作序列a₁,...,a_N，其中，n_s表示被访问次数，n_s,a表示各子节点的被访问次数，t表示当前已进行的游走次数，δ表示衰减系数取值在0-1之间，t_s,a表示在t次游走过程中节点(s,a)上一次被访问时的次数，Δt＝t-t_s,a，每次游走的激励为r_u；dom。每次搜索都会得到一个动作序列。

最优动作序列选择：

根据状态序列S和评价机制建立多维激励向量r，其中，r(s_1,1,s_2,1,...,s_M,N)＝(r₁,r₂,...,r_d)，其中d为收益值的个数；此处设计多维激励向量是为了从多个角度衡量一个状态序列(机动轨迹)的质量。不失一般性地，我们认为所有激励都应被最大化，因此一个机动飞行问题就可以被定义为寻找动作序列π*＝{a₁,a₂,...,a_N}，使得收益最大化的问题。

根据

步骤3：基于滚动时域优化改进MOMCTS算法的近实时轨迹生成。

滚动时域优化是20世纪70年代由工业界首先构思出来的一种控制方法，其核心是在线滚动优化。这是一种近实时计算的方法，将广义控制全局问题的求解转化为在线滚动进行的一系列局部优化问题，使得计算的复杂性和计算资源消耗都大幅降低。

滚动时域优化把整个任务过程分成一个个相互重叠的(单步预测时是不重叠的)但是不断向前推进的优化区间，在某一滚动时域的开始，用系统当前的状态作为初始条件，在线求解该有限时域的开环最优控制问题，得到最优控制序列。并在该时刻只取用第一个控制信号实际作用到系统中，在下一滚动时域，重复以上过程，随着动态过程的延续，控制算法推进预测时域向前滚动，从而形成滚动优化。对于含约束等限制条件下，在不知道未来运动信息的条件下，滚动时域控制是一种有效的控制方法。

通过建立搜索模型、飞机模型和滚动时域优化模型来描述机动问题解决方案，各模型交联关系如图3所示：

搜索模型负责在每步迭代过程中解算机动动作序列。假设飞机的初始状态为S₀(包含12个状态的集合)，搜索模型在该状态下执行MOMCTS算法解算，以初始状态S₀作为搜索模型的输入进行搜索得到单次滚动迭代下的动作序列a₁,...,a_k，其中k为单次滚动迭代的步长。

飞机模型基于搜索得到的动作序列更新飞机状态S_i→S_i+1，其中，该次滚动迭代所生成动作序列a₁,...,a_k中的前h个动作a₁,...,a_h选取作为为飞机模型的输入。从而实现大时间尺度上的边飞边解算的可能，离实时搜索更靠近一步。

滚动时域优化模型负责迭代更新动作序列并得到最终动作序列。每步迭代都以更新后的飞机状态作为搜索模型的新输入进行搜索，将每次滚动迭代过程中选取的h个动作a₁,...,a_h依次放入动作序列中。每向前迭代一步，动作序列长度增加。直到最终实现机动目标或者达到搜索的步长时迭代停止，生成最终动作序列。