CN111006693A

CN111006693A - 智能飞行器航迹规划系统及其方法

Info

Publication number: CN111006693A
Application number: CN201911289037.XA
Authority: CN
Inventors: 丁国如; 谷江春; 王海超; 孙佳琛; 林凡迪
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-14
Anticipated expiration: 2039-12-12
Also published as: CN111006693B

Abstract

一种智能飞行器航迹规划系统及其方法，包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块；描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述；建立模块用于建立多定位误差约束下航迹快速规划数学模型；马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式；强化学习模块用于对马尔可夫决策过程的形式引入强化学习；设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。结合其它结构或方法有效避免了现有技术中航迹规划算法具有一定的随机性、复杂度高、在大规模、广域条件下无法高效求解的缺陷。

Description

智能飞行器航迹规划系统及其方法

技术领域

本发明涉及智能飞行器技术领域，也涉及航迹规划技术领域，具体涉及一种智能飞行器航迹规划系统及其方法，尤其涉及一种基于强化学习的智能飞行器航迹快速规划系统及其方法。

背景技术

智能飞行器的原形有点像无人驾驶机，但是更加先进和智能化，其是随着信息技术的快速发展，有人机在高动态的对抗环境下面临着极大的挑战的条件下，使得智能飞行器应运而生，特别是在执行一些危险的任务时，智能飞行器能够灵活应变，在高效完成任务的同时，有效避免了经济和人员的损失。

飞行器航迹规划是实现智能飞行器自动导航的一项关键技术，是人工智能及导航与制导领域中的重要研究方向之一。智能飞行器去执行一定的飞行任务，其中规划出一条可行的航迹便是智能飞行器最基本的任务。根据不同的任务需求，航迹要求也会有所不同，如航迹长度最短，飞行时间最短以及能耗最低等等。

复杂环境下航迹快速规划是智能飞行器控制的一个重大挑战。在飞行过程中，智能飞行器的飞行航迹受到两方面的影响，第一方面是所飞行的区域有特殊的限制条件，比如说禁飞区，干扰区以及地理因素引起的障碍区；第二方面是由于智能飞行器自身因素引起的限制，比如说最小转弯半径，最大飞行能耗，定位精度等。特别的，智能飞行器在飞行过程中的定位精度对智能飞行器的航迹起到至关重要的作用，由于定位精度较低会产生一定的定位误差，定位误差包括垂直误差和水平误差，一旦定位误差积累到一定程度可能导致飞行航迹偏离，因此需要及时对定位误差进行校正，即每飞行一段距离去校正点校正误差。

现有的航迹规划算法很多，包括经典的粒子群算法、模拟退火算法、遗传算法以及蚁群算法等，但是上述算法具有一定的随机性，并且复杂度高，在大规模、广域条件下无法高效求解。

发明内容

为解决上述问题，本发明提供了一种智能飞行器航迹规划系统及其方法，有效避免了现有技术中航迹规划算法具有一定的随机性、复杂度高、在大规模、广域条件下无法高效求解的缺陷。

为了克服现有技术中的不足，本发明提供了一种智能飞行器航迹规划系统及其方法的解决方案，具体如下：

一种智能飞行器航迹规划系统的规划方法，包括如下步骤：

步骤1：对多定位误差约束下航迹快速规划的优化问题进行描述；

步骤2：建立多定位误差约束下航迹快速规划数学模型；

步骤3：将步骤2中的快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式；

步骤4：对马尔可夫决策过程的形式引入强化学习；

步骤5：对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。

进一步地，所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述，该描述的内容包括：

针对智能飞行器在设定的区域内飞行，在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点；所述智能飞行器从设定的区域内的出发点位置A飞往设定的区域内的目的地位置B，智能飞行器每飞行一段距离，将会产生飞行误差，此飞行误差包括垂直误差和水平误差；而智能飞行器每飞行一段距离，垂直误差和水平误差将各增加δ个单位，如果水平误差和垂直误差均小于θ个单位时，则智能飞行器可以正常按照设定的航迹飞行，这里δ和θ均为不小于 0的整数，θ为预先设定的值；

在飞行过程中智能飞行器需要不断地校正自身的飞行误差，智能飞行器只要经过水平误差校正点，则水平误差校正为0，即水平误差为0，其余不变，即垂直误差保持不变；智能飞行器只要经过垂直误差校正点，则垂直误差校正为0，即垂直误差为0，其余不变，即水平误差保持不变；并且智能飞行器进行垂直误差校正时，需要满足当前垂直误差小于α₁个单位，水平误差小于α₂个单位；进行水平误差校正时，需要满足当前垂直误差小于β₁个单位，水平误差小于β₂个单位，这样就构成了多定位误差约束下航迹快速规划的优化问题，α₁、α₂、β₁和β₂均为预先设定的正整数。

进一步地，所述航迹快速规划数学模型包含优化目标、优化变量以及约束条件，所述优化目标、优化变量以及约束条件包括如下内容：

根据所述智能飞行器的整个航迹中共经过的N次校正，另记两种特殊情况如下：

(1)当n＝0时，飞行器在出发点位置A，该位置不用校正；

(2)当n＝N+1时，飞行器到达目的地位置B，该位置不用校正；

第n次校正前的定位误差记为e[n]＝[eVer[n] eHor[n]]，其中eVer[n]为第n次校正前的垂直误差，eHor[n]为第n次校正前的水平误差；这里所述的第n次校正前的误差，是指智能飞行器飞行至校正点时还未进行校正的瞬间的误差，该校正点为水平误差校正点或若干垂直误差校正点；第n-1次校正后到第n次校正前智能飞行器飞行的距离为d[n]；

根据约束条件中的水平误差和垂直误差均小于θ个单位时，则智能飞行器可以正常按照设定的航迹飞行，用公式(1)表达：

C1：e[n]≤[θ θ] (1)

根据约束条件中的飞行器进行垂直误差校正时，需要满足当前垂直误差小于α₁个单位，水平误差小于α₂个单位；智能飞行器进行水平误差校正时，需要满足当前垂直误差小于β₁个单位，水平误差小于β₂个单位，用公式(2)表达：

其中F表征的是校正点类型，当第n次校正所在的校正点为垂直误差校正点时，F[n]＝[1 0]，校正点为水平误差校正点时，F[n]＝[0 1]；

针对途径最后一次校正点至目的地位置B的飞行过程，按照约束条件中的水平误差和垂直误差均小于θ个单位时，则智能飞行器可以正常按照设定的航迹飞行，用公式(3)表示：

C3:e[N+1]≤[θ θ] (3)

定位误差的初始值设为公式(4)：

C4:e[0]＝[0 0] (4)

根据误差校正规则中的智能飞行器进行垂直误差校正时，需要满足当前垂直误差小于α₁个单位，水平误差小于α₂个单位；进行水平误差校正时，需要满足当前垂直误差小于β₁个单位，水平误差小于β₂个单位，用公式(5)表示：

C5:e[n+1]＝e[n]-e[n]·F^T[n]·F[n]+[δ·d[n+1] δ·d[n+1]] (5)

由此，优化目标为航迹总长度：

其中，d[N+1]表示第N 次校正后到不进行校正目的地位置B的飞行距离；

综上所述，多定位误差约束下航迹快速规划数学模型用公式(6) 如下所示：

所述步骤3中的将数学模型表述为马尔可夫决策过程，具体包括：

首先将数学模型叙述为一个MDP过程，其中：

S：表示设定的区域的整个空间中可以校正误差的误差校正点；

A：表示智能飞行器下一次选择到达的误差校正点；

P：状态转移概率由C1,C2,C3决定，如果同时满足以上3个约束，智能飞行器的状态转移概率为1，否则为0，P如公式(7)所示：

接着，当智能飞行器选择了一个校正点时，环境就给智能飞行器一个回报值R，R如公式(8)所示：

其中d_AB表示出发点位置A和目的地位置B之间的线段AB的长度，d_rest表示下一个状态到终点B点的距离，此距离可用搜索算法随机探索一个，若无可行路径，则回报值R＝-10000，若d_rest越小，则R值越大，所述下一个状态表示所述飞行器选择的校正点的下一个校正点。

进一步地，所述步骤4中的对马尔可夫决策过程的形式引入强化学习，包括：

通过bellman方程求解马尔科夫决策过程的最佳决策序列，所述 bellman方程包括状态值函数递推公式和状态值函数递推公式；

所述状态值函数递推公式如公式(11)所示：

v_π(s)＝E_π(G_t|S_t＝s)＝E_π(R_t+1+γR_t+2+γ²R_t+3+…|S_t＝s)

v_π(s)＝E_π(R_t+1+γv_π(S_t+1)|S_t＝s)

(11)

其中，E_π(G_t|S_t＝s)表示在状态s下求累计奖励G_t的均值；S_t＝s表示飞行器在t时刻所处的状态为s，R_t表示飞行器在t时刻获得的奖励，γ表示折扣因子，γ∈(0，1)。

所述状态值函数递推公式如公式(12)所示：

q_π(s,a)＝E_π(G_t|S_t＝s,A_t＝a)＝E_π(R_t+1+γR_t+2+γ²R_t+3+…|S_t＝s,A_t＝a)

＝E_π(R_t+1+γq_π(S_t+1,A_t+1)|S_t＝s,A_t＝a)

(12)

其中，q_π(S_t+1,A_t+1)表示在t+1时刻所处状态S_t+1执行动作A_t+1对应的值函数。

在训练过程中，用所述bellman方程去更新作为Q-table的q(s_t,a_t)，因此，Q-table的更新公式为公式(13)所示：

其中，α表示学习速率。

最后，用生成的Q-table去指导智能飞行器在某一个状态下选取对应于Q值最大的动作，即选取下一个误差校正点，一直到目的地位置点B。

进一步地，所述步骤5中的设计基于强化学习的智能飞行器航迹快速规划算法并求解，包括如下步骤：

步骤5-1：初始化，所述初始化包括设定实验最大迭代次数M_epi，学习速率α，衰减因子λ，探索参数

值函数Q(s,a),

,a∈A，给定起始状态q_S＝q[0]，m_epi＝0；

步骤5-2：更新阶段，所述更新阶段包括如下顺序执行的方式：

(a)：根据ε贪婪策略在状态s选择动作a，其中

即有ε的概率选取贪婪策略，1-ε的概率随机选择动作。

(b)：误差更新： e[n+1]＝e[n]-e[n]·F^T[n]·F[n]+[δ·d[n+1] δ·d[n+1]]，

(c)：计算

(d)：更新

(e)：更新s←s'，a←a'，m_epi＝m_epi+1，

步骤5-3：判断m_epi＞M_epi是否满足，如果满足，算法停止；否则，执行步骤5-2；

步骤5-4：通过Q-table计算航迹长度，所述通过Q-table计算航迹长度即从出发点位置A点开始，通过Q-table查找当前状态所在行中最大Q值对应的列即为下一个动作和状态，直到到达目的地位置B 点。

所述智能飞行器航迹规划系统，包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块；

所述描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述；

所述建立模块用于建立多定位误差约束下航迹快速规划数学模型；

所述马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式；

所述强化学习模块用于对马尔可夫决策过程的形式引入强化学习；

所述设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。

本发明的有益效果为：

通过引入强化学习算法，实现飞行器定位精度限制下的航迹长度最小化，具体而言，本发明的有益效果包括：

1、本发明可较好地解决智能飞行器在复杂环境下精确定位受限的情况下，快速规划航迹的问题；

2、通过引入强化学习方法，使得智能飞行器精准快速到达目标点，降低了算法的复杂度，实现了航迹长度的最小化，并且不依赖于智能飞行器的起始状态和终止状态。

附图说明

图1为本发明的智能飞行器航迹规划系统的规划方法的流程图。

图2为本发明的实施例中的系统场景示意图。

图3为本发明的实施例中的算法收敛图。

图4为本发明的实施例中的飞行器航迹图。

具体实施方式

强化学习方法是近年来的研究热门，著名的AlphaGo的核心算法就是用到了强化学习算法。强化学习算法被广泛用来解决智能决策问题，或者是序贯决策问题。将强化学习应用到航迹规划中，智能飞行器每走一段距离，即可获得环境给予的一个回报，并且当前的状态按照一定的规则转移到下一个状态，智能飞行器再次飞行一段距离，反复迭代，直到抵达目的地，整个算法的目标是使得所获得的累计回报最大。强化学习应用到路径规划已经掀起了热浪，包括用强化学习解决经典的旅行商问题等。

下面将结合附图和实施例对本发明做进一步地说明。

智能飞行器航迹规划系统的规划方法，包括如下步骤：

步骤2：建立多定位误差约束下航迹快速规划数学模型；

步骤4：对马尔可夫决策过程的形式引入强化学习并介绍基本原理；

所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述，该描述的内容包括：

针对智能飞行器在设定的区域内飞行，该设定的区域的大小就如长、宽和高均为100000m的大小，如图1所示，也就是100000m× 100000m×100000m大小，在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点，所述水平误差校正点和垂直误差校正点的位置坐标均为已知，所述水平误差校正点和若干垂直误差校正点可以由不同颜色来标示，比如紫红色点表示水平误差校正点，蓝色点为垂直误差校正点；所述智能飞行器从设定的区域内的出发点位置 A飞往设定的区域内的目的地位置B，在实际飞行过程中，由于智能飞行器自身硬件和外界环境的影响，智能飞行器每飞行一段距离，将会产生一定的飞行误差，此飞行误差包括垂直误差和水平误差；而智能飞行器每飞行如1m这样的一段距离，垂直误差和水平误差将各增加δ个单位，如果水平误差和垂直误差均小于θ个单位时，则智能飞行器可以正常按照设定的航迹飞行，这里δ和θ均为不小于0的整数，θ为预先设定的值；

要实现精准定位，在飞行过程中智能飞行器需要不断地校正自身的飞行误差，智能飞行器只要经过如用紫红色点表示的水平误差校正点，则水平误差校正为0，即水平误差为0，其余不变，即垂直误差保持不变；智能飞行器只要经过如用蓝色点表示的垂直误差校正点，则垂直误差校正为0，即垂直误差为0，其余不变，即水平误差保持不变；并且智能飞行器进行垂直误差校正时，需要满足当前垂直误差小于α₁个单位，水平误差小于α₂个单位；进行水平误差校正时，需要满足当前垂直误差小于β₁个单位，水平误差小于β₂个单位，这样就构成了多定位误差约束下航迹快速规划的优化问题，α₁、α₂、β₁和β₂均为预先设定的正整数。本发明要让智能飞行器从出发点位置A出发，期间通过不断校正自身的误差，满足飞行精准定位的约束的同时，顺利到达目的地位置B点，并且使得航迹长度最小。

所述航迹快速规划数学模型包含优化目标、优化变量以及约束条件，所述优化目标、优化变量以及约束条件包括如下内容：

根据所述智能飞行器的整个航迹中共经过的N次校正，而第n次校正中的n为1到N的整数，N为正整数。为方便描述，另记两种特殊情况如下：

(1)当n＝0时，飞行器在出发点位置A，该位置不用校正；

(2)当n＝N+1时，飞行器到达目的地位置B，该位置不用校正；

第n次校正前的定位误差记为e[n]＝[eVer[n] eHor[n]]，其中 eVer[n]为第n次校正前的垂直误差，eHor[n]为第n次校正前的水平误差；这里所述的第n次校正前的误差，是指智能飞行器飞行至校正点时还未进行校正的瞬间的误差，该校正点为水平误差校正点或若干垂直误差校正点；第n-1次校正后到第n次校正前智能飞行器飞行的距离为d[n]；

C1：e[n]≤[θ θ] (1)

C3:e[N+1]≤[θ θ] (3)

定位误差的初始值设为公式(4)：

C4:e[0]＝[0 0] (4)

C5:e[n+1]＝e[n]-e[n]·F^T[n]·F[n]+[δ·d[n+1] δ·d[n+1]] (5)

由此，优化目标为航迹总长度：

马尔可夫决策过程包含了以下几大要素：

S表示环境的状态空间，A表示智能体的动作空间，P表示状态转移概率，R表示环境给智能体的回报值，因此，强化学习可以总结为智能体通过感知环境的状态S并执行动作A，根据状态转移概率 P环境的状态转变为S’，智能体获得回报R，不断地迭代之后，使得累积的回报最大。由此决策过程的要素具体应用到所述步骤3中的将数学模型表述为马尔可夫决策过程，具体包括：

首先将数学模型叙述为一个MDP过程，其中：

A：表示智能飞行器下一次选择到达的误差校正点；

接着，当智能飞行器选择了一个校正点时，环境就给智能飞行器一个回报值R，环境可以是运行在智能飞行器上的软件模块；R如公式(8)所示：

所述步骤4中的对马尔可夫决策过程的形式引入强化学习并介绍基本原理，包括：

利用MDP过程将数学模型形式化后，下面需要介绍解决MDP 的问题的方法。由于MDP的问题的状态空间和动作空间都是有限集，动作值函数可用一个表格来描述，表格的索引分别为状态量和动作量，因此本问题将采用基于Q学习的强化学习算法来解决。

状态值函数可以评价当前状态的好坏，每个状态的值不仅由当前状态决定还要由之后的状态决定，所以状态的累计奖励求期望就可得出当前s的状态值函数v_π(s)；

所述状态值函数如公式(9)所示：

v_π(s)＝E_π(G_t|S_t＝s)＝E_π(R_t+1+γR_t+2+γ²R_t+3+…|S_t＝s) (9)

另外还有如公式(10)所示的状态-动作值函数q_π(s，a)：

q_n(s，a)＝E_n(G_t|S_t＝s，A_t＝a)＝E_n(R_t+1+γR_t+2+γ²R_t+3+…|S_t＝s，A_t＝a)

(10)

其中，A_t＝a表示飞行器在时刻t采取的动作为a。

在此基础上，通过bellman方程求解马尔科夫决策过程的最佳决策序列，所述bellman方程包括状态值函数递推公式和状态值函数递推公式；

所述状态值函数递推公式如公式(11)所示：

v_π(s)＝E_π(G_t|S_t＝s)＝E_π(R_t+1+γR_t+2+γ²R_t+3+…|S_t＝s)

v_π(s)＝E_π(R_t+1+γv_π(S_t+1)|S_t＝s)

(11)

其中，v_π(S_t+1)表示在t+1时刻所处状态S_t+1对应的值函数。

所述状态值函数递推公式如公式(12)所示：

其中，q_π(S_t+1，A_t+1)表示在t+1时刻所处状态S_t+1执行动作A_t+1对应的值函数。在训练过程中，用所述bellman方程去更新作为Q-table的 q(s_t，a_t)，因此，Q-table的更新公式为公式(13)所示：

其中，α表示学习速率。

所述步骤5中的设计基于强化学习的智能飞行器航迹快速规划算法并求解，包括如下步骤：

值函数Q(s,a),

,a∈A，给定起始状态q_S＝q[0]，m_epi＝0；

(a)：根据ε贪婪策略在状态s选择动作a，其中

ε表示贪婪率，即有ε的概率选取贪婪策略，1-ε的概率随机选择动作。(b)：误差更新：e[n+1]＝e[n]-e[n]·F^T[n]·F[n]+[δ·d[n+1] δ·d[n+1]]，

(c)：计算

(d)：更新

(e)：更新s←s'，a←a'，m_epi＝m_epi+1，

所述强化学习模块用于对马尔可夫决策过程的形式引入强化学习并介绍基本原理；

而本发明的一个具体实施例如下描述，系统仿真采用Matlab软件。下述实施例考察本发明所设计的能量约束下的无人机数据分发优化方法的有效性。

本实施例中，如图2所示，智能飞行器从出发点位置A点飞向目的地位置B，飞行途中需经过误差校正点。如果没有进一步说明，考虑611个误差校正点随机分布在100000m×100000m×100000m大小的区域内，分别为水平误差校正点和垂直误差校正点，各校正点的位置坐标均已知，具体为：出发点位置A＝[0,50000,5000]，目的地位置B＝[100000.00,59652.34,5022.00]。最大实验次数M_epi＝100000，学习速率α＝0.1，衰减因子λ＝0.8，α₁＝25，α₂＝15，β₁＝20，β₂＝25，δ＝0.001，θ＝30。

算法复杂度分析：本实施例的作为算法1的基于强化学习的智能飞行器航迹快速规划算法的计算复杂度主要在于算法步骤5-2(a)、 5-3算法1计算复杂度约为O(KM_epi),其中K表示步骤5-2(a)随机生成的最大搜索次数，M_epi表示实验最大迭代次数。这意味着所提出的算法可以在O(KM_epi)时间内获得次优解。相比较而言，穷搜启发式算法的复杂度为O(611^N)，N≥8，因此算法1的复杂度远远低于穷搜启发式算法。

图3验证了所提出算法的收敛性，给出飞行器的航迹长度随着迭代次数为100000的变化情况。横轴是迭代次数，图中展示的迭代次数是经过间隔800的采样结果，纵轴是航迹长度。处在下方的曲线可以用红色表示，该曲线代表算法1，当迭代次数小的时候，航迹长度变化幅度较大，且航迹长度很大；当达到一定的收敛次数时，航迹长度变化幅度减小，并逐渐收敛；处在上方的曲线能够用蓝色表示，该曲线代表现有技术的搜索启发式算法，此算法无法收敛，虽然有时候会搜索出一些比较好的结果，但是在有限的时间内，算法1的性能远高于搜索启发式算法，并且搜索启发式算法的复杂度为O(611^N),N≥8, 其算法复杂度远远高于算法1。

图4展现了智能飞行器从出发点位置A到目的地位置B的航迹图，智能飞行器倾向于不断地交叉经过垂直误差校正点和水平误差校正点，这样可以是每次校正前的误差达到最大误差约束，减少了校正的次数和航迹长度。

以上以用实施例说明的方式对本发明作了描述，本领域的技术人员应当理解，本公开不限于以上描述的实施例，在不偏离本发明的范围的情况下，可以做出各种变化、改变和替换。

Claims

1.一种智能飞行器航迹规划系统的方法，其特征在于，包括如下步骤：

步骤2：建立多定位误差约束下航迹快速规划数学模型；

步骤4：对马尔可夫决策过程的形式引入强化学习；

2.根据权利要求1所述的智能飞行器航迹规划系统的方法，其特征在于，所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述，该描述的内容包括：

针对智能飞行器在设定的区域内飞行，在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点；所述智能飞行器从设定的区域内的出发点位置A飞往设定的区域内的目的地位置B，智能飞行器每飞行一段距离，将会产生飞行误差，此飞行误差包括垂直误差和水平误差；而智能飞行器每飞行一段距离，垂直误差和水平误差将各增加δ个单位，如果水平误差和垂直误差均小于θ个单位时，则智能飞行器可以正常按照设定的航迹飞行，这里δ和θ均为不小于0的整数，θ为预先设定的值；