CN111006693A - 智能飞行器航迹规划系统及其方法 - Google Patents

智能飞行器航迹规划系统及其方法 Download PDF

Info

Publication number
CN111006693A
CN111006693A CN201911289037.XA CN201911289037A CN111006693A CN 111006693 A CN111006693 A CN 111006693A CN 201911289037 A CN201911289037 A CN 201911289037A CN 111006693 A CN111006693 A CN 111006693A
Authority
CN
China
Prior art keywords
error
aircraft
correction
intelligent aircraft
planning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911289037.XA
Other languages
English (en)
Other versions
CN111006693B (zh
Inventor
丁国如
谷江春
王海超
孙佳琛
林凡迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201911289037.XA priority Critical patent/CN111006693B/zh
Publication of CN111006693A publication Critical patent/CN111006693A/zh
Application granted granted Critical
Publication of CN111006693B publication Critical patent/CN111006693B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C25/00Manufacturing, calibrating, cleaning, or repairing instruments or devices referred to in the other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种智能飞行器航迹规划系统及其方法,包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块;描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述;建立模块用于建立多定位误差约束下航迹快速规划数学模型;马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;强化学习模块用于对马尔可夫决策过程的形式引入强化学习;设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。结合其它结构或方法有效避免了现有技术中航迹规划算法具有一定的随机性、复杂度高、在大规模、广域条件下无法高效求解的缺陷。

Description

智能飞行器航迹规划系统及其方法
技术领域
本发明涉及智能飞行器技术领域,也涉及航迹规划技术领域,具体涉及一种智能飞行器航迹规划系统及其方法,尤其涉及一种基于强化学习的智能飞行器航迹快速规划系统及其方法。
背景技术
智能飞行器的原形有点像无人驾驶机,但是更加先进和智能化,其是随着信息技术的快速发展,有人机在高动态的对抗环境下面临着极大的挑战的条件下,使得智能飞行器应运而生,特别是在执行一些危险的任务时,智能飞行器能够灵活应变,在高效完成任务的同时,有效避免了经济和人员的损失。
飞行器航迹规划是实现智能飞行器自动导航的一项关键技术,是人工智能及导航与制导领域中的重要研究方向之一。智能飞行器去执行一定的飞行任务,其中规划出一条可行的航迹便是智能飞行器最基本的任务。根据不同的任务需求,航迹要求也会有所不同,如航迹长度最短,飞行时间最短以及能耗最低等等。
复杂环境下航迹快速规划是智能飞行器控制的一个重大挑战。在飞行过程中,智能飞行器的飞行航迹受到两方面的影响,第一方面是所飞行的区域有特殊的限制条件,比如说禁飞区,干扰区以及地理因素引起的障碍区;第二方面是由于智能飞行器自身因素引起的限制,比如说最小转弯半径,最大飞行能耗,定位精度等。特别的,智能飞行器在飞行过程中的定位精度对智能飞行器的航迹起到至关重要的作用,由于定位精度较低会产生一定的定位误差,定位误差包括垂直误差和水平误差,一旦定位误差积累到一定程度可能导致飞行航迹偏离,因此需要及时对定位误差进行校正,即每飞行一段距离去校正点校正误差。
现有的航迹规划算法很多,包括经典的粒子群算法、模拟退火算法、遗传算法以及蚁群算法等,但是上述算法具有一定的随机性,并且复杂度高,在大规模、广域条件下无法高效求解。
发明内容
为解决上述问题,本发明提供了一种智能飞行器航迹规划系统及其方法,有效避免了现有技术中航迹规划算法具有一定的随机性、复杂度高、在大规模、广域条件下无法高效求解的缺陷。
为了克服现有技术中的不足,本发明提供了一种智能飞行器航迹规划系统及其方法的解决方案,具体如下:
一种智能飞行器航迹规划系统的规划方法,包括如下步骤:
步骤1:对多定位误差约束下航迹快速规划的优化问题进行描述;
步骤2:建立多定位误差约束下航迹快速规划数学模型;
步骤3:将步骤2中的快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
步骤4:对马尔可夫决策过程的形式引入强化学习;
步骤5:对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
进一步地,所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述,该描述的内容包括:
针对智能飞行器在设定的区域内飞行,在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点;所述智能飞行器从设定的区域内的出发点位置A飞往设定的区域内的目的地位置B,智能飞行器每飞行一段距离,将会产生飞行误差,此飞行误差包括垂直误差和水平误差;而智能飞行器每飞行一段距离,垂直误差和水平误差将各增加δ个单位,如果水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,这里δ和θ均为不小于 0的整数,θ为预先设定的值;
在飞行过程中智能飞行器需要不断地校正自身的飞行误差,智能飞行器只要经过水平误差校正点,则水平误差校正为0,即水平误差为0,其余不变,即垂直误差保持不变;智能飞行器只要经过垂直误差校正点,则垂直误差校正为0,即垂直误差为0,其余不变,即水平误差保持不变;并且智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,这样就构成了多定位误差约束下航迹快速规划的优化问题,α1、α2、β1和β2均为预先设定的正整数。
进一步地,所述航迹快速规划数学模型包含优化目标、优化变量以及约束条件,所述优化目标、优化变量以及约束条件包括如下内容:
根据所述智能飞行器的整个航迹中共经过的N次校正,另记两种特殊情况如下:
(1)当n=0时,飞行器在出发点位置A,该位置不用校正;
(2)当n=N+1时,飞行器到达目的地位置B,该位置不用校正;
第n次校正前的定位误差记为e[n]=[eVer[n] eHor[n]],其中eVer[n]为第n次校正前的垂直误差,eHor[n]为第n次校正前的水平误差;这里所述的第n次校正前的误差,是指智能飞行器飞行至校正点时还未进行校正的瞬间的误差,该校正点为水平误差校正点或若干垂直误差校正点;第n-1次校正后到第n次校正前智能飞行器飞行的距离为d[n];
根据约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(1)表达:
C1:e[n]≤[θ θ] (1)
根据约束条件中的飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;智能飞行器进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(2)表达:
Figure RE-GDA0002401637000000041
其中F表征的是校正点类型,当第n次校正所在的校正点为垂直误差校正点时,F[n]=[1 0],校正点为水平误差校正点时,F[n]=[0 1];
针对途径最后一次校正点至目的地位置B的飞行过程,按照约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(3)表示:
C3:e[N+1]≤[θ θ] (3)
定位误差的初始值设为公式(4):
C4:e[0]=[0 0] (4)
根据误差校正规则中的智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(5)表示:
C5:e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]] (5)
由此,优化目标为航迹总长度:
Figure RE-GDA0002401637000000051
其中,d[N+1]表示第N 次校正后到不进行校正目的地位置B的飞行距离;
综上所述,多定位误差约束下航迹快速规划数学模型用公式(6) 如下所示:
Figure RE-GDA0002401637000000052
所述步骤3中的将数学模型表述为马尔可夫决策过程,具体包括:
首先将数学模型叙述为一个MDP过程,其中:
S:表示设定的区域的整个空间中可以校正误差的误差校正点;
A:表示智能飞行器下一次选择到达的误差校正点;
P:状态转移概率由C1,C2,C3决定,如果同时满足以上3个约束,智能飞行器的状态转移概率为1,否则为0,P如公式(7)所示:
Figure RE-GDA0002401637000000061
接着,当智能飞行器选择了一个校正点时,环境就给智能飞行器一个回报值R,R如公式(8)所示:
Figure RE-GDA0002401637000000062
其中dAB表示出发点位置A和目的地位置B之间的线段AB的长度,drest表示下一个状态到终点B点的距离,此距离可用搜索算法随机探索一个,若无可行路径,则回报值R=-10000,若drest越小,则R值越大,所述下一个状态表示所述飞行器选择的校正点的下一个校正点。
进一步地,所述步骤4中的对马尔可夫决策过程的形式引入强化学习,包括:
通过bellman方程求解马尔科夫决策过程的最佳决策序列,所述 bellman方程包括状态值函数递推公式和状态值函数递推公式;
所述状态值函数递推公式如公式(11)所示:
vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
vπ(s)=Eπ(Rt+1+γvπ(St+1)|St=s)
(11)
其中,Eπ(Gt|St=s)表示在状态s下求累计奖励Gt的均值;St=s表示飞行器在t时刻所处的状态为s,Rt表示飞行器在t时刻获得的奖励,γ表示折扣因子,γ∈(0,1)。
所述状态值函数递推公式如公式(12)所示:
qπ(s,a)=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γRt+22Rt+3+…|St=s,At=a)
=Eπ(Rt+1+γqπ(St+1,At+1)|St=s,At=a)
(12)
其中,qπ(St+1,At+1)表示在t+1时刻所处状态St+1执行动作At+1对应的值函数。
在训练过程中,用所述bellman方程去更新作为Q-table的q(st,at),因此,Q-table的更新公式为公式(13)所示:
Figure RE-GDA0002401637000000073
其中,α表示学习速率。
最后,用生成的Q-table去指导智能飞行器在某一个状态下选取对应于Q值最大的动作,即选取下一个误差校正点,一直到目的地位置点B。
进一步地,所述步骤5中的设计基于强化学习的智能飞行器航迹快速规划算法并求解,包括如下步骤:
步骤5-1:初始化,所述初始化包括设定实验最大迭代次数Mepi,学习速率α,衰减因子λ,探索参数
Figure RE-GDA0002401637000000071
值函数Q(s,a),
Figure RE-GDA0002401637000000072
,a∈A,给定起始状态qS=q[0],mepi=0;
步骤5-2:更新阶段,所述更新阶段包括如下顺序执行的方式:
(a):根据ε贪婪策略在状态s选择动作a,其中
Figure RE-GDA0002401637000000081
即有ε的概率选取贪婪策略,1-ε的概率随机选择动作。
(b):误差更新: e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]],
(c):计算
Figure RE-GDA0002401637000000082
(d):更新
Figure RE-GDA0002401637000000083
(e):更新s←s',a←a',mepi=mepi+1,
步骤5-3:判断mepi>Mepi是否满足,如果满足,算法停止;否则,执行步骤5-2;
步骤5-4:通过Q-table计算航迹长度,所述通过Q-table计算航迹长度即从出发点位置A点开始,通过Q-table查找当前状态所在行中最大Q值对应的列即为下一个动作和状态,直到到达目的地位置B 点。
所述智能飞行器航迹规划系统,包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块;
所述描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述;
所述建立模块用于建立多定位误差约束下航迹快速规划数学模型;
所述马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
所述强化学习模块用于对马尔可夫决策过程的形式引入强化学习;
所述设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
本发明的有益效果为:
通过引入强化学习算法,实现飞行器定位精度限制下的航迹长度最小化,具体而言,本发明的有益效果包括:
1、本发明可较好地解决智能飞行器在复杂环境下精确定位受限的情况下,快速规划航迹的问题;
2、通过引入强化学习方法,使得智能飞行器精准快速到达目标点,降低了算法的复杂度,实现了航迹长度的最小化,并且不依赖于智能飞行器的起始状态和终止状态。
附图说明
图1为本发明的智能飞行器航迹规划系统的规划方法的流程图。
图2为本发明的实施例中的系统场景示意图。
图3为本发明的实施例中的算法收敛图。
图4为本发明的实施例中的飞行器航迹图。
具体实施方式
强化学习方法是近年来的研究热门,著名的AlphaGo的核心算法就是用到了强化学习算法。强化学习算法被广泛用来解决智能决策问题,或者是序贯决策问题。将强化学习应用到航迹规划中,智能飞行器每走一段距离,即可获得环境给予的一个回报,并且当前的状态按照一定的规则转移到下一个状态,智能飞行器再次飞行一段距离,反复迭代,直到抵达目的地,整个算法的目标是使得所获得的累计回报最大。强化学习应用到路径规划已经掀起了热浪,包括用强化学习解决经典的旅行商问题等。
下面将结合附图和实施例对本发明做进一步地说明。
智能飞行器航迹规划系统的规划方法,包括如下步骤:
步骤1:对多定位误差约束下航迹快速规划的优化问题进行描述;
步骤2:建立多定位误差约束下航迹快速规划数学模型;
步骤3:将步骤2中的快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
步骤4:对马尔可夫决策过程的形式引入强化学习并介绍基本原理;
步骤5:对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述,该描述的内容包括:
针对智能飞行器在设定的区域内飞行,该设定的区域的大小就如长、宽和高均为100000m的大小,如图1所示,也就是100000m× 100000m×100000m大小,在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点,所述水平误差校正点和垂直误差校正点的位置坐标均为已知,所述水平误差校正点和若干垂直误差校正点可以由不同颜色来标示,比如紫红色点表示水平误差校正点,蓝色点为垂直误差校正点;所述智能飞行器从设定的区域内的出发点位置 A飞往设定的区域内的目的地位置B,在实际飞行过程中,由于智能飞行器自身硬件和外界环境的影响,智能飞行器每飞行一段距离,将会产生一定的飞行误差,此飞行误差包括垂直误差和水平误差;而智能飞行器每飞行如1m这样的一段距离,垂直误差和水平误差将各增加δ个单位,如果水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,这里δ和θ均为不小于0的整数,θ为预先设定的值;
要实现精准定位,在飞行过程中智能飞行器需要不断地校正自身的飞行误差,智能飞行器只要经过如用紫红色点表示的水平误差校正点,则水平误差校正为0,即水平误差为0,其余不变,即垂直误差保持不变;智能飞行器只要经过如用蓝色点表示的垂直误差校正点,则垂直误差校正为0,即垂直误差为0,其余不变,即水平误差保持不变;并且智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,这样就构成了多定位误差约束下航迹快速规划的优化问题,α1、α2、β1和β2均为预先设定的正整数。本发明要让智能飞行器从出发点位置A出发,期间通过不断校正自身的误差,满足飞行精准定位的约束的同时,顺利到达目的地位置B点,并且使得航迹长度最小。
所述航迹快速规划数学模型包含优化目标、优化变量以及约束条件,所述优化目标、优化变量以及约束条件包括如下内容:
根据所述智能飞行器的整个航迹中共经过的N次校正,而第n次校正中的n为1到N的整数,N为正整数。为方便描述,另记两种特殊情况如下:
(1)当n=0时,飞行器在出发点位置A,该位置不用校正;
(2)当n=N+1时,飞行器到达目的地位置B,该位置不用校正;
第n次校正前的定位误差记为e[n]=[eVer[n] eHor[n]],其中 eVer[n]为第n次校正前的垂直误差,eHor[n]为第n次校正前的水平误差;这里所述的第n次校正前的误差,是指智能飞行器飞行至校正点时还未进行校正的瞬间的误差,该校正点为水平误差校正点或若干垂直误差校正点;第n-1次校正后到第n次校正前智能飞行器飞行的距离为d[n];
根据约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(1)表达:
C1:e[n]≤[θ θ] (1)
根据约束条件中的飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;智能飞行器进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(2)表达:
Figure RE-GDA0002401637000000121
其中F表征的是校正点类型,当第n次校正所在的校正点为垂直误差校正点时,F[n]=[1 0],校正点为水平误差校正点时,F[n]=[0 1];
针对途径最后一次校正点至目的地位置B的飞行过程,按照约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(3)表示:
C3:e[N+1]≤[θ θ] (3)
定位误差的初始值设为公式(4):
C4:e[0]=[0 0] (4)
根据误差校正规则中的智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(5)表示:
C5:e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]] (5)
由此,优化目标为航迹总长度:
Figure RE-GDA0002401637000000131
其中,d[N+1]表示第N 次校正后到不进行校正目的地位置B的飞行距离;
综上所述,多定位误差约束下航迹快速规划数学模型用公式(6) 如下所示:
Figure RE-GDA0002401637000000132
马尔可夫决策过程包含了以下几大要素:
S表示环境的状态空间,A表示智能体的动作空间,P表示状态转移概率,R表示环境给智能体的回报值,因此,强化学习可以总结为智能体通过感知环境的状态S并执行动作A,根据状态转移概率 P环境的状态转变为S’,智能体获得回报R,不断地迭代之后,使得累积的回报最大。由此决策过程的要素具体应用到所述步骤3中的将数学模型表述为马尔可夫决策过程,具体包括:
首先将数学模型叙述为一个MDP过程,其中:
S:表示设定的区域的整个空间中可以校正误差的误差校正点;
A:表示智能飞行器下一次选择到达的误差校正点;
P:状态转移概率由C1,C2,C3决定,如果同时满足以上3个约束,智能飞行器的状态转移概率为1,否则为0,P如公式(7)所示:
Figure RE-GDA0002401637000000141
接着,当智能飞行器选择了一个校正点时,环境就给智能飞行器一个回报值R,环境可以是运行在智能飞行器上的软件模块;R如公式(8)所示:
Figure RE-GDA0002401637000000142
其中dAB表示出发点位置A和目的地位置B之间的线段AB的长度,drest表示下一个状态到终点B点的距离,此距离可用搜索算法随机探索一个,若无可行路径,则回报值R=-10000,若drest越小,则R值越大,所述下一个状态表示所述飞行器选择的校正点的下一个校正点。
所述步骤4中的对马尔可夫决策过程的形式引入强化学习并介绍基本原理,包括:
利用MDP过程将数学模型形式化后,下面需要介绍解决MDP 的问题的方法。由于MDP的问题的状态空间和动作空间都是有限集,动作值函数可用一个表格来描述,表格的索引分别为状态量和动作量,因此本问题将采用基于Q学习的强化学习算法来解决。
状态值函数可以评价当前状态的好坏,每个状态的值不仅由当前状态决定还要由之后的状态决定,所以状态的累计奖励求期望就可得出当前s的状态值函数vπ(s);
所述状态值函数如公式(9)所示:
vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+22Rt+3+…|St=s) (9)
其中,Eπ(Gt|St=s)表示在状态s下求累计奖励Gt的均值;St=s表示飞行器在t时刻所处的状态为s,Rt表示飞行器在t时刻获得的奖励,γ表示折扣因子,γ∈(0,1)。
另外还有如公式(10)所示的状态-动作值函数qπ(s,a):
qn(s,a)=En(Gt|St=s,At=a)=En(Rt+1+γRt+22Rt+3+…|St=s,At=a)
(10)
其中,At=a表示飞行器在时刻t采取的动作为a。
在此基础上,通过bellman方程求解马尔科夫决策过程的最佳决策序列,所述bellman方程包括状态值函数递推公式和状态值函数递推公式;
所述状态值函数递推公式如公式(11)所示:
vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
vπ(s)=Eπ(Rt+1+γvπ(St+1)|St=s)
(11)
其中,vπ(St+1)表示在t+1时刻所处状态St+1对应的值函数。
所述状态值函数递推公式如公式(12)所示:
Figure RE-GDA0002401637000000163
其中,qπ(St+1,At+1)表示在t+1时刻所处状态St+1执行动作At+1对应的值函数。在训练过程中,用所述bellman方程去更新作为Q-table的 q(st,at),因此,Q-table的更新公式为公式(13)所示:
Figure RE-GDA0002401637000000161
其中,α表示学习速率。
最后,用生成的Q-table去指导智能飞行器在某一个状态下选取对应于Q值最大的动作,即选取下一个误差校正点,一直到目的地位置点B。
所述步骤5中的设计基于强化学习的智能飞行器航迹快速规划算法并求解,包括如下步骤:
步骤5-1:初始化,所述初始化包括设定实验最大迭代次数Mepi,学习速率α,衰减因子λ,探索参数
Figure RE-GDA0002401637000000162
值函数Q(s,a),
Figure RE-GDA0002401637000000173
,a∈A,给定起始状态qS=q[0],mepi=0;
步骤5-2:更新阶段,所述更新阶段包括如下顺序执行的方式:
(a):根据ε贪婪策略在状态s选择动作a,其中
Figure RE-GDA0002401637000000171
ε表示贪婪率,即有ε的概率选取贪婪策略,1-ε的概率随机选择动作。(b):误差更新:e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]],
(c):计算
Figure RE-GDA0002401637000000174
(d):更新
Figure RE-GDA0002401637000000172
(e):更新s←s',a←a',mepi=mepi+1,
步骤5-3:判断mepi>Mepi是否满足,如果满足,算法停止;否则,执行步骤5-2;
步骤5-4:通过Q-table计算航迹长度,所述通过Q-table计算航迹长度即从出发点位置A点开始,通过Q-table查找当前状态所在行中最大Q值对应的列即为下一个动作和状态,直到到达目的地位置B 点。
所述智能飞行器航迹规划系统,包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块;
所述描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述;
所述建立模块用于建立多定位误差约束下航迹快速规划数学模型;
所述马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
所述强化学习模块用于对马尔可夫决策过程的形式引入强化学习并介绍基本原理;
所述设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
而本发明的一个具体实施例如下描述,系统仿真采用Matlab软件。下述实施例考察本发明所设计的能量约束下的无人机数据分发优化方法的有效性。
本实施例中,如图2所示,智能飞行器从出发点位置A点飞向目的地位置B,飞行途中需经过误差校正点。如果没有进一步说明,考虑611个误差校正点随机分布在100000m×100000m×100000m大小的区域内,分别为水平误差校正点和垂直误差校正点,各校正点的位置坐标均已知,具体为:出发点位置A=[0,50000,5000],目的地位置B=[100000.00,59652.34,5022.00]。最大实验次数Mepi=100000,学习速率α=0.1,衰减因子λ=0.8,α1=25,α2=15,β1=20,β2=25,δ=0.001,θ=30。
算法复杂度分析:本实施例的作为算法1的基于强化学习的智能飞行器航迹快速规划算法的计算复杂度主要在于算法步骤5-2(a)、 5-3算法1计算复杂度约为O(KMepi),其中K表示步骤5-2(a)随机生成的最大搜索次数,Mepi表示实验最大迭代次数。这意味着所提出的算法可以在O(KMepi)时间内获得次优解。相比较而言,穷搜启发式算法的复杂度为O(611N),N≥8,因此算法1的复杂度远远低于穷搜启发式算法。
图3验证了所提出算法的收敛性,给出飞行器的航迹长度随着迭代次数为100000的变化情况。横轴是迭代次数,图中展示的迭代次数是经过间隔800的采样结果,纵轴是航迹长度。处在下方的曲线可以用红色表示,该曲线代表算法1,当迭代次数小的时候,航迹长度变化幅度较大,且航迹长度很大;当达到一定的收敛次数时,航迹长度变化幅度减小,并逐渐收敛;处在上方的曲线能够用蓝色表示,该曲线代表现有技术的搜索启发式算法,此算法无法收敛,虽然有时候会搜索出一些比较好的结果,但是在有限的时间内,算法1的性能远高于搜索启发式算法,并且搜索启发式算法的复杂度为O(611N),N≥8, 其算法复杂度远远高于算法1。
图4展现了智能飞行器从出发点位置A到目的地位置B的航迹图,智能飞行器倾向于不断地交叉经过垂直误差校正点和水平误差校正点,这样可以是每次校正前的误差达到最大误差约束,减少了校正的次数和航迹长度。
以上以用实施例说明的方式对本发明作了描述,本领域的技术人员应当理解,本公开不限于以上描述的实施例,在不偏离本发明的范围的情况下,可以做出各种变化、改变和替换。

Claims (7)

1.一种智能飞行器航迹规划系统的方法,其特征在于,包括如下步骤:
步骤1:对多定位误差约束下航迹快速规划的优化问题进行描述;
步骤2:建立多定位误差约束下航迹快速规划数学模型;
步骤3:将步骤2中的快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
步骤4:对马尔可夫决策过程的形式引入强化学习;
步骤5:对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
2.根据权利要求1所述的智能飞行器航迹规划系统的方法,其特征在于,所述步骤1中的对多定位误差约束下航迹快速规划的优化问题进行描述,该描述的内容包括:
针对智能飞行器在设定的区域内飞行,在该设定的区域内预先设定有若干水平误差校正点和若干垂直误差校正点;所述智能飞行器从设定的区域内的出发点位置A飞往设定的区域内的目的地位置B,智能飞行器每飞行一段距离,将会产生飞行误差,此飞行误差包括垂直误差和水平误差;而智能飞行器每飞行一段距离,垂直误差和水平误差将各增加δ个单位,如果水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,这里δ和θ均为不小于0的整数,θ为预先设定的值;
在飞行过程中智能飞行器需要不断地校正自身的飞行误差,智能飞行器只要经过水平误差校正点,则水平误差校正为0,即水平误差为0,其余不变,即垂直误差保持不变;智能飞行器只要经过垂直误差校正点,则垂直误差校正为0,即垂直误差为0,其余不变,即水平误差保持不变;并且智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,这样就构成了多定位误差约束下航迹快速规划的优化问题,α1、α2、β1和β2均为预先设定的正整数。
3.根据权利要求1所述的智能飞行器航迹规划系统的方法,其特征在于,所述航迹快速规划数学模型包含优化目标、优化变量以及约束条件,所述优化目标、优化变量以及约束条件包括如下内容:
根据所述智能飞行器的整个航迹中共经过的N次校正,另记两种特殊情况如下:
(1)当n=0时,飞行器在出发点位置A,该位置不用校正;
(2)当n=N+1时,飞行器到达目的地位置B,该位置不用校正;
第n次校正前的定位误差记为e[n]=[eVer[n] eHor[n]],其中eVer[n]为第n次校正前的垂直误差,eHor[n]为第n次校正前的水平误差;这里所述的第n次校正前的误差,是指智能飞行器飞行至校正点时还未进行校正的瞬间的误差,该校正点为水平误差校正点或若干垂直误差校正点;第n-1次校正后到第n次校正前智能飞行器飞行的距离为d[n];
根据约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(1)表达:
C1:e[n]≤[θ θ] (1)
根据约束条件中的飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;智能飞行器进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(2)表达:
C2:
Figure FDA0002315767690000031
其中F表征的是校正点类型,当第n次校正所在的校正点为垂直误差校正点时,F[n]=[1 0],校正点为水平误差校正点时,F[n]=[0 1];
针对途径最后一次校正点至目的地位置B的飞行过程,按照约束条件中的水平误差和垂直误差均小于θ个单位时,则智能飞行器可以正常按照设定的航迹飞行,用公式(3)表示:
C3:e[N+1]≤[θ θ] (3)
定位误差的初始值设为公式(4):
C4:e[0]=[0 0] (4)
根据误差校正规则中的智能飞行器进行垂直误差校正时,需要满足当前垂直误差小于α1个单位,水平误差小于α2个单位;进行水平误差校正时,需要满足当前垂直误差小于β1个单位,水平误差小于β2个单位,用公式(5)表示:
C5:e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]] (5)
由此,优化目标为航迹总长度:
Figure FDA0002315767690000032
其中,d[N+1]表示第N次校正后到不进行校正目的地位置B的飞行距离;
综上所述,多定位误差约束下航迹快速规划数学模型用公式(6)如下所示:
Figure FDA0002315767690000041
4.根据权利要求1所述的智能飞行器航迹规划系统的方法,其特征在于,所述步骤3中的将数学模型表述为马尔可夫决策过程,具体包括:
首先将数学模型叙述为一个MDP过程,其中:
S:表示设定的区域的整个空间中可以校正误差的误差校正点;
A:表示智能飞行器下一次选择到达的误差校正点;
P:状态转移概率由C1,C2,C3决定,如果同时满足以上3个约束,智能飞行器的状态转移概率为1,否则为0,P如公式(7)所示:
Figure FDA0002315767690000042
接着,当智能飞行器选择了一个校正点时,环境就给智能飞行器一个回报值R,R如公式(8)所示:
Figure FDA0002315767690000043
其中dAB表示出发点位置A和目的地位置B之间的线段AB的长度,drest表示下一个状态到终点B点的距离,此距离可用搜索算法随机探索一个,若无可行路径,则回报值R=-10000,若drest越小,则R值越大,所述下一个状态表示所述飞行器选择的校正点的下一个校正点。
5.根据权利要求1所述的智能飞行器航迹规划系统的方法,其特征在于,所述步骤4中的对马尔可夫决策过程的形式引入强化学习,包括:
通过bellman方程求解马尔科夫决策过程的最佳决策序列,所述bellman方程包括状态值函数递推公式和状态值函数递推公式;
所述状态值函数递推公式如公式(11)所示:
vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+22Rt+3+…|St=s)
vπ(s)=Eπ(Rt+1+γvπ(St+1)|St=s)
(11)
其中,Eπ(Gt|St=s)表示在状态s下求累计奖励Gt的均值;St=s表示飞行器在t时刻所处的状态为s,Rt表示飞行器在t时刻获得的奖励,γ表示折扣因子,γ∈(0,1)。
所述状态值函数递推公式如公式(12)所示:
Figure FDA0002315767690000051
其中,qπ(St+1,At+1)表示在t+1时刻所处状态St+1执行动作At+1对应的值函数。
在训练过程中,用所述bellman方程去更新作为Q-table的q(st,at),因此,Q-table的更新公式为公式(13)所示:
Figure FDA0002315767690000061
其中,α表示学习速率。
最后,用生成的Q-table去指导智能飞行器在某一个状态下选取对应于Q值最大的动作,即选取下一个误差校正点,一直到目的地位置点B。
6.根据权利要求1所述的智能飞行器航迹规划系统的方法,其特征在于,所述步骤5中的设计基于强化学习的智能飞行器航迹快速规划算法并求解,包括如下步骤:
步骤5-1:初始化,所述初始化包括设定实验最大迭代次数Mepi,学习速率α,衰减因子λ,探索参数
Figure FDA0002315767690000062
值函数Q(s,a),
Figure FDA0002315767690000063
a∈A,给定起始状态qS=q[0],mepi=0;
步骤5-2:更新阶段,所述更新阶段包括如下顺序执行的方式:
(a):根据ε贪婪策略在状态s选择动作a,其中
Figure FDA0002315767690000064
即有ε的概率选取贪婪策略,1-ε的概率随机选择动作。
(b):误差更新:e[n+1]=e[n]-e[n]·FT[n]·F[n]+[δ·d[n+1] δ·d[n+1]],
(c):计算
Figure FDA0002315767690000065
(d):更新
Figure FDA0002315767690000066
(e):更新s←s',a←a',mepi=mepi+1,
步骤5-3:判断mepi>Mepi是否满足,如果满足,算法停止;否则,执行步骤5-2;
步骤5-4:通过Q-table计算航迹长度,所述通过Q-table计算航迹长度即从出发点位置A点开始,通过Q-table查找当前状态所在行中最大Q值对应的列即为下一个动作和状态,直到到达目的地位置B点。
7.一种智能飞行器航迹规划系统,其特征在于,包括描述模块、建立模块、马尔可夫模块、强化学习模块以及设计模块;
所述描述模块用于对多定位误差约束下航迹快速规划的优化问题进行描述;
所述建立模块用于建立多定位误差约束下航迹快速规划数学模型;
所述马尔可夫模块用于将快速规划数学模型通过引入马尔可夫性、马尔可夫过程这样的特征表述为马尔可夫决策过程的形式;
所述强化学习模块用于对马尔可夫决策过程的形式引入强化学习;
所述设计模块用于对强化学习后的马尔可夫决策过程的形式设计出基于强化学习的智能飞行器航迹快速规划算法并求解。
CN201911289037.XA 2019-12-12 2019-12-12 智能飞行器航迹规划系统及其方法 Active CN111006693B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911289037.XA CN111006693B (zh) 2019-12-12 2019-12-12 智能飞行器航迹规划系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911289037.XA CN111006693B (zh) 2019-12-12 2019-12-12 智能飞行器航迹规划系统及其方法

Publications (2)

Publication Number Publication Date
CN111006693A true CN111006693A (zh) 2020-04-14
CN111006693B CN111006693B (zh) 2021-12-21

Family

ID=70115345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911289037.XA Active CN111006693B (zh) 2019-12-12 2019-12-12 智能飞行器航迹规划系统及其方法

Country Status (1)

Country Link
CN (1) CN111006693B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595343A (zh) * 2020-04-29 2020-08-28 西北工业大学 一种基于定位误差校正的无人机航迹规划方法
CN111679685A (zh) * 2020-06-19 2020-09-18 中国人民解放军国防科技大学 基于无人机总能量飞行控制方法和装置
CN111707273A (zh) * 2020-06-04 2020-09-25 杭州电子科技大学 一种基于遗传算法的飞行器航迹快速规划优化方法
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112857372A (zh) * 2021-01-18 2021-05-28 上海交通大学 基于给定节点序的航迹合理性评估和自生成方法及系统
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115562345A (zh) * 2022-10-28 2023-01-03 北京理工大学 一种基于深度强化学习的无人机侦测轨迹规划方法
CN116738923A (zh) * 2023-04-04 2023-09-12 暨南大学 一种基于带约束强化学习的芯片布局优化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108759841A (zh) * 2018-05-25 2018-11-06 中国电子科技集团公司第二十九研究所 一种复杂环境下的快速航路规划方法
WO2019027142A1 (ko) * 2017-07-31 2019-02-07 이화여자대학교 산학협력단 동적 네트워크에서 네트워크 형성 방법 및 장치
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
US10281279B2 (en) * 2016-10-24 2019-05-07 Invensense, Inc. Method and system for global shape matching a trajectory
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10281279B2 (en) * 2016-10-24 2019-05-07 Invensense, Inc. Method and system for global shape matching a trajectory
WO2019027142A1 (ko) * 2017-07-31 2019-02-07 이화여자대학교 산학협력단 동적 네트워크에서 네트워크 형성 방법 및 장치
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108759841A (zh) * 2018-05-25 2018-11-06 中国电子科技集团公司第二十九研究所 一种复杂环境下的快速航路规划方法
CN109655066A (zh) * 2019-01-25 2019-04-19 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN110488859A (zh) * 2019-07-15 2019-11-22 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG ZIXUAN,WU QINHAO,ZHANG BO ET AL.: "UAV flight strategy algorithm based on", 《JOURNAL OF SYSTEMS ENGINEERING AND ELECTRONICS》 *
刘世一,赵晓林,郝顺义等: "导航精度约束下的无人机航迹规划", 《计算机仿真》 *
张天泽: "基于强化学习的四旋翼无人机路径规划方法研究", 《中国优秀硕士学位论文全文数据库工程科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111595343B (zh) * 2020-04-29 2022-10-04 西北工业大学 一种基于定位误差校正的无人机航迹规划方法
CN111595343A (zh) * 2020-04-29 2020-08-28 西北工业大学 一种基于定位误差校正的无人机航迹规划方法
CN111707273A (zh) * 2020-06-04 2020-09-25 杭州电子科技大学 一种基于遗传算法的飞行器航迹快速规划优化方法
CN111679685A (zh) * 2020-06-19 2020-09-18 中国人民解放军国防科技大学 基于无人机总能量飞行控制方法和装置
CN111679685B (zh) * 2020-06-19 2023-04-07 中国人民解放军国防科技大学 基于无人机总能量飞行控制方法和装置
CN112215283A (zh) * 2020-10-12 2021-01-12 中国人民解放军海军航空大学 基于有人/无人机系统的近距空战智能决策方法
CN112857372A (zh) * 2021-01-18 2021-05-28 上海交通大学 基于给定节点序的航迹合理性评估和自生成方法及系统
CN112857372B (zh) * 2021-01-18 2022-06-10 上海交通大学 基于给定节点序的航迹合理性评估和自生成方法及系统
CN114675545A (zh) * 2022-05-26 2022-06-28 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN114675545B (zh) * 2022-05-26 2022-08-23 中国人民解放军火箭军工程大学 一种基于强化学习的高超声速飞行器再入协同制导方法
CN115562345A (zh) * 2022-10-28 2023-01-03 北京理工大学 一种基于深度强化学习的无人机侦测轨迹规划方法
CN116738923A (zh) * 2023-04-04 2023-09-12 暨南大学 一种基于带约束强化学习的芯片布局优化方法
CN116738923B (zh) * 2023-04-04 2024-04-05 暨南大学 一种基于带约束强化学习的芯片布局优化方法

Also Published As

Publication number Publication date
CN111006693B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN111006693B (zh) 智能飞行器航迹规划系统及其方法
US11727812B2 (en) Airplane flight path planning method and device based on the pigeon-inspired optimization
CN106969778B (zh) 一种多无人机协同施药的路径规划方法
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN111024092B (zh) 一种多约束条件下智能飞行器航迹快速规划方法
CN110715664B (zh) 多约束条件下智能无人飞行器航迹快速规划方法
CN110320809B (zh) 一种基于模型预测控制的agv轨迹修正方法
CN105302153A (zh) 异构多无人机协同察打任务的规划方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN103267528A (zh) 禁飞区限制下的多无人机协同区域搜索方法
CN112162564A (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN104850009A (zh) 一种基于捕食逃逸鸽群优化的多无人飞行器编队协调控制方法
CN111898201B (zh) 一种空战模拟环境中的战斗机高精度自主攻击引导方法
CN109917806A (zh) 一种基于非劣解鸽群优化的无人机集群编队控制方法
CN114840020A (zh) 一种基于改进鲸鱼算法的无人机飞行轨迹规划方法
CN105843256A (zh) 一种多机编队飞行控制方法
CN115826601A (zh) 基于逆向强化学习的无人机路径规划方法
CN114740883B (zh) 一种协同点侦察任务规划跨层联合优化方法
CN116088576A (zh) 一种基于改进鲸鱼算法的无人机三维路径规划方法
CN110032214A (zh) 基于矢量场的快速Standoff目标跟踪方法
Li et al. Improved Q-learning based route planning method for UAVs in unknown environment
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN115933736A (zh) 一种航迹快速规划精准控制飞行器的方法
CN114779820A (zh) 一种带有智能决策的多目的地无人机实时航迹规划方法
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant