CN113268074A - 一种基于联合优化的无人机航迹规划方法 - Google Patents

一种基于联合优化的无人机航迹规划方法 Download PDF

Info

Publication number
CN113268074A
CN113268074A CN202110632549.2A CN202110632549A CN113268074A CN 113268074 A CN113268074 A CN 113268074A CN 202110632549 A CN202110632549 A CN 202110632549A CN 113268074 A CN113268074 A CN 113268074A
Authority
CN
China
Prior art keywords
aerial vehicle
flight
unmanned aerial
action
flight state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110632549.2A
Other languages
English (en)
Other versions
CN113268074B (zh
Inventor
高敬鹏
胡欣瑜
叶方
江志烨
毛新蕊
高路
郑沛
何重航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110632549.2A priority Critical patent/CN113268074B/zh
Publication of CN113268074A publication Critical patent/CN113268074A/zh
Application granted granted Critical
Publication of CN113268074B publication Critical patent/CN113268074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于无人机飞行控制技术领域,具体涉及一种基于联合优化的无人机航迹规划方法。本发明通过前端飞行状态优化模型获取无人机自身飞行状态的最优估计,大幅度降低了自然干扰因素对传感器数据的误差;通过后端飞行动作优化模型,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。在实际应用中,对于传感器实时采集飞行状态数据,利用前端飞行状态优化模型实时获得最优飞行状态估计,将其作为已训练TD3模型的输入,得到飞行动作,并利用后端飞行动作优化模型,得到对应的飞行动作偏置,对其进行判决,控制输出优化后的飞行动作,从而实现无人机面对自然干扰影响的实时航迹规划。

Description

一种基于联合优化的无人机航迹规划方法
技术领域
本发明属于无人机飞行控制技术领域,具体涉及一种基于联合优化的无人机航迹规划方法。
背景技术
无人机是一种不载人的通过无线传输遥控装置或自主传感控制设备完成相应任务的飞行设备,航迹规划是无人机执行飞行任务的有效技术手段,航迹可靠才能确保无人机完成飞行任务。
传统的规划算法有人工势场法、Dijkstra算法等。人工势场法通过模拟引力场和排斥场对空间中无人机的综合作用规划无人机的飞行航迹,其适用于局部范围的规划,对全局规划的能力不足。Dijkstra算法是一种经典的用于最短路径求解的算法,它能够求出固定点到其他任意点的最短路径,简单有效,但缺点是一旦计算点数目增多,则算法计算量和所需内存极具增加。随着飞行环境日趋复杂,传统规划算法计算复杂度高、实时性差,难以实时控制无人机飞行。
强化学习算法具有运算速度快、实时性强的特点,且能够根据无人机的飞行状态,端到端地决策飞行动作,使无人机飞行的实时控制成为可能,因此在规划领域广泛应用。通过对现有技术文献的检索发现,西北工业大学在其申请的专利“基于DDPG的无人机自主引导控制方法”(专利申请号:CN201910853746.X,申请公布号:CN110806756A)中提出了一种基于DDPG的无人机自主引导控制方法,该方法能够使无人机安全并快速地从起点飞到终点,提高了无人机执行任务的自主性和效率,但是该方法仅适用于静态地形环境。何金等在《兵工自动化》(2020,39(09):15-21)上发表的“未知环境下基于PF-DQN的无人机路径规划”中提出了一种环境信息未知情况下基于势函数奖赏的DQN路径规划方法,实现了无人机在环境信息未知下有效避障的路径规划,但是该算法的应用局限于与其训练近似的环境模型。已有文献的检索结果表明,这些方法的建模过程并未考虑实际环境中自然干扰因素的影响,如突发天气变化、风力、气流等,这类影响会导致无人机传感器采集的飞行数据具有偏差,使强化学习算法决策的飞行动作不佳,难以满足无人机飞行航迹的可靠性。
发明内容
本发明的目的在于提供一种基于联合优化的无人机航迹规划方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:搭建飞行状态优化模型;所述的飞行状态优化模型的输入为无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),飞行状态优化模型的输出为无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T
步骤1.1:输入无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t);
其中,I个传感器的采样间隔均为Ω;mi(t)=[pi(t),vi(t)]T;i={1,2,...,I};pi(t)表示第i个传感器获取的无人机位置量测向量,pi(t)=[pix(t),piy(t),piz(t)]T,pix(t)、piy(t)和piz(t)分别表示第i个传感器获取的笛卡尔坐标系下无人机在三维空间中x、y和z三个方向的位置坐标量测值;vi(t)表示第i个传感器获取的无人机速度量测向量,vi(t)=[vix(t),viy(t),viz(t)]T,vix(t)、viy(t)和viz(t)分别表示第i个传感器获取的笛卡尔坐标系无人机在三维空间中x、y和z三个方向的速度分量量测值;
步骤1.2:根据t-1时刻无人机飞行状态的最优估计ζ(t-1|t-1),计算t时刻无人机飞行状态的预测ζ(t|t-1);
Figure BDA0003104245340000021
其中,ζ(t-1|t-1)=[p(t-1),v(t-1)]T
Figure BDA0003104245340000022
为白噪声;
步骤1.3:计算t时刻各传感器对无人机飞行状态的量测预测δi(t|t-1);
δi(t|t-1)=Hi(t)ζ(t|t-1)
其中,Hi(t)表示第i个传感器的线性测量矩阵;
Figure BDA0003104245340000023
||·||表示求模运算;
步骤1.4:计算t时刻各传感器的量测新息εi(t);
εi(t)=mi(t)-δi(t|t-1)
步骤1.5:根据t-1时刻无人机飞行状态的协方差P(t-1|t-1),计算t时刻无人机飞行状态的协方差预测P(t|t-1);
P(t|t-1)=FP(t-1|t-1)FT+O
其中,
Figure BDA0003104245340000031
步骤1.6:计算t时刻各传感器的预测新息协方差Ii(t);
Figure BDA0003104245340000032
其中,
Figure BDA0003104245340000033
步骤1.7:计算t时刻各传感器量测向量的关联概率βi(t);
Figure BDA0003104245340000034
Figure BDA0003104245340000035
步骤1.8:计算t时刻I个传感器的综合量测新息ε(t);
Figure BDA0003104245340000036
步骤1.9:计算t时刻无人机飞行状态的协方差P(k|k);
Figure BDA0003104245340000037
Figure BDA0003104245340000038
步骤1.10:计算无人机t时刻飞行状态的最优估计ζ(t|t);
ζ(t|t)=ζ(t|t-1)K(t)ε(t)
步骤2:构建并训练基于TD3的无人机航迹规划模型;
设置基于TD3的无人机航迹规划模型的状态空间输入为ζ(t|t),设置基于TD3的无人机航迹规划模型的动作空间的输出为
Figure BDA0003104245340000039
表示无人机t时刻飞行的方位角,θ(t)表示无人机t时刻飞行的俯仰角;设置强化学习奖励函数r(t)为:
r(t)=r1(t)+r2(t)
Figure BDA0003104245340000041
Figure BDA0003104245340000042
其中,r1表示到达正奖励;r2表示航程负奖励;parrive表示终点的位置坐标;pstart表示起点的位置坐标;dmax表示无人机最大探测范围;ρmax表示无人机携带的燃料可供给的最大可飞行航程;
步骤3:构建并训练基于随机森林回归的飞行动作优化模型;
利用步骤2中训练好的基于TD3的无人机航迹规划模型,根据每一时刻基于TD3的无人机航迹规划模型输出的动作
Figure BDA0003104245340000043
获取无人机执行动作a(t)后在t+1时刻到达的位置,将无人机t+1时刻的位置与t时刻的位置连接成标定线,标定线与无人机执行动作a(t)所得航迹构成夹角
Figure BDA0003104245340000044
在直角坐标系中
Figure BDA0003104245340000045
分解,得到
Figure BDA0003104245340000046
构造训练数据集Angle_data={Angle_datat},
Figure BDA0003104245340000047
训练好的基于随机森林回归的飞行动作优化模型根据输入的动作a(t)输出动作偏置
Figure BDA0003104245340000048
步骤4:联合飞行状态优化模型、基于TD3的无人机航迹规划模型和基于随机森林回归的飞行动作优化模型,对无人机航迹进行实时规划;
步骤4.1:获取无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),输入至飞行状态优化模型中,得到无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T
步骤4.2:将无人机t时刻飞行状态的最优估计ζ(t|t)输入至训练好的基于TD3的无人机航迹规划模型中,得到动作
Figure BDA0003104245340000049
步骤4.3:将动作a(t)输入至训练好的基于随机森林回归的飞行动作优化模型中,得到动作偏置
Figure BDA00031042453400000410
步骤4.4:计算
Figure BDA00031042453400000411
Figure BDA00031042453400000412
则直接输出动作a(t)来控制无人机飞行;否则,执行步骤4.5;
步骤4.5:优化飞行动作,将原飞行动作a(t)和飞行动作偏置
Figure BDA0003104245340000051
处理,得到新的飞行动作at_new来控制无人机飞行:
Figure BDA0003104245340000052
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
本发明的有益效果在于:
本发明通过设计前端飞行状态优化模型,引入目标跟踪机理,最优估计无人机自身的飞行状态,大幅度降低了自然干扰因素对传感器数据的误差;通过设计后端飞行动作优化模型,结合姿态优化机制,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。
附图说明
图1是本发明的总体流程图。
图2是本发明的实施例中基于PDA的无人机飞行状态优化方法的流程图。
图3是本发明的实施例中基于TD3的无人机航迹规划方法训练流程图。
图4是无人机球面坐标系下速度模型图。
图5是本发明的实施例中动作优化回归模型数据集构建方法的示意图。
图6是本发明的实施例中应用基于联合优化的无人机航迹规划方法的流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明属于无人机飞行控制领域,涉及一种基于联合优化的无人机航迹规划方法。本发明降低了自然干扰因素对无人机飞行航迹的影响,联合前端飞行状态优化和后端飞行动作优化。本发明的技术方案具体包括以下步骤:
步骤1:搭建飞行状态优化模型,利用概率数据关联算法实现无人机传感器量测数据到最优飞行状态的估计;
步骤2:结合步骤1的最优飞行状态,构建基于TD3的无人机航迹规划模型,实现无人机对规划环境的探索;
步骤3:结合步骤2的TD3模型,设计基于随机森林回归的飞行动作优化模型,实现飞行动作到飞行动作修正偏置的映射;
步骤4:联合步骤1的飞行状态优化模型和步骤2、步骤3的飞行动作优化模型,构成基于联合优化的无人机航迹规划模型,实时控制飞行动作输出,形成航迹,
步骤1包括:
选择概率数据关联(Probability Data Association,PDA)算法为状态优化算法。
将无人机在实际环境中飞行受到的自然干扰因素扰动作为控制因素
Figure BDA0003104245340000061
结合无人机飞行的机动模型,获得飞行状态模型预测。
根据实际情况设定传感器线性量测矩阵
Figure BDA0003104245340000062
以获得飞行状态的量测预测。式中,p(k)=[px(k),py(k),pz(k)]T表示无人机位置信息,px(k)、py(k)和pz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,v(k)=[vx(k),vy(k),vz(k)]T表示k时刻无人机速度信息,vx(k)、vy(k)和vz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量,||·||表示求模运算。
利用机载传感器,量测得到多组无人机自身飞行状态数据,将所得数据均作为有效量测数据,结合量测预测,获得每个传感器量测数据的新息。
将每个传感器量测数据的关联概率和新息加权计算,得到综合新息,并结合卡尔曼滤波器增益和飞行状态模型预测,得到最优估计的飞行状态。
步骤2包括:
选择双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)算法为无人机航迹规划算法。
考虑由PDA得到的最优飞行状态,设计无人机航迹规划的强化学习状态空间为st=[pt,vt]T,式中,pt=[px,t,py,t,pz,t]T表示t时刻无人机位置信息,px,t、py,t和pz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,vt=[vx,t,vy,t,vz,t]T为t时刻无人机速度信息,vx,t、vy,t和vz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
考虑无人机匀速率飞行,控制其速度方向就可以控制飞行的方向,设计无人机航迹规划的强化学习动作空间为
Figure BDA0003104245340000063
式中,
Figure BDA0003104245340000064
和θt分别表示无人机飞行的方位角和俯仰角。
考虑模型训练应使无人机飞行趋向于终点并避免燃料耗尽,设计无人机航迹规划的强化学习奖励函数为rt=r1+r2,式中,r1表示到达正奖励,r2表示航程负奖励,
Figure BDA0003104245340000071
式中,pt表示t时刻无人机所处位置坐标,parrive表示终点位置坐标,dmax表示无人机最大探测范围;
Figure BDA0003104245340000072
式中,pstart表示起点位置坐标,ρmax表示无人机最大可飞行航程。
搭建TD3网络结构,其中Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为2个神经元,输出层为6个神经元,Critic网络的输入层为8个神经元,输出层为1个神经元,设置TD3训练参数,进行网络训练,得到基于TD3的无人机航迹规划模型。
步骤3包括:
定义回归模型训练的数据集Angle_data={Angle_datat},式中,
Figure BDA0003104245340000073
为任意t时刻的角度数据集,
Figure BDA0003104245340000074
表示无人机的飞行动作,作为样本,
Figure BDA0003104245340000075
表示无人机航迹连线和无人机与终点连线的夹角,即飞行动作偏置,作为标签,
Figure BDA0003104245340000076
Figure BDA0003104245340000077
Figure BDA0003104245340000078
在直角坐标系的方位角和俯仰角。
利用步骤2得到的已训练TD3模型的Actor在线网络,决策无人机在规划空间中每一时刻的飞行动作
Figure BDA0003104245340000079
无人机执行飞行动作,飞行到下一位置;将该步飞行前无人机所处位置和无人机任务终点形成标定线,标定线与该步飞行所得航迹构成夹角
Figure BDA00031042453400000710
在直角坐标系中对该夹角分解,得到
Figure BDA00031042453400000711
得到每一时刻的Angle_datat并存储;完成整个飞行过程,存储整体数据集Angle_data。
设置随机森林回归模型的基本参数,结合数据集Angle_data,进行回归模型训练,得到基于随机森林回归的飞行动作优化模型。
步骤4包括:
无人机携带4个传感器实时量测飞行状态数据,利用PDA算法得到无人机在该时刻的最优飞行状态。
最优飞行状态作为步骤2所得已训练TD3模型的输入,利用其中的Actor在线网络,决策飞行动作输出。
将飞行动作,作为步骤3所得已训练随机森林回归模型的输入,得到对应的飞行动作偏置。
判决飞行动作偏置,定义
Figure BDA0003104245340000081
Figure BDA0003104245340000082
则说明飞行航迹与标定航迹(标定航迹即无人机所在位置和终点的连线)接近,不进行动作优化;若
Figure BDA0003104245340000083
则说明飞行航迹偏离标定航迹,需要进行动作优化。
依照判决结果,若不优化飞行动作,则将已训练TD3模型所得飞行动作控制输出;若需要优化飞行动作,则将原飞行动作at和飞行动作偏置
Figure BDA0003104245340000084
依照式(1)处理,得到新的飞行动作at_new,并控制飞行动作实时输出,形成最终航迹。
Figure BDA0003104245340000085
本发明的有益效果在于:
本发明设计的前端飞行状态优化模型,引入了目标跟踪机理,最优估计无人机自身的飞行状态,大幅度降低了自然干扰因素对传感器数据的误差;后端飞行动作优化模型结合了姿态优化机制,将实际偏差大的飞行角度调整至预期飞行角度,解决了强化学习决策飞行动作不佳的问题,提高了飞行航迹的可靠性。总之,本发明联合前端飞行状态优化和后端飞行动作优化,提供的基于联合优化的无人机航迹规划方法,在自然干扰因素的影响下,提高了无人机飞行航迹的可靠性,提升了无人机抗干扰的能力。
实施例1:
本发:针对实际环境中,无人机传感器采集的数据受到自然干扰影响存在误差,导致强化学习算法决策飞行动作不佳的问题,提供一种基于联合优化的无人机航迹规划方法。本发明通过搭建基于概率数据关联的飞行状态优化模型,完成无人机传感器量测数据到飞行状态的最优估计;设定无人机航迹规划背景下的强化学习基本要素,结合最优飞行状态设计状态空间,依据无人机机动原理设计动作空间,根据实际任务需求设计奖励函数,构建并训练基于TD3的无人机航迹规划模型,实时决策飞行动作;利用已训练TD3,构建动作优化回归模型数据集,设计并训练基于随机森林回归的飞行动作优化模型,完成飞行动作到飞行动作修正偏置的映射。在实际应用中,对于传感器实时采集飞行状态数据,利用状态优化模型实时获得最优飞行状态,将其作为已训练TD3模型的输入,得到飞行动作,并利用飞行动作优化模型,得到对应的飞行动作偏置,对其进行判决,控制输出优化后的飞行动作,从而在联合优化的作用下,实现无人机面对自然干扰影响的实时航迹规划。
如附图1所示是本发明实施例基于联合优化的无人机航迹规划方法流程示意图,包括步骤1至步骤4:
步骤1:搭建飞行状态优化模型,利用概率数据关联算法实现无人机传感器量测数据到最优飞行状态的估计。
如附图2所示是本发明实施例基于PDA的无人机飞行状态优化方法流程示意图,包括步骤1.1至步骤1.13:
步骤1.1:设计在任意k时刻,无人机运动的状态向量为:
ζ(k)=[p(k),v(k)]T (2)
式中,p(k)=[px(k),py(k),pz(k)]T表示无人机位置信息,px(k)、py(k)和pz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,v(k)=[vx(k),vy(k),vz(k)]T表示k时刻无人机速度信息,vx(k)、vy(k)和vz(k)分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
步骤1.2:根据k-1时刻无人机的运动状态ζ(k-1|k-1),完成k时刻的状态预测ζ(k|k-1):
Figure BDA0003104245340000093
式中,
Figure BDA0003104245340000091
为任意Ω个采样间隔内无人机的机动模型,在本发明的实施例中,无人机飞行采用匀速运动模型,
Figure BDA0003104245340000092
为无人机在实际环境中飞行的随机扰动,在本发明的实施例中,将其设计为白噪声形式。
步骤1.3:计算k时刻的量测预测δ(k|k-1):
δ(k|k-1)=H(k)ζ(k|k-1) (4)
式中,H(k)表示线性测量矩阵,在本发明的实施例中,将其设定为:
Figure BDA0003104245340000101
式中,||·||表示求模运算。
步骤1.4:利用传感器,获得有效量测数据M(k),在本发明的实施例中,无人机携带4个传感器:
M(k)=mi(k),i=1,2,3,4 (6)
式中,mi(k)即为在k时刻,第i个传感器得到的状态的有效量测值,在本发明的实施例中,规定传感器量测的数据均为有效量测值。
步骤1.5:计算每个有效量测值mi(k)的新息:
εi(k)=mi(k)-δ(k|k-1),i=1,2,3,4 (7)
式中,εi(k)即为在k时刻,第i个传感器所得量测值的新息。
步骤1.6:计算k-1时刻无人机状态协方差为:
Figure BDA0003104245340000102
式中,Cov(·,·)表示协方差运算。
步骤1.7:计算k时刻的状态协方差预测P(k|k-1):
P(k|k-1)=F(k-1)P(k-1|k-1)FT(k-1)+O (9)
式中,
Figure BDA0003104245340000103
为本发明的实施例中,白噪声形式的随机扰动对应的协方差。
步骤1.8:预测新息的协方差I(k):
I(k)=H(k)P(k|k-1)HT(k)+R(k) (10)
式中,R(k)为量测噪声协方差,在本发明的实施例中,将其设定为:
Figure BDA0003104245340000111
步骤1.9:计算每个量测值的关联概率βi(k):
Figure BDA0003104245340000112
式中,
Figure BDA0003104245340000113
步骤1.10:依据公式(13),综合新息εi(k):
Figure BDA0003104245340000114
步骤1.11:更新无人机在k时刻的最优状态ζ(k|k),用于k+1时刻的最优飞行状态更新:
ζ(k|k)=ζ(k|k-1)+K(k)ε(k) (14)
式中,K(k)=P(k|k-1)HT(k)I-1(k)为卡尔曼滤波器增益。
步骤1.12:更新无人机在k时刻的状态协方差预测P(k|k),用于k+1时刻的最优飞行状态更新:
Figure BDA0003104245340000115
步骤1.13:在无人机的飞行的每一时刻均执行步骤1.2至步骤1.12,实现无人机飞行状态在每一时刻由传感器量测数据到最优飞行状态的估计。
步骤2:结合步骤1的最优飞行状态,构建基于TD3的无人机航迹规划模型,实现无人机对规划环境的探索。
如附图3所示是本发明实施例基于TD3的无人机航迹规划方法训练流程示意图,包括步骤2.1至步骤2.6:
步骤2.1:在本发明的实施例中,选择TD3作为实现无人机航迹规划的算法。
步骤2.2:在本发明的实施例中,考虑由PDA得到的最优飞行状态ζ(k|k)=[p(k),v(k)]T,设计无人机航迹规划的强化学习状态空间st为:
st=[pt,vt]T=ζ(t|t) (16)
式中,pt=[px,t,py,t,pz,t]T表示t时刻无人机位置信息,px,t、py,t和pz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的位置坐标点,vt=[vx,t,vy,t,vz,t]T为t时刻无人机速度信息,vx,t、vy,t和vz,t分别代表笛卡尔坐标系下,无人机在三维空间中x、y和z三个方向的速度分量。
图4所示是无人机球面坐标系下速度模型图,如附图4所示,1是无人机在空间中飞行的点迹,2是坐标系的x轴方向,3是坐标系的y轴方向,4是坐标系的z轴方向,5是无人机飞行速度方向,6是无人机飞行速度方向的方位角
Figure BDA0003104245340000121
7是无人机飞行速度方向的俯仰角θt
步骤2.3:在本发明的实施例中,设计无人机航迹规划的强化学习动作空间at为:
Figure BDA0003104245340000123
式中,
Figure BDA0003104245340000124
和θt分别表示无人机飞行的方位角和俯仰角。
步骤2.4:在本发明的实施例中,设计无人机航迹规划的强化学习奖励函数rt为:
rt=r1+r2 (18)
式中,r1表示到达正奖励,r2表示航程负奖励。
r1具体设计为:
Figure BDA0003104245340000126
式中,pt表示t时刻无人机所处位置坐标,parrive表示终点位置坐标,dmax表示无人机最大探测范围。
r2具体设计为:
Figure BDA0003104245340000127
式中,pstart表示起点位置坐标,ρmax表示无人机携带的燃料可供给的最大可飞行航程。
步骤2.5:搭建Actor网络和Critic网络,均为3层全连接网络结构,Actor网络的输入层为2个神经元,输出层为6个神经元,Critic网络的输入层为8个神经元,输出层为1个神经元。设置训练参数:回合更新次数为10000,每回合时间步数为50,延迟步数为2,记忆池大小为5000,采集经验数据的批量大小为32,折扣因子大小为0.99,Actor网络学习率为1×10-4,Critic网络学习率为2×10-4
步骤2.6:利用步骤2.1至2.4设置的无人机航迹规划背景下的强化学习状态空间、动作空间和奖励函数,在步骤2.5设定的参数条件下,依据TD3的原理,训练基于TD3的无人机航迹规划模型,获得无人机从飞行状态到飞行动作端到端的决策映射。
步骤3:结合步骤2的TD3模型,设计基于随机森林回归的飞行动作优化模型,实现飞行动作到飞行动作修正偏置的映射。
图5是本发明实施例的动作优化回归模型数据集构建方法示意图,如附图5所示,8是无人机飞行空间直角坐标系原点,9是直角坐标系x轴方向,10是直角坐标系y轴方向,11是直角坐标系z轴方向,12是无人机飞行的起点即航迹的第0点,13是1时刻的航迹点,14是2时刻的航迹点,15是t时刻的航迹点,16是t+1时刻的航迹点,17是无人机飞行的终点,18是空间中的障碍,19是无人机飞行起点与1时刻航迹点形成的航迹连线和起点至终点的标定线的夹角
Figure BDA0003104245340000131
20是无人机1时刻航迹点与2时刻航迹点形成的航迹连线和1时刻航迹点至终点的标定线的夹角
Figure BDA0003104245340000132
21是无人机t时刻航迹点与t+1时刻航迹点形成的航迹连线和t时刻航迹点至终点的标定线的夹角
Figure BDA0003104245340000133
步骤3.1:在本发明的实施例中,生成回归模型训练的数据集Angle_data:
Angle_data={Angle_datat} (21)
Figure BDA0003104245340000134
式中,
Figure BDA0003104245340000135
为任意t时刻的角度数据集,
Figure BDA0003104245340000136
表示无人机的飞行动作,作为样本,
Figure BDA0003104245340000137
表示无人机航迹连线和无人机与终点连线的夹角,即飞行动作偏置,作为标签,
Figure BDA0003104245340000138
Figure BDA0003104245340000139
Figure BDA00031042453400001310
在直角坐标系的方位角和俯仰角。
步骤3.2:在本发明的实施例中,利用步骤2已训练TD3模型的Actor在线网络,在图5所示规划空间中决策无人机每一时刻的飞行动作,即
Figure BDA00031042453400001311
无人机执行飞行动作,飞行到下一位置;将该步飞行前无人机所处位置和终点形成标定线,标定线与该步飞行所得航迹构成夹角
Figure BDA00031042453400001312
在直角坐标系中对该夹角分解,得到
Figure BDA00031042453400001313
得到每一时刻的Angle_datat并存储;完成整个飞行过程,存储整体数据集Angle_data。
步骤3.3:在本发明的实施例中,设置随机森林回归模型的基本参数:决策树个数100,决策树最大深度10。
步骤3.4:利用步骤3.2得到的关于步骤3.1生成的数据集Angle_data,在步骤3.3设定的参数条件下,依据随机森林回归的原理,训练随机森林回归模型,得到飞行动作到飞行动作修正偏置的映射。
步骤4:联合步骤1的飞行状态优化模型和步骤2、步骤3的飞行动作优化模型,构成基于联合优化的无人机航迹规划模型,实时控制飞行动作输出,形成航迹。
如附图6所示是本发明实施例应用基于联合优化的无人机航迹规划方法示意图,包括步骤4.1至步骤4.6:
步骤4.1:对于4个传感器实时量测的4组状态数据,利用PDA算法实施步骤1,得到无人机在该时刻的最优飞行状态ζ(t|t)。
步骤4.2:将步骤4.1获得的最优飞行状态ζ(t|t),作为步骤2所得已训练TD3模型的输入st,利用其中的Actor在线网络,决策飞行动作at
步骤4.3:将步骤4.2获得的飞行动作at,作为步骤3所得已训练随机森林回归模型的输入,得到对应的飞行动作偏置
Figure BDA0003104245340000141
步骤4.4:在本发明的实施例中,定义判决式(23),并判决飞行动作偏置:
Figure BDA0003104245340000142
Figure BDA0003104245340000143
则说明飞行航迹与标定航迹(标定航迹即无人机所在位置和终点的连线)接近,不进行动作优化;若
Figure BDA0003104245340000144
则说明飞行航迹偏离标定航迹,需要进行动作优化。
步骤4.5:依照步骤4.4的判决结果,若不优化飞行动作,则将步骤4.2所得飞行动作at控制输出;若需要优化飞行动作,则将原飞行动作at和飞行动作偏置
Figure BDA0003104245340000145
依照式(24)及式(25)处理,得到新的飞行动作at_new:
Figure BDA0003104245340000146
Figure BDA0003104245340000151
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于联合优化的无人机航迹规划方法,其特征在于,包括以下步骤:
步骤1:搭建飞行状态优化模型;所述的飞行状态优化模型的输入为无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),飞行状态优化模型的输出为无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T
步骤1.1:输入无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t);
其中,I个传感器的采样间隔均为Ω;mi(t)=[pi(t),vi(t)]T;i={1,2,...,I};pi(t)表示第i个传感器获取的无人机位置量测向量,pi(t)=[pix(t),piy(t),piz(t)]T,pix(t)、piy(t)和piz(t)分别表示第i个传感器获取的笛卡尔坐标系下无人机在三维空间中x、y和z三个方向的位置坐标量测值;vi(t)表示第i个传感器获取的无人机速度量测向量,vi(t)=[vix(t),viy(t),viz(t)]T,vix(t)、viy(t)和viz(t)分别表示第i个传感器获取的笛卡尔坐标系无人机在三维空间中x、y和z三个方向的速度分量量测值;
步骤1.2:根据t-1时刻无人机飞行状态的最优估计ζ(t-1|t-1),计算t时刻无人机飞行状态的预测ζ(t|t-1);
Figure FDA0003104245330000011
其中,ζ(t-1|t-1)=[p(t-1),v(t-1)]T
Figure FDA0003104245330000012
Figure FDA0003104245330000013
为白噪声;
步骤1.3:计算t时刻各传感器对无人机飞行状态的量测预测δi(t|t-1);
δi(t|t-1)=Hi(t)ζ(t|t-1)
其中,Hi(t)表示第i个传感器的线性测量矩阵;
Figure FDA0003104245330000014
||·||表示求模运算;
步骤1.4:计算t时刻各传感器的量测新息εi(t);
εi(t)=mi(t)-δi(t|t-1)
步骤1.5:根据t-1时刻无人机飞行状态的协方差P(t-1|t-1),计算t时刻无人机飞行状态的协方差预测P(t|t-1);
P(t|t-1)=FP(t-1|t-1)FT+O
其中,
Figure FDA0003104245330000021
步骤1.6:计算t时刻各传感器的预测新息协方差Ii(t);
Figure FDA0003104245330000022
其中,
Figure FDA0003104245330000023
步骤1.7:计算t时刻各传感器量测向量的关联概率βi(t);
Figure FDA0003104245330000024
Figure FDA0003104245330000025
步骤1.8:计算t时刻I个传感器的综合量测新息ε(t);
Figure FDA0003104245330000026
步骤1.9:计算t时刻无人机飞行状态的协方差P(k|k);
Figure FDA0003104245330000027
Figure FDA0003104245330000028
步骤1.10:计算无人机t时刻飞行状态的最优估计ζ(t|t);
ζ(t|t)=ζ(t|t-1)K(t)ε(t)
步骤2:构建并训练基于TD3的无人机航迹规划模型;
设置基于TD3的无人机航迹规划模型的状态空间输入为ζ(t|t),设置基于TD3的无人机航迹规划模型的动作空间的输出为
Figure FDA0003104245330000031
Figure FDA0003104245330000032
表示无人机t时刻飞行的方位角,θ(t)表示无人机t时刻飞行的俯仰角;设置强化学习奖励函数r(t)为:
r(t)=r1(t)+r2(t)
Figure FDA0003104245330000033
Figure FDA0003104245330000034
其中,r1表示到达正奖励;r2表示航程负奖励;parrive表示终点的位置坐标;pstart表示起点的位置坐标;dmax表示无人机最大探测范围;ρmax表示无人机携带的燃料可供给的最大可飞行航程;
步骤3:构建并训练基于随机森林回归的飞行动作优化模型;
利用步骤2中训练好的基于TD3的无人机航迹规划模型,根据每一时刻基于TD3的无人机航迹规划模型输出的动作
Figure FDA0003104245330000035
获取无人机执行动作a(t)后在t+1时刻到达的位置,将无人机t+1时刻的位置与t时刻的位置连接成标定线,标定线与无人机执行动作a(t)所得航迹构成夹角
Figure FDA0003104245330000036
在直角坐标系中
Figure FDA0003104245330000037
分解,得到
Figure FDA0003104245330000038
构造训练数据集Angle_data={Angle_datat},
Figure FDA0003104245330000039
训练好的基于随机森林回归的飞行动作优化模型根据输入的动作a(t)输出动作偏置
Figure FDA00031042453300000310
步骤4:联合飞行状态优化模型、基于TD3的无人机航迹规划模型和基于随机森林回归的飞行动作优化模型,对无人机航迹进行实时规划;
步骤4.1:获取无人机携带的I个传感器在t时刻对无人机飞行状态的量测向量mi(t),输入至飞行状态优化模型中,得到无人机t时刻飞行状态的最优估计ζ(t|t)=[p(t),v(t)]T
步骤4.2:将无人机t时刻飞行状态的最优估计ζ(t|t)输入至训练好的基于TD3的无人机航迹规划模型中,得到动作
Figure FDA00031042453300000311
步骤4.3:将动作a(t)输入至训练好的基于随机森林回归的飞行动作优化模型中,得到动作偏置
Figure FDA00031042453300000312
步骤4.4:计算
Figure FDA0003104245330000041
Figure FDA0003104245330000042
则直接输出动作a(t)来控制无人机飞行;否则,执行步骤4.5;
步骤4.5:优化飞行动作,将原飞行动作a(t)和飞行动作偏置
Figure FDA0003104245330000043
处理,得到新的飞行动作at_new来控制无人机飞行:
Figure FDA0003104245330000044
步骤4.6:在无人机的飞行过程中,实时执行步骤4.1至步骤4.5,实现每一时刻的前端飞行状态优化和后端飞行动作优化,并实时控制优化后的飞行动作输出,形成最终航迹。
CN202110632549.2A 2021-06-07 2021-06-07 一种基于联合优化的无人机航迹规划方法 Active CN113268074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632549.2A CN113268074B (zh) 2021-06-07 2021-06-07 一种基于联合优化的无人机航迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632549.2A CN113268074B (zh) 2021-06-07 2021-06-07 一种基于联合优化的无人机航迹规划方法

Publications (2)

Publication Number Publication Date
CN113268074A true CN113268074A (zh) 2021-08-17
CN113268074B CN113268074B (zh) 2022-05-13

Family

ID=77234465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632549.2A Active CN113268074B (zh) 2021-06-07 2021-06-07 一种基于联合优化的无人机航迹规划方法

Country Status (1)

Country Link
CN (1) CN113268074B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114217632A (zh) * 2021-12-03 2022-03-22 中国人民解放军国防科技大学 自适应容错无人机跟踪巡航系统及方法
CN114489107A (zh) * 2022-01-29 2022-05-13 哈尔滨逐宇航天科技有限责任公司 一种飞行器双延迟深度确定性策略梯度姿态控制方法
CN116628448A (zh) * 2023-05-26 2023-08-22 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法
CN116698037A (zh) * 2023-05-31 2023-09-05 哈尔滨工程大学 一种无人机航迹规划方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007064691A (ja) * 2005-08-29 2007-03-15 Navitime Japan Co Ltd ナビゲーションシステム、端末装置及び経路案内方法
CN103017753A (zh) * 2012-11-01 2013-04-03 中国兵器科学研究院 一种无人机航路规划方法及装置
CN103471592A (zh) * 2013-06-08 2013-12-25 哈尔滨工程大学 一种基于蜂群协同觅食算法的多无人机航迹规划方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN110162077A (zh) * 2019-06-18 2019-08-23 哈尔滨工程大学 一种基于飞鱼算法的无人机航迹规划方法
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
US10671076B1 (en) * 2017-03-01 2020-06-02 Zoox, Inc. Trajectory prediction of third-party objects using temporal logic and tree search
WO2021017227A1 (zh) * 2019-07-30 2021-02-04 北京邮电大学 无人机轨迹优化方法、装置及存储介质
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007064691A (ja) * 2005-08-29 2007-03-15 Navitime Japan Co Ltd ナビゲーションシステム、端末装置及び経路案内方法
CN103017753A (zh) * 2012-11-01 2013-04-03 中国兵器科学研究院 一种无人机航路规划方法及装置
CN103471592A (zh) * 2013-06-08 2013-12-25 哈尔滨工程大学 一种基于蜂群协同觅食算法的多无人机航迹规划方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
US10671076B1 (en) * 2017-03-01 2020-06-02 Zoox, Inc. Trajectory prediction of third-party objects using temporal logic and tree search
CN110162077A (zh) * 2019-06-18 2019-08-23 哈尔滨工程大学 一种基于飞鱼算法的无人机航迹规划方法
WO2021017227A1 (zh) * 2019-07-30 2021-02-04 北京邮电大学 无人机轨迹优化方法、装置及存储介质
CN110333739A (zh) * 2019-08-21 2019-10-15 哈尔滨工程大学 一种基于强化学习的auv行为规划及动作控制方法
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAXUAN FAN等: "UAV online path planning technology based on deep reinforcement learning", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》 *
丁力等: "基于航迹规划的四旋翼飞行器轨迹跟踪控制", 《电光与控制》 *
万磊,等: "欠驱动水下机器人航迹跟踪控制", 《电机与控制学报》 *
宋欣屿,等: "基于深度强化学习的无人机着陆轨迹跟踪控制", 《航空科学技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114217632A (zh) * 2021-12-03 2022-03-22 中国人民解放军国防科技大学 自适应容错无人机跟踪巡航系统及方法
CN114217632B (zh) * 2021-12-03 2023-09-26 中国人民解放军国防科技大学 自适应容错无人机跟踪巡航系统及方法
CN114489107A (zh) * 2022-01-29 2022-05-13 哈尔滨逐宇航天科技有限责任公司 一种飞行器双延迟深度确定性策略梯度姿态控制方法
CN114489107B (zh) * 2022-01-29 2022-10-25 哈尔滨逐宇航天科技有限责任公司 一种飞行器双延迟深度确定性策略梯度姿态控制方法
CN116628448A (zh) * 2023-05-26 2023-08-22 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法
CN116628448B (zh) * 2023-05-26 2023-11-28 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法
CN116698037A (zh) * 2023-05-31 2023-09-05 哈尔滨工程大学 一种无人机航迹规划方法
CN116698037B (zh) * 2023-05-31 2024-03-26 哈尔滨工程大学 一种无人机航迹规划方法

Also Published As

Publication number Publication date
CN113268074B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN113268074B (zh) 一种基于联合优化的无人机航迹规划方法
US11727812B2 (en) Airplane flight path planning method and device based on the pigeon-inspired optimization
CN109655066B (zh) 一种基于Q(λ)算法的无人机路径规划方法
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
Wang et al. Autonomous navigation of UAVs in large-scale complex environments: A deep reinforcement learning approach
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108319293B (zh) 一种基于lstm网络的uuv实时避碰规划方法
CN110320809B (zh) 一种基于模型预测控制的agv轨迹修正方法
Yan et al. Consensus formation tracking for multiple AUV systems using distributed bioinspired sliding mode control
CN112435275A (zh) 一种融合卡尔曼滤波和ddqn算法的无人机机动目标追踪方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN111538241A (zh) 一种平流层飞艇水平轨迹智能控制方法
CN112712193A (zh) 基于改进Q-Learning的多无人机局部航路规划方法及装置
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN114895707A (zh) 基于变频蝙蝠算法的农业无人机路径规划方法及系统
CN115562357A (zh) 一种面向无人机集群的智能路径规划方法
Xue et al. Multi-agent deep reinforcement learning for uavs navigation in unknown complex environment
Qiu Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm
Ramezani et al. UAV path planning employing MPC-reinforcement learning method considering collision avoidance
CN110779526B (zh) 一种路径规划方法、装置及存储介质
Zhang et al. UAV path planning based on receding horizon control with adaptive strategy
CN108459614B (zh) 一种基于cw-rnn网络的uuv实时避碰规划方法
Chronis et al. Dynamic Navigation in Unconstrained Environments Using Reinforcement Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant