CN116880551A

CN116880551A - 基于随机事件捕获的飞行轨迹规划方法，系统及存储介质

Info

Publication number: CN116880551A
Application number: CN202310857276.0A
Authority: CN
Inventors: 李初雨; 朱凯男; 朱永东; 陈岩; 赵庶源; 杨斌
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-10-13

Abstract

本发明公开了一种基于随机事件捕获的飞行轨迹规划方法，包括以下步骤：根据固定翼无人机的历史飞行数据，构建轨迹和能量消耗的关系模型；根据固定翼无人机上的相机参数和巡航区域内事件兴趣点分布情况，构建巡航任务中的随机事件仿真模型；基于关系模型和随机事件模型对固定翼无人机的三维轨迹机进行约束，并基于巡航任务周期进行变量离散化，以构建基于三维方向加速度的目标优化模型；将巡航任务输入至所述目标优化模型中，利用强化学习方法对固定翼无人机的飞行轨迹进行优化以获得规划结果。本发明还提供了一种飞行轨迹规划系统和存储介质。本发明的方法可以有效提高固定翼无人机事件捕获的能量效率，从而提升固定翼无人机巡检的自动化水平。

Description

基于随机事件捕获的飞行轨迹规划方法，系统及存储介质

技术领域

本发明属于无人机飞行规划技术领域，尤其涉及基于随机事件捕获的飞行轨迹规划方法，系统及存储介质。

背景技术

近年来，无人机(Unmanned Aerial Vehicle，UAV)产业发展不断加快，无人机应用已从军用领域延伸到了民用领域。根据《工业和信息化部关于促进和规范民用无人机制造业发展的指导意见》，2025年，民用无人机产值约达到1800亿元。中国信通院在2018年发布了《5G无人机应用白皮书》，书中详述了网联无人机在物流、农业植保、巡检、测绘、直播等方面的应用场景与通信需求，其中巡检方面的未来市场空间最大。目前来看，巡检无人机已经逐渐在电力、公路以及城市安全等保障民众人身安全的领域中崭露头角。无人机成本低、灵活性强、安全性高、受自然环境及地形影响较小，能够替代人工在恶劣环境作业，提供更优的监测视角和巡视质量。

专利文献CN116113025A公开了一种无人机协能通信网络中轨迹设计和功率分配方法，包括以下步骤：以节点最终虚拟剩余能量最接近节点的电池最大容量为目标建立功率分配模型；采用强化学习距离奖惩算法对所述功率分配模型进行求解，得到节点资源分配和剩余能量的优化方案。该方法针采用强化学习方法对无人机的通信轨迹和功率进行分配。

专利文献CN115877871A公开了一种基于强化学习的非零和博弈无人机编队控制方法，具体步骤如下：S1：建立无人机动力学模型；S2：建立非零和博弈编队模型；S3：利用强化学习方法对步骤S2建立的非零和博弈编队模型进行求解；S4：设计非零和博弈编队控制器。该方法采用强化学习方法对无人机的飞行轨迹进行编排。

发明内容

本发明的目的是提供一种基于随机事件捕获的飞行轨迹规划方法，系统及存储介质，该飞行轨迹规划方法可以有效提高固定翼无人机事件捕获的能量效率，从而提升固定翼无人机巡检的自动化水平。

为了实现本发明的第一个目的，提供了一种基于随机事件捕获的飞行轨迹规划方法，包括以下步骤：

根据固定翼无人机的历史飞行数据，构建飞行轨迹和能量消耗的关系模型。

根据固定翼无人机上的相机参数和巡航区域内事件兴趣点分布情况，构建巡航任务中的随机事件仿真模型。

基于关系模型和随机事件模型对固定翼无人机的三维轨迹机进行约束，并基于巡航任务周期进行变量离散化，以构建基于三维方向加速度的目标优化模型。

将巡航任务输入至所述目标优化模型中，利用强化学习方法对固定翼无人机的飞行轨迹进行优化以获得规划结果。

本发明通过构建轨迹和能量消耗的关系模型，以及随机事件模型，采用强化学习方法对其组合形成的目标函数进行求解，以获得最优的飞行规划结果。

具体的，所述关系模型具体为固定翼无人机在巡航任务时间内的总能耗计算为功率在巡航任务时间上的积分。

具体的，所述关系模型基于飞行时间，对固定翼无人机完成规定飞行轨迹后的总能耗进行积分构建，其表达式如下：

q(t)＝[x(t)y(t)h(t)]^T∈R^3×1，0≤t≤T

式中，q(t)表示固定翼无人机的飞行轨迹，v(t)表示固定翼无人机t时刻的飞行速度，a(t)表示固定翼无人机t时刻的加速度，P(v，a)表示固定翼无人机的瞬时功率，v表示固定翼无人机的瞬时速度，a表示固定无人机的瞬时加速度，g表示重力加速度，m表示固定翼无人机的质量，c₁和c₂表示常数项，所述常数项固定翼无人机的飞机重量、机翼面积和空气密度相关，表示固定翼无人机在完成飞行轨迹中总能耗在时间上的积分。

具体的，所述巡航区域内每个事件兴趣点的生成均遵循泊松分布。

具体的，所述随机事件捕获仿真模型通过判断巡航区域内事件兴趣点的事件发生时，是否进入固定翼无人机的相机拍摄范围内，以获得固定翼无人机在巡航任务周期中捕获的所有事件，其表达式如下：

式中，表示固定翼无人机在巡航任务周期中捕获的所有事件，/>表示事件捕获指示符，即/>时，当事件兴趣点在任务时间T期间被捕获，/>表示相机的拍摄范围，/>表示事件兴趣点的事件发生，/>表示事件兴趣点的位置坐标，t表示时刻，T表示巡航任务周期，t∈T。

具体的，所述强化学习方法通过在给定的状态参数下以巡航任务期间内最低内能耗为回报，对固定翼无人机的每个飞行动作进行选择以生成对应的飞行轨迹，所述状态参数包括事件兴趣点的动态特征，固定翼无人机的当前位置以及当前速度，所述飞行动作包括固定翼无人机每一个时刻的三维加速度，其表达式如下：

式中，α表示控制收敛速度的学习速率，sⁿ表示n时刻的状态参数，aⁿ表示n时刻的三维加速度，a表示加速度，A表示飞行动作，r(sⁿ，aⁿ)表示n时刻的奖励，表示固定翼无人机的速度，a[n]＝{a_x[n]，a_y[n]，a_z[n]}表示固定翼无人机的三维加速度，n＝1，2，...N表示时刻的索引，/>表示时间步长。

具体的，所述飞行动作包括以零俯仰角左转，零俯仰角右转，零俯仰角直飞，以正俯仰角左转，以正俯仰角右转，正俯仰角直线飞行，以负俯仰左转，以负俯仰角右转以及飞行具有负俯仰角的直线。

根据固定翼无人机的加速度方向和当前飞行方向之间的夹角，对飞行动作进行选择，以生成具体的飞行轨迹，所述加速度方向通过强化学习方法求解获得的三维加速度拟合获得。

具体的，以固定翼无人机前进方向X轴正向，右转方向为Y轴正向，向上方向为Z轴正向；

当z轴方向加速度为零时，Y轴方向加速度小于零，则采用零俯仰角左转。

当z轴方向加速度为零时，Y轴方向加速度大于零，则采用零俯仰角右转。

当z轴方向加速度与Y轴方向加速度均等于零时，则采用零俯仰角直飞。

当z轴方向加速度大于零，Y轴方向加速度小于零时，则采用以正俯仰角左转。

当z轴方向加速度大于零，Y轴方向加速度大于零时，则采用以正俯仰角右转。

当z轴方向加速度大于零，Y轴方向加速度等于零时，采用正俯仰角直线飞行。

当z轴方向加速度小于零，Y轴方向加速度小于零时，采用以负俯仰左转。

当z轴方向加速度小于零，Y轴方向加速度大于零时，采用以负俯仰角右转。

当z轴方向加速度小于零，Y轴方向加速度等于零时，采用飞行具有负俯仰角的直线。

为了实现本发明的第二个目的，提供了一种飞行轨迹规划系统，基于上述的飞行轨迹规划方法实现，包括随机事件仿真模块，无人机控制模块，强化学习模块以及选择与决策模块。

所述随机事件仿真模块，用于生成各事件兴趣点的随机事件发生与消失的时间点。

所述强化学习模块，基于随机事件发生和消失的时间点，以及固定翼无人机的状态和位置，以更新固定翼无人机的各飞行动作与期望奖励之间关系的Q-table。

所述选择与决策模块，基于最大化奖励选择固定翼无人机的飞行动作，以构建对应的飞行路径。

所述无人机控制模块，用于根据选择的飞行动作和飞行路径，对固定翼无人机进行控制。

为了实现本发明的第三个目的，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行上述的基于随机事件捕获的飞行轨迹规划方法。

与现有技术相比，本发明的有益效果：

基于真实推进能量和三维自由空间运动关系，以及随机事件发生和消失，对固定翼无人机的飞行轨迹进行规划。

同时采用强化学习的方法对固定翼无人机的飞行动作进行优化分析，以获得最佳的飞行轨迹。

附图说明

图1为本实施例提供的一种基于随机事件捕获的飞行轨迹规划方法的示意图；

图2为本实施例提供的强化学习中飞行动作规定的示意图；

图3为本实施例提供的固定翼无人机以恒定速度直线飞行时的瞬时功率图；

图4为本实施例提供的固定翼无人机在转弯状态下速度、加速度向量之间夹角的关系图；

图5为本实施例提供的固定翼无人机在转弯状态下加速度大小与功率的关系图；

图6为本实施例提供的固定翼无人机在强化学习中九个飞行动作的训练曲线；

图7为本实施例提供的事件兴趣点密度和能量效率之间的线性关系图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，一种基于随机事件捕获的飞行轨迹规划方法，包括以下步骤：

根据固定翼无人机的历史飞行数据，构建轨迹和能量消耗的关系模型。

更具体地，假设巡航区域上随机分布了一组事件兴趣点固定翼无人机配备了图像处理能力，能够在事件发生时进行检测。一旦固定翼无人机捕捉到事件，其事件相关参数将发送给地面控制车辆。固定翼无人机的任务执行时长标识为T。

固定翼无人机的轨迹和能量消耗关系模型：

固定翼无人机的总能耗包括其推进能量和通信能量。值得注意的是，在实践中，固定翼无人机推进能量通常远大于其信号处理能量。因此，本发明中忽略了通信能量。

固定翼无人机的3D轨迹表示为q(t)＝[x(t)y(t)h(t)]^T∈R^3×1，0≤t≤T。固定翼无人机的速度与加速度向量则表示为和/>

则固定翼无人机瞬时功率模型如下：

式中，c₁和c₂表示常数项，例如机翼面积，空气密度或固定翼无人机设计参数，g表示重力加速度，m表示固定翼无人机的质量，v表示固定翼无人机的飞行速度，a表示固定翼无人机的加速度，T表示飞行时间。

固定翼无人机在时间T内的总能耗计算为功率P(v，a)在时间T上的积分：

事件的出现及捕获：

假设每个事件兴趣点在地面上是静态的，其位置表示为l_i＝(x_i，y_i，0)。具体来说，每个事件兴趣点可以呈现交通事故热点、丛林火灾易发点等。如图1所示，在任何给定时间t∈(0，T)，任何事件兴趣点/>的事件发生在空间和时间上都是独立的。在此假设下，每个事件兴趣点的事件生成过程遵循泊松过程。每个事件兴趣点都有一个随机事件到达率λ和消失率μ，这表示事件在该位置发生和消失的频率。让X，Y描述事件兴趣点的事件动态特征。用X表示事件停留时间，用Y表示事件到达时间。此外，X和Y遵循指数分布，平均值为/>和/>

考虑在任务时间T期间，在事件兴趣点i发生一系列n_i事件让/>指示事件/>是否在时间t∈T期间发生在事件兴趣点i上，从而获得以下函数：

固定翼无人机配备了图像传感器，稳定的相机能够保证圆形的覆盖区，用ρ表示图像传感器的视野角(FoV)，时间t的固定翼无人机在地面上有一个摄像头图像足迹，半径r(t)＝h(t)tan(ρ/2)。设是一个二进制变量，如果固定翼无人机在时间t处在固定翼无人机的覆盖区内，则将其设置为1。变量/>可通过以下约束计算得到：

式中，M是一个合适的大常数。当事件兴趣点i在固定翼无人机的图像覆盖范围内时，即则/>另一方面，当事件兴趣点i未被监控时，/>即/>如果事件兴趣点i在/>的发生时间内位于固定翼无人机的覆盖范围内，则事件/>被视为已捕获。

为事件捕获指示符，即/>当它在任务时间T期间被捕获时。

因此事件捕获的约束表达式如下：

任务期间T固定翼无人机捕获的所有事件则表示为：

则基于上述的两个模型，构建对应的目标优化模型。

固定翼无人机的监视和监视性能主要受其机载电池电量的限制。尽管固定翼无人机由于其巡航时间比旋转翼更长而更为有利，但低效的弹道设计可能会导致电池快速耗尽。即当v→0时，瞬时功率P→∞，其定义为捕获的事件数量与任务时间内总能耗的比率T。

优化问题被建模为线性分式规划：

subject to 0≤x(t)≤l，0≤t≤T， (8b)

0≤y(t)≤l，0≤t≤T， (8c)

h_min≤h(t)≤h_max，0≤t≤T， (8d)

|υ_min≤v(t)|≤υ_max，0≤t≤T (8e)

约束(8b)和(8c)给出了有界的监视区域。约束(8d)提供了通信限制的海拔下限和图像质量退化的上限。考虑固定翼无人机飞行高度h(t)，该高度高于实现高质量LoS信道条件的最低高度h_min。根据3GPP，在农村宏观场景和城市宏观场景中，所需的最小飞行高度分别为40米和100米。(8e)确保固定翼无人机以一定的最小速度飞行，以保持在空中，并以不超过最大速度飞行。

而上述优化问题直接求解十分复杂，因此采用将任务周期T离散为相等的时隙来放松问题，以n＝1，2，...，N为索引。当每个时间步长的长度选择得足够小时，可以认为固定翼无人机在每个时间/>的位置是恒定的。因此，速度和轨迹可以用和/> 来表征。

则上述优化问题可以变换为：

subject to 0≤x[n]≤l，n＝1，2...，N， (9b)

0≤y[n]≤l，n＝1，2...，N， (9c)

h_min≤h[n]≤h_max，n＝1，2...，N， (9d)

υ_min≤|v[n]|≤υ_max，n＝1，2...，N (9e)

即在每个时隙n＝1，2，...，N中需要确定三维加速度a_x[n]、a_y[n]和a_z[n]。

为了更好的解决上述优化问题，采用强化学习方法来降低其复杂度，即通过执行动作a∈A并移动到另一个状态，奖励函数计算采取这种状态-动作对的5的数值，并将其记录在Q表中，该Q表被初始化为特定目标状态。模型表示为元组{S，A，{R}，γ}，如下所述：

State，：Q-learning用于推导不同环境下(例如事件的随机发生和到达)的长期策略。在每个时隙n中，action(即固定翼无人机的向量加速度)是根据当前系统状态s_n选择的。系统状态向量s_n中包含：i)事件兴趣点s的动态特征/>ii)固定翼无人机的当前位置q[n]；iii)固定翼无人机的当前速度向量v[n]。

Action，A：在每个时隙n中，action a_n改变固定翼无人机的速度。固定翼无人机的轨迹因行动而改变(呈现固定翼无人机加速度)。灵感来自3D Dubin的路径模型描述了最优路径，如图2所示，作为与固定翼无人机的一系列类比“右转(R)”、“左转(L)”或“直行(S)”与俯仰角。固定翼无人机在高速下的急转弯角意味着能量耗散。因此，设φ和ψ为小恒定的转向角和俯仰角。

固定翼无人机可以随机采取九种行动中的一种：每次n：i)以零俯仰角左转，ii)零俯仰角右转，iii)零俯仰角直飞，iv)以正俯仰角左转，v)以正俯仰角右转，vi)正俯仰角直线飞行，vii)以负俯仰左转，viii)以负俯仰角右转，ix)飞行具有负俯仰角的直线。如果固定翼无人机改变飞行方向，它也会调整速度其根据固定翼无人机瞬时功率模型使能耗率最小化。

Reward，Reward奖励评估了当前状态s_n下固定翼无人机机动方案对时间步n中所采取行动的影响。时间n处的奖励计算为新检测事件数与时间n处推进能量的比值：

所提出的Q-学习策略需要为给定状态选择一个动作，以便在某些时间范围内最大化平均回报。UAV通过维护表示为Q(s_n，a_n)的Q表值来学习最优策略。Q值表在完成每个转换并观察当前状态动作对(s，a)之后被更新，

其中，α表示控制收敛速度的学习速率，γ∈(0，1]是折扣因子。在上述模型中，智能体(UAV)需要观察事件兴趣点的地理位置及其事件的发生。在每个时间步n，根据Q-table，选择导致状态s_n上的最大Q值的动作，

最后根据输出的最大Q值对应的动作，对固定翼无人机飞行轨迹进行规划。

本发明还提供了一种基于上述实施例提出的飞行轨迹规划方法的飞行轨迹规划系统，包括随机事件仿真模块，无人机控制模块，强化学习模块以及选择与决策模块。

同时还提供了一种存储介质，该存储介质包括存储的程序，其中，在所述程序运行时由处理器执行上述的飞行轨迹规划方法。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

为了更好的说明本实施提供的技术方案，提供了一种仿真评估结果分析。

在设定场景中，考虑一架固定翼无人机负责在3×3平方公里的区域内巡航，并在10分钟的任务时间内捕捉10个地点发生的感兴趣事件。每个事件兴趣点具有0.05的事件到达率和0.05的消失率。固定翼无人机的最大和最小高度分别设置为500英尺和40米。能耗参数c₁和c₂分别为9.26×10^-4和2250。包括有效载荷在内的固定翼无人机质量为10Kg。对于Q-学习方法，在本发明中将折扣系数设置为0.1，学习率设置为0.4。每个时间步长的长度为两秒。

将仿真结果与固定翼无人机最常见的巡逻轨迹圆形轨迹进行比较。考虑数据中的每一点计算为100次运行的平均结果。

如图3所示，为固定翼无人机以恒定速度直线飞行时的瞬时功率。当速度从5米/秒变化到65米/秒时，固定翼无人机的能耗率首先从450瓦下降到100瓦。功率在30m/s时达到最低点，然后在65m/s时缓慢增加至194瓦。合理的猜测是，当固定翼无人机移动速度低于5米/秒时，功率可能远高于450瓦。固定翼无人机的电池消耗很快。这证明了固定翼无人机需要与旋翼无人机不同的算法，旋翼无人机通常感知环境悬停。

如图4所示，为固定翼无人机在转弯状态下速度、加速度向量之间夹角关系。该图表明，加速方向选择很重要，尤其是对于高速固定翼无人机。当||v||＝45和||a||＝4时，瞬时功率可高达1900瓦，低至200瓦(最高功率的10.5％)。当速度和加速度方向z间的角度为90度时，固定翼无人机消耗的功率最小。当||v||＝15和||a||＝2时，最低和最高能耗率之间的差异就不那么显著了。更具体地说，最低功率为8瓦(当$θ＝120$时)，最高功率为453瓦。

如图5所示，为固定翼无人机的转弯状态下加速度大小与功率关系。该仿真中通过将速度设置为30m/s来进行。当θ＝0或θ＝180时，固定翼无人机在同一方向加速或减速。当θ＝90时，固定翼无人机转弯。结果表明，较高的加速度通常需要更大的功率。此外，转弯比在同一方向加速需要更少的能量。

如图6所示，为固定翼无人机的九个飞行动作的训练曲线。即，零俯仰角左转、零俯仰角右转、零俯仰角度直飞、正俯仰角左转，正俯仰角右转，正俯仰角度直行、负俯仰角左转和负俯仰角右转。在前100秒内，9个动作的概率几乎与11％相同。之后，在学习过程中，每个动作缓慢增加或减少，直到达到稳定状态。更具体地说，当t＝100秒时，S-positive、R-positive和L-positive增加到13.5％左右。这是S-positive的两倍多。换句话说，固定翼无人机被鼓励在更高的高度飞行。其原因为在更高海拔的固定翼无人机覆盖的面积更大。R-negative和L-negative在训练中表现出相似的趋势；即，Q学习方法在各9.1％的时隙中选择R-negative或S-negative。固定翼无人机选择S-negative动作的频率最少，为6％。原因是在保持相同方向的同时调整速度会消耗大量能量。此外，负俯仰角使固定翼无人机观看的区域更小。

如图7所示，事件兴趣点密度从5到50时，能效如何变化。使用提出的Q-学习方法进行了实验，并与高度为152米、半径为500米的基准圆形轨迹进行了比较。在任务时间的十分钟内计算平均能效。参考图，事件兴趣点密度和能量效率之间存在线性关系。原因是当事件兴趣点密度更高时，固定翼无人机可以遇到更多的事件。对于圆形轨迹，当有五个事件兴趣点时，能量效率为2×10^-4。当有50个事件兴趣点时，此结果将增长到1.6×10^-3。提出的Q-学习方法比圆形轨迹的能量效率高43％。

综上所述，，本发明深入地研究用于巡检特定事件的固定翼无人机的路径优化问题，设计动态环境下的3D轨迹构建算法，旨在提高事件捕获的能量效率，提升巡检飞行器的自动化水平。

Claims

1.一种基于随机事件捕获的飞行轨迹规划方法，其特征在于，包括以下步骤：

根据固定翼无人机的历史飞行数据，构建飞行轨迹和能量消耗的关系模型；

根据固定翼无人机上的相机参数和巡航区域内事件兴趣点分布情况，构建巡航任务中的随机事件仿真模型；

基于关系模型和随机事件模型对固定翼无人机的三维轨迹机进行约束，并基于巡航任务周期进行变量离散化，以构建基于三维方向加速度的目标优化模型；

2.根据权利要求1所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述历史飞行数据包括固定翼无人机的3D轨迹，固定翼无人机的重量和机翼面积，巡航任务时的速度与加速度向量，以及环境因素。

3.根据权利要求1所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述关系模型基于飞行时间，对固定翼无人机完成规定飞行轨迹后的总能耗进行积分构建，其表达式如下：

q(t)＝[x(t)y(t)h(t)]^T∈R^3×1,0≤t≤T

式中，q(t)表示固定翼无人机的飞行轨迹，v(t)表示固定翼无人机t时刻的飞行速度，a(t)表示固定翼无人机t时刻的加速度，P(v,a)表示固定翼无人机的瞬时功率，v表示固定翼无人机的瞬时速度，a表示固定无人机的瞬时加速度，g表示重力加速度，m表示固定翼无人机的质量，c₁和c₂表示常数项，表示固定翼无人机在完成飞行轨迹中总能耗在时间上的积分。

4.根据权利要求1所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述巡航区域内每个事件兴趣点的生成均遵循泊松分布。

5.根据权利要求1所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述随机事件捕获仿真模型通过判断巡航区域内事件兴趣点的事件发生时，是否进入固定翼无人机的相机拍摄范围内，以获得固定翼无人机在巡航任务周期中捕获的所有事件，其表达式如下：

6.根据权利要求1所述的基于随时间捕获的飞行轨迹规划方法，其特征在于，所述强化学习方法通过在给定的状态参数下以巡航任务期间内最低内能耗为回报，对固定翼无人机的每个飞行动作进行选择以生成对应的飞行轨迹，所述状态参数包括事件兴趣点的动态特征，固定翼无人机的当前位置以及当前速度，所述飞行动作包括固定翼无人机每一个时刻的三维加速度，其表达式如下：

式中，α表示控制收敛速度的学习速率，sⁿ表示n时刻的状态参数，aⁿ表示n时刻的三维加速度，a表示加速度，A表示飞行动作，表示固定翼无人机的速度，a[n]＝{a_x[n]，a_y[n]，a_z[n]}表示固定翼无人机的三维加速度，n＝1，2，...N表示时刻的索引，T表示巡航任务周期，/>表示时间步长。

7.根据权利要求6所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述飞行动作包括以零俯仰角左转，零俯仰角右转，零俯仰角直飞，以正俯仰角左转，以正俯仰角右转，正俯仰角直线飞行，以负俯仰左转，以负俯仰角右转以及飞行具有负俯仰角的直线；

8.根据权利要求1所述的基于随机事件捕获的飞行轨迹规划方法，其特征在于，所述目标优化模型采用将任务周期T离散为相等的时隙来放松问题，其表达式如下：

subject to 0≤x[n]≤l，n＝1，2...，N，

0≤y[n]≤l，n＝1，2...，N，

h_min≤h[n]≤h_max，n＝1，2...，N，

v_min≤|v[n]|≤v_max，n＝1，2...，N

式中，a[n]＝{a_x[n]，a_y[n]，a_z[n]}表示固定翼无人机的三维加速度，表示固定翼无人机的速度，h[n]表示固定翼无人机的飞行高度，T表示巡航任务周期，n＝1,2，…N表示时刻的索引，/>表示时间步长。

9.一种飞行轨迹规划系统，其特征在于，通过如权利要求1～8任一项所述的基于随机事件捕获的飞行轨迹规划方法实现，包括随机事件仿真模块，无人机控制模块，强化学习模块以及选择与决策模块；

所述随机事件仿真模块，用于生成各事件兴趣点的随机事件发生与消失的时间点；

所述强化学习模块，基于随机事件发生和消失的时间点，以及固定翼无人机的状态和位置，以更新固定翼无人机的各飞行动作与期望奖励之间关系的Q-table；

所述选择与决策模块，基于最大化奖励选择固定翼无人机的飞行动作，以构建对应的飞行路径；

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1～8任一项所述的基于随机事件捕获的飞行轨迹规划方法。