CN113423060B

CN113423060B - 一种无人空中通信平台飞行路线的在线优化方法

Info

Publication number: CN113423060B
Application number: CN202110694703.9A
Authority: CN
Inventors: 张广驰; 严雨琳; 崔苗; 刘圣海; 王昆; 张景
Original assignee: Guangdong University of Technology; China Academy of Electronic and Information Technology of CETC
Current assignee: Guangdong University of Technology; China Academy of Electronic and Information Technology of CETC
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-05-10
Anticipated expiration: 2041-06-22
Also published as: CN113423060A

Abstract

本发明涉及无线通信技术领域，提供一种无人空中通信平台飞行路线的在线优化方法，步骤如下：S1、构建无人空中通信平台多播通信系统模型，获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题；S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型；S3、对序列决策数学模型进行优化，实现无人空中通信平台飞行路线的在线优化。本发明采用在线优化方法，让无人空中通信平台站具有动态、实时规划飞行路线的能力，从而实现能够实时适应地面用户随机的通信请求；利用为序贯决策数学模型，直接在与环境交互学习经验；以完成通信任务的时间最小化为目标，解决无人空中通信平台的能效问题以及保证地面用户能够接收到完整的信息。

Description

一种无人空中通信平台飞行路线的在线优化方法

技术领域

本发明涉及无线通信技术领域，具体涉及一种无人空中通信平台飞行路线的在线优化方法。

背景技术

随着互联网流量爆炸式增长，海量终端接入无线通信网络，驱动着第六代移动通信技术(6G)高速发展。未来6G移动通信的特点是万物智联，实现全球范围的“泛在连接”。这将需要突破地形地表的限制，建立空天地一体化通信网络，实现真正的无缝覆盖。空天地一体化通信网络是由各种轨道卫星构成的天基网络、由飞行器构成的空基网络，以及传统的地基网络所组成的。从基本构成可以将其分为两个子系统：天地一体化通信子系统和深海远洋通信子系统。在天地一体化通信子系统中，无人空中通信平台具有灵活部署、受地面因素影响小等优势，可有效弥补地面网络的不足。无人空中通信平台飞行路线优化能够发挥其高移动性和灵活性的潜能，适当的飞行路线优化可以缩短通信距离、对提高性能至关重要。

目前无人空中通信平台的轨迹优化采用的算法都属于离线优化算法，即是建立在对通信环境的完美假设的基础上，在无人空中通信平台起飞之前规划好飞行轨迹。现有技术中，采用了块坐标下降法和凸逼近离线优化方法对无人机中继通信平台进行交替优化。离线优化算法首先需要建立精确的通信模型，包括信道模型以及所处环境的传播模型，这需要对现实世界进行广阔的测量。其次，建模之后的参数配置也是难以获取，通常是根据经验设定。最后，即使前两者所提到的模型和相关参数已知，大多数无线通信的优化问题都是非凸的，难以解决解决。另外，地面用户的通信请求也是随机的，不可提前预知的。因此，无人空中通信平台的飞行路线在线优化设计存在一定的问题和挑战。

中国发明专利公开(公告)号CN110488861B(公开日为2019-11-22)，公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机，该方法预先构建强化学习网络，在无人机飞行过程中实时产生状态数据、动作决策数据；以状态数据为输入、以所述动作决策数据为输出，以瞬时能量效率为奖励回报，利用PPO算法优化策略参数，输出最优策略。该装置包括构建模块、训练数据收集模块和训练模块。该无人机包括处理器，该处理器用于执行该发明的基于深度强化学习的无人机轨迹优化方法。现有技术具备从累积的飞行数据中进行自主学习的能力，可在未知通信场景下，智能决定其最佳飞行速度、加速度、飞行方向与返航时间，归纳出能量效率最优飞行策略，具有较强的环境适应能力与泛化能力，但是存在在线优化能力较低、时间优化不合理的缺陷。

发明内容

本发明的目的是克服现有技术在线优化能力较低、时间优化不合理的缺陷，提供一种能够保证地面用户能够接收到完整的信息的、考虑到无人空中通信平台的能量有限性的、以最小化无人空中通信平台完成通信任务的平均时间为目标的、无人空中通信平台飞行路线的在线优化方法。

为了实现上述目的，本发明提供了一种无人空中通信平台飞行路线的在线优化方法，具体步骤如下：

步骤S1、构建无人空中通信平台多播通信系统模型，获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题；

步骤S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型；

步骤S3、对序列决策数学模型进行优化，实现无人空中通信平台飞行路线的在线优化。

作为优选方案，在所述步骤S1中，所述无人空中通信平台多播通信系统模型考虑在特定矩形范围内，一个无人空中通信平台和K个地面用户，地面用户表示集合

地面用户的位置用二维坐标表示为q_k＝(x_k,y_k)；假设无人空中通信平台的飞行高度固定在H，在地面投影的位置坐标表示为q(t)＝(x(t),y(t))，在飞行过程的飞行速度固定在V；

无人空中通信平台多播通信系统采用频分多址FDMA方式，无人空中通信平台与地面用户的信道数量为J，同时与J个地面用户通信，且无人空中通信平台与各个地面用户之间的链路不存在干扰；J个地面用户同时通信用集合表示为

其位置坐标为q_j＝(x_j,y_j),

因此无人空中通信平台与地面用户j的距离表示为：

假设地面用户和无人空中通信平台之间的信道由视距信道主导，无人空中通信平台的移动性导致多普勒效应能够被接收机有效补偿，因此无人空中通信平台与地面用户j的增益为：

β₀为参考距离为1米的信道增益；假设无人空中通信平台与每个地面用户的带宽为B，噪声为σ²，其通信速率表示为：

其中

P_j为无人空中通信平台与地面用户j的通信的发射功率。

作为优选方案，在所述步骤S1中，无人空中通信平台需要实时动态地规划其飞行路线；无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量；当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后，才能开始进行第m+1次通信任务，为另外J个地面用户提供无线通信服务；将无人空中通信平台完成第m次通信任务的时间表示为T_m＝max{T_m,1,L,T_m,j}，T_m,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延；无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率用R_m,j表示，无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量表示为：

作为优选方案，在所述步骤S1中，以完成通信任务的时间最小化为目标的飞行路线在线优化问题表示如下：

s.t.公式(4)

公式(5)为目标函数，表示无人机基站完成M次通信任务的平均完成时间最小化；公式(6)和(7)为无人机基站的飞行范围约束，表示特定矩形范围，X_min是所述特定矩形范围的最小横坐标，X_max是所述特定矩形范围的最大横坐标，Y_min是所述特定矩形范围的最小纵坐标，Y_max是所述特定矩形范围的最大纵坐标；公式(8)表示无人机的飞行速率的约束，其中q′_m(t)表示无人机在第m次通信任务中t时刻的飞行速率。

作为优选方案，在所述步骤S2中，使用序贯决策数学模型，引入强化学习中Q-Learning算法；强化学习包括智能体，其是在智能体在与环境交互过程中，给智能体所选择的动作赋予奖赏，通过最大化智能体所获得的累计奖赏从而指导其行为；马尔可夫决策过程的基本框架为

在每个离散时刻t，观察到智能体在状态

并且在此基础上选择一个动作

作为其动作的结果，智能体接收到一个数值化的即时奖赏

并进入一个新的状态S_t+1；由这一系列状态和动作构成了智能体的策略π；智能体的策略π是指智能体在环境中采取一系列动作的依据，意为在某个状态如何选择动作的依据。

作为优选方案，在所述步骤S2中，首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程；然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间T_m,j进行离散化，表示为T_m,j＝N_m,jδ_t，则无人空中通信平台完成第m次通信任务的时间离散为T_m＝N_m×δ_t，其中N_m＝max{N_m,1,…,N_m,j}；假设时隙δ_t需要足够小，使其在这段时间内将无人机基站的通信速率R_j,m[n]看作保持不变；无人空中通信平台的飞行路线q_m(t)离散成q_m[n]＝q_m(nδ_t)，以及飞行速度q′_m(t)离散表示为q′_m[n]＝q′_m(nδ_t)；获得飞行路线在线优化问题的离散形式表示如下：

公式(10)-(13)为约束条件的离散形式。

作为优选方案，在所述步骤S3中，对序列决策数学模型进行优化，直接把无人空中通信平台的位置设置为状态；无人空中通信平台的飞行的矩形范围[X_min,X_max]×[Y_min,Y_max]分割成I×I个格子，其中

保证无人空中通信平台在每个格子的通信速率看作保持不变；将格子的位置坐标用格子中心来表示，则在X轴上第k₁时隙、Y轴上第k₂时隙的格子位置坐标表示为：

作为优选方案，在所述步骤S3中，对序列决策数学模型进行优化，无人空中通信平台在每个状态的动作分为5个动作：向东、向西、向南、向北以及不动。

作为优选方案，在所述步骤S3中，对序列决策数学模型进行优化，将奖赏定义为：

作为优选方案，在所述步骤S3中，在线优化的算法步骤如下：

步骤S3.1：初始化探索参数ε，设置折扣率γ和学习率α，无人机的通信次数M，最大训练幕数N_epi，每幕中最大步数N_step，动作价值函数Q(s,a)＝0,

a∈A；

步骤S3.2：M＝M-1；

步骤S3.3：随机J个地面用户发送通信请求，获取J个用户的位置坐标；n_epi＝N_epi；

步骤S3.4：n_epi＝n_epi-1；

步骤S3.5：

根据无人空中通信平台的位置坐标初始化状态s₀；n_step＝N_step；

步骤S3.6：n_step＝n_step-1；

步骤S3.7：根据ε-greedy策略选择动作a_t，根据公式(15)得到奖赏r_n+1，观察到新的状态s_t+1；更新动作价值函数更新动作价值函数

Q(s_n,a_n)＝Q(s_n,a_n)+α[r_n+1+γmax_aQ(s_n+1,a)-Q(s_n,a_n)]；

步骤S3.8：重复步骤S3.6至步骤S3.7，直到n_step＝0结束此步骤；

步骤S3.9：重复步骤S3.4至步骤S3.8，直到n_epi＝0结束此步骤；

步骤S3.10：重复步骤S3.2至步骤S3.9，直到M＝0结束此步骤，输出智能体的策略π。

与现有技术相比，本发明的有益效果在于：

采用在线优化方法，让无人空中通信平台站具有动态、实时规划飞行路线的能力，从而实现能够实时适应地面用户随机的通信请求；利用为序贯决策数学模型，不需要描述动态环境的模型，直接在与环境交互学习经验；以完成通信任务的时间最小化为目标，解决无人空中通信平台的能效问题以及保证地面用户能够接收到完整的信息。

附图说明

图1是本发明实施例的无人空中通信平台飞行路线的在线优化方法的系统模型图。

图2是本发明实施例的无人空中通信平台飞行路线的在线优化方法的马尔可夫决策过程的交互示意图。

图3是本发明实施例的无人空中通信平台飞行路线的在线优化方法的算法流程图。

图4是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人机基站飞行路线对比图。

图5是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人空中通信平台完成通信任务平均时间对比图。

图6是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人空中通信平台完成通信任务的平均时间。

图7是本发明实施例的无人空中通信平台飞行路线的在线优化方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

具体的，如图1至7所示，本发明一种无人空中通信平台飞行路线的在线优化方法的实施例，具体步骤如下：

进一步的，在所述步骤S1中，图1是所述无人空中通信平台多播通信系统模型图。考虑在特定矩形范围内，一个无人空中通信平台和K个地面用户，地面用户可表示集合

地面用户的位置可用二维坐标表示为q_k＝(x_k,y_k)；假设无人空中通信平台的飞行高度固定在H，在地面投影的位置可坐标表示为q(t)＝(x(t),y(t))，在飞行过程的飞行速度固定在V；

无人空中通信平台多播通信系统采用频分多址FDMA(Frequency DivisionMultiple Access)方式，无人空中通信平台与地面用户的信道数量为J，即可同时与J个地面用户通信，且无人空中通信平台与各个地面用户之间的链路不存在干扰；J个地面用户同时通信可用集合表示为

其位置坐标为q_j＝(x_j,y_j),

因此无人空中通信平台与地面用户j的距离可表示为：

我们假设地面用户和无人空中通信平台之间的信道由视距信道主导，无人空中通信平台的移动性导致多普勒效应能够被接收机有效补偿，因此无人空中通信平台与地面用户j的增益为：

β₀为参考距离为1米的信道增益；假设无人空中通信平台与每个地面用户的带宽为B，噪声为σ²，其通信速率可表示为：

其中

P_j为无人空中通信平台与地面用户j的通信的发射功率。

进一步的，在所述步骤S1中，因为地面用户的通信请求是随机变化的，所以无人空中通信平台需要实时动态地规划其飞行路线；无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量；当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后，才能开始进行第m+1次通信任务，为另外J个地面用户提供无线通信服务；换句话说，无人空中通信平台同时与J个地面用户通信，其中通信时延最大的地面用户的通信任务完成后，其他的地面用户的通信任务显然已完成；将无人空中通信平台完成第m次通信任务的时间表示为T_m＝max{T_m,1,L,T_m,j}，T_m,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延；无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率可用R_m,j表示，无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量可表示为：

进一步的，在所述步骤S1中，因此以完成通信任务的时间最小化为目标的飞行路线在线优化问题可表示成(P1)：

s.t.公式(4)

进一步的，在所述步骤S2中，本专利所提出的算法是基于强化学习中Q-Learning算法；强化学习包括智能体，其是在智能体在与环境交互过程中，给智能体所选择的动作赋予奖赏，通过最大化智能体所获得的累计奖赏从而指导其行为；马尔可夫决策过程(MarkovDecision Process，MDP)是一种经典的序贯决策数学模型；马尔可夫决策过程的基本框架为

如图2所示；在每个离散时刻t，观察到智能体在状态

并且在此基础上选择一个动作

作为其动作的结果，智能体接收到一个数值化的即时奖赏

进一步的，在所述步骤S2中，显然无人空中通信平台的飞行路线在线优化问题是一个序贯决策过程；首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程；然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间T_m,j进行离散化，可表示为T_m,j＝N_m,jδ_t，则无人空中通信平台完成第m次通信任务的时间离散为T_m＝N_m×δ_t，其中N_m＝max{N_m,1,…,N_m,j}；假设时隙δ_t需要足够小，使其在这段时间内可以将无人机基站的通信速率R_j,m[n]看作保持不变；无人空中通信平台的飞行路线q_m(t)可离散成q_m[n]＝q_m(nδ_t)，以及飞行速度q′_m(t)可离散表示为q′_m[n]＝q′_m(nδ_t)；因此(P1)可重新改写为(P2)，获得飞行路线在线优化问题的离散形式表示如下：

公式(10)-(13)为(P2)中约束条件的离散形式。

进一步的，在所述步骤S3中，问题(P2)对应的状态、动作和奖赏

如下；

状态：对序列决策数学模型进行优化，直接把无人空中通信平台的位置设置为状态；无人空中通信平台的可飞行的矩形范围[X_min,X_max]×[Y_min,Y_max]分割成I×I个格子，其中

保证无人空中通信平台在每个格子的通信速率可以看作保持不变；我们将格子的位置坐标用格子中心来表示，则在X轴上第k₁时隙、Y轴上第k₂时隙的格子位置坐标可表示为：

进一步的，在所述步骤S3中，动作：对序列决策数学模型进行优化，无人空中通信平台在每个状态的动作可分为5个动作：向东、向西、向南、向北以及不动。

进一步的，在所述步骤S3中，奖赏：对序列决策数学模型进行优化，将奖赏定义为：

进一步的，在所述步骤S3中，在线优化的算法步骤如下：

a∈A；

步骤S3.2：M＝M-1；

步骤S3.4：n_epi＝n_epi-1；

步骤S3.5：

步骤S3.6：n_step＝n_step-1；

Q(s_n,a_n)＝Q(s_n,a_n)+α[r_n+1+γmax_aQ(s_n+1,a)-Q(s_n,a_n)]；

步骤S3.8：重复步骤S3.6至步骤S3.7，直到n_step＝0结束此步骤；

步骤S3.9：重复步骤S3.4至步骤S3.8，直到n_epi＝0结束此步骤；

本实施例参考了现有技术中将强化学习算法运用于无人机基站的飞行路线在线优化，研究了无人机基站通信与地面用户的通信速率之和最大化的问题。该技术中没有考虑地面用户通信请求的随机性以及无人空中通信平台的能效问题。本实施例考虑到多播通信方式在公共安全、应急响应以及智能交通等应用场景具有至关重要的作用。

在图4至图6中，“Scheme A”：基于强化学习中Q-Learning的飞行路线在线优化方法；

“Scheme B”：在接收到J个地面用户的通信请求之后，无人空中通信平台总是向着当前通信速率最大的地面用户的方向飞行；无人空中通信平台完成了该地面用户的通信任务之后，在当前位置再向着通信速率第二大的地面用户飞行；依次类推，直到完成所有地面用户的信息传输量；

“Scheme C”：与“Scheme B”相反，在接收到J个地面用户的通信请求之后，无人空中通信平台向着当前通信速率最小的地面用户的方向飞行；无人空中通信平台完成了该地面用户的通信任务之后，在当前位置再向着通信速率第二大的地面用户飞行；依次类推，直到完成所有地面用户的信息传输量；

“Scheme D”：在接收到J个地面用户的通信请求之后，无人空中通信平台在每个状态位置上，贪婪地向通信速率最小的地面用户飞行；

图4展示了基于Q-Learning算法的在线优化的算法与其他三种方案的无人空中通信平台飞行路线对比图，图4中图例“Scheme A：n”表示“Scheme A”方案下无人空中通信平台第n次完成通信任务的飞行路线,“Scheme B：n”等图例与“Scheme A：n”类似；可以看出基于Q-Learning算法的在线优化的算法比其他方案更加集中于三个地面用户的中央；“Scheme A”和“Scheme D”的飞行路线类似，但是从图5可知“Scheme A”比“Scheme D”的完成通信任务的平均时间更短，其飞行路线更佳；

图5展示了无人空中通信平台采用不同方案完成不同通信任务信息量下的完成通信任务的平均时间对比图，其中完成通信任务的次数为100次；为了更好的对比效果，图5中无人空中通信平台在不同方案中是完成相同的多个地面用户的通信任务，这是因为不同的地面用户位置可能导致通信任务的完成时间不同；可以看出本文提出的“Scheme A”方案始终优于其他三种方案，通信任务的信息量越大，“Scheme A”方案的性能越好；

图6展示了不同方案下的无人空中通信平台完成个地面用户的通信任务的平均时间，其中每次通信任务的三个地面用户是随机的，对应的通信任务的信息量为L＝10⁷bits；可以看出“Scheme A”方案下完成通信任务的时间明显比其他三种方案的更小；因为在每次通信的地面用户是随机的，由此可以说明“Scheme A”方案可适应动态的、随机的地面用户的通信请求。

本实施例的具体实施过程为：

综上，本发明实施例提供一种无人空中通信平台飞行路线的在线优化方法：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种无人空中通信平台飞行路线的在线优化方法，其特征在于：具体步骤如下：

在所述步骤S1中，所述无人空中通信平台多播通信系统模型考虑在特定矩形范围内，一个无人空中通信平台和K个地面用户，地面用户表示集合

其位置坐标为

因此无人空中通信平台与地面用户j的距离表示为：

其中

P_j为无人空中通信平台与地面用户j的通信的发射功率；

2.根据权利要求1所述的无人空中通信平台飞行路线的在线优化方法，其特征在于：

在所述步骤S1中，无人空中通信平台需要实时动态地规划其飞行路线；无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量；当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后，才能开始进行第m+1次通信任务，为另外J个地面用户提供无线通信服务；将无人空中通信平台完成第m次通信任务的时间表示为T_m＝max{T_m,1,L,T_m,j}，T_m,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延；无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率用R_m,j表示，无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量表示为：

3.根据权利要求2所述的无人空中通信平台飞行路线的在线优化方法，其特征在于：

在所述步骤S1中，以完成通信任务的时间最小化为目标的飞行路线在线优化问题表示如下：

s.t.公式(4)

4.根据权利要求3所述的无人空中通信平台飞行路线的在线优化方法，其特征在于：

在所述步骤S2中，使用序贯决策数学模型，引入强化学习中Q-Learning算法；强化学习包括智能体，其是在智能体在与环境交互过程中，给智能体所选择的动作赋予奖赏，通过最大化智能体所获得的累计奖赏从而指导其行为；马尔可夫决策过程的基本框架为

在每个离散时刻t，观察到智能体在状态

并且在此基础上选择一个动作

作为其动作的结果，智能体接收到一个数值化的即时奖赏

5.根据权利要求4所述的无人空中通信平台飞行路线的在线优化方法，其特征在于：

在所述步骤S2中，首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程；然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间T_m,j进行离散化，表示为T_m,j＝N_m,jd_t，则无人空中通信平台完成第m次通信任务的时间离散为T_m＝N_m×d_t，其中N_m＝max{N_m,1,…,N_m,j}；假设时隙d_t需要足够小，使其在这段时间内将无人机基站的通信速率R_j,m[n]看作保持不变；无人空中通信平台的飞行路线q_m(t)离散成q_m[n]＝q_m(nd_t)，以及飞行速度q′_m(t)离散表示为q′_m[n]＝q′_m(nd_t)；获得飞行路线在线优化问题的离散形式表示如下：