CN115032996A

CN115032996A - 一种路径规划方法、装置、电子设备及存储介质

Info

Publication number: CN115032996A
Application number: CN202210705246.3A
Authority: CN
Inventors: 唐剑平; 钱露菊; 史卓伟; 徐敏; 吴承
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-09

Abstract

本公开关于一种路径规划方法、装置、电子设备及存储介质，包括：基于预设障碍物信息，确定无人机的位置坐标对应的风险系数；基于能耗信息及信道信息，确定无人机的状态信息对应的剩余能量值，状态信息包括无人机的位置坐标及飞行时刻；基于任务需求量及信道信息，确定状态信息对应的地面基站的剩余需求量；根据风险系数、剩余能量值及剩余需求量，确定状态信息对应的奖励值；利用机器学习算法，根据奖励函数、起始位置坐标及终点位置坐标，确定无人机从起始位置坐标到终点位置坐标的飞行路径，飞行路径中包括多个状态信息且多个状态信息对应的奖励值的均值达到最大。这样，使得无人机在飞行过程中能够有效处理地面基站的数据请求。

Description

一种路径规划方法、装置、电子设备及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种路径规划方法、装置、电子设备及存储介质。

背景技术

近年来，无人机凭借其体积小，高机动性以及低成本等优势，广泛应用在许多不同的工作场景，关于无人机的自主飞行也成为一个越来越重要的研究领域。目前，大多数的无人机路径规划是基于对环境信息已知的情况下进行的，在环境情况部分未知或完全未知的情况下，则需要利用动态规划的方法。

具体而言，动态规划方法主要集中于无人机飞行过程中的安全避障，通过改进人工势场法中的重力和斥力函数，使避障安全系数更高，或者通过对遗传算法中选择算子、交叉算子和变异算子的改进，对无人机的飞行路径进行规划。

但是，一些场景中，无人机需要以固定高度飞为地面基站提供数据卸载服务，而上述方法中，没有将地面基站作为影响因子进行路径规划，导致路径规划的合理性较差，无人机无法为地面数据基站提供较为稳定的数据卸载服务。

发明内容

本公开提供一种路径规划方法、装置、电子设备及存储介质，以至少解决相关技术中没有将地面基站作为影响因子进行路径规划，导致路径规划的合理性较差，无人机无法为地面数据基站提供较为稳定的数据卸载服务的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种路径规划方法，包括：

获取预设障碍物信息、所述地面基站的任务需求量、所述无人机的起始位置坐标、终点位置坐标、能耗信息以及所述无人机与所述地面基站之间的信道信息；

基于所述预设障碍物信息，确定所述无人机的位置坐标对应的风险系数，所述风险系数与预设障碍物对所述无人机造成的碰撞风险成正比；

基于所述能耗信息及所述信道信息，确定所述无人机的状态信息对应的剩余能量值，所述状态信息包括所述无人机的位置坐标及飞行时刻；

基于所述任务需求量及所述信道信息，确定所述状态信息对应的所述地面基站的剩余需求量；

根据所述风险系数、所述剩余能量值及所述剩余需求量，确定所述状态信息对应的奖励值，得到奖励函数，所述奖励值与所述剩余能量值成正相关，与所述风险系数及所述剩余需求量成负相关；

利用机器学习算法，根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径，所述飞行路径中包括多个状态信息且所述多个状态信息对应的奖励值的均值达到最大。

可选的，在所述预设障碍物信息指示预设障碍物的位置坐标符合高斯分布的情况下，所述基于所述预设障碍物信息，确定所述无人机的位置坐标对应的风险系数，包括：

采用如下公式，确定所述无人机的位置坐标对应的风险系数：

其中，所述P(t)表示所述无人机在飞行时刻t的风险系数，所述q_u(t)表示所述无人机在飞行时刻t的位置坐标，所述σ表示高斯分布的方差，所述o_n表示所述预设障碍物的位置坐标。

可选的，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率，所述能耗信息包括计算参数、预设速度、预设加速度、运动参数及总能量；

所述基于所述能耗信息及所述信道信息，确定所述无人机的状态信息对应的剩余能量值，包括：

根据所述参考信道功率增益、所述通信带宽及所述发射功率，确定所述无人机的状态信息对应的接收数据量；

根据所述接收数据量及所述计算参数，确定所述无人机的状态信息对应的数据计算能耗；

根据所述预设速度、所述预设加速度及所述运动参数，确定所述无人机的状态信息对应的飞行能耗；

确定所述无人机在当前飞行时刻之前的累计数据计算能耗及累计飞行能耗，将所述总能耗与所述累计数据计算能耗及所述累计飞行能耗之差，作为所述无人机的状态信息对应的剩余能量值。

可选的，所述根据所述接收数据量及所述能耗信息，确定所述无人机的状态信息对应的数据计算能耗，包括：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

其中，所述E_ucom(t)表示所述无人机在飞行时刻t对应的数据计算能耗，所述η_u表示所述无人机的有效电容系数，所述C_u表示所述无人机每处理1比特量数据CPU需要的计算周期数，所述f_u表示所述无人机的CPU计算频率，所述L_u(t)表示所述无人机在飞行时刻t对应的接收数据量；

所述根据所述无人机的预设速度、预设加速度及运动参数，确定所述无人机的状态信息对应的飞行能耗，包括：

其中，所述E_f(t)表示所述无人机在飞行时刻t对应的飞行能耗，所述s₁和所述s₂表示常量系数，所述G表示重力加速度，所述v_u(t)表示所述预设速度，所述a_u(t)表示所述预设加速度。

可选的，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率；

所述基于所述任务需求量及所述信道信息，确定所述状态信息对应的所述地面基站的剩余需求量，包括：

根据所述接收数据量，计算所述无人机的累计数据传输量，将所述任务需求量与所述累计数据传输量之差，作为所述状态信息对应的所述地面基站的剩余需求量。

可选的，所述根据所述参考信道功率增益、所述通信带宽及所述发射功率，确定所述无人机的状态信息对应的接收数据量，包括：

获取所述无人机的飞行高度及所述地面基站的位置坐标；

根据所述参考信道功率增益、所述飞行高度及所述地面基站的位置坐标，确定所述无人机的位置坐标对应的信道增益；

根据所述信道增益、所述通信带宽及所述发射功率，确定所述无人机的位置坐标对应的数据传输速率；

根据所述数据传输速率及所述无人机的飞行时刻，确定所述无人机的状态信息对应的接收数据量。

可选的，所述根据所述参考信道功率增益、所述飞行高度及所述地面基站的位置坐标，确定所述无人机的位置坐标对应的信道增益，包括：

其中，所述β₀表示所述参考信道功率增益，所述H表示所述无人机的飞行高度，所述s_k表示所述地面基站的位置坐标，所述h_k(t)表示所述无人机在飞行时刻t的所述参考信道功率增益；

所述根据所述参考信道功率增益、所述通信带宽及所述发射功率，确定所述无人机的位置坐标对应的数据传输速率，包括：

其中，所述B表示所述通信带宽，所述p_k表示所述发射功率，所述σ表示高斯分布的方差，所述R_k(t)表示所述无人机在飞行时刻t对应的数据接收速率；

所述根据所述数据传输速率及所述无人机的飞行时刻，确定所述无人机的状态信息对应的接收数据量，包括：

L_u(t)＝tR_k(t)

其中，所述L_u(t)表示所述无人机在飞行时刻t对应的接收数据量。

可选的，所述根据所述风险系数、所述剩余能量值及剩余需求量，确定所述状态信息对应的奖励值，得到奖励函数，包括：

根据所述剩余需求量，确定所述状态信息对应的数据卸载量；

分别确定所述风险系数及所述剩余能量值的归一化结果，将所述数据卸载量与所述风险系数的归一化结果及所述剩余能量值的归一化结果之差，作为所述状态信息对应的奖励值。

可选的，所述根据所述剩余需求量，确定所述状态信息对应的数据卸载量，包括：

其中，所述U(μ(t))表示所述状态信息对应的数据卸载量，所述μ(t)表示所述地面基站在飞行时刻t的剩余需求量，所述η及所述β均表示控制变量，且η∈(1,∞)，β∈(0,∞)；

所述分别确定所述风险系数及所述剩余能量值的归一化结果，将所述数据卸载量与所述风险系数的归一化结果及所述剩余能量值的归一化结果之差，作为所述状态信息对应的奖励值，包括：

其中，所述R_t表示飞行时刻t对应的所述状态信息的奖励值，所述E_u(0)表示所述无人机的总能量，所述E_u(t)表示所述无人机在飞行时刻t的剩余能量值，所述P表示所述无人机在飞行总时间内的风险系数累计值，所述P(t)表示所述无人机在飞行时刻t的风险系数。

可选的，所述利用机器学习算法，根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径，包括：

根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，构建飞行路径中包括的多个状态信息对应的奖励值的均值表达式；

利用ε-greedy策略，基于所述均值表达式，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径。

可选的，所述根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，构建飞行路径中包括的多个状态信息对应的奖励值的均值表达式，包括：

其中，所述ξ表示所述飞行路径中包括的多个状态信息对应的奖励值的均值，所述T表示所述无人机的飞行总时长，所述R_t表示飞行时刻t对应的所述状态信息的奖励值，

为对所述ξ的约束条件，所述E_u(0)表示所述无人机的总能量，所述E_f(t)表示所述无人机在飞行时刻t对应的飞行能耗，所述E_ucom(t)表示所述无人机在飞行时刻t对应的数据计算能耗；

所述ε-greedy策略的参数ε设置为与迭代次数episode相关：

其中，所述c表示用于控制算法收敛速度的常数。

根据本公开实施例的第二方面，提供一种路径规划装置，包括：

获取单元，被配置为执行获取预设障碍物信息、所述地面基站的任务需求量、所述无人机的起始位置坐标、终点位置坐标、能耗信息以及所述无人机与所述地面基站之间的信道信息；

风险计算单元，被配置为执行基于所述预设障碍物信息，确定所述无人机的位置坐标对应的风险系数，所述风险系数与预设障碍物对所述无人机造成的碰撞风险成正比；

剩余能量计算单元，被配置为执行基于所述能耗信息及所述信道信息，确定所述无人机的状态信息对应的剩余能量值，所述状态信息包括所述无人机的位置坐标及飞行时刻；

需求量计算单元，被配置为执行基于所述任务需求量及所述信道信息，确定所述状态信息对应的所述地面基站的剩余需求量；

奖励计算单元，被配置为执行根据所述风险系数、所述剩余能量值及所述剩余需求量，确定所述状态信息对应的奖励值，得到奖励函数，所述奖励值与所述剩余能量值成正相关，与所述风险系数及所述剩余需求量成负相关；

规划单元，被配置为执行利用机器学习算法，根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径，所述飞行路径中包括多个状态信息且所述多个状态信息对应的奖励值的均值达到最大。

可选的，所述风险计算单元，被配置为执行：

其中，所述P(t)表示所述无人机在飞行时刻t的风险系数，所述q_u(t)表示所述无人机在飞行时刻t的位置坐标，所述σ表示高斯分布的方差，所述o_n表示所述预设障碍物的位置坐标

所述剩余能量计算单元，被配置为执行：

可选的，所述剩余能量计算单元，被配置为执行：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

所述需求量计算单元，被配置为执行：

可选的，所述装置还包括接收数据量计算单元，被配置为执行：

获取所述无人机的飞行高度及所述地面基站的位置坐标；

可选的，所述接收数据量计算单元，被配置为执行：

L_u(t)＝tR_k(t)

可选的，所述奖励计算单元，被配置为执行：

可选的，所述规划单元，被配置为执行：

所述ε-greedy策略的参数ε设置为与迭代次数episode相关：

其中，所述c表示用于控制算法收敛速度的常数。

根据本公开实施例的第三方面，提供一种路径规划电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的路径规划方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由路径规划电子设备的处理器执行时，使得路径规划电子设备能够执行上述任一所述的路径规划方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述任一项所述的路径规划方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取预设障碍物信息、地面基站的任务需求量、无人机的起始位置坐标、终点位置坐标、能耗信息以及无人机与地面基站之间的信道信息；基于预设障碍物信息，确定无人机的位置坐标对应的风险系数，风险系数与预设障碍物对无人机造成的碰撞风险成正比；基于能耗信息及信道信息，确定无人机的状态信息对应的剩余能量值，状态信息包括无人机的位置坐标及飞行时刻；基于任务需求量及信道信息，确定状态信息对应的地面基站的剩余需求量；根据风险系数、剩余能量值及剩余需求量，确定状态信息对应的奖励值，得到奖励函数，奖励值与剩余能量值成正相关，与风险系数及剩余需求量成负相关；利用机器学习算法，根据奖励函数、起始位置坐标及终点位置坐标，确定无人机从起始位置坐标到终点位置坐标的飞行路径，飞行路径中包括多个状态信息且多个状态信息对应的奖励值的均值达到最大。

这样，根据无人机与预设障碍物造成碰撞的风险系数、无人机的剩余能量值以及地面基站的剩余需求量，建立奖励函数，对无人机从起始位置坐标到终点位置坐标之间的飞行路径进行路径规划，使得无人机在飞行过程中能够优先服务数据需求量大的地面基站，有效处理地面基站的数据请求，在环境未知的情况下规划出一条合理的飞行轨迹。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种路径规划方法的流程图。

图2是根据一示例性实施例示出的一种不同收敛常数c下的平均奖励值收敛图。

图3是根据一示例性实施例示出的一种无人机在不同飞行高度下的平均奖励值收敛图。

图4是根据一示例性实施例示出的一种无人机的路径规划飞行轨迹图。

图5是根据一示例性实施例示出的一种路径规划装置的示意图。

图6是根据一示例性实施例示出的一种用于路径规划的电子设备的框图。

图7是根据一示例性实施例示出的一种用于路径规划的装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种路径规划方法的流程图，如图1所示，该路径规划方法包括以下步骤。

在步骤S11中，获取预设障碍物信息、地面基站的任务需求量、无人机的起始位置坐标、终点位置坐标、能耗信息以及无人机与地面基站之间的信道信息。

在本发明实施例中，对无人机进行路径规划之前，需要搭建无人机边缘计算系统的工作模型，在该工作模型中，假设携带边缘计算服务器的无人机在未知环境中飞行，未知环境中存在着一些障碍物，比如高楼、信号塔或者山脉等，同时也存在着一些固定的地面基站s_k，无人机在飞行的过程中需要与障碍物保持一定的安全距离，以避免与障碍物发生碰撞，同时也要处理地面基站的任务需求，最终到达目标点。通常，位置环境为城市空间环境，或者也可以为乡村或其他的空间环境，具体不做限定。

基于上述工作模型，对无人机的进行路径规划需要获取预设障碍物信息、地面基站的任务需求量、无人机的起始位置坐标、终点位置坐标、能耗信息以及无人机与地面基站之间的信道信息。

其中，预设障碍物信息包括预设障碍物的位置坐标及数量，预设障碍物的位置坐标、无人机的起始位置坐标及终点位置坐标通常为经纬度坐标，也可以是彼此之间的相对位置坐标，具体不做限定；地面基站的任务需求量指地面基站对无人机数据的数据需求量，不同的地面基站能够处理的数据量不同，因此，对无人机的数据需求量也有所不同；能耗信息用于确定无人机在飞行过程中需要消耗的能量，包括但不限于：无人机在参考距离处与地面基站之间的参考信道功率增益、通信带宽及地面基站的发射功率，能耗信息包括计算参数、无人机的预设速度、预设加速度、运动参数及总能量；无人机与地面基站之间的信道信息包括但不限于：无人机在参考距离处与地面基站之间的参考信道功率增益、通信带宽及地面基站的发射功率。

在步骤S12中，基于预设障碍物信息，确定无人机的位置坐标对应的风险系数，风险系数与预设障碍物对无人机造成的碰撞风险成正比。

也就是说，风险系数越高，无人机与预设障碍物发生碰撞的可能性也就越高，因此，通过计算风险系数，在后续的路径规划过程中可以较大程度的避免无人机与预设障碍物发生碰撞，提高路径规划的合理性，维护无人机的飞行安全。

在本步骤中，在预设障碍物信息指示预设障碍物的位置坐标符合高斯分布的情况下，基于预设障碍物信息，确定无人机的位置坐标对应的风险系数的过程，可以包括：

采用如下公式，确定无人机的位置坐标对应的风险系数：

其中，P(t)表示无人机在飞行时刻t的风险系数，q_u(t)表示无人机在飞行时刻t的位置坐标，σ表示高斯分布的方差，o_n表示预设障碍物的位置坐标。

在步骤S13中，基于能耗信息及信道信息，确定无人机的状态信息对应的剩余能量值，状态信息包括无人机的位置坐标及飞行时刻。

可以理解，无人机在初始状态下所具有的总能量是有限的，在飞行过程中，会不断消耗能量，当能量耗尽，无人机将无法继续飞行，因此，在进行路径规划时，需要考虑到无人机的剩余能量值，尽量避免发生无人机能量耗尽，飞行任务失败的情况，提高路径规划的合理性，维护飞行安全。

在本公开中，无人机在飞行过程中消耗的能量可以分为两大部分，分别为数据计算能耗和飞行能耗，其中，数据计算能耗是指无人机在执行数据计算任务以及与地面基站进行通信时所消耗的能量，飞行能耗是指无人机的飞行所需要的能量。无人机的状态信息包括无人机所处位置坐标以及对应的飞行时刻，可以理解，无人机的飞行路径即由无人机在每个时刻所处的位置坐标组成，因此，状态信息可以组成连续的飞行路径。

在本步骤中，如果信道信息包括无人机在参考距离处与地面基站之间的参考信道功率增益、通信带宽及地面基站的发射功率，能耗信息包括计算参数、预设速度、预设加速度、运动参数及总能量；那么，基于能耗信息及信道信息，确定无人机的状态信息对应的剩余能量值的步骤，可以包括：

根据参考信道功率增益、通信带宽及发射功率，确定无人机的状态信息对应的接收数据量；根据接收数据量及计算参数，确定无人机的状态信息对应的数据计算能耗；根据无人机的预设速度、预设加速度及运动参数，确定无人机的状态信息对应的飞行能耗；确定无人机在当前飞行时刻之前的累计数据计算能耗及累计飞行能耗，将总能耗与累计数据计算能耗及累计飞行能耗之差，作为无人机的状态信息对应的剩余能量值。

举例而言，根据接收数据量及能耗信息，确定无人机的状态信息对应的数据计算能耗，可以采用如下公式：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

其中，E_ucom(t)表示无人机在飞行时刻t对应的数据计算能耗，η_u表示无人机的有效电容系数，C_u表示无人机每处理1比特量数据CPU(Central Processing Unit，中央处理器)需要的计算周期数，f_u表示无人机的CPU计算频率，L_u(t)表示无人机在飞行时刻t对应的接收数据量；

根据无人机的预设速度、预设加速度及运动参数，确定无人机的状态信息对应的飞行能耗，可以采用如下公式：

其中，E_f(t)表示无人机在飞行时刻t对应的飞行能耗，s₁和s₂表示常量系数，G表示重力加速度，v_u(t)表示预设速度，a_u(t)表示预设加速度，其中，s₁和s₂取决于无人机的风阻系数、机翼的面积等，可以根据具体情况进行设置，本公开对此不作限定；

对应的，确定无人机在当前飞行时刻之前的累计数据计算能耗及累计飞行能耗，将总能耗与累计数据计算能耗及累计飞行能耗之差，作为无人机的状态信息对应的剩余能量值，可以采用如下公式：

E_u(t+1)＝E_u(t)-E_f(t)-E_ucom(t)

其中，E_u(t+1)表示无人机在飞行时刻t+1的剩余能量值，E_u(t)表示无人机在飞行时刻t的剩余能量值。

一种实现方式中，根据参考信道功率增益、通信带宽及发射功率，确定无人机的状态信息对应的接收数据量，包括：

获取无人机的飞行高度及地面基站的位置坐标；根据参考信道功率增益、飞行高度及地面基站的位置坐标，确定无人机的位置坐标对应的信道增益；根据信道增益、通信带宽及发射功率，确定无人机的位置坐标对应的数据传输速率；根据数据传输速率及无人机的飞行时刻，确定无人机的状态信息对应的接收数据量。

其中，根据参考信道功率增益、飞行高度及地面基站的位置坐标，确定无人机的位置坐标对应的信道增益，包括：

其中，β₀表示参考信道功率增益，H表示无人机的飞行高度，s_k表示地面基站的位置坐标，h_k(t)表示无人机在飞行时刻t的参考信道功率增益；

根据参考信道功率增益、通信带宽及发射功率，确定无人机的位置坐标对应的数据传输速率，包括：

其中，B表示通信带宽，p_k表示发射功率，σ表示高斯分布的方差，R_k(t)表示无人机在飞行时刻t对应的数据接收速率；

根据数据传输速率及无人机的飞行时刻，确定无人机的状态信息对应的接收数据量，包括：

L_u(t)＝tR_k(t)

其中，L_u(t)表示无人机在飞行时刻t对应的接收数据量。

在步骤S14中，基于任务需求量及信道信息，确定状态信息对应的地面基站的剩余需求量。

可以理解，基于不同的任务需求，地面基站对无人机每次飞行的任务需求量是不同的，无人机每经过一个地面基站，就会向地面基站卸载一定数据量的数据，只需在到达终点位置坐标之前完成任务需求量的数据卸载任务即可。因此，基于地面基站的任务需求量进行飞行路径的规划，可以进一步提高路径规划的合理性。

在本步骤中，如果信道信息包括无人机在参考距离处与地面基站之间的参考信道功率增益、通信带宽及地面基站的发射功率，那么，基于任务需求量及信道信息，确定状态信息对应的地面基站的剩余需求量的步骤，可以包括：

根据参考信道功率增益、通信带宽及发射功率，确定无人机的状态信息对应的接收数据量；根据接收数据量，计算无人机的累计数据传输量，将任务需求量与累计数据传输量之差，作为状态信息对应的地面基站的剩余需求量。

举例而言，确定无人机的状态信息对应的接收数据量可以延续步骤S13中的公式，本步骤对此不再赘述；根据接收数据量，计算无人机的累计数据传输量，将任务需求量与累计数据传输量之差，作为状态信息对应的地面基站的剩余需求量，可以采用如下公式：

μ(t+1)＝μ(t)-tR_k(t)

其中，μ(t)表示地面基站在飞行时刻t的剩余需求量，R_k(t)表示无人机在飞行时刻t对应的数据接收速率，μ(t+1)表示地面基站在飞行时刻t+1的剩余需求量，那么，tR_k(t)表示无人机在飞行时刻t对应的接收数据量。

在步骤S15中，根据风险系数、剩余能量值及剩余需求量，确定状态信息对应的奖励值，得到奖励函数，奖励值与剩余能量值成正相关，与风险系数及剩余需求量成负相关。

在本公开中，可以基于强化学习算法对无人机进行路径规划，在强化学习算法中，一个代理(Agent)会做出行动(Action)，和环境(Enviroment)互动，然后根据状态(State)以及奖励(Reward)，来评价某个行动是否好。换句话说，奖励函数可以用于判定无人机最终所选择的路径。由于无人机的飞行过程以及能量消耗具有马尔科夫性，对无人机的飞行过程进行马尔科夫建模，可以最大化无人机对地面基站的数据卸载量以及无人机的剩余能量值。

举例来说，在无人机飞行路径的规划场景中，代理即为无人机自身；

无人机的状态可以表示为状态空间S：

S＝{s_t|t＝1,2,...N}

S＝{s_t|s_t＝<q_u(t),μ(t),E_u(t),P(t)>}

其中q_u(t)为无人机在飞行时刻t的位置坐标，μ(t)为地面基站在飞行时刻t的剩余需求量，E_u(t)为无人机在飞行时刻t的剩余能量值，P(t)为无人机在飞行时刻t的风险系数，N表示飞行路径对应的飞行时长。

无人机的行动可以表示为动作空间A：

A＝{a_t|a_k(t)}

其中，a_k(t)表示无人机在飞行时刻t需要去为第k个地面基站处理任务需求。

也就是说，在本公开中，基于强化学习算法，需要评价无人机在在飞行时刻t去为第k个地面基站处理任务需求这一行动是否好，进而从多种可能的行动中确定最优解。但是，无人机处理地面基站的数据卸载量和地面基站的任务需求之间往往是非线性的关系，因此，一种实现方式中，根据风险系数、剩余能量值及剩余需求量，确定状态信息对应的奖励值，得到奖励函数，包括：

根据剩余需求量，确定状态信息对应的数据卸载量；分别确定风险系数及剩余能量值的归一化结果，将数据卸载量与风险系数的归一化结果及剩余能量值的归一化结果之差，作为状态信息对应的奖励值。

举例而言，根据剩余需求量，确定状态信息对应的数据卸载量，可以采用如下公式：

其中，U(μ(t))表示状态信息对应的数据卸载量，μ(t)表示地面基站在飞行时刻t的剩余需求量，η及β均表示控制变量，且η∈(1,∞)，β∈(0,∞)；

这样，函数U(μ(t))能够使无人机倾向于服务任务需求较大的地面基站，同时也能够防止其长期服务于某一个地面基站，在一定程度上提高无人机边缘计算系统的服务质量和计算效率。

进一步的，分别确定风险系数及剩余能量值的归一化结果，将数据卸载量与风险系数的归一化结果及剩余能量值的归一化结果之差，作为状态信息对应的奖励值，可以采用如下公式：

其中，R_t表示飞行时刻t对应的状态信息的奖励值，E_u(0)表示无人机的总能量，E_u(t)表示无人机在飞行时刻t的剩余能量值，P表示无人机在飞行总时间内的风险系数累计值，P(t)表示无人机在飞行时刻t的风险系数。E_u(t)/E_u(0)和P(t)/P是为了将剩余能量值及风险系数归一化。

奖励函数中的第一项根据剩余能量值确定，表示无人机飞行过程中经过的地面基站数量越多，收集到地面基站卸载的数据就越多，奖励值越大；第二项根据剩余需求量确定，表示无人机在每个时隙消耗的能量与初始能量的比值；第三项根据风险系数确定，表示无人机飞行过程中遇到的障碍物越多，风险越大，奖励值越小。

在步骤S16中，利用机器学习算法，根据奖励函数、起始位置坐标及终点位置坐标，确定无人机从起始位置坐标到终点位置坐标的飞行路径，飞行路径中包括多个状态信息且多个状态信息对应的奖励值的均值达到最大。

在本步骤中，利用机器学习算法，根据奖励函数、起始位置坐标及终点位置坐标，确定无人机从起始位置坐标到终点位置坐标的飞行路径，包括：

根据奖励函数、起始位置坐标及终点位置坐标，构建飞行路径中包括的多个状态信息对应的奖励值的均值表达式；利用ε-greedy策略，基于均值表达式，确定无人机从起始位置坐标到终点位置坐标的飞行路径。

也就是说，也就是说，本方法的目的是在无人机对地面基站的数据卸载量、无人机剩余能量值以及风险系数之间达到最优的权衡。通过机器学习算法分析无人机飞行路径的仿真曲线，从而在验证基于强化学习的无人机路径规划在保证安全飞行的同时，最大化的处理地面基站的任务需求，提高系统的服务质量，也就是通过无人机的飞行策略π，最大化无人机边缘计算系统在整个时间T内的平均奖励ξ。其中，机器学习算法具体可以为Q-learning算法。

举例而言，根据奖励函数、起始位置坐标及终点位置坐标，构建飞行路径中包括的多个状态信息对应的奖励值的均值表达式，包括：

其中，ξ表示飞行路径中包括的多个状态信息对应的奖励值的均值，T表示无人机的飞行总时长，R_t表示飞行时刻t对应的状态信息的奖励值，

为对ξ的约束条件，E_u(0)表示无人机的总能量，E_f(t)表示无人机在飞行时刻t对应的飞行能耗，E_ucom(t)表示无人机在飞行时刻t对应的数据计算能耗，即消耗的总能量不大于无人机的初始总能量。

进一步的，还可以提高对无人机边缘计算系统的服务质量进行量化，判断无人机路径规划的效果。举例而言，对无人机边缘计算系统的服务质量进行量化的公式如下所示：

其中μ_k(T)表示无人机到达目标点后，地面基站k的剩余需求量，μ_k(0)表示地面基站k的初始任务需求量。

在本公开种，ε-greedy策略的参数ε可以设置为与迭代次数episode相关：

其中，c表示用于控制算法收敛速度的常数。

如图2所示，为本发明中不同收敛常数c下的平均奖励值收敛图，其中，上方为收敛常数c取值为20对应的收敛曲线，下方为收敛常数c取值为15对应的收敛曲线。可以看出平均奖励值以一个较低的数值开始，随后随着迭代次数的增加，平均奖励值的数值逐渐增大并趋于稳定。收敛常数c能够影响算法的收敛速度，常数c越大，算法的收敛速度越慢，但是当常数c较高时，能获得更大的平均奖励值。

如图3所示，为本发明中无人机在不同飞行高度下的平均奖励值收敛图，其中，上方为飞行高度为60米对应的收敛曲线，下方为飞行高度为100米对应的收敛曲线。可以看出，无人机的飞行高度越高，与地面基站的距离就越远，长距离的数据传输会面临着更大的信道衰落，因此无人机与地面基站进行数据传输的速度和数据量都会受到一定程度的影响；同时无人机以较高的高度飞行时，需要消耗更多的能量用于保持自身的飞行高度，这也会导致奖励值的降低，因此无人机的飞行高度应尽可能地保持在最利于数据传输的高度。

其中，设置地面基站数量为K＝10，无人机飞行高度为H＝60m，无人机飞行最大速度为V＝20m/s，地面基站的任务需求量可以随机生成，表示为μ_k(t)∈[4,10]，无人机总能量为E_u(0)＝2000J，地面基站的发射功率为p_k＝0.1w，控制算法收敛的常数为c＝15，无人机CPU计算频率为f_u＝3GHz，信道功率增益为β＝-50dB，处理1比特数据量的CPU转速为C_u＝1000cycles/bit，σ²＝-100dBm，η＝2，β＝5，学习率α＝0.1，折扣因子γ＝0.9。

如图4所示，为本发明中无人机的路径规划飞行轨迹图。无人机从起点位置坐标出发，需要在躲避障碍物的前提下，尽可能地靠近地面基站，这样能够保证无人机与地面基站处于较好的通信距离，提高地面基站数据卸载的速度与数据卸载量，无人机处理每一个地面基站得任务需求后到达终点位置坐标，从飞行路径可以看出，无人机较好地处理了地面基站的数据需求，因此系统的服务质量较高。

由以上可见，本公开的实施例提供的技术方案，根据无人机与预设障碍物造成碰撞的风险系数、无人机的剩余能量值以及地面基站的剩余需求量，建立奖励函数，对无人机从起始位置坐标到终点位置坐标之间的飞行路径进行路径规划，使得无人机在飞行过程中能够优先服务数据需求量大的地面基站，有效处理地面基站的数据请求，在环境未知的情况下规划出一条合理的飞行轨迹。

图5是根据一示例性实施例示出的一种路径规划装置框图，该装置包括：

获取单元201，被配置为执行获取预设障碍物信息、所述地面基站的任务需求量、所述无人机的起始位置坐标、终点位置坐标、能耗信息以及所述无人机与所述地面基站之间的信道信息；

风险计算单元202，被配置为执行基于所述预设障碍物信息，确定所述无人机的位置坐标对应的风险系数，所述风险系数与预设障碍物对所述无人机造成的碰撞风险成正比；

剩余能量计算单元203，被配置为执行基于所述能耗信息及所述信道信息，确定所述无人机的状态信息对应的剩余能量值，所述状态信息包括所述无人机的位置坐标及飞行时刻；

需求量计算单元204，被配置为执行基于所述任务需求量及所述信道信息，确定所述状态信息对应的所述地面基站的剩余需求量；

奖励计算单元205，被配置为执行根据所述风险系数、所述剩余能量值及所述剩余需求量，确定所述状态信息对应的奖励值，得到奖励函数，所述奖励值与所述剩余能量值成正相关，与所述风险系数及所述剩余需求量成负相关；

规划单元206，被配置为执行利用机器学习算法，根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径，所述飞行路径中包括多个状态信息且所述多个状态信息对应的奖励值的均值达到最大。

一种实现方式中，所述风险计算单元202，被配置为执行：

一种实现方式中，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率，所述能耗信息包括计算参数、预设速度、预设加速度、运动参数及总能量；

所述剩余能量计算单元203，被配置为执行：

根据所述无人机的预设速度、预设加速度及运动参数，确定所述无人机的状态信息对应的飞行能耗；

一种实现方式中，所述剩余能量计算单元203，被配置为执行：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

一种实现方式中，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率；

所述需求量计算单元204，被配置为执行：

一种实现方式中，所述装置还包括接收数据量计算单元，被配置为执行：

获取所述无人机的飞行高度及所述地面基站的位置坐标；

一种实现方式中，所述接收数据量计算单元，被配置为执行：

L_u(t)＝tR_k(t)

一种实现方式中，所述奖励计算单元205，被配置为执行：

一种实现方式中，所述规划单元206，被配置为执行：

所述ε-greedy策略的参数ε设置为与迭代次数episode相关：

其中，所述c表示用于控制算法收敛速度的常数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于路径规划的电子设备的框图，包括处理器和存储器，其中，存储器用于存放计算机程序；处理器用于执行存储器上所存放的程序。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，当其在计算机上运行时，使得计算机实现上述待处理路径规划的方法。

图7是根据一示例性实施例示出的一种用于路径规划的装置800的框图。

例如，装置800可以是移动电话，计算机，数字广播电子设备，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件807为装置800的各种组件提供电力。电源组件807可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的待处理多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行第一方面和第二方面所述的方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。可选地，例如，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性非临时性计算机可读存储介质计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的路径规划方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种路径规划方法，其特征在于，包括：

2.根据权利要求1所述的路径规划方法，其特征在于，在所述预设障碍物信息指示预设障碍物的位置坐标符合高斯分布的情况下，所述基于所述预设障碍物信息，确定所述无人机的位置坐标对应的风险系数，包括：

3.根据权利要求1所述的路径规划方法，其特征在于，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率，所述能耗信息包括计算参数、预设速度、预设加速度、运动参数及总能量；

4.根据权利要求3所述的路径规划方法，其特征在于，所述根据所述接收数据量及所述能耗信息，确定所述无人机的状态信息对应的数据计算能耗，包括：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

5.根据权利要求1所述的路径规划方法，其特征在于，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率；

6.根据权利要求3～5任一所述的路径规划方法，其特征在于，所述根据所述参考信道功率增益、所述通信带宽及所述发射功率，确定所述无人机的状态信息对应的接收数据量，包括：

获取所述无人机的飞行高度及所述地面基站的位置坐标；

7.根据权利要求6所述的路径规划方法，其特征在于，所述根据所述参考信道功率增益、所述飞行高度及所述地面基站的位置坐标，确定所述无人机的位置坐标对应的信道增益，包括：

L_u(t)＝tR_k(t)

8.根据权利要求1所述的路径规划方法，其特征在于，所述根据所述风险系数、所述剩余能量值及剩余需求量，确定所述状态信息对应的奖励值，得到奖励函数，包括：

9.根据权利要求8所述的路径规划方法，其特征在于，所述根据所述剩余需求量，确定所述状态信息对应的数据卸载量，包括：

10.根据权利要求1所述的路径规划方法，其特征在于，所述利用机器学习算法，根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，确定所述无人机从所述起始位置坐标到所述终点位置坐标的飞行路径，包括：

11.根据权利要求10所述的路径规划方法，其特征在于，所述根据所述奖励函数、所述起始位置坐标及所述终点位置坐标，构建飞行路径中包括的多个状态信息对应的奖励值的均值表达式，包括：

所述ε-greedy策略的参数ε设置为与迭代次数episode相关：

其中，所述c表示用于控制算法收敛速度的常数。

12.一种路径规划装置，其特征在于，包括：

13.根据权利要求12所述的路径规划装置，其特征在于，所述风险计算单元，被配置为执行：

14.根据权利要求10所述的路径规划装置，其特征在于，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率，所述能耗信息包括计算参数、预设速度、预设加速度、运动参数及总能量；

所述剩余能量计算单元，被配置为执行：

15.根据权利要求14所述的路径规划装置，其特征在于，所述剩余能量计算单元，被配置为执行：

E_ucom(t)＝η_uC_uf_u ²L_u(t)

16.根据权利要求12所述的路径规划装置，其特征在于，所述信道信息包括所述无人机在参考距离处与所述地面基站之间的参考信道功率增益、通信带宽及所述地面基站的发射功率；

所述需求量计算单元，被配置为执行：

17.根据权利要求14～16所述的路径规划装置，其特征在于，所述装置还包括接收数据量计算单元，被配置为执行：

获取所述无人机的飞行高度及所述地面基站的位置坐标；

18.根据权利要求17所述的路径规划装置，其特征在于，所述接收数据量计算单元，被配置为执行：

L_u(t)＝tR_k(t)

19.根据权利要求12所述的路径规划装置，其特征在于，所述奖励计算单元，被配置为执行：

20.根据权利要求19所述的路径规划装置，其特征在于，所述奖励计算单元，被配置为执行：

21.根据权利要求12所述的路径规划装置，其特征在于，所述规划单元，被配置为执行：

22.根据权利要求22所述的路径规划装置，其特征在于，所述规划单元，被配置为执行：

所述ε-greedy策略的参数ε设置为与迭代次数episode相关：

其中，所述c表示用于控制算法收敛速度的常数。

23.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至11中任一项所述的路径规划方法。

24.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由路径规划电子设备的处理器执行时，使得路径规划电子设备能够执行如权利要求1至11中任一项所述的路径规划方法。