CN114594793A

CN114594793A - 一种基站无人机的路径规划方法

Info

Publication number: CN114594793A
Application number: CN202210224326.7A
Authority: CN
Inventors: 彭舰; 刘唐; 黄飞虎; 周永涛
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2022-06-07
Anticipated expiration: 2042-03-07
Also published as: CN114594793B

Abstract

本发明公开了一种基站无人机的路径规划方法，通过当前基站无人机的状态，采用执行者模型得到基站无人机下一步要执行的基站无人机动作，再通过评论者模型对基站无人机动作进行评估，从而将合理的基站无人机动作给到智能体，使得基站无人机能及时合理的进行路径规划，解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。

Description

一种基站无人机的路径规划方法

技术领域

本发明涉及无人机技术领域，具体涉及一种基站无人机的路径规划方法。

背景技术

无人机具有可灵活控制、机动性高、成本较低等特点，被广泛应用于军事和民用领域，如军用无人机、消防救援无人机、农业灌溉无人机、快递运输无人机等。在无线通信领域，无人机可以作为空中基站提供临时无线通信服务。相较于传统地面基站，空中基站能够被灵活调整部署位置，空中基站也有更大的机会与地面用户建立视距链路连接。

目前关于基站无人机的研究中，较多工作致力于寻找无人机的最优飞行路径，以增强无线通信网络性能。这类研究很少考虑到地面用户位置变化对无人机路径规划的影响。地面用户的活动往往呈现动态性和随机性，地面用户位置变化可能降低用户与基站无人机间的无线通信速率，从而造成网络性能的损失。因此，在规划基站无人机飞行路径时考虑地面用户位置变化是必要的。

在考虑地面用户位置变化的环境中，传统启发式算法需要不断初始化和更新以规划无人机的飞行路径，这会造成计算资源和时间成本的增加。无人机路径规划问题属于连续控制问题，无人机的飞行距离和飞行方向都是连续变量，传统算法很难在连续空间中计算无人机的飞行动作。

发明内容

针对现有技术中的上述不足，本发明提供的一种基站无人机的路径规划方法解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基站无人机的路径规划方法，包括以下步骤：

S1、采集基站无人机的状态数据和动作数据，构建状态训练数据集和动作训练数据集；

S2、采用状态训练数据集对执行者模型进行训练，得到训练完成的执行者模型；

S3、采用动作训练数据集对评论者模型进行训练，得到训练完成的评论者模型；

S4、采集待进行路径规划的基站无人机的状态数据；

S5、根据待进行路径规划的基站无人机的状态数据，采用训练完成的执行者模型获取基站无人机动作；

S6、采用训练完成的评论者模型对基站无人机动作进行评估；

S7、将通过评估的基站无人机动作发送至基站无人机的智能体，完成路径规划。

综上，本发明的有益效果为：本发明通过当前基站无人机的状态，得到基站无人机下一步要执行的基站无人机动作，再通过对基站无人机动作进行评估，从而将合理的基站无人机动作给到智能体，使得基站无人机能及时合理的进行路径规划，解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。

进一步地，所述步骤S1和S5中基站无人机的状态数据包括：基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。

进一步地，所述步骤S2中在对执行者模型进行训练时，执行者模型的梯度函数为：

其中，

为梯度函数，E[]为数学期望，Q(，)为评论者模型，s和a为变量，

为对执行动作a_t求偏导，

为对执行者模型权重θ^π求偏导，θ^Q为评论者模型权重，θ^π为执行者模型权重，π(|)为执行者模型，t为时隙，s_t为时隙t的状态数据，|为概率条件符号。

上述进一步方案的有益效果为：通过计算梯度

更新θ^π，帮助执行者模型选择获得收益最大的动作策略，即在状态s_t下选择输出能够获得最大收益的动作a_t。

进一步地，所述步骤S3中在对评论者模型进行训练时，评论者模型的损失函数为：

L(θ^Q)＝E[r(s_t，a_t)+γQ′(s_t+1，π′(s_t+1|θ^π′)|θ^Q′)-Q(s_t，a_t|θ^Q)]

其中，L(θ^Q)为评论者模型的损失函数，E[]为数学期望，r(s_t，a_t)为时隙t状态s_t下执行动作a_t获得的奖励，γ为折扣因子，Q′(，)为评论者目标模型，π′(|)为执行者目标模型，θ^Q′为更新后的评论者目标模型权重，

为更新前的评论者目标模型权重，θ^π′为更新后的执行者目标模型权重，

为更新前的执行者目标模型权重，|为概率条件符号，Q(，)为评论者模型，θ^Q为评论者模型权重，τ为评论者模型中的学习率，τ′为执行者模型中的学习率，t为时隙，s_t为时隙t的状态数据，s_t+1为时隙t+1的状态数据，a_t为状态数据s_t下选择的动作。

上述进一步方案的有益效果为：通过最小化损失函数L(θ^Q)，帮助评论者模型更准确地计算出在s_t下选择动作a_t后的收益。损失函数中对评论者目标模型的输出做了折扣，这是为了防止在计算收益时产生过度估计问题。

进一步地，所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层；所述第一全连接层的神经元为600个，所述第二全连接层的神经元为500个。

进一步地，所述评论者模型输出层的函数为relu激活函数，所述执行者模型输出层的函数为sigmoid激活函数。

上述进一步方案的有益效果为：执行者模型输出层采用sigmoid函数是为了防止输出值超出动作的边界值。

附图说明

图1为一种基站无人机的路径规划方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基站无人机的路径规划方法，包括以下步骤：

步骤S1中基站无人机的状态数据用于构建状态训练数据集，基站无人机的动作数据用于构建动作训练数据集。

所述步骤S1和S5中基站无人机的状态数据包括：基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。

所述动作数据包括：基站无人机的飞行方向和飞行距离。

在进行基站无人机数据采集时，将采集的数据进行离散处理，处理得到时间间隔为t的数据，用于对执行者模型和评论者模型进行训练。

所述步骤S2中在对执行者模型进行训练时，执行者模型的梯度函数为：

其中，

为对执行动作a_t求偏导，

所述步骤S3中在对评论者模型进行训练时，评论者模型的损失函数为：

S4、采集待进行路径规划的基站无人机的状态数据；

所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层；所述第一全连接层的神经元为600个，所述第二全连接层的神经元为500个。

所述评论者模型输出层的函数为relu激活函数，所述执行者模型输出层的函数为sigmoid激活函数。

在上述过程中数据可通过经验回放池进行存储，也可采用其他存储单元。在每次训练时，可从经验回放池中随机选择大小为256的训练数据集和动作训练数据集，在训练前可分别对训练数据集和动作训练数据集进行归一化处理，再用于训练评论者模型和执行者模型，训练次数可设定，也可在训练评论者模型和执行者模型收敛时，停止训练。

Claims

1.一种基站无人机的路径规划方法，其特征在于，包括以下步骤：

S4、采集待进行路径规划的基站无人机的状态数据；

2.根据权利要求1所述的基站无人机的路径规划方法，其特征在于，所述步骤S1和S5中基站无人机的状态数据包括：基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。

3.根据权利要求1所述的基站无人机的路径规划方法，其特征在于，所述步骤S2中在对执行者模型进行训练时，执行者模型的梯度函数为：

其中，

为对执行动作a_t求偏导，

4.根据权利要求3所述的基站无人机的路径规划方法，其特征在于，所述步骤S3中在对评论者模型进行训练时，评论者模型的损失函数为：

其中，L(θ^Q)为评论者模型的损失函数，E[ ]为数学期望，r(s_t，a_t)为时隙t状态s_t下执行动作a_t获得的奖励，γ为折扣因子，Q′(，)为评论者目标模型，π′(|)为执行者目标模型，θ^Q′为更新后的评论者目标模型权重，

5.根据权利要求1所述的基站无人机的路径规划方法，其特征在于，所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层；所述第一全连接层的神经元为600个，所述第二全连接层的神经元为500个。

6.根据权利要求1所述的基站无人机的路径规划方法，其特征在于，所述评论者模型输出层的函数为relu激活函数，所述执行者模型输出层的函数为sigmoid激活函数。