CN113382060B

CN113382060B - 一种物联网数据收集中的无人机轨迹优化方法及系统

Info

Publication number: CN113382060B
Application number: CN202110635429.8A
Authority: CN
Inventors: 王洋; 应科柯; 刘仕聪; 高镇; 郑德智; 张军
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-03-22
Anticipated expiration: 2041-06-07
Also published as: CN113382060A

Abstract

本发明公开了一种物联网数据收集中的无人机轨迹优化方法及系统，先构建深度强化学习框架网络，然后将以包括信息素浓度的状态信息输入到策略网络中，获得无人机的动作，循环此过程；并利用信息素浓度计算瞬时奖励值以及获得累积奖励值。通过累积奖励值的状态，判断优化训练是否完成，最终根据训练好的策略网络获得无人机优化轨迹。本发明在仿真环境中对无人机及物联网节点进行信道建模，信道建模同时考虑视距LoS链路和非视距NLoS链路的存在，能够在反映实际物联网通信环境动态变化的前提下，使无人机快速完成物联网数据收集工作。根据优化后的无人机轨迹执行数据采集任务，可以更好地满足无人机实际飞行的需求，更准确的完成数据采集任务。

Description

一种物联网数据收集中的无人机轨迹优化方法及系统

技术领域

本发明涉及无人机无线通信技术领域，具体涉及一种物联网数据收集中的无人机轨迹优化方法及系统。

背景技术

无人机具有灵活的机动性，可以通过轨迹优化以低功耗的连接方案接近潜在的物联网节点并采集数据。因此，无人机通信技术有望在下一代无线通信系统中发挥关键作用，为日益增长的海量无线终端提供更广泛和更深入覆盖和连接。与基于地面基站的物联网系统相比，基于无人机的空中基站系统具有显著的特性，如提高视距信道概率、提高频谱和能量效率等。

现有的无人机轨迹优化训练中，首先是在实际环境中进行数据采集，进行优化训练，这样的采集难度和成本消耗都很高。或者采用的模型过于简化，不能反映实际物联网通信环境中的动态变化。其次，对于数据采集任务，无人机基站只有在指定的时间步长内完成所有物联网节点的数据采集，才能获得正向奖励，即中间过程中的每一步都没有奖励。此外，在训练初期，无人机执行的策略是随机的，奖励获取需要一系列复杂的操作。因此，无人机进行数据收集任务是一个稀疏奖励问题，这会导致强化学习算法在迭代过程中进展缓慢，甚至难以收敛。

发明内容

有鉴于此，本发明提供了一种物联网数据收集中的无人机轨迹优化方法及系统，能够在反映实际物联网通信环境中的动态变化的前提下，快速完成物联网数据收集工作。

本发明具体方案如下：

一种物联网数据收集中的无人机轨迹优化方法，包括：

步骤一、构建深度强化学习框架网络，包括策略网络；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出；信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大；

步骤二、将当前时刻的状态信息输入到策略网络中，获得无人机的动作，无人机在仿真环境中执行所述动作获取下一时刻的状态信息，再输入策略网络，如此循环；针对每一次循环的状态信息，利用信息素浓度计算瞬时奖励值并累积得到累积奖励值；瞬时奖励值的函数是以信息素浓度为输入的单调递增函数；

步骤三、通过步骤二获得多个样本构建样本池，利用样本池中的样本对策略网络进行训练更新；同时继续按照步骤二的方式获得新的样本，放入样本池；直到累积奖励值趋于稳定，此时策略网络训练完成；

步骤四、采用训练好的策略网络进行无人机轨迹优化。

进一步地，信息素浓度表示为：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob

其中ζ_n为第n时刻信息素浓度；ζ_n-1为第n-1时刻信息素浓度；κ_cov为第n-1时刻到第n时刻即第n时隙，所述无人机服务的所有物联网节点对应的信息素浓度；κ_dis为在第n时隙所述无人机完成数据采集任务的过程中损失的信息素浓度，P_ob为在第n时隙所述无人机进行数据采集任务时因违反约束条件损失的信息素浓度。

进一步地，瞬时奖励值表示为：

其中r_tanh(ζ_n)为第n时刻的瞬时奖励值，ζ_n为第n时刻信息素浓度。

进一步地，无人机没有完成当前数据收集任务，r_tanh(ζ_n)；无人机完成当前数据收集任务，总服务时长小于最大执行时间，瞬时奖励值为r_tanh(ζ_n)+N_re；

其中N_re＝N_max-N为完成数据收集任务所剩时间，N_max为无人机完成数据收集任务的最大执行时间，N为无人机完成当前数据收集任务的总服务时长。

进一步地，状态信息还包括服务情况信息和无人机的位置信息；服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息。

进一步地，信噪比满足情况信息的值为：当无人机与物联网节点之间通信信噪比大于设定的信噪比阈值，判定为信噪比满足数据收集条件，信噪比满足情况信息的值为1；否则，判定为不满足条件，信噪比满足情况信息的值为0；

进一步地，服务完成情况信息的值为：当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1。

进一步地，无人机与物联网节点之间通信信噪比的获取方式为：

建立3D城市模型，仿真无人机在城市环境中对物联网节点的数据收集；根据3D城市模型对物联网节点与无人机之间的通信链路进行信道建模，根据信道模型获取无人机与物联网节点之间通信信噪比；

当物联网节点和无人机之间的直接通信链路没有被建筑物阻塞，存在视距链路时，信道建模为视距LoS模型；当物联网节点和无人机之间的直接通信链路被建筑物阻塞，不存在视距链路时，信道建模为非视距NLoS模型；

一种物联网数据收集中的无人机轨迹优化系统，包括：深度强化学习框架网络、环境仿真模块、计算模块和优化模块；

深度强化学习框架网络，包括策略网络和样本池；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出；信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大；

环境仿真模块，用于在仿真环境中模拟无人机对物联网节点的数据采集任务，进而获得需要输入到策略网络的状态信息；将当前时刻的状态信息输入到策略网络中，接收策略网络产生的无人机的动作，无人机在仿真环境中执行所述动作获取下一时刻的状态信息，再输入策略网络，如此循环；

计算模块用于计算信息素浓度和瞬时奖励值；针对环境仿真模块中每一次循环的状态信息，利用计算模块，计算信息素浓度和瞬时奖励值，并将瞬时奖励值累积得到累积奖励值；瞬时奖励值的函数是以信息素浓度为输入的单调递增函数；

样本池包括多个样本，利用样本池中的样本对策略网络进行训练更新；同时继续循环获得新的样本，放入样本池；直到累积奖励值趋于稳定，此时策略网络训练完成；

优化模块用于接收训练好的策略网络，得到最终实际飞行的无人机动作信息，产生无人机的优化轨迹。

进一步地，计算模块计算信息素浓度的方式为：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob

进一步地，计算模块计算瞬时奖励值的方式为：

进一步地，输入到策略网络的状态信息还包括：服务情况信息和无人机位置信息；服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息；

进一步地，服务完成情况信息的值为：当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1；

在环境仿真模块中，仿真无人机在城市环境中对物联网节点的数据收集；对环境仿真模块中3D城市模块的物联网节点与环境仿真模块中无人机模块的无人机之间的通信链路进行信道建模，根据建模模型中获取无人机与物联网节点之间通信信道信噪比；

当物联网节点和无人机之间的直接通信链路没有被建筑物阻塞，即存在视距链路时，信道建模为视距LoS模型；当物联网节点和无人机之间的直接通信链路被建筑物阻塞，即不存在视距链路时，信道建模为非视距NLoS模型。

有益效果：

(1)本发明提供的物联网数据收集中的无人机轨迹优化方法，构建深度强化学习框架网络，输入策略网络的状态信息包括信息素浓度，信息素浓度反应了无人机服务物联网节点的数量、总服务时长和违反约束情况，该信息素浓度每个时刻都进行评价，能够实时准确的刻画当前无人机完成数据收集任务的情况，以这样的信息素浓度所构建的策略网络所输出的无人机动作，更为优化。

其次，该信息素浓度还作为引导策略网络收敛的信息，将瞬时奖励函数设置为以信息素浓度为输入的单调递增函数，从而引导策略网络向更快完成任务的方向尽快收敛，进而提高网络迭代优化效率。

(2)本发明构建了具体的瞬时奖励值的表达式，该表达式将离散的信息素浓度转化成了含有梯度变化的瞬时奖励值的函数，且在完成任务的过程中每一时刻n均计算瞬时奖励值，而不是完成任务计算一次奖励值，从而将原本的稀疏奖励转化成密集奖励，降低了训练难度，提高迭代训练过程的速度，进一步提升了优化效率。

(3)本发明在无人机完成数据收集时，进一步在瞬时奖励值的计算上加入了剩余时间N_re的考虑，瞬时奖励值的考虑更加全面、细致，更符合实际情况，有利于进一步提高迭代速度。

(4)策略网络输入的状态信息包括信噪比满足情况信息，该信噪比满足情况信息表征无人机在当前位置对物联网的覆盖情况，决定着服务质量，在规划路径时考虑信噪比，能够实现更优质的规划结果。在一优选实施例中，信噪比完成情况并没有根据概率模型获得，而是在3D城市环境中仿真无人机飞行，获得当前时刻视距链路是否被阻塞，从而选取LoS信道模型或NLos信道模型来计算信噪比，更符合实际情况。进一步地，信噪比满足情况信息采用{0,1}的二进制变量，缩小状态的搜索空间，降低了训练难度。

(5)策略网络输入的状态信息还包括服务完成情况信息，该服务完成情况信息可以引导无人机避免飞经已服务过的节点，降低无人机执行数据采集任务的时间消耗。

附图说明

图1为城市环境的3D实景模型。

图2为无人机轨迹优化方法流程图。

图3为3D实景模型中执行最优策略网络获得的无人机轨迹。

图4为一种物联网数据收集中的无人机轨迹优化系统示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种物联网数据收集中的无人机轨迹优化方法及系统，采用深度强化学习算法为无人机在实际三维城市环境中采集物联网节点数据的任务进行飞行轨迹的优化。本发明将无人机和环境的状态信息整合为信息素浓度作为计算瞬时奖励值的输入，使得计算更为简单方便。进而可以自适应地学习调整无人机的运动轨迹，使数据收集任务完成时间最小化。

基于以上发明点，本发明提供的物联网数据收集中的无人机轨迹优化方法的技术实施包括以下步骤，如图2所示，为无人机轨迹优化方法流程图。

步骤一：构建深度强化学习框架网络，包括策略网络；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出。

状态信息包括无人机的位置信息、信息素浓度和服务情况信息。

服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息。

无人机的飞行动作即无人机的动作信息，包括无人机的水平飞行方向、无人机的俯仰飞行方向和无人机的飞行距离。

信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大。

在步骤一中，先进行了3D城市模型建模，获得了仿真环境，然后在仿真环境中对无人机和物联网节点之间的通信链路进行信道建模，之后构建深度强化学习框架网络，包括策略网络和评价网络。其中3D城市模型建模与构建深度强化学习框架网络或者信道建模与构建深度强化学习框架网络可以同时进行，在后续的步骤描述中为了区分清楚，而写了步骤序号，并不是为了限制区分先后顺序。信道建模的过程也是一步完成的，写了步骤序号是为了体现考虑小尺度衰落的区别，不是为了限制具体的先后顺序。

步骤1.1、获得城市环境的3D城市模型。

本发明的一种物联网数据收集中的无人机轨迹优化方法，其训练过程是在仿真的3D城市模型中进行的，其训练过程中的无人机数据采集也是虚拟的无人机在虚拟的城市环境中进行数据采集工作。因此，在构建深度强化学习框架网络之前，要先进行城市环境的3D实景建模。

根据国际电信联盟(ITU)推荐的城市建筑物统计模型生成模拟的3D城市模型，如图1所示。

步骤1.2、信道建模。

现有的空地信道模型，即概率LoS模型。该信道模型根据实际假设的分布模型，分别考虑了具有一定概率的LoS和非视线传输NLoS的存在。然而，视距链路的存在应该取决于实际环境，即无人机与物联网节点之间的直接链路是否被障碍物物理阻断，而不是基于概率模型或简化的视距信道模型。

考虑地面存在K个随机分布的物联网节点，其中包含大量待收集的数据如智慧城市监控数据、交通流量数据和健康监护数据等，派遣无人机对这些物联网节点进行数据收集。在无人机飞行过程中，无人机与物联网节点之间的直接通信链路会被建筑物遮挡，因此无法采用简单的LoS信道模型及概率LoS模型。

本发明考虑了一种更为实际的空地信道模型，该模型仍以大尺度衰落和小尺度衰落为原型，但考虑建筑物作为传播散射体的存在，大尺度衰落建模依赖于无人机和物联网节点的瞬时位置以及周围建筑物，需要基于模拟的3D城市模型进行计算。具体而言，在具有建筑物位置和高度信息的模拟城市环境中，通过检测当前无人机位置和物联网节点之间的直接通信链路是否被建筑物阻塞，可以准确判断无人机和物联网节点之间是否存在视距链路，由此构建更加准确的信道建模。信道建模是对仿真环境中即3D城市模型中的物联网节点与无人机之间的通信链路进行信道建模。

步骤1.2.1、考虑城市环境中建筑物的遮挡效应，将第k个物联网节点(物联网节点总数为K，k≤K)与无人机之间的大尺度衰落建模为：

其中

表示第k个物联网节点与无人机之间的自由空间损失，d_k(t)表示无人机与节点之间的欧氏距离，f_c表示中心频率，c表示光速。另外η_Los和η_NLos分别表示LoS链路和NLoS链路的附加空间传播损失。

步骤1.2.2、考虑小尺度衰落的影响：NLoS链路情况下采用瑞利衰落，LoS链路情况下采用莱斯因子为15dB的莱斯衰落。因此，第k个物联网节点与无人机之间的信道建模可以表示为：

其中，

表示小尺度衰落在LoS链路情况下采用莱斯因子为15dB的莱斯衰落，

表示小尺度衰落在NLoS链路情况下采用瑞利衰落。

步骤1.3、构建基于双延迟深度确定性策略梯度算法TD3算法的深度强化学习框架网络，包括策略网络，还包括评价网络。

TD3算法的深度强化学习框架网络分为策略网络和两个评价网络，并且策略网络和评价网络均含有对应的目标网络，其可以提高学习的稳定性。即深度强化学习框架网络包括策略网络、评价网络1和评价网络2；目标网络包括目标策略网络、目标评价网络1和目标评价网络2。

首先，分别随机初始化策略网络、评价网络1和评价网络2的参数φ，θ₁，θ₂。目标网络与对应原始网络具有相同的结构，且目标策略网络、目标评价网络1和目标评价网络2的参数φ′，θ′₁，θ′₂的初始化方式与原始网络相同。然而，这些网络参数应用软目标更新技术来控制更新速率。

策略网络利用DNN网络来拟合策略函数，决定无人机的飞行动作；评价网络利用DNN网络来拟合状态-动作价值函数，进而对所述策略网络进行优化。

步骤1.3.1、建立策略网络。

利用两层全连接网络建立策略网络的隐含层，输入层为待输入状态参数，输出层为待输出的策略动作。网络的每一层采用tanh函数进行非线性激活。具体过程如下：

将低维的所述无人机的位置信息和信息素浓度状态分量通过DNN网络进行升维，再与物联网节点服务信息状态分量拼接得到维度扩展后的状态信息。

其中，信息素浓度是受蚁群算法的启发，在整个数据采集过程中，认为每个物联网节点都包含一些信息素，这些信息素也可以表示为要收集的特殊数据。在无人机巡航过程中，采集物联网节点的数据，并将物联网节点上的信息素传输给无人机。同时，无人机上的信息素会不断蒸发，当无人机的运动越界时，会有更多的信息素蒸发。因此，通过信息素浓度来引导无人机优化其飞行轨迹，那么无人机服务的物联网节点越多，从物联网节点获取的信息素也就越多；无人机越快完成数据收集任务，无人机损失的信息素也就越少；同理，无人机违反约束的情况越少，损失的信息素也就越少。将瞬时奖励函数设置为以信息素浓度为输入的单调递增函数，则无人机收集的信息素浓度越高，得到的瞬时奖励值也就越高，因此以上设计符合我们最终期望的优化目标。

物联网节点服务信息状态分量即服务情况信息，包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息。

将获取的扩展后的状态信息输入所述策略网络的输入层，依次经过400-400的两层隐含层网络特征提取后，通过所述策略网络的输出层输出所述无人机的相关动作，即无人机的动作信息，包括无人机的水平飞行方向、无人机的俯仰飞行方向和无人机的飞行距离。

步骤1.3.2、建立评价网络。

利用两层全连接网络建立评价网络的隐含层，输入层为待输入状态参数和动作参数，输出层为待输出的状态-动作价值函数。网络的每一层采用ReLU函数进行非线性激活，输出层不激活。具体过程如下：

将低维的所述无人机的位置信息和信息素浓度状态分量通过DNN网络进行升维，再与物联网节点服务信息状态分量拼接得到维度扩展后的状态信息。将获取的扩展后的状态信息和所述无人机的动作信息一同输入所述评价网络的输入层，依次经过400-400的两层隐含层网络特征提取后，通过所述评价网络的输出层输出所述状态-动作对的状态-动作价值。

上述建立策略网络和评价网络是同时进行的，为了进行区分记载成了步骤的形式，并不是限制执行的先后顺序。

步骤二：将当前时刻的状态信息输入到策略网络中，获得无人机的动作，无人机在仿真环境中执行所述动作获取下一时刻的状态信息，再输入策略网络，如此循环。针对每一次循环的状态信息，利用信息素浓度计算瞬时奖励值并累积得到累积奖励值。

瞬时奖励值的函数是以信息素浓度为输入的单调递增函数。

其中，状态信息包括：服务情况信息、无人机的位置信息、无人机的信息素浓度。服务情况信息包括：表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息。动作信息包括：水平飞行方向、俯仰飞行方向、飞行距离。

在步骤二中，获取服务情况信息、无人机的位置信息、获取信息素浓度、和计算瞬时奖励值和累积奖励值也是可以同时进行的，写步骤序号2.1～2.6是为了清楚描述具体信息内容，并不是为了限制区分先后顺序。

步骤2.1、获取服务情况信息。

在无人机收集物联网节点需要传输的数据时获得第n时刻的状态信息。第n时刻状态信息完整表示为s_n＝[b_1，n，…，b_K，n；c_1，n...，C_K，n；x_n，y_n，z_n；ζ_n]。其中b_1，n，...，b_K，n分别表示在第n时刻各个物联网节点的满足信噪比要求情况；c_1，n…，c_K，n分别表示在第0时刻至第n时刻物联网节点的服务情况，以上第n时刻的状态信息由各物联网节点通过控制链路传输给中心服务模块的中心服务器，经中心服务器处理后得到服务情况信息；x_n，y_n，z_n是无人机的位置信息，分别表示无人机空间位置的坐标信息；ζ_n为信息素浓度。

步骤2.1.1、计算信噪比。

无人机被派遣去服务地面的K个物联网节点，即收集物联网节点需要传输的数据，如智慧城市监控数据，交通流量数据，健康监护数据等。假设物联网节点和无人机基站均部署单天线通信系统，并且K个物联网节点随机静止分布在指定区域内。在第n时刻无人机会通过下行链路进行物联网节点的调度，其中调度原则以物联网节点接收的信噪比大小为准，即

其中P_Tx表示无人机下行链路的发射功率，h_k，n表示第n时刻悬停阶段的信道增益，P_N表示第k个物联网节点接收端的加性高斯白噪声功率。通过在节点处设置预定义的信噪比阈值ρ_th，当且仅当

时，第k个物联网节点才能满足数据传输的要求。

当物联网节点和无人机之间的直接通信链路没有被建筑物阻塞，即存在视距链路时，物联网节点与无人机之间的信道建模为视距LoS模型；当物联网节点和无人机之间的直接通信链路被建筑物阻塞，即不存在视距链路时，物联网节点与无人机之间的信道建模为非视距NLoS模型；

步骤2.1.2、判断第n时刻第k个物联网节点信噪比满足情况。

为指示第n时刻第k个物联网节点是否满足信噪比要求，当无人机与物联网节点之间通信信噪比大于设定的信噪比阈值，判定为信噪比满足数据收集条件，信噪比满足情况信息的值为1；否则，判定为不满足条件，信噪比满足情况信息的值为0。

上述内容用公式表示为：

信噪比满足情况用来表征无人机在当前位置对物联网节点的覆盖情况，采用{0，1}的二进制变量，缩小状态的搜索空间，降低训练难度。若直接采用接收信噪比，状态的搜索空间过大，且没有将是否满足信噪比阈值的信息加入状态中。

步骤2.1.3、判断第k个物联网节点的数据是否已经被无人机收集。

由于假设在一次任务中每个物联网节点最多只被服务一次，因此物联网节点是否被唤醒并进行数据传输即数据收集任务也可以用数值0和1表示，当信噪比满足条件且数据收集没有完成，则第n时刻第k个物联网节点被唤醒并进行数据传输服务；其他情况下，包括信噪比条件不满足、数据已经被收集完成等，第n时刻第k个物联网节点不被唤醒不进行数据传输服务。上述内容用公式可以表示为：

其中c_k，n∈{0，1}是一个二进制变量去表示第k个物联网节点的数据是否已经被无人机收集，当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1。另外，服务完成情况信息的初值可以为0。

上述内容用公式可以表示为：

本发明中每一个物联网节点只会被无人机服务一次，为了防止无人机对同一个物联网节点进行多次服务，设置c_k，n∈{0，1}表征物联网节点是否已被服务。将该信息作为状态信息，可以引导无人机避免飞经已服务过的节点，造成时间开销上的损耗。当所有物联网节点的数据均以被收集即无人机完成了当前的(即第n时隙)数据收集任务，无人机的位置信息、瞬时奖励值和累积奖励值会进行初始化设置，然后再进行下一时隙的数据收集任务。这里的初始化是针对每一时隙的开始进行了初始化，不是对整个优化训练过程或系统进行初始化，因此样本池中的样本还存在并且可以继续累积增加的。

假设在无人机处于悬停状态时，无人机与物联网节点之间的信道是缓变的，并且待发送数据的物联网节点的发射功率与下行无人机的发射功率相同，因此得到上行链路数据收集时的无人机接收信噪比

考虑使用正交频分多址(OFDMA)技术来允许从多个物联网节点同时收集数据，即每个激活的节点分配W带宽，因此可以忽略用户间干扰；同时假设无人机移动带来的多普勒效应可以被很好的估计并在接收端进行补偿。

步骤2.1.4、物联网节点会将b_k，n和c_k，n信息通过控制链路传输给深度强化学习框架网络的策略网络，作为状态信息中的服务情况信息。

上述计算信噪比、判断信噪比满足情况以及物联网节点的数据是否被无人机收集也是可以同时进行的，写步骤序号是为了清楚描述具体信息内容，并不是为了限制区分先后顺序。

步骤2.2、获取无人机的位置信息。

无人机的位置信息由环境仿真模块中的无人机模块即无人机自身即可获取，包括：x_n，y_n，z_n，分别表示在第n时刻无人机的三维位置信息。无人机的位置信息可由环境仿真模块传输给深度强化学习框架网络的策略网络。

步骤2.3、获取信息素浓度。

计算模块对接收到的第n时刻的状态信息中的服务情况信息进行处理获得物联网节点信息，按照定义的信息素浓度计算公式求得：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob，

上述信息素浓度κ_cov为无人机服务的所有物联网节点对应的信息素浓度，对于每个物联网节点来说，其信息素浓度可以是相同的，也可以是不相同的。

本发明利用信息素浓度进一步表征当前任务的状态，从而引导无人机尽快完成任务。加入该信息素浓度信息后，策略网络的收敛能力显著提高，进而提高学习效率。

步骤2.4、获取无人机的动作信息。

将步骤2.1中获得的服务情况信息、步骤2.2中获得的无人机的位置信息、步骤2.3中获得的无人机的信息素浓度一起输入策略网络中，得到无人机的动作信息，包括无人机的水平飞行方向、无人机的俯仰飞行方向和无人机的飞行距离。

将第n时刻无人机的动作信息表示为

其中

表示在n时刻无人机的水平飞行方向；

表示在n时刻无人机的俯仰飞行方向；m_n∈[0，m_max]表示在n时刻无人机的飞行距离。

步骤2.5、无人机按步骤2.4获得的动作信息执行飞行轨迹，获取下一状态信息，再输入到策略网络中，如此循环。

其中，无人机获取下一状态信息是一个重复的过程，无人机会根据下一状态信息获得无人机的动作信息，进而继续执行动作信息，获取下一状态信息。以期望获得足够数量的样本，样本数量应该为2000个样本以上。

步骤2.6、计算瞬时奖励值，并求和得到累积奖励值，即

将状态信息、动作信息、瞬时奖励值、下一状态信息整合为一个样本，存入样本池。

对于数据采集任务，无人机基站只有在指定的时间步长内完成所有物联网节点的数据采集，才能获得正向奖励，即中间过程中的每一步都没有奖励。此外，在训练初期，无人机执行的策略是随机的，奖励获取需要一系列复杂的操作。因此，无人机进行数据收集任务是一个稀疏奖励问题，这可能导致强化学习算法在迭代过程中进展缓慢，甚至难以收敛。为了克服这一问题，本发明提出了一种奖励重塑机制，通过计算瞬时奖励值和累计奖励值，将原来的稀疏奖励转化为密集奖励，即在收集的过程中也会有正向奖励。该算法通过引入不断变化的信息素浓度作为奖励，大大降低了训练难度，能够支持更多的物联网节点。

步骤2.6.1、计算模块根据预先设置好的奖励函数计算得到瞬时奖励值，即以最小化数据收集任务的完成时间为目标产生奖励函数，瞬时奖励值表示为：

当无人机完成当前数据收集任务，其总服务时长小于无人机完成数据收集任务的最大执行时间，瞬时奖励值为r_tanh(ζ_n)+N_re；

如果无人机没有完成当前数据收集任务的时候，瞬时奖励值为r_tanh(ζ_n)；且本发明认为无人机完成当前数据收集任务的时间不会超过最大执行时间，一旦达到最大执行时间这一固定值时，就会认为没有完成，然后重新进行数据收集任务。

上述内容可以整合为一个公式：

M是无人机服务的物联网节点总数。即当无人机服务的物联网节点总数为K时，无人机完成了当前数据收集任务的所有物联网节点数据的收集工作，其总服务时间仍然小于预设的无人机最大的执行时间，此时剩余的即节省的时间也是瞬时奖励值的一部分。

步骤三：通过步骤二获得多个样本构建样本池，利用样本池中的样本对策略网络进行训练更新；同时继续按照步骤二的方式获得新的样本，放入样本池；直到累积奖励值趋于稳定，此时策略网络训练完成；

步骤三中的具体步骤也是可以同时进行的，写步骤序号是为了清楚描述具体信息内容，并不是为了限制区分先后顺序。

步骤3.1、将状态信息、动作信息、瞬时奖励值、下一时刻的状态信息整合为一个样本，存放到样本池。

从样本池中随机抽取B个样本，对策略网络和评价网络进行训练。同时，为提高学习的稳定性，对策略网络和评价网络分别进行了拷贝，得到策略网络、评价网络1、评价网络2、目标策略网络、目标评价网络1、目标评价网络2共6个训练网络，他们的参数分别表示为φ，θ₁，θ₂，φ′，θ′₁，θ′₂，其中目标网络的参数更新应用软目标更新技术进行较原网络更缓慢的更新。

步骤3.2、定义目标值函数：

其中，r表示为样本对应的奖励值，d表示为数据收集任务完成标志，γ表示为折扣率，

表示为两个目标评价网络的输出值，s′表示为下一状态信息，

表示为目标策略网络的输出动作加入探索噪声后的最终动作。

步骤3.3、对评价网络进行训练更新。

通过最小化目标值函数与实际值函数的损失来更新评价网络，具体损失函数为

利用Adam算法对损失函数进行优化，不断改进评价网络参数。

步骤3.4、对策略网络进行训练更新。

策略网络的损失函数计算依赖于评价网络，通过计算梯度来更新策略网络，具体为

策略网络也利用Adam算法对损失函数进行优化，不断改进策略网络参数。

目标网络的参数更新采用软更新技术，即

θ′_i＝τθ_i+(1-τ)θ′_i

φ′＝τφ+(1-τ)φ′

其中，τ∈[0，1]为软更新系数，用于控制目标网络参数更新速度，τ越大，目标网络的更新速度越接近原网络更新速度。

步骤四：采用训练好的策略网络进行无人机轨迹优化。

上述步骤进行，直至累积奖励值趋于稳定状态，即累积奖励值达到最大，并处在小范围的波动状态，即可得到实际部署给无人机的策略网络，获得优化的无人机轨迹。

经过充分的训练后，累积奖励值不再有明显增加，则停止训练。将训练好的策略网络直接部署到优化模块即实际的无人机基站平台，用于引导无人机基站进行快速高效的飞行以最短时间完成物联网节点数据收集任务。而评价网络只在训练阶段有效，实际部署并不需要。

之后，如图4所示，构建物联网数据收集中的无人机轨迹优化系统，无人机按照最终优化的轨迹在实际环境中进行数据收集。构建的物联网数据采集系统包括深度强化学习框架网络、环境仿真模块、计算模块和优化模块；

深度强化学习框架网络，包括策略网络、评价网络和样本池；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出；信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大；

环境仿真模块，包括3D城市模块和无人机模块，用于在仿真环境中模拟进行无人机对物联网节点的数据采集任务，进而获得需要输入到策略网络的状态信息；将当前时刻的状态信息输入到策略网络中，接收策略网络产生的无人机的动作，无人机在仿真环境中执行所述动作获取下一时刻的状态信息，再输入策略网络，如此循环；

环境仿真模块产生的状态信息包括：服务情况信息、无人机位置信息和信息素浓度；服务情况信息包括物联网节点的信噪比满足情况信息和服务完成情况信息；

其中，信噪比满足情况信息的值为：当无人机与物联网节点之间通信信噪比大于设定的信噪比阈值，判定为信噪比满足数据收集条件，信噪比满足情况信息的值为1；否则，判定为不满足条件，信噪比满足情况信息的值为0。

服务完成情况信息的值为：当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1。

无人机与物联网节点之间通信信噪比的获取方式为：

在环境仿真模块中，仿真无人机在城市环境中对物联网节点的数据收集；对环境仿真模块中3D城市模块的物联网节点与环境仿真模块中无人机模块的无人机之间的通信链路进行信道建模，根据建模模型中获取无人机与物联网节点之间通信信噪比。

其中，计算模块计算信息素浓度的方式为：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob

计算模块计算瞬时奖励值的方式为：

样本池包括多个样本，样本包括环境仿真模块中每一次循环的状态信息、策略网络产生的无人机动作信息以及计算模块针对每一次循环计算的瞬时奖励值；利用样本池中的样本对策略网络进行训练更新；同时继续循环获得新的样本，放入样本池；直到累积奖励值趋于稳定，此时策略网络训练完成；

本发明提供的一种物联网数据收集中的无人机轨迹优化方法及系统，在3D实景模型中完成无人机轨迹优化训练之后，将训练好的策略网络部署给实际的无人机基站获得无人机实际的优化轨迹，无人机再按照优化后的轨迹去实际环境中快速高效的采集数据，为实际环境中的各个物联网节点提供服务。

以上的具体实施例仅描述了本发明的设计原理，该描述中的部件形状，名称可以不同，不受限制。所以，本发明领域的技术人员可以对前述实施例记载的技术方案进行修改或等同替换；而这些修改和替换未脱离本发明创造宗旨和技术方案，均应属于本发明的保护范围。

Claims

1.一种物联网数据收集中的无人机轨迹优化方法，其特征在于，包括：

步骤一、构建深度强化学习框架网络，包括策略网络；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出；所述信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大；

所述状态信息包括无人机的位置信息、信息素浓度和服务情况信息；所述服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息；

步骤四、采用训练好的策略网络进行无人机轨迹优化。

2.如权利要求1所述的优化方法，其特征在于，所述信息素浓度表示为：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob

3.如权利要求1所述的优化方法，其特征在于，所述瞬时奖励值表示为：

其中r_tanh(ζ_n)为第n时刻的瞬时奖励值，ζ_n为第n时刻信息素浓度；κ_cov为第n-1时刻到第n时刻即第n时隙，所述无人机服务的所有物联网节点对应的信息素浓度。

4.如权利要求3所述的优化方法，其特征在于，

无人机没有完成当前数据收集任务，所述瞬时奖励值为r_tanh(ζ_n)；

无人机完成当前数据收集任务，总服务时长小于最大执行时间，所述瞬时奖励值为r_tanh(ζ_n)+N_re；

5.如权利要求1所述的优化方法，其特征在于，所述状态信息进一步包括服务情况信息和无人机的位置信息；所述服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息。

6.如权利要求5所述的优化方法，其特征在于，所述信噪比满足情况信息的值为：当无人机与物联网节点之间通信信噪比大于设定的信噪比阈值，判定为信噪比满足数据收集条件，信噪比满足情况信息的值为1；否则，判定为不满足条件，信噪比满足情况信息的值为0；

所述服务完成情况信息的值为：当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1。

7.如权利要求6所述的优化方法，其特征在于，所述无人机与物联网节点之间通信信噪比的获取方式为：

当物联网节点和无人机之间的直接通信链路没有被建筑物阻塞，存在视距链路时，信道建模为视距LoS模型；当物联网节点和无人机之间的直接通信链路被建筑物阻塞，不存在视距链路时，信道建模为非视距NLoS模型。

8.一种物联网数据收集中的无人机轨迹优化系统，其特征在于，该系统包括：深度强化学习框架网络、环境仿真模块、计算模块和优化模块；

所述深度强化学习框架网络，包括策略网络和样本池；策略网络以包括信息素浓度的状态信息作为输入，以无人机下一时刻的飞行动作为输出；所述信息素浓度的值为：在当前任务中，无人机已服务的物联网节点数越多、总服务时长越短、违反约束的情况越少，信息素浓度的值越大；

所述环境仿真模块，用于在仿真环境中模拟无人机对物联网节点的数据采集任务，进而获得需要输入到策略网络的状态信息；将当前时刻的状态信息输入到策略网络中，接收策略网络产生的无人机的动作，无人机在仿真环境中执行所述动作获取下一时刻的状态信息，再输入策略网络，如此循环；

所述计算模块用于计算信息素浓度和瞬时奖励值；针对环境仿真模块中每一次循环的状态信息，利用所述计算模块，计算信息素浓度和瞬时奖励值，并将瞬时奖励值累积得到累积奖励值；瞬时奖励值的函数是以信息素浓度为输入的单调递增函数；

所述样本池包括多个样本，利用所述样本池中的样本对策略网络进行训练更新；同时继续循环获得新的样本，放入样本池；直到累积奖励值趋于稳定，此时策略网络训练完成；

所述优化模块用于接收训练好的策略网络，得到最终实际飞行的无人机动作信息，产生无人机的优化轨迹。

9.如权利要求8所述的优化系统，其特征在于，所述计算模块计算信息素浓度的方式为：

ζ_n＝ζ_n-1+κ_cov-κ_dis-P_ob

其中ζ_n为第n时刻信息素浓度；ζ_n-1为第n-1时刻信息素浓度；κ_cov为第n-1时刻到第n时刻即第n时隙，所述无人机服务的所有物联网节点对应的信息素浓度；κ_dis为在第n时隙所述无人机完成数据采集任务的过程中损失的信息素浓度，P_ob为在第n时隙所述无人机进行数据采集任务时因违反约束条件损失的信息素浓度；

所述计算模块计算瞬时奖励值的方式为：

10.如权利要求8所述的优化系统，其特征在于，

所述输入到策略网络的状态信息还包括：服务情况信息和无人机位置信息；所述服务情况信息包括表征当前时刻无人机与物联网节点之间网络状态的信噪比满足情况信息，以及当前时刻无人机对物联网节点的服务完成情况信息；

所述信噪比满足情况信息的值为：当无人机与物联网节点之间通信信噪比大于设定的信噪比阈值，判定为信噪比满足数据收集条件，信噪比满足情况信息的值为1；否则，判定为不满足条件，信噪比满足情况信息的值为0；

所述服务完成情况信息的值为：当物联网节点的数据没有被无人机收集时，服务完成情况信息的值为0；当物联网节点的数据已经被无人机收集时，服务完成情况信息的值为1；

所述无人机与物联网节点之间通信信噪比的获取方式为：

在环境仿真模块中，仿真无人机在城市环境中对物联网节点的数据收集；对环境仿真模块中3D城市模块的物联网节点与环境仿真模块中无人机模块的无人机之间的通信链路进行信道建模，根据建模模型中获取无人机与物联网节点之间通信信噪比；