CN114840021A

CN114840021A - 一种无人机收集数据的轨迹规划方法、装置、设备及介质

Info

Publication number: CN114840021A
Application number: CN202210461498.6A
Authority: CN
Inventors: 熊俊; 魏急波; 周宣含; 赵海涛; 刘潇然; 张晓瀛; 张校晨; 曹阔; 王海军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-02

Abstract

本申请公开了一种无人机收集数据的轨迹规划方法、装置、设备及介质，涉及无人机通信技术领域，包括：建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题；针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架，并对所述无人机进行训练以得到最优策略网络；获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。本申请基于实际的问题模型构建约束马尔科夫决策问题，并搭建深度强化学习框架对无人机进行训练得到最优策略网络，然后将当前环境状态特征输入该最优策略网络以得到当前待执行动作，实现了无人机实时轨迹规划。

Description

一种无人机收集数据的轨迹规划方法、装置、设备及介质

技术领域

本发明涉及无人机通信技术领域，特别涉及一种无人机收集数据的轨迹规划方法、装置、设备及介质。

背景技术

在物联网中，无线传感网络能够通过部署大量的地面传感器设备完成目标区域内的信息采集，从而可以在环境与生态监测、健康监护、家庭自动化、以及交通控制等场景中发挥重要作用。数据收集是无线传感器网络的重要问题之一，即如何高效地将传感器设备采集到的数据汇集起来完成后续的数据处理与分析。无人机具有灵活、成本低廉等特点，可以作为移动数据收集器用于传感器设备的数据收集与转发传输。无人机与地面设备之间的空-地通信信道以直射路径为主，信道质量好；与此同时，无人机还能够根据通信需求对其位置和飞行轨迹进行实时部署，进一步提升信道质量。因此，利用无人机在无线传感网络中进行数据收集，能够有效降低传感设备的发射功率和能量消耗，延长设备的使用寿命进而提升物联网的生命周期。

在无人机辅助的数据收集系统中，如何对无人机的轨迹规划与通信策略进行联合设计是提升系统性能的关键。一般来说，无人机轨迹与通信的联合设计可以利用数学优化方法进行建模与求解。然而，这类方法具有较高的计算复杂度，难以应用在高动态的实时场景中。更重要的是，基于优化的方法依赖于所建立的系统模型，例如无人机与设备之间进行通信的无线信道模型，无人机飞行所需的能量模型，以及通信传输速率模型。这些模型是对真实系统的近似，当模型与实际系统不匹配时，会出现严重的性能恶化。当前，有部分研究将深度强化学习应用到了无人机数据收集系统中。作为一种无模型的方法，深度强化学习将无人机当做智能体，通过学习算法使得无人机最终能够具有在动态环境中实时调整飞行与通信策略的能力。然而现有的深度强化学习方法一方面主要针对无约束的决策问题，无法应用于有约束的决策问题；另一方面，当传感器设备的位置发生变化时，需要重新训练来求解新的无人机轨迹，难以应用到实时化场景中。

综上，在无人机收集数据的场景中，如何求解有约束的决策问题，并实时对无人机的轨迹进行规划是目前有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种无人机收集数据的轨迹规划方法、装置、设备及介质，能够在无人机收集数据的场景中，求解有约束的决策问题，并实时对无人机的轨迹进行规划。其具体方案如下：

第一方面，本申请公开了一种无人机收集数据的轨迹规划方法，包括：

建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题；

针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架，并对所述无人机进行训练以得到最优策略网络；

获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。

可选的，所述基于所述问题模型构建约束马尔科夫决策问题，包括：

构建包括所述无人机的当前位置信息、当前物联网设备的位置信息、所述当前物联网设备的剩余数据量和所述无人机的剩余能量的环境状态特征；

构建包括所述无人机的飞行方向和飞行速率的动作决策变量；

设计所述无人机的奖励函数和代价函数；

基于所述环境状态特征、所述动作决策变量、所述奖励函数和所述代价函数构建约束马尔科夫决策问题；

其中，所述环境状态特征s_n的关系式为：

所述动作决策变量a_n的关系式为：a_n＝(φ(n),||v(n)||)；所述奖励函数r_n的关系式为：r_n＝-τ，所述代价函数包括第一代价函数

和第二代价函数

所述第一代价函数的关系式为：

所述第二代价函数的关系式为

所述约束马尔科夫决策问题的目标为求解最优的策略网络π，所述策略网络能够在满足长期代价约束

的条件下最大化长期奖励

式中，n表示当前时隙的编号，q(n)＝[x₀(n),y₀(n),H]表示所述无人机的当前位置信息，x₀(n)和y₀(n)分别表示所述无人机在空间坐标系中的横坐标和纵坐标，H为常数，表示所述无人机的高度，d_m(n)表示所述当前物联网设备的剩余数据量，m表示所述当前物联网设备的编号，E(n)表示所述无人机的剩余能量；

表示物联网设备的总数；φ(n)表示所述无人机的飞行方向，||v(n)||表示所述无人机的飞行速率，||*||表示范数；τ表示单个时隙的长度，E_prop(n)表示当前时隙所述无人机的能量消耗总量；γ∈[0,1)表示折扣因子，{d_i}_i∈{1,2}表示每个所述代价函数对应的阈值，i表示所述代价函数的编号，

表示求取数学期望。

可选的，所述基于所述环境状态特征、所述动作决策变量、所述奖励函数和所述代价函数构建约束马尔科夫决策问题，包括：

基于SAC算法构建熵正则项；

基于拉格朗日松弛技术构建包括所述环境状态特征、所述动作决策变量、所述奖励函数、所述代价函数和所述熵正则项的约束马尔科夫决策问题；

其中，所述熵正则项

的关系式为：

所述约束马尔科夫决策问题为：

式中，π(A|B)表示条件概率密度分布，表示B到A之间的映射；

表示拉格朗日惩罚收益，λ＝{λ_i}_i＝1,2与α表示拉格朗日惩罚系数，

表示最小期望熵。

可选的，所述针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架的过程中，还包括：

搭建用于拟合所述环境状态特征和所述动作决策变量的关系的策略网络；所述策略网络的关系式为π_φ(a_n|s_n)，其中，φ表示与所述策略网络对应的参数值；

搭建用于拟合动作-状态价值函数的评价网络；所述评价网络的关系式为Q_θ(s,a)，其中，Q表示评价网络，θ表示与所述评价网络对应的参数值；

搭建经验回放池

可选的，所述对所述无人机进行训练以得到最优策略网络，包括：

对预设参数进行初始化以得到相应的初始值，并将所述初始值作为当前训练参数；其中，所述当前训练参数包括策略网络参数、评价网络参数和拉格朗日惩罚系数；

获取当前时刻所述无人机与环境交互产生的当前训练样本数据，并将所述当前训练样本数据存储至所述经验回放池；其中，所述当前训练样本数据包括当前时刻的环境状态特征、动作决策变量和下一时刻的环境状态特征、奖励值和代价值；

基于所述经验回放池中的训练样本数据对所述当前训练参数进行更新，以得到更新后的当前训练参数，并重新跳转至所述获取当前时刻所述无人机与环境交互产生的当前训练样本数据，直到满足预设循环结束条件，以得到最优策略网络。

可选的，所述基于所述经验回放池中的训练样本数据对所述当前训练参数进行更新，包括：

在保持所述当前训练参数中的拉格朗日惩罚系数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的评价网络参数和策略网络参数进行更新；

在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的拉格朗日惩罚系数进行更新。

可选的，所述在保持所述当前训练参数中的拉格朗日惩罚系数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的评价网络参数和策略网络参数进行更新，包括：

根据第一预设批量大小从所述经验回放池中获取第一样本；

在保持所述当前训练参数中的策略网络参数和拉格朗日惩罚系数不变的情况下，基于所述第一样本并利用贝尔曼方程更新所述当前训练参数中的评价网络参数，以得到所述当前训练参数中的当前更新后的评价网络参数；

在保持所述当前训练参数中的评价网络参数和拉格朗日惩罚系数不变的情况下，基于所述第一样本并利用策略梯度定理更新所述当前训练参数中的策略网络参数，以得到所述当前训练参数中的当前更新后的策略网络参数；

获取当前时刻所述无人机与环境交互产生的当前训练样本数据，并将所述当前训练样本数据存储至所述经验回放池；

重新跳转至所述根据第一预设批量大小从所述经验回放池中获取第一样本，直到达到预设的循环次数，以得到所述当前训练参数中的当前更新后的评价网络参数和策略网络参数。

可选的，所述在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的拉格朗日惩罚系数进行更新，包括：

根据第二预设批量大小从所述经验回放池中获取第二样本；

在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述第二样本并利用拉格朗日原始-对偶方法更新所述当前训练参数中的拉格朗日惩罚系数，以得到所述当前训练参数中的当前更新后的拉格朗日惩罚系数。

第二方面，本申请公开了一种无人机收集数据的轨迹规划装置，包括：

问题构建模块，用于建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题；

框架搭建模块，用于针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架；

训练模块，用于对所述无人机进行训练以得到最优策略网络；

轨迹规划模块，用于获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的无人机收集数据的轨迹规划方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的无人机收集数据的轨迹规划方法的步骤。

可见，本申请建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题；针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架，并对所述无人机进行训练以得到最优策略网络；获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。由此可见，本申请首先建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于该问题模型构建约束马尔科夫决策问题，然后搭建深度强化学习框架对无人机进行训练以得到最优策略网络，该最优策略网络赋予了无人机在环境中实时自主决策的能力，最后将当前环境状态特征输入该最优策略网络以得到当前待执行动作，实现了无人机收集数据过程中的实时轨迹规划。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种无人机收集数据的轨迹规划方法流程图；

图2为本申请公开的一种具体的无人机收集数据的轨迹规划方法流程图；

图3为本申请公开的一种具体的无人机收集数据的轨迹规划方法流程图；

图4为本申请公开的仿真实验中所提供的无人机实时轨迹规划示意图；

图5为本申请公开的仿真实验中所提供的无人机速度变化示意图；

图6为本申请公开的仿真实验中平均数据收集量的收敛曲线；

图7为本申请公开的仿真实验中无人机平均能量消耗总量的收敛曲线；

图8为本申请公开的仿真实验中数据收集任务完成时长的收敛曲线；

图9为本申请公开的仿真实验中本申请所采用算法与基于优化的算法在不同用户数不同能量约束下所能到达的平均任务完成时长对比；

图10为本申请公开的一种无人机收集数据的轨迹规划装置结构示意图；

图11为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前的无人机轨迹规划方案中，一方面，主要针对无约束的决策问题，无法应用于有约束的决策问题；另一方面，当传感器设备的位置发生变化时，需要重新训练来求解新的无人机轨迹，难以应用到实时化场景中。为此，本申请实施例公开了一种无人机收集数据的轨迹规划方法、装置、设备及介质，能够在无人机收集数据的场景中，求解有约束的决策问题，并实时对无人机的轨迹进行规划。

参见图1所示，本申请实施例公开了一种无人机收集数据的轨迹规划方法，该方法包括：

步骤S11：建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题。

本实施例中，上述无人机从若干数量个物联网设备中收集数据的问题模型具体为：考虑单无人机辅助的物联网数据收集场景，即一架能量有限的无人机从M个物联网设备中收集数据。用

表示所有设备的集合，每个设备的位置可以用w_m＝[x_m,y_m,0]表示。无人机在固定高度H飞行，且它总是从一个预先设定的固定位置q₀起飞，并在一次任务结束时返回该位置。这里，q₀可以表示一个充电站的地址。将时间划分为多个时隙，每个时隙的长度为τ。定义集合

来描述不同时隙，因此N表示无人机收集完一次任务中所有数据所需要的总时隙数量。在每个时隙n，无人机的位置为q(n)＝[x₀(n),y₀(n),H]。因此，无人机的轨迹可以近似表示为一个长度为N的序列

且q(1)＝q(N)＝q₀。当时隙长度τ足够小时，无人机的飞行速度可以近似为||v(n)||＝||q(n)-q(n-1)||/τ，该速度不能超过无人机的最大允许速度V_max。将无人机的初始能量记为E₀，每一时刻飞行所消耗的能量记为E_prop(i)，那么它在时隙n结束时的剩余能量为

为了保证无人机的飞行安全，必须保证E(N)≥E_min，其中E_min为预先设定的门限。用D_m表示设备m的数据总量，而每一时隙上传的数据量为Ω_m(n)，那么该设备n个时隙之后剩余的数据量为

当一次任务完成时，所有的d_m(N)均为0。另外，本场景假设无人机采用频分多址策略对设备进行资源分配，即将可用频段划分为K个子信道，每个时隙最多K个信道较好的设备向无人机上传数据。本申请实施例的目标是优化无人机的轨迹，使得无人机在总能量消耗不超过一定门限的情况下，收集完所有数据所需要的任务完成时间最短。也即，本申请中的问题模型可以为提供一种能量限制下以任务完成时间最短为目标的无人机数据收集与轨迹优化方法，使得无人机最终能够具备根据其所剩能量与物联网设备位置对轨迹进行实时优化的能力，从而完成能量约束下物联网数据的快速收集。

本实施例中，上述基于所述问题模型构建约束马尔科夫决策问题，包括：

第一、构建包括所述无人机的当前位置信息、当前物联网设备的位置信息、所述当前物联网设备的剩余数据量和所述无人机的剩余能量的环境状态特征；其中，所述环境状态特征s_n的关系式为：

表示物联网设备的总数；

第二，构建包括所述无人机的飞行方向和飞行速率的动作决策变量；其中，所述动作决策变量a_n的关系式为：a_n＝(φ(n),||v(n)||)；φ(n)表示所述无人机的飞行方向，||v(n)||表示所述无人机的飞行速率，||*||表示范数；

第三，设计所述无人机的奖励函数和代价函数；其中，所述奖励函数r_n的关系式为：r_n＝-τ，所述代价函数包括第一代价函数

和第二代价函数

所述第一代价函数的关系式为：

所述第二代价函数的关系式为

式中，τ表示单个时隙的长度，E_prop(n)表示当前时隙所述无人机的能量消耗总量；γ∈[0,1)表示折扣因子，{d_i}_i∈{1,2}表示每个所述代价函数对应的阈值，i表示所述代价函数的编号；

第四，基于所述环境状态特征、所述动作决策变量、所述奖励函数和所述代价函数构建约束马尔科夫决策问题；其中，所述约束马尔科夫决策问题的目标为求解最优的策略网络π，所述策略网络能够在满足长期代价约束

的条件下最大化长期奖励

式中，

表示求取数学期望。

进一步的，上述基于所述环境状态特征、所述动作决策变量、所述奖励函数和所述代价函数构建约束马尔科夫决策问题，包括：基于SAC算法构建熵正则项；基于拉格朗日松弛技术构建包括所述环境状态特征、所述动作决策变量、所述奖励函数、所述代价函数和所述熵正则项的约束马尔科夫决策问题。可以理解的是，首先增加SAC(soft actor-critic，即柔性动作-评价)算法的熵约束，而SAC算法的主要特征为熵正则项，即策略在最大化长期奖励的同时还需要满足一定的最小期望熵约束。这里的熵用于度量策略的随机程度；熵越大，探索能力越强，从而可以加速学习，并且防止策略陷入一个不好的局部最优解。加入额外的熵约束，上述约束马尔科夫决策问题可以进一步总结为：

C⁽ⁱ⁾(π)≤d_i,i∈{1,2}

其中，所述熵正则项

的关系式为：

然后通过拉格朗日松弛技术进一步将上述约束马尔科夫决策问题转换为：

式中，π(A|B)表示条件概率密度分布，表示B到A之间的映射，本实施例中用于拟合当前环境状态特征到该状态下动作概率密度分布之间的映射；

表示拉格朗日惩罚收益，它通过在原长期奖励中加入代价项(包括熵)构成；λ＝{λ_i}_i＝1,2与α表示拉格朗日惩罚系数，用于动态调节代价与奖励之间的相对重要性关系；

表示最小期望熵；φ表示与所述策略网络对应的参数值。

步骤S12：针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架，并对所述无人机进行训练以得到最优策略网络。

本实施例中，上述述针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架的过程中，还包括：搭建用于拟合所述环境状态特征和所述动作决策变量的关系的策略网络；所述策略网络的关系式为π_φ(a_n|s_n)，其中，φ表示与所述策略网络对应的参数值；搭建用于拟合动作-状态价值函数的评价网络；所述评价网络的关系式为Q_θ(s,a)，其中，Q表示评价网络，θ表示与所述评价网络对应的参数值；搭建经验回放池

需要指出的是，本实施例中的策略网络用于拟合环境状态特征到该状态下动作概率密度分布之间的映射，用一个高斯函数π_φ(a_n|s_n)来表示策略网络，函数的均值

与标准差

均由深度神经网络给出；本实施例中的评价网络用一个深度神经网络Q_θ(s,a)表示；经验回放池用于储存无人机智能体与环境交互过程中所产生的样本。然后通过预设的算法对无人机进行训练以得到最优策略网络，

步骤S13：获取当前环境状态特征，并将所述当前环境状态特征获取输入至所述最优策略网络以得到所述无人机的当前待执行动作。

本实施例中，获取当前环境状态特征，并将当前环境状态特征输入至最优策略网络以得到无人机的当前待执行动作，并在环境中执行该动作。需要注意的是，在实时的无人机数据收集场景中，需不断重复该步骤，直至数据收集任务完成。

参见图2和图3所示，本申请实施例公开了一种具体的无人机收集数据的轨迹规划方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体包括：

步骤S21：建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题。

步骤S22：针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架。

步骤S23：对预设参数进行初始化以得到相应的初始值，并将所述初始值作为当前训练参数；其中，所述当前训练参数包括策略网络参数、评价网络参数和拉格朗日惩罚系数。

本实施例中，对预设参数进行初始化以得到相应的初始值，并作为当前训练参数，当前训练参数可以包括但不限于策略网络参数φ＝{φ_μ,φ_σ}、评价网络参数θ和拉格朗日惩罚系数λ₁、λ₂、α。φ_μ为策略网络函数的均值，φ_σ为策略网络函数的标准差，λ₁为对应第一代价函数的惩罚系数，λ₂为对应第二代价函数的惩罚系数，α代表熵正则项对应的惩罚系数。此外，还需对与环境状态特征对应的参数值进行初始化，w_m在区域内随机均匀生成，q(0)＝q₀，E(0)＝E₀，d_m(0)＝D_m。

步骤S24：获取当前时刻所述无人机与环境交互产生的当前训练样本数据，并将所述当前训练样本数据存储至经验回放池；其中，所述当前训练样本数据包括当前时刻的环境状态特征、动作决策变量和下一时刻的环境状态特征、奖励值和代价值。

本实施例中，获取当前时刻无人机与环境交互产生的当前训练样本数据，并将当前训练样本数据存储至经验回放池，其中，当前训练样本数据包括当前时刻的环境状态特征、动作决策变量和下一时刻的环境状态特征、奖励值和代价值。具体的，在数据收集任务过程中的每一时刻，无人机智能体与环境交互，无人机观测环境状态

包括：无人机自身当前的位置q(n)，传感器设备的位置

每个传感器所剩余的数据量

以及无人机所剩余的能量E(n)，这些状态的观测既可以通过无人机自身传感设备感知获得，也可以通过无人机与传感设备之间的交互获得；无人机智能体在环境中执行动作a_n＝(φ(n),||v(n)||)，即以||v(n)||速率朝着φ(n)方向飞行一个时隙，同时根据原场景所设定的通信策略调度用户进行数据收集；无人机智能体的动作会导致环境发生改变，使得环境转移到下一个状态s_n+1，与此同时环境会返回给智能体相应的奖励值与代价值；然后将当前时刻的环境状态特征、动作决策变量和下一时刻的环境状态特征、奖励值和代价值所组成的集合

作为训练样本数据储存在经验回放池

中。需要指出的是，如果环境进入终止状态，也即数据收集任务完成，则将从初始状态到终止状态所经历的所有样本记为一次片段，该片段的长度记为本次任务的完成时间N，同时随机产生新的设备位置，初始化其他环境参数，重置环境状态，开始下一个片段。

步骤S25：基于所述经验回放池中的训练样本数据对所述当前训练参数进行更新，以得到更新后的当前训练参数，并重新跳转至所述获取当前时刻所述无人机与环境交互产生的当前训练样本数据，直到满足预设循环结束条件，以得到最优策略网络。

本实施例中，先把当前训练样本数据存储到经验回放池，然后从经验回放池中采样一批次数据，作为算法的训练样本数据，然后利用训练样本数据对当前训练参数进行训练，以得到更新后的当前训练参数。接着重新跳转至所述获取当前时刻所述无人机与环境交互产生的当前训练样本数据，直到满足预设循环结束条件，以得到最终更新的当前策略网络参数，并基于该策略网络参数得到最优策略网络。需要指出的是，上述预设循环条件为当无人机获得的平均奖励值和平均代价值收敛。

本实施例中，上述基于所述经验回放池中的训练样本数据对所述当前训练参数进行更新，包括：在保持所述当前训练参数中的拉格朗日惩罚系数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的评价网络参数和策略网络参数进行更新；在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的拉格朗日惩罚系数进行更新。也即，先保持拉格朗日惩罚系数不变，从经验回放池中获取一个批次的数据作为训练样本数据对当前训练参数中的评价网络参数和策略网络参数进行更新；然后在保持更新后的当前训练参数中的评价网络参数和策略网络参数不变的情况下，从经验回放池中获取一个批次的数据作为训练样本数据对当前训练参数中的拉格朗日惩罚系数进行更新。需要指出的是，若样本回放池中的样本数量不足一个批次，则无人机智能体继续与环境交互，以存储更多的训练样本数据在经验回放池。

本实施例中，上述在保持所述当前训练参数中的拉格朗日惩罚系数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的评价网络参数和策略网络参数进行更新，包括：根据第一预设批量大小从所述经验回放池中获取第一样本；在保持所述当前训练参数中的策略网络参数和拉格朗日惩罚系数不变的情况下，基于所述第一样本并利用贝尔曼方程更新所述当前训练参数中的评价网络参数，以得到所述当前训练参数中的当前更新后的评价网络参数；在保持所述当前训练参数中的评价网络参数和拉格朗日惩罚系数不变的情况下，基于所述第一样本并利用策略梯度定理更新所述当前训练参数中的策略网络参数，以得到所述当前训练参数中的当前更新后的策略网络参数；获取当前时刻所述无人机与环境交互产生的当前训练样本数据，并将所述当前训练样本数据存储至所述经验回放池；重新跳转至所述根据第一预设批量大小从所述经验回放池中获取第一样本，直到达到预设的循环次数，以得到所述当前训练参数中的当前更新后的评价网络参数和策略网络参数。

也即，首先根据第一预设批量大小从经验回放池中取出一个批次的样本数据得到第一样本，在本实施例中，第一预设批量大小可以设为32，然后保持当前训练参数中的策略网络参数和拉格朗日惩罚系数不变，基于第一样本并利用贝尔曼方程更新当前训练参数中的评价网络参数θ；其中，评价网络参数的损失函数为：

式中，

根据由代价修正的贝尔曼方程得到，

定期从θ平均得到：

ρ代表平滑系数，在本实施例中，ρ＝0.995；

代表经验回放池。

然后利用梯度下降法，更新评价网络参数θ，在本实施例中，评价网络的学习率为0.0003，优化器为Adam优化器。

接着保持当前训练参数中的评价网络参数和拉格朗日惩罚系数不变，基于第一样本并利用与SAC算法对应的策略梯度定理更新策略网络参数φ，其中，策略网络参数的损失函数为：

同理，利用梯度下降法，更新策略网络参数φ，在本实施例中，策略网络的学习率为0.0003，优化器为Adam优化器。

重新执行获取当前时刻所述无人机与环境交互产生的当前训练样本数据，并将所述当前训练样本数据存储至所述经验回放池以及根据第一预设批量大小从所述经验回放池中获取第一样本的步骤，直到达到预设的循环次数，以得到所述当前训练参数中的当前更新后的评价网络参数和策略网络参数。

进一步的，上述在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述经验回放池中的训练样本数据对所述当前训练参数中的拉格朗日惩罚系数进行更新，包括：根据第二预设批量大小从所述经验回放池中获取第二样本；在保持所述当前训练参数中的评价网络参数和策略网络参数不变的情况下，基于所述第二样本并利用拉格朗日原始-对偶方法更新所述当前训练参数中的拉格朗日惩罚系数，以得到所述当前训练参数中的当前更新后的拉格朗日惩罚系数。也即，首先根据第二预设批量大小从经验回放池中取出一个批次的样本数据得到第二样本，本实施例中，第二预设批量大小可以设为4000，然后保持当前训练参数中的评价网络参数和策略网络参数不变，依据拉格朗日原始-对偶方法更新拉格朗日惩罚系数λ与α，其中拉格朗日惩罚系数的损失函数为：

利用梯度下降法，更新λ与α，在本实施例中，拉格朗日惩罚系数的学习率为0.0001，优化器为Adam优化器。

步骤S26：获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。

本实施例中，根据上述最终更新后的当前策略网络参数作为实时轨迹设计的策略网络参数，令为φ^*，

其中，

为均值，

为标准差。观测当前环境状态信息

无人机智能体将状态信息输入到策略网络中的均值网络

中，将网络的输出直接作为将要执行的动作a_n＝(φ(n),||v(n)||)，并在环境中执行动作a_n＝(φ(n),||v(n)||)，即以||v(n)||速率朝着φ(n)飞行一个时隙，同时根据所设定的通信策略调度用户进行数据收集。在实时的无人机数据收集场景中，需不断重复该步骤，直至数据收集任务完成。

其中，关于上述步骤S21和S22更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请实施例在无人机轨迹优化中引入了深度强化学习技术中的SAC算法与最优化技术中的拉格朗日原始-对偶更新方法，无人机在训练过程中不断与环境交互，收集当前时刻的环境状态特征、动作决策变量、下一时刻的环境状态特征、奖励值和代价值作为训练数据，通过SAC算法与拉格朗日原始-对偶算法对无人机的飞行决策过程进行学习，对策略网络参数的不断优化，最终赋予无人机在环境中实时自主决策的能力；此外，本申请中的技术方案不局限于单一环境状态，也即无人机能够针对任意环境布局设计相应轨迹。

为了验证本实施例的有效性，下面将结合仿真实验对本申请的效果做进一步说明。

除了本申请所提出的方法(以下记为CSAC算法)外，仿真实验中还采用了三种对比方法：1)基于二分搜索与连续凸近似(successive convex approximation，SCA)的优化算法；2)采用固定能量惩罚系数的SAC算法；3)PPO算法。所有深度强化学习相关的实验都参考了OpenAI的代码实施。

在仿真实验中，根据相关文献将无人机的飞行能量消耗建模为：

其中，W表示无人机的质量。另外，假设无人机与设备之间的无线信道由直射路径主导，那么时隙n的信道功率增益可以建模为：

其中，l_m＝||q(n)-w_m||表示设备m与无人机之间的欧式距离，ρ₀表示距离为1m时的信道增益。假设设备用于上传数据的发射功率恒定，此时可达通信传输速率可以计算为：

其中，B为划分给每个子信道的带宽，p_m表示发射功率，N₀为加性高斯白噪声的功率谱密度。为了确保可靠的传输，每个设备在上传数据时需要保证传输速率不低于某一阈值R_min，因此实际的传输速率为：

值得注意的是，这里所假设的所有模型均只用于仿真实验，在本申请的具体实施过程中，无人机智能体无需任何关于系统模型的先验知识。

一条片段相当于一次任务的完成。在每条片段中，IoT设备的位置都在一个2000m×2000m大小的区域内均匀产生。无人机的相关参数设置为：H＝100m，q₀＝[0,0,100]，W＝10kg，以及V_max＝10m/s。通信相关的参数设置为：B＝1MHz，ρ₀＝-50dB，p＝0.01dB，N₀＝-170dB，以及K＝1。设备的最小传输速率为R_min＝4.4×10⁶bits/s，这要求无人机在收集数据时位于距离设备200m的范围内。对于数据收集，本申请假设D_m＝1.5×10⁹bits，τ＝10s。除非特别说明，设备的数量为4，无人机在一次任务中的最大能量消耗为E_max＝10⁵J。

图4与图5与分别给出了无人机在两个片段的轨迹与速率示例，这里的结果均由本申请所提方法所得到的最终策略产生。可以看出，无人机首先飞往一个目标设备，在其通信覆盖区域徘徊，然后在收集完该区域的所有数据之后飞往下一个设备。最终，当所有数据被收集完之后，无人机会返回出发地，为下一次任务充电。尽管设备的位置在不同任务中会发生变化，无人机总能为不同的环境布局设计出一条合适的路径，这是因为所提方法具有一定的泛化能力。另外，从图5可以看出，无人机的速率会根据所剩余的能量以及与目标设备之间的相对距离不断进行调整。这样，每次任务都能够在能量消耗低于门限的条件下以最短时间完成。

图6至图8展示了本申请所提方法(CSAC)以及其他DRL算法在训练过程中的学习收敛情况。另外，基于优化的算法通过蒙特卡洛方法仿真了1000次，结果同样展示在了这几幅图中。从图6中可以看出，基于优化的算法以及其他DRL算法(包括本申请)均能够保证任务的成功完成，因为在收敛之后，无人机所收集到的数据总量与所有设备所包含的数据总量(6×10⁹bits)相同。与之相反的是，基于PPO的算法所训练出来的智能体只能够收集到数据总量的87.5％。此外，即便是在不考虑能量的情况下，PPO算法在任务完成时间这一目标上几乎没有取得任何性能增益。这里所展示出来的SAC相较PPO的性能优越性与SAC原文文献的结果一致。产生这一现象的主要原因是熵正则给SAC带来了更加强大的探索能力。

现在观察不同惩罚系数给不同SAC算法带来的影响。可以看出λ₂＝0与λ₂＝0.5的SAC算法分别能达到最小和第二小的任务完成时长，但是它们均破坏了能量约束条件。本申请所采提方法能够刚好满足约束条件，最终所需的平均任务完成时长几乎与基于优化的算法相同，只比最小任务完成时长多大概2个时隙。形成对比的是，λ₂＝1的SAC算法学习到了一个更为保守的策略，其智能体所消耗的能量远远低于门限值，因而导致了一个较大的平均任务完成时长。总结来说，较大惩罚系数的学习算法无法学习到最优的策略，而较小的系数则可能会导致破坏约束的行为。相反，本申请所提方法能够通过学习到一套最优的惩罚系数，在寻求最优解与满足约束条件之间达到一个完美的平衡。

图9对比了本申请所采用的方法(CSAC)与基于优化的算法在不同用户数不同能量约束下所能到达的平均任务完成时长。可以看出，当用户数分别为1和2时，所提方法在所有能量约束下的平均任务完成时长分别为32.5与64.5个时隙，只比基于优化的算法多大约2个时隙。当用户数增加到3时，本申请所提方法开始超过基于优化的算法。例如，当用户数为3，最大能量消耗约束为E_max＝1.6×10⁵时，所提方法的平均任务完成时长比基于优化的算法小超过10个时隙，并且这种性能优势在用户数与最大能量消耗变化时保持了一定的稳定性。这一结果表明本申请所提方法能够达到甚至超越基于优化算法所能达到的性能。

基于上述实施例，本申请针对单个无人机辅助的物联网数据收集系统，提供了一种能量约束下使得任务完成时间最短的实时无人机轨迹优化方法。本申请首先根据原问题构建了受限马尔科夫约束过程。随后，所提方法能够通过轮流更新原始域策略网络参数与对偶域拉格朗日惩罚系数，最终使得无人机智能体学习到一个适应性的策略，该策略可以在不同设备位置布局下实时产生最优的轨迹。仿真结果表明本申请所提方法在平均任务完成时长与计算复杂度方面相对传统优化算法以及其他深度强化学习算法均有所提升，具有较大的现实意义。

参见图10所示，本申请实施例公开了一种无人机收集数据的轨迹规划装置，该装置包括：

问题构建模块11，用于建立用于针对无人机从若干数量个物联网设备中收集数据的问题模型，并基于所述问题模型构建约束马尔科夫决策问题；

框架搭建模块12，用于针对所述约束马尔科夫决策问题搭建基于SAC算法的深度强化学习框架；

训练模块13，用于对所述无人机进行训练以得到最优策略网络；

轨迹规划模块14，用于获取当前环境状态特征，并将所述当前环境状态特征输入至所述最优策略网络以得到所述无人机的当前待执行动作。

图11为本申请实施例提供的一种电子设备的结构示意图。具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的由电子设备执行的无人机收集数据的轨迹规划方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的无人机收集数据的轨迹规划方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请实施例还公开了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的由无人机收集数据的轨迹规划过程中执行的方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种无人机收集数据的轨迹规划方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。