CN116471694A

CN116471694A - 一种无线通信系统的调度控制方法及装置

Info

Publication number: CN116471694A
Application number: CN202211393207.0A
Authority: CN
Inventors: 罗霄凌; 曾春年; 徐晶; 张梦禾; 李成涛; 韩月琪
Original assignee: Huazhong University of Science and Technology; China Three Gorges Corp
Current assignee: Huazhong University of Science and Technology; China Three Gorges Corp
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-07-21

Abstract

本发明提供一种无线通信系统的调度控制方法及装置，包括：通过联合优化UAV的轨迹和GU的访问控制策略来最小化整体能耗。通过MADDPG算法来解决联合访问控制和轨迹规划的问题。影响无线通信网络数据传输能耗的主要因素是UAV的访问策略、轨迹规划以及信道条件。在GU能量多的情况下，访问控制策略可选择有源传输模式；但是在GU能量较少的情况下，可选择无源传输模式。本发明对实际情况考虑得更加全面，通过对UAV访问控制和轨迹规划策略的联合优化，提出的MADDPG传输方案，使得系统在有限信道条件下也能达到最大化能效。经过仿真验证，与基准方案相比，本发明提出的方案在性能上均获得最佳的表现。

Description

一种无线通信系统的调度控制方法及装置

技术领域

本发明属于无线通信领域，更具体地，涉及一种无线通信系统的调度控制方法及装置。

背景技术

随着无人机(Unmanned aerial vehicle,UAV)在物联网(Internet of Things,IoT)中的普及，它为物联网用户或传感器建立了数据采集通道，是未来物联网不可或缺的一部分。由于地面用户(Ground user,GU)的移动性和有限的能量存储，GU和基站(Basestation,BS)之间的直接连接通常很困难。因此UAV在协助数据收集和从GU到BS的传输方面发挥着重要作用。它可以用作转发中继节点，以协助GU超出通信服务范围的数据传输。然而，由于分布式优化的高度复杂性，缺乏集中协调以及网络环境的未知动态，UAV的轨迹和传输策略的联合控制仍然存在一些局限性。

目前研究的UAV辅助的实时无线通信系统中，为了利用其性能增益，轨迹规划是最有益的设计问题之一，它可以利用UAV的移动性并动态重塑网络结构以支持数据传输。通过使用动态规划设计UAV的轨迹，不仅可以降低总能耗，而且能以低复杂度接近穷举算法的性能。还有很多现有的工作考虑了多UAV辅助网络。通过规划多架UAV的飞行轨迹，物联网用户上传的数据显着增加。此外，通过联合优化带宽、功率分配和UAV的轨迹，探索了多UAV辅助应急通信。特别是每架UAV可以先收集和缓存用户数据，然后在飞行过程中相遇时将数据转发给下一架UAV。不同GU之间的协调也是高效数据收集和传输的关键设计问题。由于UAV在不同位置的覆盖范围存在差异，因此必须在不同UAV之间巧妙地划分GU，以在干扰和网络覆盖之间进行权衡。

但当UAV对GU进行访问控制时，UAV与GU之间的数据调度和能量传输受到环境的极大干扰。由于时变的信道条件，很难保持数据传输的稳定性。目前关于UAV辅助网络的发明大多数考虑了UAV与UAV之间的链路切换以及如何优化UAV的轨迹，而忽略了GU与UAV之间访问控制策略的重要性。UAV也可以作为一些能量匮乏的GU的能量供应商，通过射频信号为GU提供能量。具有无线电力传输和低功耗的特点。当UAV作为能量发射器，GU是能量供应有限的低功耗传感器设备时，通过在感知时隙内选择数据传输模式以及能量收集，从而控制消耗的能量，这个问题是困难的。本发明旨在解决UAV与GU之间访问控制策略问题，这是一个高维控制问题。

其次，大多数发明只考虑根据规划UAV的轨迹来收集GU数据并完成数据调度，并没有将UAV轨迹规划和访问控制策略联合考虑。在动态环境中，GU-UAV访问控制策略的高效性不仅与UAV的飞行轨迹有关，还与何时选择将数据上报至BS有关。要联合考虑规划UAV飞行轨迹，并在UAV有限的覆盖GU时间内，根据动态环境和自身状态来切换不同的传输模式进行数据上传，这是一个复杂的联合优化问题，现有技术没有将访问控制策略与UAV轨迹规划结合，无法对UAV轨迹进行联合优化问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种无线通信系统的调度控制方法及装置，旨在解决现有技术没有将UAV轨迹规划和UAV访问控制GU的策略联合考虑的问题。

为实现上述目的，第一方面，本发明提供了一种无线通信系统的调度控制方法，所述方法应用于无人机辅助的无线通信系统，所述系统包括：一个基站BS、多架无人机UAV及多个地面用户GU；所述方法包括如下步骤：

确定无线通信系统的能源效率；所述能源效率为BS接收的总数据量与无线通信系统消耗总能量在UAV整个飞行时段内的平均比率；

确定无线通信系统的约束条件；所述约束条件包括：任意时隙任意两架UAV之间的距离大于预设最小间距、每个GU在一个时隙只访问一架UAV、每个时隙只有一架UAV向BS上报数据、GU访问UAV的方式为无源反向散射通信或有源射频通信中的一种、每个GU每个时隙的能量预算约束以及UAV向BS上报的数据量由其与BS之间的距离及信道条件决定；

确定组合优化问题；所述组合优化问题用于基于所述约束条件对无线通信系统的调度策略进行设计以使得所述能源效率最大化；所述调度策略包括：各个GU的传输控制策略、各架UAV飞行轨迹以及各架UAV的传输调度策略；

将所述组合优化问题定义为马尔科夫决策过程MDP；其中，MDP的总奖励包括所有UAV的长期奖励，每个UAV的长期奖励包括其整个飞行时段内每一步决策下的自我奖励，所述自我奖励包括：目标函数奖励、引导奖励及惩罚项；若有GU向UAV上传数据，则UAV获得引导奖励，当GU的能量不满足其传输控制策略要求时，引导奖励的值为0，若任意两架无人机的距离小于预设最小距离，则UAV获得惩罚项，若有UAV将数据成功上报至BS，则UAV获得目标函数奖励；

求解所述MDP得到能源效率最大时所述无线通信系统的调度策略。

在一个可能的示例中，所述UAV的每个时隙t包括：飞行子时隙、感知子时隙以及上报子时隙，三个子时隙长度分别为τ_f，τ_s，τ_d；

所述约束条件包括：

||l_i(t+1)-l_i(t)||≤υ_maxτ_f，

d_i，j(t)≥d_min，

其中，υ_maxτ_f表示最大飞行距离，d_min表示预设最小间距，υ_max表示最大飞行速度，d_i，j(t)表示t时隙第i架UAV和第j架UAV之间的距离，第i架UAV和第j架UAV之间的距离，l_i(t)表示t时隙第i架UAV的位置，l_i(t+1)表示t+1时隙第i架UAV的位置，i≠j。

在一个可选的示例中，所述约束条件还包括：

其中，x_m，i(t)∈{0，1}表示第t个时隙内第m个GU对第i架UAV的访问控制策略，x_m，i(t)为0表示GU不接入UAV，x_m，i(t)为1表示GU接入UAV，表示第i架UAV覆盖范围内所有GU的集合，N表示UAV总架数。

在一个可选的示例中，所述约束条件还包括：

有源射频通信方式的数据上传速率为：

其中，τ_z为分配给被允许接入控制GU的子时隙，p_m(t)表示第m个GU在第t个时隙的发射功率，h_m，i表示第i架UAV和第m个GU的信道系数，h_m，i由UAV与GU之间可视距下的信道系数和非视距下的信道系数组成；

无源反向散射通信方式的数据上传速率为：

其中，p_A表示固定发射功率，Γ_o是天线的常数系数；

令z_m(t)∈{0，1}表示第m个GU在第t时隙的传输控制策略，当z_m(t)＝0时第m个GU将选择无源反向散射通信方式，当z_m(t)＝1时第m个GU选择有源射频通信方式。

在一个可选的示例中，为避免UAV之间的调度干扰，所述约束条件还包括：

其中，y_i(t)∈{0，1}表示时隙t第i架UAV的传输调度策略，其中，y_i(t)＝1表示UAV在时隙t向BS上报数据；

当y_i(t)＝1时：

O_i(t)＝τ_dlog(1+p_i，r(t)||g_i||²)

其中，O_i(t)表示第i架UAV向BS上报的数据量，p_i，r(t)表示第i架UAV用于信息转发的发射功率，g_i表示UAV与BS之间的信道条件。

在一个可选的示例中，所述约束条件还包括：

当x_m，i＝1时，令表示第m个GU在第t时隙中收集的能量；

每个时间段第m个GU需要满足以下能量预算约束：

其中，E_m(t)表示第m个GU第t个时隙开始时的能量状态，是第m个GU最大电池容量，z_n(t)表示第n个GU在第t时隙的传输控制策略，p_m(t)表示第m个GU在第t个时隙的发射功率。

在一个可选的示例中，所述无线通信系统的能源效率为：

其中，Ξ表示能源效率，表示UAV时隙长度，O_i(t)表示第i架UAV向BS上报的数据量，y_i(t)表示某时隙第i架UAV是否计划向BS上报数据，e_i，o(t)表示UAV的运行能耗，e_i，s(t)表示UAV的感知能耗，e_i，r(t)表示UAV的上报能耗；

所述UAV的感知能耗e_i，s(t)及UAV的上报能耗e_i，r(t)具体为：

e_i，r(t)＝y_i(t)p_i，r(t)τ_d

其中，表示被第i架UAV允许接入控制的GU集合，

在一个可选的示例中，将所述组合优化问题定义为MDP，具体为：

将各个时隙中的无线通信系统状态表示为：s_t＝(s₁(t)，s₂(t)，...，s_N(t))；其中，s_i(t)表示第i架UAV所观测到的系统状态信息；s_i(t)＝(χ_i，ψ_i)，其中，χ_i＝(E_i，ζ_m，Q_i)表示UAV和GU的能量存储和数据缓冲，E_i表示UAV和覆盖GU的能量队列的集合，(ζ_m，Q_i)是所有数据缓冲区的集合；ψ_i＝(h_i，g_i)表示网络中的通道条件，h_i是第i架UAV与被允许接入第i架UAV的所有GU之间的信道系数集合，表示为/>

将所有UAV的动作表示为a_t＝(a₁(t)，a₂(t)，...，a_N(t))，其中，动作表示GU的传输控制策略，/>表示GU对UAV的访问控制策略，y_i＝[y_i(t)]表示UAV的调度策略，/>表示UAV的飞行轨迹；

第i架UAV的自我奖励r_i(t)如下：

其中，γ和η都是可调参数，s_m，i(t)表示在子时隙τ_z期间从第m个GU上传到第i架UAV的传感数据的大小，r_p(t)为避免不同无人机之间的干扰和碰撞的最小距离指标；表示引导奖励，目标函数奖励表示为表示惩罚项，I(·)表示指示函数；

第i架UAV在整个时段内的长期奖励/> 是折扣因子；

所述总奖励

第二方面，本发明提供了一种无线通信系统的调度控制装置，所述装置应用于无人机辅助的无线通信系统，所述系统包括：一个基站BS、多架无人机UAV及多个地面用户GU；所述装置包括：

能源效率确定单元，用于确定无线通信系统的能源效率；所述能源效率为BS接收的总数据量与无线通信系统消耗总能量在UAV整个飞行时段内的平均比率；

约束条件确定单元，用于确定无线通信系统的约束条件；所述约束条件包括：任意时隙任意两架UAV之间的距离大于预设最小间距、每个GU在一个时隙只访问一架UAV、每个时隙只有一架UAV向BS上报数据、GU访问UAV的方式为无源反向散射通信或有源射频通信中的一种、每个GU每个时隙的能量预算约束以及UAV向BS上报的数据量由其与BS之间的距离及信道条件决定；

优化问题确定单元，用于确定组合优化问题；所述组合优化问题用于基于所述约束条件对无线通信系统的调度策略进行设计以使得所述能源效率最大化；所述调度策略包括：各个GU的传输控制策略、各架UAV飞行轨迹以及各架UAV的传输调度策略；

MDP定义单元，用于将所述组合优化问题定义为马尔科夫决策过程MDP；其中，MDP的总奖励包括所有UAV的长期奖励，每个UAV的长期奖励包括其整个飞行时段内每一步决策下的自我奖励，所述自我奖励包括：目标函数奖励、引导奖励及惩罚项；若有GU向UAV上传数据，则UAV获得引导奖励，当GU的能量不满足其传输控制策略要求时，引导奖励的值为0，若任意两架无人机的距离小于预设最小距离，则UAV获得惩罚项，若有UAV将数据成功上报至BS，则UAV获得目标函数奖励；

调度求解单元，用于求解所述MDP得到能源效率最大时所述无线通信系统的调度策略。

第三方面，本发明提供了一种无线通信系统的调度控制装置，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述第一方面提供的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种无线通信系统的调度控制方法及装置，对实际情况考虑得更加全面，为联合优化UAV的轨迹规划和访问控制策略，采用多智能体强化学习(Multi-AgentDeep Deterministic Policy Gradient,MADDPG)传输方案，使得系统在有限信道条件下也能达到最大化能效。经过仿真验证，与基准方案相比，本发明提出的方案在性能上均获得最佳的表现。

附图说明

图1是本发明实施例提供的无线通信系统的调度控制方法流程图；

图2是本发明实施例提供的多UAV辅助的无线通信系统架构图；

图3是本发明实施例提供的每架UAV工作过程的时隙结构图；

图4是本发明实施例提供的训练过程奖励值收敛图和飞行轨迹评估图；

图5是本发明实施例提供的单独DDPG算法下GU和UAV的剩余数据量对比图；

图6是本发明实施例提供的采用MADDPG算法下GU和UAV的剩余数据量对比图；

图7是本发明实施例提供的无线通信系统的调度控制装置架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

本发明可以提升无线通信网络的服务范围。由于地面用户GU的任务需求具有很强的随机性，并且时变环境会造成数据传输的障碍。为缓解数据链路通信的压力和提高传输过程的稳定，有必要提高网络的覆盖面积和网络的灵活性。因此，无人机UAV辅助计算网络这一概念被提出。由于UAV具有灵活飞行的特性，可以对突发任务需求、应急场景和智慧交通等区域进行临时的网络部署和信息采集。

本发明将多UAV的轨迹规划和访问控制表述为一个联合优化问题。由于该问题变量多、复杂度高，传统优化算法求解该问题需要消耗大量的计算时间，表现性能不佳。本发明旨在通过多智能体深度强化学习(DRL)方法解决了这个问题，考虑到一个动态网络环境，其中包含有多个GU的空间分布和交通需求的某些信息。仿真结果表明，UAV的轨迹规划与访问控制可以显着提高无人机的能量转换效率。

本发明考虑一个结合UAV和GU之间的轨迹规划和访问控制优化的问题。本发明的目标是通过联合优化UAV的轨迹和GU的访问控制策略来最小化整体能耗。为了保证满意的服务覆盖，不同的UAV可以协商轨迹规划，使它们不会在同一区域发生碰撞。因此，根据GU的空间分布及其交通需求，UAV的轨迹可能有自己的服务区域。负责采集任务较多的区域的UAV需要通过飞行接近基站并向基站上报数据。本发明通过MADDPG算法来解决联合访问控制和轨迹规划的问题。

图1是本发明实施例提供的无线通信系统的调度控制方法流程图；如图1所示，包括如下步骤：

S101，确定无线通信系统的能源效率；所述能源效率为BS接收的总数据量与无线通信系统消耗总能量在UAV整个飞行时段内的平均比率；

S102，确定无线通信系统的约束条件；所述约束条件包括：任意时隙任意两架UAV之间的距离大于预设最小间距、每个GU在一个时隙只访问一架UAV、每个时隙只有一架UAV向BS上报数据、GU访问UAV的方式为无源反向散射通信或有源射频通信中的一种、每个GU每个时隙的能量预算约束以及UAV向BS上报的数据量由其与BS之间的距离及信道条件决定；

S103，确定组合优化问题；所述组合优化问题用于基于所述约束条件对无线通信系统的调度策略进行设计以使得所述能源效率最大化；所述调度策略包括：各个GU的传输控制策略、各架UAV飞行轨迹以及各架UAV的传输调度策略；

S104，将所述组合优化问题定义为马尔科夫决策过程MDP；其中，MDP的总奖励包括所有UAV的长期奖励，每个UAV的长期奖励包括其整个飞行时段内每一步决策下的自我奖励，所述自我奖励包括：目标函数奖励、引导奖励及惩罚项；若有GU向UAV上传数据，则UAV获得引导奖励，当GU的能量不满足其传输控制策略要求时，引导奖励的值为0，若任意两架无人机的距离小于预设最小距离，则UAV获得惩罚项，若有UAV将数据成功上报至BS，则UAV获得目标函数奖励；

S105，求解所述MDP得到能源效率最大时所述无线通信系统的调度策略。

具体地，本发明考虑一个由BS，多架UAV和GU组成的UAV辅助无线网络系统。首先将UAV的索引表示为GU的索引表示为/>假设GU在空间分布上超出与BS的直接通信范围，因此GU和BS之间没有直接链路。UAV可以接收GU的传感数据，并作为中继将采集到的数据转发给BS。每个GU都可以从UAV的波束赋形信号中收集射频能量，为其电池充电并维持其运行，例如数据传输或处理。每个GU的工作负载都可以通过有源射频(Radio frequency,RF)或无源通信传输至UAV。每个信道被认为是频率平坦的块衰落，即信道系数在一个时间帧内是恒定的，并且可能逐帧变化。考虑到一个动态网络环境，其中包含GU空间分布和交通需求的某些信息。本发明采用MADDPG算法来解决联合访问控制和轨迹规划问题。仿真结果表明，联合轨迹优化和访问控制策略可以更好地利用多架UAV进行数据协同传输，同时显着提高系统的传输能效。

由于信道容量有限或信道质量差，BS不能直接与GUs(多个地面用户)进行通信。本方案的目标旨在通过优化UAV的轨迹来提高其数据收集和传输的效率。每架UAV有自己负责的采集区域，相互协调且互不干扰。同时UAV还可以优化其访问控制策略，从而降低与GU进行数据传输的能耗并提高数据吞吐量。

本发明先对各层所需解决的优化问题进行数学建模，然后推导出本发明的算法设计。具体如下：

本发明考虑一个无人机辅助无线网络，其中一个BS、多架UAV和GU在空间上分布在UAV的覆盖范围内，如图2所示。UAV的集合表示为所有GU的集合表示为本发明假设由于地面周围物体的阻碍，所有GU和BS之间没有直接链路联系。UAV可以在GU上方飞行，收集GU的传感数据，并将数据信息转发给BS。每个GU都可以从无人机的RF波束成形信号中收集能量，为其电池充电并维持其主动操作，例如数据传感、传输和本地处理。每个GU的传感数据可以通过有源射频通信或无源反向散射通信上传到相关的无人机，具体取决于其能量状态、信道条件和交通需求。UAV收集GU的感知信息后，将信息转发给BS。

本发明假设UAV的轨迹规划是在时隙框架结构中实现的。每个时隙具有固定长度τ。它进一步分为三个子槽，分别用于飞行、感知和报告，如图3所示。在飞行子时隙τ_f期间，UAV可以在感知和报告子时隙期间飞到优选位置并悬停在该位置。在传感时隙τ_s中，考虑使用时分协议来收集所有GU的传感信息。特别是，每个被授予访问权的GU将被分配一个小时隙τ_z。所有GU都可以通过有源或无源通信将其信息一一上传到UAV。此外，每个GU都可以在其他GU主动传输时收集射频能量。第三个子时隙τ_d用于UAV向BS报告其信息。本发明假设UAV-GU和UAV-BS通道系数在每个时隙中是恒定的，并且可能随着UAV适应轨迹而改变。

每架UAV-i的轨迹可以定义为不同时隙上的一组位置，即每个位置由3维坐标指定，即l_i(t)＝(x_i(t)，y_i(t)，z_i(t))。让H_B表示BS天线的高度，本发明可以假设BS的位置为l₀(t)＝(0，0，H_B)。令d_i，0表示UAV-i和BS之间的距离。假设UAV-i以有限的速度υ_i(t)≤υ_max向d_i(t)方向移动。因此，UAV-i在下一个时隙的位置为l_i(t+1)＝l_i(t)+υ_i(t)τ_fd_i(t)，这与飞行子时隙τ_f、飞行速度υ_i(t)和方向d_i(t)。为避免不同UAV之间的干扰并保证不同UAV之间的安全，UAV-i和UAV-j之间的距离，即d_i，j(t)＝||l_i(t)-l_j(t)||，约束如下：

||l_i(t+1)-l_i(t)||≤υ_maxτ_f，

d_i，j(t)≥d_min， (1)

其中，l_j(t)表示t时隙第j架UAV的位置，υ_maxτ_f表示最大飞行距离，d_min表示UAV之间的最小距离，以确保安全。

鉴于无人机在感知时隙τ_s中的悬停位置，同一无人机的覆盖范围内可能存在多个GU。请注意，某些GU的信道条件可能较差，因此信息上传的数据速率可能较低。这意味着无人机必须设计访问控制策略以提高向无人机上传信息的能源效率。令表示UAV-i覆盖范围内所有GU的集合。令/>表示允许将传感信息上传到UAV-i的用户集合。由于能量不足或不理想的信道条件，左侧用户可能会选择在当前时隙中保留他们的信息上传。当其他UAV回来时，他们可以在稍后的时间段恢复信息传输。令x_m，i(t)＝{0，1}表示第t个时隙内GU-m对UAV-i的访问控制策略。那么，可以得到/>本发明进一步要求/>以确保GU-m在每个时隙内只能访问一架无人机。

对于集合中的所有GU-m，考虑为它们采用时分协议上传数据。感应时隙的长度τ_s可以进一步分为长是/>的小时隙。每个小时隙可用于射频有源传输或反向散射无源传输。对于有源射频传输，UAV-i的接收信号可以表示为/>其中p_m表示GU-m的发射功率，/>是信息符号单位功率，v₀表示噪声信号。h_m，i(t)表示当前时隙第i架UAV和第m个GU的信道系数。本发明考虑由视距(LOS)和非视距(NLOS)组件组成的现实信道模型。信道系数可被建模为/>其中ψ_m，i(t)＝ω₀(d_m，i(t))^-α表示大尺度衰落，而小尺度衰落的特征如下；

第一项表示LOS分量，第二项/>表示NLOS分量。Rician因子K为LOS和NLOS分量设置不同的权重。类似地，本发明可以将g_i(t)定义为从多天线UAV-i到BS的信道向量。

因此，有源射频传输中的上传速率可以简化为：

本发明假设一个归一化的噪声功率。在无源数据上传中，GU-m依靠UAV-i发射的射频信号来反向散射信息。令表示UAV-i在第t个小时隙中的信号波束形成，其中w_m，i表示UAV-i对GU-m的归一化波束形成向量p_A表示固定发射功率，s是具有单位功率的随机符号。在GU-m的反向散射之后，无源上传的数据速率可以近似为：

其中Γ_o是天线特定的常数系数。为简单起见，类似于有源传输公式，本发明假设UAV-i在检测GU-m的信息时采用最大比率组合(MRC)方案，因此本发明有w_m，i＝h_m，i/||h_m，i||，然后令z_m(t)∈{0，1}表示GU-m在第t时隙的传输控制策略。当z_m(t)＝0时GU-m将选择反向散射通信，当z_m(t)＝1时选择RF主动通信。

在每个时隙，无人机可以从GU收集数据，然后将数据报告给BS。为了避免无人机之间的干扰，本发明使用二进制变量y_i(t)∈{0，1}来指示UAV-i是否计划向BS报告其数据。本发明进一步要求以确保每个时隙内只有一架无人机可以向BS报告。因此，本发明可以预期每架无人机的数据缓冲区会随着时间的推移而动态更新。令s_m，i(t)表示在子时隙τ_z期间从GU-m上传到UAV-i的传感数据的大小。给定GU-m的传输控制策略z_m(t)，本发明有令A_m(t)表示在第t时隙开始时到达GU-m的传感数据的大小。对于每个GU-m，本发明假设A_m(t)∈[A_m，min，A_m，max]是独立同分布的，其平均值为λ_m。

令(ζ_m(t)，Q_i(t))分别表示GU-m和UAV-i的缓冲区中剩余数据的大小。因此，本发明可以更新数据队列如下：

其中[X]⁺表示最大操作，即max{0,X}。指标y_i(t)表示UAV-i是否向BS上报数据，O_i(t)是上报的数据量。当y_i(t)＝1时：

O_i(t)＝τ_dlog(1+p_i，r(t)||g_i||²) (6)

其中p_i，r(t)表示UAV-i用于信息转发的发射功率。很明显，O_i(t)取决于UAV-i和BS之间的距离d_i，0和信道条件g_i。

本发明旨在通过联合优化无人机的轨迹、访问控制和传输调度策略以及GU的传输策略，最大限度地提高无人机辅助传感网络的能源效率。

每个时隙的总能耗包括无人机在飞行和悬停时的运行能耗、无人机在感知和报告时的射频能耗。为简单起见，本发明假设无人机的运行能耗e_i，o(t)是一个常数，取决于飞行和悬停的总时间长度。无人机感知e_i，s(t)的能量消耗取决于所有GU通过反向散射通信上传信息的不同子时隙中的信号波束形成。给定固定的波束赋形功率p_A，RF能量消耗e_i，s(t)与GU的传输策略有关，即其中τ_z是每个子时隙的固定长度。无人机在报告时的能耗e_i，r(t)＝y_i(t)p_i，r(t)τ_d可以简单地建模为传输时间τ_d的线性函数和y_i(t)＝1时的发射功率p_i，r(t)。

当GU-m与UAV-i相关联时，即x_m，i＝1，其有源射频通信依赖于UAV-i的能量收集。令表示GU-m在第t时隙中收集的能量。考虑线性能量收集模型，收集的能量/>可以估计如下：

其中μ是能量转换效率。当其他一些GU-n将其信息反向散射到UAV-i，即z_n(t)＝0时，GU-m可以从UAV-i获取射频功率s信号波束形成因此，对于每个时间段的GU-m，本发明有以下能量预算约束：

其中E_m(t)表示第t个时隙开始时的能量状态，是最大电池容量。

本发明可以将能源效率Ξ定义为BS接收的总吞吐量与无人机能源消耗之间的时间平均比率：

很明显，能源效率取决于GU的访问和传输控制策略，以及UAV的轨迹规划和调度策略。令表示GU的传输控制策略。令/>表示GU的关联和访问控制策略。令/>和/>分别表示无人机的轨迹规划和传输调度策略。至此，本发明可以将能源效率最大化问题表述如下：

本发明的目标是优化轨迹访问策略x和报告调度y。本发明还优化了GU的传输模式z，这与无人机在不同时隙的访问控制策略有关。为简单起见，本发明可以在本发明中考虑一个固定的波束形成策略，即每个GU收集的能量的数量仅取决于信道条件。

(1)中的不等式限制了无人机之间的最小干扰范围。(2)和(3)中的等式表示UAV和GU之间的混合上传模式。(4)-(6)中的约束是UAV和GU中数据缓冲区的动态。(7)和(8)中的约束确保能量在一定范围内可控。实际上，无人机的悬停功耗e_i，o(t)远大于感知功率e_i，s(t)和报告功率e_i，r(t)。因此，感知和报告的功耗可以忽略不计。GU的不同传输策略会显着影响无人机的轨迹规划和访问控制。因此，同时考虑无人机的控制和GU的策略，很难提高系统的能量转换效率。另一个难点是无人机应该在避免干扰的前提下上报信息，这也会影响目标函数。

问题(9a)是一个困难的组合优化问题。为了简化这个问题，本发明将(9a)重新定义为马尔可夫决策过程(MDP)，它根据观察和过去的经验共同决定无人机的策略和GU的传输模式。然后，本发明描述了这个多无人机辅助网络中设计的状态、动作和奖励。考虑到重构的MDP问题有多个智能体，每个智能体需要求解连续变量和离散变量的组合，本发明利用多智能体DRL算法来解决它。多智能体DRL在多个智能体交互的环境中结合了深度神经网络(DNN)和强化学习(RL)。它可以有效地协调智能体之间状态空间大和动作变量随时间动态变化的问题。

多智能体强化学习(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)近似为多个单代理DDPG代理并行运行的组合，即集中式训练和分散式执行方案。一旦BS为UAV分配了估计动作，每架UAV就会以分散的方式更新自己的动作。因此，经过训练的actor-和critic-网络可以应用于每个无人机的执行过程。

本发明首先将时隙中的状态表示为s_t＝(s₁(t)，s₂(t)，...，s_N(t))。每个时隙中的系统状态s_t包括所有无人机在网络中的观察。每架无人机的观测包括能量存储、数据缓冲区和通道条件。UAV和GU的能量存储和数据缓冲为χ_i＝(E_i，ξ_m，Q_i)，其中E_i是UAV和覆盖GU的能量队列的集合，(ζ_m，Q_i)是所有数据缓冲区的集合。然后，网络中的通道条件表示为ψ_i＝(h_i，g_i)。因此，本发明将系统状态整数化为s_i(t)＝(χ_i，ψ_i)。在本发明中，本发明假设所有状态都可以在感应槽开始时测量。

接下来，本发明将所有无人机的动作表示为a_t＝(a₁(t)，a₂(t)，...，a_N(t))。动作包括GU传输模式策略/>无人机的访问控制调度策略y_i＝[y_i(t)]和轨迹/>

最后，本发明可以将UAV-i的长期奖励表示为其中/>是一个贴现因子/>由于无人机向BS上报信息的过程需要在无人机感知到一定数量的GU数据的前提下进行。因此，将目标函数设置为奖励是稀疏的。由于目标函数的稀疏性，本发明引入了一种引导奖励机制。

如果GU向无人机上传数据，系统将获得引导奖励。为了避免不同无人机之间的干扰和碰撞，本发明增加了一个惩罚项中的奖励，其中I(·)是一个指示函数。本发明假设当GU的能量不满足于其动作决策的要求时，奖励值为0。因此，在满足能量队列约束的情况下，定义UAV-i的自我奖励如下：

其中γ和η是一个可调参数。本发明的目标是选择一个最佳行动来最大化长期回报。表示引导奖励，目标函数奖励表示为表示惩罚项。

因此，MDP总奖励

另外，为评估所提出算法的性能增益，本发明考虑具有一个BS、2架UAV和6个GU的无线传感网系统。为简单直观起见，本发明将x和y坐标缩放到[-1,1]范围内，假设6个GU在BS服务范围外随机分布，因此BS和GU之间没有直接的链路通道。UAV从随机的起始位置出发。更详细的参数列于表1。

表1：数值仿真中的参数设置

参数	设置
		每回合训练周期	30
路径损耗系数	2
		GU的数据大小范围	[5,15]M bits
UAV的最大飞行速度	25m/s
		贪婪参数	0.05
Actor网络学习率	10^-3
		Critic网络学习率	10^-4
噪声功率	-90dBm
		GU的初始数据队列	[5,10]M bits

本发明在图4中评估了轨迹优化算法的性能。图4中(a)和(b)分别显示了训练过程中奖励值函数和训练后测试UAV的飞行轨迹。从图4中(a)可以看出，本发明的训练奖励值是递增的并最终逐渐收敛，可以验证该算法在训练学习过程中的有效性。在测试UAV的飞行轨迹方面，两架UAV分别从一个随机起点起飞，并根据集中式训练、分布式执行的策略沿其轨迹从GU收集数据，如图4中(b)所示。可以看出，UAV分工合作，有自己的服务区域，相互之间不会发生冲突干扰。

需要说明的是，本发明可以采用单独DDPG算法或MADDPG算法求解所述MDP，得到通信系统的调度策略，经实验对比，采用MADDPG算法求解得到的调度策略可以使系统的能效更高，具体对比分析如下所示：

本发明在图5中评估了单独DDPG算法求解MDP获得系统访问控制策略的优化性能，图5中(a)表示所有GU剩余的数据量随时隙变化示意图，(b)表示UAV剩余数据量随时隙变化示意图。在确定覆盖GUs后，UAV需要根据每个GU的具体状态，为其分配感知策略，从而最大化系统的能效。

本发明根据观测GU和UAV的数据存储量来评估本文算法的性能增益。本发明将所提出的方法与非合作DDPG方案进行比较。如图6所示，图6中(a)表示所有GU剩余数据量随时隙变化示意图，(b)表示UAV剩余数据量随时隙变化示意图。为便于仿真观测，我们考虑当所有GU数据被UAV采集完并且传输至BS时，所有GU再生成新的数据量。与图5中的单独DDPG策略相比，本发明应用的MADDPG算法可以在相同时段内传输更多的数据量，因此采用本发明方法给出调度控制策略使得系统具有更高的能效，同时也能根据不同GU的任务量和位置情况设计访问控制策略并将任务及时上报至BS。

本发明所提出的UAV自适应飞行和采集方案可以优化物联网新兴应用性能，提升服务质量(降低时延、减小能耗)，扩宽物联网技术应用范围。针对多UAV辅助无线通信网络系统提出的多UAV优化目标：本发明的目标是通过联合优化多UAV的访问策略和飞行轨迹控制，使得系统的能效最大化。本发明采用MADDPG算法将原始随机优化问题通过训练，得出模型的最优解，综合考虑了模型中的环境因素影响和调度策略，体现了方案的合理性，保证了系统的高效运行。

影响无线通信网络数据传输能耗的主要因素是UAV的访问策略、轨迹规划以及信道条件。在GU能量多的情况下，访问控制策略为GU分配更多的有源传输时隙。但是在GU能量较少的情况下，为GU分配更多的无缘传输时隙就变得尤为重要。本发明对实际情况考虑得更加全面，通过对UAV访问控制和轨迹规划策略的联合优化，提出的MADDPG传输方案，使得系统在有限信道条件下也能达到最大化能效。经过仿真验证，与基准方案相比，本发明提出的方案在性能上均获得最佳的表现。

图7是本发明实施例提供的无线通信系统的调度控制装置架构图，如图7所示，包括：

能源效率确定单元710，用于确定无线通信系统的能源效率；所述能源效率为BS接收的总数据量与无线通信系统消耗总能量在UAV整个飞行时段内的平均比率；

约束条件确定单元720，用于确定无线通信系统的约束条件；所述约束条件包括：任意时隙任意两架UAV之间的距离大于预设最小间距、每个GU在一个时隙只访问一架UAV、每个时隙只有一架UAV向BS上报数据、GU访问UAV的方式为无源反向散射通信或有源射频主动通信中的一种、每个GU每个时隙的能量预算约束以及UAV向BS上报的数据量由其与BS之间的距离及信道条件决定；

优化问题确定单元730，用于确定组合优化问题；所述组合优化问题用于基于所述约束条件对无线通信系统的调度策略进行设计以使得所述能源效率最大化；所述调度策略包括：各个GU的传输控制策略、各架UAV飞行轨迹以及各架UAV的传输调度策略；

MDP定义单元740，用于将所述组合优化问题定义为马尔科夫决策过程MDP；其中，MDP的总奖励包括所有UAV的长期奖励，每个UAV的长期奖励包括其整个飞行时段内每一步决策下的自我奖励，所述自我奖励包括：目标函数奖励、引导奖励及惩罚项；若有GU向UAV上传数据，则UAV获得引导奖励，当GU的能量不满足其传输控制策略要求时，引导奖励的值为0，若任意两架无人机的距离小于预设最小距离，则UAV获得惩罚项，若有UAV将数据成功上报至BS，则UAV获得目标函数奖励；

调度求解单元750，用于求解所述MDP得到能源效率最大时所述无线通信系统的调度策略。

可以理解的是，上述各个单元的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

另外，本发明实施例提供了另一种无线通信系统的调度控制装置，其包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现上述实施例中的方法。

此外，本发明还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述实施例中的方法。

基于上述实施例中的方法，本发明实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本发明实施例还提供了一种芯片，包括一个或多个处理器以及接口电路。可选的，芯片还可以包含总线。其中：

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该理器也可以是任何常规的处理器等。接口电路可以用于数据、指令或者信息的发送或者接收，处理器可以利用接口电路接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路发送出去。

可选的，芯片还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。可选的，接口电路可用于输出处理器的执行结果。

需要说明的，处理器、接口电路各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。应理解，上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(cen tralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital SubscriberLine，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无线通信系统的调度控制方法，其特征在于，所述方法应用于无人机辅助的无线通信系统，所述系统包括：一个基站BS、多架无人机UAV及多个地面用户GU；所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述UAV的每个时隙t包括：飞行子时隙、感知子时隙以及上报子时隙，三个子时隙长度分别为

所述约束条件包括：

d_i，j(t)≥d_min，

其中，表示最大飞行距离，d_min表示预设最小间距，υ_max表示最大飞行速度，d_i，j(t)表示t时隙第i架UAV和第j架UAV之间的距离，第i架UAV和第j架UAV之间的距离，l_i(t)表示t时隙第i架UAV的位置，l_i(t+1)表示t+1时隙第i架UAV的位置，i≠j。

3.根据权利要求2所述的方法，其特征在于，所述约束条件还包括：

其中，x_m，i(t)∈{0，1}表示第t个时隙内第m个GU对第i架UAV的访问控制策略，x_m，i(t)为0表示GU不接入UAV，x_m，i(t)为₁表示GU接入UAV，表示第i架UAV覆盖范围内所有GU的集合，N表示UAV总架数。

4.根据权利要求3所述的方法，其特征在于，所述约束条件还包括：

有源射频通信方式的数据上传速率为：

其中，为分配给被允许接入控制GU的子时隙，p_m(t)表示第m个GU在第t个时隙的发射功率，h_m，i表示第i架UAV和第m个GU的信道系数，h_m，i由UAV与GU之间可视距下的信道系数和非视距下的信道系数组成；

无源反向散射通信方式的数据上传速率为：

其中，p_A表示固定发射功率，Γ_o是天线的常数系数；

5.根据权利要求4所述的方法，其特征在于，为避免UAV之间的调度干扰，所述约束条件还包括：

当y_i(t)＝1时：

O_i(t)＝τ_dlog(1+p_i，r(t)||g_i||²)

6.根据权利要求3所述的方法，其特征在于，所述约束条件还包括：

当x_m，i＝1时，令表示第m个GU在第t时隙中收集的能量；

每个时间段第m个GU需要满足以下能量预算约束：

7.根据权利要求5所述的方法，其特征在于，所述无线通信系统的能源效率为：

所述UAV的感知能耗e_i，s(t)及UAV的上报能耗e_i，r(t)具体为：

e_i，r(t)＝y_i(t)p_i，r(t)τ_d

其中，表示被第i架UAV允许接入控制的GU集合，

8.根据权利要求1至7任一项所述的方法，其特征在于，将所述组合优化问题定义为MDP，具体为：

将各个时隙中的无线通信系统状态表示为：s_t＝(s₁(t)，s₂(t)，...，s_N(t))；其中，s_i(t)表示第i架UAV所观测到的系统状态信息；s_i(t)＝(χ_i，ψ_i)，其中，χ_i＝(E_i，ξ_m，Q_i)表示UAV和GU的能量存储和数据缓冲，E_i表示UAV和覆盖GU的能量队列的集合，(ξ_m，Q_i)是所有数据缓冲区的集合；ψ_i＝(h_i，g_i)表示网络中的通道条件，h_i是第i架UAV与被允许接入第i架UAV的所有GU之间的信道系数集合，表示为/>

第i架UAV的自我奖励r_i(t)如下：

其中，γ和η都是可调参数，s_m，i(t)表示在子时隙期间从第m个GU上传到第i架UAV的传感数据的大小，r_p(t)为避免不同无人机之间的干扰和碰撞的最小距离指标；表示引导奖励，目标函数奖励表示为/> 表示惩罚项，I(·)表示指示函数；

第i架UAV在整个时段内的长期奖励/> 是折扣因子；

所述总奖励

9.一种无线通信系统的调度控制装置，其特征在于，所述装置应用于无人机辅助的无线通信系统，所述系统包括：一个基站BS、多架无人机UAV及多个地面用户GU；所述装置包括：

10.一种无线通信系统的调度控制装置，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1-8任一项所述的方法。