CN114980160A

CN114980160A - 一种无人机辅助的太赫兹通信网络联合优化方法和装置

Info

Publication number: CN114980160A
Application number: CN202210454105.9A
Authority: CN
Inventors: 张海君; 王衡; 刘向南; 隆克平
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-30

Abstract

本发明公开了一种无人机辅助的太赫兹通信网络联合优化方法和装置，该方法包括：构建无人机辅助的太赫兹通信网络系统模型；在用户服务质量和资源约束下，以最小化网络系统中所有用户的时延之和为目标，构建优化目标函数；基于预设的深度强化学习算法，实现无人机位置、计算卸载比例和计算资源分配方案的联合优化，以提升网络容量和降低时延。本发明利用无人机灵活性强与太赫兹通信传输速率高的特点，弥补了边缘接入节点覆盖范围和接入用户数量有限的缺点，在资源受限的情况下，有效提升了网络容量和资源利用率。

Description

一种无人机辅助的太赫兹通信网络联合优化方法和装置

技术领域

本发明涉及无线通信技术领域，特别涉及一种无人机辅助的太赫兹通信网络联合优化方法和装置。

背景技术

随着物联网技术的飞速发展，远程医疗、自动驾驶、虚拟现实、增强现实等许多时延敏感型应用已经逐渐进入到人们的日常生活，这些应用产生了大量计算密集型任务。尽管新一代物联网设备中的CPU性能越来越强，但是依然无法在短期内处理计算密集型任务。为了解决物联网设备计算能力有限的问题，云计算技术将计算密集型任务从用户侧转移到云端服务器进行计算处理，有效降低了时延。然而，预计到2025年，物联网设备的数量将达到750亿，传输海量数据到云端服务器会消耗大量的网络资源，并给云端服务器带来了极大的计算压力。因此，云计算技术已经无法满足海量数据的实时计算处理，为了弥补云计算的不足，移动边缘计算技术(Mobile edge computing,MEC)通过在物联网设备侧部署边缘接入节点(Edge access points,E-APs)，将核心网的功能转移到网络边缘，降低了回传链路对于带宽的要求，并有效提升了服务质量。

传统的E-APs部署在固定位置，其覆盖范围和所能同时服务的用户数量是有限的。随着无人机技术的发展，将服务器部署在无人机上成为了一种有效提升系统容量的方式。当用户数量超过E-APs容量限制或者用户超出E-APs覆盖范围时，无人机可搭载服务器为用户提供计算卸载服务。与传统架构相比，无人机辅助架构具有更高的可扩展性和灵活性。

为了更好地支持计算密集型应用，需要降低用户到服务器的传输时延。太赫兹通信的速率可以达到数十Gb/s，明显优于目前的超宽带技术。因此，太赫兹通信技术备受关注，成为满足移动异构网络系统实时业务需求的关键技术。由于太赫兹波段对信道拥塞的敏感性，将服务器部署在无人机上可以有效减少障碍对通信链路的影响。因此，在太赫兹频段下，将服务器搭载在无人机上为用户提供计算卸载服务是很有前景的。

目前，如何在服务质量和资源约束下实时联合优化无人机位置、计算卸载比例和计算资源分配方案使得所有用户的时延之和最小是一个亟待解决的难题。

发明内容

本发明提供了一种无人机辅助的太赫兹通信网络联合优化方法和装置，以解决无人机位置、计算卸载比例和计算资源分配方案的联合优化问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种无人机辅助的太赫兹通信网络联合优化方法，所述无人机辅助的太赫兹通信网络联合优化方法包括：

构建无人机辅助的太赫兹通信网络系统模型；其中，在所述通信网络系统模型中，无人机搭载服务器在太赫兹频段为用户提供计算卸载服务；

基于所述通信网络系统模型，在用户服务质量和资源约束下，以最小化通信网络系统中所有用户的时延之和为目标，构建优化目标函数；

基于预设的深度强化学习算法，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案，实现无人机位置、计算卸载比例和计算资源分配方案的联合优化，达到提升网络容量和降低时延的目的。

进一步地，在所述通信网络系统模型中，搭载于无人机的服务器与用户之间的太赫兹通信链路路径损耗PL(f,D)表示为：

其中，L_abs(f,D)表示分子吸收损耗，L_spread(f,D)表示传输损耗，D表示用户与无人机服务器之间的距离，c是真空状态光速，k_abs(f)是与频率相关的介质吸收系数，f表示太赫兹载波频率。

进一步地，所述优化目标函数表示为：

其中，T_i表示第i个用户的总时延，N表示用户数量，x_uav和y_uav表示无人机的坐标信息，α_i表示第i个用户的卸载比例，β_i表示分配给第i个用户的计算资源比例，

表示计算卸载向量，

表示计算资源分配向量，

表示本地计算能耗，

表示上传能耗，

表示用户等待服务器处理数据的待机能耗，t_i,max表示第i个用户的最大容忍时延，E_i,max表示第i个用户的最大容忍能耗，

表示无法由E-APs提供服务的用户的集合，

表示无人机的预设坐标阈值；

C1表示每个用户的总时延不超过最大容忍时延，由此保障了用户的服务质量；C2表示无人机的位置在预设的规定范围内；C3和C4表示分配给每个用户的计算资源之和不超过总的计算资源；C5表示用户可以将任意比例的部分任务卸载到服务器进行处理；C6表示用户所消耗的能量在规定范围内。

进一步地，所述基于预设的深度强化学习算法，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案，包括：

以无人机、服务器和所有用户为智能体，无人机辅助的太赫兹通信网络系统模型充当环境，无人机位置、计算卸载比例和计算资源分配方案充当智能体的动作输出，采用预设的深度强化学习算法来训练智能体，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案。

进一步地，所述预设的深度强化学习算法为DDPG(deep deterministic policygradient，深度确定性策略梯度)算法。

进一步地，所述采用预设的深度强化学习算法来训练智能体，包括：

步骤1：初始化系统的状态空间、动作空间以及深度神经网络参数；

步骤2：智能体根据当前状态和策略网络选择动作并执行；

步骤3：智能体执行动作后，返回奖励以及新的状态，将状态转化过程放入经验缓存空间；

步骤4：在经验缓存空间中采样预设数量的状态转移数据，作为训练Q网络和训练策略网络的训练数据；

步骤5：分别计算Q网络和策略网络代价函数的梯度；

步骤6：更新目标神经网络参数。

进一步地，初始化系统的状态空间、动作空间及深度神经网络参数，包括：

将用户资源需求及信道状态建模为有限状态马尔可夫模型；

为策略网络μ(F,ω)和Q网络Q(F,G,λ)各创建两个目标神经网络μ′(F,ω′)和Q′(F,G,λ′)用于参数更新。

进一步地，所述智能体执行动作后，返回奖励，包括：

所述智能体执行动作后，判断是否满足预设条件，当满足预设条件时，根据环境获得即时奖励；其中，所述预设条件包括：每个用户的时延满足服务质量约束；无人机的位置在指定的区间范围内；分配给每个用户的计算资源不超过总资源量；计算卸载比例在预设范围内；每个用户的总能耗满足节能需求。

即时奖励R表达式为：

其中，T_n表示第n个用户的时延，N表示用户数量。

进一步地，所述分别计算Q网络和策略网络代价函数的梯度，包括：

分别计算Q网络和策略网络代价函数的梯度，采用随机梯度下降方法，用于更新神经网络参数。

另一方面，本发明还提供了一种无人机辅助的太赫兹通信网络联合优化装置，所述无人机辅助的太赫兹通信网络联合优化装置包括：

通信网络系统模型构建模块，用于构建无人机辅助的太赫兹通信网络系统模型；其中，在所述通信网络系统模型中，无人机搭载服务器在太赫兹频段为用户提供计算卸载服务；

优化目标函数构建模块，用于基于所述通信网络系统模型构建模块所构建的通信网络系统模型，在用户服务质量和资源约束下，以最小化通信网络系统中所有用户的时延之和为目标，构建优化目标函数；

联合优化模块，用于基于预设的深度强化学习算法，得到满足所述优化目标函数构建模块所构建的优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案，实现无人机位置、计算卸载比例和计算资源分配方案的联合优化，达到提升网络容量和降低时延的目的。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明的无人机辅助的太赫兹通信网络联合优化方法在用户服务质量和资源约束下，实现了无人机位置、计算卸载比例和计算资源分配方案的联合优化，弥补了边缘接入节点覆盖范围和接入用户数量有限的缺点，在资源受限的情况下，有效提升了网络容量并降低了时延，满足了各类时延敏感性业务的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无人机辅助的太赫兹通信网络联合优化方法的执行流程示意图；

图2是本发明实施例提供的无人机辅助的太赫兹网络架构示意图；

图3是本发明实施例提供的基于深度强化学习的联合优化算法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种无人机辅助的太赫兹通信网络联合优化方法，利用无人机灵活性强与太赫兹通信传输速率高的特点，弥补了E-APs覆盖范围和接入用户数量有限的缺点，在资源受限的情况下有效提升了网络容量并降低了时延。该方法可以由电子设备实现。该方法的执行流程如图1所示，包括以下步骤：

S1，构建无人机辅助的太赫兹通信网络系统模型；其中，在所述通信网络系统模型中，无人机搭载服务器在太赫兹频段为用户提供计算卸载服务；

S2，基于所述通信网络系统模型，在用户服务质量和资源约束下，以最小化通信网络系统中所有用户的时延之和为目标，构建优化目标函数；

S3，基于预设的深度强化学习算法，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案，实现无人机位置、计算卸载比例和计算资源分配方案的联合优化，达到提升网络容量和降低时延的目的。

具体地，本实施例所构建的通信网络系统模型如图2所示，在该模型中，搭载于无人机的服务器与用户之间的太赫兹通信链路路径损耗PL(f,D)表示为：

由于E-APs覆盖范围和接入用户数量有限，存在部分用户无法由E-APs提供服务的情况，

表示这些用户的集合，每个用户的任务可以表示为ζ_i∈{d_i,c_i,o_i,t_i,max}，d_i表示第i个用户计算任务的大小，c_i第i个用户计算任务所需要的CPU周期数，o_i表示第i个用户计算结果的大小，t_i,max表示第i个用户最大的容忍时延。为了实现时延最小化，这个问题可以建模为：

其中，T_i表示第i个用户的总时延，x_uav和y_uav表示无人机的坐标信息，α_i表示第i个用户的卸载比例，β_i表示分配给第i个用户的计算资源比例，

表示计算卸载向量，

表示计算资源分配向量，

表示本地计算能耗，

表示上传能耗，

表示用户等该服务器处理数据的待机能耗，t_i,max表示第i个用户的最大容忍时延，E_i,max表示第i个用户的最大容忍能耗；C1表示每个用户的总时延不超过最大容忍时延，保障了用户的服务质量；C2表示无人机的位置在规定范围内；C3和C4表示分配给每个用户的计算资源之和不超过总的计算资源；C5表示用户可以将任意比例的部分任务卸载到服务器进行处理；C6表示用户所消耗的能量在规定范围内。

进一步地，所述基于预设的深度强化学习算法，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案，具体为：以无人机、服务器和所有用户为智能体，无人机辅助的太赫兹通信网络系统模型充当环境，无人机位置、计算卸载比例和计算资源分配方案充当智能体的动作输出，采用预设的深度强化学习算法来训练智能体，得到满足所述优化目标函数的最优的无人机位置、计算卸载比例和计算资源分配方案。其中，本实施例所采用的预设的深度强化学习算法为深度确定性策略梯度DDPG算法。

在采用DDPG进行无人机位置、计算卸载比例和计算资源分配方案的联合优化过程中，考虑到真实环境下系统状态的动态变化，将系统状态建模为一阶马尔可夫决策模型。确定性策略网络被用作根据状态选取动作，Q网络用来衡量所选动作的性能，由于单个神经网络会造成学习过程很不稳定，因此分别为策略网络、Q网络各创建一个目标神经网络拷贝进行网络学习，它们被称为目标网络，用于计算相应的目标值。目标网络和训练网络具有相同的网络结构，但是其参数设置不同。在执行DDPG算法时，无人机辅助的太赫兹通信网络系统模型充当环境，无人机位置、计算卸载比例和计算资源分配方案充当智能体的动作输出。算法具体步骤如图3所示，包括以下步骤：

初始化系统的状态空间、动作空间以及深度神经网络参数；具体为：初始化每个用户的资源需求、位置信息、DDPG算法参数、Q网络和策略网络参数，将Q网络和策略网络参数分别赋给目标Q网络和目标策略网络。其中，用户需求和信道状态建模为有限状态马尔可夫模型，该系统是一个离散时隙系统，在同一时刻内，系统状态不发生变化。下一时刻系统由智能体基于行为策略产生。

DDPG算法包含四个深度神经网络，分别是策略网络μ(F,ω)、Q网络Q(F,G,λ)、目标策略网络μ′(F,ω′)和目标Q网络Q′(F,G,λ′)，ω、λ、ω′、λ′分别代表了四个深度神经网络的参数。智能体根据行为策略选择动作并执行，在每一次迭代时，首先获得信道状态和资源需求信息，智能体获取当前信息，根据策略网络μ(F,ω)选择动作并执行动作包括调整无人机位置、计算卸载比例和计算资源分配方案，执行动作后，返回奖励R_t以及新的状态。对于DDPG，动作的选取是确定性的行为策略，每一步的行为通过μ(F,ω)直接获得确定的值。

其中，智能体执行动作后，返回奖励，具体为：所述智能体执行动作后，判断是否满足预设条件，当满足预设条件时，根据环境获得即时奖励；其中，所述预设条件包括：1)每个用户的时延满足服务质量约束；2)无人机的位置在指定的区间范围内；3)分配给每个用户的计算资源不超过总资源量；4)计算卸载比例在预设范围内；5)每个用户的总能耗满足节能需求。

即时奖励R表达式为：

其中，T_n表示第n个用户的时延，N表示用户数量。

智能体执行动作后，返回奖励以及新的状态，将状态转化过程(F_t,G_t,R_t,F_t+1)放入经验缓存空间D，F_t表示t时刻的状态，G_t表示t时刻的动作，R_t表示在状态F_t执行动作G_t所获得的奖励，F_t+1表示在状态F_t执行动作G_t所到达的下一个状态。为了训练神经网络，需要在经验缓存空间D采用N个mini-batch状态转移数据(F_t,G_t,R_t,F_t+1)作为训练Q网络和训练策略网络的训练数据。分别计算策略网络和Q网络代价函数的梯度用于更新策略网络和Q网络的参数；

其中，Q网络的代价函数为：

其中，

表示目标Q值，Q(F_i,μ(F_i,ω′),λ′)表示预测Q值，DDPG的目的就是使得预测Q值逐渐接近目标Q值，N表示所抽取的mini-batch的数量。

目标Q值得定义如下所示：

其中，ψ表示折扣因子。

因此Q网络的更新方式为：

其中，α_c表示更新Q网络的学习率。

策略网络的作用是最大化Q值，因此策略网络的代价函数可以定义为：

对策略网络的代价函数求导可得：

因此Q网络的更新方式为：

其中，α_a表示更新策略网络的学习率。

在对Q网络和策略网络的参数进行更新后，需要每隔C步去更新目标Q网络和目标策略网络的参数，更新原则如下：

λ←τλ+(1-τ)λ′

ω←τω+(1-τ)ω′

其中，τ为更新系数。

每次迭代周期，算法收敛或者达到最大迭代次数，算法终止，无人机的位置、计算卸载比例和计算资源分配方案由具有最优即时奖励的动作获得。

综上，本实施例的无人机辅助的太赫兹通信网络联合优化方法，针对在太赫兹频段采用无人机为用户提供计算卸载服务的场景，使用DDPG算法训练神经网络，联合优化无人机位置、计算卸载比例和计算资源分配方案，从而在满足用户服务质量的前提下，有效提升了资源利用率和网络容量，降低了总时延。

第二实施例

本实施例提供了一种无人机辅助的太赫兹通信网络联合优化装置，包括：

本实施例的无人机辅助的太赫兹通信网络联合优化装置与上述第一实施例的无人机辅助的太赫兹通信网络联合优化方法相对应；其中，该无人机辅助的太赫兹通信网络联合优化装置中的各功能模块所实现的功能与上述无人机辅助的太赫兹通信网络联合优化方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。