CN116582836A

CN116582836A - 一种任务卸载与资源分配方法、设备、介质和系统

Info

Publication number: CN116582836A
Application number: CN202310854782.4A
Authority: CN
Inventors: 曾锋; 张政; 陈雪寒; 刘佳琦
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-08-11
Anticipated expiration: 2043-07-13
Also published as: CN116582836B

Abstract

本发明公开了一种任务卸载与资源分配方法、设备、介质和系统，方法为：根据车对地、车对空、车对空间的传输时延，及车对地、车对空、车对空间、车本地的计算时延，建立车载计算任务在车本地执行和卸载到地面、空中、空间执行的时延模型；基于建立的时延模型，同时对通信、计算和频谱资源进行约束，以成功完成车载计算任务数量最大化为目标，建立如下多目标联合优化的混合整数非线性规划问题；采用深度强化学习方法求解上述规划问题，实现任务卸载与资源分配的最优方案。本发明以车辆计算任务卸载决策和网络资源分配的联合优化为目标，求解SAGVN中车辆协同计算卸载机制，实现为车载应用提供泛在的、高质量的计算服务。

Description

一种任务卸载与资源分配方法、设备、介质和系统

技术领域

本发明属于边缘计算技术领域，具体涉及一种空天地融合车辆网络中基于深度强化学习的任务卸载与资源分配方法、设备、介质和系统。

背景技术

针对移动边缘计算(Mobile Edge Computing, MEC)系统的时变性，现有技术关注单一边缘服务器作为计算服务提供方的车载边缘计算问题。然而，当任务卸载服务请求较多时，边缘服务器可能会过载，从而导致任务中断或失败。

考虑车辆与边缘服务器之间的经济因素，一些学者从市场的角度对车辆计算卸载问题进行了研究，然而这些研究仅关注卸载策略的优化，缺乏对频谱、计算和存储资源的联合优化。此外，一些学者研究了无人机辅助车辆网络的计算卸载问题。尽管上述研究已经利用邻近车辆、无人机或云服务器来减轻边缘服务器的负载，但车辆边缘计算（VEC）的网络覆盖范围和计算资源仍然有限，无法为车辆提供泛在的计算服务。

如果能够将空天地网络与车辆网络进行融合，形成空天地融合车辆网络（SAGVN），将有望实现为车辆提供全覆盖、高质量的计算服务。一些学者对此进行了研究，Y.Liu等人提出了一种最大化SAGVN中总上行速率的子信道和功率分配方法^[1]，该方法在用户关联的基础上引入拉格朗日对偶理论来解决功率分配问题。然而，该方法是在用户关联的基础上进行资源优化，没有考虑到用户关联与子信道选择和功率选择之间的耦合性。此外，其研究的场景是准静态的。

空天地融合车辆网络（SAGVN），是由多种异构节点组成的复杂网络，近地卫星、无人机和请求车辆都是动态运动的，导致时变的网络拓扑与信道环境。这意味着在管理SAGVN网络资源时，传统的优化方法需要不断重复求解过程以应对网络环境的变化，必然造成一些时延敏感的任务中断或失败。此外，SAGVN中，卸载决策与频谱、计算和存储资源的分配是高度耦合的^[2]，传统的优化方法在对该联合优化问题进行建模时，往往需要对原问题进行适当简化，以求得最优解。

综上所述，现有研究工作较少关注空天地融合车辆网络（SAGVN）中卸载、频谱、计算和存储资源的联合优化问题。此外，由于车载智能应用实时性要求高，空天地融合车辆网络（SAGVN）中资源管理策略必须满足实时性要求，这是一个关键技术挑战。

发明内容

鉴于现有车辆边缘计算（VEC）无法为车辆提供泛在的计算服务，本发明提供一种空天地融合车辆网络中基于深度强化学习的任务卸载与资源分配方法、设备、介质和系统，以车辆计算任务卸载决策和网络资源分配的联合优化为目标，研究空天地融合网络中车辆协同计算卸载机制，实现为车载应用提供泛在的、高质量的计算服务。

为实现上述技术目的，本发明采用如下技术方案：

一种空天地融合车辆网络中基于深度强化学习的任务卸载与资源分配方法，包括：

首先，根据车对地、车对空、车对空间的传输时延，以及车对地、车对空、车对空间、车本地的计算时延，建立车载计算任务在车本地执行和分别卸载到地面节点、空中节点、空间节点执行的时延模型；

然后，基于建立的各时延模型，同时对通信、计算和频谱资源进行约束，以成功完成车载计算任务数量最大化为目标，建立如下多目标联合优化的混合整数非线性规划问题：

其中：决策变量中的表示所有车辆的计算任务的卸载决策，分别表示所有车辆的计算任务的频谱、计算和存储资源分配占比的矢量；和分别表示车辆的计算任务的数据量和时延限制，表示实际分配给车辆的计算任务的存储资源，表示车辆的计算任务的处理时延，由时延模型计算得到；是指示函数；

表示车辆的计算任务的卸载决策，取值为0、1、2、3，分别对应于车本地执行和卸载到空间节点、空中节点、地面节点执行；

分别对应地面节点、空中节点、空间节点，表示其中任一取值，当且仅当车辆的卸载决策与一致时，才有；

和分别表示地面节点、空中节点和空间节点分配给车辆的频谱资源的比例；

和分别表示地面节点、空中节点和空间节点分配给车辆的计算资源的比例；

和分别表示地面节点、空中节点和空间节点分配给车辆的存储资源的比例；

最终，采用深度强化学习方法求解上述规划问题，实现任务卸载与资源分配的最优化。

进一步地，所述车载计算任务在车本地执行和分别卸载到地面节点、空中节点、空间节点执行的时延模型为：

其中：表示车辆的计算任务在本地执行的计算时延；分别表示车辆的计算任务卸载到空间节点、空中节点和地面节点的传输速率，分别表示车辆的计算任务分别在空间节点、空中节点和地面节点执行的计算时延，且计算式分别为：

其中：表示车辆的计算任务的计算量；、、分别表示空间节点、空中节点和地面节点的总存储资源；分别表示空间节点、空中节点和地面节点的总计算资源；表示车辆的传输功率，表示车辆分别与空间节点、空中节点、地面节点之间信道增益，表示车辆分别与空间节点、空中节点、地面节点之间的距离，表示距离衰减因子，表示空间节点、空中节点、地面节点的信道背景噪声。

进一步地，所述采用深度强化学习方法求解上述规划问题，具体包括：

（1）将待优化时段划分为多个长度相等的时隙；

（2）获取初始时隙t=0的状态向量，所述状态向量包括所有车辆所需的存储资源、计算资源、延迟约束以及分别与空间节点、空中节点和地面节点的距离；

（3）根据时隙t的状态向量，采用深度强化学习训练得到的策略函数，获得时隙t的动作向量；其中，所述动作向量是由所有车辆的计算任务的卸载决策和频谱、计算和存储资源分配占比构成的决策向量；

（4）根据时隙t的状态向量和动作向量，采用状态转移函数获得时隙t的奖励和下一时隙t+1的状态向量；

（5）更新时隙t=t+1，重复步骤（3）至（5），直到调度周期内所有时隙均得到对应的动作向量，即得到调度周期内所有时隙的决策向量。

进一步地，所述深度强化学习网络的训练方法为：

初始化车辆总数以及Actor网络和Critic网络，其中Actor网络用于逼近策略函数，Critic网络用于逼近价值函数；分别为Actor网络和Critic网络的参数；

获取各时段初始时隙的状态向量；

对每个时段内所有时隙：将当前时隙的状态向量输入当前Actor网络，输出得到当前时隙的动作向量；根据当前时隙的状态向量和动作向量，由状态转移函数得到该时隙的奖励和下一时隙的状态向量；保存作为当前时隙t对应的样本；

将样本输入当前Critic网络，预测得到样本的当前累计奖励，再基于预测累计奖励的损失值更新网络参数。

进一步地，在现有Actor网络和Critic网络的基础上，再引入对应的目标网络分别记为和；其中和分别为目标网络和的参数；具体地：

在计算各时段内各时隙对应样本时，将每个获取的样本保存到经验回放区；在每间隔预设个时隙，均从经验回放区中随机抽取N个样本形成一个批，使用目标Actor网络和目标Critic网络计算批内每个样本当前状态和动作的累计奖励：

式中，为批内的样本索引序列；表示折扣系数；表示包含了当前轮真实奖励和下一轮状态及其动作下的累计奖励相加得到的当前轮累计奖励；

然后基于批内所有样本的累计奖励计算损失值，进而更新Actor网络和Critic网络的参数；其中，计算损失值的损失函数为：

式中，为损失值；

每间隔预设数量个时隙，使用Actor网络和Critic网络的参数，对目标网络和的参数、进行更新：

其中，为软更新系数，是一个0~1之间的参数。

进一步地，使用Critic网络逼近的价值函数表示为：

式中，表示期望，表示时间点，表示时隙的奖励值，奖励函数表示为：

其中，表示车辆的计算任务在时隙t的延迟限制，表示在时隙t完成车辆的计算任务的实际时间，表示车辆的计算任务在时隙t的数据量，表示在时隙t实际分配给车辆的存储资源；当时，这意味着分配给车辆的存储资源满足任务需求；当时，意味着实际任务延迟小于延迟限制。

进一步地，在采用深度强化学习时，卸载决策分解为车辆i选择车本地执行和分别卸载到空间节点、空中节点和地面节点执行的概率，并通过softmax函数激活，实现概率和为1的约束，即；其中表示车辆i在时隙t选择第j种执行策略的概率，分别对应车本地、空间节点、空中节点和地面节点。

一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一项所述的任务卸载与资源分配方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的任务卸载与资源分配方法。

一种空天地融合车辆网络的任务卸载与资源分配系统，包括车辆、边缘服务器、无人机、近地卫星和中央控制器；所述中央控制器采用上述任一所述的任务卸载与资源分配方法获得任务卸载与资源分配方案，并由车辆、边缘服务器、无人机和近地卫星执行该方案。

有益效果

1）提出一种适用于空天地融合车辆网络（SAGVN）的异构车载边缘计算架构，该架构支持车辆在本地、边缘服务器、辅助无人机或近地卫星上执行计算任务，并通过中央控制器对任务需求及网络资源进行最优决策。

2）将计算卸载决策、通信、计算和频谱资源的联合优化问题模型化为混合整数非线性规划（MINLP）问题，并将该问题描述为马尔可夫决策过程，提出一种基于深度强化学习的算法进行求解，该算法使用Softmax函数对卸载决策进行连续化处理，设计了一个奖励函数引导智能体朝着最大化车载计算任务卸载数量的目标自主学习。

附图说明

图1是本申请实施例所述SAGVN的系统模型；

图2是本申请实施例所述SAGAVN资源管理的DRL架构；

图3是本申请实施例所述动作连续化的示意图；

图4是本申请实施例所述Actor-Critic网络的数据流图；

图5是本申请实施例所述不同算法下的累积奖励；

图6是本申请实施例所述不同学习率下的累积奖励；

图7是本申请实施例所述不同缓冲区大小下的累积奖励；

图8是本申请实施例所述不同通信资源下的累积奖励的对比；

图9是本申请实施例所述不同通信资源下的平均任务成功率的对比；

图10是本申请实施例所述不同通信资源下的平均任务时延的对比。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

实施例1

本实施例提供一种空天地融合车辆网络中基于深度强化学习的任务卸载与资源分配方法，基于空天地融合车辆网络（SAGVN）的异构车载边缘计算架构上实现，首先构建优化问题，然后基于深度强化学习获得最优化的解决方案。

1、空天地融合车辆网络的异构车载边缘计算架构

如图1所示，空天地融合车辆网络（SAGVN）由车辆、路侧单元、边缘服务器、无人机和近地卫星组成。基于软件定义网络（SDN）把SAGVN分为不同层次，包括空间层（SL）、空中层（AL）和地面层（GL），其中地面层包含边缘服务器和车辆。不同层的频谱、计算和存储资源是相互独立的，并由相应的资源管理器进行管理，从而实现控制流与数据流的分离。在SAGVN中，车载计算任务可以在本地执行、可以卸载到地面节点（GN）、也可以卸载到空中节点（AN）或卸载到空间节点（SN）。为了简化问题，本发明不考虑同层节点资源协同的时间开销。假设车辆数量为m，每一车辆均有一个延迟敏感的车载计算任务。对车辆而言，同一时刻只能发起一个计算任务。车辆i的计算任务可抽象为，其中表示任务数据量，表示任务所需的计算量，表示任务的时延限制。

2、时延模型

2.1通信模型

在上述架构中，存在三方面的无线通信，即：车对地（V2G）、车对空（V2A）和车对空间（V2S）的无线通信，下述分别给出这三种无线通信模型。在SAGVN中，各层的频谱、计算和存储资源总量是一个常数，请求车辆通过请求占用总资源的比例来满足自身的任务需求。那么，V2G的传输速率可以表示为：

其中，表示GN的总频谱资源，表示由GN分配给车辆的频谱资源的比例，表示信道的背景噪声，表示传输功率，表示信道增益，表示距离，表示距离衰减因子。同理，V2A的传输速率和V2S的传输速率可分别表示为式(2)和(3)：

其中，和分别表示AN和SN的总频谱资源，和分别表示AN和SN分配给车辆的频谱资源的比例。

此外，如果车辆选择在本地执行车载计算任务，则不存在数据传输。

2.2计算模型

当车辆选择将计算任务卸载到SAGVN时，SAGVN需要为车辆分配足够的存储空间，否则即使SAGVN为车辆分配了足够的计算资源，任务也可能会中断或失败。使用、和分别表示GN、AN和SN的总存储资源。V2G的计算延迟可以表示为：

其中，表示GN的总计算资源，表示GN分配给车辆的计算资源的比例。同理，V2A的计算延迟和V2S的计算延迟可表示为式(5)和(6)：

其中，和分别表示AN和SN的总计算资源，和分别表示AN和SN分配给车辆的计算资源的比例。

此外，本地计算延迟可以表示为：

其中，表示车辆的计算能力。

2.3时延模型

由于计算结果的数据量通常较少，可以忽略计算结果的接收延迟。车辆将车载计算任务卸载到SAGVN中执行，其任务处理延迟包括传输延迟和计算延迟。如果车辆选择在本地执行任务，则任务延迟仅包括计算延迟。因此，车载计算任务i的任务延迟可以表示为：

其中表示车辆的关联模式，取值为0、1、2、3，分别对应于本地执行，卸载到SN执行，卸载至AN执行，以及卸载到GN执行。

3、优化问题描述

本实施例的目标是最大化车载边缘计算处理量，即是最大化所完成的车载计算任务卸载的数量。在任务卸载过程中，同时考虑通信、计算和频谱资源等因素，本文研究的问题可模型化为多目标联合优化的混合整数非线性规划（MINLP）问题，可描述为：

其中，表示成功完成的车载计算任务数，是指示函数，为任务处理时延，表示实际分配给任务的存储资源。目标函数表明，问题目标是在满足车载任务时延限制及存储要求的条件下，实现任务卸载量的最大化。分别表示车载任务卸载决策、频谱、计算和存储资源分配占比的矢量。当且仅当车辆的卸载决策与一致时，才有。此外，约束C1、C2和C3分别表示分配给车辆的频谱、计算及存储资源比例之和为1。约束C4表示车辆的卸载决策是中的一个整数，分别对应计算任务在本地执行、卸载到SN、卸载到AN和卸载到GN。约束C5、C6和C7表示分配给车辆的频谱、计算和存储资源占比是一个0和1之间的小数。

4、基于深度强化学习的解决方案

在前述构建的多目标联合优化的混合整数非线性规划（MINLP）问题中，各优化变量之间高度耦合。使用传统优化方法很难直接进行求解，且传统方法的高复杂性带来较高的处理时延，难于满足资源管理问题的实时性要求。鉴于深度强化学习能够在动态、复杂环境中自主学习最优策略，并根据环境状态进行实时的决策，本文提出一种基于深度强化学习的求解方法，实现任务卸载与资源分配的最优化。在该深度强化学习方法中，使用Softmax函数对卸载决策进行了连续化处理，使梯度连续，增强网络的收敛性；同时，设计了一种非正的、连续的奖励函数，通过该奖励函数不仅能避免车辆被过度分配资源而获得高额回报，而且更容易促进神经网络的学习。以车载任务需求、网络状况和剩余资源情况为网络的输入，以任务卸载决策、频谱、计算和存储资源的分配方案为网络的输出，本文所提深度强化学习架构如图2所示。接下来，将详细介绍基于深度强化学习的求解方法。

4.1强化学习

强化学习是一种基于真实的环境数据，引导智能体朝着最大化累计奖励的方向进行自主学习，以实现特定目标的方法。常见的模型是标准的马尔可夫决策过程（MDP）。一般来说，马尔可夫决策过程（MDP）可以用表示，其中表示状态空间，表示动作空间，代表状态转换函数，表示奖励函数。为了方便研究，本实施例中将一段时间划分为多个长度相等的时隙t。下文将详细说明如何将上述联合优化问题转换为马尔可夫决策过程。标准的马尔可夫决策过程可以用状态空间、动作空间、状态转移函数和奖励函数进行形式化表达：

（1）状态空间：在空天地融合车辆网络（SAGVN）中，中央控制器需要根据当前车辆的任务需求、所处位置及资源情况等状态做出最优的动作。因此，在时隙t，状态可以被抽象为：

其中，和分别表示车辆在t时隙所需的存储、计算资源，表示车辆在时隙t时的延迟约束，，表示车辆在时隙t与SN、AN和GN的距离。

（2）动作空间：在空天地融合车辆网络（SAGVN）中，中央控制器需要根据当前状态做出最优的车载任务卸载决策和频谱、计算及存储资源的分配方案。因此，在时隙t，动作可以被抽象为：

其中，表示车辆在时隙t的卸载决策，、、和分别表示SN、AN和GN在时隙时分配给车辆的频谱、计算和存储资源占比。

（3）状态转移函数：在空天地融合车辆网络（SAGVN）中，状态转移是以当前的环境状态和动作为输入，返回当前时隙的奖励和下一时隙的状态。因此，状态转换函数可以用表示。在本实施例中，状态转移函数包括计算资源变化、数据传输速率等内容，这些内容是构成仿真环境的重要组成部分。由于完整的状态转移函数比较繁杂，这里仅给出状态转移函数的形式化表达。

（4）奖励函数：在联合优化问题中，本发明优化目标是最大化整个系统的任务卸载处理数量。因此，奖励函数的设计应当能够引导智能体进行自主学习，从而做出最大化任务卸载处理数量的动作。本实施例的奖励函数可表示为：

其中表示完成任务的实际时间，表示实际分配给车辆的存储资源。当时，这意味着分配给车辆的存储资源满足任务需求；当时，意味着实际任务延迟小于延迟约束。可以发现奖励函数是非正的、连续的。这种形式化的奖励函数不仅能避免车辆被过度分配资源而获得高额回报，而且更容易促进网络学习。

接下来，阐述智能体如何进行自主学习并做出决策。假设存在两个带参的函数，分别称为策略函数和价值函数，其中和表示参数。策略函数是当前状态到当前动作的一个映射，价值函数是当前状态和动作到实数的一个映射，这个实数称为累计奖励。刚开始，策略函数和价值函数并不是最优的，因此智能体做出的决策往往不好。但是，随着大量数据的驱动，策略函数和价值函数会逐渐逼近理想函数。此时，使用策略函数或价值函数均能帮助智能体做出最优决策。累计奖励可以表示为：

其中是折扣系数，的大小决定了未来奖励在累计奖励中的重要性。

4.2 Actor-Critic网络

在本实施例中，联合优化问题的优化变量包含连续变量，并且状态空间也是连续的，使用Q-learning这类强化学习方法无法处理连续的大型行为空间。因此，使用Actor和Critic两个深度学习网络来逼近强化学习中的策略函数和价值函数。此外，联合优化问题的优化变量还包含离散变量，因此需要将离散变量转换为连续变量再应用深度强化学习方法。接下来，将介绍动作连续化、动作标准化以及Actor-Critic网络结构。

动作连续化：动作空间中包含连续动作和离散动作，为满足深度强化学习的要求，需要将离散动作连续化。如图3所示，本实施例将提出车辆的卸载决策可以分解为车辆选择本地计算、卸载到SN、卸载到AN或卸载到GN的概率，并通过softmax函数激活，实现概率和为1的约束。具体而言，可由和四个连续变量代替。那么，连续化后的动作空间可以表示为：

其中，、、和分别表示车辆选择在本地计算、卸载到SN、卸载到AN或卸载到GN的概率，且有。

动作标准化：在联合优化问题中，需要确保分配的频谱、计算和存储资源不超过SAGVN的资源上限，因此对动作进行归一化处理。

Actor-Critic网络结构：如图4所示，引入Actor网络和Critic网络来逼近策略函数和价值函数。在每个时隙中，智能体感知当前环境状态，基于做出动作。这时，环境根据状态转移函数给出当前奖励和下一时隙状态。此外，还引入策略网络和价值网络的目标网络，分别是和。每间隔一定时隙，从经验回放区中随机抽取64条记录，形成一个批,然后每个的可以通过网络计算得到。

上式中，(1)与相加可以理解为：给定状态，智能体根据做出动作。这时，环境会给智能体一个奖励，并更新到状态。值得注意的是，环境给智能体的奖励是一个真实的值。表示未来奖励在累计奖励的重要程度，一般取0~1之间的数。根据上述所说，表示的就是在下一轮状态及其动作下的累计奖励。那么，与相加表示当前轮奖励加上下一轮的累计奖励，即当前轮的累计奖励（包含了真实值）。(2)的理解：表示当前轮的累计奖励，表示包含了真实值的当前轮累计奖励。

Critic网络是用于预测当前状态和动作的累计奖励，需要Critic网络能真实的反映当前状态和动作的好坏，从而更好的指导Actor网络进行决策。因此，基于时序差分（TD）算法，使用梯度下降策略来更新Critic网络的参数，使得网络的预测值逼近真实值。那么， Critic网络的损失可表示为：

Actor网络是根据当前状态做出最优决策的，该决策是使得最大化累积回报。在Critic网络的协助下，使用梯度上升策略来更新Actor网络参数，从而使累计回报尽可能的大。

上述更新仅涉及Actor和Critic网络，其对应的目标网络尚未更新。因此，目标网络和会以一定的时隙间隔进行更新，具体更新公式如下：

其中是软更新系数，的大小决定了目标网络的同步速率。

4.3网络训练与预测算法

结合前述分析，本实施例的空天地融合车辆网络（SAGVN）中任务卸载和资源分配方法，如下表算法1所示。首先对环境、经验回放缓冲区等进行初始化。每局游戏被划分为多个长度相等的时隙，在开始循环时，智能体感知环境的初始状态。在每一个时隙中，智能体基于做出动作。如果是在训练阶段，需要对动作进行正态随机处理并修剪，在对动作施加随机探索的同时使其满足约束条件。此时，环境根据状态转换函数给出奖励和下一时隙状态。那么，t时隙的样本可表示为，并将其存入经验回放缓冲区。在训练阶段，则从缓冲区中随机抽取64条记录，形成一个批。在数据的驱动下，可以根据前述Actor-Critic网络结构所述的训练方法对,进行更新。

在真实的车载应用卸载环境中，资源管理算法的执行时间也是任务时延的重要组成部分。深度强化学习算法一般由训练算法和预测算法两部分组成。事实上，在实际的运行环境中，智能体在绝大部分时间内仅需要进行预测。因此，将只讨论算法的预测时间复杂度。以下表1和表2分别给出车载任务卸载的训练算法和预测算法。

5、仿真实验

为了验证本发明方法的有效性，本仿真实验选择基线算法、DRL算法以及CNN-DRL算法进行性能对比。基线算法指的是车辆卸载决策及网络资源分配是完全随机的。DRL算法指的是使用文献^[3]中的深度强化学习结构及奖励来解决本文问题。CNN-DRL算法指的是使用卷积网络替代神经网络进行特征提取的深度强化学习结构，类似于文献^[4]。此外，大量研究^[5,6]表明，使用连续型深度强化学习解决连续控制问题的效果更好。因此，本文不考虑算法的DQN实现。接下来给出仿真实验的环境，并展示本发明方法在不同参数和指标下的性能。

5.1仿真环境

仿真场景由一个十字路口、车辆、边缘服务器、无人机和近地卫星组成，每个方向有三条车道。仿真开始时，车辆的位置、方向和速度均是随机生成的。此外，在行驶过程中，车辆会随机生成不同需求的计算任务，并且当其到达十字路口或道路尽头时，它将改变方向并继续行驶。实验参数具体如表3所示。

5.2仿真结果

由于学习速率和缓冲区大小对网络的收敛有重要影响，因此合理设置学习速率和缓冲区大小可以帮助网络收敛到更高的累积回报。在本节中将展示算法的收敛性、学习率和缓冲区等超参数对算法的影响。此外，还通过比较不同算法的累计奖励、平均任务成功率和平均任务时延来验证本发明方法的有效性。

图5展示了四种方法在训练过程中累计奖励的变化。相较于基线算法，深度强化学习方案的累积奖励得到了显著提高。这是因为基线算法以完全随机的方式决定车辆卸载决策和网络资源分配，没有考虑到任务需求与网络状态的关系。在初始阶段，策略网络和价值网络的参数不是最优的，对应的累计奖励也较低。随着训练的进行，策略网络不断趋于最优，在第60步时，累计奖励达到了高水平且波动较小，这个结果验证了本发明方法的收敛性能。

学习率和缓冲区大小都是算法中的超参数，它们与网络的收敛速度和累积回报密切相关。然而，它们之间的关系不是线性的，因此，通过对比实验来选择合适的学习率和缓冲区大小对于模型的性能非常重要。图6展示了学习率分别为4e-7、5e-7和6e-7时算法的累积回报，由此发现当学习率为5e-7时，网络可以更快地收敛到高的回报。图7展示了缓冲区大小分别为1000、500、200和100时算法的累积回报，由此发现，当缓冲区大小为1000时，累积回报较高且波动较小。因此，在本实施例方法中，可以将选择学习率为5e-7和能容纳1000条记录的缓冲区。

接下来将从累积回报、平均任务成功率和平均任务时延三个指标比较四种方法的性能。以频谱资源为例研究四种方法在不同频谱资源下的性能差异。

图8展示了不同通信资源下的累积奖励，累积奖励可以在一定程度上反映算法的性能。可以发现，随着资源的增加，四种方法的累计奖励都在增加。不过，与基线算法相比，深度强化学习方案的累计奖励明显更高，其中本发明主法的累计奖励是四种方法中最高的。图9展示了不同通信资源下的平均任务成功率的对比，这也正是联合优化问题的目标。由此发现，随着资源的增加，四种方法的平均任务成功率都在增加，其中本发明方法的平均任务成功率是四种方法中最高的。图10展示了不同通信资源下的平均任务时延的对比。由此发现，随着资源的增加，四种方法的平均任务时延都在降低，其中本发明方法的平均任务时延是四种方法中最低的。这是因为本发明方法使用了Softmax函数对离散动作进行连续化处理，使得深度强化学习网络结构更适合于本实施例的联合优化问题。此外，根据优化目标设计的奖励函数是非负的、连续的。这种形式化的奖励函数不仅能避免车辆被过度分配资源从而获得高额回报，而且更容易促进网络学习。

现有的车载边缘网络覆盖和资源有限，无法为车辆提供泛在的计算服务。然而，车辆边缘计算的泛在性和实时性需求迫切需要一种适合的解决方案。因此，本实施例提出了一种适用于空天地融合车辆网络（SAGVN）的异构车辆边缘计算架构。在该架构中，车辆的计算任务可以在本地执行，也可以卸载到边缘服务器、辅助无人机或近地卫星，中央控制器会根据当前车辆的任务需求和网络资源情况进行最优决策。接着，将最大化完成卸载任务数量作为目标，建立了一个联合优化卸载决策与通信、计算和频谱资源的混合整数非线性规划（MINLP）问题，并提出了一种基于深度强化学习的联合优化算法。在将原问题重新表述为马尔可夫决策的过程中，使用Softmax函数对离散动作进行连续化处理，并根据优化目标设计了一种连续的、非正的奖励函数。与现有技术的准静态卸载环境不同，本发明还考虑了车辆移动对无线传输速率的影响。仿真结果表明，与现有算法相比，本发明方法的累计奖励和任务成功率均有明显提高。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

参考文献

[1]Y.Liu,H.Zhang,H.Zhou,et al.“User Association,Subchannel and PowerAllocation in Space-Air-Ground Integrated Vehicular Network with DelayConstraints”,IEEE Transactions on Network Science and Engineering,2022.

[2]P.Ray.“A review on 6G for space-air-ground integrated network:Keyenablers,open challenges,and future direction”, Journal of King Saud University-Computer and Information Sciences,2022.

[3]H.Peng,X.Shen.“DDPG-basedresource management for MEC/UAV-assistedvehicular networks”,2020 IEEE 92nd Vehicular Technology Conference,pp. 1-6,2020

[4]L.Xiao,H.Zhang,Y.Xiao,et al.“Reinforcement learning-based downlinkinterference control for ultra-dense small cells”,IEEE Transactions on Wireless Communications, vol.19,no.1,pp. 423-434,2019.

[5]H.Lu,X.He,M.Du, et al.“Edge QoE: Computation Offloading With DeepReinforcement Learning for Internet of Things”,IEEE Internet of Things Journal,vol.7, no.10,pp. 9255-9265, 2020,doi:10.1109/JIOT.2020.2981557.

[6]A.Seid,G.Boateng,S.Anokye,et al.“Collaborative ComputationOffloading and Resource Allocation in Multi-UAV-Assisted IoT Networks: A DeepReinforcement Learning Approach”,IEEE Internet of Things Journal, vol.8,no.15, pp.12203-12218,2021, doi:10.1109/JIOT.2021.3063188.

Claims

1.一种空天地融合车辆网络中基于深度强化学习的任务卸载与资源分配方法，其特征在于，包括：

；

2.根据权利要求1所述的任务卸载与资源分配方法，其特征在于，所述车载计算任务在车本地执行和分别卸载到地面节点、空中节点、空间节点执行的时延模型为：

；

其中：表示车辆的计算任务的计算量；分别表示空间节点、空中节点和地面节点的总存储资源；分别表示空间节点、空中节点和地面节点的总计算资源；表示车辆的传输功率，表示车辆分别与空间节点、空中节点、地面节点之间信道增益，表示车辆分别与空间节点、空中节点、地面节点之间的距离，表示距离衰减因子，表示空间节点、空中节点、地面节点的信道背景噪声。

3.根据权利要求1所述的任务卸载与资源分配方法，其特征在于，所述采用深度强化学习方法求解上述规划问题，具体包括：

（1）将待优化时段划分为多个长度相等的时隙；

4.根据权利要求3所述的任务卸载与资源分配方法，其特征在于，所述深度强化学习网络的训练方法为：

获取各时段初始时隙的状态向量；

5.根据权利要求4所述的任务卸载与资源分配方法，其特征在于，在现有Actor网络和Critic网络的基础上，再引入对应的目标网络分别记为和；其中和分别为目标网络和的参数；具体地：

；

式中，为损失值；

；

其中，为软更新系数，是一个0~1之间的参数。

6.根据权利要求5所述的任务卸载与资源分配方法，其特征在于，使用Critic网络逼近的价值函数表示为：

；

7.根据权利要求4所述的任务卸载与资源分配方法，其特征在于，在采用深度强化学习时，卸载决策分解为车辆i选择车本地执行和分别卸载到空间节点、空中节点和地面节点执行的概率，并通过softmax函数激活，实现概率和为1的约束，即；其中表示车辆在时隙t选择第j种执行策略的概率，分别对应车本地、空间节点、空中节点和地面节点。

8.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～7中任一项所述的任务卸载与资源分配方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～7中任一项所述的任务卸载与资源分配方法。

10.一种空天地融合车辆网络的任务卸载与资源分配系统，其特征在于，包括车辆、边缘服务器、无人机、近地卫星和中央控制器；所述中央控制器采用权利要求1-7任一所述的任务卸载与资源分配方法获得任务卸载与资源分配方案，并由车辆、边缘服务器、无人机和近地卫星执行该方案。