CN114449584A

CN114449584A - 基于深度强化学习的分布式计算卸载方法及装置

Info

Publication number: CN114449584A
Application number: CN202210120047.6A
Authority: CN
Inventors: 陆绍飞; 刘伸; 杨贯中; 李军义
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-06
Anticipated expiration: 2042-02-09
Also published as: CN114449584B

Abstract

本申请涉及一种基于深度强化学习的分布式计算卸载方法及装置。该方法：设置计算卸载框架，根据计算卸载框架建立通信模型和计算模型，通信模型用于计算终端设备的信号噪声干扰比，计算模型用于对终端设备进行本地计算和边缘计算，基于计算卸载框架、通信模型和计算模型，将计算卸载问题建模成马尔可夫决策过程，利用双Critic网络的深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解，得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解，双Critic网络分别进行拟合，降低单个Critic网络进行拟合的复杂性，提高Critic网络的收敛速度，从而大大提高模型整体的收敛速度。

Description

基于深度强化学习的分布式计算卸载方法及装置

技术领域

本申请涉及基于计算模型的移动边缘计算的计算卸载技术领域，尤其涉及一种基于深度强化学习的分布式计算卸载方法及装置。

背景技术

随着5G技术的快速发展，带动了物联网（Internet of Things，IOT）以及计算密集应用的发展，例如智能制造、虚拟现实、增强现实以及车联网等。

移动边缘计算（Mobile Edge Computing，MEC）作为5G背景下的核心技术。该技术可以在靠近用户场景一侧，通过无线通信的方式为计算任务与应用提供额外的弹性算力，能够有效减少计算任务的计算时延与代价，使得计算密集型任务在低算力设备上的运行成为可能。

移动边缘计算相对于云计算具有近距离、高节点密度的特性，其服务器通常为小型基站（Base Station，BS），可以直接部署在无线网络控制器上、蜂窝网络基站、无线接入点等位置。移动边缘计算节点与用户设备距离更近使得移动边缘计算具有低计算延迟等特点。此外，由于边缘计算节点相对于云计算，单个节点需要服务的用户数量相对较少，所以具有更强的隐私性与安全性。因此，移动边缘计算对于计算密集、时延敏感型应用以及局部IOT场景具有更好的适用性。

移动边缘计算中的计算卸载与资源分配问题是移动边缘计算在学术研究领域的一个核心研究课题。对于该问题的研究通常可以分为两个阶段：

1、计算卸载框架的设置。

目前的研究工作中，计算卸载框架所使用的主要包括多用户-单BS和多用户-多BS。基于多用户-单BS框架的研究主要关注于多用户向同一个基站进行计算卸载时，传输信号的干扰问题以及用户终端卸载决策问题，其中涉及时分多址（Time Division MultipleAccess，TDMA）、正交频分多址（Orthogonal FrequencyDivision Multiple Access，OFDMA）、非正交多址（(Non-Orthogonal Multiple Access，NOMA）等通信相关技术，利用这类技术，对于多个用户通讯过程中的干扰进行计算。得到的信号噪声干扰比（Signal toInterference plus Noise Ratio，SINR）结果是影响系统计算卸载代价与卸载决策的关键因素。

基于多用户-多BS框架的研究主要关注于联合卸载决策与资源分配问题，这类框架中通常假设边缘服务器资源相对于云服务来说更加有限，具有更大的传输代价的云服务器将会参与到联合卸载决策与资源分配的过程中，卸载决策的过程除了需要确定各个终端设备卸载的任务量大小，边缘与云服务器分配给各个设备的计算资源大小需要同时被考虑。

2、计算卸载问题的定义与求解。

计算卸载问题的求解可以看作对于某一个优化目标的求解，由于该问题通常需要在大量约束与条件下求解，且其状态与决策空间具有高维度的特点，为NP-hard的混合整数非线性规划问题。因此对于计算卸载问题的求解也是该领域研究的一个主要问题，早期的求解方式通常是一些传统的非机器学习算法，包括量化设备的计算任务并通过设置阈值的方式进行卸载决策、贪心算法、遗传算法以及粒子集群算法等。

近年来，大量基于深度强化学习的计算卸载问题求解方案被提出，这些方法通常将计算卸载问题转化为一个马尔可夫决策过程完成求解。

目前被应用到计算卸载与资源分配问题的深度强化学习（Deep reinforcementlearning，DRL）算法包括深度Q网络（Deep Q Net，DQN）算法和深度确定性策略梯度（DeepDeterministic Policy Gradient，DDPG）算法。基于这两个算法，部分研究针对计算卸载与资源分配问题进一步进行优化，如通过建立与求解部分观察马尔可夫决策过程的方式，保护用户未公开信息的同时进行计算卸载。在DDPG中加入注意力机制、在特征网络提取中加入长期记忆（Long short-term memory，LSTM）以及设计排序的经验回放池的方式加速和稳定模型训练的收敛。但上述方式还是无法有效地提高模型的收敛速度。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种基于深度强化学习的分布式计算卸载方法及装置，能够提高模型的收敛速度。

本申请的第一方面提供了一种基于深度强化学习的分布式计算卸载方法，包括：

设置计算卸载框架，其中所述计算卸载框架包括至少一个终端设备、至少一个基站；

根据所述计算卸载框架建立通信模型，其中所述通信模型用于计算所述终端设备的信号噪声干扰比；

根据所述计算卸载框架建立计算模型，其中所述计算模型用于对所述终端设备进行本地计算和边缘计算；

基于所述计算卸载框架、所述通信模型和所述计算模型，将计算卸载问题建模成马尔可夫决策过程；

构造出双Critic网络的深度确定性策略梯度算法，利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解，得到卸载决策。

优选的，所述设置计算卸载框架，包括：

选用多个所述终端设备-单个所述基站的架构设置计算卸载框架，其中各所述终端设备均设有计算任务缓存池，各所述终端设备于每个时间片内均能独立决策卸载策略。

优选的，所述所述通信模型用于计算当前所述终端设备的信号噪声干扰比，包括：

所述通信模型采用迫零检测算法计算当前所述终端设备的信号噪声干扰比。

优选的，所述所述计算模型用于对所述终端设备进行本地计算和边缘计算，包括：

在单位时间片内计算所述终端设备执行本地计算时的任务量大小；

根据所述信号噪声干扰比和传输带宽计算所述终端设备执行边缘计算时的计算卸载任务量大小。

优选的，所述将计算卸载问题建模成马尔可夫决策过程，包括：

将计算卸载问题的各项参数和指标对应典型的马尔可夫决策过程的四元组进行建模，其中所述四元组包括系统的状态空间、动作空间、奖励函数以及状态转移。

优选的，所述构造出双Critic网络的深度确定性策略梯度算法，包括：

利用双Critic网络分别拟合所述奖励函数中的功率和缓存池计算任务队列两部分的Q值，构造出深度确定性策略梯度算法。

本申请的第二方面提供了一种基于深度强化学习的分布式计算卸载装置，包括：

设置模块，用于设置计算卸载框架，其中所述计算卸载框架包括至少一个终端设备、至少一个基站；

第一建立模块，用于根据所述计算卸载框架建立通信模型，其中所述通信模型用于计算所述终端设备的信号噪声干扰比；

第二建立模块，用于根据所述计算卸载框架建立计算模型，其中所述计算模型用于对所述终端设备进行本地计算和边缘计算；

建模模块，用于基于所述计算卸载框架、所述通信模型和所述计算模型，将计算卸载问题建模成马尔可夫决策过程；

迭代模块，用于构造出双Critic网络的深度确定性策略梯度算法，利用所述深度确定性策略梯度算法对所述马尔可夫决策过程进行优化迭代求解，得到卸载决策。

优选的，所述设置模块设置计算卸载框架，包括：

本申请的第三方面提供了一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的基于深度强化学习的分布式计算卸载方法。

本申请的第四方面提供了一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的基于深度强化学习的分布式计算卸载方法。

本申请提供的技术方案可以包括以下有益效果：

本申请的技术方案，设置计算卸载框架，根据计算卸载框架建立通信模型和计算模型，通信模型用于计算所述终端设备的信号噪声干扰比，计算模型用于对终端设备进行本地计算和边缘计算，基于计算卸载框架、通信模型和计算模型，将计算卸载问题建模成马尔可夫决策过程，利用双Critic网络的深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解，得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解，双Critic网络分别进行拟合，降低单个Critic网络进行拟合的复杂性，提高Critic网络的收敛速度，从而大大提高模型整体的收敛速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的基于深度强化学习的分布式计算卸载方法的流程示意图；

图2是本申请实施例示出的计算卸载框架的结构示意图；

图3是本申请实施例示出的MDP模型与系统状态转移的示意图；

图4是本申请实施例示出的DC-DDPG模型的结构示意图；

图5是本申请实施例示出的基于深度强化学习的分布式计算卸载装置的结构示意图；

图6是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

目前相关技术中，关于计算卸载问题通常转化成一个马尔可夫决策求解的过程提出。采用深度Q网络算法和深度确定性策略梯度算法来进行迭代求解。但上述方式还是无法有效地提高模型的收敛速度且无法应对多优化目标的权衡问题。

因此，针对上述问题，本申请实施例提供了一种基于深度强化学习的分布式计算卸载方法及装置，能够提高模型的收敛速度。

以下结合附图详细说明本申请实施例的技术方案。

图1示出了本申请实施例中的一种基于深度强化学习的分布式计算卸载方法，包括如下步骤：

步骤S11、设置计算卸载框架，其中计算卸载框架包括至少一个终端设备、至少一个基站。

对于工业互联网智能制造场景下的边缘计算计算卸载框架，由于其终端设备集中性以及低移动性等特点，可以假设所有需要执行计算卸载的终端设备可以被一个边缘计算设备所覆盖。请参阅图2，计算卸载框架可以被建模为一个多个终端设备-单个基站（基站即BS，下同，基站包含边缘计算服务器）计算节点的双层模型，模型中的设备利用无线通信的方式完成通信。

计算卸载框架中的边缘计算服务器利用

表示，假设其接收天线的数量为M。模型中有N个终端设备相对集中的分布，终端设备的集合可以表示为：

对于

中的每个终端设备，假设其具有一定的计算能力，并且具有将计算任务卸载至边缘计算服务器

（边缘计算服务器

又称边缘计算节点）的能力，每个时间片各个设备独立决策其卸载策略。每个终端设备都配备有一个计算任务缓冲池。

为了更好的执行计算卸载的任务，将计算卸载的过程在时间尺度上划分为多个等长的时间片，每个时间片的长度为τ，假设最长的时间为T，则利用

表示当前时间片。等长时间片是系统状态改变以及卸载决策的最小单位，在每个时间片，模型中的各个终端计算设备会随机产生一定大小的计算任务

，表示时间片t下，终端设备

产生的计算任务的大小；此外，设备的计算任务缓冲池中会存在一定的在上一时间片未计算完毕的计算任务，将缓存池的任务大小记为

，表示时间片t下，终端设备

计算任务缓冲区的队列长度。

步骤S12、根据计算卸载框架建立通信模型，其中通信模型用于计算终端设备的信号噪声干扰比。

根据上述提出的多终端设备-单BS计算卸载框架，可以将当前场景下的计算卸载通信模型建立为多输入多输出（ Multiple Input and Multiple Output，MIMO）模型。当N个终端设备同时与BS进行通信时，彼此之间存在频谱的混叠与干扰。因此，接收端采取不同的MIMO系统的检测算法，将会直接影响发射信号向量的估计值。

本发明中， BS采用ZF（迫零检测）算法进行接收端检测，ZF技术利用信道矩阵的加权矩阵乘以接收到的信号的方式将相互干扰的发送信号分开，实现分层检测，其中，信道矩阵

可以具体表示为：

（1）

矩阵中的每一元素

表示终端设备

在时间t向BS的第i个天线支路的复传输系数（i为大于或者等于1的正整数）。矩阵中的每一列都可以表示一台终端设备当前的信道增益状态，可以利用

进行表示。

根据ZF准则，信道矩阵的加权矩阵

可以具体表示为：

（2）

其中

表示埃米特转置操作。

中的第n行表示在时间t，

代表的是终端设备的数量，

为天线的数量。BS用于检测终端设备n的信号，记为

。对于终端设备

而言，其发射信号在BS端接收信号的估计值为：

（3）

其中

表示BS端接收到的信号；

表示参与空间复用的n个终端设备的数据；

表示BS接收数据过程中的高斯白噪声。

此时差错性能与

直接相关，ZF检测后的噪声功率可以利用

进行表示，根据上述的推导。可知，在当前模型中，在t时刻，终端设备

的信号噪声干扰比SINR可以表示为：

（4）

公式（4）用于计算卸载过程中，终端设备与BS通信过程中传输速率的计算，并影响卸载决策过程中计算卸载的成本以及得到的奖励。

步骤S13、根据计算卸载框架建立计算模型，其中计算模型用于对终端设备进行本地计算和边缘计算。

请参阅图3，计算卸载过程中的计算主要分为本地计算与边缘计算，这两部分计算的任务量的大小主要取决于设备用于本地计算与计算卸载数据传输的功率的大小，基于动态电压频率调节技术，可以调整两部分功率的大小。

本地计算：

对于终端设备

，假设其用于本地计算的功率大小为

，其中

表示终端设备

可用于本地计算的最大功率。

根据动态电压频率调整技术，设备本地计算的CPU频率可以表示为

。根据功率的取值范围，可知终端设备

计算过程中CPU频率范围为

。根据上述推论，单位时间片内，终端设备

执行本地计算的任务量的大小为：

（5）

其中

表示终端设备

运算单位bit数据所需的CPU周期数。

边缘计算：

基站的边缘计算服务器具有充足的算力，能够保证卸载至边缘计算设备的计算任务能够完成计算。由于计算得到的结果通常数据量很小，所以忽略计算结果回传的过程。

卸载计算的任务量的大小取决于计算数据上传的大小。计算终端设备

卸载计算任务到基站的边缘计算服务器的大小可以写为

（6）

其中

表示终端设备

的传输带宽，

表示终端设备

在时间t传输过程中的信号-噪声加干扰比值SINR，可由公式（4）得到。

完成步骤S12和步骤S13后，可以建立计算卸载问题模型。

每个终端设备独立执行计算卸载决策，所以对于各个终端设备，均进行独立的问题建模与卸载决策。该计算卸载问题模型的目标为最小化当前设备的能耗与计算任务计算量的加权和，其中能耗利用设备的本地计算与传输功率表示，计算任务计算量利用缓存池的任务量作为指标，选用该指标可以更好的适应不同任务到达率的情况下，功率与计算任务间的平衡关系。对于终端设备设备

，可以将优化问题表示为：

（7）

步骤S14、基于计算卸载框架、通信模型和计算模型，将计算卸载问题建模成马尔可夫决策过程。

使用深度强化学习（DRL）的方式最小化上述累计奖励，这一目标与马尔科夫决策过程（MDP）的目标是一致的。将一个基于深度强化学习求解的问题建模为MDP。计算卸载问题的各项参数和指标匹配对应典型的MDP的四元组

，其中S表示系统环境状态的集合，A表示动作空间的集合，其在各个状态下，系统可能做出的决策。T表示转移函数，即在当前的状态下，执行某一动作后，系统状态的转移；R为奖励函数，定义了当前状态下，选择动作后得到的奖赏。

1）状态空间

在每一个时间片开始时，各个终端设备独立的感知自身的环境状态。各个终端的状态主要由通信相关状态以及计算任务相关状态组成，对于设备

在时间t的系统状态可以具体表示为：

（8）

其中

表示终端设备

在时间t-1的SINR；

表示终端设备

在时间t的信道增益矩阵；

表示终端设备

在时间t到达的计算任务量的大小；

表示终端设备

在时间t时计算任务缓存池的大小；

表示终端设备

计算单位bit任务所需的CPU周期数。

2）动作空间

终端设备在感知系统状态后，需要对于本地计算与卸载计算数据传输的功率进行决策，即系统做出的决策由本地计算的功率以及数据传输的功率两部分组成。对于终端设备

在时间t的系统决策可以具体表示为：

（9）

3）奖励函数

根据通信模型、计算模型、计算卸载问题模型，为了得到长时间尺度上本地计算与数据传输功率以及缓存池任务量大小之间的加权和。在某一状态下，决策后立即获得的奖励。对于终端设备

在状态

，选择

后得到的即时奖励可以表示为：

（10）

4）状态转移

在生成系统决策后，系统便会在当前时间片内，按照决策执行计算，并使得当前的系统状态发生改变，形成下一时间片的初始系统状态。系统状态的转变主要体现在两个方面：缓存池任务量大小以及信号增益向量。对于终端设备

，在时间t+1时，其缓存池数据量的大小可以表示为：

（11）

其中

与

分别表示本地计算与计算卸载所计算的bit数，

，

。此外，下一时间片的信道增益向量可由当前时间片的信道增益向量计算，可以表示为：

（12）

其中

表示终端设备

与BS通信过程中，时间t与t+1之间正则化信道增益相关系数。

表示误差向量，这一项与信道增益向量不相关。

本发明的分布式计算卸载与资源分配系统的目标是在较长时间尺度上，最小化计算成本以及缓存池队列长度的加权和，即最大化上述MDP模型的奖励和，可以表示为：

（13）

其中

为一个折扣因子，表示计算过程中对于未来收益的重视程度。

步骤S15、构造出双Critic网络的深度确定性策略梯度算法，利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解，得到卸载决策。

请参阅图4，本发明中提出的DC-DDPG算法主要参考深度确定性策略梯度算法（Deep Deterministic Policy Gradient，DDPG），DDPG算法主要用于解决传统DQN算法无法处理高维度连续动作空间的问题。DDPG（Deep Deterministic Policy Gradient）由一个经验回放池以及两组Actor-Critic网络组成，经验回放池存储了agent与环境交互得到的转移样本，其中的每一项均由状态、选择的动作、奖励以及下一状态组成，需要进行训练时，就从回放池抽取一组采样结果进行训练，避免训练过程中的相关性问题。

DDPG中的第一个D表示Deep，由于DDPG是基于DPG网络得到的，这个Deep将DPG中的一组Actor-critic Net变为两组，分别称为Main Net以及Target Net。第二个D表示Deterministic，表示该模型为确定性策略。Actor Net和Critic Net均为DNN。Actor Net的主要作用是在当前观测状态下，生成动作空间即

。Critic Net的主要作用是计算当前Q值，即

，Main Net的主要作用是生成策略梯度。Target Net的主要作用是生产TD目标，结合Main Net生成TD误差，以此更新Critic Net。

本发明在DDPG算法的基础上，进一步将模型优化为适用于本发明研究问题的DRL算法。根据计算卸载问题模型可知，本发明中的奖励函数由衡量计算卸载代价的两部分参数加权所得，这两类参数直观来看相关性较低。若使用传统的DDPG算法求解本发明研究的决策问题，Critic Net可能会因为上述价值函数的特性，导致较慢的收敛速度进一步影响Actor Net及系统的整体收敛速度，此外Q值的预估同样会受到一定程度的影响。

1）DC-DDPG模型结构

该模型由两组Actor-dual Critic网络以及一个经验回放池组成。模型最大的特点利用双Critic网络分别逼近奖励函数中的功率以及缓存池计算任务队列大小两部分的Q值，相应的模型的经验回放池同样应该分别记录两部分的奖励值，可以表示为：

其中，

表示与系统功率相关的即时奖励；

表示与缓存池大小相关的即时奖励。

2）算法训练与运行

Main Net是模型训练过程中的主体部分，Target Net主要用于辅助计算Q值，用于Main Critic Net的训练。Target Net定期通过从Main Net复制参数的方式进行更新。

Main Actor Net更新

Main Actor Net结构主要作用是基于当前状态选择动作，此外，为了增加学习过程中的随机性，增加学习的覆盖率，Main Actor Net在选择出动作后会增加随机的噪声N，Main Net的主要作用可以表示为：

（14）

其中

表示Main Actor Net的参数、

表示终端设备

在时间t由MainActor Net生成Action后增加的随机噪声。

Main Actor Net更新的策略梯度可由动作选择后计算得到的Q值梯度的期望表示，可以表示为：

（15）

其中

与

分别表示Main Net用于拟合功率部分与缓存池任务队列长度这两部分Q值的网络参数，

、

基于上述的两个Main Critic Net计算得到的。由于本发明模型使用经验回放池的异步训练方式，所以每次训练时的将会从经验回放池抽取V组数据进行训练，假设数据对应的编号为{1、2、……、v}此时，上述梯度策略可以表示为：

（16）

此时对于Main Actor Net的更新可以表示为：

（17）

其中

表示Main Actor Net的学习率。

Main Critic Net更新

本模型中的Main Net中使用了双Critic Net，双Critic Net虽然用于拟合两个不同部分的Q值，但其基本原理与训练过程一致，所以此处以表示功率相关Q值的Critic Net

为例进行介绍。

理论上Q值函数可以定义为：

；

；

根据上述公式结合贝尔曼方程递推公式以及确定性策略的性质，可以将当前部分的Action-Value函数写为：

（18）

对于Main Critic Net的更新主要在于不断的更新网络参数

，从而减小预估Q值与目标Q值之间的差值，即最小化损失函数，当前与功率相关的Main Critic Net的损失函数可以定义为：

（19）

其中

表示与功率相关的目标Q值，可以表示为：

（20）

其中

表示Target Actor Net，

表示与功率相关的Target Critic Net，

为利用Target CriticNet

计算得到的Q值。根据上述损失函数，可得损失函数的梯度公式为：

（21）

由于当前模型的训练为通过抽取经验回放池中的采样数据的方式进行，类似于公式（16）的推导，可以将损失函数的梯度公式写为：

（22）

因此可以将与功率相关的Main Critic Net的更新公式表示为：

（23）

其中

表示与功率相关的MainCriticNet更新时的学习率。

Target Net更新

本发明提出的算法基于DDPG进行优化与改进，该算法保持了与DDPG一致的TargetNet参数更新方式，即软更新。软更新利用Main Net参数与原本的Target Net参数实现更新，可以表示为：

（24）

（25）

（26）

其中

表示软更新系数，这一系数通常取值较小，通过软更新的方式虽然会减慢学习速度，但是可以保证稳定性。

本发明结合实际的工业互联网智能制造场景提出了适应的计算卸载框架，并利用双Critic网络的深度确定性策略梯度算法DC-DDPG实现卸载决策。通过DC-DDPG算法，利用双Critic Net分别拟合两部分Q值，从而降低单个Critic网络进行拟合的复杂性，提高Critic网络的收敛速度，从而使得算法整体具有更快的收敛速度。单Critic网络拟合Q值的复杂性的降低可以提高Q值逼近的精确度，从而进一步降低计算总代价。此外，根据需求的变更，在计算卸载的过程中可以需要对于功率、计算量两部分的权重进行调整。使用两个网络分别拟合加权连接的两个部分，在权重变化后，Critic网络无需重新进行训练，只需要让Actor网络继续学习即可再次使得网络再次达到收敛。

除上述的技术效果以外，本发明的技术方案在应对不同计算负载情况下的稳定性以及在高计算负载压力的情况下，更好的卸载决策效果。原因是由于其他深度强化学习算法，利用单个Critic网络拟合两部分Q值，而这两部分Q值前乘上的系数与权重会参与到训练的过程中，对于本方法设定的模型下，会导致训练过程中对于功率这一项的惩罚较大，导致功率始终保持在一个较低的范围，这一特点在计算负载较低时影响不大，但是随着计算负载的提高，功率无法适应性的提高将会导致任务缓存池的队列长度过大，即计算延迟过大，从而导致系统整体代价快速增加，性能下降。

为了更好地理解本申请的技术方案的技术效果，下面以具体测试实验来进行说明。

计算卸载框架中，设置有单个BS，系统设置三个终端设备进行实验测试。实验过程中的时间片间隔设置为τ=1ms。

通信模型相关的参数设置为，在每个运行阶段开始时，会随机初始化各个终端设备的信道增益矩阵为：

；

其中

表示信道损失常数，

表示参考距离，

表示终端设备与BS的距离，

表示路径损耗指数。信道增益矩阵在后续时间片会根据公式（12）进行更新，时间片间信道增益的相关度系数设置为

。

误差向量满足复杂高斯分布

。

各个终端设备具有一个计算任务到达率

，每个时间片随机到达的计算任务满足

的泊松分布。计算每bit的计算任务所需的CPU周期数满足[200，500]之间的正态分布。各个终端设备计算的最高频率频为1.26GHz，即本地计算的最高功率为

。此外用于通信的最高功率同样设置为

，噪声功率设置为

。

所有实验均运行在同一台MacBook Pro上，操作系统为macOS 11.5.2，处理器为2GHz 四核Intel Core i5，图形卡为Intel Iris Plus Graphics 1536 MB，内存16 GB 3733MHz LPDDR4X。运行环境利用Pycharm作为IDE，利用Python语言实现，Python版本为3.8，Tensorflow版本为2.5.0。

对于每个终端设备的Agent，其DC-DDPG网络中的Main Net以及Target Net中的6个DNN网络结构一致，为4层全连接层加两层隐藏层的神经网络，隐藏层的节点数分别为400、300，并使用Relu函数作为激活函数。输出层利用的一个sigmoid层设置输出的样式。Main Actor Net以及Main Critic Net的学习率分别设置为0.0001以及0.001。

对于Target Net，其软更新的更新系数设置为0.001。模型中经验回放池的容量设置为

，学习过程中从经验回放池中采样的大小设置为V=16。实际实验过程中，由于功率相关部分奖励函数与计算任务量奖励函数间的数量级差距，结果会在原本的加权比例基础上，将功率相关价值函数扩大10倍。

实验中，参与对比的其他算法分别为：基于DQN算法的计算卸载，由于DQN需要使用离散的动作空间，所以会将

与

等比例离散化作为其动作空间。

基于DDPG算法的计算卸载，实验中，为了保证对比实验的公平性，所有的基于深度强化学习方法中使用的DNN网络具有相同的网络结构。对比实验具体设置如表1所示。

表1 对比实验设置

实验结果评估

1）训练阶段

依照2中的实验设置，对于对应参数、算法的模型进行训练。根据模型训练过程中的奖励值可以看出，三种基于深度强化学习的算法其reward均随着迭代次数的增加而增大，表明了学习的有效性。从三种方法的收敛速度的对比结果可以看出，DC-DDPG与DQN在数据到达率较小

的情况下具有近似的收敛速度，均可在较少的Episode内达到收敛，而DC-DDPG相对于DDPG具有明显更快收敛速度，且这一现象随着数据率的增大会更为明显。对于DQN算法而言，随着数据率到达率的增大，模型的训练过程中稳定下大大降低。

2）测试阶段

对于2中介绍的实验设置，利用对应的参数，算法在经过1000个Episode训练后的模型进行测试，测试过程利用100个Episode进行测试，每个Episode的最大时间长度T=500，测试得到的平均Reward结果如表2所示。

表 2 对比实验结果

对比实验结果可以看出，本方法在不同数据到达率的设备上，均有着良好的卸载决策效果，可以有效的降低计算代价。当数据到达率

较小时，其平均计算代价与其他深度强化学习算法得到的结果近似；随着数据到达率的提高，DC-DDPG算法的卸载决策效果优于其他深度强化学习算法，且这一优势随着数据到达率的提高，会变得更为显著。

总体来看，本发明提出的算法利用双Critic网络的方式对于Q值进行拟合，从而使得双Critic网络都可以更快、更精确的完成拟合，使得系统在更快收敛的同时，取得更好的卸载决策效果。

与前述应用功能实现方法实施例相对应，本申请还提供了一种压药参数的改良处理装置及相应的实施例。

图5示出的是本申请实施例中的一种基于深度强化学习的分布式计算卸载装置的结构示意图，该装置50包括设置模块510、第一建立模块520、第二建立模块530、建模模块540及迭代模块550。其中：

设置模块510用于设置计算卸载框架，其中计算卸载框架包括至少一个终端设备、至少一个基站。

具体地，设置模块510设置计算卸载框架时，一可选实施方式为：选用多个终端设备-单个基站的架构设置计算卸载框架，其中各终端设备均设有计算任务缓存池，各终端设备于每个时间片内均能独立决策卸载策略。

第一建立模块520用于根据计算卸载框架建立通信模型，其中通信模型用于计算终端设备的信号噪声干扰比。

第二建立模块530用于根据计算卸载框架建立计算模型，其中计算模型用于对终端设备进行本地计算和边缘计算。

建模模块540用于基于计算卸载框架、通信模型和计算模型，将计算卸载问题建模成马尔可夫决策过程。

迭代模块550用于构造出双Critic网络的深度确定性策略梯度算法，利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解，得到卸载决策。

本实施例的装置，设置模块510用于设置计算卸载框架，第一建立模块520用于根据计算卸载框架建立通信模型，第二建立模块530用于根据计算卸载框架建立计算模型，建模模块540用于基于计算卸载框架、通信模型和计算模型，将计算卸载问题建模成马尔可夫决策过程，迭代模块550构造出双Critic网络的深度确定性策略梯度算法，利用深度确定性策略梯度算法对马尔可夫决策过程进行优化迭代求解，得到卸载决策。由于利用双Critic网络的深度确定性策略梯度算法来进行优化迭代求解，双Critic网络分别进行拟合，降低单个Critic网络进行拟合的复杂性，提高Critic网络的收敛速度，从而大大提高模型整体的收敛速度。

关于上述实施例中的装置，其中各个模块及单元执行操作的具体方式已经在有关该装置所对应的方法实施例中进行了详细描述，此处将不再做详细阐述说明。

请参阅图6，电子设备600包括处理器610和存储器620。

处理器610可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器620可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器610或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器620可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。存储器620上存储有可执行代码，当可执行代码被处理器610处理时，可以使处理器610执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于深度强化学习的分布式计算卸载方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法，其特征在于，所述设置计算卸载框架，包括：

3.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法，其特征在于，所述所述通信模型用于计算当前所述终端设备的信号噪声干扰比，包括：

4.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法，其特征在于，所述所述计算模型用于对所述终端设备进行本地计算和边缘计算，包括：

5.根据权利要求1所述的基于深度强化学习的分布式计算卸载方法，其特征在于，所述将计算卸载问题建模成马尔可夫决策过程，包括：

6.根据权利要求5所述的基于深度强化学习的分布式计算卸载方法，其特征在于，所述构造出双Critic网络的深度确定性策略梯度算法，包括：

7.一种基于深度强化学习的分布式计算卸载装置，其特征在于，包括：

8.根据权利要求7所述的基于深度强化学习的分布式计算卸载装置，其特征在于，所述设置模块设置计算卸载框架，包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的基于深度强化学习的分布式计算卸载方法。

10.一种计算机可读存储介质，其特征在于，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的基于深度强化学习的分布式计算卸载方法。