CN111586696A

CN111586696A - 一种基于多智能体架构强化学习的资源分配及卸载决策方法

Info

Publication number: CN111586696A
Application number: CN202010358378.4A
Authority: CN
Inventors: 陈前斌; 谭颀; 贺兰钦; 唐伦; 刘占军
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Guizhou Goufen Technology Co ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-25
Anticipated expiration: 2040-04-29
Also published as: CN111586696B

Abstract

本发明涉及一种基于多智能体架构强化学习的资源分配及卸载决策方法，属于移动通信技术领域。该方法在考虑激励约束、能量约束、以及网络资源约束，联合优化无线资源分配、计算资源分配以及卸载决策，建立最大化系统总用户QoE的随机优化模型，并转化为MDP问题。其次，该方法将原MDP问题进行因式分解，并建立马尔科夫博弈模型。然后，该方法基于行动者‑评判家算法提出一种集中式训练、分布式执行机制。在集中式训练过程中，多智能体通过协作获取全局信息，实现资源分配及任务卸载决策策略优化，在训练过程结束后，各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载。本发明可以有效提升用户QoE，并降低了时延及能耗。

Description

一种基于多智能体架构强化学习的资源分配及卸载决策方法

技术领域

本发明属于移动通信技术领域，涉及一种基于多智能体架构强化学习的资源分配及卸载决策方法。

背景技术

随着网络服务的发展，大量的计算密集型应用如移动购物、人脸识别以及增强现实等获得了大量的关注，这些先进的应用需要低时延。同时，由于物理大小的限制，当前的物联网设备如可穿戴设备的计算资源及电池容量有限，从而不能很好的支持先进应用运行。因此，其不能为用户提供满意的QoE。为了解决这个问题，当前已有大量研究卸载全部或者部分任务到资源丰富的云中心。然而，云服务器部署的位置通常距离用户端很远，这不可避免的会造成较大的端到端时延。

为了解决上述问题，雾计算作为更贴近于终端用户的微云在网络边缘为物联网设备提供计算服务，其不仅可以减轻由于IoT设备大量增加带来的影响，还可以降低到云的流量，并进一步降低IoT设备应用的卸载时。同时，每个雾节点可以作为一个控制器来控制计算和无线资源，从而联合优化这些资源，最终带来计算资源及无线资源利用率的提升。然而，由于雾节点的资源是有限的，因此，本文考虑采用云雾混合架构，使得IoT用户可以将计算密集的任务卸载到近距离的雾节点或者资源丰富的云处理中心以满足用户的QoE。D2D底层通信可以进一步降低通信时延，一方面由于网络运营商可以得到所有用户的信任，另一方面通过D2D通信可以减轻蜂窝网络的负担，因此可以通过将D2D技术和MEC技术联合使得用户之间可以在保证真实性的前提下直接共享计算资源和无线资源。然而，由于D2D底层通信可能带来更严重的同信道干扰，因此这需要合理的资源分配进行干扰协调。

发明内容

有鉴于此，本发明的目的在于提供一种基于多智能体架构强化学习的资源分配及卸载决策方法。应用该方法能够在考虑激励约束、能量约束、以及网络资源约束，联合优化无线资源分配、计算资源分配以及卸载决策，最大化系统总用户QoE。

为达到上述目的，本发明提供如下技术方案：

一种基于多智能体架构强化学习的资源分配及卸载决策方法，在设备到设备通信D2D辅助的云雾混合架构下，考虑激励约束、能量约束和网络资源约束，联合优化无线资源分配、计算资源分配以及卸载决策，最大化系统总用户QoE；然后，基于行动者-评判家算法提出一种集中式训练、分布式执行机制；

在集中式训练过程中，多智能体通过协作获取全局信息，实现资源分配及任务卸载决策策略优化，在训练过程结束后，各智能体独立地根据当前系统状态及策略进行资源分配及任务卸载；

所述D2D辅助的云雾混合架构包含三层：

用户层，由多个支持D2D技术的IoT设备组成，IoT设备通过无线接入链路发送服务请求给相应的雾节点，并根据雾节点的决策采取相应的行为；

雾节点层，由多个部署在小区边缘的雾节点组成；

云层，作为集中式架构为用户提供丰富的资源及强大的计算能力。

可选的，所述激励约束为只有当用户贡献更多资源给其他用户时，用户才能享受更多其他用户贡献的资源；

所述能量约束为避免用户过度牺牲自己来帮助他人；

所述网络资源为通信资源和计算资源。

可选的，所述系统总用户QoE为通过计算卸载节省的长期平均通信成本。

可选的，所述全局信息为信道状态、用户设备上产生的任务特征和权重信息。

可选的，所述资源分配为功率分配、信道分配以及雾节点计算频率。

可选的，所述通信成本表示执行一个任务需要的能耗和时延的加权和。

可选的，所述信道状态为智能体服务的IoT设备到连接到雾节点的其他IoT设备的信道状态以及IoT设备到雾节点的信道状态。

可选的，所述能耗为传输能耗与计算能耗，所述时延为传输时延与计算时延。

可选的，根据所述全局信息进行资源分配和卸载任务，在每个离散的时隙上，最大化系统总用户QoE，具体步骤如下：

初始化各参数以及系统状态；

在每个调度时隙开始时，收集当前时隙的状态，即全局信息；

根据下式选取近似最优的资源分配动作和卸载决策：

其中A为：行动空间，即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频率；

其中γ为：折扣因子，所述Q^π(s_t+1,a_t+1)为：下一时隙的行为值函数；

其中r_t为：时隙t时的即时回报函数，表示为：

其中

为用户K_n,m的QoE；

给定资源分配和卸载决策，判断当前所述的资源分配和任务卸载策略是否满足所述的激励约束、能量约束以及通信资源和计算资源约束；

如果不满足，则重复上述选择最优行为的步骤；如果当前资源分配和任务卸载策略满足约束条件，则将资源分配和任务卸载策略通知给每个智能体；

经过数次迭代，判断是否满足收敛条件；

如果不满足收敛条件，则观察下一时隙状态s_t+1，重复上述步骤；

按照资源分配和任务卸载策略，分配给每个用户无线资源和信道，以及将任务卸载到D2D设备、卸载到雾节点或者云端；

等待下一个调度时隙。

本发明的有益效果在于：本发明在每个离散资源调度时隙上，系统根据所述全局信息，联合优化无线资源分配、计算资源分配以及卸载决策，实现系统总用户QoE的最大化，有效地提升用户QoE，并降低了时延及能耗。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为D2D辅助的云雾混合网络架构图；

图2为资源分配及卸载决策算法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

参见图1，图1为本发明的基于D2D辅助的云雾混合网络架构图。

在本发明中的D2D辅助的云雾混合架构下，我们考虑有M个雾节点，定义接入点集合为M＝{1,2,...,M}，接入点可以建模为具有计算和通信能力的雾节点，所有雾节点通过高速有线链路连接到远端云数据中心。假定网络中有N个IoT设备，定义IoT用户设备集合为N＝{1,2,...,N}，每个IoT设备在接入网络时连接到距离最近的接入点，进一步的，定义接入点m服务的用户集合为

且|N_m|＝N_m，

因此有

本发明考虑同信道干扰，假设系统内有个正交的信道，信道集合表示为W＝{1,2,...,W}，每个信道的带宽为B。定义信道分配因子

当

表示对于连接到雾接入点m的用户K_n,m分配了信道w。

由上文可知，对于连接到接入点m的用户K_n,m会受到来自连接到相同信道上的其他用户的干扰，表达式为：

其中

以及

分别表示连接到同一雾节点m的用户设备在信道w上的功率以及连接到其他雾接入点m'的用户K_n,m'在信道w上的功率，其中

表示其他雾节点m'服务的用户设备K_n,m'到用户设备K_n,m的信道增益。值得注意的是，当

时，

即当信道w没有分配给用户设备K_n,m时，用户设备K_n,m在信道w上的功率为0。

在时隙t，若IoT用户K_n,m将任务卸载到服务于他的雾节点m，则需要在IoT用户设备K_n,m与雾节点m之间建立一个蜂窝链路。在时隙t开始时，IoT设备给蜂窝链路分配蜂窝发送功率

由上文中干扰模型可知，在本文中

则蜂窝传输速率定义为：

其中

表示设备K_n,m与雾节点m之间的信道增益，

表示在时隙t连接到雾节点m的IoT设备K_n,m在链路w上受到通信到干扰，σ²表示信道噪声功率。

当IoT设备K_n,m在时隙t将通过D2D链路卸载到相应的D2D接收端，则需要与接收端用户设备建立D2D链路。类似于蜂窝通信链路，在每个时隙开始时，用户K_n,m分配一个D2D链路发射功率

类似于蜂窝链路，有

则选择D2D通信的IoT用户设备K_n，m将计算任务卸载到用户K_j,m的传输速率定义为：

不失一般性的，定义IoT用户设备K_n,m在时隙t产生的任务为

其中

表示t时刻到达IoT设备K_n,m的任务的数据大小，单位是bits，

表示完成t时刻到达IoT设备K_n,m的任务需要的计算资源强度(CPU周期数/bit)。另外，我们合理的假设通过部分卸载使得执行计算任务的时间不大于一个时隙的长度。

本方法假定在每个时隙内，IoT用户设备可以将自己的计算任务进行全部或者部分卸载到其他设备、雾节点或者云端执行，剩下部分在本地执行。因此，本方法定义调度因子

表示连接到基站m的用户设备K_n,m在时隙t决定连接到设备x，设备x可以是雾节点m服务的任意一个用户设备，也可以是其连接到的雾节点。另外，本方法考虑到雾节点资源有限，因此用户设备还可以将计算任务卸载到云处理中心，因此当

时定义用户设备K_n，m将时隙t产生的计算任务卸载到云处理中心。

进一步的，由于本方法采用部分卸载，因此定义

表示IOT设备K_n，m对时隙t产生的任务的卸载率，即用户K_n，m卸载的数据大小与t时隙到达的数据大小之比，且有约束

值得注意的是，当

时，表示用户设备K_n，m在本地执行计算，此时

本方法假定每个IoT设备的计算能力是固定的，其计算能力定义为

根据上文的任务模型及调度因子可得本地计算的数据大小为

则本地的计算时延为：

本地计算能耗表达式为：

其中

是一个与硬件有关的有效电容常数。

由上述可知，IoT用户设备可以将时隙t产生的计算任务卸载到D2D设备或者雾节点、云处理中心进行计算，由于本方法定义时隙t时对于IoT用户K_n，m产生的任务的卸载比率为

因此进行卸载的数据大小为

在下文中，本方法将分别对不同卸载方案的时延及能耗进行描述。

卸载到D2D设备，即IoT用户设备K_n，m通过D2D链路将计算任务卸载到相邻的IoT用户设备

K_j，m K_n，m N_m。由于本方法考虑的是系统内所有用户设备的QoE最大化，因此当用户设备选择进行D2D卸载时，不仅要考虑发送端的传输时延以及传输能耗，还要考虑一个D2D对中接收端的计算能耗。首先，IoT用户设备K_n，m需要传输卸载的数据量给用户K_j，m，则用户K_n，m卸载到D2D设备K_j，m的传输时延表达式为：

用户K_n，m卸载到D2D设备K_j，m的传输能耗为：

另外，由上文可得，

表示IoT用户K_j，m的计算能力(CPU cycles/s)，则用户K_n，m卸载到用户K_j，m的任务量的计算时延为：

相应的，用户K_n，m卸载到用户K_j，m的计算能耗为：

不失一般性的，由于计算结果远远小于输入数据大小，因此时延及能耗远远小于输入数据的时延及能耗，因此本文不考虑计算结果的传输时延及能耗。

另外，考虑到在D2D卸载模式时，帮助者可能同时也有本地计算任务时，假定参与D2D计算卸载的设备都有限计算自己的本地任务，因此，在进行D2D卸载时，当设备K_n，m将部分计算任务卸载到设备K_j，m且设备K_j，m同时有自己的本地计算任务时，设备K_n，m在D2D卸载时的总时延应为：

当用户设备K_n，m卸载计算任务到用户设备K_j，m时，总能耗为：

由上文可知，当

时表示t时刻，IoT设备K_n，m选择将

卸载到其关联的雾节点m。由于本文只考虑系统内用户设备的QoE，因此本文对用户K_n，m卸载到雾节点的时延和能耗只考虑用户设备K_n，m的传输时延、计算时延及用户设备的传输能耗。综上所述，IoT设备K_n，m卸载到雾节点m的传输时延为：

IoT设备K_n，m卸载到雾节点m的传输能耗为：

定义雾节点m在时隙t分配给IoT用户设备K_n，m的计算能力为

(CPU cycles/s)，则IoT用户设备K_n，m在时隙t卸载到雾节点m的计算时延为：

综上所述，卸载到雾节点的总时延及总能耗为：

若雾节点m决定将用户设备K_n，m在时隙t产生的任务卸载到云，则从雾节点m上传到云的传输时延为：

其中R_m(t)表示雾节点m的传输速率，将雾节点m到云端的传输速率R_m(t)定义为常数。

定义

表示云处理中心分配给用户设备K_n,m的计算能力，假定每个用户设备在云端享有相同的计算能力，即

为一个常数。对于时隙t用户设备K_n，m卸载的计算任务在云端的计算时延为：

综上所述，对于时隙t时IoT用户设备的计算任务卸载到云端时的时延表达式为:

其中

表示用户设备K_n,m将任务卸载到相应的雾节点m的传输时延。

类似地，对于时隙t时IoT用户设备K_n,m卸载任务到云处理中心的能耗表达式为:

考虑通过部分卸载来执行时隙t到达用户设备K_n,m的任务Γ_Kn,m(t)，因此，对于用户设备K_n,m在t时隙产生的任务，总执行时延以及总执行能耗表达式分别为：

对于用户设备K_n,m时隙t产生的任务的总加权时延及能耗和表达式为：

其中

分别表示能耗和时延的权重。

进一步的，当IoT用户不进行计算卸载，其在本地计算所有到达的任务，则对于时隙t时的用户设备产生的任务，其计算成本为：

综上所述，对于用户K_n,m的QoE表达式为：

参见图2，图2为本发明在每个离散时隙上的资源分配及卸载决策算法流程图，步骤如下：

步骤401：令t＝0。初始化系统参数，其中所述系统参数包括折扣因子γ、最大迭代次数T_max以及神经网络权重值等。进一步地，初始化系统状态s₀，即随机初始化，信道状态、任务特征和权重信息。

步骤402：在每个调度时隙开始时，收集当前时隙的状态s_t，即所述的全局信息；

步骤403：根据下式选取近似最优的资源分配动作和任务卸载决策：

其中所述A为：行动空间，即功率分配、信道分配、卸载决策、卸载率以及雾节点计算频率；

其中所述γ为：折扣因子，所述

为：下一时隙的行为值函数；

其中所述r_t为：时隙t时的即时回报函数，表示为：

其中所述

为用户K_n,m的QoE；

步骤404：定所述资源分配和卸载决策，判断当前所述的资源分配和任务卸载策略是否满足所述的激励约束、能量约束以及通信资源和计算资源约束；如果不满足当前所述的资源分配和任务卸载策略，则转到步骤403；如果当前所述资源分配和任务卸载策略满足约束条件，则执行步骤405；

步骤405：按照所述资源分配和任务卸载策略，分配给每个用户无线资源和信道，以及将任务卸载到D2D设备、卸载到雾节点或者云端，并根据决策更新状态x_t+1；

步骤406：经过数次迭代，判断是否满足收敛条件。如果没有满足收敛条件，转到步骤402；如果满足收敛条件，则执行步骤407；

步骤407：判断算法迭代次数是否达到最大迭代次数T_max，若不满足，则令t＝t+1，并跳转到步骤401继续执行，否则算法结束。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：在设备到设备通信D2D辅助的云雾混合架构下，考虑激励约束、能量约束和网络资源约束，联合优化无线资源分配、计算资源分配以及卸载决策，最大化系统总用户QoE；然后，基于行动者-评判家算法提出一种集中式训练、分布式执行机制；

所述D2D辅助的云雾混合架构包含三层：

雾节点层，由多个部署在小区边缘的雾节点组成；

2.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述激励约束为只有当用户贡献更多资源给其他用户时，用户才能享受更多其他用户贡献的资源；

所述能量约束为避免用户过度牺牲自己来帮助他人；

所述网络资源为通信资源和计算资源。

3.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述系统总用户QoE为通过计算卸载节省的长期平均通信成本。

4.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述全局信息为信道状态、用户设备上产生的任务特征和权重信息。

5.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述资源分配为功率分配、信道分配以及雾节点计算频率。

6.根据权利要求3所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述通信成本表示执行一个任务需要的能耗和时延的加权和。

7.根据权利要求4所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述信道状态为智能体服务的IoT设备到连接到雾节点的其他IoT设备的信道状态以及IoT设备到雾节点的信道状态。

8.根据权利要求6所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：所述能耗为传输能耗与计算能耗，所述时延为传输时延与计算时延。

9.根据权利要求1所述的一种基于多智能体架构强化学习的资源分配及卸载决策方法，其特征在于：根据所述全局信息进行资源分配和卸载任务，在每个离散的时隙上，最大化系统总用户QoE，具体步骤如下：

初始化各参数以及系统状态；

根据下式选取近似最优的资源分配动作和卸载决策：

其中r_t为：时隙t时的即时回报函数，表示为：

其中

为用户K_n,m的QoE；

经过数次迭代，判断是否满足收敛条件；

等待下一个调度时隙。