CN115175217A

CN115175217A - 一种基于多智能体的资源分配和任务卸载优化方法

Info

Publication number: CN115175217A
Application number: CN202210758663.4A
Authority: CN
Inventors: 夏士超; 姚枝秀; 左琳立; 李云; 吴广富
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11

Abstract

本发明属于移动通信技术领域，涉及一种基于多智能体的资源分配和任务卸载优化方法；所述方法包括将异构网络环境中的边缘云服务器和能量收集使能的移动设备均视为可独立决策的智能体单元，结合实际计算卸载场景，将边缘云资源分配和移动设备任务卸载的收益构造出斯塔克尔伯格博弈模型，考虑到随机时变的边缘环境和不完备的状态观测，将斯塔克尔伯格博弈模型再次建模为部分可观测马尔可夫决策过程，并建立采用多智能体的深度强化学习算法求解部分可观测马尔可夫决策过程博弈模型，以学习最优的边缘云资源协同分配策略和任务卸载策略。本发明能够有效提高边缘云服务器的任务计算成功率，并降低移动设备的任务丢弃率。

Description

一种基于多智能体的资源分配和任务卸载优化方法

技术领域

本发明属于移动通信技术领域，涉及一种基于多智能体的资源分配和任务卸载优化方法。

背景技术

目前，第五代移动通信系统(5th Generation Mobile Communication System,5G)正快速部署并逐渐大规模商用，尽管5G移动通信系统在传输速率、连接密度、传输时延、能量效率等方面有了大幅度提升，但仍无法有力支撑如增强现实、虚拟现实、远程医疗、智慧城市、无人驾驶、在线游戏、智能工厂等以大数据和智能化为主要特征、以计算密集和时延敏感为主要特点的新兴产业的快速发展。与此同时，在物联网(Internet of Things,IoT)和移动互联网技术的推动下，网络边缘设备连接量以及数据流量急剧增长，业务计算云端化、连接泛在化和业务类型异构化的海量物联网应用对高效的移动通信网络和无线边缘网络资源分配构成一系列挑战。移动边缘计算(Mobile Edge Computing，MEC)作为一种新兴的计算模式，通过将全部或部分本地计算任务卸载到MEC服务器上，能显著提高用户的服务体验。

随着异构网络和MEC的融合，融合场景中的任务卸载和网络资源分配问题面临着新的挑战。一些主要的成果有：(1)可持续多接入边缘计算中一种新型的移动感知卸载管理方案(参考文献：Guan S,Boukerche A.A Novel Mobility-aware Offloading ManagementScheme in Sustainable Multi-access Edge Computing[J].IEEE Transactions onSustainable Computing,2022,7(1):1-13.DOI:10.1109/TSUSC.2021.3065310)：该算法考虑了异构网络和MEC融合环境下移动设备在服务器之间的间歇性连接和负载不均衡问题，提出了一种基于优先级的移动感知计算卸载模型，以优化任务的执行效率、计算时延和能效。(2)支持MEC的5G及其他车载网络中基于SDN的服务移动性管理(参考文献：Shah S.D.A,Gregory M.A,Li S,et al.SDN-based Service Mobility Management in MEC-enabled5G and Beyond Vehicular Networks[J].IEEE Internet of Things Journal(EarlyAccess),2022,DOI:10.1109/JIOT.2022.3142157)：该算法考虑了MEC和异构网络融合中，不同的任务具有不同的计算时延和带宽需求，提出了一种基于软件定义网络(SoftwareDefined Network,SDN)的集中式控制优化方法，以优化移动设备的任务卸载和网络资源分配。

这些工作研究了服务器之间的协同计算和任务迁移问题，卸载的任务在相邻服务器间的协助计算下，能够进一步提升网络计算性能。然而，这些工作使用传统优化方法(如凸优化理论、博弈论)，并假设深度不确定的网络模型是完全已知的，且仅在过于理想的网络环境中优化了计算卸载性能，实用性较差。少数业界研究人员利用人工智能或机器学习方法研究动态计算卸载算法，优化通信资源分配和任务卸载策略。但这些工作大多是针对通信与任务卸载之间的折中进行建模和优化，并未考虑多源、异构网络场景中算力资源分布特性以及随机时变的网络环境对任务卸载和资源分配的影响。此外，在实际的边缘云网络中，用户往往采用自主式、随机式云接入方式，这造成边缘云资源利用不充分、不均衡，进而影响边缘云资源的利用率和用户服务体验。因此，在异构边缘网络中边缘云服务器智能协同和任务卸载优化具有重要研究价值。

发明内容

有鉴于此，需要设计一种基于多智能体的资源分配和任务卸载优化方法，将异构网络环境中的边缘云服务器和能量收集使能的移动设备均视为可独立决策的智能体，结合实际计算卸载场景，将边缘云资源分配和移动设备任务卸载的收益构造出斯塔克尔伯格博弈模型，考虑到随机时变的边缘环境和不完备的状态观测，将斯塔克尔伯格博弈模型再次建模为部分可观测马尔可夫决策过程，并建立采用多智能体的深度强化学习算法求解部分可观测马尔可夫决策过程博弈模型，以学习最优的边缘云资源协同分配策略和任务卸载策略。

本发明解决上述技术问题所采用的技术方案包括：

一种基于多智能体的资源分配和任务卸载优化方法，所述方法包括：

步骤1)针对异构网络环境中能量收集使能的边缘云服务器网络，分别建立计算任务模型，任务卸载到异构网络中的通信模型、任务执行模型和能耗模型，并根据建立的模型获得环境状态；

步骤2)将边缘云服务器视为主方，根据获得的环境状态构建出主方的即时奖励函数，并根据主方的即时奖励函数建立主方执行协同资源分配决策的长期累积奖励的收益目标函数；

步骤3)将移动设备视为从方，根据获得的环境状态构建出从方的即时奖励函数，并根据从方的即时奖励函数建立从方执行任务卸载决策的长期累积奖励的收益目标函数；

步骤4)最大化主方的收益目标函数和从方的收益目标函数，结合主方和从方的决策约束条件，构建出斯塔克尔伯格博弈模型；

步骤5)基于随机时变的网络环境和主从双方不完备的观测状态，将斯塔克尔伯格博弈模型建模为部分可观测马尔可夫决策过程博弈模型；

步骤6)采用多智能体的深度强化学习算法求解部分可观测马尔可夫决策过程博弈模型，通过集中训练和分布式执行方式，学习并优化边缘云资源协作分配决策和移动设备任务卸载决策。

本发明的有益效果：

本发明研究了异构网络场景中边缘云智能协同和任务卸载优化方法。首先，异构边缘云服务器和能量收集使能的移动设备被视为可独立决策的智能体单元，结合实际计算卸载场景，将边缘云资源分配和移动设备任务卸载问题抽象为一个典型分布式斯塔克尔伯格博弈模型，边缘云作为主方为移动设备分配计算和传输资源，移动设备作为从方进行任务卸载和本地能量管理；然后，考虑到随机时变的边缘环境和不完备的状态观测，将智能体决策问题建模为部分可观测马尔可夫决策过程，并建立基于斯塔克尔伯格动态博弈的多智能体深度确定性策略梯度模型，以学习最优的边缘云资源协同分配和任务卸载策略。本发明所提模型能够有效提高边缘云服务器的任务计算成功率，并降低移动设备的任务丢弃率。

附图说明

图1为本发明中一种基于多智能体的边缘云服务器智能协同和任务卸载优化方法流程图；

图2为本发明中异构边缘网络中支持能量收集的MEC卸载系统模型图；

图3为本发明中所采用的一种典型的DDPG框架图；

图4为本发明中基于MEC的SG-MADDPG框架图；

图5为本发明中训练阶段每回合平均收益变化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例中一种基于多智能体的边缘云服务器智能协同和任务卸载优化方法流程图，如图1所示，所述方法包括：

步骤1)针对异构网络环境中能量收集(Energy Harvesting,EH)使能的MEC网络，分别建立计算任务模型，任务卸载到异构网络中的通信模型、任务执行模型和能耗模型，并根据建立的模型获得环境状态；

其中，上述建立的模型都是系统模型，所述系统模型是针对异构网络环境中能量收集(Energy Harvesting,EH)使能的MEC网络所建立的，该系统模型能够反映上述MEC网络进行资源分配过程和任务卸载过程中的环境状态，这里的环境状态包括但不限于边缘云服务器的可用计算资源和无线信道增益；移动设备的位置、任务积压、可用能量以及在收集的能量，通过这些环境状态就可以获得边缘云服务器或/和移动设备执行相关决策时能够获得的收益。

在本发明实施例中，边缘服务器被视为主方(表示为L)，并以最大化边缘云服务器集体收益为目标，根据网络环境状态进行协同资源分配，由于这里将边缘云服务器集体收益为目标，所以可以将所有的边缘云服务器作为一个边缘云服务器集群，这个边缘云服务器集群视为一个整体，共同作为主方就能够达到比较好的协同工作效果。

在本发明实施例中，各个移动设备分别被视为从方(表示为F)，并以最大化各个移动设备收益为目标，根据本地任务特征等状态信息进行任务卸载，从而实现每个移动设备的任务卸载优化。

在本发明的一些优选实施例中，各个移动设备还可以根据电池能量水平等状态信息进行本地能量管理，其中，任一移动设备通过能量收集技术捕获周边环境中的能量，用以支持该移动设备的数据通信和业务处理；通过对移动设备能量收集及能量输出之间的管理，能够使移动设备保持长期、稳定的计算性能。

在本发明实施例中，由于边缘云服务器执行资源分配的最大化收益和移动设备执行任务卸载的最大化收益是一个一对多的博弈问题，因此，本发明将其构建为斯塔克尔伯格博弈模型，让边缘云作为主方为移动设备分配计算和传输资源，移动设备作为从方进行任务卸载和本地能量管理。

在本发明实施例中，考虑到主从双方都只能观测到不完全的状态信息，而网络环境也是随机时变的，会导致上述斯塔克尔伯格博弈模型的优化问题难以快速求解，因此本发明将主方和从方的博弈优化问题建模为POMDP博弈问题，POMDP博弈中的基本元素包括参与者集合、环境状态空间、观测空间、动作空间以及奖励函数，通过这些基本元素构成部分可观测马尔可夫决策过程博弈模型。

在本发明实施例中，将边缘云服务器集群和各个移动设备分别作为智能体，异构网络环境首先向智能体发送一个环境状态，然后智能体基于其知识采取动作来响应该状态。之后，异构网络环境发送下一个状态，并把奖励返回给智能体。智能体用异构网络环境所返回的奖励来更新其知识，对上一个动作进行评估。这个循环一直持续，直到异构网络环境发送终止状态来结束这个事件；在训练过程中由critic集中式共享全局信息，执行过程中actor分布式获取局部信息即当前智能体的观测信息；通过这个训练执行过程就能够学习并优化边缘云资源协作分配决策和移动设备任务卸载决策。

以下将针对步骤1)～步骤6)的各个步骤做具体的说明，参考如下：

一、系统模型

如图2所示，本发明考虑了一个典型的异构网络环境下EH使能的MEC网络场景。该场景中包含m个边缘移动设备(Mobile Device,MD)，定义为集合

一个宏基站(Macrocell Base Station,MBS)，和n个微微基站(Femtocell Base Station,FBS)，定义FBS集合

假设任一移动设备均支持能量收集技术；且任一基站均配置有MEC服务器，MEC服务器只可为其无线覆盖范围内的移动设备提供计算和数据存储服务。此外，在不致混淆的情况下，本发明用MBS和FBS分别表示与MBS和FBS连接的MEC服务器。系统运行在离散的时隙中，并定义时间为集合

用τ表示每个时隙的时间长度。

定义

表示MBS的资源集合，其中，

表示MBS的最大计算能力，

表示MBS的可用带宽资源；相应地，令

表示第j个FBS的资源集合。通常情况下，MBS的无线覆盖范围远远大于FBS，因此，假设所有的移动设备

全部在MBS的覆盖范围内，而FBS只能覆盖部分设备，用

表示在时隙t中第j个FBS覆盖范围内的移动设备集合。此外，令

和

分别表示设备i的最大电池容量和在时隙t的电池能量水平。

1.计算任务模型

假设MD的任务到达均服从参数为λ∈[0,1]的独立同分布的伯努利过程。设

表示设备i在时隙t中任务到达指示变量，即b_i(t)＝1表示有新任务单元产生，否则，b_i(t)＝0。为简化分析复杂度，对于任一移动设备，将到达的任务表示为一个三元组(μ,ν,δ)，其中，μ,ν,δ分别表示任务大小(单位为bit)，计算密度(需要执行的CPU周期数)和最大计算时延约束。此外，本发明假设任一任务单元为不可分割的最小任务单位，且禁用移动设备的本地任务处理能力。

在任一时隙中，MD可以将计算任务卸载到MBS/FBS，或者将任务积压到本地任务队列

中。不失一般性，被积压的任务在设备任务队列中建模为先进先出(FirstInput First Output,FIFO)规则进行任务卸载。设a_i(t)∈{-1,0,1}表示时隙t内设备i的任务卸载策略，其中，令a_i(t)＝-1时表示禁用计算卸载功能，令a_i(t)＝0时表示设备i将任务卸载到MBS，

时将任务卸载到FBS j。根据上述假设，可以得到设备i的任务队列Q_i(t)的演化过程为

其中，

为设备i的最大任务队列积压，1{x}是一个指示函数，当条件x为真时等于1，否则等于0。

当任务队列积压达到上限(如

)，那么，新到达的任务将会被丢弃，可以表示为

表示在时隙t中移动设备i的任务丢弃指示因子。

2.任务卸载到MBS模型

由于所有移动设备都在MBS的无线覆盖范围内，即任一移动设备

都可以选择将任务卸载到MBS。

通信模型：假设设备

与宏基站之间的无线信道为高斯白噪声信道，用g₀(t)表示MBS在时隙t的信道增益，则可以得到设备i到MBS的上行数据传输速率r_i0(t)为

其中，B_i0(t)表示MBS在时隙t中分配给设备i的带宽资源，I₀(t)表示MBS环境下的平均噪声功率，P_i0为设备i在MBS下的数据传输功率，可以得到设备i将任务卸载到MBS的传输时延

为

任务执行模型：用f_i0(t)表示MBS分配给设备i的计算资源，则可以得到设备i的任务计算时延

为

若设备i将任务卸载到MBS，而MBS分配的计算资源不足以在时延约束内完成任务处理时(如

)，则认为该任务计算卸载失败，可以表示为

表示在时隙t中MBS的任务计算失败指示因子。

3.任务卸载到FBS模型

通信模型：在任一时隙t，设

表示FBSj的信道增益，定义B_ij(t)为FBSj在时隙t分配给设备i的带宽资源，I_j(t)表示FBS环境下的平均噪声功率，P_ij为设备i在FBSj下的数据传输功率，那么可以定义设备i到FBSj的上行数据传输速率为

可以得到设备i到FBSj的任务传输时延

为

任务执行模型：假设在时隙t中，FBSj分配给设备i的计算资源为f_ij(t)，则可以得到任务处理时延为

同样地，如果任务卸载时延超过设备i的最大计算延迟限制时(如

)，则FBSj将受到惩罚，表示为

表示在时隙t中FBSj的任务计算失败指示因子。

设备i的通信能耗为

当移动设备i的能耗(主要为通信能耗e_i(t))大于设备在当前时隙t中电池能量水平(如e_i(t)>E_i(t))时，则认为移动设备i计算卸载失败，可以表示为φ_i(t)＝1{e_i(t)>E_i(t)}。在时隙t，设备i的任务卸载时延可以表示为：

定义

为设备i在时隙t中可以收集的能量，设备i的电池能量E_i(t)的演化过程为

二、问题描述

将边缘云资源分配和移动设备任务卸载问题建模为一个典型分布式斯塔克尔伯格博弈模型，其中，边缘服务器被视为主方(表示为L)，并以最大化边缘云服务器集体收益为目标，根据网络环境状态进行协同资源分配；移动设备被视为从方(表示为F)，并根据本地任务特征和电池能量水平等状态信息进行任务卸载和本地能量管理。为了量化异构网络中，边缘云服务性能，

和

分别为边缘云服务器的计算资源和带宽资源分配策略集合(F^*(t)和B^*(t)表示其最优策略)；a(t)为移动设备任务卸载策略集合；

和

分别是衡量边缘云服务器和移动设备相应指标满意度函数，一般定义为正的单调递减函数；ω₁，ω₂，ω₃是边缘云服务器的相关权重系数，λ₁和λ₂是移动设备的相关权重系数。定义主方的即时奖励为：

类似地，在时隙t中，从方i的即时奖励r_i ^F(t)可以表示为：

为了在随机时变的网络环境中保持系统长期的计算性能，分别将主方和从方的长期累积奖励R^L和

的收益最大化问题为：

s.t.a_i(t)∈{-1,0,1}

其中，F(t)为边缘云服务器的计算资源分配策略集合，B(t)为边缘云服务器的带宽资源分配策略集合；a(t)为移动设备任务卸载策略集合；R^L表示边缘云服务器的长期累积奖励的收益，r^L(t)表示在时隙t中边缘云服务器的即时奖励；

表示移动设备i的长期累积奖励的收益，r_i ^F(t)表示在时隙t中移动设备i的即时奖励，

表示网络中的移动设备集合；a_i(t)表示移动设备i在时隙t的任务卸载策略；1{x}是一个指示函数，当条件x为真时等于1，否则等于0；f_i0(t)表示MBS在时隙t中分配给移动设备i的计算资源，B_i0(t)表示MBS在时隙t中分配给移动设备i的带宽资源；

表示MBS的最大计算能力，

表示MBS的可用带宽资源；f_ij(t)表示FBSj在时隙t中分配给移动设备i的计算资源；

表示FBSj的最大计算能力；B_ij(t)表示FBSj在时隙t中分配给移动设备i的带宽资源；

表示FBSj的可用带宽资源；

表示FBSj覆盖范围内的移动设备集合；m表示移动设备总数，MBS表示宏基站，FBSj表示第j个毫微微基站。

可以理解的是，上述几个约束条件依次表示：移动设备可以选择的任务卸载方式；边缘云分配的计算资源不能超过MBS和FBS的最大计算资源约束；边缘云分配的带宽资源不能超过MBS和FBS的最大带宽约束。

三、边缘云智能协同和分布式任务卸载优化

问题是一个典型的混合整数非线性规划(Mixed Integer NonlinearProgramming,MINLP)问题，通过传统的斯塔克尔伯格博弈模型难以快速求解。而边缘云资源的分配与移动设备的任务卸载策略只与其当前状态有关，而与过去的状态无关，是一个典型的马尔可夫决策(Markov Decision Process,MDP)问题。因此，将该优化问题转化为MDP博弈问题，并使用深度强化学习(Deep Reinforcement Learning,DRL)方法进行求解。

1.资源分配与任务卸载问题分析

为了实现高效的任务卸载和边缘资源分配，保护用户的隐私，减少边缘云与移动设备之间频繁的信息交互。在本发明中，边缘云服务器/主方被认为只能观测到不完全的信道信息和移动设备的部分信息(如移动设备的位置信息)；与此同时，任一移动设备/从方也只能观测到边缘云服务器的部分信息(如相邻的FBS)。在上述假设的基础上，将主方和从方的博弈优化问题建模为POMDP博弈问题。

用

和

分别表示博弈中的参与者集合、环境状态空间、观测空间以及动作空间，其中，

和

分别是边缘云服务器和设备i的观测空间；

和

分别是边缘云服务器和设备i的动作空间。在任一时隙中，POMDP博弈的基本元素总结如下：

参与者集合

在上述博弈模型中，包含1个边缘云智能体L和m个移动设备智能体F₁,…,F_i,…,F_m。其中，1个边缘云智能体指的是边缘云服务器集群，所有边缘云服务器作为一个集群协作执行分配决策，m+1个参与者可以表示为

环境状态空间

在t时刻，网络环境状态

主要包括三个部分：

边缘云服务器/主方状态：在任一时隙中，边缘云服务器的状态信息主要由可用的计算资源组成。将MBS在时隙t的可用计算资源表示为

FBSj在时隙t的可用计算资源表示为

移动设备/从方状态：对于任一移动设备，其状态主要包含位置、任务积压Q_i(t)、可用能量E_i(t)以及在当前时隙中收集的能量

设

表示设备i的位置信息，其中，l_i(t)＝0表示移动设备i不在任一FBS的覆盖范围内，l_i(t)＝j表示设备i处于FBSj的无线覆盖范围内。

信道状态：信道状态主要包括MBS和FBS的无线信道增益g₀(t)和

因此，可以将t时刻的环境状态空间s(t)定义为：

Q₁(t),…,Q_i(t),…,Q_m(t),

E₁(t),…,E_i(t),…,E_m(t),

l₁(t),…,l_i(t),…,l_m(t),

g₀(t),g₁(t),…,g_j(t),…,g_m(t)}

观测状态空间O^L和

在t时刻，边缘云智能体的可观测空间

主要包含本地的剩余计算资源和所有移动设备的位置，记为

对于任一移动设备智能体，可观测空间

可以建模为

行动空间

和

设

表示边缘云服务器在t时刻的动作空间，则Z(t)的定义可以表示为：

其中，

表示FBSj覆盖下的移动设备数，i^(j)表示FBSj下第i个移动设备。设

是设备i在t时刻的动作空间，根据上述分析，可以定义为

奖励函数：可以将边缘云和移动设备的即时奖励函数分别定义为r^L(t)和

每一个智能体在当前时隙中执行一个动作，就会在下一个时隙中获得一个奖励(如r^L(t)或r_i ^F(t))。然后，智能体将根据收到的奖励更新各自的策略。

2.基于多智能的边缘云资源分配和任务卸载

在上述优化问题中，有多个智能体(一个主方智能体和m个从方智能体)，每个智能体的行动策略都会影响到其他智能体的策略。例如，当多数移动设备将任务卸载到MBS时，MBS的可用计算资源和带宽资源会减少，而其他移动设备则会选择将任务卸载给资源更加丰富的邻近FBS以实现其回报最大化。对于传统的单智能体深度强化学习模型(如Q-learning、深度Q网络(Deep Q Network,DQN))，每个智能体通过与环境的交互来学习、改进其策略，采用独立学习方式无法有效解决多智能体场景中的策略优化问题。为此，在本部分，采用多智能体强化学习框架来解决上述优化的问题。

作为深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的扩展，多智能体深度确定性策略梯度(Multi Agent Deep Deterministic Policy Gradient,MADDPG)为多智能体环境提供了一个协作决策框架。下面，首先对DDPG做一个简单的概述，以清楚地展示MADDPG的训练及执行过程。

(1)DDPG模型

一般而言，强化学习(Reinforcement Learning,RL)算法可分为两类：动作值方法(例如DQN系列)和策略梯度法(例如策略梯度(Policy Gradient,PG)，确定性策略梯度(Deterministic Policy Gradient,DPG)，深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)等)。前者常用来解决强化学习中的离散动作决策问题，而在处理连续行动问题、随机策略问题等方面还存在许多局限性。

以移动设备i为例，说明如何用PG、DPG和DDPG算法求解相应的MDP问题。首先，定义设备i的状态-动作值函数Q_i(s(t),a(t))，即设备在状态s(t)下采取行动a(t)所获得的奖励。给定设备i的当前状态s_i(t)，动作a_i(t)，Q_i(s(t),a(t))表示为

其中，π_i是设备i的策略，γ是折扣因子。

此外，根据Bellman最优性方程，状态-动作值函数可以递归地表示为

策略梯度(PG)：策略梯度算法以最大化收益为目标，学习参数化策略(如

)。例如，采用PG算法，移动设备i的优化动作可以表示为

其中，

为移动设备i的参数化策略，θ_i为策略参数。相应地，移动设备i的目标函数可以表示为

其中，

是状态分布。根据策略梯度理论，定义α是一个非负步长，策略梯度与参数θ_i更新过程可分别表示为

确定性策略梯度(DPG)：PG算法学习到的策略为随机策略。因此，若要为设备i选择最优动作，还须计算每个可能动作的值，并选择其中最优策略。显然，PG算法的计算复杂度随着动作空间的增大而增大。

作为策略梯度的延伸，DPG可以通过一个确定性的策略(如

)获得最优动作值。移动设备i在s_i(t)状态下选择的最优动作可以表示为

在DPG中，移动设备i的目标函数表示为

进一步，策略的梯度可以表示为

深度确定性策略梯度(DDPG)：作为深度学习和DPG的结合，DDPG是一个Actor-Critic框架，主要由Actor部分和Critic部分组成。Actor部分基于输入的状态s_i(t)输出一个确定性的策略(如

)；Critic部分则根据输入状态s_i(t)和生成的确定性策略a_i(t)输出一个估计的状态-动作Q值。

类似于DQN算法，DDPG也采用了经验重放缓存

和目标网络

其中，

用于存储训练阶段的经验，目标网络用于减少训练数据的相关性。如图3所示，Actor和Critic都有一个在线网络和目标网络。用

和

分别表示移动设备i的Actor和Critic的在线网络参数。在训练阶段，对

中的经验数据进行随机采样，设N为mini-batch的大小，并使用Ornstein-Uhlenbeck(OU)噪声用于探索。然后，根据采样的经验数据，更新Actor和Critic在线网络的参数。其中，为使累积回报最大化，Actor在线网络参数

的更新可以通过最大化策略目标函数得到，即为

此外，可以通过最小化损失函数，来更新Critic在线网络的参数

表示为：

其中，y_i(t)可以表示为

此外，为了提高算法的稳定性，DDPG对目标网络采用软更新，可以表示为：

其中，

和

(2)多智能体深度确定性策略梯度(MADDPG)

多智能体深度确定性策略梯度(MADDPG)通过集中训练和分布式执行方式将DDPG扩展到多智能体环境。与单智能体强化学习算法不同，MADDPG在训练阶段，每个智能体都利用其他智能体的信息(如其他智能体的观测和动作)来改进自己的局部策略。例如，在训练阶段，将移动设备i的观察状态表示为：

其中，

且k≠i。

为了适应多智能体的动态环境，MADDPG在DDPG的基础上进一步改进了经验重放缓存区

对于任一智能体的任一经验数据不仅包括当前智能体的局部观察，还包括其他智能体的观察和动作。例如，对于移动设备i的经验回放

中的任一经验可以表示为

相似地，可以推得其他智能体训练阶段的观察状态和经验回放值。

在MADDPG的执行阶段，对于每个智能体，Actor只需根据本地状态观察即可确定要执行的策略，例如，移动设备i的Actor根据

选择一个策略。也就是说，在MADDPG执行阶段，每个智能体都能够在无需知道其他智能体信息的情况下选择本地执行策略。

在POMDP问题中，应用基于多智能体斯塔克尔伯格博弈的SG-MADDPG模型对边缘云智能体(L)和移动设备智能体

进行集中式训练，如图4所示，每个智能体可以根据其独立的奖励函数、Actor网络和Critic网络更新策略。并将训练好的模型采用分布式执行的方式分别获得的边缘云智能体的资源分配策略和移动设备的任务卸载策略。

可以理解的是，在本发明实施例中，采用多智能体的深度强化学习算法求解部分可观测马尔可夫决策过程博弈模型可以是现有的任意深度强化学习算法，例如上述实施例中的DQN算法、DDPG算法和MADDPG等算法，本发明对此可以不作具体的限定。

设置每个设备的任务到达概率设置为0.5，平均能量收集功率设置为100mW。图5展示了主方和从方在训练阶段每一回合获得的平均奖励。从图5中可以看出，在训练开始的时候，波动较大，且主方和从方得到的奖励整体趋势都是逐渐增加的。这是由于对每个智能体，Actor网络和Critic网络的初始参数是随机的，随着训练的不断进行，参数不断被优化，并逐渐逼近最优策略和对应最优策略的状态-动作值函数，从而使得智能体获得的奖励不断增加。在网络训练后期(大约2000个回合之后)，每个回合的奖励逐渐趋于稳定，Actor网络和Critic网络参数得到优化，各智能体的状态-动作值函数值也逐渐趋于稳定。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，所述方法包括：

步骤1)针对异构网络环境中能量收集使能的MEC网络，分别建立计算任务模型，任务卸载到异构网络中的通信模型、任务执行模型和能耗模型，并根据建立的模型获得环境状态；

2.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，所述环境状态包括边缘云服务器的可用计算资源和无线信道增益；移动设备的位置、任务积压、可用能量以及在收集的能量。

3.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，所构建出的斯塔克尔伯格博弈模型表示为：

s.t.a_i(t)∈{-1,0,1}

表示MBS的最大计算能力，

表示FBSj的可用带宽资源；

4.根据权利要求1或3所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，边缘云服务器的即时奖励表示为：

其中，r^L[F(t),B(t),a(t)]表示F(t)、B(t)和a(t)下，边缘云服务器的即时奖励，F(t)为边缘云服务器的计算资源分配策略集合，B(t)为边缘云服务器的带宽资源分配策略集合，a(t)为移动设备任务卸载策略集合；

是衡量边缘云服务器的指标满意度函数，

是衡量移动设备相应指标满意度函数；ω₁，ω₂，ω₃是边缘云服务器的相关权重系数，λ₁和λ₂是移动设备的相关权重系数；

表示在时隙t中移动设备i的任务丢弃指示因子；

表示在时隙t中移动设备i的任务在MBS中的任务卸载时延；

表示在时隙t中FBSj的任务计算失败指示因子；

表示在时隙t中MBS的任务计算失败指示因子。

5.根据权利要求1或3所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，移动设备的即时奖励表示为：

其中，r_i ^F[F^*(t),B^*(t),a(t)]表示F^*(t)、B^*(t)和a(t)下，移动设备i的即时奖励，F^*(t)为边缘云服务器的最优计算资源分配策略集合，B^*(t)为边缘云服务器的最优带宽资源分配策略集合，a(t)为移动设备任务卸载策略集合；

是衡量移动设备相应指标满意度函数；λ₁和λ₂是移动设备的相关权重系数；Q_i(t)表示移动设备i在时隙t的本地任务队列，φ_i(t)表示在时隙t中移动设备i的任务计算概率。

6.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，所述将斯塔克尔伯格博弈模型建模为部分可观测马尔可夫决策过程博弈模型包括边缘云服务器只能观测到不完全的信道信息和移动设备的部分信息；任一移动设备只能观测到边缘云服务器的部分信息；从而构建出观测空间；并结合参与者集合、环境状态空间、观测空间以及动作空间建立出部分可观测马尔可夫决策过程博弈模型；其中，对于边缘云服务器智能体的可观测空间，包括本地的剩余计算资源和所有移动设备的位置；对于任一移动设备智能体的可观测空间，包括该移动设备的位置、任务积压和可用能量。

7.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，通过集中训练和分布式执行方式，学习并优化边缘云资源协作分配决策和移动设备任务卸载决策包括将主方和各个从方分别视为智能体，每一个智能体在当前时隙中执行一个决策动作，就根据其独立的即时奖励函数会在下一个时隙中获得一个对应的即时奖励，智能体根据收到的即时奖励利用Actor网络和Critic网络更新各自的决策。

8.根据权利要求1所述的一种基于多智能体的资源分配和任务卸载优化方法，其特征在于，所述方法还包括对移动设备本地能量的管理，其中，任一移动设备通过能量收集技术捕获周边环境中的能量，用以支持该移动设备的数据通信和业务处理。