CN115756873A - 一种基于联邦强化学习的移动边缘计算卸载方法和平台 - Google Patents
一种基于联邦强化学习的移动边缘计算卸载方法和平台 Download PDFInfo
- Publication number
- CN115756873A CN115756873A CN202211619600.7A CN202211619600A CN115756873A CN 115756873 A CN115756873 A CN 115756873A CN 202211619600 A CN202211619600 A CN 202211619600A CN 115756873 A CN115756873 A CN 115756873A
- Authority
- CN
- China
- Prior art keywords
- network
- mobile
- edge
- computation
- unloading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种基于联邦强化学习的移动边缘计算卸载方法和平台,在MEC系统目前的分布式DRL架构上引入联邦学习架构,使得卸载策略计算具备高度智能化、鲁棒性、数据安全等特性。在移动边缘计算场景中,使用该发明训练得到的智能体可以实时感知移动设备和边缘服务器的计算资源和通信资源状况,实现对这些资源的统一调度,MEC系统在调度决策的基础上可以处理移动设备的计算卸载请求。本发明提供的方法和平台考虑了在现有的分布式DRL架构下引入联邦学习策略,在指导MEC系统进行智能化的计算卸载的同时,提升模型的鲁棒性并保护数据隐私,在提升QoE的同时获得最大的系统收益。
Description
技术领域
本发明涉及移动边缘计算技术领域,尤其涉及一种基于联邦强化学习的移动边缘计算卸载方法和平台。
背景技术
移动边缘计算(Mobile Edge Computing,MEC)的计算卸载通过将移动设备的计算任务卸载到距离移动设备更近的边缘服务器上运行,既可以有效减轻移动设备的计算压力,降低与云计算的集中式数据中心交互的频率,还可以规避从移动设备到远程云计算基础设施传输数据引起的长传播延迟,早已成为了MEC的重要研究问题。
在基于凸优化、博弈论等的假设环境下,一些研究工作取得了相当好的结果。但是这些MEC系统资源配置优化存在的最大问题是智能程度低。近些年,使用深度学习智能算法来进行移动边缘计算的研究已大量涌现,例如Alam等《Autonomic computationoffloading in mobile edge for IoT applications》,Qiu X等《Online deepreinforcement learning for computation offloading in blockchain-empoweredmobile edge computing》,Zhang C等《Task migration for mobile edge computingusing deep reinforcement learning》,Wang T等《An intelligent dynamic offloadingfrom cloud to edge for smart iot systems with big data》,其中有大量地研究使用了(深度)强化学习算法(Deep Reinforcement Learning,DRL)。
发明内容
本发明的实施例提供了一种基于联邦强化学习的移动边缘计算卸载方法和平台,用于解决现有技术中存在的技术问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于联邦强化学习的移动边缘计算卸载方法,包括:
获取用于认知计算所需的观测数据;
基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
通过移动边缘计算卸载策略,处理移动设备的边缘计算卸载请求,进行通信资源和计算资源的调度。
优选地,观测数据包括:网络状态S,迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q′,批量梯度下降的样本数m,Q′网络参数的更新频率C,学习率η;
基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型包括:
初始化模型参数θ0;
通过如下过程对t从1到T进行迭代;
初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);
在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε-greedy策略在当前Q值输出中选择对应的动作集合A;
在网络状态S执行当前动作集合A,获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)以及奖励R;奖励R通过计算即时效用函数式获得,式中,te表示计算任务的执行延迟,tp表示计算任务的排队延迟,RNi表示移动设备Ni的资源消耗量,C表示计算任务丢弃或失败的次数;
基于当前动作集合A,获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end},并存入经验回放集合D中;
令S=S′;
从经验回放集合D中采样获得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,从{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m中得到m个样本,通过式
计算当前目标Q值yj;
如果i%C=1,则更新Q′网络参数θ′=θ;
如果S′是终止状态,则当前轮迭代终止,进行联邦参数更新,输出移动边缘计算卸载策略否则,返回执行上述第二个子步骤;式中,πc(S)用于决定移动设备的选择其中,c=0表示移动设备选择在本地执行计算卸载任务,c∈M表示移动设备选择通过某个无线信道Mi来将计算卸载任务分配到边缘节点,πe(S)表示通过πc(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c=0所需的资源量。
优选地,最后一个子步骤中进行联邦参数更新的过程包括:
第二方面,本发明提供一种基于联邦强化学习的移动边缘计算卸载平台,包括DDQN智能体、MEC系统,MEC系统包括多个边缘设备和边缘节点;
DDQN智能体用于从MEC系统中获取用于认知计算所需的观测数据;
MEC系统基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
MEC系统基于还基于移动边缘计算卸载策略,执行边缘计算卸载任务,进行通信资源和计算资源的调度。
优选地,DDQN智能体从MEC系统中获取用于认知计算所需的观测数据包括:网络状态迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q′,批量梯度下降的样本数m,Q′网络参数的更新频率C,学习率η;
MEC系统基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型的过程包括:
初始化模型参数θ0;
通过如下过程对t从1到T进行迭代;
初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);
在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε-greedy策略在当前Q值输出中选择对应的动作集合A;
在网络状态S执行当前动作集合A,获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)、以及奖励;奖励R通过计算即时效用函数式获得,式中,te表示计算任务的执行延迟,tp表示计算任务的排队延迟,RNi表示移动设备Ni的资源消耗量,C表示计算任务丢弃或失败的次数;
基于当前动作集合A,获得新的网络状态S′、与新的网络状态S′对应的特征向量φ(S′)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end},并存入经验回放集合D中;
令S=S′;
从经验回放集合D中采样获得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,从
{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m中得到m个样本,通过式
计算当前目标Q值yj;
如果i%C=1,则更新Q′网络参数θ′=θ;
如果S′是终止状态,则当前轮迭代终止,进行联邦参数更新,输出移动边缘计算卸载策略否则,返回执行上述第二个子步骤;式中,πc(S)用于决定移动设备的选择其中,c=0表示移动设备选择在本地执行计算卸载任务,c∈M表示移动设备选择通过某个无线信道Mi来将计算卸载任务分配到边缘节点,πe(S)表示通过πc(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c=0所需的资源量。
由上述本发明的实施例提供的技术方案可以看出,本发明提供一种基于联邦强化学习的移动边缘计算卸载方法和平台,在MEC系统目前的分布式DRL架构上引入联邦学习架构,使得卸载策略计算具备高度智能化、鲁棒性、数据安全等特性。在移动边缘计算场景中,使用该发明训练得到的智能体可以实时感知移动设备和边缘服务器的计算资源和通信资源状况,实现对这些资源的统一调度,MEC系统在调度决策的基础上可以处理移动设备的计算卸载请求。本发明提供的方法和平台具有如下有益效果:
考虑了在现有的分布式DRL架构下引入联邦学习策略,在指导MEC系统进行智能化的计算卸载的同时,提升模型的鲁棒性并保护数据隐私,在提升QoE的同时获得最大的系统收益;
本发明采用了FedAvg算法,是一种横向联邦学习算法,其本质思想是对数据持有方采用局部随机梯度下降的方法进行本地模型优化,在中心服务器方进行聚合操作。此算法采用增加客户端计算(通过每轮增加更多的本地SGD更新来增加每个移动设备的计算)、限制通信频率(在联邦学习体系中,有时终端节点只会在有WiFi时参与联邦学习训练,或者有时网络状况不佳,在这些情况下,更多的计算可以在本地进行,从而减少通信的次数)的方式,解决了关于移动设备和边缘节点的可用性以及不平衡和非独立同分布数据的关键问题,使得边缘人工智能的性能不容易受到不平衡数据和恶劣的通信环境的影响。同时,联邦学习算法的核心优势在于将知识分布在大量的设备上,而不必进行集中式训练,因此可以实现隐私保护;
本发明训练的分布式DDQN智能体,基于MEC系统环境状态,进行智能化的计算任务卸载,从而使MEC系统收益达到最大化。因此,这使得在MEC系统中,大量的移动设备和边缘节点可以充当感知机,获取丰富的个性化数据,用于更新全局的DRL模型。从移动设备的角度看,这些数据可以包括无线信道的质量、剩余电池寿命和能量消耗、即时计算能力等等。对于边缘节点,这些数据包括计算负载、存储占用、无线通信链路数量、等待处理的任务队列状态等。因此,使用基于这些原始数据的模糊逻辑代替集中式的数字逻辑使得MEC系统更具认知性。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的处理流程图;
图2是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的一种优选实施例的过程示意图;
图3是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的分布式DRL的训练场景示意图;
图4是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的移动设备、边缘服务器、云服务器中智能体的协同训练过程示意图;
图5是集中式DRL架构图;
图6是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的测试实施例中基于联邦学习的DDQN模型与其他计算卸载模型在不同任务到达概率情况下,移动设备的平均效用的结果对比图;
图7是本发明提供一种基于联邦强化学习的移动边缘计算卸载方法的测试实施例中基于联邦学习的DDQN模型与集中式的DDQN模型在训练过程中的移动设备的平均效用的结果对比图;
图8是本发明提供的一种基于联邦强化学习的移动边缘计算卸载方法的测试实施例中基于联邦学习的DRL架构和集中式的DRL架构在计算卸载场景下的总的无线传输数据量的结果对比图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明提供一种基于联邦强化学习的移动边缘计算卸载方法和平台,用以解决现有技术中的如下技术问题:
现有技术中均未考虑一下因素:1)应该以什么形式收集训练数据(无论是以分布式方式还是集中式方式);2)应该在哪里放置和训练强化学习智能体(无论是在移动设备、边缘节点还是远程云基础设施中);3)应该如何进行强化学习智能体的更新过程和协作。考虑到DRL需要的密集计算能力,在MEC系统上训练分布式的DRL智能体是可行的。但是大多数的分布式DRL架构无法处理不平衡和非独立同分布的数据,且边缘人工智能的性能容易受到恶劣通信环境的影响,也无法应对隐私问题。
针对当前MEC系统中分布式DRL架构存在的问题,本发明引入联邦学习(FederalLearning,FL)来训练MEC系统中的DRL智能体,既能解决上述提到的相关问题,也可使MEC系统中的DRL智能体可以更好地进行智能资源管理的部署,最大化整个MEC系统的整体收益。
参见图1,本发明提供一种基于联邦强化学习的移动边缘计算卸载方法,包括如下步骤:
获取用于认知计算所需的观测数据;
基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
通过移动边缘计算卸载策略,处理移动设备的边缘计算卸载请求,进行通信资源和计算资源的调度。
如图2所示,本发明提供了一种基于认知计算的移动边缘计算卸载方法,用于整个MEC系统中。此处,本发明使用基于横向联邦学习的分布式DDQN(Double DQN)模型作为认知计算的方法,建立了一个智能化的移动边缘计算和通信的系统,无线通信协议栈之间的认知过程在图1中已给出。
整个边缘计算卸载流程包括以下步骤:
第1步:数据收集。基于联邦学习的DRL智能体感知和收集MEC系统中认知计算所必需的观测数据,包括但不限于通信和计算资源的使用、无线环境和移动设备计算卸载请求的强度。
考虑这样一个MEC系统,该系统中包含一组移动设备和一组基站(属于边缘节点)假设1个基站有M个无线信道,用集合表示为在进行计算卸载时,在调度决策中,移动设备可以选择经由无线信道将它们的密集计算任务卸载到边缘节点,或者在调度决策c=0时本地计算这些任务。为了模拟无线信道的变化,从有限状态空间中独立选取移动设备和基站之间的信道增益状态,由此将信道状态转移建模为有限状态离散时间马尔可夫链。在这个无线场景中,可达到的数据速率可以通过Shannon-Hartley定理来评估。
在此MEC系统中,计算任务由(u,v)表示,其中,u、v分别表示计算输入数据的大小(以bit为单位)和完成计算任务所需的CPU周期总数。所有这些计算任务都存储在任务队列中,并根据先进先出原则在移动设备或边缘节点上顺序执行。当计算任务在本地执行时,其计算执行时间为tL=v/fL,其中fL为移动设备的计算能力(即每秒的CPU周期数),由移动设备决定分配的资源量rL决定;当计算任务被调度到边缘节点上执行时,被卸载任务的执行时间tE=v/fE,其中fE是边缘节点分配给移动设备的计算能力。
在此阶段,智能体需要从MEC系统环境中收集的数据信息包括:网络状态该网络状态包括计算任务(u,v)的排队状态移动设备的资源消耗量边缘节点的资源消耗量移动设备占用的无线信道的情况以及所有无线信道的拥塞程度。网络状态是通过对移动设备物理层的协议栈进行跨层感知获得的。
第2步:认知计算。使用基于联邦学习的分布式DDQN算法进行智能体的训练,实现对计算资源和通信资源的统一调度。对于此分布式的DRL架构,如图3和4所示,在此架构中,各移动设备均拥有一部分模型所需的训练数据di,每一个边缘侧都有一个边缘节点提供边缘计算服务。在每一个边缘侧,边缘节点和各移动设备通过联邦学习的方式进行模型训练和参数更新;同时,各个边缘节点之间通过移动网络运营商(MNO)核心节点进行通信,并通过联邦学习的方式进行模型训练和参数更新,最终在远程云计算基础设施上得到完整的训练模型,移动设备可以进行模型的下载和本地部署。在此架构中,考虑到一些移动设备可能有更多的计算任务要处理,一些可能经历更频繁的网络状态变化,导致各移动设备的训练数据量不同的情况,即数据不平衡问题,因此,使用横向联邦学习算法FedAvg来处理。同时,在联邦学习中,通过将模型更新与FedAvg算法结合起来,可以有效地处理非独立同分布的数据。下面给出某一边缘侧移动设备与边缘节点间的联邦模型训练过程:
(1)初始化模型参数θ0;
上述训练过程中的模型参数θ指的是DDQN智能体的模型训练参数。为了在MEC系统上有效地执行计算卸载,移动设备将根据控制动作at=(c,e)来做出联合通信和计算资源分配的决定,其中表示移动设备选择在本地执行任务(c=0)或通过哪个无线信道来卸载任务,e表示为无线通信和本地计算分配的资源量。在智能体的训练过程中,本发明将移动设备的任务执行体验(Quality-of-Experience,QoE)作为模型的优化目标。为了评估移动设备的QoE,本发明定义了一个即时效用函数其与计算任务的执行延迟te(包括无线传输延迟和计算延迟)、计算任务的排队延迟tp、移动设备Ni的资源消耗量以及计算任务丢弃或失败的次数C成反比,作为DDQN智能体的奖励函数。它是一个与网络的状态S有关的函数,表达式为:
智能体的控制可以概括为移动设备根据固定的控制策略来执行控制动作at,以决定无线信道的选择和计算资源的分配。模型的最终目标,则是得到有效的控制策略π,增加移动设备对于长期性能优化的效用(Utility)。智能体的训练过程在图2中已给出,下面给出算法流程:
算法输入:迭代轮数T、状态特征维度n、动作集合A、步长α、衰减因子γ、探索概率ε、当前的Q网络Q(即MainNet)、目标Q网络Q′(即TargetNet)、批量梯度下降的样本数m、Q′网络参数更新频率C。
算法输出:Q网络的参数
算法流程如下:
1.随机初始化所有的状态和动作对应的Q值;随机初始化Q网络的所有参数θ;随机初始化Q′网络的参数θ′=θ。清空经验回放(Local Replay Memory)的集合D。
2.对i从1到T,进行迭代。
a)初始化S为当前状态序列的第一个状态,得到与网络状态S特征向量φ(S);
b)在Q网络中使用φ(S)作为输入,得到Q网络的所有动作对应的Q值输出,用ε-greedy策略在当前Q值输出中选择对应的动作集合A;
c)在网络状态S执行当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、以及奖励R;所述奖励R通过计算即时效用函数式获得,式中,te表示计算任务的执行延迟,tp表示计算任务的排队延迟,RNi表示移动设备Ni的资源消耗量,C表示计算任务丢弃或失败的次数;式中,φ用于代表智能体状态空间中某一状态的特征向量;
d)基于当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end},并存入经验回放集合D中;
e)令S=S′;
f)从经验回放集合D中采样,获得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,进一步从其中得到m个样本,再通过式
计算当前的目标Q值yj;其中,Rj是指采样得到的第j个网络状态对应的智能体的奖励,用于计算目标Q值yj,该目标Q值yj可以用于计算均方差损失函数;
h)如果i%C=1,则更新Q′网络参数θ′=θ;
i)如果S′是终止状态,则当前轮迭代终止,进行联邦参数更新,输出移动边缘计算卸载策略否则,返回执行上述第二个子步骤;式中,πc(S)用于决定移动设备的选择其中,c=0表示移动设备选择在本地执行计算卸载任务,c∈M表示移动设备选择通过某个无线信道Mi来将计算卸载任务分配到边缘节点,πe(S)表示通过πc(S)选择分配的计算卸载任务c∈M或选择本地计算卸载任务c=0所需的资源量。
经过上述DDQN智能体的训练以及横向联邦学习算法FedAvg的处理,最终可以得到智能的基于隐私保护的移动边缘计算卸载模型,此模型可以根据网络状态自动生成高效的控制策略π并执行控制动作at,实现对边缘侧通信资源和计算资源的智能调度和分配,提升移动设备的效用。
第二方面,本发明提供一种执行上述方法的基于联邦强化学习的移动边缘计算卸载平台,包括DDQN智能体、MEC系统,MEC系统包括多个边缘设备和边缘节点;
DDQN智能体用于从MEC系统中获取用于认知计算所需的观测数据;
MEC系统基于观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
MEC系统基于还基于移动边缘计算卸载策略,执行边缘计算卸载任务,进行通信资源和计算资源的调度。
本发明还提供一个实施例,用于示例性地显示本发明的方法的使用过程及其与现有技术的计算卸载方法的效果对比。
MEC系统如图3和4所示。该系统中包含一组移动设备和一组基站(属于边缘节点)假设1个基站有M个无线信道,用集合表示为在进行计算卸载时,在调度决策中,移动设备可以选择经由无线信道将它们的密集计算任务卸载到边缘节点,或者在调度决策c=0时本地计算这些任务。为了模拟无线信道的变化,从有限状态空间中独立选取移动设备和基站之间的信道增益状态,由此将信道状态转移建模为有限状态离散时间马尔可夫链。计算任务由(u,v)表示,其中,u、v分别表示计算输入数据的大小(以bit为单位)和完成计算任务所需的CPU周期总数。所有这些计算任务都存储在任务队列中,并根据先进先出原则在移动设备或边缘节点上顺序执行。
在此架构中,各移动设备均拥有一部分模型所需的训练数据di,每一个边缘侧都有一个边缘节点提供边缘计算服务。在每一个边缘侧,边缘节点和各移动设备通过联邦学习的方式进行模型训练和参数更新;同时,各个边缘节点之间通过移动网络运营商(MNO)核心节点进行通信,并通过联邦学习的方式进行模型训练和参数更新,最终在远程云计算基础设施上得到完整的训练模型,移动设备可以进行模型的下载和本地部署。
在移动设备、边缘节点、远程云基础设施上,均需要执行DDQN智能体的训练和参数更新过程。为了在MEC系统上有效地执行计算卸载,移动设备将根据控制动作at=(c,e)来做出联合通信和计算资源分配的决定,其中表示移动设备选择在本地执行任务(c=0)或通过哪个无线信道来卸载任务,e表示为无线通信和本地计算分配的资源量。智能体的状态空间由网络状态决定,该网络状态包括计算任务(u,v)的排队状态移动设备的资源消耗量边缘节点的资源消耗量移动设备占用的无线信道的情况以及所有无线信道的拥塞程度。在智能体的训练过程中,本发明将移动设备的任务执行体验(Quality-of-Experience,QoE)作为模型的优化目标。为了评估用户的QoE,本发明定义了一个即时效用函数其与计算任务的执行延迟(包括无线传输延迟和计算延迟)、计算任务的排队延迟、移动设备的资源消耗量以及计算任务丢弃或失败的次数成反比,作为DDQN智能体的奖励函数。智能体的控制可以概括为移动设备根据固定的控制策略来执行控制动作at,以决定无线信道的选择和计算资源的分配。模型的最终目标,则是得到有效的控制策略π,增加移动设备对于长期性能优化的效用(Utility)。
综上所述,本申请的基于联邦强化学习的计算卸载算法流程如下(此处详细阐述了边缘节点与移动设备之间的模型训练过程,边缘节点与云服务器间的模型训练过程类似):
在某种程度上,本发明提出的边缘人工智能是一个面向未来的概念。设想在不久的将来,大多数移动设备,尤其是智能手机,不仅具有推断的能力,还具有训练深度学习模型的能力。众所周知,即使是最先进的edge芯片,如Edge TPU(由谷歌推出,由TensorFlowLite提供支持),也只能支持深度学习中的初级训练过程。因此,应在考虑实际部署的情况下讨论此发明的实用性。
部署挑战:计算卸载模型需要长时间的训练以及根据所需的准确度进行推断。显然,在随机设置神经网络权值时,不能直接使用DRL模型。否则,MEC系统将会瘫痪,因为DRL模型只能在初步探索时做出随机决策。尽管如此,如果深度学习模型不是从零开始训练的,这可以解决,比如通过迁移学习来促进MEC系统的训练。基本思想是模拟无线环境和移动设备的请求。正如在模拟测试床中评估和调整天线设置一样,模拟环境用于训练离线DRL智能体。然后,可以将建立的DRL模型分发给移动设备。
为了评估此发明在MEC系统上的计算卸载能力,可以进行仿真模拟实验。假设边缘节点的整个带宽ω=5MHZ被分成10个无线信道,并且在联邦学习框架中以10个移动设备作为客户端来单独训练它们的DDQN智能体,并且在边缘节点之间进行合并。移动设备和边缘节点之间的信道增益状态来自公共有限集合,该集合将无线信道的质量量化为6个级别。在整个仿真过程中,每个移动设备上生成的任务数遵循Bernoulli分布。
对于移动设备、边缘节点和云服务器的DRL设置,选择DDQN算法,并使用tanh作为激活函数和Adam优化器。使用包括200个神经元的单层全连接前馈神经网络作为目标(TargetNet)和eval(MainNet)Q网络。DDQN中的其他参数值设置如下:经验恢复记忆容量M=5000,minibatch大小B=200,折扣因子γ=0.9,探索概率ε=0.001,学习速率η=0.005,更换目标Q网络的周期为φ=250。此外,为了用联邦学习建立DRL代理的baseline,本发明构建了一个集中式DRL(Centralized DDQN)智能体(如图3所示)用于比较,并且假设它能够接收用于强化学习的所有数据。
为了验证基于联邦强化学习的移动边缘计算卸载模型的性能,将本发明申请的方法(联邦DDQN)与Centralized DDQN以及另外三种计算卸载策略,即移动执行(MobileExecution)、边缘节点执行(Edge Node Execution)和贪心执行(Greedy Execution)进行比较,结果如图4所示。此处,移动执行表示移动设备在本地处理所有计算任务,边缘节点执行表示所有计算任务从移动设备卸载到边缘节点,贪心执行表示以最大化即时效用为目标来决定在本地执行计算任务还是将计算任务卸载到边缘节点。从图4中,可以观察到,联邦DDQN(DDQN with FL)的计算卸载模型的移动设备的平均效用接近Centralized DDQN,并且优于其他三种计算卸载模型,这从一个侧面反映出本发明申请方法的可行性。
为了研究本发明申请方法在训练过程中的移动设备的平均效用情况,假设无线通信能力不是障碍,即Centralized DDQN的大量训练数据和联邦DDQN的轻量模型更新都可以上传到目标位置。如图6至8所示,在训练开始时,Centralized DDQN的性能优于联邦DDQN。然而,一旦联邦学习的模型合并被多次处理,联邦DDQN的性能变得接近Centralized DDQN的性能。当然,如果客户端希望使用联邦DDQN来获得期望的性能,则必须花费时间来等待模型合并,即利用其他客户端的训练结果。尽管如此,这个实验假设了一个理想的无线环境。在实际中,海量的训练数据实际上是无法无延迟上传的。因此,在MEC系统中执行联邦DDQN更实用,至少目前无线资源也是主要考虑因素。
为了研究本发明申请方法在移动边缘计算卸载场景下的通信资源消耗情况,在模拟实验中,收集了联邦DDQN智能体从开始训练到训练终止期间的总的无线传输数据,其统计结果如图6至8所示。对于本发明申请的方法,由于使用了联邦学习架构,因此每个客户端只需要上传其模型的更新;而对于Centralized DDQN,客户端必须经由无线信道上传整个训练数据,从而消耗更多的通信资源。
综上所述,本发明提供一种基于联邦强化学习的移动边缘计算卸载方法和平台,在MEC系统目前的分布式DRL架构上引入联邦学习架构,使得卸载策略计算具备高度智能化、鲁棒性、数据安全等特性。在移动边缘计算场景中,使用该发明训练得到的智能体可以实时感知移动设备和边缘服务器的计算资源和通信资源状况,实现对这些资源的统一调度,MEC系统在调度决策的基础上可以处理移动设备的计算卸载请求。本发明提供的方法和平台具有如下有益效果:
考虑了在现有的分布式DRL架构下引入联邦学习策略,在指导MEC系统进行智能化的计算卸载的同时,提升模型的鲁棒性并保护数据隐私,在提升QoE的同时获得最大的系统收益;
本发明采用了FedAvg算法,是一种横向联邦学习算法,其本质思想是对数据持有方采用局部随机梯度下降的方法进行本地模型优化,在中心服务器方进行聚合操作。此算法采用增加客户端计算(通过每轮增加更多的本地SGD更新来增加每个移动设备的计算)、限制通信频率(在联邦学习体系中,有时终端节点只会在有WiFi时参与联邦学习训练,或者有时网络状况不佳,在这些情况下,更多的计算可以在本地进行,从而减少通信的次数)的方式,解决了关于移动设备和边缘节点的可用性以及不平衡和非独立同分布数据的关键问题,使得边缘人工智能的性能不容易受到不平衡数据和恶劣的通信环境的影响。同时,联邦学习算法的核心优势在于将知识分布在大量的设备上,而不必进行集中式训练,因此可以实现隐私保护;
本发明训练的分布式DDQN智能体,基于MEC系统环境状态,进行智能化的计算任务卸载,从而使MEC系统收益达到最大化。因此,这使得在MEC系统中,大量的移动设备和边缘节点可以充当感知机,获取丰富的个性化数据,用于更新全局的DRL模型。从移动设备的角度看,这些数据可以包括无线信道的质量、剩余电池寿命和能量消耗、即时计算能力等等。对于边缘节点,这些数据包括计算负载、存储占用、无线通信链路数量、等待处理的任务队列状态等。因此,使用基于这些原始数据的模糊逻辑代替集中式的数字逻辑使得MEC系统更具认知性。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于联邦强化学习的移动边缘计算卸载方法,其特征在于,包括:
获取用于认知计算所需的观测数据;
基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
通过所述移动边缘计算卸载策略,处理移动设备的边缘计算卸载请求,进行通信资源和计算资源的调度。
2.根据权利要求1所述的方法,其特征在于,所述观测数据包括:网络状态迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q′,批量梯度下降的样本数m,Q′网络参数的更新频率C,学习率η;
所述的基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型包括:
初始化模型参数θ0;
通过如下过程对t从1到T进行迭代;
初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);
在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε-greedy策略在当前Q值输出中选择对应的动作集合A;
在网络状态S执行当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)以及奖励R;所述奖励R通过计算即时效用函数式获得,式中,te表示计算任务的执行延迟,tp表示计算任务的排队延迟,表示移动设备Ni的资源消耗量,C表示计算任务丢弃或失败的次数;
基于当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end},并存入经验回放集合D中;
令S=S′;
从经验回放集合D中采样获得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,从{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m中得到m个样本,通过式
计算当前目标Q值yj;
如果i%C=1,则更新Q′网络参数θ′=θ;
4.一种基于联邦强化学习的移动边缘计算卸载平台,其特征在于,包括DDQN智能体、MEC系统,所述MEC系统包括多个边缘设备和边缘节点;
所述DDQN智能体用于从MEC系统中获取用于认知计算所需的观测数据;
所述MEC系统基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型,并通过移动边缘计算卸载模型计算获得移动边缘计算卸载策略;
所述MEC系统基于还基于所述移动边缘计算卸载策略,执行边缘计算卸载任务,进行通信资源和计算资源的调度。
6.根据权利要求5所述的平台,其特征在于,所述DDQN智能体从MEC系统中获取用于认知计算所需的观测数据包括:网络状态迭代轮数T,状态特征维度n,动作集合A,步长α,衰减因子γ,探索概率ε,当前的Q网络Q,目标Q网络Q′,批量梯度下降的样本数m,Q′网络参数的更新频率C,学习率η;
所述MEC系统基于所述观测数据,利用基于联邦学习的分布式DDQN算法进行认知计算,训练DRL智能体,获得移动边缘计算卸载模型的过程包括:
初始化模型参数θ0;
通过如下过程对t从1到T进行迭代;
初始化网络状态S为当前状态序列的第一个状态,获得与网络状态S对应的特征向量φ(S);
在网络Q中使用φ(S)作为输入,得到网络Q的所有动作对应的Q值输出,利用ε-greedy策略在当前Q值输出中选择对应的动作集合A;
在网络状态S执行当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、以及奖励;所述奖励R通过计算即时效用函数式获得,式中,te表示计算任务的执行延迟,tp表示计算任务的排队延迟,表示移动设备Ni的资源消耗量,C表示计算任务丢弃或失败的次数;
基于当前动作集合A,获得新的网络状态S′、与所述新的网络状态S′对应的特征向量φ(S′)、奖励R,加入是否终止状态is_end获得五元组{φ(S),A,R,φ(S′),is_end},并存入经验回放集合D中;
令S=S′;
从经验回放集合D中采样获得{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m,从{φ(Sj),Aj,Rj,φ(Sj′),is_endj},j=1,...,m中得到m个样本,通过式
计算当前目标Q值yj;
如果i%C=1,则更新Q′网络参数θ′=θ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619600.7A CN115756873B (zh) | 2022-12-15 | 2022-12-15 | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211619600.7A CN115756873B (zh) | 2022-12-15 | 2022-12-15 | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115756873A true CN115756873A (zh) | 2023-03-07 |
CN115756873B CN115756873B (zh) | 2023-10-13 |
Family
ID=85346255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211619600.7A Active CN115756873B (zh) | 2022-12-15 | 2022-12-15 | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115756873B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116489712A (zh) * | 2023-04-25 | 2023-07-25 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
CN114143891A (zh) * | 2021-11-30 | 2022-03-04 | 南京工业大学 | 移动边缘网络中基于fdql的多维资源协同优化方法 |
CN114268923A (zh) * | 2021-12-15 | 2022-04-01 | 南京邮电大学 | 车联网任务卸载调度方法和系统 |
CN114567895A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 一种mec服务器集群的智能协同策略的实现方法 |
CN115065678A (zh) * | 2022-04-07 | 2022-09-16 | 东南大学 | 一种基于深度强化学习的多智能设备任务卸载决策方法 |
-
2022
- 2022-12-15 CN CN202211619600.7A patent/CN115756873B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
CN114143891A (zh) * | 2021-11-30 | 2022-03-04 | 南京工业大学 | 移动边缘网络中基于fdql的多维资源协同优化方法 |
CN114268923A (zh) * | 2021-12-15 | 2022-04-01 | 南京邮电大学 | 车联网任务卸载调度方法和系统 |
CN114567895A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 一种mec服务器集群的智能协同策略的实现方法 |
CN115065678A (zh) * | 2022-04-07 | 2022-09-16 | 东南大学 | 一种基于深度强化学习的多智能设备任务卸载决策方法 |
Non-Patent Citations (1)
Title |
---|
吕洁娜;张家波;张祖凡;甘臣权;: "移动边缘计算卸载策略综述", 小型微型计算机系统, no. 09 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116489712A (zh) * | 2023-04-25 | 2023-07-25 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
CN116489712B (zh) * | 2023-04-25 | 2024-02-09 | 北京交通大学 | 一种基于深度强化学习的移动边缘计算任务卸载方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115756873B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算系统的卸载决策方法 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
Yao et al. | Caching in dynamic IoT networks by deep reinforcement learning | |
CN114143346B (zh) | 一种车联网任务卸载和服务缓存的联合优化方法及系统 | |
Lee et al. | Online optimization for UAV-assisted distributed fog computing in smart factories of industry 4.0 | |
CN113543156A (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
Yang et al. | Deep reinforcement learning based wireless network optimization: A comparative study | |
CN114172558B (zh) | 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法 | |
CN113573363B (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN116489708B (zh) | 面向元宇宙的云边端协同的移动边缘计算任务卸载方法 | |
CN113626104A (zh) | 边云架构下基于深度强化学习的多目标优化卸载策略 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN115756873A (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN114168328B (zh) | 一种基于联邦学习的移动边缘节点计算任务调度方法及其系统 | |
CN115529604A (zh) | 一种基于服务器协作的联合资源分配与多元任务卸载方法 | |
CN116828534B (zh) | 基于强化学习的密集网络大规模终端接入与资源分配方法 | |
CN116866353A (zh) | 通算融合的分布式资源协同调度方法、装置、设备及介质 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN116843016A (zh) | 一种移动边缘计算网络下基于强化学习的联邦学习方法、系统及介质 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |