CN112732359A - 多用户混合计算卸载方法、装置、电子设备及存储介质 - Google Patents

多用户混合计算卸载方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112732359A
CN112732359A CN202110049920.2A CN202110049920A CN112732359A CN 112732359 A CN112732359 A CN 112732359A CN 202110049920 A CN202110049920 A CN 202110049920A CN 112732359 A CN112732359 A CN 112732359A
Authority
CN
China
Prior art keywords
lstm
mmop
task
user
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110049920.2A
Other languages
English (en)
Inventor
蔡君
付鸿添
刘燕
罗建桢
柯诗维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110049920.2A priority Critical patent/CN112732359A/zh
Publication of CN112732359A publication Critical patent/CN112732359A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开一种多用户混合计算卸载方法、装置、电子设备及存储介质,其中,方法包括:基于基础信息构建系统任务执行时延优化问题模型;搭建LSTM‑MMOP网络模型;定义系统状态空间、动作空间以及奖励函数;将系统状态经预处理后,输入到LSTM‑MMOP,根据探索‑利用方法得到UEs动作;系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss值来进行循环神经网络参数的更新;直到奖励值趋于稳定,则停止LSTM‑MMOP训练并保存LSTM‑MMOP参数。通过将双向LSTM算法与深度强化学习模型结合,作出全局最优卸载决策,最大化终端收益并提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗。

Description

多用户混合计算卸载方法、装置、电子设备及存储介质
技术领域
本发明涉及无线通信技术领域,特别涉及一种多用户混合计算卸载方法、 装置、电子设备及存储介质。
背景技术
近年来,以虚拟现实、增强现实为代表的计算密集型应用程序的广泛使 用,对有限计算能力与电池容量的终端提出了极大的挑战。为解决智能终端 处理计算密集型任务而面临的资源受限问题,移动边缘计算(MEC,mobile edge computing)技术作为一种新的范式得到了快速发展。MEC作为5G的一 项核心技术,通过在靠近终端侧部署计算,存储等资源的方式,能快速响应 用户的服务请求,降低核心网的计算负载压力。
然而,由于终端数量的爆发式增长,越来越多的用户选择边缘计算卸载 (D2E,Device-to-Edge Server)模型以降低自身能耗与任务处理时延,这极 大增加了MEC服务器的计算负载压力;也有用户采用邻近资源充足的终端协助 处理计算任务的方式,即终端到终端(D2D,Device-to-Device)计算卸载的方 式。传统的二元卸载模式如边缘服务器、邻近空闲终端方式,使得单点资源 无法满足多用户同时产生计算资源的需求。面对用户数量快速增加,计算任 务日益复杂的情况下,如何联合边缘服务器、邻近空闲终端保障任务终端服 务质量成为当前移动边缘计算卸载领域的关键问题。
发明内容
本发明的主要目的是提出一种多用户混合计算卸载方法,旨在解决现有 的单点资源无法满足多用户同时产生计算资源的需求的技术问题。
为实现上述目的,一方面,本发明提出了一种多用户混合计算卸载方法, 包括:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息 包括多用户系统终端计算任务参数、MEC服务器计算资源、系统带宽资源;
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
S3、定义系统状态空间、动作空间以及奖励函数;
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到 UEs动作;
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss 值来进行循环神经网络参数的更新;
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训 练并保存LSTM-MMOP参数。
优选地,所述步骤S1进一步包括:
S11、建立优化时隙系统中任务终端执行任务的总时延的约束条件;
S12、根据所述约束条件,优化时隙系统中任务终端执行任务的总时延。
优选地,所述步骤S2包括:
S21、搭建基于Dueling DQN的强化学习模型;
S22、将Dueling DQN网络与双向BiLSTM网络进行结合。
优选地,所述LSTM-MMOP模型包括:
用于提取UE之间状态的两层双向LSTM网络。
优选地,所述步骤S3包括:
在时隙t内,在间隙t内,系统的状态空间S(t)包括终端状态、任务状 态,记为S(t)={δ(t),ζ(t)},用一个N×(N+1)维的矩阵A(t)表示时隙t 内系统的动作空间。
优选地,所述约束条件包括:
任务终端选择一个节点处理该时隙产生的全部计算任务;
任务执行时延要满足任务的最大可容忍时延约束;
终端的计算卸载过程消耗的能量小于或等于终端的预期的能耗成本;
分配给任务终端的MEC服务器计算资源总和小于或等于MEC服务器总的 计算资源;
分配给任务终端的频谱资源总和小于或等于系统所能提供的总的频谱资 源。
优选地,所述步骤S4包括:
S41、系统状态进行预处理后,得到终端序列特征x(t);
S42、将终端序列特征x(t)输入到LSTM-MMOP中,以递减的∈概率随机选 择全局UEs的动作,或者选择潜在奖励值最大的动作;
S43、系统环境根据策略做出的动作,奖励函数构建均方误差损失函数, 根据均方误差损失函数反向更新网络模型参数;
S44、依次重复步骤S41~S43,直到奖励值趋于稳定,即可停止LSTM-MMOP 训练并保存LSTM-MMOP参数。
相应地,本发明还提供了一种多用户混合计算卸载装置,包括:
时延优化问题模型构建模块,用于基于基础信息构建系统任务执行时延 优化问题模型,所述基础信息包括多用户系统终端计算任务参数、MEC服务器 计算资源、系统带宽资源;
LSTM-MMOP搭建模块,用于搭建基于循环神经网络的深度强化学习网络模 型LSTM-MMOP;
系统参数定义模块,用于定义系统状态空间、动作空间以及奖励函数;
系统状态预处理模块,用于将系统状态进行预处理后,输入到LSTM-MMOP 中,根据∈概率值得到UEs动作;
奖惩计算模块,用于系统环境根据预先设置的奖励函数对动作进行奖惩 计算,并根据loss值来进行循环神经网络参数的更新;
LSTM-MMOP训练结束判断模块,用于判断奖励值是否趋于稳定,如果奖励 值趋于稳定则停止LSTM-MMOP训练并保存LSTM-MMOP参数。
相应地,本发明还提供了一种电子设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时, 实现上述多用户混合计算卸载方法的步骤。
相应地,本发明还提供了一种存储介质,所述存储介质存储有计算机程 序,所述计算机程序被处理器执行时实现上述多用户混合计算卸载方法的步 骤。
本发明多用户混合计算卸载方法,通过将双向LSTM算法与深度强化学 习模型结合,能够提取终端之间的特征信息,结合全局计算任务的资源需求 与全局可用资源情况作出全局最优卸载决策,最大化终端收益并提升用户服 务质量,解决了单点资源无法满足多用户同时产生计算资源需求的问题,能 够提高系统整体计算能力,有效降低系统任务执行时延与能耗,提升用户服 务质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的 附图。
图1为本发明多用户混合计算卸载方法一实施例的方法流程图;
图2为图1中采用的多用户混合计算卸载网络模型的场景示意图;
图3为图1中采用的结合BiLSTM网络与Dueling DQN网络的LSTM-MMOP网络 模型结构示意图;
图4为图1中采用的基于循环神经网络的多用户混合计算卸载方法的流程 图;
图5为图1中采用的基于循环神经网络的多用户混合计算卸载方法的模型 训练收敛示意图;
图6为本发明多用户混合计算卸载装置一实施例结构示意图;
图7为根据本发明实施例提供的电子设备的实体结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、 前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下 各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则 该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第 一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重 要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二” 的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的 技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础, 当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合 不存在,也不在本发明要求的保护范围之内。
本发明提出一种多用户混合计算卸载方法、装置、电子设备及存储介质, 用于无线通信等,本发明以一个单小区多用户场景来解释本发明。
实施例一
图1为本发明多用户混合计算卸载方法一实施例的方法流程图。如图1所 示,一种多用户混合计算卸载方法,至少包括步骤:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息 包括多用户系统终端计算任务参数、MEC服务器计算资源、系统带宽资源;
图2为图1中采用的多用户混合计算卸载网络模型的场景示意图。如图2所 示,在移动边缘计算网络中,考虑一个单小区多用户场景,具体包括:一个 拥有丰富计算资源的MEC增强型基站eNB(eNodeB)在信号覆盖范围内能够给 N(N≥2)个用户设备UEs(userequipments)提供服务。每个用户设备UE都能 与基站建立蜂窝连接,还可以通过D2D通信链路s连接邻近的一个终端。当用 户设备UE产生时延敏感型任务时,可以选择在本地计算、利用蜂窝网络进行 D2E(Device-to-Edge)计算卸载或者利用D2D(Device-to-Device)通信链路进行D2D计算卸载。使用一个三元组Gn{vn,Cn,τn}表示TD生成的计算任务, 其中,n表示任务序号,vn(in bits)表示计算任务n的数据量大小,cn(in cycles)表示计算1bit数据所需的CPU周期数,τn(in ms)表示计算任务n的最大 可容忍时延。由于计算结果的数据量通常要比输入数据小的多,所以可以忽 略计算结果回传的延迟与能耗。
用户设备UE本地执行的时间
Figure BDA0002898694150000051
主要取决于任务执行所需的CPU周期 数和本地可用的计算资源,如以式子(1)所示:
Figure BDA0002898694150000061
其中,fn为用户可用的计算资源。
终端的任务计算能耗
Figure BDA0002898694150000062
取决于计算任务的执行时间,如以式子(2)所 示:
Figure BDA0002898694150000063
其中,
Figure BDA0002898694150000064
为用户执行浮点计算的能耗消耗功率。为了不失一般性,用户 设备UE上行数据传输速率,如以式子(3)所示:
Figure BDA0002898694150000065
其中B为每个用户分配的子信道带宽,N0为每个用户分配的噪声功率,
Figure BDA0002898694150000066
表示终端的数据传输功率,|hn|2表示信道功率增益,
Figure BDA0002898694150000067
表示路径损耗因子。 当用户将计算任务卸载到MEC服务器上执行时,时延成本
Figure BDA0002898694150000068
如以式子(4) 所示:
Figure BDA0002898694150000069
其中,
Figure RE-GDA00029930604500000610
表示蜂窝通信数据率,
Figure RE-GDA00029930604500000611
表示边缘计算服务器分配给任务n 的计算资源。
能耗成本
Figure BDA00028986941500000612
如以式子(5)所示:
Figure BDA00028986941500000613
当用户将计算任务卸载到邻近空间终端m上执行时,时延成本
Figure BDA00028986941500000614
如 以式子(6)所示:
Figure BDA00028986941500000615
其中,
Figure BDA00028986941500000616
表示D2D通信数据率,fm表示服务终端分配给任务终端的计 算资源。
当用户将计算任务卸载到邻近空间终端m上执行时,能耗成本
Figure BDA00028986941500000617
如以 式子(7)所示:
Figure BDA00028986941500000618
其中,
Figure BDA00028986941500000619
表示终端m的浮点计算功率。
通常情况下,MEC服务器的计算能力比普通用户更强,相较于D2D卸载, D2E卸载任务处理时间更短,然而D2D卸载具备距离优势,能够有效减小回 程链路流量,降低任务数据传输时延。用户在产生计算任务时,系统基于计 算任务需求权衡传输时延与计算时延的关系作出最优的卸载决策与MEC资源 分配决策,目的是最小化整个时隙系统所有任务终端的任务处理的总体时延。 系统内所有产生计算任务的UE在满足最大延迟约束和基本系统约束的情况下 进行卸载决策,在时隙系统中所有任务终端任务处理时间成本最小化问题,如以式子(8)、(9)、(10)、(11)、(12)所示:
Figure BDA0002898694150000071
s.t.C1:|αn(t)|=1 (9)
C2:Dnn(t))≤τn (10)
Figure BDA0002898694150000072
Figure BDA0002898694150000073
其中,Dn表示终端n的任务执行时延,D(T)表示时隙系统内所有任务终 端的任务执行总时延,αn(t)是时隙t内终端n的卸载决策向量,
Figure BDA0002898694150000074
是时 隙t内MEC计算资源分配向量.优化问题的目的是最小化整个系统时隙T内 所有任务终端的任务处理总时延。其中,约束条件C1表示终端n的卸载决 策向量的模恒等于1,确保用户只能选择一个节点处理该时隙产生的全部计算 任务;约束条件C2保证每个任务终端不管选择何种计算方式,任务执行时延 都要满足任务的最大可容忍时延约束;约束条件C3为终端n的能量消耗约束, 确保终端n的计算卸载过程不能超过终端n的预期的能耗成本En;约束条件 C4为边缘服务器的资源分配约束,确保在边缘服务器计算能力Fmec范围内将 计算资源分配给选择D2E计算卸载的任务终端。
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
图3为图1中采用的结合BiLSTM网络与Dueling DQN网络的LSTM-MMOP网络 模型结构示意图。本发明提出的网络模型如图3所示,具体来说包括两层双向 LSTM网络,两层深度神经网络与竞争网络结构。
BiLSTM在此模型中的作用主要是进行用户之间的序列特征提取,LSTM 是一种改良的RNN模型,其数学表达式如以式子(13)、(14)、(15)、(16)、 (17)所示:
it=σ(Wxixt+Whiht-1+Wcict-1+bi) (13)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (14)
ct=fxCt-1+it tanh(Wxcxt+Whcht-1+bc) (15)
ot=σ(Wxoxt+Whoht_1+Wcoct+bo) (16)
ht=ottanh(ct) (17)
其中,σ是sigmod函数,b分别为网络对应的权重与偏置参数,i,f,o 分别是输入门、输出门、遗忘门,ct称作记忆元(cell),W为对应输出向量、 隐藏和三个门的权重矩阵,b为偏置向量,h表示隐藏层输出。所有门的输出 向量都和隐藏层h具有相同的维度。门是lstm的主要部件,它将输入向量按 元素乘以其系数。本发明使用双向长短时记忆网络(BiLSTM)对输入的特征 序列进行处理与预测,BiLSTM能够同时利用到特征序列两侧的图像信息,叠 加多层Bilstm网络能够带来更好的学习效果LSTM网络通过引入输入门、遗 忘门、输出门三种门来控制序列数据之间特征的交互,解决了RNN网络无法 处理长期依赖以及梯度爆炸问题。
考虑到任务终端可选的卸载节点都是确定的一个节点,属于离散动作空 间场景。此外,我们发现在某些状态下,特别是时隙内只有一个终端产生任 务的状态下,动作的选择对值函数的大小影响不大,所以本文选择基于值的 Dueling DQN模型进行研究。如图3所示,本发明将BiLSTM提取的终端特 征经深度神经网络处理后分流到两个支路中,上支路代表当前状态的值函数 V(S;θ,ω),下支路表示依赖状态的动作优势函数
Figure BDA0002898694150000081
其中θ表示 BiLSTM与两个全连接层的参数ω表示上支路状态价值网络参数,
Figure BDA0002898694150000082
表示下支路 动作优势网络参数。将状态价值函数与动作优势函数进行线性组合得到Q估 计值
Figure BDA0002898694150000083
如以式子(18)所示:
Figure BDA0002898694150000084
其中,
Figure BDA0002898694150000085
表示优势函数的平均值。
Dueling DQN用两个网络结构一致的深度Q网络来减少目标Q值和要更新 Q网络参数之间的依赖关系以加速模型的收敛。一个是Q函数价值评估网络, 用于动作选择;另外一个目标Q网络,用于计算目标Q值yj,如式子(19)所 示:
Figure BDA0002898694150000086
其中,Rj代表决策对应的奖励值,γ代表奖励的衰减因子。
S3、定义系统状态空间、动作空间以及奖励函数;
在时隙t内,在间隙t内,系统的状态空间S(t)由终端状态与任务状态 组成,记为S(t)={δ(t),ζ(t)}。用一个N×(N+1)维的矩阵A(t)表示时隙t 内系统的动作空间,且A(t)=[α1(t),α2(t),...,αn(t)],αn(t)表示终端n在时隙 t内的决策向量。本发明将最小化系统长期时延问题转换为最大化深度强化学 习模型长期奖励R的问题,奖励函数如以式子(20)所示:
Figure BDA0002898694150000091
Figure BDA0002898694150000092
分别表示时隙t内任务终端n产生计算任务的本地执行时延、 以及决策后实际处理时延。任务终端在执行完决策后,如果决策满足系统约 束条件,即能够获得一个奖励值,否则系统会得到一个极大的惩罚值,表示 当前决策是不合理的。
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到 UEs动作;
系统状态进行预处理得到终端序列特征x(t),将终端序列特征x(t)送入 LSTM-MMOP网络中,以递减的∈概率随机选择选择全局UEs的动作,否则选择 潜在奖励值最大的动作。
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss 值来进行循环神经网络参数的更新;
模型训练过程中,我们取Q目标网络的yj与Q估计网络的
Figure BDA0002898694150000093
的 均方误差Loss作为模型参数反向更新的误差值,如以式子(21)所示:
Figure BDA0002898694150000094
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训 练并保存LSTM-MMOP参数。
整个模型训练过程如图4所示,图4为图1中采用的基于循环神经网络的多 用户混合计算卸载方法的流程图。具体表现为:系统状态进行预处理得到终 端序列特征x(t),将特征送入LSTM-MMOP网络中,以递减的∈概率随机选择选择 全局UEs的动作,否则选择潜在奖励值最大的动作。系统环境根据策略做出的 动作,根据上述定义的奖励函数计算所做动作决策的奖惩值。并将当前<状态、 决策、奖励、下一状态>存储在经验池中,我们设置经验值容量为500,当经 验超过500时,随机选择32个经验数据根据上述提到的损失函数进行误差计算, 根据loss结果反向更新网络模型参数。重复上述过程,训练超过100次后,模 型开始收敛,如图5所示,图5为图1中采用的基于循环神经网络的多用户混合 计算卸载方法的模型训练收敛示意图。
实施本实施例,通过将双向LSTM算法与深度强化学习模型结合,结合 D2E计算卸载与D2D计算卸载模式,能够提取终端之间的特征信息;决策中心 根据时隙内用户计算资源需求以及全局可用资源情况作出最优任务卸载决策, 实现系统长期任务执行时延的最小化;能够在时变的环境中根据离线训练数 据实现卸载策略的自我更新,达到在线决策的目的;可以最大化终端收益并 提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求 的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗;能有 效降低多用户接入边缘服务器而带来的计算负载压力;可解决多用户系统维 度过大的问题。
实施例二
图6为本发明多用户混合计算卸载装置一实施例结构示意图。一种多用 户混合计算卸载装置,至少包括:
时延优化问题模型构建模块10,用于基于基础信息构建系统任务执行时 延优化问题模型,所述基础信息包括多用户系统终端计算任务参数、MEG服务 器计算资源、系统带宽资源;
LSTM-MMOP搭建模块20,用于搭建基于循环神经网络的深度强化学习网 络模型LSTM-MMOP;
系统参数定义模块30,用于定义系统状态空间、动作空间以及奖励函数;
系统状态预处理模块,用于将系统状态进行预处理后,输入到LSTM-MMOP 中,根据∈概率值得到UEs动作;
奖惩计算模块40,用于系统环境根据预先设置的奖励函数对动作进行奖 惩计算,并根据loss值来进行循环神经网络参数的更新;
LSTM-MMOP训练结束判断模块50,用于判断奖励值是否趋于稳定,如果 奖励值趋于稳定则停止LSTM-MMOP训练并保存LSTM-MMOP参数。
本实施例多用户混合计算卸载装置上执行实施例一的多用户混合计算卸 载方法,执行过程请参见实施例一,此处不再赘述。
实施本实施例,通过将双向LSTM算法与深度强化学习模型结合,结合 D2E计算卸载与D2D计算卸载模式,能够提取终端之间的特征信息;决策中心 根据时隙内用户计算资源需求以及全局可用资源情况作出最优任务卸载决策, 实现系统长期任务执行时延的最小化;能够在时变的环境中根据离线训练数 据实现卸载策略的自我更新,达到在线决策的目的;可以最大化终端收益并 提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求 的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗;能有 效降低多用户接入边缘服务器而带来的计算负载压力;可解决多用户系统维 度过大的问题。
实施例三
图7为根据本发明实施例提供的电子设备的实体结构示意图。
基于上述实施例的内容,如图7所示,该电子设备可以包括:处理器 (processor)301、存储器(memory)302和总线303;其中,处理器301和存 储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器 302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例 所提供的多用户混合计算卸载方法,例如包括步骤:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息 包括多用户系统终端计算任务参数、MEG服务器计算资源、系统带宽资源;
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
S3、定义系统状态空间、动作空间以及奖励函数;
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到 UEs动作;
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss 值来进行循环神经网络参数的更新;
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训 练并保存LSTM-MMOP参数。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实 现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质 中。基于这样的理解,本发明实施例的技术方案实质上或者说对现有技术做 出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计 算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设 备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例 基于人脸识别生成备忘录的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘,只读存储器(ROM,Read-Only Memory)、随机存储存储器(RAM, RandomAccess Memory)、磁碟或者光盘等各种存储程序代码的介质。
实施本实施例,通过将双向LSTM算法与深度强化学习模型结合,结合 D2E计算卸载与D2D计算卸载模式,能够提取终端之间的特征信息;决策中心 根据时隙内用户计算资源需求以及全局可用资源情况作出最优任务卸载决策, 实现系统长期任务执行时延的最小化;能够在时变的环境中根据离线训练数 据实现卸载策略的自我更新,达到在线决策的目的;可以最大化终端收益并 提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求 的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗;能有 效降低多用户接入边缘服务器而带来的计算负载压力;可解决多用户系统维 度过大的问题。
实施例四
本发明另一实施例公开一种计算机程序产品,计算机程序产品包括存储 在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令, 当程序指令被计算机执行时,计算机能够执行上述各实施例所提供的多用户 混合计算卸载方法,例如包括步骤:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息 包括多用户系统终端计算任务参数、MEG服务器计算资源、系统带宽资源;
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
S3、定义系统状态空间、动作空间以及奖励函数;
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到 UEs动作;
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss 值来进行循环神经网络参数的更新;
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训 练并保存LSTM-MMOP参数。
实施本实施例,通过将双向LSTM算法与深度强化学习模型结合,结合 D2E计算卸载与D2D计算卸载模式,能够提取终端之间的特征信息;决策中心 根据时隙内用户计算资源需求以及全局可用资源情况作出最优任务卸载决策, 实现系统长期任务执行时延的最小化;能够在时变的环境中根据离线训练数 据实现卸载策略的自我更新,达到在线决策的目的;可以最大化终端收益并 提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求 的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗;能有 效降低多用户接入边缘服务器而带来的计算负载压力;可解决多用户系统维 度过大的问题。
实施例五
本发明另一实施例提供-种非暂态计算机可读存储介质,非暂态计算机可 读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所 提供的多用户混合计算卸载方法,例如包括步骤:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息 包括多用户系统终端计算任务参数、MEG服务器计算资源、系统带宽资源;
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
S3、定义系统状态空间、动作空间以及奖励函数;
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到 UEs动作;
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss 值来进行循环神经网络参数的更新;
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训 练并保存LSTM-MMOP参数。
实施本实施例,通过将双向LSTM算法与深度强化学习模型结合,结合 D2E计算卸载与D2D计算卸载模式,能够提取终端之间的特征信息;决策中心 根据时隙内用户计算资源需求以及全局可用资源情况作出最优任务卸载决策, 实现系统长期任务执行时延的最小化;能够在时变的环境中根据离线训练数 据实现卸载策略的自我更新,达到在线决策的目的;可以最大化终端收益并 提升用户服务质量,解决了单点资源无法满足多用户同时产生计算资源需求 的问题,提高了系统整体计算能力,降低了系统任务执行时延与能耗;能有 效降低多用户接入边缘服务器而带来的计算负载压力;可解决多用户系统维 度过大的问题。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围, 凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构 变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范 围内。

Claims (10)

1.一种多用户混合计算卸载方法,其特征在于,包括:
S1、基于基础信息构建系统任务执行时延优化问题模型,所述基础信息包括多用户系统终端计算任务参数、MEC服务器计算资源、系统带宽资源;
S2、搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
S3、定义系统状态空间、动作空间以及奖励函数;
S4、将系统状态进行预处理后,输入到LSTM-MMOP中,根据探索-利用方法得到UEs动作;
S5、系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss值来进行循环神经网络参数的更新;
S6、依次重复步骤S4、S5,直到奖励值趋于稳定,则停止LSTM-MMOP训练并保存LSTM-MMOP参数。
2.如权利要求1所述的多用户混合计算卸载方法,其特征在于,所述步骤S1进一步包括:
S11、建立优化时隙系统中任务终端执行任务的总时延的约束条件;
S12、根据所述约束条件,优化时隙系统中任务终端执行任务的总时延。
3.如权利要求1所述的多用户混合计算卸载方法,其特征在于,所述步骤S2包括:
S21、搭建基于Dueling DQN的强化学习模型;
S22、将Dueling DQN网络与双向BiLSTM网络进行结合得到LSTM-MMOP。
4.如权利要求1所述的多用户混合计算卸载方法,其特征在于,所述LSTM-MMOP模型包括:
用于提取UE之间状态的两层双向LSTM网络。
5.如权利要求1所述的多用户混合计算卸载方法,其特征在于,所述步骤S3包括:
在时隙t内,在间隙t内,系统的状态空间S(t)包括终端状态、任务状态,记为S(t)={δ(t),ζ(t)},用一个N×(N+1)维的矩阵A(t)表示时隙t内系统的动作空间。
6.如权利要求2所述的多用户混合计算卸载方法,其特征在于,所述约束条件包括:
任务终端选择一个节点处理该时隙产生的全部计算任务;
任务执行时延要满足任务的最大可容忍时延约束;
终端的计算卸载过程消耗的能量小于或等于终端的预期的能耗成本;
分配给任务终端的MEC服务器计算资源总和小于或等于MEC服务器总的计算资源;
分配给任务终端的频谱资源总和小于或等于系统所能提供的总的频谱资源。
7.如权利要求1至6任意一项所述的多用户混合计算卸载方法,其特征在于,所述步骤S4包括:
S41、系统状态进行预处理后,得到终端序列特征x(t);
S42、将终端序列特征x(t)输入到LSTM-MMOP中,通过探索-利用的方式,以递减的∈概率随机选择全局UEs的动作,或者选择潜在奖励值最大的动作,即Q估计网络中最大Q值对应动作;
S43、系统环境根据策略做出的动作,奖励函数构建均方误差损失函数,根据均方误差损失函数反向更新网络模型参数;
S44、依次重复步骤S41~S43,直到奖励值趋于稳定,即可停止LSTM-MMOP训练并保存LSTM-MMOP参数。
8.一种多用户混合计算卸载装置,其特征在于,包括:
时延优化问题模型构建模块,用于基于基础信息构建系统任务执行时延优化问题模型,所述基础信息包括多用户系统终端计算任务参数、MEC服务器计算资源、系统带宽资源;
LSTM-MMOP搭建模块,用于搭建基于循环神经网络的深度强化学习网络模型LSTM-MMOP;
系统参数定义模块,用于定义系统状态空间、动作空间以及奖励函数;
系统状态预处理模块,用于将系统状态进行预处理后,输入到LSTM-MMOP中,根据∈概率值得到UEs动作;
奖惩计算模块,用于系统环境根据预先设置的奖励函数对动作进行奖惩计算,并根据loss值来进行循环神经网络参数的更新;
LSTM-MMOP训练结束判断模块,用于判断奖励值是否趋于稳定,如果奖励值趋于稳定则停止LSTM-MMOP训练并保存LSTM-MMOP参数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1至7任一项所述多用户混合计算卸载方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多用户混合计算卸载方法的步骤。
CN202110049920.2A 2021-01-14 2021-01-14 多用户混合计算卸载方法、装置、电子设备及存储介质 Pending CN112732359A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049920.2A CN112732359A (zh) 2021-01-14 2021-01-14 多用户混合计算卸载方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049920.2A CN112732359A (zh) 2021-01-14 2021-01-14 多用户混合计算卸载方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112732359A true CN112732359A (zh) 2021-04-30

Family

ID=75593134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110049920.2A Pending CN112732359A (zh) 2021-01-14 2021-01-14 多用户混合计算卸载方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112732359A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113840334A (zh) * 2021-08-20 2021-12-24 济南浪潮数据技术有限公司 一种网络资源协同方法和装置
CN114090108A (zh) * 2021-09-16 2022-02-25 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN114745396A (zh) * 2022-04-12 2022-07-12 广东技术师范大学 一种基于多智能体的端边云3c资源联合优化方法
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115277420A (zh) * 2022-09-27 2022-11-01 南京信息工程大学 一种虚拟现实网络资源管理方法
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037231B1 (en) * 2017-06-07 2018-07-31 Hong Kong Applied Science and Technology Research Institute Company Limited Method and system for jointly determining computational offloading and content prefetching in a cellular communication system
CN110418356A (zh) * 2019-06-18 2019-11-05 深圳大学 一种计算任务卸载方法、装置及计算机可读存储介质
EP3605329A1 (en) * 2018-07-31 2020-02-05 Commissariat à l'énergie atomique et aux énergies alternatives Connected cache empowered edge cloud computing offloading
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN111132074A (zh) * 2019-12-26 2020-05-08 华南理工大学 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111818130A (zh) * 2020-06-17 2020-10-23 华北电力大学(保定) 基于强化学习缓存与计算的联合优化

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037231B1 (en) * 2017-06-07 2018-07-31 Hong Kong Applied Science and Technology Research Institute Company Limited Method and system for jointly determining computational offloading and content prefetching in a cellular communication system
EP3605329A1 (en) * 2018-07-31 2020-02-05 Commissariat à l'énergie atomique et aux énergies alternatives Connected cache empowered edge cloud computing offloading
CN110418356A (zh) * 2019-06-18 2019-11-05 深圳大学 一种计算任务卸载方法、装置及计算机可读存储介质
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN111132074A (zh) * 2019-12-26 2020-05-08 华南理工大学 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN111405569A (zh) * 2020-03-19 2020-07-10 三峡大学 基于深度强化学习的计算卸载和资源分配方法及装置
CN111818130A (zh) * 2020-06-17 2020-10-23 华北电力大学(保定) 基于强化学习缓存与计算的联合优化

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MING TANG 等: "Deep Reinforcement Learning for Task Offloading in Mobile Edge Computing Systems", 《IEEE TRANSACTIONS ON MOBILE COMPUTING》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113840334A (zh) * 2021-08-20 2021-12-24 济南浪潮数据技术有限公司 一种网络资源协同方法和装置
CN114090108A (zh) * 2021-09-16 2022-02-25 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN114090108B (zh) * 2021-09-16 2024-02-06 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN114745396A (zh) * 2022-04-12 2022-07-12 广东技术师范大学 一种基于多智能体的端边云3c资源联合优化方法
CN114745396B (zh) * 2022-04-12 2024-03-08 广东技术师范大学 一种基于多智能体的端边云3c资源联合优化方法
CN115167478A (zh) * 2022-08-23 2022-10-11 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115167478B (zh) * 2022-08-23 2024-04-26 山东大学 基于深度强化学习的机器人无地图路径规划方法及系统
CN115277420A (zh) * 2022-09-27 2022-11-01 南京信息工程大学 一种虚拟现实网络资源管理方法
CN115277420B (zh) * 2022-09-27 2023-02-03 南京信息工程大学 一种虚拟现实网络资源管理方法
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Similar Documents

Publication Publication Date Title
CN112732359A (zh) 多用户混合计算卸载方法、装置、电子设备及存储介质
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
Chen et al. Efficiency and fairness oriented dynamic task offloading in internet of vehicles
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN109803292B (zh) 一种基于强化学习的多次级用户移动边缘计算的方法
Ali et al. Smart computational offloading for mobile edge computing in next-generation Internet of Things networks
CN113993218A (zh) 一种mec架构下基于多智能体drl的协作卸载和资源分配方法
Xiao et al. Reinforcement learning based energy-efficient collaborative inference for mobile edge computing
CN116541106B (zh) 计算任务卸载方法、计算设备及存储介质
CN112672382B (zh) 混合协作计算卸载方法、装置、电子设备及存储介质
CN113672295A (zh) 基于遗传算法的移动云环境下协同计算卸载方法
CN113590279A (zh) 一种面向多核边缘计算服务器的任务调度和资源分配方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN113709883A (zh) 一种多无人机辅助工业场景下的动态资源分配方法及装置
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
CN112995343A (zh) 一种具有性能与需求匹配能力的边缘节点计算卸载方法
Jiang et al. Research on new edge computing network architecture and task offloading strategy for Internet of Things
Lu et al. A drl-based decentralized computation offloading method: An example of an intelligent manufacturing scenario
CN114219074A (zh) 一种按需动态调整的无线通信网络资源分配算法
Zhang et al. On-device intelligence for 5g ran: Knowledge transfer and federated learning enabled ue-centric traffic steering
Wang et al. Joint offloading decision and resource allocation in vehicular edge computing networks
CN114745386B (zh) 一种多用户边缘智能场景下的神经网络分割及卸载方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115665869A (zh) 基于边缘计算和有向无环图的多用户协作平台及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430

RJ01 Rejection of invention patent application after publication